CN103823874A - 特殊文字搜索方法以及系统 - Google Patents

特殊文字搜索方法以及系统 Download PDF

Info

Publication number
CN103823874A
CN103823874A CN201410069092.9A CN201410069092A CN103823874A CN 103823874 A CN103823874 A CN 103823874A CN 201410069092 A CN201410069092 A CN 201410069092A CN 103823874 A CN103823874 A CN 103823874A
Authority
CN
China
Prior art keywords
special character
normal text
search
identification information
data cached
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410069092.9A
Other languages
English (en)
Inventor
马宇翔
李亦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING 6ROOMS TECHNOLOGY Co Ltd
Original Assignee
BEIJING 6ROOMS TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING 6ROOMS TECHNOLOGY Co Ltd filed Critical BEIJING 6ROOMS TECHNOLOGY Co Ltd
Priority to CN201410069092.9A priority Critical patent/CN103823874A/zh
Publication of CN103823874A publication Critical patent/CN103823874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明涉及一种特殊文字搜索方法,其中该方法包括以下步骤:步骤A、接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;步骤B、查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;步骤C、结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。本发明提供的方法可有效丰富用户的搜索结果数据,提高用户体验。

Description

特殊文字搜索方法以及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种特殊文字搜索方法及系统。
背景技术
随着互联网的普及,年轻网民为求彰显个性,开始大量使用同音字、音近字、特殊符号来表音的文字,这种文字与日常生活中使用的文字相比有明显的不同并且文法也相当奇异,所以也叫做火星文,意指地球人看不懂的文字。火星文被大量应用在年轻网民的昵称以及博客中,若用户需要搜索该火星文昵称或者博客,只能通过火星文关键字进行搜索才能搜索到与之匹配的昵称或者博客。然而,由于火星文并不是规范的文字,没有统一的编排,每个文字可以有多种组成方式,火星文可以使用同音字、近音字、形近字或者拆字组合来代替正常的汉字,表达自己的思想。如:用拆字组合“走召弓虽”来表示“超强”,用“亻尔亻门者阝讠井氵又讠吾”来表示“你们都讲汉语”;再比如用近音字“什庅湜焱暒妏”来表示“什么是火星文”等等。因此,目前在使用正常文字的索引信息搜索数据时,并无法提供与之相应的火星文数据,即使使用火星文索引信息也可能出现搜索偏差较大的情况,导致返回给用户的搜索结果不完善。
发明内容
有鉴于此,本发明提供了一种特殊文字搜索方法以及系统来解决上述问题。
本发明提供了一种特殊文字搜索方法,其中包括:
步骤A、接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;
步骤B、查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;所述特殊文字为火星文字、菊花文以及繁体文字中一种或多种;
步骤C、结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。
进一步地,所述步骤A与步骤B之间还包括:
判断所述索引标识信息是否需要进行特殊文字搜索;
若是,则在预设的正常文字与特殊文字映射关系表项中查找与所述索引标识信息相对应的特殊文字索引信息,并转至步骤C;
否则根据正常文字缓存数据集生成结果数据集。
进一步地,每隔预设时间,更新所述正常文字与特殊文字映射关系表项。
进一步地,所述步骤C具体包括:
对所述正常文字缓存数据集以及特殊文字缓存数据集进行合并以及排重处理,生成结果数据集。
进一步地,所述步骤A进一步包括,
根据索引标识信息在正常文字库内查找与所述索引标识信息关联的正常文字缓存数据集;
所述步骤B进一步包括,根据特殊文字索引信息在预设的特殊文字库内查找与所述特殊文字索引信息关联的特殊文字缓存数据集,其中,每隔预设时间,更新所述正常文字库与所述特殊文字库。
本发明还提供一种特殊文字搜索的系统,其中包括:
正常文字查找单元,用于接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;
特殊文字查找单元,用于查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;
结果数据生成单元,用于结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。
进一步地,所述系统还包括搜索判断单元,
在正常文字查找单元根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集后,判断所述索引标识信息是否需要进行特殊文字搜索;
若是,则在预设的正常文字与特殊文字映射关系表项中查找与所述索引标识信息相对应的特殊文字索引信息,并转至结果数据生成单元处理;
否则根据正常文字缓存数据集生成结果数据集。
进一步地,每隔预设时间,更新所述正常文字与特殊文字映射关系表项。
进一步地,所述结果数据生成单元具体用于:
对所述正常文字缓存数据集以及特殊文字缓存数据集进行合并以及排重处理,生成结果数据集。
进一步地,所述正常文字查找单元进一步用于,
根据索引标识信息在正常文字库内查找与所述索引标识信息关联的正常文字缓存数据集;
所述特殊文字查找单元进一步用于,根据特殊文字索引信息在预设的特殊文字库内查找与所述特殊文字索引信息关联的特殊文字缓存数据集,其中,每隔预设时间,更新所述正常文字库与所述特殊文字库。
由此可见,本发明提供的特殊文字搜索方法以及系统通过在接收到索引标识信息后,根据索引标识信息分别查找与其关联的正常文字缓存数据集以及特殊文字缓存数据集,最终结合正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集反馈给用户,可有效丰富用户的搜索结果数据,提高用户体验。
附图说明
图1是本发明实施例中特殊文字搜索系统的逻辑结构示意图;
图2是本发明实施例中特殊文字搜索方法的工作流程图。
具体实施方式
在日常生活中,火星文被大量应用于年轻网民的昵称以及博客中,若用户需要搜索某火星文昵称或者博客,只能通过火星文关键字进行搜索才能搜索到与之匹配的昵称或者博客。然而,用户在进行搜索时多会使用正常文字进行搜索,且由于火星文字的不规范性,即使使用火星文索引信息进行搜索也不易准确输入与搜索目标一致的索引信息,相应地就无法提供与之对应的火星文数据或者出现搜索结果偏差较大的情况,导致返回给用户的搜索结果不完善。
由此,本发明提供了一种特殊文字搜索方法,通过在接收到索引标识信息后,根据索引标识信息查找与其关联的正常文字缓存数据集,接着再查找与索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集,最终结合正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。本发明中所述的特殊文字可以为火星文、菊花文或者繁体中文等网络文字,以下以特殊文字为火星文为例对本发明做进一步地阐述。
请参考图1,本发明提供了一种特殊文字搜索系统,该系统的基本硬件环境包括CPU、内存、非易失性存储器以及其他硬件。所述特殊文字搜索系统可以理解为CPU读取非易失性存储器中对应的计算机程序在内存中运行所形成的,从本质上说其是一个逻辑系统。在本实施方式中,该系统在逻辑层面上包括:正常文字查找单元、特殊文字查找单元以及结果数据生成单元,请参考图2,该系统在运行过程中执行如下处理流程:
步骤201,正常文字查找单元接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;
步骤202,特殊文字查找单元查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;
步骤203,结果数据生成单元结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。
本发明实施例中,在接收到索引标识信息后,首先根据接收到的索引标识信息在正常文字库内查找与其关联的正常文字缓存数据,并将查找到的正常文字缓存数据进行优先级排序,且将重复的缓存数据排除掉后生成有序重组的正常文字缓存数据集。
接着,根据索引标识信息在正常文字与特殊文字映射关系表项中查找与所述索引标识信息对应的火星文索引信息,并使用火星文索引信息在特殊文字库中查找与其关联的火星文字缓存数据,同时将查找到的火星文字缓存数据进行优先级排序,且将重复的缓存数据排除掉后生成有序重组的火星文缓存数据集。
正常文字 特殊文字1 特殊文字2
表1
表1为正常文字与特殊文字映射关系表项,其表征了正常文字与火星文的映射关系,该表项仅为进一步理解本发明而举例说明。由于火星文并不是规范的文字,没有统一的编排,每个文字可以有多种组成方式,因此每一个正常文字可能会对应多个火星文字。
示例性地,若根据索引标识信息“我”在正常文字与特殊文字映射关系表项中查找与“我”对应的火星文索引信息,那么查找到的火星文索引信息则可以是“莪”以及“涐”。则在特殊文字库中要分别查找“莪”以及“涐”的火星文缓存数据,并在查找到火星文缓存数据后对其进行优先级排序,且将重复的缓存数据排除掉后生成有序重组的生成火星文缓存数据集。
在生成正常文字缓存数据集以及火星文缓存数据集后,结合所述正常文字缓存数据集以及火星文字缓存数据集再次将重复的缓存数据排除掉,且进行优先级排序,在进行优先级排序时,可以将正常文字缓存数据集作为优先数据排列在火星文字缓存数据集之前生成结果数据集反馈给用户,以使得用户在进行搜索时,可获取更丰富的数据资源。
在本发明优选地实施方式中,可根据用户使用产品的定义来判断是否需要进行火星文搜索,以减少不必要的资源消耗。例如进行昵称以及博客的搜索为需要进行火星文搜索的产品,进行歌曲搜索为不需要进行火星文搜索的产品,那么若在进行歌曲搜索时,搜索“张学友”则不会再进行火星文的匹配搜索。因此本发明实施例中,在接收到索引标识信息后,判断所述索引标识信息是否需要进行火星文搜索,若是,则在预设的正常文字与特殊文字映射关系表项中查找与所述索引标识信息相对应的火星文索引信息,且在查找的与其关联的火星文缓存数据后,将其结合所述正常文字缓存数据集生成有序重组的结果数据集反馈给用户。若否,则直接将根据索引标识信息搜索到的正常文字缓存数据集进行合并、排重后生成结果数据集反馈给用户。
本发明实施例中所述的正常文字与特殊文字映射关系表项、正常文字库以及特殊文字库均为每隔预设时间进行更新,以保证其增长性。所述特殊文字库可以根据正常文字库的更新而更新,然而在更新特殊文字库时,可以将正常文字库内更新的数据经由正常文字与特殊文字映射关系表项进行映射后得到与其对应的特殊文字更新数据,并将特殊文字更新数据进行合并以及排除掉重复的缓存数据后储存与特殊文字库内。
本发明提供的特殊文字搜索方法在接收到索引标识信息后,根据索引标识信息查找与其关联的正常文字缓存数据集,随后再查找与索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集,最终结合正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集,能有效丰富用户的搜索结果数据,提高搜索命中率,同时本发明方法将搜索结果进行合并以及排重后,反馈给用户有序的数据,可极大提高用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种特殊文字搜索方法,其特征在于,包括:
步骤A、接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;
步骤B、查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;所述特殊文字为火星文字、菊花文以及繁体文字中一种或多种;
步骤C、结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。
2.如权利要求1所述的方法,其特征在于,所述步骤A与步骤B之间还包括:
判断所述索引标识信息是否需要进行特殊文字搜索;
若是,则在预设的正常文字与特殊文字映射关系表项中查找与所述索引标识信息相对应的特殊文字索引信息,并转至步骤C;
否则根据正常文字缓存数据集生成结果数据集。
3.如权利要求2所述的方法,其特征在于,每隔预设时间,更新所述正常文字与特殊文字映射关系表项。
4.如权利要求1所述的方法,其特征在于,所述步骤C具体包括:
对所述正常文字缓存数据集以及特殊文字缓存数据集进行合并以及排重处理,生成结果数据集。
5.如权利要求1所述的方法,其特征在于,所述步骤A进一步包括,
根据索引标识信息在正常文字库内查找与所述索引标识信息关联的正常文字缓存数据集;
所述步骤B进一步包括,根据特殊文字索引信息在预设的特殊文字库内查找与所述特殊文字索引信息关联的特殊文字缓存数据集,其中,每隔预设时间,更新所述正常文字库与所述特殊文字库。
6.一种特殊文字搜索的系统,其特征在于,包括:
正常文字查找单元,用于接收索引标识信息,根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集;
特殊文字查找单元,用于查找与所述索引标识信息对应的特殊文字索引信息,并根据特殊文字索引信息查找与所述特殊文字索引信息关联的特殊文字缓存数据集;
结果数据生成单元,用于结合所述正常文字缓存数据集以及特殊文字缓存数据集生成结果数据集。
7.如权利要求6所述的系统,其特征在于,所述系统还包括搜索判断单元,
在正常文字查找单元根据索引标识信息查找与所述索引标识信息关联的正常文字缓存数据集后,判断所述索引标识信息是否需要进行特殊文字搜索;
若是,则在预设的正常文字与特殊文字映射关系表项中查找与所述索引标识信息相对应的特殊文字索引信息,并转至结果数据生成单元处理;
否则根据正常文字缓存数据集生成结果数据集。
8.如权利要求7所述的系统,其特征在于,每隔预设时间,更新所述正常文字与特殊文字映射关系表项。
9.如权利要求8所述的系统,其特征在于,所述结果数据生成单元具体用于:
对所述正常文字缓存数据集以及特殊文字缓存数据集进行合并以及排重处理,生成结果数据集。
10.如权利要求6所述的系统,其特征在于,所述正常文字查找单元进一步用于,
根据索引标识信息在正常文字库内查找与所述索引标识信息关联的正常文字缓存数据集;
所述特殊文字查找单元进一步用于,根据特殊文字索引信息在预设的特殊文字库内查找与所述特殊文字索引信息关联的特殊文字缓存数据集,其中,每隔预设时间,更新所述正常文字库与所述特殊文字库。
CN201410069092.9A 2014-02-27 2014-02-27 特殊文字搜索方法以及系统 Pending CN103823874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410069092.9A CN103823874A (zh) 2014-02-27 2014-02-27 特殊文字搜索方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410069092.9A CN103823874A (zh) 2014-02-27 2014-02-27 特殊文字搜索方法以及系统

Publications (1)

Publication Number Publication Date
CN103823874A true CN103823874A (zh) 2014-05-28

Family

ID=50758938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410069092.9A Pending CN103823874A (zh) 2014-02-27 2014-02-27 特殊文字搜索方法以及系统

Country Status (1)

Country Link
CN (1) CN103823874A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719440A (zh) * 2005-07-18 2006-01-11 王宏源 网络查询四字节字符的方法及系统
CN1786956A (zh) * 2005-12-09 2006-06-14 王宏源 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法
CN101122905A (zh) * 2006-08-08 2008-02-13 王宏源 一种支持四字节的典籍数据库与历史地理信息系统关联的方法
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719440A (zh) * 2005-07-18 2006-01-11 王宏源 网络查询四字节字符的方法及系统
CN1786956A (zh) * 2005-12-09 2006-06-14 王宏源 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法
CN101122905A (zh) * 2006-08-08 2008-02-13 王宏源 一种支持四字节的典籍数据库与历史地理信息系统关联的方法
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム

Similar Documents

Publication Publication Date Title
US10606938B2 (en) Correcting errors in copied text
US20130198268A1 (en) Generation of a music playlist based on text content accessed by a user
JP2020057438A (ja) 文抽出方法及びシステム
US20160314394A1 (en) Method and device for constructing event knowledge base
CN106462565A (zh) 在文档内更新文本
US20140310291A1 (en) Efficient data pattern matching
JP2017533531A (ja) フォーカスト・センチメント分類
US11061948B2 (en) Method and system for next word prediction
CN107169021A (zh) 用于预测应用功能标签的方法和设备
CN104866478A (zh) 恶意文本的检测识别方法及装置
US9626658B2 (en) System and method for generating a task list
US11176520B2 (en) Email content modification system
JP2014519102A (ja) 自動提案型のコンテンツ・アイテム要求
CN105447166A (zh) 一种基于关键字查找信息的方法及系统
US9870345B2 (en) Textual message ordering based on message content
CN103473036A (zh) 一种输入法皮肤推送方法及系统
US8538946B1 (en) Creating model or list to identify queries
US11126675B2 (en) Systems and methods for optimizing the selection and display of electronic content
CN111143513A (zh) 一种敏感词识别方法、装置及电子设备
US8880562B2 (en) Generating a supplemental description of an entity
KR101104739B1 (ko) 소프트웨어 재사용을 지원하기 위한 시맨틱 태깅 서버와 그 방법
CN103530345A (zh) 短文本特征扩展及拟合特征库构建方法、装置
CN103823874A (zh) 特殊文字搜索方法以及系统
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
CN105302614A (zh) 美化资源更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140528

RJ01 Rejection of invention patent application after publication