CN104679871A - 一种汉语文本检索方法及汉语文本检索装置 - Google Patents
一种汉语文本检索方法及汉语文本检索装置 Download PDFInfo
- Publication number
- CN104679871A CN104679871A CN201510101529.7A CN201510101529A CN104679871A CN 104679871 A CN104679871 A CN 104679871A CN 201510101529 A CN201510101529 A CN 201510101529A CN 104679871 A CN104679871 A CN 104679871A
- Authority
- CN
- China
- Prior art keywords
- character
- chinese
- equal value
- character set
- search string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例公开一种汉语文本检索方法及汉语文本检索装置。汉语文本检索方法包括:获取用户输入的搜索字符串;查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。应用本发明,可以无需用户具备汉字各种变体形式的知识,并提升检索效率。
Description
技术领域
本发明涉及计算机检索技术,尤其涉及一种汉语文本检索方法及汉语文本检索装置。
背景技术
随着通信技术的迅猛发展,各类信息呈现爆炸式的增长,在当今的信息时代中,如何快速、有效检索所需的信息成为用户以及各信息运营商关注的热点话题,也是大数据时代信息服务最基本的目标之一。
信息搜索(或信息检索)是指依据用户输入的搜索字符串,进行关键字词提取后,利用字符串检索、正则表达式检索或其它方式,从存储的信息库中查询出与提取的关键字词相匹配的信息并向用户展示的过程。其中,字符串检索是文本查找、文本编辑、文本分析中最为基本的功能,通常指字符串的简单的、精确的匹配过程,如检索“color”则仅得到所有包含“color”的字符串,但不会获得“colour”等单词的变化形式。作为一种增强的检索方式,正则表达式用于描述一系列符合某一句法规则的字符串,已经成为现代文本编辑器以及信息检索的基本功能,利用正则表达式可以描述多个符合某一模式的文本,例如“colo(u?)r”,其中字符“u”后的“?”表示前面的字符可以出现0次或1次,因此可以同时检索获得包含“color”或“colour”的字符串;再例如“she*p”,其中“*”表示前面的字符“e”可以出现0次或重复任意多次,因此,基于“she*p”进行信息检索,可以得到包含“shp”、“shep”、“sheep”、“sheeep”等的多个检索结果。字符串检索和正则表达式检索对于英文为代表的基于字母拼写的文字有良好的支持。
由于汉语语言在演进过程中,汉语文本中的汉字字形和词形具有不同的异体、简繁、通假等形式,因而,汉字具有不同的书写形态甚至编码方式。例如,汉字在中国大陆、香港和台湾地区,分别具有不同的异体、简繁以及通假字,并对应不同的编码方式,从而对汉语文本检索带来了挑战。为了检索汉语文本,目前较为成熟的汉语文本检索方法是采用统一码(Unicode)检索方式。Unicode是一种在计算机上使用的字符编码,通过为每种语言中的每一字符设定统一且唯一的二进制编码,从而可以满足跨语言、跨平台进行文本转换、处理以及检索的需求。但该基于Unicode的汉语文本检索方法,获取的检索结果往往较为有限,不能满足用户的检索需求。例如,汉语文本中的“强”,具有异体字“強”,汉语文本中的“户”,分别具有异体字以及不同字形“戶/戸”,汉语文本中的“国”,具有繁体字“國”,以及,汉语文本中的“发”,具有繁体字“髮”和“發”等。这样,如果用户输入的搜索字符串为“删节”,则只能获取与“删节”有关的检索结果,而不能获取与“刪節”、“删節”、“刪节”、“删節”等有关的检索结果,使得检索结果较为单一,不能覆盖相关联的检索信息库,使得检索效率较低;如果用户需要获取较为广泛的检索结果,需要依次输入“刪節”、“删節”、“刪节”、“删節”等字符串搜索词,或者,通过正则表达式输入“[删刪][节節]”,该两种方法都需要用户掌握输入的搜索词对应的异体字、繁体字、通假字等,对用户的要求较高,因而,在实际检索应用中,缺乏可执行性。
发明内容
有鉴于此,本发明实施例提供一种汉语文本检索方法及汉语文本检索装置,无需用户对汉字各种变体形式的知识,并提升检索效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明实施例提供一种汉语文本检索方法,包括:
获取用户输入的搜索字符串;
查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
本发明实施例提供的汉语文本检索方法,通过对用户输入的搜索字符串进行相应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字扩充,并基于扩充的搜索字符串进行检索,使得用户无需知晓汉语的多种文本形式即可进行多种文本形式的检索,从而可以更有效获取所需的检索信息,提升检索效率。
另一方面,本发明实施例提供一种汉语文本检索装置,包括:用户输入模块、等价字符集处理模块以及检索模块,其中,
关键词提取模块,用于获取用户输入的搜索字符串;
等价字符集处理模块,用于查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,繁体字、和/或,通假字集合或该集合符合用户需求的子集;
检索模块,用于依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
本发明实施例提供的汉语文本检索装置,关键词提取模块获取用户输入的搜索字符串,等价字符集处理模块对搜索字符串进行相应的异体字、和/或,繁体字、和/或,通假字扩充,检索模块基于扩充的搜索字符串进行检索,使得用户无需知晓汉语的多种文本形式即可进行多种文本形式的检索,从而可以更有效获取所需的检索信息,提升检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例汉语文本检索方法流程示意图;
图2为本发明实施例汉语文本检索装置结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例汉语文本检索方法流程示意图。参见图1,该方法包括:
步骤101,获取用户输入的搜索字符串,称为待检索文本;
步骤102,查询预先设置的映射库,所述映射库存储有各汉字映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
本步骤中,针对汉语独有的异体、简繁、通假等多种文本形式的问题,为提升汉语文本检索的效率,本发明实施例通过设置基于等价字符集进行预转换的检索方法,即对用户输入的搜索字符串进行相应的异体字、和/或,繁体字、和/或,通假字扩充,使得用户无需知晓汉语的多种文本形式即可进行多种文本形式的检索,从而可以更有效获取所需的检索信息,提升检索效率。
本发明实施例中,映射库中的等价字符集为汉字(词)可能出现的各种简繁体字(词)、和/或,异体字(词)、和/或,通假字(词)或其任意组合(集合)。例如,作为一可选实施例,汉字“飞”(关键字)具有相应的繁体字“飛”,因此,简体汉字“飞”对应的等价字符集为:{飞,飛}。也就是说,简体汉字“飞”以及繁体汉字“飛”映射的等价字符集均为:{飞,飛},这样,无论用户输入的搜索字符串是简体汉字“飞”还是繁体汉字“飛”,都可以按照搜索字符串映射的等价字符集{飞,飛}进行检索,可以有效扩展检索结果,从而提升检索效率。同样,繁体字“飛”也具有相应的简体字“飞”,繁体汉字“飛”对应的等价字符集也是{飞,飛}。再例如,对于汉语文本(字)“户”,对应的等价字符集为:{户,戶,戸}等。
实际应用中,可以依据实际检索的需要构建等价字符集,相当于各种形式汉字的符合条件的某个子集,例如,构建的等价字符集可以只包括简体字(词)与简体字(词)对应的异体字(词),而不考虑繁体字(词)以及通假字(词);也可以只包括简体字(词)与简体字(词)对应的繁体字(词),而不考虑异体字(词)以及通假字(词);还可以只包括简体字(词)与简体字(词)对应的通假字(词),而不考虑繁体字(词)以及异体字(词);还可以是上述三者的任意组合。也就是说,等价字符集包括:异体字符等价集、繁体字符等价集、通假字符等价集以及组合字符等价集,其中,组合字符等价集中包括有简体字(词)与简体字(词)对应的异体字(词)以及繁体字(词),或者,简体字(词)与简体字(词)对应的异体字(词)以及通假字(词),或者,简体字(词)与简体字(词)对应的繁体字(词)以及通假字(词),或者,简体字(词)与简体字(词)对应的异体字(词)、繁体字(词)以及通假字(词)。
本发明实施例中,作为可选实施例,对于异体字符等价集,可以参照异体字对照表规范进行构建,对于繁体字符等价集,可以参照繁简体字对照表规范进行构建,对于通假字符等价集,可以参照通假字对照表规范进行构建。
当然,实际应用中,等价字符集也可以允许用户根据方言或其它实际需要自行定制。例如,“您”和“你”,“他”和“她”在特定的检索中可视为等价字符集。这样,本发明实施例中,该方法还可以进一步包括:
在等价字符集中存储汉字对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合。
作为一可选实施例,将搜索字符串映射为由等价字符集为元素的搜索串包括:
依据每一搜索字符串中的汉字,遍历映射库中的各等价字符集,获取包含有所述每一搜索字符串中的汉字的等价字符集,得到由等价字符集为元素的搜索串。
本步骤中,如前所述,如果得到的搜索字符串中的汉字(组)为“飞机”,则对于搜索字符串中的汉字“飞机”,遍历映射库中的各等价字符集,获取包含有搜索字符串中的汉字“飞”和“机”的等价字符集,以用户考虑简繁体等价字符集的子集为例,得到“{飞,飛}{机,機}”。
步骤103,依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
本步骤中,获取的所述等价字符集的数量可以为一个或多个。
该方法进一步包括:
A21,所述映射库中还设置有等价字符集映射的等价字符集编码;
本步骤中,作为可选实施例,等价字符集编码为统一(Unicode)编码。在Unicode编码中,每一汉字对应有一唯一的Unicode编码,本发明实施例中,为了后续检索方便,进一步提升检索效率,考虑到Unicode编码中还存在大量的空白位置,以用于未来的增补或用户自定义的汉字进行字符编码,利用Unicode编码中尚未使用的字符编码对构建的字符等价集进行扩展的Unicode编码。
本发明实施例中,Unicode编码中尚未使用的字符编码对应的私有专用区包括(均以16进制表示):
专用区(Private Use Area),对应的字符编码范围为:E000-F8FF;
补充专用区-A(Supplementary Private Use Area-A),对应的字符编码范围为:FFF80-FFFFF;以及,
补充专用区-B(Supplementary Private Use Area-B),对应的字符编码范围为:10FF80-10FFFF。
作为可选实施例,可以在映射库中,设置每一等价字符集分别对应专用区、补充专用区-A或补充专用区-B中的一字符编码。例如,可以设置等价字符集{飞,飛}的等价字符集编码为专用区中的字符编码E000,采用Unicode字符的标准写法,记为:U+E000,即编号为十六进制E000的字符编码表示等价字符集{飞,飛}。
也就是说,等价字符集可编码为该字符集中的任选的某一代表性汉字编码,或者另选统一编码中专用区对应的字符编码、补充专用区-A对应的字符编码以及补充专用区-B对应的字符编码。
作为另一可选实施例,等价字符集编码也可以为:GB2312编码或GB18030编码等。较佳地,利用GB2312编码字符集或GB18030编码字符集中的空位字符对等价字符集进行编码。
作为再一可选实施例,等价字符集编码还可以直接利用等价字符集中任一汉字对应的Unicode编码、GB2312编码或GB18030编码;或者,等价字符集编码利用其它不冲突的字符编码。例如,对于汉字“飞”对应的等价字符集,该等价字符集编码为汉字“飞”的Unicode编码、GB2312编码或GB18030编码,但涵义是表征其等价字符集。
这样,所述依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果包括:
A22,将汉语文本库中的文本逐字按照映射库中该字映射的等价字符集编码进行转换,得到编码的汉语文本库;
本步骤中,对于汉语文本库中每一字,按照该字映射的等价字符集编码,对汉语文本库中每一字进行相应编码转换,得到编码的汉语文本库。
A23,从编码的汉语文本库中,查询与获取的所述等价字符集映射的等价字符集编码相匹配的编码,并将相匹配的编码对应的汉语文本作为检索结果。
本步骤中,从编码的汉语文本库中,查询与搜索字符串映射的等价字符集编码相匹配的编码。
所应说明的是,步骤A22与步骤A23可以具有先后顺序,也可以同时进行。例如,不是对汉语文本库先执行完转换预处理再检索,而是边进行转换预处理边检索,即在检索的过程中不断将搜索字符串的下一个符号进行等价字符集编码的转换和比较,这种转换也可以是隐含的,但其效果是比较待检索内容和检索目标的汉字是否在简繁体、异体、通假等方面是等价的。
较佳地,该方法还可以进一步包括:
存储编码的汉语文本库,以在后续进行检索时,直接基于该存储的编码的汉语文本库进行搜索字符串对应的编码检索。
作为另一可选实施例,该方法进一步包括:
A31,所述映射库中还设置有等价字符集映射的等价字符集编码;
A32,遍历汉语文本库,按照搜索汉字映射的等价字符集编码,对汉语文本库中包含的所述搜索汉字进行转换,得到部分编码的汉语文本库;
本步骤中,获取汉语文本库中与搜索汉字相匹配的待转换字,按照该待转换字映射的等价字符集编码对该待转换字进行编码转换,得到部分编码的汉语文本库。例如,假设搜索汉字映射的等价字符集为“飞/飛”,则对于汉语文本库中的某一汉语文本“飞机在天上飛”,进行等价字符集映射的等价字符集编码转换后,得到搜索汉字对应的等价字符集编码形式(部分编码的汉语文本)为:“\UE000机在天上\UE000”。
A33,从部分编码的汉语文本库中,查询与获取的所述等价字符集映射的等价字符集编码相匹配的编码,并将相匹配的编码对应的汉语文本作为检索结果。
本发明实施例中,可以对搜索汉字,即检索目标串(P)以及汉语文本库,即待检内容文本(Q)进行等价字符集编码预处理。即将待检内容文本(Q)中的特定汉字(字)转换为其映射的等价字符集编码。也就是说,本发明实施例中,作为一可选实施例,特定汉字可以根据用户输入的检索内容(即检索目标串)分析其中的汉字,将待检内容文本(Q)中对应于检索目标串(P)中的每个汉字,将其转换为该汉字映射的等价字符集编码。作为另一可选实施例,特定汉字也可以针对待检内容文本(Q)中的每一汉字,将待检内容文本(Q)中的每一汉字均转换为其对应的等价字符集编码。
本发明实施例中,作为可选实施例,可以将预处理后的检索目标串记为P’,待检内容文本记为Q’。
在对待检内容文本进行编码转换后,基于转换后的待检内容文本Q’,在其中检索编码转换后的检索目标串P’。其中,如果编码转换后的检索目标串P’为简单的非正则表达式的字符串,则采用简单的字符串检索;如果编码转换后的检索目标串P’为正则表达式,则采用正则表达式进行检索。
本发明实施例中,如前所述,如果搜索汉字中具有多个检索目标串P1、P2、P3等,则在对汉语文本库进行等价字符集编码预处理时,可以获取汉语文本库中与多个搜索字符串(多个检索目标串P1、P2、P3)相匹配的待转换字,按照该待转换字映射的等价字符集编码对该待转换字进行编码转换后存储;或者,对于汉语文本库中每一字,按照该字映射的等价字符集编码,对汉语文本库中每一字进行相应编码转换后存储,即对待检内容文本Q的编码转换可以仅执行一次,并将预处理后的待检内容文本Q’进行存储,以使后续的检索可以针对预处理后的待检内容文本Q’执行,从而可以进一步提升检索的效率。
由上述可见,本发明实施例的汉语文本检索方法,通过设置等价字符集,等价字符集可以灵活配置,具体可以根据简繁、异体、通假和用户自定义进行配置,首先对待检索文本进行预处理,从而可以对待检索文本的全部汉字提前完成预处理,以提升检索性能,再进行文本检索,支持字符串检索和正则字符串检索,且多次检索可以共用一次预处理的结果。具有如下又以技术效果:
(1)大幅度降低了用户检索汉语文本的困难:用户可以无需掌握繁简体、异体字和通假字的知识,只需要输入任何一种形式,即可同时检索其它类型的文本串。
(2)通过等价字符集编码预处理的方式降低了检索的复杂度。现有技术中,对于字符串检索,字符串检索的时间复杂度为O(n),假设单一检索时长为T,搜索字符串(检索目标串)包含m个汉字,如果其各种形式的组合(繁简体、异体字和通假字的任意组合,假设组合数为k)均需要检索,因此,可以估计总的检索时长为kT。其中,k随着m的增长呈指数增长(例如,2个汉字的简繁体组合就有4种,3个汉字有8种,……,如果考虑异体、通假,则组合数量更多)。而在本发明实施例的等价字符集编码预处理方法中,针对每次都进行预处理的情形,预处理可以采取查表的方法进行,如果汉语文本库(待检内容文本)长度为n,则预处理的时间复杂度也为O(n),且通常低于检索的复杂度,因此可设为aT,其中a小于或等于1。由于预处理后进行检索无需考虑各种组合形式,总的检索时间为(a+1)T。因此,本发明实施例中,只要搜索字符串中包含有1个待检汉字存在简繁、异体等情况,等价字符集编码预处理的方法就可以有效地提升检索效率。对于正则表达式检索,其检索性能依赖于具有的正则表达式内容,对于简单的正则表达式,检索的时间复杂度可以达到O(n),但要比简单的字符串检索慢。本发明实施例的等价字符集编码预处理可以降低表达式的复杂度,使其性能有相对明显的下降,因此尽管增加了预处理的环节,在通常情况下总体性能有一定提升。如果进行一次等价字符集编码预处理后即存储结果,后续检索中,在预处理结果的基础上进行检索,则上述预处理的开销可以忽略,几乎在任何情况下本发明实施例的等价字符集编码预处理方法均可以超出现有的方法。
图2为本发明实施例汉语文本检索装置结构示意图。参见图2,该装置包括:用户输入模块201、等价字符集处理模块202以及检索模块203,其中,
用户输入模块201,用于获取用户输入的搜索字符串;
等价字符集处理模块202,用于查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
本发明实施例中,对用户输入的搜索字符串进行相应的异体字、和/或,繁体字、和/或,通假字扩充,使得用户无需知晓汉语的多种文本形式即可进行多种文本形式的检索,从而可以更有效获取所需的检索信息,提升检索效率。
作为可选实施例,等价字符集处理模块202包括:查询单元、映射库存储单元以及遍历单元(图中未示出),其中,
查询单元,用于依据搜索字符串查询预先设置的映射库,
映射库存储单元,用于存储各汉字分别映射的等价字符集,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
遍历单元,用于依据每一搜索字符串中的汉字,遍历映射库中的各等价字符集,获取包含有所述每一搜索字符串中的汉字的等价字符集,得到由等价字符集为元素的搜索串。
作为可选实施例,等价字符集处理模块202还可以进一步包括:
扩展单元,用于在等价字符集中存储汉字及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集。
检索模块203,用于依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
本发明实施例中,作为可选实施例,检索模块203包括:等价字符集编码存储单元、编码单元以及检索单元(图中未示出),其中,
等价字符集编码存储单元,用于在所述映射库中设置等价字符集映射的等价字符集编码;
本发明实施例中,Unicode编码中尚未使用的字符编码对应的私有专用区包括(均以16进制表示):
专用区(Private Use Area),对应的字符编码范围为:E000-F8FF;
补充专用区-A(Supplementary Private Use Area-A),对应的字符编码范围为:FFF80-FFFFF;以及,
补充专用区-B(Supplementary Private Use Area-B),对应的字符编码范围为:10FF80-10FFFF。
作为可选实施例,可以在映射库中,设置每一等价字符集分别对应专用区、补充专用区-A或补充专用区-B中的一字符编码。
编码单元,用于将汉语文本库中的文本逐字按照映射库中该字映射的等价字符集编码进行转换,得到编码的汉语文本库;
检索单元,用于从编码的汉语文本库中,查询与获取的所述等价字符集映射的等价字符集编码相匹配的编码,并将相匹配的编码对应的汉语文本作为检索结果。
本发明实施例中,检索模块203还可以进一步包括:
编码转换存储单元,用于存储编码的汉语文本库,以在后续进行检索时,直接基于该存储的编码的汉语文本库进行搜索字符串对应的编码检索。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种汉语文本检索方法,其特征在于,该方法包括:
获取用户输入的搜索字符串;
查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合;
依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
2.根据权利要求1所述的方法,其特征在于,所述将搜索字符串映射为由等价字符集为元素的搜索串包括:
依据每一搜索字符串中的汉字,遍历映射库中的各等价字符集,获取包含有所述每一搜索字符串中的汉字的等价字符集,得到由等价字符集为元素的搜索串。
3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
所述映射库中还设置有等价字符集映射的等价字符集编码。
4.根据权利要求3所述的方法,其特征在于,所述等价字符集可编码为该字符集中的任选的某一代表性汉字编码,或者另选统一编码中专用区对应的字符编码、补充专用区-A对应的字符编码以及补充专用区-B对应的字符编码。
5.根据权利要求3所述的方法,其特征在于,所述依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果包括:
将汉语文本库中的文本逐字按照映射库中该字映射的等价字符集编码进行转换,得到编码的汉语文本库;
从编码的汉语文本库中,查询与获取的所述等价字符集映射的等价字符集编码相匹配的编码,并将相匹配的编码对应的汉语文本作为检索结果。
6.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:
存储编码的汉语文本库,以在后续进行检索时,直接基于该存储的编码的汉语文本库进行搜索字符串对应的编码检索。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法进一步包括:
在等价字符集中存储汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字的集合或该集合的子集。其子集特征在于根据用户的需求,考虑汉字及其存在的异体字字形,简繁体字形,通假字形式,或者仅考虑上述各种形式的任意多种形式的组合,最小子集为汉字本身构成的集合,最大子集为汉字及其所有形式的集合。
8.一种汉语文本检索装置,其特征在于,该装置包括:用户输入模块、等价字符集处理模块以及检索模块,其中,
用户输入模块,用于获取用户输入的搜索字符串;
等价字符集处理模块,用于查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字自身及其对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
检索模块,用于依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
9.根据权利要求8所述的装置,其特征在于,所述等价字符集处理模块包括:查询单元、映射库存储单元以及遍历单元,其中,
查询单元,用于依据搜索字符串查询预先设置的映射库,
映射库存储单元,用于存储各汉字分别映射的等价字符集,所述等价字符集为汉字对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
遍历单元,用于依据每一搜索字符串中的汉字,遍历映射库中的各等价字符集,获取包含有所述每一搜索字符串中的汉字的等价字符集,得到由等价字符集为元素的搜索串。
10.根据权利要求8所述的装置,其特征在于,所述检索模块包括:等价字符集编码存储单元、编码单元以及检索单元,其中,
等价字符集编码存储单元,用于在所述映射库中设置等价字符集映射的等价字符集编码;
编码单元,用于将汉语文本库中的文本逐字按照映射库中该字映射的等价字符集编码进行转换,得到编码的汉语文本库;
检索单元,用于从编码的汉语文本库中,查询与获取的所述等价字符集映射的等价字符集编码相匹配的编码,并将相匹配的编码对应的汉语文本作为检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510101529.7A CN104679871B (zh) | 2015-03-06 | 2015-03-06 | 一种汉语文本检索方法及汉语文本检索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510101529.7A CN104679871B (zh) | 2015-03-06 | 2015-03-06 | 一种汉语文本检索方法及汉语文本检索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679871A true CN104679871A (zh) | 2015-06-03 |
CN104679871B CN104679871B (zh) | 2018-03-30 |
Family
ID=53314913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510101529.7A Active CN104679871B (zh) | 2015-03-06 | 2015-03-06 | 一种汉语文本检索方法及汉语文本检索装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679871B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255841A (zh) * | 2016-12-28 | 2018-07-06 | 北京新唐思创教育科技有限公司 | 一种题目搜索的方法及其装置 |
CN108460155A (zh) * | 2018-03-28 | 2018-08-28 | 深信服科技股份有限公司 | 一种文件识别方法、装置、设备及存储介质 |
CN116069922A (zh) * | 2023-04-06 | 2023-05-05 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及系统 |
CN117235345A (zh) * | 2023-11-16 | 2023-12-15 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1361488A (zh) * | 2000-12-28 | 2002-07-31 | 龙卷风科技股份有限公司 | 字串转换检索方法 |
CN1786956A (zh) * | 2005-12-09 | 2006-06-14 | 王宏源 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN101814073A (zh) * | 2009-02-23 | 2010-08-25 | 未序网络科技(上海)有限公司 | 基于文字异形体信息的搜索引擎方法 |
-
2015
- 2015-03-06 CN CN201510101529.7A patent/CN104679871B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1361488A (zh) * | 2000-12-28 | 2002-07-31 | 龙卷风科技股份有限公司 | 字串转换检索方法 |
CN1786956A (zh) * | 2005-12-09 | 2006-06-14 | 王宏源 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN101814073A (zh) * | 2009-02-23 | 2010-08-25 | 未序网络科技(上海)有限公司 | 基于文字异形体信息的搜索引擎方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255841A (zh) * | 2016-12-28 | 2018-07-06 | 北京新唐思创教育科技有限公司 | 一种题目搜索的方法及其装置 |
CN108460155A (zh) * | 2018-03-28 | 2018-08-28 | 深信服科技股份有限公司 | 一种文件识别方法、装置、设备及存储介质 |
CN116069922A (zh) * | 2023-04-06 | 2023-05-05 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及系统 |
CN116069922B (zh) * | 2023-04-06 | 2023-06-20 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及系统 |
CN117235345A (zh) * | 2023-11-16 | 2023-12-15 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
CN117235345B (zh) * | 2023-11-16 | 2024-03-26 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104679871B (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
US8554561B2 (en) | Efficient indexing of documents with similar content | |
CN102804168B (zh) | 在数据库系统中减少存储需求的数据压缩 | |
US20090043741A1 (en) | Autocompletion and Automatic Input Method Correction for Partially Entered Search Query | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN104679871A (zh) | 一种汉语文本检索方法及汉语文本检索装置 | |
CN101719128A (zh) | 一种基于模糊匹配的中文地理编码确定方法 | |
KR20030004151A (ko) | 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체 | |
CN102999534A (zh) | 一种基于逆向最大匹配的中文分词算法 | |
CN101329680B (zh) | 句子层面的大规模快速匹配方法 | |
CN102236423A (zh) | 一种字符自动补充的方法、装置和输入法系统 | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN103914570A (zh) | 基于字符串相似度算法的智能客服搜索方法与系统 | |
CN104881406A (zh) | 网页翻译方法和系统 | |
CN103440233A (zh) | 一种科技论文标准化自动检测编辑系统 | |
CN104035993A (zh) | 电子书的存储检索方法、电子书管理系统、阅读系统 | |
CN104199867A (zh) | 一种解决文件名乱码问题的zip文件解压缩方法 | |
CN101393529A (zh) | 一种实现计算机软件多语言支持的方法 | |
CN102609455B (zh) | 一种实现汉语同音字检索的方法 | |
CN101645073A (zh) | 一种将已有数据库文件导入嵌入式数据库的方法 | |
US6754386B1 (en) | Method and system of matching ink processor and recognizer word breaks | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 | |
CN110019306A (zh) | 一种基于xml格式文件的sql语句查找方法及系统 | |
CN102855115A (zh) | 一种基于拼接墙显示文字标注的方法及系统 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |