CN112988834B - 一种字典短语的查询方法 - Google Patents
一种字典短语的查询方法 Download PDFInfo
- Publication number
- CN112988834B CN112988834B CN202110176648.4A CN202110176648A CN112988834B CN 112988834 B CN112988834 B CN 112988834B CN 202110176648 A CN202110176648 A CN 202110176648A CN 112988834 B CN112988834 B CN 112988834B
- Authority
- CN
- China
- Prior art keywords
- cross
- word
- phrases
- phrase
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种字典短语的查询方法,包括非跨词短语的精确查询方法、非跨词短语的模糊查询方法、跨词短语的精确查询方法和跨词短语的模糊查询方法,每个非跨词短语和每个跨词短语均包括若干字符。具有以下优点:可以精确或者模糊查询跨词短语,保障屏幕取词、划词读取跨词短语的功能,方便通过电子字典学习单词和短语。
Description
技术领域
本发明涉及文字处理技术领域,特别涉及一种字典短语的查询方法。
背景技术
目前字典词语查询,通常的方案是使用基于TRIE索引树的字典机制:基于TRIE索引树的字典机制由首字散列表和TRIE索引树结点两部分组成,沿着树链逐字匹配即可。
现有技术的不足在于:由于在查询时采用逐字匹配的方法,遇到中间间隔其它字符的跨词短语就没法查询了。
进一步的,在屏幕取词的时候,统计取词内容里面包含的单词的时候会忽略里面的跨词短语。
所以现有的字典系统,可以精确查询单词和短语,也可以模糊查询单词和短语,却没有查询跨词短语的功能。
发明内容
本发明要解决的技术问题是针对以上不足,提供一种字典短语的查询方法,可以精确或者模糊查询跨词短语,保障屏幕取词、划词读取跨词短语的功能,方便通过电子字典学习单词和短语。
为解决以上技术问题,本发明采用以下技术方案:
一种字典短语的查询方法,包括非跨词短语的精确查询方法、非跨词短语的模糊查询方法、跨词短语的精确查询方法和跨词短语的模糊查询方法,每个非跨词短语和每个跨词短语均包括若干字符。
进一步的,所述非跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支,以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语。
进一步的,所述非跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
进一步的,所述非跨词短语的模糊查询方法还包括以下步骤:
若编辑距离超过了设定的阈值,则不再继续比对。
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的会被忽略。
进一步的,所述跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同。
进一步的,所述跨词短语的精确查询方法还包括以下步骤:
将需要查询的跨词短语与字典树内词语进行逐个字符比对,若跨词短语的首个字符比对成功,则继续比对跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支;以此类推,直至依次比对完需要查询的跨词短语中所有字符,检索出需要查询的跨词短语;
若比对过程中遇到字典树内设定的通配符,编辑距离不变,继续比对下一个字符。
进一步的,所述跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同。
进一步的,所述跨词短语的模糊查询方法包括以下步骤:
将需要查询的跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
进一步的,所述跨词短语的模糊查询方法还包括以下步骤:
若比对过程中遇到字典树内设定的通配符,编辑距离不变,继续比对下一个字符;
若编辑距离超过了设定的阈值,则不再继续比对;
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的短语忽略。
本发明采用以上技术方案,与现有技术相比,具有如下技术效果:
带有通配标志的字典树;支持跨词短语的精确查询和模糊查询,支持普通单词和短语的精确查询和模糊查询;
支持的编辑距离的阈值设定;
支持查询结果为一个或者多个词语;
可以精确或者模糊查询跨词短语,保障屏幕取词、划词读取跨词短语的功能,方便通过电子字典学习单词和短语。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例中非跨词短语的精确查询方法实施流程示意图;
图2为本发明实施例中跨词字典跨词短语的精确查询方法实施流程示意图;
图3为本发明实施例中非跨词短语的模糊查询实施流程示意图;
图4为本发明实施例中跨词字典跨词短语的模糊查询实施流程示意图。
具体实施方式
实施例1,一种字典短语的查询方法,包括非跨词短语的精确查询方法、非跨词短语的模糊查询方法、跨词短语的精确查询方法和跨词短语的模糊查询方法,每个非跨词短语和每个跨词短语均包括若干字符。
如图1示例所示,所述非跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支,以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语。
如图3示例所示,所述非跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
若编辑距离超过了设定的阈值,则不再继续比对。
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的会被忽略。
如图2示例所示,所述跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符,通配符可以是空格、+、-等任意区别符号;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同;
将需要查询的跨词短语与字典树内词语进行逐个字符比对,若跨词短语的首个字符比对成功,则继续比对跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支;以此类推,直至依次比对完需要查询的跨词短语中所有字符,检索出需要查询的跨词短语。
若比对过程中遇到字典树内设定的通配符,编辑距离不变,继续比对下一个字符。
如图4示例所示,所述跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符,通配符可以是空格、+、-等任意区别符号;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同;
将需要查询的跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
若比对过程中遇到字典树内设定的通配符,编辑距离不变,继续比对下一个字符。
若编辑距离超过了设定的阈值,则不再继续比对。
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的会被忽略。
本发明相对于普通的字典树是建立一个包含通配符的字典树以实现跨词短语的查询;普通的字典树包含若干节点,每个节点里面包含一个字符,对于一个单词,只要顺着根节点走到对应的节点,就完成了查询过程,速度比较快,不过没有通配字符,增加一个通配符可以做到跨词查询。
需要查询的字符串中的字符和字典树里面的每个节点进行比对,每个字符比对会有四种情况:匹配/需增加一个字符才能匹配成功/需删除一个字符才能匹配成功/需改动一个字符才能匹配成功。
遇上字符匹配不成功的时候,编辑距离就会加一。
编辑距离就是需要查询的字符串和字典中词语的偏离程度。
系统里面会设置编辑距离的阈值,如果编辑距离超过了系统设定的阈值,则认为比对不成功。
待匹配的字符在遇到通配符的时候,即便比对不成功,编辑距离也不会增加,会继续往下比对,直到比对结束,或者编辑距离超出阈值。
支持GB2312、GBK、BIG5、Unicode、utf-8格式,支持自定义编码格式。支持中文、英文、蒙古文、藏文、维吾尔文、朝鲜文、哈萨克文、彝文、壮文、傣文。
既包括查询普通单词、短语,又包括查询跨词短语。最终的查询结果是多个值,并且按照相近度排列。相近度最高的排在最前面,编辑距离超出阈值的会被忽略。
跨词短语的查询,跨越了其它词语的短语可以查询出来,不但可以跨越一段文字,跨越多段文字的情况仍然适用,不但双词短语可以查询,多词短语也可以查询。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好的说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (7)
1.一种字典短语的查询方法,其特征在于:包括非跨词短语的精确查询方法、非跨词短语的模糊查询方法、跨词短语的精确查询方法和跨词短语的模糊查询方法,每个非跨词短语和每个跨词短语均包括若干字符;
所述跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同;
所述跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符;
设定支持的编辑距离的阈值;
设定字典树内的通配符;
输入的跨词短语之间的通配符的符号必须与字典树内设定的通配符符号相同。
2.如权利要求1所述的一种字典短语的查询方法,其特征在于:所述非跨词短语的精确查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支,以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语。
3.如权利要求1所述的一种字典短语的查询方法,其特征在于:所述非跨词短语的模糊查询方法包括以下步骤:
提前准备好包含所有词语分支的字典树,每个词语分支均包括若干节点,每个节点里面包含一个字符,设定支持的编辑距离的阈值;
将需要查询的非跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
4.如权利要求3所述的一种字典短语的查询方法,其特征在于:所述非跨词短语的模糊查询方法还包括以下步骤:
若编辑距离超过了设定的阈值,则不再继续比对;
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的会被忽略。
5.如权利要求1所述的一种字典短语的查询方法,其特征在于:所述跨词短语的精确查询方法还包括以下步骤:
将需要查询的跨词短语与字典树内词语进行逐个字符比对,若跨词短语的首个字符比对成功,则继续比对跨词短语的下一个字符;若比对不成功,则退出字符所在的字典树内词语分支;以此类推,直至依次比对完需要查询的跨词短语中所有字符,检索出需要查询的跨词短语;
若比对过程中遇到字典树内设定的通配符,编辑距离不变, 继续比对下一个字符。
6.如权利要求1所述的一种字典短语的查询方法,其特征在于:所述跨词短语的模糊查询方法包括以下步骤:
将需要查询的跨词短语与字典树内词语依次进行逐个字符比对,若非跨词短语的首个字符比对成功,则继续比对非跨词短语的下一个字符;若比对不成功则编辑距离加一,继续比对非跨词短语的下一个字符;以此类推,直至依次比对完需要查询的非跨词短语中所有字符,检索出需要查询的非跨词短语或编辑距离在设定的阈值内的与需要查询的非跨词短语相似的短语。
7.如权利要求1所述的一种字典短语的查询方法,其特征在于:所述跨词短语的模糊查询方法还包括以下步骤:
若比对过程中遇到字典树内设定的通配符,编辑距离不变, 继续比对下一个字符;
若编辑距离超过了设定的阈值,则不再继续比对;
检索出的所有短语按照相近度排列,相近度最高的排在最前面,编辑距离超出设定阈值的短语忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176648.4A CN112988834B (zh) | 2021-02-07 | 2021-02-07 | 一种字典短语的查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176648.4A CN112988834B (zh) | 2021-02-07 | 2021-02-07 | 一种字典短语的查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112988834A CN112988834A (zh) | 2021-06-18 |
CN112988834B true CN112988834B (zh) | 2023-03-10 |
Family
ID=76392451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110176648.4A Active CN112988834B (zh) | 2021-02-07 | 2021-02-07 | 一种字典短语的查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988834B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105796A (zh) * | 2007-08-06 | 2008-01-16 | 无敌科技(西安)有限公司 | 一种跨词库查询方法 |
CN102693309A (zh) * | 2011-05-26 | 2012-09-26 | 中国科学院计算技术研究所 | 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统 |
CN110210034A (zh) * | 2019-05-31 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916263B (zh) * | 2010-07-27 | 2012-10-31 | 武汉大学 | 基于加权编辑距离的模糊关键字查询方法及系统 |
CN102043848B (zh) * | 2010-12-20 | 2012-07-18 | 北京大学 | 一种xml文档树实例查询方法 |
US9646061B2 (en) * | 2015-01-22 | 2017-05-09 | International Business Machines Corporation | Distributed fuzzy search and join with edit distance guarantees |
CN106156103B (zh) * | 2015-04-02 | 2019-11-26 | 广州爱九游信息技术有限公司 | 一种搜索处理方法及装置 |
CN106980656B (zh) * | 2017-03-10 | 2018-07-10 | 北京大学 | 一种基于二值码字典树的搜索方法 |
-
2021
- 2021-02-07 CN CN202110176648.4A patent/CN112988834B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105796A (zh) * | 2007-08-06 | 2008-01-16 | 无敌科技(西安)有限公司 | 一种跨词库查询方法 |
CN102693309A (zh) * | 2011-05-26 | 2012-09-26 | 中国科学院计算技术研究所 | 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统 |
CN110210034A (zh) * | 2019-05-31 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
Lucene之模糊、精确、匹配、范围、多条件查询;一味前行;《CSDN博客》;20180717;第1页 * |
基于三数组Trie索引树的词典查询机制;高文利,李德华;《现代图书情报技术》;20070725(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112988834A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
EP1011056B1 (en) | Grouping words with equivalent substrings by automatic clustering based on suffix relationships | |
JPH0724055B2 (ja) | 単語分割処理方法 | |
CN107918604B (zh) | 一种中文的分词方法及装置 | |
CN110851559B (zh) | 数据元自动识别方法和识别系统 | |
CN103365992B (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US9317608B2 (en) | Systems and methods for parsing search queries | |
CN111178079B (zh) | 一种三元组抽取方法及装置 | |
US20140289274A1 (en) | Method and device for acquiring structured information in layout file | |
CN111832299A (zh) | 一种中文分词系统 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
CN112988834B (zh) | 一种字典短语的查询方法 | |
CN109543023B (zh) | 基于trie和LCS算法的文献分类方法和系统 | |
CN1256688C (zh) | 用于中文文本处理系统的中文分词方法 | |
CN114880523A (zh) | 字符串处理方法、装置、电子设备及存储介质 | |
CN114036371A (zh) | 搜索词推荐方法、装置、设备和计算机可读存储介质 | |
JPH056398A (ja) | 文書登録装置及び文書検索装置 | |
CN111241313A (zh) | 支持图像录入的检索方法和装置 | |
CN113807081B (zh) | 基于上下文的聊天文本内容纠错方法及装置 | |
CN113609296B (zh) | 用于舆情数据识别的数据处理方法和装置 | |
CN116226362B (zh) | 一种提升搜索医院名称准确度的分词方法 | |
CN101986308B (zh) | 一种术语快速标注方法 | |
KR100508353B1 (ko) | 검색 질의의 철자를 체크하는 방법 | |
JPS62184572A (ja) | 単語分割装置における呼応複合語の辞書検索方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |