CN109344387A - 形近字字典的生成方法、装置和形近字纠错方法、装置 - Google Patents
形近字字典的生成方法、装置和形近字纠错方法、装置 Download PDFInfo
- Publication number
- CN109344387A CN109344387A CN201810865688.8A CN201810865688A CN109344387A CN 109344387 A CN109344387 A CN 109344387A CN 201810865688 A CN201810865688 A CN 201810865688A CN 109344387 A CN109344387 A CN 109344387A
- Authority
- CN
- China
- Prior art keywords
- word form
- character
- nearly
- nearly word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 166
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000001154 acute effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种形近字字典的生成方法、装置和形近字纠错方法、装置,涉及信息处理技术,以解决形近字纠错难的问题而发明。该方法包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离;根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据形近字判断结果为每个汉字生成形近字列表;根据每个汉字的形近字列表,为汉字集合生成形近字字典。本发明可以应用在搜索引擎中。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种形近字字典的生成方法和装置。
背景技术
搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。在实际的应用过程中,错误查询词主要包括:拼音错误、形近字错误以及多字少字错误等等,其中,形近字错误是最为常见的。含有形近字错误的错误查询词通常不会影响用户阅读和理解,但是对于搜索引擎而言,形近字错误会极大地影响搜索的准确性,从而影响用户使用搜索引擎的满意度。
纠正形近字错误需要依赖于形近字字典,搜索引擎根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正,从而获取正确查询词。然而,现有技术并没有提供一种方法能够准确地判断出两个汉字之间是否近似,进而无法提供准确的形近字字典,由于形近字字典不准确,导致修正形近字错误的难度巨大。
发明内容
本发明实施例提供一种形近字字典的生成方法和装置,以解决修正形近字错误难度大的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种形近字字典的生成方法,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
第二方面,本发明实施例还提供一种形近字字典的生成装置,包括:
第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,所述第三获取模块包括:
第一获取子模块,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,所述第三获取模块还包括:
二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
第三方面,本发明实施例还提供一种形近字纠错方法,包括:获取用户输入的具有形近字错误的目标错误查询词;根据所述目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。
进一步地,所述纠错字典的生成方法包括:获取正确查询词;根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表;根据所有所述正确查询词对应的错误查询词列表,生成纠错字典。
进一步地,根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表之后,还包括:去除所述错误查询词列表中异常的错误查询词。
第四方面,本发明实施例还提供一种形近字纠错装置,包括:
第四获取模块,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块,用于根据所述第四获取模块获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。
本发明实施例提供的技术方案,能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,从而根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的形近字字典的生成方法的流程图;
图2是本发明实施例提供的形近字字典的生成装置的结构示意图;
图3是图2所示的发明实施例提供的形近字字典的生成装置中第三获取模块的结构示意图;
图4是本发明实施例提供的形近字纠错方法流程图;
图5是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图一;
图6是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图二;
图7是本发明实施例提供的形近字纠错装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的形近字字典的生成方法,包括:
步骤101,在字形输入法中,获取汉字集合中每个汉字的字形输入法编码。
本实施例所述的字形输入法为现有技术中常用的汉字输入法,本实施例不对字形输入法进行具体的限制,在实际的使用过程中,字形输入法可以包括:笔画输入法、五笔输入法、仓颉输入法、郑码输入法或者四角输入法等,此处不做一一赘述。
在本实施例中,汉字的字形输入法编码是指:在字形输入法中,生成该汉字对应的计算机程序编码。本实施例不对字形输入法编码的获取方法进行限定,在实际的使用过程中,步骤101可以通过从互联网上爬取的方式获取所有汉字的字形输入法,此处不做赘述。
步骤102,根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离。
在本实施例中,编码距离为对两个汉字的字形输入法编码进行相似度计算获得的具体数值,在同一个字形输入法中,本领域技术人员可以采用任意方法计算两个汉字的字形输入法编码进行相似度,此处不做赘述。
步骤103,根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果。
具体地,步骤103可以为:将编码距离与预先设置的阈值进行比较,如果编码距离小于阈值,获取形近字判断结果为形近字,否则,形近字判断结果为非形近字。
在本实施例中,可以根据实际使用的字形输入法设置阈值,例如:当字形输入法为笔画输入法时,由于汉字笔画数量可以较多,使得字形输入法编码通常较长,所以可以设置阈值为2;当字形输入法为其他输入法时,如五笔输入法、仓颉输入法、郑码输入法或者四角输入法等,由于字形输入法编码通常较短,所以可以设置阈值为1。当然,以上仅为举例,在实际的使用过程中还可以通过其他方法设置阈值,此处不做赘述。
由于形近字在同一种字形输入法中的字形输入法编码也相似,所以可以通过步骤103准确地判断出在同一种字形输入法中两个汉字之间是否为形近字。
进一步地,虽然本实施例不对字形输入法进行具体的限制,但是,为了进一步达到生成准确的形近字字典的目的,本实施例所述的字形输入法包括以上所述的5种输入法,即:笔画输入法、五笔输入法、仓颉输入法、郑码输入法和四角输入法,此时,步骤103还可以包括综合每种字形输入法的形近字判断结果,获取最终形近字判断结果的步骤。
具体地,在步骤103获取每种字形输入法中两个汉字之间的形近字判断结果之后,可以对每个形近字判断结果进行打分或者投票,根据打分或者投票结果生成综合判断结果,将综合判断结果与预先设置的目标阈值进行比较,当达到或超过目标阈值时,则判断以上两个汉字在以上5种字形输入法中均为形近字,否则,以上两个汉字在以上5中字形输入法中均为非形近字。
例如:当在一种字形输入法中,两个汉字之间为形近字时,可以对形近字判断结果打分为1,当在另一种字形输入法中,所述两个汉字之间为非形近字时,可以对形近字判断结果打分为0,此时可以将所有的打分结果相加获得最终的目标打分结果,将该目标打分结果与预先设置的目标阈值进行比较,当达到或超过目标阈值时则判断所述两个汉字在所有字形输入法中为形近字。需要说明的是,本实施例并不对目标阈值的具体设置方法进行限定,在实际的使用过程中可以根据需要进行设置,例如:当字形输入法为5种时,可以设置目标阈值为3,此处不做赘述。
进一步地,需要说明的是,本实施例仅以字形输入法包括5种作为举例进行说明,在实际的使用过程中,可以根据需求选择字形输入法的类型和个数,例如:可以根据用户使用字形输入法的占比选择字形输入法的类型和个数,具体地,如果使用笔画输入法的用户占比为25%,使用五笔输入法的用户占比为45%,使用仓颉输入法的用户占比为5%,使用郑码输入法的用户占比为10%,使用四角输入法的用户占比为15%,可以选择五笔输入法和笔画输入法,综合五笔输入法和笔画输入法的形近字判断结果,获取最终形近字判断结果。当然,在实际的使用过程中还可以通过其他方式选择字形输入法的类型和个数,此处不对每种情况进行一一赘述。
本发明实施例提供的以上技术方案考虑到了汉字在不同字形输入法中的区别问题,综合考虑所有字形输入法中形近字的判断结果得出最终形似字判断结果,使得该最终形近字判断结果不受字形输入法的限制,更准确。
步骤104,根据形近字判断结果为每个汉字生成形近字列表。
根据以上步骤103可以获取所有汉字中任意两个汉字之间的形近字判断结果,根据形近字判断结果可以得到形近字网络图,图中每个节点为一个汉字,每个汉字相连的节点为该汉字的形近字,步骤104可以形近字网络图为每个汉字生成形近字列表。
步骤105,根据每个汉字的形近字列表,为汉字集合生成形近字字典。
本发明实施例提供的技术方案,能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,从而根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图2所示,本发明实施例还提供一种形近字字典的生成装置,包括:
第一获取模块201,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块202,用于根据所述第一获取模块201获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块203,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块204,用于根据所述第三获取模块203获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块205,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,如图3所示,所述第三获取模块203可以包括:
第一获取子模块301,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,如图3所示,所述第三获取模块203还可以包括:
第二获取子模块302,第二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
本实施例所述的形近字字典的生成装置具体的事项方法可以参见如图1所示的本发明实施例提供的形近字字典的生成方法所述,此处不再赘述。
本发明实施例提供的技术方案,第一获取模块能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,第三获取模块根据第二获取模块获取的每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,第二生成模块可以根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图4所示,本发明实施例还提供一种形近字纠错方法,包括:
步骤401,获取用户输入的具有形近字错误的目标错误查询词。
本实施例不对目标查询词进行具体的限制,在实际的使用过程中,目标查询词可以为固定类型的名词,其中,固定类型可以包括:剧名、演员名、歌曲名或者歌手名等;目标查询词也可以为不包含固定类型的名词的长尾词,如:惊悚题材的电影,或者古装的电视剧等等,此处不对每种情况进行一一赘述。
步骤402,根据目标错误查询词查找纠错字典,获取目标正确查询词,其中,纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。
在本实施例中,形近字字典的生成方法可以参见如图1所示,此处不再赘述。根据形近字字典生成纠错字典的方法可以如图5所示,包括:
步骤501,获取正确查询词。
在本实施例中,当正确查询词为固定类型的名词时,如:固定查询词为剧名,步骤501可以直接从资源数据库中获取正确查询词,例如:从媒体内容数据库中获取剧名;当正确查询词为不包含固定类型的名词的长尾词时,步骤501可以从用户输入的历史查询结果中获取正确查询词。
步骤502,根据形近字字典对正确查询词中的字进行形近字替换,生成正确查询词对应的错误查询词列表。
具体地,正确查询词可以为C=C1C2…Cn,其中,C1C2…Cn为正确查询词包含的汉字,根据形近字字典查找C1C2…Cn对应的形近字,并采用查找到的形近字分别替换C1C2…Cn,为正确查询词生成具有形近字错误的错误查询词列表。
步骤503,根据所有正确查询词对应的错误查询词列表,生成纠错字典。
需要说明的时,在实际的使用过程中,步骤502根据形近字字典对正确查询词中的字进行形近字替换,生成正确查询词对应的错误查询词列表中可能存在不合理的错误查询词,尤其是正确查询词为不包含固定类型的名词的长尾词时,采用步骤502生成的错误查询词可能有语句不通的情况发生,此时,为了保证纠错字典的准确性以及易用性,如图6所示,步骤502之后还可以包括:
步骤504,去除错误查询词列表中异常的错误查询词。
在本实施例中,异常的错误查询词具体可以包括:语言逻辑不通的查询词,或者不会真实存在的查询词等,此处不做一一赘述。
在本实施例中,若错误查询词真实存在,则说明用户搜索过该错误查询词,且存在与之形近的更多用户搜索的正确查询词,此时,通过使用ngram语言模型,计算错误查询词的存在概率,若存在概率高于存在阈值,则认为是噪音,将此错误查询词从错误查询词列表中去除。
本发明实施例提供的技术方案,可以根据目标错误查询词查找纠错字典,获取目标正确查询词,由于纠错字典是根据形近字字典生成的,而形近字字典是通过获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的,使得形近字字典更准确,由于形近字字典的准确性提高了,使得根据形近字字典生成的纠错字典更准确,进而提高了形近字就错的准确性、减小了形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图7所示,本发明实施例还提供一种形近字纠错装置,包括:
第四获取模块701,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块702,用于根据所述第四获取模块701获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。
本发明实施例提供的形近字纠错装置的具体实现方法可以参见图4-6所示的本发明实施例提供的形近字纠错方法所述,此处不再赘述。
本发明实施例提供的技术方案,纠错模块702可以根据第四获取模块701获取的目标错误查询词查找纠错字典,获取目标正确查询词,由于纠错字典是根据形近字字典生成的,而形近字字典是通过获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的,使得形近字字典更准确,由于形近字字典的准确性提高了,使得根据形近字字典生成的纠错字典更准确,进而提高了形近字就错的准确性、减小了形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种形近字字典的生成方法,其特征在于,包括:
在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
根据所述形近字判断结果为每个所述汉字生成形近字列表;
根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
2.根据权利要求1所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:
将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
3.根据权利要求2所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:
如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
4.一种形近字字典的生成装置,其特征在于,包括:
第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
5.根据权利要求4所述的装置,其特征在于,所述第三获取模块包括:
第一获取子模块,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
6.根据权利要求5所述的装置,其特征在于,所述第三获取模块还包括:
第二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
7.一种形近字纠错方法,其特征在于,包括:
获取用户输入的具有形近字错误的目标错误查询词;
根据所述目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据所述权利要求1-3中任意一项所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。
8.根据权利要求7所述的方法,其特征在于,所述纠错字典的生成方法包括:
获取正确查询词;
根据权利要求1-3中任意一项所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表;
根据所有所述正确查询词对应的错误查询词列表,生成纠错字典。
9.根据权利要求7所述的方法,其特征在于,所述根据权利要求1-3中任意一项所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表之后,还包括:
去除所述错误查询词列表中异常的错误查询词。
10.一种形近字纠错装置,其特征在于,包括:
第四获取模块,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块,用于根据所述第四获取模块获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据所述权利要求1-3中任意一项所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810865688.8A CN109344387B (zh) | 2018-08-01 | 2018-08-01 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810865688.8A CN109344387B (zh) | 2018-08-01 | 2018-08-01 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344387A true CN109344387A (zh) | 2019-02-15 |
CN109344387B CN109344387B (zh) | 2023-12-19 |
Family
ID=65291329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810865688.8A Active CN109344387B (zh) | 2018-08-01 | 2018-08-01 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344387B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705536A (zh) * | 2019-09-24 | 2020-01-17 | 北京字节跳动网络技术有限公司 | 汉字识别纠错方法、装置、计算机可读介质及电子设备 |
CN110866188A (zh) * | 2019-11-14 | 2020-03-06 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112883718A (zh) * | 2021-04-27 | 2021-06-01 | 恒生电子股份有限公司 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100063798A1 (en) * | 2008-09-09 | 2010-03-11 | Tsun Ku | Error-detecting apparatus and methods for a chinese article |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
WO2015139497A1 (zh) * | 2014-03-19 | 2015-09-24 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN106598920A (zh) * | 2016-11-28 | 2017-04-26 | 昆明理工大学 | 一种笔画编码结合汉字点阵的形近字分类方法 |
CN108334612A (zh) * | 2018-02-07 | 2018-07-27 | 华南理工大学 | 一种针对密文域的形近汉字全文模糊检索方法 |
-
2018
- 2018-08-01 CN CN201810865688.8A patent/CN109344387B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100063798A1 (en) * | 2008-09-09 | 2010-03-11 | Tsun Ku | Error-detecting apparatus and methods for a chinese article |
CN103927330A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
WO2015139497A1 (zh) * | 2014-03-19 | 2015-09-24 | 北京奇虎科技有限公司 | 一种在搜索引擎中确定形近字的方法和装置 |
CN106598920A (zh) * | 2016-11-28 | 2017-04-26 | 昆明理工大学 | 一种笔画编码结合汉字点阵的形近字分类方法 |
CN108334612A (zh) * | 2018-02-07 | 2018-07-27 | 华南理工大学 | 一种针对密文域的形近汉字全文模糊检索方法 |
Non-Patent Citations (4)
Title |
---|
严喻等: "双码三笔汉字输入法的编码技术", 《计算机科学》 * |
严喻等: "双码三笔汉字输入法的编码技术", 《计算机科学》, no. 10, 15 October 2009 (2009-10-15) * |
刁兴春等: "一种融合多种编辑距离的字符串相似度计算方法", 计算机应用研究, no. 12, pages 3 - 5 * |
常志玲等: "笔顺输入法的汉字搜索算法研究", 微计算机信息, no. 15 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705536A (zh) * | 2019-09-24 | 2020-01-17 | 北京字节跳动网络技术有限公司 | 汉字识别纠错方法、装置、计算机可读介质及电子设备 |
CN110866188A (zh) * | 2019-11-14 | 2020-03-06 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112183072B (zh) * | 2020-10-16 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112818108B (zh) * | 2021-02-24 | 2023-10-13 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112883718A (zh) * | 2021-04-27 | 2021-06-01 | 恒生电子股份有限公司 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109344387B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344387A (zh) | 形近字字典的生成方法、装置和形近字纠错方法、装置 | |
CN106326484A (zh) | 搜索词纠错方法及装置 | |
CA2805391C (en) | Determining relevant information for domains of interest | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
US8645353B2 (en) | Anchor image identification for vertical video search | |
WO2003012685A2 (en) | A data quality system | |
CN101719167B (zh) | 一种可互动的影视搜索方法 | |
CN109933645A (zh) | 信息查询方法、装置、计算机设备及存储介质 | |
CN112083812B (zh) | 联想词确定方法、装置、存储介质和电子设备 | |
CN107220639A (zh) | Ocr识别结果的纠正方法和装置 | |
CN110555140B (zh) | 面向口令猜测的语料乘积规则的描述、生成与检测方法 | |
JP2018501540A (ja) | ストップワード識別方法および装置 | |
CN110175585A (zh) | 一种简答题自动批改系统及方法 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN115328434A (zh) | 搜索结果的排序方法、装置及电子设备 | |
CN109062888A (zh) | 一种出现错误文本输入时的自纠正方法 | |
CN111950267B (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
CN109284441A (zh) | 动态自适应网络敏感信息检测方法及装置 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
Weller et al. | Defending Against Misinformation Attacks in Open-Domain Question Answering | |
CN117271716A (zh) | 一种基于生成式语言模型的法律法规问答系统及构建方法 | |
CN111125319A (zh) | 一种企业基础法律智能咨询终端、系统及方法 | |
CN107609006B (zh) | 一种基于地方志研究的搜索优化方法 | |
CN116340352A (zh) | 数据查询方法、装置、存储介质及电子设备 | |
CN107577667B (zh) | 一种实体词处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |