CN109344387B - 形近字字典的生成方法、装置和形近字纠错方法、装置 - Google Patents

形近字字典的生成方法、装置和形近字纠错方法、装置 Download PDF

Info

Publication number
CN109344387B
CN109344387B CN201810865688.8A CN201810865688A CN109344387B CN 109344387 B CN109344387 B CN 109344387B CN 201810865688 A CN201810865688 A CN 201810865688A CN 109344387 B CN109344387 B CN 109344387B
Authority
CN
China
Prior art keywords
word
shape
chinese character
input method
shape near
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810865688.8A
Other languages
English (en)
Other versions
CN109344387A (zh
Inventor
黄腾玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810865688.8A priority Critical patent/CN109344387B/zh
Publication of CN109344387A publication Critical patent/CN109344387A/zh
Application granted granted Critical
Publication of CN109344387B publication Critical patent/CN109344387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种形近字字典的生成方法、装置和形近字纠错方法、装置,涉及信息处理技术,以解决形近字纠错难的问题而发明。该方法包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离;根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据形近字判断结果为每个汉字生成形近字列表;根据每个汉字的形近字列表,为汉字集合生成形近字字典。本发明可以应用在搜索引擎中。

Description

形近字字典的生成方法、装置和形近字纠错方法、装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种形近字字典的生成方法和装置。
背景技术
搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。在实际的应用过程中,错误查询词主要包括:拼音错误、形近字错误以及多字少字错误等等,其中,形近字错误是最为常见的。含有形近字错误的错误查询词通常不会影响用户阅读和理解,但是对于搜索引擎而言,形近字错误会极大地影响搜索的准确性,从而影响用户使用搜索引擎的满意度。
纠正形近字错误需要依赖于形近字字典,搜索引擎根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正,从而获取正确查询词。然而,现有技术并没有提供一种方法能够准确地判断出两个汉字之间是否近似,进而无法提供准确的形近字字典,由于形近字字典不准确,导致修正形近字错误的难度巨大。
发明内容
本发明实施例提供一种形近字字典的生成方法和装置,以解决修正形近字错误难度大的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种形近字字典的生成方法,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
第二方面,本发明实施例还提供一种形近字字典的生成装置,包括:
第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,所述第三获取模块包括:
第一获取子模块,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,所述第三获取模块还包括:
二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
第三方面,本发明实施例还提供一种形近字纠错方法,包括:获取用户输入的具有形近字错误的目标错误查询词;根据所述目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。
进一步地,所述纠错字典的生成方法包括:获取正确查询词;根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表;根据所有所述正确查询词对应的错误查询词列表,生成纠错字典。
进一步地,根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表之后,还包括:去除所述错误查询词列表中异常的错误查询词。
第四方面,本发明实施例还提供一种形近字纠错装置,包括:
第四获取模块,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块,用于根据所述第四获取模块获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。
本发明实施例提供的技术方案,能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,从而根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的形近字字典的生成方法的流程图;
图2是本发明实施例提供的形近字字典的生成装置的结构示意图;
图3是图2所示的发明实施例提供的形近字字典的生成装置中第三获取模块的结构示意图;
图4是本发明实施例提供的形近字纠错方法流程图;
图5是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图一;
图6是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图二;
图7是本发明实施例提供的形近字纠错装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的形近字字典的生成方法,包括:
步骤101,在字形输入法中,获取汉字集合中每个汉字的字形输入法编码。
本实施例所述的字形输入法为现有技术中常用的汉字输入法,本实施例不对字形输入法进行具体的限制,在实际的使用过程中,字形输入法可以包括:笔画输入法、五笔输入法、仓颉输入法、郑码输入法或者四角输入法等,此处不做一一赘述。
在本实施例中,汉字的字形输入法编码是指:在字形输入法中,生成该汉字对应的计算机程序编码。本实施例不对字形输入法编码的获取方法进行限定,在实际的使用过程中,步骤101可以通过从互联网上爬取的方式获取所有汉字的字形输入法,此处不做赘述。
步骤102,根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离。
在本实施例中,编码距离为对两个汉字的字形输入法编码进行相似度计算获得的具体数值,在同一个字形输入法中,本领域技术人员可以采用任意方法计算两个汉字的字形输入法编码进行相似度,此处不做赘述。
步骤103,根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果。
具体地,步骤103可以为:将编码距离与预先设置的阈值进行比较,如果编码距离小于阈值,获取形近字判断结果为形近字,否则,形近字判断结果为非形近字。
在本实施例中,可以根据实际使用的字形输入法设置阈值,例如:当字形输入法为笔画输入法时,由于汉字笔画数量可以较多,使得字形输入法编码通常较长,所以可以设置阈值为2;当字形输入法为其他输入法时,如五笔输入法、仓颉输入法、郑码输入法或者四角输入法等,由于字形输入法编码通常较短,所以可以设置阈值为1。当然,以上仅为举例,在实际的使用过程中还可以通过其他方法设置阈值,此处不做赘述。
由于形近字在同一种字形输入法中的字形输入法编码也相似,所以可以通过步骤103准确地判断出在同一种字形输入法中两个汉字之间是否为形近字。
进一步地,虽然本实施例不对字形输入法进行具体的限制,但是,为了进一步达到生成准确的形近字字典的目的,本实施例所述的字形输入法包括以上所述的5种输入法,即:笔画输入法、五笔输入法、仓颉输入法、郑码输入法和四角输入法,此时,步骤103还可以包括综合每种字形输入法的形近字判断结果,获取最终形近字判断结果的步骤。
具体地,在步骤103获取每种字形输入法中两个汉字之间的形近字判断结果之后,可以对每个形近字判断结果进行打分或者投票,根据打分或者投票结果生成综合判断结果,将综合判断结果与预先设置的目标阈值进行比较,当达到或超过目标阈值时,则判断以上两个汉字在以上5种字形输入法中均为形近字,否则,以上两个汉字在以上5中字形输入法中均为非形近字。
例如:当在一种字形输入法中,两个汉字之间为形近字时,可以对形近字判断结果打分为1,当在另一种字形输入法中,所述两个汉字之间为非形近字时,可以对形近字判断结果打分为0,此时可以将所有的打分结果相加获得最终的目标打分结果,将该目标打分结果与预先设置的目标阈值进行比较,当达到或超过目标阈值时则判断所述两个汉字在所有字形输入法中为形近字。需要说明的是,本实施例并不对目标阈值的具体设置方法进行限定,在实际的使用过程中可以根据需要进行设置,例如:当字形输入法为5种时,可以设置目标阈值为3,此处不做赘述。
进一步地,需要说明的是,本实施例仅以字形输入法包括5种作为举例进行说明,在实际的使用过程中,可以根据需求选择字形输入法的类型和个数,例如:可以根据用户使用字形输入法的占比选择字形输入法的类型和个数,具体地,如果使用笔画输入法的用户占比为25%,使用五笔输入法的用户占比为45%,使用仓颉输入法的用户占比为5%,使用郑码输入法的用户占比为10%,使用四角输入法的用户占比为15%,可以选择五笔输入法和笔画输入法,综合五笔输入法和笔画输入法的形近字判断结果,获取最终形近字判断结果。当然,在实际的使用过程中还可以通过其他方式选择字形输入法的类型和个数,此处不对每种情况进行一一赘述。
本发明实施例提供的以上技术方案考虑到了汉字在不同字形输入法中的区别问题,综合考虑所有字形输入法中形近字的判断结果得出最终形似字判断结果,使得该最终形近字判断结果不受字形输入法的限制,更准确。
步骤104,根据形近字判断结果为每个汉字生成形近字列表。
根据以上步骤103可以获取所有汉字中任意两个汉字之间的形近字判断结果,根据形近字判断结果可以得到形近字网络图,图中每个节点为一个汉字,每个汉字相连的节点为该汉字的形近字,步骤104可以形近字网络图为每个汉字生成形近字列表。
步骤105,根据每个汉字的形近字列表,为汉字集合生成形近字字典。
本发明实施例提供的技术方案,能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,从而根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图2所示,本发明实施例还提供一种形近字字典的生成装置,包括:
第一获取模块201,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块202,用于根据所述第一获取模块201获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块203,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块204,用于根据所述第三获取模块203获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块205,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
进一步地,如图3所示,所述第三获取模块203可以包括:
第一获取子模块301,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
进一步地,如图3所示,所述第三获取模块203还可以包括:
第二获取子模块302,第二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。
本实施例所述的形近字字典的生成装置具体的事项方法可以参见如图1所示的本发明实施例提供的形近字字典的生成方法所述,此处不再赘述。
本发明实施例提供的技术方案,第一获取模块能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,第三获取模块根据第二获取模块获取的每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,第二生成模块可以根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图4所示,本发明实施例还提供一种形近字纠错方法,包括:
步骤401,获取用户输入的具有形近字错误的目标错误查询词。
本实施例不对目标查询词进行具体的限制,在实际的使用过程中,目标查询词可以为固定类型的名词,其中,固定类型可以包括:剧名、演员名、歌曲名或者歌手名等;目标查询词也可以为不包含固定类型的名词的长尾词,如:惊悚题材的电影,或者古装的电视剧等等,此处不对每种情况进行一一赘述。
步骤402,根据目标错误查询词查找纠错字典,获取目标正确查询词,其中,纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。
在本实施例中,形近字字典的生成方法可以参见如图1所示,此处不再赘述。根据形近字字典生成纠错字典的方法可以如图5所示,包括:
步骤501,获取正确查询词。
在本实施例中,当正确查询词为固定类型的名词时,如:固定查询词为剧名,步骤501可以直接从资源数据库中获取正确查询词,例如:从媒体内容数据库中获取剧名;当正确查询词为不包含固定类型的名词的长尾词时,步骤501可以从用户输入的历史查询结果中获取正确查询词。
步骤502,根据形近字字典对正确查询词中的字进行形近字替换,生成正确查询词对应的错误查询词列表。
具体地,正确查询词可以为C=C1C2…Cn,其中,C1C2…Cn为正确查询词包含的汉字,根据形近字字典查找C1C2…Cn对应的形近字,并采用查找到的形近字分别替换C1C2…Cn,为正确查询词生成具有形近字错误的错误查询词列表。
步骤503,根据所有正确查询词对应的错误查询词列表,生成纠错字典。
需要说明的时,在实际的使用过程中,步骤502根据形近字字典对正确查询词中的字进行形近字替换,生成正确查询词对应的错误查询词列表中可能存在不合理的错误查询词,尤其是正确查询词为不包含固定类型的名词的长尾词时,采用步骤502生成的错误查询词可能有语句不通的情况发生,此时,为了保证纠错字典的准确性以及易用性,如图6所示,步骤502之后还可以包括:
步骤504,去除错误查询词列表中异常的错误查询词。
在本实施例中,异常的错误查询词具体可以包括:语言逻辑不通的查询词,或者不会真实存在的查询词等,此处不做一一赘述。
在本实施例中,若错误查询词真实存在,则说明用户搜索过该错误查询词,且存在与之形近的更多用户搜索的正确查询词,此时,通过使用ngram语言模型,计算错误查询词的存在概率,若存在概率高于存在阈值,则认为是噪音,将此错误查询词从错误查询词列表中去除。
本发明实施例提供的技术方案,可以根据目标错误查询词查找纠错字典,获取目标正确查询词,由于纠错字典是根据形近字字典生成的,而形近字字典是通过获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的,使得形近字字典更准确,由于形近字字典的准确性提高了,使得根据形近字字典生成的纠错字典更准确,进而提高了形近字就错的准确性、减小了形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
如图7所示,本发明实施例还提供一种形近字纠错装置,包括:
第四获取模块701,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块702,用于根据所述第四获取模块701获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。
本发明实施例提供的形近字纠错装置的具体实现方法可以参见图4-6所示的本发明实施例提供的形近字纠错方法所述,此处不再赘述。
本发明实施例提供的技术方案,纠错模块702可以根据第四获取模块701获取的目标错误查询词查找纠错字典,获取目标正确查询词,由于纠错字典是根据形近字字典生成的,而形近字字典是通过获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的,使得形近字字典更准确,由于形近字字典的准确性提高了,使得根据形近字字典生成的纠错字典更准确,进而提高了形近字就错的准确性、减小了形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (8)

1.一种形近字字典的生成方法,其特征在于,包括:
在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
根据所述形近字判断结果为每个所述汉字生成形近字列表;
根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典;
所述根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果,还包括:
根据用户使用所述字形输入法的占比,选择所述字形输入法的类型;
对每种类型所述字形输入法的形近字判断结果进行打分,得到打分结果;
根据所述打分结果生成综合判断结果;
将所述综合判断结果与目标阈值进行比较,当所述综合判断结果达到或超过目标阈值时,所述汉字与所述汉字集合中其他汉字之间为形近字;所述目标阈值是根据所述字形输入法的类型的数量设置的;所述综合判断结果是将所述打分结果相加后得到的;所述字形输入法包括笔画输入法、五笔输入法、仓颉输入法、郑码输入法、四角输入法。
2.根据权利要求1所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:
将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
3.一种形近字字典的生成装置,其特征在于,包括:
第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;
第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;
第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;
第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;
第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典;
所述第三获取模块,还用于根据用户使用所述字形输入法的占比,选择所述字形输入法的类型;对每种类型所述字形输入法的形近字判断结果进行打分,得到打分结果;根据所述打分结果生成综合判断结果;将所述综合判断结果与目标阈值进行比较,当所述综合判断结果达到或超过目标阈值时,所述汉字与所述汉字集合中其他汉字之间为形近字;所述目标阈值是根据所述字形输入法的类型的数量设置的;所述综合判断结果是将所述打分结果相加后得到的;所述字形输入法包括笔画输入法、五笔输入法、仓颉输入法、郑码输入法、四角输入法。
4.根据权利要求3所述的装置,其特征在于,所述第三获取模块包括:
第一获取子模块,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。
5.一种形近字纠错方法,其特征在于,包括:
获取用户输入的具有形近字错误的目标错误查询词;
根据所述目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据所述权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。
6.根据权利要求5所述的方法,其特征在于,所述纠错字典的生成方法包括:
获取正确查询词;
根据权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表;
根据所有所述正确查询词对应的错误查询词列表,生成纠错字典。
7.根据权利要求6所述的方法,其特征在于,所述根据权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表之后,还包括:
去除所述错误查询词列表中异常的错误查询词。
8.一种形近字纠错装置,其特征在于,包括:
第四获取模块,用于获取用户输入的具有形近字错误的目标错误查询词;
纠错模块,用于根据所述第四获取模块获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据所述权利要求1-2中任意一项所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。
CN201810865688.8A 2018-08-01 2018-08-01 形近字字典的生成方法、装置和形近字纠错方法、装置 Active CN109344387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810865688.8A CN109344387B (zh) 2018-08-01 2018-08-01 形近字字典的生成方法、装置和形近字纠错方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810865688.8A CN109344387B (zh) 2018-08-01 2018-08-01 形近字字典的生成方法、装置和形近字纠错方法、装置

Publications (2)

Publication Number Publication Date
CN109344387A CN109344387A (zh) 2019-02-15
CN109344387B true CN109344387B (zh) 2023-12-19

Family

ID=65291329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810865688.8A Active CN109344387B (zh) 2018-08-01 2018-08-01 形近字字典的生成方法、装置和形近字纠错方法、装置

Country Status (1)

Country Link
CN (1) CN109344387B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705536A (zh) * 2019-09-24 2020-01-17 北京字节跳动网络技术有限公司 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN110866188A (zh) * 2019-11-14 2020-03-06 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN112183072B (zh) * 2020-10-16 2023-07-21 北京奇艺世纪科技有限公司 一种文本纠错方法、装置、电子设备及可读存储介质
CN112613522B (zh) * 2021-01-04 2023-03-14 重庆邮电大学 一种基于融合字形信息的服药单识别结果纠错方法
CN112818108B (zh) * 2021-02-24 2023-10-13 中国人民大学 基于形近字的文本语义曲解聊天机器人及其数据处理方法
CN112883718B (zh) * 2021-04-27 2021-10-22 恒生电子股份有限公司 基于汉字音形相似性的拼写纠错方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927330A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
WO2015139497A1 (zh) * 2014-03-19 2015-09-24 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN106598920A (zh) * 2016-11-28 2017-04-26 昆明理工大学 一种笔画编码结合汉字点阵的形近字分类方法
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391832B (zh) * 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927330A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
WO2015139497A1 (zh) * 2014-03-19 2015-09-24 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN106598920A (zh) * 2016-11-28 2017-04-26 昆明理工大学 一种笔画编码结合汉字点阵的形近字分类方法
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种融合多种编辑距离的字符串相似度计算方法;刁兴春等;计算机应用研究(12);正文第4523页第3-5段、4523页第3-7段 *
双码三笔汉字输入法的编码技术;严喻等;《计算机科学》;20091015(第10期);全文 *
笔顺输入法的汉字搜索算法研究;常志玲等;微计算机信息(第15期);全文 *

Also Published As

Publication number Publication date
CN109344387A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344387B (zh) 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109582972B (zh) 一种基于自然语言识别的光学字符识别纠错方法
CN112800201B (zh) 自然语言的处理方法、装置及电子设备
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN112035730B (zh) 一种语义检索方法、装置及电子设备
US9898464B2 (en) Information extraction supporting apparatus and method
CN101131706A (zh) 一种查询修正方法及系统
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN110674396A (zh) 文本信息处理方法、装置、电子设备及可读存储介质
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
JP2014186395A (ja) 文書作成支援装置、方法およびプログラム
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN112925874B (zh) 基于案例标记的相似代码搜索方法及系统
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
CN114003750A (zh) 物料上线方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant