CN109344387B

CN109344387B - 形近字字典的生成方法、装置和形近字纠错方法、装置

Info

Publication number: CN109344387B
Application number: CN201810865688.8A
Authority: CN
Inventors: 黄腾玉
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2023-12-19
Anticipated expiration: 2038-08-01
Also published as: CN109344387A

Abstract

本发明提供一种形近字字典的生成方法、装置和形近字纠错方法、装置，涉及信息处理技术，以解决形近字纠错难的问题而发明。该方法包括：在字形输入法中，获取汉字集合中每个汉字的字形输入法编码；根据汉字的字形输入法编码，获取每个汉字与汉字集合中其他汉字之间的编码距离；根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字，获取形近字判断结果；根据形近字判断结果为每个汉字生成形近字列表；根据每个汉字的形近字列表，为汉字集合生成形近字字典。本发明可以应用在搜索引擎中。

Description

形近字字典的生成方法、装置和形近字纠错方法、装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种形近字字典的生成方法和装置。

背景技术

搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。在实际的应用过程中，错误查询词主要包括：拼音错误、形近字错误以及多字少字错误等等，其中，形近字错误是最为常见的。含有形近字错误的错误查询词通常不会影响用户阅读和理解，但是对于搜索引擎而言，形近字错误会极大地影响搜索的准确性，从而影响用户使用搜索引擎的满意度。

纠正形近字错误需要依赖于形近字字典，搜索引擎根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正，从而获取正确查询词。然而，现有技术并没有提供一种方法能够准确地判断出两个汉字之间是否近似，进而无法提供准确的形近字字典，由于形近字字典不准确，导致修正形近字错误的难度巨大。

发明内容

本发明实施例提供一种形近字字典的生成方法和装置，以解决修正形近字错误难度大的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种形近字字典的生成方法，包括：在字形输入法中，获取汉字集合中每个汉字的字形输入法编码；根据所述汉字的字形输入法编码，获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离；根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果；根据所述形近字判断结果为每个所述汉字生成形近字列表；根据每个所述汉字的形近字列表，为所述汉字集合生成形近字字典。

进一步地，所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果包括：将所述编码距离与预先设置的阈值进行比较，如果所述编码距离小于所述阈值，获取所述形近字判断结果为形近字，否则，所述形近字判断结果为非形近字。

进一步地，所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果还包括：如果有两种以上所述字形输入法，综合每种所述字形输入法的形近字判断结果，获取最终形近字判断结果。

第二方面，本发明实施例还提供一种形近字字典的生成装置，包括：

第一获取模块，用于在字形输入法中，获取汉字集合中每个汉字的字形输入法编码；

第二获取模块，用于根据所述第一获取模块获取的所述汉字的字形输入法编码，获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离；

第三获取模块，用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果；

第一生成模块，用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表；

第二生成模块，用于根据每个所述汉字的形近字列表，为所述汉字集合生成形近字字典。

进一步地，所述第三获取模块包括：

第一获取子模块，用于将所述编码距离与预先设置的阈值进行比较，如果所述编码距离小于所述阈值，获取所述形近字判断结果为形近字，否则，所述形近字判断结果为非形近字。

进一步地，所述第三获取模块还包括：

二获取子模块，用于如果有两种以上所述字形输入法，综合每种所述字形输入法的形近字判断结果，获取最终形近字判断结果。

第三方面，本发明实施例还提供一种形近字纠错方法，包括：获取用户输入的具有形近字错误的目标错误查询词；根据所述目标错误查询词查找纠错字典，获取目标正确查询词，其中，所述纠错字典为根据以上所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。

进一步地，所述纠错字典的生成方法包括：获取正确查询词；根据以上所述的形近字字典的生成方法获得的形近字字典，对所述正确查询词中的字进行形近字替换，生成所述正确查询词对应的错误查询词列表；根据所有所述正确查询词对应的错误查询词列表，生成纠错字典。

进一步地，根据以上所述的形近字字典的生成方法获得的形近字字典，对所述正确查询词中的字进行形近字替换，生成所述正确查询词对应的错误查询词列表之后，还包括：去除所述错误查询词列表中异常的错误查询词。

第四方面，本发明实施例还提供一种形近字纠错装置，包括：

第四获取模块，用于获取用户输入的具有形近字错误的目标错误查询词；

纠错模块，用于根据所述第四获取模块获取的目标错误查询词查找纠错字典，获取目标正确查询词，其中，所述纠错字典为根据以上所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。

本发明实施例提供的技术方案，能够获取字形输入法中，汉字集合中每个汉字的字形输入法编码，并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字，从而根据判断结果生成形近字字典，使得生成的形近字字典更准确，进而能够减小形近字的纠错难度，解决了现有技术由于形近字字典不准确，造成纠正形近字错误难度大的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的形近字字典的生成方法的流程图；

图2是本发明实施例提供的形近字字典的生成装置的结构示意图；

图3是图2所示的发明实施例提供的形近字字典的生成装置中第三获取模块的结构示意图；

图4是本发明实施例提供的形近字纠错方法流程图；

图5是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图一；

图6是图4所示的本发明实施例提供的形近字纠错方法中生成纠错字典的流程图二；

图7是本发明实施例提供的形近字纠错装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的形近字字典的生成方法，包括：

步骤101，在字形输入法中，获取汉字集合中每个汉字的字形输入法编码。

本实施例所述的字形输入法为现有技术中常用的汉字输入法，本实施例不对字形输入法进行具体的限制，在实际的使用过程中，字形输入法可以包括：笔画输入法、五笔输入法、仓颉输入法、郑码输入法或者四角输入法等，此处不做一一赘述。

在本实施例中，汉字的字形输入法编码是指：在字形输入法中，生成该汉字对应的计算机程序编码。本实施例不对字形输入法编码的获取方法进行限定，在实际的使用过程中，步骤101可以通过从互联网上爬取的方式获取所有汉字的字形输入法，此处不做赘述。

步骤102，根据汉字的字形输入法编码，获取每个汉字与汉字集合中其他汉字之间的编码距离。

在本实施例中，编码距离为对两个汉字的字形输入法编码进行相似度计算获得的具体数值，在同一个字形输入法中，本领域技术人员可以采用任意方法计算两个汉字的字形输入法编码进行相似度，此处不做赘述。

步骤103，根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字，获取形近字判断结果。

具体地，步骤103可以为：将编码距离与预先设置的阈值进行比较，如果编码距离小于阈值，获取形近字判断结果为形近字，否则，形近字判断结果为非形近字。

在本实施例中，可以根据实际使用的字形输入法设置阈值，例如：当字形输入法为笔画输入法时，由于汉字笔画数量可以较多，使得字形输入法编码通常较长，所以可以设置阈值为2；当字形输入法为其他输入法时，如五笔输入法、仓颉输入法、郑码输入法或者四角输入法等，由于字形输入法编码通常较短，所以可以设置阈值为1。当然，以上仅为举例，在实际的使用过程中还可以通过其他方法设置阈值，此处不做赘述。

由于形近字在同一种字形输入法中的字形输入法编码也相似，所以可以通过步骤103准确地判断出在同一种字形输入法中两个汉字之间是否为形近字。

进一步地，虽然本实施例不对字形输入法进行具体的限制，但是，为了进一步达到生成准确的形近字字典的目的，本实施例所述的字形输入法包括以上所述的5种输入法，即：笔画输入法、五笔输入法、仓颉输入法、郑码输入法和四角输入法，此时，步骤103还可以包括综合每种字形输入法的形近字判断结果，获取最终形近字判断结果的步骤。

具体地，在步骤103获取每种字形输入法中两个汉字之间的形近字判断结果之后，可以对每个形近字判断结果进行打分或者投票，根据打分或者投票结果生成综合判断结果，将综合判断结果与预先设置的目标阈值进行比较，当达到或超过目标阈值时，则判断以上两个汉字在以上5种字形输入法中均为形近字，否则，以上两个汉字在以上5中字形输入法中均为非形近字。

例如：当在一种字形输入法中，两个汉字之间为形近字时，可以对形近字判断结果打分为1，当在另一种字形输入法中，所述两个汉字之间为非形近字时，可以对形近字判断结果打分为0，此时可以将所有的打分结果相加获得最终的目标打分结果，将该目标打分结果与预先设置的目标阈值进行比较，当达到或超过目标阈值时则判断所述两个汉字在所有字形输入法中为形近字。需要说明的是，本实施例并不对目标阈值的具体设置方法进行限定，在实际的使用过程中可以根据需要进行设置，例如：当字形输入法为5种时，可以设置目标阈值为3，此处不做赘述。

进一步地，需要说明的是，本实施例仅以字形输入法包括5种作为举例进行说明，在实际的使用过程中，可以根据需求选择字形输入法的类型和个数，例如：可以根据用户使用字形输入法的占比选择字形输入法的类型和个数，具体地，如果使用笔画输入法的用户占比为25％，使用五笔输入法的用户占比为45％，使用仓颉输入法的用户占比为5％，使用郑码输入法的用户占比为10％，使用四角输入法的用户占比为15％，可以选择五笔输入法和笔画输入法，综合五笔输入法和笔画输入法的形近字判断结果，获取最终形近字判断结果。当然，在实际的使用过程中还可以通过其他方式选择字形输入法的类型和个数，此处不对每种情况进行一一赘述。

本发明实施例提供的以上技术方案考虑到了汉字在不同字形输入法中的区别问题，综合考虑所有字形输入法中形近字的判断结果得出最终形似字判断结果，使得该最终形近字判断结果不受字形输入法的限制，更准确。

步骤104，根据形近字判断结果为每个汉字生成形近字列表。

根据以上步骤103可以获取所有汉字中任意两个汉字之间的形近字判断结果，根据形近字判断结果可以得到形近字网络图，图中每个节点为一个汉字，每个汉字相连的节点为该汉字的形近字，步骤104可以形近字网络图为每个汉字生成形近字列表。

步骤105，根据每个汉字的形近字列表，为汉字集合生成形近字字典。

如图2所示，本发明实施例还提供一种形近字字典的生成装置，包括：

第一获取模块201，用于在字形输入法中，获取汉字集合中每个汉字的字形输入法编码；

第二获取模块202，用于根据所述第一获取模块201获取的所述汉字的字形输入法编码，获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离；

第三获取模块203，用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果；

第一生成模块204，用于根据所述第三获取模块203获取的形近字判断结果为每个所述汉字生成形近字列表；

第二生成模块205，用于根据每个所述汉字的形近字列表，为所述汉字集合生成形近字字典。

进一步地，如图3所示，所述第三获取模块203可以包括：

第一获取子模块301，用于将所述编码距离与预先设置的阈值进行比较，如果所述编码距离小于所述阈值，获取所述形近字判断结果为形近字，否则，所述形近字判断结果为非形近字。

进一步地，如图3所示，所述第三获取模块203还可以包括：

第二获取子模块302，第二获取子模块，用于如果有两种以上所述字形输入法，综合每种所述字形输入法的形近字判断结果，获取最终形近字判断结果。

本实施例所述的形近字字典的生成装置具体的事项方法可以参见如图1所示的本发明实施例提供的形近字字典的生成方法所述，此处不再赘述。

本发明实施例提供的技术方案，第一获取模块能够获取字形输入法中，汉字集合中每个汉字的字形输入法编码，第三获取模块根据第二获取模块获取的每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字，第二生成模块可以根据判断结果生成形近字字典，使得生成的形近字字典更准确，进而能够减小形近字的纠错难度，解决了现有技术由于形近字字典不准确，造成纠正形近字错误难度大的问题。

如图4所示，本发明实施例还提供一种形近字纠错方法，包括：

步骤401，获取用户输入的具有形近字错误的目标错误查询词。

本实施例不对目标查询词进行具体的限制，在实际的使用过程中，目标查询词可以为固定类型的名词，其中，固定类型可以包括：剧名、演员名、歌曲名或者歌手名等；目标查询词也可以为不包含固定类型的名词的长尾词，如：惊悚题材的电影，或者古装的电视剧等等，此处不对每种情况进行一一赘述。

步骤402，根据目标错误查询词查找纠错字典，获取目标正确查询词，其中，纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。

在本实施例中，形近字字典的生成方法可以参见如图1所示，此处不再赘述。根据形近字字典生成纠错字典的方法可以如图5所示，包括：

步骤501，获取正确查询词。

在本实施例中，当正确查询词为固定类型的名词时，如：固定查询词为剧名，步骤501可以直接从资源数据库中获取正确查询词，例如：从媒体内容数据库中获取剧名；当正确查询词为不包含固定类型的名词的长尾词时，步骤501可以从用户输入的历史查询结果中获取正确查询词。

步骤502，根据形近字字典对正确查询词中的字进行形近字替换，生成正确查询词对应的错误查询词列表。

具体地，正确查询词可以为C＝C1C2…Cn，其中，C1C2…Cn为正确查询词包含的汉字，根据形近字字典查找C1C2…Cn对应的形近字，并采用查找到的形近字分别替换C1C2…Cn，为正确查询词生成具有形近字错误的错误查询词列表。

步骤503，根据所有正确查询词对应的错误查询词列表，生成纠错字典。

需要说明的时，在实际的使用过程中，步骤502根据形近字字典对正确查询词中的字进行形近字替换，生成正确查询词对应的错误查询词列表中可能存在不合理的错误查询词，尤其是正确查询词为不包含固定类型的名词的长尾词时，采用步骤502生成的错误查询词可能有语句不通的情况发生，此时，为了保证纠错字典的准确性以及易用性，如图6所示，步骤502之后还可以包括：

步骤504，去除错误查询词列表中异常的错误查询词。

在本实施例中，异常的错误查询词具体可以包括：语言逻辑不通的查询词，或者不会真实存在的查询词等，此处不做一一赘述。

在本实施例中，若错误查询词真实存在，则说明用户搜索过该错误查询词，且存在与之形近的更多用户搜索的正确查询词，此时，通过使用ngram语言模型，计算错误查询词的存在概率，若存在概率高于存在阈值，则认为是噪音，将此错误查询词从错误查询词列表中去除。

本发明实施例提供的技术方案，可以根据目标错误查询词查找纠错字典，获取目标正确查询词，由于纠错字典是根据形近字字典生成的，而形近字字典是通过获取字形输入法中，汉字集合中每个汉字的字形输入法编码，并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的，使得形近字字典更准确，由于形近字字典的准确性提高了，使得根据形近字字典生成的纠错字典更准确，进而提高了形近字就错的准确性、减小了形近字的纠错难度，解决了现有技术由于形近字字典不准确，造成纠正形近字错误难度大的问题。

如图7所示，本发明实施例还提供一种形近字纠错装置，包括：

第四获取模块701，用于获取用户输入的具有形近字错误的目标错误查询词；

纠错模块702，用于根据所述第四获取模块701获取的目标错误查询词查找纠错字典，获取目标正确查询词，其中，所述纠错字典为根据形近字字典生成的正确查询词与错误查询词的对应关系字典。

本发明实施例提供的形近字纠错装置的具体实现方法可以参见图4-6所示的本发明实施例提供的形近字纠错方法所述，此处不再赘述。

本发明实施例提供的技术方案，纠错模块702可以根据第四获取模块701获取的目标错误查询词查找纠错字典，获取目标正确查询词，由于纠错字典是根据形近字字典生成的，而形近字字典是通过获取字形输入法中，汉字集合中每个汉字的字形输入法编码，并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字的方法生成的，使得形近字字典更准确，由于形近字字典的准确性提高了，使得根据形近字字典生成的纠错字典更准确，进而提高了形近字就错的准确性、减小了形近字的纠错难度，解决了现有技术由于形近字字典不准确，造成纠正形近字错误难度大的问题。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种形近字字典的生成方法，其特征在于，包括：

在字形输入法中，获取汉字集合中每个汉字的字形输入法编码；

根据所述汉字的字形输入法编码，获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离；

根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果；

根据所述形近字判断结果为每个所述汉字生成形近字列表；

根据每个所述汉字的形近字列表，为所述汉字集合生成形近字字典；

所述根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果，还包括：

根据用户使用所述字形输入法的占比，选择所述字形输入法的类型；

对每种类型所述字形输入法的形近字判断结果进行打分，得到打分结果；

根据所述打分结果生成综合判断结果；

将所述综合判断结果与目标阈值进行比较，当所述综合判断结果达到或超过目标阈值时，所述汉字与所述汉字集合中其他汉字之间为形近字；所述目标阈值是根据所述字形输入法的类型的数量设置的；所述综合判断结果是将所述打分结果相加后得到的；所述字形输入法包括笔画输入法、五笔输入法、仓颉输入法、郑码输入法、四角输入法。

2.根据权利要求1所述的方法，其特征在于，所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字，获取形近字判断结果包括：

将所述编码距离与预先设置的阈值进行比较，如果所述编码距离小于所述阈值，获取所述形近字判断结果为形近字，否则，所述形近字判断结果为非形近字。

3.一种形近字字典的生成装置，其特征在于，包括：

第二生成模块，用于根据每个所述汉字的形近字列表，为所述汉字集合生成形近字字典；

所述第三获取模块，还用于根据用户使用所述字形输入法的占比，选择所述字形输入法的类型；对每种类型所述字形输入法的形近字判断结果进行打分，得到打分结果；根据所述打分结果生成综合判断结果；将所述综合判断结果与目标阈值进行比较，当所述综合判断结果达到或超过目标阈值时，所述汉字与所述汉字集合中其他汉字之间为形近字；所述目标阈值是根据所述字形输入法的类型的数量设置的；所述综合判断结果是将所述打分结果相加后得到的；所述字形输入法包括笔画输入法、五笔输入法、仓颉输入法、郑码输入法、四角输入法。

4.根据权利要求3所述的装置，其特征在于，所述第三获取模块包括：

5.一种形近字纠错方法，其特征在于，包括：

获取用户输入的具有形近字错误的目标错误查询词；

根据所述目标错误查询词查找纠错字典，获取目标正确查询词，其中，所述纠错字典为根据所述权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。

6.根据权利要求5所述的方法，其特征在于，所述纠错字典的生成方法包括：

获取正确查询词；

根据权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典，对所述正确查询词中的字进行形近字替换，生成所述正确查询词对应的错误查询词列表；

根据所有所述正确查询词对应的错误查询词列表，生成纠错字典。

7.根据权利要求6所述的方法，其特征在于，所述根据权利要求1-2中任意一项所述的形近字字典的生成方法获得的形近字字典，对所述正确查询词中的字进行形近字替换，生成所述正确查询词对应的错误查询词列表之后，还包括：

去除所述错误查询词列表中异常的错误查询词。

8.一种形近字纠错装置，其特征在于，包括：

纠错模块，用于根据所述第四获取模块获取的目标错误查询词查找纠错字典，获取目标正确查询词，其中，所述纠错字典为根据所述权利要求1-2中任意一项所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。