CN102456001A

CN102456001A - 错别字的检查方法和装置

Info

Publication number: CN102456001A
Application number: CN2010105275017A
Authority: CN
Inventors: 向哲; 高超; 徐晋晖; 曹晓航
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2010-10-27
Filing date: 2010-10-27
Publication date: 2012-05-16
Anticipated expiration: 2030-10-27
Also published as: CN102456001B

Abstract

本发明提供一种错别字的检查方法和装置，涉及数据领域，为解决现有技术中错别字检查需要预先建立错别词表的技术问题而发明。所述方法包括：步骤一，获取待检查词；步骤二，将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；步骤三，判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；步骤四，根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则所述检查结果为所述待检查词正确；否则，所述检查结果为所述待检查词中有错别字。本发明能够提高错别字检查的工作效率。

Description

错别字的检查方法和装置

技术领域

本发明涉及数据领域，特别是指一种错别字的检查方法和装置。

背景技术

错别字检查是数据生产行业的典型工作环节。错别字的来源，主要有两个方面：

第一方面是由于机器原因导致的数据错误。比如OCR(Optical CharacterRecognition，光学字符识别)识别软件的识别错误。利用OCR识别软件导致的错别字，一般是同形字。

第二方面是人的错误。典型的又分为如下几类：

(1)同音字，很多情况下是由于在使用拼音输入法时选择错误。例如：“眼镜”写成“眼睛”。

(2)同形字，很多情况下是由于使用形状类型输入法(例如五笔输入法)时选择错误。例如：“体育”写成“体肓”。

(3)由于理解错误时用错字或者用错词。这些往往是由于对一些词中的汉字把握不准确。例如：“迫不及待”写成“迫不急待”；“松弛”写成“松驰”等。

对于数据生产企业而言，在生产过程中检查错别字，防止错别字流入产品，是一个成本很大的过程。

目前的错别字检查方法为机器检查错别字，典型的模式是建立一个错别词与正确词的对照表。然后通过对比分析方法甄别错别字。该方法需要维护错词表，错词表的数量决定了检查效率。但是，积累错词表是一个耗时和复杂的过程。错别字无定式，没有积累的错字、错词，是没法进行有效鉴别的。

发明内容

本发明要解决的技术问题是提供一种不需要预先建立错词表的检查错别字的方法和装置。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种错别字的检查方法，包括：

步骤一，获取待检查词；

步骤二，将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

步骤三，判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；

步骤四，根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则所述检查结果为所述待检查词正确；否则，所述检查结果为所述待检查词中有错别字。

可选的，当所述检查结果为所述待检查词中有错别字时，所述方法还包括：

步骤五，根据所述待检查词构造至少一个疑似词；

步骤六，依次判断所述至少一个疑似词是否正确；

步骤七，输出判断为正确的所述疑似词供用户选择；

步骤八，接收用户的选择指令后，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

步骤五，根据所述待检查词构造至少一个疑似词；

步骤六，依次判断所述至少一个疑似词是否正确；

步骤七，统计判断为正确的所述疑似词的数量；

步骤八，如果所述数量为0，则接收用户提供的校对词后，使用所述校对词校正有错别字的所述待检查词；如果所述数量为1，则使用正确的所述疑似词校正有错别字的所述待检查词；如果所述数量大于1，则输出正确的所述疑似词供用户选择，接收用户的选择指令后，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

所述步骤五包括：

步骤a，将所述待检查词拆分成字；

步骤b，分别查找所述拆分后的字对应的同音字、近音字、同形字或近形字，作为查找出的字；

步骤c，使用所述查找出的字代替所述拆分后的字，将所述待检查词构造成疑似词。

所述步骤一之前，所述方法还包括：

选定一空间大小为N比特的存储空间，所述存储空间的相对地址以一维向量进行编号，并从0开始，其中，N为大于0的自然数；

将所述HASH函数的值域设置为从0到N；

将正确词库中的所有正确词分别进行HASH函数处理，生成HASH函数值；

将所述HASH函数值作为所述存储空间的相对地址，将所述HASH函数值对应的相对地址处的存储内容赋值为1；将所述存储空间中没有所述HASH函数值对应的相对地址处的存储内容赋值为0；

所述步骤三具体为：将所述待检查词对应的HASH函数值作为存储空间的相对地址，判断所述待检查词的HASH函数值对应的相对地址处的存储内容是否为1，生成判断结果。

所述HASH函数为一个或者至少二个。

另一方面，提供一种错别字的检查装置，包括：

获取单元，用于获取待检查词；

第一HASH函数处理单元，用于将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

第一正确词判定单元，用于判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；

检查结果生成单元，用于根据所述判断结果生成检查结果并输出，当所述判断结果为时，则所述检查结果为所述待检查词正确；否则，所述检查结果为所述待检查词中有错别字。

所述的错别字的检查装置，还包括：

疑似词构造单元，用于当所述检查结果为所述待检查词中有错别字时，根据所述待检查词构造至少一个疑似词；

第二正确词判定单元，用于依次判断所述至少一个疑似词是否正确；

输出单元，用于输出判断为正确的所述疑似词供用户选择；

接收单元，用于接收用户的选择指令；

校正单元，用于使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

所述的错别字的检查装置，还包括：

统计单元，用于统计判断为正确的所述疑似词的数量；

接收单元，用于接收用户提供的校对词或者接收用户的选择指令；

输出单元，用于输出正确的所述疑似词供用户选择；

校正单元，用于当所述数量为0时，使用所述校对词校正有错别字的所述待检查词；当所述数量为1时，使用正确的所述疑似词校正有错别字的所述待检查词；当所述数量大于1时，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

所述疑似词构造单元包括：

拆分子单元，用于将所述待检查词拆分成字；

查找子单元，用于分别查找所述拆分后的字对应的同音字、近音字、同形字或近形字，作为查找出的字；

替代子单元，用于使用所述查找出的字代替所述拆分后的字，将所述待检查词构造成疑似词。

所述的错别字的检查装置，还包括：

设定单元，用于选定一空间大小为N比特的存储空间，所述存储空间的相对地址以一维向量进行编号，并从0开始，其中，N为大于0的自然数；

第二HASH函数处理单元，用于将所述HASH函数的值域设置为从0到N；将正确词库中的所有正确词分别进行HASH函数处理，生成HASH函数值；

赋值单元，将所述HASH函数值作为所述存储空间的相对地址，将所述HASH函数值对应的相对地址处的存储内容赋值为1；将所述存储空间中没有所述HASH函数值对应的相对地址处的存储内容赋值为0；

所述第一正确词判定单元具体为：将所述待检查词对应的HASH函数值作为存储空间的相对地址，判断所述待检查词的HASH函数值对应的相对地址处的存储内容是否为1。

本发明的实施例具有以下有益效果：

上述方案中，通过判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则所述检查结果为所述待检查词正确；否则，所述检查结果为所述待检查词中有错别字。相比于现有技术来说，不需要预先建立错词表。

附图说明

图1为本发明所述的错别字的检查方法的一实施例的流程示意图；

图2为本发明所述的错别字的检查方法的另一实施例的流程示意图；

图3为本发明所述的错别字的检查方法的另一实施例的流程示意图；

图4为本发明所述的错别字的检查装置的结构示意图；

图5为本发明所述的生成HASH函数值数据库的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，为本发明所述的一种错别字的检查方法的一实施例，包括：

步骤11，获取待检查词；

步骤12，将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

步骤13，判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；

根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则执行步骤14，所述检查结果为所述待检查词正确；否则，执行步骤15，所述检查结果为所述待检查词中有错别字。

步骤16，根据所述待检查词构造至少一个疑似词；

步骤17，依次判断所述至少一个疑似词是否正确；

步骤18，输出判断为正确的所述疑似词供用户选择；

步骤19，接收用户的选择指令后，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

如图2所示，为本发明所述的一种错别字的检查方法的另一实施例，包括：

步骤21，获取待检查词；

步骤22，将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

步骤23，判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；

根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则执行步骤24，所述检查结果为所述待检查词正确；否则，执行步骤25，所述检查结果为所述待检查词中有错别字。

当所述检查结果为所述待检查词中有错别字时，所述方法还包括：

步骤26，根据所述待检查词构造至少一个疑似词；

步骤27，依次判断所述至少一个疑似词是否正确；

步骤28，统计判断为正确的所述疑似词的数量；

如果所述数量为0，则执行步骤29，接收用户提供的校对词后，使用所述校对词校正有错别字的所述待检查词；

如果所述数量为1，则执行步骤210，使用正确的所述疑似词校正有错别字的所述待检查词；

如果所述数量大于1，则执行步骤211，输出正确的所述疑似词供用户选择，接收用户的选择指令后，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

所述步骤26包括：

步骤261，将所述待检查词拆分成字；

步骤262，分别查找所述拆分后的字对应的同音字、近音字、同形字或近形字，作为查找出的字；

步骤263，使用所述查找出的字代替所述拆分后的字，将所述待检查词构造成疑似词。

如图3所示，为本发明所述的一种错别字的检查方法的另一实施例，包括：

步骤31，选定一空间大小为N比特的存储空间，所述存储空间的相对地址以一维向量进行编号，并从0开始，其中，N为大于0的自然数；

步骤32，将所述HASH函数的值域设置为从0到N；将正确词库中的所有正确词分别进行HASH函数处理，生成HASH函数值；

步骤33，将所述HASH函数值作为所述存储空间的相对地址，将所述HASH函数值对应的相对地址处的存储内容赋值为1；将所述存储空间中没有所述HASH函数值对应的相对地址处的存储内容赋值为0；

步骤34，获取待检查词；

步骤35，将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

步骤36，将所述待检查词对应的HASH函数值作为存储空间的相对地址，判断所述待检查词的HASH函数值对应的相对地址处的存储内容是否为1，生成判断结果。

根据所述判断结果生成检查结果并输出，如果所述判断结果为是，则执行步骤37，所述检查结果为所述待检查词正确；否则，执行步骤38，所述检查结果为所述待检查词中有错别字。

所述HASH函数为一个或者至少二个。

如图4所示，为本发明所述的一种错别字的检查装置的一实施例，包括：

获取单元41，用于获取待检查词；

第一HASH函数处理单元42，用于将所述待检查词进行HASH函数处理，生成所述待检查词对应的HASH函数值；

第一正确词判定单元43，用于判断所述待检查词对应的HASH函数值是否在HASH函数值数据库中，生成判断结果，所述HASH函数值数据库由正确词库中的正确词经过函数处理生成的函数值组成；

检查结果生成单元44，用于根据所述判断结果生成检查结果并输出，当所述判断结果为时，则所述检查结果为所述待检查词正确；否则，所述检查结果为所述待检查词中有错别字。

可选的，所述的错别字的检查装置，还包括：

疑似词构造单元45，用于当所述检查结果为所述待检查词中有错别字时，根据所述待检查词构造至少一个疑似词；

第二正确词判定单元46，用于依次判断所述至少一个疑似词是否正确；

输出单元47，用于输出判断为正确的所述疑似词供用户选择；

接收单元48，用于接收用户的选择指令；

校正单元49，用于使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

可选的，所述的错别字的检查装置，还包括：统计单元410，用于统计判断为正确的所述疑似词的数量；

输出单元47，还用于输出正确的所述疑似词供用户选择；

接收单元48，还用于接收用户提供的校对词或者接收用户的选择指令；

校正单元49，还用于当所述数量为0时，使用所述校对词校正有错别字的所述待检查词；当所述数量为1时，使用正确的所述疑似词校正有错别字的所述待检查词；当所述数量大于1时，使用用户选择的正确的所述疑似词校正有错别字的所述待检查词。

所述疑似词构造单元45包括：

拆分子单元，用于将所述待检查词拆分成字；

所述的错别字的检查装置，还包括：

设定单元411，用于选定一空间大小为N比特的存储空间，所述存储空间的相对地址以一维向量进行编号，并从0开始，其中，N为大于0的自然数；

第二HASH函数处理单元412，用于将所述HASH函数的值域设置为从0到N；将正确词库中的所有正确词分别进行HASH函数处理，生成HASH函数值；

赋值单元413，将所述HASH函数值作为所述存储空间的相对地址，将所述HASH函数值对应的相对地址处的存储内容赋值为1；将所述存储空间中没有所述HASH函数值对应的相对地址处的存储内容赋值为0；

所述第一正确词判定单元43具体为：将所述待检查词对应的HASH函数值作为存储空间的相对地址，判断所述待检查词的HASH函数值对应的相对地址处的存储内容是否为1。

本发明中，正确词库存储了拼写正确的词汇。包括简单词：如“人民”“中国”；也包括各种多字词，如“得陇望蜀”，“中华人民共和国”等；也可以是组合词，例如“眼镜店”。

正确词快检表(上文所述的HASH函数值数据库)，是为了将正确词有效压缩，易于放置在内存空间，便于快速判断一个词汇是否为一个正确词。将正确词库压缩为正确词快检表后，存储空间大大减少，但如无法一次性放入内存，则可按词频将高频词的快检表放置在内存。Hash(散列)函数，就是把任意长度的输入(又叫做预映射，pre-image)，通过散列算法，变换成固定长度的输出，该输出就是散列值(本文的Hash函数值)，散列值均匀分布在哈希表的值域中。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，因此，使得正确词库生成的HASH函数值数据库占用的存储空间小于直接存储正确词库的存储空间。

同/近音字表，存储了同/近音的字。例如，同音字：“在”与“再”、“宰”；近音字：“摘”与“载”等。由于常用汉字数在万字以内，因此，同/近音字表不大，可放置在内存中。同/近音字表，可以通过自动化的方法由字典生产。

同/近形字表，储了同/近形的字。例如：“人”与“入”，“育”与“肓”等。同/近形字表可通过自动化方法生成，例如，利用笔顺相似、四角号码相似、五笔字型相似等规则生成；也可通过人工输入一些同/近形字。同/近形表不大，可放置在内存中。

以下描述本发明所述的错别字检查流程的应用场景，包括：

步骤一，输入词汇，进入正确词判定单元，进行正确词判定，这个过程中，涉及到查询正确词快检表。如果判定为正确词，则结束处理；否则，进入步骤二。例如判定“入民”不是正确词。利用正确词快检表快速判断一个词汇是否存储于正确词库，也即是否为一个正确词。例如“入民”不在正确词库内，判定不是一个正确词。

步骤二，上述输入词(也就是上文所述的待检查词，例如“入民”)输入疑似词构造单元，通过同/近音字表和同/近形字表，按照用同/近音字替换，同/近形字替换的方法，构造一组疑似词。

例如输入词为“入民”，分别拆分成：“入”和“民”。

通过查找同/近音字表和同/近形字表，获取“入”的同/近音字“如”、“乳”、获取“民”的同/近音字“闽”、“敏”、“民”等。

通过查找同/近形字表，获取“入”的同/近音字“人”。

使用所述查找出的字代替所述拆分的字，将所述待检查词“入民”构造为“如民”、“乳民”、“入闽”、“入敏”、“人民”等。

步骤三，将步骤二输出的一组疑似词，输入正确词判定单元，检查是否存在正确词。上例中五个疑似词中，输出“人民”为验证正确的疑似词。

步骤四，使用步骤三输出的验证正确的疑似词“人民”代替步骤二检查的词汇“入民”。输出“人民”为正确词，则使用“人民”代替“入民”。

如图5所示，为本发明所述的生成正确词快检表(上文所述的HASH函数值数据库)的示意图，所述方法包括：

步骤一，构造一维空间，空间的每个比特的存储内容赋值为0。例如，空间大小为80亿位，则占用空间为1GB。存储空间可放入内存以加快处理速度。

步骤二，构造多维Hash函数。例如，构造2维Hash函数，也就是说，构造两个独立的Hash函数。Hash函数的值域与上述一维空间的大小一致，为80亿。

步骤三，对正确词库中每一词汇，通过多维Hash函数构造一个多维向量。例如，“人民”，其bit串作为输入，通过上述2个Hash函数，生成值构成向量(X1，X2)

步骤四，将向量的每一维，按其值在步骤一生成的一维空间寻址，将存储空间的对应比特位赋1。如，上述(X1，X2)，将一维空间的第X1位赋1，将一维空间的第X2位赋1。

步骤五，如果正确词库仍有词未处理，则返回步骤三，直到正确词库中的每个正确词被处理。

在图5中，词的投影处(影子)的比特位赋值为1，其余的比特位赋值为0。

通过上述流程，构造一维空间及赋值，形成了正确词快检表。这个构造完成后，将结果保存。后续检查时，直接使用正确词快检表，而不需重新构造。

以下描本发明利用正确词快检表检查词汇是否正确的应用场景，包括：

步骤一，对于一个词汇，使用前述流程的多维Hash函数生成一个多维向量。例如，“人民”，其bit串作为输入，通过上述2个Hash函数，生成值构成向量(X1，X2)。当HASH函数为二维以上的多维时，HASH函数值的多维向量为存储空间以一维向量进行编号的相对地址。

步骤二，将向量的每一维，按其值在一维空间寻址。也就是说，存储空间以一维向量顺序编号，Hash函数值的多维向量转换为一维。将如，上述(X1，X2)，寻址一维空间第X1位，第X2位。如果上述位都被赋1，则判断该词汇为正确词。

本发明所述的错别字检查的方法和装置具有以下有益效果：

(1)对于错别字检查，尤其是面对海量数据，本发明是一种高效率的检查方法。现有技术中，存储错词表和正确词表都需要很大空间。在检查过程中，不论是检索错词还是正确词，都不可避免访问硬盘数据，这是整个检查效率的瓶颈。一般而言，在少量数据中检查错别字，效率尚可忍受。但是对于海量数据的错别字检查，其效率将成为问题。本发明中，在典型计算机配置下，HASH函数值数据库占用的存储空间比较小，可选的，可以预先调入内存，避免了耗时的磁盘访问，并且Hash函数计算量不大，从而在数量级上提高检查效率。

(2)本发明是一种“少量学习”甚至是“无需学习”的检查方法，从而在成本和检查错别字的正确性上都有优势。目前的错别字检查方法，需要人工不断充实错词表，未收集的错词是无法被检查的。本发明没有“错词表”，因此没有收集、充实错词表的过程。本发明所需的“同/近音字表”，“同/近形字表”，皆可一次建立而无需后期反复充实，建立过程可以是自动化过程，不消耗人工。本发明所需“正确词库”，在行业内属于成本不高、可采购的商品。

所述方法实施例是与所述装置实施例相对应的，在方法实施例中未详细描述的部分参照装置实施例中相关部分的描述即可，在装置实施例中未详细描述的部分参照方法实施例中相关部分的描述即可。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如上述方法实施例的步骤，所述的存储介质，如：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种错别字的检查方法，其特征在于，包括：

步骤一，获取待检查词；

步骤二，将所述待检查词进行哈希HASH函数处理，生成所述待检查词对应的HASH函数值；

2.根据权利要求1所述的错别字的检查方法，其特征在于，当所述检查结果为所述待检查词中有错别字时，所述方法还包括：

步骤五，根据所述待检查词构造至少一个疑似词；

步骤六，依次判断所述至少一个疑似词是否正确；

步骤七，输出判断为正确的所述疑似词供用户选择；

3.根据权利要求1所述的错别字的检查方法，其特征在于，当所述检查结果为所述待检查词中有错别字时，所述方法还包括：

步骤五，根据所述待检查词构造至少一个疑似词；

步骤六，依次判断所述至少一个疑似词是否正确；

步骤七，统计判断为正确的所述疑似词的数量；

4.根据权利要求2或3所述的错别字的检查方法，其特征在于，所述步骤五包括：

步骤a，将所述待检查词拆分成字；

5.根据权利要求1所述的错别字的检查方法，其特征在于，所述步骤一之前，所述方法还包括：

将所述HASH函数的值域设置为从0到N，将正确词库中的所有正确词分别进行HASH函数处理，生成HASH函数值；

6.根据权利要求1所述的错别字的检查方法，其特征在于，所述HASH函数为一个或者至少二个。

7.一种错别字的检查装置，其特征在于，包括：

获取单元，用于获取待检查词；

8.根据权利要求7所述的错别字的检查装置，其特征在于，还包括：

输出单元，用于输出判断为正确的所述疑似词供用户选择；

接收单元，用于接收用户的选择指令；

9.根据权利要求7所述的错别字的检查装置，其特征在于，还包括：

统计单元，用于统计判断为正确的所述疑似词的数量；

输出单元，用于输出正确的所述疑似词供用户选择；

10.根据权利要求8或9所述的错别字的检查装置，其特征在于，所述疑似词构造单元包括：

拆分子单元，用于将所述待检查词拆分成字；

11.根据权利要求7所述的错别字的检查装置，其特征在于，还包括：