CN111859089A

CN111859089A - 一种用于互联网信息的错词检测控制方法

Info

Publication number: CN111859089A
Application number: CN201910361026.1A
Authority: CN
Inventors: 李青龙; 骆飞; 彭璿韜; 王雪峰; 韩辉
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30
Anticipated expiration: 2039-04-30
Also published as: CN111859089B

Abstract

一种用于互联网信息的错词检测控制方法，包括系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的信息中是否包含组成词组的字符串，判断若存在，则返回该字符串及字符串在信息中位置的检索结果信息后,系统通过字符位置查找映射的方式，获取检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息；通过获取的信息，截取需要进行错词检测的信息的文本内容信息；系统将截取到的文本内容信息，传入文本纠错树中，获取截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编辑距离为设定阀值的截取词组。本发明解决了需要检测出互联网信息中同音错别字、字形错别字以及人名错误的技术问题。

Description

一种用于互联网信息的错词检测控制方法

技术领域

本申请涉及计算机信息技术领域，特别涉及一种用于互联网信息的错词检测控制方法。

背景技术

近年来随着信息技术的大力发展，新媒体的发展日新月异，技术手段的革新使得任何人可以在任何空间、任何时间里发布和接触信息，海量的信息也改变了人们的认知过程与行为方式，但是在互联网信息的广泛传播中存在大量的错词问题，错词问题长期广泛存在，对人们的工作和生活带来极大影响，例如，经济合同里的错别字可能会导致巨大的商业损失，知名公众人物的错别字问题可能会影响其发展前途，高考作文里的错别字也一定会影响到学生的升学成绩。

当前互联网上存在的一些错词检测技术，通常只能检测成语中的错别字，并且检测到的错别字大都只能是正确字的同音字。当前需要一种技术方案，不仅可以检测互联网信息中的同音错别字和字形错别字，而且可以检测人名错误。

发明内容

本申请实施例提供一种用于互联网信息的错词检测控制方法，以解决需要检测出互联网信息中同音错别字、字形错别字以及人名错误的技术问题。

本发明提供了一种用于互联网信息的错词检测控制方法，包括：

步骤A、系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，判断若存在，则返回该字符串及字符串在所述互联网信息中位置的检索结果信息，执行步骤B；

步骤B、系统通过字符位置查找映射的方式，获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息；通过获取的信息，截取需要进行错词检测的互联网信息的文本内容信息；

步骤C、系统将截取到的所述文本内容信息，传入文本纠错树中，获取截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编辑距离为设定阀值的截取词组。

上述方法还可包括：所述系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，是指：所述系统在字词标准库中通过由一种字符串构成的存储结构，快速查询需要进行错词检测的互联网信息中是否包含构成该存储结构的字符串。

上述方法还可包括：所述系统通过字符位置查找映射的方式，获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息，是指：系统通过一种快速定位字符串的映射结构，该映射结构用于存储所述字词标准库中每个词的字符串及字符串在这个词中的位置和字符串的长度。

上述方法还可包括：所述文本纠错树是一种由字符串组成的快速判断树，用于检测传入字符串与组成字符串之间的编辑距离是否为设定阀值。

上述方法还可包括：所述步骤A中还包括：所述系统对需要进行错词检测的互联网信息进行分词操作，得到分词组合A＝[a₁，a₂，a₃，......，a_n]，其中n 为正整数。

上述方法还可包括：所述系统要根据预设周期对所述字词标准库进行更新，增加新的字词内容。

上述方法还可包括：所述步骤C后还包括：所述系统显示需要进行错词检测的互联网信息中含有错别字的词组，结束检测操作。

上述方法还可包括：所述步骤A还包括：所述系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，判断若不存在，则结束检测操作。

与现有技术相比，应用本发明，通过字典查找树、字符位置查找映射和文本纠错树的设置，运用字符串的结构及关系映射，不仅可以检测互联网信息中的同音错别字和字形错别字，而且可以检测人名错误，并且通过对字词标准库的升级维护，增加错字检测范围；同时有效提高错字处理效率，能够满足互联网大规模海量信息的快速处理需求，降低用户使用成本。。

附图说明

此处所说明的附图用于提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种用于互联网信息的错词检测控制方法的一种具体实施方式的流程示意图；

图2为本申请实施例提供的一种本申请中用于互联网信息的错词检测控制方法的具体实施方式的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供了一种用于互联网信息的错词检测控制方法，通过字典查找树、字符位置查找映射和文本纠错树的设置，运用字符串的结构及关系映射，不仅可以检测互联网信息中的同音错别字和字形错别字，而且可以检测人名错误，并且通过对字词标准库的升级维护，增加错字检测范围；同时有效提高错字处理效率，能够满足互联网大规模海量信息的快速处理需求，降低用户使用成本。

在本申请中主要涉及通过具有中央处理功能的设备(例如计算机或智能终端等设备)进行互联网信息的处理。

为了方便描述，在本申请实施例中，主要通过计算机系统操作为例进行介绍。

请参考图1，如图1所示，本申请实施例提供的一种用于互联网信息的错词检测控制方法，包括如下步骤：

步骤110、系统在字词标准库中构建字典查找树、字符位置查找映射和文本纠错树的设置；

其中，步骤110中主要是错词检测的准备，主要准备字典查找树，字符位置查找映射，文本纠错树等相关检测所需工具。

字典查找树：是一种由字符串构成的特殊存储结构，可以快速查询待测文本中是否包含构成该存储结构的字符串，如果存在，则返回该字符串以及匹配到的字符串在文本中的位置。

字符位置查找映射：是一种快速定位字符串的映射结构，用于存储字词标准库中每个词的字符串及字符串在这个词中的位置和字符串的长度，例如，如果标准库中有“孟浩然”这个词，则该存储结构内会存储如下结构：

孟：1，3

浩：2，3

然：3，3

如果把“孟”传入存储结构，则会返回“孟”字在“孟浩然”一词中的位置及该词长度“1，3”第1位，该词长度为3。

文本纠错树：是一种由字符串组成的快速判断树，可检测传入字符串与组成字符串之间的编辑距离，是否为设定阀值。(编辑距离是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。例如：“我们”与“我的”两词的编辑距离为1)

进一步的，还包括：根据预设周期对字词标准库进行更新，增加新的字词内容。这样使字词标准库增加错字检测范围，对于新出现的错字也可以有效的检测出，提高了系统的错字检测识别率。

步骤120、系统在字词标准库中通过字典查找树方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，判断若存在，则返回该字符串及字符串在所述互联网信息中位置的检索结果信息，执行步骤130；否则，结束检索操作；

其中，互联网信息可以是某新闻的信息或者某文章的内容信息等，只要是具有传播特性的互联网信息内容都可以是本申请所指的互联网信息，本申请对此不作任何限定。

进一步的，在步骤120中，系统对需要进行错词检测的互联网信息进行分词操作，得到分词组合A＝[a₁，a₂，a₃，......，a_n]，其中n为正整数；上述操作，通过对互联网信息的文本内容进行逻辑分类，便于识别其中的词组结构，提高了错词检测的效率。

其中，例如组成“孟浩然”的“孟”，“浩”，“然”。如果查到则返回该字符串及字符串在待测文本中的位置，如果检测不到，则结束本次检索。

步骤130、系统通过字符位置查找映射的方式，获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息(例如匹配到 “孟”，则通过字符位置查找映射获得的“孟：1，3”)；通过获取的信息，截取需要进行错词检测的互联网信息的文本内容信息(例如待测的互联网信息为 “唐朝诗人孟浩然”，则根据“孟”的位置信息可以截取到“孟浩然”一词)；

步骤140、系统将截取到的所述文本内容信息，传入文本纠错树中，获取截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编辑距离为设定阀值的截取词组。

其中编辑距离的设定阀值可以为1、2……等自然数，在此不作限定，只要是可以识别出含有错别字的设定阀值都可以被本申请所应用。

例如：设置编辑距离为1，截取结果中有“孟号然”，而标准库中有“孟浩然”。并且“孟号然”与“孟浩然”的编辑距离为1。那么可得知“孟号然”有可能为含有错别字的词。

步骤150、系统显示需要进行错词检测的互联网信息中含有错别字的词组，结束检测操作。

通过实际应用，本申请的方法可以应用于字形错别字的识别，具体实例1: 有句名言说得好：天才等于99分汗水加一分的天赋，世界上那么多出类拔河的科学家都是用自己的努力和拼搏才造就了今天的成果。其中出类拔河正确的为出类拔萃。

通过实际应用，本申请的方法可以应用于同音错别字的识别，具体实例2: 有句名言说得好：天才等于99分汗水加一分的天赋，世界上那么多出类拔脆的科学家都是用自己的努力和拼搏才造就了今天的成果。其中出类拔脆正确的为出类拔萃。

图2示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图 2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成网络覆盖性能表征装置。处理器，执行存储器所存放的程序。

如图2所示的一种电子设备，上述如本申请图1所示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP) 等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－ Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中的控制方法，并具体用于执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，本申请中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于互联网信息的错词检测控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

还包括：所述系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，是指：所述系统在字词标准库中通过由一种字符串构成的存储结构，快速查询需要进行错词检测的互联网信息中是否包含构成该存储结构的字符串。

3.根据权利要求1所述的方法，其特征在于，

还包括：所述系统通过字符位置查找映射的方式，获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息，是指：系统通过一种快速定位字符串的映射结构，该映射结构用于存储所述字词标准库中每个词的字符串及字符串在这个词中的位置和字符串的长度。

4.根据权利要求1所述的方法，其特征在于，

还包括：所述文本纠错树是一种由字符串组成的快速判断树，用于检测传入字符串与组成字符串之间的编辑距离是否为设定阀值。

5.根据权利要求1至4任一所述的方法，其特征在于，

所述步骤A中还包括：所述系统对需要进行错词检测的互联网信息进行分词操作，得到分词组合A＝[a₁，a₂，a₃，......，a_n]，其中n为正整数。

6.根据权利要求5所述的方法，其特征在于，

进一步包括：所述系统要根据预设周期对所述字词标准库进行更新，增加新的字词内容。

7.根据权利要求6所述的方法，其特征在于，

所述步骤C后还包括：所述系统显示需要进行错词检测的互联网信息中含有错别字的词组，结束检测操作。

8.根据权利要求6所述的方法，其特征在于，

所述步骤A还包括：所述系统在字词标准库中通过字典查找树的方式，检索需要进行错词检测的互联网信息中是否包含组成词组的字符串，判断若不存在，则结束检测操作。