CN111859089A - 一种用于互联网信息的错词检测控制方法 - Google Patents

一种用于互联网信息的错词检测控制方法 Download PDF

Info

Publication number
CN111859089A
CN111859089A CN201910361026.1A CN201910361026A CN111859089A CN 111859089 A CN111859089 A CN 111859089A CN 201910361026 A CN201910361026 A CN 201910361026A CN 111859089 A CN111859089 A CN 111859089A
Authority
CN
China
Prior art keywords
word
information
character strings
character
internet information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910361026.1A
Other languages
English (en)
Other versions
CN111859089B (zh
Inventor
李青龙
骆飞
彭璿韜
王雪峰
韩辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN201910361026.1A priority Critical patent/CN111859089B/zh
Publication of CN111859089A publication Critical patent/CN111859089A/zh
Application granted granted Critical
Publication of CN111859089B publication Critical patent/CN111859089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于互联网信息的错词检测控制方法,包括系统在字词标准库中通过字典查找树的方式,检索需要进行错词检测的信息中是否包含组成词组的字符串,判断若存在,则返回该字符串及字符串在信息中位置的检索结果信息后,系统通过字符位置查找映射的方式,获取检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息;通过获取的信息,截取需要进行错词检测的信息的文本内容信息;系统将截取到的文本内容信息,传入文本纠错树中,获取截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编辑距离为设定阀值的截取词组。本发明解决了需要检测出互联网信息中同音错别字、字形错别字以及人名错误的技术问题。

Description

一种用于互联网信息的错词检测控制方法
技术领域
本申请涉及计算机信息技术领域,特别涉及一种用于互联网信息的错词检 测控制方法。
背景技术
近年来随着信息技术的大力发展,新媒体的发展日新月异,技术手段的革 新使得任何人可以在任何空间、任何时间里发布和接触信息,海量的信息也改 变了人们的认知过程与行为方式,但是在互联网信息的广泛传播中存在大量的 错词问题,错词问题长期广泛存在,对人们的工作和生活带来极大影响,例如, 经济合同里的错别字可能会导致巨大的商业损失,知名公众人物的错别字问题 可能会影响其发展前途,高考作文里的错别字也一定会影响到学生的升学成 绩。
当前互联网上存在的一些错词检测技术,通常只能检测成语中的错别字, 并且检测到的错别字大都只能是正确字的同音字。当前需要一种技术方案,不 仅可以检测互联网信息中的同音错别字和字形错别字,而且可以检测人名错 误。
发明内容
本申请实施例提供一种用于互联网信息的错词检测控制方法,以解决需要 检测出互联网信息中同音错别字、字形错别字以及人名错误的技术问题。
本发明提供了一种用于互联网信息的错词检测控制方法,包括:
步骤A、系统在字词标准库中通过字典查找树的方式,检索需要进行错词 检测的互联网信息中是否包含组成词组的字符串,判断若存在,则返回该字符 串及字符串在所述互联网信息中位置的检索结果信息,执行步骤B;
步骤B、系统通过字符位置查找映射的方式,获取所述检索结果信息中匹 配到的每个字符串在词组中的位置及该字符串的长度的信息;通过获取的信 息,截取需要进行错词检测的互联网信息的文本内容信息;
步骤C、系统将截取到的所述文本内容信息,传入文本纠错树中,获取截 取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编 辑距离为设定阀值的截取词组。
上述方法还可包括:所述系统在字词标准库中通过字典查找树的方式,检 索需要进行错词检测的互联网信息中是否包含组成词组的字符串,是指:所述 系统在字词标准库中通过由一种字符串构成的存储结构,快速查询需要进行错 词检测的互联网信息中是否包含构成该存储结构的字符串。
上述方法还可包括:所述系统通过字符位置查找映射的方式,获取所述检 索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息, 是指:系统通过一种快速定位字符串的映射结构,该映射结构用于存储所述字 词标准库中每个词的字符串及字符串在这个词中的位置和字符串的长度。
上述方法还可包括:所述文本纠错树是一种由字符串组成的快速判断树, 用于检测传入字符串与组成字符串之间的编辑距离是否为设定阀值。
上述方法还可包括:所述步骤A中还包括:所述系统对需要进行错词检测 的互联网信息进行分词操作,得到分词组合A=[a1,a2,a3,......,an],其中n 为正整数。
上述方法还可包括:所述系统要根据预设周期对所述字词标准库进行更 新,增加新的字词内容。
上述方法还可包括:所述步骤C后还包括:所述系统显示需要进行错词 检测的互联网信息中含有错别字的词组,结束检测操作。
上述方法还可包括:所述步骤A还包括:所述系统在字词标准库中通过字 典查找树的方式,检索需要进行错词检测的互联网信息中是否包含组成词组的 字符串,判断若不存在,则结束检测操作。
与现有技术相比,应用本发明,通过字典查找树、字符位置查找映射和文 本纠错树的设置,运用字符串的结构及关系映射,不仅可以检测互联网信息中 的同音错别字和字形错别字,而且可以检测人名错误,并且通过对字词标准库 的升级维护,增加错字检测范围;同时有效提高错字处理效率,能够满足互联 网大规模海量信息的快速处理需求,降低用户使用成本。。
附图说明
此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不 当限定。在附图中:
图1为本申请实施例提供的一种用于互联网信息的错词检测控制方法的一 种具体实施方式的流程示意图;
图2为本申请实施例提供的一种本申请中用于互联网信息的错词检测控制 方法的具体实施方式的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实 施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的 实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本申请保护的范围。
本发明提供了一种用于互联网信息的错词检测控制方法,通过字典查找 树、字符位置查找映射和文本纠错树的设置,运用字符串的结构及关系映射, 不仅可以检测互联网信息中的同音错别字和字形错别字,而且可以检测人名错 误,并且通过对字词标准库的升级维护,增加错字检测范围;同时有效提高错 字处理效率,能够满足互联网大规模海量信息的快速处理需求,降低用户使用 成本。
在本申请中主要涉及通过具有中央处理功能的设备(例如计算机或智能终 端等设备)进行互联网信息的处理。
为了方便描述,在本申请实施例中,主要通过计算机系统操作为例进行介 绍。
请参考图1,如图1所示,本申请实施例提供的一种用于互联网信息的错 词检测控制方法,包括如下步骤:
步骤110、系统在字词标准库中构建字典查找树、字符位置查找映射和文 本纠错树的设置;
其中,步骤110中主要是错词检测的准备,主要准备字典查找树,字符位 置查找映射,文本纠错树等相关检测所需工具。
字典查找树:是一种由字符串构成的特殊存储结构,可以快速查询待测文 本中是否包含构成该存储结构的字符串,如果存在,则返回该字符串以及匹配 到的字符串在文本中的位置。
字符位置查找映射:是一种快速定位字符串的映射结构,用于存储字词标 准库中每个词的字符串及字符串在这个词中的位置和字符串的长度,例如,如 果标准库中有“孟浩然”这个词,则该存储结构内会存储如下结构:
孟:1,3
浩:2,3
然:3,3
如果把“孟”传入存储结构,则会返回“孟”字在“孟浩然”一词中的位 置及该词长度“1,3”第1位,该词长度为3。
文本纠错树:是一种由字符串组成的快速判断树,可检测传入字符串与组 成字符串之间的编辑距离,是否为设定阀值。(编辑距离是针对二个字符串的 差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串 变成另一个字符串。例如:“我们”与“我的”两词的编辑距离为1)
进一步的,还包括:根据预设周期对字词标准库进行更新,增加新的字词 内容。这样使字词标准库增加错字检测范围,对于新出现的错字也可以有效的 检测出,提高了系统的错字检测识别率。
步骤120、系统在字词标准库中通过字典查找树方式,检索需要进行错词 检测的互联网信息中是否包含组成词组的字符串,判断若存在,则返回该字符 串及字符串在所述互联网信息中位置的检索结果信息,执行步骤130;否则, 结束检索操作;
其中,互联网信息可以是某新闻的信息或者某文章的内容信息等,只要是 具有传播特性的互联网信息内容都可以是本申请所指的互联网信息,本申请对 此不作任何限定。
进一步的,在步骤120中,系统对需要进行错词检测的互联网信息进行分 词操作,得到分词组合A=[a1,a2,a3,......,an],其中n为正整数;上述操作, 通过对互联网信息的文本内容进行逻辑分类,便于识别其中的词组结构,提高 了错词检测的效率。
其中,例如组成“孟浩然”的“孟”,“浩”,“然”。如果查到则返回该字 符串及字符串在待测文本中的位置,如果检测不到,则结束本次检索。
步骤130、系统通过字符位置查找映射的方式,获取所述检索结果信息中 匹配到的每个字符串在词组中的位置及该字符串的长度的信息(例如匹配到 “孟”,则通过字符位置查找映射获得的“孟:1,3”);通过获取的信息,截 取需要进行错词检测的互联网信息的文本内容信息(例如待测的互联网信息为 “唐朝诗人孟浩然”,则根据“孟”的位置信息可以截取到“孟浩然”一词);
步骤140、系统将截取到的所述文本内容信息,传入文本纠错树中,获取 截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的 编辑距离为设定阀值的截取词组。
其中编辑距离的设定阀值可以为1、2……等自然数,在此不作限定,只要 是可以识别出含有错别字的设定阀值都可以被本申请所应用。
例如:设置编辑距离为1,截取结果中有“孟号然”,而标准库中有“孟浩 然”。并且“孟号然”与“孟浩然”的编辑距离为1。那么可得知“孟号然”有 可能为含有错别字的词。
步骤150、系统显示需要进行错词检测的互联网信息中含有错别字的词组, 结束检测操作。
通过实际应用,本申请的方法可以应用于字形错别字的识别,具体实例1: 有句名言说得好:天才等于99分汗水加一分的天赋,世界上那么多出类拔河 的科学家都是用自己的努力和拼搏才造就了今天的成果。其中出类拔河正确的 为出类拔萃
通过实际应用,本申请的方法可以应用于同音错别字的识别,具体实例2: 有句名言说得好:天才等于99分汗水加一分的天赋,世界上那么多出类拔脆 的科学家都是用自己的努力和拼搏才造就了今天的成果。其中出类拔脆正确的 为出类拔萃
图2示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图 2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、 存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如 至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以 是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总 线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但 并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码 包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提 供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在 逻辑层面上形成网络覆盖性能表征装置。处理器,执行存储器所存放的程序。
如图2所示的一种电子设备,上述如本申请图1所示的方法可以应用于处 理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处 理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻 辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央 处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP) 等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体 管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方 法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何 常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件 译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。 软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电 可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存 储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质 存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用 程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的控制方法, 并具体用于执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施 例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施 例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例, 所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非 排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中 还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人 员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的 任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种用于互联网信息的错词检测控制方法,其特征在于,包括:
步骤A、系统在字词标准库中通过字典查找树的方式,检索需要进行错词检测的互联网信息中是否包含组成词组的字符串,判断若存在,则返回该字符串及字符串在所述互联网信息中位置的检索结果信息,执行步骤B;
步骤B、系统通过字符位置查找映射的方式,获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息;通过获取的信息,截取需要进行错词检测的互联网信息的文本内容信息;
步骤C、系统将截取到的所述文本内容信息,传入文本纠错树中,获取截取到的所述文本内容信息中各个词组与组成文本纠错树的标准词组之间的编辑距离为设定阀值的截取词组。
2.根据权利要求1所述的方法,其特征在于,
还包括:所述系统在字词标准库中通过字典查找树的方式,检索需要进行错词检测的互联网信息中是否包含组成词组的字符串,是指:所述系统在字词标准库中通过由一种字符串构成的存储结构,快速查询需要进行错词检测的互联网信息中是否包含构成该存储结构的字符串。
3.根据权利要求1所述的方法,其特征在于,
还包括:所述系统通过字符位置查找映射的方式,获取所述检索结果信息中匹配到的每个字符串在词组中的位置及该字符串的长度的信息,是指:系统通过一种快速定位字符串的映射结构,该映射结构用于存储所述字词标准库中每个词的字符串及字符串在这个词中的位置和字符串的长度。
4.根据权利要求1所述的方法,其特征在于,
还包括:所述文本纠错树是一种由字符串组成的快速判断树,用于检测传入字符串与组成字符串之间的编辑距离是否为设定阀值。
5.根据权利要求1至4任一所述的方法,其特征在于,
所述步骤A中还包括:所述系统对需要进行错词检测的互联网信息进行分词操作,得到分词组合A=[a1,a2,a3,......,an],其中n为正整数。
6.根据权利要求5所述的方法,其特征在于,
进一步包括:所述系统要根据预设周期对所述字词标准库进行更新,增加新的字词内容。
7.根据权利要求6所述的方法,其特征在于,
所述步骤C后还包括:所述系统显示需要进行错词检测的互联网信息中含有错别字的词组,结束检测操作。
8.根据权利要求6所述的方法,其特征在于,
所述步骤A还包括:所述系统在字词标准库中通过字典查找树的方式,检索需要进行错词检测的互联网信息中是否包含组成词组的字符串,判断若不存在,则结束检测操作。
CN201910361026.1A 2019-04-30 2019-04-30 一种用于互联网信息的错词检测控制方法 Active CN111859089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910361026.1A CN111859089B (zh) 2019-04-30 2019-04-30 一种用于互联网信息的错词检测控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910361026.1A CN111859089B (zh) 2019-04-30 2019-04-30 一种用于互联网信息的错词检测控制方法

Publications (2)

Publication Number Publication Date
CN111859089A true CN111859089A (zh) 2020-10-30
CN111859089B CN111859089B (zh) 2024-02-06

Family

ID=72965632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910361026.1A Active CN111859089B (zh) 2019-04-30 2019-04-30 一种用于互联网信息的错词检测控制方法

Country Status (1)

Country Link
CN (1) CN111859089B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186657A (zh) * 2022-07-28 2022-10-14 北京网景盛世技术开发中心 错敏信息检测方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
CN103701470A (zh) * 2013-12-27 2014-04-02 上海新浩艺软件有限公司 一种流智能预测差异压缩算法及相应的控制装置
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107229348A (zh) * 2016-03-23 2017-10-03 北京搜狗科技发展有限公司 一种输入纠错方法、装置和用于输入纠错的装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109255113A (zh) * 2018-09-04 2019-01-22 郑州信大壹密科技有限公司 智能校对系统
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109522550A (zh) * 2018-11-08 2019-03-26 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
CN103701470A (zh) * 2013-12-27 2014-04-02 上海新浩艺软件有限公司 一种流智能预测差异压缩算法及相应的控制装置
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN107229348A (zh) * 2016-03-23 2017-10-03 北京搜狗科技发展有限公司 一种输入纠错方法、装置和用于输入纠错的装置
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109255113A (zh) * 2018-09-04 2019-01-22 郑州信大壹密科技有限公司 智能校对系统
CN109522550A (zh) * 2018-11-08 2019-03-26 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YEFAN WU 等: ""Research and realization of Chinese text semantic correction Based on Rule"", 《2015 3RD INTERNATIONAL CONFERENCE ON EDUCATION, MANAGEMENT, ARTS, ECONOMICS AND SOCIAL SCIENCE(ICEMAESS 2015)》, pages 1394 - 1404 *
邓加原 等: ""基于无监督学习算法的推特文本规范化"", 《计算机应用》, pages 1887 - 1892 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186657A (zh) * 2022-07-28 2022-10-14 北京网景盛世技术开发中心 错敏信息检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111859089B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
RU2643467C1 (ru) Сопоставление разметки для похожих документов
US10783171B2 (en) Address search method and device
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US20180190270A1 (en) System and method for semantic analysis of speech
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
WO2018010579A1 (zh) 字符串的分词方法、装置及设备
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
KR20190000776A (ko) 정보 입력 방법
CN110866091A (zh) 一种数据检索方法及装置
KR20210106372A (ko) 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품
CN109743309B (zh) 一种非法请求识别方法、装置及电子设备
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
CN106547743B (zh) 一种进行翻译的方法及其系统
CN105095304A (zh) 日志模板生成方法及设备
CN107329964B (zh) 一种文本处理方法及装置
CN111046627B (zh) 一种中文文字显示方法及系统
CN111984262A (zh) 微信层叠样式表文件的处理方法、装置、设备及存储介质
WO2016155643A1 (zh) 一种基于输入的显示候选词的方法和装置
CN113961768A (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN111859089A (zh) 一种用于互联网信息的错词检测控制方法
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN110399026B (zh) 基于fpga的多源单输出复位方法、装置及相关设备
CN106202127B (zh) 一种垂直搜索引擎对检索请求的处理方法及装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant