CN113705203A - 文本纠错方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本纠错方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113705203A CN113705203A CN202111026986.6A CN202111026986A CN113705203A CN 113705203 A CN113705203 A CN 113705203A CN 202111026986 A CN202111026986 A CN 202111026986A CN 113705203 A CN113705203 A CN 113705203A
- Authority
- CN
- China
- Prior art keywords
- variant
- words
- text
- word
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000000873 masking effect Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本纠错方法、装置、电子设备及计算机可读存储介质,属于数据处理技术的领域,该文本纠错方法包括:对待处理文本进行分词,得到分词结果,并将分词结果中连续的孤立字单元进行拼接得到变体词,再查询预先构建的变体词库中是否包含所述变体词,若不包含,则对待处理文本中的变体词进行掩膜得到掩码文本,采用掩码语言模型,对掩码文本中的掩码区域进行预测,得到多个预测词,接着判断各预测词中是否存在与变体词匹配的预测词,若是,则将掩码文本中的变体词替换为该匹配的预测词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。
Description
技术领域
本申请涉及数据处理技术,尤其是涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机网络的飞速发展,诸多网络社交平台如微博、微信、聊天社区、视频弹幕等走进了人们的生活,这些网络平台每天都在持续不断地产生海量的用户交互数据,如文本数据。相比于正式场合的文本语言,产生自网络平台的网络语言有着明显的多变性和随意性,具体变现为,文本语言的表述存在着大量的音同字异、网络习惯替代用语、形近字替代、同义词变体、音字混合、拼音缩写等诸多情形。
面对这类包含网络语言的网络文本,使用传统的基于指定关键字或者基于配通符弹性匹配的信息检索方法已经不能胜任,从而给网络场景下有效的信息审核和监管带来了困难。目前,通常使用基于N-Gram模型的文本纠错方法对这类网络文本进行纠错处理,但是这种方法受限于模型本身,N-Gram模型中的N值若较小,则不能有效捕捉上下文信息,而N值较大则会面临数据稀疏的问题,从而导致训练出的N-Gram模型在现实中的纠错效果较差。
发明内容
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
本申请的目的包括,提供一种文本纠错方法、系统、电子设备及计算机可读存储介质,在一定程度上能够改善目前的文本纠错方法纠错效果较差的问题。
第一方面,本申请提供一种文本纠错方法,采用如下的技术方案:
一种文本纠错方法,所述方法包括:
对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词;
查询预先构建的变体词库中是否包含所述变体词,若不包含,则对所述待处理文本中的所述变体词进行掩膜得到掩码文本,采用掩码语言模型,对所述掩码文本中的掩码区域进行预测,得到多个预测词;
判断各所述预测词中是否存在与所述变体词匹配的预测词,若是,则将所述掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本。
在一种可能的实施方式中,所述方法还包括:
若各所述预测词中不存在与所述变体词匹配的预测词,则将所述待处理文本进行拼音化处理,得到拼音文本,采用拼音文字转换模型对所述拼音文本进行处理,得到文字文本;
根据所述变体词在所述待处理文本中的位置,在所述文字文本中找到该位置对应的词或词组,将所述待处理文本中的所述变体词替换为所述词或词组,以得到纠错后的文本。
在一种可能的实施方式中,所述判断各所述预测词中是否存在与所述变体词匹配的预测词的步骤,包括:
将各所述预测词和所述变体词进行拼音化处理,将拼音化后的各所述预测词与所述变体词的拼音进行比较;
若匹配到与所述变体词的拼音一致的预测词,则判定各所述预测词中存在与所述变体词匹配的预测词;
否则,判定各所述预测词中不存在与所述变体词匹配的预测词。
在一种可能的实施方式中,所述将拼音化后的各所述预测词与所述变体词的拼音进行比较的步骤,包括:
将各所述预测词按照各自的置信度进行降序排列,将拼音化后的各所述预测词按照排列顺序依次与所述变体词的拼音进行比较;
其中,所述置信度由采用掩码语言模型对所述掩码文本中的掩码区域进行预测而获得。
在一种可能的实施方式中,所述方法还包括:
若预先构建的所述变体词库中包含所述变体词,则用所述变体词库中与该变体词具有对应关系的原形词替换所述待处理文本中的该变体词,以得到纠错后的文本。
在一种可能的实施方式中,所述对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词的步骤,包括:
对待处理文本进行分词,得到分词结果,所述分词结果包括多个词组单元;
从多个所述词组单元中确定孤立字单元,并判断是否有连续的孤立字单元;
若是,则将该连续的孤立字单元进行拼接得到变体词。
在一种可能的实施方式中,所述方法还包括预先构建变体词库的步骤,该步骤包括:
获取网络中所使用的变体词,并获取每个所述变体词的原形词;
针对每个所述变体词,将该变体词与该变体词的原形词以结构体数组的形式存储于变体词库中。
第二方面,本申请提供一种文本纠错装置,采用如下的技术方案:
一种文本从纠错装置,包括:
分词模块,用于对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词;
预测词获取模块,用于查询预先构建的变体词库中是否包含所述变体词,若不包含,则对所述待处理文本中的所述变体词进行掩膜得到掩码文本,采用掩码语言模型,对所述掩码文本中的掩码区域进行预测,得到多个预测词;
匹配处理模块,用于判断各所述预测词中是否存在与所述变体词匹配的预测词,若是,则将所述掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本。
第三方面,本申请提供一种电子设备,采用如下技术方案:
一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法。
第四方案,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在的电子设备执行第一方面所述的方法。
本申请实施方式的有益效果包括,例如:
本申请实施方式提供一种纠错方法、装置、电子设备和计算机可读存储介质,利用分词工具蕴含的概率语言模型能力,对待处理文本进行分词,根据分词结果中连续的孤立字单元得到变体词,当查询到变体词库中不包含该变体词时,将变体词进行掩膜得到掩码文本,采用掩码语言模型对掩码文本进行预测,得到掩码语言模型对掩码文本中该掩码区域的预测词,从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施方式,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种实施方式的电子设备的结构框图。
图2为一种实施方式的文本纠错方法的流程示意图。
图3为另一种实施方式的文本纠错方法的流程示意图。
图4为又另一种实施方式的文本纠错方法的流程示意图。
图5为图2步骤S101的子步骤的一种实施方式的流程示意图。
图6为图2步骤S104的子步骤的一种实施方式的流程示意图。
图7为一种实施方式的预先构建变体词库的流程示意图。
图8为一种实施方式的文本纠错装置的结构框图。
附图标记说明:01-电子设备;02-处理器;03-存储器;04-分词模块;05-预测词获取模块;06-匹配处理模块;07-第二替换模块;08-拼音文字转换模块;09-第一替换模块。
具体实施方式
为使本申请实施方式的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。通常在此处附图中描述和示出的本申请实施方式的组件可以以各自不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施方式的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下获得的所有其他实施方式,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
参照图1,为本申请实施方式提供的一种电子设备的方框结构示意图,该电子设备01可以包括但不限于存储器03和处理器02。
其中,处理器02和存储器03均位于电子设备01中却二者分离设置。然而,应当理解的是,存储器03可以替换成计算机可读存储介质,且存储器03和计算机可读存储介质都可以是独立于电子设备01之外,且可以由处理器02通过总线接口来访问。此外,存储器03可以集成到处理器02中,例如,可以是高速缓存和/或通用寄存器。
在本实施方式中,计算机可读存储介质和存储器03均可用于存储计算机程序,处理器02执行计算机程序时,能够实现本申请实施方式给出的文本纠错方法。
需要说明的是,图1所示的电子设备01的结构示意图,电子设备01还可以包括比图1中所示更多或更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。电子设备01可以是,但不限于计算机、手机、IPad、服务器、笔记本电脑、移动上网设备等。
在一种实施方式中,提供了一种文本纠错方法,如图2所示,包括以下步骤:
步骤S101,对待处理文本进行分词,得到分词结果,并将分词结果中连续的孤立字单元进行拼接得到变体词。
步骤S102,查询预先构建的变体词库中是否包含变体词。
若不包含,则执行步骤S103。
步骤S103,对待处理文本中的变体词进行掩膜得到掩码文本,采用掩码语言模型,对掩码文本中的掩码区域进行预测,得到多个预测词。
步骤S104,判断各预测词中是否存在与变体词匹配的预测词。
若是,则执行步骤S105。
步骤S105,将掩码文本中的变体词替换为该匹配的预测词,以得到纠错后的文本。
其中,掩码语言模型为采用全词掩码(Whole Word Masking,WWM)方式,采用机器学习算法,基于大文本数据训练得到,能够根据掩码文本的上下文,对掩码区域进行预测。
上述文本纠错方法,先利用了分词工具蕴含的概率语言模型能力,对待处理文本进行分词,根据分词结果中连续的孤立字单元得到变体词,当查询到变体词库中不包含该变体词时,再将变体词进行掩膜得到掩码文本,采用掩码语言模型对掩码文本进行预测,得到掩码语言模型对掩码文本中该掩码区域的预测词,从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。
在一种实施方式中,训练掩码语言模型(Masked Language Modeling,MLM)时,可以采用BERT(Bidirectional Encoder Representation from Transformers)、RoBERTa、ALBERT等模型中任一种模型。
需要说明的是,在上述步骤S103中,掩码语言模型预测出K个预测词,且同时输出每个预测词的置信度,该置信度用于表示该预测词为掩码区域的变体词所对应的原形词的概率。其中,K值可以根据实际需要或按照井眼进行设置。
在一种实施方式中,如图3所示,为本纠错方法还包括以下步骤:
若预先构建的变体词库中包含变体词,则执行步骤S106。
步骤S106,用变体词库中与该变体词具有对应关系的原形词替换待处理文本中的该变体词,以得到纠错后的文本。
具体地,在上述步骤S102中判定预先构建的变体词库中包含由孤立字单元拼接得到的变体词,则执行步骤S106。若步骤S102中判定预先构建的变体词库中不包括由孤立字单元拼接得到的变体词,则执行步骤S103。
在一种实施方式中,如图4所示,文本纠错方法还包括如下步骤:
若各预测词中不存在与所述变体词匹配的预测词,则执行步骤S107。
步骤S107,将待处理文本进行拼音化处理,得到拼音文本,采用拼音文字转换模型对拼音文本进行处理,得到文字文本。
步骤S108,根据变体词在待处理文本中的位置,在文字文本中找到该位置对应的词或词组,将待处理文本中的变体词替换为词或词组,以得到纠错后的文本。
其中,拼音文字转换模型为预先训练好的模型,能够将拼音文本转换为文字文本。
具体地,在上述步骤S104中判定各预测词中存在与变体词匹配的预测词,则执行步骤S105。若步骤S104中判定各预测词中不存在与变体词匹配的预测词,则执行步骤S107,接着执行步骤S108。
在本实施方式的文本纠错方法中,综合利用了变体词库纠错的准确性和可靠性,掩码语言模型基于大文本数据训练的强大的上下文分析纠错能力,以及拼音文字转换模型的映射纠错能力,并将上述三种纠错方法进行级联设置,多环节对待处理文本进行纠错,极大增强整体纠错能力,进而极大地提高了纠错效果。同时,一旦其中某个环节已经获取到变体词的原形词,则纠错结束,无需执行完所有环节,从而在一定程度上保证了纠错处理的高效性。
在一种实施方式中,拼音文字转换模型的训练方式包括:
以大量文字拼音数据作为训练集,训练集中的每个拼音文本均有其对应的文字文本。
采用机器学习模型,以拼音文本作为输入,对应的文字文本作为输出,进行训练,得到拼音文字转换模型。
其中,机器学习模型包括Seq2Seq模型、Transformer模型等自然语言处理模型中的任几种。
在一种实施方式中,如图5所示,为步骤S101的一种子步骤的流程示意图,包括如下步骤:
步骤S201,对待处理文本进行分词,得到分词结果。
其中,所述分词结果包括多个词组单元。各个词组单元可能是孤立字单元,也可能是多字单元。
步骤S202,从多个词组单元中确定孤立字单元。
步骤S203,判断是否有连续的孤立字单元。
若是,则执行步骤S204。
否则,则该待处理文本为无需纠错的文本。
步骤S204,将该连续的孤立字单元进行拼接得到变体词。
变体词大多为音同字异、网络习惯替代用语、形近字替代、同义词变体、音字混合、拼音缩写,故而大多数变体词经过分词处理后字与字不能成词。因此,先对待处理文本进行分词后得到孤立字单元,连续的孤立字单元为变体词的几率较大,从而能够快速查找出待处理文本中的变体词。
在一种实施方式中,如图6所示,为步骤S104的一种子步骤的流程示意图,包括以下步骤:
步骤S301,将各预测词和变体词进行拼音化处理,将拼音化后的各预测词与变体词的拼音进行比较。
若匹配到与变体词的拼音一致的预测词,则执行步骤S302。
否则,执行步骤S303。
步骤S302,判定各预测词中存在与变体词匹配的预测词。
步骤S303,判定各预测词中不存在与变体词匹配的预测词。
将预测词和变体词都进行拼音化之后,再进行比较,在一定程度上能够判断出该变体词与预测词是否为音同字异、音字混合、拼音缩写等情形。
由于网络文本中的变体词大多为音同字异、音字混合、拼音缩写,因此,将预测词和变体词都进行拼音化之后,再进行比较,能够更为全面地进行变体词匹配。
在一种实施方式中,上述步骤S301包括:
将各预测词按照各自的置信度进行降序排列,将拼音化后的各预测词按照排列顺序依次与变体词的拼音进行比较。
其中,置信度由采用掩码语言模型对掩码文本中的掩码区域进行预测而获得。
置信度表示掩码语音模型所预测的预测词为掩码区域的变体词的原形词的概率,按照置信度从高到低的顺序,将拼音化的预测词依次与拼音化后的变体词进行比较,一旦有拼音化的预测词与该拼音化后的变体词匹配,则结束比较,可提高匹配速度,以提高快速匹配到预测词的几率。
在一种实施方式中,提供的文本纠错方法还包括预先构建变体词库的步骤,如图7所示,该步骤包括:
步骤S401,获取网络中所使用的变体词,并获取每个变体词的原形词。
步骤S402,针对每个变体词,将该变体词与该变体词的原形词以结构体数组的形式存储于变体词库中。
具体地,变体词库中的数据格式设计为key—value结构,key为变体词,value为变体词所对应的原形词。
需要说明的是,使用文本纠错方法进行文本纠错时,无需每次都进行步骤S401-步骤S402。具体地,每隔一段时间可以进行步骤S401-步骤S402的方法,以更新变体词库中的变体词。
在一种实施方式中,如图8所示,提供了一种文本纠错装置,包括:分词模块04、预测词获取模块05和匹配处理模块06,其中:
分词模块04,用于对待处理文本进行分词,得到分词结果,并将分词结果中连续的孤立字单元进行拼接得到变体词。
预测词获取模块05,用于查询预先构建的变体词库中是否包含变体词,若不包含,则对待处理文本中的变体词进行掩膜得到掩码文本,采用掩码语言模型,对掩码文本中的掩码区域进行预测,得到多个预测词。
匹配处理模块06,用于判断各预测词中是否存在与变体词匹配的预测词,若是,则将掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本。
在一种实施方式中,该文本纠错装置还包括:拼音文字转换模块08和第一替换模块09。
拼音文字转换模块08,用于若各预测词中不存在与变体词匹配的预测词,则将待处理文本进行拼音化处理,得到拼音文本,采用拼音文字转换模型对拼音文本进行处理,得到文字文本。
第一替换模块09,用于根据变体词在待处理文本中的位置,在文字文本中找到该位置对应的词或词组,将待处理文本中的变体词替换为词或词组,以得到纠错后的文本。
在一种实施方式中,该文本纠错装置还包括第二替换模块07。
第二替换模块07,用于若预先构建的变体词库中包含变体词,则用变体词库中与该变体词具有对应关系的原形词替换待处理文本中的该变体词,以得到纠错后的文本。
进一步的,上述匹配处理模块06包括比较单元和判定单元。
比较单元,用于将各预测词和所述变体词进行拼音化处理,将拼音化后的各预测词与变体词的拼音进行比较。
判定单元,用于若匹配到与变体词的拼音一致的预测词,则判定各预测词中存在与变体词匹配的预测词,否则,判定各预测词中不存在与变体词匹配的预测词。
上述文本纠错装置,先利用了分词工具蕴含的概率语言模型能力,对待处理文本进行分词,根据分词结果中连续的孤立字单元得到变体词,当查询到变体词库中不包含该变体词时,再将变体词进行掩膜得到掩码文本,采用掩码语言模型对掩码文本进行预测,得到掩码语言模型对掩码文本中该掩码区域的预测词,从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。
在本公开所提供的几个实施方式中,应该理解到,所揭露的装置、系统图和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备01,或者网络设备等)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器03(ROM,Read-Only Memory)、随机存取存储器03(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的可选实施方式而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种文本纠错方法,其特征在于,所述方法包括:
对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词;
查询预先构建的变体词库中是否包含所述变体词,若不包含,则对所述待处理文本中的所述变体词进行掩膜得到掩码文本,采用掩码语言模型,对所述掩码文本中的掩码区域进行预测,得到多个预测词;
判断各所述预测词中是否存在与所述变体词匹配的预测词,若是,则将所述掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若各所述预测词中不存在与所述变体词匹配的预测词,则将所述待处理文本进行拼音化处理,得到拼音文本,采用拼音文字转换模型对所述拼音文本进行处理,得到文字文本;
根据所述变体词在所述待处理文本中的位置,在所述文字文本中找到该位置对应的词或词组,将所述待处理文本中的所述变体词替换为所述词或词组,以得到纠错后的文本。
3.根据权利要求1或2所述的方法,其特征在于,所述判断各所述预测词中是否存在与所述变体词匹配的预测词的步骤,包括:
将各所述预测词和所述变体词进行拼音化处理,将拼音化后的各所述预测词与所述变体词的拼音进行比较;
若匹配到与所述变体词的拼音一致的预测词,则判定各所述预测词中存在与所述变体词匹配的预测词;
否则,判定各所述预测词中不存在与所述变体词匹配的预测词。
4.根据权利要求3所述的方法,其特征在于,所述将拼音化后的各所述预测词与所述变体词的拼音进行比较的步骤,包括:
将各所述预测词按照各自的置信度进行降序排列,将拼音化后的各所述预测词按照排列顺序依次与所述变体词的拼音进行比较;
其中,所述置信度由采用掩码语言模型对所述掩码文本中的掩码区域进行预测而获得。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若预先构建的所述变体词库中包含所述变体词,则用所述变体词库中与该变体词具有对应关系的原形词替换所述待处理文本中的该变体词,以得到纠错后的文本。
6.根据权利要求1或2所述的方法,其特征在于,所述对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词的步骤,包括:
对待处理文本进行分词,得到分词结果,所述分词结果包括多个词组单元;
从多个所述词组单元中确定孤立字单元,并判断是否有连续的孤立字单元;
若是,则将该连续的孤立字单元进行拼接得到变体词。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括预先构建变体词库的步骤,该步骤包括:
获取网络中所使用的变体词,并获取每个所述变体词的原形词;
针对每个所述变体词,将该变体词与该变体词的原形词以结构体数组的形式存储于变体词库中。
8.一种文本纠错装置,其特征在于,包括:
分词模块,用于对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词;
预测词获取模块,用于查询预先构建的变体词库中是否包含所述变体词,若不包含,则对所述待处理文本中的所述变体词进行掩膜得到掩码文本,采用掩码语言模型,对所述掩码文本中的掩码区域进行预测,得到多个预测词;
匹配处理模块,用于判断各所述预测词中是否存在与所述变体词匹配的预测词,若是,则将所述掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在的电子设备执行权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111026986.6A CN113705203B (zh) | 2021-09-02 | 2021-09-02 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111026986.6A CN113705203B (zh) | 2021-09-02 | 2021-09-02 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705203A true CN113705203A (zh) | 2021-11-26 |
CN113705203B CN113705203B (zh) | 2024-07-26 |
Family
ID=78657462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111026986.6A Active CN113705203B (zh) | 2021-09-02 | 2021-09-02 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705203B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997147A (zh) * | 2022-08-04 | 2022-09-02 | 深圳依时货拉拉科技有限公司 | 基于混合mask的poi地址纠错方法、装置、存储介质和设备 |
CN117435692A (zh) * | 2023-11-02 | 2024-01-23 | 北京云上曲率科技有限公司 | 一种基于变体对抗敏感文本识别方法和系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101441527A (zh) * | 2008-12-24 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 拼音输入中提示正确读音的方法及装置 |
CN104750672A (zh) * | 2013-12-27 | 2015-07-01 | 重庆新媒农信科技有限公司 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
CN108132917A (zh) * | 2017-12-04 | 2018-06-08 | 昆明理工大学 | 一种文档纠错标记方法 |
CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | 无码科技(杭州)有限公司 | 自动文本查错方法 |
CN111046652A (zh) * | 2019-12-10 | 2020-04-21 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111832292A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本识别处理方法、装置、电子设备和存储介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112528634A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错模型训练、识别方法、装置、设备及存储介质 |
CN112668311A (zh) * | 2019-09-29 | 2021-04-16 | 北京国双科技有限公司 | 文本错误的检测方法及装置 |
CN112668313A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 句子智能纠错方法、装置、计算机设备及存储介质 |
CN113033185A (zh) * | 2021-05-28 | 2021-06-25 | 中国电子技术标准化研究院 | 标准文本纠错方法、装置、电子设备和存储介质 |
-
2021
- 2021-09-02 CN CN202111026986.6A patent/CN113705203B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101441527A (zh) * | 2008-12-24 | 2009-05-27 | 腾讯科技(深圳)有限公司 | 拼音输入中提示正确读音的方法及装置 |
CN104750672A (zh) * | 2013-12-27 | 2015-07-01 | 重庆新媒农信科技有限公司 | 一种应用于搜索中的中文词汇纠错方法及其装置 |
CN108132917A (zh) * | 2017-12-04 | 2018-06-08 | 昆明理工大学 | 一种文档纠错标记方法 |
CN108717412A (zh) * | 2018-06-12 | 2018-10-30 | 北京览群智数据科技有限责任公司 | 基于中文分词的中文校对纠错方法及系统 |
CN110232191A (zh) * | 2019-06-17 | 2019-09-13 | 无码科技(杭州)有限公司 | 自动文本查错方法 |
CN112668311A (zh) * | 2019-09-29 | 2021-04-16 | 北京国双科技有限公司 | 文本错误的检测方法及装置 |
CN111046652A (zh) * | 2019-12-10 | 2020-04-21 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111832292A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本识别处理方法、装置、电子设备和存储介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112528634A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错模型训练、识别方法、装置、设备及存储介质 |
CN112668313A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 句子智能纠错方法、装置、计算机设备及存储介质 |
CN113033185A (zh) * | 2021-05-28 | 2021-06-25 | 中国电子技术标准化研究院 | 标准文本纠错方法、装置、电子设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997147A (zh) * | 2022-08-04 | 2022-09-02 | 深圳依时货拉拉科技有限公司 | 基于混合mask的poi地址纠错方法、装置、存储介质和设备 |
CN114997147B (zh) * | 2022-08-04 | 2022-11-04 | 深圳依时货拉拉科技有限公司 | 基于混合mask的poi地址纠错方法、装置、存储介质和设备 |
CN117435692A (zh) * | 2023-11-02 | 2024-01-23 | 北京云上曲率科技有限公司 | 一种基于变体对抗敏感文本识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113705203B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7584093B2 (en) | Method and system for generating spelling suggestions | |
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US9275339B2 (en) | System and method for probabilistic name matching | |
JP5379138B2 (ja) | 領域辞書の作成 | |
KR20160105400A (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
CN109753661B (zh) | 一种机器阅读理解方法、装置、设备及存储介质 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN113705203A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
CN114981885A (zh) | 用于自动语音识别的字母数字序列偏置 | |
CN114926039A (zh) | 风险评估方法、风险评估装置、电子设备及存储介质 | |
CN116685966A (zh) | 调整查询生成模式 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
Dmytriv et al. | The Speech Parts Identification for Ukrainian Words Based on VESUM and Horokh Using | |
Eyamin et al. | An investigative design of optimum stochastic language model for bangla autocomplete | |
KR20200057824A (ko) | 단어 교정 시스템 | |
Papadopoulos et al. | Team ELISA System for DARPA LORELEI Speech Evaluation 2016. | |
Hemmer et al. | Estimating Post-OCR Denoising Complexity on Numerical Texts | |
İnce | Spell checking and error correcting application for Turkish | |
Maulidia et al. | Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter | |
Sampath et al. | Hybrid Tamil spell checker with combined character splitting | |
CN112541062A (zh) | 平行语料对齐方法、装置、存储介质及电子设备 | |
Zhang | Neural Dependency Parsing of Low-resource Languages: A Case Study on Marathi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room A288, Building 7, No. 700 Wanrong Road, Jing'an District, Shanghai 200040 Applicant after: Shanghai Extreme Chain Technology Development Group Co.,Ltd. Address before: Room 1103, building 21, 39 Jibang Road, Zhongxing Town, Chongming District, Shanghai 202150 Applicant before: SHANGHAI JILIAN NETWORK TECHNOLOGY Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |