CN113011149B - 一种文本纠错方法及系统 - Google Patents

一种文本纠错方法及系统 Download PDF

Info

Publication number
CN113011149B
CN113011149B CN202110242123.6A CN202110242123A CN113011149B CN 113011149 B CN113011149 B CN 113011149B CN 202110242123 A CN202110242123 A CN 202110242123A CN 113011149 B CN113011149 B CN 113011149B
Authority
CN
China
Prior art keywords
sequence
text
editing
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110242123.6A
Other languages
English (en)
Other versions
CN113011149A (zh
Inventor
董倩倩
徐爽
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110242123.6A priority Critical patent/CN113011149B/zh
Publication of CN113011149A publication Critical patent/CN113011149A/zh
Application granted granted Critical
Publication of CN113011149B publication Critical patent/CN113011149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本纠错方法及系统。其中,文本纠错方法包括:获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列;将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列;组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列;其中,所述文本编辑模型为根据所述待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。通过将处理待处理文本序列得到的字符序列输入至文本编辑模型,可得目标编辑预测序列;组合待处理文本序列和目标编辑预测序列形成目标文本序列;解决了存在的针对文本检测和纠错的不可控性问题。

Description

一种文本纠错方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本纠错方法及系统。
背景技术
随着全球非母语的学习者、写作者和使用者的数量不断增长,对例如文本纠错等的语言自动化评测的需求也在日益增加。其中,文本自动纠错需要在保持原文语义的前提下,自动纠正原文存在的包括语法、拼写、内容等的诸多错误。
现有的对文本进行自动纠错的技术包括:将存在错误的文本输入到基于编码器-解码器的序列到序列的模型框架中进行纠错,输出目标文本;即,在相同语言的序列之间进行映射。
现有技术存在的缺陷或不足包括:利用序列到序列的模型对文本进行检测和纠错时,存在不可控性问题。
发明内容
针对现有技术中存在的问题,本发明的实施例提供一种文本纠错方法及系统。
本发明提供一种文本纠错方法,包括:
获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列;
将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列;
组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列;
其中,所述文本编辑模型为根据所述待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。
根据本发明提供的一种文本纠错方法,将所述待处理文本序列输入至所述文本编辑模型,得到所述待处理文本序列对应的所述目标编辑预测序列的步骤包括:
将所述字符序列输入至所述文本编辑模型的编码层进行特征提取,得到特征序列;
将所述特征序列输入至所述文本编辑模型的解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列。
根据本发明提供的一种文本纠错方法,将所述特征序列输入至所述文本编辑模型的所述解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列的步骤包括:
对所述特征序列进行逻辑处理,得到多个逻辑组合;
基于所述多个逻辑组合中的基本标记,对所述多个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;
基于所述预设目标编辑序列,对所述多个逻辑优化组合进行第二编辑处理,得到所述目标编辑预测序列;
其中,所述第一编辑处理包括保留和删除,所述第二编辑处理包括添加和替换。
根据本发明提供的一种文本纠错方法,组合所述待处理文本序列和所述目标编辑预测序列形成所述目标文本序列的步骤包括:
将所述待处理文本序列和所述目标编辑预测序列进行对比,对所述目标编辑预测序列进行脱机处理,形成所述目标文本序列。
本发明还提供一种文本纠错系统,包括:
获取模块,用于获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列;
处理模块,用于将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列;
组合模块,用于组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列;
其中,所述文本编辑模型为根据所述待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。
根据本发明提供的一种文本纠错系统,所述处理模块包括:
特征提取子模块,用于将所述字符序列输入至所述文本编辑模型的编码层进行特征提取,得到特征序列;
目标处理子模块,用于将所述特征序列输入至所述文本编辑模型的解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列。
根据本发明提供的一种文本纠错系统,所述目标处理子模块包括:
逻辑单元,用于对所述特征序列进行逻辑处理,得到多个逻辑组合;
第一处理单元,用于基于所述多个逻辑组合中的基本标记,对所述多个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;
第二处理单元,用于基于所述预设目标编辑序列,对所述多个逻辑优化组合进行第二编辑处理,得到所述目标编辑预测序列;
其中,所述第一编辑处理包括保留和删除,所述第二编辑处理包括添加和替换。
根据本发明提供的一种文本纠错系统,所述组合模块具体用于:
将所述待处理文本序列和所述目标编辑预测序列进行对比,对所述目标编辑预测序列进行脱机处理,形成所述目标文本序列。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本纠错方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本纠错方法的步骤。
本发明提供的一种文本纠错方法及系统。通过将处理待处理文本序列得到的字符序列输入至文本编辑模型,可得目标编辑预测序列;组合待处理文本序列和目标编辑预测序列形成目标文本序列;解决了存在的针对文本检测和纠错的不可控性问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本纠错方法的流程示意图;
图2是本发明实施例提供的文本编辑模型的工作流程示意图;
图3是本发明实施例提供的文本编辑模型的结构示意图;
图4是本发明实施例提供的文本纠错系统的结构示意图;
图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“优选”以及类似的用语,用作表近似,而不用作表程度,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。应注意,在本说明书中,“第一”、“第二”、“第三”等的表述仅用于将一个特征与另一个特征区分开来,而不表示对特征的任何限制,尤其不表示任何的先后顺序。
还应理解的是,诸如“包括”、“包括有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当描述本申请的实施方式时,使用“可”表示“本申请的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本申请中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
为了解决现有技术中存在的问题,本发明的实施例提供一种文本纠错方法及系统。
图1是根据本发明的一个实施例提供的文本纠错方法的流程示意图。如图1所示,该方法包括:
步骤101,获取待处理文本序列,将待处理文本序列输入至编辑操作词表,得到字符序列。
具体地,获取待处理文本序列具体指在特定的应用场景中,获取需要检测和/或纠错的文本序列;并将获取的待处理文本序列输入至编辑操作词表;进而,待处理文本序列转化成编辑操作词表对应的字符和/或字符串数组,同时,编辑操作词表对前述字符和/或字符串数组进行排列组合,得到字符序列。
对应地,编辑操作词表是由基础编辑操作词典和短语词典组合而成。具体而言,对基础编辑操作词典和短语词典中的字符和/或字符串数组进行排列组合,形成了编辑操作词表。形成逻辑操作词表的短语词典是指包括一类字符和/或短语的集合;在本领域中短语词典的生成方法包括多种,本发明不做具体限定。在本发明中,短语词典优选的生成方法为:根据预设的短语词典,统计在相关的模型训练中出现频率最高的一类字符和/或短语,将前述统计得到的一类字符和/或短语进行集合,可得短语词典。同时,在本发明中,用短语词典的容量表征待处理文本序列和目标文本序列间存在差异的字符和/或字符串数组的数量;短语词典的容量需要满足,尽可能的使短语词典的输出结果的编辑操作空间最小,以及基于前述短语词典复原的存在问题的待处理文本序列的比例最高。
步骤102,将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列。
具体地,将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列具体指将字符序列输入至文本编辑模型,文本编辑模型的各功能层依次对输入的字符序列进行对应处理,进而,可预测得到文本编辑模型对字符序列进行处理后形成的目标编辑序列;在本发明中,将前述目标编辑序列记为目标编辑预测序列。
对应地,文本编辑模型包括编码部分和解码部分;其中,编码部分主要由BERT模型构成,解码部分由自回归解码单元和/或非自回归解码单元构成。概括而言,文本编辑模型中的编码部分用于提取待处理文本序列中的高级语义,解码部分用于预测与输入的待处理文本序列相对应的目标编辑序列。
进一步的,预设匹配算法,基于该匹配算法,根据待处理文本序列生成预设目标文本序列;进而,基于预设目标文本序列生成预设目标编辑序列。其中,匹配算法可以包括多种,本发明不做具体的限定;在本发明的实施例中,优选的匹配算法包括:将待处理文本序列中的子序列对应的顺序迭代并匹配生成更新文本序列,将该更新文本序列记为预设目标文本序列;或者,若待处理文本序列中的子序列无法进行顺序迭代,则待处理文本序列将与编辑操作词表匹配形成预设目标文本序列。然后,根据待处理文本对应的匹配关系,将预设目标文本序列替换为预设目标编辑序列。在本发明中,文本编辑模型为根据预设目标编辑序列进行训练得到。
步骤103,组合待处理文本序列和目标编辑预测序列形成目标文本序列。
具体地,组合待处理文本序列和目标编辑预测序列形成目标文本序列具体指将待处理文本序列和目标编辑预测序列进行对比,进而,对目标编辑预测序列进行脱机处理,形成目标文本序列。
对应地,脱机处理是指在不受主机控制的外部设备上进行数据处理。
图2是根据本发明的另一个实施例提供的文本编辑模型的工作流程示意图。如图2所示,该工作流程包括:
步骤201,将字符序列输入至文本编辑模型的编码层进行特征提取,得到特征序列。
具体地,将字符序列输入至文本编辑模型的编码层进行特征提取,得到特征序列具体指:将字符序列输入至文本编辑模型的编码层,文本编辑模型中的编码层对输入的字符序列进行词向量特征提取,提取其词向量特征,然后,文本编辑模型中的编码层对经词向量特征提取的字符序列进行隐层向量特征提取,提取其隐层向量特征,并生成特征序列。
对应地,需要说明的是,词向量特征和隐层向量特征属于字符序列所包含的高级语义。
步骤202,将特征序列输入至文本编辑模型的解码层进行解码,得到待处理文本序列对应的目标编辑预测序列。
具体地,将特征序列输入至文本编辑模型的解码层进行解码,得到待处理文本序列对应的目标编辑预测序列具体指:将特征序列输入至文本编辑模型的解码层,可预测得到文本编辑模型的解码层对输入的特征序列进行解码后所得的目标编辑序列;在本发明中,将该目标编辑序列记为目标编辑预测序列。
对应地,文本编辑模型的解码层包括:自回归解码单元和/或非自回归解码单元。进而,将特征序列输入至文本编辑模型的解码层后,文本编辑模型中解码层的自回归解码单元或非自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列。
进一步的,利用文本编辑模型中解码层的自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将单向转换器模型作为解码单元,迭代的预测每个时刻输出的目标编辑序列。反之,利用文本编辑模型中解码层的非自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将前馈网络作为编码器,并行地预测每个时刻输出的目标编辑序列。
基于上述任一实施例,图3是根据本发明的再一个实施例提供的文本编辑模型的结构示意图。如图3所示,文本编辑模型包括:编码层310和解码层320。
基于特定文本应用场景获取待处理文本序列,并将获取的待处理文本序列输入至编辑操作词表,得到字符序列。示例性的,若得到的字符序列为“我是来自美国。”,且待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列为“我来自美国。”。
具体地,将字符序列“我是来自美国。”输入至文本编辑模型的编码层310,编码层310对输入的字符序列“我是来自美国。”进行词向量特征提取,提取其词向量特征;然后,编码层310对经词向量特征提取后的字符序列进行隐层向量特征提取,提取其隐层向量特征,并生成特征序列。
对应地,将编码层310对字符序列“我是来自美国。”进行特征提取,得到的特征序列输入至文本编辑模型的解码层320,解码层320中的自回归解码单元或非自回归解码单元对输入的特征序列进行解码,并预测经解码所得的目标编辑序列。需要说明的是,利用解码层320的自回归解码单元对输入的特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将单向转换器模型作为解码单元,迭代的预测每个时刻输出的目标编辑序列;反之,利用解码层320的非自回归解码单元对输入的特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将前馈网络作为编码器,并行地预测每个时刻输出的目标编辑序列。
进一步的,解码层320对特征序列进行解码的具体过程包括:对输入的特征序列进行逻辑处理,得到多个逻辑组合,前述各个逻辑组合由基本标记和目标短语构成;基于前述各个逻辑组合中的基本标记,对前述各个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;基于预设目标编辑序列,对多个逻辑优化组合进行第二编辑处理,得到目标编辑预测序列。其中,基本标记指保留或删除中的任意一种,对应的对前述各个逻辑组合进行第一编辑处理是指基于前述各个逻辑组合中的基本标记对其进行对应的保留或删除,多个逻辑优化组合指将包含基本标记为删除的逻辑组合进行删除后,剩余的逻辑组合;此外,基于预设目标编辑序列“我来自美国。”,对多个逻辑优化组合进行第二编辑处理是指,基于预设目标编辑序列“我来自美国。”的语序和/或语义,在多个逻辑优化组合中的对应位置添加附加短语,或者利用附加短语替换目标短语。
更进一步的,将基于待处理文本序列得到的字符序列“我是来自美国。”与前述目标编辑预测序列进行对比,并对前述目标编辑预测序列进行脱机处理,形成目标文本序列。
基于上述任一实施例,图4是根据本发明的又一个实施例提供的文本纠错系统的结构示意图。如图4所示,文本纠错系统包括:获取模块410、处理模块420和组合模块430。
获取模块410用于获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列。
具体地,获取模块410获取待处理文本序列具体指在特定的应用场景中,获取需要检测和/或纠错的文本序列;并将获取的待处理文本序列输入至编辑操作词表;进而,待处理文本序列转化成编辑操作词表对应的字符和/或字符串数组,同时,编辑操作词表对前述字符和/或字符串数组进行排列组合,得到字符序列。
对应地,编辑操作词表是由基础编辑操作词典和短语词典组合而成。具体而言,对基础编辑操作词典和短语词典中的字符和/或字符串数组进行排列组合,形成了编辑操作词表。形成逻辑操作词表的短语词典是指包括一类字符和/或短语的集合;在本领域中短语词典包括多种,本发明不做具体限定。在本发明中,短语词典优选根据预设的短语词典,统计在相关的模型训练中出现频率最高的一类字符和/或短语,将前述统计得到的一类字符和/或短语进行集合,可得短语词典。同时,在本发明中,用短语词典的容量表征待处理文本序列和目标文本序列间存在差异的字符和/或字符串数组的数量;短语词典的容量需要满足,尽可能的使短语词典的输出结果的编辑操作空间最小,以及基于前述短语词典复原的存在问题的待处理文本序列的比例最高。
处理模块420用于将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列。
具体地,将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列具体指将字符序列输入至文本编辑模型,文本编辑模型的各功能层依次对输入的字符序列进行对应处理,进而,可预测得到文本编辑模型对字符序列进行处理后形成的目标编辑序列;在本发明中,将前述目标编辑序列记为目标编辑预测序列。
对应地,文本编辑模型包括编码部分和解码部分;其中,编码部分主要由BERT模型构成,解码部分由自回归解码单元和/或非自回归解码单元构成。概括而言,文本编辑模型中的编码部分用于提取待处理文本序列中的高级语义,解码部分用于预测与输入的待处理文本序列相对应的目标编辑序列。
进一步的,预设匹配算法,基于该匹配算法,根据待处理文本序列生成预设目标文本序列;进而,基于预设目标文本序列生成预设目标编辑序列。其中,匹配算法可以包括多种,本发明不做具体的限定;在本发明的实施例中,优选的匹配算法包括:将待处理文本序列中的子序列对应的顺序迭代并匹配生成更新文本序列,将该更新文本序列记为预设目标文本序列;或者,若待处理文本序列中的子序列无法进行顺序迭代,则待处理文本序列将与编辑操作词表匹配形成预设目标文本序列。然后,根据待处理文本对应的匹配关系,将预设目标文本序列替换为预设目标编辑序列。在本发明中,文本编辑模型为根据预设目标编辑序列进行训练得到。
组合模块430用于组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列。
具体地,组合待处理文本序列和目标编辑预测序列形成目标文本序列具体指将待处理文本序列和目标编辑预测序列进行对比,进而,对目标编辑预测序列进行脱机处理,形成目标文本序列。
对应地,脱机处理是指在不受主机控制的外部设备上进行数据处理。
基于上述任一实施例,处理模块420包括,特征提取子模块和目标处理子模块。
特征提取子模块,用于将字符序列输入至文本编辑模型的编码层进行特征提取,得到特征序列。
具体地,将字符序列输入至文本编辑模型的编码层进行特征提取,得到特征序列具体指:将字符序列输入至文本编辑模型的编码层,文本编辑模型中的编码层对输入的字符序列进行词向量特征提取,提取其词向量特征,而后,文本编辑模型中的编码层对经词向量特征提取的字符序列进行隐层向量特征提取,提取其隐层向量特征,并生成特征序列。
对应地,需要说明的是,词向量特征和隐层向量特征属于字符序列所包含的高级语义。
目标处理子模块,用于将特征序列输入至文本编辑模型的解码层进行解码,得到待处理文本序列对应的目标编辑预测序列。
具体地,将特征序列输入至文本编辑模型的解码层进行解码,得到待处理文本序列对应的目标编辑预测序列具体指:将特征序列输入至文本编辑模型的解码层,可预测得到文本编辑模型的解码层对输入的特征序列进行解码后所得的目标编辑序列;在本发明中,将该目标编辑序列记为目标编辑预测序列。
对应地,文本编辑模型的解码层包括:自回归解码单元和/或非自回归解码单元。进而,将特征序列输入至文本编辑模型的解码层后,文本编辑模型中解码层的自回归解码单元或非自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列。
进一步的,利用文本编辑模型中解码层的自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将单向转换器模型作为解码单元,迭代的预测每个时刻输出的目标编辑序列;反之,利用文本编辑模型中解码层的非自回归解码单元对特征序列进行解码,并预测经解码所得的目标编辑序列,概括而言,主要指将前馈网络作为编码器,并行地预测每个时刻输出的目标编辑序列。
目标处理子模块包括,逻辑单元、第一处理单元和第二处理单元。其中,逻辑单元,用于对所述特征序列进行逻辑处理,得到多个逻辑组合;第一处理单元,用于基于所述多个逻辑组合中的基本标记,对所述多个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;第二处理单元,用于基于所述预设目标编辑序列,对所述多个逻辑优化组合进行第二编辑处理,得到所述目标编辑预测序列。
更进一步的,利用文本编辑模型的解码层对特征序列进行解码的具体过程包括:利用逻辑单元对输入的特征序列进行逻辑处理,得到多个逻辑组合,前述各个逻辑组合由基本标记和目标短语构成;利用第一处理单元基于前述各个逻辑组合中的基本标记,对前述各个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;利用第二处理单元基于预设目标编辑序列,对多个逻辑优化组合进行第二编辑处理,得到目标编辑预测序列。其中,需要说明的是,前述基本标记指保留或删除中的任意一种,对应的对前述各个逻辑组合进行第一编辑处理是指基于前述各个逻辑组合中的基本标记对其进行对应的保留或删除,多个逻辑优化组合指将包含的基本标记为删除的逻辑组合进行删除后,剩余的逻辑组合;此外,基于预设目标编辑序列,对多个逻辑优化组合进行第二编辑处理是指,基于预设目标编辑序列的语序和/或语义,在多个逻辑优化组合中的对应位置添加附加短语,或者利用附加短语替换目标短语。
另外,基于上述任一实施例,在实际应用文本编辑模型进行文本检测或纠错时,可以采用迭代解码微调的策略不断对文本编辑模型进行更新,以提高该模型的相关性能。对应包括:将待处理文本序列输入至训练好的文本编辑模型,得到文本编辑模型输出的目标编辑预测序列;将该目标编辑预测序列再次输入至文本编辑模型中,得到更新的目标编辑预测序列;重复执行前述步骤,直至目标编辑预测序列与预设目标编辑序列的字符和/或字符串数组差异的数量小于可忽略的阈值时,停止相关迭代。
再者,基于上述任一实施例,还需要说明的是,在对文本编辑模型进行训练之前,需要利用反向编辑方式对用于训练文本编辑模型的预设目标编辑序列进行离线增广,该措施可以弥补训练数据不足的问题;其中,前述反向编辑方式的策略和传统的反向翻译策略类似,但使用的模型并不是序列到序列的编解码模型,而是与文本编辑模型的结构相同的序列到编辑的编解码模型。进一步的,在文本编辑模型训练时,还可利用变更数据的方式对前述训练数据进行在线增广,该措施能够提高文本编辑模型的鲁棒性,变更数据的方式包括插入、交换、删除、替换和掩蔽中的一种或多种。
图5是根据本发明的一个实施例提供的电子设备的硬件结构示意图。如图5所示,该电子设备可以包括:处理器510、通信接口520、存储器530和通信总线540;其中,处理器510,通信接口520,存储器530相互间通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行提供的文本纠错方法,该方法包括:获取待处理文本序列,将待处理文本序列输入至编辑操作词表,得到字符序列;将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列;组合待处理文本序列和目标编辑预测序列形成目标文本序列;其中,文本编辑模型为根据待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本纠错方法,该方法包括:获取待处理文本序列,将待处理文本序列输入至编辑操作词表,得到字符序列;将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列;组合待处理文本序列和目标编辑预测序列形成目标文本序列;其中,文本编辑模型为根据待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各步骤提供的文本纠错方法,该方法包括:获取待处理文本序列,将待处理文本序列输入至编辑操作词表,得到字符序列;将字符序列输入至文本编辑模型,得到待处理文本序列对应的目标编辑预测序列;组合待处理文本序列和目标编辑预测序列形成目标文本序列;其中,文本编辑模型为根据待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种文本纠错方法,其特征在于,包括:
获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列;
将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列;
组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列;
其中,所述文本编辑模型为根据所述待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到;
所述编辑操作词表是基于对基础编辑操作词典和短语词典中的字符和/或字符串数组进行排列组合得到的;所述短语词典的容量表征所述待处理文本序列和所述目标文本序列间存在差异的字符和/或字符串数组的数量;所述短语词典的容量需满足使短语词典的输出结果的编辑操作空间最小,以及基于所述短语词典复原的存在问题的待处理文本序列的比例最高;
所述将所述待处理文本序列输入至编辑操作词表,得到字符序列,包括:
基于所述待处理文本序列以及所述编辑操作词表,得到所述待处理文本序列在所述编辑操作词表对应的字符和/或字符串数组;
对所述字符和/或字符串数组进行排列组合,得到所述字符序列;
将所述待处理文本序列输入至所述文本编辑模型,得到所述待处理文本序列对应的所述目标编辑预测序列的步骤包括:
将所述字符序列输入至所述文本编辑模型的编码层进行词向量特征提取,得到特征序列;
将所述特征序列输入至所述文本编辑模型的解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列。
2.根据权利要求1所述的文本纠错方法,其特征在于,将所述特征序列输入至所述文本编辑模型的所述解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列的步骤包括:
对所述特征序列进行逻辑处理,得到多个逻辑组合;
基于所述多个逻辑组合中的基本标记,对所述多个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;
基于所述预设目标编辑序列,对所述多个逻辑优化组合进行第二编辑处理,得到所述目标编辑预测序列;
其中,所述第一编辑处理包括保留和删除,所述第二编辑处理包括添加和替换。
3.根据权利要求1所述的文本纠错方法,其特征在于,组合所述待处理文本序列和所述目标编辑预测序列形成所述目标文本序列的步骤包括:
将所述待处理文本序列和所述目标编辑预测序列进行对比,对所述目标编辑预测序列进行脱机处理,形成所述目标文本序列。
4.一种文本纠错系统,其特征在于,包括:
获取模块,用于获取待处理文本序列,将所述待处理文本序列输入至编辑操作词表,得到字符序列;
处理模块,用于将所述字符序列输入至文本编辑模型,得到所述待处理文本序列对应的目标编辑预测序列;
组合模块,用于组合所述待处理文本序列和所述目标编辑预测序列形成目标文本序列;
其中,所述文本编辑模型为根据所述待处理文本序列与编辑操作词表匹配所得的预设目标编辑序列进行训练得到;
所述编辑操作词表是基于对基础编辑操作词典和短语词典中的字符和/或字符串数组进行排列组合得到的;所述短语词典的容量表征所述待处理文本序列和所述目标文本序列间存在差异的字符和/或字符串数组的数量;所述短语词典的容量需满足使短语词典的输出结果的编辑操作空间最小,以及基于所述短语词典复原的存在问题的待处理文本序列的比例最高;
所述将所述待处理文本序列输入至编辑操作词表,得到字符序列,包括:
基于所述待处理文本序列以及所述编辑操作词表,得到所述待处理文本序列在所述编辑操作词表对应的字符和/或字符串数组;
对所述字符和/或字符串数组进行排列组合,得到所述字符序列;
所述处理模块包括:
特征提取子模块,用于将所述字符序列输入至所述文本编辑模型的编码层进行特征提取,得到特征序列;
目标处理子模块,用于将所述特征序列输入至所述文本编辑模型的解码层进行解码,得到所述待处理文本序列对应的所述目标编辑预测序列。
5.根据权利要求4所述的文本纠错系统,其特征在于,所述目标处理子模块包括:
逻辑单元,用于对所述特征序列进行逻辑处理,得到多个逻辑组合;
第一处理单元,用于基于所述多个逻辑组合中的基本标记,对所述多个逻辑组合进行第一编辑处理,得到多个逻辑优化组合;
第二处理单元,用于基于所述预设目标编辑序列,对所述多个逻辑优化组合进行第二编辑处理,得到所述目标编辑预测序列;
其中,所述第一编辑处理包括保留和删除,所述第二编辑处理包括添加和替换。
6.根据权利要求4所述的文本纠错系统,其特征在于,所述组合模块具体用于:
将所述待处理文本序列和所述目标编辑预测序列进行对比,对所述目标编辑预测序列进行脱机处理,形成所述目标文本序列。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3任一项所述的文本纠错方法的步骤。
8.一种非暂态计算机可读存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的文本纠错方法的步骤。
CN202110242123.6A 2021-03-04 2021-03-04 一种文本纠错方法及系统 Active CN113011149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110242123.6A CN113011149B (zh) 2021-03-04 2021-03-04 一种文本纠错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110242123.6A CN113011149B (zh) 2021-03-04 2021-03-04 一种文本纠错方法及系统

Publications (2)

Publication Number Publication Date
CN113011149A CN113011149A (zh) 2021-06-22
CN113011149B true CN113011149B (zh) 2024-05-14

Family

ID=76405843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110242123.6A Active CN113011149B (zh) 2021-03-04 2021-03-04 一种文本纠错方法及系统

Country Status (1)

Country Link
CN (1) CN113011149B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932764B (zh) * 2023-09-14 2023-11-24 中移(苏州)软件技术有限公司 文本管理方法、装置、电子设备、芯片及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质
CN111444705A (zh) * 2020-03-10 2020-07-24 中国平安人寿保险股份有限公司 纠错方法、装置、设备及可读存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112016304A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112257456A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 基于文本编辑技术的文本生成模型的训练方法及装置
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN111444705A (zh) * 2020-03-10 2020-07-24 中国平安人寿保险股份有限公司 纠错方法、装置、设备及可读存储介质
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112016304A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112257456A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 基于文本编辑技术的文本生成模型的训练方法及装置
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Transformer增强架构的中文语法纠错方法;王辰成;杨麟儿;王莹莹;杜永萍;杨尔弘;;中文信息学报;20200615(第06期);110-118 *

Also Published As

Publication number Publication date
CN113011149A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112836514B (zh) 嵌套实体识别方法、装置、电子设备和存储介质
WO2023093525A1 (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN105068997B (zh) 平行语料的构建方法及装置
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN103853710A (zh) 一种基于协同训练的双语命名实体识别方法
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN111460883B (zh) 基于深度强化学习的视频行为自动描述方法
CN111191468B (zh) 术语替换方法及装置
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
CN114841176B (zh) 一种神经机器翻译鲁棒性增强方法、设备及存储介质
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN113011149B (zh) 一种文本纠错方法及系统
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、系统和存储介质
CN112686060B (zh) 文本翻译方法、装置、电子设备和存储介质
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN110232193B (zh) 一种结构化文本翻译方法及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant