CN113988063A - 一种文本纠错方法、装置、设备及计算机可读存储介质 - Google Patents

一种文本纠错方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113988063A
CN113988063A CN202111288422.XA CN202111288422A CN113988063A CN 113988063 A CN113988063 A CN 113988063A CN 202111288422 A CN202111288422 A CN 202111288422A CN 113988063 A CN113988063 A CN 113988063A
Authority
CN
China
Prior art keywords
text
error correction
character
sequence
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111288422.XA
Other languages
English (en)
Inventor
吕杨苗
张雪飞
吕晓东
张翼飞
廖艺
郭腾飞
冯玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhongyuan Consumption Finance Co ltd
Original Assignee
Henan Zhongyuan Consumption Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhongyuan Consumption Finance Co ltd filed Critical Henan Zhongyuan Consumption Finance Co ltd
Priority to CN202111288422.XA priority Critical patent/CN113988063A/zh
Publication of CN113988063A publication Critical patent/CN113988063A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本纠错方法,该方法包括以下步骤:接收待识别的目标文本;利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列;利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列;利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。应用本发明所提供的文本纠错方法,提高了模型对形似音似的文本纠错能力,提高了文本纠错的准确性。本发明还公开了一种文本纠错装置、设备及存储介质,具有相应技术效果。

Description

一种文本纠错方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及深度学习技术领域,特别是涉及一种文本纠错方法、装置、设备及计算机可读存储介质。
背景技术
文本纠错深度学习模型是实现中文语句错误检测、自动纠正的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,常用于ASR(Automatic SpeechRecognition,自动语音识别技术)以及OCR(Optical Character Recognition,光学字符识别技术)识别后的数据调优阶段,为后续的文本处理奠定牢实的基础。
字形和字音作为中文字符的重要特征,在文本表征方面是不可缺少的。比如字形方面,“由地”是希望被纠正为“田地”,而不是“土地”;字音方面,“打汪球”是希望被纠正为“打网球”,而不是“打篮球”。然而目前业界大多都是在模型推理阶段,利用字形或字音的相似度进行词表过滤,即判定级别的融合方式,如“木”纠成“才”或“本”的选择,如果木与才的形近相似性、音似相似性分别为0.8、0.4,木与本的形近相似性、音似相似性分别为0.95、0.35,那么用形近、音似两种模态的判定融合(默认2个模态权重相同),则0.8+0.4<0.95+0.35,最终将木纠成本。不能深层次地利用字符形似及音似之间的联系捕捉字形字音相似的文本错误。
综上所述,如何有效地解决现有的文本纠错方法仅是对字形和字音进行判定级别的融合方式,不能深层次地利用字符形似及音似之间的联系捕捉字形字音相似的文本错误等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种文本纠错方法,该方法提高了模型对形似音似的文本纠错能力,提高了文本纠错的准确性;本发明的另一目的是提供一种文本纠错装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种文本纠错方法,包括:
接收待识别的目标文本;
利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列;
利用所述多模态文本纠错模型的全连接层对所述字音特征序列、所述字形特征序列及所述字特征序列进行融合,得到各所述文字分别对应的融合特征序列;
利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,得到纠正后文本。
在本发明的一种具体实施方式中,利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列,包括:
利用所述嵌入层获取所述目标文本中各所述文字的声母元素、韵母元素及声调元素,并将所述声母元素、所述韵母元素及所述声调元素转化为罗马字的字符序列;
对所述字符序列进行一维卷积和最大池化操作,得到所述字音特征序列;
获取各所述文字的预设维度单通道图像,并对所述预设维度单通道图像进行一维卷积和最大池化操作,得到所述字形特征序列;
获取各所述文字分别对应的字特征序列。
在本发明的一种具体实施方式中,在得到各所述文字分别对应的融合特征序列之后,利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作之前,还包括:
利用所述多模态文本纠错模型的推理层根据各所述融合特征序列对所述目标文本中各所述文字进行文本分类,得到文本分类结果;
判断所述文本分类结果是否为存在文本错误;
若是,则确定所述目标文本中的错误文字;
利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,包括:
利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作。
在本发明的一种具体实施方式中,当确定所述文本分类结果为不存在文本错误时,还包括:
输出文本正确提示信息。
在本发明的一种具体实施方式中,在确定所述目标文本中的错误文字之后,利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作之前,还包括:
确定所述错误文字所属的错误类型;
利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作,包括:
利用所述输出层结合各所述融合特征序列和所述错误类型对所述错误文字进行纠错操作。
在本发明的一种具体实施方式中,利用所述输出层结合各所述融合特征序列和所述错误类型对所述错误文字进行纠错操作,包括:
按照所述错误类型对所述错误文字进行标注,得到标注结果;
利用所述输出层结合各所述融合特征序列和所述标注结果对所述错误文字进行纠错操作。
在本发明的一种具体实施方式中,利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,包括:
利用对总损失函数最小化得到的多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作;其中,所述总损失函数由文本分类对应的文本分类损失函数、错误文字标注对应的序列标注损失函数以及文本纠错对应的文本生成损失函数求和得到。
一种文本纠错装置,包括:
文本接收模块,用于接收待识别的目标文本;
特征序列获取模块,用于利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列;
特征序列融合模块,用于利用所述多模态文本纠错模型的全连接层对所述字音特征序列、所述字形特征序列及所述字特征序列进行融合,得到各所述文字分别对应的融合特征序列;
文本纠错模块,用于利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,得到纠正后文本。
一种文本纠错设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述文本纠错方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述文本纠错方法的步骤。
本发明所提供的文本纠错方法,接收待识别的目标文本;利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列;利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列;利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。
由上述技术方案可知,通过利用多模态学习,采用组合融合的方式将字音和字形特征嵌入到多模态文本纠错模型的嵌入层,丰富字符的表征能力,使得多模态文本纠错模型可以学习到字符之间字形和字音之间的紧密联系,提高了模型对形似音似的文本纠错能力,提高了文本纠错的准确性。
相应的,本发明还提供了与上述文本纠错方法相对应的文本纠错装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中文本纠错方法的一种实施流程图;
图2为本发明实施例中文本纠错方法的另一种实施流程图;
图3为本发明实施例中一种文本纠错装置的结构框图;
图4为本发明实施例中一种文本纠错设备的结构框图;
图5为本实施例提供的一种文本纠错设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1为本发明实施例中文本纠错方法的一种实施流程图,该方法可以包括以下步骤:
S101:接收待识别的目标文本。
当需要进行文本识别时,如当需要对转译为文本的客服人员的催收电话语音进行识别时,向文本纠错中心发送待识别的目标文本,文本纠错中心接收待识别的目标文本。
S102:利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列。
预先训练多模态文本纠错模型,如可以选用Albert模型,多模态文本纠错模型包含能够获取文本中各文字的字音特征序列、字形特征序列及字特征序列的嵌入(Embedding)层。在接收到待识别的目标文本之后,利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列。
S103:利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列。
在利用多模态文本纠错模型的嵌入层获取到目标文本中各文字的字音特征序列、字形特征序列及字特征序列之后,利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列,即融合特征序列结合了字音和字形特征。
S104:利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。
在利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列之后,利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。通过利用多模态学习,采用组合融合的方式将字音和字形特征嵌入到模型的嵌入层,实现在特征级别进行融合,形成端到端的模型,用深度学习模型训练的方式,融合字音和字形两种模态,使得这两种模态影响最终的纠错结果,丰富字符的表征能力,使得模型可以学习到字符之间字形和字音之间的紧密联系,提高了模型对形似音似的文本纠错能力,解决了ASR及OCR场景中的实际问题。
由上述技术方案可知,通过利用多模态学习,采用组合融合的方式将字音和字形特征嵌入到多模态文本纠错模型的嵌入层,丰富字符的表征能力,使得多模态文本纠错模型可以学习到字符之间字形和字音之间的紧密联系,提高了模型对形似音似的文本纠错能力,提高了文本纠错的准确性。
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
参见图2,图2为本发明实施例中文本纠错方法的另一种实施流程图,该方法可以包括以下步骤:
S201:接收待识别的目标文本。
S202:利用多模态文本纠错模型的嵌入层获取目标文本中各文字的声母元素、韵母元素及声调元素,并将声母元素、韵母元素及声调元素转化为罗马字的字符序列。
在确定出目标文本中的错误文字之后,利用多模态文本纠错模型的嵌入层获取目标文本中各文字的声母元素、韵母元素及声调元素,并将声母元素、韵母元素及声调元素转化为罗马字的字符序列。
近音字错误主要由平卷舌差异、前后鼻音差异等造成,这些都与声母、韵母相关,比如“zhi”和“zi”、“fu”和“hu”,读音都是比较相近的。因此获取字的声母、韵母、声调三个元素转化为罗马化字的字符序列,比如汉字“贷”,字符序列就是“dai4”,转换为固定维度的向量为[“d”,“ai”,“4”,”pad”];再入“款”,字符序列为“kuan3”,转为固定维度的向量为[“k”,“u”,“an”,“3”]。其中声母(23个)、韵母(24个)、声调(5个)以及padding(1个)共53个,这里称为字音字符。
S203:对字符序列进行一维卷积和最大池化操作,得到字音特征序列。
在用多模态文本纠错模型的嵌入层获取目标文本中各文字的声母元素、韵母元素及声调元素,并将声母元素、韵母元素及声调元素转化为罗马字的字符序列之后,对字符序列进行一维卷积和最大池化操作,得到字音特征序列。
在获取汉字的字符序列后,在对该序列使用宽度为2的一维卷积CNN与最大池化,得到最终的字音特征(Pinyin-Embedding)序列。
通过将获取到的目标文本中各文字的声母元素、韵母元素及声调元素化为罗马字的字符序列,后续在多模态文本纠错模型(如Albert模型)的嵌入层将字音特征序列融合到字特征序列,丰富字特征序列的特征,多模态文本纠错模型的其他都不做改变,这样更好的保持多模态文本纠错模型的结构,更好的利用预训练得到的多模态文本纠错模型。
S204:获取各文字的预设维度单通道图像,并对预设维度单通道图像进行一维卷积和最大池化操作,得到字形特征序列。
在确定出目标文本中的错误文字之后,获取各文字的预设维度单通道图像,并对预设维度单通道图像进行一维卷积和最大池化操作,得到字形特征序列。
字形相似,本质上就是字体在图像上的像素点比较类似,这也是OCR(光学字符识别)识别字形相似文本易错的原因。
因此,本发明直接从字体的图像入手,每个字符都有一个24*24单通道的图像,将图像向量化,再经过宽度为2的一维卷积CNN与最大池化层,就得到了字形的嵌入。
S205:获取各文字分别对应的字特征序列。
在确定出目标文本中的错误文字之后,获取各文字分别对应的字特征序列。
S206:利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列。
S207:利用多模态文本纠错模型的推理层根据各融合特征序列对目标文本中各文字进行文本分类,得到文本分类结果。
多模态文本纠错模型中还包含对目标文本中各文字关于存在错误与否进行文本分类的推理层。在接收到待识别的目标文本之后,利用多模态文本纠错模型的推理层根据各融合特征序列对目标文本中各文字进行文本分类,得到文本分类结果,文本分类结果为文本正确或存在文本错误。
S208:判断文本分类结果是否为存在文本错误,若否,则执行步骤S209,若是,则执行步骤S210。
在得到文本分类结果之后,判断文本分类结果是否为存在文本错误,若否,则说明目标文本中各文字均正确,执行步骤S209,若是,则说明目标文本中存在错误文字,执行步骤S210。
本发明实施例通过在模型推理阶段,采用先用文本分类判断目标文本是否正确,之后再对错误的目标文本采用文本生成的方法进行纠错,可以避免大量的正确文本进行无效的复制操作,能够显著降低误纠率,提高响应能力,解决多字、少字、错字、乱序等问题。
S209:输出文本正确提示信息。
当确定文本分类结果为不存在文本错误时,说明目标文本中各文字均正确,输出文本正确提示信息。
S210:确定目标文本中的错误文字。
当确定文本分类结果为存在文本错误时,说明目标文本中存在错误文字,确定目标文本中的错误文字。
多模态文本纠错模型可以根据目标文本生成(X1,X2,Y1,Y2)四元组,其中,X1表示疑似错误句子,X2表示正确的句子,Y1表示0-1标签,0代表X1为错误句子,1代表X1为正确句子,Y2表示序列标注的标签,是指X1中字符级别的标签,有保持、新增、删除、替换基本的四种类型,具体包括o、a、d_B、d_I、r_B、r_I六个标签(分别代表保持、新增、删除_起始位置、删除_中间位置、替换_起始位置、替换_中间位置),记为字符标签集合T。
其中,当Y1为1时,X1和X2句子相同,Y2都为o标签。
例:X1为“我在威新上经给你说过说过了”,X2为“我在微信上已经给你说了”,则Y1为0,Y2序列标签及与X1对应关系如表1所示。
表1
X<sub>1</sub>
Y<sub>2</sub> o o r_B r_I o a o o o o d_B d_I o
S211:利用多模态文本纠错模型的输出层根据各融合特征序列对错误文字进行纠错操作,得到纠正后文本。
在本发明的一种具体实施方式中,在步骤S210之后,步骤S211之前,该方法还可以包括以下步骤:
确定错误文字所属的错误类型;
利用多模态文本纠错模型的输出层根据各融合特征序列对错误文字进行纠错操作,可以包括以下步骤:
利用输出层结合各融合特征序列和错误类型对错误文字进行纠错操作。
在确定出目标文本中的错误文字之后,确定错误文字所属的错误类型,如包含有保持、新增、删除、替换基本的四种类型,利用输出层结合各融合特征序列和错误类型对错误文字进行纠错操作。
通过按照错误文字所属的错误类型对错误文字进行纠错,能够准确捕捉到偏向字音或字形相似的字词错误,进行删除、新增、修改、调换等方式的文本纠正,并且降低误纠率、提高模型推理的速度,帮助业务及开发人员快速提高文本质量。
在本发明的一种具体实施方式中,利用输出层结合各融合特征序列和错误类型对错误文字进行纠错操作,可以包括以下步骤:
步骤一:按照错误类型对错误文字进行标注,得到标注结果;
步骤二:利用输出层结合各融合特征序列和标注结果对错误文字进行纠错操作。
为方便描述,可以将上述两个步骤结合起来进行说明。
在确定出目标文本中的错误文字之后,按照错误类型对错误文字进行标注,得到标注结果,利用输出层结合各融合特征序列和标注结果对错误文字进行纠错操作。标注内容具体包括o、a、d_B、d_I、r_B、r_I六个标签(分别代表保持、新增、删除_起始位置、删除_中间位置、替换_起始位置、替换_中间位置)。
在本发明的一种具体实施方式中,利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,可以包括以下步骤:
利用对总损失函数最小化得到的多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作;其中,总损失函数由文本分类对应的文本分类损失函数、错误文字标注对应的序列标注损失函数以及文本纠错对应的文本生成损失函数求和得到。
设置由文本分类对应的文本分类损失函数、错误文字标注对应的序列标注损失函数以及文本纠错对应的文本生成损失函数求和得到总损失函数。利用对总损失函数最小化得到的多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作。
文本分类损失函数为:
Sentenceclassfierloss=P1×I(Y1=1)+P0×I(Y1=0);
其中,I(·)为指示函数(indicator function),P0为句子预测为0类别的概率,P1为句子预测为1类别的概率,P0+P1=1。
序列标注损失函数为:
Figure BDA0003333723410000101
Figure BDA0003333723410000102
其中,I(·)为指示函数(indicator function),token为X1序列的一个字符,tag为标签集合T的一个标签,P(tag)为token预测为tag的概率值,
Figure BDA0003333723410000103
为Y2中token的真实标签。
文本生成损失函数为:
Sentencegenerateloss=1-P(X2|X1);
将上述3个损失函数加起来可以得到该文本纠错训练模型总的损失函数:
Total loss=Sentenceclassfierloss+Sentencetaggingloss+Sentencegenerateloss;
本发明通过多任务在模型损失计算中加入文本分类、序列标注、文本生成的任务,充分利用各任务间的关联性,增加训练难度,克服了序列标注一对一、文本生成复制copy操作多的缺点,取长补短,同时也解决了各任务计算分开训练造成的资源浪费问题,提升了模型效果。
相应于上面的方法实施例,本发明还提供了一种文本纠错装置,下文描述的文本纠错装置与上文描述的文本纠错方法可相互对应参照。
参见图3,图3为本发明实施例中一种文本纠错装置的结构框图,该装置可以包括:
文本接收模块31,用于接收待识别的目标文本;
特征序列获取模块32,用于利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列;
特征序列融合模块33,用于利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列;
文本纠错模块34,用于利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。
由上述技术方案可知,通过利用多模态学习,采用组合融合的方式将字音和字形特征嵌入到多模态文本纠错模型的嵌入层,丰富字符的表征能力,使得多模态文本纠错模型可以学习到字符之间字形和字音之间的紧密联系,提高了模型对形似音似的文本纠错能力,提高了文本纠错的准确性。
在本发明的一种具体实施方式中,文本纠错模块34包括:
字符序列转化子模块,用于利用嵌入层获取目标文本中各文字的声母元素、韵母元素及声调元素,并将声母元素、韵母元素及声调元素转化为罗马字的字符序列;
字音特征序列获得子模块,用于对字符序列进行一维卷积和最大池化操作,得到字音特征序列;
字形特征序列获得子模块,用于获取各文字的预设维度单通道图像,并对预设维度单通道图像进行一维卷积和最大池化操作,得到字形特征序列;
字特征序列获取子模块,用于获取各文字分别对应的字特征序列。
在本发明的一种具体实施方式中,该装置还可以包括:
文本分类模块,用于在得到各文字分别对应的融合特征序列之后,利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作之前,利用多模态文本纠错模型的推理层根据各融合特征序列对目标文本中各文字进行文本分类,得到文本分类结果;
判断模块,用于判断文本分类结果是否为存在文本错误;
错误文字确定模块,用于当确定文本分类结果为存在文本错误时,确定目标文本中的错误文字;
文本纠错模块34具体为利用输出层根据各融合特征序列对错误文字进行纠错操作的模块。
在本发明的一种具体实施方式中,该装置还可以包括:
信息输出模块,用于当确定文本分类结果为不存在文本错误时,输出文本正确提示信息。
在本发明的一种具体实施方式中,该装置还可以包括:
错误类型确定模块,用于在确定目标文本中的错误文字之后,利用输出层根据各融合特征序列对错误文字进行纠错操作之前,确定错误文字所属的错误类型;
文本纠错模块34具体为利用输出层结合各融合特征序列和错误类型对错误文字进行纠错操作的模块。
在本发明的一种具体实施方式中,文本纠错模块34包括:
标注子模块,用于按照错误类型对错误文字进行标注,得到标注结果;
文本纠错子模块,用于利用输出层结合各融合特征序列和标注结果对错误文字进行纠错操作。
在本发明的一种具体实施方式中,文本纠错模块34具体为利用对总损失函数最小化得到的多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作的模块;其中,总损失函数由文本分类对应的文本分类损失函数、错误文字标注对应的序列标注损失函数以及文本纠错对应的文本生成损失函数求和得到。
相应于上面的方法实施例,参见图4,图4为本发明所提供的文本纠错设备的示意图,该设备可以包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的文本纠错方法的步骤。
具体的,请参考图5,图5为本实施例提供的一种文本纠错设备的具体结构示意图,该文本纠错设备可因配置或性能不同而产生比较大的差异,可以包括处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在文本纠错设备301上执行存储器332中的一系列指令操作。
文本纠错设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的文本纠错方法中的步骤可以由文本纠错设备的结构实现。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
接收待识别的目标文本;利用多模态文本纠错模型的嵌入层获取目标文本中各文字的字音特征序列、字形特征序列及字特征序列;利用多模态文本纠错模型的全连接层对字音特征序列、字形特征序列及字特征序列进行融合,得到各文字分别对应的融合特征序列;利用多模态文本纠错模型的输出层根据各融合特征序列对目标文本进行纠错操作,得到纠正后文本。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种文本纠错方法,其特征在于,包括:
接收待识别的目标文本;
利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列;
利用所述多模态文本纠错模型的全连接层对所述字音特征序列、所述字形特征序列及所述字特征序列进行融合,得到各所述文字分别对应的融合特征序列;
利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,得到纠正后文本。
2.根据权利要求1所述的文本纠错方法,其特征在于,利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列,包括:
利用所述嵌入层获取所述目标文本中各所述文字的声母元素、韵母元素及声调元素,并将所述声母元素、所述韵母元素及所述声调元素转化为罗马字的字符序列;
对所述字符序列进行一维卷积和最大池化操作,得到所述字音特征序列;
获取各所述文字的预设维度单通道图像,并对所述预设维度单通道图像进行一维卷积和最大池化操作,得到所述字形特征序列;
获取各所述文字分别对应的字特征序列。
3.根据权利要求1或2所述的文本纠错方法,其特征在于,在得到各所述文字分别对应的融合特征序列之后,利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作之前,还包括:
利用所述多模态文本纠错模型的推理层根据各所述融合特征序列对所述目标文本中各所述文字进行文本分类,得到文本分类结果;
判断所述文本分类结果是否为存在文本错误;
若是,则确定所述目标文本中的错误文字;
利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,包括:
利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作。
4.根据权利要求1所述的文本纠错方法,其特征在于,当确定所述文本分类结果为不存在文本错误时,还包括:
输出文本正确提示信息。
5.根据权利要求3所述的文本纠错方法,其特征在于,在确定所述目标文本中的错误文字之后,利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作之前,还包括:
确定所述错误文字所属的错误类型;
利用所述输出层根据各所述融合特征序列对所述错误文字进行纠错操作,包括:
利用所述输出层结合各所述融合特征序列和所述错误类型对所述错误文字进行纠错操作。
6.根据权利要求5所述的文本纠错方法,其特征在于,利用所述输出层结合各所述融合特征序列和所述错误类型对所述错误文字进行纠错操作,包括:
按照所述错误类型对所述错误文字进行标注,得到标注结果;
利用所述输出层结合各所述融合特征序列和所述标注结果对所述错误文字进行纠错操作。
7.根据权利要求6所述的文本纠错方法,其特征在于,利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,包括:
利用对总损失函数最小化得到的多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作;其中,所述总损失函数由文本分类对应的文本分类损失函数、错误文字标注对应的序列标注损失函数以及文本纠错对应的文本生成损失函数求和得到。
8.一种文本纠错装置,其特征在于,包括:
文本接收模块,用于接收待识别的目标文本;
特征序列获取模块,用于利用多模态文本纠错模型的嵌入层获取所述目标文本中各文字的字音特征序列、字形特征序列及字特征序列;
特征序列融合模块,用于利用所述多模态文本纠错模型的全连接层对所述字音特征序列、所述字形特征序列及所述字特征序列进行融合,得到各所述文字分别对应的融合特征序列;
文本纠错模块,用于利用所述多模态文本纠错模型的输出层根据各所述融合特征序列对所述目标文本进行纠错操作,得到纠正后文本。
9.一种文本纠错设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述文本纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本纠错方法的步骤。
CN202111288422.XA 2021-11-02 2021-11-02 一种文本纠错方法、装置、设备及计算机可读存储介质 Pending CN113988063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288422.XA CN113988063A (zh) 2021-11-02 2021-11-02 一种文本纠错方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288422.XA CN113988063A (zh) 2021-11-02 2021-11-02 一种文本纠错方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113988063A true CN113988063A (zh) 2022-01-28

Family

ID=79745748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288422.XA Pending CN113988063A (zh) 2021-11-02 2021-11-02 一种文本纠错方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113988063A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备
CN115270771A (zh) * 2022-10-08 2022-11-01 中国科学技术大学 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备
CN115270771A (zh) * 2022-10-08 2022-11-01 中国科学技术大学 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN115270771B (zh) * 2022-10-08 2023-01-17 中国科学技术大学 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110765996A (zh) 文本信息处理方法及装置
KR102637338B1 (ko) 번역 보정 방법 및 장치와 번역 시스템
CN113988063A (zh) 一种文本纠错方法、装置、设备及计算机可读存储介质
CN112016303B (zh) 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN111914825B (zh) 文字识别方法、装置及电子设备
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN114818668A (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
US20030061030A1 (en) Natural language processing apparatus, its control method, and program
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN113380223A (zh) 多音字消歧方法、装置、系统及存储介质
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114818669A (zh) 一种人名纠错模型的构建方法和计算机设备
Sabbah et al. Support vector machine based approach for quranic words detection in online textual content
CN113626563A (zh) 训练自然语言处理模型和自然语言处理的方法、电子设备
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
Juan et al. Handwritten text recognition for ancient documents
CN115204164B (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
Wang et al. Text anchor based metric learning for small-footprint keyword spotting
Hladek et al. Unsupervised spelling correction for Slovak

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination