CN114742050A - 文本处理方法及装置 - Google Patents
文本处理方法及装置 Download PDFInfo
- Publication number
- CN114742050A CN114742050A CN202210436972.XA CN202210436972A CN114742050A CN 114742050 A CN114742050 A CN 114742050A CN 202210436972 A CN202210436972 A CN 202210436972A CN 114742050 A CN114742050 A CN 114742050A
- Authority
- CN
- China
- Prior art keywords
- text
- corrected
- error correction
- correction
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012937 correction Methods 0.000 claims abstract description 531
- 238000012545 processing Methods 0.000 claims abstract description 146
- 238000001514 detection method Methods 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims description 50
- 238000013519 translation Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 description 18
- 239000000203 mixture Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000001915 proofreading effect Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取待纠错文本;根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。实现了通过规则和模型联合纠错的方式提高纠错精准度,且纠错覆盖范围更广,以解决现有技术中单独采用规则纠错,而导致规则维护困难的问题。
Description
技术领域
本申请涉及人工智能领域的文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、问答系统(Question AnsweringSystem,QA,是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题)和文本纠错等。
而文本纠错作为一种较为基础的自然语言处理技术,其越来越多的场景中得以应用;纠错校对是一种常见的针对文本进行修正的处理,其主要任务是针对给定的文本内容进行检错和校对,把符合语法的文本以及含有错误字符的文本进行校对。如作业批改、档案存储、论文检查等场景,都会涉及到对文本内容进行纠错,以提高文本内容的质量。现有技术中为提高文本的纠错效率,通常会采用预设的规则实现,在此过程中需要预设大量的规则,不仅无法覆盖全面的纠错场景,还存在灵活度较低的问题,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
获取待纠错文本;
根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
可选地,所述根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本,包括:
对所述待纠错文本进行分词处理获得多个词单元,并按照结构检错规则对各个词单元进行处理,获得第一初始纠错文本;和/或,
按照语法检错规则对所述待纠错文本进行处理,获得第二初始纠错文本。
可选地,所述将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本,包括:
将所述初始纠错文本输入至所述文本纠错模型;
通过所述文本纠错模型中的检测单元对所述初始纠错文本进行处理,获得中间纠错文本;
通过所述文本纠错模型中的纠错单元对所述中间纠错文本进行处理,获得初始修正文本,并输出所述文本纠错模型;
根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本。
可选地,所述根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本,包括:
对所述初始修正文本进行解析,获得修正标识信息;
按照所述修正标识信息和所述初始修正文本对所述初始纠错文本进行更新,获得所述目标修正文本。
可选地,所述根据处理结果确定所述待纠错文本对应的目标修正文本,包括:
根据处理结果确定所述初始纠错文本对应的纠错字符;
在预设的文本库中选择与所述纠错字符对应的候选字符组成候选字符序列;
基于所述候选字符序列中的各个候选字符对所述初始纠错文本进行更新,并对更新后的各个初始纠错文本进行检测;
根据检测结果在更新后的初始纠错文本中选择目标纠错文本作为所述目标修正文本。
可选地,所述获取待纠错文本步骤执行之后,还包括:
将所述待纠错文本输入至所述文本纠错模型进行处理,获得所述待纠错文本对应的中间修正文本;
在所述中间修正文本与所述目标修正文本不一致的情况下,对所述中间修正文本、所述目标修正文本以及所述初始纠错文本进行文本融合;
根据文本融合结果确定所述待纠错文本对应的目标文本。
可选地,所述根据处理结果确定所述待纠错文本对应的目标修正文本步骤执行之后,还包括:
对所述目标修正文本进行翻译处理,获得对应第一语种的翻译修正文本;
对所述翻译修正文本进行回译处理,获得对应所述目标修正文本语种的回译修正文本;
基于所述回译修正文本对所述目标修正文本进行检测,根据检测结果对所述文本纠错模型进行优化。
可选地,所述文本纠错模型的训练过程如下:
在预设的样本集中提取样本文本;
将所述样本文本输入至初始文本纠错模型进行处理,获得预测修正文本;
根据所述样本文本对应的样本修正文本和所述预测修正文本计算检错损失值以及修正损失值;
基于所述检错损失值和所述修正损失值对所述初始文本纠错模型进行调参,直至获得满足训练停止条件的所述文本纠错模型。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
获取文本模块,被配置为获取待纠错文本;
文本处理模块,被配置为根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
纠错处理模块,被配置为将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
本申请提供的文本处理方法,在获取待纠错文本后,可以先根据预设的文本检错规则对待纠错文本进行初步纠错处理,获得初始纠错文本;之后在将初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定待纠错文本对应的目标修正文本,实现了通过规则和模型联合纠错的方式对待纠错文本进行处理,不仅可以提高纠错精准度,还能够避免错误遗漏,从而保证目标修正文本的准确度。
附图说明
图1是本申请一实施例提供的一种文本处理方法的流程图;
图2是本申请一实施例提供的一种文本处理方法的示意图;
图3是本申请一实施例提供的一种应用于英语作文批改场景中的文本处理方法的处理流程图;
图4是本申请一实施例提供的一种文本处理装置的结构示意图;
图5是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
NER(Named Entity Recognition,命名实体识别):用来识别句子中的实体,给句子中的每个单词预测一个实体类型标签。
待纠错文本:包含语法、拼写、词单元缺失等问题的文本。
目标修正文本:是指将不符合语法、或者包含错误字符的待纠错文本进行校对修正后生成的文本。
在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S102,获取待纠错文本。
具体的,待纠错文本具体是指包含需要纠错的问题的文本,其可以是text格式、word格式或PDF格式等,由文本格式中包含的字单元组成的文本段落。如包含语法错误的文本,包含拼写错误的文本,包含多词的文本,包含少词的文本等;其中,待纠错文本可以是用户通过客户端上传的需要检测并纠错的文本,如作文、文章、评论等;也可以是模型训练阶段需要检测并纠错的样本文本。任意场景下需要进行纠错的文本都可以采用本实施例提供的文本处理方法实现纠错处理操作。
本实施例以待纠错文本为对应英语的文本为例进行说明,其他场景下对应不同语种的纠错实现均可参见本实施例相同或相应的描述内容,在此不作过多赘述。
步骤S104,根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本。
具体的,在上述获取到待纠错文本后,进一步的,为了能够在后续精准的对待纠错文本进行修正,可以先通过文本检错规则进行初步的检错处理,以通过规则检测的方式初步修正待纠错文本中一些比较容易发现的问题。
其中,文本检错规则具体是指对待纠错文本进行初步检错并修正的规则,包括但不限于检测多词、少词、拼写错误等问题,实际应用中,文本检错规则的设定可以根据实际应用场景进行设定。相应的,初始纠错文本具体是指通过文本检错规则进行初步检错并修正后得到的纠错文本,且初始纠错文本能够用于后续通过模型进行二次检错修正。
基于此,根据文本检错规则对待纠错文本进行处理,即为对检测待纠错文本中包含的错误进行初步检测,并进行初步修正的处理,以实现将待纠错文本中比较容易发现的错误进行优先处理。具体实施时,按照规则对待纠错文本进行处理的操作,可以通过编辑距离实现;也就是说,通过编辑距离可以计算待纠错文本中包含的字单元与正确字单元之间最短的操作距离,一次操作定义为一次距离,最短编辑距离即为求两个字单元之间最少的操作次数,以实现通过规则完成初步的检测和修正。此过程中,即为按照增、删、替换字单元的最小组成元素来实现。
相应的,通过文本检错规则进行初步处理后的初始纠错文本与待纠错文本相比,实则是将待纠错文本中多词、少词、拼写错误等问题进行修正后,得到不多词、不少词、拼写正确的初始纠错文本。也就是说,如果待纠错文本中包含多余的单词,通过文本检错规则可以将多余的单词删除,得到的初始纠错文本中将不包含多余的单词;或者待纠错文本中包含错误的单词,通过文本检错规则可以对错误的单词进行修正,得到的初始纠错文本中将不包含错误的单词;再或者,待纠错文本中缺少单词,通过文本检错规则可以确定缺少的单词并进行修正,得到的初始纠错文本中将包含缺少的单词。
例如,待纠错文本为“go school”,通过文本检错规则对待纠错文本进行处理,即先选择设定数量的文本,计算其与待纠错文本之间的最短编辑距离,根据计算结果确定最短编辑距离为2,且对应的文本为“go to school”;因此在修正时即可在待纠错文本中添加单词“to”得到初始纠错文本“go to school”,以用于后续的处理;同理,在待纠错文本中多词或者单词拼写错误时,也可以通过计算最短编辑距离的方式确定需要删除的单词,以及拼写正确的单词,以此为基础对待纠错文本进行修正,即可得到初始纠错文本,用于后续处理即可。
进一步的,在通过文本检错规则对待纠错文本进行处理时,为了提高初步检错的效率以及发现问题的准确性,可以根据需求设置能够在较短时间内完成部分问题的检错规则,如结构检错规则和/或语法检错规则,具体实现如下:
对所述待纠错文本进行分词处理获得多个词单元,并按照结构检错规则对各个词单元进行处理,获得第一初始纠错文本;和/或,按照语法检错规则对所述待纠错文本进行处理,获得第二初始纠错文本。
具体的,结构检错规则具体是指检测待纠错文本中的各个词单元结构是否正确的规则,如检测词单元是否拼写错误,是否缺少字符或多字符等,需要说明的是,结构检错规则需要结合预先设立的字典完成,也就是说,通过将各个词单元与预设的字典中包含的词单元进行比对,即可确定各个词单元的正确性,之后再选择错误的词单元进行修正即可得到第一初始纠错文本。
相应的,语法检错规则具体是指检错待纠错文本中的语法是否正确的规则,如检测文本是否流利,词单元结构是否正确等。需要说明的是,语法检错规则可以根据实际应用场景进行设定,且设定的规则内容可以动态增加或减少。
此外,待纠错文本可能同时存在语法问题和结构问题,因此在通过文本检错规则对待纠错文本进行处理时,可以同时结合语法检错规则和结构检错规则完成,也可以按照先后顺序完成初步纠错并修正。
举例说明,接收到用户待发布的英语文章文本{…go see the sun tomorrow…},之后按照预设的结构检错规则和语法检错规则{检测单词是否多字母,检测单词是否少字母,检测单词是否拼写错误}对该文本进行初步检错,确定该文本中缺少单词“to”,则此时可以在该文本中添加单词“to”,以得到初始纠错文本{…go to see the suntomorrow…},以方便后续可以结合模型进行二次纠错,以向用户提供未包含错误的英文文章文本。
综上,通过结合语法检错规则和结构检错规则对待纠错文本进行初步检错,可以优先修正待纠错文本中比较简单的问题,之后再利用模型进行二次纠错,可以很大程度的提高文本纠错效率以及纠错精准度,且能够覆盖较为宽泛的纠错问题,更加保证了纠错后的文本的准确性。
步骤S106,将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
具体的,在上述获得通过文本检错规则进行处理修正后的初始纠错文本后,进一步的,为了能够提高纠错精准度,以及充分发现待纠错文本中的全部错误,还可以再结合文本纠错模型进行纠错处理。即将初始纠错文本输入至预先训练好的文本纠错模型进行处理,通过文本纠错模型对初始纠错文本中的问题进行标注并修正,即可根据处理结果得到待纠错文本对应的目标修正文本。
具体实施时,文本纠错模型是基于BERT的模型结构创建的模型,在通过该模型对初始纠错文本进行处理时,是将初始纠错文本输出至预训练好的BERT模型,之后通过编码层对初始纠错文本进行编码,得到初始纠错文本对应的编码向量;其次再通过解码单元对编码向量进行解码,得到初始纠错文本对应的解码向量,最后以解码向量为基础,通过模型中的输出层输出初始纠错文本中每个单词位置对应的预测结果,即在输出层会针对每个单词位置给出一个预测结果,每个位置的预测结果可以是“保持不变”“删除”“替换”“添加”等,最后根据预测结果再对文本进行修正,即可得到满足下游业务使用需求的目标修正文本,即未包含错误信息的文本。
基于此,在根据模型的处理结果确定待纠错文本对应的目标修正文本的过程中,实则是通过模型输出文本中每个单词位置的校对结果,例如,文本中某个位置单词是保持不变、替换、删除或者增加等,此后会根据该校对结果对待纠错文本进行后续处理,即根据校对结果对待纠错文本进行修正,修正包括保持不变、替换单词、删除单词或者增加单词,从而得到满足修正需求的目标修正文本。
实际应用中,文本纠错模型可以采用基于NER的序列标注模型实现,也就是说,通过文本纠错模型可以对初始纠错文本中的每个字单元进行序列标注,根据每个词单元对应的标注结果可以确定是否存在问题,之后选择存在问题的标注结果对应的词单元进行修正,即可得到目标修正文本。
也就是说,以NER序列标注模型作为文本纠错模型,可以在处理阶段预测出初始纠错文本中每个单词位置对应的校对结果,之后根据校对结果对初始纠错文本进行调整,如保持单词不变、替换单词、删除单词或者增加单词等;在全部校对结果都完成处理后,即可得到目标修正文本。
在此过程中,NER序列标注模型的实现为:将初始纠错文本输入模型,通过模型中的编码单元对其进行编码处理得到编码向量,之后再将其输入至解码单元,此时以每个单词为基础,通过解码单元对编码向量进行处理,输出每个单词对应的校对结果,该校对结果即为每个单词对应的解码向量;最后再通过输出层进行输出,即可将每个单词对应的解码向量转换为校对结果,以用于根据校对结果进行目标修正文本的生成。
进一步的,为了能够实现文本纠错模型可以在进行问题标注的同时完成纠错处理,在模型训练阶段可以采用多任务学习的方式,使得模型学习问题标注和纠错两种能力,从而满足应用阶段的纠错处理操作,本实施例中,具体实现如步骤S1082至步骤S1088。
步骤S1082,在预设的样本集中提取样本文本;
步骤S1084,将所述样本文本输入至初始文本纠错模型进行处理,获得预测修正文本;
步骤S1806,根据所述样本文本对应的样本修正文本和所述预测修正文本计算检错损失值以及修正损失值;
步骤S1088,基于所述检错损失值和所述修正损失值对所述初始文本纠错模型进行调参,直至获得满足训练停止条件的所述文本纠错模型。
具体的,样本集具体是指集成大量包含不同问题的文本集合,相应的,样本文本具体训练模型阶段来自于样本集的文本;相应的,初始文本纠错模型具体是指训练阶段学习序列标注和纠错能力的模型,且该模型还未被训练完成;相应的,预测修正文本具体是指通过初始文本纠错模型对样本文本进行序列标注和纠错后得到的文本。相应的,样本修正文本具体是指样本文本对应的正确文本。相应的,检错损失值具体是指计算初始文本纠错模型在序列标注方面能力的损失值,修正损失值具体是指计算初始文本纠错模型在修正方面能力的损失值,且损失值的计算可以采用最大熵损失函数或者交叉熵损失函数等。其中,训练停止条件包括但不限于损失值的比较、迭代次数等,实际应用中,可以根据应用需求进行选择。
相应的,对初始文本纠错模型进行调参具体是指调整初始文本纠错模型中的超参数,包括但不限于初始纠错模型在学习过程中的学习率、batch_size等参数,通过调整参数可以使得文本纠错模型在验证集上的损失降到最低,直至收敛得到满足停止条件的文本纠错模型。其中,验证集是指在每个训练周期结束后,对当前训练好的文本纠错模型进行验证的集合,用于验证当前周期下文本纠错模型的预测能力,以保证文本纠错模型可以具有更好的预测能力,以满足应用阶段的使用。
需要说明的是,训练阶段初始文本纠错模型对样本文本进行处理的过程,与上述文本纠错模型对初始纠错文本集进行处理的过程相类似,在此不作赘述。
基于此,在模型训练阶段,首先可以在预设的样本集中提取样本文本,之后将其输入至构建好的初始文本纠错模型进行处理,以根据处理结果得到预测修正文本。其次,根据样本文本对应的样本修正文本和预测修正文本计算检错损失值和修正损失值;最后再按照检错损失值和修正损失值分别对初始文本纠错模型进行调参,并以此类推,直至获得满足训练停止条件的文本纠错模型即可。
需要说明的是,训练阶段,样本修正文本为包含标注信息的文本,用于完成对模型的序列标注能力的训练。在应用阶段,可以设置模型不输出包含标注信息的目标修正文本。同时样本修正文本中的标注信息为以字单元为单位进行标注,也就是说,每个字单元将分别对应一个标签,而不同的标签表达不同的含义,如O表示不变,R表示删除,D表示改写,A表示增加;使得模型在预测阶段,可以根据标签内容对文本进行处理,再通过修正能力调整后,输出满足纠错需求的目标修正文本。
综上,通过采用多任务学习的方式对文本纠错模型进行训练,使得模型可以同时学习到检错能力和修正能力,从而实现可以快速的完成文本纠错处理操作,实现在较短的时间内针对纠错文本反馈正确的目标修正文本。
进一步的,在通过文本纠错模型对初始纠错文本进行纠错处理时,实则是先进行检错再进行修正处理,从而才能够输出满足修正需求的目标修正文本,本实施例中,具体实现方式如步骤S1182至步骤S1188。
步骤S1182,将所述初始纠错文本输入至所述文本纠错模型;
步骤S1184,通过所述文本纠错模型中的检测单元对所述初始纠错文本进行处理,获得中间纠错文本;
步骤S1186,通过所述文本纠错模型中的纠错单元对所述中间纠错文本进行处理,获得初始修正文本,并输出所述文本纠错模型;
步骤S1188根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本。
具体的,中间待纠错文本具体是指包含标注信息的文本,且标注信息对应文本中的每个字单元,不同的标注信息表达不同的问题类型,如O表示不变,R表示删除,D表示改写,A表示增加等;相应的,初始修正文本具体是指能够对携带标注信息的中间修正文本进行修正的文本。
也就是说,在通过文本纠错模型中的检测单元对初始纠错文本进行处理时,实则是通过纠错单元调用预设的拼写检错库,通过拼写检错库对初始纠错文本进行检错和纠错,以根据检错和纠错结果确定中间纠错文本。其中,拼写检错库中存储同领域内的通用单词,用于校正初始纠错文本中拼写错误的单词。
基于此,在得到初始纠错文本后,可以将其输入至训练好的文本纠错模型,通过文本纠错模型中的检测单元对初始纠错文本进行处理,以得到携带标注信息的中间纠错文本;之后再利用纠错单元对中间纠错文本进行处理,实现根据中间纠错文本中携带的标注信息确定不同问题对应的正确答案,即初始修正文本,最后将其输出文本纠错模型,再利用初始修正文本对待纠错文本进行更新,即可得到目标修正文本。
其中,纠错单元对中间纠错文本进行处理实则是根据检错结果生成初始修正文本的处理。即:由于中间纠错文本中包含标注信息,纠错单元通过对标注信息进行遍历,即可确定当前位置中单词是否需要保持不变、替换、删除或者增加,之后根据标注信息可以生成初始修正文本,用于记录文本中每个位置的单词岁对应的修正操作,最后以此为基础进行修正处理即可。也就是说,当得到初始修正文本后,可以按照初始修正文本中记录的标注信息,对待纠错文本每个位置对应的单词进行修正,以实现对待纠错文本中存在删除、替换和增加的单词进行更新,根据更新结果即可得到目标修正文本。
综上,通过使用文本纠错模型的检测能力和修正能力对初始纠错文本进行处理,不仅可以实现检错和修正,同时能够有效的提高纠错效率,以实现精准且高效的向用户反馈准确的文本内容。
更进一步的,在基于初始修正文本对初始纠错文本进行更新时,为了能够保证修正后的文本正确,且避免纠错文本内容过多,重复内容多,修正位置发生错误,可以结合修正标识信息完成更新处理操作,本实施例中,具体实现如步骤S11882至步骤S11884。
步骤S11882,对所述初始修正文本进行解析,获得修正标识信息;
步骤S11884,按照所述修正标识信息和所述初始修正文本对所述初始纠错文本进行更新,获得所述目标修正文本。
具体的,修正标识信息具体是指标识修正位置的信息,通过修正标识信息可以确定需要修正的内容在初始纠错文本中的位置。基于此,在得到初始修正文本后,可以对其进行解析,确定对应修正位置的修正标识信息,之后再按照修正标识信息和初始修正文本中的文本内容对初始纠错文本进行更新,即可得到待纠错文本对应的目标修正文本。
需要说明的是,在对初始修正文本进行解析时,实则是确定初始修正文本中,记录待纠错文本中每个单词对应的标识信息的操作,即从初始修正文本中提取每个单词对应的标识信息,方便后续可以结合标识信息和初始修正文本对初始纠错文本中的各个单词进行修正处理,以根据处理结果得到目标修正文本。
沿用上例,在得到初始纠错文本{…go to see the sun tomorrow…}后,将初始纠错文本输入至训练好的文本纠错模型,通过文本纠错模型中的检测单元对其进行处理,即通过检测单元通过计算最短编辑距离的方式,确定初始纠错文本中每个单词与正确单词之间的最短编辑距离,以根据最短编辑距离确定各个单词是否存在错误,即可得到携带标注信息的中间纠错文本{…go(O)to(O)see(O)the(O)sun(D)tomorrow(O)…},之后再通过文本纠错模型中的纠错单元对携带有标注信息的中间纠错文本进行处理,确定其中单词go、to、see、the、和tomorrow都不存在问题不需要修正,而sun对应标注信息D,说明需要改写,根据纠错单元的改写结果确定初始修正文本sunrise,最后将其输出文本纠错模型即可。
进一步的,为了能够准确的对文本中的错误问题进行修正,可以基于初始修正文本确定需要修正的部分存在于初始纠错文本中的第5个单词,之后再利用该初始修正文本对初始纠错文本进行更新,即可得到目标修正文本{…go to see the sunrisetomorrow…},以用于后续用户进行英文文章的发布即可。
综上,通过结合修正标识信息对初始纠错文本进行处理,不仅可以避免初始修正文本过多时,修正遍历速度慢的问题,还能够在初始修正文本重复内容较多的情况下,精准的对需要修正的内容进行处理,保证目标修正文本的准确性。
此外,考虑到文本纠错模型输出的是对待纠错文本进行修正的文本内容,而该内容是模型输出的结果,存在一定的错误概率,如果直接复用可能会影响目标修正文本的正确性,因此可以采用候选检测的方式确定目标修正文本,本实施例中,具体实现如步骤S1282至步骤S1288。
步骤S1282,根据处理结果确定所述初始纠错文本对应的纠错字符;
步骤S1284,在预设的文本库中选择与所述纠错字符对应的候选字符组成候选字符序列;
步骤S1286,基于所述候选字符序列中的各个候选字符对所述初始纠错文本进行更新,并对更新后的各个初始纠错文本进行检测;
步骤S1288,根据检测结果在更新后的初始纠错文本中选择目标纠错文本作为所述目标修正文本。
具体的,纠错字符具体是指通过文本纠错模型针对初始纠错文本进行检错和修正处理后得到的能够替换错误字符的预测字符;相应的,文本库具体是指整合大量相近字符的数据库,其中相近的字符可以是读音相近,语义相近或者字形相近;相应的,候选字符具体是指与纠错字符相近的字符,候选字符序列即为由候选字符组成的集合。相应的,对更新后的初始纠错文本进行检测,具体是指检测各个候选字符替换掉初始纠错文本中的错误字符后,其语法/语义正确性的处理操作。
具体实施时,检测处理操作可以通过语法模型实现,即通过语法模型对各个更新后的初始纠错文本进行打分,选择分值最高的作为目标修正文本即可。需要说明的是,候选字符序列中包含纠错字符。
基于此,当得到文本纠错模型输出的对应初始纠错文本对应的纠错字符后,考虑到文本纠错模型输出的结果也存在错误的概率,因此可以通过候选字符序列实现正确性检测,以及深度修正的处理;即在预设的文本库中选择与纠错字符对应的候选字符组成候选字符序列,之后基于候选字符序列中包含的各个候选字符对初始纠错文本进行更新,以获得各个包含候选字符的初始纠错文本,再通过对每个包含候选字符的初始纠错文本进行检测,从而可以根据检测结果选择分值最高的包含候选字符的初始纠错文本作为目标修正文本。
举例说明,初始纠错文本为{你的年零好大},通过文本纠错模型确定初始纠错文本对应的纠错字符为“龄”;之后在预设的文本库中选择与纠错字符“龄”对应的候选字符组成候选字符序列{龄;另;领};之后将各个候选字符添加到初始纠错文本中,得到第一初始纠错文本{你的年龄好大},第二初始纠错文本{你的年另好大}和第三初始纠错文本{你的年领好大};之后再对每个纠错文本进行打分,确定第一初始纠错文本的分值为S1,第二初始纠错文本的分值为S2,第三初始纠错文本的分值为S3,且S1>S3>S2,确定第一初始纠错文本{你的年龄好大}分值最高,则可以选择该文本作为目标修正文本,即该文本为初始纠错文本为{你的年零好大}对应的修正文本。
综上,通过采用候选字符对文本进行修正,不仅可以提高文本纠错精准度,还能够避免文本纠错模型预测错误时出现纠错纰漏,从而可以保证向用户反馈更加精准的纠错文本。
此外,考虑到文本检错规则和文本纠错模型存在纠错不交叉的问题,如果仅采用递进的方式进行纠错,可能会存在纰漏,因此还可以在两者都完成纠错后,联合二者的修正结果进行目标文本的确定,本实施例中,具体实现如步骤S1382至步骤S1386。
步骤S1382,将所述待纠错文本输入至所述文本纠错模型进行处理,获得所述待纠错文本对应的中间修正文本;
步骤S1384,在所述中间修正文本与所述目标修正文本不一致的情况下,对所述中间修正文本、所述目标修正文本以及所述初始纠错文本进行文本融合;
步骤S1386,根据文本融合结果确定所述待纠错文本对应的目标文本。
具体的,中间修正文本具体是指文本纠错模型直接对待纠错文本进行修正后的文本。相应的,目标文本具体是指整合三次修正结果后得到的文本。
基于此,当通过文本检错规则和文本纠错模型联合得到目标修正文本后,为了能够保证纠错精准度,此时还可以通过文本纠错模型对待纠错文本进行处理,以得到待纠错文本对应的中间修正文本,之后在中间修正文本与目标修正文本不一致的情况下,说明文本检错规则还修正了其他问题,则此时可以将中间修正文本、目标修正文本以及初始纠错文本进行融合,以选择三者存在相同性的文本内容组成目标文本,从而可以从三个修正处理结果联合全部正确结果组成目标文本,保证目标文本的正确性。如果中间修正文本与目标修正文本一致,说明修正结果是正确的,则不做任何处理即可。
举例说明,待纠错文本为{123456},通过对其进行规则修正得到初始纠错文本{1234561},再通过文本纠错模型对初始纠错文本进行处理,得到目标修正文本{12345161};此时可以再将待纠错文本{123456}直接输入至文本纠错模型进行处理,得到中间修正文本{12341516};通过将中间修正文本和目标修正文本进行比对,确定二者不同,则此时为了能够保证输出精准的修正文本,可以将初始纠错文本{1234561}、中间修正文本{12341516}以及目标修正文本{12345161}进行融合,以根据融合结果得到待纠错文本为{123456}对应的目标文本{123415161}。即目标文本中包含全部修正后的结果。
综上,通过将中间修正文本、目标修正文本以及初始纠错文本进行文本融合,实现将全部修正结果都融合在一起,能够进一步提高修正精准度,从而实现向用户反馈足够精准的文本内容。
此外,为了能够提高文本纠错模型的纠错精准度,可以在纠错完成后,采用回译处理的方式对模型进行优化,本实施例中,具体实现方式如步骤S1482至步骤S1486。
步骤S1482,对所述目标修正文本进行翻译处理,获得对应第一语种的翻译修正文本;
步骤S1484,对所述翻译修正文本进行回译处理,获得对应所述目标修正文本语种的回译修正文本;
步骤S1486,基于所述回译修正文本对所述目标修正文本进行检测,根据检测结果对所述文本纠错模型进行优化。
具体的,首先将目标修正文本进行翻译处理,获得对应第一语种的翻译修正文本;其次对翻译修正文本进行回译处理,得到对应目标修正文本语种的回译修正文本;最后基于回译修正文本对目标修正文本进行检测,如果二者一致,说明文本纠错模型的纠错精准度高,不作任何处理即可。如果二者存在差异,说明文本纠错模型的纠错精准度可以提升,则按照检测结果对其进行优化即可。实际应用中,对文本纠错模型的优化具体是指对文本纠错模型参数调整,使得文本纠错模型可以在回译检测下还能够保证纠错精准度。
实际应用中,在对目标修正文本进行翻译处理,以及对翻译修正文本进行回译处理时,可以使用训练好的翻译模型实现,需要明确的是,翻译模型需要满足源语种到目标语种的翻译,以及目标语种到源语种的回译。此外,还可以通过第三方翻译软件实现,即:将目标修正文本输入至第三方翻译软件,并在选择目标语种后得到翻译修正文本;之后再重新将翻译修正文本输入至第三方翻译软件并在选择源语种后得到回译修正文本。实际应用中,翻译处理和回译处理可以根据实际需求选择。
此外,基于回译修正文本对目标修正文本进行检测,实则是通过计算最短编辑距离的方式确定回译修正文本和目标修正文本之间是否存在差异,若最短编辑距离为0,说明回译修正文本和目标修正文本完全相同,不作任何处理即可。若最短编辑距离不为0,说明回译修正文本和目标修正文本存在差异单词,为了能够提高文本纠错模型的纠错精准度,可以根据检测结果对文本纠错模型进行调参,即调整学习率、batch_size等参数,通过调整参数可以使得文本纠错模型在验证集上的损失降到最低,直至收敛得到满足条件的文本纠错模型。
举例说明,目标修正文本对应英语,则此时可以将其翻译为汉语对应的翻译修正文本;之后再对对应汉语的翻译修正文本进行回译处理,得到对应英语的回译修正文本,最后基于回译修正文本对目标修正文本进行检测,在二者不一致的情况下,对文本纠错模型进行优化即可。
参见图2所示的示意图,在获取待纠错文本后,可以先根据预设的文本检错规则对待纠错文本进行初步纠错处理,获得初始纠错文本;之后在将初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定待纠错文本对应的目标修正文本,并反馈给提供待纠错文本的提供端,实现了通过规则和模型联合纠错的方式对待纠错文本进行处理,不仅可以提高纠错精准度,还能够避免错误遗漏,从而保证目标修正文本的准确度。
下述结合附图3,以本申请提供的文本处理方法在英语作文批改场景中的应用为例,对所述文本处理方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于英语作文批改场景中的文本处理方法的处理流程图,具体包括以下步骤:
步骤S302,获取英文样本,并对所述英文样本进行打标获得样本标签。
实际应用中,在对英文文本进行纠错时,大多数采用预设的纠错规则实现,或者使用模型单独完成纠错;纠错规则虽然能够完成对英文文本的修正,但是由于错误原因较多,纠错规则很难达到全面覆盖,并且纠错规则在预设时需要消耗大量的人力和物力;而模型单独完成则会因为手段单一而影响纠错精准度,因此亟需一种有效的方案以解决上述问题。
本实施例提供的文本处理方法在实现英文文本纠错时,将采用纠错规则和模型联合的方式完成,不仅可以保证纠错精准度,还能够覆盖较大的纠错场景,从而生成满足用户使用需求的修正文本,有效提高用户的参与体验。
基于此,获取英文样本{I love chine、I am an student、I went to see theasunrise},此时通过对每个英文样本中的每个单词进行打标,确定第一样本中chine对应拼写错误标签;第二样本中an对应语法错误标签;第三样本中a对应多词标签。
需要说明的是,不同场景下不同的英文样本将存在不同的问题,如少词、多词、语法错误、拼写错误等,针对不同问题的单词将给定不同的标签,以用于训练出覆盖范围更大的文本检测模型;且打标时可以通过计算最短编辑距离的方式确定每个英文文本的样本标签,也就是说,通过计算英文文本和正确文本之间的最短编辑距离,确定英文文本中每个单词对应的标签。
步骤S304,基于样本标签、英文样本以及英文样本对应的修正样本对文本检测模型进行训练,直至获得满足训练停止条件的目标文本检测模型。
具体的,为了能够在后续应用过程中,不仅可以对英文文本进行检查错误问题,还能够实现对错误问题进行修正;在训练阶段,将采用多任务学习的方式使得文本检测模型学习确定错误和修正错误的能力,以输出正确的英文文本。
基于此,第一样本对应的修正样本为I love china,第二样本对应的修正文本为Iam a student,第三样本对应的修正文本为I went to see the sunrise;基于此,结合英文样本及其包含的单词对应的标签对文本检测模型进行初步训练,使得模型具备检测英文文本错误的能力;之后再结合英文样本及其对应的修正样本对模型进行再次训练,使得模型学习修正英文文本的能力,直至训练出满足训练停止条件的目标文本检测模型即可。
步骤S306,获取用户上传的包含待检错英文文本的英文作文。
具体的,在目标文本检测模型训练完成后,此时即可通过该模型对任意英文文本进行检测,以实现精准确定问题并对其进行修改。
基于此,获取用户上传的待检错英文文本为“...he is nniversity student…”;需要说明的是,待检错英文文本为用户上传的英文作文,由于英文作文中包含的内容较多,本实施例为方便描述,仅以英文作文中某一段落的英文内容进行检错为例进行说明,其他部分的检错过程均可参见本实施例相同或相应的描述内容,在此不作过多赘述。
步骤S308,根据预设的文件检错规则对待检错英文文本进行处理,获得初始检错英文文本。
具体的,为了能够在后续精准的对待检错英文文本进行修正,在对其进行修正前,可以通过文本检错规则对其进行初步修正。
基于此,首先读取预设的文本检错规则,确定规则为{检测单词是否多字母,检测单词是否少字母,检测单词是否错误拼写};之后基于文本检错规则对待检错英文文本“heis nniversity student”进行初步检错,通过语义分析以及单词检错确定待检错英文文本中单词“nniversity”拼写错误,其对应的正确单词应该为“university”,则此时根据正确单词对待检错英文文本中的“nniversity”进行替换,并根据替换结果更新待检错英文文本,获得初始检错英文文本为“he is university student”,以用于后续进行深度检错。
实际应用中,文本检错规则可以根据实际应用场景进行设定,并且可以随时更新,以保证检错精准度。
步骤S310,将初始检错英文文本输入至目标文本检测模型进行处理,获得目标修正文本。
在获得初始检错英文文本“he is university student”后,可以将初始检错英文文本输入至上述训练获得的目标文本检测模型进行处理,以根据模型的检测结果确定初始检错英文文本存在语法错误,同时基于该模型对其进行修正,得到修改后的文本为“he isa university student”。
步骤S312,基于目标修正文本对英文作文进行更新,获得目标英文作文并反馈至用户。
在获得修正后的文本“he is a university student”后,可以基于该段内容的描述替换英文作文中相应的描述内容,以使得用户获得没有语法问题、错词问题的目标英文作文。
综上,为了能够提高英文文本的纠错精准度,在训练阶段将采用多任务学习的方式,使得文本检测模型学习纠错和修正的能力;之后在应用场景中,通过联合文本检错规则和文本检测模型同时对待检错英文文本进行处理,不仅可以提高检错精准度,还能够覆盖较多的纠错场景,有效的提高了用户的参与体验。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图4示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图4所示,该装置包括:
获取文本模块402,被配置为获取待纠错文本;
文本处理模块404,被配置为根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
纠错处理模块406,被配置为将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
一个可选的实施例中,所述文本处理模块404进一步被配置为:
对所述待纠错文本进行分词处理获得多个词单元,并按照结构检错规则对各个词单元进行处理,获得第一初始纠错文本;和/或,按照语法检错规则对所述待纠错文本进行处理,获得第二初始纠错文本。
一个可选的实施例中,所述纠错处理模块406进一步被配置为:
将所述初始纠错文本输入至所述文本纠错模型;通过所述文本纠错模型中的检测单元对所述初始纠错文本进行处理,获得中间纠错文本;通过所述文本纠错模型中的纠错单元对所述中间纠错文本进行处理,获得初始修正文本,并输出所述文本纠错模型;根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本。
一个可选的实施例中,所述纠错处理模块406进一步被配置为:
对所述初始修正文本进行解析,获得修正标识信息;按照所述修正标识信息和所述初始修正文本对所述初始纠错文本进行更新,获得所述目标修正文本。
一个可选的实施例中,所述纠错处理模块406进一步被配置为:
根据处理结果确定所述初始纠错文本对应的纠错字符;在预设的文本库中选择与所述纠错字符对应的候选字符组成候选字符序列;基于所述候选字符序列中的各个候选字符对所述初始纠错文本进行更新,并对更新后的各个初始纠错文本进行检测;根据检测结果在更新后的初始纠错文本中选择目标纠错文本作为所述目标修正文本。
一个可选的实施例中,所述文本处理装置,还包括:
融合模块,被配置为将所述待纠错文本输入至所述文本纠错模型进行处理,获得所述待纠错文本对应的中间修正文本;在所述中间修正文本与所述目标修正文本不一致的情况下,对所述中间修正文本、所述目标修正文本以及所述初始纠错文本进行文本融合;根据文本融合结果确定所述待纠错文本对应的目标文本。
一个可选的实施例中,所述文本处理装置,还包括:
优化模块,被配置为对所述目标修正文本进行翻译处理,获得对应第一语种的翻译修正文本;对所述翻译修正文本进行回译处理,获得对应所述目标修正文本语种的回译修正文本;基于所述回译修正文本对所述目标修正文本进行检测,根据检测结果对所述文本纠错模型进行优化。
一个可选的实施例中,所述文本纠错模型的训练过程如下:
在预设的样本集中提取样本文本;将所述样本文本输入至初始文本纠错模型进行处理,获得预测修正文本;根据所述样本文本对应的样本修正文本和所述预测修正文本计算检错损失值以及修正损失值;基于所述检错损失值和所述修正损失值对所述初始文本纠错模型进行调参,直至获得满足训练停止条件的所述文本纠错模型。
本申请提供的文本处理装置,在获取待纠错文本后,可以先根据预设的文本检错规则对待纠错文本进行初步纠错处理,获得初始纠错文本;之后在将初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定待纠错文本对应的目标修正文本,实现了通过规则和模型联合纠错的方式对待纠错文本进行处理,不仅可以提高纠错精准度,还能够避免错误遗漏,从而保证目标修正文本的准确度。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图5示出了根据本申请一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
获取待纠错文本;
根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待纠错文本;
根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (11)
1.一种文本处理方法,其特征在于,包括:
获取待纠错文本;
根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本,包括:
对所述待纠错文本进行分词处理获得多个词单元,并按照结构检错规则对各个词单元进行处理,获得第一初始纠错文本;和/或,
按照语法检错规则对所述待纠错文本进行处理,获得第二初始纠错文本。
3.根据权利要求1所述的文本处理方法,其特征在于,所述将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本,包括:
将所述初始纠错文本输入至所述文本纠错模型;
通过所述文本纠错模型中的检测单元对所述初始纠错文本进行处理,获得中间纠错文本;
通过所述文本纠错模型中的纠错单元对所述中间纠错文本进行处理,获得初始修正文本,并输出所述文本纠错模型;
根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本。
4.根据权利要求3所述的文本处理方法,其特征在于,所述根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本,包括:
对所述初始修正文本进行解析,获得修正标识信息;
按照所述修正标识信息和所述初始修正文本对所述初始纠错文本进行更新,获得所述目标修正文本。
5.根据权利要求1所述的文本处理方法,其特征在于,所述根据处理结果确定所述待纠错文本对应的目标修正文本,包括:
根据处理结果确定所述初始纠错文本对应的纠错字符;
在预设的文本库中选择与所述纠错字符对应的候选字符组成候选字符序列;
基于所述候选字符序列中的各个候选字符对所述初始纠错文本进行更新,并对更新后的各个初始纠错文本进行检测;
根据检测结果在更新后的初始纠错文本中选择目标纠错文本作为所述目标修正文本。
6.根据权利要求1所述的文本处理方法,其特征在于,所述获取待纠错文本步骤执行之后,还包括:
将所述待纠错文本输入至所述文本纠错模型进行处理,获得所述待纠错文本对应的中间修正文本;
在所述中间修正文本与所述目标修正文本不一致的情况下,对所述中间修正文本、所述目标修正文本以及所述初始纠错文本进行文本融合;
根据文本融合结果确定所述待纠错文本对应的目标文本。
7.根据权利要求1所述的文本处理方法,其特征在于,所述根据处理结果确定所述待纠错文本对应的目标修正文本步骤执行之后,还包括:
对所述目标修正文本进行翻译处理,获得对应第一语种的翻译修正文本;
对所述翻译修正文本进行回译处理,获得对应所述目标修正文本语种的回译修正文本;
基于所述回译修正文本对所述目标修正文本进行检测,根据检测结果对所述文本纠错模型进行优化。
8.根据权利要求1-7任意一项所述的文本处理方法,其特征在于,所述文本纠错模型的训练过程如下:
在预设的样本集中提取样本文本;
将所述样本文本输入至初始文本纠错模型进行处理,获得预测修正文本;
根据所述样本文本对应的样本修正文本和所述预测修正文本计算检错损失值以及修正损失值;
基于所述检错损失值和所述修正损失值对所述初始文本纠错模型进行调参,直至获得满足训练停止条件的所述文本纠错模型。
9.一种文本处理装置,其特征在于,包括:
获取文本模块,被配置为获取待纠错文本;
文本处理模块,被配置为根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
纠错处理模块,被配置为将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
10.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436972.XA CN114742050A (zh) | 2022-04-19 | 2022-04-19 | 文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436972.XA CN114742050A (zh) | 2022-04-19 | 2022-04-19 | 文本处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114742050A true CN114742050A (zh) | 2022-07-12 |
Family
ID=82283552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210436972.XA Pending CN114742050A (zh) | 2022-04-19 | 2022-04-19 | 文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742050A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753530A (zh) * | 2020-06-24 | 2020-10-09 | 上海依图网络科技有限公司 | 一种语句处理方法、装置、设备及介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112765968A (zh) * | 2021-01-05 | 2021-05-07 | 网易有道信息技术(北京)有限公司 | 语法纠错的方法和用于语法纠错模型的训练方法及产品 |
-
2022
- 2022-04-19 CN CN202210436972.XA patent/CN114742050A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753530A (zh) * | 2020-06-24 | 2020-10-09 | 上海依图网络科技有限公司 | 一种语句处理方法、装置、设备及介质 |
CN112380840A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112765968A (zh) * | 2021-01-05 | 2021-05-07 | 网易有道信息技术(北京)有限公司 | 语法纠错的方法和用于语法纠错模型的训练方法及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
US10599767B1 (en) | System for providing intelligent part of speech processing of complex natural language | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
KR101986721B1 (ko) | 신경망 기반 기계번역 및 셈뭉치를 이용한 수학문제 개념유형 예측 서비스 제공 방법 | |
CN111428467B (zh) | 生成阅读理解的问题题目的方法、装置、设备及存储介质 | |
US20180011830A1 (en) | Annotation Assisting Apparatus and Computer Program Therefor | |
US20130185049A1 (en) | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation | |
CN112364660B (zh) | 语料文本处理方法、装置、计算机设备及存储介质 | |
US11709893B2 (en) | Search method, electronic device and storage medium | |
WO2022088570A1 (zh) | 译文后编译方法、装置、电子设备和存储介质 | |
CN109359308B (zh) | 机器翻译方法、装置及可读存储介质 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
Yang et al. | Hierarchical neural data synthesis for semantic parsing | |
CN117130593A (zh) | 代码处理方法、系统和电子设备 | |
CN116089601A (zh) | 对话摘要生成方法、装置、设备及介质 | |
CN114742050A (zh) | 文本处理方法及装置 | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN115017271A (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
US20220230001A1 (en) | Apparatuses, Systems, and Methods for Providing Automated Question Generation For Documents | |
Rijhwani | Improving Optical Character Recognition for Endangered Languages | |
CN114047981B (zh) | 项目配置方法及装置 | |
CN117273014B (zh) | 基于迁移学习的跨领域语义解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |