CN113010635A - 一种文本纠错方法及装置 - Google Patents

一种文本纠错方法及装置 Download PDF

Info

Publication number
CN113010635A
CN113010635A CN202110191102.6A CN202110191102A CN113010635A CN 113010635 A CN113010635 A CN 113010635A CN 202110191102 A CN202110191102 A CN 202110191102A CN 113010635 A CN113010635 A CN 113010635A
Authority
CN
China
Prior art keywords
text
corrected
word
prediction probability
modification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110191102.6A
Other languages
English (en)
Other versions
CN113010635B (zh
Inventor
俞霖霖
袁威强
李家诚
胡光龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110191102.6A priority Critical patent/CN113010635B/zh
Publication of CN113010635A publication Critical patent/CN113010635A/zh
Application granted granted Critical
Publication of CN113010635B publication Critical patent/CN113010635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及计算机技术领域,提供一种文本纠错方法及装置,以解决纠错时间长、可纠错类型少的问题,方法包括:本申请实施例提供的一种文本纠错方法及装置,获取待纠错文本中每个待纠错字的第一文本特征,分别对每个待纠错字执行以下操作,直至获得每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于该待纠错字的第一类修改方式的第一类修改标签,以及对于该待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定该待纠错字的修改方式;根据每个待纠错字的修改方式修改待纠错文本,得到目标文本。修改标签表示了文本错误和修改方式,节省了文本纠错时间。

Description

一种文本纠错方法及装置
技术领域
本申请涉及计算机技术领域,提供了一种文本纠错方法及装置。
背景技术
文本纠错技术是实现文本语句自动检查、自动纠错的一项重要技术,在各类文字编辑、校对场景中有着极大的应用价值。随着机器学习技术的发展,相关技术中使用的文本纠错系统多数是基于机器学习构建的,而基于机器学习构建的文本纠错系统大致分为以下三类:
第一类文本纠错系统由错误检测模型、纠正召回模型和候选排序模型三部分组成,虽然这类文本纠错系统的纠错效果不错,但是整体流程较为复杂,每次对文本进行纠错时所花费的时间比较长;
第二类文本纠错系统由检测纠正模型和候选排序模型两部分组成,相较于第一类文本纠错系统而言,在第二类文本纠错系统中仅使用检测纠正模型,即可执行错误检测和纠正召回两个步骤,因此,第二类文本纠错系统的整体流程更为简洁,但是第二类纠错系统只能解决错别字这种替换错误,因此,第二类文本纠错系统可纠正的错误类型很少;
第三类文本纠错系统借鉴机器翻译的思路,基于端到端的深度神经网络模型直接输出纠错文本,但对于文本纠错任务来说,通常只需要修改文本中个别位置的字符即可,但采用第三类文本纠错系统会重新生成整个文本,影响工作效率;另外,在生成纠错文本中的一个当前字符时,需要考虑完整的原始文本以及已生成的所有字符,也就是说,前一个字符的改动会对生成后续字符产生影响,这样的话一旦出现修改错误,很容易造成错误累积。
有鉴于此,本申请实施例提供了一种新的文本纠错方法及装置。
发明内容
本申请实施例提供一种文本纠错方法及装置,以解决纠错时间长、可纠错类型少的问题。
第一方面,本申请实施例提供了一种文本纠错方法,包括:
获取待纠错文本中每个待纠错字的第一文本特征;
分别对所述每个待纠错字执行以下操作,直至获得所述每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式;
根据所述每个待纠错字的修改方式修改所述待纠错文本,得到目标文本。
可选的,所述获取待纠错文本中每个待纠错字的第一文本特征,包括:
将所述待纠错文本转换为待纠错字序列;
将所述待纠错字序列中的每个待纠错字映射为对应的待纠错字向量;
对各个待纠错字向量进行特征提取,得到各自对应的第一文本特征。
可选的,所述根据对应的第一文本特征,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签,包括:
将所述第一文本特征输入预设多分类模型中,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签。
可选的,所述根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式,包括:
获取所述各个第一类修改标签各自对应的第一预测概率,以及所述至少一个第二类修改标签的第二预测概率;
对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率;
基于所述目标预测概率对应的修改标签,确定所述任意一待纠错字的修改方式。
可选的,所述对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率,包括:
按照预测概率的取值大小,对所述各个第一预测概率进行排序,获得第一预测概率序列,以及对所述至少一个第二预测概率进行排序,获得第二预测概率序列;
将所述第一预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率,以及将所述第二预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率,包括:
按照预测概率的取值大小,对所述各个第一预测概率和所述至少一个第二预测概率进行排序,获得第三预测概率序列;
将所述第三预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述对各个第一预测概率和至少一个第二预测概率进行筛选,还包括:
若所述各个第一预测概率和所述至少一个第二预测概率均不符合所述筛选标准,则保留所述任意一待纠错字。
可选的,若满足以下条件,则判定所述预测概率符合所述筛选标准:
所述预测概率大于预设的预测概率阈值,且所述预测概率大于所述候选字为所述任意一待纠错字的第一预测概率的预测概率。
可选的,所述基于所述目标预测概率对应的修改标签,确定所述任意一待纠错字的修改方式,包括:
若所述目标预测概率对应的修改标签为所述第一类修改标签,则所述任意一待纠错字的修改方式为所述第一类修改方式;
若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式。
可选的,所述第一类修改标签包括替换标签和插入标签;
所述若所述目标预测概率对应的修改标签为所述第一类修改标签,则所述任意一待纠错字的修改方式为所述第一类修改方式,包括:
若所述第一类修改标签为所述替换标签,则所述第一类修改方式为替换操作,其中,所述替换操作是将所述任意一待纠错字替换为所述目标预测概率对应的候选字;
若所述第一类修改标签为所述插入标签,则所述第一类修改方式为插入操作,其中,所述插入操作是将所述目标预测概率对应的候选字插入所述任意一待纠错字之前。
可选的,所述第二类修改标签至少包括删除标签;
所述若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式,包括:
若所述第二类修改标签为所述删除标签,则所述第二类修改方式为删除操作,其中,所述删除操作是删除所述任意一待纠错字。
可选的,所述第二类修改标签还包括第一调序标签和第二调序标签;
所述若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式,包括:
若所述第二类修改标签为所述第一调序标签和第二调序标签,所述第二类修改方式为调序操作,其中,所述调序操作是将所述第一调序标签标记的第一待纠错字与所述第二调序标签标记的第二待纠错字交换位置;
其中,所述第一待纠错字在所述第二待纠错字之后,所述第一调序标签表征在正确语序中位置在前的待纠错字,所述第二调序标签表征在正确语序中位置在后的待纠错字。
可选的,所述若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式,包括:
若所述第二类修改标签为所述第一调序标签,则不移动所述第一待纠错字;
若所述第二类修改标签为所述第二调序标签,则不移动所述第二待纠错字;
若所述第二类修改标签为所述第一调序标签和所述第二调序标签,且所述第一待纠错字在所述第二待纠错字之前,则不移动所述第一待纠错字和所述第二待纠错字。
可选的,在根据所述每个待纠错字的修改方式修改所述待纠错文本之后,在得到目标文本之前,还包括:
将所述每个待纠错字的修改方式进行排列组合,获得多个候选修改文本;
从所述多个候选修改文本中筛选出符合语句通顺度标准的文本,作为所述目标文本。
可选的,所述从所述多个候选修改文本中筛选出符合语句通顺度标准的文本,作为所述目标文本,包括:
分别计算各个候选修改文本的困惑度;其中,一个困惑度表征一个候选修改文本的修改合理性;
从超过困惑度阈值的困惑度所对应的候选修改文本中,确定所述目标文本。
可选的,所述从所述多个候选修改文本中筛选出符合语句通顺度标准的文本,作为所述目标文本,包括:
分别计算各个候选修改文本的通顺度;其中,一个通顺度表征一个候选修改文本的通顺程度;
基于通顺度阈值对所述多个候选修改文本进行筛选,确定所述目标文本。
可选的,所述分别计算各个候选修改文本的通顺度,其中,针对所述一个候选修改文本,通过以下方式确定对应的通顺度:
将所述一个候选修改文本和所述待纠错文本拼接为第一文本对,其中,在所述第一文本对中所述一个候选修改文本排列在所述待纠错文本之前;
将所述第一文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第一文本对中每个字的第二文本特征;
将各个第二文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第一通顺度输出。
可选的,所述将所述一个候选修改文本和所述待纠错文本拼接为第一文本对,包括:
在所述一个候选修改文本的首部添加第一分类字,在所述一个候选修改文本的尾部与所述待纠错文本的首部之间添加第一分割字,以及在所述待纠错文本的尾部添加第二分割字;
将处理后的一个候选修改文本和处理后的待纠错文本,作为所述第一文本对输出。
可选的,所述分别计算各个候选修改文本的通顺度,其中,针对所述一个候选修改文本,通过以下方式确定对应的通顺度:
将所述一个候选修改文本和所述待纠错文本拼接为第二文本对,其中,在所述第二文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第二文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第二文本对中每个字的第三文本特征;
将各个第三文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第二通顺度输出。
可选的,所述将所述一个候选修改文本和所述待纠错文本拼接为第二文本对,包括:
在所述待纠错文本的首部添加第二分类字,在所述待纠错文本的尾部与所述一个候选修改文本的首部之间添加第三分割字,以及在所述一个候选修改文本的尾部添加第四分割字;
将处理后的待纠错文本和处理后的一个候选修改文本,作为所述第二文本对输出。
可选的,所述分别计算各个候选修改文本的通顺度,其中,针对所述一个候选修改文本,通过以下方式确定对应的通顺度:
基于所述一个候选修改文本和所述待纠错文本,获得第三文本对和第四文本对,其中,在所述第三文本对中所述一个候选修改文本排列在所述待纠错文本之前,在所述第四文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第三文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第三文本对中每个字的第四文本特征,以及将所述第四文本对输入所述特征提取层中进行特征提取,获得所述第四文本对中每个字的第五文本特征;
将各个第四文本特征输入所述通顺度生成模型的全连接层中,获得所述第三文本对的第三通顺度,以及将各个第五文本特征输入所述全连接层中,获得所述第四文本对的第四通顺度;
将所述第三通顺度与所述第四通顺度之间的差值,作为所述一个候选修改文本的第五通顺度输出。
可选的,所述基于通顺度阈值对所述多个候选修改文本进行筛选,确定所述目标文本,包括:
将超过第一通顺度阈值的第一通顺度或者第五通顺度所对应的候选修改文本,确定为所述目标文本;或者,
将不大于第二通顺度阈值的第二通顺度所对应的候选修改文本,确定为所述目标文本。
第二方面,本申请实施例还提供了一种文本纠错装置,包括:
获取单元,用于获取待纠错文本中每个待纠错字的第一文本特征;
处理单元,用于分别对所述每个待纠错字执行以下操作,直至获得所述每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式;
纠错单元,用于根据所述每个待纠错字的修改方式修改所述待纠错文本,得到目标文本。
可选的,所述获取单元用于:
将所述待纠错文本转换为待纠错字序列;
将所述待纠错字序列中的每个待纠错字映射为对应的待纠错字向量;
对各个待纠错字向量进行特征提取,得到各自对应的第一文本特征。
可选的,所述处理单元用于:
将所述第一文本特征输入预设多分类模型中,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签。
可选的,所述处理单元用于:
获取所述各个第一类修改标签各自对应的第一预测概率,以及所述至少一个第二类修改标签的第二预测概率;
对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率;
基于所述目标预测概率对应的修改标签,确定所述任意一待纠错字的修改方式。
可选的,所述处理单元用于:
按照预测概率的取值大小,对所述各个第一预测概率进行排序,获得第一预测概率序列,以及对所述至少一个第二预测概率进行排序,获得第二预测概率序列;
将所述第一预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率,以及将所述第二预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述处理单元用于:
按照预测概率的取值大小,对所述各个第一预测概率和所述至少一个第二预测概率进行排序,获得第三预测概率序列;
将所述第三预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述处理单元还用于:
若所述各个第一预测概率和所述至少一个第二预测概率均不符合所述筛选标准,则保留所述任意一待纠错字。
可选的,若满足以下条件,则判定所述预测概率符合所述筛选标准:
所述预测概率大于预设的预测概率阈值,且所述预测概率大于所述候选字为所述任意一待纠错字的第一预测概率的预测概率。
可选的,所述处理单元用于:
若所述目标预测概率对应的修改标签为所述第一类修改标签,则所述任意一待纠错字的修改方式为所述第一类修改方式;
若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式。
可选的,所述第一类修改标签包括替换标签和插入标签;
所述处理单元用于:
若所述第一类修改标签为所述替换标签,则所述第一类修改方式为替换操作,其中,所述替换操作是将所述任意一待纠错字替换为所述目标预测概率对应的候选字;
若所述第一类修改标签为所述插入标签,则所述第一类修改方式为插入操作,其中,所述插入操作是将所述目标预测概率对应的候选字插入所述任意一待纠错字之前。
可选的,所述第二类修改标签至少包括删除标签;
所述处理单元用于:
若所述第二类修改标签为所述删除标签,则所述第二类修改方式为删除操作,其中,所述删除操作是删除所述任意一待纠错字。
可选的,所述第二类修改标签还包括第一调序标签和第二调序标签;
所述处理单元用于:
若所述第二类修改标签为所述第一调序标签和第二调序标签,所述第二类修改方式为调序操作,其中,所述调序操作是将所述第一调序标签标记的第一待纠错字与所述第二调序标签标记的第二待纠错字交换位置;
其中,所述第一待纠错字在所述第二待纠错字之后,所述第一调序标签表征在正确语序中位置在前的待纠错字,所述第二调序标签表征在正确语序中位置在后的待纠错字。
可选的,所述处理单元用于:
若所述第二类修改标签为所述第一调序标签,则不移动所述第一待纠错字;
若所述第二类修改标签为所述第二调序标签,则不移动所述第二待纠错字;
若所述第二类修改标签为所述第一调序标签和所述第二调序标签,且所述第一待纠错字在所述第二待纠错字之前,则不移动所述第一待纠错字和所述第二待纠错字。
可选的,在根据所述每个待纠错字的修改方式修改所述待纠错文本之后,在得到目标文本之前,所述纠错单元还用于:
将所述每个待纠错字的修改方式进行排列组合,获得多个候选修改文本;
从所述多个候选修改文本中筛选出符合语句通顺度标准的文本,作为所述目标文本。
可选的,所述纠错单元用于:
分别计算各个候选修改文本的困惑度;其中,一个困惑度表征一个候选修改文本的修改合理性;
从超过困惑度阈值的困惑度所对应的候选修改文本中,确定所述目标文本。
可选的,所述纠错单元用于:
分别计算各个候选修改文本的通顺度;其中,一个通顺度表征一个候选修改文本的通顺程度;
基于通顺度阈值对所述多个候选修改文本进行筛选,确定所述目标文本。
可选的,针对所述一个候选修改文本,所述纠错单元用于:
将所述一个候选修改文本和所述待纠错文本拼接为第一文本对,其中,在所述第一文本对中所述一个候选修改文本排列在所述待纠错文本之前;
将所述第一文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第一文本对中每个字的第二文本特征;
将各个第二文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第一通顺度输出。
可选的,所述纠错单元用于:
在所述一个候选修改文本的首部添加第一分类字,在所述一个候选修改文本的尾部与所述待纠错文本的首部之间添加第一分割字,以及在所述待纠错文本的尾部添加第二分割字;
将处理后的一个候选修改文本和处理后的待纠错文本,作为所述第一文本对输出。
可选的,针对所述一个候选修改文本,所述纠错单元用于:
将所述一个候选修改文本和所述待纠错文本拼接为第二文本对,其中,在所述第二文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第二文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第二文本对中每个字的第三文本特征;
将各个第三文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第二通顺度输出。
可选的,所述纠错单元用于:
在所述待纠错文本的首部添加第二分类字,在所述待纠错文本的尾部与所述一个候选修改文本的首部之间添加第三分割字,以及在所述一个候选修改文本的尾部添加第四分割字;
将处理后的待纠错文本和处理后的一个候选修改文本,作为所述第二文本对输出。
可选的,针对所述一个候选修改文本,所述纠错单元用于:
基于所述一个候选修改文本和所述待纠错文本,获得第三文本对和第四文本对,其中,在所述第三文本对中所述一个候选修改文本排列在所述待纠错文本之前,在所述第四文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第三文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第三文本对中每个字的第四文本特征,以及将所述第四文本对输入所述特征提取层中进行特征提取,获得所述第四文本对中每个字的第五文本特征;
将各个第四文本特征输入所述通顺度生成模型的全连接层中,获得所述第三文本对的第三通顺度,以及将各个第五文本特征输入所述全连接层中,获得所述第四文本对的第四通顺度;
将所述第三通顺度与所述第四通顺度之间的差值,作为所述一个候选修改文本的第五通顺度输出。
可选的,所述纠错单元用于:
将超过第一通顺度阈值的第一通顺度或者第五通顺度所对应的候选修改文本,确定为所述目标文本;或者,
将不大于第二通顺度阈值的第二通顺度所对应的候选修改文本,确定为所述目标文本。
第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种文本纠错方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种文本纠错方法的步骤。
本申请有益效果如下:
本申请实施例提供的一种文本纠错方法及装置,获取待纠错文本中每个待纠错字的第一文本特征,分别对每个待纠错字执行以下操作,直至获得每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于该待纠错字的第一类修改方式的第一类修改标签,以及对于该待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定该待纠错字的修改方式;根据每个待纠错字的修改方式修改待纠错文本,得到目标文本。不仅可以检测出多种文本错误,还可以根据标签执行相应的操作纠正文本错误,无需使用其他模型执行纠正召回的步骤,节省每次对文本进行纠错时所花费的时间,提高文本纠错工作效率,而且每个待纠错字的标签集合仅与待纠错字本身的文本特征有关,不受其他待纠错字的文本影响,不容易出现错误累积的情况。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请实施例提供的文本纠错系统的架构示意图;
图1b为本申请实施例提供的Transformer网络的结构示意图;
图1c为本申请实施例提供的Bert的架构示意图;
图1d为本申请实施例提供的RNN的架构示意图;
图1e为本申请实施例提供的MLP的架构示意图;
图2为本申请实施例中提供的文本纠错方法的流程示意图;
图3为本申请实施例提供的通顺度生成模型的架构示意图;
图4为本申请实施例提供的文本纠错装置的结构示意图;
图5为本申请实施例中一种计算机设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
文本纠错技术是实现文本语句自动检查、自动纠错的一项重要技术,在各类文字编辑、校对场景中有着极大的应用价值。随着机器学习技术的发展,相关技术中使用的文本纠错系统多数是基于机器学习构建的,而基于机器学习构建的文本纠错系统大致分为以下三类:
第一类文本纠错系统由错误检测模型、纠正召回模型和候选排序模型三部分组成的,虽然这类文本纠错系统的纠错效果不错,但是整体流程较为复杂,每次对文本进行纠错时所花费的时间比较长;另外,纠正召回模型只能从构建完毕的词典中选取合适的纠正候选字,因此只能修改词典中定义好的错误,纠错能力有限;
第二类文本纠错系统由检测纠正模型和候选排序模型两部分组成,但是第二类文本纠错系统只能解决替换错误,可纠正的错误类型很少;
第三类文本纠错系统借鉴机器翻译的思路,基于端到端的深度神经网络模型直接输出纠错文本,但对于文本纠错任务来说,通常只需要修改文本中个别位置的字符即可,但采用第三类文本纠错系统会重新生成整个文本,降低工作效率;另外,在生成纠错文本中的一个当前字符时,需要考虑完整的原始文本以及已生成的所有字符,也就是说,前一个字符的改动会对生成后续字符产生影响,一旦出现修改错误,很容易造成错误累积。有鉴于此,本申请实施例提供了一种新的文本纠错方法及装置。
参阅图1a所示的架构示意图,先对本申请实施例所使用的文本纠错系统进行介绍。该系统包括预处理模型、编码模型、多分类模型和语句通顺度模型,预处理模型用于将每个待纠错字映射转换为对应的待纠错字向量,编码模型用于对各个待纠错字向量进行特征提取,获得每个待纠错字的隐含文本特征(后续简称为第一文本特征),多分类模型用于生成每个待纠错字所对应的修改标签集合,每个标签集合中都包含了多个第一类修改标签和至少一个第二类修改标签,而语句通顺度模型用于从多个候选修改文本中确定出目标文本。
具体地,预处理模型先对读取的待纠错文本进行分字处理,获得对应的待纠错字序列;再使用预设的字表进行映射处理,将每个待纠错字转换为对应的字表序列号(Identity document,ID);最后,通过查表将字表ID转换为对应的字嵌入(embedding)特征(后续简称为待纠错字向量)。
例如,待纠错文本为[w1,w2,w3,……,wn],n为待纠错文本所包含的字符总数,因此,w1表示待纠错文本中的第一个待纠错字,wn表示待纠错文本中的最后一个待纠错字,wi则表示第i个待纠错字;使用字表进行映射处理后,获得字表ID序列[id1,id2,id3,……,idn],再经过查表后转换为[x1,x2,x3,……,xn],xi表示第i个待纠错字的待纠错字向量,每个xi均为一个d维的特征向量。
编码模型对预处理模型输出的待纠错字向量进行特征提取,获得每个待纠错字对应的第一文本特征。例如,编码模型读取待纠错字向量序列(x1,x2,x3,……,xn),经过特征提取后,输出对应的第一文本特征序列(h1,h2,h3,……,hn),hi表示第i个待纠错字的第一文本特征,每个hi均为一个h维的特征向量。
本申请实施例中的编码模型可以是基于Transformer网络结构的预训练语言模型(如,来自Transformer的双向编码器表示(Bidirectional Encoder Representationsfrom Transformer,BERT)、Roberta全文屏蔽(Roberta-whole word masking,Roberta-wwm)等),也可以是堆叠任意多层Transformer网络结构的神经网络(如,长短期记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Network,RNN)等)。
参阅图1b示出的结构示意图可知,Transformer网络结构摒弃了递归结构,而是在编码器添加了多头注意力机制,通过多头注意力机制挖掘输入和输出之间的关系,由“全局关注”转变为“局部关注”,使得前馈神经网络在解码时可以更多地关注注意力权重高的特征,这样做既可以灵活地捕捉全局和局部的关系,还可以实现快速并行计算,减少网络训练时间,改善RNN训练慢的缺点。
Bert是一种自然语言处理模型,利用Transformer网络结构中的编码层,构建如图1c所示的Bert,因此,Bert可以通过双向Transformer的编码层,学习文本中单词之间的上下文关系除此之外,还可以通过一个额外的输出层对训练好的Bert进行微调,可应用于广泛任务的模型构建,无需针对具体任务大幅度地调整模型的架构。
RNN广泛应用于计算机视觉、自然语言处理等方向,参阅图1d示出的架构示意图可知,这种网络的本质是在处理单元之间既有内部的反馈连接,又有前馈连接,因此,相比于前馈神经网络来说,RNN在计算过程中具有更强的动态行为和计算能力。但正是由于RNN的这一特性,导致RNN很容易出现长期依赖问题——即当前的系统状态不仅受到前一时刻的系统状态影响,还可能受到很长时间之前的系统状态影响。理论上RNN是可以学习到时间久远的信息的,但经过实践证实,RNN会丢掉时间久远的信息,导致长期记忆失效,为了解决RNN的长期依赖问题,本申请实施例在RNN的编码层的后面添加多头注意力机制,将编码层的输出转换为相应的上下文特征向量,让神经网络学习到文本中单词之间的上下文关系。除了在RNN中添加多头注意力机制外,还可以使用改进后的RNN——即LSTM,解决RNN在训练长序列过程中产生的梯度消失和梯度爆炸问题。
多分类模型对编码模型输出的第一文本特征序列,获得每个待纠错字的标签集合。例如,多分类模型读取第一文本特征序列(h1,h2,h3,……,hn),经过运算之后获得了(y1,y2,y3,……,yn),yi表示第i个待纠错字的标签集合,每个yi至少为一个V维的概率取值向量,V表示标签数量,Pij表示第i个待纠错字归属于第j个标签的概率取值;再对每个进行Softmax归一化处理,将每个yi的概率取值映射到(0,1)的取值空间中。
本申请实施例中的多分类模型可为多层感知机(Multilayer Perceptron,MLP),参阅图1e示出的架构示意图可知,MLP为三层结构,包括输入层、输出层和隐藏层,而层与层之间是全连接的(即上一层的任意一神经元与下一层的所有神经元连接),因此,整个MLP也可以称之为全连接网络。在使用MLP时,将第一文本特征序列输入到MLP中,经过多个隐藏层的运算,获得每个待纠错字的修改标签集合。
接下来,参阅图2示出的流程示意图,对本申请实施例提出的文本纠错方法进行介绍。
S201:获取待纠错文本中每个待纠错字的第一文本特征。
结合图1a示出的结构示意图可知,在执行步骤201时,通过预处理模型将每个待纠错字映射转换为对应的待纠错字向量,以便编码模型基于每个待纠错字的待纠错字向量,提取出每个待纠错字的第一文本特征,获得每个待纠错字的隐含语义特征,以便后续模型基于获得的各个第一文本特征,输出每个待纠错字所包含的修改标签集合,进而基于标签集合确定出每个待纠错字的修改方式。
那么,步骤201的具体操作为,先将待纠错文本输入预处理模型中,转换为待纠错字序列;使用字表进行映射处理,将每个待纠错字转换为对应的字表ID,再通过查表将每个字表ID映射为对应的待纠错字向量;最后,将各个待纠错字向量输入编码模块进行特征提取,获得各自的第一文本特征。
S202:分别对每个待纠错字执行以下操作,直至获得每个待纠错字的修改方式:根据任意一待纠错字X的第一文本特征,确定预设字典中的每个候选字对于待纠错字X的第一类修改方式的第一类修改标签,以及对于待纠错字X的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定待纠错字X的修改方式。
为了便于描述,后续的待纠错字X均指的是任意一待纠错字,后续不再赘述。
结合图1a示出的结构示意图可知,在执行步骤202时,将待纠错字X的第一文本特征输入多分类模型中,确定预设字典中每个候选字对于待纠错字X的第一类修改方式的第一类修改标签,以及对于待纠错字X的第二类修改方式的第二类修改标签。在前述介绍中提到过本申请实施例中的多分类模型可为MLP,参阅图1e示出的架构示意图可知,整个MLP构成了一个全连接网络,起到了多分类器的作用,可输出每个待纠错字的修改标签集合,每个修改标签不仅表征对应的修改方式,还表征待纠错字归属于该修改标签的预测概率,也就是说,采用本申请实施例提供的文本纠错方法,不仅可以检测出多种文本错误,还可以根据标签执行相应的操作纠正文本错误,无需使用其他模型执行纠正召回的步骤,节省每次对文本进行纠错时所花费的时间,提高文本纠错工作效率,而且每个待纠错字的标签集合仅与待纠错字本身的文本特征有关,不受其他待纠错字的文本影响,不容易出现错误累积的情况。
在本申请实施例中,第一类修改标签包括替换标签和插入标签,对应的第一类修改方式分别为替换操作和插入操作;第二类修改标签至少包括删除标签,对应的第二类修改方式为删除操作,除此之外,第二类修改标签还可以包括第一调序标签和第二调序标签,对应的第二类修改方式应为调序操作。
具体地,基于待纠错字X的第一文本特征和预设字典中记录的M个候选字,可生成M个替换标签,其中,一个替换标签的格式为DELETE|Y,表示使用预设字典中一个候选字Y替换待纠错字X,而一个替换标签对应的预测概率,则表示使用候选字Y替换待纠错字X的方式纠正文本错误的可能性。为了便于描述,后续的候选字Y均指的是一个候选字,后续不再赘述。
例如,假设预设字典中记录了9个候选字,待纠错文本为“中场结束的以后”,那么根据待纠错字“的”的第一文本特征,可生成下述9个替换标签(DELETE|中,DELETE|场,DELETE|结,DELETE|束,DELETE|的,DELETE|以,DELETE|后,DELETE|时,DELETE|候),而上述替换标签所对应的预测概率为(0.01,0.01,0.01,0.01,0.3,0.01,0.01,0.01,0.01)。其中,预设字典记录了海量候选字,示例中的数字仅为示意性表述,并非是精准数据,后续举例均采用相同方式,将不再赘删除该内容。
基于待纠错字X的第一文本特征和预设字典中记录的M个候选字,还可以生成M个插入标签,其中,一个插入标签的格式为KEEP|Y,表示使用预设字典中的候选字Y插入待纠错字X之前,而一个插入标签对应的预测概率,则表示通过在待纠错字X之前插入候选字Y的方式纠正文本错误的可能性。
例如,假设预设字典中记录了5个候选字,待纠错文本为“期下去有会风险”,那么根据待纠错字“期”的第一文本特征,可生成下述5个插入标签(KEEP|长,KEEP|短,KEEP|以,KEEP|时,KEEP|候),而上述插入标签所对应的预测概率为(0.62,0.01,0.01,0.01,0.01)。
基于待纠错字X的第一文本特征还可以生成一个删除标签,删除标签的格式为DELETE,表示删除待纠错字X,而删除标签对应的预测概率,则表示通过删除待纠错字的方式纠正文本错误的可能性。
例如,假设待纠错文本为“中场结束的以后”,根据待纠错字“的”的第一文本特征,可生成删除标签DELETE,对应的预测概率为0.62。
基于待纠错字X的第一文本特征还可以生成调序标签,调序标签包括第一调序标签和第二调序标签,第一调序标签的格式为ORDER|1,表征在正确语序中位置在前的待纠错字;第二调序标签的格式为ORDER|2,表征在正确语序中位置在后的待纠错字。但在本申请实施例中,被标记为第一调序标签或者第二调序标签的字可能是待纠错字X,也可能是待纠错文本中的其他待纠错字,除此之外,本申请实施例中还允许出现连续多个第一调序标签和连续多个第二调序标签,调序操作是一对一地交换调序标签所标记的待纠错字,因此,第一调序标签的数量和第二调序标签的数量需保持一致。
例如,假设待纠错文本为“期下去有会风险”,根据待纠错字“有”的第一文本特征,可生成指向“有”的ORDER|2,以及指向“会”的ORDER|1,而上述调序标签对应的预测概率为(0.62,0.62);
例如,假设待纠错文本为“中场结束的后以”,根据待纠错字“的”第一文本特征,可生成指向“后”的ORDER|2,以及指向“以”的ORDER|1,而上述调序标签对应的预测概率为(0.6,0.62);
再例如,假设待纠错文本为“会有下去长期风险”,根据待纠错字“有”的第一文本特征,可生成指向“会有”的ORDER|2,以及指向“长期”的ORDER|1,而上述调序标签对应的预测概率为(0.62,0.62,0.6,0.6)。
根据上述介绍可知,待纠错字X包含多个第一类修改标签和至少一个第二类修改标签,那么待纠错X对应的修改方式也非常多,为了避免出现组合爆炸的情况,可采取以下两种筛选方式,确定待纠错X的修改方式。
首先,获取各个第一类修改标签各自对应的第一预测概率,以及至少一个第二类修改标签的第二预测概率。在本申请实施例中,每个待纠错字都会生成删除标签和多个替换标签、多个插入标签,因此,至少需要获取这三类修改标签的预测概率;若待纠错字X还生成了调序标签,那么也需要获取调序标签的预测概率。
对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率。
具体地,筛选方式一:
按照预测概率的取值大小,对各个第一预测概率进行排序,获得第一预测概率序列,以及对至少一个第二预测概率进行排序,获得第二预测概率序列;将第一预测概率序列中符合筛选标准且排列在预设排序范围内的预测概率,作为目标预测概率,以及将第二预测概率序列中符合筛选标准且排列在预设排序范围内的预测概率,作为目标预测概率。
由于第一预测概率包括替换标签的第一预测概率和插入标签的第一预测概率,因此,可以将替换标签的第一预测概率划分为一个第一预测概率序列,将插入标签的第一预测概率划分为另一个第一预测概率序列;也可以将两种修改标签的第一预测概率划分到同一个第一预测概率序列中。第二预测概率序列同理,在此不再赘述。为了便于描述,后续示例中的第一预测概率序列包含了两种修改标签,后续不再赘述。
假设第一预测概率序列是降序排列,若第一预测概率序列中存在多个符合筛选标准的预测概率,可将排列在前N位的预测概率作为目标预测概率;假设第一预测概率序列是升序排列,若第一预测概率序列中存在多个符合筛选标准的预测概率,可将排列在后N位的预测概率作为目标预测概率。第二预测概率同理,在此不再赘述。
例如,第一预测概率序列是降序排列,若第一预测概率序列中存在多个符合筛选标准的预测概率,可将排列前3的预测概率作为目标预测概率;
再例如,第一预测概率序列是升序排列,若第一预测概率序列中存在多个符合筛选标准的预测概率,可将排列最后3位的预测概率作为目标预测概率。
筛选方式二:
按照预测概率的取值大小,对各个第一预测概率和至少一个第二预测概率进行排序,获得第三预测概率序列;将第三预测概率序列中符合筛选标准且排列在预设排序范围内的预测概率,作为目标预测概率。
假设第三预测概率序列是降序排列,若第三预测概率序列中存在多个符合筛选标准的预测概率,可将排列在前N位的预测概率作为目标预测概率;假设第三预测概率序列是升序排列,若第三预测概率序列中存在多个符合筛选标准的预测概率,可将排列在后N位的预测概率作为目标预测概率。
例如,第三预测概率序列是降序排列,若第三预测概率序列中存在多个符合筛选标准的预测概率,可将排列前3的预测概率作为目标预测概率;
再例如,第三预测概率序列是升序排列,若第三预测概率序列中存在多个符合筛选标准的预测概率,可将排列最后3位的预测概率作为目标预测概率。
无论是筛选方式一中提到的筛选标准,还是筛选方式二中提到的筛选标准均指的是,预测概率大于预设的预测概率阈值,且该预测概率大于候选字为待纠错字X的第一预测概率的预测概率。但若各个第一预测概率和至少一个第二预测概率均不符合筛选标准,则保留待纠错字X。
为了便于理解,下面以举例的形式,对筛选出目标预测概率的过程进行详细介绍。
例如,假设预设字典中记录了11个候选字,预测概率阈值为0.5,待纠错文本为“中场结束的以后”,根据待纠错字“以”的第一文本特征,可生成11个替换标签和1个删除标签,具体包括(DELETE|中,DELETE|场,DELETE|结,DELETE|束,DELETE|的,DELETE|以,DELETE|后,DELETE|时,DELETE|候,KEEP|了,KEEP|不,DELETE),而上述修改标签所对应的预测概率为(0.01,0.01,0.01,0.01,0.01,0.3,0.01,0.62,0.01,0.01,0.01,0.61),那么大于DELETE|以的第一预测概率(0.3)、且大于预测概率阈值(0.5)的预测概率为(0.62,0.61),所对应的修改标签为(DELETE|时,DELETE)。
再例如,假设预测概率阈值为0.5,待纠错文本为“中场结束的以后”,根据待纠错字“中”的第一文本特征生成多个修改标签,但DELETE|中的第一预测概率是最高分,那么其他修改标签的预测概率是不会大于DELETE|中的第一预测概率的,因此,“中”字会被保留下来。
最后,基于目标预测概率对应的修改标签,确定待纠错字X的修改方式。
若目标预测概率对应的修改标签为第一类修改标签,则待纠错字X的修改方式为第一类修改方式;若目标预测概率对应的修改标签为第二类修改标签,则待纠错字X的修改方式为第二类修改方式。因为修改标签不仅表征对应的修改方式,还表征待纠错字归属于该修改标签的预测概率,一旦筛选出目标预测概率之后,即可根据对应的修改标签确定修改方式,节省了每次对文本进行纠错时所花费的时间,提高文本纠错工作效率。
在生成修改标签的部分提到了,本申请实施例中的第一类修改标签包括替换标签和插入标签,第二类修改标签包括删除标签和调序标签,那么针对获得的各个目标预测概率分别执行以下操作:
若第一类修改标签为替换标签,则第一类修改方式为替换操作,其中,替换操作时将待纠错字X替换为目标预测概率对应的候选字;
若第一类修改标签为插入标签,则第一类修改方式为插入操作,其中,插入操作是将目标预测概率对应的候选字插入待纠错字之前;
若第二类修改标签为删除标签,则第二类修改方式为删除操作,其中,删除操作时删除待纠错字X;
若第二类修改标签为第一调序标签和第二调序标签,则第二类修改方式为调序操作,其中,调序操作时将第一调序标签标记的第一待纠错字与第二调序标签标记的第二待纠错字交换位置。
第一调序标签表征在正确语序中位置在前的待纠错字,第二调序标签的格式表征在正确语序中位置在后的待纠错字,因此,只有同时生成第一调序标签、第二调序标签,且第一调序标签所标记的第一待纠错字在第二调序标签所标记的第二待纠错字之后,才能判定当前操作为调序操作;若仅生成了第一调序标签或者第二调序标签,或者同时生成了第一调序标签、第二调序标签,但第一待纠错字在第二待纠错字之前的,则判定为非法调序情况,不执行调序操作(即,不移动第一待纠错字、不移动第二待纠错字,或者不移动第一待纠错字和第二待纠错字)。
承接上例,筛选出的修改标签为(DELETE|时,DELETE),则对应的修改方式应为使用“时”字替换“以”字,和删除“以”字两个操作。
S203:根据每个待纠错字的修改方式修改待纠错文本,得到目标文本。
为了便于理解,以输入文本“对不其”为例,对步骤201-203的过程进行描述。
;标签为:DELETE|对、DELETE|不、DELETE|起
(1)、将输入文本“对不其”转换为输入序列[w1,w2,w3]=[对不其];
(2)、使用字表进行映射处理后,获得字表ID序列[id1,id2,id3]=[1,2,3],字表ID序列的维度为3;
(3)、字表id与待纠错字向量也是一一对应,但每个字表id对应的是一个d维(假设d=5)的向量,则
Figure BDA0002944112330000231
总维度为3*5;
(4)、编码encoder网络是一个复杂的网络结构,运算之后每个位置的字表id得到一个h维(假设h=4)的向量,则
Figure BDA0002944112330000232
总维度为3*4;
(5)、MLP网络是一个矩阵运算,将3*h的矩阵与h*V维的矩阵进行运算,得到3*V维(假设V=3)的向量,则
Figure BDA0002944112330000241
(6)、Softmax操作不会改变维度,还是一个3*V维的向量,只是保证了一个yi向量之和为1,新得到的
Figure BDA0002944112330000242
(7)、选择每个yi向量中,既大于原文标签修改的分数(即DELETE|对,DELETE|不,DELETE|其),也大于固定分数(假设是0.5)的标签,作为候选修改标签;若没有,则用原文标签,因此得到的标签为
Figure BDA0002944112330000243
(8)、纠正之后的文本为,对不起。
通过执行步骤202,确定出每个待纠错字的修改方式,并根据每个待纠错字的修改方式修改待纠错文本,得到目标文本。但是,每个待纠错字可能存在多种修改方式,那么通过排列组合之后,可以获得多个候选修改文本,再从多个候选修改文本中筛选出符合语句通顺度标准的文本,作为目标文本。
本申请实施例提供了以下两种从多个候选修改文本中确定目标文本的方式,一个是基于各个候选修改文本的困惑度来筛选的,另一个是基于各个候选文本的通顺度来筛选的,下面分别对两种筛选方式进行介绍。
筛选方式一:基于各个候选修改文本的困惑度来筛选。
分别计算各个候选修改文本的困惑度,其中,一个困惑度表征一个候选修改文本的修改合理性;再从超过困惑度阈值的困惑度所对应的候选修改文本中,确定目标文本。
具体地,使用下列公式(1)和公式(2)可计算一个候选修改文本的困惑度。PPL(X)表征该候选修改文本的困惑度,X表征该候选修改文本,t表征该候选修改文本的总长度,xi表征该候选修改文本中的前i个字,pθ1(xi|x<i)表征在出现前(i-1)个字的条件下出现第i个字的条件概率,k表示前(i-1)个字的总长度。
Figure BDA0002944112330000251
Figure BDA0002944112330000252
例如,候选修改文本为“中场结束以后”,则每个字的条件概率为:
P(中)=p(中|);
p(中场)=p(中|)*p(场|中);
p(中场结)=p(中|)*p(场|中)*p(结|中场);
p(中场结束)=p(中|)*p(场|中)*p(结|中场)*p(束|中场结);
p(中场结束以)=p(中|)*p(场|中)*p(结|中场)*p(束|中场结)*p(以|中场结束);
p(中场结束以后)=p(中|)*p(场|中)*p(结|中场)*p(束|中场结)*p(以|中场结束)*p(后|中场结束以);
那么,该候选修改文本的困惑度为:PPL=e^((P(中)+p(中场)+p(中场结)+p(中场结束)+p(中场结束以)+p(中场结束以后))/6)。
除此之外,还可以使用公式(3)和公式(4)计算一个候选修改文本的困惑度。PPL(X)表征该候选修改文本的困惑度,X表征该候选修改文本,t表征该候选修改文本的总长度,xi表征该候选修改文本中的前i个字,pθ2(xi|x<i)表征前i个字的条件概率,k表示前(i-1)个字和后(i+1)个字的总长度。
Figure BDA0002944112330000253
Figure BDA0002944112330000254
例如,候选修改文本为“中场结束以后”,则每个字的条件概率为:
P(中)=p(中|,);
p(中场)=p(中|,场)*p(场|中,);
p(中场结)=p(中|,场结)*p(场|中,结)*p(结|中场,);
p(中场结束)=p(中|,场结束)*p(场|中,结束)*p(结|中场,束)*p(束|中场结,);
p(中场结束以)=p(中|,场结束以)*p(场|中,结束以)*p(结|中场,束以)*p(束|中场结,以)*p(以|中场结束,);
p(中场结束以后)=p(中|,场结束以后)*p(场|中,结束以后)*p(结|中场,束以后)*p(束|中场结,以后)*p(以|中场结束,后)*p(后|中场结束以后,);
那么,该候选修改文本的困惑度为:PPL=e^((P(中)+p(中场)+p(中场结)+p(中场结束)+p(中场结束以)+p(中场结束以后))/6)。
筛选方式二:基于各个候选文本的通顺度来筛选。
分别计算各个候选修改文本的通顺度,其中,一个通顺度表征一个候选修改文本的通顺度;基于通顺度阈值对多个候选修改文本进行筛选,确定目标文本。
由于通顺度表征一个候选修改文本相对于待纠错文本的通顺度,因此,本申请实施例提供了以下三种候选修改文本与待纠错文本之间的比较方式。
比较方式一:该候选修改文本排列在待纠错文本之前。
先将一个候选修改文本和待纠错文本拼接为第一文本对。具体地,在该候选修改文本的首部不添加第一分类字,在该候选修改文本的尾部与待纠错文本的首部之间添加第一分割字,以及在待纠错文本的尾部添加第二分割字;将处理后的该候选修改文本和处理后的待纠错文本,作为第一文本对输出。
再将第一文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得第一文本对中每个字的第二文本特征;再将第二文本特征输入通顺度生成模型的全连接层中,获得该候选修改文本的第一通顺度。其中,第一通顺度表征候选修改文本比待纠错文本更通顺的置信概率,因此,第一通顺度越高,表示候选修改文本相较于待纠错文本更加通顺;反之,第一通顺度越低,表示待纠错文本相较于候选修改文本更加通顺。
其中,通顺度生成模型的架构示意图如图3所示,该模型包括输入层、特征提取层、全连接层和输出层,在本申请实施例中,特征提取层可为Bert,全连接层可为包含若干全连接层神经网络的深度神经网络(Deep Neural Network,DNN)。将候选修改文本作为文本字符序列a、待纠错文本作为文本字符序列b输入该模型中,经过特征提取层之后,获得第一文本对中每个字的第二文本特征,再将第一分类字的第二文本特征输入全连接层中,获得该候选修改文本的第一通顺度。
例如,将候选修改句子a、原句b进行拼接,获得形如“[CLS],候选修改句子a,[SEP],原句b,[CLS]”的第一文本对,其中,[CLS]是分类字的标识,[SEP]是分割字的标识;将第一文本对输入图3所示的通顺度生成模型中,获得每个字的第二文本特征,将[CLS]的第二文本特征hCLS作为第一文本对的隐含特征表示输入全连接层中,获得候选修改句子a的第一通顺度。
比较方式二:待纠错文本排列在该候选修改文本之前。
先将该候选修改文本和待纠错文本拼接为第二文本对。具体地,在待纠错文本的首部添加第二分类字,在待纠错文本的尾部与该候选修改文本的首部之间添加第三分割字,以及在该候选修改文本的尾部添加第四分割字;将处理后的待纠错文本和处理后的候选修改文本,作为第二文本对输出。
再将第二文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得第二文本对中每个字的第三文本特征;再将第三文本特征输入通顺度生成模型的全连接层中,获得该候选修改文本的第二通顺度。其中,第二通顺度表征待纠错文本比候选修改文本更通顺的置信概率,因此,第二通顺度越高,表征待纠错文本相较于候选修改文本更加通顺;反之,第二通顺度越低,表示候选修改文本相较于待纠错文本更加通顺。
参阅图3示出的架构示意图可知,在比较方式二中,是将待纠错文本作为文本字符序列a、候选修改文本作为文本字符序列b输入该模型中,经过特征提取层之后,获得第二文本对中每个字的第三文本特征,再将第二分类字的第三文本特征输入全连接层中,获得候选修改文本的第二通顺度。
比较方式三:
先基于该候选修改文本和待纠错文本,获得第三文本对和第四文本对;其中,在第三文本对中该候选修改文本排列在待纠错文本之前,在第四文本对中该候选修改文本排列在待纠错文本之后。生成第三文本对的方式与生成第一文本对的方式相同,而生成第四文本对的方式与生成第二文本对的方式相同,故在此不再赘述两种文本对的生成过程。
将第三文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得第三文本对中每个字的第四文本特征,以及将第四文本对输入特征提取层中进行特征提取,获得第四文本对中每个字的第五文本特征;将各个第四文本特征输入通顺度生成模型的全连接层中,获得第三文本对的第三通顺度,以及将各个第五文本特征输入全连接层中,获得第四文本对的第四通顺度。具体地,第三通顺度、第四通顺度的生成方式与第一通顺度、第二通顺度的生成方式相同,故在此不再赘述两种通顺度的生成过程。
最后,将第三通顺度与第四通顺度之间的差值,作为该候选修改文本的第五通顺度输出。其中,若第五通顺度为正数,表征候选修改文本比待纠错文本更通顺的置信度;反之,若第五通顺度为负数,则表征待纠错文本比候选修改文本更通顺的置信概率。
例如,将候选修改句子Ci、原句S进行拼接,获得形如“[CLS],候选修改Ci,[SEP],原句S,[CLS]”的第三文本对,和形如“[CLS],原句S,[SEP],候选修改Ci,[CLS]”的第四文本对;将第三文本对输入图3所示的通顺度生成模型中,获得第三文本对的第三通顺度Scorecis,将第四文本对输入图3所示的通顺度生成模型中,获得第四文本对的第四通顺度Scoresci,而Scorecis与Scoresci之间的差值作为候选修改句子Ci的第五通顺度Scis输出。
在获得各个候选修改文本的困惑度之后,筛选出超过困惑度阈值的困惑度所对应的候选修改文本,若仅存在一个符合语句通顺度标准的候选修改文本,则将该候选修改文本作为目标文本输出;若存在多个符合语句通顺度标准的候选修改文本,则从中任选一个即可,而最优的实现方式是将困惑度最大值所对应的候选修改文本确定为目标文本;若所有候选修改文本均不符合语句通顺度标准的话,则将待纠错文本作为目标文本输出,说明此时的待纠错文本中不存在任何文本错误。
同理,在获得各个候选修改文本的通顺度之后,将超过第一通顺度阈值的第一通顺度或者第五通顺度所对应的候选修改文本,确定为目标文本;或者,将不大于第二通顺度阈值的第二通顺度所对应的候选修改文本,确定为所述目标文本。若仅存在一个符合语句通顺度标准的候选修改文本,则将该候选修改文本作为目标文本输出;若存在多个符合语句通顺度标准的候选修改文本,则从中任选一个即可,而最优的实现方式是将第一通顺度最大值或者第五通顺度最大值所对应的候选修改文本确定为目标文本,或者是将第二通顺度最小值所对应的候选修改文本确定目标文本;若所有候选修改文本均不符合语句通顺度标准的话,则将待纠错文本作为目标文本输出,说明此时的待纠错文本中不存在任何文本错误。
参阅图4示出的文本纠错装置的结构示意图,在该装置中包括获取单元401、处理单元402和纠错单元403,其中,
获取单元401,用于获取待纠错文本中每个待纠错字的第一文本特征;
处理单元402,用于分别对所述每个待纠错字执行以下操作,直至获得所述每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式;
纠错单元403,用于根据所述每个待纠错字的修改方式修改所述待纠错文本,得到目标文本。
可选的,所述获取单元401用于:
将所述待纠错文本转换为待纠错字序列;
将所述待纠错字序列中的每个待纠错字映射为对应的待纠错字向量;
对各个待纠错字向量进行特征提取,得到各自对应的第一文本特征。
可选的,所述处理单元402用于:
将所述第一文本特征输入预设多分类模型中,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签。
可选的,所述处理单元402用于:
获取所述各个第一类修改标签各自对应的第一预测概率,以及所述至少一个第二类修改标签的第二预测概率;
对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率;
基于所述目标预测概率对应的修改标签,确定所述任意一待纠错字的修改方式。
可选的,所述处理单元402用于:
按照预测概率的取值大小,对所述各个第一预测概率进行排序,获得第一预测概率序列,以及对所述至少一个第二预测概率进行排序,获得第二预测概率序列;
将所述第一预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率,以及将所述第二预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述处理单元402用于:
按照预测概率的取值大小,对所述各个第一预测概率和所述至少一个第二预测概率进行排序,获得第三预测概率序列;
将所述第三预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
可选的,所述处理单元402还用于:
若所述各个第一预测概率和所述至少一个第二预测概率均不符合所述筛选标准,则保留所述任意一待纠错字。
可选的,若满足以下条件,则判定所述预测概率符合所述筛选标准:
所述预测概率大于预设的预测概率阈值,且所述预测概率大于所述候选字为所述任意一待纠错字的第一预测概率的预测概率。
可选的,所述处理单元402用于:
若所述目标预测概率对应的修改标签为所述第一类修改标签,则所述任意一待纠错字的修改方式为所述第一类修改方式;
若所述目标预测概率对应的修改标签为所述第二类修改标签,则所述任意一待纠错字的修改方式为所述第二类修改方式。
可选的,所述第一类修改标签包括替换标签和插入标签;
所述处理单元402用于:
若所述第一类修改标签为所述替换标签,则所述第一类修改方式为替换操作,其中,所述替换操作是将所述任意一待纠错字替换为所述目标预测概率对应的候选字;
若所述第一类修改标签为所述插入标签,则所述第一类修改方式为插入操作,其中,所述插入操作是将所述目标预测概率对应的候选字插入所述任意一待纠错字之前。
可选的,所述第二类修改标签至少包括删除标签;
所述处理单元402用于:
若所述第二类修改标签为所述删除标签,则所述第二类修改方式为删除操作,其中,所述删除操作是删除所述任意一待纠错字。
可选的,所述第二类修改标签还包括第一调序标签和第二调序标签;
所述处理单元402用于:
若所述第二类修改标签为所述第一调序标签和第二调序标签,所述第二类修改方式为调序操作,其中,所述调序操作是将所述第一调序标签标记的第一待纠错字与所述第二调序标签标记的第二待纠错字交换位置;
其中,所述第一待纠错字在所述第二待纠错字之后,所述第一调序标签表征在正确语序中位置在前的待纠错字,所述第二调序标签表征在正确语序中位置在后的待纠错字。
可选的,所述处理单元402用于:
若所述第二类修改标签为所述第一调序标签,则不移动所述第一待纠错字;
若所述第二类修改标签为所述第二调序标签,则不移动所述第二待纠错字;
若所述第二类修改标签为所述第一调序标签和所述第二调序标签,且所述第一待纠错字在所述第二待纠错字之前,则不移动所述第一待纠错字和所述第二待纠错字。
可选的,在根据所述每个待纠错字的修改方式修改所述待纠错文本之后,在得到目标文本之前,所述纠错单元403还用于:
将所述每个待纠错字的修改方式进行排列组合,获得多个候选修改文本;
从所述多个候选修改文本中筛选出符合语句通顺度标准的文本,作为所述目标文本。
可选的,所述纠错单元403用于:
分别计算各个候选修改文本的困惑度;其中,一个困惑度表征一个候选修改文本的修改合理性;
从超过困惑度阈值的困惑度所对应的候选修改文本中,确定所述目标文本。
可选的,所述纠错单元403用于:
分别计算各个候选修改文本的通顺度;其中,一个通顺度表征一个候选修改文本的通顺程度;
基于通顺度阈值对所述多个候选修改文本进行筛选,确定所述目标文本。
可选的,针对所述一个候选修改文本,所述纠错单元403用于:
将所述一个候选修改文本和所述待纠错文本拼接为第一文本对,其中,在所述第一文本对中所述一个候选修改文本排列在所述待纠错文本之前;
将所述第一文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第一文本对中每个字的第二文本特征;
将各个第二文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第一通顺度输出。
可选的,所述纠错单元403用于:
在所述一个候选修改文本的首部添加第一分类字,在所述一个候选修改文本的尾部与所述待纠错文本的首部之间添加第一分割字,以及在所述待纠错文本的尾部添加第二分割字;
将处理后的一个候选修改文本和处理后的待纠错文本,作为所述第一文本对输出。
可选的,针对所述一个候选修改文本,所述纠错单元403用于:
将所述一个候选修改文本和所述待纠错文本拼接为第二文本对,其中,在所述第二文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第二文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第二文本对中每个字的第三文本特征;
将各个第三文本特征输入所述通顺度生成模型的全连接层中,获得所述一个候选修改文本的第二通顺度输出。
可选的,所述纠错单元403用于:
在所述待纠错文本的首部添加第二分类字,在所述待纠错文本的尾部与所述一个候选修改文本的首部之间添加第三分割字,以及在所述一个候选修改文本的尾部添加第四分割字;
将处理后的待纠错文本和处理后的一个候选修改文本,作为所述第二文本对输出。
可选的,针对所述一个候选修改文本,所述纠错单元403用于:
基于所述一个候选修改文本和所述待纠错文本,获得第三文本对和第四文本对,其中,在所述第三文本对中所述一个候选修改文本排列在所述待纠错文本之前,在所述第四文本对中所述一个候选修改文本排列在所述待纠错文本之后;
将所述第三文本对输入预设通顺度生成模型的特征提取层中进行特征提取,获得所述第三文本对中每个字的第四文本特征,以及将所述第四文本对输入所述特征提取层中进行特征提取,获得所述第四文本对中每个字的第五文本特征;
将各个第四文本特征输入所述通顺度生成模型的全连接层中,获得所述第三文本对的第三通顺度,以及将各个第五文本特征输入所述全连接层中,获得所述第四文本对的第四通顺度;
将所述第三通顺度与所述第四通顺度之间的差值,作为所述一个候选修改文本的第五通顺度输出。
所述纠错单元403用于:
将超过第一通顺度阈值的第一通顺度或者第五通顺度所对应的候选修改文本,确定为所述目标文本;或者,
将不大于第二通顺度阈值的第二通顺度所对应的候选修改文本,确定为所述目标文本。
在一些可能的实施方式中,本申请实施例还提供一种计算机设备,参阅图5所示的结构示意图,计算机设备可以至少包括至少一个处理器501、以及至少一个存储器502。其中,存储器502存储有程序代码,当程序代码被处理器501执行时,使得处器501执行本说明书上述描述的根据本申请各种示例性实施方式的文本纠错方法中的步骤。例如,处理器501可以执行如图2中所示的步骤。
在一些可能的实施方式中,本申请提供的文本纠错方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本纠错方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本纠错方法,其特征在于,包括:
获取待纠错文本中每个待纠错字的第一文本特征;
分别对所述每个待纠错字执行以下操作,直至获得所述每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式;
根据所述每个待纠错字的修改方式修改所述待纠错文本,得到目标文本。
2.如权利要求1所述的方法,其特征在于,所述获取待纠错文本中每个待纠错字的第一文本特征,包括:
将所述待纠错文本转换为待纠错字序列;
将所述待纠错字序列中的每个待纠错字映射为对应的待纠错字向量;
对各个待纠错字向量进行特征提取,得到各自对应的第一文本特征。
3.如权利要求1所述的方法,其特征在于,所述根据对应的第一文本特征,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签,包括:
将所述第一文本特征输入预设多分类模型中,确定所述预设字典中每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签。
4.如权利要求1所述的方法,其特征在于,所述根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式,包括:
获取所述各个第一类修改标签各自对应的第一预测概率,以及所述至少一个第二类修改标签的第二预测概率;
对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率;
基于所述目标预测概率对应的修改标签,确定所述任意一待纠错字的修改方式。
5.如权利要求4所述的方法,其特征在于,所述对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率,包括:
按照预测概率的取值大小,对所述各个第一预测概率进行排序,获得第一预测概率序列,以及对所述至少一个第二预测概率进行排序,获得第二预测概率序列;
将所述第一预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率,以及将所述第二预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
6.如权利要求4所述的方法,其特征在于,所述对各个第一预测概率和至少一个第二预测概率进行筛选,将符合筛选标准的预测概率作为目标预测概率,包括:
按照预测概率的取值大小,对所述各个第一预测概率和所述至少一个第二预测概率进行排序,获得第三预测概率序列;
将所述第三预测概率序列中符合所述筛选标准且排列在预设排序范围内的预测概率,作为所述目标预测概率。
7.如权利要求4所述的方法,其特征在于,所述对各个第一预测概率和至少一个第二预测概率进行筛选,还包括:
若所述各个第一预测概率和所述至少一个第二预测概率均不符合所述筛选标准,则保留所述任意一待纠错字。
8.一种文本纠错装置,其特征在于,包括:
获取单元,用于获取待纠错文本中每个待纠错字的第一文本特征;
处理单元,用于分别对所述每个待纠错字执行以下操作,直至获得所述每个待纠错字的修改方式:根据任意一待纠错字的第一文本特征,确定预设字典中的每个候选字对于所述任意一待纠错字的第一类修改方式的第一类修改标签,以及对于所述任意一待纠错字的第二类修改方式的第二类修改标签;根据各个第一类修改标签和至少一个第二类修改标签,确定所述任意一待纠错字的修改方式;
纠错单元,用于根据所述每个待纠错字的修改方式修改所述待纠错文本,得到目标文本。
9.一种计算机设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行权利要求1~7中任一项所述方法的步骤。
CN202110191102.6A 2021-02-19 2021-02-19 一种文本纠错方法及装置 Active CN113010635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110191102.6A CN113010635B (zh) 2021-02-19 2021-02-19 一种文本纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110191102.6A CN113010635B (zh) 2021-02-19 2021-02-19 一种文本纠错方法及装置

Publications (2)

Publication Number Publication Date
CN113010635A true CN113010635A (zh) 2021-06-22
CN113010635B CN113010635B (zh) 2023-05-26

Family

ID=76403735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110191102.6A Active CN113010635B (zh) 2021-02-19 2021-02-19 一种文本纠错方法及装置

Country Status (1)

Country Link
CN (1) CN113010635B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449090A (zh) * 2021-06-23 2021-09-28 山东新一代信息产业技术研究院有限公司 一种用于智能问答的纠错方法、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN110874145A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN111428468A (zh) * 2020-03-03 2020-07-17 中国平安人寿保险股份有限公司 单语句通顺度预测方法、装置、设备及存储介质
CN111553143A (zh) * 2020-04-30 2020-08-18 河北省讯飞人工智能研究院 文本纠错方法、相关设备及可读存储介质
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111626047A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN111695343A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 错词纠正方法、装置、设备及存储介质
CN112329476A (zh) * 2020-11-11 2021-02-05 北京京东尚科信息技术有限公司 一种文本纠错方法及装置、设备、存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874145A (zh) * 2018-08-30 2020-03-10 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110852087A (zh) * 2019-09-23 2020-02-28 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN111428468A (zh) * 2020-03-03 2020-07-17 中国平安人寿保险股份有限公司 单语句通顺度预测方法、装置、设备及存储介质
CN111626047A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111553143A (zh) * 2020-04-30 2020-08-18 河北省讯飞人工智能研究院 文本纠错方法、相关设备及可读存储介质
CN111695343A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 错词纠正方法、装置、设备及存储介质
CN112329476A (zh) * 2020-11-11 2021-02-05 北京京东尚科信息技术有限公司 一种文本纠错方法及装置、设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卓利艳: ""字词级中文文本自动校对的方法研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449090A (zh) * 2021-06-23 2021-09-28 山东新一代信息产业技术研究院有限公司 一种用于智能问答的纠错方法、设备及介质

Also Published As

Publication number Publication date
CN113010635B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN108664589B (zh) 基于领域自适应的文本信息提取方法、装置、系统及介质
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN112784581B (zh) 文本纠错方法、装置、介质及电子设备
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111737974B (zh) 一种语句的语义抽象化表示方法及装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112597759A (zh) 一种基于文本的情绪检测方法和装置、计算机设备和介质
CN114818721B (zh) 一种结合序列标注的事件联合抽取模型与方法
CN111428750A (zh) 一种文本识别模型训练及文本识别方法、装置及介质
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN113268985B (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN113010635B (zh) 一种文本纠错方法及装置
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN114595338A (zh) 基于混合特征表示的实体关系联合抽取系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant