CN118095261B - 一种文本数据处理方法、装置、设备以及可读存储介质 - Google Patents

一种文本数据处理方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN118095261B
CN118095261B CN202410525030.8A CN202410525030A CN118095261B CN 118095261 B CN118095261 B CN 118095261B CN 202410525030 A CN202410525030 A CN 202410525030A CN 118095261 B CN118095261 B CN 118095261B
Authority
CN
China
Prior art keywords
text
unit
feature
sample
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410525030.8A
Other languages
English (en)
Other versions
CN118095261A (zh
Inventor
杨善明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410525030.8A priority Critical patent/CN118095261B/zh
Publication of CN118095261A publication Critical patent/CN118095261A/zh
Application granted granted Critical
Publication of CN118095261B publication Critical patent/CN118095261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本数据处理方法、装置、设备以及可读存储介质,该方法可以应用于云技术、人工智能、智慧交通、辅助驾驶、文本等场景,方法包括:对目标文本数据中的单位文本进行特征提取,得到单位文本对应的N个文本特征向量;对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量,对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量;对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合,得到单位文本对应的融合特征向量;根据融合特征向量对单位文本进行文本修正,得到修正后的单位文本。本申请可以提高文本修正的准确性。

Description

一种文本数据处理方法、装置、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据处理方法、装置、设备以及可读存储介质。
背景技术
互联网的迅速普及和发展导致了文本数据(例如,新闻文章、文学作品和学术论文等)的急剧增长,急剧增长的文本数据不可避免地会出现病句问题(例如,语法不规范问题),为改善文本数据的质量,需要对文本数据进行文本修正。
现有的文本修正方法为基于规则的文本修正方法,基于规则的文本修正方法需要穷举所有可能的病句信息,构建所有可能的病句信息对应的语法规则(这里的语法规则可以为正则表达式),进而将文本数据与语法规则进行语法匹配,从而确定文本数据是否存在病句问题。然而,随着病句种类的增加,基于规则的文本修正方法无法构建所有可能的病句信息对应的语法规则,这样,语法匹配可能会存在匹配失败的情况,也就无法对目标文本数据进行文本修正,从而会降低文本修正的准确性。
发明内容
本申请实施例提供一种文本数据处理方法、装置、设备以及可读存储介质,可以提高文本修正的准确性。
本申请实施例一方面提供了一种文本数据处理方法,包括:
对目标文本数据中的单位文本进行特征提取,得到单位文本对应的N个文本特征向量;N为大于1的正整数;N个文本特征向量用于表征不同维度的特征;单位文本是对目标文本数据进行文本拆分所得到;
对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量,对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量;
对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合,得到单位文本对应的融合特征向量;输出特征向量是由自注意力输出向量和拼接特征向量所确定;句法结构矩阵用于描述单位文本之间的依赖程度;
根据融合特征向量对单位文本进行文本修正,得到修正后的单位文本。
本申请实施例一方面提供了一种文本数据处理装置,包括:
第一特征提取模块,用于对目标文本数据中的单位文本进行特征提取,得到单位文本对应的N个文本特征向量;N为大于1的正整数;N个文本特征向量用于表征不同维度的特征;单位文本是对目标文本数据进行文本拆分所得到;
第一特征拼接模块,用于对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量,对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量;
第一层级融合模块,用于对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合,得到单位文本对应的融合特征向量;输出特征向量是由自注意力输出向量和拼接特征向量所确定;句法结构矩阵用于描述单位文本之间的依赖程度;
文本修正模块,用于根据融合特征向量对单位文本进行文本修正,得到修正后的单位文本。
其中,N个文本特征向量包括拼音特征向量;
第一特征提取模块,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块,具体用于在特征提取网络中,获取目标文本数据中的单位文本的H个拼音字符;H为正整数;H个拼音字符用于表示单位文本的读音;
第一特征提取模块,具体用于获取H个拼音字符分别对应的拼音字符向量,对H个拼音字符向量分别进行卷积操作,得到H个拼音字符向量分别对应的字符卷积向量;
第一特征提取模块,具体用于对H个字符卷积向量进行池化操作,得到单位文本对应的拼音特征向量。
其中,N个文本特征向量包括字形特征向量;
第一特征提取模块,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块,具体用于在特征提取网络中,获取目标文本数据中的单位文本的S个字体图像;S为正整数;S个字体图像用于表征具有不同字体的单位文本;
第一特征提取模块,具体用于对S个字体图像分别进行神经网络处理,得到S个字体图像分别对应的字体向量;
第一特征提取模块,具体用于对S个字体向量进行池化操作,得到单位文本对应的字形特征向量。
其中,N个文本特征向量包括词性特征向量;
第一特征提取模块,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块,具体用于在特征提取网络中,对目标文本数据进行分词处理,得到目标文本数据中的K个分词文本;K为正整数;K个分词文本用于组成目标文本数据,K个分词文本为目标文本数据中的不同词性的分词文本;
第一特征提取模块,具体用于从K个分词文本分别对应的词性向量中获取目标分词文本对应的词性向量,将目标分词文本对应的词性向量,确定为目标文本数据中的单位文本对应的词性特征向量;目标分词文本为K个分词文本中单位文本所属的分词文本。
其中,N个文本特征向量包括字符特征向量;
第一特征提取模块,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块,具体用于在特征提取网络中,对目标文本数据中的单位文本进行文本嵌入,得到单位文本对应的分词向量;
第一特征提取模块,具体用于在目标文本数据中确定单位文本的文本位置,对单位文本的文本位置进行位置嵌入,得到单位文本对应的位置向量;
第一特征提取模块,具体用于获取单位文本对应的分割向量,对单位文本对应的分词向量、单位文本对应的位置向量和单位文本对应的分割向量进行向量融合,得到单位文本对应的字符特征向量。
其中,第一特征拼接模块,具体用于将N个文本特征向量输入至文本修正模型中的特征融合网络;
第一特征拼接模块,具体用于在特征融合网络中,对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量;
第一特征拼接模块,具体用于对拼接特征向量进行线性变化,得到拼接特征向量对应的R个自注意力输入向量;R为正整数;
第一特征拼接模块,具体用于对R个自注意力输入向量进行自注意力处理,得到用于强化表示拼接特征向量的自注意力输出向量。
其中,R个自注意力输入向量包括键向量、值向量和查询向量;
第一特征拼接模块,具体用于获取键向量对应的转置向量,对查询向量和转置向量进行乘法运算,得到相似度矩阵;相似度矩阵用于表示N个文本特征向量之间的关联程度;
第一特征拼接模块,具体用于对相似度矩阵进行归一化处理,得到相似度矩阵对应的归一化矩阵,对归一化矩阵和值向量进行乘法运算,得到用于融合表示N个文本特征向量的注意力融合向量;
第一特征拼接模块,具体用于对注意力融合向量进行全连接处理,得到用于强化表示拼接特征向量的自注意力输出向量。
其中,第一层级融合模块,具体用于将目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量输入至文本修正模型中的层级融合网络;层级融合网络包括编码子网络、L个层级融合子网络和运算子网络;L为正整数;
第一层级融合模块,具体用于在编码子网络中,对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量;
第一层级融合模块,具体用于在L个层级融合子网络中,基于目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量,生成L个层级融合子网络分别对应的层级特征向量,将L个层级融合子网络中的目标层级融合子网络对应的层级特征向量,确定为单位文本对应的层级融合向量;目标层级融合子网络为L个层级融合子网络中的最后一个层级融合子网络;
第一层级融合模块,具体用于在运算子网络中,对单位文本对应的层级融合向量和单位文本对应的编码特征向量进行加权融合,得到单位文本对应的融合特征向量。
其中,L个层级融合子网络包括层级融合子网络Pv,v为小于或等于L的正整数;
第一层级融合模块,具体用于若层级融合子网络Pv为L个层级融合子网络中的第一个层级融合子网络,则通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量;
第一层级融合模块,具体用于若层级融合子网络Pv不为L个层级融合子网络中的第一个层级融合子网络,则通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和层级融合子网络Pv-1对应的层级特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量;层级融合子网络Pv-1为层级融合子网络Pv的上一个层级融合子网络。
其中,单位文本的数量为Q个,Q个单位文本包括目标单位文本;Q为大于1的正整数;目标文本数据对应的句法结构矩阵包括目标单位文本分别针对Q个单位文本的依赖参数;单位文本对应的编码特征向量包括目标单位文本对应的编码特征向量;
第一层级融合模块,具体用于从层级融合子网络Pv中获取目标单位文本分别针对Q个单位文本的依赖向量;
第一层级融合模块,具体用于在层级融合子网络Pv中,对目标单位文本对应的编码特征向量和Q个依赖向量分别进行特征拼接,得到Q个单位文本分别对应的拼接依赖向量;
第一层级融合模块,具体用于根据Q个依赖参数对Q个拼接依赖向量进行线性求和运算,生成目标单位文本对应的文本关联向量;
第一层级融合模块,具体用于对目标单位文本对应的文本关联向量进行激活处理,得到目标单位文本对应的层级子特征向量;目标单位文本对应的层级子特征向量属于层级融合子网络Pv对应的层级特征向量。
其中,文本修正模块,具体用于将融合特征向量输入至文本修正模型中的语法修正网络;
文本修正模块,具体用于在语法修正网络中,对融合特征向量进行全连接处理,得到单位文本对应的分类修正向量;
文本修正模块,具体用于对分类修正向量进行归一化处理,得到分类修正向量对应的归一化修正向量;
文本修正模块,具体用于根据归一化修正向量对单位文本进行文本修正,得到修正后的单位文本。
其中,归一化修正向量包括F个文本编辑操作分别对应的修正概率;F为大于1的正整数;F个修正概率之和等于归一化阈值;
文本修正模块,具体用于从归一化修正向量的F个修正概率中获取最大修正概率;
文本修正模块,具体用于若最大修正概率大于概率阈值,则根据最大修正概率对应的文本编辑操作,对单位文本进行文本修正,得到修正后的单位文本;
文本修正模块,具体用于若最大修正概率小于或等于概率阈值,则将单位文本确定为修正后的单位文本。
其中,文本修正模块,还用于获取修正后的目标文本数据;修正后的目标文本数据是由修正后的单位文本所确定;
文本修正模块,还用于若目标文本数据和修正后的目标文本数据相同,则将修正后的目标文本数据确定为目标文本数据的文本修正结果;
文本修正模块,还用于若目标文本数据和修正后的目标文本数据不相同,则继续对修正后的目标文本数据进行文本修正。
本申请实施例一方面提供了一种文本数据处理方法,包括:
获取初始文本修正模型、样本文本数据和样本文本数据对应的原始文本数据;样本文本数据是对原始文本数据进行文本变换所得到;
在初始文本修正模型中,对样本文本数据中的单位文本进行特征提取,得到样本文本数据中的单位文本对应的N个样本文本特征向量;N为大于1的正整数;N个样本文本特征向量用于表征不同维度的特征;样本文本数据中的单位文本是对样本文本数据进行文本拆分所得到;
对N个样本文本特征向量进行特征拼接,得到样本文本数据中的单位文本对应的样本拼接特征向量,对样本拼接特征向量进行自注意力融合,得到用于强化表示样本拼接特征向量的自注意力样本输出向量;
对样本文本数据对应的样本句法结构矩阵和样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到样本文本数据中的单位文本对应的样本融合特征向量;样本输出特征向量是由自注意力样本输出向量和样本拼接特征向量所确定;样本句法结构矩阵用于描述样本文本数据中的单位文本之间的依赖程度;
根据样本融合特征向量、样本文本数据和原始文本数据,对初始文本修正模型进行参数调整,得到文本修正模型;文本修正模型用于对目标文本数据进行文本修正。
本申请实施例一方面提供了一种文本数据处理装置,包括:
数据获取模块,用于获取初始文本修正模型、样本文本数据和样本文本数据对应的原始文本数据;样本文本数据是对原始文本数据进行文本变换所得到;
第二特征提取模块,用于在初始文本修正模型中,对样本文本数据中的单位文本进行特征提取,得到样本文本数据中的单位文本对应的N个样本文本特征向量;N为大于1的正整数;N个样本文本特征向量用于表征不同维度的特征;样本文本数据中的单位文本是对样本文本数据进行文本拆分所得到;
第二特征拼接模块,用于对N个样本文本特征向量进行特征拼接,得到样本文本数据中的单位文本对应的样本拼接特征向量,对样本拼接特征向量进行自注意力融合,得到用于强化表示样本拼接特征向量的自注意力样本输出向量;
第二层级融合模块,用于对样本文本数据对应的样本句法结构矩阵和样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到样本文本数据中的单位文本对应的样本融合特征向量;样本输出特征向量是由自注意力样本输出向量和样本拼接特征向量所确定;样本句法结构矩阵用于描述样本文本数据中的单位文本之间的依赖程度;
参数调整模块,用于根据样本融合特征向量、样本文本数据和原始文本数据,对初始文本修正模型进行参数调整,得到文本修正模型;文本修正模型用于对目标文本数据进行文本修正。
其中,参数调整模块,具体用于对样本文本数据中的单位文本和原始文本数据中的单位文本进行文本匹配,得到原始文本数据中的单位文本针对样本文本数据中的单位文本的文本修正标签;原始文本数据中的单位文本是对原始文本数据进行文本拆分所得到;
参数调整模块,具体用于对样本融合特征向量进行全连接处理,得到样本文本数据中的单位文本对应的样本分类修正向量;
参数调整模块,具体用于对样本分类修正向量进行归一化处理,得到样本分类修正向量对应的样本归一化修正向量;
参数调整模块,具体用于基于文本修正标签和样本归一化修正向量,确定初始文本修正模型的模型损失值,根据模型损失值对初始文本修正模型进行参数调整,将参数调整后的初始文本修正模型作为文本修正模型。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例可以获取待进行文本修正的文本数据(例如,目标文本数据)中的单位文本,提取用于表征单位文本的不同维度的特征的N个文本特征向量和目标文本数据对应的句法结构矩阵,进而根据单位文本对应的N个文本特征向量和句法结构矩阵,生成单位文本对应的融合特征向量。其中,融合特征向量用于对单位文本进行文本修正,以实现对目标文本数据进行文本修正,得到修正后的目标文本数据。因此,本申请实施例可以通过深度学习技术对目标文本数据进行文本修正,而不是将目标文本数据与语法规则进行语法匹配,这样,在语法规则无法包含所有可能的病句信息(例如,目标文本数据中的语法错误)时,基于规则的文本修正方法无法对目标文本数据进行文本修正,而本申请实施例仍然可以通过深度学习技术的强大模式识别能力,对目标文本数据进行文本修正,以提高文本修正的准确性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种进行数据交互的场景示意图;
图3是本申请实施例提供的一种文本数据处理方法的流程示意图一;
图4是本申请实施例提供的一种拼音特征提取的场景示意图;
图5是本申请实施例提供的一种字形特征提取的场景示意图;
图6是本申请实施例提供的一种词性特征提取的场景示意图;
图7是本申请实施例提供的一种文本修正模型的结构示意图;
图8是本申请实施例提供的一种文本修正的场景示意图;
图9是本申请实施例提供的一种文本数据处理方法的流程示意图二;
图10是本申请实施例提供的一种文本数据处理方法的流程示意图三;
图11是本申请实施例提供的一种编码子网络的结构示意图;
图12是本申请实施例提供的一种层级融合的场景示意图;
图13是本申请实施例提供的一种文本数据处理方法的流程示意图四;
图14是本申请实施例提供的一种数据预处理的流程示意图;
图15是本申请实施例提供的一种文本数据处理装置的结构示意图一;
图16是本申请实施例提供的一种文本数据处理装置的结构示意图二;
图17是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,本申请实施例所提供的方案主要涉及人工智能的机器学习(MachineLearning,ML)技术和自然语言处理(Nature Language processing,NLP)技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
具体的,请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示的网络架构可以包括服务器2000和终端设备集群。其中,终端设备集群具体可以包括一个或者多个终端设备,这里将不对终端设备集群中的终端设备的数量进行限定。如图1所示,多个终端设备具体可以包括终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n;终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n可以分别与服务器2000通过有线或无线通信方式进行直接或间接地网络连接,以便于每个终端设备可以通过该网络连接与服务器2000之间进行数据交互。
其中,终端设备集群中的每个终端设备均可以包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电(例如,智能电视)、可穿戴设备、车载终端、飞行器等具有文本数据处理功能的智能终端。其中,车载终端可以为智慧交通场景和辅助驾驶场景下的终端设备。为便于理解,本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备,例如,本申请实施例可以将图1所示的终端设备3000a作为目标终端设备。
其中,服务器2000可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可以理解的是,本申请实施例所提供的文本数据处理方法可以由计算机设备执行,计算机设备可以基于云技术实现文本数据(例如,目标文本数据)的文本修正,得到修正后的文本数据(例如,修正后的目标文本数据)。为便于理解,本申请实施例以目标文本数据为存在错误的文本数据为例进行说明。换言之,本申请实施例可以由服务器2000执行(即计算机设备可以为服务器2000),也可以由目标终端设备执行(即计算机设备可以为目标终端设备),还可以由服务器2000和目标终端设备共同执行。
其中,在文本数据处理方法由服务器2000执行时,服务器2000可以对目标文本数据进行文本修正,得到修正后的文本数据,进而将修正后的文本数据发送至目标终端设备。可选的,在文本数据处理方法由目标终端设备执行时,目标终端设备可以对目标文本数据进行文本修正,得到修正后的文本数据,进而将修正后的文本数据发送至服务器2000。
应当理解,上述网络框架可以适用于文本修正场景,文本修正是指错误检测(即病句检测)和错误纠正(即病句纠正),错误检测表示检测文本数据中的错误,错误纠正表示纠正文本数据中的错误。其中,文本修正场景的具体业务可以包括新闻文章修正业务、文学作品修正业务、学术论文修正业务等,这里将不对具体的业务进行一一列举。
比如,在新闻文章修正业务中,文本数据可以为新闻文章(例如,体育新闻文章),记者可以在撰写新闻文章后,通过本申请实施例检测并纠正新闻文章中的错误,进而对修正后的新闻文章进行发布。又比如,在文学作品修正业务中,文本数据可以为文学作品(例如,小说),作家可以在撰写文学作品后,通过本申请实施例检测并纠正文学作品中的错误,进而对修正后的文学作品进行发布。又比如,在学术论文修正业务中,文本数据可以为学术论文(例如,研究生毕业论文),科研人员可以在撰写学术论文后,通过本申请实施例检测并纠正学术论文中的错误,进而对修正后的学术论文进行提交。
应当理解,本申请书中相关数据(例如,目标文本数据、样本文本数据、原始文本数据)收集处理在实例应用时应该严格根据相关法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种进行数据交互的场景示意图。如图2所示的服务器20a可以为上述图1所对应实施例中的服务器2000,如图2所示的终端设备20b可以为上述图1所对应实施例中的目标终端设备,终端设备20b对应的用户可以为用户20c。为便于理解,本申请实施例以新闻文章修正业务为例进行说明,本申请实施例以文本数据处理方法由服务器20a执行为例进行说明。
如图2所示的服务器20a可以获取目标文本数据(例如,记者撰写的新闻文章)中的单位文本,目标文本数据中的单位文本可以包括单位文本22a、单位文本22b、…、单位文本22c。进一步地,服务器20a可以对目标文本数据中的单位文本进行特征提取,得到目标文本数据中的单位文本对应的N个文本特征向量。比如,这里以单位文本22a为例进行说明,计算机设备可以对单位文本22a进行特征提取,得到单位文本22a对应的N个文本特征向量,单位文本22a对应的N个文本特征向量可以包括文本特征向量23a、…、文本特征向量23b。同理,计算机设备可以对单位文本22b进行特征提取,得到单位文本22b对应的N个文本特征向量(未在图上示出);计算机设备可以对单位文本22c进行特征提取,得到单位文本22c对应的N个文本特征向量(未在图上示出)。
进一步地,服务器20a可以对N个文本特征向量(即文本特征向量23a、…、文本特征向量23b)进行特征拼接,得到单位文本22a对应的拼接特征向量,进而对单位文本22a对应的拼接特征向量进行自注意力融合,得到用于强化表示单位文本22a对应的拼接特征向量的自注意力输出向量(即单位文本22a对应的自注意力输出向量)。进一步地,服务器20a可以对单位文本22a对应的拼接特征向量和单位文本22a对应的自注意力输出向量进行向量融合,得到单位文本22a对应的输出特征向量(即输出特征向量24a)。
同理,服务器20a可以获取单位文本22b对应的输出特征向量24b、…、单位文本22c对应的输出特征向量24c。其中,服务器20a获取单位文本22b对应的输出特征向量24b、…、单位文本22c对应的输出特征向量24c的具体过程,可以参见上述获取单位文本22a对应的输出特征向量24a的描述,这里将不再进行赘述。
如图2所示,服务器20a可以对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量(即单位文本22a对应的输出特征向量24a、单位文本22b对应的输出特征向量24b、…、单位文本22c对应的输出特征向量24c)进行层级融合,得到单位文本对应的融合特征向量(即单位文本22a对应的融合特征向量25a、单位文本22b对应的融合特征向量25b、…、单位文本22c对应的融合特征向量25c)。其中,句法结构矩阵用于描述单位文本22a、单位文本22b、…、单位文本22c之间的依赖程度。
如图2所示,服务器20a可以根据融合特征向量(即单位文本22a对应的融合特征向量25a、单位文本22b对应的融合特征向量25b、…、单位文本22c对应的融合特征向量25c)对单位文本进行文本修正,得到修正后的单位文本。其中,服务器20a可以根据单位文本22a对应的融合特征向量25a对单位文本22a进行文本修正,得到修正后的单位文本22a;服务器20a可以根据单位文本22b对应的融合特征向量25b对单位文本22b进行文本修正,得到修正后的单位文本22b;…;服务器20a可以根据单位文本22c对应的融合特征向量25c对单位文本22c进行文本修正,得到修正后的单位文本22c。
如图2所示,服务器20a可以根据修正后的单位文本(即修正后的单位文本22a、修正后的单位文本22b、…、修正后的单位文本22c)确定修正后的目标文本数据(例如,修正后的新闻文章),进而在修正后的目标文本数据无需再次进行文本修正时,将修正后的目标文本数据发送至终端设备20b。
这样,终端设备20b可以显示修正后的目标文本数据(例如,修正后的新闻文章),用户20c可以在终端设备20b中查看修正后的目标文本数据,并对修正后的目标文本数据执行文本操作(例如,评论操作、转发操作、点赞操作等)。因此,本申请实施例可以确保用户20c所查看到的新闻文章为不存在错误的新闻文章(即修正后的目标文本数据),而不是存在错误的新闻文章(即目标文本数据)。
由此可见,本申请实施例可以获取目标文本数据中的单位文本对应的N个文本特征向量和目标文本数据对应的句法结构矩阵,根据N个文本特征向量和句法结构矩阵,确定单位文本对应的融合特征向量,进而根据融合特征向量对单位文本进行文本修正,以实现对目标文本数据进行文本修正。因此,本申请是通过深度学习技术融合N个文本特征向量和句法结构矩阵,得到用于准确表征单位文本的融合特征向量,这样,在通过融合特征向量实现文本修正时,可以提高文本修正的准确性。此外,由于本申请实施例可以显示修正后的目标文本数据,所以本申请实施例可以提高所显示的文本数据的整体正确性和表达清晰度。
进一步地,请参见图3,图3是本申请实施例提供的一种文本数据处理方法的流程示意图一。该方法可以由计算机设备执行,计算机设备可以为上述图2所对应实施例中的服务器20a,也可以为上述图2所对应实施例中的终端设备20b。为便于理解,本申请实施例以该方法由服务器执行为例进行说明。其中,该文本数据处理方法可以包括以下步骤S101-步骤S104:
步骤S101,对目标文本数据中的单位文本进行特征提取,得到单位文本对应的N个文本特征向量;
其中,这里的N可以为大于1的正整数,N个文本特征向量用于表征不同维度的特征(即多维度语言特征),N个文本特征向量包括拼音特征向量、字形特征向量、词性特征向量和字符特征向量中的至少两个。为便于理解,本申请实施例以N个文本特征向量包括拼音特征向量、字形特征向量、词性特征向量和字符特征向量为例进行说明。
其中,单位文本是对目标文本数据进行文本拆分所得到,目标文本数据中的每个单位文本均可以对应N个文本特征向量。文本拆分表示通过分词器(例如,tokenzier)提取句子(即目标文本数据)中的数字(即0-9的数字)或汉字,文本拆分也可以称之为token化,单位文本也可以称之为token。比如,目标文本数据可以为“我今年10岁”,目标文本数据中的单位文本可以为“我”、“今”、“年”、“1”、“0”和“岁”。
可以理解的是,计算机设备可以将目标文本数据输入至文本修正模型中的特征提取网络(即将目标文本数据中的单位文本输入至文本修正模型中的特征提取网络),在特征提取网络中,获取目标文本数据中的单位文本的H个拼音字符。其中,这里的H可以为正整数,H个拼音字符用于表示单位文本的读音。进一步地,计算机设备可以获取H个拼音字符分别对应的拼音字符向量,对H个拼音字符向量分别进行卷积操作,得到H个拼音字符向量分别对应的字符卷积向量。其中,计算机设备可以通过nn.embedding(即PyTorch中的模块)获取H个拼音字符分别对应的拼音字符向量;计算机设备可以通过卷积神经网络(Convolutional Neural Networks, CNN)中的卷积层(例如,conv1d)对H个拼音字符向量分别进行卷积操作。进一步地,计算机设备可以对H个字符卷积向量进行池化操作(例如,最大池化操作),得到单位文本对应的拼音特征向量。
其中,目标文本数据中的每个单位文本均可以具有H个拼音字符,不足H的通过候选拼音字符(例如,候选拼音字符可以为“-”)补齐,所以H个拼音字符可以包括单位文本的汉语拼音字母、单位文本的声调和候选拼音字符。其中,声调可以包括平声(即第一声)、上声(即第二声)、去声(即第三声)和入声(即第四声),平声可以表示为“1”,上声可以表示为“2”,去声可以表示为“3”,入声可以表示为“4”。为便于理解,本申请实施例以H等于8为例进行说明。比如,目标文本数据中的单位文本可以为“喜”,单位文本“喜”的H个拼音字符可以包括“x”、“i”、“3”、“-”、“-”、“-”、“-”和“-”,“x”和“i”为单位文本“喜”的汉语拼音字母,“3”为单位文本“喜”的声调,“-”、“-”、“-”、“-”和“-”为候选拼音字符。又比如,目标文本数据中的单位文本可以为“欢”,单位文本“欢”的H个拼音字符可以包括“h”、“u”、“a”、“n”、“1”、“-”、“-”和“-”,“h”、“u”、“a”和“n”为单位文本“欢”的汉语拼音字母,“1”为单位文本“欢”的声调,“-”、“-”和“-”为候选拼音字符。
为便于理解,请参见图4,图4是本申请实施例提供的一种拼音特征提取的场景示意图。如图4所示以单位文本为“喜”为例进行说明,计算机设备可以获取单位文本“喜”的H个拼音字符(即“x”、“i”、“3”、“-”、“-”、“-”、“-”和“-”),对单位文本“喜”的H个拼音字符分别进行卷积操作,得到H个拼音字符向量分别对应的字符卷积向量,进而对H个字符卷积向量进行池化操作,得到单位文本“喜”对应的拼音特征向量。
可以理解的是,计算机设备可以将目标文本数据输入至文本修正模型中的特征提取网络(即将目标文本数据中的单位文本输入至文本修正模型中的特征提取网络),在特征提取网络中,获取目标文本数据中的单位文本的S个字体图像。其中,这里的S可以为正整数,S个字体图像用于表征具有不同字体的单位文本。进一步地,计算机设备可以对S个字体图像分别进行神经网络处理,得到S个字体图像分别对应的字体向量。其中,计算机设备可以通过卷积神经网络对S个字体图像分别进行神经网络处理。进一步地,计算机设备可以对S个字体向量进行池化操作(例如,最大池化操作),得到单位文本对应的字形特征向量。
其中,目标文本数据中的每个单位文本均可以具有S个字体图像,S个字体图像对应于单位文本的不同字体,即单位文本的字体以字体图像的方式存储。为便于理解,本申请实施例以S等于3为例进行说明,例如,3个字体可以包括楷书、隶书和行书。
为便于理解,请参见图5,图5是本申请实施例提供的一种字形特征提取的场景示意图。如图5所示以单位文本为“喜”为例进行说明,计算机设备可以获取单位文本“喜”的S个字体(即字体51a、字体51b和字体51c,字体51a可以为行书,字体51b可以为隶书,字体51c可以为楷书)分别对应的字体图像。其中,字体51a对应的字体图像可以为字体图像50a,字体51b对应的字体图像可以为字体图像50b,字体51c对应的字体图像可以为字体图像50c。进一步地,计算机设备可以对单位文本“喜”的S个字体图像分别进行神经网络处理,得到S个字体图像分别对应的字体向量,进而对S个字体向量进行池化操作,得到单位文本“喜”对应的字形特征向量。
可以理解的是,计算机设备可以将目标文本数据输入至文本修正模型中的特征提取网络(即将目标文本数据中的单位文本输入至文本修正模型中的特征提取网络),在特征提取网络中,对目标文本数据进行分词处理,得到目标文本数据中的K个分词文本。其中,分词处理就是将字序列(即目标文本数据)重新组合成词序列(即分词文本)的过程;这里的K可以为正整数,K个分词文本用于组成目标文本数据,K个分词文本为目标文本数据中的不同词性(例如,代词、动词、名词)的分词文本,K个分词文本可以具有不同的词性、也可以具有相同的词性。进一步地,计算机设备可以从K个分词文本分别对应的词性向量中获取目标分词文本对应的词性向量,将目标分词文本对应的词性向量,确定为目标文本数据中的单位文本对应的词性特征向量。其中,K个分词文本分别对应的词性向量是由K个分词文本分别对应的词性所确定,计算机设备可以通过nn.embedding获取K个分词文本分别对应的词性向量,相同词性的分词文本可以对应相同的词性向量,不同词性的分词文本可以对应不同的词性向量;目标分词文本为K个分词文本中单位文本所属的分词文本,目标文本数据中的单位文本可以属于相同的分词文本、也可以属于不同的分词文本,同一个分词文本中的单位文本对应的词性特征向量相同。
为便于理解,请参见图6,图6是本申请实施例提供的一种词性特征提取的场景示意图。如图6所示以目标文本数据为“我喜欢打乒乓球”为例进行说明,计算机设备可以对目标文本数据“我喜欢打乒乓球”进行分词处理,得到目标文本数据“我喜欢打乒乓球”中的K个分词文本,进而对K个分词文本进行词性标注,得到K个分词文本分别对应的词性。其中,目标文本数据“我喜欢打乒乓球”中的K个分词文本可以包括“我”、“喜欢”、“打”和“乒乓球”,分词文本“我”对应的词性可以为代词,分词文本“喜欢”和分词文本“打”对应的词性可以为动词,分词文本“乒乓球”对应的词性可以为名词。进一步地,计算机设备可以获取K个分词文本分别对应的词性向量。其中,分词文本“我”对应的词性向量可以为词性向量60a,分词文本“喜欢”和分词文本“打”对应的词性向量可以为词性向量60b,分词文本“乒乓球”对应的词性向量可以为词性向量60c。
如图6所示,计算机设备可以将“我”对应的词性向量60a确定为单位文本“我”对应的词性特征向量,将“喜欢”对应的词性向量60b确定为单位文本“喜”对应的词性特征向量,将“喜欢”对应的词性向量60b确定为单位文本“欢”对应的词性特征向量,将“打”对应的词性向量60b确定为单位文本“打”对应的词性特征向量,将“乒乓球”对应的词性向量60c确定为单位文本“乒”对应的词性特征向量,将“乒乓球”对应的词性向量60c确定为单位文本“乓”对应的词性特征向量,将“乒乓球”对应的词性向量60c确定为单位文本“球”对应的词性特征向量。
可以理解的是,计算机设备可以将目标文本数据输入至文本修正模型中的特征提取网络(即将目标文本数据中的单位文本输入至文本修正模型中的特征提取网络),在特征提取网络中,对目标文本数据中的单位文本进行文本嵌入,得到单位文本对应的分词向量(即Token Embedding)。进一步地,计算机设备可以在目标文本数据中确定单位文本的文本位置,对单位文本的文本位置进行位置嵌入,得到单位文本对应的位置向量(即PositionEmbedding)。进一步地,计算机设备可以获取单位文本对应的分割向量(即SegmentEmbedding),对单位文本对应的分词向量、单位文本对应的位置向量和单位文本对应的分割向量进行向量融合,得到单位文本对应的字符特征向量。其中,分割向量用于表示单位文本在目标文本数据中所属的句子,目标文本数据中的句子可以使用SEP(即separator)标志进行区分。可选的,计算机设备可以对单位文本对应的分词向量和单位文本对应的位置向量进行向量融合,得到单位文本对应的字符特征向量。
其中,计算机设备可以通过词嵌入算法(例如,Word2Vec(即word to vector)、Glove等)对目标文本数据中的单位文本进行文本嵌入,得到单位文本对应的分词向量;计算机设备可以通过位置公式对单位文本的文本位置进行位置嵌入,得到单位文本对应的位置向量。应当理解,本申请实施例不对文本嵌入和位置嵌入的具体方式进行限定。
其中,对单位文本对应的分词向量、单位文本对应的位置向量和单位文本对应的分割向量进行向量融合的方式可以为向量相加(即加法运算)的方式,也可以为加权求和的方式,还可以为加权平均的方式,本申请实施例不对向量融合的具体方式进行限定。
应当理解,计算机设备可以通过上述特征提取方式获取汉字对应的N个文本特征向量,计算机设备可以通过上述特征提取方式获取数字对应的字形特征向量、词性特征向量和字符特征向量,计算机设备可以从特征向量数据库中获取数字对应的拼音特征向量,特征向量数据库中可以存储有0-9的数字分别对应的拼音特征向量。可选的,计算机设备可以从特征向量数据库中获取汉字对应的字形特征向量和拼音特征向量,从特征向量数据库中获取数字对应的字形特征向量。
步骤S102,对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量,对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量;
其中,计算机设备对N个文本特征向量进行特征拼接和对拼接特征向量进行自注意力融合的具体过程,可以参见下述图9所对应实施例中对步骤S1021-步骤S1024的描述。
步骤S103,对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合,得到单位文本对应的融合特征向量;
其中,输出特征向量是由自注意力输出向量和拼接特征向量所确定,计算机设备可以对自注意力输出向量和拼接特征向量进行向量融合,得到输出特征向量,例如,计算机设备可以对自注意力输出向量和拼接特征向量进行加法运算,得到输出特征向量。其中,输出特征向量、自注意力输出向量和拼接特征向量是针对同一个单位文本而言,即计算机设备可以对同一个单位文本对应的自注意力输出向量和拼接特征向量进行向量融合,得到该单位文本对应的输出特征向量。
其中,句法结构矩阵用于描述单位文本之间的依赖程度,计算机设备可以通过句法提取器(例如,GoPar)提取句法结构矩阵,句法结构矩阵也可以称之为邻接矩阵。
其中,计算机设备对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合的具体过程,可以参见下述图10所对应实施例中对步骤S1031-步骤S1034的描述。
可选的,计算机设备可以对目标文本数据对应的句法结构矩阵和单位文本对应的拼接特征向量进行层级融合,得到单位文本对应的融合特征向量。可选的,计算机设备可以对目标文本数据对应的句法结构矩阵和单位文本对应的自注意力输出向量进行层级融合,得到单位文本对应的融合特征向量。
步骤S104,根据融合特征向量对单位文本进行文本修正,得到修正后的单位文本。
具体的,计算机设备可以将融合特征向量输入至文本修正模型中的语法修正网络,在语法修正网络中,对融合特征向量进行全连接处理,得到单位文本对应的分类修正向量。进一步地,计算机设备可以对分类修正向量进行归一化处理,得到分类修正向量对应的归一化修正向量。进一步地,计算机设备可以根据归一化修正向量对单位文本进行文本修正,得到修正后的单位文本。其中,语法修正网络可以包括语法纠错子网络(也可以称之为语法纠错head)和后处理子网络,语法修正网络可以用于错误检测和错误纠正;语法纠错子网络可以用于实现全连接处理和归一化处理,语法纠错子网络可以用于实现错误检测,后处理子网络可以用于实现错误纠正。
其中,计算机设备可以通过多层感知机(Multilayer Perceptron,MLP)对融合特征向量进行全连接处理,得到单位文本对应的分类修正向量。全连接处理的具体过程可以参见下述公式(1):
(1)
其中,表示目标文本数据中的第个单位文本,表示第个单位文本对应的融合特征向量,表示多层感知机的全连接处理,表示第个单位文本对应的分类修正向量。
其中,分类修正向量包括F个文本编辑操作(简称编辑操作)分别对应的修正参数,归一化修正向量包括F个文本编辑操作分别对应的修正概率(也可以称之为修正分数),这里的F可以为大于1的正整数,F个修正概率之和等于归一化阈值(例如,归一化阈值可以等于1)。为便于理解,本申请实施例以F等于7354为例进行说明。
其中,计算机设备可以通过归一化指数函数(即softmax函数)对分类修正向量进行归一化处理,得到分类修正向量对应的归一化修正向量。归一化处理的具体过程可以参见下述公式(2):
(2)
其中,表示F个文本编辑操作中的第个文本编辑操作,表示第个单位文本对应的分类修正向量中的第个修正参数(即第个文本编辑操作对应的修正参数),表示归一化指数函数,表示第个单位文本对应的归一化修正向量,表示对第个单位文本对应的分类修正向量中的修正参数求和。其中,的取值为0到F-1,例如,F等于7354,F-1等于7353。
可以理解的是,计算机设备可以从归一化修正向量的F个修正概率中获取最大修正概率。进一步地,若最大修正概率大于概率阈值,则计算机设备可以根据最大修正概率对应的文本编辑操作,对单位文本进行文本修正,得到修正后的单位文本。可选的,若最大修正概率小于或等于概率阈值,则计算机设备可以将单位文本确定为修正后的单位文本(即无需对单位文本进行文本修正)。其中,概率阈值可以用于确定单位文本是否需要进行文本修正,本申请实施例不对概率阈值的具体取值进行限定,例如,概率阈值可以等于0.8。
文本修正的具体过程可以参见下述公式(3):
(3)
其中,表示目标文本数据中的第个单位文本,表示第个单位文本对应的归一化修正向量,表示第个单位文本对应的归一化修正向量中的最大修正概率,0.8表示概率阈值,表示根据最大修正概率对应的文本编辑操作对第个单位文本进行文本修正,得到修正后的第个单位文本。
其中,F个文本编辑操作可以划分为W类,这里的W可以为大于1的正整数,例如,W可以等于4,4类文本编辑操作可以包括add(增加)、keep(保持)、delete(删除)和replace(替换),4类文本编辑操作可以与单位文本组成不同的文本编辑操作。其中,add可以表示增加单位文本,keep表示单位文本保持不变,delete表示删除单位文本,replace表示替换单位文本。
其中,本申请实施例不对单位文本的总数量进行限定,例如,单位文本的总数量可以为3676个,3676个单位文本可以与4类文本编辑操作组成7354(即36762+2)个文本编辑操作,7354个文本编辑操作可以包括keep、delete、add(1)、add(天)、…、replace(1)和replace(天),其中,“1”、…、“天”可以表示单位文本。比如,单位文本可以为“乒”,在最大修正概率对应的文本编辑操作为keep时,计算机设备可以将单位文本“乒”确定为修正后的单位文本;在最大修正概率对应的文本编辑操作为delete时,计算机设备可以删除单位文本“乒”,得到修正后的单位文本(即空);在最大修正概率对应的文本编辑操作为add(乓)时,计算机设备可以将单位文本“乒”和单位文本“乓”共同确定为修正后的单位文本(即“乒乓”);在最大修正概率对应的文本编辑操作为replace(乓)时,计算机设备可以将单位文本“乓”确定为修正后的单位文本。
应当理解,计算机设备可以获取修正后的目标文本数据。其中,修正后的目标文本数据是由修正后的单位文本所确定;计算机设备可以对修正后的单位文本进行文本组合,得到修正后的目标文本数据。进一步地,若目标文本数据和修正后的目标文本数据相同,则计算机设备可以将修正后的目标文本数据确定为目标文本数据的文本修正结果。可选的,若目标文本数据和修正后的目标文本数据不相同,则计算机设备可以继续对修正后的目标文本数据进行文本修正,实现对目标文本数据的多次文本修正(即多轮纠正),从而采用多轮纠正提高文本修正的准确性。其中,计算机设备对修正后的目标文本数据进行文本修正的具体过程,可以参见上述对目标文本数据进行文本修正的描述,这里将不再进行赘述。
其中,计算机设备可以在文本修正前的文本数据(例如,目标文本数据)和文本修正后的文本数据(例如,修正后的文本数据)相同时,停止文本修正过程。可选的,计算机设备可以在对目标文本数据进行文本修正的次数达到次数阈值时,停止文本修正过程。其中,本申请实施例不对次数阈值的具体取值进行限定,例如,次数阈值可以等于4。
为便于理解,本申请实施例可以将对目标文本数据的多次文本修正的文本数据均称之为修正后的文本数据,目标文本数据的文本修正结果可以为多次文本修正的最后一次文本修正所得到的文本数据。
为便于理解,请参见图7,图7是本申请实施例提供的一种文本修正模型的结构示意图。如图7所示的文本修正模型可以用于对目标文本数据进行文本修正,得到修正后的目标文本数据,目标文本数据可以为待纠错文本。其中,文本修正模型可以包括特征提取网络、特征融合网络、层级融合网络和语法修正网络,本申请实施例中的文本修正模型进行文本修正的准确率等于50%,召回率等于78.5%。
如图7所示,计算机设备可以将目标文本数据输入至文本修正模型中的特征提取网络,在特征提取网络中,对目标文本数据中的单位文本进行特征提取(包括拼音特征提取、字形特征提取、词性特征提取和字符特征提取),得到单位文本对应的拼音特征向量、字形特征向量、词性特征向量和字符特征向量。其中,拼音特征向量、字形特征向量、词性特征向量和字符特征向量可以统称为单位文本对应的N个文本特征向量。
如图7所示,计算机设备可以将拼音特征向量、字形特征向量、词性特征向量和字符特征向量输入至文本修正模型中的特征融合网络,在特征融合网络中,对拼音特征向量、字形特征向量、词性特征向量和字符特征向量进行特征拼接,得到拼接特征向量,进而对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量。进一步地,计算机设备可以对自注意力输出向量和拼接特征向量进行向量融合,得到单位文本对应的输出特征向量。
如图7所示,计算机设备可以将目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量输入至文本修正模型中的层级融合网络,在层级融合网络中,对句法结构矩阵和输出特征向量进行层级融合,得到单位文本对应的融合特征向量。其中,计算机设备可以对目标文本数据进行句法结构特征提取,得到目标文本数据对应的句法结构矩阵。
如图7所示,计算机设备可以将融合特征向量输入至文本修正模型中的语法修正网络,在语法修正网络中,根据单位文本对应的融合特征向量对单位文本进行文本修正,得到修正后的单位文本。其中,修正后的单位文本可以用于确定修正后的目标文本数据。进一步地,若目标文本数据和修正后的目标文本数据不相同,则计算机设备可以继续对修正后的目标文本数据进行文本修正,实现对目标文本数据的多轮纠正。可选的,若目标文本数据和修正后的目标文本数据相同,则计算机设备可以将修正后的目标文本数据确定为目标文本数据的文本修正结果。
因此,本申请实施例可以结合多种文本特征(例如,字形特征、拼音特征、词性特征、字符特征、句法结构特征)进行文本修正,以提高文本修正模型对深层语义和表层结构的理解能力,进而提高文本修正模型进行文本修正的能力,且提高病句的召回能力和模型的泛化能力。
应当理解,文本修正模型是一种序列到序列(Sequence-to-Sequence,Seq2Seq)模型,序列到序列模型可以利用编码器(即encode)和解码器(即decode)框架来捕捉目标文本数据的上下文信息,并生成正确的修正版本(即文本修正结果)。其中,编码器可以为特征融合网络和层级融合网络,解码器可以为语法修正网络。
为便于理解,请参见图8,图8是本申请实施例提供的一种文本修正的场景示意图。如图8所示以目标文本数据为“我喜欢打乒球”为例进行说明,计算机设备可以获取目标文本数据中的单位文本,目标文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”、“乒”和“球”。进一步地,计算机设备可以对单位文本“我”进行文本修正,得到修正后的单位文本“我”;计算机设备可以对单位文本“喜”进行文本修正,得到修正后的单位文本“喜”;计算机设备可以对单位文本“欢”进行文本修正,得到修正后的单位文本“欢”;计算机设备可以对单位文本“打”进行文本修正,得到修正后的单位文本“打”;计算机设备可以对单位文本“乒”进行文本修正,得到修正后的单位文本“乒乓”;计算机设备可以对单位文本“球”进行文本修正,得到修正后的单位文本“球”。
如图8所示,计算机设备可以对修正后的单位文本“我”、修正后的单位文本“喜”、修正后的单位文本“欢”、修正后的单位文本“打”、修正后的单位文本“乒乓”和修正后的单位文本“球”进行文本组合,得到修正后的目标文本数据,修正后的目标文本数据为“我喜欢打乒乓球”。
可选的,本申请实施例可以在获取目标文本数据的文本修正结果之后,结合语法规则(这里的语法规则可以为正则表达式,用于表示固定描述)对目标文本数据的文本修正结果进行辅助校验和修正,例如,语法规则所表示的固定描述可以为“大于…左右”。此时,计算机设备可以将目标文本数据的文本修正结果与语法规则进行匹配,得到匹配结果。进一步地,若匹配结果指示匹配成功,则确定目标文本数据的文本修正结果存在语法错误,进而根据语法规则对目标文本数据的文本修正结果进行文本修正。可选的,若匹配结果指示匹配失败,则确定目标文本数据的文本修正结果不存在语法错误。
由此可见,本申请实施例可以获取待进行文本修正的文本数据(例如,目标文本数据)中的单位文本,提取用于表征单位文本的不同维度的特征的N个文本特征向量和目标文本数据对应的句法结构矩阵,进而根据单位文本对应的N个文本特征向量和句法结构矩阵,生成单位文本对应的融合特征向量。其中,融合特征向量用于对单位文本进行文本修正,以实现对目标文本数据进行文本修正,得到修正后的目标文本数据。因此,本申请实施例可以通过深度学习技术对目标文本数据进行文本修正,而不是将目标文本数据与语法规则进行语法匹配,这样,在语法规则无法包含所有可能的病句信息(例如,目标文本数据中的语法错误)时,基于规则的文本修正方法无法对目标文本数据进行文本修正,而本申请实施例仍然可以通过深度学习技术的强大模式识别能力,对目标文本数据进行文本修正,以提高文本修正的准确性。
进一步地,请参见图9,图9是本申请实施例提供的一种文本数据处理方法的流程示意图二。该文本数据处理方法可以包括以下步骤S1021-步骤S1024,且步骤S1021-步骤S1024为图3所对应实施例中步骤S102的一个具体实施例。
步骤S1021,将N个文本特征向量输入至文本修正模型中的特征融合网络;
其中,N个文本特征向量包括拼音特征向量、字形特征向量、词性特征向量和字符特征向量中的至少两个。可选的,N个文本特征向量还可以包括除拼音特征向量、字形特征向量、词性特征向量和字符特征向量之外的其他文本特征向量(例如,分词向量)。为便于理解,本申请实施例以N个文本特征向量包括拼音特征向量、字形特征向量、词性特征向量和字符特征向量为例进行说明。
步骤S1022,在特征融合网络中,对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量;
其中,N个文本特征向量分别对应的向量维度相同,拼接特征向量对应的向量维度是由N和N个文本特征向量分别对应的向量维度所确定。比如,N个文本特征向量分别对应的向量维度为seqd,拼接特征向量对应的向量维度是seqNd(例如,seq4d),seq表示目标文本数据中的单位文本的数量,d表示N个文本特征向量分别对应的向量长度,N个文本特征向量均为1维向量。
特征拼接的具体过程可以参见下述公式(4):
(4)
其中,表示拼音特征向量,表示字形特征向量,表示词性特征向量,表示字符特征向量,表示拼接函数,表示拼接特征向量。
步骤S1023,对拼接特征向量进行线性变化,得到拼接特征向量对应的R个自注意力输入向量;
具体的,计算机设备可以从特征融合网络中获取R个权重矩阵(权重矩阵也可以称之为线性变化矩阵),通过R个权重矩阵对拼接特征向量进行线性变化,得到R个权重矩阵分别对应的自注意力输入向量。其中,这里的R可以为正整数,R个权重矩阵均为可学习的模型参数,可以通过随机初始化获取、并在模型训练过程中动态调整。为便于理解,本申请实施例以R等于3为例进行说明,R个自注意力输入向量包括键向量、值向量和查询向量,R个自注意力输入向量分别对应的向量维度与拼接特征向量对应的向量维度相同,R个权重矩阵可以增强文本修正模型的拟合能力。
其中,线性变换表示对权重矩阵和拼接特征向量进行乘法运算。线性变化的具体过程可以参见下述公式(5):
(5)
其中,表示拼接特征向量,表示R个权重矩阵,表示R个自注意力输入向量,表示查询向量,表示键向量,表示值向量,表示乘法运算。
步骤S1024,对R个自注意力输入向量进行自注意力处理,得到用于强化表示拼接特征向量的自注意力输出向量。
具体的,计算机设备可以获取键向量对应的转置向量,对查询向量和转置向量进行乘法运算,得到相似度矩阵。其中,转置向量是对键向量进行转置操作所得到,相似度矩阵用于表示N个文本特征向量之间的关联程度,换言之,相似度矩阵用于表示N个文本特征向量之间的attention强度(即注意力强度)。进一步地,计算机设备可以对相似度矩阵进行归一化处理,得到相似度矩阵对应的归一化矩阵,对归一化矩阵和值向量进行乘法运算,得到用于融合表示N个文本特征向量的注意力融合向量。进一步地,计算机设备可以对注意力融合向量进行全连接处理,得到用于强化表示拼接特征向量的自注意力输出向量。其中,计算机设备可以通过多层感知机对注意力融合向量进行全连接处理,得到自注意力输出向量,自注意力输出向量对应的向量维度与拼接特征向量对应的向量维度相同。
其中,计算机设备可以通过归一化指数函数对相似度矩阵进行归一化处理,得到相似度矩阵对应的归一化矩阵。此时,计算机设备可以通过归一化指数函数对相似度矩阵中的每一行进行归一化处理,使得归一化矩阵的每一行矩阵参数之和等于归一化阈值。其中,归一化矩阵中的矩阵参数可以表示N个文本特征向量之间的attention系数,例如,归一化矩阵中的第一行表示第一个文本特征向量(例如,字符特征向量)与N个文本特征向量的attention系数。
自注意力处理的具体过程可以参见下述公式(6):
(6)
其中,表示查询向量,表示键向量对应的转置向量,表示值向量,表示归一化指数函数,表示多层感知机的全连接处理,表示自注意力输出向量,表示乘法运算。
应当理解,计算机设备可以对自注意力输出向量和拼接特征向量进行向量融合(例如,加法运算),得到输出特征向量。其中,输出特征向量对应的向量维度与自注意力输出向量对应的向量维度和拼接特征向量对应的向量维度相同,输出特征向量可以用于输入至文本修正模型中的层级融合网络。
向量融合的具体过程可以参见下述公式(7):
(7)
其中,表示自注意力输出向量,表示拼接特征向量,表示输出特征向量,表示加法运算。
由此可见,本申请实施例可以对用于表征单位文本的不同维度的特征的N个文本特征向量进行拼接,得到单位文本对应的拼接特征向量,进而对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量(即用于强化表示N个文本特征向量的自注意力输出向量)。因此,本申请实施例可以设计特征融合网络来加深文本修正模型对目标文本数据的理解,在特征融合网络中利用上下文信息和语境,提高文本修正的准确性和鲁棒性。
进一步地,请参见图10,图10是本申请实施例提供的一种文本数据处理方法的流程示意图三。该文本数据处理方法可以包括以下步骤S1031-步骤S1034,且步骤S1031-步骤S1034为图3所对应实施例中步骤S103的一个具体实施例。
步骤S1031,将目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量输入至文本修正模型中的层级融合网络;
其中,层级融合网络包括编码子网络、L个层级融合子网络和运算子网络,这里的L可以为正整数,L个层级融合子网络也可以称之为GCN(Graph Convolutional Network,图卷积神经网络)模型。
步骤S1032,在编码子网络中,对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量;
应当理解,编码子网络可以为人工智能的大语言模型(Large Language Model,LLM),本申请实施例不对编码子网络的具体模型类型进行限定,例如,编码子网络可以为基于变压器的双向编码器表征(Bidirectional Encoder Representations fromTransformers,BERT)模型、用于语言表征自监督学习的轻量级BERT模型(A Lite BERT forSelf-supervised Learning of Language Representations,ALBERT)、鲁棒优化的BERT预训练方法(Robustly Optimized BERT Pre-training Approach,RoBERTa)、GPT模型(Generative Pre-trained Transformers,生成式预训练Transformer模型)、Longformer(The Long-Document Transformer)模型等。
为便于理解,本申请实施例以编码子网络为BERT模型为例进行说明,BERT模型是一种基于Transformer模型的预训练模型(Pre-Training Model,PTM),它可以利用大规模语料库学习文本中的深层语义信息,进而很好地处理病句问题。其中,预训练表示先利用大规模无标签文本训练模型,获得通用的语言理解能力,再针对具体任务进行微调,提升模型在具体应用场景下的性能。
其中,由于Transformer模型在处理长距离依赖问题(即预测信息和相关信息间的间隔大)上表现优秀,所以在将BERT模型作为编码子网络时,可以提高文本修正的准确性。此外,由于BERT模型是一个双向attention的语言模型,所以BERT模型可以对前后单位文本进行内容理解,捕获目标文本数据中的单位文本的上下文结构,实现更加精准的内容理解,从而实现对病句的有效识别和精准纠正。
编码处理的具体过程可以参见下述公式(8):
(8)
其中,表示输出特征向量,表示BERT模型,表示编码特征向量。
为便于理解,请参见图11,图11是本申请实施例提供的一种编码子网络的结构示意图。如图11所示以编码子网络为BERT模型为例进行说明,BERT模型可以包括一个或多个编码单元,这里以BERT模型中的编码单元的数量为2个为例进行说明,2个编码单元可以包括编码单元113a和编码单元113b。其中,编码单元113a和编码单元113b中的编码器可以为Transformer结构中的编码器(即Encoder Block)。
如图11所示,计算机设备可以将单位文本对应的输出特征向量输入至编码子网络,在编码子网络中,通过编码单元113a和编码单元113b对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量。其中,计算机设备可以通过编码单元113a中的编码器对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的候选特征向量;计算机设备可以通过编码单元113b中的编码器对单位文本对应的候选特征向量进行编码处理,得到单位文本对应的编码特征向量。
其中,单位文本对应的输出特征向量可以包括“[CLS]”对应的输出特征向量(即输出特征向量110a),单位文本112a(即目标文本数据中的第一个单位文本)对应的输出特征向量(即输出特征向量110b)、…、单位文本112b(即目标文本数据中的最后一个单位文本)对应的输出特征向量(即输出特征向量110c)。同理,单位文本对应的编码特征向量可以包括“[CLS]”对应的编码特征向量(即编码特征向量111a),单位文本112a对应的编码特征向量(即编码特征向量111b)、…、单位文本112b对应的编码特征向量(即编码特征向量111c)。
其中,CLS(classification)标志为编码子网络的输入数据(即单位文本对应的输出特征向量)的第一个位置,可以用于表示单位文本的概括信息(即用于概括性表示单位文本)。
步骤S1033,在L个层级融合子网络中,基于目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量,生成L个层级融合子网络分别对应的层级特征向量,将L个层级融合子网络中的目标层级融合子网络对应的层级特征向量,确定为单位文本对应的层级融合向量;
其中,目标层级融合子网络为L个层级融合子网络中的最后一个层级融合子网络,计算机设备可以将最后一个层级融合子网络对应的层级特征向量,确定为单位文本对应的层级融合向量。
其中,L个层级融合子网络包括层级融合子网络Pv,层级融合子网络Pv可以为L个层级融合子网络中的任意一个层级融合子网络,这里的v可以为小于或等于L的正整数。可以理解的是,若层级融合子网络Pv为L个层级融合子网络中的第一个层级融合子网络,则计算机设备可以通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量。可选的,若层级融合子网络Pv不为L个层级融合子网络中的第一个层级融合子网络,则计算机设备可以通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和层级融合子网络Pv-1对应的层级特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量。其中,层级融合子网络Pv-1为层级融合子网络Pv的上一个层级融合子网络。
因此,L个层级融合子网络中的第一个层级融合子网络的输入为句法结构矩阵和单位文本对应的编码特征向量(即编码子网络的输出),L-1个层级融合子网络的输入为句法结构矩阵和上一个层级融合子网络对应的层级特征向量(即上一个层级融合子网络的输出),L-1个层级融合子网络为L个层级融合子网络中除第一个层级融合子网络之外的层级融合子网络。
其中,目标文本数据中的单位文本的数量为Q个,Q个单位文本包括目标单位文本,目标单位文本可以为Q个单位文本中的任意一个单位文本,这里的Q可以为大于1的正整数;目标文本数据对应的句法结构矩阵包括目标单位文本分别针对Q个单位文本的依赖参数,Q个依赖参数用于表示目标单位文本分别针对Q个单位文本的依赖程度,单位文本对应的编码特征向量包括目标单位文本对应的编码特征向量。可以理解的是,计算机设备通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量进行语法结构建模的具体过程可以描述为:计算机设备可以从层级融合子网络Pv中获取目标单位文本分别针对Q个单位文本的依赖向量。其中,Q个依赖向量用于表示目标单位文本分别针对Q个单位文本的依赖程度,层级融合子网络Pv中的依赖向量的数量为QQ个。进一步地,计算机设备可以在层级融合子网络Pv中,对目标单位文本对应的编码特征向量和Q个依赖向量分别进行特征拼接(即拼接操作),得到Q个单位文本分别对应的拼接依赖向量。进一步地,计算机设备可以根据Q个依赖参数对Q个拼接依赖向量进行线性求和运算,生成目标单位文本对应的文本关联向量。进一步地,计算机设备可以对目标单位文本对应的文本关联向量进行激活处理,得到目标单位文本对应的层级子特征向量(即层级融合子网络Pv输出的层级子特征向量)。其中,目标单位文本对应的层级子特征向量(即层级融合子网络Pv输出的层级子特征向量)属于层级融合子网络Pv对应的层级特征向量;计算机设备可以通过激活函数(例如,线性整流函数)对目标单位文本对应的文本关联向量进行激活处理,得到目标单位文本对应的层级子特征向量。
其中,本申请实施例不对依赖参数的具体取值进行限定,例如,依赖参数的取值范围可以为0到1,0表示单位文本之间无关系(或无依赖),1表示单位文本之间关系密切(或依赖关系强)。
其中,层级融合子网络Pv-1对应的层级特征向量包括目标单位文本对应的层级子特征向量(即层级融合子网络Pv-1输出的层级子特征向量)。可以理解的是,计算机设备通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和层级融合子网络Pv-1对应的层级特征向量进行语法结构建模的具体过程可以描述为:计算机设备可以从层级融合子网络Pv中获取目标单位文本分别针对Q个单位文本的依赖向量。进一步地,计算机设备可以在层级融合子网络Pv中,对目标单位文本对应的层级子特征向量(即层级融合子网络Pv-1输出的层级子特征向量)和Q个依赖向量分别进行特征拼接(即拼接操作),得到Q个单位文本分别对应的拼接依赖向量。进一步地,计算机设备可以根据Q个依赖参数对Q个拼接依赖向量进行线性求和运算,生成目标单位文本对应的文本关联向量。进一步地,计算机设备可以对目标单位文本对应的文本关联向量进行激活处理,得到目标单位文本对应的层级子特征向量(即层级融合子网络Pv输出的层级子特征向量)。其中,目标单位文本对应的层级子特征向量(即层级融合子网络Pv输出的层级子特征向量)属于层级融合子网络Pv对应的层级特征向量。
其中,计算机设备根据Q个依赖参数对Q个拼接依赖向量进行线性求和运算的具体过程可以描述为:计算机设备可以根据Q个依赖参数和Q个拼接依赖向量,确定Q个单位文本分别对应的候选文本关联向量。进一步地,计算机设备可以对Q个候选文本关联向量进行求和运算,得到目标单位文本对应的文本关联融合向量。进一步地,计算机设备可以从层级融合子网络Pv中获取偏置向量,对目标单位文本对应的文本关联融合向量和偏置向量进行求和运算,得到目标单位文本对应的文本关联向量。
其中,Q依赖参数包括目标单位文本针对候选单位文本的依赖参数,Q个拼接依赖向量包括候选单位文本对应的拼接依赖向量,候选单位文本为Q个单位文本中的任意一个单位文本。可以理解的是,计算机设备获取候选单位文本对应的候选文本关联向量的具体过程可以描述为:计算机设备可以从层级融合子网络Pv中获取权重向量,对权重向量和候选单位文本对应的拼接依赖向量进行乘法运算,得到候选单位文本对应的加权拼接依赖向量。进一步地,计算机设备可以对候选单位文本对应的依赖参数(即目标单位文本针对候选单位文本的依赖参数)和候选单位文本对应的加权拼接依赖向量进行乘法运算,得到候选单位文本对应的候选文本关联向量。
语法结构建模的具体过程可以参见下述公式(9):
(9)
其中,公式(9)表示层级融合子网络Pl进行语法结构建模的公式,层级融合子网络Pl为L个层级融合子网络中的第l个层级融合子网络。若层级融合子网络Pl为L个层级融合子网络中的第一个层级融合子网络,则表示第个单位文本对应的编码特征向量;若层级融合子网络Pl不为L个层级融合子网络中的第一个层级融合子网络,则表示层级融合子网络Pl-1所输出的第个单位文本对应的层级子特征向量,层级融合子网络Pl-1为层级融合子网络Pl的上一个层级融合子网络。
其中,表示第个单位文本针对第个单位文本的依赖向量(即第个单位文本到第个单位文本的边向量),表示拼接操作,表示层级融合子网络Pl的权重向量,表示层级融合子网络Pl的偏置向量,表示句法结构矩阵,表示线性整流函数,表示层级融合子网络Pl所输出的第个单位文本对应的层级子特征向量。其中,均为可学习的模型参数,可以通过随机初始化获取、并在模型训练过程中动态调整;函数可以加快梯度下降法的收敛速度。
此外,句法结构矩阵中的依赖参数和L个层级融合子网络中的依赖向量均用于表征句法结构特征,句法结构是通过依存句法描述句子中的词之间的句法关系和语义联系,依存句法的主要特点是识别和分析句子中的词之间的依存关系(例如,主谓关系、动宾关系等),依存关系指明了句子中的词之间的支配与被支配关系。比如,目标文本数据可以为“刘教练还帮助他确定了把打乒乓球作为主攻目标”,其中,“目标”是“作为”的直接宾语,“目标”是“主攻”的复合名词,“乒乓球”是“打”的直接宾语,“确定”是“帮助”的从句补语。
为便于理解,请参见图12,图12是本申请实施例提供的一种层级融合的场景示意图。如图12所示,计算机设备可以将单位文本(包括单位文本120a、…、单位文本120b)对应的输出特征向量输入至编码子网络,在编码子网络中,对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量。进一步地,计算机设备可以将编码特征向量和目标文本数据对应的句法结构矩阵输入至层级融合子网络(图12以层级融合子网络的数量为1个为例进行说明),在层级融合子网络中,对句法结构矩阵和编码特征向量进行语法结构建模,得到层级融合子网络对应的层级特征向量,将层级融合子网络对应的层级特征向量确定为单位文本对应的层级融合向量。进一步地,计算机设备可以将层级融合向量和编码特征向量输入至运算子网络,在运算子网络中,对层级融合向量和编码特征向量进行加权融合,得到单位文本对应的融合特征向量(包括融合特征向量121a、…、融合特征向量121b)。其中,融合特征向量121a可以为单位文本120a对应的融合特征向量,融合特征向量121b可以为单位文本120b对应的融合特征向量。
步骤S1034,在运算子网络中,对单位文本对应的层级融合向量和单位文本对应的编码特征向量进行加权融合,得到单位文本对应的融合特征向量。
具体的,计算机设备可以对单位文本对应的层级融合向量和第一权重系数进行乘法运算,得到层级融合向量对应的第一加权向量;计算机设备可以对单位文本对应的编码特征向量和第二权重系数进行乘法运算,得到编码特征向量对应的第二加权向量。进一步地,计算机设备可以对第一加权向量和第二加权向量进行加法运算,得到单位文本对应的融合特征向量。其中,本申请实施例不对第一权重系数和第二权重系数的具体取值进行限定。
加权融合的具体过程可以参见下述公式(10):
(10)
其中,表示第个单位文本对应的编码特征向量,表示第个单位文本对应的层级融合向量,表示第二权重系数(例如,可以等于0.5),第一权重系数可以等于1,表示第个单位文本对应的融合特征向量。
由此可见,本申请实施例可以对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量,基于目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量,确定单位文本对应的层级融合向量,进而对单位文本对应的层级融合向量和单位文本对应的编码特征向量进行加权融合,得到单位文本对应的融合特征向量。因此,本申请实施例可以设计层级融合网络来加深文本修正模型对目标文本数据的理解,在层级融合网络中利用句法结构特征,提高文本修正的准确性和鲁棒性。
进一步地,请参见图13,图13是本申请实施例提供的一种文本数据处理方法的流程示意图四。该方法可以由计算机设备执行,计算机设备可以为上述图2所对应实施例中的服务器20a,也可以为上述图2所对应实施例中的终端设备20b。为便于理解,本申请实施例以该方法由服务器执行为例进行说明。其中,该文本数据处理方法可以包括以下步骤S201-步骤S205:
步骤S201,获取初始文本修正模型、样本文本数据和样本文本数据对应的原始文本数据;
其中,样本文本数据是对原始文本数据进行文本变换所得到,原始文本数据可以为正确文本(即原始文本数据不为病句),样本文本数据可以为错误文本(即样本文本数据为病句);初始文本修正模型可以包括初始特征提取网络、初始特征融合网络、初始层级融合网络和初始语法修正网络,初始层级融合网络包括初始编码子网络、L个初始层级融合子网络和初始运算子网络。
应当理解,初始文本修正模型和文本修正模型可以统称为泛化网络模型,初始文本修正模型和文本修正模型属于泛化网络模型在不同时刻的名称,在训练阶段,泛化网络模型可以称之为初始文本修正模型,在预测阶段,泛化网络模型可以称之为文本修正模型。同理,初始编码子网络和编码子网络为不同阶段的名称,L个初始层级融合子网络和L个层级融合子网络为不同阶段的名称,初始运算子网络和运算子网络为不同阶段的名称。
应当理解,考虑到病句在真实语境中的多样化,文本变换的方式可以划分为G类,这里的G可以为正整数,G类文本变换的方式可以用于生成G种病句类型,G种病句类型对于提升文本修正模型对未见过的病句样例的泛化能力至关重要。比如,在G等于4时,G种病句类型可以包括成分残缺(例如,缺失主语,宾语不完整等)、句子冗余(即多字)、语序不当(例如,定语和状语存在语序错误)和结构混乱。比如,原始文本数据可以为“我喜欢打乒乓球”,成分残缺所对应的样本文本数据可以为“我喜欢打乒球”或“喜欢打乒乓球”。又比如,原始文本数据可以为“我喜欢打乒乓球”,句子冗余所对应的样本文本数据可以为“我喜欢打乒乓乓球”。又比如,原始文本数据可以为“考古学家对新出土的两千多年前的文物进行了多方面的研究,对墓主所处时代有了进一步的了解”,语序不当所对应的样本文本数据可以为“考古学家对两千多年前新出土的文物进行了多方面的研究,对墓主所处时代有了进一步的了解”。又比如,原始文本数据可以为“向学校提意见是教师的责任”,结构混乱所对应的样本文本数据可以为“我们向学校提意见是教师的责任”。
步骤S202,在初始文本修正模型中,对样本文本数据中的单位文本进行特征提取,得到样本文本数据中的单位文本对应的N个样本文本特征向量;
其中,这里的N可以为大于1的正整数,N个样本文本特征向量用于表征不同维度的特征(即多维度语言特征);样本文本数据中的单位文本是对样本文本数据进行文本拆分所得到,原始文本数据中的单位文本是对原始文本数据进行文本拆分所得到。
其中,计算机设备对样本文本数据进行文本拆分和对原始文本数据进行文本拆分的具体过程,可以参见上述对目标文本数据进行文本拆分的描述,这里将不再进行赘述。
其中,计算机设备通过初始特征提取网络对样本文本数据中的单位文本进行特征提取的具体过程,可以参见上述图3所对应实施例中通过特征提取网络对目标本文本数据中的单位文本进行特征提取的描述,这里将不再进行赘述。
步骤S203,对N个样本文本特征向量进行特征拼接,得到样本文本数据中的单位文本对应的样本拼接特征向量,对样本拼接特征向量进行自注意力融合,得到用于强化表示样本拼接特征向量的自注意力样本输出向量;
其中,计算机设备通过初始特征融合网络对N个样本文本特征向量进行特征拼接和对样本拼接特征向量进行自注意力融合的具体过程,可以参见上述图9所对应实施例中通过特征融合网络对N个文本特征向量进行特征拼接和对拼接特征向量进行自注意力融合的描述,这里将不再进行赘述。
步骤S204,对样本文本数据对应的样本句法结构矩阵和样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到样本文本数据中的单位文本对应的样本融合特征向量;
其中,样本输出特征向量是由自注意力样本输出向量和样本拼接特征向量所确定,计算机设备可以对自注意力样本输出向量和样本拼接特征向量进行向量融合,得到样本文本数据中的单位文本对应的样本输出特征向量,例如,计算机设备可以对自注意力样本输出向量和样本拼接特征向量进行加法运算,得到样本文本数据中的单位文本对应的样本输出特征向量;样本句法结构矩阵用于描述样本文本数据中的单位文本之间的依赖程度。
其中,计算机设备通过初始层级融合网络对样本文本数据对应的样本句法结构矩阵和样本文本数据中的单位文本对应的样本输出特征向量进行层级融合的具体过程,可以参见上述图10所对应实施例中通过层级融合网络对目标文本数据对应的句法结构矩阵和目标文本数据中的单位文本对应的输出特征向量进行层级融合的描述,这里将不再进行赘述。
步骤S205,根据样本融合特征向量、样本文本数据和原始文本数据,对初始文本修正模型进行参数调整,得到文本修正模型。
具体的,计算机设备可以对样本文本数据中的单位文本和原始文本数据中的单位文本进行文本匹配,得到原始文本数据中的单位文本针对样本文本数据中的单位文本的文本修正标签。进一步地,计算机设备可以对样本融合特征向量进行全连接处理,得到样本文本数据中的单位文本对应的样本分类修正向量。其中,计算机设备可以在初始语法修正网络中,通过多层感知机对样本融合特征向量进行全连接处理,得到样本文本数据中的单位文本对应的样本分类修正向量。进一步地,计算机设备可以对样本分类修正向量进行归一化处理,得到样本分类修正向量对应的样本归一化修正向量。其中,计算机设备可以在初始语法修正网络中,通过归一化指数函数对样本分类修正向量进行归一化处理,得到样本分类修正向量对应的样本归一化修正向量。进一步地,计算机设备可以基于文本修正标签和样本归一化修正向量,确定初始文本修正模型的模型损失值,根据模型损失值对初始文本修正模型进行参数调整,将参数调整后的初始文本修正模型作为文本修正模型。
其中,文本修正模型用于对目标文本数据进行文本修正,计算机设备通过文本修正模型对目标文本数据进行文本修正的具体过程可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,这里将不再进行赘述。
其中,文本匹配表示根据W类文本编辑操作,对比样本文本数据中的单位文本和原始文本数据中的单位文本。其中,这里的W可以为大于1的正整数,例如,W可以等于4,4类文本编辑操作可以包括add(增加)、keep(保持)、delete(删除)和replace(替换)。比如,原始文本数据可以为“我喜欢打乒乓球”,样本文本数据可以为“我喜欢打乒球”,原始文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”、“乒”、“乓”和“球”,样本文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”、“乒”和“球”,文本修正标签可以为keep(我==我)、keep(喜==喜)、keep(欢==欢)、keep(打==打)、keep(乒==乒)、add(乓)和keep(球==球)。其中,在文本修正标签包括连续的keep和add时(keep在前,add在后),计算机设备可以使用文本修正标签add,而不使用文本修正标签keep,因此,文本修正标签可以为keep(我==我)、keep(喜==喜)、keep(欢==欢)、keep(打==打)、add(乓)和keep(球==球)。又比如,原始文本数据可以为“我喜欢打球”,样本文本数据可以为“我喜欢打乒球”,原始文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”和“球”,样本文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”、“乒”和“球”,文本修正标签可以为keep(我==我)、keep(喜==喜)、keep(欢==欢)、keep(打==打)、delete(乒)和keep(球==球)。又比如,原始文本数据可以为“我喜欢玩乒球”,样本文本数据可以为“我喜欢打乒球”,原始文本数据中的单位文本可以包括“我”、“喜”、“欢”、“玩”、“乒”和“球”,样本文本数据中的单位文本可以包括“我”、“喜”、“欢”、“打”、“乒”和“球”,文本修正标签可以为keep(我==我)、keep(喜==喜)、keep(欢==欢)、replace(玩)、keep(乒==乒)和keep(球==球)。因此,文本修正标签的数量和样本文本数据中的单位文本的数量可以相同、也可以不同,在文本修正标签的数量和样本文本数据中的单位文本的数量不同时,文本修正标签的数量比样本文本数据中的单位文本的数量多一个。
其中,文本修正标签借鉴了统计机器翻译(Statistical Machine Translation,SMT)中的思想,统计机器翻译可以构建大规模语料库训练模型,获取样本文本数据和原始文本数据的对应关系,以此实现文本修正。具体的,本申请实施例采用了统计机器翻译中的序列到编辑(Sequence-to-Edit,Seq2Edit)的设计方案,序列到编辑表示将从错误文本到正确文本的演变看成文本编辑的过程,文本编辑的过程通过文本编辑操作表示。
为便于理解,请参见图14,图14是本申请实施例提供的一种数据预处理的流程示意图。如图14所示,流程开始,计算机设备可以获取原始文本数据(即正确样本),根据正确样本构建错误样本(即样本文本数据),即对原始文本数据进行文本变换,得到样本文本数据。其中,原始文本数据也可以称之为正确文本,样本文本数据也可以称之为错误文本。
如图14所示,计算机设备可以对正确文本和错误文本分别进行文本拆分,得到正确文本中的单位文本(即原始文本数据中的单位文本)和错误文本中的单位文本(即样本文本数据中的单位文本),进而对样本文本数据中的单位文本和原始文本数据中的单位文本进行文本匹配(即对比),得到文本修正标签(即标签)。
应当理解,计算机设备根据模型损失值对初始文本修正模型进行参数调整的具体过程可以描述为:当初始文本修正模型的模型损失值不满足模型收敛条件时,计算机设备可以基于不满足模型收敛条件的模型损失值,对初始文本修正模型的模型参数进行调整。进一步地,计算机设备可以将调整模型参数后的初始文本修正模型确定为过渡文本修正模型,对过渡文本修正模型进行迭代训练,直到迭代训练后的过渡文本修正模型的模型损失值满足模型收敛条件时,将满足模型收敛条件的过渡文本修正模型作为文本修正模型。
可以理解的是,计算机设备可以基于文本修正标签和样本归一化修正向量,确定样本文本数据中的单位文本的单位文本损失值,进而根据样本文本数据中的单位文本的单位文本损失值,确定初始文本修正模型的模型损失值。比如,计算机设备可以对样本文本数据中的单位文本的单位文本损失值进行求和处理,得到初始文本修正模型的模型损失值。
可以理解的是,计算机设备可以获取文本修正标签对应的分类标签向量,根据样本文本数据中的单位文本对应的样本归一化修正向量、分类标签向量和损失函数,确定样本文本数据中的单位文本的单位文本损失值。应当理解,模型训练过程中的损失函数可以用来表示预测值(即样本归一化修正向量)与实际值(即分类标签向量)的差距程度,损失函数所对应的损失值(例如,单位文本损失值)越小,模型就越好。因此,训练一个机器学习模型的目标就是找到损失函数达到极小值的点,本申请实施例不对损失函数的具体类型进行限定,例如,损失函数可以为多分类交叉熵损失函数。
其中,分类标签向量是由指示变量所构成的向量,分类标签向量的向量维度等于文本编辑操作的数量(即F),在文本修正标签(例如,keep)与文本编辑操作相同时,指示变量可以为1;在文本修正标签(例如,keep)与文本编辑操作不同时,指示变量可以为0。此外,分类标签向量还可以称之为独热(one-hot)向量,比如,文本编辑操作可以为(keep,delete,add(1),add(天),…,replace(1),replace(天)),若文本修正标签为keep,则分类标签向量可以表示为(1,0,0,0,…,0,0),或者,若文本修正标签为delete,则分类标签向量可以表示为(0,1,0,0,…,0,0)。
其中,样本归一化修正向量是由预测值所构成的向量,样本归一化修正向量的向量维度等于文本编辑操作的数量(即F),样本归一化修正向量中的预测值表示样本文本数据中的单位文本执行文本编辑操作的概率,一个样本归一化修正向量对应样本文本数据中的一个单位文本。比如,文本编辑操作可以为(keep,delete,add(1),add(天),…,replace(1),replace(天)),单位文本对应的样本归一化修正向量可以为(0.7,0.2,0,0,…,0,0.1),这表示样本文本数据中的单位文本执行keep操作的概率为0.7,执行delete操作的概率为0.2,执行replace(天)操作的概率为0.1,执行除keep操作、delete操作和replace(天)操作之外的其他操作的概率为0。
因此,本申请实施例可以结合多种文本特征(例如,字形特征、拼音特征、词性特征、字符特征、句法结构特征)共同训练初始文本修正模型,以提高文本修正模型对深层语义和表层结构的理解能力,进而提高文本修正模型进行文本修正的能力,且提高病句的召回能力和模型的泛化能力。
本申请实施例的模型训练流程可以包括四个部分:训练样本生成、数据预处理、网络结构设计和深度学习优化训练。训练样本生成表示深入挖掘句式构造法则和语法规范,精心策划一系列模拟真实世界中各类错误的生成策略,确保所构建的病句样本集(包括样本文本数据和原始文本数据)能够全面覆盖各种典型和边缘情况下的病句形式。数据预处理可以将原始文本(即样本文本数据和原始文本数据)转化为输入token序列(即样本文本数据中的单位文本和原始文本数据中的单位文本),并对应生成反映正确修正操作的监督token序列(即文本修正标签)。网络结构设计可以将多种文本特征(即N个样本文本特征向量)结合形成丰富的语义表示,进而实现病句从检测到修复过程中的高准确度和高效能表现,这意味着文本修正模型经过不断优化迭代,能够适应并精确处理多种类型的病句。深度学习优化训练可以利用精心制作的多样化病句样本集和预先设定好的网络结构,启动深度学习训练流程,使文本修正模型在实战中不断提升其识别病句、并给出合理修正建议的能力。
由此可见,本申请实施例可以获取待进行文本修正的文本数据(例如,样本文本数据)中的单位文本,提取用于表征样本文本数据中的单位文本的不同维度的特征的N个样本文本特征向量和样本文本数据对应的样本句法结构矩阵,进而根据样本文本数据中的单位文本对应的N个文本特征向量和样本句法结构矩阵,生成样本文本数据中的单位文本对应的样本融合特征向量。其中,样本融合特征向量、样本文本数据和原始文本数据用于对初始文本修正模型进行参数调整,得到用于对目标文本数据进行文本修正的文本修正模型。因此,本申请实施例可以通过深度学习技术对目标文本数据进行文本修正,而不是将目标文本数据与语法规则进行语法匹配,这样,在语法规则无法包含所有可能的病句信息(例如,目标文本数据中的语法错误)时,基于规则的文本修正方法无法对目标文本数据进行文本修正,而本申请实施例仍然可以通过深度学习技术的强大模式识别能力,对目标文本数据进行文本修正,以提高文本修正的准确性。
进一步地,请参见图15,图15是本申请实施例提供的一种文本数据处理装置的结构示意图一,该文本数据处理装置1可以包括:第一特征提取模块11,第一特征拼接模块12,第一层级融合模块13,文本修正模块14;
第一特征提取模块11,用于对目标文本数据中的单位文本进行特征提取,得到单位文本对应的N个文本特征向量;N为大于1的正整数;N个文本特征向量用于表征不同维度的特征;单位文本是对目标文本数据进行文本拆分所得到;
其中,N个文本特征向量包括拼音特征向量;
第一特征提取模块11,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块11,具体用于在特征提取网络中,获取目标文本数据中的单位文本的H个拼音字符;H为正整数;H个拼音字符用于表示单位文本的读音;
第一特征提取模块11,具体用于获取H个拼音字符分别对应的拼音字符向量,对H个拼音字符向量分别进行卷积操作,得到H个拼音字符向量分别对应的字符卷积向量;
第一特征提取模块11,具体用于对H个字符卷积向量进行池化操作,得到单位文本对应的拼音特征向量。
其中,N个文本特征向量包括字形特征向量;
第一特征提取模块11,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块11,具体用于在特征提取网络中,获取目标文本数据中的单位文本的S个字体图像;S为正整数;S个字体图像用于表征具有不同字体的单位文本;
第一特征提取模块11,具体用于对S个字体图像分别进行神经网络处理,得到S个字体图像分别对应的字体向量;
第一特征提取模块11,具体用于对S个字体向量进行池化操作,得到单位文本对应的字形特征向量。
其中,N个文本特征向量包括词性特征向量;
第一特征提取模块11,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块11,具体用于在特征提取网络中,对目标文本数据进行分词处理,得到目标文本数据中的K个分词文本;K为正整数;K个分词文本用于组成目标文本数据,K个分词文本为目标文本数据中的不同词性的分词文本;
第一特征提取模块11,具体用于从K个分词文本分别对应的词性向量中获取目标分词文本对应的词性向量,将目标分词文本对应的词性向量,确定为目标文本数据中的单位文本对应的词性特征向量;目标分词文本为K个分词文本中单位文本所属的分词文本。
其中,N个文本特征向量包括字符特征向量;
第一特征提取模块11,具体用于将目标文本数据输入至文本修正模型中的特征提取网络;
第一特征提取模块11,具体用于在特征提取网络中,对目标文本数据中的单位文本进行文本嵌入,得到单位文本对应的分词向量;
第一特征提取模块11,具体用于在目标文本数据中确定单位文本的文本位置,对单位文本的文本位置进行位置嵌入,得到单位文本对应的位置向量;
第一特征提取模块11,具体用于获取单位文本对应的分割向量,对单位文本对应的分词向量、单位文本对应的位置向量和单位文本对应的分割向量进行向量融合,得到单位文本对应的字符特征向量。
第一特征拼接模块12,用于对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量,对拼接特征向量进行自注意力融合,得到用于强化表示拼接特征向量的自注意力输出向量;
其中,第一特征拼接模块12,具体用于将N个文本特征向量输入至文本修正模型中的特征融合网络;
第一特征拼接模块12,具体用于在特征融合网络中,对N个文本特征向量进行特征拼接,得到单位文本对应的拼接特征向量;
第一特征拼接模块12,具体用于对拼接特征向量进行线性变化,得到拼接特征向量对应的R个自注意力输入向量;R为正整数;
第一特征拼接模块12,具体用于对R个自注意力输入向量进行自注意力处理,得到用于强化表示拼接特征向量的自注意力输出向量。
其中,R个自注意力输入向量包括键向量、值向量和查询向量;
第一特征拼接模块12,具体用于获取键向量对应的转置向量,对查询向量和转置向量进行乘法运算,得到相似度矩阵;相似度矩阵用于表示N个文本特征向量之间的关联程度;
第一特征拼接模块12,具体用于对相似度矩阵进行归一化处理,得到相似度矩阵对应的归一化矩阵,对归一化矩阵和值向量进行乘法运算,得到用于融合表示N个文本特征向量的注意力融合向量;
第一特征拼接模块12,具体用于对注意力融合向量进行全连接处理,得到用于强化表示拼接特征向量的自注意力输出向量。
第一层级融合模块13,用于对目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量进行层级融合,得到单位文本对应的融合特征向量;输出特征向量是由自注意力输出向量和拼接特征向量所确定;句法结构矩阵用于描述单位文本之间的依赖程度;
其中,第一层级融合模块13,具体用于将目标文本数据对应的句法结构矩阵和单位文本对应的输出特征向量输入至文本修正模型中的层级融合网络;层级融合网络包括编码子网络、L个层级融合子网络和运算子网络;L为正整数;
第一层级融合模块13,具体用于在编码子网络中,对单位文本对应的输出特征向量进行编码处理,得到单位文本对应的编码特征向量;
第一层级融合模块13,具体用于在L个层级融合子网络中,基于目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量,生成L个层级融合子网络分别对应的层级特征向量,将L个层级融合子网络中的目标层级融合子网络对应的层级特征向量,确定为单位文本对应的层级融合向量;目标层级融合子网络为L个层级融合子网络中的最后一个层级融合子网络;
第一层级融合模块13,具体用于在运算子网络中,对单位文本对应的层级融合向量和单位文本对应的编码特征向量进行加权融合,得到单位文本对应的融合特征向量。
其中,L个层级融合子网络包括层级融合子网络Pv,v为小于或等于L的正整数;
第一层级融合模块13,具体用于若层级融合子网络Pv为L个层级融合子网络中的第一个层级融合子网络,则通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和单位文本对应的编码特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量;
第一层级融合模块13,具体用于若层级融合子网络Pv不为L个层级融合子网络中的第一个层级融合子网络,则通过层级融合子网络Pv对目标文本数据对应的句法结构矩阵和层级融合子网络Pv-1对应的层级特征向量进行语法结构建模,得到层级融合子网络Pv对应的层级特征向量;层级融合子网络Pv-1为层级融合子网络Pv的上一个层级融合子网络。
其中,单位文本的数量为Q个,Q个单位文本包括目标单位文本;Q为大于1的正整数;目标文本数据对应的句法结构矩阵包括目标单位文本分别针对Q个单位文本的依赖参数;单位文本对应的编码特征向量包括目标单位文本对应的编码特征向量;
第一层级融合模块13,具体用于从层级融合子网络Pv中获取目标单位文本分别针对Q个单位文本的依赖向量;
第一层级融合模块13,具体用于在层级融合子网络Pv中,对目标单位文本对应的编码特征向量和Q个依赖向量分别进行特征拼接,得到Q个单位文本分别对应的拼接依赖向量;
第一层级融合模块13,具体用于根据Q个依赖参数对Q个拼接依赖向量进行线性求和运算,生成目标单位文本对应的文本关联向量;
第一层级融合模块13,具体用于对目标单位文本对应的文本关联向量进行激活处理,得到目标单位文本对应的层级子特征向量;目标单位文本对应的层级子特征向量属于层级融合子网络Pv对应的层级特征向量。
文本修正模块14,用于根据融合特征向量对单位文本进行文本修正,得到修正后的单位文本。
其中,文本修正模块14,具体用于将融合特征向量输入至文本修正模型中的语法修正网络;
文本修正模块14,具体用于在语法修正网络中,对融合特征向量进行全连接处理,得到单位文本对应的分类修正向量;
文本修正模块14,具体用于对分类修正向量进行归一化处理,得到分类修正向量对应的归一化修正向量;
文本修正模块14,具体用于根据归一化修正向量对单位文本进行文本修正,得到修正后的单位文本。
其中,归一化修正向量包括F个文本编辑操作分别对应的修正概率;F为大于1的正整数;F个修正概率之和等于归一化阈值;
文本修正模块14,具体用于从归一化修正向量的F个修正概率中获取最大修正概率;
文本修正模块14,具体用于若最大修正概率大于概率阈值,则根据最大修正概率对应的文本编辑操作,对单位文本进行文本修正,得到修正后的单位文本;
文本修正模块14,具体用于若最大修正概率小于或等于概率阈值,则将单位文本确定为修正后的单位文本。
其中,文本修正模块14,还用于获取修正后的目标文本数据;修正后的目标文本数据是由修正后的单位文本所确定;
文本修正模块14,还用于若目标文本数据和修正后的目标文本数据相同,则将修正后的目标文本数据确定为目标文本数据的文本修正结果;
文本修正模块14,还用于若目标文本数据和修正后的目标文本数据不相同,则继续对修正后的目标文本数据进行文本修正。
其中,第一特征提取模块11,第一特征拼接模块12,第一层级融合模块13,文本修正模块14的具体实现方式,可以参见上述图3所对应实施例中对步骤S101-步骤S104、图9所对应实施例中对步骤S1021-步骤S1024和图10所对应实施例中对步骤S1031-步骤S1034的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图16,图16是本申请实施例提供的一种文本数据处理装置的结构示意图二,该文本数据处理装置2可以包括:数据获取模块21,第二特征提取模块22,第二特征拼接模块23,第二层级融合模块24,参数调整模块25;
数据获取模块21,用于获取初始文本修正模型、样本文本数据和样本文本数据对应的原始文本数据;样本文本数据是对原始文本数据进行文本变换所得到;
第二特征提取模块22,用于在初始文本修正模型中,对样本文本数据中的单位文本进行特征提取,得到样本文本数据中的单位文本对应的N个样本文本特征向量;N为大于1的正整数;N个样本文本特征向量用于表征不同维度的特征;样本文本数据中的单位文本是对样本文本数据进行文本拆分所得到;
第二特征拼接模块23,用于对N个样本文本特征向量进行特征拼接,得到样本文本数据中的单位文本对应的样本拼接特征向量,对样本拼接特征向量进行自注意力融合,得到用于强化表示样本拼接特征向量的自注意力样本输出向量;
第二层级融合模块24,用于对样本文本数据对应的样本句法结构矩阵和样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到样本文本数据中的单位文本对应的样本融合特征向量;样本输出特征向量是由自注意力样本输出向量和样本拼接特征向量所确定;样本句法结构矩阵用于描述样本文本数据中的单位文本之间的依赖程度;
参数调整模块25,用于根据样本融合特征向量、样本文本数据和原始文本数据,对初始文本修正模型进行参数调整,得到文本修正模型;文本修正模型用于对目标文本数据进行文本修正。
其中,参数调整模块25,具体用于对样本文本数据中的单位文本和原始文本数据中的单位文本进行文本匹配,得到原始文本数据中的单位文本针对样本文本数据中的单位文本的文本修正标签;原始文本数据中的单位文本是对原始文本数据进行文本拆分所得到;
参数调整模块25,具体用于对样本融合特征向量进行全连接处理,得到样本文本数据中的单位文本对应的样本分类修正向量;
参数调整模块25,具体用于对样本分类修正向量进行归一化处理,得到样本分类修正向量对应的样本归一化修正向量;
参数调整模块25,具体用于基于文本修正标签和样本归一化修正向量,确定初始文本修正模型的模型损失值,根据模型损失值对初始文本修正模型进行参数调整,将参数调整后的初始文本修正模型作为文本修正模型。
其中,数据获取模块21,第二特征提取模块22,第二特征拼接模块23,第二层级融合模块24,参数调整模块25的具体实现方式,可以参见上述图13所对应实施例中对步骤S201-步骤S205的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
进一步地,请参见图17,图17是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备可以是终端设备或服务器。如图17所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,在一些实施例中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图17所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图17所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现本申请各实施例方法中的步骤。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图9、图10和图13所对应实施例中对文本数据处理方法的描述,也可执行前文图15所对应实施例中对文本数据处理装置1和图16所对应实施例中对文本数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的文本数据处理装置1和文本数据处理装置2所执行的计算机程序,当处理器执行计算机程序时,可以执行前文图3、图9、图10和图13所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品,该计算机程序产品可以包括计算机程序,该计算机程序可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器可以执行该计算机程序,使得该计算机设备执行前文图3、图9、图10和图13所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (19)

1.一种文本数据处理方法,其特征在于,包括:
对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量;所述N为大于1的正整数;N个所述文本特征向量用于表征不同维度的特征;所述单位文本是对所述目标文本数据进行文本拆分所得到;
对N个所述文本特征向量进行特征拼接,得到所述单位文本对应的拼接特征向量,对所述拼接特征向量进行自注意力融合,得到用于强化表示所述拼接特征向量的自注意力输出向量;
对所述目标文本数据对应的句法结构矩阵和所述单位文本对应的输出特征向量进行层级融合,得到所述单位文本对应的融合特征向量;所述输出特征向量是由所述自注意力输出向量和所述拼接特征向量所确定;所述句法结构矩阵用于描述所述单位文本之间的依赖程度;
对所述融合特征向量进行全连接处理,得到所述单位文本对应的分类修正向量;
对所述分类修正向量进行归一化处理,得到所述分类修正向量对应的归一化修正向量;
根据所述归一化修正向量对所述单位文本进行文本修正,得到修正后的单位文本。
2.根据权利要求1所述的方法,其特征在于,N个所述文本特征向量包括拼音特征向量;
所述对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量,包括:
将目标文本数据输入至文本修正模型中的特征提取网络;
在所述特征提取网络中,获取所述目标文本数据中的单位文本的H个拼音字符;所述H为正整数;H个所述拼音字符用于表示所述单位文本的读音;
获取H个所述拼音字符分别对应的拼音字符向量,对H个所述拼音字符向量分别进行卷积操作,得到H个所述拼音字符向量分别对应的字符卷积向量;
对H个所述字符卷积向量进行池化操作,得到所述单位文本对应的所述拼音特征向量。
3.根据权利要求1所述的方法,其特征在于,N个所述文本特征向量包括字形特征向量;
所述对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量,包括:
将目标文本数据输入至文本修正模型中的特征提取网络;
在所述特征提取网络中,获取所述目标文本数据中的单位文本的S个字体图像;所述S为正整数;S个所述字体图像用于表征具有不同字体的单位文本;
对S个所述字体图像分别进行神经网络处理,得到S个所述字体图像分别对应的字体向量;
对S个所述字体向量进行池化操作,得到所述单位文本对应的所述字形特征向量。
4.根据权利要求1所述的方法,其特征在于,N个所述文本特征向量包括词性特征向量;
所述对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量,包括:
将目标文本数据输入至文本修正模型中的特征提取网络;
在所述特征提取网络中,对所述目标文本数据进行分词处理,得到所述目标文本数据中的K个分词文本;所述K为正整数;K个所述分词文本用于组成所述目标文本数据,K个所述分词文本为所述目标文本数据中的不同词性的分词文本;
从K个所述分词文本分别对应的词性向量中获取目标分词文本对应的词性向量,将所述目标分词文本对应的词性向量,确定为所述目标文本数据中的单位文本对应的所述词性特征向量;所述目标分词文本为K个所述分词文本中所述单位文本所属的分词文本。
5.根据权利要求1所述的方法,其特征在于,N个所述文本特征向量包括字符特征向量;
所述对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量,包括:
将目标文本数据输入至文本修正模型中的特征提取网络;
在所述特征提取网络中,对所述目标文本数据中的单位文本进行文本嵌入,得到所述单位文本对应的分词向量;
在所述目标文本数据中确定所述单位文本的文本位置,对所述单位文本的文本位置进行位置嵌入,得到所述单位文本对应的位置向量;
获取所述单位文本对应的分割向量,对所述单位文本对应的分词向量、所述单位文本对应的位置向量和所述单位文本对应的分割向量进行向量融合,得到所述单位文本对应的所述字符特征向量。
6.根据权利要求1所述的方法,其特征在于,所述对N个所述文本特征向量进行特征拼接,得到所述单位文本对应的拼接特征向量,对所述拼接特征向量进行自注意力融合,得到用于强化表示所述拼接特征向量的自注意力输出向量,包括:
将N个所述文本特征向量输入至文本修正模型中的特征融合网络;
在所述特征融合网络中,对N个所述文本特征向量进行特征拼接,得到所述单位文本对应的拼接特征向量;
对所述拼接特征向量进行线性变化,得到所述拼接特征向量对应的R个自注意力输入向量;所述R为正整数;
对R个所述自注意力输入向量进行自注意力处理,得到用于强化表示所述拼接特征向量的自注意力输出向量。
7.根据权利要求6所述的方法,其特征在于,R个所述自注意力输入向量包括键向量、值向量和查询向量;
所述对R个所述自注意力输入向量进行自注意力处理,得到用于强化表示所述拼接特征向量的自注意力输出向量,包括:
获取所述键向量对应的转置向量,对所述查询向量和所述转置向量进行乘法运算,得到相似度矩阵;所述相似度矩阵用于表示N个所述文本特征向量之间的关联程度;
对所述相似度矩阵进行归一化处理,得到所述相似度矩阵对应的归一化矩阵,对所述归一化矩阵和所述值向量进行乘法运算,得到用于融合表示N个所述文本特征向量的注意力融合向量;
对所述注意力融合向量进行全连接处理,得到用于强化表示所述拼接特征向量的自注意力输出向量。
8.根据权利要求1所述的方法,其特征在于,所述对所述目标文本数据对应的句法结构矩阵和所述单位文本对应的输出特征向量进行层级融合,得到所述单位文本对应的融合特征向量,包括:
将所述目标文本数据对应的句法结构矩阵和所述单位文本对应的输出特征向量输入至文本修正模型中的层级融合网络;所述层级融合网络包括编码子网络、L个层级融合子网络和运算子网络;所述L为正整数;
在所述编码子网络中,对所述单位文本对应的输出特征向量进行编码处理,得到所述单位文本对应的编码特征向量;
在L个所述层级融合子网络中,基于所述目标文本数据对应的句法结构矩阵和所述单位文本对应的编码特征向量,生成L个所述层级融合子网络分别对应的层级特征向量,将L个所述层级融合子网络中的目标层级融合子网络对应的层级特征向量,确定为所述单位文本对应的层级融合向量;所述目标层级融合子网络为L个所述层级融合子网络中的最后一个层级融合子网络;
在所述运算子网络中,对所述单位文本对应的层级融合向量和所述单位文本对应的编码特征向量进行加权融合,得到所述单位文本对应的融合特征向量。
9.根据权利要求8所述的方法,其特征在于,L个所述层级融合子网络包括层级融合子网络Pv,所述v为小于或等于所述L的正整数;
所述在L个所述层级融合子网络中,基于所述目标文本数据对应的句法结构矩阵和所述单位文本对应的编码特征向量,生成L个所述层级融合子网络分别对应的层级特征向量,包括:
若所述层级融合子网络Pv为L个所述层级融合子网络中的第一个层级融合子网络,则通过所述层级融合子网络Pv对所述目标文本数据对应的句法结构矩阵和所述单位文本对应的编码特征向量进行语法结构建模,得到所述层级融合子网络Pv对应的层级特征向量;
若所述层级融合子网络Pv不为L个所述层级融合子网络中的第一个层级融合子网络,则通过所述层级融合子网络Pv对所述目标文本数据对应的句法结构矩阵和层级融合子网络Pv-1对应的层级特征向量进行语法结构建模,得到所述层级融合子网络Pv对应的层级特征向量;所述层级融合子网络Pv-1为所述层级融合子网络Pv的上一个层级融合子网络。
10.根据权利要求9所述的方法,其特征在于,所述单位文本的数量为Q个,Q个所述单位文本包括目标单位文本;所述Q为大于1的正整数;所述目标文本数据对应的句法结构矩阵包括所述目标单位文本分别针对Q个所述单位文本的依赖参数;所述单位文本对应的编码特征向量包括所述目标单位文本对应的编码特征向量;
所述通过所述层级融合子网络Pv对所述目标文本数据对应的句法结构矩阵和所述单位文本对应的编码特征向量进行语法结构建模,得到所述层级融合子网络Pv对应的层级特征向量,包括:
从所述层级融合子网络Pv中获取所述目标单位文本分别针对Q个所述单位文本的依赖向量;
在所述层级融合子网络Pv中,对所述目标单位文本对应的编码特征向量和Q个所述依赖向量分别进行特征拼接,得到Q个所述单位文本分别对应的拼接依赖向量;
根据Q个所述依赖参数对Q个所述拼接依赖向量进行线性求和运算,生成所述目标单位文本对应的文本关联向量;
对所述目标单位文本对应的文本关联向量进行激活处理,得到所述目标单位文本对应的层级子特征向量;所述目标单位文本对应的层级子特征向量属于所述层级融合子网络Pv对应的层级特征向量。
11.根据权利要求1所述的方法,其特征在于,所述归一化修正向量包括F个文本编辑操作分别对应的修正概率;所述F为大于1的正整数;F个所述修正概率之和等于归一化阈值;
所述根据所述归一化修正向量对所述单位文本进行文本修正,得到修正后的单位文本,包括:
从所述归一化修正向量的F个所述修正概率中获取最大修正概率;
若所述最大修正概率大于概率阈值,则根据所述最大修正概率对应的文本编辑操作,对所述单位文本进行文本修正,得到修正后的单位文本;
若所述最大修正概率小于或等于概率阈值,则将所述单位文本确定为修正后的单位文本。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取修正后的目标文本数据;所述修正后的目标文本数据是由所述修正后的单位文本所确定;
若所述目标文本数据和所述修正后的目标文本数据相同,则将所述修正后的目标文本数据确定为所述目标文本数据的文本修正结果;
若所述目标文本数据和所述修正后的目标文本数据不相同,则继续对所述修正后的目标文本数据进行文本修正。
13.一种文本数据处理方法,其特征在于,包括:
获取初始文本修正模型、样本文本数据和所述样本文本数据对应的原始文本数据;所述样本文本数据是对所述原始文本数据进行文本变换所得到;
在所述初始文本修正模型中,对所述样本文本数据中的单位文本进行特征提取,得到所述样本文本数据中的单位文本对应的N个样本文本特征向量;所述N为大于1的正整数;N个所述样本文本特征向量用于表征不同维度的特征;所述样本文本数据中的单位文本是对所述样本文本数据进行文本拆分所得到;
对N个所述样本文本特征向量进行特征拼接,得到所述样本文本数据中的单位文本对应的样本拼接特征向量,对所述样本拼接特征向量进行自注意力融合,得到用于强化表示所述样本拼接特征向量的自注意力样本输出向量;
对所述样本文本数据对应的样本句法结构矩阵和所述样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到所述样本文本数据中的单位文本对应的样本融合特征向量;所述样本输出特征向量是由所述自注意力样本输出向量和所述样本拼接特征向量所确定;所述样本句法结构矩阵用于描述所述样本文本数据中的单位文本之间的依赖程度;
对所述样本融合特征向量进行全连接处理,得到所述样本文本数据中的单位文本对应的样本分类修正向量;
对所述样本分类修正向量进行归一化处理,得到所述样本分类修正向量对应的样本归一化修正向量;
根据所述样本归一化修正向量、所述样本文本数据和所述原始文本数据,对所述初始文本修正模型进行参数调整,得到文本修正模型;所述文本修正模型用于对目标文本数据进行文本修正。
14.根据权利要求13所述的方法,其特征在于,所述根据所述样本归一化修正向量、所述样本文本数据和所述原始文本数据,对所述初始文本修正模型进行参数调整,得到文本修正模型,包括:
对所述样本文本数据中的单位文本和所述原始文本数据中的单位文本进行文本匹配,得到所述原始文本数据中的单位文本针对所述样本文本数据中的单位文本的文本修正标签;所述原始文本数据中的单位文本是对所述原始文本数据进行文本拆分所得到;
基于所述文本修正标签和所述样本归一化修正向量,确定所述初始文本修正模型的模型损失值,根据所述模型损失值对所述初始文本修正模型进行参数调整,将参数调整后的初始文本修正模型作为文本修正模型。
15.一种文本数据处理装置,其特征在于,包括:
第一特征提取模块,用于对目标文本数据中的单位文本进行特征提取,得到所述单位文本对应的N个文本特征向量;所述N为大于1的正整数;N个所述文本特征向量用于表征不同维度的特征;所述单位文本是对所述目标文本数据进行文本拆分所得到;
第一特征拼接模块,用于对N个所述文本特征向量进行特征拼接,得到所述单位文本对应的拼接特征向量,对所述拼接特征向量进行自注意力融合,得到用于强化表示所述拼接特征向量的自注意力输出向量;
第一层级融合模块,用于对所述目标文本数据对应的句法结构矩阵和所述单位文本对应的输出特征向量进行层级融合,得到所述单位文本对应的融合特征向量;所述输出特征向量是由所述自注意力输出向量和所述拼接特征向量所确定;所述句法结构矩阵用于描述所述单位文本之间的依赖程度;
文本修正模块,用于对所述融合特征向量进行全连接处理,得到所述单位文本对应的分类修正向量;
文本修正模块,用于对所述分类修正向量进行归一化处理,得到所述分类修正向量对应的归一化修正向量;
文本修正模块,用于根据所述归一化修正向量对所述单位文本进行文本修正,得到修正后的单位文本。
16.一种文本数据处理装置,其特征在于,包括:
数据获取模块,用于获取初始文本修正模型、样本文本数据和所述样本文本数据对应的原始文本数据;所述样本文本数据是对所述原始文本数据进行文本变换所得到;
第二特征提取模块,用于在所述初始文本修正模型中,对所述样本文本数据中的单位文本进行特征提取,得到所述样本文本数据中的单位文本对应的N个样本文本特征向量;所述N为大于1的正整数;N个所述样本文本特征向量用于表征不同维度的特征;所述样本文本数据中的单位文本是对所述样本文本数据进行文本拆分所得到;
第二特征拼接模块,用于对N个所述样本文本特征向量进行特征拼接,得到所述样本文本数据中的单位文本对应的样本拼接特征向量,对所述样本拼接特征向量进行自注意力融合,得到用于强化表示所述样本拼接特征向量的自注意力样本输出向量;
第二层级融合模块,用于对所述样本文本数据对应的样本句法结构矩阵和所述样本文本数据中的单位文本对应的样本输出特征向量进行层级融合,得到所述样本文本数据中的单位文本对应的样本融合特征向量;所述样本输出特征向量是由所述自注意力样本输出向量和所述样本拼接特征向量所确定;所述样本句法结构矩阵用于描述所述样本文本数据中的单位文本之间的依赖程度;
参数调整模块,用于对所述样本融合特征向量进行全连接处理,得到所述样本文本数据中的单位文本对应的样本分类修正向量;
参数调整模块,用于对所述样本分类修正向量进行归一化处理,得到所述样本分类修正向量对应的样本归一化修正向量;
参数调整模块,用于根据所述样本归一化修正向量、所述样本文本数据和所述原始文本数据,对所述初始文本修正模型进行参数调整,得到文本修正模型;所述文本修正模型用于对目标文本数据进行文本修正。
17.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与所述存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-14任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。
CN202410525030.8A 2024-04-29 2024-04-29 一种文本数据处理方法、装置、设备以及可读存储介质 Active CN118095261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410525030.8A CN118095261B (zh) 2024-04-29 2024-04-29 一种文本数据处理方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410525030.8A CN118095261B (zh) 2024-04-29 2024-04-29 一种文本数据处理方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN118095261A CN118095261A (zh) 2024-05-28
CN118095261B true CN118095261B (zh) 2024-07-05

Family

ID=91157779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410525030.8A Active CN118095261B (zh) 2024-04-29 2024-04-29 一种文本数据处理方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN118095261B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291552A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 一种文本内容修正的方法和系统
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291552A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 一种文本内容修正的方法和系统
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质

Also Published As

Publication number Publication date
CN118095261A (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110084323A (zh) 端到端语义解析系统及训练方法
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN117972434B (zh) 文本处理模型的训练方法、装置、设备、介质和程序产品
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN118095261B (zh) 一种文本数据处理方法、装置、设备以及可读存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN115293142A (zh) 一种基于词典增强预训练模型的常识问答方法
CN111259650A (zh) 基于类标序列生成式对抗模型的文本自动生成方法
CN117933231B (zh) 文本纠错及纠错模型训练方法、装置、电子设备和介质
Ma Research on Computer Intelligent Proofreading System for English Translation Based on Deep Learning
CN118261163B (zh) 基于transformer结构的智能评价报告生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant