CN114398890A - 文本增强方法、装置、设备及存储介质 - Google Patents
文本增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114398890A CN114398890A CN202210061765.0A CN202210061765A CN114398890A CN 114398890 A CN114398890 A CN 114398890A CN 202210061765 A CN202210061765 A CN 202210061765A CN 114398890 A CN114398890 A CN 114398890A
- Authority
- CN
- China
- Prior art keywords
- text
- text enhancement
- training data
- enhancement
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,揭露一种文本增强方法,包括:获取标准序列训练数据,对标准序列训练数据进行线性化处理,得到线性训练数据;对线性训练数据进行词嵌入处理,得到线性训练向量;对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对初始文本增强模型进行训练,得到训练好的文本增强模型;将线性训练向量输入至训练好的文本增强模型中进行增强处理,得到文本预测结果;对文本预测结果进行后验证处理,得到标准文本增强结果。此外,本发明还涉及区块链技术,线性训练数据可存储于区块链的节点。本发明还提出一种文本增强装置、电子设备以及存储介质。本发明可以提高文本增强的有效性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本增强方法、装置、电子设备及计算机可读存储介质。
背景技术
由于深度学习技术在自然语言处理的各个任务中都有广泛的应用,比如文本分类、序列标注等。但是深度学习模型参数规模巨大,往往需要大规模的标注数据才能进行有效的学习,然而大规模的标注数据往往耗费大量的人力及时间,线上真实应用时往往不能及时满足需求。针对这种现象,一些文本增强技术应运而生。
目前使用同义词替换的文本增强过于简单,且效果并不显著,其他的数据增强方法如反向翻译等等仅适用于翻译或者分类的任务,并不适用于序列标注任务。故当前的文本增强技术有非常强的局限性,同时,对序列标注来说仅仅保持整句语义不变生成的新样本是不能帮助提升序列标注任务的准确率的。故目前的文本增强技术有其应用范围狭窄的有效性(即可用性)不高。因此亟待提出一种更为有效的文本增强方法。
发明内容
本发明提供一种文本增强方法、装置及计算机可读存储介质,其主要目的在于提高文本增强的有效性。
为实现上述目的,本发明提供的一种文本增强方法,包括:
获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型;
将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
对所述文本预测结果进行后验证处理,得到标准文本增强结果。
可选地,所述利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量,包括:
以所述线性训练数据的总数为预设矩阵的列数,以预设固定参数为所述预设矩阵的行数,构建得到初始矩阵向量;
将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置中,并将每一列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值,得到线性训练向量。
可选地,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值;
通过所述训练好的文本增强模型中的遗忘门计算所述线性训练向量的激活值;
根据所述状态值和所述激活值计算所述线性训练向量的状态更新值;
利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据;
将所述初始文本数据输入至预设的全连接层中,得到预测概率,根据所述预测概率得到文本预测结果。
可选地,所述利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据,包括:
ot=tan h(ct)
其中,ot表示初始文本数据,tan h表示输出门的激活函数,ct表示状态更新值。
可选地,所述对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,包括:
获取预设的停止概率,并识别所述文本增强模型中的多个神经元;
统计多个所述神经元的数量,得到神经元数量值,将所述神经元数量值与所述停止概率进行相乘计算,得到停止数量值;
随机提取出多个所述神经元中与所述停止数量值的数值一致的神经元,令与所述停止数量值的数值一致的神经元的激活值为预设数值,得到初始文本增强模型。
可选地,所述对所述文本预测结果进行后验证处理,得到标准文本增强结果,包括:
对所述文本预测结果进行标注检测,将所述标注检测为空白的文本预测结果中的文本执行删除操作;
判断标注检测后的所述文本预测结果中的文本是否满足预设的标注条件,对不满足所述标注条件的文本执行删除操作,得到标准文本增强结果。
可选地,所述对所述标准序列训练数据进行线性化处理,得到线性训练数据,包括:
提取所述标准序列训练数据中的多个标注词和所述标注词对应的标注标签;
分别将多个所述标注词和所述标注词对应的标注标签进行结合及汇总,得到线性训练数据。
为了解决上述问题,本发明还提供一种文本增强装置,所述装置包括:
数据线性化模块,用于获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
词嵌入模块,用于利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
文本预测模块,用于对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
结果后验证模块,用于对所述文本预测结果进行后验证处理,得到标准文本增强结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的文本增强方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本增强方法。
本发明实施例通过对标准序列训练数据进行线性化处理,得到线性训练数据,对所述线性训练数据进行词嵌入处理,得到线性训练向量,所述词嵌入处理使得得到的线性训练向量更好地作为模型的输入数据进行输入,对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,并利用训练好的文本增强模型对所述线性训练向量进行增强处理,得到文本预测结果,提高了文本增强的效率。所述去拟合操作也可以保证初始文本增强模型的准确度。对所述文本预测结果进行后处理,得到标准文本增强结果。所述后处理对为文本预测结果进行进一步地验证和检验,保证了标准文本增强结果的准确度。同时,本发明的文本增强侧重于词级别,词级别的文本增强方能够获得比原句子级别文本增强技术有更广泛的适用性。因此本发明提出的文本增强方法、装置、电子设备及计算机可读存储介质,可以实现解决文本增强的有效性不够高的问题。
附图说明
图1为本发明一实施例提供的文本增强方法的流程示意图;
图2为本发明一实施例提供的文本增强装置的功能模块图;
图3为本发明一实施例提供的实现所述文本增强方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种文本增强方法。所述文本增强方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述文本增强方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的文本增强方法的流程示意图。在本实施例中,所述文本增强方法包括:
S1、获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据。
本发明实施例中,所述标准序列训练数据是指进行序列标注任务时的训练数据,因为进行序列标注任务时的数据应用在序列标注任务的词级别文本增强方法中,而可应用于序列标注任务的词级别文本增强方法着重强调其在序列标注任务的适用性,针对序列标注任务进行了线性化处理,生成的线性训练数据能够适用于文本分类、阅读理解、文本蕴含等多种自然语言处理任务。
具体地,所述对所述标准序列训练数据进行线性化处理,得到线性训练数据,包括:
提取所述标准序列训练数据中的多个标注词和所述标注词对应的标注标签;
分别将多个所述标注词和所述标注词对应的标注标签进行结合及汇总,得到线性训练数据。
详细地,所述标准序列训练数据可以为“Jose Valentinhasarestaurantbusinessin London”,其中,标注词Jose对应的标注标签为“B-PER”,标注词Valentin对应的标注标签为“P-PER”,标注词London对应的标注标签为“S-LOC”。将每个标注词的标注标签放在其标注词的前面,例如,将"B-PER"放在"Jose"前,将"E-PER"放在"Valentin"前,得到多个所述标注词和所述标注词对应的标注标签进行结合的结果,将结合的结果进行汇总形成线性训练数据,所述线性训练数据可用于训练词级别的文本增强模型。
S2、利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量。
本发明实施例中,所述词嵌入处理是为了将所述线性训练数据映射到低维的向量空间中,便于后续进行模型训练。所述预设的词嵌入算法包括但不限于独热编码和词向量转换模型。即可以通过训练好的词向量转换模型进行词嵌入处理,也可以通过独热编码(onehot编码)实现词嵌入,本方案中采用的为独热编码。
具体地,所述利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量,包括:
以所述线性训练数据的总数为预设矩阵的列数,以预设固定参数为所述预设矩阵的行数,构建得到初始矩阵向量;
将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置中,并将每一列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值,得到线性训练向量。
S3、对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型。
本发明实施例中,所述对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,包括:
获取预设的停止概率,并识别所述文本增强模型中的多个神经元;
统计多个所述神经元的数量,得到神经元数量值,将所述神经元数量值与所述停止概率进行相乘计算,得到停止数量值;
随机提取出多个所述神经元中与所述停止数量值的数值一致的神经元,令与所述停止数量值的数值一致的神经元的激活值为预设数值,得到初始文本增强模型。
优选地,所述预设数值为0。
例如,所述预设的停止概率为40%,识别所述文本增强模型中的多个所述神经元的数量为1000个,即所述神经元数量值为1000个,将所述神经元数量值1000与所述停止概率40%进行相乘计算,得到停止数量值400个,故随机提取出所述文本增强模型中的400个神经元,并令这400个神经元的激活值为0。
详细地,所述去拟合操作是指在深度学习网络的训练过程中,对于神经网络单元或者部分数据可以按照预先设定概率将其暂时从网络中丢弃,以便能够获得更好的泛化性能。其中,所述预先设定概率可以为25%,此处不作限定。
具体地,获取训练数据集,所述训练数据集中包含大量的训练数据,利用所述训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型。
其中,训练过程主要是利用所述初始文本增强模型对所述训练数据集进行文本增强,得到预测的文本增强结果,根据预测的文本增强结果和预设的真实文本增强结果的比对进而对所述初始文本增强模型进行优化,得到训练好的文本增强模型。
S4、将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果。
本发明实施例中,所述训练好的文本增强模型可以为LSTM网络(Long Short-TermMemory,长短期记忆网络),也可以为GPT2模型。所述LSTM网络是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。GPT-2模型基于transformer特征提取器使用堆叠的方式构成,在海量文本上耗费大量的计算力进行学习训练。
在本发明一实施例中,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
将所述线性训练向量和预设的位置向量进行求和计算,得到标准向量集;
将所述标准向量集输入至所述文案生成模型中多个堆叠的transformer模块中进行文案生成,得到文本预测结果。
详细地,多个所述堆叠的transformer模块是指将transformer模块进行串行连接,以上一个transformer模块的输出作为下一个transformer模块的输入。
进一步地,所述将所述标准向量集输入至所述文案生成模型中多个堆叠的transformer模块中进行文案生成,得到文本预测结果,包括:
利用多个所述堆叠的transformer模块中的第一个transformer模块对所述标准向量进行自注意力处理,并传递给神经网络层,得到第一结果向量;
将所述第一结果向量作为多个所述堆叠的transformer模块中第二个transformer模块的输入进行向量处理,重复执行所述向量处理直至所述堆叠的transformer模块都操作完毕,得到堆叠输出;
将所述堆叠输出与预设的嵌入矩阵进行相乘处理,得到注意力得分,并根据所述注意力得分的大小得文本预测结果。
在本发明另一实施例中,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值;
通过所述训练好的文本增强模型中的遗忘门计算所述线性训练向量的激活值;
根据所述状态值和所述激活值计算所述线性训练向量的状态更新值;
利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据;
将所述初始文本数据输入至预设的全连接层中,得到预测概率,根据所述预测概率得到文本预测结果。
一可选实施例中,所述状态值的计算方法包括:
一可选实施例中,所述激活值的计算方法包括:
一可选实施例中,所述状态更新值的计算方法包括:
一可选实施例中,所述利用输出门计算状态更新值对应的初始文本数据包括:
利用如下公式计算初始文本数据:
ot=tan h(ct)
其中,ot表示初始文本数据,tan h表示输出门的激活函数,ct表示状态更新值。
S5、对所述文本预测结果进行后验证处理,得到标准文本增强结果。
本发明实施例中,由于所述文本预测结果中可能存在一些不合理的情况,因此需要对所述文本预测结果进行后验证处理,得到标准文本增强结果。
具体地,所述对所述文本预测结果进行后验证处理,得到标准文本增强结果,包括:
对所述文本预测结果进行标注检测,将所述标注检测为空白的文本预测结果中的文本执行删除操作;
判断标注检测后的所述文本预测结果中的文本是否满足预设的标注条件,对不满足所述标注条件的文本执行删除操作,得到标准文本增强结果。
详细地,所述标注检测为空白的文本是指完全没有词标注的文本,所述预设的标注条件是指词标注序列不对应,文本相同但是词标注却不同。
例如,所述后验证处理是指需要删除掉完全没有词标注的文本,删除掉整个句子全是[unk]的文本,删除掉词标注序列明显不对的文本(比如"E-PER"排在"B-PER"前面),删除掉文本相同但是词标注不一致的文本。
详细地,经过后验证处理后的标准文本增强结果可以用于下一步真实的序列标注或者文本增强等子任务。
本方案改进了依据整句语义不变的文本增强技术,采用线性化后的文本进行语言模型训练,用这种特殊处理后训练数据训练出的语言模型即可进行进行词级别的文本增强。这种文本增强方式得到文本数据经过后处理后,能够广泛的适用于各种自然语言处理的子任务,比如:文本分类、序列标注、文本蕴含等。词级别的文本增强方能够获得比原句子级别文本增强技术有更广泛的适用性。
本发明实施例通过对标准序列训练数据进行线性化处理,得到线性训练数据,对所述线性训练数据进行词嵌入处理,得到线性训练向量,所述词嵌入处理使得得到的线性训练向量更好地作为模型的输入数据进行输入,对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,并利用训练好的文本增强模型对所述线性训练向量进行增强处理,得到文本预测结果,提高了文本增强的效率。所述去拟合操作也可以保证初始文本增强模型的准确度。对所述文本预测结果进行后处理,得到标准文本增强结果。所述后处理对为文本预测结果进行进一步地验证和检验,保证了标准文本增强结果的准确度。同时,本发明的文本增强侧重于词级别,词级别的文本增强方能够获得比原句子级别文本增强技术有更广泛的适用性。因此本发明提出的文本增强方法可以实现解决文本增强的有效性不够高的问题。
如图2所示,是本发明一实施例提供的文本增强装置的功能模块图。
本发明所述文本增强装置100可以安装于电子设备中。根据实现的功能,所述文本增强装置100可以包括数据线性化模块101、词嵌入模块102、文本预测模块103及结果后验证模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据线性化模块101,用于获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
所述词嵌入模块102,用于利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
所述文本预测模块103,用于对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
所述结果后验证模块104,用于对所述文本预测结果进行后验证处理,得到标准文本增强结果。
详细地,所述文本增强装置100各模块的具体实施方式如下:
步骤一、获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据。
本发明实施例中,所述标准序列训练数据是指进行序列标注任务时的训练数据,因为进行序列标注任务时的数据应用在序列标注任务的词级别文本增强方法中,而可应用于序列标注任务的词级别文本增强方法着重强调其在序列标注任务的适用性,针对序列标注任务进行了线性化处理,生成的线性训练数据能够适用于文本分类、阅读理解、文本蕴含等多种自然语言处理任务。
具体地,所述对所述标准序列训练数据进行线性化处理,得到线性训练数据,包括:
提取所述标准序列训练数据中的多个标注词和所述标注词对应的标注标签;
分别将多个所述标注词和所述标注词对应的标注标签进行结合及汇总,得到线性训练数据。
详细地,所述标准序列训练数据可以为“Jose Valentinhasarestaurantbusinessin London”,其中,标注词Jose对应的标注标签为“B-PER”,标注词Valentin对应的标注标签为“P-PER”,标注词London对应的标注标签为“S-LOC”。将每个标注词的标注标签放在其标注词的前面,例如,将"B-PER"放在"Jose"前,将"E-PER"放在"Valentin"前,得到多个所述标注词和所述标注词对应的标注标签进行结合的结果,将结合的结果进行汇总形成线性训练数据,所述线性训练数据可用于训练词级别的文本增强模型。
步骤二、利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量。
本发明实施例中,所述词嵌入处理是为了将所述线性训练数据映射到低维的向量空间中,便于后续进行模型训练。所述预设的词嵌入算法包括但不限于独热编码和词向量转换模型。即可以通过训练好的词向量转换模型进行词嵌入处理,也可以通过独热编码(onehot编码)实现词嵌入,本方案中采用的为独热编码。
具体地,所述利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量,包括:
以所述线性训练数据的总数为预设矩阵的列数,以预设固定参数为所述预设矩阵的行数,构建得到初始矩阵向量;
将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置中,并将每一列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值,得到线性训练向量。
步骤三、对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型。
本发明实施例中,所述对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,包括:
获取预设的停止概率,并识别所述文本增强模型中的多个神经元;
统计多个所述神经元的数量,得到神经元数量值,将所述神经元数量值与所述停止概率进行相乘计算,得到停止数量值;随机提取出多个所述神经元中与所述停止数量值的数值一致的神经元,令与所述停止数量值的数值一致的神经元的激活值为预设数值,得到初始文本增强模型。
优选地,所述预设数值为0。
例如,所述预设的停止概率为40%,识别所述文本增强模型中的多个所述神经元的数量为1000个,即所述神经元数量值为1000个,将所述神经元数量值1000与所述停止概率40%进行相乘计算,得到停止数量值400个,故随机提取出所述文本增强模型中的400个神经元,并令这400个神经元的激活值为0。
详细地,所述去拟合操作是指在深度学习网络的训练过程中,对于神经网络单元或者部分数据可以按照预先设定概率将其暂时从网络中丢弃,以便能够获得更好的泛化性能。其中,所述预先设定概率可以为25%,此处不作限定。
具体地,获取训练数据集,所述训练数据集中包含大量的训练数据,利用所述训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型。
其中,训练过程主要是利用所述初始文本增强模型对所述训练数据集进行文本增强,得到预测的文本增强结果,根据预测的文本增强结果和预设的真实文本增强结果的比对进而对所述初始文本增强模型进行优化,得到训练好的文本增强模型。步骤四、将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果。
本发明实施例中,所述训练好的文本增强模型可以为LSTM网络(Long Short-TermMemory,长短期记忆网络),也可以为GPT2模型。所述LSTM网络是一种时间循环神经网络,包括:输入门、遗忘门以及输出门。GPT-2模型基于transformer特征提取器使用堆叠的方式构成,在海量文本上耗费大量的计算力进行学习训练。
在本发明一实施例中,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
将所述线性训练向量和预设的位置向量进行求和计算,得到标准向量集;
将所述标准向量集输入至所述文案生成模型中多个堆叠的transformer模块中进行文案生成,得到文本预测结果。
详细地,多个所述堆叠的transformer模块是指将transformer模块进行串行连接,以上一个transformer模块的输出作为下一个transformer模块的输入。
进一步地,所述将所述标准向量集输入至所述文案生成模型中多个堆叠的transformer模块中进行文案生成,得到文本预测结果,包括:
利用多个所述堆叠的transformer模块中的第一个transformer模块对所述标准向量进行自注意力处理,并传递给神经网络层,得到第一结果向量;
将所述第一结果向量作为多个所述堆叠的transformer模块中第二个transformer模块的输入进行向量处理,重复执行所述向量处理直至所述堆叠的transformer模块都操作完毕,得到堆叠输出;
将所述堆叠输出与预设的嵌入矩阵进行相乘处理,得到注意力得分,并根据所述注意力得分的大小得文本预测结果。
在本发明另一实施例中,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值;
通过所述训练好的文本增强模型中的遗忘门计算所述线性训练向量的激活值;
根据所述状态值和所述激活值计算所述线性训练向量的状态更新值;
利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据;
将所述初始文本数据输入至预设的全连接层中,得到预测概率,根据所述预测概率得到文本预测结果。
一可选实施例中,所述状态值的计算方法包括:
一可选实施例中,所述激活值的计算方法包括:
一可选实施例中,所述状态更新值的计算方法包括:
一可选实施例中,所述利用输出门计算状态更新值对应的初始文本数据包括:
利用如下公式计算初始文本数据:
ot=tan h(ct)
其中,ot表示初始文本数据,tan h表示输出门的激活函数,ct表示状态更新值。
步骤五、对所述文本预测结果进行后验证处理,得到标准文本增强结果。
本发明实施例中,由于所述文本预测结果中可能存在一些不合理的情况,因此需要对所述文本预测结果进行后验证处理,得到标准文本增强结果。
具体地,所述对所述文本预测结果进行后验证处理,得到标准文本增强结果,包括:
对所述文本预测结果进行标注检测,将所述标注检测为空白的文本预测结果中的文本执行删除操作;
判断标注检测后的所述文本预测结果中的文本是否满足预设的标注条件,对不满足所述标注条件的文本执行删除操作,得到标准文本增强结果。
详细地,所述标注检测为空白的文本是指完全没有词标注的文本,所述预设的标注条件是指词标注序列不对应,文本相同但是词标注却不同。
例如,所述后验证处理是指需要删除掉完全没有词标注的文本,删除掉整个句子全是[unk]的文本,删除掉词标注序列明显不对的文本(比如"E-PER"排在"B-PER"前面),删除掉文本相同但是词标注不一致的文本。
详细地,经过后验证处理后的标准文本增强结果可以用于下一步真实的序列标注或者文本增强等子任务。
本方案改进了依据整句语义不变的文本增强技术,采用线性化后的文本进行语言模型训练,用这种特殊处理后训练数据训练出的语言模型即可进行进行词级别的文本增强。这种文本增强方式得到文本数据经过后处理后,能够广泛的适用于各种自然语言处理的子任务,比如:文本分类、序列标注、文本蕴含等。词级别的文本增强方能够获得比原句子级别文本增强技术有更广泛的适用性。
本发明实施例通过对标准序列训练数据进行线性化处理,得到线性训练数据,对所述线性训练数据进行词嵌入处理,得到线性训练向量,所述词嵌入处理使得得到的线性训练向量更好地作为模型的输入数据进行输入,对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,并利用训练好的文本增强模型对所述线性训练向量进行增强处理,得到文本预测结果,提高了文本增强的效率。所述去拟合操作也可以保证初始文本增强模型的准确度。对所述文本预测结果进行后处理,得到标准文本增强结果。所述后处理对为文本预测结果进行进一步地验证和检验,保证了标准文本增强结果的准确度。同时,本发明的文本增强侧重于词级别,词级别的文本增强方能够获得比原句子级别文本增强技术有更广泛的适用性。因此本发明提出的文本增强装置可以实现解决文本增强的有效性不够高的问题。
如图3所示,是本发明一实施例提供的实现文本增强方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本增强程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行文本增强程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本增强程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的文本增强程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型;
将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
对所述文本预测结果进行后验证处理,得到标准文本增强结果。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型;
将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
对所述文本预测结果进行后验证处理,得到标准文本增强结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本增强方法,其特征在于,所述方法包括:
获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型;
将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
对所述文本预测结果进行后验证处理,得到标准文本增强结果。
2.如权利要求1所述的文本增强方法,其特征在于,所述利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量,包括:
以所述线性训练数据的总数为预设矩阵的列数,以预设固定参数为所述预设矩阵的行数,构建得到初始矩阵向量;
将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置中,并将每一列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值,得到线性训练向量。
3.如权利要求1所述的文本增强方法,其特征在于,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:
通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值;
通过所述训练好的文本增强模型中的遗忘门计算所述线性训练向量的激活值;
根据所述状态值和所述激活值计算所述线性训练向量的状态更新值;
利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据;
将所述初始文本数据输入至预设的全连接层中,得到预测概率,根据所述预测概率得到文本预测结果。
4.如权利要求1所述的文本增强方法,其特征在于,所述利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据,包括:
ot=tan h(ct)
其中,ot表示初始文本数据,tan h表示输出门的激活函数,ct表示状态更新值。
5.如权利要求1所述的文本增强方法,其特征在于,所述对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,包括:
获取预设的停止概率,并识别所述文本增强模型中的多个神经元;
统计多个所述神经元的数量,得到神经元数量值,将所述神经元数量值与所述停止概率进行相乘计算,得到停止数量值;
随机提取出多个所述神经元中与所述停止数量值的数值一致的神经元,令与所述停止数量值的数值一致的神经元的激活值为预设数值,得到初始文本增强模型。
6.如权利要求1所述的文本增强方法,其特征在于,所述对所述文本预测结果进行后验证处理,得到标准文本增强结果,包括:
对所述文本预测结果进行标注检测,将所述标注检测为空白的文本预测结果中的文本执行删除操作;
判断标注检测后的所述文本预测结果中的文本是否满足预设的标注条件,对不满足所述标注条件的文本执行删除操作,得到标准文本增强结果。
7.如权利要求1至6中任一项所述的文本增强方法,其特征在于,所述对所述标准序列训练数据进行线性化处理,得到线性训练数据,包括:
提取所述标准序列训练数据中的多个标注词和所述标注词对应的标注标签;
分别将多个所述标注词和所述标注词对应的标注标签进行结合及汇总,得到线性训练数据。
8.一种文本增强装置,其特征在于,所述装置包括:
数据线性化模块,用于获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;
词嵌入模块,用于利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;
文本预测模块,用于对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型,将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;
结果后验证模块,用于对所述文本预测结果进行后验证处理,得到标准文本增强结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的文本增强方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061765.0A CN114398890A (zh) | 2022-01-19 | 2022-01-19 | 文本增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061765.0A CN114398890A (zh) | 2022-01-19 | 2022-01-19 | 文本增强方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398890A true CN114398890A (zh) | 2022-04-26 |
Family
ID=81231010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210061765.0A Pending CN114398890A (zh) | 2022-01-19 | 2022-01-19 | 文本增强方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398890A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127925A (zh) * | 2023-04-07 | 2023-05-16 | 北京龙智数科科技服务有限公司 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
-
2022
- 2022-01-19 CN CN202210061765.0A patent/CN114398890A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127925A (zh) * | 2023-04-07 | 2023-05-16 | 北京龙智数科科技服务有限公司 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
CN116127925B (zh) * | 2023-04-07 | 2023-08-29 | 北京龙智数科科技服务有限公司 | 基于对文本进行破坏处理的文本数据增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111626047A (zh) | 智能化文本纠错方法、装置、电子设备及可读存储介质 | |
CN111814962A (zh) | 识别模型的参数获取方法、装置、电子设备及存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN113157927A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113298159A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114461777A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113807973A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN113821622A (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN112885423A (zh) | 疾病标签检测方法、装置、电子设备及存储介质 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN115205225A (zh) | 医学图像识别模型的训练方法、装置、设备及存储介质 | |
CN114997263A (zh) | 基于机器学习的结训率分析方法、装置、设备及存储介质 | |
CN114399775A (zh) | 文档标题生成方法、装置、设备及存储介质 | |
CN114706961A (zh) | 目标文本识别方法、装置及存储介质 | |
CN114398890A (zh) | 文本增强方法、装置、设备及存储介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113627160A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN114757154B (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN114708073B (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN113706019B (zh) | 基于多维数据的业务能力分析方法、装置、设备及介质 | |
CN112215336B (zh) | 基于用户行为的数据标注方法、装置、设备及存储介质 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN115907082A (zh) | 区域人流量分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |