CN107562718A

CN107562718A - 文本规整方法及装置、存储介质、电子设备

Info

Publication number: CN107562718A
Application number: CN201710608200.9A
Authority: CN
Inventors: 孔常青; 包叶波; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2018-01-09
Anticipated expiration: 2037-07-24
Also published as: CN107562718B

Abstract

本公开提供一种文本规整方法及装置、存储介质、电子设备。所述方法包括：获取待规整文本数据；提取所述待规整文本数据的文本规整特征，所述文本规整特征包括：所述待规整文本数据中各单词的词向量、所述待规整文本数据中各单词的词性向量、和用于描述所述待规整文本数据中重复部分的离散特征；基于所述文本规整特征，通过预先构建的文本规整模型进行规整，获得文本规整结果，所述文本规整模型的拓扑结构为编码器‑解码器结构。如此方案，有助于提高文本规整效果。

Description

文本规整方法及装置、存储介质、电子设备

技术领域

本公开涉及自然语言处理领域，具体地，涉及一种文本规整方法及装置、存储介质、电子设备。

背景技术

随着互联网技术的迅速发展，人们每天面对的信息越来越多，而这些信息中大部分是以文本的形式出现。

在实际应用过程中，文本数据中可能会存在大量噪声数据，例如，无意义的且大量出现的词，或者语义相近重复出现的词，严重干扰用户获取文本信息。此外，由于这些噪声数据的存在，使得文本数据的描述较为随意，无法直接使用，例如，记者采访过程中的语音数据，经过语音识别得到的文本数据中，经常会存在语气词、应答语、口头禅或重复描述等现象，导致无法直接使用文本数据中的相关描述编辑成稿发表，大大增加了文本编辑人员的工作量。因此，如何去除文本数据中的噪声数据，对文本数据进行规整，使规整后的文本数据更书面化具有重要意义。

目前的文本规整方案主要有以下两种：

方式一，通过人工对文本数据中存在的重复、无意义、口语化的词进行规整。该方案中，既需要耗费大量的人力资源，又受限于规整人员的专业性无法确保文本规整的质量。

方式二，预先设定部分关键词的规整规则，利用关键词与待规整文本数据进行匹配，如果能匹配中，则按照规则对匹配中的词语进行规整。该方案中，规整效果完全取决于预先设定的关键词及关键词的规整规则，只适用于一些简单的口语删除、替换等。

发明内容

本公开的主要目的是提供一种文本规整方法及装置、存储介质、电子设备，有助于提高文本规整效果。

为了实现上述目的，本公开提供一种文本规整方法，所述方法包括：

获取待规整文本数据；

提取所述待规整文本数据的文本规整特征，所述文本规整特征包括：所述待规整文本数据中各单词的词向量、所述待规整文本数据中各单词的词性向量、和用于描述所述待规整文本数据中重复部分的离散特征；

基于所述文本规整特征，通过预先构建的文本规整模型进行规整，获得文本规整结果，所述文本规整模型的拓扑结构为编码器-解码器结构。

可选地，所述待规整文本数据中各单词的词向量为所述单词对应的汉字生成的词向量；

或者，

所述待规整文本数据中各单词的词向量为所述单词对应的笔划串生成的词向量。

可选地，利用所述单词对应的笔划串生成词向量的方式为：

将所述单词对应的笔划串向量输入卷积神经网络，并对所述卷积神经网络的输出进行时域池化操作，获得定长的隐层特征；

对所述定长的隐层特征进行线性变换，得到所述单词的词向量。

可选地，按照以下方式构建所述文本规整模型：

采集训练文本数据，并获得各条训练文本数据对应的规整后文本数据；

提取所述训练文本数据的文本规整特征，所述文本规整特征包括：所述训练文本数据中各单词的词向量、所述训练文本数据中各单词的词性向量、和用于描述所述训练文本数据中重复部分的离散特征；

确定所述文本规整模型的拓扑结构为编码器-解码器结构；

利用所述训练文本数据的文本规整特征、以及所述编码器-解码器结构，训练所述文本规整模型，直至所述文本规整模型输出的文本规整结果与所述规整后文本数据相符为止。

可选地，所述编码器-解码器结构为基于Attention机制的编码器-解码器结构，则所述利用所述训练文本数据的文本规整特征、以及所述编码器-解码器结构，训练所述文本规整模型，包括：

将所述训练文本数据的文本规整特征输入所述编码器，并对所述编码器的输出进行Attention系数线性加权，再输入到所述解码器，进行编码器解码器训练，得到所述文本规整模型。

本公开提供一种文本规整装置，所述装置包括：

待规整文本数据获取模块，用于获取待规整文本数据；

文本规整特征提取模块，用于提取所述待规整文本数据的文本规整特征，所述文本规整特征包括：所述待规整文本数据中各单词的词向量、所述待规整文本数据中各单词的词性向量、和用于描述所述待规整文本数据中重复部分的离散特征；

文本规整结果获得模块，用于基于所述文本规整特征，通过预先构建的文本规整模型进行规整，获得文本规整结果，所述文本规整模型的拓扑结构为编码器-解码器结构。

可选地，所述文本规整特征提取模块提取的单词的词向量为所述单词对应的汉字生成的词向量；

或者，

所述文本规整特征提取模块提取的单词的词向量为所述单词对应的笔划串生成的词向量。

可选地，利用所述单词对应的笔划串生成词向量时，

所述文本规整特征提取模块，用于将所述单词对应的笔划串向量输入卷积神经网络，并对所述卷积神经网络的输出进行时域池化操作，获得定长的隐层特征；对所述定长的隐层特征进行线性变换，得到所述单词的词向量。

可选地，所述装置还包括：

训练文本数据采集模块，用于采集训练文本数据；

规整后文本数据获得模块，用于获得各条训练文本数据对应的规整后文本数据；

所述文本规整特征提取模块，用于提取所述训练文本数据的文本规整特征，所述文本规整特征包括：所述训练文本数据中各单词的词向量、所述训练文本数据中各单词的词性向量、和用于描述所述训练文本数据中重复部分的离散特征；

拓扑结构确定模块，用于确定所述文本规整模型的拓扑结构为编码器-解码器结构；

文本规整模型训练模块，用于利用所述训练文本数据的文本规整特征、以及所述编码器-解码器结构，训练所述文本规整模型，直至所述文本规整模型输出的文本规整结果与所述规整后文本数据相符为止。

可选地，所述编码器-解码器结构为基于Attention机制的编码器-解码器结构，则

所述文本规整模型训练模块，用于将所述训练文本数据的文本规整特征输入所述编码器，并对所述编码器的输出进行Attention系数线性加权，再输入到所述解码器，进行编码器解码器训练，得到所述文本规整模型。

本公开提供一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述文本规整方法的步骤。

本公开提供一种电子设备，所述电子设备包括；

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本公开方案，可以预先基于编码器-解码器结构，构建文本规整模型，故在提取到待规整文本数据的文本规整特征之后，可将其作为文本规整模型的输入，经模型处理得到待规整文本数据对应的文本规整结果。基于本公开的文本规整模型实现的文本规整，不仅可以对待规整文本数据中无意义的词、重复的词进行规整，还可以进行语句修正，例如，可以调整倒装等句式结构，有助于提高文本规整效果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案文本规整方法的流程示意图；

图2为本公开方案中构建文本规整模型的流程示意图；

图3为本公开方案中文本规整模型的结构示意图；

图4为本公开方案文本规整装置的构成示意图；

图5为本公开方案用于进行文本规整的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开文本规整方法的流程示意图。可以包括以下步骤：

S101，获取待规整文本数据。

本公开方案中，文本数据可以是包含口语描述的文本数据。

作为一种示例，可以采集口语化的语音数据，并通过语音识别技术得到文本数据，例如，识别采访过程中的语音数据得到文本数据。具体地，本公开方案的文本数据可以为通用领域的文本数据，也可以为根据实际应用需求定制的特定领域的文本数据，本公开方案对此可不做具体限定。

作为一种示例，还可以直接收集包含口语描述的文本数据，例如，小说中人物的口语描述相关的文本数据。

S102，提取所述待规整文本数据的文本规整特征，所述文本规整特征包括：所述待规整文本数据中各单词的词向量、所述待规整文本数据中各单词的词性向量、和用于描述所述待规整文本数据中重复部分的离散特征。

本公开方案中的文本规整特征，可以体现为待规整文本数据的语义特征，包括：单词的词向量、单词的词性向量；还可以体现为待规整文本数据的离散特征。其中，离散特征主要用于描述待规整文本数据中的重复部分。本公开方案中，通过文本规整特征可以全面描述出待规整文本数据的语义信息。

提取待规整文本数据的文本规整特征时，可以先对待规整文本数据进行分词处理，得到待规整文本数据包括的所有单词，并对各单词进行词性标注。

作为一种示例，可以采用条件随机场的方法进行分词和词性标注，具体过程可参照相关技术实现，此处不做详述。例如，待规整文本数据为“那个我们明天在诚意在诚意楼见面吧”，经过分词及词性标注后的结果可以为“那个/代词我们/名词明天/名词在/介词诚意/名词在/介词诚意/名词楼/名词见面/动词吧/叹词”。

完成分词以及词性标注后，可以进行文本规整特征提取，下面分别对语义特征、离散特征进行解释说明。

1.语义特征

作为一种示例，可以采用Google的word2vec技术，获得单词的词向量和词性向量，本公开方案对此可不做具体限定。

(1)单词的词向量

作为一种示例，单词的词向量可以为该单词对应的汉字生成的词向量，例如，可以基于汉字“那个”生成该单词的词向量。

在实际应用过程中，可能存在部分单词比较稀疏或者未被训练文本数据覆盖的情况，如果基于汉字生成单词的词向量，可能会出现词向量提取不理想的问题。针对于此，本公开方案还可以按照单词书写时的笔划顺序对单词进行拆分，获得单词对应的笔划串，再基于笔划串生成单词的词向量。例如，针对单词“那个”，可以基于笔划串“一一丿ㄋ丨丿乀丨”生成对应的词向量。

具体地，基于笔划串生成单词的词向量时，可以先将所述单词对应的笔划串向量输入卷积神经网络，再对所述卷积神经网络的输出进行时域池化(pooling)操作，通常可以采用Max-Pooling，即对卷积层输出结果在时域上取最大化操作，获得定长的隐层特征；然后对所述定长的隐层特征进行线性变换，得到所述单词的词向量。

(2)单词的词性向量

可以理解地，相同词性的所有单词可以共享一个词性向量。如上文所举示例中，“我们”、“明天”、“诚意”、“楼”的词性相同，为名词，故这4个单词可以共享名词的词性向量。

2.离散特征

本公开方案中，离散特征主要用于描述待规整文本数据中重复的部分。可以体现为前词特征、后词特征、前词相似度特征、后词相似度特征、前叠词特征、后叠词特征、前词性特征、后词性特征中的至少一种。

下面分别对各离散特征进行解释说明：

(1)前词特征，可以理解为当前单词之前的N个单词的词向量。

(2)后词特征，可以理解为当前单词之后的N个单词的词向量。

(3)前词相似度特征，可以理解为当前单词与其前面N个单词中每个单词具有的相同字所占的比值，可以通过以下公式计算：

其中，R_pre表示前词相似度特征；n_pre表示当前单词与其前面的一个单词具有的相同字的个数；N_pre表示当前单词前面的单词包含的字数；N_cur表示当前单词包含的字数。

(4)后词相似度特征，可以理解为当前单词与其后面N个单词中每个单词具有的相同字所占的比值，可以通过以下公式计算：

其中，R_aft表示后词相似度特征；n_aft表示当前单词与其后面的一个单词具有的相同字的个数；N_aft表示当前单词后面的单词包含的字数；N_cur表示当前单词包含的字数。

(5)前叠词特征，可以理解为当前单词与其前面的N个单词中每个单词是否相同。

(6)后叠词特征，可以理解为当前单词与其后面的N个单词中每个单词是否相同。

(7)前词性特征，可以理解为当前单词前面的N个单词的词性向量。

(8)后词性特征，可以理解为当前单词后面的N个单词的词性向量。

本公开方案在提取离散特征时，可以设置相应的上下文窗口，即需要综合考虑的单词数目N，例如，N的取值为3，可以表示在提取离散特征时，需要考虑当前单词之前或之后的3个单词。

可以理解地，为了获得更多的上下文信息，可以以单词为基本单位进行离散特征扩展。具体地，可以结合实际应用需求，将当前单词前后一个或多个单词的离散特征组合成一组离散特征，并将组合后的一组离散特征作为当前单词的离散特征。例如，可以将当前单词的前一个单词的离散特征、当前单词的离散特征、当前单词的后一个单词的离散特征，三者组合成一组离散特征作为当前单词的离散特征。

上述“那个/代词我们/名词明天/名词在/介词诚意/名词在/介词诚意/名词楼/名词见面/动词吧/叹词”的示例中，第二个出现的“诚意”作为当前单词，若上下文窗口N＝1，提取当前单词的离散特征如下：

(1)前词特征为“诚意”的前一个单词“在”的词向量。

(2)后词特征为“诚意”的后一个单词“楼”的词向量。

(3)前词相似度特征为“诚意”、“在”具有的相同字所占的比值R_pre＝0。

(4)后词相似度特征为“诚意”、“楼”具有的相同字所占的比值R_aft＝0

(5)前叠词特征为“诚意”、“在”是否相同：不同，可以通过“0”表示二者不同。

(6)后叠词特征为“诚意”、“楼”是否相同：不同，可以通过“0”表示二者不同。

(7)前词性特征为“诚意”的前一个单词“在”的词性向量，即介词的词性向量。

(8)后词性特征为“诚意”的后一个单词“楼”的词性向量，即名词的词性向量。

作为一种示例，离散特征体现为前词相似度特征、后词相似度特征、前叠词特征、后叠词特征这4种特征时，对口语描述中的文本重复、纠正等现象的规则效果更好。本公开方案对离散特征的具体表现形式可不做限定，可由实际应用需求而定。

S103，基于所述文本规整特征，通过预先构建的文本规整模型进行规整，获得文本规整结果，所述文本规整模型的拓扑结构为编码器-解码器结构。

本公开方案可以预先基于编码器-解码器结构，构建文本规整模型，故在获得待规整文本数据的文本规整特征之后，可将其作为文本规整模型的输入，经模型处理得到待规整文本数据对应的文本规整结果。基于本公开的文本规整模型实现的文本规整，不仅可以对待规整文本数据中无意义的词、重复的词进行规整，还可以进行语句修正，例如，可以调整倒装等句式结构，有助于提高文本规整效果。

下面对本公开方案中构建文本规整模型的过程进行解释说明。具体可参见图2所示流程图，可以包括以下步骤：

S201，采集训练文本数据，并获得各条训练文本数据对应的规整后文本数据。

可以采集大量的训练文本数据，并给出每条训练文本数据对应的规整后文本数据，得到输入-输出语句对。其中，规整后文本数据可以作为模型训练的约束条件。

作为一种示例，训练文本数据可以是口语化的语音数据经语音识别后得到文本数据；或者，训练文本数据可以是小说等直接包含口语描述的文本数据，本公开方案对此可不做具体限定。

S202，提取所述训练文本数据的文本规整特征，所述文本规整特征包括：所述训练文本数据中各单词的词向量、所述训练文本数据中各单词的词性向量、和用于描述所述训练文本数据中重复部分的离散特征。

本步骤的实现过程，可参照上文S102处所做介绍，此处不再赘述。

S203，确定所述文本规整模型的拓扑结构为编码器-解码器结构。

本公开方案中，编码器、解码器可以为通用的长短时记忆循环神经网络结构，包含输入层、隐层及输出层。其中，隐层可以有一层或者多层，隐层节点之间存在双向连接，多层网络相当于单层网络的叠加，高层网络可以利用底层网络的输出作为输入。

S204，利用所述训练文本数据的文本规整特征、以及所述编码器-解码器结构，训练所述文本规整模型，直至所述文本规整模型输出的文本规整结果与所述规整后文本数据相符为止。

综上，获得训练文本数据的文本规整特征、拓扑结构后，便可训练得到本公开方案中的文本规整模型，其中，模型的输入为文本规整特征，输出为文本规整结果。可以理解地，本公开方案将训练文本数据对应的规整后文本数据作为模型训练的约束条件，即要求模型对训练文本数据进行规整后输出的文本规整结果，应与规整后文本数据相符，即二者相同，或者二者之间的偏差小于预设值。

作为一种示例，为了进一步提高本公开方案文本规整的效果，文本规整模型的拓扑结构可以为基于Attention机制的编码器-解码器结构，也即在构建文本规整模型时，将所述训练文本数据的文本规整特征输入所述编码器后，可以对所述编码器的输出进行Attention系数线性加权，然后再输入到所述解码器，进行编码器解码器训练，得到所述文本规整模型。

下面结合图3所示文本规整模型的结构示意图，对本公开方案中模型训练的过程进行解释说明。

假设输入向量X{X₁,X₂,…,X_i,…,X_T}表示一条训练文本数据包括的T个单词的文本规整特征，具体可体现为每个单词的离散特征G、每个单词的词性向量P和每个单词的词向量V，可表示为X_i＝{G_i,P_i,V_i}。

1.将特征X_i从输入层输入到编码器Encoder中，经由Encoder的第一个隐层进行特征变换。作为一种示例，第一个隐层可以为双向LSTM(英文：Long Short-Term Memory，中文：长短期记忆)网络，特征变换可体现为以下公式：

其中，H_i为编码器的第一个隐层输出的特征；表示特征在编码器中经过双向LSTM网络时的变换，具体变换过程可参照相关技术实现，此处不做详述。

如上文所做介绍，隐层可以有多层，高层网络可以利用底层网络的输出作为输入，继续进行特征变换，此处不再举例说明。

2.对Encoder最后一层的输出进行一组Attention系数线性加权，可体现为以下公式：

其中，C_j表示经Attention系数线性加权后的特征；a_ji为Attention系数，表示在第j个输出时刻，模型对第i时刻Encoder输出的关注程度。

3.将经过Attention系数线性加权的特征输入到解码器Decoder之中，经由Decoder的第一个隐层进行特征变换。作为一种示例，第一个隐层可以为单向LSTM网络，特征变换可体现为以下公式：

其中，Y_j表示解码器的第一个隐层输出的特征；表示特征在解码器中经过双向LSTM网络时的变换，具体变换过程可参照相关技术实现，此处不做详述。

可以理解地，如果解码器只包括一个隐层，则经隐层进行特征变化后，即可得到文本规整结果。如果解码器包括多个隐层，高层网络则可利用底层网络的输出作为输入，继续进行特征变换，最终得到文本规整结果，此处亦不再举例说明。

由上文公式5可知，本公开方案采用Attention机制实现的端到端口语规整，并不受语序的影响，能够对倒装等口语化现象进行规整；此外，每个时刻输出的时候，还会兼顾考虑上个时刻的输出结果，这对于文本数据中存在的不流畅、重复等现象，可以起到很好的抑制作用。综上，均为本公开方案提高文本规整效果提供了一定的技术支持。

参见图4，示出了本公开文本规整装置的构成示意图。所述装置可以包括：

待规整文本数据获取模块301，用于获取待规整文本数据；

文本规整特征提取模块302，用于提取所述待规整文本数据的文本规整特征，所述文本规整特征包括：所述待规整文本数据中各单词的词向量、所述待规整文本数据中各单词的词性向量、和用于描述所述待规整文本数据中重复部分的离散特征；

文本规整结果获得模块303，用于基于所述文本规整特征，通过预先构建的文本规整模型进行规整，获得文本规整结果，所述文本规整模型的拓扑结构为编码器-解码器结构。

或者，

可选地，利用所述单词对应的笔划串生成词向量时，

可选地，所述装置还包括：

训练文本数据采集模块，用于采集训练文本数据；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图5，示出了本公开用于进行文本规整的电子设备400的结构示意图。参照图5，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401被配置为执行指令，以执行上述文本规整方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400的电源管理；一个有线或无线网络接口404，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文本规整方法，其特征在于，所述方法包括：

获取待规整文本数据；

2.根据权利要求1所述的方法，其特征在于，

所述待规整文本数据中各单词的词向量为所述单词对应的汉字生成的词向量；

或者，

3.根据权利要求2所述的方法，其特征在于，利用所述单词对应的笔划串生成词向量的方式为：

4.根据权利要求1所述的方法，其特征在于，按照以下方式构建所述文本规整模型：

确定所述文本规整模型的拓扑结构为编码器-解码器结构；

5.根据权利要求4所述的方法，其特征在于，所述编码器-解码器结构为基于Attention机制的编码器-解码器结构，则所述利用所述训练文本数据的文本规整特征、以及所述编码器-解码器结构，训练所述文本规整模型，包括：

6.一种文本规整装置，其特征在于，所述装置包括：

待规整文本数据获取模块，用于获取待规整文本数据；

7.根据权利要求6所述的装置，其特征在于，

所述文本规整特征提取模块提取的单词的词向量为所述单词对应的汉字生成的词向量；

或者，

8.根据权利要求7所述的装置，其特征在于，利用所述单词对应的笔划串生成词向量时，

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

训练文本数据采集模块，用于采集训练文本数据；

10.根据权利要求9所述的装置，其特征在于，所述编码器-解码器结构为基于Attention机制的编码器-解码器结构，则

11.一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至5任一项所述方法的步骤。

12.一种电子设备，其特征在于，所述电子设备包括；

权利要求11所述的存储介质；以及

处理器，用于执行所述存储介质中的指令。