CN107590121A

CN107590121A - 文本规整方法及系统

Info

Publication number: CN107590121A
Application number: CN201610539133.5A
Authority: CN
Inventors: 占吉清; 高建清; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2018-01-16
Anticipated expiration: 2036-07-08
Also published as: CN107590121B

Abstract

本发明公开了一种文本规整方法及系统，该方法包括：接收待规整文本数据；对待规整文本数据进行分词，并对分词后的各词进行词性标注；提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征，所述语义特征包括每个词的词向量和词性向量，所述泛化特征用于描述文本数据中重复部分；将所述文本规整特征输入预先构建的文本规整模型，得到文本规整结果；根据所述文本规整结果，删除所述待规整文本数据中需要删除的词，得到规整后的文本数据。利用本发明，可有效提高文本规整效果。

Description

文本规整方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种文本规整方法及系统。

背景技术

随着互联网技术的迅速发展，人们每天面对的信息越来越多，而这些信息中大部分是以文本的形式出现，当然也包含一些语音数据经过语音识别后得到的文本数据。无论哪种文本数据，由于具体应用场景的不同，文本数据中经常会存在大量噪声数据，如无意义的且大量出现的词或语义相近重复出现的词，严重干扰用户获取文本信息；也正是由于这些噪声的存在，使得文本数据的描述较随意，无法直接使用，如对记者工作中的采访数据进行语音识别后得到的文本数据中经常会存在语气词、应答语、口头禅或重复描述等现象，导致无法直接使用识别文本中相关描述编辑成稿发表，大大增加了文本编辑人员的工作量。因此，如何去除文本数据中的噪声，对文本数据进行规整，使规整后的文本数据更书面化具有重要意义。

现有的文本规整方法在进行文本规整时，使用传统序列标注的方法，对文本数据的每个分词进行标记，根据标记结果对文本数据进行规整。现有的文本规整方法仅使用文本数据中简单特征及组合作为序列模型的输入，标记待规整文本数据中每个词是否需要删除。模型输入特征较单一，无法全面描述文本数据的语义信息，并且传统序列标注模型信息记忆能力较弱，在文本规整时，仅能考虑较短的上下文信息。因此，现有的文本规整方法只能简单的标记出文本数据中一些无意义词，但对于语义相近的重复语句或词语，无法准确标记，如文本数据“那个我们明天在诚意在诚意楼见面吧”现有方法仅能标记出“那个”和“吧”需要删除，而无法标记出重复的“在”和“诚意”也需要删除，导致文本规整的效果较差。

发明内容

本发明提供一种文本规整方法及系统，以提高文本规整效果。

为此，本发明提供如下技术方案：

一种文本规整方法，包括：

接收待规整文本数据；

对待规整文本数据进行分词，并对分词后的各词进行词性标注；

提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征，所述语义特征包括每个词的词向量和词性向量，所述泛化特征用于描述文本数据中重复部分；

将所述文本规整特征输入预先构建的文本规整模型，得到文本规整结果；

根据所述文本规整结果，删除所述待规整文本数据中需要删除的词，得到规整后的文本数据。

优选地，所述方法还包括按以下方式构建文本规整模型：

确定文本规整模型的拓扑结构；

收集文本数据；

对收集的文本数据进行分词；

对分词后的各词进行词性标注，并标注各词是否为需要规整掉的词，得到各词的标签信息；

提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征；

利用提取的各词的文本规整特征及标签信息，训练得到文本规整模型参数。

优选地，所述文本规整模型的拓扑结构依次包括：输入层、线性规整层、一个或多个隐层及输出层；其中，隐层节点之间采用双向连接，输出层节点之间存在转移关系。

优选地，所述泛化特征包括以下任意一种或多种组合：前后词特征、前后词相似度特征、前后叠词特征、前后词性特征。

优选地，所述方法还包括：

保存所述待规整文本数据及对应的文本规整结果；

在用户请求查看被规整掉的文本数据时，显示所述待规整文本数据，并根据所述文本规整结果标记所述待规整文本数据中被规整掉的文本数据。

优选地，所述标记所述待规整文本数据中被规整掉的文本数据包括：

使用删除线或下划线或特定颜色字体显示所述待规整文本数据中被规整掉的文本数据。

一种文本规整系统，包括：

接收模块，用于接收待规整文本数据；

分词模块，用于对待规整文本数据进行分词；

标注模块，用于对分词后的各词进行词性标注；

规整特征提取模块，用于提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征，所述语义特征包括每个词的词向量和词性向量，所述泛化特征用于描述文本数据中重复部分；

规整模块，用于将所述文本规整特征输入预先构建的文本规整模型，得到文本规整结果；

输出模块，用于根据所述文本规整结果，删除所述待规整文本数据中需要删除的词，得到规整后的文本数据。

优选地，所述系统还包括：模型构建模块，用于构建文本规整模型；所述模型构建模块包括：

拓扑结构确定单元，用于确定文本规整模型的拓扑结构；

文本收集单元，用于收集文本数据；

分词单元，用于对收集的文本数据进行分词；

预处理单元，用于对分词后的各词进行词性标注，并标注各词是否为需要规整掉的词，得到各词的标签信息；

特征提取单元，用于提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征；

训练单元，用于利用提取的各词的文本规整特征及标签信息，训练得到文本规整模型参数。

优选地，所述系统还包括：

保存模块，用于保存所述待规整文本数据及对应的文本规整结果；

显示模块，用于在用户请求查看被规整掉的文本数据时，显示所述待规整文本数据；

标记模块，用于根据所述文本规整结果标记所述待规整文本数据中被规整掉的文本数据。

优选地，所述标记模块，具体用于使用删除线或下划线或特定颜色字体显示所述待规整文本数据中被规整掉的文本数据。

本发明实施例提供的文本规整方法及系统，对文本数据进行规整时，提取的文本规整特征不仅包括语义特征而且还包括泛化特征，从而使提取的文本特征可以全面描述文本数据的语义信息。将所述文本规整特征作为文本规整模型的输入，得到文本规整结果，有效地提高了文本规整的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中构建文本规整模型的流程图；

图2是本发明实施例中文本规整模型的拓扑结构示意图；

图3是本发明实施例文本规整方法的流程图；

图4是本发明实施例文本规整系统的一种结构示意图；

图5是本发明实施例中模型构建模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供的文本规整方法及系统，对文本数据进行规整时，提取的文本规整特征不仅包括语义特征而且还包括用于描述文本数据中重复部分的泛化特征，从而使提取的文本特征可以全面描述文本数据的语义信息。将所述文本规整特征作为文本规整模型的输入，得到文本规整结果。

其中，文本规整模型也不同于现有技术中的文本规整模型，其拓扑结构依次包括：输入层、线性规整层、一个或多个隐层及输出层；而且，隐层节点之间采用双向连接，输出层节点之间存在转移关系，从而保证了文本规整模型可以记忆更长的上下文信息，并且针对不同的上下文信息可以给出不同的规整结果，有效地提高了文本规整的效果。

所述文本规整模型可以通过预先收集大量文本数据来构建，如图1所示，是本发明实施例中构建文本规整模型的流程图，包括以下步骤：

步骤101，确定文本规整模型的拓扑结构。

图2示出了本发明实施例中文本规整模型的拓扑结构，其包括：输入层、线性规整层、隐层及输出层。其中，隐层可以有一层或多层，隐层节点之间存在双向连接，层内每个节点的输入特征包含上一隐层的输出特征及前一个节点的输出特征。输出层节点之间存在转移关系。如图2所示，文本规整模型的输入为提取的各词的文本规整特征，其中，G表示泛化特征，P表示词性向量，V表示词向量。

步骤102，收集文本数据。

具体地，可以收集大量口语化的语音数据，进行语音识别后得到相应文本数据，如收集大量采访的语音数据，进行语音识别，得到相应文本数据；当然，也可以直接收集包含口语描述的文本数据，如小说中人物的口语描述文本等。

步骤103，对收集的文本数据进行分词。

步骤104，对分词后的各词进行词性标注，并标注各词是否为需要规整掉的词，得到各词的标签信息。

分词和词性标注时，可以采用条件随机场的方法进行分词和词性标注，具体过程与现有技术相同，在此不再详述，如“那个我们明天在正心楼在诚意楼见面吧”，分词及词性标注后的结果为“那个/代词我们/名词明天/名词在/介词诚意/名词在/介词诚意/名词楼/名词见面/动词吧/叹词”。

标注各词是否为需要规整掉的词具体可以由人工完成。所述标签信息具体可以根据应用需求预先设定，如标签为“删除”和“不删除”这两种。

步骤105，提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征。

其中，所述语义特征包括：文本数据每个词的词向量和每个词的词性向量，具体提取方法如下所述：

首先初始化训练数据的每个词的词向量；然后利用训练数据对所述词向量进行训练，如基于神经网络的方法进行训练；训练结束后得到每个词的词向量，具体训练方法与现有技术相同，在此不再详述。所述词性向量特征的训练方法与词向量的训练方法类似。

其中，所述泛化特征主要是针对文本数据中重复的部分进行描述的特征，具体包括：前后词特征、前后词相似度特征、前后叠词特征、前后词性特征中的一种或多种特征的组合，各泛化特征的提取过程具体如下所述：

1)前词特征

所述前词特征指当前词之前一个或多个词的词向量；

2)后词特征

所述后词特征指当前词之后一个或多个词的词向量；

3)前词相似度特征

所述前词相似度特征指当前词与其前面一个或多个词中相同字总数与所述词包含的最大字数的比值，使用R_pre表示，如当前词与其前面一个词的相似度特征的计算方法如式(1)所示：

其中，n_pre表示当前词与其前面词中相同字的个数，N_pre表示当前词之前词包含的字数，N_cur表示当前词包含的字数。

4)后词相似度特征

所述后词相似度特征指当前词与其后面一个或多个词中相同字总数与所述词包含的最大字数的比值，使用R_aft表示，如当前词与其后面一个词的相似度特征的计算方法如式(2)所示：

其中，n_aft表示当前词与其后面词中相同字的个数，N_aft表示当前词后面词包含的字数，N_cur表示当前词包含的字数。

5)前叠词特征

所述前叠词特征指当前词与其前面一个或多个词是否相同；

6)后叠词特征

所述后叠词特征指当前词与其后面一个或多个词是否相同；

7)前词性特征

所述前词性特征指当前词前面一个或多个词的词性；

8)后词性特征

所述后词性特征指当前词后面一个或多个词的词性。

所述泛化特征提取时，需要设置相应的上下文窗口，即前后考虑的词数，如上下文窗口为3，则提取泛化特征时，需要分别向前或向后考虑3个词。

需要说明的是，每个词的泛化特征可以以词为单位扩展，具体扩展时，可以根据应用需求，将当前词前后一个或多个词的泛化特征组合成一组泛化特征，将组合后的一组泛化特征作为当前词的泛化特征，如将当前词前一个词的泛化特征、当前词的泛化特征及当前词后一个词的泛化特征组合成一组泛化特征作为当前词的泛化特征。

下面以“那个/代词我们/名词明天/名词在/介词诚意/名词在/介词诚意/名词楼/名词见面/动词吧/叹词”分词中的第一个词“诚意”作为当前词，说明泛化特征取值，上下文窗口设置为1，提取当前词的泛化特征，具体如表1所述：

步骤106，利用提取的各词的文本规整特征及标签信息，训练得到文本规整模型参数。

具体训练过程如下所述：

设输入向量X＝{X₁,X₂,...,X_T}为每个词的文本规整特征，具体包含每个词的泛化特征、词性向量特征及词向量特征，即X_t＝{G_t,P_t,V_t}，从输入层到隐层会经过线性规整层，对输入层的特征进行规整，具体规整方法如式(3)所示：

L_t＝WX_t+b (3)

其中W是指输入层到线性规整层的连接权重，b为权重偏置，所述规整权重和规整偏置为文本规整模型的参数，需要通过大量训练数据训练得到。

将线性规整层的输出特征作为隐层的输入特征，对隐层进行特征变换如式(4)所示：

H_t＝f(W₁·L_t+b₁) (4)

其中，H_t为第1个隐层输出的特征，W₁为线性规整层与隐层之间的连接权重，b₁为权重偏置，W₁和b₁为文本规整模型的参数，需要通过大量数据训练得到，f为激活函数，如Sidmoid函数。

隐层可以有一层或多层，隐层节点之间存在双向连接，层内每个节点的输入特征包含上一隐层的输出特征及前一个节点的输出特征；具体变换方法与现有技术相同，在此不再多述。

为了在训练时能够加速模型参数的收敛，更好的将特征变换的数据传递给每层，从隐层到输出层的特征变换可以使用ReLU(Rectified linear unit)作为激活函数，其公式为f(x)＝max{0,X}，X为隐层输出的特征序列，所述特征序列为每个时刻对应的标签序列，即对每个词标注得到的标签信息组成的序列，输出层节点之间存在相互转移的关系。因此，输出层特征变换时可以使用转移概率来表示连续的时间序列中输出层节点输出标签序列的转移概率，利用所述转移概率，计算输出特征序列的得分，如式(5)所示：

其中，Cost表示输出特征序列的得分，为t-1时刻的第i种标签跳转到t时刻的第i种标签的转移概率，为t时刻第i种标签的输出，所述标签具体可以根据应用需求预先设定，如标签为“删除”和“不删除”，为模型参数，需要通过大量训练数据训练得到。

根据输出特征序列的得分及每个时刻对应的标签信息进行参数更新，得到模型参数，所述参数更新方法如随机梯度下降方法，具体方法与现有技术相同，在此不再详述。

如图3所示，是本发明实施例文本规整方法的流程图，包括以下步骤：

步骤301，接收待规整文本数据。

所述待规整文本数据主要为包含口语描述的文本数据，如对口语化的语音数据进行识别后，得到的文本数据。另外，所述待规整文本数据具体可以为通用领域的文本数据，也可以为根据应用需求特定领域的文本数据。

步骤302，对待规整文本数据进行分词，并对分词后的各词进行词性标注。

步骤303，提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征，所述语义特征包括每个词的词向量和词性向量，所述泛化特征用于描述文本数据中重复部分。

文本规整特征的提取过程与文本规整模型训练时提取文本规整特征的过程相同，在此不再赘述。

步骤304，将所述文本规整特征输入预先构建的文本规整模型，得到文本规整结果。

具体地，将待规整文本数据的文本规整特征作为文本规整模型的输入特征，得到文本规整模型输出的特征序列，即文本规整结果。如文本规整结果中的每个词使用0或1表示，其中0表示需要删除的词，1表示保留的词。

步骤305，根据所述文本规整结果，删除所述待规整文本数据中需要删除的词，得到规整后的文本数据。

本发明实施例提供的文本规整方法，对文本数据进行规整时，提取的文本规整特征不仅包括语义特征而且还包括泛化特征，所述泛化特征用于描述文本数据中重复部分，从而使提取的文本特征可以全面描述文本数据的语义信息。将所述文本规整特征作为文本规整模型的输入，得到文本规整结果，根据该文本规整结果可以针对文本数据中无意义的词及重复部分进行规整，有效地提高了文本规整的效果。

进一步地，在实际应用中，还可以保存所述待规整文本数据及对应的文本规整结果；在用户请求查看被规整掉的文本数据时，显示所述待规整文本数据，并根据所述文本规整结果标记所述待规整文本数据中被规整掉的文本数据，比如，使用删除线或下划线或特定颜色字体等方式显示所述待规整文本数据中被规整掉的文本数据。

相应地，本发明实施例还提供一种文本规整系统，如图4所示，是该系统的一种结构示意图。

在实施例中，所述系统包括：

接收模块401，用于接收待规整文本数据；

分词模块402，用于对待规整文本数据进行分词；

标注模块403，用于对分词后的各词进行词性标注；

规整特征提取模块404，用于提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征，所述语义特征包括每个词的词向量和词性向量，所述泛化特征用于描述文本数据中重复部分；所述泛化特征具体可以包括以下任意一种或多种组合：前后词特征、前后词相似度特征、前后叠词特征、前后词性特征；

规整模块405，用于将所述文本规整特征输入预先构建的文本规整模型，得到文本规整结果；

输出模块406，用于根据所述文本规整结果，删除所述待规整文本数据中需要删除的词，得到规整后的文本数据。

在本发明文本规整系统另一实施例中，还可进一步包括以下各模块：

上述标记模块具体可以使用删除线或下划线或特定颜色字体等显示所述待规整文本数据中被规整掉的文本数据。

这样，可以方便用户对文本数据的查看，而且可以直观地显示出其中被规整掉的文本。

需要说明的是，本发明实施例中的文本规整模型可以由相应的模块(即下文提到的模型构建模块)离线构建，所述模型构建模块可以作为所述系统的一部分，也可以独立于所述系统，而且所述模型构建模块中的一些单元的功能也可以由所述系统中的相应模块来实现，对此本发明实施例不做限定。

如图5所示，是本发明实施例中模型构建模块的一种结构示意图。

该模型构建模块包括：

拓扑结构确定单元51，用于确定文本规整模型的拓扑结构，所述文本规整模型的拓扑结构依次包括：输入层、线性规整层、一个或多个隐层及输出层；其中，隐层节点之间采用双向连接，输出层节点之间存在转移关系；

文本收集单元52，用于收集文本数据；

分词单元53，用于对收集的文本数据进行分词；

预处理单元54，用于对分词后的各词进行词性标注，并标注各词是否为需要规整掉的词，得到各词的标签信息；

特征提取单元55，用于提取各词的文本规整特征，所述文本规整特征包括：语义特征和泛化特征；

训练单元56，用于利用提取的各词的文本规整特征及标签信息，训练得到文本规整模型参数。

本发明实施例提供的文本规整系统，对文本数据进行规整时，提取的文本规整特征不仅包括语义特征而且还包括泛化特征，所述泛化特征用于描述文本数据中重复部分，从而使提取的文本特征可以全面描述文本数据的语义信息。将所述文本规整特征作为文本规整模型的输入，得到文本规整结果，根据该文本规整结果可以针对文本数据中无意义的词及重复部分进行规整，有效地提高了文本规整的效果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本规整方法，其特征在于，包括：

接收待规整文本数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括按以下方式构建文本规整模型：

确定文本规整模型的拓扑结构；

收集文本数据；

对收集的文本数据进行分词；

3.根据权利要求2所述的方法，其特征在于，所述文本规整模型的拓扑结构依次包括：输入层、线性规整层、一个或多个隐层及输出层；其中，隐层节点之间采用双向连接，输出层节点之间存在转移关系。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述泛化特征包括以下任意一种或多种组合：前后词特征、前后词相似度特征、前后叠词特征、前后词性特征。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

保存所述待规整文本数据及对应的文本规整结果；

6.根据权利要求5所述的方法，其特征在于，所述标记所述待规整文本数据中被规整掉的文本数据包括：

7.一种文本规整系统，其特征在于，包括：

接收模块，用于接收待规整文本数据；

分词模块，用于对待规整文本数据进行分词；

标注模块，用于对分词后的各词进行词性标注；

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：模型构建模块，用于构建文本规整模型；所述模型构建模块包括：

拓扑结构确定单元，用于确定文本规整模型的拓扑结构；

文本收集单元，用于收集文本数据；

分词单元，用于对收集的文本数据进行分词；

9.根据权利要求8所述的系统，其特征在于，所述文本规整模型的拓扑结构依次包括：输入层、线性规整层、一个或多个隐层及输出层；其中，隐层节点之间采用双向连接，输出层节点之间存在转移关系。

10.根据权利要求7至9任一项所述的系统，其特征在于，所述泛化特征包括以下任意一种或多种组合：前后词特征、前后词相似度特征、前后叠词特征、前后词性特征。

11.根据权利要求7至9任一项所述的系统，其特征在于，所述系统还包括：

12.根据权利要求11所述的系统，其特征在于，所述标记模块，具体用于使用删除线或下划线或特定颜色字体显示所述待规整文本数据中被规整掉的文本数据。