CN110110326B

CN110110326B - 一种基于主题信息的文本切割方法

Info

Publication number: CN110110326B
Application number: CN201910339645.0A
Authority: CN
Inventors: 魏笔凡; 李鸿轩; 刘均; 郑庆华; 吴蓓; 张铎; 吴科炜; 郭朝彤
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-10-27
Anticipated expiration: 2039-04-25
Also published as: CN110110326A

Abstract

本发明公开了一种基于主题信息的文本切割方法，具体操作如下：对输入文本以及训练集进行预处理，获得一系列单词组成的句子；然后进行特征提取，得到其特征向量；再根据其蕴含的语义信息对输入文本进行聚类操作，得到一系列句子簇，并为每个簇按顺序分配一个数字标签，得到一系列带有数字标签的单句；为每一个句子分配一个训练集中已有的主题标签，使得训练集中已有的主题标签分配至文本中的所有句子；利用数字标签标注结果和主题标签标注结果，进行修正，得到带主题标签的文本片段，将主题标签分配到切割后的文本上，使句子描述的主题都清晰可见，可以方便的根据主题定位到文本中描述该主题的位置，使得检索更为方便。

Description

一种基于主题信息的文本切割方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于主题信息的文本切割方法。

背景技术

文本通常由一系列存在语义相关的片段构成。随着当今网络规模的急剧增长，网络上的文本数量也在急剧的增加。网络文本中，篇幅较长的文本占有相当一部分比例。这些文本大部分都没有经过细致的划分，仅仅是一系列存在语义相关关系的片段堆叠。这既不方便于人们的阅读，也不方便于自然语言处理和信息检索领域等的研究者进行研究。

为了解决上述问题，通常文本进行切割。对于浏览者而言，切割之后得到了与单个主题相关的片段，使得文本阅读起来更为简洁明了，并且可以更加快速直观地浏览到所需要特定主题相关的文本内容。对研究者而言，切割之后得到的单一主题的内容可以方便进行后续的研究，如在信息检索领域，当长文本被切割为单个主题的片段之后，便可以通过主题初步的对要搜寻的信息进行检索，进而加快信息检索效率。因此，研究文本的主题切割对普通浏览者与研究者而言，都具有重要的意义。

现有技术中有一种基于文本相似度的事件情感分类方法，专利申请号：CN201810642911；该专利提出了一种基于文本相似度的事件情感分析方法，首先计算出事件event情感值，获得单个文本情感分类模型，然后根据余弦相似度、文本情感倾向等判断事件情感分类，从而分析出情感的种类。具体包括：设整个待处理事件的情感值为S，设情感分界值分别为S1、S2；选取并生成单文本情感分类模型model，情感类别为正面、中立、负面；根据余弦相似度将文本聚类，聚合成不同的事件类；设置事件的分割参数limit-num，用来控制事件中的文本切割参数；针对每一个事件类event，按照声量值选择文本，然后判断分析；将事件类中所有文本向量进行均值运算，生成该类的均值向量，将均值向量输入到应用模型model中，输出均值向量情感值p_avg；事件内部存在情感倾向的文本，计算情感值；利用情感分类模型对事件情感值进行计算(综合w1,w2)，其中，w1+w2＝1；判断事件情感分类s＝p(event)，若s≥s2，则事件为正向；若s1＜s＜s2，则事件为中立；若s≤s1，则事件为负向。

上述文本相似度的事件情感分类方法专利技术方案中，仅仅对文本中蕴含的情绪进行了分析，并以此为基础对文本进行切割和判断。而对于描述了不同主题下内容的文本，并不能按照其描述的内容分隔开。

发明内容

本发明的目的在于提供一种基于主题信息的文本切割方法，通过kmeans聚类和SVM分类将文本切割问题转化为一个“预处理-聚类-分类-综合修正”的过程；使用WR算法将句子简便的表示为一个向量，使用主成分分析算法将句子向量表示的更为精炼，再通过传统的聚类分类方法，快速准确的对文本进行切割和分配主题标签，本发明通过结合分类的方法，可以很好的将文本按照其描述的内容分割开来。

为了实现上述目的，本发明采用的技术方案是，

一种基于主题信息的文本切割方法，包括以下步骤：

步骤1，对输入文本及训练集进行预处理，获得一系列单词组成的句子,具体包括：

步骤101，对于输入文本，将其按照句子结尾标点符号进行划分，获得一系列单独的句子，每个句子单独占一行；所述句子结尾标点符号包括所有可以用于中文单句结尾处的标点符号；对于训练集，其格式为句子-主题标签，其中句子和主题标签均为中文文本；将其中的句子部分进行上述操作；

步骤102，对步骤101所得单独的句子进行分词，并去除数字、停用词、标点符号以及所有非中文字符，获得一系列单词组成的句子，所述句子的格式为：每一行为一系列单词，单词之间使用空格隔开；

步骤2，对步骤1所得的所有句子进行特征提取，得到每个句子的句向量，具体包括：

S201，使用连续词袋模型(CBOW)将文本中出现的每一个单词转化为一个100维的词向量；

S202，根据S201得到的词向量，使用WR方法对句子进行建模：首先根据词频对单个句子中的每个词向量赋予一定的权重，该权重由人工设置；通过如下公式：

得到一个初始句向量；其中v_s为初始句向量，s为句子集合中的某个句子，w为该句子中出现的某个单词，a为人工设置的权重参数，p(w)为单词w在所有句子中出现的频率，v_w表示单词w的词向量。

S203，对输入文本中的每个句子，循环执行S202，得到一个行数为句子个数，列数为100的初始句向量矩阵。

S204，对S203中得到的初始句向量矩阵，将其进行转置，并进行矩阵奇异值分解，使得句子中无关的特征被移除。分解之后得到三个矩阵，取出第一个矩阵，并记为u。

S205，对输入文本中的某个句子s，根据S202中得到的初始句向量v_s以及S204中得到的矩阵u，进行如下操作：

v_s＝v_s-uu^Tv_s

其中，u^T表示矩阵u的转置，该步骤得到的等号左侧的v_s即为句子s的最终句向量。

S206，对输入文本中的每个句子，执行S205，得到每一个句子所对应的最终句向量。

步骤3，利用步骤2所得最终句向量，根据其蕴含的主题信息对文本进行标注，

首先使用主成分分析法对句向量进行特征提取，使得句向量从100维映射到较低维度，并得到降维之后的句向量，接下来使用kmeans算法对降维后的句向量进行聚类，得到若干个簇，对所述簇依次进行编号，并分别将簇对应的句子打上与所述簇相同的标号，得到一系列带有数字标签的单句；

步骤4，利用训练集训练一个SVM分类器，接下来利用这个SVM分类器对降维后的句向量进行分类，为每一个句子分配一个训练集中已有的主题标签，得到一系列带有主题标签的单句；

步骤5，利用数字标签标注结果和主题标签标注结果，综合进行修正，具体包括：

501，将SVM分类结果与kmeans聚类结果按顺序进行一一配对，对于kmeans聚类结果中的每个数字标签，统计其对应的SVM主题标签及每个主题标签的个数，并将数字标签和与其对应的出现最多次数的主题标签进行对应，构成一个查询字典；如果存在某两个数字标签下出现次数最多的主题标签相同的情况，则暂时不将这两个数字标签与主题标签进行对应，等到其他的主题标签与数字标签对应完成后，再根据空缺的标号与空缺的主题标签进行对应；

502，将SVM中的主题标签按照步骤501所得查询字典进行映射，映射结果为一个标号集合，对所述标号集合与kmeans聚类结果得到的标号集合进行异或操作，得到一个0-1向量；

503，根据步骤502所得0-1向量对SVM得到的主题标签进行修正：对于异或得到的结果中的所有的1，对其左侧句子和右侧句子分别进行分析，如果两边的结果均为0，且标签一致，则将对于异或操作得到结果为1位置处更正为与其左右句子的标签一致；如果两侧结果均为0，但标签不同，则对于异或操作得到结果为1位置处的句子单独属于一个类；如果两侧有一个1，则以0一侧的标签为准进行修正；如果两侧均为1，则不进行任何操作；循环执行503，直至结果不再发生变动，得到稳态结果。

504，根据503得到的稳态结果，每一个句子都被分配了一个单独的数字标签(并对应着一个主题标签)，并且每一个主题标签只会在相邻的几个句子之间出现(即不会出现：句子s₁属于主题标签A，其相邻的句子s₂,s₃属于主题标签B，其后出现的句子又属于主题标签A的情况)；根据句子主题标签发生改变的边界，对文本进行切割，即可得到带主题标签的文本片段。

与现有技术相比，本发明至少具有以下有益的技术效果：

本发明利用了文本的主题信息，实现了将文本根据主题信息所进行的切割；将聚类和分类方法进行巧妙的结合，利用传统的机器学习算法，可以方便快速的将文本按照其主题分割开；利用训练集训练分类器，将主题标签分配到切割后的文本上，使得每一个句子描述的主题都清晰可见，而不是只获得文本的情绪倾向；利用最终分割后的结果，可以方便的根据主题定位到文本中描述该主题的位置，使得检索更为方便。

附图说明

图1是本发明的流程图。

图2是文本切割过程的示例图。

图3是针对图2进行主题标注的示例图。

具体实施方式

以下结合附图及实例对本发明作进一步的说明。

如图1所示，一种基于主题信息的文本切割方法可以分为如下五个过程：

步骤1，对输入文本以及训练集进行预处理，获得一系列单词组成的句子；包括两个步骤。

101，对于输入文本，将其按照结尾标点符号进行划分，所述结尾标点符号指所有可用于中文句子结尾的符号；获得一系列单独的句子，每个句子单独占一行，对于训练集，其格式为：句子-主题标签，其中句子和主题标签均为中文文本。将其中的句子部分进行上述操作。

102，对单独的句子进行分词，并去除数字，停用词，标点符号以及非中文特殊符号。获得一系列单词组成的句子。格式为：每一行为一系列单词，单词之间使用空格隔开；

步骤2，对句子进行特征提取，得到每个句子的句向量，包括两个步骤：

S201，结合文本的语义主题特征，使用连续词袋模型(CBOW)将文本中出现的每一个单词转化为一个100维的词向量；

S205，对输入文本中的某个句子s，根据S202中得到的初始句向量v_s以及204中得到的矩阵u，进行如下操作：v_s＝v_s-uu^Tv_s其中，u^T表示矩阵u的转置，该步骤得到的等号左侧的v_s即为句子s的最终句向量。

步骤3，利用步骤2获得的特征向量，根据其蕴含的主题信息对文本进行标注；

首先使用主成分分析法对100维句向量映射到较低维度，得到降维的句向量，接下来使用kmeans算法对所述句向量进行聚类得到几个簇，对所述簇依次进行编号，并分别将对应的句子打上与簇相同的标号；

步骤4，用训练集训练分类器，将训练集中已有的主题标签分配至文本中的所有句子。

主题标注时，首先利用训练集训练一个SVM分类器，接下来利用这个SVM分类器对句向量进行分类，为每一个句子分配一个主题标签。

步骤5，对数字标签标注结果和主题标签标注结果综合进行修正

501，将SVM分类结果与kmeans聚类结果按顺序进行一一配对，对于kmeans聚类结果中的每个数字标签，统计其对应的SVM主题标签及每个主题标签的个数，并将数字标签和与其对应的出现最多次数的主题标签进行对应，构成一个查询字典。如果存在某两个数字标签下出现次数最多的主题标签相同的情况，则暂时不将这两个数字标签与主题标签进行对应，等到其他的主题标签与数字标签对应完成后，再根据空缺的标号与空缺的主题标签进行对应；

502，将SVM中的主题标签按照查询字典进行映射，映射结果为一个标号集合；对这个标号集合与kmeans聚类结果得到的标号集合进行异或操作，得到一个0-1向量。

503，根据所述0-1向量对SVM得到的主题标签进行修正：对于异或得到的结果中的所有的1，对其左侧句子和右侧句子分别进行分析，如果两边的结果均为0，且标签一致，则将该位置更正为与左右句子的标签一致；如果两侧结果均为0，但标签不同，则该位置的句子单独属于一个类；如果两侧有一个1，则以0一侧的标签为准进行修正；如果两侧均为1，则不进行任何操作；循环执行503，直至结果不再发生变动，得到稳态结果如图2所示；

504，根据503得到的稳态结果，每一个句子都被分配了一个单独的数字标签，并对应着一个主题标签，并且每一个主题标签只会在相邻的几个句子之间出现，即不会出现：句子1属于主题标签A，其相邻的句子2属于主题标签B，其后出现的句子3又属于主题标签A的情况；根据句子主题标签发生改变的边界，对文本进行切割，即可得到带主题标签的文本片段，如图3所示。

Claims

1.一种基于主题信息的文本切割方法，其特征在于，包括以下步骤：

步骤1，对输入文本以及训练集进行预处理，获得一系列单词组成的句子；

步骤2，对步骤1得到的句子进行特征提取，得到每个句子的句向量；

步骤3，利用步骤2获得的输入文本的特征向量，根据其蕴含的语义信息对输入文本进行聚类操作，得到一系列句子簇，并为每个簇按顺序分配一个数字标签，得到一系列带有数字标签的单句；

步骤4，利用训练集训练分类器，将步骤2得到的输入文本的特征向量使用分类器进行分类，为每一个句子分配一个训练集中已有的主题标签，使得训练集中已有的主题标签分配至文本中的所有句子，得到分配了主题标签的单句；

步骤5，对步骤3得到的带有数字标签的单句和步骤4得到的已分配主题标签的单句进行综合进行修正，得到带主题标签的文本片段，修正的具体操作如下：

501，将步骤4中的分类结果与步骤3中的聚类结果按顺序进行一一配对，对于聚类结果中的每个数字标签，统计其对应的分类主题标签及每个主题标签的个数，并将数字标签和与其对应的出现最多次数的分类主题标签进行对应，构成一个查询字典；

502，将分类主题标签按照步骤501所得查询字典进行映射，映射结果为一个标号集合，对所述标号集合与聚类结果得到的标号集合进行异或操作，得到一个0-1向量；

503，根据步骤502所得0-1向量对分类得到的主题标签进行修正：对于异或操作得到的结果中的所有的1，对其左侧句子和右侧句子分别进行分析，如果两边的结果均为0，且标签一致，则将对于异或操作结果为1位置处句子的标签更正为其左右句子的标签；如果两侧结果均为0，但标签不同，则对于异或操作得到结果为1位置处的句子单独归属为一个类；如果两侧有一个1，则以0一侧的标签为准进行修正；如果两侧均为1，则不进行任何操作；循环执行503，直至结果不再发生变动，得到稳态结果；

504，根据503得到的稳态结果，每一个句子都被分配了一个单独的数字标签，数字标签并对应着一个主题标签，并且每一个主题标签只会在相邻的几个句子之间出现，根据句子主题标签发生改变的边界，对文本进行切割，即可得到带主题标签的文本片段。

2.根据权利要求1所述的基于主题信息的文本切割方法，其特征在于，步骤1中，所述预处理是将输入文本按照句子结尾标点符号进行划分，获得一系列单独的句子，并对所得单独的句子进行分词。

3.根据权利要求2所述的基于主题信息的文本切割方法，其特征在于，步骤1中，所述句子结尾标点符号包括所有可以用于中文单句结尾处的标点符号。

4.根据权利要求2所述的基于主题信息的文本切割方法，其特征在于，步骤1中，需要去除单独句子中的数字、停用词、标点符号以及所有非中文字符；所述句子的格式为：每一行为一系列单词，单词之间使用空格隔开。

5.根据权利要求1所述的基于主题信息的文本切割方法，其特征在于，从经过步骤1预处理得到的文本中提取一部分句子作为训练集，训练集的格式为：句子-主题标签，其中句子和主题标签均为中文文本。

6.根据权利要求1所述的基于主题信息的文本切割方法，其特征在于，步骤2具体包括以下步骤：

S201，使用连续词袋模型将文本中出现的每一个单词转化为一个100维的词向量；

S202，根据S201得到的词向量，使用WR方法对句子进行建模，得到一个初始句向量v_s；

S203，对输入文本中的每个句子，循环执行S202，得到一个行数为句子个数，列数为100的初始句向量矩阵；

S204，将S203中得到的初始句向量矩阵进行转置，并进行矩阵奇异值分解，移除句子中无关的特征，分解之后得到三个矩阵，取出第一个矩阵，并记为u；

S205，对输入文本中的某个句子s，根据S202中得到的初始句向量v_s以及S204中得到的矩阵u，进行如下操作

v_s＝v_s-uu^Tv_s

其中，u^T表示矩阵u的转置，等号左侧的v_s即为句子s的最终句向量；

S206，对输入文本中的每个句子，循环执行S205，得到每一个句子所对应的最终句向量。

7.根据权利要求6所述的基于主题信息的文本切割方法，其特征在于，步骤202中，首先根据词频对单个句子中的每个词向量赋予一定的权重，该权重由人工设置；通过如下公式得到一个初始句向量

其中v_s为初始句向量，s为句子集合中的某个句子，w为该句子中出现的某个单词，a为人工设置的权重参数，p(w)为单词w在所有句子中出现的频率，v_w表示单词w的词向量。

8.根据权利要求6所述的基于主题信息的文本切割方法，其特征在于，步骤3中，首先使用主成分分析法对步骤2所得句向量进行特征提取，使得句向量从100维映射到较低维度，并得到降维之后的句向量，接下来使用kmeans算法对降维后的句向量进行聚类，得到若干个簇，对所述簇依次进行编号，并分别将簇对应的句子打上与所述簇相同的标号，得到一系列带有数字标签的单句。

9.根据权利要求1所述的基于主题信息的文本切割方法，其特征在于，步骤501中，如果存在某两个数字标签下出现次数最多的主题标签相同的情况，则暂时不将这两个数字标签与主题标签进行对应，等到其他的主题标签与数字标签对应完成后，再根据空缺的标号与空缺的主题标签进行对应。