CN109829151B

CN109829151B - 一种基于分层狄利克雷模型的文本分割方法

Info

Publication number: CN109829151B
Application number: CN201811427181.0A
Authority: CN
Inventors: 陈建; 王红凯; 叶卫; 龚小刚; 王以良; 唐锦江; 郭亚琼; 陈超; 孙嘉赛; 许敏; 喻谦; 吴哲翔; 姜维
Original assignee: State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2023-04-21
Anticipated expiration: 2038-11-27
Also published as: CN109829151A

Abstract

本发明属于文本分割技术领域，尤其涉及一种基于分层狄利克雷模型的文本分割方法，包括以下步骤：S1，获取新闻语料库，对新闻语料库进行预处理，获得整个新闻语料库的分词集合，并对分词集合做词频统计；S2，将统计词频后的结果放入分层狄利克雷过程模型训练，保存训练好的分层狄利克雷过程模型；S3，通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量，根据主题向量实现文本分割。通过使用本发明，可以实现以下效果：该方法使得文本分割不再依赖于主题个数的人工设置，通过分层狄利克雷过程模型自动生成主题向量，提高了文本分割的效率。

Description

一种基于分层狄利克雷模型的文本分割方法

技术领域

本发明属于文本分割技术领域，尤其涉及一种基于分层狄利克雷模型的文本分割方法。

背景技术

随着网络的快速发展，人们逐渐跨入全新的网络时代，各种电子文本信息更是以爆炸性的速度增长。各类海量信息在给社会带来便利的同时，同时也为文本处理与分析带来了巨大的挑战，比如如何从这海量信息中快速准确的获得有效信息等。文本分割则是以主题相关的原则对文本进行分割，使得各语义段落之间具有最小的相似度，各语义段落内具有最大相似度，据此来寻找不同主题的边界。

文本分割常用的方法有基于词汇聚集的方法、基于语言特征的方法和基于主题模型的方法。基于词汇聚集的方法忽略了词与词之间的关系，因而分割的准确性有限；基于语言特征的方法无法适用于所有的语料库，在特定的领域分割的效果较好。石晶等人提出了概率潜在语义分析模型和潜在狄利克雷模型的分割方法，Ridel等人将TextTiling和LDA模型相结合，通过对LDA模型每次采样得到的主题分布进行统计以确定最终的主题分布，提高了主题模型对文本表示的稳定性。上述这些方法都是基于主题模型的方法，该类方法能够反映出文本语义信息，因此提高了文本分割的准确性。然而基于LDA的TextTiling方法依赖于主题个数的人工设置。在实际应用中，主题个数的设置对文本分割效果的影响很大，如果主题个数设置过高会造成训练过拟合，设置过低会造成对文本的描述不够全面。

传统文本分割算法普遍依赖于主题个数的人工设置，对于大型语料库很难去估计其中的主题个数，容易造成过拟合或者对文本描述不全面。

发明内容

为解决上述问题，本发明提出一种基于分层狄利克雷模型的文本分割方法，使得文本分割不再依赖于主题个数的人工设置。

一种基于分层狄利克雷模型的文本分割方法，包括以下步骤：

S1，获取新闻语料库，对新闻语料库进行预处理，获得整个新闻语料库的分词集合，并对分词集合做词频统计；

S2，将统计词频后的结果放入分层狄利克雷过程模型训练，保存训练好的分层狄利克雷过程模型；

S3，通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量，根据主题向量实现文本分割。

优选的，在所述步骤S2～S3之间还包括：构建新闻测试文档，通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割，并使用错误率P_k和WindowDiff作为评价指标进行验证。

优选的，所述获取新闻语料库，对新闻语料库进行预处理，获得整个新闻语料库的分词集合，并对分词集合做词频统计包括以下步骤：

S11，利用BeautifulSoup库解析新闻语料库中的HTML文本，保留文本信息；

S12，利用ICTCLAS平台对文本信息进行词语切分，去除无用的介词、虚词、数词词语，提取关键的词语进行处理，在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。

优选的，所述将统计词频后的结果放入分层狄利克雷过程模型训练，保存训练好的分层狄利克雷过程模型包括以下步骤：

S21，设新闻语料库中的每篇文本的主题都来源于基分布H，从基分布H中获取该新闻语料库的总体基分布G₀～DP(γ,H)，其中γ是聚集参数；

S22，构造每一篇文本的主题分布：G_j～DP(α₀,G₀)，j＝1,2,…,M，其中G₀表示总体基分布，α₀为聚集参数；

S23，以每一篇文本的主题分布为基础，构造分层狄利克雷模型：

θ_ji|G_j～G_j,X_ji|θ_ji～Fθ_ji)

其中Fθ_ji)表示在给定参数θ_ji的情况下，变量X_ji的分布；参数θ_ji条件独立服从G_j分布，变量X_ji条件独立服从F(θ_ji)分布，X_ji表示第j篇文本的第i个词。

优选的，所述通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量，根据主题向量实现文本分割包括以下步骤：

S31，构建主题向量

对待分割文本进行预处理，得到待分割文本的分词集合并统计词频，将统计词频后的结果放入分层狄利克雷过程模型，分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID，设主题向量表示为：T＝(topic₁,topic₂,…,topic_n)，其中topic_t为主题IDt在待分割文本中出现的频率；n表示分层狄利克雷过程模型自动生成的主题个数；

S32，主题向量的余弦相似度计算

以一个句子S_n作为待分割文本中的最小的基本单位，使用分层狄利克雷过程模型得到的主题向量作为句子的表示，得到句子e和f的主题向量S_e＝(x₁,x₂,…,x_n)，S_f＝(y₁,y₂,…,y_n)，n表示分层狄利克雷过程模型自动生成的主题个数；在相邻句子间的每个位置p，计算相邻句子的相似度C_p：

其中S_e和S_f表示句子e和f的主题向量；

S33，实现文本分割

计算每个位置p的深度值D_p，通过查看左右两侧的最高相似度来测量最小深度值，判断公式：D_p＝1/2(hl(p)-C_p+hr(p)-C_p)，

其中，函数hl(p)返回序列间隙索引I左侧的最高相似度，hr(p)则返回右侧的最高相似度，基于深度分数搜索局部最大位置，对获得的最大值得分进行排序，如果输入N个段落，则将N个最高深度值作为判断语义段落边界的依据，否则如果深度值大于α-β/2，则预测出边界，其中α表示平均深度值，β表示在深度值的标准偏差。

优选的，所述错误率P_k的计算方法如下：

P_k＝P(s)*P(miss)+P(false_alarm)(1-P(s))

其中P(s)表示距离为k的两个句子属于不同语义段落的概率；相反1-P(s)就表示距离为k的两个句子属于相同段落的概率；P(miss)表示算法分割结果缺少一个段落的概率；P(false_alarm)则表示算法分割结果添加一个段落的概率。

优选的，所述WindowDiff的计算方法如下：

其中Ref表示文档的真实分割；Hyp表示算法分割；函数B(i，j)表示整句Sentence_i和整句Sentence_j的边界数量；S_N表示文本中整句的数量；设k为真实分割中片段平均长度的一半。

通过使用本发明，可以实现以下效果：该方法使得文本分割不再依赖于主题个数的人工设置，通过分层狄利克雷过程模型自动生成主题向量，提高了文本分割的效率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例的整体流程示意图；

图2是本发明实施例中步骤S1的流程示意图；

图3是本发明实施例中步骤S2的流程示意图；

图4是本发明实施例中步骤S4的流程示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明的主要思想是对待分割文本进行预处理，得到待分割文本的分词集合并统计词频，将统计词频后的结果放入分层狄利克雷过程模型，分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID，从而得到主题向量。该方法使得文本分割不再依赖于主题个数的人工设置，通过分层狄利克雷过程模型自动生成主题向量，提高了文本分割的效率。

如图1所示，本发明实施例提出一种基于分层狄利克雷模型的文本分割方法，包括以下步骤：

如图2所示，具体包括以下步骤：

新闻语料库中包含了很多脚本代码，利用Python的BeautifulSoup库解析HTML文本，保留有用的文本信息。

具体还包括：

去除链接地址：链接地址显然也需要在进一步分析前被去掉，可以使用正则表达式达到这个目的。

去除停用词：停用词是在每个句子中都很常见，但对分析没有意义的词。比如英语中的“is”、“but”、“shall”、“by”，汉语中的“的”、“是”、“但是”等。语料中的这些词可以通过匹配文本处理程序包中的停用词列表来去除。

词干化：指的是将单词的派生形式缩减为其词干的过程，已经有许多词干化的方法。词干化主要使用在英文中，如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为“program”，目的是将含义相同、形式不同的词归并，方便词频统计。

去除标点符号：标点符号显然对文本分析没有帮助，因此需要去除。

S12，利用中科院计算所的ICTCLAS平台对每一篇文本进行词语切分，去除那些出现频率很高但是对文本分割作用不大的介词、虚词、数词词语，提取出关键的名词、形容词等重要词语进行处理，在得到新闻语料库的分词集合后利用gensim的doc2bow实现词频统计。

如图3所示，具体包括以下步骤：

S21，对整个新闻语料库，为了保证各个文本之间能共享主题，设每篇文本的主题都来源于基分布H，从H中获取该新闻语料库的总体基分布G₀～DP(γ,H)，其中γ是聚集参数；

S22，构造每一篇文本的主题分布：G_j～DP(α₀,G₀)，j＝1,2,…,M，公式中的G₀就是S21过程中的主题分布，以G₀为基分布，α₀为聚集参数；

θ_ji|G_j～G_j,X_ji|θ_ji～Fθ_ji)

S3，构建新闻测试文档，通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割，并使用错误率P_k和WindowDiff(WD)作为评价指标进行验证。

其中，构建新闻测试文档的方法为：从新闻语料库中选取5000篇文档来制作测试语料库，每次从选取的新闻语料库中随机选10篇不同类别的文档，从每篇文档中提取4-10个凸显主题的句子形成段落，将这10个不同类别的段落重新组合成新的文档。重新组合的文档中每一个段落来自不同的类别，拼接的地方就是新文本的主题边界。

具体的，错误率P_k的计算方法如下：

P_k＝P(s)*P(miss)+P(false_alarm)*(1-P(s))

其中P(s)表示距离为k的两个句子属于不同语义段落的概率；相反1-P(s)就表示距离为k的两个句子属于相同段落的概率，一般情况下P(s)取0.5；P(miss)表示算法分割结果缺少一个段落的概率；P(false_alarm)则表示算法分割结果添加一个段落的概率。

具体的，WindowDiff(WD)的计算方法如下：

使用错误率P_k和WindowDiff(WD)作为评价指标进行验证，当错误率P_k大于其设定阈值或者WindowDiff(WD)大于其设定阈值，则需要对分层狄利克雷过程模型进行重新训练，当错误率P_k小于其设定阈值且WindowDiff(WD)小于其设定阈值，则验证通过。

S4，通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量，根据主题向量实现文本分割。

如图4所示，包括以下步骤：

S41，构建主题向量

S42，主题向量的余弦相似度计算

其中S_e和S_f表示句子e和f的主题向量；

S43，实现文本分割

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于分层狄利克雷模型的文本分割方法，其特征在于，包括以下步骤：

S3，通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量，根据主题向量实现文本分割，包括：

S31，构建主题向量

对待分割文本进行预处理，得到待分割文本的分词集合并统计词频，将统计词频后的结果放入分层狄利克雷过程模型，分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID，设主题向量表示为：T(topic₁,topic₂,…,topic_n)，其中topic_t为主题IDt在待分割文本中出现的频率；n表示分层狄利克雷过程模型自动生成的主题个数；

S32，主题向量的余弦相似度计算

其中S_e和S_f表示句子e和f的主题向量；

S33，实现文本分割

2.如权利要求1所述的基于分层狄利克雷模型的文本分割方法，其特征在于，在所述步骤S2～S3之间还包括：构建新闻测试文档，通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割，并使用错误率P_k和WindowDiff作为评价指标进行验证。

3.如权利要求1所述的基于分层狄利克雷模型的文本分割方法，其特征在于，所述获取新闻语料库，对新闻语料库进行预处理，获得整个新闻语料库的分词集合，并对分词集合做词频统计包括以下步骤：

4.如权利要求1所述的基于分层狄利克雷模型的文本分割方法，其特征在于，所述将统计词频后的结果放入分层狄利克雷过程模型训练，保存训练好的分层狄利克雷过程模型包括以下步骤：

S21，设新闻语料库中的每篇文本的主题都来源于基分布H，从基分布H中获取该新闻语料库的总体基分布G₀～DPγ,H)，其中γ是聚集参数；

S22，构造每一篇文本的主题分布：G_j～DPα₀,G₀)，j＝1,2,…,M，其中G₀表示总体基分布，α₀为聚集参数；

θ_ji|G_j～G_j,X_ji|θ_ji～Fθ_ji)

5.如权利要求2所叙述的基于分层狄利克雷模型的文本分割方法，其特征在于，所述错误率P_k的计算方法如下：

P_k＝P(s)*P(miss)+P(false_alarm)*1P(s))

其中P(s)表示距离为k的两个句子属于不同语义段落的概率；相反1P(s)就表示距离为k的两个句子属于相同段落的概率；P(miss)表示算法分割结果缺少一个段落的概率；P(false_alarm)则表示算法分割结果添加一个段落的概率。

6.如权利要求2所叙述的基于分层狄利克雷模型的文本分割方法，其特征在于，所述WindowDiff的计算方法如下：