CN112069394A

CN112069394A - 文本信息的挖掘方法及装置

Info

Publication number: CN112069394A
Application number: CN202010817997.5A
Authority: CN
Inventors: 吴明平; 梁新敏; 陈羲
Original assignee: Shanghai Fengzhi Technology Co ltd
Current assignee: Shanghai Second Picket Network Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-11
Anticipated expiration: 2040-08-14
Also published as: CN112069394B

Abstract

本发明公开了一种文本信息的挖掘方法及装置，挖掘方法包括：步骤S1：对获取的舆情信息进行数据提取获得多个文本，根据文本的发布时间对多个文本进行分组；步骤S2：通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据；步骤S3：通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵；步骤S4：根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征；步骤S5：根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。由此在保证准确率的前提下，提升了算法计算速度，满足了实时计算的需求。

Description

文本信息的挖掘方法及装置

技术领域

本发明涉及一种文本信息的挖掘方法及装置。

背景技术

随着互联网的飞速发展，网络数据源越来越丰富，产生的舆情数据也越来越大，及时的检测舆情数据中包含的主要信息，可以让品牌商及时发现新产品的客户反馈，主流的文本主题挖掘算法依然是LDA主题模型，在LDA中，算法需要维护三个矩阵：θ,φ和字典映射矩阵。它们分别为文档在主题上的分布矩阵，规模为NDKNDK；主题在词上的分布，规模为WKWK和文档次的编号映射矩阵，规模为NDl^-NDl^-。因此其空间复杂度就是NDK+WK+NDl^-NDK+WK+NDl^-了。这种算法的算法复杂度为O(NiterNdKl^-)，所以主题输越多，文本数越多的情况下，算法计算时长越长，所以需要有一种有效的方法对其进行优化。

目前，对LDA主题算法模型进行优化的方法，大致有以下几种，第一，采用并行计算，LDA算法本身是计算所有文章包含的主题，以及每篇文章归属每种主题的概率，即使采用并行方法，最耗时的计算模块本身是串型算法，达到的优化效果不大；第二：以优化算法hdLDA模型为例，是更改抽样方法，hdLDA所需要的不重要变量特别多，但是如果不计入核心算法的话，有φ矩阵，规模为WK；θ矩阵，规模为NDK；ψ矩阵，规模为JW，其中K表示formaltopic的个数，J表示leisure topic的个数；以及文档保存矩阵ptrndata(结构体)，规模为NDC^-lc^-hdLDA的时间复杂度为：NiterND(Kl^-+2KC^-lc^-+C^-lc^-)，因此面对大量文本计算主题时，计算速度依然无法得到保证。

因此亟需开发一种克服上述缺陷的文本信息的挖掘方法及装置。

发明内容

针对上述问题，本发明提供一种文本信息的挖掘方法，其中，包括：

步骤S1：对获取的舆情信息进行数据提取获得多个文本，根据文本的发布时间对多个文本进行分组；

步骤S2：通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据；

步骤S3：通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵；

步骤S4：根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征；

步骤S5：根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。

上述的挖掘方法，其中，所述步骤S1中包括：

步骤S11：根据舆情信息获得包括文本id、发布时间及文本内容的多个文本；

步骤S12：根据发布时间对多个文本进行分组。

上述的挖掘方法，其中，所述步骤S3中包括：

步骤S31：根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d)；

步骤S32：根据对中间层集合中的topic t生成不同主题词的概率

进行计算获得p(w|t)；

步骤S33：根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。

上述的挖掘方法，其中，所述步骤S4中包括：

步骤S41：根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征；

步骤S42：根据每个文本的话题特征获得每个分组的文本话题特征。

上述的挖掘方法，其中，所述步骤S5中根据以下公式获得话题峰值：

其中，S为话题峰值，S_i为文本话题特征，F_ij为分布统计数据。

本发明还提供一种文本信息的挖掘装置，其中，包括：

分组单元，对获取的舆情信息进行数据提取获得多个文本，根据文本的发布时间对多个文本进行分组；

分布统计数据计算单元，通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据；

概率矩阵获得单元，通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵；

文本话题特征获得单元，根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征；

峰值发现单元，根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。

上述的挖掘装置，其中，所述分组单元包括：

提取模块，根据舆情信息获得包括文本id、发布时间及文本内容的多个文本；

分组模块，根据发布时间对多个文本进行分组。

上述的挖掘装置，其中，所述概率矩阵获得单元包括：

第一计算模块，根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d)；

第二计算模块，根据对中间层集合中的topic t生成不同主题词的概率

进行计算获得p(w|t)；

概率矩阵构建模块，根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。

上述的挖掘装置，其中，所述文本话题特征获得单元包括：

第三计算模块，根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征；

第四计算模块，根据每个文本的话题特征获得每个分组的文本话题特征。

上述的挖掘装置，其中，所述峰值发现单元根据以下公式获得话题峰值：

综上所述，本发明相对于现有技术其功效在于：本发明通过对文本进行初步拆分，并计算每个分组中的词在总数据中的分布统计数据，结合分组计算到的主题与主题词概率矩阵，解决了聚类算法进行主题提取无法进行并行计算，且受数据量影响导致计算速度慢的问题，在保证准确率的前提下，提升了算法计算速度，满足了实时计算的需求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的挖掘方法的流程图；

图2为图1中步骤S1的分步骤流程图；

图3为图1中步骤S3的分步骤流程图；

图4为图1中步骤S4的分步骤流程图；

图5为本发明的挖掘方法的应用流程图；

图6为图5中的主题提取与概率矩阵的细部流程图；

图7为本发明的挖掘装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中的“多个”包括“两个”及“两个以上”。

请参照图1，图1为本发明的挖掘方法的流程图。如图1所示，本发明的挖掘方法包括：

步骤S2：通过jieba分词(一种中文分词的算法)对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据；

步骤S3：通过LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵；

步骤S5：根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值，其中，所述步骤S5中根据以下公式获得话题峰值：

进一步地，请参照图2，图2为图1中步骤S1的分步骤流程图。如图2所示，所述步骤S1中包括：

步骤S12：根据发布时间对多个文本进行分组。

进一步地，请参照图3，图3为图1中步骤S3的分步骤流程图。如图3所示，所述步骤S3中包括：

步骤S32：根据对中间层集合中的topic t生成不同主题词的概率

进行计算获得p(w|t)；

更进一步地，请参照图4，图4为图1中步骤S4的分步骤流程图。如图4所示，所述步骤S4中包括：

以下请参照图5-图6，图5为本发明的挖掘方法的应用流程图；图6为图5中的主题提取与概率矩阵的细部流程图。结合图5-图6具体说明本发明挖掘方法的工作过程如下：

步骤1：数据抓取

抓取某个网站有关品牌A的舆情信息，得到如下数据：

文本id

发布时间

文本内容

步骤2、数据分组

如下图所示：横轴表示时间，纵轴表示当天抓取到的文本数量(N0，N1，…，N7)，按照文本发布时间顺序将所有文本平均划分为8份，即每份包含1/8(N0+N1，…+N7)条文本。其中，在本实施例中，以每一天做为一个分组为较佳的实施方式，但本发明并不以此为限。

步骤3、分布统计数据统计

对平均分组后的文本，采用jieba分词进行分词，统计每个组中每个词的分布统计数据定义如下：

F_ij＝N_ij/N_j

上述公式中，F_ij表示第i个分组中词j的分布统计数据，N_ij表示词j在第i个分组中出现的个数，N_j表示第j个词在所有文本中的个数，也即本发明的分布统计数据为某个词在分组中的数量与该词在总文本中数量的比例。

步骤4、分组后的数据进行主题提取：

对平均分组后的文本采用LDA算法进行主题提取，得到文本聚类结果：

LDA的核心公式如下：

p(w|d)＝p(w|t)*p(t|d)

以Topic作为中间层，可以通过当前的θd和

给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到，p(w|t)利用

计算得到。

文档集合D，topic集合T，D中每个文档d看作一个单词序列<w1,w2,...,wn>，wi表示第i个单词，设d有n个单词。D中涉及的所有不同单词组成一个大集合VOC。

LDA以文档集合D作为输入，经过分词，去停用词，最终训练出的两个向量(设聚成k个Topic，VOC中共包含m个词)：

对每个D中的文档d，对应到不同topic的概率θd<pt1,...,ptk>，其中，pti表示d对应T中第i个topic的概率。计算方法是直观的，pti＝nti/n，其中nti表示d中对应第i个topic的词的数目，n是d中所有词的总数。

对每个T中的topic t，生成不同单词的概率

其中，pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观，pwi＝Nwi/N，其中Nwi表示对应到topict的VOC中第i个单词的数目，N表示所有对应到topic t的单词总数。

实际上，利用当前的θd和

可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d)，然后根据这些结果来更新这个词应该对应的topic。然后，如果这个更新改变了这个单词所对应的Topic，就会反过来影响θd和

LDA算法开始时，先随机地给θd和

赋值(对所有的d和t)。然后上述过程不断重复，最终收敛到的结果就是LDA的输出：

文本属于主题的第一概率矩阵为:

每个主题中词分布的第二概率为：

步骤5、根据提取到的主题计算话题峰值。

根据步骤5可以计算得到每条文本属于某个主题的概率，以及每个主题中词的分布概率，举例如下：

假设文本有D条，其中聚合为N个主题，词典包含M个词，

文本属于主题的第一概率矩阵为:

每个主题中词分布的第二概率为：

在实际场景中，当文本达到一定量级，词典中词的个数会很多，但是这个词典是服从幂律分布，即文本中经常高频出现的词会集中于较少的一些词。

步骤2中的数据分组方法，对每个数据分组进行文本属于主题的概率与每个主题中词分布概率的计算，并且选取主题中概率topN的词用于简介表征主题，选取top2(前两个)的文本所属主题为最终表征文本的主题，然后根据以下公式计算每个文本的话题特征：

以文本i为例

f_i＝p_i1*(topn(q_1k))+p_i2*(topn(q_1k))

上述公式中topn(_1k)代表排序后的主题1的topn词的分布概率。

根据以上公式计算后可以得到每条文本的话题特征，然后定义每个分组中的文本话题特征如下：

上述公式中代表第j个数据分组中有m条文本，f_i为每条文本的话题特征。得到每个分组的话题特征后，将结合步骤3中的文本分布统计数据，最终给出话题峰值计算公式如下：

请参照图7，图7为本发明的挖掘装置的结构示意图。如图7所示，本发明的挖掘装置包括：

分组单元11，对获取的舆情信息进行数据提取获得多个文本，根据文本的发布时间对多个文本进行分组；

分布统计数据计算单元12，通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据；

概率矩阵获得单元13，通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵；

文本话题特征获得单元14，根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征；

峰值发现单元15，根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。

进一步地，所述分组单元11中包括：

提取模块111，根据舆情信息获得包括文本id、发布时间及文本内容的多个文本；

分组模块112，根据发布时间对多个文本进行分组。

再进一步地，所述概率矩阵获得单元13包括：

第一计算模块131，根据对每个文本对应到不同中间层集合的概率θd进行计算获得p(t|d)；

第二计算模块132，根据对中间层集合中的topic t生成不同主题词的概率

进行计算获得p(w|t)；

概率矩阵构建模块133，根据p(t|d)及p(w|t)构建第一概率矩阵及第二概率矩阵。

更进一步地，所述文本话题特征获得单元14包括：

第三计算模块141，根据第一概率矩阵及第二概率矩阵获得每个文本的话题特征；

第四计算模块142，根据每个文本的话题特征获得每个分组的文本话题特征。

其中，所述峰值发现单元15根据以下公式获得话题峰值：

综上所述，本发明通过对文本进行初步拆分，并计算每个分组中的主题词的分布统计数据，结合分组计算到的主题与主题词概率矩阵，解决了聚类算法进行主题提取无法进行并行计算，且受数据量影响导致计算速度慢的问题。在保证准确率的前提下，提升了算法计算速度，满足了实时计算的需求。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本信息的挖掘方法，其特征在于，包括：

2.如权利要求1所述的挖掘方法，其特征在于，所述步骤S1中包括：

步骤S12：根据发布时间对多个文本进行分组。

3.如权利要求1所述的挖掘方法，其特征在于，所述步骤S3中包括：

步骤S32：根据对中间层集合中的topic t生成不同主题词的概率

进行计算获得p(w|t)；

4.如权利要求1所述的挖掘方法，其特征在于，所述步骤S4中包括：

5.如权利要求1所述的挖掘方法，其特征在于，所述步骤S5中根据以下公式获得话题峰值：

6.一种文本信息的挖掘装置，其特征在于，包括：

7.如权利要求6所述的挖掘装置，其特征在于，所述分组单元中包括：

分组模块，根据发布时间对多个文本进行分组。

8.如权利要求6所述的挖掘装置，其特征在于，所述概率矩阵获得单元包括：

进行计算获得p(w|t)；

9.如权利要求6所述的挖掘装置，其特征在于，所述文本话题特征获得单元包括：

10.如权利要求1所述的挖掘装置，其特征在于，所述峰值发现单元根据以下公式获得话题峰值：