CN110909130A

CN110909130A - 文本主题提取分析方法、装置及计算机可读存储介质

Info

Publication number: CN110909130A
Application number: CN201911138084.4A
Authority: CN
Inventors: 徐楠; 黄晨; 张蓓; 沈志勇; 刘屹
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-24
Anticipated expiration: 2039-11-19
Also published as: CN110909130B

Abstract

本发明涉及人工智能技术，揭露了一种文本主题提取分析方法，包括：获取原始文本集，对所述原始文本集进行查询筛选，得到标准文本集；提取所述标准文本集在时间维度上的文本分布，得到时间文本集；将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集；对所述主题文本集进行去重处理，并将去重处理后的所述主题文本集进行排序，从而完成所述原始文本集的主题提取分析。本发明还提出一种文本主题提取分析装置以及一种计算机可读存储介质。本发明实现了文本主题的智能提取分析。

Description

文本主题提取分析方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于时间维度的文本主题提取分析方法、装置及计算机可读存储介质。

背景技术

当今社会是一个信息爆炸的时代，每天都会产生大量的文本数据，在这些海量文本数据中往往包含了很多重要的事件和信息，同时这些事件和信息在时间维度上也有着多样的变化情况，目前在现有技术中对文本数据的筛选、分析、提取的技术方案往往很少考量时间维度，因此在事件信息的重要程度的权重选择上会产生严重的偏差。

发明内容

本发明提供一种文本主题提取分析方法、装置及计算机可读存储介质，其主要目的在于给用户提供一种基于时间维度的文本主题提取分析的技术方案。

为实现上述目的，本发明提供的一种文本主题提取分析方法，包括：

获取原始文本集，对所述原始文本集进行查询筛选，得到标准文本集；

提取所述标准文本集在时间维度上的文本分布，得到时间文本集；

将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集；

对所述主题文本集进行去重处理，并将去重处理后的所述主题文本集进行排序，从而完成所述原始文本集的主题提取分析。

可选地，所述提取所述标准文本集在时间维度上的文本分布，得到时间文本集，包括：

基于时间戳对所述标准文本集进行归一化处理，将归一化处理后的所述标准文本集利用一个预设的最小方差值进行方差限制操作，以将所述标准文本集调整为正态分布；

将调整为正态分布的所述标准文本集按时间为x轴、文本数量为y轴绘制直方图，对所述直方图中每一段单位时间的文本数量求方差，获取方差高于预设阈值的文本，得到初选文本集；

计算所述初选文本集中所有文本的时间戳的均值μ和标准差σ，根据所述均值μ和标准差σ得到一个筛选区间，获取时间戳在所述筛选区间范围内的文本，得到目标文本集；

利用距离算法计算所述目标文本集之间的距离，根据所述距离对所述目标文本集执行合并操作，得到所述时间文本集。

可选地，所述距离算法的公式为：

Jaccard(O_A,O_B)表示所述目标文本集中任意两个目标文本的距离值， O_A∩O_B表示所述目标文本集中任意两个目标文本中相同词语的个数，O_A∪O_B表示将所述目标文本集中任意两个目标文本中相同词语进行合并后所有元素的总个数。

可选地，所述将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集，包括：

通过所述主题文本分析模型的数据接收层接收所述时间文本集，根据所述时间文本集的时间戳获取所述时间文本在正态分布出现峰值时的关键词，通过方差均值生成所述关键词的时间维度，根据所述关键词的时间维度对所述时间文本进行汇总，从而输出所述时间文本集的主题文本集。

可选地，所述对所述主题文本集进行去重处理的计算方法的公式为：

其中，X、Y表示所述主题文本集中任意两个主题文本，i表示主题文本数量。

此外，为实现上述目的，本发明还提供一种文本主题提取分析装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的文本主题提取分析程序，所述文本主题提取分析程序被所述处理器执行时实现如下步骤：

可选地，所述距离算法的公式为：

通过所述主题文本分析模型的数据接收层接收所述时间文本集，根据所述时间文本集的时间戳上获取所述时间文本在正态分布出现峰值时的关键词，通过方差均值生成所述关键词的时间维度，根据所述关键词的时间维度对所述时间文本进行汇总，从而输出所述时间文本集的主题文本集。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文本主题提取分析程序，所述文本主题提取分析程序可被一个或者多个处理器执行，以实现如上所述的文本主题提取分析方法的步骤。

本发明提出的文本主题提取分析方法、装置及计算机可读存储介质，在用户对文本主题进行提取分析时，获取原始文本集，对所述原始文本集进行过滤以及时间维度的提取处理，得到时间文本文本集，结合预先构建的主题文本分析模型输出所述时间文本集的主题文本集，将所述主题文本集进行去重和排序处理后，完成所述原始文本集的主题提取，给用户呈现出基于时间维度上的文本主题提取分析结果。

附图说明

图1为本发明一实施例提供的文本主题提取分析方法的流程示意图；

图2为本发明一实施例提供的文本主题提取分析装置的内部结构示意图；

图3为本发明一实施例提供的文本主题提取分析装置中文本主题提取分析程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种文本主题提取分析方法。参照图1所示，为本发明一实施例提供的文本主题提取分析方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，文本主题提取分析方法包括：

S1、获取原始文本集，对所述原始文本集进行查询筛选，得到标准文本集。

本发明较佳实施例中，所述原始文本集包括：门户网站、论坛、博客、贴吧等中的重大事故、国际要闻、社会焦点等热点主题的新闻事件组成的文本集。较佳地，本发明利用ElasticSearch(ES)搜索引擎通过要素采集、关键词抽取、全文索引、自动去重和区分存储等手段，从门户网站、论坛、博客、贴吧等原始文本集中进行查询筛选，得到需要分析的一个或者多个主题(Topic) 的标准文本集。其中，所述ES是一个基于Lucene的搜索服务器，其提供了一个分布式多用户能力的全文搜索引擎。

S2、提取所述标准文本集在时间维度上的文本分布，得到时间文本集。

本发明较佳实施例通过TOT(Topic Over Time，时间主题模型)模型从所述标准文本集中提取出其在时间维度上的文本分布，得到所述时间文本集。所述TOT是一种在普通的LDA(Latent Dirichlet Allocation，隐狄利克雷分配) 模型基础上加入了对于时间戳的考察的主题模型(TopicModel)，用来得到在时间维度上不同的文本分布。所述LDA是一种生成文本主题的无监督学习模型，用于在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算等。

详细地，所述分析所述标准文本集在时间维度上的文本分布具体实施步骤为：

Ⅰ、经过观察发现，热点主题在新闻表现中的发展曲线与正态分布具有相当的相似度，因此，本发明首先将所述标准文本集中的每一个主题文本在时间上的分布近似为正态分布。本发明较佳实施例采用下述手段将所述标准文本集近似为正态分布：基于时间戳对所述标准文本集进行归一化处理，将归一化处理后的所述标准文本集利用一个预设的最小方差值进行方差限制操作，以将所述标准文本集调整为正态分布。

在进行归一化处理时，本发明将所述将标准文本集的时间戳缩小为[0,1] 区间内，保证了在处理数月甚至数年为跨度的新闻事件数据时依然可以对时间维度上的新闻分布有比较好的掌控。

进一步地，在所述标准文本集的方差过小的时候，对应的近似正太分布会无限地逼近中线，这样体现在数据中的结果就是最后每个主题对于时间的依附性过高，而损失了新闻事件本身的信息量，顾此失彼。本发明通过预设一个标准文本集的最小方差值，能从一定程度上规避掉这种损失。

Ⅱ、所述标准文本集中的主题文本并不是都具有分析价值的，本发明在减少人工的目标下对所述标准文本集进行一些初始的筛选，辅助后续的数据分析。优选地，本发明首先寻找所述标准文本集集中的峰值数据，方法如下：将调整为正态分布的所述标准文本集按时间为x轴、文本数量为y轴绘制直方图，对所述直方图中每一段单位时间的文本数量放在一个集合中求方差，获取方差高于预设阈值的文本，得到初选文本集。

本发明对所述标准文本集中的新闻事件按时间为x轴、数量为y轴绘制直方图，对直方图中每一个条状高度(也即每一段单位时间的新闻事件数量) 放在一个集合中求方差，对方差高于预设阈值的主题文本，就认为这个这个主题文本具有时间上的集中爆发点，那么该主题一般为热点主题，筛选出来作为初选文本。事实上，从直观角度上，有爆发时间点的新闻在直方图上的体现为有某一个条状物的高度突兀地高于其他，这与方差的增大是相应的。

Ⅲ、时间跨度的选择也是一个关键的问题，将新闻事件数据限制在合适的时间范围中，并选定相应的步长来反映不同时间段的变化，对于数据分析工作可以提供极大的帮助。考虑到正态分布的特性，本方法选用均值和标准差对所述初选文本集进行再次筛选：在所述初选文本集中，计算出初选文本集中所有文本的时间戳的均值μ和标准差σ，根据所述均值μ和标准差σ得到一个筛选区间，获取时间戳在所述筛选区间范围内的文本，得到目标文本集。优选地，所述筛选区间为[(μ-2σ),(μ+2σ)]。

对于每一个主题，本发明计算出所有文本的时间戳的均值μ和标准差σ (也即方差的算术平方根)。由于在TOT模型中假设每一个主题文本都服从时间上的正态分布，因此可以近似认为时间在区间[(μ-2σ),(μ+2σ)]上的新闻，占整个主题文本新闻总量的95％。在进行分析的时候，只需要取这95％的数据出来，就可以反映这个主题文本在这个时间段上的主要主题内容，给数据分析带来了帮助。

Ⅳ、由于TOT模型中将时间维度的重要性提高，因此可能出现两个主题，它们所在的时间段不完全相同，但是它们对应的其实是同一个主题在两个先后的时间段下的不同发展，而这种情况在重大的新闻事件中是极其常见的，如重大事故、国际要闻、社会焦点等，会随着事件的发展、信息的更新、舆论的反转等产生多轮的热度。这样的主题文本虽然在TOT模型中被合理的拆分开，但是本发明较佳实施例在进行分析的时候进一步采用下述方法将被拆分的主题文本合并为一个整体：利用距离算法计算所述目标文本集之间的距离，根据所述距离多所述目标文本集执行合并操作，得到所述时间文本集。

本发明较佳实施例中，所述距离算法为Jaccard距离实现。

对于每个主题文本，TOT模型算法的结果中会输出对这个主题文本的最大权重、最重要的几个关键词，也即对每个主题文本对应了一个具有代表性的词向量。本发明通过计算每个词向量之间的Jaccard距离，并通过判断所述是否高于某一个阈值，判定两个主题文本是否表述的是同一个事件，是否可以进行合并。

优选地，所述Jaccard距离算法的计算公式为：

较佳地，本发明中，若所述Jaccard(O_A,O_B)距离值大于预设的阈值时，判断出所述两个目标文本为相似文本，并将所述两个目标文本进行合并处理，若所述Jaccard(O_A,O_B)距离值不大于预设的阈值时，判断出所述两个目标文本为不相似文本，岁所述两个目标文本不作处理，优选地，本发明中所述预设的阈值为0.85。

S3、将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集。

本发明较佳实施例中，所述预先构建的主题文本分析模型为动态主题模型(Dynamic Topic Model，DTM)。所述DTM用于从一系列文本中确定不断变化的主题。详细地，本发明所述S3包括：通过所述主题文本分析模型的数据接收层接收所述时间文本集，根据所述时间文本集的时间戳获取所述时间文本集在正态分布出现峰值时的关键词，通过方差均值生成所述关键词的时间维度，根据所述关键词的时间维度对所述时间文本进行汇总，从而输出所述时间文本集的主题文本集。

S4、对所述主题文本集进行去重处理，并将去重处理后的所述主题文本集进行排序，从而完成所述原始文本集的主题提取分析。

本发明较佳实施例利用相似度算法对所述主题文本集进行去重处理。所述相似度算法的计算公式为：

其中，X、Y表示所述主题文本集中任意两个主题文本，i表示主题文本数量，其所产生的相似性范围从-1到1：-1表示两个主题文本指向的方向正好截然相反，1表示两个主题文本的指向是完全相同的，0表示两个IP地址之间是独立的，而在这之间的值则表示中度的相似性或相异性，据此根据所述相似度算法得到两个主题文本的相似度。较佳地，本发明中通过预设一个阈值，若所述相似度大于所述预设的阈值，表示对应的两个主题文本相似，则删除所述两个主题文本中任意一个文本，优选地，本发明中所述预设的阈值为0.8。

进一步地，本发明中计算去重处理后的所述主题文本集的重要度得分对其进行优先级排序。所述重要度得分的计算公式为：

W＝a*Wt+b*Wr+c*Ws+d*Wd+e*Wh+f*Wi

其中，w表示主题文本的重要度得分，Wt表示主题文本的所属主题排名， Wr表示主题文本在主题中的相关度，Ws表示主题文本来源可信度，Wd表示主题文本的重复出现次数，Wh表示主题文本在来源中的浏览、点赞、评论数量，Wi表示主题文本是否有图，是否为长文本，a、b、c、d、e、f分别表示其对应的权重参数。

进一步地，本发明中根据所述重要度得分有高到低的顺序对所述主题文本集进行优先级排序，并将排序后的所述主题文本集进行输出展示，从而完成所述原始文本集的主题提取分析。

据主题文本的提取结果，选取不同主题的文本，通过每个主题的文本数量确定主题优先级，并根据主题的文本编号，保证展示期间，相同主题的文章不会被连续展示，根据其他因素，例如文章长短，是否有图，来源评级决定同一主题内文章的展示顺序，输出优先级排序结果用以展示。

本发明还提供一种文本主题提取分析装置。参照图2所示，为本发明一实施例提供的文本主题提取分析装置的内部结构示意图。

在本实施例中，所述文本主题提取分析装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该文本主题提取分析装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本主题提取分析装置1的内部存储单元，例如该文本主题提取分析装置1的硬盘。存储器 11在另一些实施例中也可以是文本主题提取分析装置1的外部存储设备，例如文本主题提取分析装置1上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括文本主题提取分析装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本主题提取分析装置1的应用软件及各类数据，例如文本主题提取分析程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行文本主题提取分析程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器 (Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED 显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在文本主题提取分析装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及文本主题提取分析程序01的文本主题提取分析装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对文本主题提取分析装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有文本主题提取分析程序01；处理器12执行存储器11中存储的文本主题提取分析程序01时实现如下步骤：

步骤一、获取原始文本集，对所述原始文本集进行查询筛选，得到标准文本集。

本发明较佳实施例中，所述原始文本集包括：门户网站、论坛、博客、贴吧等中的重大事故、国际要闻、社会焦点等热点主题的新闻事件组成的文本集。较佳地，本发明利用ElasticSearch(ES)搜索引擎通过要素采集、关键词抽取、全文索引、自动去重和区分存储等手段，从门户网站、论坛、博客、贴吧等数据源中进行查询筛选，得到需要分析的一个或者多个主题(Topic) 的标准文本集。其中，所述ES是一个基于Lucene的搜索服务器，其提供了一个分布式多用户能力的全文搜索引擎。

步骤二、提取所述标准文本集在时间维度上的文本分布，得到时间文本集。

本发明较佳实施例中，所述距离算法为Jaccard距离实现。

优选地，所述Jaccard距离算法的计算公式为：

步骤三、将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集。

步骤四、对所述主题文本集进行去重处理，并将去重处理后的所述主题文本集进行排序，从而完成所述原始文本集的主题提取分析。

W＝a*Wt+b*Wr+c*Ws+d*Wd+e*Wh+f*Wi

可选地，在其他实施例中，文本主题提取分析程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述文本主题提取分析程序在文本主题提取分析装置中的执行过程。

例如，参照图3所示，为本发明文本主题提取分析装置一实施例中的文本主题提取分析程序的程序模块示意图，该实施例中，所述文本主题提取分析程序可以被分割为查询筛选模块10、提取模块20、输出模块30以及去重排序模块40，示例性地：

所述查询筛选模块10用于：获取原始文本集，对所述原始文本集进行查询筛选，得到标准文本集。

所述提取模块20用于：提取所述标准文本集在时间维度上的文本分布，得到时间文本。

所述输出模块30用于：将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集。

所述去重排序模块40用于：对所述主题文本集进行去重处理，并将去重处理后的所述主题文本集进行排序，从而完成所述原始文本集的主题提取分析。

上述查询筛选模块10、提取模块20、输出模块30以及去重排序模块40 等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有文本主题提取分析程序，所述文本主题提取分析程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述文本主题提取分析装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本主题提取分析方法，其特征在于，所述方法包括：

2.如权利要求1所述的文本主题提取分析方法，其特征在于，所述提取所述标准文本集在时间维度上的文本分布，得到时间文本集，包括：

3.如权利要求2所述的文本主题提取分析方法，其特征在于，所述距离算法的公式为：

其中，Jaccard(O_A,O_B)表示所述目标文本集中任意两个目标文本的距离值，O_A∩O_B表示所述目标文本集中任意两个目标文本中相同词语的个数，O_A∪O_B表示将所述目标文本集中任意两个目标文本中相同词语进行合并后所有元素的总个数。

4.如权利要求3所述的文本主题提取分析方法，其特征在于，所述将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集，包括：

5.如权利要求1至4中任意一项所述的文本主题提取分析方法，其特征在于，所述对所述主题文本集进行去重处理的计算方法的公式为：

6.一种文本主题提取分析装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的文本主题提取分析程序，所述文本主题提取分析程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的文本主题提取分析装置，其特征在于，所述提取所述标准文本集在时间维度上的文本分布，得到时间文本集，包括：

8.如权利要求6所述的文本主题提取分析装置，其特征在于，所述距离算法的公式为：

9.如权利要求8所述的文本主题提取分析装置，其特征在于，所述将所述时间文本集输入至预先构建的主题文本分析模型中，输出所述时间文本集的主题文本集，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本主题提取分析程序，所述文本主题提取分析程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的文本主题提取分析方法的步骤。