CN107992474A

CN107992474A - 一种流式数据主题挖掘方法及其系统

Info

Publication number: CN107992474A
Application number: CN201711193285.5A
Authority: CN
Inventors: 王丽宏; 刘哲; 马宏远; 彭浩; 聂健; 孙佩源; 袁石; 刘玮; 贺敏; 王博
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-05-04
Anticipated expiration: 2037-11-24
Also published as: CN107992474B

Abstract

本发明涉及一种流式数据主题挖掘方法及其系统，该挖掘方法包括：对结构化数据进行筛选，得到主题数据，提取主题数据的主题实体和主题关键词，分别生成主题实体集合和主题关键词集合；提取候选新闻数据的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合；分别计算得到实体相关度、关键词相关度和核心词相关度；计算候选新闻数据与主题数据的新闻主题相似度，并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻，保证了该主题下新闻的实时性、准确性，以及该主题下新闻动态的变化过程，并对新闻内容进行了分析。

Description

一种流式数据主题挖掘方法及其系统

技术领域

本发明涉及信息检索技术领域，尤其涉及一种流式数据主题挖掘方法及其系统。

背景技术

目前随着我国新闻事业和信息技术的飞速发展，新闻信息的表现形式和发布渠道日趋多样化，如何有效地组织和管理日益庞大的结构化、非结构化数据，充分地整合、挖掘并利用丰富的新闻信息资源，拓展新闻信息服务的新领域、新境界，就成为新闻传媒业界面临的严峻挑战。而如何通过网络大数据及时、准确、科学地捕捉网上值得关注的、敏感性信息和主题已成为当前信息研究与报送业务面临的主要问题之一。特别是媒体行业正在普遍进行数据中心的建设，一切以新闻数据为中心的运行模式已经接近于数据信息的工业化生产，新闻的制作已经是采写编辑在前、存储整理在中，分析挖掘在后的全新生产模式。如何让新闻增值，让静态数据产生动态效益，已经成为媒体行业目前最为关心的问题。

发明内容

(一)要解决的技术问题

本发明实施例要解决的技术问题是解决现有技术中新闻数据量大，难以从中有效的寻找所需新闻数据的问题。

(二)技术方案

为了解决上述技术问题，本发明实施例提供了一种流式数据主题挖掘方法及其系统，包括：

根据主题核心词集合对结构化数据进行筛选，得到主题数据，提取所述主题数据的主题实体和主题关键词，分别生成主题实体集合和主题关键词集合；

提取候选新闻数据的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合；

根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度；

根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度，并将所述新闻主题相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合。

在上述技术方案的基础上，本发明实施例还可以做如下改进。

可选的，所述根据主题核心词集合对所述结构化数据进行筛选，得到主题数据之前，该挖掘方法还包括：

对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作，得到属性一致的所述结构化数据，并进行分布式存储。

可选的，所述提取候选新闻数据中的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合之前，该挖掘方法还包括：

根据主题核心词集合对新闻数据进行倒排索引过滤，得到相关新闻数据；

根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤，得到所述候选新闻数据。

可选的，通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者，得到主题数据的发生地和参与者集合；提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者，得到新闻的发生地和参与者集合；实体相关度包括：发生地相关度和参与者相关度；

所述发生地相关度的计算公式为：

其中，Sim_loc为主题数据与候选新闻数据的发生地相关度；loc_T为主题数据的发生地；loc_N为新闻的发生地；

所述参与者相关度的计算公式为：

其中，Sim_par为主题数据与新闻的参与者相关度；par_i为主题数据的参与者集合；par_j为新闻的参与者集合；

所述核心词相关度的计算公式为：

其中，Sim_core为主题数据与候选新闻数据的核心词相关度；core为主题核心词集合；keyw为新闻关键词集合；

所述关键词相关度的计算公式为：

Sim_relw＝cos(v_T,v_N)；

其中，Sim_relw为主题数据与候选新闻数据的关键词相关度；wt为主题关键词的词向量；wn为新闻关键词的词向量；v_T为主题关键词集合的平均词向量；v_N为新闻关键词集合的平均词向量。

可选的，所述根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度的主题与新闻关系评价公式为：

F＝α·Sim_core+β·Sim_loc+γ·Sim_par+ω·Sim_relw；

其中，F为所述新闻数据的与所述主题数据的相似度；α、β、γ和ω为权重比系数；α+β+γ＝1；α，β，γ>0。

本发明实施例还提供了实现上述方法的一种流式数据主题挖掘系统，包括：存储模块、处理模块、计算模块和判断模块；

所述处理模块，根据主题核心词集合对结构化数据进行筛选，得到主题数据，提取所述主题数据的主题实体和主题关键词，分别生成主题实体集合和主题关键词集合；

所述处理模块，还用于提取候选新闻数据的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合；

所述计算模块，用于根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度；

所述计算模块，还用于根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度；

所述判断模块，用于判断所述候选新闻数据与所述主题数据的相似度是否大于预设阈值；并将所述相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合通过存储模块进行存储。

可选的，该挖掘系统还包括：第一处理模块，用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作，得到属性一致的所述结构化数据，并通过所述存储模块进行分布式存储。

可选的，该挖掘系统还包括：第二处理模块，用于根据主题核心词集合对新闻数据进行倒排索引过滤，得到相关新闻数据；根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤，得到所述候选新闻数据。

可选的，所述处理模块，具体用于，通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者，得到主题数据的发生地和参与者集合；提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者，得到新闻的发生地和参与者集合；

所述计算模块，具体用于，通过计算公式分别对主题实体集合和新闻实体集合的相关度进行计算，得到发生地相关度和参与者相关度；对新闻关键词集合和主题关键词集合与主题核心词集合的相关度分别进行计算，得到关键词相关度和核心词相关度；

所述发生地相关度的计算公式为：

所述参与者相关度的计算公式为：

所述核心词相关度的计算公式为：

所述关键词相关度的计算公式为：

Sim_relw＝cos(v_T,v_N)；

可选的，所述计算模块，还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算，得到所述新闻数据与所述主题数据的新闻主题相似度；所述主题与新闻关系评价公式为：

F＝α·Sim_core+β·Sim_loc+γ·Sim_par+ω·Sim_relw；

(三)有益效果

本发明的上述技术方案与现有技术相比具有如下优点：本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻，保证了该主题下新闻的实时性、准确性，以及该主题下新闻动态的变化过程，并对新闻内容进行了分析。

附图说明

图1是本发明实施例提供的一种流式数据主题挖掘系统流程示意图；

图2是本发明实施例提供的一种流式数据主题挖掘系统结构示意图；

图3是本发明实施例提供的一种流式数据主题挖掘系统中第二处理模块工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种流式数据主题挖掘方法流程示意图，包括：

根据主题核心词集合对结构化数据进行筛选，得到主题数据，提取主题数据的主题实体和主题关键词，分别生成主题实体集合和主题关键词集合；

根据新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度；

根据实体相关度、关键词相关度和核心词相关度得到候选新闻数据与主题数据的新闻主题相似度，并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。

上述实施例中，通过用户给定的主体核心词集合对流式数据整理后得到的结构化数据进行筛选，得出满足主题核心词的新闻数据作为主题数据，通过命名实体识别方法识别主题数据和候选新闻数据的相关实体，并整理出相关关键词，计算出候选新闻数据与主题数据之间的实体相关度，关键词相关度和核心词相关度，并由相关度得到该候选新闻数据和主题数据的相似度值，当相似度值超过预设阈值时，将该候选新闻数据作为合格新闻数据，由此来对流式新闻数据进行筛选得到完整的新闻集合。

如图2所示，本发明实施例还提供了一种流式数据主题挖掘系统结构示意图，包括：存储模块、处理模块、计算模块和判断模块；

处理模块，根据主题核心词集合对结构化数据进行筛选，得到主题数据，提取主题数据的主题实体和主题关键词，分别生成主题实体集合和主题关键词集合，利用NLP等方法提取主题特征，对主题数据进行分词，去停留词后，对词频进行统计，构成主题关键词集合，为减少计算量，限制该主题关键词集合中主题关键词的数量不超过10个，通过命名实体识别方法识别主题数据中的主题实体；

处理模块，还用于提取候选新闻数据的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合；

计算模块，用于根据新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度；

计算模块，还用于根据实体相关度、关键词相关度和核心词相关度得到候选新闻数据与主题数据的新闻主题相似度；

判断模块，用于判断候选新闻数据与主题数据的相似度是否大于预设阈值；并将相似度大于预设阈值的候选新闻数据导入合格新闻数据集合通过存储模块进行存储。

在本实施例中，该挖掘系统还包括：第一处理模块，用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作，得到属性一致的结构化数据，目的是大量过滤无需分析的文本数据、降低后续分析的计算负载，并通过存储模块进行分布式存储，利用Hadoop，Elasticsearch等分布式框架对海量流式新闻数据集构建分布式存储与索引，保证数据处理的实时性和可靠性。

如图3所示，在本实施例中，该挖掘系统还包括：第二处理模块，用于根据主题核心词集合对新闻数据进行倒排索引过滤，得到相关新闻数据；根据主题数据对相关新闻数据进行局部敏感哈希过滤，得到候选新闻数据；运用倒排索引、局部敏感哈希等算法减少了文本计算量，极大地提升了效率，算法内部耦合性低，可移植性好。

由于文本特征抽取及相似度计算较为耗时，因此，本发明采用倒排索引+局部敏感哈希算法对新闻集进行过滤。第一层是倒排索引过滤。我们认为具有隶属于某个主题的新闻特征与该主题特征之间至少会有一个相同的名词属性的关键词，基于这个前提，我们对主题的关键词建立倒排索引(Inverted Index)，倒排索引建立了从关键词到主题的映射，这样我们可以很快找到一个可能的新闻，集合中的新闻特征与主题特征具有一个或多个相同的名词关键词，这个新闻集合我们定义为相关新闻数据。第二层是局部敏感哈希过滤。局部敏感哈希(Locality-Sensitive Hashing)是一种解决近似最近邻问题(ANN)的方法，它的基本思想是相似的输入有较高的概率具有相同的哈希值，即具有相同哈希值的元素有较高的概率在原空间中是相近的，因此可以通过LSH找到已确定主题下新闻的最相近的m个新闻，减小相关新闻数据的大小。经过第二层过滤后，我们在相关新闻数据集合的基础上得到了一个更小的新闻集合，我们定义为候选新闻数据。

显然，经过两层过滤后的集合相比于初始集合数据量大大减少，提高了运算速度。

在本实施例中，处理模块，具体用于，通过命名实体识别提取主题数据的实体包括的主题数据的发生地和参与者，得到主题数据的发生地和参与者集合；提取候选新闻数据的新闻实体包括的新闻的发生地和参与者，得到新闻的发生地和参与者集合，出现次数最多的地点被设置为发生地，出现次数最多的3个人名、机构名放入参与者集合作为新闻的参与者。

计算模块，具体用于，通过计算公式分别对主题实体集合和新闻实体集合的相关度进行计算，得到发生地相关度和参与者相关度；对新闻关键词集合和主题关键词集合与主题核心词集合的相关度分别进行计算，得到关键词相关度和核心词相关度；

发生地相关度的计算公式为：

参与者相关度的计算公式为：

核心词相关度的计算公式为：

其中，Sim_core为主题数据与候选新闻数据的核心词相关度；core为主题核心词集合，由用户给定；keyw为新闻关键词集合；

关键词相关度的计算公式为：

Sim_relw＝cos(v_T,v_N)；

其中，Sim_relw为主题数据与候选新闻数据的关键词相关度；wt为主题关键词的词向量；wn为新闻关键词的词向量；v_T为主题关键词集合的平均词向量；v_N为新闻关键词集合的平均词向量；

在上述计算方法中只有主题核心词是用户必须给定的，发生地和参与者可以由用户选择是否给出，因此为了获得主题完整的属性，我们需要从主题数据的相关新闻中提取相关信息，当用户给出主题数据的发生地和参与者时，此时不需要从主题数据中提取主题数据的发生地和参与者，该算法主要思想是通过给定主题的核心词、发生地、参与人、相关关键词等对新闻的相关程度进行打分，达到相应阈值的新闻即作为该主题包含的新闻。

在本实施例中，计算模块，还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算，得到新闻数据与主题数据的新闻主题相似度；主题与新闻关系评价公式为：

F＝α·Sim_core+β·Sim_loc+γ·Sim_par+ω·Sim_relw；

其中，F为新闻数据的与主题数据的相似度；α、β、γ和ω为权重比系数；α+β+γ＝1；α，β，γ>0，在定义了主题与新闻的关系评价函数之后，我们通过一个经验的阈值ε来评价该新闻是否属于该主题，即：新闻N属于主题T，当且仅当F>ε。

基于此，我们可以得到完整的主题新闻集。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种流式数据主题挖掘方法，其特征在于，包括：

2.根据权利要求1所述的一种流式数据主题挖掘方法，其特征在于，所述根据主题核心词集合对所述结构化数据进行筛选，得到主题数据之前，该挖掘方法还包括：

3.根据权利要求1所述的一种流式数据主题挖掘方法，其特征在于，所述提取候选新闻数据中的新闻实体和新闻关键词，分别生成新闻实体集合和新闻关键词集合之前，该挖掘方法还包括：

4.根据权利要求1-3中任一所述的一种流式数据主题挖掘方法，其特征在于，通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者，得到主题数据的发生地和参与者集合；提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者，得到新闻的发生地和参与者集合；实体相关度包括：发生地相关度和参与者相关度；

所述发生地相关度的计算公式为：

所述参与者相关度的计算公式为：

所述核心词相关度的计算公式为：

所述关键词相关度的计算公式为：

<mrow> <msub> <mi>v</mi> <mi>T</mi> </msub> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wt</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>

<mrow> <msub> <mi>v</mi> <mi>N</mi> </msub> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wn</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>

Sim_relw＝cos(v_T,v_N)；

5.根据权利要求4所述的一种流式数据主题挖掘方法，其特征在于，所述根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度的主题与新闻关系评价公式为：

F＝α·Sim_core+β·Sim_loc+γ·Sim_par+ω·Sim_relw；

6.一种流式数据主题挖掘系统，其特征在于，包括：存储模块、处理模块、计算模块和判断模块；

7.根据权利要求6所述的一种流式数据主题挖掘系统，其特征在于，该挖掘系统还包括：第一处理模块，用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作，得到属性一致的所述结构化数据，并通过所述存储模块进行分布式存储。

8.根据权利要求6所述的一种流式数据主题挖掘系统，其特征在于，该挖掘系统还包括：第二处理模块，用于根据主题核心词集合对新闻数据进行倒排索引过滤，得到相关新闻数据；根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤，得到所述候选新闻数据。

9.根据权利要求6-8中任一所述的一种流式数据主题挖掘系统，其特征在于，所述处理模块，具体用于，通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者，得到主题数据的发生地和参与者集合；提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者，得到新闻的发生地和参与者集合；

所述发生地相关度的计算公式为：

所述参与者相关度的计算公式为：

所述核心词相关度的计算公式为：

所述关键词相关度的计算公式为：

Sim_relw＝cos(v_T,v_N)；

10.根据权利要求9所述的一种流式数据主题挖掘系统，其特征在于，所述计算模块，还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算，得到所述新闻数据与所述主题数据的新闻主题相似度；所述主题与新闻关系评价公式为：

F＝α·Sim_core+β·Sim_loc+γ·Sim_par+ω·Sim_relw；

其中，F为所述新闻数据的与所述主题数据的相似度；α、β、γ和ω为权重比系数；α+β+γ＝1；α，β，γ＞0。