CN108897737A

CN108897737A - 一种基于大数据分析的核心语汇专题构建方法及系统

Info

Publication number: CN108897737A
Application number: CN201810687746.2A
Authority: CN
Inventors: 王建华; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-11-27

Abstract

本发明属于计算机软件技术领域，公开了一种基于大数据分析的核心语汇专题构建方法及系统，用户指定专题的初始关键词或者关键词集合；专题相关文档的获取；从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱；人工干预候选专题中的核心语汇，形成最终的专题输出。本发明能够快速地形成专题级的核心语汇集合，能够大幅度降低专家构建专题的时间，同时提高专题构建的覆盖率和及时性，有利于资源的快速建设和系统的推广。

Description

一种基于大数据分析的核心语汇专题构建方法及系统

技术领域

本发明属于计算机软件技术领域，尤其涉及一种基于大数据分析的核心语汇专题构建方法及系统。

背景技术

目前，业内常用的现有技术是这样的：“中国核心语汇”是一个将涵盖中国政治、经济和文化等领域的中国语汇，通过权威、标准的多语种翻译与解读方式，向国际社会传递最准确的中国表述和解读的互联网大数据语料库。平台为实施中华文化走出去战略，传播正确中国声音，促进国际出版，引导媒体传播等提供开放的公共服务；让国际社会通过平台获取准确的中国语汇表达方式，让世界了解真实的中国。传统的方法往往是专家选定主题，然后根据经验挑选一系列的相关核心语汇，人工构建它们之间的关系，往往耗时耗力，且覆盖率和及时性不高。

综上所述，现有技术存在的问题是：传统的方法往往是专家选定主题，根据经验挑选一系列的相关核心语汇，人工构建它们之间的关系，往往耗时耗力，且覆盖率和及时性不高。

发明内容

针对现有技术存在的问题，本发明提供了一种基于大数据分析的核心语汇专题构建方法及系统。

本发明是这样实现的，一种基于大数据分析的核心语汇专题构建方法，其特征在于，所述基于大数据分析的核心语汇专题构建方法包括：用户指定专题的初始关键词或者关键词集合；专题相关文档的获取；从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱；人工干预候选专题中的核心语汇，形成最终的专题输出。

进一步，所述专题相关文档的获取进一步包括：通过专题关键词检索相关文档，基于返回的结果M篇文档，计算专题的伪相关模型：

其中tw_mi表示第m个文档中第i个特征词的权重，权重采用TF-IDF来计算，＜tw_m1,tw_m2,...,tw_mn＞表示第m篇文档的VSM向量；

利用M_p-topic模型对相关文档计算相关度，重排序后选出专题相关的最终文档集合前P篇，并重新计算专题模型：

进一步，所述从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱进一步包括：基于专题相关文档，提取关键词作为特征词；将特征词作为节点构建特征图G＝＜V,E＞，其中V表示节点集合，E表示特征词的边集合；两个特征词v₁和v₂在一个句子中存在，则存在一条边 e₁₂＝＜v₁,v₂＞。边上的权重表示之间共现的次数；基于TextRank算法，计算每个词的权重：

其中，d为阻尼系数，取值范围为0到1，代表从图中某一特定点指向其他任意点的概率，w_ji用来表示两个节点之间的边连接的重要程度权重；V_i表示某个网页，V_j表示链接到V_i的网页(即V_i的入链)，S(V_i)表示网页V_i的PR值，In(V_i) 表示网页V_i的所有入链的集合，Out(V_j)表示网页；使用TextRank算法计算图中各点的得分时，给图中的点指定任意的初值，并递归计算直到收敛。

进一步，所述人工干预候选专题中的核心语汇，形成最终的专题输出进一步包括：

综合TextRank的打分，最终的模型为：

其中，cxn表示特征词在相关文档集合中出现的中国宣传口报道数，CXN表示相关文档集合中中国宣传口报道总数；hx表示特征词与核心语汇中词的词关联的次数，有多少个关联的特征词已经在核心语汇中，LN是特征词关联的特征词的总数；rn表示特征词在相关文档集合中出现的报道数，RN是相关文档集合的总数；tr是TextRank分值；α，β，γ，λ是特征的权值。

本发明的另一目的在于提供一种应用所述基于大数据分析的核心语汇专题构建方法的基于大数据分析的核心语汇专题构建系统，所述基于大数据分析的核心语汇专题构建系统包括：

专题指定模块，用于用户指定专题的初始关键词或者关键词集合；

专题相关文档获取模块，用于用户指定专题的相关数据集合或者用户指定专题相关的数据源集合，基于指定的关键词获取多语言的专题相关文档集合或者用户不指定数据集合和数据源集合，基于指定的关键词获取多语言的专题相关文档集合；

专题发现模块，用于从专题相关文档集合中自动发现候选核心语汇集合及其关系。形成专题候选核心语汇图谱；

专题输出模块，用于人工干预候选专题中的核心语汇，形成最终的专题输出。

本发明的另一目的在于提供一种实现所述基于大数据分析的核心语汇专题构建方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于大数据分析的核心语汇专题构建方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于大数据分析的核心语汇专题构建方法。

综上所述，本发明的优点及积极效果为：实现专题的自动发现和构建算法，其对于用户给定的专题关键词或者关键词集合，以及指定的数据集合或者数据源，基于大数据分析技术，自动提取专题相关的一系列候选核心语汇集合，并建立它们之间的关系，形成候选的专题关系图谱，通过人工干预后，形成最终的专题。本发明能够快速地形成专题级的核心语汇集合，能够大幅度降低专家构建专题的时间，同时提高专题构建的覆盖率和及时性，有利于资源的快速建设和系统的推广。

附图说明

图1是本发明实施例提供的基于大数据分析的核心语汇专题构建方法流程图。

图2是本发明实施例提供的基于大数据分析的核心语汇专题构建系统结构示意图；

图中：1、专题指定模块；2、专题相关文档获取模块；3、专题发现模块； 4、专题输出模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明旨在解决采用人工的方式挑选，或者是通过系统推荐的单个热词来人工的扩展，因此覆盖率和及时性无法保证的技术问题。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于大数据分析的核心语汇专题构建方法包括以下步骤：

S101：用户指定专题的初始关键词:或者关键词集合；

S102：专题相关文档的获取；

S103：从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱；

S104：人工干预候选专题中的核心语汇，形成最终的专题输出。

如图2所示，本发明实施例提供的基于大数据分析的核心语汇专题构建系统包括：

专题指定模块1，用于用户指定专题的初始关键词或者关键词集合；

专题相关文档获取模块2，用于用户指定专题的相关数据集合或者用户指定专题相关的数据源集合，基于指定的关键词获取多语言的专题相关文档集合或者用户不指定数据集合和数据源集合，基于指定的关键词获取多语言的专题相关文档集合；

专题发现模块3，用于从专题相关文档集合中自动发现候选核心语汇集合及其关系。形成专题候选核心语汇图谱；

专题输出模块4，用于人工干预候选专题中的核心语汇，形成最终的专题输出。

专题相关文档的获取有三种情况，当用户未指定时，后两种情况的主要问题是如何获得与专题关键词相关的文档。若只用关键词匹配获得相关文档，将导致相关文档集合噪声过大，影响最终专题的效果。为了避免噪声，将采用伪相关反馈的方式获得与专题关键词相关的文档。其基本原理是：通过专题关键词检索相关文档，基于返回的结果(假设为M篇文档)，计算专题的伪相关模型：

其中tw_mi表示第m个文档中第i个特征词的权重，权重一般采用TF-IDF来计算，＜tw_m1,tw_m2,...,tw_mn＞表示第m篇文档的VSM向量。通过以上计算公式获得专题的伪相关模型，可以取权重最高的L个特征词作为最终的特征词。

通过以上特征词重新检索相关文档，并利用M_p-topic模型对相关文档计算相关度，重排序后选出专题相关的最终文档集合(前P篇)，并重新计算专题模型：

专题发现则是从给定的专题相关文档中，采用实体识别和关系识别的方式获得专题相关的候选核心语汇集合及其关系。在识别过程中，将基于特征图的方式建立专题相关候选核心语汇集合及其关系图。其基本原理是：基于专题相关文档，提取关键词作为特征词；将特征词作为节点构建特征图G＝＜V,E＞，其中V表示节点集合(特征词集合)，E表示特征词的边集合。若两个特征词v₁和 v₂在一个句子中存在，则存在一条边e₁₂＝＜v₁,v₂＞。边上的权重表示它们之间共现的次数。基于TextRank算法，计算每个词的权重：

其中，d为阻尼系数，取值范围为0到1，代表从图中某一特定点指向其他任意点的概率，一般取值为0.85；w_ji用来表示两个节点之间的边连接的重要程度权重；V_i表示某个网页，V_j表示链接到V_i的网页(即V_i的入链)，S(V_i)表示网页V_i的PR值，In(V_i)表示网页V_i的所有入链的集合，Out(V_j)表示网页。使用 TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值，并递归计算直到收敛。

基于最终获得的权重对特征词重排序，选出前N条形成专题的候选核心语汇集合，为了进一步满足候选核心语汇的要求：中国特有的、各领域突出的、优秀的词条，因此需要对候选核心语汇进一步打分；此处主要考虑是否和中国相关，以及是否和宣传口相关，不考虑社交相关，同时考虑是否和现有的核心语汇相关，综合TextRank的打分，最终的模型为：

其中，cxn表示特征词在相关文档集合中出现的中国宣传口报道数，CXN表示相关文档集合中中国宣传口报道总数；hx表示特征词与核心语汇中词的词关联的次数，即有多少个关联的特征词已经在核心语汇中，LN是特征词关联的特征词的总数；rn表示特征词在相关文档集合中出现的报道数，RN是相关文档集合的总数；tr是TextRank分值。α，β，γ，λ是特征的权值。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据分析的核心语汇专题构建方法，其特征在于，所述基于大数据分析的核心语汇专题构建方法包括：

(1)用户指定专题的初始关键词或者关键词集合；

(2)专题相关文档的获取；

(3)从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱；

(4)人工干预候选专题中的核心语汇，形成最终的专题输出。

2.如权利要求1所述的基于大数据分析的核心语汇专题构建方法，其特征在于，所述专题相关文档的获取进一步包括：通过专题关键词检索相关文档，基于返回的结果M篇文档，计算专题的伪相关模型：

利用M_p-topic模型对相关文档计算相关度，重排序后选出专题相关的最终文档集合的前P篇，并重新计算专题模型：

3.如权利要求1或2所述的基于大数据分析的核心语汇专题构建方法，其特征在于，所述从专题相关文档集合中自动发现候选核心语汇集合及其关系，形成专题候选核心语汇图谱进一步包括：基于专题相关文档，提取关键词作为特征词；将特征词作为节点构建特征图G＝＜V,E＞，其中V表示节点集合，E表示特征词的边集合；两个特征词v₁和v₂在一个句子中存在，则存在一条边e₁₂＝＜v₁,v₂＞；边上的权重表示它们之间共现的次数；基于TextRank算法，计算每个词的权重WS(V_i)：

其中，d为阻尼系数，取值范围为0到1，代表从图中某一特定点指向其他任意点的概率，w_ji用来表示两个节点之间的边连接的重要程度权重；V_i表示某个网页，V_j表示链接到V_i的网页(即V_i的入链)，S(V_i)表示网页V_i的PR值，In(V_i)表示网页V_i的所有入链的集合，Out(V_j)表示网页；使用TextRank算法计算图中各点的得分时，给图中的点指定任意的初值，并递归计算直到收敛。

4.如权利要求1所述的基于大数据分析的核心语汇专题构建方法，其特征在于，所述人工干预候选专题中的核心语汇，形成最终的专题输出进一步包括：综合TextRank的打分，最终的模型为：

5.一种应用权利要求1所述基于大数据分析的核心语汇专题构建方法的基于大数据分析的核心语汇专题构建系统，其特征在于，所述基于大数据分析的核心语汇专题构建系统包括：

专题发现模块，用于从专题相关文档集合中自动发现候选核心语汇集合及其关系；形成专题候选核心语汇图谱；

6.一种实现权利要求1～4任意一项所述基于大数据分析的核心语汇专题构建方法的计算机程序。

7.一种实现权利要求1～4任意一项所述基于大数据分析的核心语汇专题构建方法的信息数据处理终端。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-4任意一项所述的基于大数据分析的核心语汇专题构建方法。