CN108897737A - 一种基于大数据分析的核心语汇专题构建方法及系统 - Google Patents
一种基于大数据分析的核心语汇专题构建方法及系统 Download PDFInfo
- Publication number
- CN108897737A CN108897737A CN201810687746.2A CN201810687746A CN108897737A CN 108897737 A CN108897737 A CN 108897737A CN 201810687746 A CN201810687746 A CN 201810687746A CN 108897737 A CN108897737 A CN 108897737A
- Authority
- CN
- China
- Prior art keywords
- special topic
- core vocabulary
- thematic
- relevant documentation
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机软件技术领域,公开了一种基于大数据分析的核心语汇专题构建方法及系统,用户指定专题的初始关键词或者关键词集合;专题相关文档的获取;从专题相关文档集合中自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱;人工干预候选专题中的核心语汇,形成最终的专题输出。本发明能够快速地形成专题级的核心语汇集合,能够大幅度降低专家构建专题的时间,同时提高专题构建的覆盖率和及时性,有利于资源的快速建设和系统的推广。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于大数据分析的核心语 汇专题构建方法及系统。
背景技术
目前,业内常用的现有技术是这样的:“中国核心语汇”是一个将涵盖中 国政治、经济和文化等领域的中国语汇,通过权威、标准的多语种翻译与解读 方式,向国际社会传递最准确的中国表述和解读的互联网大数据语料库。平台 为实施中华文化走出去战略,传播正确中国声音,促进国际出版,引导媒体传 播等提供开放的公共服务;让国际社会通过平台获取准确的中国语汇表达方式, 让世界了解真实的中国。传统的方法往往是专家选定主题,然后根据经验挑选 一系列的相关核心语汇,人工构建它们之间的关系,往往耗时耗力,且覆盖率 和及时性不高。
综上所述,现有技术存在的问题是:传统的方法往往是专家选定主题,根 据经验挑选一系列的相关核心语汇,人工构建它们之间的关系,往往耗时耗力, 且覆盖率和及时性不高。
发明内容
针对现有技术存在的问题,本发明提供了一种基于大数据分析的核心语汇 专题构建方法及系统。
本发明是这样实现的,一种基于大数据分析的核心语汇专题构建方法,其 特征在于,所述基于大数据分析的核心语汇专题构建方法包括:用户指定专题 的初始关键词或者关键词集合;专题相关文档的获取;从专题相关文档集合中 自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱;人工干预 候选专题中的核心语汇,形成最终的专题输出。
进一步,所述专题相关文档的获取进一步包括:通过专题关键词检索相关 文档,基于返回的结果M篇文档,计算专题的伪相关模型:
其中twmi表示第m个文档中第i个特征词的权重,权重采用TF-IDF来计算, <twm1,twm2,...,twmn>表示第m篇文档的VSM向量;
利用Mp-topic模型对相关文档计算相关度,重排序后选出专题相关的最终文档 集合前P篇,并重新计算专题模型:
进一步,所述从专题相关文档集合中自动发现候选核心语汇集合及其关系, 形成专题候选核心语汇图谱进一步包括:基于专题相关文档,提取关键词作为 特征词;将特征词作为节点构建特征图G=<V,E>,其中V表示节点集合,E表 示特征词的边集合;两个特征词v1和v2在一个句子中存在,则存在一条边 e12=<v1,v2>。边上的权重表示之间共现的次数;基于TextRank算法,计算每个 词的权重:
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他 任意点的概率,wji用来表示两个节点之间的边连接的重要程度权重;Vi表示某 个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示网页Vi的PR值,In(Vi) 表示网页Vi的所有入链的集合,Out(Vj)表示网页;使用TextRank算法计算图中 各点的得分时,给图中的点指定任意的初值,并递归计算直到收敛。
进一步,所述人工干预候选专题中的核心语汇,形成最终的专题输出进一 步包括:
综合TextRank的打分,最终的模型为:
其中,cxn表示特征词在相关文档集合中出现的中国宣传口报道数,CXN表 示相关文档集合中中国宣传口报道总数;hx表示特征词与核心语汇中词的词关 联的次数,有多少个关联的特征词已经在核心语汇中,LN是特征词关联的特征 词的总数;rn表示特征词在相关文档集合中出现的报道数,RN是相关文档集合 的总数;tr是TextRank分值;α,β,γ,λ是特征的权值。
本发明的另一目的在于提供一种应用所述基于大数据分析的核心语汇专题 构建方法的基于大数据分析的核心语汇专题构建系统,所述基于大数据分析的 核心语汇专题构建系统包括:
专题指定模块,用于用户指定专题的初始关键词或者关键词集合;
专题相关文档获取模块,用于用户指定专题的相关数据集合或者用户指定 专题相关的数据源集合,基于指定的关键词获取多语言的专题相关文档集合或 者用户不指定数据集合和数据源集合,基于指定的关键词获取多语言的专题相 关文档集合;
专题发现模块,用于从专题相关文档集合中自动发现候选核心语汇集合及 其关系。形成专题候选核心语汇图谱;
专题输出模块,用于人工干预候选专题中的核心语汇,形成最终的专题输 出。
本发明的另一目的在于提供一种实现所述基于大数据分析的核心语汇专题 构建方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于大数据分析的核心语汇专题 构建方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在 计算机上运行时,使得计算机执行所述的基于大数据分析的核心语汇专题构建 方法。
综上所述,本发明的优点及积极效果为:实现专题的自动发现和构建算法, 其对于用户给定的专题关键词或者关键词集合,以及指定的数据集合或者数据 源,基于大数据分析技术,自动提取专题相关的一系列候选核心语汇集合,并 建立它们之间的关系,形成候选的专题关系图谱,通过人工干预后,形成最终 的专题。本发明能够快速地形成专题级的核心语汇集合,能够大幅度降低专家 构建专题的时间,同时提高专题构建的覆盖率和及时性,有利于资源的快速建 设和系统的推广。
附图说明
图1是本发明实施例提供的基于大数据分析的核心语汇专题构建方法流程 图。
图2是本发明实施例提供的基于大数据分析的核心语汇专题构建系统结构 示意图;
图中:1、专题指定模块;2、专题相关文档获取模块;3、专题发现模块; 4、专题输出模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
本发明旨在解决采用人工的方式挑选,或者是通过系统推荐的单个热词来 人工的扩展,因此覆盖率和及时性无法保证的技术问题。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于大数据分析的核心语汇专题构建方 法包括以下步骤:
S101:用户指定专题的初始关键词:或者关键词集合;
S102:专题相关文档的获取;
S103:从专题相关文档集合中自动发现候选核心语汇集合及其关系,形成 专题候选核心语汇图谱;
S104:人工干预候选专题中的核心语汇,形成最终的专题输出。
如图2所示,本发明实施例提供的基于大数据分析的核心语汇专题构建系 统包括:
专题指定模块1,用于用户指定专题的初始关键词或者关键词集合;
专题相关文档获取模块2,用于用户指定专题的相关数据集合或者用户指定 专题相关的数据源集合,基于指定的关键词获取多语言的专题相关文档集合或 者用户不指定数据集合和数据源集合,基于指定的关键词获取多语言的专题相 关文档集合;
专题发现模块3,用于从专题相关文档集合中自动发现候选核心语汇集合及 其关系。形成专题候选核心语汇图谱;
专题输出模块4,用于人工干预候选专题中的核心语汇,形成最终的专题输 出。
专题相关文档的获取有三种情况,当用户未指定时,后两种情况的主要问 题是如何获得与专题关键词相关的文档。若只用关键词匹配获得相关文档,将 导致相关文档集合噪声过大,影响最终专题的效果。为了避免噪声,将采用伪 相关反馈的方式获得与专题关键词相关的文档。其基本原理是:通过专题关键 词检索相关文档,基于返回的结果(假设为M篇文档),计算专题的伪相关模 型:
其中twmi表示第m个文档中第i个特征词的权重,权重一般采用TF-IDF来 计算,<twm1,twm2,...,twmn>表示第m篇文档的VSM向量。通过以上计算公式获得 专题的伪相关模型,可以取权重最高的L个特征词作为最终的特征词。
通过以上特征词重新检索相关文档,并利用Mp-topic模型对相关文档计算相关 度,重排序后选出专题相关的最终文档集合(前P篇),并重新计算专题模型:
专题发现则是从给定的专题相关文档中,采用实体识别和关系识别的方式 获得专题相关的候选核心语汇集合及其关系。在识别过程中,将基于特征图的 方式建立专题相关候选核心语汇集合及其关系图。其基本原理是:基于专题相 关文档,提取关键词作为特征词;将特征词作为节点构建特征图G=<V,E>,其 中V表示节点集合(特征词集合),E表示特征词的边集合。若两个特征词v1和 v2在一个句子中存在,则存在一条边e12=<v1,v2>。边上的权重表示它们之间共现 的次数。基于TextRank算法,计算每个词的权重:
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他 任意点的概率,一般取值为0.85;wji用来表示两个节点之间的边连接的重要程 度权重;Vi表示某个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示 网页Vi的PR值,In(Vi)表示网页Vi的所有入链的集合,Out(Vj)表示网页。使用 TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值,并递归 计算直到收敛。
基于最终获得的权重对特征词重排序,选出前N条形成专题的候选核心语 汇集合,为了进一步满足候选核心语汇的要求:中国特有的、各领域突出的、 优秀的词条,因此需要对候选核心语汇进一步打分;此处主要考虑是否和中国 相关,以及是否和宣传口相关,不考虑社交相关,同时考虑是否和现有的核心 语汇相关,综合TextRank的打分,最终的模型为:
其中,cxn表示特征词在相关文档集合中出现的中国宣传口报道数,CXN表 示相关文档集合中中国宣传口报道总数;hx表示特征词与核心语汇中词的词关 联的次数,即有多少个关联的特征词已经在核心语汇中,LN是特征词关联的特 征词的总数;rn表示特征词在相关文档集合中出现的报道数,RN是相关文档集 合的总数;tr是TextRank分值。α,β,γ,λ是特征的权值。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程 序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指 令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可 以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算 机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向 另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、 计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或 无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据 中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用 介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。 所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、 或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
Claims (8)
1.一种基于大数据分析的核心语汇专题构建方法,其特征在于,所述基于大数据分析的核心语汇专题构建方法包括:
(1)用户指定专题的初始关键词或者关键词集合;
(2)专题相关文档的获取;
(3)从专题相关文档集合中自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱;
(4)人工干预候选专题中的核心语汇,形成最终的专题输出。
2.如权利要求1所述的基于大数据分析的核心语汇专题构建方法,其特征在于,所述专题相关文档的获取进一步包括:通过专题关键词检索相关文档,基于返回的结果M篇文档,计算专题的伪相关模型:
其中twmi表示第m个文档中第i个特征词的权重,权重采用TF-IDF来计算,<twm1,twm2,...,twmn>表示第m篇文档的VSM向量;
利用Mp-topic模型对相关文档计算相关度,重排序后选出专题相关的最终文档集合的前P篇,并重新计算专题模型:
3.如权利要求1或2所述的基于大数据分析的核心语汇专题构建方法,其特征在于,所述从专题相关文档集合中自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱进一步包括:基于专题相关文档,提取关键词作为特征词;将特征词作为节点构建特征图G=<V,E>,其中V表示节点集合,E表示特征词的边集合;两个特征词v1和v2在一个句子中存在,则存在一条边e12=<v1,v2>;边上的权重表示它们之间共现的次数;基于TextRank算法,计算每个词的权重WS(Vi):
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,wji用来表示两个节点之间的边连接的重要程度权重;Vi表示某个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示网页Vi的PR值,In(Vi)表示网页Vi的所有入链的集合,Out(Vj)表示网页;使用TextRank算法计算图中各点的得分时,给图中的点指定任意的初值,并递归计算直到收敛。
4.如权利要求1所述的基于大数据分析的核心语汇专题构建方法,其特征在于,所述人工干预候选专题中的核心语汇,形成最终的专题输出进一步包括:综合TextRank的打分,最终的模型为:
其中,cxn表示特征词在相关文档集合中出现的中国宣传口报道数,CXN表示相关文档集合中中国宣传口报道总数;hx表示特征词与核心语汇中词的词关联的次数,有多少个关联的特征词已经在核心语汇中,LN是特征词关联的特征词的总数;rn表示特征词在相关文档集合中出现的报道数,RN是相关文档集合的总数;tr是TextRank分值;α,β,γ,λ是特征的权值。
5.一种应用权利要求1所述基于大数据分析的核心语汇专题构建方法的基于大数据分析的核心语汇专题构建系统,其特征在于,所述基于大数据分析的核心语汇专题构建系统包括:
专题指定模块,用于用户指定专题的初始关键词或者关键词集合;
专题相关文档获取模块,用于用户指定专题的相关数据集合或者用户指定专题相关的数据源集合,基于指定的关键词获取多语言的专题相关文档集合或者用户不指定数据集合和数据源集合,基于指定的关键词获取多语言的专题相关文档集合;
专题发现模块,用于从专题相关文档集合中自动发现候选核心语汇集合及其关系;形成专题候选核心语汇图谱;
专题输出模块,用于人工干预候选专题中的核心语汇,形成最终的专题输出。
6.一种实现权利要求1~4任意一项所述基于大数据分析的核心语汇专题构建方法的计算机程序。
7.一种实现权利要求1~4任意一项所述基于大数据分析的核心语汇专题构建方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的基于大数据分析的核心语汇专题构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810687746.2A CN108897737A (zh) | 2018-06-28 | 2018-06-28 | 一种基于大数据分析的核心语汇专题构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810687746.2A CN108897737A (zh) | 2018-06-28 | 2018-06-28 | 一种基于大数据分析的核心语汇专题构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108897737A true CN108897737A (zh) | 2018-11-27 |
Family
ID=64346563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810687746.2A Pending CN108897737A (zh) | 2018-06-28 | 2018-06-28 | 一种基于大数据分析的核心语汇专题构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897737A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885677A (zh) * | 2018-12-26 | 2019-06-14 | 中译语通科技股份有限公司 | 一种多方位大数据采集整理系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307485A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Extracting topically related keywords from related documents |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及系统 |
-
2018
- 2018-06-28 CN CN201810687746.2A patent/CN108897737A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307485A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Extracting topically related keywords from related documents |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885677A (zh) * | 2018-12-26 | 2019-06-14 | 中译语通科技股份有限公司 | 一种多方位大数据采集整理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642938B2 (en) | Artificial intelligence based method and apparatus for constructing comment graph | |
CN106547739B (zh) | 一种文本语义相似度分析方法 | |
CN111274811B (zh) | 地址文本相似度确定方法以及地址搜索方法 | |
Liu et al. | Full‐text citation analysis: A new method to enhance scholarly networks | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN111159359B (zh) | 文档检索方法、装置及计算机可读存储介质 | |
CN110309514A (zh) | 一种语义识别方法及装置 | |
CN103455545A (zh) | 社交网络用户的位置估计的方法和系统 | |
JP2009151760A (ja) | オブジェクト間競合指標計算方法およびシステム | |
WO2022141876A1 (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
Zhang et al. | STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks | |
CN111078832A (zh) | 一种智能客服的辅助应答方法及系统 | |
CN109582761A (zh) | 一种基于网络平台的词语相似度的中文智能问答系统方法 | |
CN102789473A (zh) | 标识符检索方法和设备 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
KR20190138623A (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
WO2021098491A1 (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN108897737A (zh) | 一种基于大数据分析的核心语汇专题构建方法及系统 | |
CN108536796B (zh) | 一种基于图的异构本体匹配方法及系统 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |
|
RJ01 | Rejection of invention patent application after publication |