CN104217038A

CN104217038A - 一种针对财经新闻的知识网络构建方法

Info

Publication number: CN104217038A
Application number: CN201410526042.9A
Authority: CN
Inventors: 陈恩红; 周丽丽; 丁君美; 管亚亭; 杨镒铭; 朱炎; 朱琛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2014-12-17

Abstract

本发明公开了一种针对财经新闻的知识网络构建方法，首先从新闻网站或数据库中获取各种财经新闻数据；对于所获取的每篇新闻数据，采用分类技术识别其行业标签，采用改进的主题模型抽取其主题信息，构建行业间的上下游关系网，并创建相应的新闻知识库；基于所述新闻知识库构建相应的知识子网，所述知识子网为四层拓扑结构，具体包括四种类型节点：新闻、新闻簇、主题簇和主题，以及两种类型关系：包含关系和相关关系；每篇新闻都会产生自己的知识子网，且所述每篇新闻的知识子网会呈现在该新闻内容的下方。基于所构建的知识网络可以保证各种新闻从抽取到展现的高度实时性，为用户提供更好的体验。

Description

一种针对财经新闻的知识网络构建方法

技术领域

本发明涉及网络信息处理技术领域，尤其涉及一种针对财经新闻的知识网络构建方法。

背景技术

目前，我们处在一个信息爆炸的时代，财经新闻作为一种主要的财经信息推送方式，无法避免数据量大、复杂、冗余等问题。在此背景下，许多财经新闻检索平台应运而生，其中包括普通的搜索引擎，例如百度新闻和谷歌新闻等，也包括财经门户网站，例如新浪财经、中国经济网等。在这些平台上，用户可以使用关键词搜索或者分类导航两种方法寻找自己感兴趣的财经新闻内容，

然而，对于财经领域工作人员或者一些财经爱好者来说，目前的这种获取财经信息的方式仍显繁琐。如果用户在阅读完一篇讲述合肥房地产价格下跌的新闻后想知道其发生的原因以及其可能带来的后果，那么他需要继续使用前两种方法搜索相关的新闻。这一过程费时又费力。另外，研究表明，用户输入搜索框的关键词很难正确地表述其真实的意图。虽然，目前大多数新闻网页提供了拓展阅读或相似新闻等模块，但新闻内容相似，信息量有限，并不能满足用户的需求。他们希望在浏览完一篇新闻时，可以更快速地找到与之相关的其它新闻，从而帮助他们理清事件的前因后果，做出较为准确的决策。现有技术方案中的信息检索平台并不能满足用户的这一需求，且学术研究上也没有出现相应的成果。

发明内容

本发明的目的是提供一种针对财经新闻的知识网络构建方法，能够保证财经新闻从抽取到展现的高度实时性，为用户提供更好的体验。

一种针对财经新闻的知识网络构建方法，所述方法包括：

从新闻网站或数据库中获取财经新闻数据；

采用分类技术识别所获取的每篇财经新闻数据的行业标签，采用改进的主题模型抽取每篇财经新闻数据的主题信息，通过调研国家标准行业分类以及财经领域行业分类特点，构建财经领域行业上下游关系网，并在此基础上，创建新闻知识库；

基于所述新闻知识库构建相应的知识子网，所述知识子网为四层拓扑结构，具体包括四种类型节点：新闻、新闻簇、主题簇和主题，以及两种类型关系：包含关系和相关关系；

其中，每篇新闻都会产生自己的知识子网，界面展现时，所述每篇新闻的知识子网会呈现在该新闻内容的下方。

由上述本发明提供的技术方案可以看出，基于所构建的知识网络可以保证各种新闻从抽取到展现的高度实时性，为用户提供更好的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例所提供针对财经新闻的知识网络构建方法流程示意图；

图2所示显示本实施例所举实例中以房地产为中心的上下游行业关系网。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

知识网络的概念首先是由一位心理学家E.加涅在1985年提出的，此后在信息管理领域，许多学者就知识网络研究了其定义、分类、结构等方面的内容。在计算机科学领域内，研究主要集中在单个科学领域或多科学领域的知识图谱上，包括知识网络的构建、可视化、结构分析等内容。本发明实施例是通过构建针对财经新闻的知识网络，实现财经信息之间的关联，从而帮助用户理清当前新闻所述事情的前因后果。下面将结合附图对本发明实施例作进一步地详细描述，构建知识网络的过程可分为线上和线下两大部分，其中线下工作主要包括数据爬取、文本处理和知识库创建，线上工作有知识子网构建以及可视化等，如图1所示为本发明实施例所提供针对新闻的知识网络构建方法流程示意图，所述构建方法包括：

步骤11：从新闻网站或数据库中获取财经新闻数据；

在该步骤中，所获取的数据信息主要包括财经新闻数据，本实施例中为了适时地抓取最新的财经新闻，设计了一个分布式爬虫，可以定制爬取网站上某一类新闻，也可以广泛地爬取所有新闻。除了财经新闻，我们还抓取了在线财经词典和行业关系体系。

举例来说，可以基于Nutch设计分布式网络爬虫，其中每个爬虫从互联网上下载网页，并把网页保存在服务器的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。为了建立初始URL集，我们调研了国内各大财经新闻网站，并从中选择了较为权威的十个作为初始URL集。此外，我们还设计了个性化定制爬虫，方便用户爬取某一类别的财经新闻。我们从抓取的页面中解析出新闻的标题、创建时间和具体内容等字段，具体格式如下表1所示：

表1

id

标题

创建时间

来源

具体内容

作者

标签

然后，采用向量空间模型(VSM)和TF-IDF处理新闻文本，为后续模块提供有效输入。首先，对文本进行分词操作，目前中文分词已有若干成熟的工具可以使用，例如中科院提供的ictclas，斯坦福大学提供的Standford Chinese Word Segmenter、以及paoding和IKAnalyzer等。考虑到分词的效果和效率，以及跨平台使用，我们采用IKAnalyzer。进一步，为了提高财经新闻的分词准确性，可以将爬取的财经词典作为分词的扩展词库，然后在此基础上，用TF-IDF模型将分词后的新闻向量化。

步骤12：识别每篇财经新闻数据的行业标签，并抽取其主题信息，构建财经领域行业上下游关系网，继而创建新闻知识库；

在该步骤中，具体是采用分类技术识别所获取的每篇财经新闻数据的行业标签，采用改进的主题模型抽取每篇财经新闻数据的主题信息，通过调研国家标准行业分类以及财经领域行业分类特点，构建财经领域行业上下游关系网，并在此基础上，创建新闻知识库。

进一步的可以采用分类技术(例如SVM、CNN)识别每篇新闻的行业标签和主题模型(例如LDA)提取其top-3主题(根据新闻的主题分布，取概率值最大的前三个主题作为top-3主题)，并构建上下游行业关系网。通过以上操作，获得了如下知识点：新闻的行业标签，新闻的主题信息以及行业间的上下游关系网，进而创建知识库。

这里，我们将知识定义为财经新闻中包含的财经信息，具体可表现为一篇新闻、新闻的主题以及行业标签等。在这些信息当中，新闻的行业标签以及主题往往不是显示的。另外，在各大财经网站中，对相关行业的分类不存在统一的标准，因此我们调研了国家对国民经济行业的分类，再结合财经领域的特点，制定了一个符合国家标准和财经领域现况的行业分类体系，同时为方便寻找一篇新闻的上下游相关行业新闻，构建了上下游行业关系网，如图2所示显示本实施例所举实例中以房地产为中心的上下游行业关系网。

举例来说，本实施例可以运用LDA(Latent Dirichlet Allocation，隐含狄利克雷分配)主题模型提取新闻的主题分布以及主题的词分布，运用SVM(Support VectorMachine，支持向量机)分类技术识别新闻的行业类别。在实现LDA模型时，我们使用Gibbs抽样来推断该模型中的参数。其中主题数k设定为100。在实现SVM方法时，我们基于林智仁实现版本做了些修改。

利用LDA主题模型和SVM分类技术，对所有的财经新闻进行主题提取和分类操作，获取的知识点包括：每篇新闻的主题分布，所有主题的特征词分布以及每篇新闻的类别。为了存储这些知识点，可以在所创建的知识库中构建两个知识表：News表和Topic表，详情可见下表2和表3。其中，News_topic是新闻的top-3主题，Topic_value表示相应的概率分布；Topic_words是主题下top-10的词，Words_value表示相应的概率分布。

表2

News_id	News_title	News_createdtime	News_topic	Topic_value	label

表3

Topic_id	Topic_words	Words_value

步骤13：基于所述新闻知识库构建相应的知识子网，所述知识子网为四层拓扑结构。

在该步骤中，知识子网具体包括四种类型节点：新闻、新闻簇、主题簇和主题，以及两种类型关系：包含关系和相关关系；其中，每篇新闻都会产生自己的知识子网，且所述每篇新闻的知识子网会呈现在该新闻内容的下方。

具体实现中，所述新闻簇节点的产生过程为：用户点击一片新闻时，首先根据每篇新闻的id提取其top-3主题，然后搜索与其主题相关的其它新闻，计算各新闻间的主题相关性(每篇新闻表示为主题的概率分布，利用余弦相似度度量相关性)，最后根据每篇新闻的行业标签，将相关新闻划分到三大类：行业政策、宏观经济和上下游行业。

由于父节点中所有新闻都有各自的主题，为了便于用户的浏览，需要形成主题簇节点，所述主题簇节点的产生过程为：首先提取出所有新闻的top-3主题，将每一个主题表示为词的概率分布，然后利用K均值算法将所有主题聚类成若干簇，通过聚类，相似的主题被放在一块，形成主题簇节点。

举例来说，当用户点击一篇新闻(称之为主新闻)进去后，除了可以看到主新闻的基本信息(标题，来源，时间，内容等)外，还可以看到以主新闻为中心的一层知识网络。其中，从主新闻辐射出的三个子节点分别表示与主新闻相关的属于类别“上下游行业”、“宏观经济”和“行业政策”的新闻集合。例如如果主新闻的行业标签是房地产，那么“上下游行业”节点中新闻的标签都是房地产的上下游行业(例如家具业、装饰业等)，而“行业政策”节点中的新闻就都是讲述房地产调控政策的。

如果用户对“宏观经济”类的相关新闻感兴趣，就可以点击相应的节点，从该节点会辐射出若干主题簇节点，用户可以通过点击这些主题簇节点，进一步了解具体每个主题的信息；然后用户可以通过点击一个主题节点获得其相关的top-k新闻(主题与新闻间的相关性用新闻的主题概率分布中该主题的概率值来度量)；最后点击新闻节点，就会跳转至该新闻的分析页面。

由此可见，每篇新闻的知识子网，都需要在线生成，并且能够使得用户可以与之交互，引导用户一步一步更为快速地找到自己想要的信息。

为此，在所构建的新闻知识库的基础上，使用D3.js(全称Data-Driven Documents，一种最为流行的可视化库)实现了知识网络的可视化，D3是一个轻量级并且开源的JavaScript框架，用于操作基于数据的HTML文档，它能够帮助我们以HTML或SVG的形式快速可视化展示，进行交互处理，合并平稳过渡，在Web页面演示动画，因此我们基于D3.js实现了知识网络的可视化。

综上所述，本发明实施例所构建的知识网络针对每篇财经新闻，分析了它的行业标签、主题信息等，自动挖掘了与之相关的上下游行业新闻、宏观经济新闻以及行业政策新闻，意图帮助用户寻找一篇新闻所述事情的前因后果。在信息爆炸的时代，决策者们不仅仅需要快速全面地获取信息，还需要快速地理清这些信息之间的关联，从而做出更好的决策。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种针对财经新闻的知识网络构建方法，其特征在于，所述方法包括：

从新闻网站或数据库中获取财经新闻数据；

2.根据权利要求1所述针对财经新闻的知识网络构建方法，其特征在于，所述新闻簇节点具体包括：

根据每篇新闻的标识id提取top-3主题分布，并据此搜索与其主题相关的其它新闻，计算各新闻间的主题相关性，将每篇新闻表示为主题的概率分布，计算余弦相似度，并根据所述每篇新闻的行业标签，将相关新闻划分到三大类：行业政策、宏观经济和上下游行业。

3.根据权利要求1所述针对财经新闻的知识网络构建方法，其特征在于，所述主题簇节点具体包括：

提取出所有新闻的top-3主题，将每一个主题表示为词的概率分布，然后利用K均值将所有主题聚类成若干簇，通过聚类，相似的主题被放在一块，形成主题簇节点。

4.根据权利要求1所述针对财经新闻的知识网络构建方法，其特征在于，

在所构建的新闻知识库的基础上，使用可视化库D3.js实现知识网络的可视化。

5.根据权利要求2所述针对财经新闻的知识网络构建方法，其特征在于，

所述主题与所述新闻之间的相关性采用所述新闻在该主题上的概率值来度量。