CN107918644B

CN107918644B - 声誉管理框架内的新闻议题分析方法和实施系统

Info

Publication number: CN107918644B
Application number: CN201711043090.2A
Authority: CN
Inventors: 李言生
Original assignee: Beijing Rsact Consulting Co ltd
Current assignee: Beijing Rsact Consulting Co ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-12-08
Anticipated expiration: 2037-10-31
Also published as: CN107918644A

Abstract

本发明涉及一种新闻议题分析方法，包括(1)信息采集和去噪步骤，(2)文本信息预处理步骤，(3)文本信息深度处理步骤，和(4)利益相关方关系图谱构建及展示步骤，以及实施该方法的系统。通过本发明的方法和系统能够更深入地挖掘新闻报道背后的议题图谱及利益相关方关系网络，更好地进行声誉管理。

Description

声誉管理框架内的新闻议题分析方法和实施系统

技术领域

本发明涉及一种新闻议题分析方法，更具体而言，涉及一种声誉管理框架内的新闻议题分析方法，包括(1)信息采集和去噪步骤，(2)信息预处理步骤，(3)信息深度处理步骤，和(4)利益相关方关系图谱构建及展示步骤。本发明还涉及实施该方法的相应系统。通过本发明的方法和系统能够更深入地挖掘新闻报道背后的议题图谱及利益相关方关系网络，更好地进行声誉管理。

背景技术

声誉管理作为企业战略管理的重要组成部分，基于对利益相关者的关系识别、管理与传播，将企业的价值观、商业模式、产品和服务等及时、准确地传达给各方面受众，同时基于信息反馈建立快速的联动和反应机制，建立与维护企业与内外部利益群体之间的信任关系。声誉分析是指通过舆情数据分析和机器学习的方式，挖掘企业与各利益相关者在人物、组织、议题以及媒体等方面形成的各种关系网络，从而为企业在声誉管理的实践中提供洞察企业利益者的图谱，理顺各利益相关者关注焦点，评估影响各利益相关者传播动作的价值等。服务内容包括：

-企业声誉管理图谱检索(人物图谱、组织图谱、议题图谱、媒介图谱)

-企业声誉健康度评估

-企业声誉传播效果评估

-企业危机事件检索(议题走势图谱、关键节点图谱)

-企业危机处理效果评估

企业议题规划效果预览目前已有多种成熟的舆情监测系统，如下所述，但声誉分析管理系统则是空白领域。

谷尼国际软件开发的Goonie互联网舆情监控系统通过对互联网海量信息自动获取，自动聚类，主题检测，专题聚焦，实现网络舆情监测和新闻专题追踪，形成简报、分析报告等结果，为全面掌握舆情动态提供分析依据。该系统通过内容抽取识别，相似性去重等技术，可以获取网络中的热点议题和敏感议题，可以根据统计等策略，分析在不同时间内人们对不同主题的关注程度，并预测事件的发展趋势。

中科点击开发的军犬网络舆情监控系统使用强大的采集软件，对数千网站进行监控，可以自动获取舆情信息的热度，并生成报表，同时可以获取热点主题的浏览量，回复数，并跟踪发帖人，对舆情信息进行管理，标注和分类，并根据重要性对舆情信息进一步筛选和过滤。

北京拓尔思信息技术股份有限公司开发的TRS网络舆情监控系统采用多种技术，实现对舆情信息的精准和全面采集，同时综合运用大规模文本智能挖掘技术，实现对海量舆情信息的准确、高效分析和管理。

北大方正技术研究院开发的方正智思网络舆情互联网信息监控分析系统整合互联网搜索技术及信息智能处理技术等，通过对网络信息进行自动抓取，自动分类聚类，主题检测，专题聚焦等方法，实现网络舆情监控和新闻专题追踪等功能。

通过对上面几个国内知名的舆情监测系统的分析发现：目前国内的舆情监控系统都将重点放在舆情本身表面现象的准确发现和分类归类方面，而对于某个舆情事件背后的利益相关方，以及与更多其他事件的内在联系未做深入的研究和分析。这些监控系统对于舆情的发现可能会有很好的效果，因此适合给有关机构提供分析和咨询，但是由于其侧重于发现和分类方面，不能提供更全面的深度关系信息，因此如何更全面地更深入地挖掘事件背后的利益相关方及其关系图谱成为一个亟待解决的问题。

发明内容

本发明一方面提供了一种新闻议题分析方法，所述方法包括以下步骤：

信息采集和去噪步骤S1，实时获取网络中发布的新闻信息，经去噪从中获取有效信息内容，并存储到第一数据库中；

信息预处理步骤S2，包括S2-1文本分词处理，S2-2新闻要素抽取，得到所述新闻信息中包括的新闻要素，S2-3新闻合并与转载分析，将具有相似、相同新闻要素的新闻文本进行合并归类，和S2-4实体链接，建立新闻实体与知识库实体的对应链接关系，将存储在第一数据库中的所述有效信息内容经过信息预处理以后的结果存储在第二数据库中；

信息深度处理步骤S3，其中包括议题/事件聚类关联分析，采用内容-实体关联议题模型对步骤S2得到的信息预处理结果进行处理得到议题/事件聚类关联分析结果；

利益相关方关系图谱构建及展示步骤S4，根据输入关键词，结合所述信息深度处理步骤S3生成的议题/事件聚类关联分析结果，筛选与所述关键词相关的议题，构建并展示利益相关方关系图谱。

在一些实施方式中，所述信息采集和去噪步骤S1中获取的有效信息内容包括但不限于标题信息、正文内容信息和辅助信息。

在一些实施方式中，所述S2-4实体链接包括S2-4-1实体候选集合生成，S2-4-2实体候选排序，和S2-4-3无链接文本预测。

在一些实施方式中，所述内容-实体关联议题模型采用两个级联的生成过程分别对内容议题和实体议题进行建模，其中所述内容议题是主要议题并可以和多个实体议题关联，生成命名实体时，首先需要选择一个内容议题作为超议题，然后生成与之相关的实体议题，最后基于多项分布生成具体的命名实体。

在一些实施方式中，实体间关系亲疏的度量主要依赖于议题分析得到的议题-实体分布，具体定义为与目标实体相关的议题分布间的余弦相似度，即

其中cos(.,.)用于计算两个向量的余弦相似度，K为议题数目，p(z|e_i)表示实体e_i的议题分布，p(z|e_j)表示实体e_j的议题分布，其中实体e_i在具体议题z_k上的概率p(z_k|e_i)需要通过贝叶斯公式计算，即

其中p(z_k)和p(e_i)分别表示议题z_k和实体e_i的边缘概率，z^e为实体议题，p(e_i|z^e)和p(z^e|z_k)分别表示实体议题z^e下实体e_i和内容议题z_k下实体议题z^e的生成概率。

另一方面，本发明提供了一种用于本发明的新闻议题分析方法的新闻议题分析系统，所述系统包括以下模块：

信息采集和去噪模块M1，用于实时获取网络中发布的新闻信息，经去噪从中获取有效信息内容，并存储到第一数据库中；

信息预处理模块M2，用于对采集到的新闻信息进行预处理，并将结果存储在第二数据库中；

信息深度处理模块M3，用于进行议题/事件聚类关联分析；

利益相关方关系图谱构建及展示模块M4，用于根据输入关键词，结合所述信息深度处理模块M3生成的议题/事件聚类关联分析结果，筛选与所述关键词相关的议题，构建并展示利益相关方关系图谱。

在一些实施方式中，所述文本信息预处理模块M2包括文本分词处理单元M2-1；新闻要素抽取单元M2-2，用于得到新闻要素；新闻合并与转载分析单元M2-3，用于将具有相似、相同新闻要素的新闻文本进行合并归类；和实体链接单元M2-4，用于建立新闻实体与知识库实体的对应链接关系。

在一些实施方式中，所述文本信息深度处理模块M3采用内容-实体关联议题模型进行议题/事件聚类关联分析并得到结果。

再一方面，本发明还提供了一种用于本发明的新闻议题分析方法的设备，包括存储器和处理器，其中，所述处理器配置成执行本发明的新闻议题分析方法。

再一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行指令，所述执行指令用于执行本发明的新闻议题分析方法。

简要附图说明

图1为根据本发明的实施方式的新闻议题分析方法声誉分析和管理辅助系统框架图；

图2为根据本发明的实施方式中事件聚类分析所采用的实体议题模型的盒盘示意图；

图3为根据本发明的实施方式中关键词输入界面；

图4为根据本发明的实施方式中结果输出总界面，示出了人物、地点、组织和事件四个显示区；

图5为根据本发明的实施方式中结果输出分界面(1)，单独示出了事件显示区；

图6为根据本发明的实施方式中结果输出分界面(2)，示出了在点击事件显示区中某一项事件以后弹出的新闻列表显示区；

图7-9为根据本发明的实施方式中界面输出分界面(3)-(5)，依次单独示出了人物、地点和组织三个显示区。

具体实施方式

在本发明的新闻议题分析方法中，具体包括以下步骤：

信息采集和去噪步骤S1

首先进行信息的采集，即实时获取网络中发布的新闻信息，包括媒体新闻门户网站、微博、博客和论坛等发布的信息网页。在本文中所使用的术语“新闻”不仅限于在互联网络中发布的用概括的叙述方式，以较简明扼要的文字，迅速及时地报道新近发生的、具有时效性的、有价值的事实的消息，例如新闻事件、热点议题、人物动态或产品资讯等，而且还包括内容详尽，文字语言丰富，时效性不强的评论、综述等。一般而言，在互联网站发布的网页信息均包含在本文中所述及的“新闻”范畴之内。本文中，新闻包括文字新闻、图片新闻、视频新闻、音频新闻，以及其他任何常见报道形式的新闻，在本发明的方法中获取的新闻优选为文本新闻和图片新闻，更优选为文本新闻。随后，将获取的新闻信息进行去噪处理以获取新闻有效信息，也可简称为有效信息。本文中，有效信息包括但不限于新闻的标题信息、正文内容信息和辅助信息。所述标题信息通常为文本标题信息。所述正文内容信息的形式包括文本、图片、视频、语音以及其他任何常见新闻内容形式，在本发明的方法中优选为文本形式的正文内容信息，即文本正文内容信息。所述辅助信息包括新闻的发布时间、来源和/或在网页中的位置，在本发明的方法中，所述辅助信息优选为以文本形式记载的辅助信息，也可简称为文本辅助信息。上述有效信息以元数据的方式进行存储。

在一些实施方式中，可以采用网络爬虫技术实时获取各类网站、微博、博客和论坛等发布的信息网页，从信息来源的可靠性角度考虑，优选实时获取主流媒体新闻门户网站发布的新闻报道信息，覆盖例如新浪、搜狐、网易、凤凰和腾讯五大综合类新闻门户，新华网、人民网和中国新闻网等中央媒体，代表性区域媒体，阅读和发行量领先的电子报刊以及财新网、虎嗅网和钛媒体等垂直领域资讯类新媒体。所述网络爬虫技术是本领域中常规技术手段，为本领域技术人员所熟知，只要具有能够实时获取网页信息功能的网络爬虫技术都可以用于本发明。

在一些实施方式中，具体的网页信息内容获取通过Jsoup完成，Jsoup提供了一套灵活、强大的功能接口，可以从URL、文本和字符串中解析HTML。其优势在于可以使用DOM或CSS选择器来查找和筛选数据，并且能够操作HTML元素、属性和文本。实际操作中，通过简单分析网页模版即可完成抓取配置，生成基于HTML标签和属性的精准选择器，从网页中获取新闻信息元数据。这种方式能够很好地规避HTML网页图片、音频、广告、导航条等噪声数据，提取对声誉分析有用的有效信息元数据，包括但不限于标题信息元数据、正文内容信息元数据和辅助信息元数据。

如上所述提取到相应的有效信息元数据，包括但不限于标题、正文、发布时间、来源和/或在网页中的位置，以统一的数据结构存储到第一数据库中。所述第一数据库可用于存储统一数据结构表示的新闻信息，包括在本领域中众所周知的数据库，例如Oracle、DB2、Sybase、SQLServer和MySQL，在本发明的一些实施方式中，优选采用MySQL数据库，其优势在于灵活的安装、高可移植性、良好的运行效率、简单优化的调试管理。

为了实现实时获取新闻信息，同时尽可能减少网络访问以节省带宽，在一些实施方式中，抓取过程优选采用增量式的方式，即针对优选出的网站，以固定时间间隔获取信息更新列表，并与上一次成功抓取的列表做差集获得本次抓取任务集。根据不同类型信息源的更新情况，抓取任务以每60分钟，每45分钟，每30分钟，每20分钟，每15分钟，每10分钟，每5分钟，每3分钟或者每1分钟的频率进行。

在完成信息采集和去噪步骤，得到存储在所述第一数据库中具有统一数据结构的新闻信息，优选为文本格式的新闻信息以后，进行所述新闻信息，优选为文本格式的新闻信息的预处理。

如在本文中所使用的，术语“新闻文本”、“文本信息”、“文本格式的新闻信息”可互换使用。

信息预处理步骤S2

在该信息预处理步骤中处理的新闻信息是在信息采集和去噪步骤S1中得到的存储在所述第一数据库中具有统一数据结构的新闻信息，优选为文本格式的新闻信息。

信息预处理步骤S2包括以下内容：

S2-1文本分词处理

对新闻信息，包括但不限于标题信息、正文内容信息和辅助信息中的的文本进行分词处理，所述新闻文本的分词处理包括但不限于中文分词、词性标注、停用词过滤、命名实体识别和关键词抽取等。

首先进行中文分词。在中文分词领域中已知的成熟分词工具均可用于本发明，例如但不限于中国科学院计算技术研究所研制的ICTCLAS汉语词法分析系统、清华大学计算机系知识工程研究室研制的分词工具等。通过使用分词工具对采集信息的标题和正文进行分词，并通过以下既定规则过滤对计算机理解文本无用的词语：

-保留词语长度大于等于2的词语，由于中文分词后得到的单字的词往往没有实际意义，所以滤掉不予考虑。此处所用的术语“词语长度”是指构成该词语的汉字字数，例如词语“百度”的长度为2，“阿里巴巴”的长度为4；

-保留实词，滤掉虚词：保留名词、动词、形容词、副词等词性的实词，滤掉连词、助词、叹词等虚词；

-借助人工建立的停用词表过滤掉停用词：停用词包括没有实义的虚词和类别色彩不强的中性词，有效处理停用词能够提高后续分析的质量。所述停用词表的建立可以由人工方式完成，基于统计的机器学习方式来完成，或者结合人工方式和基于统计的机器学习方式来共同完成。机器学习的方法从语料中统计出高频词自动构造停用词表，或从初步的分词中获得停用词并在后续分词中不断更新和验证。

过滤处理能够有效减小文本表示的特征词集，便于后续的分析和索引，例如可以减少索引大小，提高检索效率和准确率。

其次进行命名实体识别。术语“命名实体(named entity)”是指有可区别性且内于其自身而独立存在的某种事物，但它不需是物理存在，法律拟制(如企业、组织)也可被视为实体。如在本文中所使用，命名实体包括但不限于新闻中出现的人物、地点、组织机构和品牌产品等。对命名实体进行识别即从新闻文本中识别自动识别与声誉管理相关的人物、地点和组织机构名称，并提取与之相关的信息。考虑到企业名称的随意性以及别名的存在(如“百度”在某些非正式场合经常被称为“度厂”)，在一些实施方式中，所述命名实体识别具体采用基于条件随机场(Conditional Random Field，CRF)的序列标注和基于规则识别两种策略。CRF是一种比较成熟的序列标注模型，基于CRF的中文命名实体识别关键在于抽取命名实体的合适特性，通过对中文命名实体的特点进行分析定义命名实体的特征。基于规则方法主要利用两种信息，命名实体用字分类和限制性成分，即分析过程中遇到具有明显特征的命名实体用字时，便开始触发命名实体抽取过程，并且采集命名实体前后的相关成分，对命名实体的前后位置进行相应的限制，一种特殊的实现方式是基于字典的方法。

最后对新闻文本进行关键词抽取。关键词是对文本内容高度概括的、用以表示文本内容的元数据。抽取过程中综合利用统计特征和语言文法两类信息。首先，统计信息用来衡量单个词的重要程度，主要包括词频、词性、位置等上下文信息，计算方法如下：

其中I_ω是需要计算的词ω对于新闻文档的重要程度，ω_f表示词ω在文档中的词频，ω_p为其位置信息，即是否在标题中出现，N_ω表示在当下语言单元中的候选词总数。然后通过N元文法模型进行短语拼接，主要使用词性特征生成常见搭配，如动宾短语，主谓短语分别是“动词+名词”，“名词+动词”模式。最后，为了避免关键词间的相互包含关系，引入“重复度”和“完整性”两种检查策略对候选结果集进行去重和优化。

在完成对新闻文本的分词处理以后，分别进行S2-2新闻要素提取、S2-3新闻合并和转载分析和S2-4实体链接，具体描述如下。

S2-2新闻要素抽取

新闻要素抽取是指通过分析新闻信息包括但不限于标题信息、正文内容信息和辅助信息得到新闻的六要素，即5W1H，何人(Who)在何时(When)何地(Where)何故(Why)如何(How)做了何事(What)。一般来说，在新闻信息中并非总是包括全部六要素，在有些情况下可以缺失其中的一项或多项要素，因此，在本文中所述新闻信息可以包括所述六要素中的任意一项、两项、三项、四项、五项或者六项。同时，由于所述新闻的六要素中各项要素对于声誉管理的重要性并不相同，因此在进行新闻要素抽取时可以不必抽取新闻信息中所包括的全部要素，而仅仅抽取其中对于声誉管理较为重要的几项要素。具体而言，由于后三个要素即何故(Why)、如何(How)和做了何事(What)通常比较抽象，因此在本发明中重点关注何人(Who)、何时(When)以及何地(Where)三要素。在一些实施方式中，提取的新闻要素包括何人(Who)、何时(When)、何地(Where)、何故(Why)、如何(How)以及何事(What)中的任意一项、两项、三项、四项、五项或者六项，在一些实施方式中，提取的新闻要素优选包括何人(Who)、何时(When)以及何地(Where)中的任意一项、两项或者三项。抽取方法主要基于新闻标题和文章主题句，其中标题是新闻的眼睛，具有揭示、阐明和评价新闻主要内容的作用。同时，考虑到文章转载以及微信等自媒体发布消息时存在通过标题吸引关注的行为，导致仅仅通过标题抽取新闻要素可能会与实际情形产生较大偏差，因此在本发明的方法中还通过选择新闻主题句来辅助抽取。

针对要素抽取的目标，结合新闻主题句的特点，本发明通过命名实体数量、句子长度和位置三个指标综合选取新闻主题句，依据的假设为：

-命名实体是新闻的重要信息，也是要素抽取的基础，单位长度所含的命名实体个数越多，句子为主题句的概率越大；

-句子越长，所包含的信息量往往越高，因此长句比短句更容易作为主题句；

-新闻的开头、结尾和段首语句重要程度较高，作为主题句的概率也较大。

在选取确定新闻主题句后，进行新闻要素的抽取。在一些实施方式中，优选为进行何人(Who)、何地(Where)和何时(When)等三要素的抽取，具体而言，分别选取标题和主题句中的人物/组织机构、地点及时间表达作为何人(Who)、何地(Where)和何时(When)的候选集，采用无监督的启发式规则和有监督的逻辑斯蒂回归(Logistic Regression，LR)混合策略来抽取最终结果，其中启发式规则考虑实体的位置、频次以及句子成分等信息，LR通过在人工标注结果上训练分类模型进行预测。

S2-3新闻合并和转载分析

新闻合并和转载分析包括根据提取的新闻要素进行比对，将具有相似、相同新闻要素的新闻文本进行合并归类，可以发现新闻的传播过程及媒体间的转载情况。传统基于向量余弦夹角的文本相似度度量的主要做法是根据文章中出现词的词频构造向量并计算文章对应向量的夹角余弦值。其缺点是新闻的词汇量大，向量维度很高，使得计算的代价太大，不能满足实时性的要求。在一些实施方式中，采用Simhash算法度量新闻相似性。Simhash算法是由Google最先提出，其主要思想是降维，将高维的特征向量映射成固定维度的二进制指纹，通过比较文章指纹的汉明距离(Hamming Distance)来确定文章是否重复或者高度近似。具体做法如下：

首先对于标题和正文的分词结果，使用传统的哈希算法将每个词映射为一个D维的二进制签名。其次，初始化一个全零的D维向量x，按位遍历所有词对应的二进制签名，如果某一维度为1，则x对应维度加上该词语的权重，否则减去该词语的权重。考虑到标题对于文章的重要性，对标题中出现的词语赋予较高的权重。再次，根据向量x的结果生成文档的二进制指纹F，即如果x某一维度为正值，指纹F对应维度为1，否则F的对应维度为0。最后计算文档指纹间的汉明距离，汉明距离为两个等长字符串对应位置的不同字符的个数，对应两个二进制指纹，汉明距离统计其异或结果中1的个数。根据不同场景的需要，本发明可通过控制生成二进制指纹的位数和汉明距离大小的阈值来快速确定新闻间相似程度。

S2-4实体链接

如在本文中所使用，实体链接，即给定一个实体的提及，在知识库中找出其对应的真正实体。此过程能够将新闻中出现的命名实体与百科类知识库建立关联，以扩充新闻的背景知识，辅助发现新闻涉及的各方势力间更深层次的语义关系。互联网络中存在许多可供使用的百科知识库，包括由公司、大学或研究机构等研发的公众可自由获取内容的公共知识库，也包括仅供拥有权限的特定人群访问获取内容的私有知识库。例如但不限于百度百科、互动百科和维基百科等公共知识库，清华大学知识工程研究室开发的中英文跨语言知识库Xlore等均可用作本发明的链接知识库。所述知识库可以是任何自然语言编写的知识库，优选为中文、英文、日文、韩文、德文、法文和西班牙文中一种语言编写或多种语言混合编写的知识库，更优选为中文和英文单独编写或混合编写的知识库。实体链接包括如下三个子任务：

S2-4-1实体候选集合生成：旨在建立实体提及与知识库实体的对应关系，是决定能否链接的关键步骤。本发明中，所述实体候选集合主要从以下几类百科信息中获得：

-词条标题：百科中的每个词条都描述唯一实体，并维护着这个实体的相关信息。一般来说，词条标题是该实体公认的名称；

-文本链接：词条的文本中经常会有一些实体名称，以超链接的形式存在，指向该实体对应的词条。超链接的锚文本可看作是指向实体的别名；

-消歧页面：如果一个名称对应多个实体，百科会为其创建歧义页面，供用户按所需选择词条；

-重定向页面：百科在更新过程中会将陈旧、非标准词条，或公认的缩写名称、别名等自动重定向到到该实体对应的标准词条页面。

S2-4-2实体候选排序：给定实体如果对应多个候选，需要用排序算法进行消歧，确定最匹配实体。具体分为两种情况：

-针对上下文信息稀疏的实体，直接以流行度(出现频数)从高到低排序，返回受到广泛认可的一个或多个实体信息；

-针对上下文信息较为丰富的实体，综合利用实体与词条的上下文相似度、共现实体的语义一致性来对候选实体进行排序。

S2-4-3无链接文本预测：给定一个实体名称，如何确定知识库中未收录对应实体，这是基于有限的候选集合进行实体链接存在的局限性。在一些实施方案中，基于封闭世界假设，假定候选集合是完备的，如果不能确定链接结果，则忽略该文本或者返回空值。本发明的判断策略更为谨慎，根据人工已确定的链接实体估计最小成功链接概率，如果该实体与最匹配候选的链接概率大于最小成功链接概率，则建立相应链接关系，否则返回空值。

与信息采集和去噪步骤中的新闻抓取相对应，文本预处理同样设置为定时任务，时间间隔可依据服务需求和计算环境合理调控。本发明中，预处理任务基础设定的定时间隔为1小时，四个任务按照依赖关系首先进行文本分词处理，随后进行新闻要素提取、新闻合并和转载分析，以及实体链接，其中后三个任务即新闻要素提取、新闻合并和转载分析，以及实体链接可以同时进行，也可以按照任意顺序依次进行。例如，在一些实施方式中，首先进行新闻要素提取，再进行新闻合并和转载分析，最后进行实体链接。在一些实施方式中，首先进行新闻要素提取，然后同时进行新闻合并和转载分析，以及实体链接。以上所例举的具体顺序并非旨在限制本发明，本领域技术人员能根据需要确定所述任务的执行顺序，对于新闻报道高峰时间段(早10点至晚6点)，为尽量保证数据的及时性，本发明借鉴“流水线”的思路，将新闻分批处理。此外，为了提高效率，还有如下的近似辅助措施：

-新闻合并和转载分析仅处理固定时间间隔(如一天)的新闻，因为新闻时效性较强，一般意义上，热点新闻转载都发生短时间内，故有此近似策略；

-新闻中命名实体的存在歧义性的比例不高(15％左右)而且同一实体的时间分布往往比较集中，因此我们通过内存数据库Redis缓存实体链接结果，提高实体链接的效率。Redis全称为Remote Dictionary Server，是一个高性能的键值对数据库，所有数据都保存在内存中，不定期地通过异步方式保存到磁盘上(半持久化模式)，也可以把每一次数据变化都以追加方式写入到指定文件(全持久化模式)。

信息预处理的结果存储第二数据库中。在一些实施方式中，所述第二数据库是文档型非关系型数据库，例如CouchDB、MongoDB和/或SequoiaDB等。所述信息预处理，在本发明的一些实施方式中，优选为文本信息预处理，其结果主要包括以下几类信息：

-原始新闻信息，如标题、正文、发布时间、来源和网页链接等；

-抓取源信息，区别于新闻页面展示的来源，此信息记录新闻抓取的站点(例如包括但不限于站点地域和行业属性以及影响力)及具体位置(例如包括但不限于首页要闻、首页、频道要闻、频道首页、滚动新闻)

-预处理结果，其中分词结果和关键词信息均以字符串存储；实体链接结果以JSON数组形式存储，每个元素为<实体名称，实体类型，链接结果>三元组；在一些实施方式中，考虑到存储开销，除原始新闻外，被合并的新闻存储其“轻量级”版本，即仅存储关键性的区别信息，如标题、来源、发布时间、链接和抓取源等。

在所述信息预处理步骤完成之后，根据需要针对某一特定事件进行声誉管理分析，其涉及到对信息进行深度处理，以下对此作出详细说明。

信息深度处理步骤S3

在该深度处理步骤中，通过深层语义分析进一步处理新闻信息，优选为新闻文本信息，从而挖掘出新闻的议题，该步骤具体包括以下内容：

议题/事件聚类关联分析

在上述步骤S2-3中已经将内容相近甚至相同的新闻归类合并，针对某一特定事件，选定关键词，依据设定的关键词挑选出最相关的议题文本页面信息，以此为基础，涉及语义排歧(morph)等处理，根据语义分析的结果，逐步找出与之相关联的围绕同一事件不同方面的多个议题。

如在本文中所使用，术语“议题(或称话题)”是指一个核心事件或活动以及与之直接相关的其他事件或活动，在本文中“议题”和“话题”可以互换使用。而一个事件(Event)通常由某些原因、条件引起，发生在特定时间、地点，涉及某些对象(人或物)，并可能伴随某些必然结果。通常情况下，可以简单地认为议题就是若干对某事件相关报道的集合。议题分析主要是检测与跟踪，定义为不同来源的新闻数据流中自动发现议题并把议题相关的内容联系在一起的技术。给定新闻集合(如通过关键词检索出来与特定企业相关的报道)，本发明通过实体议题模型进行议题分析，同时可以将新闻和所涉及的实体按照所讨论的议题进行归类和关联分析。

在上述步骤S2-2的描述部分中通过启发式的方法抽取了单篇新闻报道涉及的时间、地点、人物和组织机构，但是传统的统计议题模型不能很好地度量议题和上述新闻要素(命名实体)间的关系，因此本发明采用一种先进的内容-实体关联议题模型(以下简称实体议题模型)。所述实体议题模型的基本思想是，新闻中的实体通常是分组出现的，如关于科技创业类的报道可能会涉及投资机构、政府部门、同行企业等，不同类型的议题与实体的关联程度也存在差异，如投资类议题主要吸引投资机构，而市场竞争中同行企业则参与较多。实体议题模型能够在统计意义上发现并对不同的议题和实体进行关联。

具体地，实体议题模型采用两个级联的生成过程分别对内容议题和实体(亦或者称为命名实体)议题进行建模，其中内容议题是主要议题并可以和多个实体议题关联，其生成过程与标准议题模型相同，生成命名实体时，首先需要选择一个内容议题作为超议题(super topic)，然后生成与之相关的实体议题，最后基于多项分布生成具体的命名实体，详细过程如图2所示。

求解过程就是对模型涉及的参数进行估计，本发明中采用吉布斯采样，内容议题和实体议题采样更新的后验概率分别为：

式子的左侧为需要估计的后验概率，右侧为计算公式。其中α、β、α^e、β^e分别为内容议题、非实体词、实体议题和命名实体的狄利克雷先验；W，E分别为新闻集合词语和实体总数，W_d为文档长度；K，K^e分别为内容议题和实体议题的数目；w_i和

分别表示需要采样议题的当前词和实体，z_i＝t和

为其对应的议题标号，

为除当前词以外的其他词，

为对应的议题标号，

与

类似；n_condition为词语的采样计数函数，其中下标(即condition)为计数条件，符号

表示当前元素不参与计数。

实体议题模型本质是一种概率统计方法，上述求解过程为每篇文档生成一个K维的概率分布θ、K^e维的实体议题分布θ^e，为每个议题生成一个W维的词语概率分布φ，为每个实体议题生成一个E维的词语概率分布φ^e。实际应用中可根据需要基于上述概率分布对文档进行归类并选取代表性关键词和实体。在一些实施方式中，文档归类z_d通常选取对应分布θ_d中概率最大的议题，即

类似地，议题代表性关键词和实体则选取φ和φ^e中概率值最大的前N个，具体数目可根据实际需要设置。

利益相关方关系图谱构建及展示步骤S4

在聚类与特定事件相关联的新闻信息的基础上，依据扩展关联的知识库，进一步挖掘利益相关方的内在联系，构建隐藏在新闻背后的利益相关方关系图谱。如在本文中所使用，术语“利益相关方”是指企业等组织在日常的商业经营与品牌塑造中可能发生关系的个人或团体，通常利益相关方可以包括但不限于，例如：政府部门、消费者、股东、媒体、内部员工、供应链、银行、工会、合作伙伴、社会组织、社团组织、社区等。术语“利益相关方关系图谱”则是指企业与各利益相关方基于议题关系建立的亲疏远近的关系网络图谱。

具体地，包括如下四类关系分析：

-组织关系：分析目标企业与资本类机构、政府部门、上下游企业、同行企业以及第三方机构间的联系，如工商注册信息中资本的分布情况、不同类型机构关注度的分布等；

-媒体关系：媒体作为一类特殊的组织机构，其立场和声量是企业声誉管理的重要度量指标和维护目标，因此媒体关系分析也是本发明的重要构成；

-人物关系：与媒体类似，人物也是企业声誉中重要的参与者，其观点和立场对于企业声誉至关重要，因此本发明识别新闻报道中具体人物的言论进行分析；

-舆论关系：舆论关系即S3中的议题/事件聚类。

除了上述基本分析，本发明还会进行交叉分析以得到更具指导意义的结论、动态分析以关注各类型关系的变化趋势，如媒体分析中可进一步根据媒体的行业属性查看目标企业在不同行业媒体上的舆论表现及其行业分布变化，方便制定更合理的公关策略。

综上，实体间关系的度量是共性的技术难点，下面逐一阐述本发明中的解决方案。

实体间关系亲疏的度量主要依赖于议题分析得到的议题-实体分布，具体定义为与目标实体相关的议题分布间的余弦相似度，即

而实体间关系类型的度量，优选采用基于关键词的表示方式，即呈现两个实体所有共现新闻文档或片段(依需求的精细程度而定)的关键词，并允许用户进行人工干预。

以下通过具体的实施例来进行详细说明利益相关方关系图谱构建及展示。

提供检索关键词，根据该检索关键词在上述步骤S3所生成的经过聚类的议题中进行搜索，根据搜索结果构建利益相关方关系图谱。例如，如图3所示，在该实施例中检索关键词为“ofo”，找出与“ofo”相关的议题聚类并构建相应的利益相关方关系图谱，然后以恰当的方式进行展示。应当注意的是，在该实施例中所描述的展示方式及交互界面仅仅是为了更好地阐述本发明，而并非旨在对本发明做出限制，可以根据需要采用不同的展示方式及交互界面而不背离本发明的核心实质。

在本实施例中，检索得到的与所述检索关键词“ofo”相关的利益相关方关系图谱以图4-9所示的形式展示，其中涵盖了与所述检索关键词“ofo”相关的议题。

具体而言，在图4中展示在一周的时间段，在该实施例中具体为“2017年10月20日至2017年10月27日”内关于“ofo”报道所涉及的新闻议题，以及在这些新闻议题背后所隐藏的利益相关方关系图谱，具体分别以人物、地点、组织和事件等四个显示区进行展示。检索的时间范围和议题数量作为可调整的参数均可自行调整，在该实施例中所例举的“一周”的时间范围和图4中显示的议题数量“6”仅为示例性的。

如图5所示，展示了事件显示区，在该显示区中列出了与检索关键词“ofo”相关的六个议题，每个议题展示其代表性关键词，其中关键词帮助用户理解议题的主要内容，点击详情可以访问议题的文章列表，用户可根据代表性关键词和文章列表来设置议题的标签，在该实施例中，默认以展示概率分布最大的新闻标题作为该议题的标签。

如图6所示，显示了点击第三个议题(即第一排最右的方框)的详情后弹出文章列表窗口，以第一条新闻标题“撑不住共享单车并购潮开始了”作为该议题的标签，在下文中将该议题称为“共享单车并购潮议题”。

如图7-9所示，分别展示了人物、地点和组织显示区。此处应当注意的是，人物、地点和组织显示区中所显示的具体内容根据事件显示区中所选择的具体议题而变化。在本实施例中，图7-9所展示的人物、地点和组织显示区中所显示的具体内容对应于“共享单车并购潮议题”。在图7-9所展示的人物、地点和组织等实体分析结果中，实体距中心的距离代表关系的亲疏，并且实体数量同样可设置作为可调整的参数可自行调整，在本实施例中列出“10”位人物、“10”个地点和“10”个组织均为示例性的。

如图7所示，展示了人物显示区，在该显示区中以人物为中心要素列出了在“共享单车并购潮议题”中与检索关键词“ofo”最相关的10位人物，展示推动该议题走势的关键人物排序，即人物实体距中心的距离代表该人物实体与“共享单车并购潮议题”的亲疏关系，由此可以判断与评估其对该议题可能产生的推动性影响，并为后续的传播工作提供参考。

如图8所示，展示了地点显示区，在该显示区中以地点为中心要素列出了在“共享单车并购潮议题”中与检索关键词“ofo”最相关的10个地点，展示该议题涉及的地域分布排序，为后续的公关营销动作提供地域覆盖参考。

如图9所示，展示了组织显示区，在该显示区中以组织为中心要素列出了在“共享单车并购潮议题”中与检索关键词“ofo”最相关的10个组织，展示该议题涉及的组织排序，判断与评估该组织的性质和重要性，为后续与目标性组织的沟通提供参考。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种新闻议题分析方法，所述方法包括以下步骤：

信息深度处理步骤S3，其中包括议题/事件聚类关联分析，采用内容-实体关联议题模型对步骤S2得到的信息预处理结果进行处理得到议题/事件聚类关联分析结果，其中，所述内容-实体关联议题模型采用两个级联的生成过程分别对内容议题和实体议题进行建模，其中所述内容议题是主要议题并可以和多个实体议题关联，生成命名实体时，首先需要选择一个内容议题作为超议题，然后生成与之相关的实体议题，最后基于多项分布生成具体的命名实体；

2.根据权利要求1所述的新闻议题分析方法，其中，所述信息采集和去噪步骤S1中获取的有效信息内容包括标题信息、正文内容信息和辅助信息。

3.根据权利要求1所述的新闻议题分析方法，其中，所述S2-4实体链接包括S2-4-1实体候选集合生成，S2-4-2实体候选排序，和S2-4-3无链接文本预测。

4.根据权利要求1所述的新闻议题分析方法，其中，实体间关系亲疏的度量主要依赖于议题分析得到的议题-实体分布，具体定义为与目标实体相关的议题分布间的余弦相似度，即

5.一种用于如权利要求1-4中任一项所述的新闻议题分析方法的新闻议题分析系统，所述系统包括以下模块：

信息深度处理模块M3，用于进行议题/事件聚类关联分析；

6.如权利要求5所述的新闻议题分析系统，其中，所述文本信息预处理模块M2包括文本分词处理单元M2-1；新闻要素抽取单元M2-2，用于得到新闻要素；新闻合并与转载分析单元M2-3，用于将具有相似、相同新闻要素的新闻文本进行合并归类；和实体链接单元M2-4，用于建立新闻实体与知识库实体的对应链接关系。

7.如权利要求5所述的新闻议题分析系统，其中，所述文本信息深度处理模块M3采用内容-实体关联议题模型进行议题/事件聚类关联分析并得到结果。

8.一种用于如权利要求1-4中任一项所述的新闻议题分析方法的设备，包括存储器和处理器，其中，所述处理器配置成执行如权利要求1-4中任一项所述的新闻议题分析方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有执行指令，所述执行指令用于执行如权利要求1-4中任一项所述的新闻议题分析方法。