【发明内容】
基于此,有必要提供一种改进的话题溯源方法和系统,其可以提升用户体验,并节省用户浏览时间。
一种话题溯源方法,包括:
输入新闻;
抽取所述输入的新闻中的时间戳、专有名词和关键词;
发现重复新闻,并以时间戳最早的一篇新闻代表重复的新闻;
设置当前话题层次为根层次,创建根类簇,并以时间戳最早的新闻为话题根节点;
构建当前类簇的词汇表,所述词汇表不包含在同层次其他类簇中出现超过10次的词汇,并根据出现次数排序;
以当前类簇词汇表表示类簇中的所有新闻,并计算当前类簇内新闻之间的相似度;
将相似度超过预定相似度阈值的新闻归为一个子类簇;
将子类簇中时间戳最早的新闻作为深一层节点,每个节点代表一个子类簇;
判断子类簇中是否仅包含一个新闻;
对包含多于一个新闻的子类簇,产生深一层子类簇和深一层节点,并重复所述构建当前类簇的词汇表、表示新闻、计算当前类簇内新闻之间的相似度、将相似度超过预定相似度阈值的新闻归为一个子类簇、将子类簇中时间戳最早的新闻作为深一层节点,每个节点代表一个子类簇的步骤;
将只包含一个新闻的子类簇中的该新闻作为话题树的叶子节点;
从叶子节点开始,为每篇新闻产生话题溯源路径。
一种话题溯源系统,包括:
时间戳抽取模块,用于从输入的新闻中抽取时间戳信息、专有名词和关键词;
重复新闻发现模块,用于发现重复新闻,并以时间戳最早的一篇新闻代表重复的新闻;
根节点创建模块,用于创建话题溯源树的根节点;
类簇词汇表构建模块,用于构建特定类簇的词汇表;所述词汇表不包含在同层次其他类簇中出现超过10次的词汇;
新闻相似度度量模块,用于以当前类簇词汇表表示类簇中的所有新闻,从而计算当前类簇内新闻之间的内容相似度;
文档划分模块,用于对当前层类簇进行基于相似性的划分;
深层节点创建模块,用于将子类簇中时间戳最早的新闻作为深一层节点,创建更深一层次的话题树节点,每个节点代表一个子类簇;并用于判断类簇中是否仅包含一个新闻;对包含多于一个新闻的类簇,进一步利用所述类簇词汇表构建模块构建当前类簇的词汇表;利用所述新闻相似度度量模块进一步计算当前类簇内新闻之间的内容相似度;利用文档划分模块,对当前层类簇进行基于相似性的划分;并产生深一层子类簇和深一层节点;
叶子节点创建模块,用于将只包含一个新闻的子类簇中的该新闻作为话题树的叶子节点;
话题溯源路径创建模块,用于为话题树上的每个叶子节点的新闻构建话题溯源路径。
根据本发明的话题溯源方法和系统,基于新闻内容的相似性,实现对同一话题的新闻自动构建话题溯源树,并为每篇新闻产生话题溯源路径。能有效应对上述话题可视化、话题辅助决策以及话题模式发现等需求,可进一步拓宽话题分析研究的应用领域,提高舆情分析系统的性能。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第一客户端称为第二客户端,且类似地,可将第二客户端称为第一客户端。第一客户端和第二客户端两者都是客户端,但其不是同一客户端。
如图2所示,其为本发明一种实施方式的话题溯源方法的流程图。以下将对该实施方式的话题溯源方法各步骤进行说明。
步骤202,输入新闻。
根据本发明的可选的实施方式,该输入新闻限定为隶属某特定话题的新闻。
步骤204,抽取每篇输入新闻中的时间戳、专有名词和关键词。
如图3所示,其为本发明的一种实施方式所涉及的典型的新闻布局图。图3中,时间戳信息以“发布时间:2014-12-05 06:18:57”的模式展示,这种表示方式符合“<发布时间:>yyyy-mm-dd hh:mm:ss”的正则表达式形式。通过相应的正则表达式进行提取,即可准确识别出新闻的时间戳。从而,根据本发明的一种实施方式,该时间戳由时间戳识别算法自动识别。
根据本发明的一种可选的实施方式,该专有名词包括人名、地名、组织机构名,并由外部分词工具自动识别。
根据本发明的一种可选的实施方式,该关键词由外部关键词提取工具自动识别。
步骤206,发现重复新闻,并以时间戳最早的一篇新闻代表重复的新闻。
在本实施方式中,可以基于N元文法来作为发现重复新闻的算法,其中计算所得的重叠度等于两篇新闻重叠N元字符串的次数除以两篇新闻N元字符串次数总数。在可选的实施方式中,以重叠度大于0.9判定为重复。
步骤208,设置当前话题层次为根层次,创建根类簇,并以时间戳最早的新闻为话题根节点。
在本发明的一种可选的实施方式中,所述根类簇是由所有输入的同话题新闻组成的新闻集合。
步骤210,构建当前类簇的词汇表。根据本发明的实施方式,该词汇表中包含专有名词和关键词,所述词汇表中的词汇来自当前类簇中的新闻,并根据出现次数排序。典型地,所述词汇表中不包含在同层次其他类簇中出现超过10次的词汇。
步骤212,以当前类簇词汇表表示类簇中的所有新闻,计算当前类簇内新闻之间的相似度。
根据本发明的实施方式,新闻的表示方法采用向量空间模型,其相似度由余弦距离公式计算得到。
步骤214,根据新闻之间的相似度,产生一个当前类簇的划分,将相似度超过预定的相似度阈值的新闻划分为属于一个子类簇。
具体地,基于相似度的划分,高于相似度阈值的新闻被聚合,子类簇由输入新闻的一部分组成,而子类簇的并集为输入新闻全集。
步骤216,取子类簇中时间戳最早的新闻作为深一层节点,每个节点代表一个子类簇。
具体地,所述的深一层节点是指当前层的子节点,深一层子类簇为上一层子类簇的进一步细分。
步骤218,判断每个子类簇是否仅包含一个新闻。
步骤220,若每个子类簇中包含多于一个新闻,则产生深一层子类簇和深一层节点;并在其后执行步骤210至步骤218,构建词汇表,表示新闻,计算相似度并判断相似度阈值等。
步骤222,若每个子类簇中仅包含一个新闻,则将每个子类簇的该新闻作为话题树的叶子节点。如图5所示,其示出了利用本发明一种实施方式的话题溯源方法所得到的话题树的示例。
步骤224,从叶子节点开始,为每篇新闻产生话题溯源路径。
具体地,所述话题溯源路径是指描述新闻话题发展的时间轴回溯过程。如图6所示,其表示的是利用本发明一种实施方式的话题溯源方法所得到的话题溯源路径的示例图。
图4示出了根据本发明一种实施方式的话题溯源系统的结构示意图。该话题溯源系统400包括:
时间戳抽取模块402,用于从新闻中抽取时间戳信息。
如图3所示,其时间戳信息以“发布时间:2014-12-05 06:18:57”的模式展示,这种表示方式符合“<发布时间:>yyyy-mm-dd hh:mm:ss”的正则表达式形式。通过相应的正则表达式进行提取,即可准确识别出新闻的时间戳。
根据本发明的一种可选的实施方式,该专有名词包括人名、地名、组织机构名,并由外部分词工具自动识别。
根据本发明的一种可选的实施方式,该关键词由外部关键词提取工具自动识别。
重复新闻发现模块404,用于发现重复新闻,并以时间戳最早的一篇新闻代表重复的新闻。
在本实施方式中,可以基于N元文法来作为发现重复新闻的算法,其中计算所得的重叠度等于两篇新闻重叠N元字符串的次数除以两篇新闻N元字符串次数总数。在可选的实施方式中,以重叠度大于0.9判定为重复。
根节点创建模块406,用于创建话题溯源树的根节点。
在本发明的一种可选的实施方式中,所述根类簇是由所有输入的同话题新闻组成的新闻集合。
类簇词汇表构建模块408,用于构建特定类簇的词汇表。根据本发明的实施方式,该词汇表中包含专有名词和关键词,所述词汇表中的词汇来自当前类簇中的新闻。类簇词汇表408还用于将词汇表中的词汇根据出现次数排序。典型地,所述词汇表中不包含在同层次其他类簇中出现超过10次的词汇。
新闻相似度度量模块410,用于计算当前类簇内新闻之间的内容相似度。
根据本发明的实施方式,新闻的表示方法采用向量空间模型,其相似度由余弦距离公式计算得到。
文档划分模块412,用于对当前层类簇进行基于相似性的划分。例如,根据本发明的一种实施方式,将相似度超过预定的相似度阈值的新闻划分为属于一个子类簇。
具体地,基于相似度的划分,高于相似度阈值的新闻被聚合,子类簇由输入新闻的一部分组成,而子类簇的并集为输入新闻全集。
深层节点创建模块414,用于创建更深一层次的话题树节点;
具体地,所述的深一层节点是指当前层的子节点,深一层子类簇为上一层子类簇的进一步细分。
叶子节点创建模块416,用于创建话题树的叶子节点。如图5所示,其示出了利用本发明一种实施方式的话题溯源方法所得到的话题树的示意。
话题溯源路径创建模块418,用于为话题树上的每个叶子节点的新闻构建话题溯源路径。如图6所示,其表示的是利用本发明一种实施方式的话题溯源方法所得到的话题溯源路径的示例图。
具体地,所述话题溯源路径是指描述新闻话题发展的时间轴回溯过程。
根据本发明的话题溯源方法和系统,可更有效地进行话题溯源分析,相比于传统的话题分析方法,其优势在于:
第一,实现了话题内容浏览的树状可视化,便于用户沿着感兴趣的话题发展路径阅览新闻,缩短了阅览时间,提升了用户体验;
第二,基于发现的话题,通过为话题构建话题溯源树,能够为决策提供辅助。当话题规模达到一定规模后,可以对话题发展模式进行机器学习,总结模式,进行更高层次的辅助决策;
第三,通过构建话题溯源树,可以从已有话题中发现话题模式,相似话题之间有参考关系。可以根据历史话题对正在进行中的话题进行辅助决策,为进一步提升舆情分析系统的话题学习能力提供了技术支撑。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序控制相关的硬件来完成的,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。