CN112231470A - 话题挖掘方法及装置、存储介质、终端 - Google Patents
话题挖掘方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN112231470A CN112231470A CN201910577977.2A CN201910577977A CN112231470A CN 112231470 A CN112231470 A CN 112231470A CN 201910577977 A CN201910577977 A CN 201910577977A CN 112231470 A CN112231470 A CN 112231470A
- Authority
- CN
- China
- Prior art keywords
- news
- topic
- text
- information
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005065 mining Methods 0.000 title claims abstract description 33
- 238000007619 statistical method Methods 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 24
- 230000007935 neutral effect Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种话题挖掘方法及装置、存储介质、终端,话题挖掘方法包括:获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。本发明技术方案能够实现对新闻话题发展过程的挖掘以及展示。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种话题挖掘方法及装置、存储介质、终端。
背景技术
在舆论自由的背景下,热点新闻更易成为公众议论的集中点和矛盾爆发点,有助于政府和传媒工作者掌握事态发展趋势,提高对热点事件处理的主动性。同时,挖掘热点新闻话题演化轨迹能帮助公众更加快速全面地了解事件的演化轨迹,避免浅尝辄止和产生偏颇的观点。
通常而言,预测话题的方法主要包括:聚类检测话题,计算热点话题,对话题进行情感分类,这些方法能展示最热话题以及历史新闻话题,并展示当时的情感。
但是,现有技术中仅能对新闻话题进行简单的展示和聚类,而当前信息量巨大,简单的话题展示不能满足用户深度了解新闻的需求。
发明内容
本发明解决的技术问题是如何实现对新闻话题发展过程的挖掘以及展示。
为解决上述技术问题,本发明实施例提供一种话题挖掘方法,话题挖掘方法包括:获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
可选的,所述对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息包括:分析确定每个话题下各个新闻文本的情感分类;统计属于各个情感分类的新闻文本的数量。
可选的,所述对各个话题下的新闻文本进行信息抽取包括:确定各个话题下的新闻文本中具备依存关系的各个词语,以作为所述文摘信息。
可选的,所述具备依存关系的各个词语包括如下至少一项:主语、谓语、宾语、时间以及地点。
可选的,所述对各个话题下的新闻文本进行信息抽取包括:如果新闻文本包含长文本,则将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;至少对所述多个短文本进行信息抽取。
可选的,所述至少对所述多个短文本进行信息抽取包括:对所述多个短文本进行去重处理;对去重后的短文本进行信息抽取。
可选的,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示包括:将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。
可选的,每个新闻文本具有情感分类,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示还包括:在展示每个新闻文本的文摘信息时,一并展示所述新闻文本的情感分类。
可选的,所述统计特征信息选自新闻文本总数量、属于各个情感分类的新闻文本的数量、各个新闻文本下的评论数量以及各个新闻文本下的评论情感倾向。
为解决上述技术问题,本发明实施例还公开了一种话题挖掘装置,话题挖掘装置包括:新闻预料获取模块,用以获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;话题分类模块,用以对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;统计分析模块,用以对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;信息抽取模块,用以对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;展示模块,用以将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述话题挖掘方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述话题挖掘方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。本发明技术方案通过对针对预设主体的多个新闻文本进行话题分类,可以获得针对预设主体的多个话题;并通过统计分析和信息抽取,获得各个话题下的统计特征信息和文摘信息。通过每个话题下的统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息,从而实现对新闻话题的发展过程的概述,进而实现了新闻话题更加有深度更加直观的展示,提升用户体验。
进一步地,如果新闻文本包含长文本,则将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;至少对所述多个短文本进行信息抽取。由于长文本结构相对比较复杂,并且长文本含有更多噪音或混淆信息会影响分析效果,因此本发明技术方案通过将新闻文本中的长文本拆分为短文本,并对短文本进行信息抽取,可以提升信息抽取的准确性。
进一步地,将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。本发明技术方案以时间轴的方式对单个话题下的新闻事件进行概述以及展示,文摘信息相比关键词的展示方法更易理解,从而提升话题展示的直观性。
附图说明
图1是本发明实施例一种话题挖掘方法的流程图;
图2是图1所示步骤S103的一种具体实施方式的流程图;
图3是本发明实施例一个具体应用场景的示意图;
图4是图1所示步骤S104的一种具体实施方式的流程图;
图5是图1所示步骤S105的一种具体实施方式的流程图;
图6是本发明实施例另一个具体应用场景的示意图;
图7是本发明实施例一种话题挖掘装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中仅能对新闻话题进行简单的展示和聚类,而当前信息量巨大,简单的话题展示不能满足用户深度了解新闻的需求。
本发明技术方案通过对针对预设主体的多个新闻文本进行话题分类,可以获得针对预设主体的多个话题;并通过统计分析和信息抽取,获得各个话题下的统计特征信息和文摘信息。通过每个话题下的统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息,从而实现对新闻话题的发展过程的概述,进而实现了新闻话题更加有深度更加直观的展示,提升用户体验。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种话题挖掘方法的流程图。
图1所示话题挖掘方法可以包括以下步骤:
步骤S101:获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;
步骤S102:对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;
步骤S103:对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;
步骤S104:对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;
步骤S105:将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。例如,对于步骤S103和步骤S104,可以是先执行步骤S103,再执行步骤S104;也可以是先执行步骤S104,再执行步骤S103。
在步骤S101的具体实施中,可以通过爬虫爬取的方式来获取新闻预料。此外,不同的新闻文本可能是针对不同的主体的,为了提升新闻话题的针对性,可以按照预设主体来获取新闻预料。也就是说,待分类的新闻预料中的新闻文本是针对同一预设主体的。
可以理解的是,所述预设主体可以是由用户预先指定或配置的,本发明实施例对此不作限制。
具体而言,预设主体可以是企业,在获取新闻预料时,可以通过该企业的名称(例如全称、简称等)对新闻文本进行筛选得到该企业相关的新闻文本。
在步骤S102中,可以对获取到的新闻预料进行话题分类,通过话题分类可以得到针对预设主体的多个话题以及每个话题下的新闻文本。例如,对于预设主体1的新闻预料,可以得到话题1、话题2和话题3,其中,话题1下有10个相关的新闻文本,话题2下有20个相关的新闻文本,话题3下有30个相关的新闻文本。
具体实施中,可以使用任意已有算法来进行话题分类,例如聚类检测算法等,本发明实施例对此不作限制。
进而在步骤S103和步骤S104的具体实施中,可以分别对每个话题下的新闻文本进行统计分析以及信息抽取,以分别得到每个话题下的统计特征信息以及每个新闻文本的文摘信息。通过每个话题下的统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息。
在一个具体的实施例中,所述统计特征信息选自新闻文本总数量、属于各个情感分类的新闻文本的数量、各个新闻文本下的评论数量以及各个新闻文本下的评论情感倾向。
在步骤S105的具体实施中,可以将每个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
具体地,将话题下的统计特征信息与新闻文本的文摘信息结合进行展示的具体方式可以是:将话题下的统计特征信息按照预设的维度(例如时间)进行排序展示,并在各个维度值下一并展示各个新闻文本的文摘信息。
更具体地,在展示文摘信息时,可以是仅展示新闻文本的文摘信息,也可以是将文摘信息突出显示,例如在新闻文本中将文摘信息高亮显示,或者将文摘信息在新闻文本中以不同的字体颜色进行显示等。
本发明实施例可以实现在同一维度上同时展示话题下的统计特征信息以及新闻文本的文摘信息,并且统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息,能够实现对新闻话题的发展过程的概述,进而实现了新闻话题更加有深度更加直观的展示,提升用户体验。
在本发明一个非限制性的实施例中,请参照图2,图1所示步骤S103可以包括以下步骤:
步骤S201:分析确定每个话题下各个新闻文本的情感分类;
步骤S202:统计属于各个情感分类的新闻文本的数量。
本实施例中,统计特征信息包括话题的情感分类以及各个分类下新闻文本的数量。具体而言,情感分类可以包括正面、中性和负面;统计特征信息可以包括属于正面的新闻文本的数量、属于中性的新闻文本的数量以及属于负面的新闻文本的数量。
可以理解的是,确定情感分类的具体过程可以是对新闻文本进行情感分析的过程,情感分析的具体算法可以是已有算法,并可以根据实际的应用环境来选取,本发明实施例对此不作限制。
在一个具体应用场景中,请参照图3,图3所示为话题1下的统计特征信息。其中,在展示话题1下的统计特征信息时,可以按照时间顺序进行展示。从时刻T1到时刻T6表示时间顺序。在每一时刻可以展示话题1在该时刻的统计特征信息,如在时刻T3,话题1的新闻文本总数量(也即曝光度)为30,其中情感分类为正面的新闻文本数量为0,情感分类为中性的新闻文本数量为20,情感分类为负面的新闻文本数量为10。
通过图3所示的统计信息随时间的变化趋势可以看出,该话题1的新闻周期的起始时间为T1,截止时间为T6,其中,话题1在时刻T4的话题曝光度最高。由此可以确定话题1的新闻爆发期为时刻T1到时刻T3,话题1的新闻扩散期为时刻T3到时刻T5,话题1的新闻消失期为时刻T5到时刻T6。用户能够通过图3所展示的统计信息直观地获得话题1的发展过程。
在本发明一个非限制性的实施例中,图1所示步骤S104可以包括以下步骤:确定各个话题下的新闻文本中具备依存关系的各个词语,以作为所述文摘信息。
本实施例中,为了获得各个新闻文本的文摘信息,可以对新闻文本进行依存分析,并确定具备依存关系的各个词语。
进一步地,所述具备依存关系的各个词语包括如下至少一项:主语、谓语、宾语、时间以及地点。
例如,对于新闻文本“董事长刘庆峰计划增持不低于1200万元公司股票”,该文本中主语为“董事长”,谓语为“计划增持”,宾语为“不低于1200万元公司股票”。由此,该新闻文本的文摘信息为“董事长计划增持不低于1200万元公司股票”。
在本发明一个非限制性的实施例中,请参照图4,图1所示步骤S104可以包括以下步骤:
步骤S401:如果新闻文本包含长文本,则将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;
步骤S402:至少对所述多个短文本进行信息抽取。
具体实施中,在新闻文本包含长文本的情况下,可以对长文本进行分割。具体而言,具体的分割方式可以是按照新闻文本中出现的时间、预设主体的名称等对长文本进行分割。也即可以按照语义分割出包含时间以及预设主体的名称的短文本。
其中,关于长文本和短文本的定义,也即第一预设值和第二预设值的大小可以根据实际的应用场景进行配置,本发明实施例对此不作限制。
具体地,可以使用工具HanLP对短文本进行信息抽取,例如可以是进行依存句法分析。
由于长文本结构相对比较复杂,并且长文本含有更多噪音或混淆信息会影响分析效果,因此本发明实施例通过将新闻文本中的长文本拆分为短文本,并对短文本进行信息抽取,可以提升信息抽取的准确性。
进一步地,图4所示步骤S402可以包括以下步骤:对所述多个短文本进行去重处理;对去重后的短文本进行信息抽取。
本实施例中,为了保证文摘信息的抽取的简洁性,可以在对短文本进行去重处理后再进行信息抽取。
具体实施中,对短文本的去重可以是按照语义进行去重,也即计算多个短文本的语义,对于语义相同的多个短文本,仅保留其中一个短文本用于信息抽取。或者,也可以是使用工具python3集合来对短文本进行去重,其中python3集合可以创建一个不重复的元素序列,以达到去重的目的。
本发明一个优选实施例中,请参照图5,图所示步骤S105可以包括以下步骤:
步骤S501:将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;
步骤S502:将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。
本实施例中,由于新闻文本本身具备时间属性,因此统计得到的统计特征信息以及新闻文本的文摘信息也具备时间属性。故而,可以将统计特征信息按照时间顺序进行展示,同时,将文摘信息也按照所述多个时间节点的时间顺序进行展示。
由上,可以实现针对预设主体的新闻随着时间的变化趋势,并且能够同时展示统计特征信息以及摘要信息,更加直观地展示了新闻。
在本发明一个具体应用场景中,请参照图6,图6中除了包含图3所展示的统计特征信息之外,还可以在各个时刻(T1、T2、…、T6)分别展示时间节点为该时刻的话题1的新闻文本的摘要信息。例如,在时刻T1展示文摘信息1,在时刻T3展示文摘信息2、…、文摘信息N,在时刻T5展示文摘信息M等。
如前所述,通过图3可以确定话题1的新闻爆发期为时刻T1到时刻T3,话题1的新闻扩散期为时刻T3到时刻T5,话题1的新闻消失期为时刻T5到时刻T6。而进一步结合图6所展示的文摘信息,用户能够获知各个阶段的发展原因。例如,对于话题1的新闻爆发期,结合时刻T1到时刻T3的文摘信息可知其爆发原因;对于话题1的扩散期,通过时刻T3到时刻T5的文摘信息可知该预设主体的行为及其影响;对于话题1的消失期,结合时刻T5到时刻T6的文摘信息可知该预设主体采取了何种措施导致话题消失。
进一步而言,图所示步骤S105还可以包括以下步骤:在展示每个新闻文本的文摘信息时,一并展示所述新闻文本的情感分类。
如前所述,在统计各个话题下的统计特征信息时,可以分析确定各个新闻文本的情感分类。由此,在展示新闻文本的文摘信息是,可以一并展示该新闻文本所属的情感分类,进一步提升新闻展示的丰富性。
在本发明又一个具体应用场景中,首先通过爬虫获取海量新闻数据,并通过预设主体的企业全称别名以及其他称呼对新闻进行筛选得到各公司下的相关新闻。再将公司新闻进行聚类处理生成相关话题,并对话题下的新闻事件进行曝光度、情感趋势统计,以得到统计特征信息;对新闻文本进行分割生成短句,将其短句进行依存句法分析,以获得新闻文本的文摘信息。最终将统计特征信息和文摘信息按照时间顺序进行展示。
请参照图7,本发明实施例还公开了一种话题挖掘装置70,话题挖掘装置70包括新闻预料获取模块701、话题分类模块702、统计分析模块703、信息抽取模块704和展示模块705。
其中,新闻预料获取模块701用以获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;话题分类模块702用以对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;统计分析模块703用以对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;信息抽取模块704用以对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;展示模块705用以将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
本发明实施例通过对针对预设主体的多个新闻文本进行话题分类,可以获得针对预设主体的多个话题;并通过统计分析和信息抽取,获得各个话题下的统计特征信息和文摘信息。通过每个话题下的统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息,从而实现对新闻话题的发展过程的概述,进而实现了新闻话题更加有深度更加直观的展示,提升用户体验。
具体实施中,新闻预料获取模块701可以通过爬虫爬取的方式来获取新闻预料。此外,不同的新闻文本可能是针对不同的主体的,为了提升新闻话题的针对性,可以按照预设主体来获取新闻预料。也就是说,待分类的新闻预料中的新闻文本是针对同一预设主体的。
具体而言,预设主体可以是企业,在获取新闻预料时,可以通过该企业名称(例如全称、简称等)对新闻文本进行筛选得到该企业相关的新闻文本。
话题分类模块702可以对获取到的新闻预料进行话题分类,通过话题分类可以得到针对预设主体的多个话题以及每个话题下的新闻文本。例如,对于预设主体1的新闻预料,可以得到话题1、话题2和话题3,其中,话题1下有10个相关的新闻文本,话题2下有20个相关的新闻文本,话题3下有30个相关的新闻文本。
统计分析模块703和信息抽取模块704可以分别对每个话题下的新闻文本进行统计分析以及信息抽取,以分别得到每个话题下的统计特征信息以及每个新闻文本的文摘信息。通过每个话题下的统计特征信息可以反映该话题在各个时间阶段的发展过程,而文摘信息则能够清楚简要地反映新闻文本的主要信息。
在一个具体的实施例中,所述统计特征信息选自新闻文本总数量、属于各个情感分类的新闻文本的数量、各个新闻文本下的评论数量以及各个新闻文本下的评论情感倾向。
展示模块705可以将每个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
具体地,将话题下的统计特征信息与新闻文本的文摘信息结合进行展示的具体方式可以是:将话题下的统计特征信息按照预设的维度(例如时间)进行排序展示,并在各个维度值下一并展示各个新闻文本的文摘信息。
更具体地,在展示文摘信息时,可以是仅展示新闻文本的文摘信息,也可以是将文摘信息突出显示,例如在新闻文本中将文摘信息高亮显示,或者以不同的字体颜色进行显示等。
在本发明一个非限制性的实施例中,统计分析模块703可以包括情感分析单元(图未示),用以分析确定每个话题下各个新闻文本的情感分类;统计单元(图未示),用以统计属于各个情感分类的新闻文本的数量。
本实施例中,统计特征信息包括话题的情感分类以及各个分类下新闻文本的数量。具体而言,情感分类可以包括正面、中性和负面;统计特征信息可以包括属于正面的新闻文本的数量、属于中性的新闻文本的数量以及属于负面的新闻文本的数量。
可以理解的是,确定情感分类的具体过程可以是对新闻文本进行情感分析的过程,情感分析的具体算法可以是已有算法,并可以根据实际的应用环境来选取,本发明实施例对此不作限制。
在本发明一个非限制性的实施例中,信息抽取模块704可以包括确定单元,用以确定各个话题下的新闻文本中具备依存关系的各个词语,以作为所述文摘信息。
本实施例中,为了获得各个新闻文本的文摘信息,可以对新闻文本进行依存分析,并确定具备依存关系的各个词语。
进一步地,所述具备依存关系的各个词语包括如下至少一项:主语、谓语、宾语、时间以及地点。
例如,对于新闻文本“董事长刘庆峰计划增持不低于1200万元公司股票”,该文本中主语为“董事长”,谓语为“计划增持”,宾语为“不低于1200万元公司股票”。由此,该新闻文本的文摘信息为“董事长计划增持不低于1200万元公司股票”。
在本发明一个非限制性的实施例中,信息抽取模块704可以包括分割单元,用以在新闻文本包含长文本时,将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;抽取单元,用以至少对所述多个短文本进行信息抽取。
具体实施中,在新闻文本包含长文本的情况下,可以对长文本进行分割。具体而言,具体的分割方式可以是按照新闻文本中出现的时间、预设主体的名称等对长文本进行分割。也即可以按照语义分割出包含时间以及预设主体的名称的短文本。
其中,关于长文本和短文本的定义,也即第一预设值和第二预设值的大小可以根据实际的应用场景进行配置,本发明实施例对此不作限制。
具体地,可以使用工具HanLP对短文本进行信息抽取,例如可以是进行依存句法分析。
由于长文本结构相对比较复杂,并且长文本含有更多噪音或混淆信息会影响分析效果,因此本发明实施例通过将新闻文本中的长文本拆分为短文本,并对短文本进行信息抽取,可以提升信息抽取的准确性。
进一步地,抽取单元还可以包括去重子单元,用以对所述多个短文本进行去重处理;抽取子单元,用以对去重后的短文本进行信息抽取。
本实施例中,为了保证文摘信息的抽取的简洁性,可以在对短文本进行去重处理后再进行信息抽取。
具体实施中,对短文本的去重可以是按照语义进行去重,也即计算多个短文本的语义,对于语义相同的多个短文本,仅保留其中一个短文本用于信息抽取。或者,也可以是使用工具python3集合来对短文本进行去重,其中python3集合可以创建一个不重复的元素序列,以达到去重的目的。
本发明一个优选实施例中,展示模块705可以包括统计特征信息展示单元,用以将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;文摘信息展示单元,用以将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。
本实施例中,由于新闻文本本身具备时间属性,因此统计得到的统计特征信息以及新闻文本的文摘信息也具备时间属性。故而,可以将统计特征信息按照时间顺序进行展示,同时,将文摘信息也按照所述多个时间节点的时间顺序进行展示。
由上,可以实现针对预设主体的新闻随着时间的变化趋势,并且能够同时展示统计特征信息以及摘要信息,更加直观地展示了新闻。
进一步而言,展示模块705还可以在展示每个新闻文本的文摘信息时,一并展示所述新闻文本的情感分类。
如前所述,在统计各个话题下的统计特征信息时,可以分析确定各个新闻文本的情感分类。由此,在展示新闻文本的文摘信息是,可以一并展示该新闻文本所属的情感分类,进一步提升新闻展示的丰富性。
关于所述话题挖掘装置70的工作原理、工作方式的更多内容,可以参照图1至图5中的相关描述,这里不再赘述。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1、图2、图4和图5中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1、图2、图4和图5中所示方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (12)
1.一种话题挖掘方法,其特征在于,包括:
获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;
对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;
对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;
对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;
将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
2.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息包括:
分析确定每个话题下各个新闻文本的情感分类;
统计属于各个情感分类的新闻文本的数量。
3.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行信息抽取包括:
确定各个话题下的新闻文本中具备依存关系的各个词语,以作为所述文摘信息。
4.根据权利要求3所述的话题挖掘方法,其特征在于,所述具备依存关系的各个词语包括如下至少一项:
主语、谓语、宾语、时间以及地点。
5.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行信息抽取包括:
如果新闻文本包含长文本,则将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;
至少对所述多个短文本进行信息抽取。
6.根据权利要求5所述的话题挖掘方法,其特征在于,所述至少对所述多个短文本进行信息抽取包括:
对所述多个短文本进行去重处理;
对去重后的短文本进行信息抽取。
7.根据权利要求1所述的话题挖掘方法,其特征在于,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示包括:将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;
将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。
8.根据权利要求7所述的话题挖掘方法,其特征在于,每个新闻文本具有情感分类,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示还包括:
在展示每个新闻文本的文摘信息时,一并展示所述新闻文本的情感分类。
9.根据权利要求1至8任一项所述的话题挖掘方法,其特征在于,所述统计特征信息选自新闻文本总数量、属于各个情感分类的新闻文本的数量、各个新闻文本下的评论数量以及各个新闻文本下的评论情感倾向。
10.一种话题挖掘装置,其特征在于,包括:
新闻预料获取模块,用以获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;
话题分类模块,用以对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;
统计分析模块,用以对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;
信息抽取模块,用以对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;
展示模块,用以将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
11.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9中任一项所述话题挖掘方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9中任一项所述话题挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577977.2A CN112231470A (zh) | 2019-06-28 | 2019-06-28 | 话题挖掘方法及装置、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577977.2A CN112231470A (zh) | 2019-06-28 | 2019-06-28 | 话题挖掘方法及装置、存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112231470A true CN112231470A (zh) | 2021-01-15 |
Family
ID=74111409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577977.2A Pending CN112231470A (zh) | 2019-06-28 | 2019-06-28 | 话题挖掘方法及装置、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231470A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831220A (zh) * | 2012-08-23 | 2012-12-19 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取系统 |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN108334628A (zh) * | 2018-02-23 | 2018-07-27 | 北京东润环能科技股份有限公司 | 一种新闻事件聚类的方法、装置、设备和储存介质 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
CN109446423A (zh) * | 2018-10-26 | 2019-03-08 | 北京捷报数据技术有限公司 | 一种新闻以及文本的情感判断系统及方法 |
-
2019
- 2019-06-28 CN CN201910577977.2A patent/CN112231470A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831220A (zh) * | 2012-08-23 | 2012-12-19 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取系统 |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN107644089A (zh) * | 2017-09-26 | 2018-01-30 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
CN108334628A (zh) * | 2018-02-23 | 2018-07-27 | 北京东润环能科技股份有限公司 | 一种新闻事件聚类的方法、装置、设备和储存介质 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
CN109446423A (zh) * | 2018-10-26 | 2019-03-08 | 北京捷报数据技术有限公司 | 一种新闻以及文本的情感判断系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10546005B2 (en) | Perspective data analysis and management | |
JP5534280B2 (ja) | テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム | |
CN106886567B (zh) | 基于语义扩展的微博突发事件检测方法及装置 | |
JP2017508198A (ja) | メッセージ中のタスクの識別 | |
US9239827B2 (en) | Identifying collocations in a corpus of text in a distributed computing environment | |
CN106991090B (zh) | 舆情事件实体的分析方法及装置 | |
US10042913B2 (en) | Perspective data analysis and management | |
JP2017041171A (ja) | テストシナリオ生成支援装置およびテストシナリオ生成支援方法 | |
WO2018196607A1 (zh) | 一种文本信息展示方法及装置 | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
JP6536671B2 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
US10489514B2 (en) | Text visualization system, text visualization method, and recording medium | |
CN110096692B (zh) | 一种语义信息处理方法和装置 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
CN112231470A (zh) | 话题挖掘方法及装置、存储介质、终端 | |
JP6536580B2 (ja) | 文集合抽出システム、方法およびプログラム | |
CN102880632B (zh) | 一种语用关键词检索方法与装置 | |
CN113553861A (zh) | 一种基于对话系统的信息处理方法、装置及存储介质 | |
US9569530B2 (en) | Extracting and mining of quote data across multiple languages | |
Weichselbraun et al. | Extracting opinion targets from environmental web coverage and social media streams | |
CN113064982A (zh) | 一种问答库生成方法及相关设备 | |
JP5702753B2 (ja) | イベント検出装置及び方法及びプログラム | |
CN111859148A (zh) | 主题的提取方法、装置、设备及计算机可读存储介质 | |
JP2016157408A (ja) | 語彙意味パターン分析方法に基づいてビックデータから店舗創業用データ又は運営支援用データを生成する方法 | |
CN113836288B (zh) | 一种业务检测结果的确定方法、确定装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210115 |
|
RJ01 | Rejection of invention patent application after publication |