CN106682123A - 一种获取热点事件的方法及装置 - Google Patents
一种获取热点事件的方法及装置 Download PDFInfo
- Publication number
- CN106682123A CN106682123A CN201611129054.3A CN201611129054A CN106682123A CN 106682123 A CN106682123 A CN 106682123A CN 201611129054 A CN201611129054 A CN 201611129054A CN 106682123 A CN106682123 A CN 106682123A
- Authority
- CN
- China
- Prior art keywords
- similarity
- phrase
- key phrase
- key
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种获取热点事件的方法及装置。该方法包括:对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;获取每一个文本中的关键句;提取所述关键句中的关键短语;根据预设算法计算所述关键短语中的相似度;将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;将得分高的类别作为网络热点事件输出。从而能够将同一事件的不同报道通过深层相似度聚合到一块,实现网络热点事件的及时、准确发现。
Description
技术领域
本发明实施例涉及大数据分析的技术领域,尤其涉及一种获取热点事件的方法及装置。
背景技术
网络热点事件,是指发生在互联网领域的、受到广大网民关注的事件。网络热点事件发现通常对采集到的海量数据进行聚类分析,聚类分析方式如下:取得大规模的文本;对文本进行预处理;对文本进行聚类分析;聚类结果排序;输出结果。对于网络热点事件来说,不同新闻报道的角度不同,内容可能会有较大差异,采用传统的聚类方法准确率不高,无法准确反映网络上的热点事件。
发明内容
本发明实施例的目的在于提出一种获取热点事件的方法及装置,旨在解决如何提高聚类方法准确率的问题。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种获取热点事件的方法,所述方法包括:
对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
获取每一个文本中的关键句;
提取所述关键句中的关键短语;
根据预设算法计算所述关键短语中的相似度;
将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
将得分高的类别作为网络热点事件输出。
优选地,所述获取每一个文本中的关键句,包括:
通过TF-IDF算法或者基于位置的算法获取每一个文本中的关键词。
优选地,所述提取所述关键句中的关键短语,包括:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
优选地,所述根据预设算法计算所述关键短语中的相似度,包括:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
优选地,所述将相似度大于阈值的关键短语聚为一类,并对聚类结果打分,包括:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
第二方面,一种获取热点事件的装置,所述装置包括:
预处理模块,用于对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
获取模块,用于获取每一个文本中的关键句;
提取模块,用于提取所述关键句中的关键短语;
计算模块,用于根据预设算法计算所述关键短语中的相似度;
评分模块,用于将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
输出模块,用于将得分高的类别作为网络热点事件输出。
优选地,所述获取模块,具体用于:
通过TF-IDF算法或者基于位置的算法获取每一个文本中的关键词。
优选地,所述提取模块,具体用于:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
优选地,所述计算模块,具体用于:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
优选地,所述评分模块,具体用于:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
本发明实施例提供的一种获取热点事件的方法及装置,对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;获取每一个文本中的关键句;提取所述关键句中的关键短语;根据预设算法计算所述关键短语中的相似度;将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;将得分高的类别作为网络热点事件输出。从而能够将同一事件的不同报道通过深层相似度聚合到一块,实现网络热点事件的及时、准确发现。
附图说明
图1是本发明实施例提供的一种获取热点事件的方法的流程示意图;
图2是本发明实施例提供的一种获取热点事件的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种获取热点事件的方法的流程示意图。
如图1所示,所述获取热点事件的方法包括:
步骤101,对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
具体的,文本数据可以使用爬虫从互联网抓取,或者从数据库中读取。对取得的文本数据进行预处理。预处理包括提取文本的正文、去除无关链接、中文分词、分段、分句等。
步骤102,获取每一个文本中的关键句;
优选地,所述获取每一个文本中的关键句,包括:
通过TF-IDF(term frequency–inverse document frequency)算法或者基于位置的算法获取每一个文本中的关键词。
步骤103,提取所述关键句中的关键短语;
优选地,所述提取所述关键句中的关键短语,包括:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
步骤104,根据预设算法计算所述关键短语中的相似度;
具体的,计算相似度可以为:计算关键短语之间的浅层相似度;计算关键短语之间的深层相似度;计算关键短语之间的联合相似度。
优选地,所述根据预设算法计算所述关键短语中的相似度,包括:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
具体的,计算关键短语的浅层相似度。通过编辑距离、余弦相似度等方法计算两个关键短语的相似度。浅层相似度将关键短语作为字符串处理,不考虑语义,因此准确度较低;
计算关键短语的深层相似度。通过深度学习算法训练一个语义模型,如使用word2vec训练得到,之后计算两个关键短语的语义相似度,作为深层相似度。由于考虑了语义上的关系,深层相似度的准确程度较高。
计算关键短语的联合相似度。联合相似度采用浅层相似度和深层相似度线性结合的方式实现。
步骤105,将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
优选地,所述将相似度大于阈值的关键短语聚为一类,并对聚类结果打分,包括:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
步骤106,将得分高的类别作为网络热点事件输出。
本发明实施例提供的一种获取热点事件的方法,对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;获取每一个文本中的关键句;提取所述关键句中的关键短语;根据预设算法计算所述关键短语中的相似度;将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;将得分高的类别作为网络热点事件输出。从而能够将同一事件的不同报道通过深层相似度聚合到一块,实现网络热点事件的及时、准确发现。
参考图2,图2是本发明实施例提供的一种获取热点事件的装置的功能模块示意图。
如图2所示,所述装置包括:
预处理模块201,用于对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
获取模块202,用于获取每一个文本中的关键句;
优选地,所述获取模块202,具体用于:
通过TF-IDF算法或者基于位置的算法获取每一个文本中的关键词。
提取模块203,用于提取所述关键句中的关键短语;
优选地,所述提取模块203,具体用于:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
计算模块204,用于根据预设算法计算所述关键短语中的相似度;
优选地,所述计算模块204,具体用于:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
评分模块205,用于将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
优选地,所述评分模块205,具体用于:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
输出模块206,用于将得分高的类别作为网络热点事件输出。
本发明实施例提供的一种获取热点事件的装置,对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;获取每一个文本中的关键句;提取所述关键句中的关键短语;根据预设算法计算所述关键短语中的相似度;将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;将得分高的类别作为网络热点事件输出。从而能够将同一事件的不同报道通过深层相似度聚合到一块,实现网络热点事件的及时、准确发现。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。
Claims (10)
1.一种获取热点事件的方法,其特征在于,所述方法包括:
对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
获取每一个文本中的关键句;
提取所述关键句中的关键短语;
根据预设算法计算所述关键短语中的相似度;
将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
将得分高的类别作为网络热点事件输出。
2.根据权利要求1所述的方法,其特征在于,所述获取每一个文本中的关键句,包括:
通过TF-IDF算法或者基于位置的算法获取每一个文本中的关键词。
3.根据权利要求1所述的方法,其特征在于,所述提取所述关键句中的关键短语,包括:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
4.根据权利要求1所述的方法,其特征在于,所述根据预设算法计算所述关键短语中的相似度,包括:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
5.根据权利要求1所述的方法,其特征在于,所述将相似度大于阈值的关键短语聚为一类,并对聚类结果打分,包括:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
6.一种获取热点事件的装置,其特征在于,所述装置包括:
预处理模块,用于对待处理文本进行预处理,所述预处理包括清洗、分段、分句和分词;
获取模块,用于获取每一个文本中的关键句;
提取模块,用于提取所述关键句中的关键短语;
计算模块,用于根据预设算法计算所述关键短语中的相似度;
评分模块,用于将相似度大于阈值的关键短语聚为一类,并对聚类结果打分;
输出模块,用于将得分高的类别作为网络热点事件输出。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
通过TF-IDF算法或者基于位置的算法获取每一个文本中的关键词。
8.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于:
通过对关键句进行句法分析,提取其中的短语作为关键短语,所述短语包括名词短语或者动词短语。
9.根据权利要求6所述的装置,其特征在于,所述计算模块,具体用于:
通过编辑距离、余弦相似度的方法计算两个关键短语的浅层相似度;和/或,
通过深度学习算法训练预设语义模型,并根据所述预设语义模型计算两个关键短语的深层相似度;和/或,
根据所述浅层相似度和所述深层相似度线性结合的方式计算所述关键短语中的联合相似度。
10.根据权利要求6所述的装置,其特征在于,所述评分模块,具体用于:
将联合相似度大于阈值的关键短语聚为一类,并根据所述关键词短语的数量、关键短语的类型对聚类结果打分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611129054.3A CN106682123A (zh) | 2016-12-09 | 2016-12-09 | 一种获取热点事件的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611129054.3A CN106682123A (zh) | 2016-12-09 | 2016-12-09 | 一种获取热点事件的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106682123A true CN106682123A (zh) | 2017-05-17 |
Family
ID=58867899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611129054.3A Pending CN106682123A (zh) | 2016-12-09 | 2016-12-09 | 一种获取热点事件的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682123A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392436A (zh) * | 2017-06-27 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种提取企业关联关系信息的方法和装置 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109151498A (zh) * | 2018-09-03 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 热点事件处理方法、装置、服务器及存储介质 |
CN109582783A (zh) * | 2018-10-26 | 2019-04-05 | 中国科学院自动化研究所 | 热点话题检测方法及装置 |
CN110458296A (zh) * | 2019-08-02 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN110633330A (zh) * | 2018-06-01 | 2019-12-31 | 北京百度网讯科技有限公司 | 事件发现方法、装置、设备及存储介质 |
CN111191413A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN113806486A (zh) * | 2021-09-23 | 2021-12-17 | 深圳市北科瑞声科技股份有限公司 | 长文本相似度的计算方法及装置、存储介质、电子装置 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103970756A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 热点话题提取方法、装置和服务器 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
-
2016
- 2016-12-09 CN CN201611129054.3A patent/CN106682123A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN103970756A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 热点话题提取方法、装置和服务器 |
CN106202382A (zh) * | 2016-07-08 | 2016-12-07 | 南京缘长信息科技有限公司 | 链接实体方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392436A (zh) * | 2017-06-27 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种提取企业关联关系信息的方法和装置 |
US11210469B2 (en) | 2018-06-01 | 2021-12-28 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, apparatus for event detection, device and storage medium |
CN110633330A (zh) * | 2018-06-01 | 2019-12-31 | 北京百度网讯科技有限公司 | 事件发现方法、装置、设备及存储介质 |
CN110633330B (zh) * | 2018-06-01 | 2022-02-22 | 北京百度网讯科技有限公司 | 事件发现方法、装置、设备及存储介质 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN109151498A (zh) * | 2018-09-03 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 热点事件处理方法、装置、服务器及存储介质 |
CN109582783A (zh) * | 2018-10-26 | 2019-04-05 | 中国科学院自动化研究所 | 热点话题检测方法及装置 |
CN110458296A (zh) * | 2019-08-02 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN110458296B (zh) * | 2019-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN111191413B (zh) * | 2019-12-30 | 2021-11-12 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN111191413A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN113806486A (zh) * | 2021-09-23 | 2021-12-17 | 深圳市北科瑞声科技股份有限公司 | 长文本相似度的计算方法及装置、存储介质、电子装置 |
CN113806486B (zh) * | 2021-09-23 | 2024-05-10 | 深圳市北科瑞声科技股份有限公司 | 长文本相似度的计算方法及装置、存储介质、电子装置 |
CN116049413A (zh) * | 2023-04-03 | 2023-05-02 | 北京中科闻歌科技股份有限公司 | 基于事件演化的用户观点和立场获取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682123A (zh) | 一种获取热点事件的方法及装置 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN105426539B (zh) | 一种基于词典的lucene中文分词方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN107315734B (zh) | 一种基于时间窗口和语义的变体词规范化的方法和系统 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN110232149A (zh) | 一种热点事件检测方法和系统 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN104462378A (zh) | 用于文本识别的数据处理方法及装置 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN103186662A (zh) | 一种动态舆情关键词抽取系统和方法 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN103942191A (zh) | 一种基于内容的恐怖文本识别方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN105893611A (zh) | 一种构建面向社交网络的兴趣主题语义网络的方法 | |
CN110162592A (zh) | 一种基于万有引力改进的TextRank的新闻关键词提取方法 | |
CN102681983A (zh) | 一种文本数据的对齐方法和装置 | |
Çakir et al. | Text mining analysis in Turkish language using big data tools | |
CN110489745A (zh) | 基于引文网络的论文文本相似性的检测方法 | |
CN104504024A (zh) | 基于微博内容的关键词挖掘方法及系统 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170517 |