CN108595388B - 一种面向网络新闻报道的大事记自动生成方法 - Google Patents
一种面向网络新闻报道的大事记自动生成方法 Download PDFInfo
- Publication number
- CN108595388B CN108595388B CN201810365453.2A CN201810365453A CN108595388B CN 108595388 B CN108595388 B CN 108595388B CN 201810365453 A CN201810365453 A CN 201810365453A CN 108595388 B CN108595388 B CN 108595388B
- Authority
- CN
- China
- Prior art keywords
- news
- report
- cluster
- importance
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向网络新闻报道的大事记自动生成方法,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道。大事记的生成无需过多的人工干预,本发明不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种面向网络新闻报道的大事记自动生成方法。
背景技术
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体,被广泛应用在各大领域。作为一种公务文书,大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此,它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料;其次,大事记具有史料价值,可以起到录以备查的作用,通过事件的时空关系的串联,可以对该企业或部门有更系统的了解;此外,互联网用户亦可通过关键字搜索了解特定机构大事记,从而快速的了解该企业或部门。
大事记构建的关键在于事件重要度的度量和时间线的生成,其主要步骤包括:(1)收集某一时间区间企业或部门发生的众多事件;(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件;(3)最后按时间的先后顺序将这些事件串联起来。然而,大事记生成大多采用人工收集和整理的方式,到目前为止,尚未发现采用机器学习技术自动生成大事记的方案。
企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法,该方法的缺陷为:方案需由专门的机构和个人来收集整理相关材料,耗费人才和物力;材料在收集整理过程中,带有一定的主观性;大事记的构建不够灵活,如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于Internet上现有的一些知识平台,如百度百科,维基百科等。这些平台的大事记大多采用众包方式来生成,该方法的缺陷为:尽管网络众包的方式可以节约人力和物力,但此方案仍属于一种人工收集和整理的方式;整个大事记的构建过程由相关的网络知识平台管理,企业或部门缺乏自主性。
发明内容
本发明所要解决的技术问题是提供一种面向网络新闻报道的大事记自动生成方法,解决大事记生成过程中收集和整理不便,企业缺乏自主性的问题。
本发明解决上述技术问题的技术方案如下:一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
本发明的有益效果是:在本发明中,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道,大事记的生成无需过多的人工干预,本发明不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。
附图说明
图1为本发明总流程图;
图2为本发明步骤S2的具体流程图;
图3为本发明步骤S5的具体流程图;
图4为本发明步骤S6的具体流程图;
图5为本发明步骤S7的具体流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
在本发明实施例中,步骤S1中网络新闻报道数据集的每篇报道包括标题、正文和报道时间等,使用中文分词工具对每篇报道的标题和正文进行分词。
如图2所示,步骤S2具体包括以下步骤:
S21、去除语料词典的停用词;
S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:
terms={term1,...,term50} (1)
在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
S24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50) (2)
在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
在本发明实施例中,步骤S4的具体步骤为:构建新闻报道数据集的相似度矩阵,采用APCluster的无参聚类方法对数据进行文本聚类,得到相应的新闻簇。
如图3所示,所述步骤S5具体包括以下步骤:
S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:
在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;
S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:
在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,
S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:
在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,{doc:doc∈sitei}为来源于sitei的新闻报道数量;
S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:
S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:
Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci) (7)
在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定(搜索步长为0.1);
S56、按新闻簇Ci的重要度Salience(Ci)对新闻簇Ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
如图4所示,所述步骤S6具体包括以下步骤:
S61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
S62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
如图5所示,所述步骤S7具体包括以下步骤:
S71、根据每个重要新闻簇内所有新闻报道每一维特征向量的平均值求取中心特征向量centroidRpt;
S72、计算每个重要新闻簇中每篇新闻报道doci到中心特征向量centroidRpt的余弦相似度sim(doci,centroidRpt),计算公式为:
在公式(8)中,docik为新闻报道doci的第k维向量值,centroidRptk为中心特征向量的第k维向量值;
S73、取余弦相似度最大的新闻报道的标题作为该重要新闻簇的代表事件。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于向量空间模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间戳和代表事件串接生成大事记;
所述步骤S5具体包括以下步骤:
S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:
在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;
S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:
S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:
在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,其中{doc:doc∈sitei}为来源于sitei的新闻报道数量;
S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:
S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:
Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci) (7)
在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定,搜索步长为0.1;
S56、按新闻簇Ci的重要度Salience(Ci)对新闻簇Ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、去除语料词典的停用词;
S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:
terms={term1,...,term50} (1)
在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
S24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50) (2)
在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
S62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810365453.2A CN108595388B (zh) | 2018-04-23 | 2018-04-23 | 一种面向网络新闻报道的大事记自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810365453.2A CN108595388B (zh) | 2018-04-23 | 2018-04-23 | 一种面向网络新闻报道的大事记自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595388A CN108595388A (zh) | 2018-09-28 |
CN108595388B true CN108595388B (zh) | 2021-08-17 |
Family
ID=63614573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810365453.2A Active CN108595388B (zh) | 2018-04-23 | 2018-04-23 | 一种面向网络新闻报道的大事记自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595388B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859973B (zh) * | 2019-04-08 | 2024-06-25 | 百度时代网络技术(北京)有限公司 | 用于生成解说词的方法和装置 |
CN110750646B (zh) * | 2019-10-16 | 2022-12-06 | 乐山师范学院 | 一种旅店评论文本的属性描述提取方法 |
CN113312490B (zh) * | 2021-04-28 | 2023-04-18 | 乐山师范学院 | 一种针对突发事件的事件知识图谱构建方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960B (zh) * | 2012-09-06 | 2015-06-17 | 北京邮电大学 | 突发事件热点话题的识别与评估装置 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
CN104915446B (zh) * | 2015-06-29 | 2019-01-29 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN105787095B (zh) * | 2016-03-16 | 2019-09-27 | 广州索答信息科技有限公司 | 互联网新闻的自动生成方法和装置 |
CN107644089B (zh) * | 2017-09-26 | 2020-08-04 | 武大吉奥信息技术有限公司 | 一种基于网络媒体的热门事件提取方法 |
-
2018
- 2018-04-23 CN CN201810365453.2A patent/CN108595388B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108595388A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zou et al. | Mining Twitter data for improved understanding of disaster resilience | |
CN108595388B (zh) | 一种面向网络新闻报道的大事记自动生成方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN105975984B (zh) | 基于证据理论的网络质量评价方法 | |
CN113515644B (zh) | 一种基于知识图谱的医院科技画像方法和系统 | |
CN115018453B (zh) | 一种岗位人才画像自动生成方法 | |
Hu et al. | Latent topic model for audio retrieval | |
CN110533212A (zh) | 基于大数据的城市内涝舆情监测预警方法 | |
Esuli et al. | Active learning strategies for multi-label text classification | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN107633093A (zh) | 一种供电决策知识图谱的构建及其查询方法 | |
Zhang et al. | Ambulance deployment with relocation through robust optimization | |
CN110109908A (zh) | 基于社会基础信息挖掘人物潜在关系的分析系统及方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
CN113159738A (zh) | 业务项目处理方法、装置、电子设备及存储介质 | |
CN112632218A (zh) | 一种用于企业危机公关的网络舆情监测方法 | |
Du et al. | Data mining of social media for urban resilience study: A case of rainstorm in Xi'an | |
CN113051397A (zh) | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 | |
CN111241288A (zh) | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 | |
US11989167B1 (en) | Method and device for detecting and correcting abnormal scoring of peer reviews | |
Rahmatillah et al. | The Reflection of Racism Towards African American in Selma Movie | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
CN117077005A (zh) | 一种城市微更新潜力的优化方法和系统 | |
Sumangali et al. | Determination of interesting rules in FCA using information gain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |