CN108595388B - 一种面向网络新闻报道的大事记自动生成方法 - Google Patents

一种面向网络新闻报道的大事记自动生成方法 Download PDF

Info

Publication number
CN108595388B
CN108595388B CN201810365453.2A CN201810365453A CN108595388B CN 108595388 B CN108595388 B CN 108595388B CN 201810365453 A CN201810365453 A CN 201810365453A CN 108595388 B CN108595388 B CN 108595388B
Authority
CN
China
Prior art keywords
news
report
cluster
importance
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810365453.2A
Other languages
English (en)
Other versions
CN108595388A (zh
Inventor
孙锐
张宏毅
张本康
赵晗嫣
汤仁蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN201810365453.2A priority Critical patent/CN108595388B/zh
Publication of CN108595388A publication Critical patent/CN108595388A/zh
Application granted granted Critical
Publication of CN108595388B publication Critical patent/CN108595388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向网络新闻报道的大事记自动生成方法,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道。大事记的生成无需过多的人工干预,本发明不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。

Description

一种面向网络新闻报道的大事记自动生成方法
技术领域
本发明涉及信息技术领域,具体涉及一种面向网络新闻报道的大事记自动生成方法。
背景技术
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体,被广泛应用在各大领域。作为一种公务文书,大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此,它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料;其次,大事记具有史料价值,可以起到录以备查的作用,通过事件的时空关系的串联,可以对该企业或部门有更系统的了解;此外,互联网用户亦可通过关键字搜索了解特定机构大事记,从而快速的了解该企业或部门。
大事记构建的关键在于事件重要度的度量和时间线的生成,其主要步骤包括:(1)收集某一时间区间企业或部门发生的众多事件;(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件;(3)最后按时间的先后顺序将这些事件串联起来。然而,大事记生成大多采用人工收集和整理的方式,到目前为止,尚未发现采用机器学习技术自动生成大事记的方案。
企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法,该方法的缺陷为:方案需由专门的机构和个人来收集整理相关材料,耗费人才和物力;材料在收集整理过程中,带有一定的主观性;大事记的构建不够灵活,如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于Internet上现有的一些知识平台,如百度百科,维基百科等。这些平台的大事记大多采用众包方式来生成,该方法的缺陷为:尽管网络众包的方式可以节约人力和物力,但此方案仍属于一种人工收集和整理的方式;整个大事记的构建过程由相关的网络知识平台管理,企业或部门缺乏自主性。
发明内容
本发明所要解决的技术问题是提供一种面向网络新闻报道的大事记自动生成方法,解决大事记生成过程中收集和整理不便,企业缺乏自主性的问题。
本发明解决上述技术问题的技术方案如下:一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
本发明的有益效果是:在本发明中,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道,大事记的生成无需过多的人工干预,本发明不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。
附图说明
图1为本发明总流程图;
图2为本发明步骤S2的具体流程图;
图3为本发明步骤S5的具体流程图;
图4为本发明步骤S6的具体流程图;
图5为本发明步骤S7的具体流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
在本发明实施例中,步骤S1中网络新闻报道数据集的每篇报道包括标题、正文和报道时间等,使用中文分词工具对每篇报道的标题和正文进行分词。
如图2所示,步骤S2具体包括以下步骤:
S21、去除语料词典的停用词;
S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:
terms={term1,...,term50} (1)
在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
S24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50) (2)
在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
在本发明实施例中,步骤S4的具体步骤为:构建新闻报道数据集的相似度矩阵,采用APCluster的无参聚类方法对数据进行文本聚类,得到相应的新闻簇。
如图3所示,所述步骤S5具体包括以下步骤:
S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:
Figure BDA0001636885340000051
在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;
S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:
Figure BDA0001636885340000052
在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,
Figure BDA0001636885340000053
为所有新闻簇的报道转发量得分之和;
S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:
Figure BDA0001636885340000054
在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,{doc:doc∈sitei}为来源于sitei的新闻报道数量;
S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:
Figure BDA0001636885340000055
在公式(6)中,SrcScore(Ci)为报道来源重要度得分,
Figure BDA0001636885340000056
为新闻簇Ci中不同报道来源sitei的重要度得分之和,
Figure BDA0001636885340000057
为数据集D中不同报道来源sitej的重要度得分之和;
S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:
Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci) (7)
在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定(搜索步长为0.1);
S56、按新闻簇Ci的重要度Salience(Ci)对新闻簇Ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
如图4所示,所述步骤S6具体包括以下步骤:
S61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
S62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
如图5所示,所述步骤S7具体包括以下步骤:
S71、根据每个重要新闻簇内所有新闻报道每一维特征向量的平均值求取中心特征向量centroidRpt;
S72、计算每个重要新闻簇中每篇新闻报道doci到中心特征向量centroidRpt的余弦相似度sim(doci,centroidRpt),计算公式为:
Figure BDA0001636885340000061
在公式(8)中,docik为新闻报道doci的第k维向量值,centroidRptk为中心特征向量的第k维向量值;
S73、取余弦相似度最大的新闻报道的标题作为该重要新闻簇的代表事件。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:
S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于向量空间模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间戳和代表事件串接生成大事记;
所述步骤S5具体包括以下步骤:
S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:
Figure FDA0003135879140000011
在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;
S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:
Figure FDA0003135879140000021
在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,
Figure FDA0003135879140000022
为所有新闻簇的报道转发量得分之和;
S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:
Figure FDA0003135879140000023
在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,其中{doc:doc∈sitei}为来源于sitei的新闻报道数量;
S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:
Figure FDA0003135879140000024
在公式(6)中,SrcScore(Ci)为报道来源重要度得分,
Figure FDA0003135879140000025
为新闻簇Ci中不同报道来源sitei的重要度得分之和,
Figure FDA0003135879140000026
为数据集D中不同报道来源sitej的重要度得分之和;
S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:
Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci) (7)
在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定,搜索步长为0.1;
S56、按新闻簇Ci的重要度Salience(Ci)对新闻簇Ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、去除语料词典的停用词;
S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:
terms={term1,...,term50} (1)
在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
S24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50) (2)
在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
S62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
4.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S7具体包括以下步骤:
S71、根据每个重要新闻簇内所有新闻报道每一维特征向量的平均值求取中心特征向量centroidRpt;
S72、计算每个重要新闻簇中每篇新闻报道doci到中心特征向量centroidRpt的余弦相似度sim(doci,centroidRpt),计算公式为:
Figure FDA0003135879140000041
在公式(8)中,docik为新闻报道doci的第k维向量值,centroidRptk为中心特征向量的第k维向量值;
S73、取余弦相似度最大的新闻报道的标题作为该重要新闻簇的代表事件。
CN201810365453.2A 2018-04-23 2018-04-23 一种面向网络新闻报道的大事记自动生成方法 Active CN108595388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810365453.2A CN108595388B (zh) 2018-04-23 2018-04-23 一种面向网络新闻报道的大事记自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810365453.2A CN108595388B (zh) 2018-04-23 2018-04-23 一种面向网络新闻报道的大事记自动生成方法

Publications (2)

Publication Number Publication Date
CN108595388A CN108595388A (zh) 2018-09-28
CN108595388B true CN108595388B (zh) 2021-08-17

Family

ID=63614573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810365453.2A Active CN108595388B (zh) 2018-04-23 2018-04-23 一种面向网络新闻报道的大事记自动生成方法

Country Status (1)

Country Link
CN (1) CN108595388B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859973B (zh) * 2019-04-08 2024-06-25 百度时代网络技术(北京)有限公司 用于生成解说词的方法和装置
CN110750646B (zh) * 2019-10-16 2022-12-06 乐山师范学院 一种旅店评论文本的属性描述提取方法
CN113312490B (zh) * 2021-04-28 2023-04-18 乐山师范学院 一种针对突发事件的事件知识图谱构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及系统
CN104915446B (zh) * 2015-06-29 2019-01-29 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105787095B (zh) * 2016-03-16 2019-09-27 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN107644089B (zh) * 2017-09-26 2020-08-04 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法

Also Published As

Publication number Publication date
CN108595388A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
Zou et al. Mining Twitter data for improved understanding of disaster resilience
CN108595388B (zh) 一种面向网络新闻报道的大事记自动生成方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN105975984B (zh) 基于证据理论的网络质量评价方法
CN113515644B (zh) 一种基于知识图谱的医院科技画像方法和系统
CN115018453B (zh) 一种岗位人才画像自动生成方法
Hu et al. Latent topic model for audio retrieval
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
Esuli et al. Active learning strategies for multi-label text classification
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN107633093A (zh) 一种供电决策知识图谱的构建及其查询方法
Zhang et al. Ambulance deployment with relocation through robust optimization
CN110109908A (zh) 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
CN113159738A (zh) 业务项目处理方法、装置、电子设备及存储介质
CN112632218A (zh) 一种用于企业危机公关的网络舆情监测方法
Du et al. Data mining of social media for urban resilience study: A case of rainstorm in Xi'an
CN113051397A (zh) 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法
CN111241288A (zh) 一种大集中电力客户服务中心的突发事件感知系统以及构建方法
US11989167B1 (en) Method and device for detecting and correcting abnormal scoring of peer reviews
Rahmatillah et al. The Reflection of Racism Towards African American in Selma Movie
CN114003803A (zh) 一种社交平台上特定地域的媒体账号发现方法及系统
CN117077005A (zh) 一种城市微更新潜力的优化方法和系统
Sumangali et al. Determination of interesting rules in FCA using information gain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant