CN112597380A - 基于微博平台的有价值新闻线索自动发现方法 - Google Patents

基于微博平台的有价值新闻线索自动发现方法 Download PDF

Info

Publication number
CN112597380A
CN112597380A CN202011494287.XA CN202011494287A CN112597380A CN 112597380 A CN112597380 A CN 112597380A CN 202011494287 A CN202011494287 A CN 202011494287A CN 112597380 A CN112597380 A CN 112597380A
Authority
CN
China
Prior art keywords
microblog
event
microblogs
signal
clue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011494287.XA
Other languages
English (en)
Inventor
曹娟
谢添
刘浩远
徐朝喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongke Ruijian Technology Co ltd
Institute Of Digital Economy Industry Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Hangzhou Zhongke Ruijian Technology Co ltd
Institute Of Digital Economy Industry Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongke Ruijian Technology Co ltd, Institute Of Digital Economy Industry Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Hangzhou Zhongke Ruijian Technology Co ltd
Priority to CN202011494287.XA priority Critical patent/CN112597380A/zh
Publication of CN112597380A publication Critical patent/CN112597380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于微博平台的有价值新闻线索自动发现方法。本发明的目的是提供一种基于微博平台的有价值新闻线索自动发现方法。本发明的技术方案是:一种基于微博平台的有价值新闻线索自动发现方法,其特征在于:S01、获取种子模式;S02、检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;S03、对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;S04、利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索。本发明适用于信息挖掘技术领域。

Description

基于微博平台的有价值新闻线索自动发现方法
技术领域
本发明涉及一种基于微博平台的有价值新闻线索自动发现方法。适用于信息挖掘技术领域。
背景技术
随着WEB2.0技术的快速发展,普通用户已经成为互联网上内容的主要生产者,UGC(User Generated Content)具有反应及时,传播快的特点。微博是一个基于用户关系信息分享、传播以及获取的平台,作为UGC内容的典型代表,微博凭借其庞大和活跃的用户量,已成为即时消息的舆论场。
全民参与的互联网模式也正在推动新闻媒体的变革,传统媒体基于人才优势和品牌优势提供独家、独到、专业的新闻内容,再辅以多样化的传播渠道,就能占领新闻传播的制高点,而如今随着互联网上信息越来越充裕,时效性越来越高,如何准确快速自动地发现有价值的新闻线索具有重要意义。
发明内容
本发明要解决的技术问题是:提供一种基于微博平台的有价值新闻线索自动发现方法。
本发明所采用的技术方案是:一种基于微博平台的有价值新闻线索自动发现方法,其特征在于:
S01、获取种子模式;
S02、检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;
S03、对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;
S04、利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索。
S05、使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中。
步骤S05包括:
利用选取的有价值的新闻线索对应的事件,计算2gram语言模型,选取共现频率高的二元组作为新的模式集,进行人工筛选,将新选的模式加入种子模式集中。
所述种子模式为特定的短语或者语法结构。
步骤S03包括:
对信号微博进行分词,根据词性过滤对事件描述无关的词,利用词袋模型把每条微博转化为词的集合;
对获取的所有微博进行文本聚类,聚类中使用Jaccard相似性系数公式,作为每两条微博的相似度公式;
聚类后每个类中描述的是同一个事件,对每个类提取摘要,作为候选线索。
步骤S04中的特征包括:
a.信号微博占事件扩充后所有微博的比例;
b.事件平均微博长度;
c.信号微博集的平均微博长度;
d.信号微博集的平均微博长度与事件平均微博长度之比;
e.事件微博中被转发微博所占的比例;
f.信号微博中被转发微博所占的比例;
g.事件微博中平均每条微博包含的超链接地址数;
h.信号微博中平均每条微博包含的超链接地址数;
i.事件微博中平均每条微博包含的话题数;
j.信号微博中平均每条微博包含的话题数;
k.事件微博中平均每条微博包含的@数;
l.事件微博中平均每条微博包含的@数;
上述特征中微博长度指的是微博内容包含的字数。
一种基于微博平台的有价值新闻线索自动发现系统,其特征在于,包括:
种子模式获取模块,用于获取种子模式;
微博检索模块,用于检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;
微博聚类模块,用于对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;
事件打分模块,用于利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索。
还包括:
种子模式更新模块,用于使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述的基于微博平台的有价值新闻线索自动发现方法的步骤。
一种基于微博平台的有价值新闻线索自动发现设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述的基于微博平台的有价值新闻线索自动发现方法的步骤。
本发明的有益效果是:本发明通过初始化种子模式、检索获取信号微博、聚类生成候选线索、有价值线索选取的步骤准确快速自动地发现有价值的新闻线索。
附图说明
图1为实施例的流程图。
具体实施方式
本实施例为一种基于微博平台的有价值新闻线索自动发现方法,包括以下步骤:
S01、获取种子模式。价值作为一个主观性较强的词,缺乏统一、量化的度量,本实施例认为在某一领域有价值的线索在文字描述上有一定的模式,该模式为特定的短语或者语法结构,该模式需要该领域的专家人工来提取,因此在使用本实施例的第一步,需要人工定义一些模式,作为种子,用来检索获取符合该模式的微博信息。
比如,专注于网络谣言发现的人,认为有争议的线索是有价值的,则可以提取诸如“谣言”,“这是真的么?”,“求证实”等模式作为种子模式。
S02、利用步骤S01获取的种子模式,实时检索获取微博平台上包含该种子模式且距检索时间比较近的微博,作为信号微博。
S03、对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索,具体包括:
对信号微博进行分词,根据词性过滤对事件描述无关的词(如连词、介词、虚词等),利用词袋模型把每条微博转化为词的集合;
对获取的所有微博进行文本聚类,聚类中使用Jaccard相似性系数公式,作为每两条微博的相似度公式,Jaccard相似性系数公式如下:
Figure BDA0002841609940000051
本实施例认为每个类中描述的是同一个事件,因此对有多少个类就有多少个事件,对每个类提取摘要,作为候选线索。
S04、对每个候选线索,利用线索检索和获取微博消息,扩充和完善线索对应事件的内容;对每个事件提取特征,利用事先训练好的打分模型(该打分模型利用大量人工打分的事件结合其特征进行训练)对事件进行打分,选取打分高于一定阈值的线索作为有价值的新闻线索。
本实施例从事件中提取的特征如下:
a、信号微博占事件扩充后所有微博的比例;
b、事件平均微博长度;
c、信号微博集的平均微博长度;
d、信号微博集的平均微博长度与事件平均微博长度之比;
e、事件微博中被转发微博所占的比例;
f、信号微博中被转发微博所占的比例;
g、事件微博中平均每条微博包含的超链接地址数;
h、信号微博中平均每条微博包含的超链接地址数;
i、事件微博中平均每条微博包含的话题数;
j、信号微博中平均每条微博包含的话题数;
k、事件微博中平均每条微博包含的@数;
l、事件微博中平均每条微博包含的@数;
上述特征中微博长度指的是微博内容包含的字数。
S05、使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中,具体包括:
利用选取的有价值的新闻线索对应的事件,计算2gram语言模型,选取共现频率高的二元组作为新的模式集,进行人工筛选,将新选的模式加入种子模式集中。
2gram是一种利用上下文中相邻词间的搭配信息的语言模型,它基于一种假设,每个词的出现只与它的前一个词相关。
本实施例还提供一种基于微博平台的有价值新闻线索自动发现系统,包括:种子模式获取模块、微博检索模块、微博聚类模块、事件打分模块和种子模式更新模块。
本例中种子模式获取模块用于获取种子模式;微博检索模块用于检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;微博聚类模块用于对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;事件打分模块用于利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索;种子模式更新模块用于使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例的基于微博平台的有价值新闻线索自动发现方法的步骤。
本实施例还提供一种基于微博平台的有价值新闻线索自动发现设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例的基于微博平台的有价值新闻线索自动发现方法的步骤。

Claims (10)

1.一种基于微博平台的有价值新闻线索自动发现方法,其特征在于:
S01、获取种子模式;
S02、检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;
S03、对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;
S04、利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索。
2.根据权利要求1所述的基于微博平台的有价值新闻线索自动发现方法,其特征在于:
S05、使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中。
3.根据权利要求2所述的所述的基于微博平台的有价值新闻线索自动发现方法,其特征在于,步骤S05包括:
利用选取的有价值的新闻线索对应的事件,计算2gram语言模型,选取共现频率高的二元组作为新的模式集,进行人工筛选,将新选的模式加入种子模式集中。
4.根据权利要求1所述的基于微博平台的有价值新闻线索自动发现方法,其特征在于:所述种子模式为特定的短语或者语法结构。
5.根据权利要求1所述的基于微博平台的有价值新闻线索自动发现方法,其特征在于,步骤S03包括:
对信号微博进行分词,根据词性过滤对事件描述无关的词,利用词袋模型把每条微博转化为词的集合;
对获取的所有微博进行文本聚类,聚类中使用Jaccard相似性系数公式,作为每两条微博的相似度公式;
聚类后每个类中描述的是同一个事件,对每个类提取摘要,作为候选线索。
6.根据权利要求1所述的基于微博平台的有价值新闻线索自动发现方法,其特征在于,步骤S04中的特征包括:
a.信号微博占事件扩充后所有微博的比例;
b.事件平均微博长度;
c.信号微博集的平均微博长度;
d.信号微博集的平均微博长度与事件平均微博长度之比;
e.事件微博中被转发微博所占的比例;
f.信号微博中被转发微博所占的比例;
g.事件微博中平均每条微博包含的超链接地址数;
h.信号微博中平均每条微博包含的超链接地址数;
i.事件微博中平均每条微博包含的话题数;
j.信号微博中平均每条微博包含的话题数;
k.事件微博中平均每条微博包含的@数;
l.事件微博中平均每条微博包含的@数;
上述特征中微博长度指的是微博内容包含的字数。
7.一种基于微博平台的有价值新闻线索自动发现系统,其特征在于,包括:
种子模式获取模块,用于获取种子模式;
微博检索模块,用于检索获取包含所述种子模式的距检索时间比较近的微博,作为信号微博;
微博聚类模块,用于对所有信号微博进行聚类,每个类描述的是同一个事件,对事件提取摘要,作为候选线索;
事件打分模块,用于利用候选线索检索微博,扩展事件,对扩展后的事件提取特征,利用训练好的打分模型根据提取的特征对事件进行打分,选取得分值高于一定阈值的事件,并提取其摘要作为有价值的新闻线索。
8.根据权利要求7所述的基于微博平台的有价值新闻线索自动发现系统,其特征在于,还包括:
种子模式更新模块,用于使用半监督学习的方法从选取的有价值新闻线索对应事件中提取新的模式加入种子模式中。
9.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述的基于微博平台的有价值新闻线索自动发现方法的步骤。
10.一种基于微博平台的有价值新闻线索自动发现设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述的基于微博平台的有价值新闻线索自动发现方法的步骤。
CN202011494287.XA 2020-12-17 2020-12-17 基于微博平台的有价值新闻线索自动发现方法 Pending CN112597380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494287.XA CN112597380A (zh) 2020-12-17 2020-12-17 基于微博平台的有价值新闻线索自动发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494287.XA CN112597380A (zh) 2020-12-17 2020-12-17 基于微博平台的有价值新闻线索自动发现方法

Publications (1)

Publication Number Publication Date
CN112597380A true CN112597380A (zh) 2021-04-02

Family

ID=75196944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494287.XA Pending CN112597380A (zh) 2020-12-17 2020-12-17 基于微博平台的有价值新闻线索自动发现方法

Country Status (1)

Country Link
CN (1) CN112597380A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140047226A (ko) * 2012-10-10 2014-04-22 한국전자통신연구원 이슈 일지를 제공하는 단말기, 이슈 일지를 생성하는 서버 및 이슈 일지 제공 및 생성 방법
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN106372083A (zh) * 2015-07-22 2017-02-01 中国科学院计算技术研究所 一种有争议性新闻线索自动发现的方法及系统
CN109284369A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 证券新闻资讯重要性的判定方法、系统、装置及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140047226A (ko) * 2012-10-10 2014-04-22 한국전자통신연구원 이슈 일지를 제공하는 단말기, 이슈 일지를 생성하는 서버 및 이슈 일지 제공 및 생성 방법
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN106372083A (zh) * 2015-07-22 2017-02-01 中国科学院计算技术研究所 一种有争议性新闻线索自动发现的方法及系统
CN109284369A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 证券新闻资讯重要性的判定方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN100405371C (zh) 一种提取新词的方法和系统
CN106874279B (zh) 生成应用类别标签的方法及装置
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
CN107506486A (zh) 一种基于实体链接的关系扩充方法
CN107690634B (zh) 自动查询模式生成方法及系统
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN102262634A (zh) 一种自动问答方法及系统
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
US20090094019A1 (en) Efficiently Representing Word Sense Probabilities
CN103020123B (zh) 一种搜索不良视频网站的方法
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN103186556B (zh) 得到和搜索结构化语义知识的方法及对应装置
CN109271459B (zh) 基于Lucene和文法网络的聊天机器人及其实现方法
CN109299221A (zh) 实体抽取和排序方法与装置
CN114912448B (zh) 一种文本扩展方法、装置、设备及介质
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN112650833A (zh) Api匹配模型建立方法及跨城市政务api匹配方法
CN116361416A (zh) 基于语义分析及高维建模的语音检索方法、系统及介质
CN109284362B (zh) 一种内容检索方法及系统
CN110956271A (zh) 一种海量数据的多级分类方法及装置
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
EP3905061A1 (en) Artificial intelligence for content discovery
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN112597380A (zh) 基于微博平台的有价值新闻线索自动发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310015 floor 12, building D, No. 108 Xiangyuan Road, Gongshu District, Hangzhou City, Zhejiang Province

Applicant after: Zhongke Computing Technology Innovation Research Institute

Applicant after: Hangzhou Zhongke Ruijian Technology Co.,Ltd.

Address before: 12 / F, building 4, 108 Xiangyuan Road, Gongshu District, Hangzhou City, Zhejiang Province 310015

Applicant before: Institute of digital economy industry, Institute of computing technology, Chinese Academy of Sciences

Applicant before: Hangzhou Zhongke Ruijian Technology Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cao Juan

Inventor after: Xie Tian

Inventor after: Huang Yan

Inventor before: Cao Juan

Inventor before: Xie Tian

Inventor before: Liu Haoyuan

Inventor before: Xu Chaoxi

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210402