CN108280772A - 社交网络中基于事件关联的故事脉络生成方法 - Google Patents

社交网络中基于事件关联的故事脉络生成方法 Download PDF

Info

Publication number
CN108280772A
CN108280772A CN201810067320.7A CN201810067320A CN108280772A CN 108280772 A CN108280772 A CN 108280772A CN 201810067320 A CN201810067320 A CN 201810067320A CN 108280772 A CN108280772 A CN 108280772A
Authority
CN
China
Prior art keywords
story
event
keyword
thought
train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810067320.7A
Other languages
English (en)
Other versions
CN108280772B (zh
Inventor
马帅
李莹莹
蒋浩谊
刘喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810067320.7A priority Critical patent/CN108280772B/zh
Publication of CN108280772A publication Critical patent/CN108280772A/zh
Application granted granted Critical
Publication of CN108280772B publication Critical patent/CN108280772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。如图1所示为本发明的处理流程图,该流程主要包括三个阶段。首先进行事件检测,从微博流中检测强相关的事件;然后通过关联事件组装故事;最后生成并展示每个故事的故事脉络。

Description

社交网络中基于事件关联的故事脉络生成方法
技术领域
本发明涉及一种社交网络,尤其涉及一种社交网络中基于事件关联的故事脉络生成方法。
背景技术
社交网络已经被政府、公司和总统(例:奥巴马和特朗普)等广泛的用于发布新闻和报道事件。社交网络中新闻的实时性和快速传播性使得社交网络成为一个浏览新闻的重要媒介,通过短文本传递关键信息也有助于我们理解事件。然而,微博的快速积累,以及社交网络中的短文本包含大量含口语化的表达和错别字等使得监控事件的发展过程(即故事脉络)难以完全获取,另外,阅读所有相关的独立微博也将耗费大量的时间。因此,检测事件、高效的组装故事和用合适的方式可视化故事脉络成为亟待解决的问题。
现有技术中,基于用户查询的故事脉络生成方法用与用户查询相关的文本生成故事脉络。一是提取与查询相关的新闻文本,根据基于图的词聚类方法发现事件,并根据事件间关联关系生成故事脉络。二是根据主题相关的对象构造一个带权重的图,并使用最小权重的连通支配集选择对象生成故事脉络。三是检测相关的tweets,构造带权重的图,并使用最小权重的连通支配集选择tweets生成故事脉络。
自动的故事脉络生成方法不需要用户指定与故事相关的关键词,自动的根据文本生成故事脉络。大致可分为两类:逐步方法和统一方法。逐步方法把故事脉络生成形式化为多个独立的组件:事件检测、故事组装和脉络生成。统一方法用一个模型生成故事脉络。
逐步方法把故事脉络生成形式化为多个独立的组件:事件检测、故事组装和脉络生成。现有技术进行事件检测的方法,一是把社交流建模成动态的微博网络并把网络中的一个类作为一个事件;二是对新闻文本流聚类并把一个类作一个事件。现有技术进行故事组装中,基于语义距离和给定的阈值把事件分配给已经存在的故事。现有技术进行脉络生成中,或者用事件间的Jaccard系数和给定的阈值连接事件并生成故事脉络;或者用自定义的函数,即连接强度,生成故事脉络。
现有技术中统一方法用一个模型生成故事脉络。一是假设一个新闻文章报道故事的一个进展,通过把文章连接到最相关的文章生成故事脉络。二是用无监督的隐变量模型在新闻文本流中建模故事在连续时间的发展过程。三是构造一个基于非负矩阵分解的主题模型并用该模型从微博流中追踪故事在连续时间的发展过程。
然而,现有技术基于用户查询的故事脉络生成方法强依赖于用户指定的查询,这使得该类方法的使用受到一定的局限。而自动的故事脉络生成方法逐步方法中,若两个事件间的相似度大于给定的阈值,连接两个事件,然后设定一个合理的阈值很困难,并且这种相似度计算方式不客观,难以获得真实的结果。社交网络数据较新闻文本有独特的特征,基于新闻文本的故事脉络生成方法在社交网络数据中不能得到承诺的效果。而统一方法中单个微博不包含事件的所有关键元素(例地点和参与者),因此统一方法不能直接应用到社交网络中,以及不能连接有较长时间跨度的事件。
发明内容
为解决上述问题,本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。该方法主要包括三个步骤。首先,从微博流中检测强相关的事件;然后,通过关联事件组装故事;最后,生成并展示每个故事的故事脉络。本发明的社交网络中基于事件关联的故事脉络生成方法中事件脉络更清晰,可视化效果更好,可以更优的应用到社交网络中帮助用户理解事件的发展过程。
附图说明
图1为本发明的处理流程图;
图2为本发明一实施例的处理流程步骤。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。如图1所示为本发明的处理流程图,该流程主要包括三个阶段。首先进行事件检测,从微博流中检测强相关的事件;然后通过关联事件组装故事;最后生成并展示每个故事的故事脉络。
如图2所示为一实施例的处理流程步骤:
步骤1,每十分钟检测一次事件;
步骤2,用DBSCAN对数据集预聚类,得到预聚类结果P;
步骤3,根据预聚类结果初始化LDA,并进行精细聚类.一个类对应一个故事。
步骤4,为每个故事生成一个故事脉络。首先构造故事骨架;再提取故事摘要。
需要设置的参数包括DBSCAN需要的参数半径radius和最小点数minpts。LDA需要的超参数alpha、beta和故事(主题)数storynumber。
参数的默认值如下所示:
DBSCAN:0.65<radius≤0.75,2≤minpts≤4
LDA:alpha=0.1,beta=0.03,50≤storynumber<450
本发明首先使用一种适合短文本且能检测强相关事件的事件检测算法检测事件;然后通过用隐式语义信息关联事件来组装故事;最后为每个故事生成一个故事脉络。故事脉络即可以帮助用户捕捉一个故事的大意,也可以浏览故事中详细的发展过程。
事件检测阶段中,根据事件中的微博集合必须强相关的假设从微博流中检测事件。首先从微博中获得一个关键词图用于保留微博的关键信息;然后使用关键词图中的k-clique过滤事件的关键词集合;最后根据事件的关键词识别其它的事件特征,即时间、地点、参与者、描述和微博集合。
本发明用基于图的方法从微博流中检测事件,从Ring系统下载微博数据,采用IKAnalyzer分词并去除停用词。事件检测由关键词发现,关键词社区抽取,事件特征识别三个步骤组成。
在关键词发现中,本发明用异常词检测方法检测包含不寻常模式的关键词并获得关键词图。
在关键词社区抽取中,单个关键词不足以包含事件的全部内容,共现且强相关的关键词集合会增加事件的内容覆盖面。因此本发明用重叠的社区检测算法过滤关键词社区并把一个社区作为一个事件的关键词集合。
在事件特征识别中,根据事件的关键词识别事件的其它特征,即时间、地点、参与者、描述和微博集合。时间表示该事件被检测的时间,通常设置为10分钟。微博集合中的微博必须包含事件的所有关键词。描述是从该事件的微博集合中提取的一句包含关键词最多的句子。对该事件的微博分词并得到所有的命名实体,即地点,人物和组织。地点指命名实体中最频繁出现的地点。参与者指命名实体中所有人物和组织。
故事组装阶段中,根据主题对事件分组,并把事件组装成故事。首先,基于事件的隐式语义特征聚类,并把一个类作为一个故事;然后,根据故事中的事件集合标识其它的故事特征,即时间、地点、参与者和关键词。
本发明使用基于隐式语义特征的方法组装故事。首先进行故事构造,使用一个改良的LDA对事件分组,所述LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为主题模型。并把一个分组作为一个故事;然后进行故事特征识别,根据故事中的事件集合标识其它的故事特征,即时间、地点、参与者和关键词。
故事构造中,LDA可以捕捉事件的隐式语义特征。观察发现相同主题下的事件倾向于有更多的共有的词。这个先验知识可以极大的减少LDA的搜索空间。本发明首先使用DBSCAN进行预聚类,然后根据预聚类结果初始化LDA并进行精细聚类。
在预聚类中,使用DBSCAN进行预聚类。首先为每个事件e构造词向量we。we,k=1,当第k个词在事件e中时;we,k=0,在其它任何条件下。然后把词向量做为输入,用DBSCAN把事件聚类到预聚类结果P中,其中P={p1,p2,...,pI}并且pi是一个包含一个事件集合的预聚类。DBSCAN中使用的聚类函数如下所示:
dis(ei,ej)=1-cosine(wei,wej)
在精细聚类中,根据DBSCAN的预聚类结果P初始化LDA,相同预聚类中的事件中的词被分配到相同的主题中。然后对LDA进行Gibbs抽样,并根据事件的主题向量把事件分配到故事中。本发明认为一个事件只能属于一个故事,因此事件被分配到有最高概率的故事中。
在故事特征识别中,为方便用户查询故事,本发明根据该故事的事件集合识别故事特征。首先,故事的开始时间和结束时间分别被赋值为事件集合中的最早时间和最晚时间;然后地点、参与者和关键词集合是相应的事件特征的并集。
故事脉络生成阶段中,为每个故事生成故事脉络。用事件有向无环图和故事摘要可视化故事脉络。首先,用弱联通分量和最大生成树构造一个有向无环图;然后提取故事的摘要。故事脉络即可以帮助用户捕捉故事的大意,也可以浏览故事中详细的发展过程。
故事骨架由一个事件有向无环图表示。首先,计算任意两事件间的有向边(公式2)并生成一个事件图;然后构造事件图的弱联通分量集合;最后为每个弱联通分量构造最大生成树。故事的骨架由多个最大生成树表示。
w(ei,ej)=I(Tei,Tej)·siml(ei,ej)·(cp·simp(ei,ej)+cc·simc(ei,ej))
(2)其中,ei和ej表示两个事件;I(Tei,Tej)表示两事件的时间关系;siml、simp和simc表示两个事件间地点、参与者和关键词间的相似度。cp和cc是这些相似度的权重系数,且满足cp+cc=1。
I(Tei,Tej)=1,当Tei<Tej时;I(Tei,Tej)=0,在其它情况下。siml(ei,ej)=1,当两个事件的地点Lei等于Lej时;siml(ei,ej)=0.5,当地点Lei地理上属于Lej时;siml(ei,ej)=0,在其它情况下。simp(ei,ej)表示两个事件的参与者Pei和Pej的Jaccard系数。simc(ei,ej)表示两个事件的关键词Cei和Cej的Jaccard系数。
故事摘要提取中,从故事内事件的描述中提取一些句子用于表示故事摘要。首先,为每个最大生成树生成摘要;然后这些摘要合并起来表示故事摘要。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种在社交网络中基于事件关联的故事脉络生成方法,包括三个步骤,步骤1,从微博流中检测强相关的事件;步骤2,然后通过关联事件组装故事;步骤3,生成并展示每个故事的故事脉络。
2.如权利要求1所述的方法,其特征在于,在步骤1中,事件检测由关键词发现,关键词社区抽取,事件特征识别三个步骤组成;在步骤2中,包括故事组装和故事特征识别步骤,根据主题对事件分组,并把事件组装成故事,首先,基于事件的隐式语义特征聚类,并把一个类作为一个故事;然后,根据故事中的事件集合标识其它的故事特征,所述标识其它的故事特征包括时间、地点、参与者和关键词;在步骤3中,包括故事骨架构造和故事摘要提取步骤,为每个故事生成故事脉络,用事件有向无环图和故事摘要可视化故事脉络,用弱联通分量和最大生成树构造一个有向无环图,然后提取故事的摘要。
3.如权利要求2所述的方法,其特征在于,在步骤1中,在所述关键词发现步骤中,采用异常词检测方法检测包含不寻常模式的关键词并获得关键词图;在关键词社区抽取步骤中,采用重叠的社区检测算法过滤关键词社区并把一个社区作为一个事件的关键词集合;在事件特征识别步骤中,根据事件的关键词识别事件的其它特征,所述识别事件的其它特征包括时间、地点、参与者、描述和微博集合,所述时间表示该事件被检测的时间,微博集合中的微博包含事件的所有关键词,所述地点为命名实体中最频繁出现的地点,所述参与者为命名实体中所有人物和组织。
4.如权利要求2所述的方法,其特征在于,在步骤2的故事构造步骤中,LDA捕捉事件的隐式语义特征,观察发现相同主题下的事件倾向于有更多的共有的词,首先进行预聚类,然后根据预聚类结果初始化LDA并进行精细聚类,在所述精细聚类中,根据预聚类结果初始化LDA,相同预聚类中的事件中的词被分配到相同的主题中,然后对LDA进行抽样,并根据事件的主题向量把事件分配到故事中;在所述故事特征识别步骤中,根据该故事的事件集合识别故事特征,首先将故事的开始时间和结束时间分别被赋值为事件集合中的最早时间和最晚时间,然后将地点、参与者和关键词集合作为相应的事件特征的并集。
5.如权利要求2所述的方法,其特征在于,在步骤3的故事骨架构造中,将故事骨架表示为一个事件有向无环图,首先计算任意两事件间的有向边并生成一个事件图,然后构造事件图的弱联通分量集合;最后为每个弱联通分量构造最大生成树;然后进行故事摘要提取,从故事内事件的描述中提取一些句子用于表示故事摘要。首先为每个最大生成树生成摘要,然后将所述摘要合并起来表示故事摘要。
CN201810067320.7A 2018-01-24 2018-01-24 社交网络中基于事件关联的故事脉络生成方法 Active CN108280772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067320.7A CN108280772B (zh) 2018-01-24 2018-01-24 社交网络中基于事件关联的故事脉络生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067320.7A CN108280772B (zh) 2018-01-24 2018-01-24 社交网络中基于事件关联的故事脉络生成方法

Publications (2)

Publication Number Publication Date
CN108280772A true CN108280772A (zh) 2018-07-13
CN108280772B CN108280772B (zh) 2022-02-18

Family

ID=62804945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067320.7A Active CN108280772B (zh) 2018-01-24 2018-01-24 社交网络中基于事件关联的故事脉络生成方法

Country Status (1)

Country Link
CN (1) CN108280772B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287999A (zh) * 2019-05-28 2019-09-27 清华大学 基于隐变量模型的故事生成方法及装置
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179449A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Automatic story summarization from clustered messages
CN105447026A (zh) * 2014-08-27 2016-03-30 南京理工大学常熟研究院有限公司 基于多视角图中最小权重连通决定集的Web信息提取方法
US20160188590A1 (en) * 2014-12-29 2016-06-30 Robert J. Cole Systems and methods for news event organization
CN105787121A (zh) * 2016-03-25 2016-07-20 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179449A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Automatic story summarization from clustered messages
CN105447026A (zh) * 2014-08-27 2016-03-30 南京理工大学常熟研究院有限公司 基于多视角图中最小权重连通决定集的Web信息提取方法
US20160188590A1 (en) * 2014-12-29 2016-06-30 Robert J. Cole Systems and methods for news event organization
CN105787121A (zh) * 2016-03-25 2016-07-20 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
徐程浩等: "基于社交媒体的事件感知与多模态事件脉络生成", 《计算机科学》 *
李培等: "中文微博故事线生成方法", 《中文信息学报》 *
李纲等: "基于事件要素的组合模型微博热点事件摘要提取", 《图书情报工作》 *
欧阳逸等: "微博事件感知与脉络呈现系统", 《浙江大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111382276B (zh) * 2018-12-29 2023-06-20 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN110287999A (zh) * 2019-05-28 2019-09-27 清华大学 基于隐变量模型的故事生成方法及装置
CN110287999B (zh) * 2019-05-28 2021-05-28 清华大学 基于隐变量模型的故事生成方法及装置

Also Published As

Publication number Publication date
CN108280772B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
Cordeiro et al. Online social networks event detection: a survey
Hellsten et al. Automated analysis of actor–topic networks on twitter: New approaches to the analysis of socio‐semantic networks
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
Li et al. Filtering out the noise in short text topic modeling
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
US9235653B2 (en) Discovering entity actions for an entity graph
CN105389354B (zh) 面向社交媒体文本的无监督的事件抽取和分类方法
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
EP3918758A1 (en) Real-time event detection on social data streams
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN112486917A (zh) 从多个微博自动生成信息丰富的内容的方法以及系统
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN108829661A (zh) 一种基于模糊匹配的新闻主体名称提取方法
Sapul et al. Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms
CN105512300B (zh) 信息过滤方法及系统
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset
CN108280772A (zh) 社交网络中基于事件关联的故事脉络生成方法
CN105589935A (zh) 社交群组识别方法
JP6042790B2 (ja) トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
Bouraoui et al. Cluster-based graphs for conceiving dialog systems
Kaufhold et al. Big data and multi-platform social media services in disaster management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant