CN108280772B - 社交网络中基于事件关联的故事脉络生成方法 - Google Patents
社交网络中基于事件关联的故事脉络生成方法 Download PDFInfo
- Publication number
- CN108280772B CN108280772B CN201810067320.7A CN201810067320A CN108280772B CN 108280772 B CN108280772 B CN 108280772B CN 201810067320 A CN201810067320 A CN 201810067320A CN 108280772 B CN108280772 B CN 108280772B
- Authority
- CN
- China
- Prior art keywords
- story
- event
- events
- keyword
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000006116 polymerization reaction Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。如图1所示为本发明的处理流程图,该流程主要包括三个阶段。首先进行事件检测,从微博流中检测强相关的事件;然后通过关联事件组装故事;最后生成并展示每个故事的故事脉络。
Description
技术领域
本发明涉及一种社交网络,尤其涉及一种社交网络中基于事件关联的故事脉络生成方法。
背景技术
社交网络已经被政府、公司和等广泛的用于发布新闻和报道事件。社交网络中新闻的实时性和快速传播性使得社交网络成为一个浏览新闻的重要媒介,通过短文本传递关键信息也有助于我们理解事件。然而,微博的快速积累,以及社交网络中的短文本包含大量含口语化的表达和错别字等使得监控事件的发展过程(即故事脉络)难以完全获取,另外,阅读所有相关的独立微博也将耗费大量的时间。因此,检测事件、高效的组装故事和用合适的方式可视化故事脉络成为亟待解决的问题。
现有技术中,基于用户查询的故事脉络生成方法用与用户查询相关的文本生成故事脉络。一是提取与查询相关的新闻文本,根据基于图的词聚类方法发现事件,并根据事件间关联关系生成故事脉络。二是根据主题相关的对象构造一个带权重的图,并使用最小权重的连通支配集选择对象生成故事脉络。三是检测相关的tweets,构造带权重的图,并使用最小权重的连通支配集选择tweets生成故事脉络。
自动的故事脉络生成方法不需要用户指定与故事相关的关键词,自动的根据文本生成故事脉络。大致可分为两类:逐步方法和统一方法。逐步方法把故事脉络生成形式化为多个独立的组件:事件检测、故事组装和脉络生成。统一方法用一个模型生成故事脉络。
逐步方法把故事脉络生成形式化为多个独立的组件:事件检测、故事组装和脉络生成。现有技术进行事件检测的方法,一是把社交流建模成动态的微博网络并把网络中的一个类作为一个事件;二是对新闻文本流聚类并把一个类作一个事件。现有技术进行故事组装中,基于语义距离和给定的阈值把事件分配给已经存在的故事。现有技术进行脉络生成中,或者用事件间的Jaccard系数和给定的阈值连接事件并生成故事脉络;或者用自定义的函数,即连接强度,生成故事脉络。
现有技术中统一方法用一个模型生成故事脉络。一是假设一个新闻文章报道故事的一个进展,通过把文章连接到最相关的文章生成故事脉络。二是用无监督的隐变量模型在新闻文本流中建模故事在连续时间的发展过程。三是构造一个基于非负矩阵分解的主题模型并用该模型从微博流中追踪故事在连续时间的发展过程。
然而,现有技术基于用户查询的故事脉络生成方法强依赖于用户指定的查询,这使得该类方法的使用受到一定的局限。而自动的故事脉络生成方法逐步方法中,若两个事件间的相似度大于给定的阈值,连接两个事件,然后设定一个合理的阈值很困难,并且这种相似度计算方式不客观,难以获得真实的结果。社交网络数据较新闻文本有独特的特征,基于新闻文本的故事脉络生成方法在社交网络数据中不能得到承诺的效果。而统一方法中单个微博不包含事件的所有关键元素(例地点和参与者),因此统一方法不能直接应用到社交网络中,以及不能连接有较长时间跨度的事件。
发明内容
为解决上述问题,本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。该方法主要包括三个步骤。首先,从微博流中检测强相关的事件;然后,通过关联事件组装故事;最后,生成并展示每个故事的故事脉络。本发明的社交网络中基于事件关联的故事脉络生成方法中事件脉络更清晰,可视化效果更好,可以更优的应用到社交网络中帮助用户理解事件的发展过程。
附图说明
图1为本发明的处理流程图;
图2为本发明一实施例的处理流程步骤。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种在社交网络中基于事件关联的故事脉络生成方法。如图1所示为本发明的处理流程图,该流程主要包括三个阶段。首先进行事件检测,从微博流中检测强相关的事件;然后通过关联事件组装故事;最后生成并展示每个故事的故事脉络。
如图2所示为一实施例的处理流程步骤:
步骤1,每十分钟检测一次事件;
步骤2,用DBSCAN对数据集预聚类,得到预聚类结果P;
步骤3,根据预聚类结果初始化LDA,并进行精细聚类.一个类对应一个故事。
步骤4,为每个故事生成一个故事脉络。首先构造故事骨架;再提取故事摘要。
需要设置的参数包括DBSCAN需要的参数半径radius和最小点数minpts。LDA需要的超参数alpha、beta和故事(主题)数storynumber。
参数的默认值如下所示:
DBSCAN:0.65<radius≤0.75,2≤minpts≤4
LDA:alpha=0.1,beta=0.03,50≤storynumber<450
本发明首先使用一种适合短文本且能检测强相关事件的事件检测算法检测事件;然后通过用隐式语义信息关联事件来组装故事;最后为每个故事生成一个故事脉络。故事脉络即可以帮助用户捕捉一个故事的大意,也可以浏览故事中详细的发展过程。
事件检测阶段中,根据事件中的微博集合必须强相关的假设从微博流中检测事件。首先从微博中获得一个关键词图用于保留微博的关键信息;然后使用关键词图中的k-clique过滤事件的关键词集合;最后根据事件的关键词识别其它的事件特征,即时间、地点、参与者、描述和微博集合。
本发明用基于图的方法从微博流中检测事件,从Ring系统下载微博数据,采用IKAnalyzer分词并去除停用词。事件检测由关键词发现,关键词社区抽取,事件特征识别三个步骤组成。
在关键词发现中,本发明用异常词检测方法检测包含不寻常模式的关键词并获得关键词图。
在关键词社区抽取中,单个关键词不足以包含事件的全部内容,共现且强相关的关键词集合会增加事件的内容覆盖面。因此本发明用重叠的社区检测算法过滤关键词社区并把一个社区作为一个事件的关键词集合。
在事件特征识别中,根据事件的关键词识别事件的其它特征,即时间、地点、参与者、描述和微博集合。时间表示该事件被检测的时间,通常设置为10分钟。微博集合中的微博必须包含事件的所有关键词。描述是从该事件的微博集合中提取的一句包含关键词最多的句子。对该事件的微博分词并得到所有的命名实体,即地点,人物和组织。地点指命名实体中最频繁出现的地点。参与者指命名实体中所有人物和组织。
故事组装阶段中,根据主题对事件分组,并把事件组装成故事。首先,基于事件的隐式语义特征聚类,并把一个类作为一个故事;然后,根据故事中的事件集合标识其它的故事特征,即时间、地点、参与者和关键词。
本发明使用基于隐式语义特征的方法组装故事。首先进行故事构造,使用一个改良的LDA对事件分组,所述LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为主题模型。并把一个分组作为一个故事;然后进行故事特征识别,根据故事中的事件集合标识其它的故事特征,即时间、地点、参与者和关键词。
故事构造中,LDA可以捕捉事件的隐式语义特征。观察发现相同主题下的事件倾向于有更多的共有的词。这个先验知识可以极大的减少LDA的搜索空间。本发明首先使用DBSCAN进行预聚类,然后根据预聚类结果初始化LDA并进行精细聚类。
在预聚类中,使用DBSCAN进行预聚类。首先为每个事件e构造词向量we。we,k=1,当第k个词在事件e中时;we,k=0,在其它任何条件下。然后把词向量做为输入,用DBSCAN把事件聚类到预聚类结果P中,其中P={p1,p2,...,pI}并且pi是一个包含一个事件集合的预聚类。DBSCAN中使用的聚类函数如下所示:
dis(ei,ej)=1-cosine(wei,wej)
在精细聚类中,根据DBSCAN的预聚类结果P初始化LDA,相同预聚类中的事件中的词被分配到相同的主题中。然后对LDA进行Gibbs抽样,并根据事件的主题向量把事件分配到故事中。本发明认为一个事件只能属于一个故事,因此事件被分配到有最高概率的故事中。
在故事特征识别中,为方便用户查询故事,本发明根据该故事的事件集合识别故事特征。首先,故事的开始时间和结束时间分别被赋值为事件集合中的最早时间和最晚时间;然后地点、参与者和关键词集合是相应的事件特征的并集。
故事脉络生成阶段中,为每个故事生成故事脉络。用事件有向无环图和故事摘要可视化故事脉络。首先,用弱联通分量和最大生成树构造一个有向无环图;然后提取故事的摘要。故事脉络即可以帮助用户捕捉故事的大意,也可以浏览故事中详细的发展过程。
故事骨架由一个事件有向无环图表示。首先,计算任意两事件间的有向边(公式2)并生成一个事件图;然后构造事件图的弱联通分量集合;最后为每个弱联通分量构造最大生成树。故事的骨架由多个最大生成树表示。
w(ei,ej)=I(Tei,Tej)·siml(ei,ej)·(cp·simp(ei,ej)+cc·simc(ei,ej))
(2)
其中,ei和ej表示两个事件;I(Tei,Tej)表示两事件的时间关系;siml、simp和simc表示两个事件间地点、参与者和关键词间的相似度。cp和cc是这些相似度的权重系数,且满足cp+cc=1。
I(Tei,Tej)=1,当Tei<Tej时;I(Tei,Tej)=0,在其它情况下。siml(ei,ej)=1,当两个事件的地点Lei等于Lej时;siml(ei,ej)=0.5,当地点Lei地理上属于Lej时;siml(ei,ej)=0,在其它情况下。simp(ei,ej)表示两个事件的参与者Pei和Pej的Jaccard系数。simc(ei,ej)表示两个事件的关键词Cei和Cej的Jaccard系数。
故事摘要提取中,从故事内事件的描述中提取一些句子用于表示故事摘要。首先,为每个最大生成树生成摘要;然后这些摘要合并起来表示故事摘要。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种在社交网络中基于事件关联的故事脉络生成方法,包括三个步骤,步骤1,从微博流中检测强相关的事件;步骤2,然后通过关联事件组装故事;步骤3,生成并展示每个故事的故事脉络;
在步骤1中,事件检测由关键词发现,关键词社区抽取,事件特征识别三个步骤组成;在步骤2中,包括故事组装和故事特征识别步骤,根据主题对事件分组,并把事件组装成故事,首先,基于事件的隐式语义特征聚类,并把一个类作为一个故事;然后,根据故事中的事件集合标识其它的故事特征,所述标识其它的故事特征包括时间、地点、参与者和关键词;在步骤3中,包括故事骨架构造和故事摘要提取步骤,为每个故事生成故事脉络,用事件有向无环图和故事摘要可视化故事脉络,用弱联通分量和最大生成树构造一个有向无环图,然后提取故事的摘要。
2.如权利要求1所述的方法,其特征在于,在步骤1中,在所述关键词发现步骤中,采用异常词检测方法检测包含不寻常模式的关键词并获得关键词图;在关键词社区抽取步骤中,采用重叠的社区检测算法过滤关键词社区并把一个社区作为一个事件的关键词集合;在事件特征识别步骤中,根据事件的关键词识别事件的其它特征,所述识别事件的其它特征包括时间、地点、参与者、描述和微博集合,所述时间表示该事件被检测的时间,微博集合中的微博包含事件的所有关键词,所述地点为命名实体中最频繁出现的地点,所述参与者为命名实体中所有人物和组织。
3.如权利要求1所述的方法,其特征在于,在步骤2的故事构造步骤中,LDA捕捉事件的隐式语义特征,观察发现相同主题下的事件倾向于有更多的共有的词,首先进行预聚类,然后根据预聚类结果初始化LDA并进行精细聚类,在所述精细聚类中,根据预聚类结果初始化LDA,相同预聚类中的事件中的词被分配到相同的主题中,然后对LDA进行抽样,并根据事件的主题向量把事件分配到故事中;在所述故事特征识别步骤中,根据该故事的事件集合识别故事特征,首先将故事的开始时间和结束时间分别被赋值为事件集合中的最早时间和最晚时间,然后将地点、参与者和关键词集合作为相应的事件特征的并集。
4.如权利要求1所述的方法,其特征在于,在步骤3的故事骨架构造中,将故事骨架表示为一个事件有向无环图,首先计算任意两事件间的有向边并生成一个事件图,然后构造事件图的弱联通分量集合;最后为每个弱联通分量构造最大生成树;然后进行故事摘要提取,从故事内事件的描述中提取一些句子用于表示故事摘要; 首先为每个最大生成树生成摘要,然后将所述摘要合并起来表示故事摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067320.7A CN108280772B (zh) | 2018-01-24 | 2018-01-24 | 社交网络中基于事件关联的故事脉络生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067320.7A CN108280772B (zh) | 2018-01-24 | 2018-01-24 | 社交网络中基于事件关联的故事脉络生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280772A CN108280772A (zh) | 2018-07-13 |
CN108280772B true CN108280772B (zh) | 2022-02-18 |
Family
ID=62804945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810067320.7A Active CN108280772B (zh) | 2018-01-24 | 2018-01-24 | 社交网络中基于事件关联的故事脉络生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280772B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382276B (zh) * | 2018-12-29 | 2023-06-20 | 中国科学院信息工程研究所 | 一种事件发展脉络图生成方法 |
CN110287999B (zh) * | 2019-05-28 | 2021-05-28 | 清华大学 | 基于隐变量模型的故事生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447026A (zh) * | 2014-08-27 | 2016-03-30 | 南京理工大学常熟研究院有限公司 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
CN105787121A (zh) * | 2016-03-25 | 2016-07-20 | 大连理工大学 | 一种基于多故事线的微博事件摘要提取方法 |
CN106202487A (zh) * | 2016-07-19 | 2016-12-07 | 西北工业大学 | 基于用户发帖行为模式的多线索社会事件总结方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990065B2 (en) * | 2011-01-11 | 2015-03-24 | Microsoft Technology Licensing, Llc | Automatic story summarization from clustered messages |
US9817908B2 (en) * | 2014-12-29 | 2017-11-14 | Raytheon Company | Systems and methods for news event organization |
-
2018
- 2018-01-24 CN CN201810067320.7A patent/CN108280772B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447026A (zh) * | 2014-08-27 | 2016-03-30 | 南京理工大学常熟研究院有限公司 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
CN105787121A (zh) * | 2016-03-25 | 2016-07-20 | 大连理工大学 | 一种基于多故事线的微博事件摘要提取方法 |
CN106202487A (zh) * | 2016-07-19 | 2016-12-07 | 西北工业大学 | 基于用户发帖行为模式的多线索社会事件总结方法 |
Non-Patent Citations (4)
Title |
---|
中文微博故事线生成方法;李培等;《中文信息学报》;20160515(第03期);全文 * |
基于事件要素的组合模型微博热点事件摘要提取;李纲等;《图书情报工作》;20180108(第01期);全文 * |
基于社交媒体的事件感知与多模态事件脉络生成;徐程浩等;《计算机科学》;20170615;全文 * |
微博事件感知与脉络呈现系统;欧阳逸等;《浙江大学学报(工学版)》;20160630(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108280772A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Filtering out the noise in short text topic modeling | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
US9213997B2 (en) | Method and system for social media burst classifications | |
US20080168070A1 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
EP3918758A1 (en) | Real-time event detection on social data streams | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
CN103313248B (zh) | 一种识别垃圾信息的方法和装置 | |
CN108874777A (zh) | 一种文本反垃圾的方法及装置 | |
US10135723B2 (en) | System and method for supervised network clustering | |
KR102086248B1 (ko) | 소셜 네트워크에서의 그래프 기반 이벤트 검출 방법, 및 소셜 네트워크에서의 그래프 기반 이벤트 검출 시스템 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN109726402B (zh) | 一种文档主题词自动提取方法 | |
CN114896305A (zh) | 一种基于大数据技术的智慧互联网安全平台 | |
Sun et al. | Efficient event detection in social media data streams | |
Sapul et al. | Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms | |
Tembhurnikar et al. | Topic detection using BNgram method and sentiment analysis on twitter dataset | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN108280772B (zh) | 社交网络中基于事件关联的故事脉络生成方法 | |
Sheeba et al. | A fuzzy logic based on sentiment classification | |
Girish et al. | Extreme event detection and management using twitter data analysis | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
WO2017088126A1 (zh) | 获取未登录词的方法与装置 | |
CN113868508B (zh) | 写作素材查询方法、装置、电子设备和存储介质 | |
CN115774797A (zh) | 视频内容检索方法、装置、设备和计算机可读存储介质 | |
CN112464653A (zh) | 一种基于通信短信的实时事件识别和匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |