CN110502703A - 基于字符串字典构建的社交网络突发事件检测方法 - Google Patents
基于字符串字典构建的社交网络突发事件检测方法 Download PDFInfo
- Publication number
- CN110502703A CN110502703A CN201910631329.0A CN201910631329A CN110502703A CN 110502703 A CN110502703 A CN 110502703A CN 201910631329 A CN201910631329 A CN 201910631329A CN 110502703 A CN110502703 A CN 110502703A
- Authority
- CN
- China
- Prior art keywords
- word
- character string
- emergency event
- significant character
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000012552 review Methods 0.000 claims abstract description 3
- 230000011218 segmentation Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于字符串字典构建的社交网络突发事件检测方法。为了利用微博标签的特点和中文标题标记的特点,抽取微博话题标签和中文标题中的有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算,突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上,进一步建立了突发事件的计算热点模型,利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。
Description
技术领域
本发明属于事件检测领域中的短文本突发事件检测技术,主要涉及突发词检测、突发词聚类和突发事件排序技术,实现社交网络突发事件的检测。
背景技术
微博作为一种实时互动的社交网络媒体,为用户提供了一个自由发布内容和交换信息的平台。它已经成为人们揭露事件、表达意见和分享经验的首选媒体。很多真实世界的事件都是首先在微博上曝光,再由传统主流媒体报道,比如2018年的滴滴风车事件和重庆公交车坠河事件。基于微博的突发事件检测已成为数据挖掘和机器学习领域的研究热点。
然而,从社交网络上发现突发事件还存在一些挑战。首先,微博帖子通常很短,内容也很丰富,如何从帖子中有效提取事件是极具挑战性的。其次,在微博上有很多普遍的、无意义的噪声,如日常会话等。如何过滤这些噪声是一个很重要的问题。第三,由于不同的事件可能有一些共享的主题组件,所以不同事件之间的相似性很高。如何区分不同的事件也是一个棘手的问题。因此,区分突发事件和非突发内容值得研究。
发明内容
提出了一种基于字符串字典构建的社交网络突发事件检测方法。为了利用社交网络微博标签的特点和中文标题标记的特点,抽取微博话题标签和中文标题中有意义的字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算,突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上,进一步建立了突发事件的计算热点模型,利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。
构建一个有意义字符串字典以利用微博标签的特点和中文标题标记的特点。提取“#”与“引号”之间的有意义字符串,作为汉语分词的一种启发式方法。结合有意义字符串字典和突发词得分的计算,用以检测突发词,以提取与突发事件更相关、描述性更强的词汇。提出一种基于字符串字典构建的社交网络突发事件检测方法,该方法具有更高的准确性,描述事件更清晰易懂。
附图说明
图1为方法流程图
具体实施方式
为使本发明的目的、技术方案及算法优点更加清楚明白,下面参照附图对本发明做进一步详细地说明。
我们的突发事件检测方法分为两部分:基于意义字符串字典的突发词检测、突发词聚类与突发事件排序。
1、基于有意义字符串字典的突发词检测
基于有意义字符串字典的突发词检测包括两个部分:有意义字符串字典的构建和突发词得分的计算。为了提高突发性词检测的性能,采用一对“#”和一对引号之间的有意义字符串作为汉语分词的启发式方法,计算突发性词得分后对它们进行加权。在计算词的突发项得分时,减少评语数量的影响和权衡较长的词也是两个增强技巧。有意义字符串提取步骤如下:
步骤一:对于博文数据集中的每一篇博文,使用正则表达式抽取博文中的hashtags和标题,将hashtags/标题加入集合HT;
步骤二:对于集合HT中每一个hashtag/标题,将hashtag/标题分割成词,过滤停用词并将余下词加入集合W;
步骤三:将W中在HT中毗连的词连接起来直到没有任意两个词毗连得到有意义串字典MSD。
构造有意义字符串字典。从博文中的标签和标题中提取有意义的字符串来构造一个有意义字符串字典。标签是用户在微博中创建的以“#”对标记的字符串,能够有效地反映用户的意图,在微博中通常作为独立的有意义的部分。一些用“《”和“》”或“【”和“】”标记的字符串通常用中文表示标题。它们通常被用作文章的摘要或主题。我们将较长的标签和标题按停止字分开,以获得有意义字符串。然后将它们添加到自定义的“结巴”词典中,用于汉语分词。
计算突发词得分。从博文中选取所有单词作为候选单词的集合。词wi的突发性得分约为三个指标。假设当前突发事件检测的时间片为k(e.g.,2011-12-12),则选取之前p个时间片的历史数据作为参考。在计算一个单词的突发性得分时,将历史数据的标准方差引入分母中,更容易提取在过去时间段变化平缓,但当前时间段突发性强的词。
词wi在第k个时间片的频率突发得分定义如式(1)所示:
其中,是词wi在第k个时间片中出现的频率;p个时间片内的均值p个时间片内的方差如果wi出现在MSD中,应用平方函数对分数进行加权。出现在MSD中的这个词更有表现力,经常用于突发事件描述。
关联用户的突发性得分,即与wi在第k个时间片关联的用户突发性定义如式(2)所示:
其中,为k时间段,提及词wi的不同用户的数量;在p个时间片内的均值 在p个时间片内的方差
关联博文的突发性得分,词wi在第k个时间片的关联博文突发性得分定义如式(3)所示:
其中,为k时间段,提及词wi的博文的累计评论数;在p个时间片内的平均值 在p时间片内的方差根据热门话题和突发事件的不同,我们使用对数函数对平滑后的得分进行加权。因此,我们更加关注关联用户和关联博文的突发性,以获得更好的抗热点噪声鲁棒性。
结合以上三个指标,词wi在第k个时间片中的突发性得分如式(4)所示:
其中,α、β、γ分别是其对应指标的权重,len(wi)是词wi的长度。词越长,它的语义越完整。
在计算出每个词的突发性评分后,采用四分位差分法选择m个突发性词。首先,根据单词的突发性得分按降序排列单词,以获得突发性单词集EW。四分位差的距离计算方法如式(5)所示:
IQS(EW)=Q3(EW)-Q1(EW) (5)
其中,Q1是第一个四分位数,Q3是第三个四分位数。当单词的突发性评分大于某一阈值时,将其视为突发性单词,阈值的计算方法如式(6)所示:
threshold(EW)=Q3(EW)+1.5×IQS(EW) (6)
2、突发词聚类与突发事件排序
采用聚类分层聚类的方法对检测得到的前m个突发词进行聚类,得到候选词簇EWC。突发事件表现为词簇,突发事件的得分和三个指标有关。
累计词频得分:
其中,f(w)是词w在ewci中的频率。
关联用户得分:
UN(ewci)=usernum(ewci) (8)
其中,usernum(ewci)是提到词簇ewci用户数量。我们利用线性函数对用户的权重评分。每个用户都扮演着重要的角色,因为他们的帖子可以成为互联网上的一个传输节点。
关联博文热度得分:
其中,fcrnum(ewci)是和词簇ewci相关联的累计评论数。
结合上述三个指标,一个词簇的得分为:
Score(ewci)=F(wi)+UN(ewci)+MBI(ewci) (10)
在计算每个词簇的得分后,选取得分前K个词簇作为top K的突发事件。
Claims (3)
1.基于字符串字典构建的社交网络突发事件检测方法,其特征在于,利用微博标签的特点和中文标题标记的特点,抽取微博话题标签和中文标题中的有意义字符串作为作为一种启发式方法用于中文分词。结合有意义字符串字典和突发词得分的计算,突发词检测考虑了有意义字符串、单词长度、单词频率、关联用户和评论数量等因素。在此基础上,进一步建立了突发事件的计算热点模型,利用突发事件的词频、关联用户和关联帖子的热度等指标对突发事件进行排序。
2.根据权利要求1所述的方法,其特征在于,利用微博标签的特点和中文标题标记的特点,提取“#”与“引号”之间的有意义字符串,作为汉语分词的一种启发式方法。
3.根据权利要求1所述的方法,其特征在于,结合有意义字符串字典和突发词得分的计算,用以检测突发词,以提取与突发事件更相关、描述性更强的词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631329.0A CN110502703A (zh) | 2019-07-12 | 2019-07-12 | 基于字符串字典构建的社交网络突发事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631329.0A CN110502703A (zh) | 2019-07-12 | 2019-07-12 | 基于字符串字典构建的社交网络突发事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502703A true CN110502703A (zh) | 2019-11-26 |
Family
ID=68585392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631329.0A Pending CN110502703A (zh) | 2019-07-12 | 2019-07-12 | 基于字符串字典构建的社交网络突发事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502703A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
US20150120788A1 (en) * | 2013-10-28 | 2015-04-30 | Xerox Corporation | Classification of hashtags in micro-blogs |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN106294336A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种用于微博的突发特征检测方法及装置 |
CN107133317A (zh) * | 2017-05-03 | 2017-09-05 | 成都云数未来信息科学有限公司 | 一种基于新词的网络舆情主题抽取方法 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
-
2019
- 2019-07-12 CN CN201910631329.0A patent/CN110502703A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
US20150120788A1 (en) * | 2013-10-28 | 2015-04-30 | Xerox Corporation | Classification of hashtags in micro-blogs |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN106294336A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种用于微博的突发特征检测方法及装置 |
CN107133317A (zh) * | 2017-05-03 | 2017-09-05 | 成都云数未来信息科学有限公司 | 一种基于新词的网络舆情主题抽取方法 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN109325117A (zh) * | 2018-08-24 | 2019-02-12 | 北京信息科技大学 | 一种多特征融合的微博中社会安全事件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105786991B (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
Ma et al. | Detect rumors in microblog posts using propagation structure via kernel learning | |
US10303731B2 (en) | Social-based spelling correction for online social networks | |
CN103886034B (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
US9703859B2 (en) | Keyword search queries on online social networks | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN107291684B (zh) | 语言文本的分词方法和系统 | |
CN109255033A (zh) | 一种基于位置服务领域的知识图谱的推荐方法 | |
CN103313248B (zh) | 一种识别垃圾信息的方法和装置 | |
CN111949848B (zh) | 一种基于特定事件的跨平台传播态势评估及分级方法 | |
CN107203520A (zh) | 酒店情感词典的建立方法、评论的情感分析方法及系统 | |
CN106202252A (zh) | 一种基于用户情绪分析的出行推荐方法、系统 | |
Alawneh et al. | Sentiment analysis-based sexual harassment detection using machine learning techniques | |
Long et al. | Turbulent flow: A computational model of world literature | |
CN108829661A (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
Forslid et al. | Automatic irony-and sarcasm detection in Social media | |
CN106202200B (zh) | 一种基于固定主题的文本情感倾向性分类方法 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
Yaghoobian et al. | Sarcasm detection: A comparative study | |
Quraishi et al. | Viewpoint discovery and understanding in social networks | |
CN106776678A (zh) | 新的关键词优化实现搜索引擎优化技术 | |
Arviv et al. | It’sa thin line between love and hate: Using the echo in modeling dynamics of racist online communities | |
CN109299463B (zh) | 一种情感得分的计算方法以及相关设备 | |
Wilim et al. | Sentiment Analysis About Indonesian Lawyers Club Television Program Using K-Nearest Neighbor, Naïve Bayes Classifier, And Decision Tree | |
CN106570167A (zh) | 基于融合知识的主题模型的微博话题发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191126 |