CN106874419B - 一种多粒度实时热点聚合方法 - Google Patents
一种多粒度实时热点聚合方法 Download PDFInfo
- Publication number
- CN106874419B CN106874419B CN201710054225.9A CN201710054225A CN106874419B CN 106874419 B CN106874419 B CN 106874419B CN 201710054225 A CN201710054225 A CN 201710054225A CN 106874419 B CN106874419 B CN 106874419B
- Authority
- CN
- China
- Prior art keywords
- weight
- event
- time slice
- participle
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006116 polymerization reaction Methods 0.000 title abstract description 5
- 235000019580 granularity Nutrition 0.000 title abstract 3
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 46
- 238000004220 aggregation Methods 0.000 claims description 19
- 230000002776 aggregation Effects 0.000 claims description 19
- 230000004931 aggregating effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000036651 mood Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 4
- 241001269238 Data Species 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多粒度实时热点聚合方法,包括:对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重;根据各分词的权重计算当前时间片内各事件的权重;对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重;根据各事件簇的权重生成排序后的事件列表。本发明提供的技术方案,提升了最终事件显示结果的粒度、事件的完整性和准确性,方便了用户快速准确地获取热点信息。
Description
技术领域
本发明涉及信息检索技术,尤其涉及一种多粒度实时热点聚合方法。
背景技术
互联网每时每刻都会产生的大量信息,其中有价值、信息量高的信息可视为热点信息,传统的新闻媒体通过人工对这些热点信息进行编辑与发布进而形成新闻,以便于人们及时了解实时信息,把握新鲜资讯。这种通过人工形成新闻的方式,能够保证新闻的准确性,但需要耗费大量时间,在一定意义上牺牲了新闻的实时性与客观性。
而伴随着现代人工智能及自然语言处理技术的发展与兴起,大量处理流式信息文本数据的非人工热点事件检测系统被开发,由机器代替人工,此类系统能够在微博、博客、网页等多源异构海量文本数据中快速发现文本结构异常,进而通过表示学习模型抽取事件表示,形成事件,因此拥有较高的时效性、客观性与准确性。其中一些已经被实现的系统中应用机器学习、深度学习等方法,获得了较为良好的效果。
但由于此类非人工热点事件检测技术仍处于初始应用阶段,很多真实世界中的情况无法预先考虑进来,诸如事件表示类似、同事件不同阶段等情况,会造成时间显示的冗余,影响用户快速准确地获取相关时间段内的热点信息;此外,事件表示不清、事件含义模糊等情况的出现也会影响用户获取热点信息的准确性。
发明内容
本发明提供一种多粒度实时热点聚合方法,用于方便用户快速准确地获取热点信息。
本发明提供一种多粒度实时热点聚合方法,包括:
对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;
对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重;
根据各分词的权重计算当前时间片内各事件的权重,当前时间片位于第一预设时间片内,事件与结构化数据一一对应;
对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重;
根据各事件簇的权重生成排序后的事件列表。
在本发明的一实施例中,结构化数据的属性包括标题和下列属性中的至少一项:时间、地点、人物、关键词、事件类型、情绪;
上述方法还包括:
根据各分词的权重计算当前时间片内结构化数据的各属性的权重,并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。
在本发明的一实施例中,对事件进行聚合具体包括:
根据各事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对事件进行聚合。
在本发明的一实施例中,在根据各分词的权重计算当前时间片内各事件的权重之前,该方法还包括:
对第一预设时间片内的结构化数据进行词性标注;
对各分词进行词性过滤。
在本发明的一实施例中,在根据各分词的权重计算当前时间片内的事件的权重之前,该方法还包括:
计算各分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各分词的权重和词性计算合并后的各分词的权重;
则根据各分词的权重计算当前时间片内各事件的权重,具体包括:
根据合并后的各分词的权重计算当前时间片内各事件的权重。
在本发明的一实施例中,在根据合并后的各分词的权重计算当前时间片内各事件的权重之前,该方法还包括:
删除权重小于第二预设阈值的分词。
在本发明的一实施例中,在对事件进行聚合之前,该方法还包括:
根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。
在本发明的一实施例中,在对事件进行聚合之前,该方法还包括:
对当前时间片内的突发事件的权重进行补偿;突发事件为第二预设时间片内首次出现,且权重大于第三预设阈值的事件,第二预设时间片位于第一预设时间片内,当前时间片位于第二预设时间片内。
在本发明的一实施例中,根据各分词的权重和词性计算合并后的各分词的权重,具体包括:
根据公式(1)计算各分词在结构化数据中的权重;
其中,wordi表示第i个分词,wordj表示第j个分词,表示wordi的权重;表示wordi的词频,表示第i个分词的逆词频,表示wordj的词频,表示wordj的逆词频;表示wordi的来源属性对应的权重,表示wordi的词性对应的权重,表示wordj的来源属性对应的权重,表示wordj的词性对应的权重,numbersimilar表示与wordi的语义相似度大于第一预设阈值的分词的个数。
在本发明的一实施例中,根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力;
其中,event_influenceresidual表示影响力值,hotscoreevent表示历史时间片内与当前分析事件相关的事件的权重,eventnow表示当前分析事件的发生时间,eventend表示历史时间片内与当前分析事件相关的事件的发生时间,weighttype表示事件类型对应的权重。
本发明实施例提供的多粒度实时热点聚合方法,通过对处理后的事件进行聚合,将相同或相似的事件聚合在了一起,提升了最终事件显示结果的粒度,方便了用户快速准确地获取热点信息;通过对事件的数据补全操作,提高了事件的完整性和准确性,进而提高了用户获取热点信息的准确性。
附图说明
图1为本发明提供的多粒度实时热点聚合方法实施例一的流程示意图;
图2为本发明提供的多粒度实时热点聚合方法实施例二的流程示意图;
图3为本发明提供的多粒度实时热点聚合系统的结构示意图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。
图1为本发明提供的多粒度实时热点聚合方法实施例一的流程示意图,本实施例的执行主体可以是多粒度实时热点聚合系统,如图1所示,本实施例提供的方法包括以下步骤:
S101、对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据。
具体的,可以采用分布式爬虫技术采集网络(例如:新浪微博、新浪新闻、网易新闻等)中的流式数据,这些流式数据包括事件、新闻等热点信息。
将采集到流式数据输入系统后,可以首先根据设定的规则对这些数据进行数据清洗工作,以过滤广告数据,清洗垃圾数据;然后可以将其表示为格式统一、属性表明、时间对齐的结构化数据。
另外,由于流式数据输入的来源不同、格式不同,此步骤可能会涉及包括多源异构处理、数据补全等操作在内的多种操作,此处不再详细说明。
S102、对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重。
具体的,本实施例中,选取对一个比较长的时间段(即第一预设时间片)内的结构化数据作为语料库,对这些结构化数据通过分词工具(如:NLPIR汉语分词系统)进行分词;然后计算每个分词在语料库(即所有结构化数据)中的权重,具体可以采用TF-IDF(termfrequency–inverse document frequency)法计算分词的权重。
S103、根据各分词的权重计算当前时间片内各事件的权重。
具体的,事件与结构化数据一一对应,本实施例中,采用谷歌的PageRank网页排名思想,根据各个分词的权重,计算各结构化数据对应的事件的权重。
本实施例中,为了提高事件权重计算结果的准确性,在计算当前时间片内各事件的权重时,采用根据第一时间片内的结构化数据计算出的分词的权重。其中,当前时间片位于第一预设时间片内,即第一时间片的长度大于当前时间片的长度;具体的,当前时间片和第一预设时间片的长度可以根据实际需要设置,本实施例不做特别限定。
S104、对事件进行聚合和数据补全操作,并根据各事件的权重计算聚合后的每个事件簇的权重。
一个完整的事件往往会由诸多不同阶段的小事件组合而成,这些相同事件不同阶段的出现会造成事件显示的冗余,影响用户快速准确地获取相关时间段内的热点事件;且事件表示的模糊也会影响用户对事件的整体认知,不利于用户对事件本质信息的获取与了解,可能会因此促使用户做出有偏差甚至错误的判断,失去了信息的准确性。本实施例中,将相同或相似的事件聚合在一起,加强重点事件的显示,以提升最终事件显示结果的粒度,为用户提供一目了然的信息,同时结合事件簇中的各事件的相关性对表示不清、含义模糊的事件进行数据补全工作,以方便用户快速准确地获取热点信息。
将事件聚合后,会形成一个个的事件簇,每个事件簇中包括至少一个事件,根据各个事件簇中所包含的事件的权重,就可以计算出各个事件簇的权重。
S105、根据各事件簇的权重生成排序后的事件列表。
根据上述步骤中计算出的各个事件簇的权重,就可以对各个事件簇进行排序,最终生成事件列表,使用户可以一目了然的了解对应时间片内的热点信息。
本实施例提供的多粒度实时热点聚合方法,通过对处理后的事件进行聚合,将相同或相似的事件聚合在了一起,提升了最终事件显示结果的粒度,方便了用户快速准确地获取热点信息;通过对事件的数据补全操作,提高了事件的完整性和准确性,进而提高了用户获取热点信息的准确性。
图2为本发明提供的多粒度实时热点聚合方法实施例二的流程示意图,本实施例是对上述图1所示实施例的进一步优化补充,如图2所示,本实施例提供的方法包括以下步骤:
S201、对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据。
具体的,结构化数据包括多个属性,本实施例中,结构化数据的属性包括标题和下列属性中的至少一项:时间、地点、人物、关键词、事件类型、情绪、分类。
S202、对第一预设时间片内的结构化数据进行分词与词性标注,并计算各分词在所有结构化数据中的权重。
本实施例中,在对结构化数据进行分词的同时,进行词性标注,确定每个词是名词、动词、形容词或其他词性;在分词与词性标注后,可以根据分词的TD-IDF值和词性计算各分词的权重。在词性标注过程中,有些词的词性可以是多个,此时,可以根据其实际意义进行进一步的词性修正。
S203、对各分词进行词性过滤。
本实施例中,在对结构化数据进行分词后,可以对各分词进行词性过滤,以剔除低语义词汇(例如:可以、的等分词),提升数据的可读性。
S204、计算各分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各分词的权重和词性计算合并后的各分词的权重。
具体的,可以使用Word2vec来计算各分词的语义相似度,对语义相似度高(大于第一预设阈值)的分词进行合并操作,并统计合并后的各分词的权重。其中,第一预设阈值具体可以根据实际需要设置,此处不做特别限制。本实施例中,从语义角度统计分析流式数据,可以提升最终显示结果的粒度以及热点事件的发现效率。
每个分词或者属性权重的设置将直接影响事件在统计结果中的排名位置,按照TF-IDF法来直接给定分词的权重,虽然能够直观体现该词在时间片内的出现频度,但却缺乏更客观反映该词是否异常的能力(如西风、北风等词语在某一时间片内的词频会大致相等,但台风却小于前两者,当某一台风即将形成或登录时,其词频会接近西风、北风等词,但台风的热度要明显高于前两者)。本实施例中,将权重设置与TF-IDF、分词的词性以及语义分析关联起来,根据设定的公式来动态给予分词一个适当的权重。
根据公式(1)计算各分词在结构化数据中的权重;
其中,wordi表示第i个分词,wordj表示第j个分词,表示wordi的权重;表示wordi的词频,表示第i个分词的逆词频,表示wordj的词频,表示wordj的逆词频;表示wordi的来源属性对应的权重,表示wordi的词性对应的权重,表示wordj的来源属性对应的权重,表示wordj的词性对应的权重,numbersimilar表示与wordi的语义相似度大于第一预设阈值的分词的个数。
上述公式(1)中,的计算可以参见现有的TF-IDF法。以为例,其中,表示wordi的出现次数,表示文件中所有分词的出现次数之和,ntext_total表示语料库中的文件总数,表示包含wordi的文件数目。
需要说明的是,步骤S204与步骤S203之间没有严格的时序关系,其与S203的执行顺序,本实施例不做特别限制。
S205、删除权重小于第二预设阈值的分词。
本实施例中,对于权重小于第二预设阈值的分词,可以删除掉,以提升系统处理速度以及事件的显示粒度。其中,第二预设阈值具体可以根据实际需要设置,此处不做特别限制。
S206、根据合并后的各分词的权重计算当前时间片内各事件的权重。
该步骤与上述图1所示实施例中的步骤S103类似,具体可参考S103的描述,在此不在赘述。
S207、根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。
事件自出现到结束有一段非常明显的推进过程,单峰事件的过程大致符合快速上升到达峰值后缓慢下降的过程,这符合长尾理论,也就表明事件不仅在其发生的时间片内产生影响,同样还对未来时间片内的事件有着随着时间增长而逐渐衰减的影响力。这种残留能够有效提升对应事件后续发展在其相应时间片内的起点,有助于用户进行事件浏览的连续性。据此,本实施例中,根据历史时间片内的事件对当前时间片内的事件的影响力来对当前时间片内的事件的权重进行补偿。
具体的,本实施例中,根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力;
其中,event_influenceresidual表示影响力值,hotscoreevent表示历史时间片内与当前分析事件相关的事件的权重,eventnow表示当前分析事件的发生时间,eventend表示历史时间片内与当前分析事件相关的事件的发生时间,weighttype表示事件类型对应的权重。
在进行补偿时,可以根据离当前时间片最近的若干个(例如:3个)历史时间片中的事件,对当前时间片内的事件的影响力来对当前时间片内的事件的权重进行补偿。当历史时间片中存在多个与当前分析事件相关的事件时,则将该多个事件对当前时间片内的事件的影响力迭加后补偿当前分析事件的权重。
S208、对当前时间片内的突发事件的权重进行补偿。
在某些极端条件下可能出现事件列表被大量长期热点事件占据,而掩盖某些新发生但相对热度不够的事件。为此,本实施例中,将突发性作为参数融合到事件的权重中,以实现确保用户能够及时获取新鲜突发事件。其中,突发事件为第二预设时间片内首次出现,且权重大于第三预设阈值的事件,第二预设时间片位于第一预设时间片内,当前时间片位于第二预设时间片内。
具体的,对于第二预设时间片内首次出现的,热度很高(权重大于第三预设阈值)的事件,认为其为突发事件,可以将其权重乘以一个大于1的补偿系数,以对突发事件的权重进行补偿。其中,第二预设时间片和第三预设阈值具体可以根据实际需要设置,此处不做特别限制。
需要说明的是,该步骤S208与步骤S207之间没有严格的时序关系,其可以在S207之后执行,也可以在S207之前执行,还可以与S207同时执行,具体执行顺序本实施例不做特别限制。
S209、根据各事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重。
本实施例中,以事件对应的结构化数据中的标题以及各属性形成的七元组为基础,计算各事件的标题间的文本编辑距离以及七元组间的语义相似度,并通过事件簇中各事件的时间轴分布计算事件的发生时间距离对七元组间的语义相似度的权值的影响,将三者加权后得到各事件间的相似度,将相似度大于一定阈值的事件聚合在一个事件簇中;最后再根据各事件簇中所包含的事件的权重,计算各个事件簇的权重。
S210、根据各事件簇的权重生成排序后的事件列表。
根据上述步骤中计算出的各个事件簇的权重,就可以对各个事件簇进行排序,最终生成事件列表,使用户可以一目了然的了解对应时间片内的热点信息。
S211、根据各分词的权重计算当前时间片内结构化数据的各属性的权重,并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。
具体的,如上所述,结构化数据包括地点、人物等多个属性。为了方便用户更加快速准确地获取信息,本实施例中,在计算事件的权重的同时,计算结构化数据的各属性的权重,然后基于各属性生成多属性列表,例如:地点列表、人物列表等。
本实施例提供的多粒度实时热点聚合方法,从语义角度统计分析流式数据,提升了最终显示结果的粒度,同时也提升了用户发现热点事件的效率;在生成事件列表的同时,基于各属性生成多属性列表,也方便了用户更加快速准确地获取热点信息。
图3为本发明提供的多粒度实时热点聚合系统的结构示意图,如图3所示,本实施例提供的系统包括:预处理模块10、数据处理模块20和列表生成模块30,其中:
预处理模块10,用于对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;
数据处理模块20,用于对第一预设时间片内的结构化数据进行分词,并计算各分词在所有结构化数据中的权重;
数据处理模块20,还用于根据各分词的权重计算当前时间片内各事件的权重,然后对事件进行聚合,并根据各事件的权重计算聚合后的每个事件簇的权重;其中,当前时间片位于第一预设时间片内,事件与结构化数据一一对应;
列表生成模块30,用于根据各事件簇的权重生成排序后的事件列表。
可选的,结构化数据的属性包括标题和下列属性中的至少一项其他属性:时间、地点、人物、关键词、事件类型、情绪;
则列表生成模块30,还用于根据各分词的权重计算当前时间片内结构化数据的各属性的权重,并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。
作为本发明一种具体的实施方式,在对事件进行聚合方面,数据处理模块20具体用于:
根据各事件对应的结构化数据的标题间的文本编辑距离、其他属性的语义相似度和各事件的时间轴分布,对事件进行聚合。
作为本发明一种可选的实施方式,数据处理模块20还用于在根据各分词的权重计算当前时间片内各事件的权重之前,对第一预设时间片内的结构化数据进行词性标注;对各分词进行词性过滤。
进一步的,数据处理模块20还用于在根据各分词的权重计算当前时间片内的事件的权重之前,计算各分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各分词的权重和词性计算合并后的各分词的权重;
则在根据各分词的权重计算当前时间片内各事件的权重方面,数据处理模块20具体用于:
根据合并后的各分词的权重计算当前时间片内各事件的权重。
进一步的,数据处理模块20还用于在根据合并后的各分词的权重计算当前时间片内各事件的权重之前,删除权重小于第二预设阈值的分词。
作为本发明一种可选的实施方式,数据处理模块20还用于在对事件进行聚合之前,根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。
作为本发明一种可选的实施方式,数据处理模块20还用于在对事件进行聚合之前,对当前时间片内的突发事件的权重进行补偿;突发事件为第二预设时间片内首次出现,且权重大于第三预设阈值的事件,第二预设时间片位于第一预设时间片内,当前时间片位于第二预设时间片内。
作为本发明一种具体的实施方式,在根据各分词的权重和词性计算合并后的各分词的权重方面,数据处理模块20具体用于:
根据公式(1)计算各分词在结构化数据中的权重;
其中,wordi表示第i个分词,wordj表示第j个分词,表示wordi的权重;表示wordi的词频,表示第i个分词的逆词频,表示wordj的词频,表示wordj的逆词频;表示wordi的来源属性对应的权重,表示wordi的词性对应的权重,表示wordj的来源属性对应的权重,表示wordj的词性对应的权重,numbersimilar表示与wordi的语义相似度大于第一预设阈值的分词的个数。
作为本发明一种具体的实施方式,数据处理模块20具体用于根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力;
其中,event_influenceresidual表示影响力值,hotscoreevent表示历史时间片内与当前分析事件相关的事件的权重,eventnow表示当前分析事件的发生时间,eventend表示历史时间片内与当前分析事件相关的事件的发生时间,weighttype表示事件类型对应的权重。
本实施例提供的系统可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种多粒度实时热点聚合方法,其特征在于,包括:
对输入的流式数据进行数据清洗处理,并将处理后的流式数据表示为结构化数据;
对第一预设时间片内的结构化数据进行分词,并计算各所述分词在所有结构化数据中的权重;
根据各所述分词的权重计算当前时间片内各事件的权重,所述当前时间片位于所述第一预设时间片内,所述事件与所述结构化数据一一对应;
对所述事件进行聚合,并根据各所述事件的权重计算聚合后的每个事件簇的权重;
根据各所述事件簇的权重生成排序后的事件列表;
其中,在所述根据各所述分词的权重计算当前时间片内各事件的权重之前,所述方法还包括:
计算各所述分词的语义相似度,对语义相似度大于第一预设阈值的分词进行合并操作,并根据各所述分词的权重和词性计算合并后的各分词的权重;
所述根据各所述分词的权重和词性计算合并后的各分词的权重,具体包括:
根据公式(1)计算各所述分词在所述结构化数据中的权重;
其中,wordi表示第i个分词,wordj表示第j个分词,表示wordi的权重;表示wordi的词频,表示第i个分词的逆词频,表示wordj的词频,表示wordj的逆词频;表示wordi的来源属性对应的权重,表示wordi的词性对应的权重,表示wordj的来源属性对应的权重,表示wordj的词性对应的权重,numbersimilar表示与wordi的语义相似度大于第一预设阈值的分词的个数。
2.根据权利要求1所述的方法,其特征在于,所述结构化数据的属性包括标题和下列属性中的至少一项:时间、地点、人物、关键词、事件类型、情绪;
所述方法还包括:
根据各所述分词的权重计算当前时间片内结构化数据的各属性的权重,并根据所述结构化数据的各属性的权重基于各属性生成排序后的属性列表。
3.根据权利要求2所述的方法,其特征在于,所述对所述事件进行聚合具体包括:
根据各所述事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对所述事件进行聚合。
4.根据权利要求1所述的方法,其特征在于,在所述根据各所述分词的权重计算当前时间片内各事件的权重之前,所述方法还包括:
对第一预设时间片内的结构化数据进行词性标注;
对各所述分词进行词性过滤。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述分词的权重计算当前时间片内各事件的权重,具体包括:
根据所述合并后的各分词的权重计算当前时间片内各事件的权重。
6.根据权利要求5所述的方法,其特征在于,在所述根据所述合并后的各分词的权重计算当前时间片内各事件的权重之前,所述方法还包括:
删除权重小于第二预设阈值的分词。
7.根据权利要求1-6任一项所述的方法,其特征在于,在所述对所述事件进行聚合之前,所述方法还包括:
根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。
8.根据权利要求1-6任一项所述的方法,其特征在于,在所述对所述事件进行聚合之前,所述方法还包括:
对当前时间片内的突发事件的权重进行补偿;所述突发事件为第二预设时间片内首次出现,且权重大于第三预设阈值的事件,所述第二预设时间片位于所述第一预设时间片内,所述当前时间片位于所述第二预设时间片内。
9.根据权利要求7所述的方法,其特征在于,根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力;
其中,event_influenceresidual表示影响力值,hotscoreevent表示历史时间片内与当前分析事件相关的事件的权重,eventnow表示当前分析事件的发生时间,eventend表示历史时间片内与当前分析事件相关的事件的发生时间,weighttype表示事件类型对应的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054225.9A CN106874419B (zh) | 2017-01-22 | 2017-01-22 | 一种多粒度实时热点聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054225.9A CN106874419B (zh) | 2017-01-22 | 2017-01-22 | 一种多粒度实时热点聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106874419A CN106874419A (zh) | 2017-06-20 |
CN106874419B true CN106874419B (zh) | 2019-09-10 |
Family
ID=59159221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710054225.9A Active CN106874419B (zh) | 2017-01-22 | 2017-01-22 | 一种多粒度实时热点聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874419B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446296B (zh) * | 2018-01-24 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种信息处理方法及装置 |
CN110795026B (zh) * | 2018-08-03 | 2021-04-27 | 杭州海康威视系统技术有限公司 | 热点数据的识别方法、装置、设备及存储介质 |
CN110083626B (zh) * | 2019-03-29 | 2021-08-31 | 奇安信科技集团股份有限公司 | 流式事件序列匹配方法及装置 |
CN110097886B (zh) * | 2019-04-29 | 2021-09-10 | 贵州小爱机器人科技有限公司 | 意图识别方法及装置、存储介质、终端 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
-
2017
- 2017-01-22 CN CN201710054225.9A patent/CN106874419B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
CN105138577A (zh) * | 2015-07-30 | 2015-12-09 | 成都布林特信息技术有限公司 | 一种基于大数据的事件演化分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106874419A (zh) | 2017-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874419B (zh) | 一种多粒度实时热点聚合方法 | |
CN105389349A (zh) | 词典更新方法及装置 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN105389389B (zh) | 一种网络舆情传播态势媒体联动分析方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN102779119B (zh) | 一种抽取关键词的方法及装置 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN111125297B (zh) | 一种基于搜索引擎的海量离线文本实时推荐方法 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
Zheng et al. | Architecture Descriptions Analysis Based on Text Mining and Crawling Technology | |
CN109871429A (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
CN109902230A (zh) | 一种新闻数据的处理方法及装置 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN115455975A (zh) | 基于多模型融合决策提取主题关键词的方法及装置 | |
CN110069703B (zh) | 一种基于特征增强的微博话题检测方法 | |
KR102275095B1 (ko) | 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |