CN111767404A - 一种事件挖掘方法和装置 - Google Patents
一种事件挖掘方法和装置 Download PDFInfo
- Publication number
- CN111767404A CN111767404A CN202010672732.0A CN202010672732A CN111767404A CN 111767404 A CN111767404 A CN 111767404A CN 202010672732 A CN202010672732 A CN 202010672732A CN 111767404 A CN111767404 A CN 111767404A
- Authority
- CN
- China
- Prior art keywords
- text
- event
- sub
- target
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000005065 mining Methods 0.000 title claims abstract description 65
- 238000013507 mapping Methods 0.000 claims abstract description 104
- 230000000737 periodic effect Effects 0.000 claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 111
- 238000012549 training Methods 0.000 claims description 51
- 238000013145 classification model Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 abstract description 21
- 239000000284 extract Substances 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种事件挖掘方法和装置;本申请可以从文本数据集中提取多个参考文本;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以实现周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种事件挖掘方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网在人们的日常生活和工作学习中发挥的作用也越来越大,人们经常通过互联网来搜索各种资讯信息。在每年特定的时间段都会发生一些特定的活动或事件,例如高考、节假日和一些固定年度赛季等,即使具体每年事件发生的确切日期不一定一样,但在这些事件发生的前、中、后等不同时间段,用户在搜索引擎中对这些事件的搜索行为会表现出有规律的周期性特点,产品运营人员会对这些周期性事件加以运营。
在目前的相关技术中,一般基于人工经验的方式,收集一些典型的周期性事件词,这样挖掘的效率太低,而且挖掘结果准确率相对较低。
发明内容
本申请实施例提供一种事件挖掘方法和装置,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
本申请实施例提供一种事件挖掘方法,包括:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
相应的,本申请实施例提供一种事件挖掘装置,包括:
提取单元,用于从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
分类单元,用于对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
聚类单元,用于对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析单元,用于分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
判别单元,用于基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,在本申请的一些实施例中,所述分类单元可以包括获取子单元、卷积子单元、预测子单元和第一确定子单元,如下:
所述获取子单元,用于获取各个参考文本对应的词向量;
卷积子单元,用于对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
预测子单元,用于基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
第一确定子单元,用于根据所述概率,从所述多个参考文本中确定事件文本集。
可选的,在本申请的一些实施例中,所述分类单元具体可以用于通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
可选的,在本申请的一些实施例中,所述分类单元还可以包括训练子单元,如下:
所述训练子单元,用于获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。
可选的,在本申请的一些实施例中,所述聚类单元可以包括构建子单元、第二确定子单元、选取子单元和聚类子单元,如下:
所述构建子单元,用于对所述事件文本集中的参考文本构建词向量;
第二确定子单元,用于确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
选取子单元,用于从所述词向量中选取K个词向量分别作为K个参考聚类中心;
聚类子单元,用于基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
可选的,在本申请的一些实施例中,所述聚类子单元具体可以用于对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心;基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集。
其中,步骤“基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集”具体可以包括:
对于每个参考文本集,将新聚类中心作为新的参考聚类中心,返回执行所述对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离的步骤,直到每个参考文本集的新聚类中心与参考聚类中心相同,获得K个子事件对应的聚类后文本集。
可选的,在一些实施例中,所述分析单元可以包括第三确定子单元、划分子单元和计算子单元,如下:
所述第三确定子单元,用于确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;
划分子单元,用于基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;
计算子单元,用于计算每两个子映射关系集合之间的相似度。
可选的,在一些实施例中,所述判别单元具体可以用于基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,在一些实施例中,所述计算子单元具体可以用于确定每两个子映射关系集合中对应的搜索时间;基于每两个子映射关系集合中对应的搜索时间,对每两个子映射关系集合中目标文本的文本数量进行协方差运算,得到协方差值;计算每个子映射关系集合中,各个搜索时间对应的目标文本的文本数量均值;基于每两个子映射关系集合的协方差值,以及每两个子映射关系集合的文本数量均值,计算每两个子映射关系集合之间的相似度。
可选的,在本申请的一些实施例中,所述事件挖掘装置还可以包括显示单元,所述显示单元可以用于当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的事件挖掘方法中的步骤。
此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的事件挖掘方法中的步骤。
本申请实施例提供了一种事件挖掘方法和装置,可以从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的事件挖掘方法的场景示意图;
图1b是本申请实施例提供的事件挖掘方法的流程图;
图1c是本申请实施例提供的事件挖掘方法的模型示意图;
图1d是本申请实施例提供的事件挖掘方法的页面示意图;
图2a是本申请实施例提供的事件挖掘方法的另一流程图;
图2b是本申请实施例提供的事件挖掘方法的说明图;
图2c是本申请实施例提供的事件挖掘方法的另一说明图;
图3a是本申请实施例提供的事件挖掘装置的结构示意图;
图3b是本申请实施例提供的事件挖掘装置的另一结构示意图;
图3c是本申请实施例提供的事件挖掘装置的另一结构示意图;
图3d是本申请实施例提供的事件挖掘装置的另一结构示意图;
图3e是本申请实施例提供的事件挖掘装置的另一结构示意图;
图3f是本申请实施例提供的事件挖掘装置的另一结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种事件挖掘方法、装置、电子设备和存储介质。具体地,本申请实施例提供适用于电子设备的事件挖掘装置,该电子设备可以为终端或服务器等设备。
可以理解的是,本实施例的事件挖掘方法可以是在终端上执行的,也可以是在服务器上执行的,还可以是由终端和服务器共同执行的。
参考图1a,以终端和服务器共同执行事件挖掘方法为例。本申请实施例提供的事件挖掘系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,事件挖掘装置可以集成在服务器中。
其中,服务器11,可以用于:从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,将周期性判别结果发送给终端10。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群。
其中,终端10可以接收服务器11发送的周期性判别结果,并通过输出模块输出周期性判别结果。可选的,一些实施例中,终端可以包括显示模块,所述显示模块用于显示所述目标事件对应的运营页面。当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。其中,终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC,PersonalComputer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
上述服务器11确定子事件和对子事件进行周期性判别的过程,也可以由终端10执行。
本申请实施例提供的事件挖掘方法涉及人工智能(AI,ArtificialIntellegence)领域中的自然语言处理(NLP,Nature Language processing)和数据挖掘(Data Mining)。本申请实施例可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。
其中,自然语言处理(NLP,Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,数据挖掘(Data Mining)是指通过算法从大量的数据中搜索隐藏于其中信息的过程,它是人工智能和数据库领域研究的热点问题。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘获取到的信息和知识可以广泛用于各种应用领域,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例将从事件挖掘装置的角度进行描述,该事件挖掘装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
本申请实施例的事件挖掘方法可以应用于各种需要事件挖掘的场景中,例如,在用户需要在海量日志中识别其中的周期性事件时,可以通过本实施例提供的事件挖掘方法,对海量日志进行事件分类,确定其中的子事件,并判别该子事件是否具有周期性,通过该方法能够更快更准确地识别到海量数据中的周期性事件。
如图1b所示,该事件挖掘方法的具体流程如下所述,该事件挖掘方法可以由服务器执行,也可以由终端来执行,本实施例对此不作限制。
101、从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间。
其中,原始文本具体可以是用户向搜索引擎发出的查询输入query,也可以是互联网上海量的历史日志,本实施例对此不作限制。
本实施例中,文本数据集包括原始文本和原始文本的搜索时间。搜索时间既可以指文本的查询时间,也可以指文本的发布时间。具体地,文本数据集可以包含用户查询输入(query)的文本,以及用户进行查询的时间;或者,文本数据集也可以包括互联网上海量的历史日志,以及这些日志所发布的时间。其中,用户可以向搜索引擎发出查询输入(query),从而检索到与query相关的咨询信息。
其中,参考文本可以指从文本数据集中随机抽取的部分原始文本,也可以是按照预设规则从文本数据集中抽取的原始文本,比如,该预设规则可以指抽取某个时间段内的原始文本,则参考文本为该时间段内的原始文本。例如,原始文本可以是近10年的搜索日志,参考文本可以是最近一年内的搜索日志,或者说,参考文本是最近一年内的原始文本。参考文本具体可以用来确定海量日志中的事件类型。
102、对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本。
其中,对参考文本进行事件分类,具体是对参考文本的粗分类,通过事件分类,可以获取参考文本中各个文本所属的父类。具体地,可以判定参考文本是否属于目标事件,通过对参考文本的事件分类,可以将属于目标事件的参考文本选取出来,得到事件文本集。
例如,用户需要从多个搜索日志(即参考文本)中挑选出关于体育类的搜索日志,则目标事件具体可以指体育类事件,具体地,可以对参考文本(即从海量搜索日志中选取的作为样本的部分搜索日志)进行事件分类,也即,将参考文本分为体育类事件和非体育类事件,将体育类事件的参考文本归类到事件文本集中。
可选的,一些实施例中,步骤“对所述多个参考文本进行事件分类,得到事件文本集”,可以包括:
获取各个参考文本对应的词向量;
对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
根据所述概率,从所述多个参考文本中确定事件文本集。
其中,可以通过单词到向量的模型(word2vec,word to vector)来获取参考文本的词向量。word2vec是一个将单词转换为向量的模型,即用来产生词向量的相关模型。word2vec是一个浅层神经网络,在训练完成之后,word2vec模型可用来将每个词映射到一个向量,并且可以用来表示词与词之间的关系。词向量具有良好的语义特性,是表示词语特征的常用方式,词向量每一维的值代表一个具有一定语义和语法上解释的特征。
其中,可以通过分类器来预测各个参考文本是否属于目标事件,该分类器具体可以是支持向量机(SVM,Support Vector Machine),也可以是全连接深度神经网络(DNN,Deep Neual Networks)等等,本实施例对此不做限制。
其中,步骤“根据所述概率,从所述多个参考文本中确定事件文本集”,可以包括:将所述概率大于预设概率的参考文本选取出来,并归类到事件文本集中。预设概率可以根据实际情况进行设置,例如,可以根据对分类准确度的要求来进行设置,本实施例对此不作限制。
可选的,一些实施例中,步骤“对所述多个参考文本进行事件分类,得到事件文本集”,可以包括:
通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
其中,分类模型可以是神经网络,该神经网络可以是残差网络(ResNet,ResidualNetwork)和密集连接卷积网络(DenseNet,Dense Convolutional Network)等等,但是应当理解的是,本实施例的神经网络并不仅限于上述列举的几种类型。
可选的,在一些实施例中,分类模型可以包括word2vec和query分类器,query分类器具体可以是Kim(吉姆)提出的文本卷积神经网络(Text-CNN,Text-ConvolutionalNeural Networks)。分类模型的模型图可以参见图1c,其中,可以输入序列长度为n的参考文本,通过输入层构建参考文本的词向量,再将该词向量通过卷积层和池化层进行卷积处理和池化处理,得到参考文本对应的特征信息,通过全连接层对特征信息对应的参考文本进行分类,得到参考文本对应的分类标签。
需要说明的是,该分类模型是由多个带有标签的训练数据训练而成,本实施例的训练数据包括多个训练文本,该标签是指文本所表征的事件类别;该分类模型具体可以由其他设备进行训练后,提供给该事件挖掘装置,或者,也可以由该事件挖掘装置自行进行训练。
若由该事件挖掘装置自行进行训练,则在步骤“通过分类模型对所述多个参考文本进行事件分类,得到事件文本集”,之前,该事件挖掘方法还可以包括:
获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;
通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;
基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;
基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。
具体地,可以使用反向传播法对分类模型的参数进行调整,基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,来优化分类模型,使所述训练文本中的正样本对应的实际概率趋近于正样本的期望概率,所述训练文本中的负样本对应的实际概率趋近于负样本的期望概率,得到训练好的分类模型。具体地,可以使计算得到的正样本的实际概率高于正样本的期望概率,使负样本的实际概率低于负样本的期望概率。
其中,正样本属于目标事件的期望概率大于第一预设概率,负样本属于目标事件的期望概率小于第二预设概率,第一预设概率和第二预设概率的值可以根据实际情况进行设置,本实施例对此没有限制。例如,可以根据对分类的准确度的要求来进行设置。若对参考文本的分类结果的准确度要求越高,则第一预设概率越大,第二预设概率越小。
例如,训练文本可以是一年的搜索日志,可以对搜索QV较小的词进行过滤,因为一般来说,QV较高的事件才有必要人工运营。其中,QV(query view)可以指数据统计中用户在搜索框内输入的搜索词数量,用户输入一次query,就算一个QV。对训练文本进行标注,训练文本中体育类的query作为正样本,非体育类的query作为负样本,然后使用基于word2vec的词向量模型和Text-CNN训练一个体育类query分类器。
103、对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件。
其中,对所述事件文本集中的参考文本进行聚类处理,具体为细分类,通过聚类处理,可以确定目标事件下的多个子事件,即获取所述事件文本集中的参考文本的子类。需要强调的是,子事件从属于目标事件,目标事件可视为父类,子事件可视为子类。每个聚类后文本集中的参考文本都属于同个子事件。参考文本可以视为样本文本,用于确定事件文本集所包含的子事件。
本实施例中,聚类处理的方式可以有很多种,例如,可以为K-means(K-均值)聚类算法,K-medoids(K-中心点)算法、DBSCAN(基于密度的聚类算法)、层次聚类算法或者自组织映射聚类算法等等,以上举例不应理解为对本申请的限制。
可选的,一些实施例中,步骤“对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集”,可以包括:
对所述事件文本集中的参考文本构建词向量;
确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
从所述词向量中选取K个词向量分别作为K个参考聚类中心;
基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
其中,可以通过文档到向量的模型(doc2vec,document to vector)来构建事件文本集中的参考文本的词向量。doc2vec为word2vec的延伸应用,它用于创建文档的向量化表示。doc2vec算法的提出是为了解决固定向量输入所造成的问题,其输入向量可以是不定长的文本,例如可以是一个句子,也可以是一个段落等等。doc2vec不但考虑到了词与词之间的语义关系,还考虑到了词与词之间的顺序问题。
可选的,一些实施例中,步骤“基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集”,可以包括:
对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;
基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;
针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心;
基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集。
其中,步骤“基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集”,具体可以包括:将不属于参考聚类中心的每一个词向量,归类到与该词向量的向量距离最小的参考聚类中心所表征的子事件中,以得到K个参考文本集。
可以理解的是,词向量和参考聚类中心的向量距离可以表示二者之间的相似度。向量距离越小,相似度越大,所属类别越接近。如果某个词向量与K个参考聚类中心中的某个参考聚类中心之间的向量距离最小,说明该词向量与该参考聚类中心所表征的子事件的特征最相似,从而可以将该词向量与该参考聚类中心对应的词向量归为一个聚类。
其中,计算词向量和参考聚类中心的向量距离的方式有很多种,如可以通过欧式距离来计算。
其中,步骤“针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心”中,对于每个参考文本集,可以计算该参考文本集中所有词向量的算术平均值,将与该算术平均值距离最小的词向量作为新聚类中心。
可选的,一些实施例中,步骤“基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集”,可以包括:
对于每个参考文本集,将新聚类中心作为新的参考聚类中心,返回执行所述对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离的步骤,直到每个参考文本集的新聚类中心与参考聚类中心相同,获得K个子事件对应的聚类后文本集。
其中,对于每一个聚类而言,即对于每个参考文本集,分别计算该聚类最新的参考聚类中心与聚类过程中最近一次所采用的参考聚类中心是否相同,即计算二者之间的向量距离是否为0。若相同,则可以认为该聚类的聚类中心没有变化,如果所有聚类的聚类中心都不再变化,则聚类过程完成,得到K个聚类,即K个子事件对应的聚类后文本集;如果不是所有聚类的聚类中心都没有变化,则返回步骤“对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离”,直到每个聚类的聚类中心不再发生变化。
其中,聚类过程中每个聚类的最新的参考聚类中心与该聚类最近一次所采用的参考聚类中心相同只是结束循环的一个可选条件,该可选条件也可以是这两个聚类中心之间的差值小于预设值,该预设值可以根据实际情况进行设置。
在一具体实施例中,事件文本集中的参考文本可以是属于体育类的query,可以通过doc2vec构建其对应的词向量,再通过K-means做无监督聚类。K-means算法是典型的无监督聚类算法,目的是将样本聚类成k个簇(cluster),即将所述事件文本集中的参考文本聚类为K个聚类后文本集,其中,每个聚类后文本集对应一个子事件。比如,对体育类的query进行聚类处理,则可以得到体育类query的k个聚类,即得到细分的K个体育事件,如“F1大奖赛”,“F1大奖赛实况“,”F1大奖赛成绩“等query可以聚类为事件”F1大奖赛“,“F1大奖赛”为目标事件(体育事件)下的一个子事件。
K-means算法具体如下描述:
S1、随机从多个样例x(i)选取k个x(i)作为聚类中心,k个聚类中心分别记为μ1,μ2,...,μk∈Rn,Rn表示n维实数集。
S2、重复下面过程直到收敛:
对于每一个样例i,计算其应该属于的类,如式子(1)所示:
c(i):=arg minj||x(i)-μj||2 (1)
对于每一个类j,重新计算该类的聚类中心,如式子(2)所示:
其中,k是预先给定的聚类数,μj表示聚类中心,j为不大于k的正整数,x(i)表示样例,i为样例的编号,c(i)代表样例i与k个类中距离最近的那个类,c(i)的值是1到k中的一个。质心μj代表对属于同一个类的样本中心点的猜测,聚类中心也可以称为质心。
具体地,要将事件文本集中的参考文本聚类为k个子集,每个子集代表一个子事件,首先随机选取事件文本集中的k个参考文本作为k个子集的聚类中心,然后步骤S1计算事件文本集中的每一个参考文本到k个聚类中心的距离,再选取距离最近的那个聚类中心所属的子集作为c(i),经过步骤S1事件文本集中的每一个参考文本都有了所属的子集。步骤S2对于每个子集,重新计算它的质心μj(比如可以对子集里面所有的参考文本对应的词向量求平均)。重复迭代步骤S1和S2直到质心不变或者变化很小。
K-means算法可以利用如下开源包实现:
#K-means聚类
print'Start K-means:'
from sklearn.cluster import KMeans
clf=KMeans(n_clusters=20)
s=clf.fit(model.docvecs)
print s
#20个聚类中心
print(clf.cluster_centers_)
#每个样本所属的簇
print(clf.Labels_)
i=1
while i<=len(clf.Labels_):
print i,clf.labels_[i-1]
i=i+1
#用来评估簇的个数是否合适,距离越小说明簇分的越好,选取临界点的簇个数
print(clf.inertia_)
104、分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本。
经过步骤103将事件文本集中的参考文本作为样本,确定出目标事件所包含的子事件,基于确定出的子事件,获取文本数据集中的目标文本,并分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系。
其中,所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系可以是二者之间的映射曲线,也可以是映射关系表。
105、基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,一些实施例中,步骤“分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果”,可以包括:
确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;
基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;
计算每两个子映射关系集合之间的相似度;
步骤“基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果”,可以包括:
基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果。
其中,所述目标文本为所述文本数据集中属于所述子事件的文本。
其中,该预设时间周期记为T,该预设时间周期T可以根据实际情况进行设置,如可以设置为1年等。
本实施例中,可以对映射关系集合按预设时间周期T进行划分,得到多个子映射关系集合,每个子映射关系集合包括在时间长度为T的时间段内目标文本的文本数量、与其搜索时间之间的映射关系。
可选的,可以以T为单位,对映射关系集合进行分割,假设映射关系集合对应的时间长度为n,则划分后有n/T个单元,可以比较这n/T个单元的相似度,如果相似度高于预设相似度,则说明该映射关系集合中的目标文本对应的子事件具有周期性,如果不是,则不具有周期性。该预设相似度可以根据实际情况进行设置。
具体地,目标文本可以是在过去几年中关于子事件的搜索query,可以将属于同一个细分聚类(即属于同一个子事件)的query在过去几年中搜索QV累加作为该子事件的总搜索数量QV。文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,也即,该子事件的QV和其搜索时间的对应关系,具体可以表现为该子事件QV和搜索时间的关系曲线图。通过该关系曲线图,可以直观地看出关于该子事件的搜索query,在不同搜索时间上搜索数量的变化。
本实施例中,步骤“基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果”,具体可以包括:当每两个子映射关系集合之间的相似度都大于预设相似度时,则判别所述子事件为周期性事件,预设相似度可以根据实际情况进行设置。
可选的,在一些实施例中,只有两个子映射关系集合,则步骤“基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果”,具体可以包括:当所述相似度大于预设相似度时,则判别所述子事件为周期性事件。
可选的,本实施例中,步骤“计算每两个子映射关系集合之间的相似度”,可以包括:
确定每两个子映射关系集合中对应的搜索时间;
基于每两个子映射关系集合中对应的搜索时间,对每两个子映射关系集合中目标文本的文本数量进行协方差运算,得到协方差值;
计算每个子映射关系集合中,各个搜索时间对应的目标文本的文本数量均值;
基于每两个子映射关系集合的协方差值,以及每两个子映射关系集合的文本数量均值,计算每两个子映射关系集合之间的相似度。其中,搜索时间具体可以是搜索时间点,也可以是搜索时间段。对于每个子映射关系集合,其包括目标文本的文本数量以及所述目标文本的搜索时间。具体地,针对每个子映射关系集合,可以先对搜索时间进行划分,确定各个搜索时间段,统计每个搜索时间段内目标文本数量,再基于对应的搜索时间段,计算每两个子映射关系集合的协方差值。
比如,预设时间周期为1年,每个子映射关系集合的时间长度为1年,可以将1年平均划分为12个搜索时间段,每个搜索时间段为1个月,统计该子映射关系集合中,每个月对应的目标文本数量;在计算两个子映射关系集合的协方差时,搜索时间段需要对应,譬如说,子映射关系集合A的四月份数据(即目标文本数量)应当与子映射关系集合B的四月份数据对应进行运算。
其中,计算两个子映射关系集合的相似度,具体可以是计算每两个子映射关系集合对应曲线的相似度,如可以用曲线拟合法;或者,也可以采用其他序列周期性检测算法来进行计算,如可以采用皮尔逊相关系数算法来检测周期事件。
其中,皮尔逊相关系数算法如下式子(3)所示:
该公式主要通过平均数和协方差的概念来计算相似度,式子(3)的分子计算的是两个子映射关系集合的协方差值,分母为两个子映射关系集合的文本数量均值的乘积,其中,r为相关系数,它的取值为负1到正1之间,xi和yi分别为两个子映射关系集合中对应时间点或者对应时间段内的qv数,n可以为计算过程每个周期中所取的数据点数,n具体为所选取时间点或者时间段的数量,i表示第i个对应的时间点或者第i个对应的时间段,i的取值为不大于n的正整数。
通过皮尔逊相关系数算法,将两个周期的各个数据点xi和yi分别代入公式,可以得到一个取值在-1到1之间的相关系数,结果越接近1,则两个子映射关系集合之间的相似度越高。对于所有周期区间上皮尔逊系数(即相关系数r)都大于预设值的事件,即每两个子映射关系集合之间的皮尔逊系数(即相关系数r)都大于预设值,该事件可以认为是最终的周期性事件,该预设值可以根据实际情况进行设置。若该周期性事件的周期为1年,此时对于每年即将要发生的该事件,即可安排运营人员事先进行产品运营规划,以提升这些事件的搜索体验。
可选的,一些实施例中,步骤“基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果”之后,还可以包括:
当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;
基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。
其中,对版块控件的操作,具体可以是对版块控件的点击操作或者滑动操作,本实施例对此不作限制。
若子事件具有周期性,则可在运营页面对其进行规划,如可以以卡片或直达区的方式等更丰富的媒体形式展现周期性事件,可以提升用户的互动性。
如图1d所示,其中,目标事件可以为体育赛事,联赛A、联赛B、联赛C和联赛D为具有周期性的子事件。当用户搜索体育等关键词时,可以显示体育赛事的运营页面(如图1d的页面1所示),在该运营页面上有联赛A、联赛B、联赛C和联赛D对应的版块控件。如对联赛A对应的版块控件进行操作,可以显示联赛A对应的版块页面,该版块页面包括联赛A对应的赛程、排名、新闻和视频等相关的事件内容信息(如图1d的页面2所示)。
由上可知,本实施例可以从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
根据前面实施例所描述的方法,以下将以该事件挖掘装置具体集成在服务器举例作进一步详细说明。
本申请实施例提供一种事件挖掘方法,如图2a所示,该事件挖掘方法的具体流程可以如下:
201、服务器从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间。
其中,原始文本具体可以是用户向搜索引擎发出的查询输入query,也可以是互联网上海量的历史日志,本实施例对此不作限制。
本实施例中,文本数据集包括原始文本和原始文本的搜索时间。搜索时间既可以指文本的查询时间,也可以指文本的发布时间。
其中,参考文本可以指从文本数据集中随机抽取的部分原始文本,也可以是按照预设规则从文本数据集中抽取的原始文本。参考文本具体可以用来确定海量日志中的事件类型。
202、服务器对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本。
可选的,一些实施例中,步骤“服务器对所述多个参考文本进行事件分类,得到事件文本集”,可以包括:
获取各个参考文本对应的词向量;
对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
根据所述概率,从所述多个参考文本中确定事件文本集。
可选的,一些实施例中,步骤“对所述多个参考文本进行事件分类,得到事件文本集”,可以包括:
通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
可选的,在一些实施例中,分类模型可以包括word2vec和query分类器,query分类器具体可以是Kim(吉姆)提出的文本卷积神经网络(Text-CNN,Text-ConvolutionalNeural Networks)。
203、服务器对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件。
其中,对所述事件文本集中的参考文本进行聚类处理,具体为细分类,通过聚类处理,可以确定目标事件下的多个子事件,即获取所述事件文本集中的参考文本的子类。需要强调的是,子事件从属于目标事件,目标事件可视为父类,子事件可视为子类。每个聚类后文本集中的参考文本都属于同个子事件。参考文本可以视为样本文本,用于确定事件文本集所包含的子事件。
本实施例中,聚类处理的方式可以有很多种,例如,可以为K-means(K-均值)聚类算法。
可选的,一些实施例中,步骤“对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集”,可以包括:
对所述事件文本集中的参考文本构建词向量;
确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
从所述词向量中选取K个词向量分别作为K个参考聚类中心;
基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
其中,可以通过文档到向量的模型(doc2vec,document to vector)来构建事件文本集中的参考文本的词向量。
在一些实施例中,事件文本集中的参考文本可以是属于体育类的query,可以通过doc2vec构建其对应的词向量,再通过K-means做无监督聚类。其中,可以通过开源的doc2vec预训练,对上述体育类query构建向量化特征表示,其伪代码如下:
#doc2vec
#训练并保存模型
import gensim
sentences=genism.Models.doc2vec.TaggedLineDocument(token_path)
model=gensim.models.Doc2Vec(sentences,size=100,window=2,min_count=3)
model.train(sentences,total_examples=model.corpus_count,epochs=1000)
model.save('../model/demoDoc2Vec.pkl’)
204、服务器分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本。
205、服务器基于所述分析结果对所述子事件进行周期性判别。
可选的,一些实施例中,步骤“服务器分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果”,可以包括:
服务器确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;
基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;
计算每两个子映射关系集合之间的相似度;
步骤“服务器基于所述分析结果对所述子事件进行周期性判别”,可以包括:
服务器基于所述相似度,对所述子事件进行周期性判别。
在一具体实施例中,对体育类的query进行聚类处理,则可以得到体育类query的k个聚类,即得到细分的K个体育事件,如“F1大奖赛”,“F1大奖赛实况“,”F1大奖赛成绩“等query可以聚类为事件”F1大奖赛“,“F1大奖赛”为目标事件(体育事件)下的一个子事件。此时需要判别该子事件是否具有周期性,具体过程可以如下:
将同属于同一个细分聚类(即属于同一个子事件)的query在过去几年中(比如过去三年)的搜索QV累加作为该子事件的总QV,统计子事件在过去几年中QV曲线图,如图2b所示;
确定时间序列的周期T(一般体育运动按年为周期事先规划运营活动,此处可以设置T为一年);
以T为分割点,对序列进行分割,假设序列的时间长度是n,分割后就会有n/T个单元;
比较这n/T个单元的相似度,如果相似度高于预设相似度,则说明该子事件具有周期性,如果不是,则不具有周期性。
其中,使用上述方法对序列进行切割,切割后可以形成三个单元(在序列的时间长度为三年的情况下),如图2c所示。可以基于皮尔逊相关系数,计算序列周期单元相似度。对子事件的周期性检测最终转化为求三个单元的相似度问题。
206、服务器将周期性判别结果发送给终端。
207、终端接收服务器所发送的周期性判别结果,并输出周期性判别结果。
可选的,一些实施例中,步骤“终端接收服务器所发送的周期性判别结果,并输出周期性判别结果”之后,还可以包括:
当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;
基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。
在目前的相关技术中,一般通过人工直接收集经验性的周期事件词典,或者,通过挖掘形如“时间词+事件词”这种半自动化的方法,这些方法都存在覆盖不全的问题。另一方面,对于通过“时间词+事件词”挖掘的方法,还有一个强假设:用户在表达事件词时会显式输入“时间词”前缀,但这种假设实际中可能并不存在,尤其是现代搜索引擎慢慢具备了隐式周期性query识别能力后(即即使不输入时间词,系统也可以识别出query的周期性,时效性等),用户的使用习惯开始慢慢不再显式输入“时间词”。显然一旦query中这种显式时间词没有后,现有辅助挖掘算法将越来越不可用。
本实施例可以选定其中一个事件类别,如体育类周期性赛事事件的挖掘(并不是所有的体育赛事都具有周期性,如一些运动会只偶尔举办),根据历史海量搜索日志中特定事件类型的query搜索次数在这些赛事前、中、后的分布规律,设计序列型挖掘算法,用以识别其中的周期性赛事。对于其他事件类型,如教育考试类,本发明也适用。
由上可知,本实施例可以通过服务器从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,将周期性判别结果发送给终端,终端接收服务器所发送的周期性判别结果,并输出周期性判别结果。本申请可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
为了更好地实施以上方法,本申请实施例还提供一种事件挖掘装置,如图3a所示,该事件挖掘装置可以包括提取单元301、分类单元302、聚类单元303、分析单元304和判别单元305,如下:
(1)提取单元301;
提取单元301,用于从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间。
(2)分类单元302;
分类单元302,用于对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本。
可选的,在本申请的一些实施例中,所述分类单元302可以包括获取子单元3021、卷积子单元3022、预测子单元3023和第一确定子单元3024,参见图3b,如下:
所述获取子单元3021,用于获取各个参考文本对应的词向量;
卷积子单元3022,用于对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
预测子单元3023,用于基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
第一确定子单元3024,用于根据所述概率,从所述多个参考文本中确定事件文本集。
可选的,在本申请的一些实施例中,所述分类单元302具体可以用于通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
可选的,在本申请的一些实施例中,所述分类单元302还可以包括训练子单元3025,参见图3c,如下:
所述训练子单元3025,用于获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。
(3)聚类单元303;
聚类单元303,用于对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件。
可选的,在本申请的一些实施例中,所述聚类单元303可以包括构建子单元3031、第二确定子单元3032、选取子单元3033和聚类子单元3034,参见图3d,如下:
所述构建子单元3031,用于对所述事件文本集中的参考文本构建词向量;
第二确定子单元3032,用于确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
选取子单元3033,用于从所述词向量中选取K个词向量分别作为K个参考聚类中心;
聚类子单元3034,用于基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
可选的,在本申请的一些实施例中,所述聚类子单元3034具体可以用于对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心;基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集。
其中,可选的,在一些实施例中,步骤“基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集”具体可以包括:
对于每个参考文本集,将新聚类中心作为新的参考聚类中心,返回执行所述对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离的步骤,直到每个参考文本集的新聚类中心与参考聚类中心相同,获得K个子事件对应的聚类后文本集。
(4)分析单元304;
分析单元304,用于分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本。
可选的,在一些实施例中,所述分析单元304可以包括第三确定子单元3041、划分子单元3042和计算子单元3043,参见图3e,如下:
所述第三确定子单元3041,用于确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;
划分子单元3042,用于基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;
计算子单元3043,用于计算每两个子映射关系集合之间的相似度。
可选的,在一些实施例中,所述计算子单元3043具体可以用于确定每两个子映射关系集合中对应的搜索时间;基于每两个子映射关系集合中对应的搜索时间,对每两个子映射关系集合中目标文本的文本数量进行协方差运算,得到协方差值;计算每个子映射关系集合中,各个搜索时间对应的目标文本的文本数量均值;基于每两个子映射关系集合的协方差值,以及每两个子映射关系集合的文本数量均值,计算每两个子映射关系集合之间的相似度。
(5)判别单元305;
判别单元305,用于基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,在一些实施例中,所述判别单元305具体可以用于基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果。
可选的,在本申请的一些实施例中,所述事件挖掘装置还可以包括显示单元306,参见图3f,如下:
所述显示单元306可以用于当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。
由上可知,本实施例可以由提取单元301从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;通过分类单元302对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;通过聚类单元303对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;由分析单元304分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;由判别单元305,基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以通过对目标事件下的参考文本进行聚类,来确定出子事件,并基于子事件下的目标文本,对子事件进行周期性判别,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种事件挖掘方法中的步骤。例如,该指令可以执行如下步骤:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种事件挖掘方法中的步骤,因此,可以实现本申请实施例所提供的任一种事件挖掘方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述事件挖掘方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种事件挖掘方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种事件挖掘方法,其特征在于,包括:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
获取各个参考文本对应的词向量;
对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
根据所述概率,从所述多个参考文本中确定事件文本集。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
4.根据权利要求3所述的方法,其特征在于,所述通过分类模型对所述多个参考文本进行事件分类,得到事件文本集之前,还包括:
获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;
通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;
基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;
基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,包括:
对所述事件文本集中的参考文本构建词向量;
确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
从所述词向量中选取K个词向量分别作为K个参考聚类中心;
基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
6.根据权利要求5所述的方法,其特征在于,所述基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集,包括:
对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;
基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;
针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心;
基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集。
7.根据权利要求6所述的方法,其特征在于,所述基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集,包括:
对于每个参考文本集,将新聚类中心作为新的参考聚类中心,返回执行所述对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离的步骤,直到每个参考文本集的新聚类中心与参考聚类中心相同,获得K个子事件对应的聚类后文本集。
8.根据权利要求1所述的方法,其特征在于,所述分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,包括:
确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;
基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;
计算每两个子映射关系集合之间的相似度;
所述基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果,包括:
基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果。
9.根据权利要求8所述的方法,其特征在于,所述计算每两个子映射关系集合之间的相似度,包括:
确定每两个子映射关系集合中对应的搜索时间;
基于每两个子映射关系集合中对应的搜索时间,对每两个子映射关系集合中目标文本的文本数量进行协方差运算,得到协方差值;
计算每个子映射关系集合中,各个搜索时间对应的目标文本的文本数量均值;
基于每两个子映射关系集合的协方差值,以及每两个子映射关系集合的文本数量均值,计算每两个子映射关系集合之间的相似度。
10.根据权利要求1所述的方法,其特征在于,所述基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果之后,还包括:
当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;
基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。
11.一种事件挖掘装置,其特征在于,包括:
提取单元,用于从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
分类单元,用于对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
聚类单元,用于对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析单元,用于分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
判别单元,用于基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672732.0A CN111767404B (zh) | 2020-07-14 | 2020-07-14 | 一种事件挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672732.0A CN111767404B (zh) | 2020-07-14 | 2020-07-14 | 一种事件挖掘方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767404A true CN111767404A (zh) | 2020-10-13 |
CN111767404B CN111767404B (zh) | 2024-03-01 |
Family
ID=72725330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010672732.0A Active CN111767404B (zh) | 2020-07-14 | 2020-07-14 | 一种事件挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767404B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112351004A (zh) * | 2020-10-23 | 2021-02-09 | 烟台南山学院 | 一种基于计算机网络信息安全事件处理系统及方法 |
CN113761192A (zh) * | 2021-05-18 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040027349A1 (en) * | 2002-08-08 | 2004-02-12 | David Landau | Method and system for displaying time-series data and correlated events derived from text mining |
CN103176981A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种事件信息挖掘并预警的方法 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
-
2020
- 2020-07-14 CN CN202010672732.0A patent/CN111767404B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040027349A1 (en) * | 2002-08-08 | 2004-02-12 | David Landau | Method and system for displaying time-series data and correlated events derived from text mining |
CN103176981A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种事件信息挖掘并预警的方法 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
刘金岭;王新功;周泓;: "基于短信文本信息流的多热点事件挖掘", 山东大学学报(工学版), no. 03, pages 7 - 12 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112351004A (zh) * | 2020-10-23 | 2021-02-09 | 烟台南山学院 | 一种基于计算机网络信息安全事件处理系统及方法 |
CN113761192A (zh) * | 2021-05-18 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
CN113761192B (zh) * | 2021-05-18 | 2024-05-28 | 腾讯云计算(北京)有限责任公司 | 文本处理方法、文本处理装置及文本处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111767404B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
Stein et al. | Intrinsic plagiarism analysis | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN111767403B (zh) | 一种文本分类方法和装置 | |
Ghanbari-Adivi et al. | Text emotion detection in social networks using a novel ensemble classifier based on Parzen Tree Estimator (TPE) | |
Liu et al. | A new method for knowledge and information management domain ontology graph model | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
WO2002025479A1 (en) | A document categorisation system | |
CN112581006A (zh) | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 | |
Du et al. | News text summarization based on multi-feature and fuzzy logic | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
KR101976081B1 (ko) | 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 | |
CN112052356A (zh) | 多媒体分类方法、装置和计算机可读存储介质 | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
Lisena et al. | TOMODAPI: A topic modeling API to train, use and compare topic models | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
Aziz et al. | Sentiment analysis and topic modelling for identification of government service satisfaction | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
Lauren et al. | A low-dimensional vector representation for words using an extreme learning machine | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
US11599588B1 (en) | Apparatus and method of entity data aggregation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |