CN110633330A - 事件发现方法、装置、设备及存储介质 - Google Patents

事件发现方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110633330A
CN110633330A CN201810559050.1A CN201810559050A CN110633330A CN 110633330 A CN110633330 A CN 110633330A CN 201810559050 A CN201810559050 A CN 201810559050A CN 110633330 A CN110633330 A CN 110633330A
Authority
CN
China
Prior art keywords
event
phrases
texts
phrase
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810559050.1A
Other languages
English (en)
Other versions
CN110633330B (zh
Inventor
陈玉光
陈文浩
周辉
郑宇宏
陈伟娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810559050.1A priority Critical patent/CN110633330B/zh
Priority to JP2019068633A priority patent/JP6741110B2/ja
Priority to US16/374,693 priority patent/US11210469B2/en
Priority to EP19167671.7A priority patent/EP3518119A1/en
Priority to KR1020190045154A priority patent/KR102229427B1/ko
Publication of CN110633330A publication Critical patent/CN110633330A/zh
Application granted granted Critical
Publication of CN110633330B publication Critical patent/CN110633330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种事件发现方法、装置、设备及存储介质,通过获取多个包括目标关键词的文本;从所述多个文本的标题中提取出独立描述事件信息的短语;对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。本申请实施例提供的事件发现方法能够提高事件发现的准确率以及事件的召回率。

Description

事件发现方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种事件发现方法、装置、设备及存储介质。
背景技术
随着互联网的发展,互联网信息呈现爆发式的增长,每个人都不得不面对信息过载的问题。当用户想要关注某个人物或者公司时,用户不得不面对的是大量未经整理的新闻资讯。如果能够将互联网中大量的资讯以“事件”为粒度进行组织,并呈现给用户,就能够大大减少用户获取资讯的时间成本。
当前事件发现的主要方法包括三种分别为:聚类的方法、突发检测的方法以及聚类与突发检测结合的方法,其中,聚类的方法是针对某些文本资源按照预设的相似度计算方法对文本的正文进行聚类处理,其聚类的基本单元通常是新闻或者微博等能反应事件信息的资源。突发检测则是对关键字的出现频率进行监控,对出现频率有突发性增长的关键字进行识别和提取。而二者结合的方法则是先进行突发检测,再基于突发检测得到的结果召回新闻,再基于召回的新闻进行聚类。
但是,由于突发检测的关键字或搜索词比较简短,虽然能够识别出某些关键字或实体存在突发,但无法挖掘到究竟是哪个事件或者哪几个事件导致的,事件召回率较低。而聚类的方法以及聚类和突发检测相结合的方法,在进行聚类操作时,其聚类的对象都是新闻或者微博的正文,容易形成聚类簇不纯和超大簇的问题,事件发现的准确率较低。
发明内容
本申请实施例提供一种事件发现方法、装置、设备及存储介质,用以提高事件发现的准确率以及事件的召回率。
本申请实施例第一方面提供一种事件发现方法,包括:获取多个包括目标关键词的文本;从所述多个文本的标题中提取出独立描述事件信息的短语;对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
本申请实施例第二方面提供一种事件发现装置,包括:获取模块,用于获取多个包括目标关键词的文本;短语挖掘模块,用于从所述多个文本的标题中提取出独立描述事件信息的短语;聚类模块,用于对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;显示设备,用于显示事件中的文本,和/或事件与短语之间的关联关系;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过获取多个包括目标关键词的文本,从该多个文本的标题中提取出独立描述事件信息的短语,并对提取出的短语进行聚类,从而将属于同一聚类簇的短语所在的文本聚在一起,形成事件。由于本申请实施例在获取到多个包括目标关键词的文本后,进一步的采用了聚类的方法来形成事件,因此,能够避免因为关键词较短所导致的事件召回率低的问题,提高了事件的召回率。另外,在采用聚类方法形成事件时,本申请实施例是以能够独立描述事件信息的短语为基础来进行聚类的,相比于现有技术以文本正文为聚类的基础,显然能够避免超大聚类簇的形成,并且相较于文本正文,短语一般只包括一个事件,因而本申请实施例能够提高聚类簇的纯度,使得一个聚类簇仅包括一个事件,也就是说本申请实施例能够提高事件发现的准确率。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是本申请实施例提供的一种事件发现方法的流程图;
图2是本申请实施例提供的一种突发阈值计算方法的流程图;
图3是本申请实施例提供的一种步骤S13的执行方法流程图;
图4是本申请实施例提供的一种事件发现装置的结构示意图;
图5是本申请实施例提供的一种聚类模块43的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,下面首先对本申请实施例涉及的名词进行解释:
1、聚类簇,是聚类操作的结果,一个聚类簇中包括若干条相似的数据,在申请实施例中基于短语聚类得到的聚类簇包括若干个相似的短语。
2、事件,是一个文本的聚类簇,该聚类簇中的文本均用于表述同一件事情的信息,其中,本申请实施例中的文本可以指新闻文本和/或微博文本,但不局限于新闻文本和/或微博文本。
3、独立描述事件信息的短语,是指能够完整无歧义的描述事件的短句。
由背景技术可知,目前基于突发检测的事件发现方法存在的事件召回率低的问题,而基于聚类或者聚类与突发检测相结合的事件发现方法则存在超大簇和聚类簇中包括多个事件,聚类簇不纯净的问题。针对现有技术存在的上述问题,本申请实施例提供了一种事件发现方法,该方法可以在聚类与突发检测相结合的基础上,基于文本中能够独立描述事件信息的短语对文本进行聚类,从而得到事件。由于本申请实施例是基于聚类和突发检测相结合的方法来进行事件发现的,因此,能够解决单独使用突发检测方法所导致的事件召回率低的问题。另外,在采用聚类方法形成事件时,本申请实施例是以能够独立描述事件信息的短语为基础来进行的,相比于现有技术以文本正文为聚类的基础,显然能够避免超大聚类簇的形成,并且相较于文本正文,短语一般只包括一个事件,因而本申请实施例能够提高聚类簇的纯度,使得一个聚类簇仅包括一个事件,也就是说本申请实施例能够提高事件发现的准确率。
以下将结合附图来具体描述本申请实施例的技术方案。
图1是本申请实施例提供的一种事件发现方法的流程图,该方法可以由一种事件发现装置来执行。参见图1,该方法包括步骤S11-S13:
S11、获取多个包括目标关键词的文本。
其中,目标关键词可以是用户通过人机交互界面输入的关键词,也可以是通过突发检测方法检测获得的关键词,其中,突发检测是指在预设时间长度内统计关键词在目标搜索引擎上被搜索的次数,当同一关键词在预设时间长度内的搜索次数超过预设的突发阈值,则判定该关键词为目标关键词。
在基于突发检测方法获取目标关键词时,预设的突发阈值可能只有一个,即对所有关键词进行突发检测时均使用同一个突发阈值。在另一种可能的情况中,预设的突发阈值也可以有多个,在对不同关键词进行突发检测时可以采用不同的突发阈值。在一种极端的场景中可以为每个关键词都设置一个相应的突发阈值,其该突发阈值的设置方法可以根据经验进行设定,也可以基于预设算法计算获得,比如,在一示例性实施例中可以基于如下算法计算获得:
图2是本申请实施例提供的一种突发阈值计算方法的流程图,如图2所示,突发阈值可以通过如下方法计算获得:
S21、确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差。
S22、基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
举例来说,假设在已经过去的20天内关键词a每天的搜索次数分别为pv1、pv2……pv20,则可以基于1、pv2……pv20计算出关键词a在过去20天内的搜索次数平均值pvv和搜索次数标准差Epv,进一步的,通过将pvv和Epv代入如下关系式,即可获得关键词a对应的突发阈值:
Q=g·pvv+h·Epv
其中,Q为突发阈值,g和h为预设的权重参数,g和h为常数。
同理的,根据上述计算突发阈值的方法,还可以计算过去20天内其他关键词的突发阈值。当然上述仅是为了清楚说明所列举的一个可能的示例并不是对本申请的唯一限定。
进一步的,本实施例中所称的目标关键词可以包括一个或者多个关键词,在获取文本时需要获取包括全部目标关键词的文本,比如,目标关键词为(某某明星,结婚),那么获取到的文本需要同时包括“某某明星”以及“结婚”这两个关键词。
当然上述仅是示例说明而不是对本申请的唯一限定。
进一步的,本实施例所称的文本可以从预先设定的数据库中获取,或者也可以通过爬取技术从网络媒体上获取,本实施例对文本的获取位置和获取方法不做具体限定。
S12、从所述多个文本的标题中提取出独立描述事件信息的短语。
一般情况下文本的标题会与正文所要描述的内容一致,即文本的标题一般会给出正文所要描述的事件的信息,这些信息一般蕴含在一个或多个独立描述事件信息的短语中,通过从文本标题中提取这些短语就能够大概判断文本描述了什么事件,从而为文本聚类提供了条件。另外,本实施例之所以从文本标题中提取上述短语是因为一方面文本标题能够反映正文的核心内容,另一方面文本正文中可以独立描述事件信息的短语较多,从正文中提取出的短语包括很多于核心事件无关的信息,而文本标题则较简短,且包含的无用信息较少,因此,基于文本标题提取上述短语则能够降低数据量,提高处理效率,并且较为关键的是基于文本标题提取上述短语能够避免超大聚类簇的形成,进而保证事件发现的准确性,而基于文本正文则无法做到这一点。
进一步的,在从文本标题中提取独立描述事件信息的短语时,本实施例提供的方法包括多种:
在一种可能的方法中,可以预先根据统计分析的方法获得一种普适的语法结构,设定符合该语法结构的短语能够独立描述事件的信息。因此,在执行上述短语的提取操作时,可以先基于预设的语法分析算法对文本标题的语法结构进行分析,当解析文本标题中存在符合上述语法结构的短语时,则将该短语从文本标题中提取出来,并记录该短语与文本之间的关联关系。
在另一种可能的方法中,若文本标题中包括标点符号和/或空格,则可以从文本标题中提取出被标点符号和/或空格分割开的短语,将该短语作为独立描述事件信息的短语。比如,文章标题为“比特币大跌迎新年,价格暴跌的原因终于曝光了”,则可以从该标题中提取出的短语为“比特币大跌迎新年”和“价格暴跌的原因终于曝光了”。当然这里仅为示例说明而不是对本申请的唯一限定。
S13、对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
举例来说,假设前述从文本题目中提取出的短语包括“xx乐队主唱去世”、“xx乐队主唱xx逝世享年50”和“xx乐队12月发布新专辑”。其中,“xx乐队主唱去世”和“xx乐队主唱xx逝世享年50”经过聚类后属于同一聚类簇,并且包括短语“xx乐队主唱去世”的文本包括q、w、e,包括短语“xx乐队主唱xx逝世享年50”的文本包括p、o、i。则将文本q、w、e、p、o、i聚在一起形成事件。
当然上述仅为示例说明而不是对本申请的唯一限定。
本实施例通过获取多个包括目标关键词的文本,从该多个文本的标题中提取出独立描述事件信息的短语,并对提取出的短语进行聚类,从而将属于同一聚类簇的短语所在的文本聚在一起,形成事件。由于本实施例在获取到多个包括目标关键词的文本后,进一步的采用了聚类的方法来形成事件,因此,能够避免因为关键词较短所导致的事件召回率低的问题,提高了事件的召回率。另外,在采用聚类方法形成事件时,本实施例是以能够独立描述事件信息的短语为基础来进行聚类的,相比于现有技术以文本正文为聚类的基础,显然能够避免超大聚类簇的形成,并且相较于文本正文,短语一般只包括一个事件,因而本实施例能够提高聚类簇的纯度,使得一个聚类簇仅包括一个事件,也就是说本实施例能够提高事件发现的准确率。
下面结合附图对上述实施例进行进一步的优化和扩展。
图3是本申请实施例提供的一种步骤S13的执行方法流程图,如图3所示,在图1实施例的基础上,该方法包括步骤S31-S34:
S31、针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本。
S32、将所述目标文本的特征词作为所述短语的特征词。
S33、基于各短语的特征词,在各短语之间进行相似度计算。
S34、将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
举例来说,假设基于前述实施例步骤s11中获取到文本s、d、f、g、j,从文本s、d、f、g、j的标题中提取获得的短语包括短语m和短语n,,其中,在文本s、d、f、g、j中,文本s、d包括短语m,文本g、j中包括短语n,则从文本s、d中提取特征词作为短语m的特征词,从文本g、j中提取特征词作为短语n的特征词,进一步的,基于短语m和短语n的特征词,计算短语m短语n之间的相似度,若短语m和短语n之间的相似度大于预设阈值,则将文本s、d、g、j聚在一起形成事件。其中,再从短语所在的文本中提取特征词时,可以从文本的正文或摘要中提取,也可以从文本的标题中提取本实施例中不做限定。
进一步的,在获得事件后,本实施例还可以建立事件与短语之间的关联关系,当用户搜索某一事件时,可以将事件与短语之间的关联关系显示给用户,以使用户可以从事件包括的多个文本中选择一个文本进行阅读,或者,只显示事件中某一个文本与短语之间的关联关系,在用户阅读该文本时,将事件中其他文本的地址作为推荐链接附在该文本中。
本实施例是独立描述事件信息的短语为基础来进行聚类的,相比于现有技术以文本正文为聚类的基础,显然能够避免超大聚类簇的形成,并且相较于文本正文,短语一般只包括一个事件,因而本实施例能够提高聚类簇的纯度,使得一个聚类簇仅包括一个事件,也就是说本实施例能够提高事件发现的准确率。
图4是本申请实施例提供的一种事件发现装置的结构示意图,如图4所示,该装置40包括:
获取模块41,用于获取多个包括目标关键词的文本;
短语挖掘模块42,用于从所述多个文本的标题中提取出独立描述事件信息的短语;
聚类模块43,用于对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
在一种可能的设计中,所述获取模块41,包括:
监控子模块,用于监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词。
在一种可能的设计中,所述装置40还包括:
第一确定模块,用于确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差;
第二确定模块,用于基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
在一种可能的设计中,所述短语挖掘模块,包括:
第一挖掘子模块,用于基于预设的语法结构,从所述多个文本的标题中提取出独立描述事件信息的短语。
在一种可能的设计中,所述短语挖掘模块,包括:
第二挖掘子模块,用于从所述多个文本的标题中提取出被标点符号和/或空格分割开的短语作为独立描述事件信息的短语。
本实施例提供的事件发现装置能够用于执行图1实施例的技术方案,其执行方式和有益效果类似在这里不再赘述。
图5是本申请实施例提供的一种聚类模块43的结构示意图,如图5所示,在图4实施例的基础上,聚类模块43包括:
获取子模块431,用于针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本;
确定子模块432,用于将所述目标文本的特征词作为所述短语的特征词;
计算子模块433,用于基于各短语的特征词,在各短语之间进行相似度计算;
事件形成子模块434,用于将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
在一种可能的设计中,所述确定子模块432,具体用于:
从所述目标文本的标题中提取特征词,将所述特征词作为所述短语的特征词。
在一种可能的设计中,所述装置40还包括:
显示模块,用于显示事件与短语之间的关联关系。
本实施例提供的事件发现装置能够用于执行图3实施例的技术方案,其执行方式和有益效果类似在这里不再赘述。
本申请实施例还提供一种计算机设备,包括:一个或多个处理器;
显示设备,用于显示事件中的文本,和/或事件与短语之间的关联关系;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
本申请实施例还提供在一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种事件发现方法,其特征在于,包括:
获取多个包括目标关键词的文本;
从所述多个文本的标题中提取出独立描述事件信息的短语;
对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
2.根据权利要求1所述的方法,其特征在于,所述获取多个包括目标关键词的文本,包括:
监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词。
3.根据权利要求2所述的方法,其特征在于,所述监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词之前,所述方法还包括:
确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差;
基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
4.根据权利要求1所述的方法,其特征在于,所述从所述多个文本的标题中提取出独立描述事件信息的短语,包括:
基于预设的语法结构,从所述多个文本的标题中提取出独立描述事件信息的短语。
5.根据权利要求1所述的方法,其特征在于,所述从所述多个文本的标题中提取出独立描述事件信息的短语,包括:
从所述多个文本的标题中提取出被标点符号和/或空格分割开的短语作为独立描述事件信息的短语。
6.根据权利要求1所述的方法,其特征在于,所述对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件,包括:
针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本;
将所述目标文本的特征词作为所述短语的特征词;
基于各短语的特征词,在各短语之间进行相似度计算;
将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标文本的特征词作为所述短语的特征词,包括:
从所述目标文本的标题中提取特征词,将所述特征词作为所述短语的特征词。
8.根据权利要求1-7中任一项所述的方法,其特征在于,在形成事件后,所述方法还包括:
显示事件与短语之间的关联关系。
9.一种事件发现装置,其特征在于,包括:
获取模块,用于获取多个包括目标关键词的文本;
短语挖掘模块,用于从所述多个文本的标题中提取出独立描述事件信息的短语;
聚类模块,用于对提取出的短语进行聚类,将属于同一聚类簇的短语所在的文本聚在一起,形成事件。
10.根据权利要求9所述的装置,其特征在于,所述获取模块,包括:
监控子模块,用于监控目标搜索引擎上同一搜索词的搜索次数,将在预设时间长度内搜索次数超过预设突发阈值的关键词作为目标关键词。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于确定目标搜索引擎在预设历史时间段内,每个搜索词的搜索次数平均值和搜索次数标准差;
第二确定模块,用于基于每个搜索词所对应的搜索次数平均值和搜索次数标准差,确定每个搜索词对应的突发阈值。
12.根据权利要求9所述的装置,其特征在于,所述短语挖掘模块,包括:
第一挖掘子模块,用于基于预设的语法结构,从所述多个文本的标题中提取出独立描述事件信息的短语。
13.根据权利要求9所述的装置,其特征在于,所述短语挖掘模块,包括:
第二挖掘子模块,用于从所述多个文本的标题中提取出被标点符号和/或空格分割开的短语作为独立描述事件信息的短语。
14.根据权利要求9所述的装置,其特征在于,所述聚类模块,包括:
获取子模块,用于针对提取出的每个短语,从所述多个文本中获取包括所述短语的文本作为目标文本;
确定子模块,用于将所述目标文本的特征词作为所述短语的特征词;
计算子模块,用于基于各短语的特征词,在各短语之间进行相似度计算;
事件形成子模块,用于将相互之间相似度高于预设阈值的短语所在的文本聚在一起,形成事件。
15.根据权利要求14所述的装置,其特征在于,所述确定子模块,具体用于:
从所述目标文本的标题中提取特征词,将所述特征词作为所述短语的特征词。
16.根据权利要求9-15中任一项所述的装置,其特征在于,所述装置还包括:
显示模块,用于显示事件与短语之间的关联关系。
17.一种计算机设备,其特征在于,包括:
一个或多个处理器;
显示设备,用于显示事件中的文本,和/或事件与短语之间的关联关系;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201810559050.1A 2018-06-01 2018-06-01 事件发现方法、装置、设备及存储介质 Active CN110633330B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810559050.1A CN110633330B (zh) 2018-06-01 2018-06-01 事件发现方法、装置、设备及存储介质
JP2019068633A JP6741110B2 (ja) 2018-06-01 2019-03-29 イベント発見方法、装置、機器及びプログラム
US16/374,693 US11210469B2 (en) 2018-06-01 2019-04-03 Method, apparatus for event detection, device and storage medium
EP19167671.7A EP3518119A1 (en) 2018-06-01 2019-04-05 Method, apparatus for event detection, device and storage medium
KR1020190045154A KR102229427B1 (ko) 2018-06-01 2019-04-17 이벤트 발견 방법, 장치, 기기 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810559050.1A CN110633330B (zh) 2018-06-01 2018-06-01 事件发现方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110633330A true CN110633330A (zh) 2019-12-31
CN110633330B CN110633330B (zh) 2022-02-22

Family

ID=66349250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810559050.1A Active CN110633330B (zh) 2018-06-01 2018-06-01 事件发现方法、装置、设备及存储介质

Country Status (5)

Country Link
US (1) US11210469B2 (zh)
EP (1) EP3518119A1 (zh)
JP (1) JP6741110B2 (zh)
KR (1) KR102229427B1 (zh)
CN (1) CN110633330B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428049A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN112650919A (zh) * 2020-11-30 2021-04-13 北京百度网讯科技有限公司 实体资讯分析方法、装置、设备及存储介质
CN113254779A (zh) * 2021-06-07 2021-08-13 北京字节跳动网络技术有限公司 内容搜索方法、装置、设备及介质
CN114579675A (zh) * 2022-05-05 2022-06-03 中科雨辰科技有限公司 一种确定共指事件的数据处理系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN111563527B (zh) * 2020-03-30 2024-02-09 北京金堤科技有限公司 异常事件检测方法以及装置
CN111967268B (zh) 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112257423B (zh) * 2020-10-21 2024-01-26 北京工业大数据创新中心有限公司 一种设备征兆信息获取方法、装置和设备运维系统
CN113221538B (zh) * 2021-05-19 2023-09-19 北京百度网讯科技有限公司 事件库构建方法和装置、电子设备、计算机可读介质
KR20230050807A (ko) * 2021-10-08 2023-04-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN116468032B (zh) * 2023-03-07 2024-04-16 北京智慧星光信息技术股份有限公司 基于自媒体信息的信息溯源方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN103020251A (zh) * 2012-12-20 2013-04-03 人民搜索网络股份公司 大规模数据下的新闻事件自动挖掘系统及其方法
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN107832444A (zh) * 2017-11-21 2018-03-23 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070095552A (ko) 2006-03-21 2007-10-01 엔에이치엔(주) 실시간 급상승 키워드 추출 방법 및 실시간 급상승 키워드추출 시스템
US8352455B2 (en) 2007-06-29 2013-01-08 Allvoices, Inc. Processing a content item with regard to an event and a location
US20090012826A1 (en) * 2007-07-02 2009-01-08 Nice Systems Ltd. Method and apparatus for adaptive interaction analytics
US8762161B2 (en) * 2008-10-06 2014-06-24 Nice Systems Ltd. Method and apparatus for visualization of interaction categorization
JP2010287143A (ja) 2009-06-15 2010-12-24 Hitachi Ltd 記事整理システム
KR101544141B1 (ko) 2013-10-07 2015-08-12 주식회사 솔트룩스 주제 기반 기사 그룹화 시스템
CN106682012B (zh) * 2015-11-06 2020-12-01 阿里巴巴集团控股有限公司 商品对象信息搜索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN103020251A (zh) * 2012-12-20 2013-04-03 人民搜索网络股份公司 大规模数据下的新闻事件自动挖掘系统及其方法
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN107832444A (zh) * 2017-11-21 2018-03-23 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428049A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN111666379B (zh) * 2020-06-11 2023-09-22 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN112650919A (zh) * 2020-11-30 2021-04-13 北京百度网讯科技有限公司 实体资讯分析方法、装置、设备及存储介质
CN112650919B (zh) * 2020-11-30 2023-09-01 北京百度网讯科技有限公司 实体资讯分析方法、装置、设备及存储介质
CN113254779A (zh) * 2021-06-07 2021-08-13 北京字节跳动网络技术有限公司 内容搜索方法、装置、设备及介质
CN113254779B (zh) * 2021-06-07 2023-05-19 抖音视界有限公司 内容搜索方法、装置、设备及介质
CN114579675A (zh) * 2022-05-05 2022-06-03 中科雨辰科技有限公司 一种确定共指事件的数据处理系统
CN114579675B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 一种确定共指事件的数据处理系统

Also Published As

Publication number Publication date
EP3518119A1 (en) 2019-07-31
KR20190055027A (ko) 2019-05-22
JP2019212292A (ja) 2019-12-12
KR102229427B1 (ko) 2021-03-19
US11210469B2 (en) 2021-12-28
CN110633330B (zh) 2022-02-22
JP6741110B2 (ja) 2020-08-19
US20190370330A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
CN110633330B (zh) 事件发现方法、装置、设备及存储介质
US10997678B2 (en) Systems and methods for image searching of patent-related documents
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
JP5916947B2 (ja) オンライン商品検索方法およびシステム
WO2017097231A1 (zh) 话题处理方法及装置
US10255363B2 (en) Refining search query results
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN107844493B (zh) 一种文件关联方法及系统
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN114549874A (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN105159938A (zh) 检索方法和装置
CN113660541B (zh) 新闻视频的摘要生成方法及装置
US11232137B2 (en) Methods for evaluating term support in patent-related documents
CN113032673A (zh) 资源的获取方法、装置、计算机设备及存储介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN111512304B (zh) 在二维方面立方体上进行方面聚类的方法和系统
CN110555108B (zh) 事件脉络生成方法、装置、设备及存储介质
CN113609847A (zh) 信息抽取方法、装置、电子设备及存储介质
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
CN110874366A (zh) 数据处理、查询方法和装置
CN112269779A (zh) 一种用于电力设备缺陷的大数据分析系统和方法
CN114491232A (zh) 信息查询方法、装置、电子设备和存储介质
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant