CN105095434A - 时效需求识别方法及装置 - Google Patents

时效需求识别方法及装置 Download PDF

Info

Publication number
CN105095434A
CN105095434A CN201510436121.5A CN201510436121A CN105095434A CN 105095434 A CN105095434 A CN 105095434A CN 201510436121 A CN201510436121 A CN 201510436121A CN 105095434 A CN105095434 A CN 105095434A
Authority
CN
China
Prior art keywords
timeliness
event
bunch
feature
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510436121.5A
Other languages
English (en)
Other versions
CN105095434B (zh
Inventor
邹红建
方高林
程军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510436121.5A priority Critical patent/CN105095434B/zh
Priority to US15/536,497 priority patent/US20170351739A1/en
Priority to PCT/CN2015/094526 priority patent/WO2017012222A1/zh
Publication of CN105095434A publication Critical patent/CN105095434A/zh
Application granted granted Critical
Publication of CN105095434B publication Critical patent/CN105095434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种时效需求识别方法及装置。方法包括:接收用户输入的搜索词;根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。本发明充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。

Description

时效需求识别方法及装置
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种时效需求识别方法及装置。
【背景技术】
用户在查询最近事件或热门人物时,不仅期望搜索结果与该事件或热门人物相关,而且还期望搜索结果是近期或最新的,即对搜索结果的时效性具有一定需求。将用户对搜索结果的时效性的需求,称为时效需求。
在一种识别时效需求的方法中,考虑到有时效需求的搜索词(query)的检索频次在某一时间点会突然增长或在某一时间段会持续增长,基于该特点,通过对用户的query进行挖掘,以挖掘出具有时效需求的query,进而识别出时效需求。但是,这种方法很大程度上依赖用户的检索行为数据,即通过query检索频次的变化特征识别出时效需求,属于基于后验知识的识别方法,识别效率较低。
【发明内容】
本发明的多个方面提供一种时效需求识别方法及装置,用以提高识别时效需求的效率。
本发明的一方面,提供一种时效需求识别方法,包括:
接收用户输入的搜索词;
根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。
本发明的另一方面,提供一种时效需求识别装置,包括:
接收模块,用于接收用户输入的搜索词;
识别模块,用于根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。
在本发明中,预先从时效站点报道的时效事件中提取出能够反映时效需求的表达特征,基于预先提取的能够反映时效需求的表达特征,判断用户输入的搜索词是否具有时效需求。预先从时效站点报道的时效事件中提取的能够反映时效需求的表达特征属于先验知识,本发明充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的时效需求识别方法的流程示意图;
图2为本发明一实施例提供的从时效站点报道的时效事件中提取表达特征的方法的流程示意图;
图3为本发明一实施例提供的步骤201的实施方式的流程示意图;
图4为本发明一实施例提供的时效需求识别装置的结构示意图;
图5为本发明另一实施例提供的时效需求识别装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人通过对突发事件/热点人物/热门话题等时效事件的报道过程以及用户的搜索行为进行分析发现,现实世界中产生突发事件/热点人物/热门话题后,首先随之在一些站点上出现最早的报道,例如新闻报道,接着会有一些用户用不同形式的query进行搜索,于是出现一些更全面深入或简单转载的报道,根据时效事件的热度不同,有不同数量的用户继续进行搜索。在该突发事件/热点人物/热门话题持续一段时间后,用户对此关注度逐步降低,报道的数量和搜索的数量也降低。由此可见,某个时效事件产生后,首先是通过一些站点,例如新闻媒体等形成报道,然后才出现用户的搜索行为。能满足用户时效需求的查询结果必然是在相应的时效事件产生并被收录之后。为便于描述,将那些能够在用户的搜索行为之前及时报道时效事件的站点称为时效站点,例如,时效站点可以是新闻站点或一些能够及时转载新事件或热门话题的博客、论坛等。
根据上述特点,本发明提供一种时效需求识别方案,其主要原理是:预先从时效站点所报道的时效事件中提取能够反映时效需求的表达特征,这样在用户输入搜索词进行搜索时,可以基于预先提取的能够反映时效需求的表达特征判断用户的搜索词是否具有时效需求,用以提高识别时效需求的效率。
图1为本发明一实施例提供的时效需求识别方法的流程示意图。如图1所示,该方法包括:
101、接收用户输入的搜索词。
102、根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,判断搜索词是否具有时效需求。
在本实施例中,在用户输入搜索词进行搜索时,基于预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,对用户输入的搜索词进行时效需求识别。预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征这一知识属于先验知识,本实施例充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,有利于更及时地识别出时效需求,提高了识别时效需求的效率。
通过本实施例提供的方法对用户输入的搜索词进行时效需求识别,有利于满足用户的搜索需求,一旦识别出用户的搜索词具有时效需求,则可以向用户推荐与搜索词相关且满足时效需求的搜索结果,便于用户快速从搜索结果中获取所需的信息,提高用户对搜索结果的满意度。
在实施本实施例提供的时效需求识别方法之前,需要预先从时效站点报道的时效事件中提取出能够反映时效需求的表达特征。一种从时效站点报道的时效事件中提取表达特征的实施方式如图2所示,包括:
201、获取时效站点。
202、从时效站点报道的时效事件中,提取能够反映时效需求的表达特征。
203、存储表达特征。
在步骤203中,不限定表达特征的存储形式,例如可以将表达特征存储到特征词典、数据库或信息列表等中。
其中,步骤201,即获取时效站点的一种实施方式,如图3所示,包括:
2011、获取在距当前指定时间段内报道过新的时效事件的站点作为初始站点。
2012、统计初始站点的点击展现率、引用率及报道及时度中的至少一个。
2013、根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从所述初始站点中选择站点作为所述时效站点,直到所述时效站点对时效事件的覆盖率大于预设覆盖率门限为止。
在上述步骤2011中,所述距当前指定时间段内中的指定时间段可以是半年、一个月或两周等,则距当前指定时间段内可以是距当前半年内、距当前一个月内或距当前两周内等等。即在获取时效站点之前,首先获取在距当前半年、一个月或两周内等报道过新的时效事件的站点作为初始站点。
可选的,在获得初始站点之后,可以去除初始站点中的低质站点,所述低质站点是指站点质量低于质量门限的站点,例如已知的作弊站点或商品站点等。通过对初始站点进行过滤可以降低低质站点带来的不利影响,有利于提高后续提取到的表达特征的精度。
在上述步骤2012中,初始站点的点击展现率可以通过初始站点报道的时效事件的点击展现率获得。初始站点报道的时效事件的点击展现率是指对该初始站点报道的时效事件被点击次数与被展现次数进行加权平均获得的结果。
初始站点的引用率可以通过初始站点报道的时效事件的引用率获得。初始站点报道的时效事件的引用率是指时效事件在该初始站点上被其他站点引用或转载的次数与该时效事件被其它站点引用或转载的总次数的比值。
初始站点的报道及时度可以通过初始站点报道时效事件的时间与时效事件的发生时间之间的平均时间间隔来体现。该平均时间间隔越短,说明报道越及时,站点的时效性越强;该平均时间间隔越长,说明报道及时性越差,站点的时效性越差。例如,其中,初始站点报道时效事件的时间与时效事件的发生时间之间的平均时间间隔可以采用以下方式获取:选定若干历史时效事件,统计该初始站点报道每个历史时效事件的时间与每个历史时效事件的产生时间之间的时间间隔,再取若干个时间间隔的平均值。
值得说明的是,时效站点可以通过点击展现率、引用率及报道及时度中的任一标准来衡量,也可以同时采用任意两个来衡量,最为优选的同时采用三个标准进行衡量。
在上述步骤2013中,其中,若时效站点的数量过少,则对时效事件的覆盖不足,若时效站点的数量过多,对时效事件的覆盖情况会改善,但是误召回会增多。于是,本实施例设定覆盖率范围。基于该覆盖率范围保证选择的时效站点不会过少也不会过多,以便于同时获得高准确与高召回率。另外,预先设定选择阈值,该选择阈值与点击展现率、引用率以及报道及时度中的至少一个相对应。则上述步骤2013具体为:
根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足选择阈值的站点作为时效站点;计算时效站点对时效事件的覆盖率,若计算出的覆盖率位于预设的覆盖率范围内,则结束操作;若覆盖率未位于覆盖率范围内,则调整上述选择阈值,并继续根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足调整后的选择阈值的站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内。
下面对选择阈值与上述选择时效站点依据的标准之间的对应关系进行举例说明。例如,若上述选择时效站点依据的标准是点击展现率,则选择阈值为点击展现率对应的阈值,例如可以选择点击展现率大于该阈值的初始站点作为时效站点;若上述选择时效站点依据的标准是引用率,则选择阈值为引用率对应的阈值,例如可以选择引用率大于该阈值的初始站点作为时效站点;若上述选择时效站点依据的标准是点击展现率、引用率和报道及时度,则选择阈值可以包括点击展现率对应的阈值、引用率对应的阈值以及报道及时度对应的阈值,则可以选择点击展现率、引用率和报道及时度分别大于相应阈值的初始站点作为时效站点;或者,该选择阈值也可以是对应于点击展现率、引用率和报道及时度三者的加权平均的阈值,则可以对点击展现率、引用率和报道及时度进行加权平均,选择加权平均结果大于该阈值的初始站点作为时效站点。
上述时效站点对时效事件的覆盖率可以采用以下方式来获得:
选定过去一段时间,简称为历史时间段,确定该历史时间段内产生的时效事件,对于这些时效事件,统计所有时效站点报道过的时效事件的数量,将该数量与该历史时间段内产生的时效事件的总数相比,将结果作为时效站点对时效事件的覆盖率。
其中,不同站点对同一时效事件的报道角度和重点会有所不同。即使同一报道角度,表达的形式也会有变化。例如,2015年5月27日关于黄晓明和AngelaBaby注册结婚的事件,相关报道的标题有“黄晓明Angelababy27日下午领证”、“黄晓明Angelababy领证”、“黄晓明晒结婚证与baby10月结婚”、“黄晓明和Baby青岛领证”、“黄晓明Baby领证啦!黄教主终抱得美人归”、“黄晓明Baby领证完婚”等。
这些报道的表达形式不同,但是都出现了“黄晓明”、“Baby/Angelababy”、“领证/结婚证/注册结婚/完婚”等词语。这些词语及其组合形式,表达了时效事件/热门人物的核心内容。在上述那些词语及其组合形式中,一些词语可以从时效事件的标题中提取,称之为标题特征,一些词可以对时效事件形成的事件簇进行时效需求挖掘获取,称之为事件簇特征。事件簇特征一般包括能够反映时效事件的核心词和该核心词的共现词。例如,上述例子中,“黄晓明”、“Baby/Angelababy”、“结婚/领证”等属于核心词;上述例子中的“青岛”、“民政局”、“27日”等属于“黄晓明Baby结婚”这个事件簇中的共现词。
其中,无论是标题特征还是事件簇特征都可以用来识别用户的query是否有时效需求,因此统称为能够反映时效需求的表达特征。也就是说,时效需求的表达特征是指那些在当前或特定时间范围内,表征时效需求的表达形式,其语言形式包括句子、短语、n-gram、词语共现对等。
基于上述分析,上述步骤202的一种实现方式具体包括:
从时效事件的标题中提取能够反映时效需求的标题特征;
对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征。
进一步,上述从时效事件的标题中提取能够反映时效需求的标题特征的实施方式包括:
将每个时效事件的标题作为输入;
设置标题的初始权值;
对标题分词、标记词性、识别实体类型,去除其中的停用词等处理,以获得标题特征;
对标题特征中的分词进行频次统计;
如果标题特征中属于设定词类以及设定实体类型的分词的频次低于一定阈值,则将该标题特征的权值调低;其余标题特征的权值不变;
经过上述处理可以获得标题特征以及标题特征的权值;
存储上述标题特征以及标题特征的权值。
进一步,上述对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征的实施方式包括:
对时效事件进行分词,以获得时效事件中的分词;
根据时效事件中的分词对时效事件进行聚类,以获得至少一个事件簇;
对至少一个事件簇中的每个事件簇,统计该事件簇内的分词的频次和文档频次;
根据该事件簇内的分词的频次和文档频次,从该事件簇内的分词中选择事件簇的核心词和核心词的共现词以构成事件簇对应的事件簇特征。
在上述实施方式中,对时效事件进行聚类可以采用以下方式:
采用KNN或层次聚类等方法对时效事件进行聚类;或者统计时效事件中的高频分词的频次和文档频次,过滤停用词后,选取频次和文档频次大于一定阈值的分词作为聚类的种子词,将包含相同种子词的时效事件聚为一类,即事件簇。
值得说明的,在上述实施方式中,除了输出核心词以及共现词之外,还可以输出核心词以及共现词的权值,以便于后续时效需求识别过程使用。本实施例并不限定权值的实现方式,例如可以将各分词(包括核心词和共现词)的频次、文档频次或者频次和文档频次的组合作为分词的权值,或者也可以对频次和/或文档频次进行加权处理作为分词的权值,或者,也可以人工设定核心词和共现词的权值,等等。值得说明的是,核心词的权值理论上要大于共现词的权值。
除上述方式之外,还可以采用共现对挖掘的思路来获取事件簇特征中的共现对。该思路的具体实现如下:
对时效事件进行分词,以获得时效事件中的分词;
以单个句子为单位,计算每个句子包含的分词的重要度;
统计上述分词的共现对的频次和文档频次(DF,即散布的文档数),并计算共现对的点互信息(PMI);
对每个共现对,将单个句子内该共现对包含的词语的重要度进行累加作为共现对在该句子内的重要度,则将共现对在所有句子内的重要度的最大值作为该共现对的重要度;
过滤频次、文档频次、点互信息、重要度低于一定阈值的共现对;
结合频次、文档频次、点互信息,对共现对的重要度进行调整,作为共现对的最终权值,输出该共现对及其权值。
另外,还可以采用基于模板挖掘的思路来获取事件簇特征中的共现对。该思路的具体实现如下:
从表达时效信息的新闻文本或者已知具有时效需求的query集合,以人工总结或自动方式获取表达时效性事件的模版,例如“**发生**”、“**地震”、“**事件”。基于这些模版对时效站点报道的时效事件进行匹配,得到表达时效事件/热门话题的词语,并根据频次、文档频次进行筛选,从而获得核心词和共现词。
进一步,在获得表征特征之后,例如在采用上述各种实施方式获得表达特征之后,还可以对表征特征进行过滤,去除表达特征中不能反映时效需求的表达特征。
在一种实施方式中,是预先设定非时效词典,该非时效词典中存储一些不能反映时效需求的词语。基于此,可以依据预设的非时效词典识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征。
在另一种实施方式中,可以依据没有时效需求的历史事件识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征。基于没有时效需求的历史事件识别不能反映时效需求的表达特征的过程可以是:统计表达特征在历史事件中和上述时效事件中的匹配结果数并计算熵值,若该熵值大于一定阈值,表明该表达特征对没有时效需求的历史事件和时效事件的区分性不强,说明其对时效需求的反映能力较差,于是将其作为不能反映时效需求的表达特征,需要将其过滤掉。
进一步,为了丰富所提取到的表达特征,以便提高对时效需求识别的准确度,在上述方法中,还可以根据用户的历史搜索行为数据,对上述表达特征进行补充。例如,可以将用户的历史搜索行为数据与上述时效站点报道的时效事件相结合,一起作为输入数据,从中提取更为丰富的表达特征。或者,也可以单独根据用户的历史搜索行为数据提取表达特征,将所提取的表达特征加入基于时效站点报道的时效事件所提取的表达特征,从而形成更为丰富的表达特征。这里用户的历史搜索行为数据是指用户在历史搜索过程中使用搜索词进行搜索的行为数据,主要是指搜索词的搜索频次在某一时间点突然增长或在某一时间段持续增长的频次变化信息。
基于上述提取表达特征的各实施方式,可知,表达特征可以包括从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征。基于此,步骤102的一种具体实施方式包括:
判断所述搜索词是否属于标题特征或事件簇特征;
若判断结果为搜索词属于标题特征或事件簇特征,确定搜索词具有时效需求;
若判断结果为搜索词不属于标题特征且不属于事件簇特征,确定搜索词不具有时效需求。
进一步,上述判断搜索词是否属于标题特征或事件簇特征,包括:
判断标题特征中是否存在与搜索词的相似度大于预设相似度门限的标题特征;
若判断结果为存在,确定搜索词属于标题特征;
若判断结果为不存在,根据搜索词和事件簇特征,获得搜索词对应的事件簇概率,判断事件簇概率是否大于预设的概率门限;
若判断结果为是,确定搜索词属于所述事件簇特征;
若判断结果为否,确定搜索词不属于标题特征且不属于事件簇特征。
值得说明的是,上述相似度大于预设相似度门限包括相同的情况。其中,相似度算法可以采用但不限于:编辑距离、Jaccard相似系数、余弦夹角等。
进一步,基于上述提取表达特征的实施方式可知,上述事件簇特征包括事件簇特征对应的事件簇的核心词和核心词的共现词。基于此,上述根据搜索词和事件簇特征,获得搜索词对应的事件簇概率的实施过程包括:
对搜索词进行分词处理,以获得搜索词中的分词;在分词过程中,还可以进行标记词性、识别实体类型等可选处理;
获取核心词属于搜索词中的分词的事件簇特征作为待用事件簇特征;即通过判断用户输入的搜索词中的分词是否包含事件簇特征中的核心词,来确定该搜索词是否可能属于某个或多个事件簇;如果判断结果为是,则意味着该搜索词可能输入核心词包含在该搜索词中的分词中的事件簇特征(即待用事件簇特征)对应的事件簇;反之,则不属于;
对搜索词中的分词在搜索词中的重要度和搜索词中的分词在待用事件簇特征中匹配到的词语的权值进行加权处理,以获得搜索词属于待用事件簇特征的概率;其中,该概率越大,说明该搜索词属于待用事件簇特征的概率越大,有时效需求的概率越大;对搜索词中的分词在搜索词中的重要度可以理解为该分词占了该搜索词的全部信息的比例;
获取搜索词属于待用事件簇特征的概率中的最大概率作为搜索词对应的事件簇概率。若存在多个待用事件簇特征,则从中选择最大概率作为搜索词的事件簇概率。
进一步,若未能采用本实施例提供的时效需求识别方法识别出具有时效需求,则可以进一步采用现有技术存在的其它方式,例如基于用户搜索行为数据这一后验知识进行进一步识别。
值得说明的是,本实施例提供的时效需求识别方法可以应用于各种搜索场景,例如可以用于图片搜索场景中,或者也可以用于文本搜索场景中。根据搜索场景的不同,用户输入的搜索词的实现形式也有所不同,因此本实施例并不限定用户输入的搜索词的形式,其可以是文本、音频、视频、图片等中的至少一种或其组合。
综上可知,本实施例基于预先提取的能够反映时效需求的表达特征,判断用户输入的搜索词是否具有时效需求。预先从时效站点报道的时效事件中提取的能够反映时效需求的表达特征属于先验知识,本实施例充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图4为本发明一实施例提供的时效需求识别装置的结构示意图。如图4所示,该装置包括:接收模块41和识别模块42。
接收模块41,用于接收用户输入的搜索词。
识别模块42,用于根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别接收模块41接收的搜索词是否具有时效需求。
在一可选实施方式中,上述表达特征包括:从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征。则识别模块42具体可用于:
判断搜索词是否属于标题特征或事件簇特征;
若判断结果为搜索词属于标题特征或事件簇特征,确定搜索词具有时效需求;
若判断结果为搜索词不属于标题特征且不属于事件簇特征,确定搜索词不具有时效需求。
进一步,识别模块42在判断搜索词是否属于标题特征或事件簇特征时,具体用于:
判断标题特征中是否存在与搜索词的相似度大于预设相似度门限的标题特征;
若判断结果为存在,确定搜索词属于标题特征;
若判断结果为不存在,根据搜索词和事件簇特征,获得搜索词对应的事件簇概率,判断事件簇概率是否大于预设的概率门限;
若判断结果为是,确定搜索词属于事件簇特征;
若判断结果为否,确定搜索词不属于标题特征且不属于事件簇特征。
更进一步,上述事件簇特征包括事件簇特征对应的事件簇的核心词和核心词的共现词。基于此,识别模块42在根据搜索词和事件簇特征,获得搜索词对应的事件簇概率时,具体用于:
对搜索词进行分词处理,以获得搜索词中的分词;
获取核心词属于搜索词中的分词的事件簇特征作为待用事件簇特征;
对搜索词中的分词在搜索词中的重要度和搜索词中的分词在待用事件簇特征中匹配到的词语的权值进行加权处理,以获得搜索词属于待用事件簇特征的概率;
获取搜索词属于待用事件簇特征的概率中的最大概率作为搜索词对应的事件簇概率。
进一步,如图5所示,该装置还包括:获取模块51、提取模块52和存储模块53。
获取模块51,用于在识别模块52使用表达特征对用户输入的搜索词进行时效需求识别之前,获取时效站点。
提取模块52,用于从获取模块51获取的时效站点报道的时效事件中,提取能够反映时效需求的表达特征;
存储模块53,用于存储提取模块52提取的表达特征。
在一可选实施方式中,获取模块51具体可用于:
获取在距当前指定时间段内报道过新的时效事件的站点作为初始站点,指定时间段是指与当前相距指定时间间隔的时间段;
统计初始站点的点击展现率、引用率及报道及时度中的至少一个;
根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内。
上述距当前指定时间段内中的指定时间段可以是半年、一个月或两周等,则距当前指定时间段内可以是距当前半年内、距当前一个月内或距当前两周内等等。即在获取时效站点之前,首先获取在距当前半年、一个月或两周内等报道过新的时效事件的站点作为初始站点。
上述初始站点的点击展现率可以通过初始站点报道的时效事件的点击展现率获得。初始站点报道的时效事件的点击展现率是指对该初始站点报道的时效事件被点击次数与被展现次数进行加权平均获得的结果。
上述初始站点的引用率可以通过初始站点报道的时效事件的引用率获得。初始站点报道的时效事件的引用率是指时效事件在该初始站点上被其他站点引用或转载的次数与该时效事件被其它站点引用或转载的总次数的比值。
上述初始站点的报道及时度可以通过初始站点报道时效事件的时间与时效事件的发生时间之间的平均时间间隔来体现。该平均时间间隔越短,说明报道越及时,站点的时效性越强;该平均时间间隔越长,说明报道及时性越差,站点的时效性越差。例如,其中,初始站点报道时效事件的时间与时效事件的发生时间之间的平均时间间隔可以采用以下方式获取:选定若干历史时效事件,统计该初始站点报道每个历史时效事件的时间与每个历史时效事件的产生时间之间的时间间隔,再取若干个时间间隔的平均值。
进一步,获取模块51在根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内时,具体用于:
根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足选择阈值的站点作为时效站点;计算时效站点对时效事件的覆盖率,若计算出的覆盖率位于预设的覆盖率范围内,则结束操作;若覆盖率未位于覆盖率范围内,则调整上述选择阈值,并继续根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足调整后的选择阈值的站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内。
在一可选实施方式中,提取模块52具体可用于:
从时效事件的标题中提取能够反映时效需求的标题特征;
对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征。
进一步,提取模块52在从时效事件的标题中提取能够反映时效需求的标题特征时,具体可用于:
将每个时效事件的标题作为输入;
设置标题的初始权值;
对标题分词、标记词性、识别实体类型,去除其中的停用词等处理,以获得标题特征;
对标题特征中的分词进行频次统计;
如果标题特征中属于设定词类以及设定实体类型的分词的频次低于一定阈值,则将该标题特征的权值调低;其余标题特征的权值不变;
经过上述处理可以获得标题特征以及标题特征的权值;
存储上述标题特征以及标题特征的权值。
进一步,提取模块52在对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征时,具体可用于:
对时效事件进行分词,以获得时效事件中的分词;
根据时效事件中的分词对时效事件进行聚类,以获得至少一个事件簇;
对至少一个事件簇中的每个事件簇,统计事件簇内的分词的频次和文档频次;
根据事件簇内的分词的频次和文档频次,从事件簇内的分词中选择事件簇的核心词和核心词的共现词以构成事件簇对应的事件簇特征。
提取模块52在根据时效事件中的分词对时效事件进行聚类,以获得至少一个事件簇,具体可用于:
采用KNN或层次聚类等方法对时效事件进行聚类;或者统计时效事件中的高频分词的频次和文档频次,过滤停用词后,选取频次和文档频次大于一定阈值的分词作为聚类的种子词,将包含相同种子词的时效事件聚为一类,即事件簇。
在一可选实施方式中,如图5所示,该装置还包括:过滤模块54。
过滤模块54,用于执行以下至少一种过滤处理:
去除初始站点中的低质站点,低质站点是指站点质量低于质量门限的站点;
依据预设的非时效词典识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征;
依据没有时效需求的历史事件识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征。具体的,统计表达特征在历史事件中和上述时效事件中的匹配结果数并计算熵值,若该熵值大于一定阈值,表明该表达特征对没有时效需求的历史事件和时效事件的区分性不强,说明其对时效需求的反映能力较差,于是将其作为不能反映时效需求的表达特征,需要将其过滤掉。
在一可选实施方式中,如图5所示,该装置还包括:补充模块55。
补充模块55,用于根据用户的历史搜索行为数据,对表达特征进行补充。
例如,补充模块55可以将用户的历史搜索行为数据与上述时效站点报道的时效事件相结合,一起作为输入数据,以便于提取模块52从中提取更为丰富的表达特征。或者,补充模块55也可以单独根据用户的历史搜索行为数据提取表达特征,将所提取的表达特征加入基于时效站点报道的时效事件所提取的表达特征,从而形成更为丰富的表达特征。这里用户的历史搜索行为数据是指用户在历史搜索过程中使用搜索词进行搜索的行为数据,主要是指搜索词的搜索频次在某一时间点突然增长或在某一时间段持续增长的频次变化信息。
本实施例提供的时效需求识别装置,预先从时效站点报道的时效事件中提取出能够反映时效需求的表达特征,基于预先提取的能够反映时效需求的表达特征,判断用户输入的搜索词是否具有时效需求。预先从时效站点报道的时效事件中提取的能够反映时效需求的表达特征属于先验知识,本实施例提供的时效需求识别装置充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

1.一种时效需求识别方法,其特征在于,包括:
接收用户输入的搜索词;
根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。
2.根据权利要求1所述的方法,其特征在于,所述表达特征包括:从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征;
所述根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求,包括:
判断所述搜索词是否属于所述标题特征或所述事件簇特征;
若判断结果为所述搜索词属于所述标题特征或所述事件簇特征,确定所述搜索词具有时效需求;
若判断结果为所述搜索词不属于所述标题特征且不属于所述事件簇特征,确定所述搜索词不具有时效需求。
3.根据权利要求2所述的方法,其特征在于,所述判断所述搜索词是否属于所述标题特征或所述事件簇特征,包括:
判断所述标题特征中是否存在与所述搜索词的相似度大于预设相似度门限的标题特征;
若判断结果为存在,确定所述搜索词属于所述标题特征;
若判断结果为不存在,根据所述搜索词和所述事件簇特征,获得所述搜索词对应的事件簇概率,判断所述事件簇概率是否大于预设的概率门限;
若判断结果为是,确定所述搜索词属于所述事件簇特征;
若判断结果为否,确定所述搜索词不属于所述标题特征且不属于所述事件簇特征。
4.根据权利要求3所述的方法,其特征在于,所述事件簇特征包括所述事件簇特征对应的事件簇的核心词和所述核心词的共现词;
所述根据所述搜索词和所述事件簇特征,获得所述搜索词对应的事件簇概率,包括:
对所述搜索词进行分词处理,以获得所述搜索词中的分词;
获取核心词属于所述搜索词中的分词的事件簇特征作为待用事件簇特征;
对所述搜索词中的分词在所述搜索词中的重要度和所述搜索词中的分词在所述待用事件簇特征中匹配到的词语的权值进行加权处理,以获得所述搜索词属于所述待用事件簇特征的概率;
获取所述搜索词属于所述待用事件簇特征的概率中的最大概率作为所述搜索词对应的事件簇概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求之前,包括:
获取时效站点;
从所述时效站点报道的时效事件中,提取能够反映时效需求的表达特征;
存储所述表达特征。
6.根据权利要求5所述的方法,其特征在于,所述获取时效站点,包括:
获取在距当前指定时间段内报道过新的时效事件的站点作为初始站点,所述指定时间段是指与当前相距指定时间间隔的时间段;
统计所述初始站点的点击展现率、引用率及报道及时度中的至少一个;
根据所述初始站点的点击展现率、引用率以及报道及时度中的至少一个,从所述初始站点中选择站点作为所述时效站点,直到所述时效站点对时效事件的覆盖率位于预设覆盖率范围内。
7.根据权利要求6所述的方法,其特征在于,所述从所述时效站点报道的时效事件中,提取能够反映所述时效需求的表达特征,包括:
从所述时效事件的标题中提取能够反映时效需求的标题特征;
对所述时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征,包括:
对所述时效事件进行分词,以获得所述时效事件中的分词;
根据所述时效事件中的分词对所述时效事件进行聚类,以获得至少一个事件簇;
对所述至少一个事件簇中的每个事件簇,统计所述事件簇内的分词的频次和文档频次;
根据所述事件簇内的分词的频次和文档频次,从所述事件簇内的分词中选择所述事件簇的核心词和所述核心词的共现词以构成所述事件簇对应的事件簇特征。
9.根据权利要求6所述的方法,其特征在于,还包括以下至少一种过滤处理:
去除所述初始站点中的低质站点,所述低质站点是指站点质量低于质量门限的站点;
依据预设的非时效词典识别出所述表达特征中不能反映时效需求的表达特征,去除所述表达特征中不能反映时效需求的表达特征;
依据没有时效需求的历史事件识别出所述表达特征中不能反映时效需求的表达特征,去除所述表达特征中不能反映时效需求的表达特征。
10.根据权利要求5所述的方法,其特征在于,还包括:
根据所述用户的历史搜索行为数据,对所述表达特征进行补充。
11.一种时效需求识别装置,其特征在于,包括:
接收模块,用于接收用户输入的搜索词;
识别模块,用于根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。
12.根据权利要求11所述的装置,其特征在于,所述表达特征包括:从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征;
所述识别模块具体用于:
判断所述搜索词是否属于所述标题特征或所述事件簇特征;
若判断结果为所述搜索词属于所述标题特征或所述事件簇特征,确定所述搜索词具有时效需求;
若判断结果为所述搜索词不属于所述标题特征且不属于所述事件簇特征,确定所述搜索词不具有时效需求。
13.根据权利要求12所述的装置,其特征在于,所述识别模块具体用于:
判断所述标题特征中是否存在与所述搜索词的相似度大于预设相似度门限的标题特征;
若判断结果为存在,确定所述搜索词属于所述标题特征;
若判断结果为不存在,根据所述搜索词和所述事件簇特征,获得所述搜索词对应的事件簇概率,判断所述事件簇概率是否大于预设的概率门限;
若判断结果为是,确定所述搜索词属于所述事件簇特征;
若判断结果为否,确定所述搜索词不属于所述标题特征且不属于所述事件簇特征。
14.根据权利要求13所述的装置,其特征在于,所述事件簇特征包括所述事件簇特征对应的事件簇的核心词和所述核心词的共现词;
所述识别模块具体用于:
对所述搜索词进行分词处理,以获得所述搜索词中的分词;
获取核心词属于所述搜索词中的分词的事件簇特征作为待用事件簇特征;
对所述搜索词中的分词在所述搜索词中的重要度和所述搜索词中的分词在所述待用事件簇特征中匹配到的词语的权值进行加权处理,以获得所述搜索词属于所述待用事件簇特征的概率;
获取所述搜索词属于所述待用事件簇特征的概率中的最大概率作为所述搜索词对应的事件簇概率。
15.根据权利要求11-14任一项所述的装置,其特征在于,还包括:
获取模块,用于获取时效站点;
提取模块,用于从所述时效站点报道的时效事件中,提取能够反映时效需求的表达特征;
存储模块,用于存储所述表达特征。
16.根据权利要求15所述的装置,其特征在于,所述获取模块具体用于:
获取在距当前指定时间段内报道过新的时效事件的站点作为初始站点,所述指定时间段是指与当前相距指定时间间隔的时间段;
统计所述初始站点的点击展现率、引用率及报道及时度中的至少一个;
根据所述初始站点的点击展现率、引用率以及报道及时度中的至少一个,从所述初始站点中选择站点作为所述时效站点,直到所述时效站点对时效事件的覆盖率位于预设覆盖率范围内。
17.根据权利要求16所述的装置,其特征在于,所述提取模块具体用于:
从所述时效事件的标题中提取能够反映时效需求的标题特征;
对所述时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征。
18.根据权利要求17所述的装置,其特征在于,所述提取模块具体用于:
对所述时效事件进行分词,以获得所述时效事件中的分词;
根据所述时效事件中的分词对所述时效事件进行聚类,以获得至少一个事件簇;
对所述至少一个事件簇中的每个事件簇,统计所述事件簇内的分词的频次和文档频次;
根据所述事件簇内的分词的频次和文档频次,从所述事件簇内的分词中选择所述事件簇的核心词和所述核心词的共现词以构成所述事件簇对应的事件簇特征。
19.根据权利要求16所述的装置,其特征在于,还包括:
过滤模块,用于执行以下至少一种过滤处理:
去除所述初始站点中的低质站点,所述低质站点是指站点质量低于质量门限的站点;
依据预设的非时效词典识别出所述表达特征中不能反映时效需求的表达特征,去除所述表达特征中不能反映时效需求的表达特征;
依据没有时效需求的历史事件识别出所述表达特征中不能反映时效需求的表达特征,去除所述表达特征中不能反映时效需求的表达特征。
20.根据权利要求15所述的装置,其特征在于,还包括:
补充模块,用于根据所述用户的历史搜索行为数据,对所述表达特征进行补充。
CN201510436121.5A 2015-07-23 2015-07-23 时效需求识别方法及装置 Active CN105095434B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510436121.5A CN105095434B (zh) 2015-07-23 2015-07-23 时效需求识别方法及装置
US15/536,497 US20170351739A1 (en) 2015-07-23 2015-11-13 Method and apparatus for identifying timeliness-oriented demands, an apparatus and non-volatile computer storage medium
PCT/CN2015/094526 WO2017012222A1 (zh) 2015-07-23 2015-11-13 时效需求识别方法、装置、设备及非易失性计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510436121.5A CN105095434B (zh) 2015-07-23 2015-07-23 时效需求识别方法及装置

Publications (2)

Publication Number Publication Date
CN105095434A true CN105095434A (zh) 2015-11-25
CN105095434B CN105095434B (zh) 2019-03-29

Family

ID=54575871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510436121.5A Active CN105095434B (zh) 2015-07-23 2015-07-23 时效需求识别方法及装置

Country Status (3)

Country Link
US (1) US20170351739A1 (zh)
CN (1) CN105095434B (zh)
WO (1) WO2017012222A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类系统及方法
CN111241379A (zh) * 2018-11-28 2020-06-05 阿里巴巴集团控股有限公司 搜索结果的处理方法、装置、电子设备及计算机可读介质
CN111310018A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种时效性搜索词汇的确定方法及搜索引擎
CN111310017A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种时效性场景内容的生成方法及装置
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844641A (zh) * 2017-01-20 2017-06-13 百度在线网络技术(北京)有限公司 图片搜索结果页的展示方法、装置、设备及存储介质
US10599857B2 (en) * 2017-08-29 2020-03-24 Micro Focus Llc Extracting features for authentication events
US10984099B2 (en) 2017-08-29 2021-04-20 Micro Focus Llc Unauthorized authentication events
US11122064B2 (en) 2018-04-23 2021-09-14 Micro Focus Llc Unauthorized authentication event detection
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073684A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN103136219A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种基于时效性的需求挖掘方法和装置
US20140280242A1 (en) * 2013-02-25 2014-09-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring hot topics

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124284A1 (en) * 2005-11-29 2007-05-31 Lin Jessica F Systems, methods and media for searching a collection of data, based on information derived from the data
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
US8412699B1 (en) * 2009-06-12 2013-04-02 Google Inc. Fresh related search suggestions
US8886641B2 (en) * 2009-10-15 2014-11-11 Yahoo! Inc. Incorporating recency in network search using machine learning
US20130085745A1 (en) * 2011-10-04 2013-04-04 Salesforce.Com, Inc. Semantic-based approach for identifying topics in a corpus of text-based items
US10902067B2 (en) * 2013-04-24 2021-01-26 Leaf Group Ltd. Systems and methods for predicting revenue for web-based content
US10127300B2 (en) * 2013-12-23 2018-11-13 International Business Machines Corporation Mapping relationships using electronic communications data
US10798193B2 (en) * 2015-06-03 2020-10-06 Oath Inc. System and method for automatic storyline construction based on determined breaking news

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073684A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN103136219A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种基于时效性的需求挖掘方法和装置
US20140280242A1 (en) * 2013-02-25 2014-09-18 Tencent Technology (Shenzhen) Company Limited Method and apparatus for acquiring hot topics

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类系统及方法
CN111241379A (zh) * 2018-11-28 2020-06-05 阿里巴巴集团控股有限公司 搜索结果的处理方法、装置、电子设备及计算机可读介质
CN111241379B (zh) * 2018-11-28 2023-04-25 阿里巴巴集团控股有限公司 搜索结果的处理方法、装置、电子设备及计算机可读介质
CN111310018A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种时效性搜索词汇的确定方法及搜索引擎
CN111310017A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种时效性场景内容的生成方法及装置
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111310017B (zh) * 2018-12-11 2023-05-12 阿里巴巴集团控股有限公司 一种时效性场景内容的生成方法及装置
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111310018B (zh) * 2018-12-11 2024-03-01 阿里巴巴集团控股有限公司 一种时效性搜索词汇的确定方法及搜索引擎

Also Published As

Publication number Publication date
WO2017012222A1 (zh) 2017-01-26
US20170351739A1 (en) 2017-12-07
CN105095434B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN105095434A (zh) 时效需求识别方法及装置
CN102193936B (zh) 一种数据分类的方法及装置
CN107193962B (zh) 一种互联网推广信息的智能配图方法及装置
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
CN104915447A (zh) 一种热点话题追踪及关键词确定方法及装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
KR20210038467A (ko) 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체
CN114549874A (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN104142999A (zh) 搜索结果展示方法及装置
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN113051362A (zh) 数据的查询方法、装置和服务器
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN113806660A (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN105045882A (zh) 一种热词处理方法及装置
CN105405051A (zh) 金融事件预测方法和装置
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
CN107665442B (zh) 获取目标用户的方法及装置
CN112667814A (zh) 热词的发现方法及系统
CN105608183A (zh) 一种提供聚合类型回答的方法和装置
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant