CN110222147A - 标签扩充方法、装置、计算机设备及存储介质 - Google Patents

标签扩充方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110222147A
CN110222147A CN201910403290.7A CN201910403290A CN110222147A CN 110222147 A CN110222147 A CN 110222147A CN 201910403290 A CN201910403290 A CN 201910403290A CN 110222147 A CN110222147 A CN 110222147A
Authority
CN
China
Prior art keywords
inquiry
similar
label
query
historical query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910403290.7A
Other languages
English (en)
Inventor
杨晨
杨天行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910403290.7A priority Critical patent/CN110222147A/zh
Publication of CN110222147A publication Critical patent/CN110222147A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了标签扩充方法、装置、计算机设备及存储介质,其中方法可包括:针对包含已有标签的第一查询,从日志记录的历史查询中筛选出第一查询的相似查询;通过依存关系分析,对相似查询进行标签抽取;将抽取出的非已有标签作为扩充出的标签。应用本发明所述方案,能够提高处理结果的准确性及效率等。

Description

标签扩充方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及标签扩充方法、装置、计算机设备及存储介质。
【背景技术】
标签(tag)是描述实体特征的属性,一般用于满足泛需求问答。比如,“描写春天的句子”,其中的“春天”即为一个tag,也可以是短语形式,如“适合发朋友圈的说说”,其中的“适合发朋友圈”即为一个tag。
目前的影视泛需求问答、汉语句子泛需求问答以及人物泛需求问答等产品大多数都是基于tag进行召回,相应地,扩充tag体系,可丰富展现结果。比如,影视泛需求问答中,用户输入的查询(query)为“爱情电影”,其中的“爱情”为tag,可召回相关的电影,并可将tag体系中与“爱情”语义相似的“言情”或“恋爱”电影也作为召回结果返回,但如果tag体系中不存在“言情”或“恋爱”这些tag,则无法召回相关的电影。
为了扩充/丰富tag体系,通常采用以下方式:基于模式(pattern)规则从日志记录的query中获取对应的tag,如人工配置“描写***的句子”的pattern,相应地,可从日志中记录的query中获取到“***”,如最终获取到“春天”、“天空”等。但上述方式产生的杂质较多,而且对于不在pattern规则内的query不能解析出对应的tag,准确性和效率均较差。
【发明内容】
有鉴于此,本发明提供了标签扩充方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种标签扩充方法,包括:
针对包含已有标签的第一查询,从日志记录的历史查询中筛选出所述第一查询的相似查询;
通过依存关系分析,对所述相似查询进行标签抽取;
将抽取出的非已有标签作为扩充出的标签。
根据本发明一优选实施例,所述从日志记录的历史查询中筛选出所述第一查询的相似查询包括:
根据所述日志获取所述第一查询对应的展现结果的统一资源定位符URL列表;
针对任一历史查询,根据所述日志获取所述历史查询对应的展现结果的URL列表;
比较所述历史查询对应的URL列表与所述第一查询对应的URL列表,根据比较结果确定所述历史查询是否为所述第一查询的相似查询。
根据本发明一优选实施例,所述根据比较结果确定所述历史查询是否为所述第一查询的相似查询包括:
若所述历史查询对应的URL列表与所述第一查询对应的URL列表中的重复URL数大于预先设定的第一阈值,则将所述历史查询确定为所述第一查询的相似查询。
根据本发明一优选实施例,所述通过依存关系分析,对所述相似查询进行标签抽取包括:
针对任一相似查询,确定出所述相似查询中的中心词;
从所述相似查询中抽取出用于修饰所述中心词且符合词性要求的词或短语,作为抽取出的标签。
根据本发明一优选实施例,该方法进一步包括:从筛选出的相似查询中过滤掉中心词不在最后位置的相似查询,对保留下的相似查询进行标签抽取。
根据本发明一优选实施例,该方法进一步包括:对于任一标签,在针对包含所述标签的查询进行召回时,根据主需求词典确定所述查询的召回需求,按照所述召回需求进行召回。
一种标签扩充装置,包括:获取单元以及抽取单元;
所述获取单元,用于针对包含已有标签的第一查询,从日志记录的历史查询中筛选出所述第一查询的相似查询;
所述抽取单元,用于通过依存关系分析,对所述相似查询进行标签抽取,将抽取出的非已有标签作为扩充出的标签。
根据本发明一优选实施例,所述获取单元根据所述日志获取所述第一查询对应的展现结果的统一资源定位符URL列表,针对任一历史查询,根据所述日志获取所述历史查询对应的展现结果的URL列表,比较所述历史查询对应的URL列表与所述第一查询对应的URL列表,根据比较结果确定所述历史查询是否为所述第一查询的相似查询。
根据本发明一优选实施例,所述获取单元确定所述历史查询对应的URL列表与所述第一查询对应的URL列表中的重复URL数大于预先设定的第一阈值,则将所述历史查询确定为所述第一查询的相似查询。
根据本发明一优选实施例,针对任一相似查询,所述抽取单元确定出所述相似查询中的中心词,并从所述相似查询中抽取出用于修饰所述中心词且符合词性要求的词或短语,作为抽取出的标签。
根据本发明一优选实施例,所述抽取单元进一步用于,从筛选出的相似查询中过滤掉中心词不在最后位置的相似查询,对保留下的相似查询进行标签抽取。
根据本发明一优选实施例,所述装置中进一步包括:召回单元;
所述召回单元,用于在针对包含任一标签的查询进行召回时,根据主需求词典确定出所述查询的召回需求,按照所述召回需求进行召回。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可自动地从历史查询中抽取出标签,不但具有较高的准确性,而且提升了抽取效率,另外无需人工编辑pattern规则,降低了人力成本等。
【附图说明】
图1为本发明所述tag扩充方法实施例的流程图。
图2为本发明所述“90后电影”对应的展现结果的示意图。
图3为本发明所述“90后爱看的电影”对应的展现结果的示意图。
图4为本发明所述从“好听的对女朋友说的话”中抽取出tag的方式示意图。
图5为本发明所述tag扩充装置实施例的组成结构示意图。
图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述tag扩充方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,针对包含已有tag的第一query,从日志记录的历史query中筛选出第一query的相似query。
在102中,通过依存关系分析,对相似query进行tag抽取。
在103中,将抽取出的非已有tag作为扩充出的tag。
如何获取包含已有tag的第一query不作限制。比如,可从日志记录的历史query中查找出包含tag体系中已有的tag的第一query,或者,也可将当前tag体系中的已有tag填入到对应的pattern中,如“有关**的电影”,得到第一query。
针对获取到的每个第一query,可分别按照图1所示方式进行处理,为与后续出现的其它query相区别,将包含已有tag的query称为第一query。
针对第一query,可从日志记录的历史query中筛选出第一query的相似query。所述日志可为大搜展现日志,即可从大搜展现日志记录的历史query中筛选出第一query的相似query,筛选出的相似query数可能为零个,也可能为一个,还可能为多个,如果为零个,则可结束处理,如果为一个或多个,则可继续后续处理。
其中,筛选第一query的相似query的方式可包括:根据日志获取第一query对应的展现结果(搜索结果)的统一资源定位符(URL,Uniform Resource Locator)列表,针对任一历史query,根据日志获取该历史query对应的展现结果的URL列表;比较该历史query对应的URL列表与第一query对应的URL列表,根据比较结果确定出该历史query是否为第一query的相似query。
无论基于何种方式获取到第一query,均可进一步获取到其展现结果的URL列表,不同的展现结果可分别对应不同的URL,多个展现结果对应的URL可组成URL列表,通常来说,展现结果的数量可能会非常多,甚至可能达到成千上万个,本实施例中,可仅保留前N个展现结果,N为大于一的正整数,具体取值可根据实际需要而定,如10,利用前N个展现结果对应的URL组成URL列表。类似地,对于任一历史query,可获取该历史query的前N个展现结果对应的URL组成的URL列表。
对于同一query,不同搜索时刻对应的展现结果可能是不同的,比如相差一个星期的前后两次搜索对应的展现结果即可能不同,本实施例中,可选地,可采用日志中记录的该query对应的最近一次的展现结果。
针对任一历史query,在分别获取到该历史query对应的URL列表以及第一query对应的URL列表之后,可比较两个URL列表,根据比较结果确定出该历史query是否为第一query的相似query。
比如,若该历史query对应的URL列表与第一query对应的URL列表中的重复URL数大于预先设定的第一阈值,则可将该历史query确定为第一query的相似query。
第一query的相似query可能为包含已有tag的query,也可能为包含非已有tag的query。
上述过程可举例说明如下:
第一query为“90后电影”,其中的“90后”为已有tag。图2为本发明所述“90后电影”对应的展现结果的示意图,如图2所示,为简化附图,仅表示出了5个展现结果,每个展现结果分别对应一个URL,即图2中所示的url1、url2、url3、url4和url5。
一历史query为“90后爱看的电影”,其中的“90后爱看”为非已有tag。图3为本发明所述“90后爱看的电影”对应的展现结果的示意图,如图3所示,为简化附图,仅表示出了4个展现结果,每个展现结果分别对应一个URL,即图3中所示的url1、url2、url3和url4。
可以看出,“90后电影”对应的展现结果中包含召回的泛需求卡片,即url3对应的展现结果,其中包含根据“90后电影”召回的电影实体(entity),其它的展现结果为与“90后电影”相关的展现结果。“90后爱看的电影”对应的展现结果中不包含召回的电影实体,但包含与“90后爱看的电影”相关的展现结果。“90后电影”对应的第一个展现结果与“90后爱看的电影”对应的第二个展现结果相同。
假设“90后电影”对应的URL列表与“90后爱看的电影”对应的URL列表中均包含10个URL,其中有7个URL重复,即“90后电影”对应的URL列表中的7个URL与“90后爱看的电影”对应的URL列表中的7个URL相同,大于第一阈值7,那么则可将“90后爱看的电影”作为“90后电影”的相似query。
按照上述方式,可筛选出第一query的所有相似query,即将第一query与其相似query进行聚合。对于聚合得到的相似query,可认为具有与第一query中的tag相近的描述实体的tag。
第一阈值的具体取值可根据实际需要而定。若第一阈值取值过高,会导致获取到的相似query数较少,与第一query的相似度也较高,从而导致后续抽取到的tag相同的概率会比较高,若第一阈值取值过低,会导致获取到的相似query与第一query的相似度较低,从而导致后续抽取到的tag与实体匹配度较低,因此,需要合理选取第一阈值的取值。
在筛选出第一query的相似query之后,可通过依存关系分析,对每个相似query进行tag抽取。
泛需求问答领域中的query通常都包含一个中心词,如query“送给女朋友的话”中的“话”,query“描写春天的句子”中的“句子”等。本实施例中,针对每个相似query,可首先确定出该相似query中的中心词,之后可从该相似query中抽取出用于修饰中心词且符合词性要求的词或短语,作为从该相似query中抽取出的tag。抽取出的tag通常为形容词、名词或短语等。
上述处理方式中,中心词通常位于query的最后位置,因此在从相似query中抽取tag之前,可先从筛选出的相似query中过滤掉中心词不在最后位置的相似query,之后对保留下的相似query进行tag抽取。
以相似query为“好听的对女朋友说的话”为例,图4为本发明所述从“好听的对女朋友说的话”中抽取出tag的方式示意图,如图4所示,“好听的对女朋友说的话”中,“好听”的词性为形容词(a),“的”的词性为助词(u),“对”的词性为“介词”(p),“女友”的词性为名词(n),“说”的词性为动词(v),“话”的词性也为名词,可通过依存关系分析进行tag的抽取,首先可确定出其中的中心词“话”,汉语句子结构复杂,可包括介宾关系(POB,preposition-object)、主谓关系(SBV,subject-verb)、状中结构(ADV,adverbial)、动宾关系(VOB,verb-object)、处所关系(LOC,locative)、“的”字结构(DE)、“地”字结构(DI)等各种句法依存关系,具体到图4中,可以“的”字结构做中心词的传递,如“话”以“的”向前传递,可找到形容“说”的ADV结构的“对”,获取到“对”的POB关系“对女友”作为抽取出的一个tag,“的”最终传递到“好听”,该词的词性为形容词,可作为抽取出的另一个tag,这样,可从“好听的对女朋友说的话”中抽取出两个tag,分别为“对女友”和“好听”。
对于抽取出的tag,可在进行去重处理后,将其中的非已有tag作为扩充出的tag,补充到tag体系中,从而为后续的泛需求问答提供服务。
另外,从相似query中抽取出的tag,可能为短语tag,也可能为名词tag,还可能为形容词tag等。对于名词tag,有些可能是实体,如“美人鱼电影”这一query,从中抽取出的tag为“美人鱼”,“美人鱼电影”可能是指“电影里有美人鱼的电影”,也可能是指“周星驰导演的电影《美人鱼》”,这种情况下,则需要借助于主需求词典。
对于任一tag,在针对包含该tag的query进行召回时,可根据主需求词典确定出该query的召回需求,进而可按照召回需求进行召回。比如,对于“美人鱼”这一tag,当针对“美人鱼电影”这一query进行召回时,可首先查询主需求词典,确定出主需求是什么,即确定出“美人鱼”是作为tag召回还是作为实体召回,相应地,可根据确定结果召回“电影里有美人鱼的电影”或是“周星驰导演的电影《美人鱼》”。主需求词典可为预先生成的,并可周期性进行更新。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
总之,采用本发明方法实施例所述方案,可自动地从历史query中抽取出tag,不但具有较高的准确性,而且提升了抽取效率,另外无需人工编辑pattern规则,降低了人力成本等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图5为本发明所述tag扩充装置实施例的组成结构示意图。如图5所示,包括:获取单元501以及抽取单元502。
获取单元501,用于针对包含已有tag的第一query,从日志记录的历史query中筛选出第一query的相似query。
抽取单元502,用于通过依存关系分析,对相似query进行tag抽取,将抽取出的非已有tag作为扩充出的tag。
所述日志可为大搜展现日志,即获取单元501可从大搜展现日志记录的历史query中筛选出第一query的相似query,筛选出的相似query数可能为零个,也可能为一个,还可能为多个,如果为零个,可结束处理,如果为一个或多个,可继续后续处理。
具体地,获取单元501可根据日志获取第一query对应的展现结果的URL列表,针对任一历史query,根据日志获取该历史query对应的展现结果的URL列表,比较该历史query对应的URL列表与第一query对应的URL列表,根据比较结果确定出该历史query是否为第一query的相似query。
对于一个query,其对应的展现结果的数量可能会非常多,甚至可能达到成千上万个,本实施例中,可仅保留前N个展现结果,N为大于一的正整数,具体取值可根据实际需要而定,如10,利用前N个展现结果对应的URL组成URL列表。
针对任一历史query,在分别获取到该历史query对应的URL列表以及第一query对应的URL列表之后,获取单元501可确定该历史query对应的URL列表与第一query对应的URL列表中的重复URL数是否大于预先设定的第一阈值,若是,则可将该历史query确定为第一query的相似query。第一query的相似query可包括包含已有tag的query,也可包括包含非已有tag的query。
按照上述方式,可筛选出第一query的所有相似query,即将第一query与其相似query进行聚合。对于聚合得到的相似query,可认为具有与第一query中的tag相近的描述实体的tag。
在筛选出第一query的相似query之后,抽取单元502可通过依存关系分析,对每个相似query进行tag抽取。
具体地,针对任一相似query,抽取单元502可首先确定出该相似query中的中心词,之后可从该相似query中抽取出用于修饰中心词且符合词性要求的词或短语,作为抽取出的tag。
上述处理方式中,中心词通常位于query的最后位置,因此在从相似query中抽取tag之前,抽取单元502可先从筛选出的相似query中过滤掉中心词不在最后位置的相似query,之后对保留下的相似query进行tag抽取。
对于抽取出的tag,抽取单元502可在进行去重处理后,将其中的非已有tag作为扩充出的tag,补充到tag体系中,从而为后续的泛需求问答提供服务。
从相似query中抽取出的tag,可能为短语tag,也可能为名词tag,还可能为形容词tag等。对于名词tag,有些可能是实体,从而可能导致召回需求不明确,为此,在召回时可借助于主需求词典。
如图5所示,所示装置中可进一步包括召回单元503,用于在针对包含任一tag的query进行召回时,根据主需求词典确定出该query的召回需求,并按照召回需求进行召回。比如,对于“美人鱼”这一tag,当针对“美人鱼电影”这一query进行召回时,可首先查询主需求词典,确定出主需求是什么,即确定出“美人鱼”是作为tag召回还是作为实体召回,相应地,可根据确定结果召回“电影里有美人鱼的电影”或是“周星驰导演的电影《美人鱼》”。主需求词典可为预先生成的,并可周期性进行更新。
图5所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图6显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种标签扩充方法,其特征在于,包括:
针对包含已有标签的第一查询,从日志记录的历史查询中筛选出所述第一查询的相似查询;
通过依存关系分析,对所述相似查询进行标签抽取;
将抽取出的非已有标签作为扩充出的标签。
2.根据权利要求1所述的方法,其特征在于,
所述从日志记录的历史查询中筛选出所述第一查询的相似查询包括:
根据所述日志获取所述第一查询对应的展现结果的统一资源定位符URL列表;
针对任一历史查询,根据所述日志获取所述历史查询对应的展现结果的URL列表;
比较所述历史查询对应的URL列表与所述第一查询对应的URL列表,根据比较结果确定所述历史查询是否为所述第一查询的相似查询。
3.根据权利要求2所述的方法,其特征在于,
所述根据比较结果确定所述历史查询是否为所述第一查询的相似查询包括:
若所述历史查询对应的URL列表与所述第一查询对应的URL列表中的重复URL数大于预先设定的第一阈值,则将所述历史查询确定为所述第一查询的相似查询。
4.根据权利要求1所述的方法,其特征在于,
所述通过依存关系分析,对所述相似查询进行标签抽取包括:
针对任一相似查询,确定出所述相似查询中的中心词;
从所述相似查询中抽取出用于修饰所述中心词且符合词性要求的词或短语,作为抽取出的标签。
5.根据权利要求4所述的方法,其特征在于,
该方法进一步包括:从筛选出的相似查询中过滤掉中心词不在最后位置的相似查询,对保留下的相似查询进行标签抽取。
6.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:对于任一标签,在针对包含所述标签的查询进行召回时,根据主需求词典确定所述查询的召回需求,按照所述召回需求进行召回。
7.一种标签扩充装置,其特征在于,包括:获取单元以及抽取单元;
所述获取单元,用于针对包含已有标签的第一查询,从日志记录的历史查询中筛选出所述第一查询的相似查询;
所述抽取单元,用于通过依存关系分析,对所述相似查询进行标签抽取,将抽取出的非已有标签作为扩充出的标签。
8.根据权利要求7所述的装置,其特征在于,
所述获取单元根据所述日志获取所述第一查询对应的展现结果的统一资源定位符URL列表,针对任一历史查询,根据所述日志获取所述历史查询对应的展现结果的URL列表,比较所述历史查询对应的URL列表与所述第一查询对应的URL列表,根据比较结果确定所述历史查询是否为所述第一查询的相似查询。
9.根据权利要求8所述的装置,其特征在于,
所述获取单元确定所述历史查询对应的URL列表与所述第一查询对应的URL列表中的重复URL数大于预先设定的第一阈值,则将所述历史查询确定为所述第一查询的相似查询。
10.根据权利要求7所述的装置,其特征在于,
针对任一相似查询,所述抽取单元确定出所述相似查询中的中心词,并从所述相似查询中抽取出用于修饰所述中心词且符合词性要求的词或短语,作为抽取出的标签。
11.根据权利要求10所述的装置,其特征在于,
所述抽取单元进一步用于,从筛选出的相似查询中过滤掉中心词不在最后位置的相似查询,对保留下的相似查询进行标签抽取。
12.根据权利要求7所述的装置,其特征在于,
所述装置中进一步包括:召回单元;
所述召回单元,用于在针对包含任一标签的查询进行召回时,根据主需求词典确定出所述查询的召回需求,按照所述召回需求进行召回。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201910403290.7A 2019-05-15 2019-05-15 标签扩充方法、装置、计算机设备及存储介质 Pending CN110222147A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910403290.7A CN110222147A (zh) 2019-05-15 2019-05-15 标签扩充方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910403290.7A CN110222147A (zh) 2019-05-15 2019-05-15 标签扩充方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110222147A true CN110222147A (zh) 2019-09-10

Family

ID=67821124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910403290.7A Pending CN110222147A (zh) 2019-05-15 2019-05-15 标签扩充方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110222147A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738384A (zh) * 2020-07-17 2020-10-02 北京每日优鲜电子商务有限公司 一种基于大数据的货物标签处理方法
CN115964487A (zh) * 2022-12-22 2023-04-14 南阳理工学院 基于自然语言的论文标签补充方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268725A1 (en) * 2009-04-20 2010-10-21 Microsoft Corporation Acquisition of semantic class lexicons for query tagging
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN105045875A (zh) * 2015-07-17 2015-11-11 北京林业大学 个性化信息检索方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268725A1 (en) * 2009-04-20 2010-10-21 Microsoft Corporation Acquisition of semantic class lexicons for query tagging
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN105045875A (zh) * 2015-07-17 2015-11-11 北京林业大学 个性化信息检索方法及装置
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738384A (zh) * 2020-07-17 2020-10-02 北京每日优鲜电子商务有限公司 一种基于大数据的货物标签处理方法
CN111738384B (zh) * 2020-07-17 2020-12-01 北京每日优鲜电子商务有限公司 一种基于大数据的货物标签处理方法
CN115964487A (zh) * 2022-12-22 2023-04-14 南阳理工学院 基于自然语言的论文标签补充方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US20030187632A1 (en) Multimedia conferencing system
US10606831B1 (en) Method and system for identifying entities
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
CN107507615A (zh) 界面智能交互控制方法、装置、系统及存储介质
CN103518187A (zh) 用于信息建模的方法和系统及其应用
US20210073272A1 (en) Digital image classification and annotation
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN109474847A (zh) 基于视频弹幕内容的搜索方法、装置、设备及存储介质
CN111814770A (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
JP7355865B2 (ja) ビデオ処理方法、装置、デバイスおよび記憶媒体
US10474706B2 (en) Organizing speech search results
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
US20190199939A1 (en) Suggestion of visual effects based on detected sound patterns
US20160371340A1 (en) Modifying search results based on context characteristics
CN110222147A (zh) 标签扩充方法、装置、计算机设备及存储介质
CN110276009A (zh) 一种联想词的推荐方法、装置、电子设备及存储介质
CN109960554A (zh) 展示阅读内容的方法、设备和计算机存储介质
CN109241385A (zh) 搜索方法、设备以及存储介质
CN111491209A (zh) 视频封面确定方法、装置、电子设备和存储介质
EP2887239A2 (en) Method and system of audio retrieval and source separation
CN114402384A (zh) 数据处理方法、装置、服务器和存储介质
CN115017339A (zh) 一种基于ai算法的媒体文件多模检索方法和系统
CN114662002A (zh) 对象推荐方法、介质、装置和计算设备
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
US10678845B2 (en) Juxtaposing contextually similar cross-generation images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination