CN110990710B - 资源推荐方法及装置 - Google Patents

资源推荐方法及装置 Download PDF

Info

Publication number
CN110990710B
CN110990710B CN201911350542.0A CN201911350542A CN110990710B CN 110990710 B CN110990710 B CN 110990710B CN 201911350542 A CN201911350542 A CN 201911350542A CN 110990710 B CN110990710 B CN 110990710B
Authority
CN
China
Prior art keywords
intention
intent
entity
field
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911350542.0A
Other languages
English (en)
Other versions
CN110990710A (zh
Inventor
朱嘉琪
许超
王灿
卢佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911350542.0A priority Critical patent/CN110990710B/zh
Publication of CN110990710A publication Critical patent/CN110990710A/zh
Application granted granted Critical
Publication of CN110990710B publication Critical patent/CN110990710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种资源推荐方法及装置,涉及互联网技术及知识图谱领域,该方法包括:服务器接收到终端设备发送的携带目标实体的实体标识的推荐请求后,利用实体标识确定出与目标实体相关的热门意图,利用热门意图确定目标资源并推送给终端设备。采用该种方案,由于热门意图是服务器利用历史的查询语句和日志,对意图进行结构化,并根据结构化字段对意图进行归一得到的,能够反映大多数用户对目标实体的最关心的方面,因此,能够实现精准推荐。

Description

资源推荐方法及装置
技术领域
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种资源推荐方法及装置。
背景技术
目前,资源推荐过程中,后台的服务器推测出用户的意图,基于意图确定用户感兴趣的资源并推荐,以实现精准推荐的目的。其中,意图是后台的服务器利用自然语言处理得到的。由于汉语的多样性,同一个意图具有多种表达方式,如通过不同的词汇表达、通过不同顺序不同语法结构的自然语言表达,因此,需要将多种多样的意图进行归一化,利用归一化的意图进行下一步的操作。
传统的意图归一化方法中,预先设定意图标签,通过机器学习方法对自然语言文本进行意图分类。分类过程中,考虑自然语言文本的整体语义,将该自然语言文本转换为分类任务,划分到同一类别的自然语言文本使用相同的意图标签。其中,意图标签可以是播放音乐、开灯、订机票等。分类后,利用对应类别的自然语言解析模型对自然语言文本进行解析,以解析出用户的意图。
上述将意图识别转化为分类任务的方法中,通过人工定义热门意图词汇得到意图标签。然而,人工定义出的意图标签是有限的,仅能覆盖一部分热门意图,对于非热门意图、复杂类意图,则由于无法预定义或难以解析等原因常常被丢弃,导致资源推荐过程中,若用户关注的意图为该些被丢弃的意图,则后台无法根据意图进行精准推荐。
发明内容
本申请实施例提供一种推荐方法,根据实体相关的热门意图确定目标资源并向用户推荐,实现精准推荐的目的。
第一方面,本申请实施例提供一种资源推荐方法,包括:接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识;利用所述实体标识,确定与所述目标实体相关的热门意图,所述热门意图是服务器利用多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本,所述搜索特征用于指示所述查询语句被用户搜索的特征;利用所述热门意图,确定目标资源;向所述终端设备发送所述目标资源。采用该种方案,由于热门意图是服务器利用历史的查询语句和日志,对意图进行结构化,并根据结构化字段对意图进行归一,能够反映大多数用户对目标实体的最关心的方面,因此,能够实现精准推荐。
一种可行的设计中,所述利用所述实体标识,确定与所述目标实体相关的热门意图之前,还包括:对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中;对于每一实体的各意图表述,结构化各所述意图表述,得到各所述意图表述的结构化字段;对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。采用该种方案,服务器通过结构化查询语句,进而根据该些结构化字段和日志确定热门意图,实现精准推荐的目的。
一种可行的设计中,所述对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,包括:对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合;对于所述第i意图字段集合中的每个意图字段,查询所述日志,以确定所述第i意图字段集合中的各意图字段的搜索特征,所述搜索特征用于指示意图强度;
对于所述第i意图字段集合中的每个意图字段,利用各意图字段的搜索特征,分别确定各意图字段的分数,所述分数用于指示意图字段对应的意图的热门程度;按照分数从高到低的顺序,对所述第i意图字段集合中的每个意图字段排序,得到第i顺序,将所述第i顺序中的前N个意图字段指示的意图作为所述第i实体的热门意图。采用该种方案,实现确定出热门意图的目的。
一种可行的设计中,所述对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合,包括:对第i意图对集合中的意图对倒排索引,以过滤掉不相关的意图对,所述第i意图对集合包含的意图对是所述第i实体的任意两个结构化字段包含的意图字段的组合;根据倒排索引后剩余的意图对确定所述第i意图字段集合。采用该种方案,能够过滤掉大量可能不相关的意图对,保留可能相似的意图对集合,从而缩减意图对数量,方便后续的意图归一,能够提高大批量数据处理的可行性和处理速度。
一种可行的设计中,所述根据倒排索引后剩余的意图对确定所述第i意图字段集合,包括:确定经过倒排索引后剩余的意图对中,各意图对中的意图之间的距离;根据各意图对中的意图之间的距离,得到多个聚簇,属于同一聚簇的各意图之间的距离小于预设阈值;归一化属于同一聚簇的各意图,得到所述第i意图字段集合。采用该种方案,实现细粒度的意图识别。
一种可行的设计中,所述归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还包括:确定第一意图对应的第一查询语句的第一搜索特征,以及第二意图对应的第二查询语句的第二搜索特征,所述第一意图和所述第二意图不属于同一聚簇;根据所述第一搜索特征和所述第二搜索特征,确定是否将所述第一意图和所述第二意图合并至同一个聚簇。采用该种方案,实现将离群点补召回聚簇内的目的。
一种可行的设计中,所述归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还包括:对于属于同一聚簇的第一意图和第三意图,确定第一查询语句的整体意图和第三查询语句的整体意图是否一致,所述第一查询语句是所述第一意图对应的查询语句,所述第三查询语句是所述第三意图对应的查询语句;若所述第一查询语句的整体意图和所述第三查询语句的整体意图一致,则归一化所述第一查询语句和所述第三查询语句。采用该种方案,实现细粒度意图归一的目的。
一种可行的设计中,所述结构化字段还包含下述字段中的至少一个:限制字段、限制类型字段、查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别。服务器通过将查询语句的意图表述结构化为intent、limit、limittype和query type字段,进而根据该些结构化字段和日志确定热门意图,实现精准推荐的目的。
第二方面,本申请实施例提供一种资源推荐装置,包括:
接收模块,用于接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识;
第一确定模块,用于利用所述实体标识,确定与所述目标实体相关的热门意图,所述热门意图是服务器利用多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本,所述搜索特征用于指示所述查询语句被用户搜索的特征;
第二确定模块,用于利用所述热门意图,确定目标资源;
发送模块,用于向所述终端设备发送所述目标资源。
一种可行的设计中,上述的装置还包括:
预处理模块,用于在所述第一确定模块利用所述实体标识,确定与所述目标实体相关的热门意图之前,对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中,对于每一实体的各意图表述,结构化各所述意图表述,得到各所述意图表述的结构化字段,对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。
一种可行的设计中,所述预处理模块,在对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图时,用于对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合,对于所述第i意图字段集合中的每个意图字段,查询所述日志,以确定所述第i意图字段集合中的各意图字段的搜索特征,所述搜索特征用于指示意图强度,对于所述第i意图字段集合中的每个意图字段,利用各意图字段的搜索特征,分别确定各意图字段的分数,所述分数用于指示意图字段对应的意图的热门程度,按照分数从高到低的顺序,对所述第i意图字段集合中的每个意图字段排序,得到第i顺序,将所述第i顺序中的前N个意图字段指示的意图作为所述第i实体的热门意图。
一种可行的设计中,所述预处理模块,在对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合时,用于对第i意图对集合中的意图对倒排索引,以过滤掉不相关的意图对,所述第i意图对集合包含的意图对是所述第i实体的任意两个结构化字段包含的意图字段的组合,根据倒排索引后剩余的意图对确定所述第i意图字段集合。
一种可行的设计中,所述预处理模块,在根据倒排索引后剩余的意图对确定所述第i意图字段集合时,用于确定经过倒排索引后剩余的意图对中,各意图对中的意图之间的距离,根据各意图对中的意图之间的距离,得到多个聚簇,属于同一聚簇的各意图之间的距离小于预设阈值,归一化属于同一聚簇的各意图,得到所述第i意图字段集合。
一种可行的设计中,所述预处理模块,在归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还用于确定第一意图对应的第一查询语句的第一搜索特征,以及第二意图对应的第二查询语句的第二搜索特征,所述第一意图和所述第二意图不属于同一聚簇,根据所述第一搜索特征和所述第二搜索特征,确定是否将所述第一意图和所述第二意图合并至同一个聚簇。
一种可行的设计中,所述预处理模块,在归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还用于对于属于同一聚簇的第一意图和第三意图,确定第一查询语句的整体意图和第三查询语句的整体意图是否一致,所述第一查询语句是所述第一意图对应的查询语句,所述第三查询语句是所述第三意图对应的查询语句,若所述第一查询语句的整体意图和所述第三查询语句的整体意图一致,则归一化所述第一查询语句和所述第三查询语句。
一种可行的设计中,所述结构化字段还包含下述字段中的至少一个:限制字段、限制类型字段、查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别。
第三方面、本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第一方面任意可能实现的方法。
第四方面,本申请实施例提供一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备计算机执行上述第一方面或第一方面的各种可能的实现方式中的方法。
第五方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质中存储有指令,当其在电子设备上运行时,使得电子设备执行如上述第一方面或第一方面的各种可能的实现方式中的方法。
第六方面,本申请实施例提供一种资源推荐方法,包括:结构化各查询语句,得到结构化字段,所述结构化字段至少包含意图字段,所述结构化字段还包括限制字段、限制类型字段和查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别;根据所述结构化字段,对所述各查询语句的意图进行归一化。
上述申请中的一个实施例具有如下优点或有益效果:由于热门意图是服务器利用历史的查询语句和日志得到的,能够反映大多数用户对目标实体的最关心的方面,因此,能够实现精准推荐。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的资源推荐方法的运行环境示意图;
图2是本申请实施例提供的资源推荐方法的流程图;
图3是本申请实施例提供的资源推荐方法中的用户界面示意图;
图4是本申请实施例提供的资源推荐方法中的意图归一流程图;
图5是本申请实施例提供的资源推荐方法中不同粒度归一的示意图;
图6为本申请实施例提供的资源推荐装置的结构示意图;
图7是本申请实施例提供的另一种资源推荐装置的结构示意图;
图8是用来实现本申请实施例的资源推荐方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,很多意图相关的场景,如推荐、实体相关问答、意图排序和意图资源满足等场景,均需要进行意图解析,使得越来越多的智能软件和设备离不开意图的解析。查询(query)语句是意图解析的主要对象。由于汉语的多样性,同一个意图可以通过多种query语句表达,例如,通过不同的词汇表达、通过不同顺序不同语法结构的query语句表达。由于相同的意图可以由多种表述,因此,在实际的产品应用中,需要通过意图归一,将用户多种多样的表述转换为统一的意图表述,从而使得电子设备进行下一步的操作。现有的意图归一方法包括意图模板/关键词匹配法、按照预先设定的意图标签归一法、利用事先构建的意图树进行归一、采用聚类方式进行归一等。其中,意图模板/关键词匹配方法中,通过识别出query语句中的核心词汇进行意图归一,该方法无法考虑query语句想要表达的整体意图;预先设定意图标签的方法虽然考虑了意图整体的语义,但该方法的本质是将意图归一化为分类任务,划分到同一类的意图使用相同的意图标签,而意图标签仅能覆盖一部分热门意图,对于非热门意图、复杂类意图,则直接丢弃;事先构建意图树的方法中,由于意图树中意图之间的关系是事先人为的组织起来的,因此,比较局限,不具有通用性;采用聚类方式进行归一时,若意图对过多,则聚类复杂度高,且容易引起语义偏移的问题。
有鉴于此,本申请实施例提供一种资源推荐方法,根据实体相关的热门意图确定目标资源并向用户推荐,该热门意图是服务器利用多条历史的查询语句和日志,对意图进行结构化并归一得到的,代表大多数用户对同一个实体最关注的方面,因此,本申请能够实现精确推荐的目的。
图1是本申请实施例提供的资源推荐方法的运行环境示意图。请参照图1,该运行环境包括终端设备1和服务器2,终端设备1和服务器2建立网络连接。其中,服务器2上保存实体的实体标识与该实体的热门意图的映射关系表,一个实体的热门意图可以有多个,该些热门意图是服务器2利用近期的查询语句获得的,例如,对最近1个月内用户的查询语句进行分析,确定出实体的热门意图。推荐场景中,服务器2接收到终端设备1发送的推荐请求后,利用推荐请求携带的目标实体的实体标识查询映射表即可确定出目标实体的热门意图,其中,推荐请求携带的目标标识可以是终端设备对用户的输入信息进行解析得到的。之后,服务器利用该热门意图确定出目标资源并推荐中用户。
图1中,终端设备1可以为台式终端或移动终端,台式终端可以为电脑等,移动终端可以为手机、平板电脑、笔记本电脑等,服务器可以是独立的服务器或者多个服务器组成的服务器集群等。
图2是本申请实施例提供的资源推荐方法的流程图,本实施例是从服务器的角度进行说明的,本实施例包括:
101、接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识。
本申请实施例中,实体是知识图谱中的节点,指具有可区别性且独立存在的某种事物,例如某一个人、某一个城市、某一种植物、某一种商品等,也可以是一类事物,如动物、植物或其他抽象概念,实体标识是实体在知识库内的唯一标识。目标实体是用户想要了解的实体。因此,当用户想要了解一个实体时,可以通过语音输入、按键输入、触摸操作等方式向终端设备输入目标实体的名称、查询语句、别名或代码等,终端设备解析用户输入的信息,得到目标实体的实体标识。终端设备识别该目标实体,得到实体标识,并向服务器发送携带目标实体的实体标识的推荐请求。
需要说明的是,当用户输入的信息是查询语句时,该查询语句仅包含实体,而不包含实体相关的意图,此时,该实体也可以理解为用户的意图。比如,用户输入“李白”,若将其作为实体,则该查询语句不包含任何“李白”相关的意图,如李白的妻子、李白的代表作等。示例性的,可参见图3,图3是本申请实施例提供的资源推荐方法中的用户界面示意图。
请参照图3,假设目标实体为“李白”,用户通过手动输入的方式在搜索栏中输入“李白”,终端设备解析用户输入的“李白”,得到李白对应的知识库中的一个唯一id,将该id作为目标实体的实体标识终端设备识别出目标实体的实体标识是“诗人李白”,则向服务器发送携带“诗人李白”这个实体标识的推荐请求。
需要说明的是,虽然上述是以搜索场景中,“李白”对应的id为“诗人李白”为例进行说明的,然而,本申请实施例并不以此为限制,在其他可行的实现方式中,终端设备解析出的实体标识也可以是“王者荣耀的人物李白”、“撒贝宁的妻子李白”等。
102、利用所述实体标识,从热门意图库中确定与所述目标实体相关的热门意图。
其中,所述热门意图是服务器利用多条查询语句和日志得到的,所述热门意图库是服务器利用多个实体对应的多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本。当一个历史的查询语句仅包含实体时,该查询语句会被过滤掉。
搜索特征指日志中能够表示意图强度的特征,如页面浏览量、意图与实体的共现次数、意图与实体的共现率等,该些特征能够从某个维度上反映意图强度。一段时间内,对于一个确定的目标实体,不同用户针对该目标实体的意图类似,因此,服务器可以根据历史的查询语句,分析出实体的热门意图。
103、利用所述热门意图,确定目标资源。
本申请实施例中,目标资源例如为文章、资讯、图片、视频等。服务器在确定出目标实体的热门意图后,确定每个热门意图对应的目标资源。例如,确定该热门意图对应的统一资源定位符(Uniform Resource Locator,URL)等。
104、服务器向终端设备发送所述目标资源。
示例性的,服务器将各目标资源的URL发送给终端设备,使得终端设备点击该些URL就可以进入详情界面,从而浏览到关于目标实体的详细信息。例如,对于“罗汉果”这个实体,服务器通过过去一个月的查询语句,解析出TOP 3的热门意图分别是“神仙果”、“功效”和“吃法”,则根据该三个热门意图确定出目标资源并推荐给用户。
再如,再请参照图3,对于李白这个实体,服务器通过过去的1个月的查询语句,最终确定出的目标资源为解读模块里的4篇文章,分别为《独特的诗人气质:“外星人”李白》、《诗仙?侠客?还是大唐第一驴友?随李白看大唐风光》、《你知道李白会武功吗?而且还是个武功高手》、《唐代诗人李白究竟死于何病?》。用户可以通过点击操作,进入各个文章的详情界面,也可以对屏幕进行滑动操作,以切换到感兴趣的文章。
本申请实施例提供的资源推荐方法,服务器接收到终端设备发送的携带目标实体的实体标识的推荐请求后,利用实体标识确定出与目标实体相关的热门意图,利用热门意图确定目标资源并推送给终端设备。采用该种方案,由于热门意图是服务器利用历史的查询语句和日志得到的,能够反映大多数用户对目标实体的最关心的方面,因此,能够实现精准推荐。
上述实施例中,服务器对历史的查询语句进行预处理,以对意图进行归一,进而根据归一化后的意图确定实体的热门意图。图4是本申请实施例提供的资源推荐方法中的意图归一流程图。请参照图4,意图归一流程大致包含拆分阶段、意图结构化阶段、意图对过滤阶段、层次聚类阶段、细粒度归一阶段和计算热门意图阶段。下面,对该几个阶段分别进行详细说明。
首先,拆分阶段。该拆分阶段主要做两件事:
第一、将主意图和意图表述拆分,得到查询语句中的实体的实体标识(identity,ID)以及对应的意图表述。
示例性的,对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中。一般而言,一条查询语句中,除了实体外的其他部分就是意图表述。例如,“兰花多久浇一次水”的实体为兰花,意图表述为“多久浇一次水”。服务器可以使用基于语义和热度特征的实体链指方法,以及基于共现日志的实体识别方法等,识别出查询语句中的实体,通过前后词性和句法特征规则,将实体和意图表述拆分,从而得到实体和该实体对应的意图表述。
第二、意图拆分。
示例性的,用户在搜索时,输入的查询语句可能会携带多个意图,即存在多种意图在同一个查询语句中的情况。例如,“罗汉果的禁忌与功效”,这里包含了“功效”和“禁忌”两个意图,需要先对其进行差分,在进行意图归一。当意图表述中有两个部分的短语,且该两个部分的短语存在语义并列结构时,服务器可对意图表述进行分词,再进行词性分析和语义依存分析,从而得到两个意图,分别表示为s-intent1、s-intent2。
其次,意图结构化阶段。
为了在归一时能够提取出更丰富粒度的意图信息,解决直接归一时的语义丢失、语义偏移等问题,本实施例中,通过一种意图结构化的意图表述方式,对意图表述进行结构化,得到结构化字段。结构化字段至少包含意图(intent)字段。另外,可选的,结构化字段还包含下述字段中的至少一个:限制(limit)字段、限制类型(limit type)字段、查询类型(query type)字段。所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别。下面,以查询语句为“冰心为什么看不起林徽因”为例,对该些字段分别进行解释。
a)intent字段。意图字段是意图表述的核心词汇,也是用户所关心的核心部分,缺少了这部分,意图表述就不正确。“冰心为什么看不起林徽因”这条查询语句中,实体为“冰心”,意图表述为“为什么看不起林徽因”,“林徽因”是该查询语句的核心意图,而“看不起”和“为什么”都不能算作“冰心”的核心意图。
b)limit字段。该字段是对intent的限定。Intent和limit组合是对用户精准意图更细致的描述。例如,“冰心为什么看不起林徽因”这条查询语句中,limit字段是“看不起”,它和intent字段组成“看不起林徽因”这个更细化的意图。
c)limit type字段,由于自然语言的多样性,limit字段与核心意图intent可能存在多种修饰关系,在分发给下游时,需要考虑下游模块在使用时如何理解limit字段的字串。其中,下游模块例如为意图过滤阶段等的执行模块。因此,本案中,用limit type字段对这种修饰关系进行区分。
例如,limit type可以是意图限定(intent qualifier),该修饰关系表示limit为意图的限定词或修饰词。例如,“冰心为什么看不起林徽因”这条查询语句中,limit字段为“看不起”,该字段是对intent的一个限定,limit字段和intent字段组合组成了一个新的更细粒度的意图字串。
再如,limit type可以是意图发出者(intent agt),该修饰关系表示limit为意图的发出者。这种情况下,意图字段指示的意图通常为动词。举例来说,“木瓜小孩可以吃吗”,intent字段为“小孩”,归一化后为“禁忌人群”,limit为“吃”,limit type为intent agt。
需要说明的是,本申请实施例中,limit type的取值除了intent agt、intentqualifier外,还可以是其他值,用于表示limit与核心意图的其他修饰关系,如地点、时间、结果、动作实施者等。
d)query type,该字段是针对查询语句类型的大致分类,可以表示如:原因、难以、真伪等问询类型。例如,“冰心为什么看不起林徽因”这条查询语句的query type为询问原因,因此,对于这条查询语句,实体为冰心,结构化字段包含的intent字段、限制(limit)字段、限制类型(limit type)字段、查询类型(query type)字段分别为:林徽因、看不起、限定关系、询问原因,由此,即可得出该查询语句的真正想要表达的是冰心“看不起林徽因”这个事实的“原因”。而现有的基于意图标签的归一化方法无法表达复杂意图,这是因为这条查询语句,对于冰心这个实体,用户关心的意图有多个不同的层次,概括来说,意图是与其相关的人物“林徽因”,细化点的意图是冰心“看不起林徽因”这个事实,更深层次的意图是冰心“看不起林徽因”这个事实的“原因”。这几种意图从宽泛到细化,从简单到复杂的关系,简单的意图标签无法表示这样的复杂意图。
结构化过程中,服务器可通过序列标注模型训练的方式提取出intent字段和limit type字段。提取过程中,先对意图表述进行分词、词性标注和语义依存分析,得到词性和词汇间的语义依存关系以及依存弧,然后将词性、依存关系标签和依存弧头结点词作为特征,输入至预先训练好的序列标注模型,从而得到intent字段和limit type字段,同时得到limit字段。之后,通过基于规则的方式对口语化的意图表述进行规范化,得到相对规范化的意图表述。例如,对于“芒果什么人不能吃”,将实体“芒果”的意图表述规范化为“禁忌人群”。对于query type字段,采用基于规则的文本句式匹配以及基于句子语义的分类模型进行划分。表1是意图表述结构化的举例示意表。
表1
Figure BDA0002334551090000131
之后,对于第i实体,服务器利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,以得到所述热门意图库,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。采用该种方案,服务器通过将查询语句的意图表述结构化为intent、limit、limit type和query type字段,进而根据该些结构化字段和日志确定热门意图,实现精准推荐的目的。
接着、意图对过滤阶段。
通过上述的结构化阶段后,得到intent字段,intent字段为用户最核心的意图词汇,而limit、limit type和query type影响更细化的意图需求。对于intent字段,需要进行归一化,将用户核心关注点一致的意图归一到一起。归一化过程中,按照实体的实体标识,对意图表述进行分类,将属于同一个实体的意图表述划分为一类。例如,两个查询语句分别为:李白的老婆是谁、李白的妻子是谁,该两个查询语句的实体均为李白,则将该两个查询语句的意图表述划分为同一类。另外,分类过程中,也可以对实体进行合并处理等,再对意图表述进行分类。例如,猫咪什么时候掉毛,狗狗什么时候掉毛,实体分别为“猫咪”和“狗狗”,均为动物,则将该两个查询语句的意图表述划分为动物这个实体下。
在确定出每个实体的意图表述后,针对第i实体,对第i意图对集合中的意图对倒排索引,以过滤掉不相关的意图对,所述第i意图对集合包含的意图对是所述第i实体的任意两个结构化字段包含的意图字段的组合。
示例性的,第i实体的意图表述集合中的各意图表述经过结构化后,得到很多个intent字段,将该些intent两两组合,得到第i意图对集合。若两个查询语句分别对应的意图相同,则要么该两个查询语句的意图表述有重复的字或词,要么该两个查询语句的搜索结果中存在相同的URL。因此,服务器对意图对中的意图分别基于字和基于展现URL进行倒排索引,能够过滤掉大量可能不相关的意图对,保留可能相似的意图对集合,从而缩减意图对数量,方便后续的意图归一,能够提高大批量数据处理的可行性和处理速度。
接着,层次聚类阶段。
本阶段中,服务器确定经过倒排索引后剩余的意图对中,各意图对中的意图之间的距离,根据各意图对中的意图之间的距离,得到多个聚簇,属于同一聚簇的各意图之间的距离小于预设阈值,归一化属于同一聚簇的各意图,得到所述第i意图字段集合。
示例性的,服务器使用预先训练好的语义匹配模型对剩余意图对进行相似度计算,对于每对意图对,得到一个介于0-1之间的相似度,然后将每个意图作为一个点,将各个意图对应的点作为节点标注在图中,使用(1-相似度)作为节点间的距离,相似度越高距离越小,通过层次聚类方法对第i实体对应的意图进行聚类,得到聚簇。对于任意两个意图,若该两个意图在同一个聚簇内,则说明该两个意图对应的查询语句的核心意图一致。得到聚簇后,根据核心词匹配以及规则映射,将意图归一为规范化标签。例如,一个查询语句中,intent为“能不能吃”,limit为孕妇,另一个查询语句中,intent为“可以吃么”,limit为小孩,由于intent一致,会被聚类到同一个聚簇。聚类后,intent归一化为“禁忌人群”。示例性的,可参见图5。
图5是本申请实施例提供的资源推荐方法中不同粒度归一的示意图。请参照图5,实体为芒果,圆圈内的黑点标识芒果可能的意图,“能不能吃”“可以吃吗”这两个intent被归一化为禁忌人群。
需要说明的是,聚类过程中,意图之间的距离可能会发生改变。比如,确定经过倒排索引后剩余的意图对中,假设一对意图对中的两个意图之间的初始距离为L0,则经过聚类后,该意图对中的两个意图之间的距离为L1,L1和L0可能不相同。
接着,细粒度归一阶段。
本申请实施例中,可以对经过过滤阶段和层次聚类阶段得到的第i意图字段集合进行进一步的归一化处理,该归一化处理可以称之为细粒度归一。这是因为经过过滤和聚簇得到的第i意图字段集合中,同一聚簇内的任意两个意图,其limit、limit type或querytype可能不同,甚至有语义上的差别。对于此类更细粒度的意图,服务器采用基于日志特征计算的方式进行聚类。日志特征计算指:计算两个意图对的原始查询语句对应的日志特征,日志包括展现日志和点展日志,统计包含但不限于如下搜索特征:
i)、展现URL相同的个数。对于每条查询语句,搜索引擎通常会在首页展示10条左右的结果页。从日志中可以提取出对应结果页中的URL,URL是该结构页的唯一标识,相同的展现URL越多,则表明用户的意图越相似。
ii)、相同URL对应的展现位置。第一条展现位置设置为1,。
iii)、相同URL被点击的次数。
提取上述的搜索特征的目的有两个用途:
第一用途:对聚类未召回的离群点补召回。
针对该种用途,服务器确定第一意图对应的第一查询语句的第一搜索特征,以及第二意图对应的第二查询语句的第二搜索特征,所述第一意图和所述第二意图不属于同一聚簇,根据所述第一搜索特征和所述第二搜索特征,确定是否将所述第一意图和所述第二意图合并至同一个聚簇。
示例性的,假设聚簇1包含多条意图,第一意图是聚簇1内的任意一个意图,上述层次聚类过程中,未将第二意图聚簇到聚簇1,即第二意图不属于聚簇1。服务器需要确定是否需要将第二意图补召回至聚簇1。服务器分析点展日志和展现日志,解析出第一意图的第一搜索特征和第二意图的第二搜索特征。第一搜索特征包括第一查询语句的对应的URL,第二搜索特征包括第二查询语句的对应的URL。然后,服务器确定出相同的URL,并比对该些相同的URL的个数与预设数量的大小,若超过预设阈值,则说明该两个查询语句中的意图可能需要聚簇。进一步的,服务器判断第二查询语句是否与聚簇1内的N条查询语句都有超过设定数量的重复URL,若是,则说明第二查询语句的第二意图属于聚簇1。采用该种方案,实现将离群点补召回聚簇内的目的。
第二用途:对聚簇内的意图进行细粒度归一。
针对该种意图,服务器对于属于同一聚簇的第一意图和第三意图,确定第一查询语句的整体意图和第三查询语句的整体意图是否一致,所述第一查询语句是所述第一意图对应的查询语句,所述第三查询语句是所述第三意图对应的查询语句,若所述第一查询语句的整体意图和所述第三查询语句的整体意图是否一致,则归一化所述第一查询语句的限制字段和所述第三查询语句的限制字段。
示例性的,服务器使用预先训练好的分类模型,对于聚簇内的两个意图分别对应的查询语句,即第一查询语句和第三查询语句,判断其整体意图是否一致。整体意图一致是指:第一查询语句的各结构化和第二查询语句的各结构化字段相同或能够归一化。若该两个查询语句的整体意图一致,则将该两个查询语句的limit归一,即将其结构化解析结构替换为同类意图中,搜索页面浏览量最高的搜索语句所解析出的结构化结构。例如,再请参照图4,假设第一查询语句的limit为“儿童”,第三查询语句的limit为“小孩”,根据搜索特征发现该两个limit的搜索展现及点击内容及其相似,且儿童的出现次数最高,则将小孩替换为儿童。
再如,对“樱桃”这个实体,“吃多了上火吗”,“吃多了怎么办”,“宝宝可以吃多吗”,分别关注的是“吃多”的“后果”,“处理办法”,“人群禁忌”,而在通常的归一中,往往会根据部分意图相似将其归为“吃多”这一类。而本申请中,该些查询语句的意图均为“吃多”,因此粗略的将该些查询语句聚簇到一起。但是,由于该些查询语句仅仅是意图字段相同,而其他字段不相同,因此,可以继续通过比对其他结构化字段对意图进行细粒度归一。“小孩可以多吃吗”和“吃多了上火”这两条查询语句的limit字段分别为小孩和上火,显然不能细粒度归一到一次,从而避免错误聚簇。另外,细粒度归一过程中,对于小孩可以多吃么、孕妇可以多吃么、儿童可以多吃么,limit分别为小孩、孕妇和儿童,因此,该三条查询语句的limit可以归一为禁忌人群。
上述实施例中,可以得到不同实体各自的意图表述的结构化结果,下游模块使用时,若两条查询语句的结构化结果完全一致,则可以合并使用对应的页面浏览量(pageview,pv)、共现率等。若两个查询语句仅由部分字段一致,例如,除intent字段外,其他字段均不一致,则可以通过判断体系上下位等关联关系,应用于意图体系构建等产品中。
采用该种方案,实现细粒度意图归一的目的。
最后,计算热门意图阶段。
经过过滤、层次聚类和细粒度归一后,第i意图字段集合中的意图是用户对第i实体可能产生兴趣的意图,服务器需要对该些意图进行排序,得到TOP N的意图,将该TOP N的意图作为热门意图。该过程中,对于所述第i意图字段集合中的每个意图字段,服务器查询所述日志,以确定所述第i意图字段集合中的各意图字段的搜索特征,对于所述第i意图字段集合中的每个意图字段,利用各意图字段的搜索特征,分别确定各意图字段的分数,所述分数用于指示意图字段对应的意图的热门程度,按照分数从高到低的顺序,对所述第i意图字段集合中的每个意图字段排序,得到第i顺序,将所述第i顺序中的前N个意图字段指示的意图作为所述第i实体的热门意图。
示例性的,服务器对各意图的搜索特征进行加权求和,对第i意图字段集合中的意图字段进行排序,得到历史一个月内,第i实体的热门意图以及该些热门意图对应的原始的查询语句和结构化表示。之后,在搜索场景下,当一个用户通过终端设备向服务器发送目标实体的实体标识时,服务器根据意图排序的结构化结果和实体标识,挂接相应的资源,如文章等,并反馈给用户,从而保证大多数用户所关心的内容能够以更优的位置展示。推荐过程中,服务器可以将所有的目标资源并列的推荐给用户,或者,也可以按层级标签,以嵌套方式推荐给用户。对于“罗汉果”这个实体,服务器通过过去一个月的查询语句,解析出TOP 3的意图分别是“神仙果”、“功效”和“吃法”,则根据该三个热门意图确定出目标资源并推荐给用户,终端设备可以在首页的首位或者侧边栏展示其对应的文章等。
采用该种方案,实现对意图排序确定出热门意图的目的。
图6为本申请实施例提供的资源推荐装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现,电子设备可以终端设备或服务器等。如图6所示,在本实施例中,该资源推荐装置100可以包括:
接收模块11,用于接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识;
第一确定模块12,用于利用所述实体标识,确定与所述目标实体相关的热门意图,所述热门意图是服务器利用多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本,所述搜索特征用于指示所述查询语句被用户搜索的特征;
第二确定模块13,用于利用所述热门意图,确定目标资源;
发送模块14,用于向所述终端设备发送所述目标资源。
图7是本申请实施例提供的另一种资源推荐装置的结构示意图。请参照图7,本实施例提供的资源推荐装置100,在上述图6的基础上,进一步的还包括:
预处理模块15,用于在所述第一确定模块12利用所述实体标识,确定与所述目标实体相关的热门意图之前,对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中,对于每一实体的各意图表述,结构化各所述意图表述,得到各所述意图表述的结构化字段,对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。
一种可行的设计中,所述预处理模块15,在对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图时,用于对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合,对于所述第i意图字段集合中的每个意图字段,查询所述日志,以确定所述第i意图字段集合中的各意图字段的搜索特征,所述搜索特征用于指示意图强度,对于所述第i意图字段集合中的每个意图字段,利用各意图字段的搜索特征,分别确定各意图字段的分数,所述分数用于指示意图字段对应的意图的热门程度,按照分数从高到低的顺序,对所述第i意图字段集合中的每个意图字段排序,得到第i顺序,将所述第i顺序中的前N个意图字段指示的意图作为所述第i实体的热门意图。
一种可行的设计中,所述预处理模块15,在对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合时,用于对第i意图对集合中的意图对倒排索引,以过滤掉不相关的意图对,所述第i意图对集合包含的意图对是所述第i实体的任意两个结构化字段包含的意图字段的组合,根据倒排索引后剩余的意图对确定所述第i意图字段集合。
一种可行的设计中,所述预处理模块15,在根据倒排索引后剩余的意图对确定所述第i意图字段集合时,用于确定经过倒排索引后剩余的意图对中,各意图对中的意图之间的距离,根据各意图对中的意图之间的距离,得到多个聚簇,属于同一聚簇的各意图之间的距离小于预设阈值,归一化属于同一聚簇的各意图,得到所述第i意图字段集合。
一种可行的设计中,所述预处理模块15,在归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还用于确定第一意图对应的第一查询语句的第一搜索特征,以及第二意图对应的第二查询语句的第二搜索特征,所述第一意图和所述第二意图不属于同一聚簇,根据所述第一搜索特征和所述第二搜索特征,确定是否将所述第一意图和所述第二意图合并至同一个聚簇。
一种可行的设计中,所述预处理模块15,在归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还用于对于属于同一聚簇的第一意图和第三意图,确定第一查询语句的整体意图和第三查询语句的整体意图是否一致,所述第一查询语句是所述第一意图对应的查询语句,所述第三查询语句是所述第三意图对应的查询语句,若所述第一查询语句的整体意图和所述第三查询语句的整体意图一致,则归一化所述第一查询语句和所述第三查询语句。
一种可行的设计中,所述结构化字段还包含下述字段中的至少一个:限制字段、限制类型字段、查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别。
本申请实施例提供的装置,可用于如上实施例中服务器执行的方法,其实现原理和技术效果类似,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图8是用来实现本申请实施例的资源推荐方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器21、存储器22,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器21为例。
存储器22即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的资源推荐方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的资源推荐方法。
存储器22作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的资源推荐方法对应的程序指令/模块(例如,附图6所示的接收模块11、第一确定模块12、第二确定模块13、发送模块14,以及图7所示的预处理模块15)。处理器21通过运行存储在存储器22中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的资源推荐方法。
存储器22可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据资源推荐电子设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至资源推荐电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的电子设备还可以包括:输入装置23和输出装置24。处理器21、存储器22、输入装置23和输出装置24可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置23可接收输入的数字或字符信息,以及产生与资源推荐电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置24可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例还提供一种意图归一化方法,该方法中,结构化各查询语句,得到结构化字段,所述结构化字段至少包含意图字段,所述结构化字段还包括限制字段、限制类型字段和查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别;根据所述结构化字段,对所述各查询语句的意图进行归一化。
根据本申请实施例的技术方案,服务器接收到终端设备发送的携带目标实体的实体标识的推荐请求后,利用实体标识确定出与目标实体相关的热门意图,利用热门意图确定目标资源并推送给终端设备。采用该种方案,由于热门意图是服务器利用历史的查询语句和日志,对意图进行结构化,并根据结构化字段对意图进行归一得到的,能够反映大多数用户对目标实体的最关心的方面,因此,能够实现精准推荐。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (11)

1.一种资源推荐方法,其特征在于,包括:
接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识;
利用所述实体标识,从热门意图库中确定与所述目标实体相关的热门意图,所述热门意图库是服务器利用多个实体对应的多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本;
利用所述热门意图,确定目标资源;
向所述终端设备发送所述目标资源;
所述利用所述实体标识,从热门意图库中确定与所述目标实体相关的热门意图之前,还包括:
对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中;
对于每一实体的各意图表述,结构化各所述意图表述,得到各所述意图表述的结构化字段;
对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,以得到所述热门意图库,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。
2.根据权利要求1所述的方法,其特征在于,所述对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,包括:
对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合;
对于所述第i意图字段集合中的每个意图字段,查询所述日志,以确定所述第i意图字段集合中的各意图字段的搜索特征,所述搜索特征用于指示意图强度;
对于所述第i意图字段集合中的每个意图字段,利用各意图字段的搜索特征,分别确定各意图字段的分数,所述分数用于指示意图字段对应的意图的热门程度;
按照分数从高到低的顺序,对所述第i意图字段集合中的每个意图字段排序,得到第i顺序,将所述第i顺序中的前N个意图字段指示的意图作为所述第i实体的热门意图。
3.根据权利要求2所述的方法,其特征在于,所述对于所述第i实体,利用所述第i实体的各所述意图表述的结构化字段包含的意图字段,确定第i意图字段集合,包括:
对第i意图对集合中的意图对倒排索引,以过滤掉不相关的意图对,所述第i意图对集合包含的意图对是所述第i实体的任意两个结构化字段包含的意图字段的组合;
根据倒排索引后剩余的意图对确定所述第i意图字段集合。
4.根据权利要求3所述的方法,其特征在于,所述根据倒排索引后剩余的意图对确定所述第i意图字段集合,包括:
确定经过倒排索引后剩余的意图对中,各意图对中的意图之间的距离;
根据各意图对中的意图之间的距离,得到多个聚簇,属于同一聚簇的各意图之间的距离小于预设阈值;
归一化属于同一聚簇的各意图,得到所述第i意图字段集合。
5.根据权利要求4所述的方法,其特征在于,所述归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还包括:
确定第一意图对应的第一查询语句的第一搜索特征,以及第二意图对应的第二查询语句的第二搜索特征,所述第一意图和所述第二意图不属于同一聚簇;
根据所述第一搜索特征和所述第二搜索特征,确定是否将所述第一意图和所述第二意图合并至同一个聚簇。
6.根据权利要求4所述的方法,其特征在于,所述归一化属于同一聚簇的各意图,得到所述第i意图字段集合之前,还包括:
对于属于同一聚簇的第一意图和第三意图,确定第一查询语句的整体意图和第三查询语句的整体意图是否一致,所述第一查询语句是所述第一意图对应的查询语句,所述第三查询语句是所述第三意图对应的查询语句;
若所述第一查询语句的整体意图和所述第三查询语句的整体意图一致,则归一化所述第一查询语句和所述第三查询语句。
7.根据权利要求2-6任一项所述的方法,其特征在于,
所述结构化字段还包含下述字段中的至少一个:限制字段、限制类型字段、查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别。
8.一种资源推荐装置,其特征在于,包括:
接收模块,用于接收终端设备发送的推荐请求,所述推荐请求携带目标实体的实体标识;
第一确定模块,用于利用所述实体标识,确定与所述目标实体相关的热门意图,所述热门意图是服务器利用多条查询语句和日志得到的,所述日志用于记录各所述查询语句的搜索特征,所述查询语句为包含实体和实体相关意图的自然语言文本,所述搜索特征用于指示所述查询语句被用户搜索的特征;
第二确定模块,用于利用所述热门意图,确定目标资源;
发送模块,用于向所述终端设备发送所述目标资源;
预处理模块,用于在所述第一确定模块利用所述实体标识,确定与所述目标实体相关的热门意图之前,对于多条查询语句中的每一条查询语句,拆分出实体和所述实体的意图表述,得到多个实体和多条意图表述,所述目标实体包含于所述多个实体中,对于每一实体的各意图表述,结构化各所述意图表述,得到各所述意图表述的结构化字段,对于第i实体,利用所述第i实体的各所述意图表述的结构化字段和所述日志,确定所述的i实体的热门意图,所述第i实体是所述多个实体中的任意一个,i∈[1,……,M],M为多个实体中实体的个数。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使电子设备执行权利要求1-7中任一项所述的方法。
11.一种意图归一方法,其特征在于,包括:
结构化各查询语句,得到结构化字段,所述结构化字段至少包含意图字段,所述结构化字段还包括限制字段、限制类型字段和查询类型字段,所述限制类型字段用于限定所述意图字段指示的意图,所述限制类型字段用于指示所述意图字段和所述限制字段的修饰关系,所述查询类型字段用于指示所述查询语句的类别;
根据所述结构化字段,对所述各查询语句的意图进行归一化。
CN201911350542.0A 2019-12-24 2019-12-24 资源推荐方法及装置 Active CN110990710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911350542.0A CN110990710B (zh) 2019-12-24 2019-12-24 资源推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911350542.0A CN110990710B (zh) 2019-12-24 2019-12-24 资源推荐方法及装置

Publications (2)

Publication Number Publication Date
CN110990710A CN110990710A (zh) 2020-04-10
CN110990710B true CN110990710B (zh) 2023-07-04

Family

ID=70075010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911350542.0A Active CN110990710B (zh) 2019-12-24 2019-12-24 资源推荐方法及装置

Country Status (1)

Country Link
CN (1) CN110990710B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095330B (zh) 2020-07-29 2023-05-02 华为技术有限公司 一种意图协商方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574185A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种提供聚合类型的智能摘要的方法和装置
CN110263180A (zh) * 2019-06-13 2019-09-20 北京百度网讯科技有限公司 意图知识图谱生成方法、意图识别方法及装置
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337372A1 (en) * 2013-05-13 2014-11-13 Samsung Electronics Co., Ltd. Method of providing program using semantic mashup technology
US20150095319A1 (en) * 2013-06-10 2015-04-02 Microsoft Corporation Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs
US10733658B2 (en) * 2014-08-20 2020-08-04 Roopnath Grandhi Methods and systems of discovery of products in E-commerce
US9703859B2 (en) * 2014-08-27 2017-07-11 Facebook, Inc. Keyword search queries on online social networks
CN112270925B (zh) * 2014-09-14 2024-05-10 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置
US20180068031A1 (en) * 2016-08-16 2018-03-08 Ebay Inc. Enhancing user queries using implicit indicators
US10878198B2 (en) * 2018-01-04 2020-12-29 Facebook, Inc. Intent arbitration for a virtual assistant
CN110188208B (zh) * 2019-06-04 2021-01-26 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110543592B (zh) * 2019-08-27 2022-04-01 北京百度网讯科技有限公司 信息搜索方法、装置以及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574185A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种提供聚合类型的智能摘要的方法和装置
CN110263180A (zh) * 2019-06-13 2019-09-20 北京百度网讯科技有限公司 意图知识图谱生成方法、意图识别方法及装置
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备

Also Published As

Publication number Publication date
CN110990710A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US10891673B1 (en) Semantic modeling for search
US11100124B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
CN108701161B (zh) 为搜索查询提供图像
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
US20210216580A1 (en) Method and apparatus for generating text topics
US20160260033A1 (en) Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess
US11768869B2 (en) Knowledge-derived search suggestion
CN111563385B (zh) 语义处理方法、装置、电子设备和介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111538815B (zh) 一种文本查询方法、装置、设备及存储介质
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
WO2018227930A1 (zh) 智能提示答案的方法及装置
CN113282729B (zh) 基于知识图谱的问答方法及装置
CN112507091A (zh) 检索信息的方法、装置、设备以及存储介质
CN104391969B (zh) 确定用户查询语句句法结构的方法及装置
CN111291184B (zh) 表情的推荐方法、装置、设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN111966781A (zh) 数据查询的交互方法及装置、电子设备和存储介质
CN113516491A (zh) 推广信息展示方法、装置、电子设备及存储介质
Wei et al. Online education recommendation model based on user behavior data analysis
Brek et al. Enhancing information extraction process in job recommendation using semantic technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant