CN111831902A - 推荐理由筛选方法、装置、电子设备 - Google Patents

推荐理由筛选方法、装置、电子设备 Download PDF

Info

Publication number
CN111831902A
CN111831902A CN202010457012.2A CN202010457012A CN111831902A CN 111831902 A CN111831902 A CN 111831902A CN 202010457012 A CN202010457012 A CN 202010457012A CN 111831902 A CN111831902 A CN 111831902A
Authority
CN
China
Prior art keywords
text
search result
reason
recommendation reason
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010457012.2A
Other languages
English (en)
Inventor
马玉昆
王思睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010457012.2A priority Critical patent/CN111831902A/zh
Publication of CN111831902A publication Critical patent/CN111831902A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种推荐理由筛选方法,属于计算机技术领域,有助于获取查询文本匹配的搜索结果推荐理由文本;通过预设推荐理由匹配模型对查询文本和搜索结果推荐理由文本逐条进行匹配识别;其中,推荐理由匹配模型基于包括查询文本和搜索结果推荐理由文本、搜索结果推荐理由文本与查询文本中解释性文本的关联度构建的训练样本训练得到;训练模型时,通过损失函数计算训练样本中搜索结果推荐理由文本与查询文本中解释性文本的关联度预估值和真实值导致的模型误差,以模型误差最小为目标优化模型参数,直至模型误差收敛,根据匹配识别结果对搜索结果推荐理由文本进行筛选,提升了推荐理由文本对召回结果与查询输入之间关联度的可解释性。

Description

推荐理由筛选方法、装置、电子设备
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种推荐理由筛选方法、装置、电子设备及计算机可读存储介质。
背景技术
在网络平台的搜索页面,对于根据用户的查询输入召回的查询结果,网络平台会在查询结果展示界面同时展示查询结果的推荐理由。以酒店预订平台为例,平台会根据用户的查询输入在查询结果界面展示推荐酒店列表,同时,为了提升对用户推荐的查询结果的感知度,平台会为推荐酒店列表中的商家展示一条或多条用自然语言描述的推荐理由(例如,描述酒店的特色的文本信息),以丰富用户通过查询结果列表页面获取的信息,提升用户对查询结果的处理效率。现有技术中,针对查询输入的推荐理由通常是根据召回结果的评论、属性等数据生成的,具有普遍性,并未充分体现与用户的查询意图的匹配度。因此,现有技术中,会通过与查询输入相关的关键词对推荐理由进行筛选,以提升推荐理由对召回结果与查询输入之间关联度的可解释性。然而,受限于关键词无法穷举,以及确定的关键词与查询输入的关联度,会出现筛选后的推荐理由对召回结果与查询输入之间关联度的可解释性差,或者召回的推荐理由数量稀少的问题。
可见,现有技术中的推荐理由筛选方法还需要改进。
发明内容
本申请实施例提供一种推荐理由筛选方法,有助于提升推荐理由文本对召回结果与查询输入之间关联度的可解释性,且可以不影响召回的推荐理由的数量。
为了解决上述问题,第一方面,本申请实施例提供了一种推荐理由筛选方法,包括:
获取目标查询文本匹配的搜索结果推荐理由文本;
通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围;
根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
第二方面,本申请实施例提供了一种推荐理由筛选装置,包括:
搜索结果推荐理由文本获取模块,用于获取目标查询文本匹配的搜索结果推荐理由文本;
文本匹配识别模块,用于通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围;
搜索结果推荐理由文本筛选模块,用于根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
第三方面,本申请实施例提供了一种推荐理由匹配模型训练方法,包括:
获取若干训练样本;其中,每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;
基于所述若干训练样本,训练推荐理由匹配模型;在训练过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
第四方面,本申请实施例提供了一种推荐理由匹配模型训练装置,包括:
训练样本获取模块,用于获取若干训练样本;其中,每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;
模型训练模块,用于基于所述若干训练样本,训练推荐理由匹配模型;在训练过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
第五方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的推荐理由筛选方法或推荐理由匹配模型训练方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的推荐理由筛选方法的步骤或推荐理由匹配模型训练方法的步骤。
本申请实施例公开的推荐理由筛选方法,通过获取目标查询文本匹配的搜索结果推荐理由文本;通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围,最后,根据匹配识别的结果对所述预设搜索结果推荐理由文本进行筛选,有助于提升推荐理由文本对召回结果与查询输入之间关联度的可解释性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例一的推荐理由筛选方法流程图;
图2是本申请实施例二的推荐理由筛选装置结构示意图;
图3是本申请实施例二的推荐理由匹配模型训练装置结构示意图;
图4示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
图5示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请实施例公开的一种推荐理由筛选方法,如图1所示,所述方法包括:步骤110至步骤130。
步骤110,获取目标查询文本匹配的搜索结果推荐理由文本。
本申请实施例中所述的目标查询文本可以为用户客户端或网页页面输入的查询文本,也可以是客户端或网页页面根据当前登陆用户的身份信息、行为信息等生成的查询文本。本申请对目标查询文本的来源不做限定,所述目标查询文本是用于召回搜索结果的查询文本。
本申请实施例中所述的目标查询文本匹配的搜索结果推荐理由文本为:在搜索引擎根据目标查询文本召回搜索结果列表之后,搜索平台或应用调用推荐理由生成引擎,获取的搜索结果列表中每个搜索结果的推荐理由文本。
例如,在搜索场景中,当用户输入查询文本之后,搜索平台或应用将调用搜索引擎获取召回搜索结果列表,同时,搜索平台或应用会进一步调用推荐理由生成引擎,获取搜索结果列表每个搜索结果的推荐理由文本,通常,每个搜索结果会对应多条推荐理由文本。例如,对于查询文本“情侣酒店”,召回的搜索结果中包括“XX海湾酒店”,同时,还包括“XX海湾酒店”的若干条推荐理由,如“私家游泳池很大”、“距离沙滩步行5分钟”、“情侣海景房不错,露台和飘窗很大”等。
步骤120,通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别。
对于上述查询文本“情侣酒店”的搜索结果“XX海湾酒店”的推荐理由文本,在向用户展示推荐理由之前,可以对推荐理由进行进一步筛选,以获得与用户的搜索实体匹配度更高的推荐理由。
本申请的一些实施例中,通过所述推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别,并根据匹配识别结果进行推荐理由筛选。所述推荐理由匹配模型是预先离线训练的到的。其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
下面结合模型训练过程,详细阐述本方案。
本申请实施例中公开了一种推荐理由匹配模型训练方法,包括:获取若干训练样本;获取若干训练样本;基于所述若干训练样本,训练推荐理由匹配模型。
本申请的一些实施例中,所述训练样本是人工标注的训练样本,每条所述训练样本中的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签用于指示所述查询文本和搜索结果推荐理由文本是否关联,或者指示所述查询文本和搜索结果推荐理由文本的关联级别。例如,对于每条查询文本,和所述查询文本对应的搜索结果推荐理由文本组成的样本数据,人工识别查询文本中的解释性文本,并判断解释性文本与搜索结果推荐理由文本的关联度,之后,根据判断得到的关联度为所述样本数据设置样本标签。
本申请的一些实施例中,所述训练样本是通过自动进行数据分息和识别得到的。例如所述训练样本通过以下方法得到:获取若干条历史查询文本,以及每条所述历史查询文本对应的搜索结果推荐理由文本;对于每条所述历史查询文本,识别所述历史查询文本中限定搜索实体的解释性文本;通过文本匹配技术,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度,其中,所述关联度用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联或关联级别;基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本。
本申请的一些实施例中,如果所述推荐理由匹配模型为二分类模型,在基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本时,可以基于所述关联度指示为与所述解释性文本关联的所述搜索结果推荐理由文本,构建正样本;以及,基于所述关联度指示为与所述解释性文本不关联的所述搜索结果推荐理由文本,构建负样本。本申请的一些实施例中,如果所述推荐理由匹配模型为多分类模型,在基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本时,可以基于所述关联度指示的所述解释性文本关联的所述搜索结果推荐理由文本的关联级别,构建与所述关联级别对应类别的训练样本。例如,可以预先设置至少三个关联级别,每个关联级别对应一个关联度取值,在设置样本标签时,根据样本数据中查询文本的搜索结果推荐理由文本的关联级别,设置样本标签为相应值。
下面阐述自动构建训练样本构建方法。
首先,获取若干条历史查询文本,以及每条所述历史查询文本对应的搜索结果推荐理由文本。
本申请具体实施时,首先需要训练推荐理由匹配模型。通过分类神经网络模型对大量带有解释成分的查询文本与推荐理由的语义内容进行学习,从而训练出能够识别出带有解释成分的输入查询文本和输入推荐理由文本的匹配概率的推荐理由匹配模型。训练推荐理由匹配模型需要的训练样本通常基于对历史查询文本和推荐理由,进行标注后得到。因此,本申请的一些实施例中,首先通过搜索平台的日志系统读取大量搜索日志。
所述搜索日志中通常会包括查询文本、与该查询文本匹配的搜索结果,以及,每条搜索结果对应的推荐理由文本。本申请的一些实施例中,在读取大量搜索日志之后,通过对搜索日志进行解析,获取每条搜索日志对应的查询文本,即历史查询文本,之后,进一步获取与该条历史查询文本对应的一条或多条推荐理由文本。与所述历史查询文本对应的推荐理由文本用于描述与所述历史查询文本匹配的搜索结构的推荐理由。
通过本步骤,可以得到多条历史查询文本,以及与每条所述历史查询文本对应的搜索结果推荐理由文本。
其次,对于每条所述历史查询文本,识别所述历史查询文本中限定搜索实体的解释性文本,以根据所述搜索结果推荐理由文本与所述解释性文本的关联度构建若干训练样本。
现有技术中,搜索结果推荐理由文本是用于描述与相应的查询文本匹配的搜索结果的推荐理由的文本。由于推荐理由的多样性,每条搜索结果推荐理由文本所针对的具体推荐内容也是多样化的。例如,当用户输入查询文本“音乐餐厅”时,搜索平台或应用召回的搜索结果为餐厅列表,同时,给出每个餐厅的推荐理由,其中,推荐理由可以包括如“这里九点有轻音乐,非常好听,整体氛围特别浪漫”、“餐厅氛围很好,非常值得吃一次”、“餐厅交通方便”等。
如果根据前述的查询文本和搜索结果推荐理由文本构建的训练样本训练神经网络模型,训练得到的神经网络模型学习到的语义相关性也是多样化的,不具备针对性。通过前述的查询文本和搜索结果推荐理由文本构建的训练样本训练得到的神经网络模型对查询文本和推荐理由文本进行匹配识别时,也不具备针对性,很难准确地识别出与查询文本中解释成分匹配度高的推荐理由,例如,很难识别出与“音乐餐厅”匹配度更高的例如“这里九点有轻音乐,非常好听,整体氛围特别浪漫”的推荐理由文本。
本申请的一些实施例中,为了使训练得到的推荐理由匹配模型能够准确筛选出与查询文本匹配度更高的推荐理由文本,针对查询文本的语义结构,根据推荐理由文本与查询文本中描述搜索实体的解释性文本的匹配度,对推荐理由文本进行筛选,以构建精确的训练样本。其中,搜索实体通常为POI(Point of Information),例如,对于查询文本“音乐餐厅”,其中,搜索实体为“餐厅”,搜索实体“餐厅”将作为搜索引擎召回搜索结果的主要依据,而限定搜索实体的解释性文本“音乐”,将作为搜索引擎召回搜索结果的辅助依据或者不被搜索引擎考虑。而实际上,限定搜索实体的文本“音乐”,即本申请实施例中所述的解释性文本,表达了用户对搜索实体的限定,与“餐厅”具备同样的搜索意图表达作用。因此,对于搜索结果(如餐厅列表)的推荐理由,用户更希望看到与“音乐”相关的推荐理由。为了达到能够识别出与查询文本中的解释性文本匹配度更高的推荐理由文本,本申请的一些实施例中,首先基于查询文本中的解释成分对查询文本对应的搜索结果推荐理由文本进行筛选,选择与查询文本中的解释成分关联的搜索结果推荐理由文本与查询文本构建正例训练样本,选择与查询文本中的解释成分不关联的搜索结果推荐理由文本与查询文本构建负例训练样本,以训练推荐理由匹配模型。
下面,首先介绍识别所述历史查询文本中限定搜索实体的解释性文本的技术方案。
本申请的一些实施例中,识别所述历史查询文本中限定搜索实体的解释性文本,包括:通过预先训练的文本序列标注模型对所述历史查询文本中的文本进行标注,并根据标注结果识别所述历史查询文本中限定搜索实体的解释性文本。其中,所述文本序列标注模型通过以下方法训练:采用命名实体标注方法对作为训练样本数据的查询文本进行标注,得到文本序列标签,其中,作为训练样本数据的查询文本中限定搜索实体的解释性文本的位置被标注为实体;基于作为训练样本数据的查询文本和标注得到的文本序列标签,训练预设命名实体识别网络,得到文本序列标注模型。
现有技术中命名实体标注方法常用于识别文本中的命名实体。例如,在构建命名实体识别模型时,通常采用BIO标注(一种文本序列标注方法),用字符“B”表示实体名词的开始,字符“I”表示实体名词的中间字符,字符“O”表示不是实体名词中的字符。本申请的实施例中也可以采用BIO标注方法,用字符“B”标识解释性文本的开始,用字符“I”标识解释性文本的中间字符,用字符“O”标识解释性文本之外的字符,则以查询文本“音乐餐厅”为例,采用BIO标注方法得到的文本序列标签表示为“BIOO”。
采用此文本序列标注方法对获取的每个历史查询文本分别进行标注,得到每个历史查询文本的文本序列标签之后,对于每个历史查询文本,以该历史查询文本作为样本数据,以该历史查询文本的文本序列标签作为样本标签,得到该历史查询文本对应得一条训练样本,即可得到若干条训练样本。接下来,基于得到的若干条训练样本训练预设的命名实体识别网络,训练完成的所述命名实体识别网络,作为文本序列标注模型。本申请的一些实施例中,所述命名实体识别网络可以采用现有技术中的命名实体识别网络,如采用BERT(Bidirectional Encoder Representations from Transformers,双向编码器)模型和CRF(Conditional Random Fields,条件随机场)模型的组合网络,其中,BERT模型用于得到输入的查询文本的向量表示,CRF模型用于根据BERT模型输出的向量表示确定各个位置文本匹配的标记。
基于通过上述标注方式得到的训练样本训练命名实体识别网络的具体实施方式参见现有技术中训练命名实体模型的通用方法,本申请实施例中不再赘述。
基于训练得到的文本序列标注模型,可以识别出每个历史查询文本中的解释性文本。例如,将“音乐餐厅”输入至训练得到的文本序列标注模型之后,所述文本序列标注模型将输出如“BIOO”的识别结果,根据此识别结果,可以进一步确定,模型输入文本的第一个和第二个字符为解释性文本,即“音乐”为解释性文本。再例如,将“亲子酒店”输入至训练得到的文本序列标注模型之后,所述文本序列标注模型将输出如“BIOO”的识别结果,根据此识别结果,可以进一步确定,模型输入文本的第一个和第二个字符为解释性文本,即“亲子”为解释性文本。
本申请的另一些实施例中,还可以采用其他方法识别历史查询文本中的解释性文本,本实施例中不一一例举。
通过前述方法,可以识别到每条历史查询文本中的解释性文本。接下来,确定所述查询文本匹配的搜索结果推荐理由文本与所述历史查询文本中解释性文本的关联度。
本申请的一些实施例中,通过文本匹配技术,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度。其中,所述关联度用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联或关联级别。
本申请的一些实施例中,可以直接将所述解释性文本分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度。
本申请的另一些实施例中,为了提升匹配推荐理由文本的召回率和推荐理由筛选方法的鲁棒性,首先对解释性文本进行了扩展。所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度,包括:获取所述解释性文本的至少一个同义词,作为所述解释性文本的关联词;将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配;根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值;其中,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联,或者,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本的关联级别。
以构建二分类模型的训练样本为例,根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值,包括:响应于文本匹配成功,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本关联;响应与文本匹配失败,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本不关联。
以构建多分类模型的训练样本为例,可以预先设置多个关联级别,以及每个所述关联级别与文本匹配结果的对应关系,根据预设的文本匹配结果与关联级别的对应关系,确定所述文本匹配结果匹配的关联级别,作为关联度取值。
其中,将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配可以为:将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本比对,若搜索结果推荐理由文本中包含所述关联词,则确定文本匹配成功;否则,确定文本匹配失败。或者,将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本比对,将文本相似度作为匹配结果。
本申请的一些实施例中,可以通过检索预设同义词字典的方式,获取所述解释性文本的至少一个同义词,所述预设同义词字典中包括根据业务需求建立的同义词列表。
本申请的另一些实施例中,还可以通过预先训练的同义词模型进行同义词识别。例如,以人工标注好的同义词、同义短语作为训练数据,如果两个短语或词为同义词,则标记为1,否则标记为0,采用BERT模型结构,训练同义词模型。例如,“男朋友”和“男友”是同义词,“情侣”和“恋人”为同义词,根据同义词对“男朋友”和“男友”构建正样本(如样本标签为1)。在进行同义词扩展时,可以输入查询文本中的解释性文本和候选同义词,识别该候选同义词是否为输入的解释性文本的同义词。
本申请的实施例中,还可以采用其他方法确定解释性文本的同义词,以扩展解释性文本的关联词语,本实施例中不再一一例举。
采用同义词对解释性文本进行扩展,相比于采用语义相关词对解释性文本进行扩展,更能够体现推荐理由文本与用户搜索意图的匹配度。例如,当查询文本为“七夕酒吧”时,当对“七夕”进行语义扩展时,可能得到“端午”、“国庆”、“情人节”,……等关联词,显然,“端午”和“国庆”这两个词是不符合用户的搜索意图的,采用这种关联词扩展方式会导致召回的推荐理由文本与用户的搜索意图匹配度降低。
另一方面,以人工标注好的同义词、同义短语作训练样本,通过有监督训练得到的同义词模型进行同义词识别,相比于Word2Vec(词向量模型)等无监督语言模型,可以避免不合理扩展词的问题。例如词向量模型对词语“七夕节”扩展出同义词会包括:“乞巧节”,“女儿节”等,很显然,这些扩展词是不合理的。
本申请的一些实施例中,为了提升推荐理由匹配模型的识别精确度,对负样本的数据来源进行了扩充,对于某一历史查询文本,将历史查询文本和其他历史查询文本对应的搜索结果推荐理由文本组合为负样本的样本数据,以增加负样本数量。相应的,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度,还包括:将所述解释性文本与扩展历史查询文本对应的搜索结果推荐理由文本的关联度的取值,设置为指示所述搜索结果推荐理由文本与所述解释性文本不关联;其中,所述扩展历史查询文本为与所述解释性文本所属历史查询文本不同的所述历史查询文本。例如,对于历史查询文本“音乐餐厅”,其包括的解释性文本为“音乐”,将历史查询文本“亲子餐厅”的搜索结果推荐理由文本“有大型游乐设施”与解释性文本“音乐”的关联度设置为“0”,指示“音乐”与“有大型游乐设施”不关联。
接下来,以推荐理由匹配模型为二分类模型为例,阐述基于确定的关联度构建训练样本的技术方案。
基于所述关联度指示为与所述解释性文本关联的所述搜索结果推荐理由文本,构建正样本;以及,基于所述关联度指示为与所述解释性文本不关联的所述搜索结果推荐理由文本,构建负样本。为了提升推荐理由匹配模型的识别精确度,本申请实施例中,对于某个历史查询文本匹配的搜索结果的多个推荐理由文本,将与该历史查询文本中的解释性文本关联的推荐理由文本,作为正例训练数据,将与所述解释性文本不关联的推荐理由文本,作为负例训练数据。其中,与所述解释性文本不关联的推荐理由文本可以为所述解释性文本所属历史查询文本匹配的搜索结果的推荐理由文本,也可以为其他历史查询文本匹配的搜索结果的推荐理由文本。
本申请的一些实施例中,基于所述关联度指示为与所述解释性文本关联的所述搜索结果推荐理由文本,构建正样本包括:根据所述关联度指示为与所述解释性文本关联的所述搜索结果推荐理由文本、所述解释性文本所属历史查询文本,构建正样本的样本数据。例如,根据历史查询文本“音乐餐厅”和“音乐餐厅”的搜索结果对应的推荐理由文本“这里九点有轻音乐,非常好听,整体氛围特别浪漫”,构建一条格式为:<“音乐餐厅”,“这里九点有轻音乐,非常好听,整体氛围特别浪漫”的样本数据,该样本数据对应的样本标签为“BIOO”。
本申请的一些实施例中,基于所述关联度指示为与所述解释性文本不关联的所述搜索结果推荐理由文本,构建负样本包括:根据所述关联度指示为与所述解释性文本不关联的所述搜索结果推荐理由文本、所述解释性文本所属历史查询文本,构建负样本的样本数据。例如,根据历史查询文本“音乐餐厅”和“音乐餐厅”的搜索结果对应的推荐理由文本“餐厅交通方便”,构建格式为:<“音乐餐厅”,“餐厅交通方便”>的样本数据,该样本数据对应的样本标签为“OOOO”。再例如,根据历史查询文本“音乐餐厅”和历史查询文本“亲子餐厅”的搜索结果对应的推荐理由文本“有大型游乐设设施”构建格式为:<“音乐餐厅”,“有大型游乐设设施”>的样本数据,该样本数据对应的样本标签为“OOOO”。
本申请的一些实施例中,可以直接将所述解释性文本分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配;响应于文本匹配成功,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本关联;响应与文本匹配失败,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本不关联。
推荐理由匹配模型为多分类模型时,基于确定的关联度构建训练样本的技术方案可以参考本申请构建二分类模型的训练样本的相关描述,此处不再赘述。
最后,基于所述若干训练样本,训练推荐理由匹配模型。
经过前述步骤,确定了若干训练样本,以推荐理由匹配模型为二分类模型为例,其中,正样本中的样本数据存在文本关联,推荐理由文本可以更精确地解释查询文本;而负样本中的样本数据不存在文本关联。接下来,基于得到的训练样本训练推荐理由匹配模型。
本申请的一些实施例中,推荐理由匹配模型可以采用二分类模型,例如,可以基于BERT模型结构和分类器构建推荐理由匹配模型,以确定输入文本对的匹配度,模型结构更加简单、模型的执行效率更高。在模型训练过程中,BERT模型通过计算训练样本的样本数据中包括的查询文本和推荐理由文本(即输入文本对)之间的语义相似度,输出一个高维向量,分类器进一步学习BERT模型输出的高维向量和该训练样本的样本标签之间的映射关系,以训练推荐理由匹配模型的网络参数。基于前述步骤确定的正样本和负样本训练推荐理由匹配模型的具体实施方式可以采用现有技术中通用的分类模型训练方式,本申请实施例中不再赘述。
本申请的另一些实施例中,推荐理由匹配模型可以采用多分类模型,例如,可以基于BERT模型结构和多个分类器构建推荐理由匹配模型。模型的具体训练过程与而分类模型的训练过程类似,此处不再赘述。
与现有技术中不同的是,在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。其中,损失函数可以模型中每个预估分类结果的与真实结果的误差的求和函数,例如损失函数为正样本预估误差和负样本预估误差的求和函数。
在训练得到推荐理由匹配模型之后,本申请的一些实施例中,通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别,包括:通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别,确定各条所述搜索结果推荐理由文本分别与所述目标查询文本的匹配度。
例如,对于查询文本“情侣酒店”,召回的搜索结果中“XX海湾酒店”,的若干条推荐理由,对于这若干条推荐理由文本中的每条推荐理由文本,别将该条推荐理由文本和查询文本“情侣酒店”输入至所述推荐理由匹配模型,所述推荐理由匹配模型将输出对应每组输入的匹配概率(输入至所述推荐理由匹配模型的查询文本和推荐理由文本的匹配度)。
步骤130,根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
本申请的一些实施例中,根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选,包括:按照所述匹配度由高到低的顺序,选择指定数量的所述搜索结果推荐理由文本,作为所述目标查询文本对应的搜索结果的推荐理由文本。
例如,将查询文本“情侣酒店”和推荐理由文本“私家游泳池很大”、“距离沙滩步行5分钟”、“情侣海景房不错,露台和飘窗很大”分别组成文本对,输入至所述推荐理由匹配模型,所述推荐理由匹配模型将输出每个输入的文本对的匹配度,该匹配度体现了输入的文本对的内容关联程度,匹配度越大表示输入的文本对的内容关联程度越大。之后,可以按照查询文本“情侣酒店”和各推荐理由文本的匹配度由高到低的顺序,选择匹配度最高的N个(N为自然数)所述推荐理由文本,作为所述查询文本“情侣酒店”对应的搜索结果“XX海湾酒店”的推荐理由文本。
由所述推荐理由匹配模型的训练过程可知,所述推荐理由匹配模型会计算输入文本对中的查询文本和推荐理由文本之间的语义相似度,并基于语义相似度进行分类映射,得到输入文本对的匹配度。具体到上述三个推荐理由,推荐理由文本“情侣海景房不错,露台和飘窗很大”和查询文本“情侣酒店”将得到更高的匹配度,具有更高的召回优先级。推荐理由文本“情侣海景房不错,露台和飘窗很大”也更加匹配用户的搜索意图,使得输出的推荐理由文本对搜索结果提供了更强的可解释性。
按照上述方法,可以对所述查询文本“情侣酒店”对应的每个搜索结果的推荐理由文本分别进行筛选,以选出每个搜索结果的推荐理由文本中与用户的搜索意图匹配度更高的推荐理由文本。
本申请实施例公开的推荐理由筛选方法,通过获取目标查询文本匹配的搜索结果推荐理由文本;通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围,最后,根据匹配识别的结果对所述预设搜索结果推荐理由文本进行筛选,有助于提升推荐理由文本对召回结果与查询输入之间关联度的可解释性。
本申请实施例公开的推荐理由筛选方法,通过基于具备语义关联关系的文本对(即查询输入和对查询输入具有更强解释性的推荐理由文本)构建正样本,训练推荐理由匹配模型,在训练模型时,通过损失函数计算输入文本之间基于解释性文本的关联度预估值和真实值的误差,得到模型预估误差,使得推荐理由匹配模型充分学习到了对输入文本对之间基于解释性文本的语义匹配度和解释性的判断逻辑,从而可以准确的识别出一对输入文本之间基于解释性文本的匹配度,即准确识别出输入的推荐理由文本对输入的查询文本的解释性,而推荐理由文本对查询文本的解释性恰恰反映了推荐理由文本对应的搜索结果与查询文本之间的关联度,以及,推荐理由与用户搜索意图的匹配度。有效的提升了展示给用户的推荐理由的实用性。
采用现有技术中通过关键词匹配的方式对推荐理由文本进行筛选时,由于很难穷举查询文本中解释性文本的语义相关词,因此,在对推荐理由生成引擎输出的推荐理由文本进行筛选时,会筛选掉大部分词语不匹配的推荐理由从而出现召回的推荐理由稀少的问题。而采用本申请实施例公开的推荐理由筛选方法对推荐理由生成引擎输出的推荐理由文本进行筛选,由于是基于神经网络模型进行匹配度识别,文本处理能力强大,不受文本必须完全匹配的条件约束,既保证了文本匹配度的准确性,又不会出现由于关键词不全面而出现漏选推荐理由的情况。
实施例二
本申请实施例公开的一种推荐理由筛选装置,如图2所示,所述装置包括:
搜索结果推荐理由文本获取模块210,用于获取目标查询文本匹配的搜索结果推荐理由文本;
文本匹配识别模块220,用于通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围;
搜索结果推荐理由文本筛选模块230,用于根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
本申请的一些实施例中,所述训练样本是通过以下方法获取的:
获取若干条历史查询文本,以及每条所述历史查询文本对应的搜索结果推荐理由文本;
对于每条所述历史查询文本,识别所述历史查询文本中限定搜索实体的解释性文本;
通过文本匹配技术,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度,其中,所述关联度用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联或关联级别;
基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本。
本申请的一些实施例中,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,包括:
获取所述解释性文本的至少一个同义词,作为所述解释性文本的关联词;
将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配;
根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值;其中,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联,或者,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本的关联级别。
本申请的一些实施例中,根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值,包括:
响应于文本匹配成功,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本关联;
响应与文本匹配失败,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本不关联。
本申请的另一些实施例中,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,还包括:
将所述解释性文本与扩展历史查询文本对应的搜索结果推荐理由文本的关联度的取值,设置为指示所述搜索结果推荐理由文本与所述解释性文本不关联;其中,所述扩展历史查询文本为与所述解释性文本所属历史查询文本不同的所述历史查询文本。
本申请的一些实施例中,所述识别所述历史查询文本中限定搜索实体的解释性文本的步骤,包括:
通过预先训练的文本序列标注模型对所述历史查询文本中的文本进行标注,并根据标注结果识别所述历史查询文本中限定搜索实体的解释性文本;其中,所述文本序列标注模型通过以下方法训练:
采用命名实体标注方法对作为训练样本数据的查询文本进行标注,得到文本序列标签,其中,作为训练样本数据的查询文本中限定搜索实体的解释性文本的位置被标注为实体;
基于作为训练样本数据的查询文本和标注得到的文本序列标签,训练预设命名实体识别网络,得到文本序列标注模型。
本申请的一些实施例中,所述文本匹配识别模块220进一步用于:
通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别,确定各条所述搜索结果推荐理由文本分别与所述目标查询文本的匹配度;
所述搜索结果推荐理由文本筛选模块230进一步用于:
按照所述匹配度由高到低的顺序,选择指定数量的所述搜索结果推荐理由文本,作为所述目标查询文本对应的搜索结果的推荐理由文本。本申请实施例公开的推荐理由筛选装置,用于实现本申请实施例一中所述的推荐理由筛选方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
本申请实施例公开的推荐理由筛选装置,通过获取目标查询文本匹配的搜索结果推荐理由文本;通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围,最后,根据匹配识别的结果对所述预设搜索结果推荐理由文本进行筛选,有助于提升推荐理由文本对召回结果与查询输入之间关联度的可解释性。
本申请实施例公开的推荐理由筛选装置,通过基于具备语义关联关系的文本对(即查询输入和对查询输入具有更强解释性的推荐理由文本)构建正样本,训练推荐理由匹配模型,在训练模型时,通过损失函数计算输入文本之间基于解释性文本的关联度预估值和真实值的误差,得到模型预估误差,使得推荐理由匹配模型充分学习到了对输入文本对之间基于解释性文本的语义匹配度和解释性的判断逻辑,从而可以准确的识别出一对输入文本之间基于解释性文本的匹配度,即准确识别出输入的推荐理由文本对输入的查询文本的解释性,而推荐理由文本对查询文本的解释性恰恰反映了推荐理由文本对应的搜索结果与查询文本之间的关联度,以及,推荐理由与用户搜索意图的匹配度。有效的提升了展示给用户的推荐理由的实用性。
采用现有技术中通过关键词匹配的方式对推荐理由文本进行筛选时,由于很难穷举查询文本中解释性文本的语义相关词,因此,在对推荐理由生成引擎输出的推荐理由文本进行筛选时,会筛选掉大部分词语不匹配的推荐理由从而出现召回的推荐理由稀少的问题。而采用本申请实施例公开的推荐理由筛选装置对推荐理由生成引擎输出的推荐理由文本进行筛选,由于是基于神经网络模型进行匹配度识别,文本处理能力强大,不受文本必须完全匹配的条件约束,既保证了文本匹配度的准确性,又不会出现由于关键词不全面而出现漏选推荐理由的情况。
相应的,本申请实施例还公开了一种推荐理由匹配模型训练装置,如图3所示,包括:
训练样本获取模块310,用于获取若干训练样本;其中,每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;
模型训练模块320,用于基于所述若干训练样本,训练推荐理由匹配模型;在训练过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
本申请的一些实施例中,所述训练样本可以通过以下方法得到:
获取若干条历史查询文本,以及每条所述历史查询文本对应的搜索结果推荐理由文本;
对于每条所述历史查询文本,识别所述历史查询文本中限定搜索实体的解释性文本;
通过文本匹配技术,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度,其中,所述关联度用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联或关联级别;
基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本。
本申请的一些实施例中,基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本包括:基于所述关联度指示为与所述解释性文本关联的所述搜索结果推荐理由文本,构建正样本;以及,基于所述关联度指示为与所述解释性文本不关联的所述搜索结果推荐理由文本,构建负样本。
本申请的一些实施例中,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,包括:
获取所述解释性文本的至少一个同义词,作为所述解释性文本的关联词;
将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配;
根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值;其中,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联,或者,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本的关联级别。
本申请的一些实施例中,根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值包括:响应于文本匹配成功,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本关联;
响应与文本匹配失败,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值为指示所述搜索结果推荐理由文本与所述解释性文本不关联。
本申请的另一些实施例中,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,还包括:
将所述解释性文本与扩展历史查询文本对应的搜索结果推荐理由文本的关联度的取值,设置为指示所述搜索结果推荐理由文本与所述解释性文本不关联;其中,所述扩展历史查询文本为与所述解释性文本所属历史查询文本不同的所述历史查询文本。
本申请的一些实施例中,所述识别所述历史查询文本中限定搜索实体的解释性文本的步骤,包括:
通过预先训练的文本序列标注模型对所述历史查询文本中的文本进行标注,并根据标注结果识别所述历史查询文本中限定搜索实体的解释性文本;其中,所述文本序列标注模型通过以下方法训练:
采用命名实体标注方法对作为训练样本数据的查询文本进行标注,得到文本序列标签,其中,作为训练样本数据的查询文本中限定搜索实体的解释性文本的位置被标注为实体;
基于作为训练样本数据的查询文本和标注得到的文本序列标签,训练预设命名实体识别网络,得到文本序列标注模型。通过基于具备语义关联关系的文本对(即查询输入和对查询输入具有更强解释性的推荐理由文本)构建正样本,训练推荐理由匹配模型,在训练模型时,通过损失函数计算输入文本之间基于解释性文本的关联度预估值和真实值的误差,得到模型预估误差,使得推荐理由匹配模型充分学习到了对输入文本对之间基于解释性文本的语义匹配度和解释性的判断逻辑,从而可以准确的识别出一对输入文本之间基于解释性文本的匹配度,即准确识别出输入的推荐理由文本对输入的查询文本的解释性。而推荐理由文本对查询文本的解释性恰恰反映了推荐理由文本对应的搜索结果与查询文本之间的关联度,以及,推荐理由与用户搜索意图的匹配度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种推荐理由筛选方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图4示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器410和存储器420及存储在所述存储器420上并可在处理器410上运行的程序代码430,所述处理器410执行所述程序代码430时实现上述实施例中所述的方法。所述存储器420可以为计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码430的存储空间4201。例如,用于程序代码430的存储空间4201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码430为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的推荐理由筛选方法的步骤。
这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图4所示的电子设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图5所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码430’,所述计算机可读代码430’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种推荐理由筛选方法,其特征在于,包括:
获取目标查询文本匹配的搜索结果推荐理由文本;
通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围;
根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述训练样本是通过以下方法构建的:
获取若干条历史查询文本,以及每条所述历史查询文本对应的搜索结果推荐理由文本;
对于每条所述历史查询文本,识别所述历史查询文本中限定搜索实体的解释性文本;
通过文本匹配技术,确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度;其中,所述关联度用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联或关联级别;
基于所述搜索结果推荐理由文本、所述搜索结果推荐理由文本对应的所述历史查询文本,以及相应的所述关联度,构建训练样本。
3.根据权利要求2所述的方法,其特征在于,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,包括:
获取所述解释性文本的至少一个同义词,作为所述解释性文本的关联词;
将获取的每个所述关联词分别与所述解释性文本所属历史查询文本对应的搜索结果推荐理由文本进行文本匹配;
根据进行文本匹配的结果,设置所述搜索结果推荐理由文本与所述解释性文本的关联度取值;其中,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本是否关联,或者,所述关联度取值用于指示所述搜索结果推荐理由文本与所述解释性文本的关联级别。
4.根据权利要求3所述的方法,其特征在于,所述确定每条所述搜索结果推荐理由文本与所述解释性文本的关联度的步骤,还包括:
将所述解释性文本与扩展历史查询文本对应的搜索结果推荐理由文本的关联度的取值,设置为指示所述搜索结果推荐理由文本与所述解释性文本不关联;其中,所述扩展历史查询文本为与所述解释性文本所属历史查询文本不同的所述历史查询文本。
5.根据权利要求2所述的方法,其特征在于,所述识别所述历史查询文本中限定搜索实体的解释性文本的步骤,包括:
通过预先训练的文本序列标注模型对所述历史查询文本中的文本进行标注,并根据标注结果识别所述历史查询文本中限定搜索实体的解释性文本;其中,所述文本序列标注模型通过以下方法训练:
采用命名实体标注方法对作为训练样本数据的查询文本进行标注,得到文本序列标签,其中,作为训练样本数据的查询文本中限定搜索实体的解释性文本的位置被标注为实体;
基于作为训练样本数据的查询文本和标注得到的文本序列标签,训练预设命名实体识别网络,得到文本序列标注模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别的步骤,包括:
通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别,确定各条所述搜索结果推荐理由文本分别与所述目标查询文本的匹配度;
所述根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选的步骤,包括:
按照所述匹配度由高到低的顺序,选择指定数量的所述搜索结果推荐理由文本,作为所述目标查询文本对应的搜索结果的推荐理由文本。
7.一种推荐理由匹配模型训练方法,其特征在于,包括:
获取若干训练样本;其中,每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;
基于所述若干训练样本,训练推荐理由匹配模型;在训练过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
8.一种推荐理由筛选装置,其特征在于,包括:
搜索结果推荐理由文本获取模块,用于获取目标查询文本匹配的搜索结果推荐理由文本;
文本匹配识别模块,用于通过预先训练的推荐理由匹配模型对所述目标查询文本和所述搜索结果推荐理由文本逐条进行匹配识别;其中,用于训练所述推荐理由匹配模型的每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;在基于若干所述训练样本,训练推荐理由匹配模型过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围;
搜索结果推荐理由文本筛选模块,用于根据匹配识别的结果对所述搜索结果推荐理由文本进行筛选。
9.一种推荐理由匹配模型训练装置,其特征在于,包括:
训练样本获取模块,用于获取若干训练样本;其中,每条所述训练样本的样本数据包括:查询文本和搜索结果推荐理由文本,样本标签表示所述搜索结果推荐理由文本与所述查询文本中限定搜索实体的解释性文本之间关联度的真实值;
模型训练模块,用于基于所述若干训练样本,训练推荐理由匹配模型;在训练过程中,通过所述推荐理由匹配模型的损失函数计算每条训练样本中搜索结果推荐理由文本与查询文本中限定搜索实体的解释性文本之间的关联度预估值和真实值的误差,并根据所有训练样本的所述误差计算模型误差,以所述模型误差最小为目标调整所述推荐理由匹配模型的模型参数,直至所述模型误差收敛至预设范围。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至6任意一项所述的推荐理由筛选方法或权利要求7所述的推荐理由匹配模型训练方法。
11.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至6任意一项所述的推荐理由筛选方法的步骤或权利要求7所述的推荐理由匹配模型训练方法的步骤。
CN202010457012.2A 2020-05-26 2020-05-26 推荐理由筛选方法、装置、电子设备 Withdrawn CN111831902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457012.2A CN111831902A (zh) 2020-05-26 2020-05-26 推荐理由筛选方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457012.2A CN111831902A (zh) 2020-05-26 2020-05-26 推荐理由筛选方法、装置、电子设备

Publications (1)

Publication Number Publication Date
CN111831902A true CN111831902A (zh) 2020-10-27

Family

ID=72913771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457012.2A Withdrawn CN111831902A (zh) 2020-05-26 2020-05-26 推荐理由筛选方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN111831902A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560928A (zh) * 2020-12-08 2021-03-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN113076401A (zh) * 2021-04-09 2021-07-06 北京元年科技股份有限公司 用于数据服务的方法及相应的系统、计算机设备和介质
CN113434763A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 搜索结果的推荐理由生成方法、装置、设备及存储介质
CN114564496A (zh) * 2022-03-01 2022-05-31 北京有竹居网络技术有限公司 一种内容推荐方法及装置
CN117573817A (zh) * 2023-10-16 2024-02-20 百度在线网络技术(北京)有限公司 模型训练方法、相关性确定方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970857A (zh) * 2014-05-07 2014-08-06 百度在线网络技术(北京)有限公司 推荐内容确定系统和方法
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN106649761A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的搜索结果展现方法和装置
CN110222160A (zh) * 2019-05-06 2019-09-10 平安科技(深圳)有限公司 智能语义文档推荐方法、装置及计算机可读存储介质
CN110457452A (zh) * 2019-07-08 2019-11-15 汉海信息技术(上海)有限公司 推荐理由生成方法、装置、电子设备及可读存储介质
CN111046138A (zh) * 2019-11-15 2020-04-21 北京三快在线科技有限公司 推荐理由生成方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970857A (zh) * 2014-05-07 2014-08-06 百度在线网络技术(北京)有限公司 推荐内容确定系统和方法
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN106649761A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的搜索结果展现方法和装置
CN110222160A (zh) * 2019-05-06 2019-09-10 平安科技(深圳)有限公司 智能语义文档推荐方法、装置及计算机可读存储介质
CN110457452A (zh) * 2019-07-08 2019-11-15 汉海信息技术(上海)有限公司 推荐理由生成方法、装置、电子设备及可读存储介质
CN111046138A (zh) * 2019-11-15 2020-04-21 北京三快在线科技有限公司 推荐理由生成方法、装置、电子设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560928A (zh) * 2020-12-08 2021-03-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN112560928B (zh) * 2020-12-08 2021-10-26 北京百度网讯科技有限公司 负样本挖掘方法、装置、电子设备及存储介质
CN113076401A (zh) * 2021-04-09 2021-07-06 北京元年科技股份有限公司 用于数据服务的方法及相应的系统、计算机设备和介质
CN113434763A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 搜索结果的推荐理由生成方法、装置、设备及存储介质
CN113434763B (zh) * 2021-06-28 2022-10-14 平安科技(深圳)有限公司 搜索结果的推荐理由生成方法、装置、设备及存储介质
CN114564496A (zh) * 2022-03-01 2022-05-31 北京有竹居网络技术有限公司 一种内容推荐方法及装置
CN114564496B (zh) * 2022-03-01 2023-09-19 北京有竹居网络技术有限公司 一种内容推荐方法及装置
CN117573817A (zh) * 2023-10-16 2024-02-20 百度在线网络技术(北京)有限公司 模型训练方法、相关性确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111831902A (zh) 推荐理由筛选方法、装置、电子设备
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN114691525A (zh) 测试用例的选择方法及装置
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN114398480B (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN116680481B (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN116738228A (zh) 实体识别模型的训练方法、文本的实体识别方法和设备
CN114595329B (zh) 一种原型网络的少样本事件抽取系统及方法
CN111858860A (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN115827847A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN115836288A (zh) 用于生成训练数据的方法以及装置
CN111767727B (zh) 数据处理方法及装置
CN115687910A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN113688633A (zh) 一种提纲确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201027