CN111859100B - 一种检索意图转移识别方法及装置 - Google Patents
一种检索意图转移识别方法及装置 Download PDFInfo
- Publication number
- CN111859100B CN111859100B CN201911368809.9A CN201911368809A CN111859100B CN 111859100 B CN111859100 B CN 111859100B CN 201911368809 A CN201911368809 A CN 201911368809A CN 111859100 B CN111859100 B CN 111859100B
- Authority
- CN
- China
- Prior art keywords
- sample
- determining
- feature
- keyword
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012546 transfer Methods 0.000 claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims description 97
- 239000013598 vector Substances 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 22
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 23
- 230000007704 transition Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 13
- 238000013461 design Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000013585 weight reducing agent Substances 0.000 description 3
- 241000258957 Asteroidea Species 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种检索意图转移识别方法及装置,包括:获取多组样本数据;确定多组样本数据中每组样本数据分别在多个检索意图转移影响特征下的特征值;将每组样本数据分别在多个检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组样本数据分别对应的检索意图转移识别结果;基于各组样本数据分别对应的检索意图转移识别结果以及检索意图转移真实结果,对基础识别模型进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。该实施例能够识别出对于目标检索信息发生了检索意图转移的关键字。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种检索意图转移识别方法及装置。
背景技术
信息检索在很多领域占据着重要的地位。在很多应用场景中,会根据用户输入的样本检索信息为用户检索获取和展示多个检索结果。例如在网约车领域,用户会通过客户端的人机交互界面输入用于描述其目的地的样本检索信息,客户端会根据用户输入的样本检索信息进行兴趣点(Point of Interest,POI)的获取。
用户通过网约车的客户端进行兴趣点检索时,需要在客户端的人机交互界面分多次输入关键词;用户多次输入的关键词按照输入的先后顺序构成关键词序列;用户每输入一次关键词,客户端都会根据当前已经输入的所有关键词进行检索。为了能够从海量的POI中召回用户想要的POI,当前一般采用机器学习算法对召回的POI进行排序,将用户选择概率更高的POI排在更靠前的位置以供用户选择,以减少用户输入,提升人机交互效率。该机器学习算法在进行训练时,需要大量的样本数据。每一个样本数据都由检索时所输入的关键词序列,以及最终选择POI构成。但是实际中,在样本中存在了很多在关键词输入过程中改变了检索意图的情况。例如用户第一次输入的检索关键词为“北京”、第二次输入的检索关键词为“三元桥”;然后将“三元桥”删除,并在第三次输入了检索关键词“海淀桥”,最终所选择的POI为“北京海淀桥南”。使用这种在检索过程中出现了意图转移的样本对机器学习模型进行训练,会造成机器学习模型的精度降低。
进而,一种能够识别检索关键词相对于POI是否发生了意图转移的方法成为当前亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种检索意图转移识别方法及装置,以识别对于目标检索信息发生了检索意图转移的关键字。
第一方面,本申请实施例提供了一种检索意图转移识别方法,包括:
获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
一种可能的实施方式中,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
一种可能的实施方式中,针对所述意图转移影响特征包括所述编辑距离特征的情况,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
一种可能的实施方式中,确定所述样本关键词与所述检索关键词之间的编辑距离,包括:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
一种可能的实施方式中,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
一种可能的实施方式中,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括语义特征的情况,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
一种可能的实施方式中,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
第二方面,本申请实施例提供了一种检索意图转移识别装置,包括:
获取模块,用于获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定模块,用于确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
识别模块,用于将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
训练模块,用于基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
一种可能的实施方式中,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
一种可能的实施方式中,针对所述意图转移影响特征包括所述编辑距离特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
一种可能的实施方式中,所述确定模块,在确定所述样本关键词与所述检索关键词之间的编辑距离时,具体用于:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
一种可能的实施方式中,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定模块,在确定所述样本关键词与所述样本检索信息之间的编辑距离时,具体用于:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
一种可能的实施方式中,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
所述确定模块,采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
一种可能的实施方式中,针对所述意图转移影响特征包括语义特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
一种可能的实施方式中,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
第三方面,本申请实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的第一方面中任一种可能的实施方式中的步骤。
本申请提供的检索意图转移识别方法,可以基于包括样本关键字、样本检索信息、以及样本关键字相对于样本检索信息的检索意图转移真实结果的样本数据在多个检索意图转移影响特征下的特征值,以及预先确定的基础识别模型,确定每组样本数据分别对应的检索意图转移识别结果,并根据每组样本数据对应的检索意图转移是被结果和检索意图转移真实结果,对基础识别进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键字相对于目标检索信息是否发生了检索意图转移,通过这种方法,可以识别出对于目标检索信息发生了检索意图转移的关键字。
进而,在构建训练机器学习模型的训练样本时,能够基于该检索意图转移识别方法剔除关键词序列中相对于目标检索信息发生了检索意图转移的关键词,在基于这种训练样本对机器学习模型进行训练,能够提升机器学习模型的精度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种检索意图转移识别方法的流程示意图;
图2示出了本申请实施例提供的意图转移影响特征包括编辑距离特征的情况下,一种特征值计算方法的流程图;
图3示出了本申请实施例提供的编辑距离确定方法的流程图;
图4示出了本申请实施例提供的意图转移影响特征包括N元模型特征的情况下,一种特征值计算方法的流程图;
图5示出了本申请实施例提供的意图转移影响特征包括词汇特征的情况下,一种特征值计算方法的流程图;
图6示出了本申请实施例提供的意图转移影响特征包括词汇特征的情况下,另一种特征值计算方法的流程图;
图7示出了本申请实施例提供的意图转移影响特征包括语义特征的情况下,一种特征值计算方法的流程图;
图8示出了本申请实施例提供的一种检索意图转移识别装置的架构示意图;
图9示出了本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
首先对本申请所适用的应用场景做出介绍。本申请可以应用于机器学习模型训练前对训练样本进行筛选的过程。其中,机器学习模型例如用于对根据用户输入检索信息召回的POI进行排序。训练样本的精度直接影响最终训练完成的机器学习模型的精度,模型在训练过程中所应用的样本数据一般是从数据库中提取,获取基于爬虫技术直接获取,但通过上述方法获取的数据都是源数据,并未经过筛选,因此,这些源数据中的部分数据可能会影响训练出的机器学习模型的精度。
在POI检索的应用场景中,检索关键词与用户选择的POI构成了该场景下机器学习模型训练的样本数据,但是在获取样本数据时,用户分多次输入检索关键词,并根据召回的POI,最终选择一个POI,这种情况下即可能会出现检索意图发生了转移的情况,若使用这些检索意图发生了转移的样本数据对机器学习模型进行训练,最终机器学习模型的精度会受到影响。
基于此,本申请所提供的检索意图转移识别方法,可以利用样本数据的检索意图转移识别结果以及检索意图转移真实结果对基础识别模型进行训练,并利用最终训练得到的检索意图转移识别模型对待识别关键字相对于目标检索信息的是否发生了检索意图转移进行识别,进而可以根据识别结果,剔除训练样本中检索意图发生了转移的关键字,提高机器学习模型的精度。
参见图1所示,为本申请实施例所提供的一种检索意图转移识别方法的流程示意图,包括以下几个步骤:
步骤101、获取多组样本数据。
步骤102、确定多组样本数据中每组样本数据分别在多个检索意图转移影响特征下的特征值。
步骤103、将每组样本数据分别在多个检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组样本数据分别对应的检索意图转移识别结果。
步骤104、基于各组样本数据分别对应的检索意图转移识别结果以及检索意图转移真实结果,对基础识别模型进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
下面分别对上述S101~S104加以说明。
Ⅰ、上述步骤101中,获取的多组样本数据中,每组样本数据包括:样本关键词、样本检索信息、以及样本关键词相对于样本检索信息的检索意图转移真实结果。其中,样本关键词相对于样本检索信息的检索意图转移真实结果包括检索意图发生转移、以及检索意图未发生转移中的任意一种。
其中,若真实结果为检索意图发生转移,则对应的样本数据为负样本,以0表示;若真实结果为检索意图未发生转移,则对应的样本数据为正样本,以1表示。
在一种可能的实施方式中,样本关键词相对于样本检索信息的检索意图转移真实结果可以是用户基于样本关键词和样本检索信息确定的。
样本检索信息包括:检索关键词、以及选定兴趣点POI信息。其中,检索关键词是用户在进行POI检索时,最终所确定的关键词;POI信息包括POI名称以及对应的POI地址。
例如若用户要检索“北京西站南广场”,其在输入过程中,依次输入了关键词“北京”、“北站”“西站”、“南”、“广场”,这些关键词构成了关键词序列,其中任一关键词都能够作为样本关键词;
用户在触发检索指令时,检索框输入的信息“北京西站南广场”。所获取的POI包括:POI名称“北京西站南广场”、和POI地址“北京市丰台区莲花池东路118号”,则对应的样本检索信息包括:“北京西站南广场”、POI名称“北京西站南广场”、和POI地址“京市丰台区莲花池东路118号”。
Ⅱ、上述步骤102中,检索意图转移影响特征可以包括但不限于下述特征a1~特征a4中的一种或多种:
a1、编辑距离特征。
针对意图转移影响特征包括编辑距离特征的情况,在计算样本数据在编辑距离特征下的特征值时,可以参照如图2所示的特征值计算方法,包括以下几个步骤:
步骤201、确定样本关键词与样本检索信息之间的编辑距离。
步骤202、将确定出的编辑距离确定为样本数据在编辑距离特征下的特征值。
其中,样本关键词与样本检索信息之间的编辑距离可以是样本关键词与样本检索信息之间的字符差距。例如,若样本关键词为“北京”,样本检索信息为“北京西站”,样本关键词“北京”与样本检索信息“北京西站”之间的字符差距为“西站”两个字,则最终确定出的样本关键词与样本检索信息之间的编辑距离为2。
在一种可能的实施方式中,在确定样本关键词与样本检索信息之间的编辑距离时,还可以是确定样本关键词与样本检索信息在不同语言表述方式下的编辑距离。示例性的,语言表述方式可以为中文、拼音等。
当语言标识方式为拼音时,样本关键词与样本检索信息之间的编辑距离可以是样本关键词的拼音与样本检索信息的拼音之间的差距。示例性的,若样本关键词为“北京”,样本检索信息为“北京西站”,当确定样本关键词与样本检索信息在拼音的表述方式下的编辑距离时,样本关键词“北京”对应的拼音为“bei jing”,样本检索信息“北京西站”对应的拼音为“bei jing xi zhan”,二者对应的拼音之间的字符差距为“xi zhan”,包括6个拼音字母,则最终确定出的样本关键词与样本检索信息之间的编辑距离为6。
在一种可能的实施方式中,样本检索信息包括检索关键词、以及选定兴趣点POI信息,则在确定样本关键词与样本检索信息之间的编辑距离时,可以参照图3所示的编辑距离确定方法,包括以下步骤:
步骤301、确定样本关键词与检索关键词之间的第一编辑距离,以及确定样本关键词与选定兴趣点POI信息之间的第二编辑距离。
其中,在确定样本关键词与检索关键词之间的第一编辑距离时,也可以是确定样本关键词与检索关键词之间在不同语言表述方式下的第一编辑距离;在确定样本关键词与选定兴趣点POI信息之间的第二编辑距离时,也可以是确定样本关键词与选定兴趣点POI信息之间在不同语言表述方式下的第二编辑距离。
但是需要注意的是,样本关键词与检索关键词之间的第一编辑距离和样本关键词与选定兴趣点POI信息之间的第二编剧距离需要在同一种语言表述方式下确定。
步骤302、将第一编辑距离和第二编辑距离之间的较小者确定为样本关键词与样本检索信息之间的编辑距离。
具体实施中,可以在将第一编辑距离和第二编辑距离之间的较小者确定为样本关键词与样本检索信息之间的编辑距离之后,然后将编辑距离确定为样本数据在编辑距离特征下的特征值。
a2、N元N-gram模型特征。
针对意图转移影响特征包括N元模型特征的情况,在计算样本数据在N元模型特征下的特征值时,可以参照如图4所示的特征值计算方法,需要说明的是,N元模型特征至少有一个,每个N元模型特征对应一个切分尺寸,具体包括以下几个步骤:
步骤401、使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对样本关键词进行切分处理,获取与样本关键词对应的至少一个第一字符串组。
示例性的,若切分尺寸为2个字符,样本关键词为“北京西站”,则在对样本关键词进行切分时,所得到的第一字符串为“北京”、“京西”、以及“西站”,第一字符串组为“北京京西西站”。
步骤402、使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对样本检索信息进行切分处理,获取与样本检索信息对应的至少一个第二字符串组。
考虑到在对样本关键词以及样本检索信息进行切分之后可能会存在相同的字符串,因此,在一种可能的实施方式中,在对样本关键词以及样本检索信息进行切分处理之后,还可以分别对切分之后的字符串进行降重,然后根据降重之后的字符串确定第一字符串组和第二字符串组。
示例性的,样本检索信息为“北京西站北京宾馆”,以切分尺寸为2字符对样本检索信息进行切分之后得到的第二字符串分别为“北京”、“京西”、“西站”、“站北”、“北京”、“京宾”、“宾馆”,因此得到的第二字符串中包括两个“北京”,在对切分得到的第二字符串进行降重之后,得到的第二字符串组为“北京京西西站站北京宾宾馆”。
需要说明的是,在对样本检索信息进行切分处理时所采用的切分尺寸与对样本关键词进行切分处理时所采用的切分尺寸应该是相同的。该切分尺寸可以根据不同的应用场景进行不同的设置,本申请对此并不限定。
步骤403、针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量。
示例性的,样本关键词为“北京西站”,第一字符串组为“北京京西西站”,样本检索信息为“北京西站南广场”,第二字符串组为“北京京西西站站南南广广场”,则第一字符串组与第二字符串组中相同的字符串为“北京京西西站”,则在切分尺寸两字符对应的第一字符串组与第二字符串组中相同的字符串的数量为3。
步骤404、将各个切分尺寸对应的数量确定为样本数据N元模型特征下的特征值。
具体实施中,可以设置多个切分尺寸,不同切分尺寸下第一字符串组和第二字符串组中相同的字符串的数量不同,因此当切分尺寸的数量大于1时,可以将利用不同切分尺寸对应的数量构成矩阵,然后将构成的矩阵确定为样本数据在N元模型特征下的特征值。
具体实施中,在利用不同切分尺寸对应的数量构成矩阵时,可以先将切分尺寸进行排序,然后根据排序结果,确定切分尺寸对应的数量的矩阵。
示例性的,切分尺寸分别为2字符、3字符、4字符,2字符的切分尺寸对应的数量为8,3字符的切分尺寸对应的数量为7,4字符的切分尺寸对应的数量为6,将切分尺寸按照从小到达的顺序进行排序之后为2字符、3字符、4字符,则最终确定出的矩阵为[8,7,6]。
a3:词汇特征。
针对意图转移影响特征包括词汇特征的情况,可以采用如图5所示的特征值确定方法,包括以下几个步骤:
步骤501、将样本关键词进行分词处理,得到第一词汇组,以及将样本检索信息进行分词处理,得到第二词汇组。
步骤502、基于第一词汇组以及第二词汇组,确定样本关键词与样本检索信息之间的重合度,并将重合度确定为词汇特征下的特征值。
其中,在基于第一词汇组以及第二词汇组,确定样本关键词与样本检索信息之间的重合度时,可以是确定第一次词汇组合第二词汇组中相同词汇的数量,并将相同词汇的数量确定为样本关键词与样本检索信息之间的重合度。
具体实施中,在对样本关键词和样本检索信息进行分词处理时,可以采用如HanLP、LTP等分词工具,本申请对此并不限定。
在另外一种可能的实施方式中,针对意图转移影响特征包括词汇特征的情况,还可以采用如图6所示的特征值确定方法,包括以下几个步骤:
步骤601、确定与样本检索信息对应的输入关键词序列中,输入关键词的数量。
其中,样本关键词为输入关键词序列中的任一输入关键词。
示例性的,用户一开始输入的关键词为“北京西站”,然后将“北京西站”修改为“北京海淀桥”,则样本关键词可以为“北京西站”和“北京海淀桥”之中的任意一个,输入关键词的数量为2。
步骤602、将输入关键词的数量确定为样本数据在词汇特征下的特征值。
a4:语义特征。
针对意图转移影响特征包括语义特征的情况,可以采用如图7所示的特征值确定方法,包括以下几个步骤:
步骤701、基于样本关键词中各个字符的字符向量,确定用于表征样本关键词的第一特征向量,以及基于样本检索信息中各个字符的字符向量,确定用于表征样本检索信息的第二特征向量。
在具体实施中,在确定样本关键词中各个字符的字符向量时,可以采用独热one-hot的方式将各个字符转化为字符向量,也可以采用word2vec模型来训练样本关键词中各个字符的字符向量。其中,样本检索信息中各个字符的字符向量的确定方法与样本关键词的字符向量的方法可以相同。
在确定样本关键词中各个字符的字符向量后,可以将各个字符向量构成的向量矩阵作为第一特征向量,也可以对各个字符向量构成的向量矩阵进行降维、特征提取等操作,将各个字符向量构成的向量矩阵转化为维度为预设维度的第一特征向量。
另外,在讲各个字符向量构成的向量矩阵进行降维或者特征提取处理时,考虑到样本关键词与样本检索信息中所包含的字符向量的个数可能不同,若直接对字符向量构成的向量矩阵进行降维,得到特征向量的长度可能会不同,因此,可以确定一预设维度;针对字向量无法达到该维度的向量矩阵进行补零的处理。
示例性的,在根据样本关键词的各个字符的字符向量,确定第一特征向量时,可以将样本关键词的字符向量按照各个字符在样本关键词中的位置构成向量矩阵,然后对向量矩阵进行卷积运算,得到样本关键词的第一特征向量。
另外,基于样本检索信息的各个字符的字符向量,确定第二特征向量的方法与基于样本关键词的各个字符的字符向量,确定第二特征向量的方法相同,在此将不再赘述。
步骤702、根据第一特征向量以及第二特征向量,确定样本关键词与样本检索信息之间的语义相似度。
具体实施中,在根据第一特征向量以及第二特征向量,确定样本关键词与样本检索信息之间的语义相似度时,可以计算第一特征向量与第二特征向量之间的余弦距离或者欧氏距离,并将计算出的预先距离或欧式距离确定为样本关键词与样本检索信息之间的语义相似度。
步骤703、将语义相似度确定为样本数据在语义特征下的特征值。
此处,相似度可以为:欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离、夹角余弦、汉明顿距离、信息熵中一种或者多种。
Ⅲ、上述步骤103中,在将每组样本数据分别在多个检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中之后,基础识别模型会基于样本特征值判断样本数据对应的检索意图转移识别结果,也即识别样本数据中样本关键词相对于样本检索信息的检索意图是否发生转移。
此处,基础识别模型可以包括但不下述模型中任一一种:神经网络模型、梯度提升树GBDT模型。
Ⅳ、上述步骤104中,在基于各组样本数据分别对应的检索意图转移识别结果以及检索意图转移真实结果,对所述基础识别模型进行训练时,可以基于各组样本数据对应的检索意图转移识别结果中与检索意图转移真实结果确定本次训练过程中的准确率,然后当准确率不满足预设准确率条件时,调整所述基础识别模型的模型参数,并重新执行步骤103~步骤104,直至确定出的准确率满足预设准确率条件。
其中,在基于各组样本数据对应的检索意图转移识别结果中与检索意图转移真实结果确定本次训练过程中的准确率时,可以参照以下公式:
/>
其中,K表示准确率,P表示检索意图转移识别结果中与检索意图转移真实结果一致的样本数据的个数,Q表示样本数据的个数。
本申请所提供的方法,在得到检索意图转移识别模型之后,可以对检索模型的样本数据进行识别,将检索模型的每一个样本数据中的样本关键词作为待识别关键词,将检索模型的每一个样本数据中的样本检索信息作为该样本关键词对应的目标检索信息,然后基于检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移,并基于检索意图转移识别模型的识别结果,对检索模型的样本数据进行筛选和更新。例如,对于检索意图发生了转移的样本数据,可以对其进行标记,或者将其从检索模型的样本数据中剔除。最终,利用筛选后样本年数据对检索模型进行训练,得到训练好的检索模型,通过这种方法训练出的检索模型,检索精度更高。
本申请提供的检索意图转移识别方法,可以基于包括样本关键字、样本检索信息、以及样本关键字相对于样本检索信息的检索意图转移真实结果的样本数据在多个检索意图转移影响特征下的特征值,以及预先确定的基础识别模型,确定每组样本数据分别对应的检索意图转移识别结果,并根据每组样本数据对应的检索意图转移是被结果和检索意图转移真实结果,对基础识别进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键字相对于目标检索信息是否发生了检索意图转移,通过这种方法,可以识别出对于目标检索信息发生了检索意图转移的关键字。
进而,在构建训练机器学习模型的训练样本时,能够基于该检索意图转移识别方法剔除关键词序列中相对于目标检索信息发生了检索意图转移的关键词,在基于这种训练样本对机器学习模型进行训练,能够提升机器学习模型的精度。
参照图8所示,为本申请实施例提供的一种检索意图转移识别装置的架构示意图,所述装置包括:获取模块801、确定模块802、识别模块803、以及训练模块804,具体的:
获取模块801,用于获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定模块802,用于确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
识别模块803,用于将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
训练模块804,用于基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
本申请实施例可以基于包括样本关键字、样本检索信息、以及样本关键字相对于样本检索信息的检索意图转移真实结果的样本数据在多个检索意图转移影响特征下的特征值,以及预先确定的基础识别模型,确定每组样本数据分别对应的检索意图转移识别结果,并根据每组样本数据对应的检索意图转移是被结果和检索意图转移真实结果,对基础识别进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键字相对于目标检索信息是否发生了检索意图转移,通过这种方法,可以识别出对于目标检索信息发生了检索意图转移的关键字。
进而,在构建训练机器学习模型的训练样本时,能够基于该检索意图转移识别方法剔除关键词序列中相对于目标检索信息发生了检索意图转移的关键词,在基于这种训练样本对机器学习模型进行训练,能够提升机器学习模型的精度。
一种可能的设计中,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
一种可能的设计中,针对所述意图转移影响特征包括所述编辑距离特征的情况,所述确定模块802,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
一种可能的设计中,所述确定模块802,在确定所述样本关键词与所述检索关键词之间的编辑距离时,具体用于:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
一种可能的设计中,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定模块802,在确定所述样本关键词与所述样本检索信息之间的编辑距离时,具体用于:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
一种可能的设计中,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
所述确定模块802,采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
一种可能的设计中,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块802,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
一种可能的设计中,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块802,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
一种可能的设计中,针对所述意图转移影响特征包括语义特征的情况,所述确定模块802,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
一种可能的设计中,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
本申请提供的检索意图转移识别装置,可以基于包括样本关键字、样本检索信息、以及样本关键字相对于样本检索信息的检索意图转移真实结果的样本数据在多个检索意图转移影响特征下的特征值,以及预先确定的基础识别模型,确定每组样本数据分别对应的检索意图转移识别结果,并根据每组样本数据对应的检索意图转移是被结果和检索意图转移真实结果,对基础识别进行训练,得到检索意图转移识别模型,以便基于检索意图转移识别模型识别待识别关键字相对于目标检索信息是否发生了检索意图转移,通过这种方法,可以识别出对于目标检索信息发生了检索意图转移的关键字,通过剔除了目标检索信息发生了检索意图转移的关键字的样本数据对机器学习模型进行训练,提高了机器学习模型的精度。
实施例三
基于同一技术构思,本申请实施例还提供了一种电子设备。参照图9所示,为本申请实施例提供的电子设备900的结构示意图,包括处理器901、存储器902、和总线903。其中,存储器902用于存储执行指令,包括内存9021和外部存储器9022;这里的内存9021也称内存储器,用于暂时存放处理器901中的运算数据,以及与硬盘等外部存储器9022交换的数据,处理器901通过内存9021与外部存储器9022进行数据交换,当电子设备900运行时,处理器901与存储器902之间通过总线903通信,使得处理器901在执行以下指令:
获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
一种可能的实施方式中,处理器901执行的指令中,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
一种可能的实施方式中,处理器901执行的指令中,针对所述意图转移影响特征包括所述编辑距离特征的情况,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
一种可能的实施方式中,处理器901执行的指令中,确定所述样本关键词与所述检索关键词之间的编辑距离,包括:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
一种可能的实施方式中,处理器901执行的指令中,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
一种可能的实施方式中,处理器901执行的指令中,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
一种可能的实施方式中,处理器901执行的指令中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
一种可能的实施方式中,处理器901执行的指令中,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
一种可能的实施方式中,处理器901执行的指令中,针对所述意图转移影响特征包括语义特征的情况,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
一种可能的实施方式中,处理器901执行的指令中,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
实施例四
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例中所述的检索意图转移识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述检索意图转移识别方法的步骤,从而识别出对于目标检索信息发生了检索意图转移的关键字,通过剔除了目标检索信息发生了检索意图转移的关键字的样本数据对机器学习模型进行训练,提高机器学习模型的精度。
本申请实施例所提供的进行检索意图转移识别方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (22)
1.一种检索意图转移识别方法,其特征在于,包括:
获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
2.根据权利要求1所述的方法,其特征在于,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
3.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括所述编辑距离特征的情况,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
4.根据权利要求3所述的方法,其特征在于,所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
5.根据权利要求3所述的方法,其特征在于,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定所述样本关键词与所述样本检索信息之间的编辑距离,包括:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
6.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
7.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
8.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
9.根据权利要求2所述的方法,其特征在于,针对所述意图转移影响特征包括语义特征的情况,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
10.根据权利要求1所述的方法,其特征在于,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
11.一种检索意图转移识别装置,其特征在于,包括:
获取模块,用于获取多组样本数据;每组所述样本数据包括:样本关键词、样本检索信息,以及所述样本关键词相对于所述样本检索信息的检索意图转移真实结果;
确定模块,用于确定所述多组样本数据中每组所述样本数据分别在多个检索意图转移影响特征下的特征值;
识别模块,用于将所述每组所述样本数据分别在多个所述检索意图转移影响特征下的样本特征值输入至预先确定的基础识别模型中,获取每组所述样本数据分别对应的检索意图转移识别结果;
训练模块,用于基于各组所述样本数据分别对应的所述检索意图转移识别结果以及所述检索意图转移真实结果,对所述基础识别模型进行训练,得到检索意图转移识别模型,以便基于所述检索意图转移识别模型识别待识别关键词相对于目标检索信息是否发生了检索意图转移。
12.根据权利要求11所述的装置,其特征在于,所述意图转移影响特征包括下述一种或者多种:
编辑距离特征、N元模型特征、词汇特征、以及语义特征。
13.根据权利要求12所述的装置,其特征在于,针对所述意图转移影响特征包括所述编辑距离特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述编辑距离特征下的特征值:
确定所述样本关键词与所述样本检索信息之间的编辑距离;
将所述编辑距离确定为所述样本数据在所述编辑距离特征下的特征值。
14.根据权利要求13所述的装置,其特征在于,所述确定模块,在确定所述样本关键词与所述检索关键词之间的编辑距离时,具体用于:
确定所述样本关键词与所述样本检索信息在不同语言表述方式下的编辑距离。
15.根据权利要求13所述的装置,其特征在于,所述样本检索信息包括:检索关键词、以及选定兴趣点POI信息;
所述确定模块,在确定所述样本关键词与所述样本检索信息之间的编辑距离时,具体用于:
确定所述样本关键词与所述检索关键词之间的第一编辑距离,以及确定所述样本关键词与所述选定兴趣点POI信息之间的第二编辑距离;
将所述第一编辑距离和所述第二编辑距离之间的较小者确定为所述样本关键词与所述样本检索信息之间的编辑距离。
16.根据权利要求12所述的装置,其特征在于,针对所述意图转移影响特征包括N元模型特征的情况,所述N元模型特征至少有一个;每个所述N元模型特征对应一个切分尺寸;
所述确定模块,采用下述方式获取所述样本数据在所述N元模型特征下的特征值:
使用至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本关键词进行切分处理,获取与所述样本关键词对应的至少一个第一字符串组;
使用所述至少一个切分尺寸对应的切分窗口,以一个字符为移动步长,对所述样本检索信息进行切分处理,获取与所述样本检索信息对应的至少一个第二字符串组;
针对每个切分尺寸,根据该切分尺寸对应的第一字符串组,以及第二字符串组,确定该切分尺寸对应的第一字符串组与第二字符串组中相同的字符串的数量;
将各个切分尺寸对应的数量确定为所述样本数据在所述N元模型特征下的特征值。
17.根据权利要求12所述的装置,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
将所述样本关键词进行分词处理,得到第一词汇组;以及
将所述样本检索信息进行分词处理,得到第二词汇组;
基于所述第一词汇组以及所述第二词汇组,确定所述样本关键词与所述样本检索信息之间的重合度;
将所述重合度确定为所述词汇特征下的特征值。
18.根据权利要求12所述的装置,其特征在于,针对所述意图转移影响特征包括词汇特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述词汇特征下的特征值:
确定与所述样本检索信息对应的输入关键词序列中,输入关键词的数量;其中,所述样本关键词为所述输入关键词序列中任一输入关键词;
将所述输入关键词的数量确定为所述样本数据在所述词汇特征下的特征值。
19.根据权利要求12所述的装置,其特征在于,针对所述意图转移影响特征包括语义特征的情况,所述确定模块,采用下述方式获取所述样本数据在所述语义特征下的特征值:
基于所述样本关键词中各个字符的字符向量,确定用于表征所述样本关键词的第一特征向量;
以及基于所述样本检索信息中各个字符的字符向量,确定用于表征所述样本检索信息的第二特征向量;
根据所述第一特征向量以及所述第二特征向量,确定所述样本关键词与所述样本检索信息之间的语义相似度;
将所述语义相似度确定为所述样本数据在所述语义特征下的特征值。
20.根据权利要求11所述的装置,其特征在于,所述基础识别模型包括:神经网络模型、或者梯度提升树GBDT模型。
21.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的检索意图转移识别方法的步骤。
22.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至10任一所述的检索意图转移识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368809.9A CN111859100B (zh) | 2019-12-26 | 2019-12-26 | 一种检索意图转移识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368809.9A CN111859100B (zh) | 2019-12-26 | 2019-12-26 | 一种检索意图转移识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859100A CN111859100A (zh) | 2020-10-30 |
CN111859100B true CN111859100B (zh) | 2023-11-03 |
Family
ID=72970831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368809.9A Active CN111859100B (zh) | 2019-12-26 | 2019-12-26 | 一种检索意图转移识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859100B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN109815308A (zh) * | 2017-10-31 | 2019-05-28 | 北京小度信息科技有限公司 | 意图识别模型的确定及检索意图识别方法、装置 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
-
2019
- 2019-12-26 CN CN201911368809.9A patent/CN111859100B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
WO2017024884A1 (zh) * | 2015-08-07 | 2017-02-16 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN109815308A (zh) * | 2017-10-31 | 2019-05-28 | 北京小度信息科技有限公司 | 意图识别模型的确定及检索意图识别方法、装置 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
一种新的基于关键子块的图像检索算法;赵珊;孙君顶;周利华;;光子学报(02);全文 * |
基于检索意图识别的信息检索专利技术综述;王志超;李银松;;河南科技(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111859100A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN110674419B (zh) | 地理信息检索方法、装置、电子设备及可读存储介质 | |
CN105930362B (zh) | 搜索目标识别方法、装置及终端 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN111292752B (zh) | 一种用户意图识别方法、装置、电子设备及存储介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN112347284B (zh) | 一种组合商标图像检索方法 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
US11651014B2 (en) | Source code retrieval | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
JPWO2009048149A1 (ja) | 電子文書の同等判定システムおよび同等判定方法 | |
CN111831929B (zh) | 一种获取poi信息的方法及装置 | |
CN115563515B (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
CN111859100B (zh) | 一种检索意图转移识别方法及装置 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN113468307A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN112633001B (zh) | 文本命名实体识别方法、装置、电子设备及存储介质 | |
CN113111655B (zh) | 分离词典的构建方法、基于分离词典的分词方法及设备 | |
CN111858921B (zh) | 兴趣点查询方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |