CN111428027A - 查询意图确定方法及相关装置 - Google Patents

查询意图确定方法及相关装置 Download PDF

Info

Publication number
CN111428027A
CN111428027A CN202010121221.XA CN202010121221A CN111428027A CN 111428027 A CN111428027 A CN 111428027A CN 202010121221 A CN202010121221 A CN 202010121221A CN 111428027 A CN111428027 A CN 111428027A
Authority
CN
China
Prior art keywords
sample
query
query statement
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010121221.XA
Other languages
English (en)
Inventor
周君君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010121221.XA priority Critical patent/CN111428027A/zh
Publication of CN111428027A publication Critical patent/CN111428027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种查询意图确定方法及相关装置,该方法适用于机器学习。该方法包括:获取多个历史查询语句和每个历史查询语句的查询结果;确定出每个历史查询语句的查询主题;确定与查询主题对应的目标关键词词库和目标同义词词库,基于目标关键词词库和目标同义词词库得到样本查询语句;获取样本查询语句集合,确定每个样本查询语句的样本意图标签;构建意图预测模型;当接收到用户提交的目标查询语句时,基于意图预测模型确定出目标查询语句的目标意图标签,并基于目标意图标签确定出目标查询语句的查询结果。采用本申请实施例,可快速、准确地确定用户的查询意图,适用性高。

Description

查询意图确定方法及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种查询意图确定方法及相关装置。
背景技术
随着信息技术的不断发展,信息数据正在以几何量级的速率快速增长。人们在便捷的信息交互时代,在进行信息查询时可能无法获取到准确的结果。
当用户输入一段查询语句时,对用户的查询意图的理解也存在诸多的难点,包括用户输入不规范、输入方式多样化、使用自然语言甚至是非标准的自然语言查询、用户的查询词本身具有歧义等问题,从而导致用户输入查询语句后很难准确获取用户的查询意图等。另一方面现有的查询意图确定方法并不能准确预测出用户的查询意图,预测准确性较差。
因此如何确定用户输入的查询语句的查询意图成为亟需解决的问题。
发明内容
本申请实施例提供一种查询意图确定方法及相关装置,可快速、准确地确定用户的查询意图,适用性高。
第一方面,本申请实施例提供一种查询意图确定方法,该方法包括:
获取多个历史查询语句和每个历史查询语句的查询结果;
基于上述每个历史查询语句的查询结果确定出上述每个历史查询语句的查询主题;
确定与上述查询主题对应的目标关键词词库和目标同义词词库,基于上述目标关键词词库确定出上述每个历史查询语句的待替换关键字和/或关键词,基于上述目标同义词词库对上述待替换关键字和/或关键词进行同义词替换得到上述每个历史查询语句对应的样本查询语句;
获取样本查询语句集合,基于上述每个历史查询语句的意图标签确定出上述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由上述任一历史查询语句的查询结果确定;
基于上述样本查询语句集合和上述每个样本查询语句的样本意图标签构建意图预测模型;
当接收到用户提交的目标查询语句时,基于上述意图预测模型确定出上述目标查询语句的目标意图标签,并基于上述目标意图标签确定出上述目标查询语句的查询结果。
结合第一方面,在一种可能的实施方式中,上述获取样本查询语句集合包括:
从上述每个历史查询语句对应的样本查询语句中确定出多个重组查询语句,任一重组查询语句由上述每个历史查询语句对应的样本查询语句中至少两个不同的样本查询语句组合得到;
将每个重组查询语句确定为样本查询语句,并将上述每个重组查询语句和上述每个历史查询语句对应的样本查询语句确定为样本查询语句集合。
结合第一方面,在一种可能的实施方式中,上述基于上述每个历史查询语句的意图标签确定出上述样本查询语句集合中每个样本查询语句的样本意图标签包括:
当上述样本查询语句集合中第一样本查询语句对应一个历史查询语句时,将上述一个历史查询语句的意图标签确定为上述第一样本查询语句的样本意图标签;
当上述样本查询语句集合中第二样本查询语句对应多个历史查询语句时,从上述多个历史查询语句的意图标签中确定出相同的意图标签,将上述相同的意图标签确定为上述第二样本查询语句的样本意图标签。
结合第一方面,在一种可能的实施方式中,上述基于上述样本查询语句集合和上述每个样本查询语句的样本意图标签构建意图预测模型包括:
确定上述样本查询语句集合中每个样本查询语句的特征向量,基于上述每个样本查询语句的样本意图标签确定出多维特征向量,一个样本查询语句的样本意图标签对应一个多维特征向量,上述一个样本查询语句的一个样本意图标签对应上述多维特征向量的一个维度向量;
确定上述每个样本查询语句的每个样本意图标签与上述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,得到上述每个样本查询语句的意图标签向量,一个样本查询语句对应一个意图标签向量;
确定样本特征向量对集合,对上述样本查询语句集合和上述样本特征向量对集合进行训练得到意图预测模型,上述样本特征向量对集合中一个特征向量对包括上述一个样本查询语句的特征向量和相对应的意图标签向量。
结合第一方面,在一种可能的实施方式中,上述基于上述意图预测模型确定出上述目标查询语句的目标意图标签包括:
确定上述目标查询语句的特征向量;
基于上述意图预测模型确定出上述目标查询语句的特征向量对应的目标样本特征向量对,其中上述目标样本特征向量对所包括的样本查询语句的特征向量与上述目标查询语句的特征向量的相似度大于第一相似度阈值;
确定上述目标样本特征向量对所包括的意图标签向量中维度值为1的维度向量对应的第一样本意图标签,将上述第一样本意图标签确定为上述目标查询语句的目标意图标签。
结合第一方面,在一种可能的实施方式中,上述方法还包括:
若基于上述意图预测模型未确定出上述目标查询语句的特征向量对应的目标样本特征向量对,则基于上述意图预测模型确定出上述目标查询语句的语义;
基于上述意图预测模型从上述样本查询语句集合中确定出目标样本查询语句,上述目标样本查询语句的语义与上述目标查询语句的语义的相似度大于第二相似度阈值;
将上述目标样本查询语句的样本意图标签确定为上述目标查询语句的目标意图标签。
结合第一方面,在一种可能的实施方式中,上述基于上述目标意图标签确定出上述目标查询语句的查询结果包括:
从上述每个历史查询语句集合中确定出目标历史查询语句,上述目标历史查询语句的意图标签与上述目标意图标签一致;
将上述目标历史查询语句的查询结果确定为上述目标查询语句的查询结果。
第二方面,本申请实施例提供了一种查询意图确定装置,该确定装置包括:
获取单元,用于获取多个历史查询语句和每个历史查询语句的查询结果;
第一确定单元,用于基于上述每个历史查询语句的查询结果确定出上述每个历史查询语句的查询主题;
处理单元,用于确定与上述查询主题对应的目标关键词词库和目标同义词词库,基于上述目标关键词词库确定出上述每个历史查询语句的待替换关键字和/或关键词,基于上述目标同义词词库对上述待替换关键字和/或关键词进行同义词替换得到上述每个历史查询语句对应的样本查询语句;
第二确定单元,用于获取样本查询语句集合,基于上述每个历史查询语句的意图标签确定出上述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由上述任一历史查询语句的查询结果确定;
构建单元,用于基于上述样本查询语句集合和上述每个样本查询语句的样本意图标签构建意图预测模型;
第三确定单元,用于当接收到用户提交的目标查询语句时,基于上述意图预测模型确定出上述目标查询语句的目标意图标签,并基于上述目标意图标签确定出上述目标查询语句的查询结果。
结合第二方面,在一种可能的实施方式中,上述第二确定单元,用于:
从上述每个历史查询语句对应的样本查询语句中确定出多个重组查询语句,任一重组查询语句由上述每个历史查询语句对应的样本查询语句中至少两个不同的样本查询语句组合得到;
将每个重组查询语句确定为样本查询语句,并将上述每个重组查询语句和上述每个历史查询语句对应的样本查询语句确定为样本查询语句集合。
结合第二方面,在一种可能的实施方式中,上述第二确定单元,用于:
当上述样本查询语句集合中第一样本查询语句对应一个历史查询语句时,将上述一个历史查询语句的意图标签确定为上述第一样本查询语句的样本意图标签;
当上述样本查询语句集合中第二样本查询语句对应多个历史查询语句时,从上述多个历史查询语句的意图标签中确定出相同的意图标签,将上述相同的意图标签确定为上述第二样本查询语句的样本意图标签。
结合第二方面,在一种可能的实施方式中,上述构建单元,用于:
确定上述样本查询语句集合中每个样本查询语句的特征向量,基于上述每个样本查询语句的样本意图标签确定出多维特征向量,一个样本查询语句的样本意图标签对应一个多维特征向量,上述一个样本查询语句的一个样本意图标签对应上述多维特征向量的一个维度向量;
确定上述每个样本查询语句的每个样本意图标签与上述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,得到上述每个样本查询语句的意图标签向量,一个样本查询语句对应一个意图标签向量;
确定样本特征向量对集合,对上述样本查询语句集合和上述样本特征向量对集合进行训练得到意图预测模型,上述样本特征向量对集合中一个特征向量对包括上述一个样本查询语句的特征向量和相对应的意图标签向量。
结合第二方面,在一种可能的实施方式中,上述第三确定单元,用于:
确定上述目标查询语句的特征向量;
基于上述意图预测模型确定出上述目标查询语句的特征向量对应的目标样本特征向量对,其中上述目标样本特征向量对所包括的样本查询语句的特征向量与上述目标查询语句的特征向量的相似度大于第一相似度阈值;
确定上述目标样本特征向量对所包括的意图标签向量中维度值为1的维度向量对应的第一样本意图标签,将上述第一样本意图标签确定为上述目标查询语句的目标意图标签。
结合第二方面,在一种可能的实施方式中,上述第三确定单元,还用于:
若基于上述意图预测模型未确定出上述目标查询语句的特征向量对应的目标样本特征向量对,则基于上述意图预测模型确定出上述目标查询语句的语义;
基于上述意图预测模型从上述样本查询语句集合中确定出目标样本查询语句,上述目标样本查询语句的语义与上述目标查询语句的语义的相似度大于第二相似度阈值;
将上述目标样本查询语句的样本意图标签确定为上述目标查询语句的目标意图标签。
结合第二方面,在一种可能的实施方式中,上述第三确定单元,用于:
从上述每个历史查询语句集合中确定出目标历史查询语句,上述目标历史查询语句的意图标签与上述目标意图标签一致;
将上述目标历史查询语句的查询结果确定为上述目标查询语句的查询结果。
第三方面,本申请实施例提供了一种设备,该设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过获取多个历史查询语句并对每个历史查询语句进行同义词替换得到样本查询语句,可进一步提升用于构建意图预测模型的样本查询语句的语义,确保样本查询语句可真实反映用户的搜索意图。另一方面通过经过同义词替换后得到的样本查询语句可进一步扩充样本查询语句集合中的样本查询语句的数量,可提升意图预测模型的预测准确度。进一步地,通过每个样本查询语句的样本意图标签构建意图预测模型,在准确地确定出用户的查询意图的同时,也可覆盖更广泛的查询主题,能够有效地提高查询质量,适用性更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的查询意图确定方法的流程示意图;
图2是本申请实施例提供的确定样本查询语句的一方法示意图;
图3是本申请实施例提供的确定样本查询语句的另一方法示意图;
图4是本申请实施例提供的查询意图确定装置的结构示意图;
图5是本申请实施例提供的设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的查询意图确定方法(为方便描述,可简称本申请实施例提供的方法)可适用于各个领域的检索、查询系统中,可快速、准确确定用户的查询意图,进而为用户提供符合用户查询的查询结果,适用性高。
请参见图1,图1是本申请实施例提供的查询意图确定方法的流程示意图。本申请实施例提供的查询意图确定方法可包括如下步骤S101至S106。
S101、获取多个历史查询语句和每个历史查询语句的查询结果。
在一些可行的实施方式中,本申请实施例提供的方法可在接收到用户提交的目标查询语句后基于意图预测模型确定出该目标查询语句的查询结果,在构建意图预测模型时可从各个领域、各个搜索数据库以及历史搜索记录中获取多个用户的历史查询语句,其中上述历史查询语句为有效查询语句,即上述历史查询语句为不包括敏感词、非法词且具有相对应的查询结果的查询语句。其中,上述历史查询语句的具体获取方式可基于实际应用场景确定。与此同时,在获取到多个历史查询语句之后,可获取每个历史查询语句的查询结果,其中,每个历史查询语句的查询结果可以是该历史查询语句对应的多种可能的结果信息,也可以是用户在该历史查询语句对应的多种结果信息中点击率最高、符合用户要求的目标结果信息,具体也可基于实际应用场景确定,在此不做限制。
在一些可行的实施方式中,为了确保获取的历史查询语句更具代表性和常见性,在获取历史查询语句时可从获取每个查询语句的查询频率,将查询频率大于一定频率阈值的查询语句确定为历史查询语句,具体频率阈值可基于实际应用场景确定,在此不做限制。可选的,由于用户在进行某次信息查询时往往不会输入较长的查询语句,因此为了确保获取到的历史查询语句更具有效性,可在获取历史查询语句时可将文本长度大于预设长度阈值的查询语句确定为历史查询语句,具体预设长度阈值也可基于实际应用场景确定,在此不做限制。
S102、基于每个历史查询语句的查询结果确定出每个历史查询语句的查询主题。
在一些可行的实施方式中,在获取到每个历史查询语句的查询结果之后,可根据每个历史查询语句的查询结果确定出每个历史查询语句的查询主题。具体的,可根据查询结果的具体内容确定每个历史查询语句的查询主题,如体育类主题、美食类主题以及电路类主题等,具体查询主题的主题类别划分和确定方式可基于实际应用场景确定,在此不做限制。
S103、确定与查询主题对应的目标关键词词库和目标同义词词库,基于目标关键词词库确定出每个历史查询语句的待替换关键字和/或关键词,基于目标同义词词库对待替换关键字和/或关键词进行同义词替换得到每个历史查询语句对应的样本查询语句。
在一些可行的实施方式中,由于获取到的多个历史查询语句为均为用户在进行相关信息查询时主动输入的查询语句,因此上述多个历史查询语句中可能存在语义不清晰、措辞不当等问题,从而导致每个历史查询语句与其相对应的查询结果相关性较弱的问题。因此,在确定出每个历史查询语句的查询主题之后,可采用与该查询主题相对应的目标关键词词库和目标同义词词库对每个历史查询语句进行语义增强处理,以提升历史查询语句与查询结果的相关性。
具体地,对于每一个历史查询语句来说,与其查询主题相对应的目标关键词词库为该查询主题内用户在搜索查询时往往会用词不当、语义表述不准确的词语,例如用户在搜索“国家法定节假日”时,可能会输入“国家放假日”等词语,从而导致用户其自身输入的查询语句语义表述不清的问题。与其查询出题相对应的目标同义词词库为与上述目标关键词词库相对应的用于替换目标关键词词库中关键字和/或关键词的同义词。其中,每个查询主题对应的目标关键词词库和目标同义词词库中的关键字和/或关键词以及同义词的具体确定和表示方式可基于实际应用查询主题和实际应用场景确定,在此不做限制。进一步地,可将该历史查询语句与该历史查询语句的查询主题相对应的目标关键词词库进行匹配,将历史查询语句中与目标关键词词库中相同的关键字和/或关键词确定为该历史查询语句中的待替换关键字和/或关键词,即该历史查询语句中的待替换关键字和/或关键词为需要进一步被替换以增强历史查询语句语义的词。从而可采用上述目标同义词中的同义词对上述待替换关键字和/或关键词进行替换得到语义增强后的历史查询语句,此时可将语义增强后的历史查询语句作为用于训练意图预测模型的样本查询语句。
在一些可行的实施方式中,还可先将历史查询语句进行分词处理得到该历史查询语句的关键字和/或关键词,并将历史查询语句的关键字和/或关键词与相对应的目标关键词词库进行匹配得到相同的关键字和/或关键词,此时可将相同的关键字和/或关键词确定为该历史查询语句的待替换关键字和/或关键词,进而基于上述目标同义词词库对上述历史查询语句的待替换关键字和/或关键词进行同义词替换得到每个历史查询语句对应的样本查询语句。其中,在对每个历史查询语句进行分词时,可基于字符串匹配的分词方法,按照正向最大匹配法(从左到右的方向)、逆向最大匹配法(从右到左的方向)、最小切分(每一句中切出的词数最小)以及双向最大匹配(进行从左到右、从右到左两次扫描)等策略,将每个历史查询语句的汉子串与分词词典进行匹配,若在词典中找到某个字符串,则匹配成功。此时匹配成功的字符串为一个关键字和/或关键词。可选的,还可以基于语义分析的方法,通过对每个历史查询查语句进行语法、语义分析,利用句法信息和语义信息(模拟人对语句的理解过程)得到每个历史查询语句的关键字和/或关键词。可选的,还可以基于统计的分词方法,利用机器学习模型学习词语切分的规律进而实现对每个历史查询语句的切分,进而得到每个历史查询语句的关键字和/或关键词。其中,上述基于统计的分词方法包括但不限于最大概率分词方法和最大熵分词方法,上述学习模型包括但不限于N元文法模型、隐马尔可夫模型、最大熵模型以及条件随机场模型等,再次不做限制。此外,还可基于中文分词工具(例如THULAC分词工具、NLPIR分词系统等)对历史查询语句进行分词得到每个历史查询语句的关键字和/或关键词。具体实现方式可基于实际应用场景确定,在此不做限制。
举例来说,参见图2,图2是本申请实施例提供的确定样本查询语句的一方法示意图。在图2中,假设某一历史查询语句为“小皇帝在NBA的历史总分数”,此时可确定该历史查询语句的查询主题为“体育-NBA”,此时可确定出相对应的目标关键词词库为体育-NBA关键词词库,并将该历史查询语句与体育-NBA词库进行匹配之后可得到该历史查询语句的待替换关键词分别为“小皇帝”和“分数”。进一步地,可采用体育-NBA同义词词库对“小皇帝”和“分数”进行替换,得到该历史查询语句对应的样本查询语句“詹姆斯在NBA的历史总得分”,从而达到对该历史查询语句进行同义词替换得到语义增强后的样本查询语句。
S104、获取样本查询语句集合,基于所述每个历史查询语句的意图标签确定出样本查询语句集合中每个样本查询语句的样本意图标签。
在一些可行的实施方式中,由于每个历史查询语句对应的训练查询语句仅能代表一部分用户的查询意图,因此可将每个历史查询语句进行重组以得到多个重组查询语句,进而可将得到的多个重组查询语句同样确定为样本查询语句,以和每个历史查询语句对应的样本查询语句一起构成用于训练意图预测模型的样本查询语句集合。具体地,可将每个历史查询语句对应的样本查询语句中任一至少两个不同的样本查询语句进行组合,即任意多个不同的样本查询语句均可进行组合得到多个重组查询语句,此时得到的每个重组查询语句均可作为样本查询语句集合中的样本查询语句。可选的,为了避免重组查询语句的文本长度较长而导致语义混乱,可预先对每个历史查询语句对应的样本查询语句进行筛选,从每个历史查询语句对应的样本查询语句中筛选出文本长度不超过第二预设文本长度的用于进行语句重组的样本查询语句,进而基于用于进行语句重组的样本查询语句得到多个重组查询语句。可选的,也可先将每个历史查询语句对应的样本查询语句进行重组,得到多个重组查询语句,进而再从多个重组查询语句中确定出文本长度不超过第三预设文本长度的目标重组查询语句作为样本查询语句集合中的样本查询语句。需要特别说明的是,上述从每个历史查询语句对应的样本查询语句中确定出多个重组查询语句的具体实现方式可基于实际应用场景确定,在此不做限制。
举例来说,参见图3,图3是本申请实施例提供的确定样本查询语句的另一方法示意图。在图3中,假设对每个历史查询语句经过同义词替换后得到的样本查询语句中存在样本查询语句1:“京津冀一体化”以及样本查询语句2:“一体化格局基本成型”。此时可将样本查询语句1和样本查询语句2进行重组得到一个重组查询语句:“京津冀一体化格局基本成型”。此时该重组查询语句可作为新的样本查询语句同经过同义词替换后得到的样本查询语句一同构建出样本查询语句集合。
在一些可行的实施方式中,在得到用于训练意图预测模型的样本查询语句集合之后,可基于上述每个历史查询语句的意图标签确定出样本查询语句集合中每个样本查询语句的样本意图标签。具体地,对于样本查询语句集合中的样本查询语句来说,对于经过同义词替换后得到的样本查询语句,可将其对应的历史查询语句的意图标签确定为该样本查询语句的样本意图标签。对于样本查询语句集合中的重组查询语句来说,可先确定其对应的多个样本查询语句,再确定出上述多个样本查询语句对应的多个历史查询语句,并将上述多个历史查询语句的意图标签确定为重组查询语句的样本意图标签,换句话说,可将其对应的多个样本查询语句的样本意图标签确定为重组查询语句的样本意图标签。可选的,由于每个重组查询语句对应的多个历史查询语句的样本意图标签可能存在较大差异,因此可将每个重组查询语句对应的多个历史查询语句的样本意图标签中相同的意图标签确定为每个重组查询语句的样本意图标签,具体实现方式可基于实际应用场景确定,在此不做限制。
需要特别说明的是,每个历史查询语句的意图标签可由其对应的查询结果确定,即每个历史查询语句的意图标签可以相对应的查询结果的关键词、总结信息等,每个历史查询语句的意图标签的数量可基于实际应用场景确定,在此不做限制。例如,假设一个历史查询语句为“区块链中区块的结构是什么?”,根据其对应的查询结果可确定出该历史查询语句对应的意图标签可以为“区块头”、“区块体”等,也可以为“区块头结构”、“区块体结构”,具体可根据实际查询结果确定。
S105、基于样本查询语句集合和每个样本查询语句的样本意图标签构建意图预测模型。
在一些可行的实施方式中,在获取到样本查询语句集合并确定样本查询语句集合中每个样本查询语句的样本意图标签之后,可根据样本查询语句集合和每个样本查询语句的样本意图标签构建意图预测模型。具体地,可先确定出每个样本查询语句的特征向量,具体可基于TF-IDF算法、词频方法、互信息算法、期望交叉熵算法、二次信息熵、信息增益方法、x2统计量方法、主成分分析法(Principal Component Analysis,PCA)、模拟退火算法(Simulating Anneal,SA)、以及N—Gram算法实现,具体可基于实际应用场景确定,在此不做限制。进一步地,可基于每个样本查询语句的样本意图标签确定出多维特征向量,即每个样本查询语句对应的多维特征向量的维度数与其样本意图标签的数量一致。也就是说,一个样本查询语句的样本意图标签对应一个多维特征向量,一个样本查询语句的一个样本意图标签对应上述一个多维特征向量的一个维度向量。此时在得到每个样本查询语句的多维特征向量之后,可确定出每个压根查询语句的每个样本意图标签与上述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,以将每个样本查询语句对应的多维特征向量进行降维处理,同时也可剔除相关度不高的样本意图标签避免造成预测误差。此时,可将降维处理后的多维特征向量确定为样本查询语句的意图标签向量,同样的,一个样本查询语句对应一个意图标签向量。
在一些可行的实施方式中,可进一步将一个样本查询语句和相对应的意图标签向量确定为一个样本特征向量对,得到样本特征向量对集合。此时可采用FastText、TextCNN、TextRNN、TextRCNN等文本分类方法以及反向BP神经网络算法、自适应谐振理论算法、学习矢量量化网络算法、Kohonen网络算法以及Hopfield网络算法对样本查询语句集合以及样本特征向量对集合进行训练得到意图预测模型。其中,上述意图预测模型的具体预测方法可基于实际应用场景确定,在此不做限制。
S106、当接收到用户提交的目标查询语句时,基于意图预测模型确定出目标查询语句的目标意图标签,并基于目标意图标签确定出目标查询语句的查询结果。
在一些可行的实施方式中,当接收到用于提交的目标查询语句时,可先基于意图预测模型确定出目标查询语句的目标意图标签。具体地,可先确定出目标查询语句的特征向量,具体确定方式与确定上述样本查询语句的特征向量的方式一致,在此不再赘述。此时可基于意图预测模型计算每个样本特征向量对中样本查询语句的特征向量与目标查询语句的特征向量的相似度,具体可基于每个样本查询语句和目标查询语句的特征向量的皮尔逊相关系数、欧几里得距离、夹角余弦等确定,具体可基于实际应用场景确定,在此不做限制。其中,可将相似度大于第一相似度阈值的查询语句的特征向量对应的样本特征向量对确定为目标特征向量对,将目标特征向量对中意图标签向量确定为上述目标查询语句的意图标签向量,该意图标签向量中维度值为1的维度向量对应的样本意图标签确定为目标查询语句的意图标签。需要特别说明的是,上述第一相似度阈值也可基于实际应用场景确定,在此不做限制。
进一步地,在确定出目标查询语句的意图标签之后,由于目标特征向量对中样本特征向量的相似度与目标查询语句大于第一相似度阈值,此时可将目标特征向量对中样本特征向量对应的一个或者多个历史查询语句的查询结果作为目标查询语句的查询结果。可选的,可将相似度为百分之百的样本特征向量对应的样本查询语句对应的历史查询语句的查询结果作为目标查询语句的查询结果,在相似度大于第一相似度阈值且不为百分之百的情况下,可基于目标查询语句的意图标签确定出与意图标签相对应的结果信息作为目标查询语句的查询结果,具体确定方式可基于实际应用场景确定,在此不做限制。
在一些可行的实施方式中,假设基于上述意图预测模型并未确定出上述目标样本特征向量对,此时可基于上述意图预测模型确定出目标查询语句的语义,并确定出样本查询语句集合中各个样本查询语句的语句以与目标查询语句的语义进行比较。当样本查询语句集合中存在与目标查询语句的语义的相似度大于第二相似度阈值的样本查询语句时,可将该样本查询语句的样本意图标签确定为目标查询语句的意图标签。进一步地,可将目标查询语句的意图标签与每个历史查询语句的意图标签进行匹配,确定出意图标签与目标查询语句的意图标签一致的目标历史查询语句,此时可获取目标历史查询语句的查询结果,将目标历史查询语句的查询结果确定为目标查询语句的查询结果。
在本申请实施例中,通过获取多个历史查询语句并对每个历史查询语句进行同义词替换得到样本查询语句,可进一步提升用于构建意图预测模型的样本查询语句的语义,确保样本查询语句可真实反映用户的搜索意图。另一方面通过经过同义词替换后得到的样本查询语句可进一步扩充样本查询语句集合中的样本查询语句的数量,可提升意图预测模型的预测准确度。进一步地,通过每个样本查询语句的样本意图标签构建意图预测模型,在准确地确定出用户的查询意图的同时,也可覆盖更广泛的查询主题,能够有效地提高查询质量,适用性更高。
参见图4,图4是本申请实施例提供的查询意图确定装置的结构示意图。本申请实施例提供的装置1包括:
获取单元11,用于获取多个历史查询语句和每个历史查询语句的查询结果;
第一确定单元12,用于基于上述每个历史查询语句的查询结果确定出上述每个历史查询语句的查询主题;
处理单元13,用于确定与上述查询主题对应的目标关键词词库和目标同义词词库,基于上述目标关键词词库确定出上述每个历史查询语句的待替换关键字和/或关键词,基于上述目标同义词词库对上述待替换关键字和/或关键词进行同义词替换得到上述每个历史查询语句对应的样本查询语句;
第二确定单元14,用于获取样本查询语句集合,基于上述每个历史查询语句的意图标签确定出上述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由上述任一历史查询语句的查询结果确定;
构建单元15,用于基于上述样本查询语句集合和上述每个样本查询语句的样本意图标签构建意图预测模型;
第三确定单元16,用于当接收到用户提交的目标查询语句时,基于上述意图预测模型确定出上述目标查询语句的目标意图标签,并基于上述目标意图标签确定出上述目标查询语句的查询结果。
在一些可行的实施方式中,上述第二确定单元14,用于:
从上述每个历史查询语句对应的样本查询语句中确定出多个重组查询语句,任一重组查询语句由上述每个历史查询语句对应的样本查询语句中至少两个不同的样本查询语句组合得到;
将每个重组查询语句确定为样本查询语句,并将上述每个重组查询语句和上述每个历史查询语句对应的样本查询语句确定为样本查询语句集合。
在一些可行的实施方式中,上述第二确定单元14,用于:
当上述样本查询语句集合中第一样本查询语句对应一个历史查询语句时,将上述一个历史查询语句的意图标签确定为上述第一样本查询语句的样本意图标签;
当上述样本查询语句集合中第二样本查询语句对应多个历史查询语句时,从上述多个历史查询语句的意图标签中确定出相同的意图标签,将上述相同的意图标签确定为上述第二样本查询语句的样本意图标签。
在一些可行的实施方式中,上述构建单元15,用于:
确定上述样本查询语句集合中每个样本查询语句的特征向量,基于上述每个样本查询语句的样本意图标签确定出多维特征向量,一个样本查询语句的样本意图标签对应一个多维特征向量,上述一个样本查询语句的一个样本意图标签对应上述多维特征向量的一个维度向量;
确定上述每个样本查询语句的每个样本意图标签与上述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,得到上述每个样本查询语句的意图标签向量,一个样本查询语句对应一个意图标签向量;
确定样本特征向量对集合,对上述样本查询语句集合和上述样本特征向量对集合进行训练得到意图预测模型,上述样本特征向量对集合中一个特征向量对包括上述一个样本查询语句的特征向量和相对应的意图标签向量。
在一些可行的实施方式中,上述第三确定单元16,用于:
确定上述目标查询语句的特征向量;
基于上述意图预测模型确定出上述目标查询语句的特征向量对应的目标样本特征向量对,其中上述目标样本特征向量对所包括的样本查询语句的特征向量与上述目标查询语句的特征向量的相似度大于第一相似度阈值;
确定上述目标样本特征向量对所包括的意图标签向量中维度值为1的维度向量对应的第一样本意图标签,将上述第一样本意图标签确定为上述目标查询语句的目标意图标签。
在一些可行的实施方式中,上述第三确定单元16,还用于:
若基于上述意图预测模型未确定出上述目标查询语句的特征向量对应的目标样本特征向量对,则基于上述意图预测模型确定出上述目标查询语句的语义;
基于上述意图预测模型从上述样本查询语句集合中确定出目标样本查询语句,上述目标样本查询语句的语义与上述目标查询语句的语义的相似度大于第二相似度阈值;
将上述目标样本查询语句的样本意图标签确定为上述目标查询语句的目标意图标签。
在一些可行的实施方式中,上述第三确定单元16,用于:
从上述每个历史查询语句集合中确定出目标历史查询语句,上述目标历史查询语句的意图标签与上述目标意图标签一致;
将上述目标历史查询语句的查询结果确定为上述目标查询语句的查询结果。
具体实现中,上述设备1000可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过获取多个历史查询语句并对每个历史查询语句进行同义词替换得到样本查询语句,可进一步提升用于构建意图预测模型的样本查询语句的语义,确保样本查询语句可真实反映用户的搜索意图。另一方面通过经过同义词替换后得到的样本查询语句可进一步扩充样本查询语句集合中的样本查询语句的数量,可提升意图预测模型的预测准确度。进一步地,通过每个样本查询语句的样本意图标签构建意图预测模型,在准确地确定出用户的查询意图的同时,也可覆盖更广泛的查询主题,能够有效地提高查询质量,适用性更高。
参见图5,图5是本申请实施例提供的设备的结构示意图。如图5所示,本实施例中的设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图5所示的设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取多个历史查询语句和每个历史查询语句的查询结果;
基于上述每个历史查询语句的查询结果确定出上述每个历史查询语句的查询主题;
确定与上述查询主题对应的目标关键词词库和目标同义词词库,基于上述目标关键词词库确定出上述每个历史查询语句的待替换关键字和/或关键词,基于上述目标同义词词库对上述待替换关键字和/或关键词进行同义词替换得到上述每个历史查询语句对应的样本查询语句;
获取样本查询语句集合,基于上述每个历史查询语句的意图标签确定出上述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由上述任一历史查询语句的查询结果确定;
基于上述样本查询语句集合和上述每个样本查询语句的样本意图标签构建意图预测模型;
当接收到用户提交的目标查询语句时,基于上述意图预测模型确定出上述目标查询语句的目标意图标签,并基于上述目标意图标签确定出上述目标查询语句的查询结果。
在一些可行的实施方式中,上述处理器1001用于:
从上述每个历史查询语句对应的样本查询语句中确定出多个重组查询语句,任一重组查询语句由上述每个历史查询语句对应的样本查询语句中至少两个不同的样本查询语句组合得到;
将每个重组查询语句确定为样本查询语句,并将上述每个重组查询语句和上述每个历史查询语句对应的样本查询语句确定为样本查询语句集合。
在一些可行的实施方式中,上述处理器1001用于:
当上述样本查询语句集合中第一样本查询语句对应一个历史查询语句时,将上述一个历史查询语句的意图标签确定为上述第一样本查询语句的样本意图标签;
当上述样本查询语句集合中第二样本查询语句对应多个历史查询语句时,从上述多个历史查询语句的意图标签中确定出相同的意图标签,将上述相同的意图标签确定为上述第二样本查询语句的样本意图标签。
在一些可行的实施方式中,上述处理器1001用于:
确定上述样本查询语句集合中每个样本查询语句的特征向量,基于上述每个样本查询语句的样本意图标签确定出多维特征向量,一个样本查询语句的样本意图标签对应一个多维特征向量,上述一个样本查询语句的一个样本意图标签对应上述多维特征向量的一个维度向量;
确定上述每个样本查询语句的每个样本意图标签与上述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,得到上述每个样本查询语句的意图标签向量,一个样本查询语句对应一个意图标签向量;
确定样本特征向量对集合,对上述样本查询语句集合和上述样本特征向量对集合进行训练得到意图预测模型,上述样本特征向量对集合中一个特征向量对包括上述一个样本查询语句的特征向量和相对应的意图标签向量。
在一些可行的实施方式中,上述处理器1001用于:
确定上述目标查询语句的特征向量;
基于上述意图预测模型确定出上述目标查询语句的特征向量对应的目标样本特征向量对,其中上述目标样本特征向量对所包括的样本查询语句的特征向量与上述目标查询语句的特征向量的相似度大于第一相似度阈值;
确定上述目标样本特征向量对所包括的意图标签向量中维度值为1的维度向量对应的第一样本意图标签,将上述第一样本意图标签确定为上述目标查询语句的目标意图标签。
在一些可行的实施方式中,上述处理器1001还用于:
若基于上述意图预测模型未确定出上述目标查询语句的特征向量对应的目标样本特征向量对,则基于上述意图预测模型确定出上述目标查询语句的语义;
基于上述意图预测模型从上述样本查询语句集合中确定出目标样本查询语句,上述目标样本查询语句的语义与上述目标查询语句的语义的相似度大于第二相似度阈值;
将上述目标样本查询语句的样本意图标签确定为上述目标查询语句的目标意图标签。
在一些可行的实施方式中,上述处理器1001用于:
从上述每个历史查询语句集合中确定出目标历史查询语句,上述目标历史查询语句的意图标签与上述目标意图标签一致;
将上述目标历史查询语句的查询结果确定为上述目标查询语句的查询结果。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述设备1000可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过获取多个历史查询语句并对每个历史查询语句进行同义词替换得到样本查询语句,可进一步提升用于构建意图预测模型的样本查询语句的语义,确保样本查询语句可真实反映用户的搜索意图。另一方面通过经过同义词替换后得到的样本查询语句可进一步扩充样本查询语句集合中的样本查询语句的数量,可提升意图预测模型的预测准确度。进一步地,通过每个样本查询语句的样本意图标签构建意图预测模型,在准确地确定出用户的查询意图的同时,也可覆盖更广泛的查询主题,能够有效地提高查询质量,适用性更高。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种查询意图确定方法,其特征在于,所述方法包括:
获取多个历史查询语句和每个历史查询语句的查询结果;
基于所述每个历史查询语句的查询结果确定出所述每个历史查询语句的查询主题;
确定与所述查询主题对应的目标关键词词库和目标同义词词库,基于所述目标关键词词库确定出所述每个历史查询语句的待替换关键字和/或关键词,基于所述目标同义词词库对所述待替换关键字和/或关键词进行同义词替换得到所述每个历史查询语句对应的样本查询语句;
获取样本查询语句集合,基于所述每个历史查询语句的意图标签确定出所述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由所述任一历史查询语句的查询结果确定;
基于所述样本查询语句集合和所述每个样本查询语句的样本意图标签构建意图预测模型;
当接收到用户提交的目标查询语句时,基于所述意图预测模型确定出所述目标查询语句的目标意图标签,并基于所述目标意图标签确定出所述目标查询语句的查询结果。
2.根据权利要求1所述的方法,其特征在于,所述获取样本查询语句集合包括:
从所述每个历史查询语句对应的样本查询语句中确定出多个重组查询语句,任一重组查询语句由所述每个历史查询语句对应的样本查询语句中至少两个不同的样本查询语句组合得到;
将每个重组查询语句确定为样本查询语句,并将所述每个重组查询语句和所述每个历史查询语句对应的样本查询语句确定为样本查询语句集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述每个历史查询语句的意图标签确定出所述样本查询语句集合中每个样本查询语句的样本意图标签包括:
当所述样本查询语句集合中第一样本查询语句对应一个历史查询语句时,将所述一个历史查询语句的意图标签确定为所述第一样本查询语句的样本意图标签;
当所述样本查询语句集合中第二样本查询语句对应多个历史查询语句时,从所述多个历史查询语句的意图标签中确定出相同的意图标签,将所述相同的意图标签确定为所述第二样本查询语句的样本意图标签。
4.根据权利要求1所述的方法,其特征在于,所述基于所述样本查询语句集合和所述每个样本查询语句的样本意图标签构建意图预测模型包括:
确定所述样本查询语句集合中每个样本查询语句的特征向量,基于所述每个样本查询语句的样本意图标签确定出多维特征向量,一个样本查询语句的样本意图标签对应一个多维特征向量,所述一个样本查询语句的一个样本意图标签对应所述多维特征向量的一个维度向量;
确定所述每个样本查询语句的每个样本意图标签与所述每个样本查询语句的查询主题的相关度,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为0,将相关度大于预设相关度阈值的样本意图标签对应的维度向量的维度值确定为1,得到所述每个样本查询语句的意图标签向量,一个样本查询语句对应一个意图标签向量;
确定样本特征向量对集合,对所述样本查询语句集合和所述样本特征向量对集合进行训练得到意图预测模型,所述样本特征向量对集合中一个特征向量对包括所述一个样本查询语句的特征向量和相对应的意图标签向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述意图预测模型确定出所述目标查询语句的目标意图标签包括:
确定所述目标查询语句的特征向量;
基于所述意图预测模型确定出所述目标查询语句的特征向量对应的目标样本特征向量对,其中所述目标样本特征向量对所包括的样本查询语句的特征向量与所述目标查询语句的特征向量的相似度大于第一相似度阈值;
确定所述目标样本特征向量对所包括的意图标签向量中维度值为1的维度向量对应的第一样本意图标签,将所述第一样本意图标签确定为所述目标查询语句的目标意图标签。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若基于所述意图预测模型未确定出所述目标查询语句的特征向量对应的目标样本特征向量对,则基于所述意图预测模型确定出所述目标查询语句的语义;
基于所述意图预测模型从所述样本查询语句集合中确定出目标样本查询语句,所述目标样本查询语句的语义与所述目标查询语句的语义的相似度大于第二相似度阈值;
将所述目标样本查询语句的样本意图标签确定为所述目标查询语句的目标意图标签。
7.根据权利要求5所述的方法,其特征在于,所述基于所述目标意图标签确定出所述目标查询语句的查询结果包括:
从所述每个历史查询语句集合中确定出目标历史查询语句,所述目标历史查询语句的意图标签与所述目标意图标签一致;
将所述目标历史查询语句的查询结果确定为所述目标查询语句的查询结果。
8.一种查询意图确定装置,其特征在于,所述确定装置包括:
获取单元,用于获取多个历史查询语句和每个历史查询语句的查询结果;
第一确定单元,用于基于所述每个历史查询语句的查询结果确定出所述每个历史查询语句的查询主题;
处理单元,用于确定与所述查询主题对应的目标关键词词库和目标同义词词库,基于所述目标关键词词库确定出所述每个历史查询语句的待替换关键字和/或关键词,基于所述目标同义词词库对所述待替换关键字和/或关键词进行同义词替换得到所述每个历史查询语句对应的样本查询语句;
第二确定单元,用于获取样本查询语句集合,基于所述每个历史查询语句的意图标签确定出所述样本查询语句集合中每个样本查询语句的样本意图标签,任一历史查询语句的意图标签由所述任一历史查询语句的查询结果确定;
构建单元,用于基于所述样本查询语句集合和所述每个样本查询语句的样本意图标签构建意图预测模型;
第三确定单元,用于当接收到用户提交的目标查询语句时,基于所述意图预测模型确定出所述目标查询语句的目标意图标签,并基于所述目标意图标签确定出所述目标查询语句的查询结果。
9.一种设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的方法。
CN202010121221.XA 2020-02-26 2020-02-26 查询意图确定方法及相关装置 Pending CN111428027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121221.XA CN111428027A (zh) 2020-02-26 2020-02-26 查询意图确定方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121221.XA CN111428027A (zh) 2020-02-26 2020-02-26 查询意图确定方法及相关装置

Publications (1)

Publication Number Publication Date
CN111428027A true CN111428027A (zh) 2020-07-17

Family

ID=71547194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121221.XA Pending CN111428027A (zh) 2020-02-26 2020-02-26 查询意图确定方法及相关装置

Country Status (1)

Country Link
CN (1) CN111428027A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132628A (zh) * 2020-09-28 2020-12-25 科大讯飞股份有限公司 一种用户意图预测方法、信息推荐方法及相关设备
CN112965999A (zh) * 2021-03-12 2021-06-15 上海益世界信息技术集团有限公司广州分公司 一种数据查询方法和相关装置
CN113609370A (zh) * 2021-08-06 2021-11-05 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质
CN117743838A (zh) * 2024-02-20 2024-03-22 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132628A (zh) * 2020-09-28 2020-12-25 科大讯飞股份有限公司 一种用户意图预测方法、信息推荐方法及相关设备
CN112965999A (zh) * 2021-03-12 2021-06-15 上海益世界信息技术集团有限公司广州分公司 一种数据查询方法和相关装置
CN113609370A (zh) * 2021-08-06 2021-11-05 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113609370B (zh) * 2021-08-06 2023-12-12 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质
CN117743838A (zh) * 2024-02-20 2024-03-22 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法
CN117743838B (zh) * 2024-02-20 2024-04-30 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法

Similar Documents

Publication Publication Date Title
CN111428027A (zh) 查询意图确定方法及相关装置
CN106156204B (zh) 文本标签的提取方法和装置
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
US8577882B2 (en) Method and system for searching multilingual documents
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN110909122B (zh) 一种信息处理方法及相关设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
WO2022141876A1 (zh) 基于词向量的搜索方法、装置、设备及存储介质
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
TWI681304B (zh) 自適應性調整關連搜尋詞的系統及其方法
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112632255B (zh) 一种获取问答结果的方法及装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN116644183B (zh) 文本分类方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination