CN111353021B - 意图识别方法和设备、电子设备和介质 - Google Patents

意图识别方法和设备、电子设备和介质 Download PDF

Info

Publication number
CN111353021B
CN111353021B CN202010131537.7A CN202010131537A CN111353021B CN 111353021 B CN111353021 B CN 111353021B CN 202010131537 A CN202010131537 A CN 202010131537A CN 111353021 B CN111353021 B CN 111353021B
Authority
CN
China
Prior art keywords
intent
intention
information
click
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010131537.7A
Other languages
English (en)
Other versions
CN111353021A (zh
Inventor
翟周伟
徐犇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010131537.7A priority Critical patent/CN111353021B/zh
Publication of CN111353021A publication Critical patent/CN111353021A/zh
Application granted granted Critical
Publication of CN111353021B publication Critical patent/CN111353021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种意图识别方法和设备、电子设备和介质。所述意图识别方法包括:确定待识别信息中的目标搜索特征;确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。

Description

意图识别方法和设备、电子设备和介质
技术领域
本公开涉及人工智能技术领域,特别涉及意图识别方法和设备、电子设备和介质。
背景技术
意图识别技术是人工智能领域中的一个备受关注的研究方向,可应用在对话系统(如:智能语音助手、聊天机器人、自动客服)和专家系统等人工智能系统中。
意图识别技术主要用于识别用户的意图,人工智能系统可以根据识别的用户意图输出相应的结果。例如:在对话应用中,对用户输入信息进行意图识别,并根据识别的用户意图提供相应的反馈结果。但是,受到例如用户表达方式的多样性、用户表述的多重可能歧义性等因素的影响,可能难以保证准确地识别用户的意图。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种意图识别方法,包括:确定待识别信息中的目标搜索特征;确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。
根据本公开的另一方面,还提供一种意图识别设备,包括:第一确定单元,被配置用于确定待识别信息中的目标搜索特征;第二确定单元,被配置用于确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及第三确定单元,被配置用于根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述的意图识别方法。
根据本公开的另一方面,还提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据上述的意图识别方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据示例性实施例的意图识别方法的流程图;
图2是示出根据示例性实施例的确定目标搜索特征的方法的流程图;
图3是示出根据示例性实施例的确定目标搜索特征的意图分布向量的方法的流程图;
图4是示出根据示例性实施例的从搜索引擎日志中获取的与目标搜索特征相应的浏览参数以及浏览参数中点击网络地址的意图类别和意图分数的示例;
图5是示出根据示例性实施例的确定与目标搜索特征相应的点击网络地址的意图类别和意图分数的方法的流程图;
图6是示出根据示例性实施例的根据点击网络地址相应的操作参数以及点击网络地址的意图类别和意图分数来计算目标搜索特征的意图分布向量的方法的流程图;
图7是示出根据示例性实施例的根据待识别信息的至少一部分和意图分布向量来确定待识别信息的意图的方法的流程图;
图8是示出根据示例性实施例的利用神经网络模型来对待识别信息进行意图识别的整体流程图;
图9是示出根据示例性实施例的意图识别设备的示意性组成框图;
图10是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
在人工智能领域中,意图识别技术主要用于识别用户的意图。人工智能系统可以根据识别的用户意图给出相应的结果。例如:在对话应用中,对用户的每句话的意图进行识别,并根据识别的用户意图进行回答。在一个例子中,用户在对话机器人的应用中输入“想要森林动物”。对话机器人的应用确定用户的意图是想要观看名为“森林动物”的视频,收听名为“森林动物”的音乐,还是购买品牌为“森林动物”的玩具,等等。然后,对话机器人的应用根据确定的用户意图而回复相应的视频链接、音乐链接或商品链接。因此,能否正确地识别用户的意图,决定了人工智能系统是否能够输出用户所希望得到的结果。
意图识别实际上可以是一个分类问题。根据一些实施例,可以基于规则模板进行意图识别。也可以基于传统的分类器(如支持向量机SVM)进行意图识别。也可以基于神经网络(如卷积神经网络CNN,长期短期记忆网络LSTM,循环神经网络RNN)进行意图识别。但是,受到例如用户表达方式的多样性、用户表述的多重可能歧义性、样本数据有限等因素的影响,可能存在难以正确地识别用户的意图的问题。所述样本数据例如可以为:对用户每一次的交互是否满意进行记录,样本数据采用用户满意的数据。因此,样本数据可能不全,导致对意图识别仍存在歧义和错误。
针对以上技术问题,本公开对搜索引擎中的相同或相似的用户查询的浏览行为数据进行借用,来对待识别信息的意图进行识别。发明人意识到,用户输入的信息可能不仅存在于例如对话应用的应用中,而且也可能作为查询而被其他用户输入到搜索引擎中。所述其他用户在看到搜索引擎提供的搜索结果后所做出的浏览行为(例如点击行为)间接体现用户的群体性的可能意图。因此,本公开从搜索引擎借用可能体现用户的群体性的意图的浏览参数(例如点击行为数据),并且通过利用所述浏览参数来辅助对待识别信息的意图进行识别,从而提高意图识别的正确率。
所述搜索引擎可以为任何类型或任何品牌的搜索引擎,例如但不限于为百度搜索引擎。
以下将结合附图对本公开的意图识别方法进行进一步描述。
图1是示出根据本公开示例性实施例的意图识别方法的流程图。如图1所示,所述意图识别方法可以包括:步骤S101、确定待识别信息中的目标搜索特征;步骤S102、确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及步骤S103、根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。
所述意图分布向量可以包括与所述目标搜索特征相应的多个意图类别分别相关联的概率。所述概率可以表征目标搜索特征倾向于相应的意图类别的强度。因此,所述意图分布向量能够表征所述目标搜索特征分别倾向于相应的多个意图类别的强度。根据一些实施例,所述意图分布向量可以但不局限于为一维向量,其第一个元素(数值)可以为目标搜索特征,剩下的一个或多个元素中的每一个元素可以为与相应的意图类别相关联的概率。根据一些实施例,可以根据意图分布向量中的所述一个或多个元素中的每一个元素的位置来表示该元素的意图类别。例如,所述意图分布向量可以为(Query,prob_1,prob_2,prob_3)。其中,Query表示目标搜索特征,第二个元素prob_1可以表示目标搜索特征的意图为第一意图类别(例如音乐)的概率(例如0.2),第三个元素prob_2可以表示目标搜索特征的意图为第二意图类别(例如视频)的概率(例如0.5),第四个元素prob_3可以表示目标搜索特征的意图为其他意图类别的概率(例如0.7)。
本公开中基于搜索引擎日志中与目标搜索特征相应的浏览参数来获得待识别信息中的所述目标搜索特征的意图分布向量,并根据待识别信息的至少一部分和所述意图分布向量来确定所述待识别信息的意图。由此,能够利用目标搜索特征的意图分布向量来影响对待识别信息的意图识别。由于借用了搜索引擎中用户查询的大量浏览行为数据来确定所述意图分布向量,从而能够提高对待识别信息的意图识别的正确率。
根据一些实施例,所述待识别信息可以为对话应用中由用户输入的信息。根据相关技术,一次对话(即用户输入信息)通常对话应用只反馈一个结果,采用用户满意的反馈数据作为样本数据,可能存在样本数据不全的问题,从而导致对意图识别仍存在歧义和错误。通过利用本公开的技术方案能够借用搜索引擎的浏览行为数据来辅助对对话应用中由用户输入的信息的意图识别。不同于对话应用,搜索引擎不对用户查询内容进行意图识别,每次查询过程搜索引擎会反馈很多搜索结果,并且同一查询内容可被多次查询。因此,本公开能够从搜索引擎借用到大量浏览行为数据,从而能够提高对话应用中由用户输入的信息的意图识别的正确率。所述对话应用中由用户输入的信息可以为语音信息或影像信息等。
需要说明的是,所述待识别信息不限定为对话应用中由用户输入的信息,例如也可以为文本信息或图片信息等。根据一些实施例,所述目标搜索特征可以为所述待识别信息相应的文本信息的至少一部分。在所述待识别信息为语音信息、图片信息或影像信息等等的情况下,可以从所述待识别信息中提取出相应的文本信息。根据一些实施例,所述待识别信息可以是用户在对话系统(如智能语音助手、聊天机器人、自动客服)或专家系统等人工智能系统中由用户输入的信息。
所述目标搜索特征可以为所述待识别信息相应的文本信息的全部,也可以为所述待识别信息相应的文本信息的一部分。例如:所述待识别信息为“森林动物”,所述目标搜索特征可为“森林动物”;所述待识别信息为“想要森林动物”,所述目标搜索特征可为“森林动物”。
根据一些实施例,如图2所示,步骤S101、确定待识别信息中的目标搜索特征可以包括:步骤S1011、获取所述待识别信息中的一个或多个候选特征;步骤S1012、从所述搜索引擎日志中获取所述一个或多个候选特征中的每一个候选特征的搜索参数;步骤S1013、根据相应的搜索参数,计算所述一个或多个候选特征中的每一个候选特征的匹配分数;以及步骤S1014、将匹配分数最高的候选特征作为所述目标搜索特征。通过基于搜索参数来确定目标搜索特征,能够保证可从所述搜索引擎日志中获取到与所述目标搜索特征相应的有价值的浏览参数,提高召回率,从而能够基于相应的浏览参数来确定所述目标搜索特征的意图分布向量。可以理解的是,也可以不基于搜索参数来确定待识别信息中的目标搜索特征。例如:也可以按字符数量从多到少的排序,依次判断搜索引擎日志中是否具有与所述一个或多个候选特征中的其中一个候选特征相应的浏览参数,直至得到一个候选特征在搜索引擎日志中具有与该候选特征相应的浏览参数,则将该候选特征作为所述目标搜索特征。从而能够保证得到的目标搜索特征的字符数量尽可能多,以使得所述目标搜索特征能够正确表达所述待识别信息的意图。从而能够利用目标搜索特征的意图分布向量来辅助对待识别信息进行意图识别,来提高意图识别的正确率。
所述候选特征可以以命名实体(例如:人名、机构名、地名、数字、日期、货币、地址等等以名称为标识的实体)为主,以能够正确表达所述待识别信息的意图。即,所述目标搜索特征可以以命名实体为主。例如:所述待识别信息为“北京天气怎么样”,所述一个或多个候选特征可以包括“北京天气”。其中“北京”为命名实体。“北京天气”这个候选特征能够正确表达待识别信息的意图。而诸如“天气怎么样”等不包括命名实体的特征,其不能够正确表达待识别信息的意图。
根据一些实施例,步骤S1011、获取所述待识别信息中的一个或多个候选特征可以包括:获得所述待识别信息中所包括的一个或多个单字符串;以及采用最大匹配算法将所述一个或多个单字符串分别与词库进行比较,以得到所述一个或多个候选特征。
所述词库可以是词语资料的集合,可存储于数据库中。所述词库可以是任何可用词库,例如可以是但不局限于百度词库。
需要说明的是,此处不限定仅能利用最大匹配算法来获取所述待识别信息中的一个或多个候选特征。例如,还可利用隐马尔可夫模型来获取所述待识别信息中的一个或多个候选特征。
根据一些实施例,步骤S1011、获取所述待识别信息中的一个或多个候选特征还可以包括:确定所述一个或多个候选特征中的每一个候选特征的字符数量与所述待识别信息中的字符数量之间的比值是否大于设定的预设比值。如果否,则删除相应的比值小于所述预设比值的至少一个候选特征。相应地,可以从所述搜索引擎日志中获取剩余的一个或多个候选特征中的每一个候选特征的搜索参数,并执行步骤S1012~S1014,以将剩余的一个或多个候选特征中的匹配分数最高的候选特征作为目标搜索特征。也可以先执行步骤S1011~S1013,然后判断匹配分数最高的候选特征的字符数量与所述待识别信息中的字符数量之间的比值是否大于预设的阈值。如果是,则将匹配分数最高的候选特征作为目标搜索特征。如果否,则删除匹配分数最高的候选特征,并判断剩余的候选特征中的匹配分数最高的候选特征的字符数量与所述待识别信息中的字符数量之间的比值是否大于预设的预设比值。可以进行迭代,直至剩余的候选特征中的匹配分数最高的候选特征字符数量与所述待识别信息中的字符数量之间的比值大于预设的阈值,并将所述剩余的候选特征中的匹配分数最高的候选特征作为目标搜索特征。所述阈值例如可以为1/3~3/4。
通过上述技术方案,能够保证确定的目标搜索特征的字符数量足够多,以能够实现所述目标搜索特征能够正确表达待识别信息的意图。从而,通过引入目标搜索特征的意图分布向量能够提高待识别信息的意图识别的正确率。例如:在待识别信息为“北京天气怎么样”的情况下,若确定的目标搜索特征为“北京”,则无法正确表达待识别信息查询天气的意图,从而引入目标搜索特征的意图分布向量可能会造成对待识别信息的意图识别错误。而若确定的目标搜索特征为“北京天气”,则能够正确表达待识别信息查询天气的意图,从而通过引入目标搜索特征的意图分布向量能够提高待识别信息的意图识别的正确率。
以上技术方案,通过确定每一个候选特征的字符数量与所述待识别信息中的字符数量之间的比值是否大于设定的阈值,来确定该候选特征的字符数量是否足够多,以使得获得的目标搜索特征能够正确表达待识别信息的意图。可以理解的是,也可以直接确定每一个候选特征的字符数量是否大于设定的数量,以使得获得的目标搜索特征的字符数量足够多。这种情况下获取所述一个或多个候选特征的原理与以上技术方案相似,在此不再详述。
根据一些实施例,步骤S1012获取的所述每一个候选特征的搜索参数可以包括以下中的一个或多个:该候选特征是否包括命名实体、所述待识别信息相应的文本信息的搜索次数、该候选特征的搜索次数以及该候选特征中的字符数量。
由于命名实体对待识别信息的意图影响较大,因此,若一个候选特征包括命名实体,则该候选特征的匹配分数可以越高,从而能够实现匹配分数最高的目标搜索特征对待识别信息的意图的影响越大。根据一些实施例,可以将该候选特征是否包括命名实体进行数字化,以能够用于计算所述匹配分数。例如:若一个候选特征包括命名实体,可以将该候选特征是否包括命名实体这个参数设定为1。而若一个候选特征不包括命名实体,可以将该候选特征是否包括命名实体这个参数设定为0。
如果一个候选特征的搜索次数越多,该候选特征对待识别信息的意图的影响越大,则该候选特征的匹配分数可以越高,从而能够实现匹配分数最高的目标搜索特征对待识别信息的意图的影响越大。
另外,候选特征中的字符数量越多,该候选特征越能够准确表达所述待识别信息的意图,则该候选特征的匹配分数可以越高,从而能够实现匹配分数最高的目标搜索特征对待识别信息的意图的影响越大。
可以理解的是,与候选特征中的字符数量相关的其它参数也可影响对待识别信息的意图的表达。与候选特征中的字符数量相关的其它参数例如可以但不局限于为候选特征中的字符数量与所述待识别信息中的字符数量之间的比值。候选特征中的字符数量与所述待识别信息中的字符数量之间的比值越大,该候选特征越能够准确表达所述待识别信息的意图。相应地,获取的所述每一个候选特征的搜索参数可以包括以下中的一个或多个:该候选特征是否包括命名实体、所述待识别信息的搜索次数、该候选特征的搜索次数以及该候选特征中的字符数量与所述待识别信息中的字符数量之间的比值。
因此,所述每一个候选特征的匹配分数与相应的搜索参数中的该候选特征是否包括命名实体、该候选特征的搜索次数以及该候选特征中的字符数量(或者该候选特征中的字符数量与所述待识别信息中的字符数量之间的比值)均呈正相关,例如可以呈正线性相关。
根据一些实施例,步骤S1013中可以利用所述每一个候选特征是否包括命名实体、所述每一个候选特征的搜索次数以及所述每一个候选特征中的字符数量(或者该候选特征中的字符数量与所述待识别信息中的字符数量之间的比值)中的一个或多个来计算该候选特征的匹配分数。
根据一些实施例,步骤S1013中也可以利用所述每一个候选特征是否包括命名实体、所述每一个候选特征的搜索次数以及所述每一个候选特征中的字符数量(或者该候选特征中的字符数量与所述待识别信息中的字符数量之间的比值)中的一个或多个,以及所述待识别信息相应的文本信息作为整体的搜索次数,来计算该候选特征的匹配分数。
步骤S1013中可以但不局限于利用以下公式来计算每一个候选特征的匹配分数: 其中,a、b、c和d为已知参数;ISner表示该候选特征是否包括命名实体。searchfreq表示所述待识别信息相应的文本信息作为整体的搜索次数,ngramfreq表示该候选特征的搜索次数,len_rate表示该候选特征中的字符数量与所述待识别信息中的字符数量之间的比值。根据一些实施例,若该候选特征包括命名实体,可以设定ISner为1;若该候选特征不包括命名实体,可以设定ISner为0。
由此,基于搜索参数来确定目标搜索特征能够保证可从所述搜索引擎日志中获取到与目标搜索特征相应的有价值的浏览参数,从而能够提高对待识别信息的意图识别的正确率。
根据一些实施例,若所述待识别信息作为整体的搜索次数较高,也可以将所述待识别信息相应的文本信息的全部作为所述目标搜索特征。从而可从所述搜索引擎日志中获取到与所述待识别信息相应的有价值的浏览参数,能够进一步提高对待识别信息的意图识别的正确率。
根据一些实施例,在步骤S1011之前,步骤S101还可以包括:从所述搜索引擎日志中获取所述待识别信息相应的文本信息的搜索次数;确定所述待识别信息相应的文本信息作为整体的搜索次数是否大于预设次数;以及如果是,则将所述待识别信息相应的文本信息作为所述目标搜索特征。如果所述待识别信息相应的文本信息作为整体的搜索次数不大于所述预设次数,可以执行步骤S1011~S1014,以将所述待识别信息中的相应的匹配分数最高的候选特征作为所述目标搜索特征。从而能够在待识别信息的搜索次数较高时,将所述待识别信息作为目标搜索特征,以能够进一步提高对待识别信息的意图识别的正确率。
根据另一些实施例,在步骤S1012之后,在步骤S1013之前,步骤S101还可以包括:从所述搜索引擎日志中获取所述待识别信息相应的文本信息的搜索次数;确定所述待识别信息相应的文本信息的搜索次数是否大于所述一个或多个候选特征中的每一个候选特征的搜索次数;以及如果是,则将所述待识别信息相应的文本信息作为所述目标搜索特征。如果所述待识别信息相应的文本信息作为整体的搜索次数不大于所述一个或多个候选特征中的每一个候选特征的搜索次数,可以执行步骤S1013。从而能够实现在待识别信息的搜索次数高于所述一个或多个候选特征中的每一个候选特征的搜索次数时,将所述待识别信息作为目标搜索特征,也能够进一步提高对待识别信息的意图识别的正确率。
如果所述待识别信息相应的文本信息作为整体的搜索次数不大于所述一个或多个候选特征中的每一个候选特征的搜索次数可以是指:所述待识别信息相应的文本信息作为整体的搜索次数不大于所述一个或多个候选特征中的至少其中之一的搜索次数。
需要说明的是,本公开中的搜索次数可以是指独立搜索次数。例如:所述待识别信息相应的文本信息的搜索次数可以是指所述待识别信息相应的文本信息作为用户查询内容被独立搜索的次数。所述每一个候选特征的搜索次数可以是指该候选特征作为用户查询内容被独立搜索的次数。
在一个示例性实施例中,可以在确定目标搜索特征之后,执行步骤S102、确定所述目标搜索特征的意图分布向量。所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到。
所述搜索引擎日志可以被配置为记录搜索引擎中的用户查询过程。根据一些实施例,所述搜索引擎日志可以包括用户查询内容及其相应的浏览参数等信息。所述浏览参数例如可以包括点击网络地址及其相应的页面标题、点击次数等信息。所述点击网络地址可以是指用户通过搜索引擎进行查询时,搜索引擎根据用户查询内容提供相应的搜索结果。所述搜索结果可以包括页面标题及其相应的网络地址。当用户点击一页面标题后,即打开该页面标题相应的网络地址,该网络地址即为搜索引擎日志中记录的点击网络地址。根据一些实施例,在搜索引擎中,同一用户查询内容可被多次查询,搜索引擎日志中可以记录每一次查询过程的点击网络地址,并累计同一点击网络地址的点击次数。
根据一些实施例,与所述目标搜索特征相应的浏览参数可以包括与所述目标搜索特征相应的一个或多个点击网络地址以及与所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数。如图3所示,步骤S102可以包括:步骤S1021、确定与所述目标搜索特征相应的所述一个或多个点击网络地址的意图类别和意图分数;以及步骤S1022、根据所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量。
根据一些实施例,所述操作参数可以但不局限于包括点击次数,例如还可以包括跳过次数。点击网络地址的点击次数可以是指:所述目标搜索特征可被多次搜索,在搜索引擎提供的包括该点击网络地址的搜索结果中该点击网络地址相应的页面标题被累计点击的次数。跳过次数可以是指:所述目标搜索特征可被多次搜索,在搜索引擎提供的包括该点击网络地址的搜索结果中该点击网络地址相应的页面标题累计未被点击的次数。
所述浏览参数可以表达用户查询内容的意图。例如,在某意图类别的点击网络地址的点击次数较多时,则用户查询内容的意图更加倾向于该意图类别。而在某意图类别的点击网络地址的点击次数较少时,则用户查询内容的意图不倾向于该意图类别。
图4是示出根据示例性实施例的从搜索引擎日志中获取的与目标搜索特征相应的浏览参数以及浏览参数中点击网络地址的意图类别和意图分数的示例。参见图4所示,以用户查询内容为“森林动物”(即图4中的目标搜索特征)为例,搜索引擎提供的搜索结果例如至少包括5个点击网络地址即URL(如图4中的URL_1~URL_5)。每个URL具有对应的页面标题(如图4中的title_1~title_5)、点击次数(如图4中的click_1~click_5)和跳过次数(如图4中的skip_1~skip_5)。如步骤S1021所述,可以确定与所述目标搜索特征相应的用户查询内容所对应的所述一个或多个URL的意图类别和意图分数。对于此示例,可以确定所述至少5个URL中的每一个的意图类别(如图4中的intent_type_1~intent_type_5)和意图分数(如图4中的intent_score_1~intent_score_5)。根据图4所示示例,点击网络地址URL_1和URL_4的意图类别为音乐,点击网络地址URL_2和URL_3的意图类别为视频,点击网络地址(如URL_5意图类别为其他。也就是说,在搜索引擎日志中,与用户查询内容相应的多个点击网络地址可以分别属于多个意图类别中的其中一个意图类别。
以图4中示出的点击网络地址URL_1和URL_2为例。对于点击网络地址URL_1,针对点击网络地址URL_1和/或其页面标题的意图识别为音乐所确定的意图分数intent_score_1较高,且与用户查询内容“森林动物”相应的意图类别为音乐的点击网络地址URL_1的点击次数也较多且。因此,对于URL_1,用户点击行为体现出的用户意图与意图分数比较一致。而对于点击网络地址URL_2,针对点击网络地址URL_2和/或其页面标题的意图识别为视频所确定的意图分数intent_score_2较高,但用户查询内容“森林动物”相应的意图类别为视频的点击网络地址URL_2的点击次数却较少。因此,对于URL_2,用户点击行为体现出的用户意图与意图分数并不一致。可见,在确定意图分布向量时,不仅考虑针对各意图类型本身的意图分数,而且还考虑用户的操作参数(例如点击行为)所体现的用户的群体性偏好,能够提供用于进行意图类型判断的更多信息维度,利用用户的操作参数(例如点击行为)适当调整意图识别中所确定的意图分数的偏差。所述意图分数例如可以为置信度、概率值、权值等,在此不再限定,可以根据具体的应用场景设定。
本公开中,由于搜索引擎日志中的浏览参数能够表达用户查询内容的意图,因此,基于相应的浏览参数能够确定目标搜索特征的意图分布向量,以使得所述意图分布向量能够表征所述目标搜索特征分别倾向于相应的多个意图类别的强度。
根据一些实施例,可以将待识别信息中的目标搜索特征与搜索引擎日志中的用户查询内容进行匹配,匹配的用户查询内容相应的浏览参数即为所述目标搜索特征的浏览参数。
根据一些实施例,在每一个点击网络地址的操作参数包括点击次数的情况下,如图5所示,步骤S1021、确定与所述目标搜索特征相应的一个或多个点击网络地址的意图类别和意图分数可以包括:步骤S10211、根据点击次数从高到低的排序,从与所述目标搜索特征相应的多个点击网络地址中依次选取所述一个或多个点击网络地址;以及步骤S10212、对所述一个或多个点击网络地址中的每一个点击网络地址进行意图识别,确定所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数。从而能够仅需要确定点击次数排名靠前的一个或多个点击网络地址的意图类别和意图分数,而不用确定与所述目标搜索特征相应的所有点击网络地址的意图类别和意图分数,能够减少数据处理量,降低所需的存储资源和计算资源。并且,点击次数越高的点击网络地址,其意图类别更加倾向于用户查询内容(即目标搜索特征)的意图。从而通过引入基于相应的浏览参数获得的目标搜索特征的意图分布向量能够提高对待识别信息的意图识别的正确率。
步骤S10211中根据点击次数从高到低的排序,可以但不局限于选取前50个点击网络地址。选取结果可以如下:Query;URL_1,title_1,click_1,skip_1;URL_2,title2,click_2,skip_2……;URL_50,title_50,click_50,skip_50。其中,Query表示目标搜索特征;URL_1、URL_2……URL_50表示点击网络地址;title_1、title_2……title_50分别表示相应的点击网络地址的页面标题;click_1、click_2……click_50分别表示相应的点击网络地址的点击次数;skip_1、skip_2……skip_50分别表示相应的点击网络地址的跳过次数。参见图4所示,以目标搜索特征为森林动物为例,图4中仅示出选取的50个点击网络地址中的5个点击网络地址。选取结果可以如下:森林动物;http://www.abcde.com,大森林里的小动物,500,300;http://www.fghij.com,森林动物,200,600;http://www.klmno.com,丛林野兽,450,350;http://www.pqrst.com,森林里的动物,250,550;http://www.uvwxy.com,丛林世界,100,700。
根据一些实施例,步骤S10212对所述一个或多个点击网络地址中的每一个点击网络地址进行意图识别,确定所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数可以包括:将所述一个或多个点击网络地址中的每一个点击网络地址输入到第一神经网络模型,以输出所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数。从而能够利用神经网络模型快速确定一个或多个点击网络地址的意图类别和意图分数。在这种情况下,每一个点击网络地址的所述意图分数可以是指点击网络地址属于对应的意图类别的置信度。也可以通过其它方式来确定所述一个或多个点击网络地址的意图类别和意图分数。例如,可以人为标注所述一个或多个点击网络地址的意图类别和意图分数。在这种情况下,所述意图分数可以为1,也可以为人为确定的置信度分数。也可以通过分类器(如支持向量机SVM)来确定所述一个或多个点击网络地址的意图类别和意图分数。
步骤S10212中第一神经网络模型的输出结果可以为:Query;intent_1,click_1,skip_1;intent_2,click_2,skip_2;……;intent_50,click_50,skip_50。其中,intent_1、intent_2……intent_50包括分别相应的点击网络地址URL_1、URL_2……URL_50的相应意图类别intent_type_1、intent_type_2……intent_type_50和意图分数intent_score_1、intent_score_2……intent_score_50。参见图4所示,以目标搜索特征为森林动物为例,图4中仅示出选取的50个点击网络地址中的5个点击网络地址。第一神经网络模型输出结果可以为:森林动物;音乐,0.8,500,300;视频,0.9,200,600;视频,0.7,450,350;音乐,0.6,250,550;其他,0.5,100,700。
根据一些实施例,在所述每一个点击网络地址相应的操作参数包括点击次数的情况下,步骤S1022、根据所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量可以包括:根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量。从而,能够补充点击次数对目标搜索特征的意图分布向量的影响力,提高对待识别信息的意图识别的正确率。
根据一些实施例,所述一个或多个点击网络地址中的两个或多个点击网络地址的意图类别可以相同。在这种情况下,如图6所示,步骤S1022中,根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量可以包括:步骤S10221、根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值;步骤S10222、将所述一个或多个点击网络地址中同一意图类别的点击网络地址的加权值进行求和,得到每一意图类别的加权和;以及步骤S10223、根据所述一个或多个点击网络地址相应的多个意图类别的加权和,计算所述目标搜索特征的意图分布向量。由此,能够根据相同意图类别的点击网络地址的加权和来计算所述目标搜索特征的意图分布向量。
根据一些实施例,每一个点击网络地址相应的操作参数不仅可以包括点击次数,还可以包括跳过次数。步骤S10221、根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值可以包括:根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数和跳过次数,计算所述一个或多个点击网络地址中的每一个点击网络地址相应的平滑系数,所述平滑系数小于1;以及根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数和所述平滑系数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值。通过所述平滑系数能够减小每一个点击网络地址的加权值,避免所述加权值较大,不利于数据处理。而且所述平滑系数基于点击网络地址的点击次数和跳过次数来获得,能够实现跳过次数也能够影响目标搜索特征的意图分布向量,从而通过引入搜索引擎中的用户点击行为特征(包括点击次数和跳过次数)能够进一步提高对待识别信息的意图识别的正确率。
根据一些实施例,可以但不局限于利用以下公式来计算每一个点击网络地址的所述平滑系数:[log(click+skip+1)]/(click+skip+1)。其中,click表示该点击网络地址的点击次数,skip表示该点击网络地址的跳过次数。由于上述公式中的分子小于分母,能够实现所述平滑系数小于1。上述公式中click+skip+1能够避免click+skip为1的情况下,出现所述平滑系数为零的情况。
根据一些实施例,可以但不局限于利用以下公式来计算所述每一个点击网络地址的加权值:intent_score*click*[log(click+skip+1)/(click+skip+1)]。其中,intent_score表示该点击网络地址为相应的意图类别的意图分数。
参见图4所示,以目标搜索特征为森林动物为例,图4中仅示出选取的50个点击网络地址中的5个点击网络地址。可以利用上述公式计算每一意图类别的加权和,如下:
点击网络地址URL_1和URL_4的意图类别均为音乐,音乐的加权和可以为0.8*500*[log(500+300+1)/(500+300+1)]+0.6*250*[log(250+550+1)/((250+550+1)]≈2;
点击网络地址URL_2和URL_4的意图类别均为视频,视频的加权和可以为0.9*200*[log(200+600+1)/(200+600+1)]+0.7*450*[log(450+350+1)/(450+350+1)]≈1.8;
点击网络地址URL_5的意图类别为其他,其他意图类别的加权和可以为0.5*100*[log(100+700+1)/(100+700+1)]≈0.2。
根据一些实施例,步骤S10223、根据所述一个或多个点击网络地址相应的多个意图类别的加权和,计算所述目标搜索特征的意图分布向量可以包括:对所述一个或多个点击网络相应的多个意图类别的加权和进行归一化处理,得到每一意图类别的归一化加权和;以及将基于所述一个或多个点击网络相应的多个意图类别的归一化加权和形成的一维向量作为所述目标搜索特征的意图分布向量。从而能够实现所述多个意图类别的加权和归一化到[0,1]区间内,避免出现因意图类别之间的加权和差别较大,导致多个加权和对后续待识别信息的意图识别的影响差异较大,不利于正确识别待识别信息的意图的问题。
参见图4所示,以上内容中计算得到音乐的加权和为2,视频的加权和为1.8,其他意图类别的加权和为0.2。经过归一化处理后,音乐的归一化加权和可以为2*0.4=0.8;视频的归一化加权和可以为1.8*0.4=0.72;其他意图类别的归一化加权和可以为0.2*0.4=0.08。需要说明的是,在此不限定所述归一化处理仅能为等比例缩小。
所述意图分布向量中的多个意图类别的加权和或者归一化加权和可以作为目标搜索特征为相应的意图类别的概率,所述概率可以表征所述目标搜索特征倾向于相应的意图类别的强度。
根据一些实施例,在所述意图分布向量为一维向量的情况下,所述意图分布向量可以包括多个元素。所述多个元素中的每一个元素可以表示所述目标搜索特征为相应的意图类别的概率。在这种情况下,所述意图分布向量可以但不局限于为(Query,prob_1,prob_2,……,other)。其中,Query表示目标搜索特征,prob_1、prob_2、…other中的任意一个可以包括意图类别和相应的概率。根据一些实施例,可以根据所述多个元素中的每一个元素的位置来表示该元素值的意图类别。每一意图类别相应的概率可以为目标搜索特征相应的多个意图类别的归一化加权和(具体的计算方法已在上面内容中介绍)。参见图4所示,目标搜索特征“森林动物”的意图分布向量可以为(森林动物,0.8,0.72,0.08)。其中,可以设定所述意图分布向量的第二个元素值0.8表示所述目标搜索特征“森林动物”为音乐的概率;可以设定所述意图分布向量的第三个元素值0.72表示所述目标搜索特征“森林动物”为视频的概率;可以设定所述意图分布向量的第四个元素值0.08表示所述目标搜索特征“森林动物”为其他意图类别的概率。
上述示例性实施例中,以在确定待识别信息中的目标搜索特征之后确定目标搜索特征为例来说明如何计算所述目标搜索特征的意图分布向量。
在另一个示例性实施例中,可以在确定待识别信息中的目标搜索特征之前,预先建立统计词典。所述统计词典可以包括所述多个样本搜索特征以及与所述多个样本搜索特征分别相关联的多个意图分布向量。从而能够在确定待识别信息中的目标搜索特征之后,通过查询所述统计词典来获取所述目标搜索特征的意图分布向量。根据一些实施例,可以将目标搜索特征与所述统计词典中的所述多个样本搜索特征进行匹配,将与所述目标搜索特征匹配的样本搜索特征相关联的意图分布向量作为所述目标搜索特征的意图分布向量。匹配的样本搜索特征和目标搜索特征可以是指所述目标搜索特征与该样本搜索特征的匹配分数大于预设分数值(如0.9~0.95),以能够保证匹配的样本搜索特征和目标搜索特征所表达的意图相同。
根据一些实施例,所述目标搜索特征与该样本搜索特征的匹配分数大于预设分数值可以是指:该样本搜索特征中多个连续的字符与所述目标搜索特征中多个连续的字符完全相同(包括字符之间的顺序),所述多个连续的字符数量与该样本搜索特征的字符数量之间的比值可以大于所述预设值。
相应地,步骤S102、确定所述目标搜索特征的意图分布向量可以包括:获取多个样本搜索特征;建立统计词典,所述统计词典包括所述多个样本搜索特征以及与所述多个样本搜索特征分别相关联的多个意图分布向量;以及从所述统计词典确定所述目标搜索特征的意图分布向量。
根据一些实施例,可以但不局限于采用上述计算目标搜索特征的意图分布向量的方法,来计算所述多个样本搜索特征中每一个样本搜索特征的意图分布向量。
在确定待识别信息中的目标搜索特征以及该目标搜索特征的意图分布向量之后,可以执行步骤S103、根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。
根据一些实施例,在所述待识别信息为语音信息、图片信息或影像信息的情况下,可以获取所述待识别信息相应的文本信息。步骤S103可以根据所述待识别信息的所述至少一部分相应的文本信息和所述意图分布向量,确定所述待识别信息的意图。
根据一些实施例,结合图7和图8所示,步骤S103可以包括:步骤S1031、将与所述待识别信息的所述至少一部分相应的文本信息输入到文本嵌入层,以获得输出的词向量;步骤S1032、将所述意图分布向量输入到意图嵌入层,以获得输出的意图向量;以及步骤S1033、对所述词向量和所述意图向量进行拼接并输入到第二神经网络模型,以输出所述待识别信息的意图。由此,通过在输入神经网络模型之前,对所述待识别信息的所述至少一部分相应的文本信息与所述意图分布向量进行拼接,能够实现意图分布向量对待识别信息的意图识别的影响的泛化性。需要说明的是,为了便于理解图8中的词向量用文本示意。
所述文本嵌入层可以将所述待识别信息的所述至少一部分相应的文本信息中的单词从原先所属的空间映射到新的多维空间中,也就是将单词原先所在的空间嵌入到一个新的空间中去。这个新的空间使得语义上相似的单词在该空间内距离很近。从而能够使得映射得到的词向量能够表征所述待识别信息的所述至少一部分相应的文本信息的语义信息。所述意图嵌入层与所述文本嵌入层的工作原理相似,也能够使得映射得到的意图向量能够表征所述意图分布向量的语义信息。
根据一些实施例,可以对所述第二神经网络模型的输入进行标准化处理,例如:设定向量的行数或列数。所述词向量和所述意图向量的行数或列数不足的部分可以用零补全。通过所述标准化处理能够便于对所述词向量和所述意图向量进行拼接。
所述第二神经网络模型可以但并不局限于选择以下中的一种:卷积神经网络模型CNN,长期短期记忆网络模型LSTM,循环神经网络模型RNN。
根据一些实施例,将所述意图分布向量输入到意图嵌入层之前,根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图还可以包括:对所述意图分布向量进行离散化处理。
所述离散化处理可以但不局限于采用BIO标注体系,以为信息中的每一个短语标注标签。BIO标注体系将一个短语中的所有词标注为同样的标签。根据一些实施例,BIO标注体系可以将每个短语中的多个词中的每一个词的标注为标签“X-B”或者标签“X-I”。其中,标签“X-B”表示该词在该短语的开头,标签“X-I”表示该词在该短语的中间位置。“X”表示该短语的标签。BIO标注体系中的标签“O”表示该词不属于任何短语。
参见图8所示,以所述待识别信息为“想要森林动物”为例,所述待识别信息的目标搜索特征可以为“森林动物”(即一个短语)。所述目标搜索特征的意图分布向量中,意图类别为音乐的元素(即概率,可以为上述内容中的加权和或归一化加权和)可以标注标签“MUS”,意图类别为视频的元素(即概率,可以为上述内容中的加权和或归一化加权和)可以标注标签“VOD”,意图类别为其他的元素(即概率,可以为上述内容中的加权和或归一化加权和)可以标注标签“OTH”。也可以采用BIO标注体系对所述待识别信息的所述至少一部分相应的文本信息中的一个或多个短语进行标注标签。从而能够根据相应的标签对所述词向量和意图分布向量进行拼接。图8中示出的是采用BIO标注体系对所述待识别信息的全部相应的文本信息中的一个或多个短语进行标注标签。
根据一些实施例,可以将所述意图分布向量中多个意图类别相应的概率离散为3段置信度,离散公式可以为:H(prob>=0.6),M(prob>0.3,prob<0.6),L(prob<=0.3)。其中,prob为目标搜索特征为意图分布向量中相应的意图类别的概率。
根据一些实施例,所述第二神经网络模型可以包括多个级联的隐层,所述多个级联的隐层包括第一隐层。所述意图识别方法还可以包括:将所述意图分布向量与所述第一隐层的输出进行拼接,以作为与所述第一隐层相邻的下一隐层的输入。通过将意图分布向量与神经网络模型的第一隐层的输出进行拼接,能够补充意图分布向量对待识别信息的意图识别的影响力。根据一些实施例,在所述第二神经网络模型为卷积神经网络模型的情况下,所述隐层为卷积层。
根据一些实施例,可以将所述目标搜索特征的意图分布向量直接与所述第一隐层的输出进行拼接。例如,所述第一隐层的输出可以为一维向量,所述目标搜索特征的意图分布向量也可以为一维向量。在这种情况下,可以将所述目标搜索特征的意图分布向量所述第一隐层的输出直接进行拼接。根据一些实施例,也可以在与所述第一隐层的输出进行拼接之前,对所述意图分布向量进行离散化处理(可以采用上面内容中描述的方法),所述离散化处理。
可以理解的是,若所述第一隐层的输出为矩阵,可以将所述第一隐层的输出输入到第一嵌入层,以获得输出的第一向量,并对所述第一向量和所述意图分布向量相应的意图向量进行拼接,以作为与所述第一隐层相邻的下一隐层的输入。根据一些实施例,将所述意图分布向量输入到意图嵌入层之前,也可以对所述意图分布向量进行离散化处理(可以采用上面内容中描述的方法)。
根据一些实施例,所述第一隐层位于相对于所述第二神经网络模型的输入层而更靠近所述第二神经网络模型的输出层的一侧。即,所述第一隐层位于所述第二神经网络模型的高层,位于靠近输出层的一侧。从而能够进一步补充意图分布向量对待识别信息的意图识别的影响力。
根据一些实施例,所述第二神经网络模型的输出层可以为SoftMax分类器。
以上技术方案利用神经网络模型来确定所述待识别信息的意图。需要说明的是,并不局限于利用神经网络模型来确定所述待识别信息的意图。例如:还可以利用规则模型、支持向量机等分类器来确定所述待识别信息的意图,在此不再一一详述。
本公开的意图识别方法可应用在对话系统(如智能语音助手、聊天机器人、自动客服)和专家系统等人工智能系统中。也可应用在搜索系统中,从而搜索系统能够根据本公开的意图识别方法来识别用户查询的意图,从而能够根据识别的用户查询意图提供更准确的搜索结果。
根据本公开的另一方面,如图9所示,还提供一种意图识别设备100,可以包括:第一确定单元101,被配置用于确定待识别信息中的目标搜索特征;第二确定单元102,被配置用于确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及第三确定单元103,被配置用于根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图。
这里,意图识别设备100的上述各单元101~102的操作分别与前面描述的步骤S101~S103的操作类似,在此不再赘述。
根据本公开的另一方面,还提供一种电子设备,可以包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述的意图识别方法。
根据一些实施例,所述电子设备还可以包括输入设备,被配置为用于获取所述待识别信息。可以根据具体的应用场景选择相应的采集单元。例如:在对话系统中,所述输入设备例如可以为麦克风,所述待识别信息可以为通过麦克风获取的语音。在搜索引擎中,所述输入设备例如可以为触摸屏,所述待识别信息可以为通过触摸屏获取的用户输入的纯文本信息。在专家系统中,所述输入设备例如可以为摄像机,所述待识别信息可以为通过摄像机获取的图片信息。
根据本公开的另一方面,还提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据上述的意图识别方法。
参见图10所示,现将描述计算设备2000,其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述意图识别方法可以全部或至少部分地由计算设备2000或类似设备或系统实现。
计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如,计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算设备2000还可以包括工作存储器2014,其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。
软件要素(程序)可以位于工作存储器2014中,包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中,并且上述意图识别方法可以通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地,上述意图识别方法中,步骤S101~步骤S103可以例如通过处理器2004执行具有步骤S101~步骤S103的指令的应用程序2018而实现。此外,上述意图识别方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中,并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件。例如,所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还应该理解,前述方法可以通过服务器-客户端模式来实现。例如,客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据,进行前述方法中的一部分处理,并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据,并且执行前述方法或前述方法中的另一部分,并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果,并例如可以通过输出设备呈现给用户。
还应该理解,计算设备2000的组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样,计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (19)

1.一种意图识别方法,包括:
确定待识别信息中的目标搜索特征;
确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及
根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图,
其中,所述确定待识别信息中的目标搜索特征包括:
获取所述待识别信息中的一个或多个候选特征;
从所述搜索引擎日志中获取所述一个或多个候选特征中的每一个候选特征的搜索参数;
根据相应的搜索参数,计算所述一个或多个候选特征中的每一个候选特征的匹配分数;以及
将匹配分数最高的候选特征作为所述目标搜索特征,
并且其中,所述根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图包括:
将与所述待识别信息的所述至少一部分相应的文本信息输入到文本嵌入层,以获得输出的词向量;
将所述意图分布向量输入到意图嵌入层,以获得输出的意图向量;以及
对所述词向量和所述意图向量进行拼接并输入到第二神经网络模型,以输出所述待识别信息的意图。
2.如权利要求1所述的意图识别方法,其中,获取所述待识别信息中的一个或多个候选特征包括:
获得所述待识别信息中所包括的一个或多个单字符串;以及
采用最大匹配算法将所述一个或多个单字符串分别与词库进行比较,以得到所述一个或多个候选特征。
3.如权利要求1所述的意图识别方法,其中,所述每一个候选特征的搜索参数包括以下中的一个或多个:该候选特征是否包括命名实体、所述待识别信息相应的文本信息的搜索次数、该候选特征的搜索次数以及该候选特征中的字符数量。
4.如权利要求1所述的意图识别方法,获取所述待识别信息中的一个或多个候选特征之前,确定待识别信息中的目标搜索特征还包括:
从所述搜索引擎日志中获取所述待识别信息相应的文本信息的搜索次数;
确定所述待识别信息相应的文本信息的搜索次数是否大于预设次数;以及
如果是,则将所述待识别信息相应的文本信息作为所述目标搜索特征。
5.如权利要求1所述的意图识别方法,其中,所述浏览参数包括与所述目标搜索特征相应的一个或多个点击网络地址以及与所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数,
确定所述目标搜索特征的意图分布向量包括:
确定与所述目标搜索特征相应的所述一个或多个点击网络地址的意图类别和意图分数;以及
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量。
6.如权利要求5所述的意图识别方法,其中,所述每一个点击网络地址相应的操作参数包括点击次数,
确定与所述目标搜索特征相应的一个或多个点击网络地址的意图类别和意图分数包括:
根据点击次数从高到低的排序,从与所述目标搜索特征相应的多个点击网络地址中依次选取所述一个或多个点击网络地址;以及
对所述一个或多个点击网络地址中的每一个点击网络地址进行意图识别,确定所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数。
7.如权利要求6所述的意图识别方法,其中,对所述一个或多个点击网络地址中的每一个点击网络地址进行意图识别,确定所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数包括:
将所述一个或多个点击网络地址中的每一个点击网络地址输入到第一神经网络模型,以输出所述一个或多个点击网络地址中的每一个点击网络地址的意图类别和意图分数。
8.如权利要求5所述的意图识别方法,其中,所述每一个点击网络地址相应的操作参数包括点击次数;
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的操作参数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量包括:
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量。
9.如权利要求8所述的意图识别方法,其中,所述一个或多个点击网络地址中的两个或多个点击网络地址的意图类别相同,
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述目标搜索特征的意图分布向量包括:
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值;
将所述一个或多个点击网络地址中同一意图类别的点击网络地址的加权值进行求和,得到每一意图类别的加权和;以及
根据所述一个或多个点击网络地址相应的多个意图类别的加权和,计算所述目标搜索特征的意图分布向量。
10.如权利要求9所述的意图识别方法,其中,所述每一个点击网络地址相应的操作参数还包括跳过次数,
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值包括:
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数和跳过次数,计算所述一个或多个点击网络地址中的每一个点击网络地址相应的平滑系数,所述平滑系数小于1;以及
根据所述一个或多个点击网络地址中的每一个点击网络地址相应的点击次数和所述平滑系数以及该点击网络地址的意图类别和意图分数,计算所述一个或多个点击网络地址中的每一个点击网络地址的加权值。
11.如权利要求9所述的意图识别方法,其中,根据所述一个或多个点击网络地址相应的多个意图类别的加权和,计算所述目标搜索特征的意图分布向量包括:
对所述一个或多个点击网络相应的多个意图类别的加权和进行归一化处理,得到每一意图类别的归一化加权和;以及
将基于所述一个或多个点击网络相应的多个意图类别的归一化加权和形成的一维向量作为所述目标搜索特征的意图分布向量。
12.如权利要求1所述的意图识别方法,其中,确定所述目标搜索特征的意图分布向量包括:
获取多个样本搜索特征;
建立统计词典,所述统计词典包括所述多个样本搜索特征以及与所述多个样本搜索特征分别相关联的多个意图分布向量;以及
从所述统计词典确定所述目标搜索特征的意图分布向量。
13.如权利要求1所述的意图识别方法,将所述意图分布向量输入到意图嵌入层之前,根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图还包括:
对所述意图分布向量进行离散化处理。
14.如权利要求1所述的意图识别方法,其中,所述第二神经网络模型包括多个级联的隐层,所述多个级联的隐层包括第一隐层,
所述意图识别方法还包括:
将所述意图分布向量与所述第一隐层的输出进行拼接,以作为与所述第一隐层相邻的下一隐层的输入。
15.如权利要求14所述的意图识别方法,其中,所述第一隐层位于相对于所述第二神经网络模型的输入层而更靠近所述第二神经网络模型的输出层的一侧。
16.如权利要求1所述的意图识别方法,其中,所述待识别信息为对话应用中由用户输入的信息。
17.一种意图识别设备,包括:
第一确定单元,被配置用于确定待识别信息中的目标搜索特征;
第二确定单元,被配置用于确定所述目标搜索特征的意图分布向量,所述意图分布向量基于搜索引擎日志中的与所述目标搜索特征相应的浏览参数得到;以及
第三确定单元,被配置用于根据所述待识别信息的至少一部分和所述意图分布向量,确定所述待识别信息的意图,
其中,所述第一确定单元被配置为:
获取所述待识别信息中的一个或多个候选特征;
从所述搜索引擎日志中获取所述一个或多个候选特征中的每一个候选特征的搜索参数;
根据相应的搜索参数,计算所述一个或多个候选特征中的每一个候选特征的匹配分数;以及
将匹配分数最高的候选特征作为所述目标搜索特征,
并且其中,所述第三确定单元被配置为:
将与所述待识别信息的所述至少一部分相应的文本信息输入到文本嵌入层,以获得输出的词向量;
将所述意图分布向量输入到意图嵌入层,以获得输出的意图向量;以及
对所述词向量和所述意图向量进行拼接并输入到第二神经网络模型,以输出所述待识别信息的意图。
18.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1~16中任一项所述的意图识别方法。
19.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1~16中任一项所述的意图识别方法。
CN202010131537.7A 2020-02-28 2020-02-28 意图识别方法和设备、电子设备和介质 Active CN111353021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010131537.7A CN111353021B (zh) 2020-02-28 2020-02-28 意图识别方法和设备、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010131537.7A CN111353021B (zh) 2020-02-28 2020-02-28 意图识别方法和设备、电子设备和介质

Publications (2)

Publication Number Publication Date
CN111353021A CN111353021A (zh) 2020-06-30
CN111353021B true CN111353021B (zh) 2023-08-18

Family

ID=71194187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010131537.7A Active CN111353021B (zh) 2020-02-28 2020-02-28 意图识别方法和设备、电子设备和介质

Country Status (1)

Country Link
CN (1) CN111353021B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687633B2 (en) * 2020-11-05 2023-06-27 International Business Machines Corporation Access authentication in AI systems
CN112905893B (zh) * 2021-03-22 2024-01-12 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置
CN113408278B (zh) * 2021-06-22 2023-01-20 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113537372B (zh) * 2021-07-23 2024-01-23 全球能源互联网研究院有限公司 一种地址识别方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955798A (zh) * 2011-08-25 2013-03-06 腾讯科技(深圳)有限公司 一种基于搜索引擎的搜索方法及搜索服务器
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置
CN106372956A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种基于用户搜索日志进行意图实体识别的方法和系统
CN106372132A (zh) * 2016-08-25 2017-02-01 北京百度网讯科技有限公司 基于人工智能的查询意图预测方法和装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN109145200A (zh) * 2018-07-13 2019-01-04 百度在线网络技术(北京)有限公司 推广展现的方法、装置、设备和计算机存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902052B2 (en) * 2018-03-26 2021-01-26 Microsoft Technology Licensing, Llc Search results through image attractiveness
US11232153B2 (en) * 2018-06-14 2022-01-25 Microsoft Technology Licensing, Llc Providing query recommendations

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955798A (zh) * 2011-08-25 2013-03-06 腾讯科技(深圳)有限公司 一种基于搜索引擎的搜索方法及搜索服务器
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置
CN106372956A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种基于用户搜索日志进行意图实体识别的方法和系统
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN106372132A (zh) * 2016-08-25 2017-02-01 北京百度网讯科技有限公司 基于人工智能的查询意图预测方法和装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN109145200A (zh) * 2018-07-13 2019-01-04 百度在线网络技术(北京)有限公司 推广展现的方法、装置、设备和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Lirong Qiu."Query Intent Recognition Based on Multi-Class Features".《IEEE Access》.2018,全文. *

Also Published As

Publication number Publication date
CN111353021A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353021B (zh) 意图识别方法和设备、电子设备和介质
CN111563208B (zh) 一种意图识别的方法、装置及计算机可读存储介质
US11948058B2 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
US8073877B2 (en) Scalable semi-structured named entity detection
US9110922B2 (en) Joint embedding for item association
CN108182229B (zh) 信息交互方法及装置
US8787683B1 (en) Image classification
US10776707B2 (en) Language translation based on search results and user interaction data
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
US20220027398A1 (en) Cluster based search and recommendation method to rapidly on-board commands in personal assistants
CN111488426A (zh) 一种查询意图确定方法、装置及处理设备
US10853580B1 (en) Generation of text classifier training data
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
US20210264902A1 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
US20230096070A1 (en) Natural-language processing across multiple languages
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN114595389A (zh) 通讯录查询方法、装置、设备、存储介质和程序产品
CN113792131A (zh) 一种关键词的提取方法、装置、电子设备及存储介质
CN113553851A (zh) 关键词的确定方法、装置、存储介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant