CN113722465B - 一种意图识别方法及装置 - Google Patents

一种意图识别方法及装置 Download PDF

Info

Publication number
CN113722465B
CN113722465B CN202111287516.5A CN202111287516A CN113722465B CN 113722465 B CN113722465 B CN 113722465B CN 202111287516 A CN202111287516 A CN 202111287516A CN 113722465 B CN113722465 B CN 113722465B
Authority
CN
China
Prior art keywords
candidate main
statement
service type
main question
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111287516.5A
Other languages
English (en)
Other versions
CN113722465A (zh
Inventor
武文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Longzhi Digital Technology Service Co Ltd
Original Assignee
Shanghai Zhuohan Technology Co ltd
Beijing Zhuojianzhihan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhuohan Technology Co ltd, Beijing Zhuojianzhihan Technology Co ltd filed Critical Shanghai Zhuohan Technology Co ltd
Priority to CN202111287516.5A priority Critical patent/CN113722465B/zh
Publication of CN113722465A publication Critical patent/CN113722465A/zh
Application granted granted Critical
Publication of CN113722465B publication Critical patent/CN113722465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及计算机技术领域,提供了一种意图识别方法及装置。本公开在询问语句与业务类型对应的候选主问题均不匹配的情况下,可以通过根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题,这样,使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。

Description

一种意图识别方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种意图识别方法及装置。
背景技术
现有智能客服系统一般会设计很多标准问题和相似问题,形成十分庞大的知识库,训练模型对用户问题进行意图识别,通过不断地扩充知识来提高模型的泛化能力,以更好地解答问题,满足用户的诉求。
现有的AI对话机器人中的意图识别方案中,业界通常采用分类模型,将每个主问题视为一个类别,对用户输入(query)进行分类,将所属类别视为用户想要询问的问题,具体实施时,一般会定义一个阈值,通过模型对query属于每一类的概率进行预测,概率大于阈值的类别即为query对应的类别。但这样方式,对数据要求高,具体地,对于分类模型,要求每一个主问题都有足够多的相似问题,且相似问题质量要求高,要求不同主问题之间差别大,比如两个主问题分别为“龙信密码怎样修改”和“龙建密码怎样修改”,query为“密码怎样修改”,这种情况下分类模型给出的“龙信密码怎样修改”和“龙建密码怎样修改”这两类的概率都很低,难以达到阈值,导致预测失败,以及,难以处理短输入内容,当用户输入的字符很短,如两个字时,所蕴含的语义信息过少,真实意图难以识别。
也就是说,目前的语句意图识别的匹配方式较僵化,难以精准捕捉到用户问题完整的语义信息,易出现仅识别到局部意图的错误,或者可解释性较低,无法准确、全面、高效地识别语句的意图。
发明内容
有鉴于此,本公开实施例提供了一种意图识别方法、装置、计算机设备及计算机可读存储介质,以解决现有技术中的语句意图识别的匹配方式较僵化,难以精准捕捉到用户问题完整的语义信息,易出现仅识别到局部意图的错误,或者可解释性较低,无法准确、全面、高效地识别语句的意图的问题。
本公开实施例的第一方面,提供了一种意图识别方法,方法包括:
获取询问语句以及询问语句对应的业务类型;
判断询问语句是否与业务类型对应的候选主问题匹配;
若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。
本公开实施例的第二方面,提供了一种意图识别装置,装置包括:
语句获取模块,用于获取询问语句以及询问语句对应的业务类型;
匹配判断模块,用于判断询问语句是否与业务类型对应的候选主问题匹配;
问题确定模块,用于若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。
本公开实施例的第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:本公开实施例可以先获取询问语句以及询问语句对应的业务类型;然后,可以判断询问语句是否与业务类型对应的候选主问题匹配;若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。这样,本申请在询问语句与业务类型对应的候选主问题均不匹配的情况下(比如,询问语句的字符较少,难以匹配主问题,或者,没有直接匹配的候选主问题),可以通过根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题,这样,使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的意图识别方法的流程图;
图3是本公开实施例提供的意图识别系统的架构示意图;
图4是本公开实施例提供的意图识别系统的变更架构示意图;
图5是本公开实施例提供的意图识别装置的框图;
图6是本公开实施例提供的计算机设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种意图识别方法和装置。
在现有技术中,目前的语句意图识别的匹配方式较僵化,难以精准捕捉到用户问题完整的语义信息,易出现仅识别到局部意图的错误,或者可解释性较低,无法准确、全面、高效地识别语句的意图。
为了解决上述问题。本发明提供了一种意图识别方法,在本方法中,以先获取询问语句以及询问语句对应的业务类型;然后,可以判断询问语句是否与业务类型对应的候选主问题匹配;若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。这样,本申请在询问语句与业务类型对应的候选主问题均不匹配的情况下(比如,询问语句的字符较少,难以匹配主问题,或者,没有直接匹配的候选主问题),可以通过根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题,这样,使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。
举例说明,本发明实施例可以应用到如图1所示的应用场景。在该场景中,可以包括终端设备1。
终端设备1可以是硬件,也可以是软件。当终端设备1为硬件时,其可以是具有支持数据处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1为软件时,其可以安装在如上的电子设备中。终端设备1可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。当然,本发明实施例也是可以应用于服务器中的。
具体地,在图1所示的应用场景中,用户可以通过终端设备1输入询问语句,终端设备1可以先确定询问语句对应的业务类型。接着,终端设备1可以判断询问语句是否与业务类型对应的候选主问题匹配。若询问语句与业务类型对应的候选主问题不匹配,终端设备1可以确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,终端设备1可以根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。这样,可以使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。
需要说明的是,终端设备1的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
需要注意的是,上述应用场景仅是为了便于理解本公开而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图2是本公开实施例提供的一种意图识别方法的流程图。图2的一种意图识别方法可以由图1的终端设备(或服务器)执行。如图2所示,该意图识别方法包括:
S201:获取询问语句以及询问语句对应的业务类型。
在本实施例中,可以将用户通过终端设备输入的查询的信息(即query)称之为询问语句。询问语句可以包括若干字符串,询问语句可以为包括汉字、英文或者数字等各种类型字符的字符串,例如,询问语句可以为“HU7027”、“时间”、“YYDS是什么意思”、“SF10258946327”。在一种实现方式中,用户通过实体键盘、虚拟键盘或者语音输入的方式,在询问对话界面(比如客服对话界面)输入一信息后,可以将该信息作为询问语句。
在获取到询问语句后,可以先确定询问语句对应的业务类型。询问语句对应的业务类型可以理解为询问语句所查询的业务的领域,例如,业务类型可以包括航班信息查询、单据信息查询、快递信息查询、行政服务查询等。在本实施例中,可以预先设置了各个业务类型对应的模板信息;可以理解的是,业务类型的模板信息可以反映了该业务类型的业务内容特性。这样,在获取到询问语句后,可以根据预设的模板信息确定询问语句对应的业务类型。举例来说,假设询问语句为“HU7021”,由于根据模板信息,确定“HUxxxx”为航班号信息,因此,可以确定询问语句“HU7021”对应的业务类型为航班信息查询;假设用户询问语句为“密码”,由于根据模板信息,确定“密码”为密码查询,因此,可以确定询问语句“密码”对应的业务类型为密码。需要说明是,询问语句的业务类型可以根据实际情况预先设置。
S202:判断询问语句是否与业务类型对应的候选主问题匹配。
在本实施例中,每个业务类型均预先设置了一候选主问题集合,可以理解的是,每一业务类型均有与其一一对应的候选主问题集合,其中,每一个候选主问题集合可以包括若干候选主问题。
需要说明的是,每个业务类型对应的数据库中存放的查询数据通常为若干组一问一答形式的查询数据,其中,每一组查询数据中的问题可以称之为主问题,而该组查询数据中主问题的回答可以称之为答案,并且,每个主问题有若干个相似问题以及关键词。而每个业务类型对应的数据库中所有主问题所形成的集合即为候选主问题集合。在一种具体实现方式中,每个业务类型可以关联若干个知识库,每个知识库均包括若干组查询数据,且每个知识库对应的知识领域均不相同,需要强调的是,不同业务类型可以关联同一知识库。
作为一种示例,在获取到询问语句以及确定询问语句对应的业务类型后,可以先获取该业务类型对应的候选主问题,接着,针对每一候选主问题,判断该询问语句与该候选主问题是否匹配。例如,可以先根据该业务类型,获取该业务类型对应的候选主问题集合,接着,再针对候选主问题集合中每一候选主问题,判断该询问语句与该候选主问题是否匹配。需要说明的是,询问语句与业务类型对应的候选主问题匹配可以理解为询问语句与候选主问题的内容是否部分对应或者完全对应,具体的匹配判断方式将在后面进行具体介绍。
S203:若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。
若询问语句与业务类型对应的每一候选主问题均不匹配,说明无法直接根据询问语句确定该询问语句对应的意图。因此,需要进一步分析询问语句与其对应业务类型的候选主问题之间的相关程度。
在本实施例中,由于业务类型对应的候选主问题数量较多,导致筛选的范围较为广泛,为了进一步缩小筛选的范围,可以先根据预设召回条件,在业务类型对应的候选主问题中确定满足预设召回条件的候选主问题。其中,预设召回条件可以为候选主问题与询问语句之间的相关性程度大于预设相关性阈值。其中,该预设相关性阈值可以是根据实际情况所确定的,例如可以是用户根据需求预先设置的,也可以是根据业务类型对应的所有候选主问题的相关性程度情况所确定的。可以理解的是,候选主问题与询问语句之间的相关性程度越高,说明该候选主问题能够反映询问语句的真实意图的可能性越大,反之,候选主问题与询问语句之间的相关性程度越低,说明该候选主问题能够反映询问语句的真实意图的可能性越小。
为了能够确定能够反映询问语句的真实意图的主问题,在确定满足预设召回条件的候选主问题之后,可以确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,以便可以进一步根据询问语句和满足预设召回条件的候选主问题的匹配程度,确定能够反映询问语句的真实意图的候选主问题。这样,本实施例在询问语句与业务类型对应的候选主问题均不匹配的情况下(比如,询问语句的字符较少,难以匹配主问题,或者,没有直接匹配的候选主问题),还可以利用询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,筛选能够反映询问语句的真实意图的候选主问题。
需要说明的是,询问语句和候选主问题的匹配程度可以理解为候选主问题能够反映询问语句的真实意图的概率。可以理解的是,候选主问题与询问语句之间的匹配程度越高,说明该候选主问题为询问语句的真实意图的可能性越大,反之,候选主问题与询问语句之间的相关性程度越低,说明该候选主问题为询问语句的真实意图的可能性越小。在一种具体的实现方式中,询问语句和候选主问题的匹配程度可以通过分数的形式来展示,例如,询问语句和候选主问题的匹配分数越高,说明询问语句和候选主问题的匹配程度越高,反之,询问语句和候选主问题的匹配分数越低,说明询问语句和候选主问题的匹配程度越低。
S204:根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。
在确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度之后,可以利用询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,筛选该询问语句对应的目标主问题。需要说明的是,由于一个询问语句的真实意图可能包括一个问题或者多个问题,为了能够保证根据询问语句所确定的目标主体能够尽可能的、全面的反映询问语句的真实意图,目标主问题可以仅包括一个主问题,也可以包括多个主问题,即可以从满足预设召回条件的候选主问题中选择一个或多个候选主问题作为询问语句对应的目标主问题。
在一种实现方式中,当目标主问题包括多个主问题时,该多个主问题可以以列表或者选择项的方式进行展示,以便用户可以从这多个主问题中选择一个或多个主问题进行确认,并可以针对用户所确定的主问题,向用户反馈该主问题的答案。举例说明,假设询问语句为“HU7027”,且询问语句对应的目标主问题包括“HU7027的航班信息是什么”、“HU7027的航班票价是多少”、“HU7027的航班服务情况评价如何”,则可以将这三个问题以列表的选项方式进行展示,也可以以气泡选项的方式进行展示。
本公开实施例与现有技术相比存在的有益效果是:本公开实施例可以先获取询问语句以及询问语句对应的业务类型;然后,可以判断询问语句是否与业务类型对应的候选主问题匹配;若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。这样,本申请在询问语句与业务类型对应的候选主问题均不匹配的情况下(比如,询问语句的字符较少,难以匹配主问题,或者,没有直接匹配的候选主问题),可以通过根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题,这样,使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。
接下来,将介绍S202,即“判断询问语句是否与业务类型对应的候选主问题匹配”的一种具体实现方式。具体地,在一种实现方式中,S202可以包括:判断询问语句与业务类型对应的候选主问题是否满足预设匹配条件。也就是说,在本实施例中,获取到询问语句以及其对应的业务类型后,可以判断该询问语句是否与该业务类型对应的至少一候选主问题满足预设匹配条件。
其中,预设匹配条件包括:询问语句与业务类型对应的候选主问题完全匹配、询问语句与业务类型对应的知识图谱中的一关系路径匹配、询问语句与业务类型对应的候选主问题的至少一个关键词匹配。也就是说,询问语句与业务类型对应的至少一候选主问题只要满足上述三个匹配条件中的一个,便可以确定该询问语句与该业务类型对应的一候选主问题满足预设匹配条件。反之,询问语句与业务类型对应的一候选主问题只要同时不满足上述三个匹配条件中的任意一个,便可以确定该询问语句与该业务类型对应的一候选主问题不满足预设匹配条件。需要强调的是,在一种实现方式中,预设匹配条件的判断顺序可以为先判断询问语句是否与业务类型对应的候选主问题完全匹配,接着,判断询问语句是否与业务类型对应的知识图谱中的一关系路径匹配,最后,再判断询问语句是否与业务类型对应的候选主问题的至少一个关键词匹配。
需要说明的是,询问语句与业务类型对应的候选主问题完全匹配,可以理解为,询问语句的内容与该候选主问题的内容完全一致,例如,假设询问语句为“HU7027的航班信息是多少”且该询问语句的业务类型对应的一候选主问题为“HU7027的航班信息是多少”,由于询问语句的内容与该候选主问题的内容完全一致,因此,可以认为该询问语句与该候选主问题完全匹配。询问语句与业务类型对应的知识图谱中的一关系路径匹配,可以理解为,询问语句与业务类型对应的知识图谱中的一关系路径对应的三元组完全匹配,其中,该知识图谱存储了若干候选主问题,且每个候选主问题各自分别对应一关系路径;举例来说,假设询问语句为“龙信密码怎么修改”且该询问语句的业务类型对应的知识图谱中的一关系路径为“龙信密码”→“修改”,由于询问语句的内容与该关系路径的三元组内容完全一致,因此,可以认为该询问语句与业务类型对应的知识图谱中的一关系路径匹配,即与该关系路径对应的候选主问题匹配。询问语句与其对应的业务类型的候选主问题的至少一个关键词匹配,可以理解为,询问语句中包括了一候选主问题的至少一个关键词,即询问语句与候选主问题的至少一个关键词完全一致,举例来说,假设询问语句为“龙信密码”且该询问语句的业务类型对应的一候选主问题的关键词为“龙信密码”、“修改”,由于询问语句的内容与该候选主问题的一个关键词“龙信密码”相匹配,因此,可以认为该询问语句与其对应的业务类型的候选主问题的关键词匹配。
相应地,S203(即若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个候选主问题的匹配程度),可以包括:与业务类型对应的候选主问题不满足任一预设匹配条件,则确定询问语句与业务类型对应的候选主问题不匹配,以及,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。可以理解的是,若询问语句不与其对应的业务类型的候选主问题完全匹配、不与业务类型对应的知识图谱中的一关系路径匹配且不与业务类型对应的候选主问题的关键词匹配,则可以确定询问语句与业务类型对应的候选主问题不匹配,以及,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。
接下来,将介绍S203,即若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度的步骤,在一种实现方式中,可以包括以下步骤:
S203a:若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与业务类型对应的各个候选主问题之间的相关性程度。
在本实施例中,若询问语句与业务类型对应的候选主问题不匹配,则可以先确定询问语句分别与其对应的业务类型中的各个候选主问题之间的相关性程度。其中,询问语句与候选主问题之间的相关性程度可以理解为询问语句与候选主问题之间的内容关联程度。需要说明的是,候选主问题与询问语句之间的相关性程度越高,说明该候选主问题能够反映询问语句的真实意图的可能性越大,反之,候选主问题与询问语句之间的相关性程度越低,说明该候选主问题能够反映询问语句的真实意图的可能性越小。
在本实施例的一种实现方式中,可以利用评价搜索词和文档之间相关性的算法确定询问语句与候选主问题之间的相关性程度,例如,可以利用BM25算法计算询问语句与候选主问题之间的相关性程度。在一种实现方式中,elasticsearch搜索工具中内置有BM25算法,可以利用elasticsearch搜索工具搜索询问语句对应的业务类型下的全部知识库中的候选主问题,并利用BM25算法计算询问语句分别与该业务类型对应的各个候选主问题之间的相关性程度。
S203b:根据询问语句分别与业务类型对应的各个候选主问题之间的相关性程度,获取满足预设召回条件的候选主问题。
可以理解的是,可以利用预设召回条件,筛选出与询问语句的相关性程度满足预设召回条件的候选主问题。其中,预设召回条件可以为候选主问题与询问语句之间的相关性程度大于预设相关性阈值。
S204c:确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。
在筛选出满足预设召回条件的候选主问题后,可以确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。在本实施例中,匹配程度的确定方式可以分为两种情况,接下来,将分别介绍这两种情况。
第一种情况,若询问语句的字符长度大于第一预设阈值,针对每一满足预设召回条件的候选主问题,根据候选主问题对应的向量以及询问语句对应的向量,确定候选主问题与询问语句的匹配程度。
若确定询问语句的字符长度大于第一预设阈值,则可以针对每一满足预设召回条件的候选主问题,先确定该候选主问题对应的向量以及该询问语句对应的向量,比如,可以利用同样的编码器将候选主问题和询问语句均进行编码,得到该候选主问题对应的向量以及该询问语句对应的向量;接着,可以确定该候选主问题对应的向量与该询问语句对应的向量的距离,以及,将该距离作为该候选主问题与该询问语句的匹配程度,比如,可以计算该候选主问题对应的向量与该询问语句对应的向量之间的cos距离,并将该cos距离作为该候选主问题与该询问语句的匹配置信度,即匹配程度。需要说明的是,在一种实现方式中,第一预设阈值可以为五个字符。
第二种情况,若询问语句的字符长度小于或等于第一预设阈值,针对每一满足预设召回条件的候选主问题,根据候选主问题与询问语句之间的相关性程度,确定候选主问题与询问语句的匹配程度。
若询问语句的字符长度小于或等于第一预设阈值,说明cos距离不适合反映候选主问题与询问语句的匹配程度,可以采用归一化的方式将候选主问题与询问语句之间的相关性程度的分值缩放至所需范围以确定候选主问题与询问语句的匹配程度。
具体地,针对每一满足预设召回条件的候选主问题,可以先确定候选主问题与询问语句之间的相关性程度;在本实施例的一种实现方式中,可以利用评价搜索词和文档之间相关性的算法确定询问语句与候选主问题之间的相关性程度,例如,可以利用BM25算法计算询问语句与候选主问题之间的相关性程度。然后,可以对相关性程度进行归一化处理,得到候选主问题与询问语句的匹配程度;在一种实现方式中,由于利用BM25算法计算的相关性程度的分数往往大于1,而最终需要的匹配程度的分值需要在0~1范围内,所以需要将BM25算法确定的相关性程度对应的分数等比例缩放至0~1范围内。
接下来,将介绍S204,即根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题的步骤,在一种实现方式中,可以包括以下步骤:
S204a:根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定满足预设筛选条件的候选主问题;
S204b:将满足预设筛选条件的候选主问题作为询问语句对应的目标主问题。
在确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度之后,可以根据预设筛选条件,确定询问语句对应的目标主问题。其中,预设筛选条件可以为候选主问题与询问语句的匹配程度大于第二预设阈值,即将匹配程度大于第二预设阈值的候选主问题作为询问语句对应的目标主问题。其中,该第二预设阈值可以是根据实际情况所确定的,例如可以是用户根据需求预先设置的,也可以是根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度情况所确定的,例如,目标主问题包括五个主问题时,可以将匹配程度从高到低进行排序,并将排序在第五的候选主问题的匹配程度作为第二预设阈值。
为了避免目标主问题中出现一些非业务类型内容,即与询问语句对应的业务类型不相关的内容,例如属于闲聊的主问题,举例来说,“你开心吗”、“你是谁”等;在本实施例的一种实现方式中,预设筛选条件还可以包括满足预设筛选条件的候选主问题的内容不为非业务类型内容。也就是说,目标主问题需要同时满足与询问语句的匹配程度大于第二预设阈值且主问题的内容不为非业务类型内容。
需要说明的是,由于匹配程度算法在计算匹配程度的过程中,可能会存在各种各样难以解决的错误结果,例如,询问语句为“BXCX20201234124”,经过匹配程度算法,候选主问题“单据号查询”的匹配程度分数是0.53,但由于“BX”为单据号,则该询问语句与候选主问题“单据号查询”的匹配程度应该为1。为了避免出现上述问题,在本实施例的一种实现方式中,在S204,即根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题的步骤之前,方法还可以包括:
若满足预设召回条件的候选主问题的内容符合业务类型的调整条件,根据业务类型的调整规则对候选主问题与询问语句的匹配程度进行调整,得到调整后的匹配程度。
其中,业务类型的调整条件可以为用户预先针对一业务类型所设置的特殊情况或者特殊场景。业务类型的调整规则可以理解为用户预先针对一业务类型的特殊情况或者特殊场景所设置的匹配程度调整规则。
继续以询问语句“BXCX20201234124”为例;经过匹配程度算法,候选主问题“单据号查询”的匹配程度分数是0.53,但由于“BX”为单据号,且,业务类型“单据查询”的调整条件为候选主问题包括关键词“单据号”,因此需要根据业务类型“单据查询”的调整规则“将包括关键词‘单据号’的候选主问题的匹配程度设置为1”,将该候选主问题“单据号查询”的匹配程度设置为1。这样,便可以避免出现在业务类型的特殊场景或特殊情况下出现匹配程度确定错误的情况,从而提高了确定询问语句的目标主问题的精确性。
需要说明的是,由于用户在通过键盘等输入设备向终端输入询问语句的过程中,可能会错误输入非标点符号,比如@、&等非标点符号,或者,可能会多输入一些语气词,比如“呀”、“哇”,或者,大小写输入错误。因此,在本申请实施例的一种实施方式中,在S201,即在获取询问语句以及询问语句对应的业务类型的步骤之后,方法还可以包括:
若询问语句中存在符合预设字符规则的字符,对询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句。
预设字符规则可以是用户根据实际需求设置的,例如,预设字符规则可以为字符为非标点符号、语气词、大写英文字母(或者小写英文字母)等。若询问语句中存在符合预设字符规则的字符,可以根据相应的调整方式对询问语句中符合预设字符规则的字符进行调整。例如,询问语句“HU7027@”中存在符合预设字符规则“非标点符号”的字符“@”,则可以将该询问语句中的“非标点符号”的字符“@”去掉,得到调整后的询问语句“HU7027”;又例如,询问语句“哎明天机票多少钱了”中存在符合预设字符规则“语气词”的字符“哎”,则可以将该询问语句中的“语气词”的字符“哎”去掉,得到调整后的询问语句“明天机票多少钱了”;还例如,询问语句“hu7027”中存在符合预设字符规则“小写英文字母”的字符“hu”,则可以将该询问语句中的“小写英文字母”的字符“hu”更改为大写英文字母,得到调整后的询问语句“HU7027”。
可见,在本实施例中,在获取询问语句以及询问语句对应的业务类型的步骤之后,通过对询问语句进行内容预处理,可以将询问语句中的字符进行统一,并且还可以将用户错误输入的字符从询问语句中去除,从而便于对该询问语句的后续处理,以提高了确定询问语句的目标主问题的精确性。
在一种实现方式中,在S202,即判断询问语句是否与业务类型对应的候选主问题匹配的步骤之后,方法还可以包括:
若询问语句与业务类型对应的若干候选主问题匹配,将若干候选主问题作为询问语句对应的目标主问题。
在本实施例的一种实现方式中,若询问语句与业务类型对应的若干候选主问题匹配,即询问语句与其对应的业务类型中的至少一候选主问题满足以下至少一个预设匹配条件,即:询问语句与业务类型对应的候选主问题完全匹配、询问语句与业务类型对应的知识图谱中的一关系路径对应的候选主问题匹配、询问语句与业务类型对应的候选主问题的至少一个关键词匹配;则可以将与询问语句匹配的若干候选主问题作为询问语句对应的目标主问题。
也就是说,询问语句与业务类型对应的一候选主问题完全匹配、询问语句与业务类型对应的知识图谱中的一关系路径匹配或者询问语句与业务类型对应的候选主问题的至少一个关键词匹配,即询问语句与业务类型对应的至少一候选主问题只要满足上述三个匹配条件中的一个,便可以确定该询问语句与该业务类型对应的一候选主问题满足预设匹配条件,从而可以将该候选主问题作为该询问语句对应的目标主问题。
由于业务类型对应的候选主问题随时会发生变更,为了保证确定询问语句对应的目标主问题的精确性,需要能够实时根据候选主问题的变更情况对业务类型的候选主问题集合进行调整。具体地,方法还包括:
若检测到业务类型对应的候选主问题发生变更,则根据发生变更的候选主问题对业务类型对应的候选主问题集合进行变更。
具体地,若检测到业务类型对应的候选主问题发生新增,则可以将新增的候选主问题添加至业务类型对应的候选主问题集合中;若检测到业务类型对应的候选主问题发生删除,则可以将该候选主问题从业务类型对应的候选主问题集合中删除;若检测到业务类型对应的一候选主问题的内容发生修改,则可以在业务类型对应的候选主问题集合中对该候选主问题的内容进行修改。
作为一种示例,如图4所示,kafka生产模块监听到数据变更模块(Data updata)中的候选主问题发生变更时,kafka生产模块(即kafka Producer)可以向kafka中推送一条消息,以便kafka消费模块(即kafka Consumer)对搜索服务器ES中的该候选主问题消息进行消费,达到对ES中的该候选主问题消息进行即时更新的效果。其中,具体消费过程为:通过编码模块Encoder将每一个候选主问题和对应的相似问题、关键词通过编码器转化为向量,再将该向量数据更新到ES中,其中编码器为深度学习模型,作用是将文本转化为向量,包括但不限于bert、sentence-bert等。可以理解的是,数据变更模块中的候选主问题每次发生变动后,均可以触发深度学习模型基于变动更新后的候选主问题进行重新训练,从而可以保证深度学习模型不断更新升级。
可见,本实施例可以实时根据候选主问题的变更情况对业务类型的候选主问题集合进行调整,从而保证确定询问语句对应的目标主问题的精确性。
接下来,将结合图3阐述本实施例的一种具体实现方式。获取到询问语句后,首先利用预处理模块对询问语句进行预处理;具体地,通过语句重写模块进行意图重写,即若询问语句中存在符合预设字符规则的字符,对询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句;以及通过信息补全模块对询问语句进行信息补全,例如确定询问语句对应的业务类型,以及该业务类型下的所有候选主问题。预处理后的询问语句进入击中模块,利用击中模块中完全匹配模块判断询问语句是否与业务类型对应的候选主问题完全匹配;利用知识图谱模块判断询问语句是否与业务类型对应的知识图谱中的一关系路径匹配;利用关键词模块判断询问语句是否与业务类型对应的候选主问题的关键词匹配;如果击中模块命中了某条(或某多条)主问题,则直接返回,其中若命中单条则返回答案,若命中多条则返回列表供用户选择,即若询问语句与业务类型对应的若干候选主问题匹配,将若干候选主问题作为询问语句对应的目标主问题;若击中模块未命中,即询问语句与业务类型对应的候选主问题不匹配,则进入后续的召回模块。召回模块中的BM25模块用于确定询问语句分别与业务类型对应的各个候选主问题之间的相关性程度,根据询问语句分别与业务类型对应的各个候选主问题之间的相关性程度,获取满足预设召回条件的候选主问题。然后,进入打分模块,若询问语句为短语(比如长度小于5),则利用匹配程度确定模块针对每一满足预设召回条件的候选主问题,根据候选主问题对应的向量以及询问语句对应的向量,确定候选主问题与询问语句的匹配程度;若询问语句为短语(比如长度等于或大于5),则利用归一化模块针对每一满足预设召回条件的候选主问题,根据候选主问题与询问语句之间的相关性程度,确定候选主问题与询问语句的匹配程度。接着,进入重打分模块,重打分模块中的调整模块可以执行若满足预设召回条件的候选主问题的内容符合业务类型的调整条件,根据业务类型的调整规则对候选主问题与询问语句的匹配程度进行调整,得到调整后的匹配程度。紧接着,进入过滤模块,通过战略模块根据业务需求进行过滤,如过滤掉分数低于阈值的主问题,过滤掉闲聊的主问题等,即执行若询问语句中存在符合预设字符规则的字符,对询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句;可以理解的是,战略模块包括了预设的业务需求,比如,分数阈值、属于闲聊的主问题等。最后,可以得到询问语句对应的目标主问题。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是本公开实施例提供的意图识别装置的示意图。如图5所示,该意图识别装置包括:
语句获取模块501,用于获取询问语句以及询问语句对应的业务类型;
匹配判断模块502,用于判断询问语句是否与业务类型对应的候选主问题匹配;
问题确定模块503,用于若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。
可选的,匹配判断模块502,用于:
判断询问语句与业务类型对应的候选主问题是否满足预设匹配条件;
其中,预设匹配条件包括:询问语句与业务类型对应的候选主问题完全匹配、询问语句与业务类型对应的知识图谱中的一关系路径匹配、询问语句与业务类型对应的候选主问题的至少一个关键词匹配;
相应地,问题确定模块503,用于:
若询问语句与业务类型对应的候选主问题不满足任一预设匹配条件,则确定询问语句与业务类型对应的候选主问题不匹配,以及,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。
可选的,问题确定模块503,用于:
若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与业务类型对应的各个候选主问题之间的相关性程度;
根据询问语句分别与业务类型对应的各个候选主问题之间的相关性程度,获取满足预设召回条件的候选主问题;其中,预设召回条件为候选主问题与询问语句之间的相关性程度大于预设相关性阈值;
确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度。
可选的,问题确定模块503,用于:
若询问语句的字符长度大于第一预设阈值,针对每一满足预设召回条件的候选主问题,根据候选主问题对应的向量以及询问语句对应的向量,确定候选主问题与询问语句的匹配程度;
若询问语句的字符长度小于或等于第一预设阈值,针对每一满足预设召回条件的候选主问题,根据候选主问题与询问语句之间的相关性程度,确定候选主问题与询问语句的匹配程度。
可选的,问题确定模块503,用于:
若询问语句的字符长度大于第一预设阈值,针对每一满足预设召回条件的候选主问题,确定候选主问题对应的向量以及询问语句对应的向量;确定候选主问题对应的向量与询问语句对应的向量的距离,以及,将距离作为候选主问题与询问语句的匹配程度。
可选的,问题确定模块503,用于:
若询问语句的字符长度小于或等于第一预设阈值,针对每一满足预设召回条件的候选主问题,确定候选主问题与询问语句之间的相关性程度;对相关性程度进行归一化处理,得到候选主问题与询问语句的匹配程度。
可选的,问题确定模块503,用于:
根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定满足预设筛选条件的候选主问题;其中,预设筛选条件为候选主问题与询问语句的匹配程度大于第二预设阈值;
将满足预设筛选条件的候选主问题作为询问语句对应的目标主问题。
可选的,预设筛选条件还包括候选主问题的内容不为非业务类型内容。
可选的,装置还包括调整模块,用于:
若满足预设召回条件的候选主问题的内容符合业务类型的调整条件,根据业务类型的调整规则对候选主问题与询问语句的匹配程度进行调整,得到调整后的匹配程度。
可选的,调整模块还用于:
若询问语句中存在符合预设字符规则的字符,对询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句。
可选的,问题确定模块还用于:
若询问语句与业务类型对应的若干候选主问题匹配,将若干候选主问题作为询问语句对应的目标主问题。
可选的,装置还包括变更模块,用于:
若检测到业务类型对应的候选主问题发生变更,则根据发生变更的候选主问题对业务类型对应的候选主问题集合进行变更。
本公开实施例与现有技术相比存在的有益效果是:本公开实施例一种意图识别装置,装置包括:语句获取模块,用于获取询问语句以及询问语句对应的业务类型;匹配判断模块,用于判断询问语句是否与业务类型对应的候选主问题匹配;问题确定模块,用于若询问语句与业务类型对应的候选主问题不匹配,确定询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题。这样,本申请在询问语句与业务类型对应的候选主问题均不匹配的情况下(比如,询问语句的字符较少,难以匹配主问题,或者,没有直接匹配的候选主问题),可以通过根据询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定询问语句对应的目标主问题,这样,使得询问语句的意图识别方式较为灵活,可以精准匹配到询问语句对应的主问题,也不需要和现有技术一样,对存储的主问题的数据要求高,即本实施例所提供的方法不需要要求每一个主问题都有足够多的相似问题,且要求不同主问题之间差别大;可见,本实施例所提供的方法可以提高询问语句的意图识别结果的准确性、全面性和高效性,进而提高了用户体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图6是本公开实施例提供的计算机设备6的示意图。如图6所示,该实施例的计算机设备6包括:处理器601、存储器602以及存储在该存储器602中并且可以在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者,处理器601执行计算机程序603时实现上述各装置实施例中各模块/模块的功能。
示例性地,计算机程序603可以被分割成一个或多个模块/模块,一个或多个模块/模块被存储在存储器602中,并由处理器601执行,以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序603在计算机设备6中的执行过程。
计算机设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解,图6仅仅是计算机设备6的示例,并不构成对计算机设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器601可以是中央处理模块(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器602可以是计算机设备6的内部存储模块,例如,计算机设备6的硬盘或内存。存储器602也可以是计算机设备6的外部存储设备,例如,计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器602还可以既包括计算机设备6的内部存储模块也包括外部存储设备。存储器602用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器602还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块、模块完成,即将装置的内部结构划分成不同的功能模块或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,各功能模块、模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或模块的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (7)

1.一种意图识别方法,其特征在于,所述方法包括:
获取询问语句以及所述询问语句对应的业务类型;
判断所述询问语句是否与所述业务类型对应的候选主问题匹配,每个所述业务类型关联至少一个知识库,每个知识库包括至少一组查询数据,每个知识库对应的知识领域均不相同,所述查询数据包括所述主问题和所述主问题的回答,每个所述主问题有至少一个关键词;
若所述询问语句与所述业务类型对应的候选主问题不匹配,确定所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定所述询问语句对应的目标主问题;
所述判断所述询问语句是否与所述业务类型对应的候选主问题匹配,包括:
判断所述询问语句与所述业务类型对应的候选主问题是否满足预设匹配条件;其中,所述预设匹配条件包括:所述询问语句与所述业务类型对应的候选主问题完全匹配、所述询问语句与所述业务类型对应的知识图谱中的一关系路径匹配、所述询问语句与所述业务类型对应的候选主问题的至少一个关键词匹配,且所述预设匹配条件的判断顺序为先判断所述询问语句与所述业务类型对应的候选主问题是否完全匹配,若否,则接着判断所述询问语句与所述业务类型对应的知识图谱中的一关系路径是否匹配,若否,则再判断所述询问语句与所述业务类型对应的候选主问题的至少一个关键词匹配;
相应地,所述若所述询问语句与所述业务类型对应的候选主问题不匹配,确定所述询问语句分别与各个候选主问题的匹配程度,包括:
若所述询问语句与所述业务类型对应的候选主问题不满足任一预设匹配条件,则确定所述询问语句与所述业务类型对应的候选主问题不匹配,以及,
利用BM25算法计算所述询问语句分别与所述业务类型对应的各个候选主问题之间的相关性程度;
根据所述询问语句分别与所述业务类型对应的各个候选主问题之间的相关性程度,获取满足预设召回条件的候选主问题;其中,所述预设召回条件为候选主问题与所述询问语句之间的相关性程度大于预设相关性阈值;
若所述询问语句的字符长度大于第一预设阈值,针对每一满足预设召回条件的候选主问题,确定所述候选主问题对应的向量以及所述询问语句对应的向量;确定所述候选主问题对应的向量与所述询问语句对应的向量的距离,以及,将所述距离作为所述候选主问题与所述询问语句的匹配程度;
若所述询问语句的字符长度小于或等于所述第一预设阈值,针对每一满足预设召回条件的候选主问题,利用BM25算法确定所述候选主问题与所述询问语句之间的相关性程度;对所述相关性程度进行归一化处理,得到所述候选主问题与所述询问语句的匹配程度;
在所述根据所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定所述询问语句对应的目标主问题的步骤之前,所述方法还包括:若满足预设召回条件的候选主问题的内容符合所述业务类型的调整条件,根据所述业务类型的调整规则对所述候选主问题与所述询问语句的匹配程度进行调整,得到调整后的匹配程度;
在所述获取询问语句以及所述询问语句对应的业务类型的步骤之后,所述方法还包括:若所述询问语句中存在符合预设字符规则的字符,对所述询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句;
所述方法还包括:若检测到业务类型对应的候选主问题发生变更,则根据发生变更的候选主问题对所述业务类型对应的候选主问题集合进行变更。
2.根据权利要求1所述的方法,其特征在于,所述根据所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定所述询问语句对应的目标主问题,包括:
根据所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定满足预设筛选条件的候选主问题;其中,所述预设筛选条件为候选主问题与所述询问语句的匹配程度大于第二预设阈值;
将所述满足预设筛选条件的候选主问题作为所述询问语句对应的目标主问题。
3.根据权利要求2所述的方法,其特征在于,所述预设筛选条件还包括所述候选主问题的内容不为非业务类型内容。
4.根据权利要求1-3任一所述的方法,其特征在于,在所述判断所述询问语句是否与所述业务类型对应的候选主问题匹配的步骤之后,所述方法还包括:
若所述询问语句与所述业务类型对应的至少一个候选主问题匹配,将所述至少一个候选主问题作为所述询问语句对应的目标主问题。
5.一种意图识别装置,其特征在于,所述装置包括:
语句获取模块,用于获取询问语句以及所述询问语句对应的业务类型;
匹配判断模块,用于判断所述询问语句是否与所述业务类型对应的候选主问题匹配,每个所述业务类型关联至少一个知识库,每个知识库包括至少一组查询数据,每个知识库对应的知识领域均不相同,所述查询数据包括所述主问题和所述主问题的回答,每个所述主问题有至少一个关键词;
问题确定模块,用于若所述询问语句与所述业务类型对应的所述候选主问题不匹配,确定所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度;以及,根据所述询问语句分别与各个满足预设召回条件的候选主问题的匹配程度,确定所述询问语句对应的目标主问题;
所述匹配判断模块具体用于:判断所述询问语句与所述业务类型对应的候选主问题是否满足预设匹配条件;其中,所述预设匹配条件包括:所述询问语句与所述业务类型对应的候选主问题完全匹配、所述询问语句与所述业务类型对应的知识图谱中的一关系路径匹配、所述询问语句与所述业务类型对应的候选主问题的至少一个关键词匹配,且所述预设匹配条件的判断顺序为先判断所述询问语句与所述业务类型对应的候选主问题是否完全匹配,若否,则接着判断所述询问语句与所述业务类型对应的知识图谱中的一关系路径是否匹配,若否,则再判断所述询问语句与所述业务类型对应的候选主问题的至少一个关键词匹配;
相应地,所述问题确定模块具体用于:若所述询问语句与所述业务类型对应的候选主问题不满足任一预设匹配条件,则确定所述询问语句与所述业务类型对应的候选主问题不匹配,以及,
利用BM25算法计算所述询问语句分别与所述业务类型对应的各个候选主问题之间的相关性程度;
根据所述询问语句分别与所述业务类型对应的各个候选主问题之间的相关性程度,获取满足预设召回条件的候选主问题;其中,所述预设召回条件为候选主问题与所述询问语句之间的相关性程度大于预设相关性阈值;
若所述询问语句的字符长度大于第一预设阈值,针对每一满足预设召回条件的候选主问题,确定所述候选主问题对应的向量以及所述询问语句对应的向量;确定所述候选主问题对应的向量与所述询问语句对应的向量的距离,以及,将所述距离作为所述候选主问题与所述询问语句的匹配程度;
若所述询问语句的字符长度小于或等于所述第一预设阈值,针对每一满足预设召回条件的候选主问题,利用BM25算法确定所述候选主问题与所述询问语句之间的相关性程度;对所述相关性程度进行归一化处理,得到所述候选主问题与所述询问语句的匹配程度;
所述装置还包括:
调整模块,用于:若满足预设召回条件的候选主问题的内容符合所述业务类型的调整条件,根据所述业务类型的调整规则对所述候选主问题与所述询问语句的匹配程度进行调整,得到调整后的匹配程度;若所述询问语句中存在符合预设字符规则的字符,对所述询问语句中符合预设字符规则的字符进行调整,得到调整后的询问语句;
变更模块,用于:若检测到业务类型对应的候选主问题发生变更,则根据发生变更的候选主问题对所述业务类型对应的候选主问题集合进行变更。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
CN202111287516.5A 2021-11-02 2021-11-02 一种意图识别方法及装置 Active CN113722465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111287516.5A CN113722465B (zh) 2021-11-02 2021-11-02 一种意图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111287516.5A CN113722465B (zh) 2021-11-02 2021-11-02 一种意图识别方法及装置

Publications (2)

Publication Number Publication Date
CN113722465A CN113722465A (zh) 2021-11-30
CN113722465B true CN113722465B (zh) 2022-01-21

Family

ID=78686376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111287516.5A Active CN113722465B (zh) 2021-11-02 2021-11-02 一种意图识别方法及装置

Country Status (1)

Country Link
CN (1) CN113722465B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977421A (zh) * 2019-04-15 2019-07-05 南京邮电大学 一种程序设计类课程课后答疑系统的知识库建立方法
CN110019728A (zh) * 2017-12-25 2019-07-16 上海智臻智能网络科技股份有限公司 自动交互方法及存储介质、终端
CN110674272A (zh) * 2019-09-05 2020-01-10 科大讯飞股份有限公司 一种问题答案确定方法及相关装置
CN111428010A (zh) * 2019-01-10 2020-07-17 北京京东尚科信息技术有限公司 人机智能问答的方法和装置
CN111797214A (zh) * 2020-06-24 2020-10-20 深圳壹账通智能科技有限公司 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112749266A (zh) * 2021-01-19 2021-05-04 海尔数字科技(青岛)有限公司 一种工业问答方法、装置、系统、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106664B2 (en) * 2018-05-03 2021-08-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for generating a contextually and conversationally correct response to a query

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019728A (zh) * 2017-12-25 2019-07-16 上海智臻智能网络科技股份有限公司 自动交互方法及存储介质、终端
CN111428010A (zh) * 2019-01-10 2020-07-17 北京京东尚科信息技术有限公司 人机智能问答的方法和装置
CN109977421A (zh) * 2019-04-15 2019-07-05 南京邮电大学 一种程序设计类课程课后答疑系统的知识库建立方法
CN110674272A (zh) * 2019-09-05 2020-01-10 科大讯飞股份有限公司 一种问题答案确定方法及相关装置
CN111797214A (zh) * 2020-06-24 2020-10-20 深圳壹账通智能科技有限公司 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112749266A (zh) * 2021-01-19 2021-05-04 海尔数字科技(青岛)有限公司 一种工业问答方法、装置、系统、设备及存储介质

Also Published As

Publication number Publication date
CN113722465A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
WO2020253350A1 (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN110727779A (zh) 基于多模型融合的问答方法及系统
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
WO2021051517A1 (zh) 基于卷积神经网络的信息检索方法、及其相关设备
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN104813275A (zh) 用于预测文本的方法和系统
WO2020233131A1 (zh) 问答处理方法、装置、计算机设备和存储介质
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
US11625630B2 (en) Identifying intent in dialog data through variant assessment
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111460811A (zh) 众包任务的答案验证方法、装置、计算机设备及存储介质
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: 5305, floor 5, building 6, No. 8, Beiyuan street, Chaoyang District, Beijing 100020

Patentee after: Beijing Longzhi Digital Technology Service Co.,Ltd.

Address before: 101100-090, floor 1, building 1, No. 2, Jufu North Road, Jufuyuan national industry development base, Tongzhou District, Beijing

Patentee before: Beijing zhuojianzhihan Technology Co.,Ltd.

Patentee before: Shanghai zhuohan Technology Co.,Ltd.

TR01 Transfer of patent right