CN115860012A - 用户意图识别方法、装置、电子设备及介质 - Google Patents

用户意图识别方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115860012A
CN115860012A CN202210579899.1A CN202210579899A CN115860012A CN 115860012 A CN115860012 A CN 115860012A CN 202210579899 A CN202210579899 A CN 202210579899A CN 115860012 A CN115860012 A CN 115860012A
Authority
CN
China
Prior art keywords
matched
user intention
sentence
templates
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210579899.1A
Other languages
English (en)
Other versions
CN115860012B (zh
Inventor
李可新
曲本盛
杜斌
钟磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN202210579899.1A priority Critical patent/CN115860012B/zh
Publication of CN115860012A publication Critical patent/CN115860012A/zh
Application granted granted Critical
Publication of CN115860012B publication Critical patent/CN115860012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户意图识别方法、装置、电子设备及介质。其中方法包括:确定待匹配语句;基于针对目标业务场景的规则引擎对待匹配语句进行验证;并在待匹配语句通过验证的情形下,在针对目标业务场景的多个用户意图模板中通过文本检索筛选出若干候选用户意图模板;从而确定若干候选用户意图模板分别与待匹配语句的语义相似度;依据语义相似度最高的候选用户意图模板,确定目标意图。本申请在信息量、文本、语义角度进行建模,有效提升无监督意图识别的精准率的目的;同时,由于无需标注就使能达到对用户语句进行快速准确的基于匹配思想的意图识别的目的,解决了有监督模型训练过程中存在的标注人力成本和模型训练的成本高的问题。

Description

用户意图识别方法、装置、电子设备及介质
技术领域
本申请涉及文本意图识别技术领域,具体而言,本申请涉及一种用户意图识别方法、装置、电子设备及介质。
背景技术
对话系统主要是通过人工智能技术,用机器代替人工,与用户进行沟通,主要可以应用在很多对客服有需求的场景中,降低人力成本,提高效能。用户意图识别是对话系统的主要任务之一。相关的用户意图识别主要包括有监督方式和无监督方式。其中,主要的有监督方式是通过文本分类任务,通过对对话数据的意图标注,建立训练任务,达到预测用户问句意图的目的;或者基于一定数量的不同意图的问句模板,通过对问题与模板是否相似的标注,建立二分类训练任务,达到判断用户问句与问句模板是否匹配的目的,从而根据问句模板的意图,定义用户问句意图。这两种有监督方式的优点在于通过人工标注的方式,相较于无监督,准确性较高,缺点在于,有监督的方式需要大量的人工标记,对于意图分布不均的数据,标记量会更大。无监督方式通过计算问句与问句模板的统计特征相似度,控制阈值,对问句进行匹配,对于不能达到阈值的用户问句可以认为没有既定意图,对于超过阈值的用户问句,选择与模板内问句相似度最高的模板作为匹配结果,将该匹配到的问句模板所属意图作为用户意图,这种方式相较于有监督来说,优点在于不需要数据标注,可以节省标注所需的时间成本和人力成本,而缺点在于需要人为定义阈值,且准确率较低。
发明内容
本申请提供了一种用户意图识别方法、装置、电子设备及计算机可读存储介质,可以解决上述至少一种问题。所述技术方案如下:
第一方面,提供了一种用户意图识别方法,该方法包括:
确定待匹配语句;
基于针对目标业务场景的规则引擎对待匹配语句进行验证;
若待匹配语句通过验证,则确定针对目标业务场景的多个用户意图模板;
在多个用户意图模板中对待匹配语句进行文本检索,得到若干候选用户意图模板;
将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度;
依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图。
第二方面,提供了一种用户意图识别装置,该装置包括:
待匹配语句确定模块,用于确定待匹配语句;
待匹配语句验证模块,用于基于针对目标业务场景的规则引擎对待匹配语句进行验证;
场景意图模板确定模块,用于若待匹配语句通过验证,则确定针对目标业务场景的多个用户意图模板;
候选意图模板筛选模块,用于在多个用户意图模板中对待匹配语句进行文本检索,得到若干候选用户意图模板;
意图模板语义匹配模块,用于将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度;
待匹配语句意图确定模块,用于依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述用户意图识别方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用户意图识别方法。
本申请实施例通过确定待匹配语句,以基于针对目标业务场景的规则引擎对待匹配语句进行验证,并在待匹配语句通过验证的情形下,确定针对目标业务场景的多个用户意图模板,从而在多个用户意图模板中通过文本检索筛选出若干候选用户意图模板,将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度,进而依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图,这种利用针对目标业务场景的规则引擎对待匹配语句进行验证,并通过文本检索和语义匹配的方式,起到了通过融合业务场景的规则、文本特征和语义特征,达到在信息量、文本、语义角度进行建模,有效提升无监督意图识别的精准率的目的;同时,由于无需标注就使能达到对用户语句进行快速准确的基于匹配思想的意图识别的目的,解决了有监督模型训练过程中存在的标注人力成本和模型训练的成本高的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种用户意图识别方法的流程示意图;
图2为本申请实施例提供的一种用户意图识别方法一个实施例的流程示意图;
图3为本申请实施例提供的一种用户意图识别方法一个实施例中规则引擎进行规则判断的流程示意图;
图4为本申请实施例提供的一种用户意图识别方法一个实施例中文本信息检索的流程示意图;
图5为本申请实施例提供的一种用户意图识别方法一个实施例中语义匹配的流程示意图;以及
图6为本申请实施例提供的一种用户意图识别装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种用户意图识别方法,如图1所示,该方法包括:步骤S101至步骤S106。
步骤S101、确定待匹配语句。
具体地,待匹配语句可以是用户针对客户端发起的问询语句的回复,也可以是用户主动发起的问询语句。应用时,客户端可以通过麦克风来采集用户发起的语音数据,并将该语句数据作为待匹配语句,也可以通过预设接口获取用户输入的文本,并将该文本作为待匹配语句。
步骤S102、基于针对目标业务场景的规则引擎对待匹配语句进行验证。
具体地,规则引擎利用目标业务场景的文件对待匹配语句进行验证,若待匹配语句与该文件匹配,表明该待匹配语句与回复目标业务场景的问询语句相关,确定通过验证;否则表明该待匹配语句与回复目标业务场景的问询语句无关,未通过验证。应用时,该文件可以包括目标业务场景的全部关键信息。
步骤S103、若待匹配语句通过验证,则确定针对目标业务场景的多个用户意图模板。
具体地,可以依据预设的业务场景标识来确定相应的用户意图模板。
本申请实施例中,用户意图模板用于表征属于回复目标业务场景的问询语句的表达方式。
具体地,不同业务场景对应不同的用户意图模板。
步骤S104、在多个用户意图模板中对所述待匹配语句进行文本检索,得到若干候选用户意图模板。
具体地,可以通过预设的文本检索算法提取用户意图模板和待匹配语句的文本特征,从而根据文本特征来计算待匹配语句与各个用户意图模板的相关性,并将相关性高的用户意图模板,作为候选用户意图模板,这种通过文本特征计算相关性的方式,实现了在多个用户意图模板中完成对待匹配语句的文本检索的目的,起到了对多个用户意图模板的快速筛选效果。
步骤S105、将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度。
具体地,可以通过预设的语义算法(如内积法、余弦法)对待匹配语句和各个候选用户意图模板进行相似度计算。
步骤S106、依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图。
具体地,可以通过预设的用户意图模板与用户意图标识间的映射关系,来确定语义相似度最高的候选用户意图模板所属的用户意图标识。其中,用户意图标识可以通过文本进行表示。
本申请实施例通过确定待匹配语句,以基于针对目标业务场景的规则引擎对待匹配语句进行验证,并在待匹配语句通过验证的情形下,确定针对目标业务场景的多个用户意图模板,从而在多个用户意图模板中通过文本检索筛选出若干候选用户意图模板,将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度,进而依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图,这种利用针对目标业务场景的规则引擎对待匹配语句进行验证,并通过文本检索和语义匹配的方式,起到了通过融合业务场景的规则、文本特征和语义特征,达到在信息量、文本、语义角度进行建模,有效提升无监督意图识别的精准率的目的;同时,由于无需标注就使能达到对用户语句进行快速准确的基于匹配思想的意图识别的目的,解决了有监督模型训练过程中存在的标注人力成本和模型训练的成本高的问题。
在一些实施例中,步骤S102在基于针对目标业务场景的规则引擎对所述待匹配语句进行验证之前,进一步包括:
步骤S1021(图中未示出)、基于多个用户意图模板分别对应的若干关键信息,确定关键信息集;
步骤S1022(图中未示出)、依据关键信息集,确定针对目标业务场景的规则引擎的规则判断条件。
具体地,不同用户意图模板对应不同的关键字、关键词、关键短语等关键信息。
具体地,规则判断条件可以设置未是否包括关键信息集中至少一个关键信息。
本申请通过统计不同用户意图模板的关键信息,来建立针对目标业务场景的关键信息集,从而使规则引擎利用关键信息集对待匹配语句进行匹配,起到对待匹配语句的初步筛查,以剔除不含关键字/词/短语的语句,使该语句符合目标业务场景的要求,用以保障后续搜索和语义相似度在应用时的准确率。
在一些实施例中,步骤S102基于针对目标业务场景的规则引擎对所述待匹配语句进行验证的步骤,包括:
据所述规则引擎判断待匹配语句是否满足规则判断条件,以依据判断结果确定待匹配语句是否通过验证。
具体地,待匹配语句包括关键信息集中任一关键信息,则确定待匹配语句通过验证;若待匹配语句未包括关键信息集中任一关键信息,则确定待匹配语句未通过验证。
在一些实施例中,步骤S104在多个用户意图模板中,确定针对待匹配语句的若干候选用户意图模板进一步包括:
步骤S1041(图中未示出)、对若干用户意图模板分别与待匹配语句进行布尔计算,得到若干用户意图模板分别与待匹配语句的第一相关性参数;
步骤S1042(图中未示出)、对若干用户意图模板分别与待匹配语句进行BM25计算,得到若干用户意图模板分别与待匹配语句的第二相关性参数;
步骤S1043(图中未示出)、依据若干用户意图模板分别与待匹配语句的第一相关性参数以及若干用户意图模板分别与待匹配语句的第二相关性参数,确定针对待匹配语句的若干候选用户意图模板。
具体地,可以按照预设的第一数值在针对布尔计算的计算结果中筛选出第一相关性参数最高的一部分候选用户意图模板,按照预设的第二数值在针对BM25计算的计算结果中筛出第二相关性参数最高的另一部分候选用户意图模板。更具体地,该第一数值和第二数值可以相同,也可以不同。
在一些实施例中,步骤S1043依据若干用户意图模板分别与待匹配语句的第一相似度以及若干用户意图模板分别与待匹配语句的第二相似度,确定针对待匹配语句的若干候选用户意图模板进一步包括:
基于若干用户意图模板分别与待匹配语句的第一相关性参数进行降序排序;
基于若干用户意图模板分别与待匹配语句的第二相关性参数进行降序排序;
将第一相关性参数的降序排序中排名前第一预定数量的用户意图模板,以及第二相关性参数的降序排序中排名前第二预定数量的用户意图模板,作为针对待匹配语句的若干候选用户意图模板。
具体地,可以通过预设的排序算法来对依据第一相关性参数对若干用户意图模板或依据第二相关性参数对若干用户意图模板进行排序。
在一些实施例中,步骤S105将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度进一步包括:
确定待匹配语句的第一向量,以及若干候选用户意图模板分别对应的第二向量;
对第一向量和若干候选用户意图模板分别对应的第二向量进行向量相似度计算,得到若干候选用户意图模板分别与待匹配语句的语义相似度。
本申请实施例中,语义相似度主要考虑用户语句与问题模板表达意思的相似程度,而不只是文本特征上的相似,通过将待比较的两个文本(即用户意图模板和待匹配语句)进行向量表示,计算两个向量的相似度(如余弦相似度),从预设置合适的阈值进行比较,对于超过阈值的所有成功匹配模板,保留相似度最高的模板,作为待匹配语句的最终匹配结果。
在一些实施例中,步骤S101确定待匹配语句进一步包括:
基于目标业务场景下针对目标用户的问询语句,获取目标用户对问询语句的回复语句,并将回复语句确定为待匹配语句。
具体地,可以在对话客服通过客户端发送针对目标用户的问询语句,检测目标用户反馈的回复语句,并将其作为待匹配语句。
为了进一步说明本申请实施例提供的方法,下面以会话客户端的催收业务场景为例为了进行说明。
在客服通过会话客户端向用户发送催收语句后,获取该用户对该催收语句反馈的待匹配语句(即回复语句)。参照图2,会话客户端接收到待匹配语句后执行的步骤包括:规则引擎进行规则判断、文本信息检索、语义匹配、匹配成功并根据匹配成功的模板确定语句意图。其中,规则引擎进行规则判断的目的是对待匹配语句进行过滤,过滤与催收业务场景的回复无关的语句,通过这种规则判断来确定是否执行规则引擎进行规则判断的后续流程。语义匹配指的是将待匹配语句与候选用户意图目标进行语义相似度计算来完成匹配目的,匹配成功则确定待匹配语句的语句意图为模板意图。
规则引擎对待匹配语句的处理参照图3。规则引擎接收到待匹配语句后,利用催收业务场景下所有意图模板类别的全部关键字、关键词、关键短语判断待匹配语句是否包含关键文本,是则确定待匹配语句通过规则验证,执行图2中文本信息检索的步骤和语义匹配的步骤。规则引擎对待匹配语句进行规则判断之前,首先对所有待匹配的意图归纳关键信息,得到包括关键词、关键字、关键短语等,通过规则判断Q是否满足匹配的基本条件(即判断待匹配语句是否包含关键文本),为后续的匹配流程提供了业务逻辑的把控,从而提高了无监督模型的精准率,该步骤通过规则引擎,将满足条件的Q送入后续匹配流程。
文本信息检索的步骤可以参照图4。该步骤将满足图2条件(即通过规则检测)的待匹配语句Q与所有模板语句(即催收业务场景下的全部用户意图模板),并行进行布尔检索和BM25检索,分别检索出最相关的k条模板,将两种算法检索出的各k条模板进行合并,形成待匹配模板m条,分别为M1,M2,……,Mm。通过这种粗筛方式,有效地将模板量进行缩减,起到了在保障文本相似性高、可匹配模板数量充足的同时,为后续的语义匹配的计算节省了大量的时间成本。其中,布尔检索是对待匹配语句和待匹配模板进行布尔匹配,并对布尔匹配结果进行判断,若属于检索排序前k名则确定为待匹配模板k个;对待匹配语句和待匹配模板进行BM25计算,并对计算结果进行相关性排名前k名判断,是则将相关性排名前k名作为待匹配模板k个;最后将检索排序前k名和相关性排名前k名,合并作为待匹配模板m个,即得到粗筛后的待匹配模板。BM25算法为信息检索领域内用来计算语句与文档相似度得分的算法,计算公式为:
Figure BDA0003661929290000071
其中,Q表示一条语句,qi表示语句中的词,d表示某个搜索文档,即匹配模板中的某个用户意图模板,R表示qi的得分,Wi表示词语权重,其公式为:/>
Figure BDA0003661929290000081
其中N表示匹配模板中的用户意图模板数量,dfi为包含了qi的用户意图模板数量,因此,对于语句中的某个词,包含该词的用户意图模板数量越多,IDF越小,即该词重要性低。由于BM25算法的评价标准认为语句中的每个词都具有相同程度的特殊地位,而文本匹配中,这样的标准过于严格。这是因为语句中的内容往往会包含一些辅助信息,而辅助性、解释性信息并非语句关键词,而是对于语句的语义支持。检索场景下的输入主要为精简的、核心的、特异性强的词或短语,而匹配场景下,输入均为表达型的完整语句,其特点是:表达思想特异,但表达方式可以多样。例如:“关键是我没有发工资呢呀”,如果问题模板中有一类的模板举例为:好几天没有发工资了,该类代表工资问题;另有一个类模板,生病类,其中一个模板为:关键是我这几天生病了。针对上述例子,语句应该和工资问题匹配,但由于BM25对于语句中的每个词都认为是特异性的,因此会强化“关键”这个词的重要性,导致该语句和生病类模板也有较高的相似性,容易发生匹配错误问题。因此,在基于模板的文本匹配场景下,本申请实施例中,剔除了BM25的权重项,只保留对相似程度的计算,从而增大对语句中特异且不重要词汇的容错程度,提升匹配的精准性,为后续语义相似计算的精排环节提供高质量的候选池,本申请实施例采用的是改进后的BM25相似计算公式如下:
Figure BDA0003661929290000082
语义匹配的步骤参照图5。获取待匹配语句和通过图4提供的文本信息检索得到的粗筛后的待匹配模板,将语句(即待匹配模板)和模板(即粗筛后的待匹配模板)进行句子向量表示,得到语句向量和每个模板各自的模板向量,计算语句向量和每个模板向量的相似度,并判断是否满足相似度阈值,根据判断结果得到满足阈值的所有模板后,对满足阈值的所有模板进行相似度分值最高的判断,得到相似度最高模板后,匹配结束,到此语义匹配完成。
本申请的又一实施例提供了一种用户意图识别装置,如图6所示,该装置60包括:待匹配语句确定模块601、待匹配语句验证模块602、场景意图模板确定模块603、候选意图模板筛选模块604、意图模板语义匹配模块605以及待匹配语句意图确定模块606。
待匹配语句确定模块601,用于确定待匹配语句;
待匹配语句验证模块602,用于基于针对目标业务场景的规则引擎对待匹配语句进行验证;
场景意图模板确定模块603,用于若待匹配语句通过验证,则确定针对目标业务场景的多个用户意图模板;
候选意图模板筛选模块604,用于在多个用户意图模板中,确定针对待匹配语句的若干候选用户意图模板;
意图模板语义匹配模块605,用于将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度;
待匹配语句意图确定模块606,用于依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图。
本申请实施例通过确定待匹配语句,以基于针对目标业务场景的规则引擎对待匹配语句进行验证,并在待匹配语句通过验证的情形下,确定针对目标业务场景的多个用户意图模板,从而在多个用户意图模板中通过文本检索筛选出若干候选用户意图模板,将待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与待匹配语句的语义相似度,进而依据语义相似度最高的候选用户意图模板,确定待匹配语句的目标意图,这种利用针对目标业务场景的规则引擎对待匹配语句进行验证,并通过文本检索和语义匹配的方式,起到了通过融合业务场景的规则、文本特征和语义特征,达到在信息量、文本、语义角度进行建模,有效提升无监督意图识别的精准率的目的;同时,由于无需标注就使能达到对用户语句进行快速准确的基于匹配思想的意图识别的目的,解决了有监督模型训练过程中存在的标注人力成本和模型训练的成本高的问题。
进一步地,待匹配语句验证模块在基于针对目标业务场景的规则引擎对所述待匹配语句进行验证之前,还包括:
关键信息集确定子模块,用于基于多个用户意图模板分别对应的若干关键信息,确定关键信息集;
规则条件确定子模块,用于依据所述关键信息集,确定针对目标业务场景的规则引擎的规则判断条件。
进一步地,待匹配语句验证模块包括:
语句验证子模块,用于依据所述规则引擎判断所述待匹配语句是否满足规则判断条件,,以依据判断结果确定所述待匹配语句是否通过验证。
进一步地,候选意图模板筛选模块包括:
第一检索子模块,用于对若干用户意图模板分别与所述待匹配语句进行布尔计算,得到若干用户意图模板分别与所述待匹配语句的第一相关性参数;
第二检索子模块,用于对若干用户意图模板分别与所述待匹配语句进行BM25计算,得到若干用户意图模板分别与所述待匹配语句的第二相关性参数;
检索结果筛选子模块,用于依据若干用户意图模板分别与所述待匹配语句的第一相关性参数以及若干用户意图模板分别与所述待匹配语句的第二相关性参数,确定针对所述待匹配语句的若干候选用户意图模板。
进一步地,检索结果筛选子模块包括:
第一排序单元,用于基于若干用户意图模板分别与所述待匹配语句的第一相关性参数进行降序排序;
第二排序单元,用于基于若干用户意图模板分别与所述待匹配语句的第二相关性参数进行降序排序;
粗筛模板确定单元,用于将第一相关性参数的降序排序中排名前第一预定数量的用户意图模板,以及第二相关性参数的降序排序中排名前第二预定数量的用户意图模板,作为针对所述待匹配语句的若干候选用户意图模板。
进一步地,意图模板语义匹配模块包括:
语句及模板向量表示子模块,用于确定所述待匹配语句的第一向量,以及若干候选用户意图模板分别对应的第二向量;
向量相似度计算子模块,用于对所述第一向量和若干候选用户意图模板分别对应的第二向量进行向量相似度计算,得到若干候选用户意图模板分别与所述待匹配语句的语义相似度。
进一步地,待匹配语句确定模块包括:
回复语句获取子模块,用于基于所述目标业务场景下针对目标用户的问询语句,获取所述目标用户对所述问询语句的回复语句,并将所述回复语句确定为所述待匹配语句。
本实施例的用户意图识别装置可执行本申请实施例一所示的用户意图识别方法,其实现原理相类似,此处不再赘述。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述用户意图识别方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现上述实施例提供的用户意图识别装置的动作。
本申请又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述用户意图识别方法。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种用户意图识别方法,其特征在于,包括:
确定待匹配语句;
基于针对目标业务场景的规则引擎对所述待匹配语句进行验证;
若所述待匹配语句通过验证,则确定针对所述目标业务场景的多个用户意图模板;
在多个用户意图模板中对所述待匹配语句进行文本检索,得到若干候选用户意图模板;
将所述待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与所述待匹配语句的语义相似度;
依据语义相似度最高的候选用户意图模板,确定所述待匹配语句的目标意图。
2.根据权利要求1所述的方法,其特征在于,所述基于针对目标业务场景的规则引擎对所述待匹配语句进行验证的步骤之前,所述方法还包括:
基于多个用户意图模板分别对应的若干关键信息,确定关键信息集;
依据所述关键信息集,确定针对所述目标业务场景的规则引擎的规则判断条件。
3.根据权利要求2所述的方法,其特征在于,所述基于针对目标业务场景的规则引擎对所述待匹配语句进行验证的步骤,包括:
依据所述规则引擎判断所述待匹配语句是否满足所述规则判断条件,以依据判断结果确定所述待匹配语句是否通过验证。
4.根据权利要求1所述的方法,其特征在于,所述在多个用户意图模板中对所述待匹配语句进行文本检索,得到若干候选用户意图模板的步骤,包括:
对若干用户意图模板分别与所述待匹配语句进行布尔计算,得到若干用户意图模板分别与所述待匹配语句的第一相关性参数;
对若干用户意图模板分别与所述待匹配语句进行BM25计算,得到若干用户意图模板分别与所述待匹配语句的第二相关性参数;
依据若干用户意图模板分别与所述待匹配语句的第一相关性参数以及若干用户意图模板分别与所述待匹配语句的第二相关性参数,确定针对所述待匹配语句的若干候选用户意图模板。
5.根据权利要求4所述的方法,其特征在于,所述依据若干用户意图模板分别与所述待匹配语句的第一相似度以及若干用户意图模板分别与所述待匹配语句的第二相似度,确定针对所述待匹配语句的若干候选用户意图模板的步骤,包括:
基于若干用户意图模板分别与所述待匹配语句的第一相关性参数进行降序排序;
基于若干用户意图模板分别与所述待匹配语句的第二相关性参数进行降序排序;
将第一相关性参数的降序排序中排名前第一预定数量的用户意图模板,以及第二相关性参数的降序排序中排名前第二预定数量的用户意图模板,作为针对所述待匹配语句的若干候选用户意图模板。
6.根据权利要求1所述的方法,其特征在于,所述将所述待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与所述待匹配语句的语义相似度的步骤,包括:
确定所述待匹配语句的第一向量,以及若干候选用户意图模板分别对应的第二向量;
对所述第一向量和若干候选用户意图模板分别对应的第二向量进行向量相似度计算,得到若干候选用户意图模板分别与所述待匹配语句的语义相似度。
7.根据权利要求1所述的方法,其特征在于,所述确定待匹配语句的步骤,包括:
基于所述目标业务场景下针对目标用户的问询语句,获取所述目标用户对所述问询语句的回复语句,并将所述回复语句确定为所述待匹配语句。
8.一种用户意图识别装置,其特征在于,包括:
待匹配语句确定模块,用于确定待匹配语句;
待匹配语句验证模块,用于基于针对目标业务场景的规则引擎对所述待匹配语句进行验证;
场景意图模板确定模块,用于若所述待匹配语句通过验证,则确定针对所述目标业务场景的多个用户意图模板;
候选意图模板筛选模块,用于在多个用户意图模板中,确定针对所述待匹配语句的若干候选用户意图模板;
意图模板语义匹配模块,用于将所述待匹配语句分别与若干候选用户意图模板进行语义匹配,得到若干候选用户意图模板分别与所述待匹配语句的语义相似度;
待匹配语句意图确定模块,用于依据语义相似度最高的候选用户意图模板,确定所述待匹配语句的目标意图。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN202210579899.1A 2022-05-25 2022-05-25 用户意图识别方法、装置、电子设备及介质 Active CN115860012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210579899.1A CN115860012B (zh) 2022-05-25 2022-05-25 用户意图识别方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210579899.1A CN115860012B (zh) 2022-05-25 2022-05-25 用户意图识别方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN115860012A true CN115860012A (zh) 2023-03-28
CN115860012B CN115860012B (zh) 2024-06-11

Family

ID=85660123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210579899.1A Active CN115860012B (zh) 2022-05-25 2022-05-25 用户意图识别方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115860012B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740126A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质
CN112149410A (zh) * 2020-08-10 2020-12-29 招联消费金融有限公司 语义识别方法、装置、计算机设备和存储介质
CN112287085A (zh) * 2020-11-06 2021-01-29 中国平安财产保险股份有限公司 语义匹配方法、系统、设备及存储介质
CN112307164A (zh) * 2020-10-15 2021-02-02 江苏常熟农村商业银行股份有限公司 信息推荐方法、装置、计算机设备和存储介质
CN114357973A (zh) * 2021-12-10 2022-04-15 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质
CN109740126A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN112149410A (zh) * 2020-08-10 2020-12-29 招联消费金融有限公司 语义识别方法、装置、计算机设备和存储介质
CN112307164A (zh) * 2020-10-15 2021-02-02 江苏常熟农村商业银行股份有限公司 信息推荐方法、装置、计算机设备和存储介质
CN112287085A (zh) * 2020-11-06 2021-01-29 中国平安财产保险股份有限公司 语义匹配方法、系统、设备及存储介质
CN114357973A (zh) * 2021-12-10 2022-04-15 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115860012B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN109815991B (zh) 机器学习模型的训练方法、装置、电子设备及存储介质
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN109101574B (zh) 一种数据防泄漏系统的任务审批方法和系统
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN110750626A (zh) 一种基于场景的任务驱动的多轮对话方法及系统
JP6172332B2 (ja) 情報処理方法及び情報処理装置
CN111932076A (zh) 一种规则配置和发布方法、装置及计算设备
CN115860012B (zh) 用户意图识别方法、装置、电子设备及介质
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111382265A (zh) 搜索方法、装置、设备和介质
CN112131415B (zh) 基于深度学习提高数据采集质量的方法和装置
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant