CN115688769A - 一种基于长文本的意图识别方法、装置、设备及存储介质 - Google Patents

一种基于长文本的意图识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115688769A
CN115688769A CN202211436516.1A CN202211436516A CN115688769A CN 115688769 A CN115688769 A CN 115688769A CN 202211436516 A CN202211436516 A CN 202211436516A CN 115688769 A CN115688769 A CN 115688769A
Authority
CN
China
Prior art keywords
intention
text
long text
reply
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211436516.1A
Other languages
English (en)
Inventor
光亮
张琛
潘仰耀
王涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202211436516.1A priority Critical patent/CN115688769A/zh
Publication of CN115688769A publication Critical patent/CN115688769A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于长文本的意图识别方法、装置、设备及存储介质。所述方法包括:获取用户发送的长文本;将所述长文本拆分为至少两个子句;通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;根据多个意图结果确定所述长文本的主业务场景;将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。该方法可以基于预设知识库模型对长文本进行多层次的语义识别,识别出多个意图结果,并基于多个意图结果生成回复文本,解决了现有技术无法对长文本准确的进行多层次意图识别的问题,达到了能够对长文本进行全面准确的意图识别的效果。

Description

一种基于长文本的意图识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种基于长文本的意图识别方法、装置、设备及存储介质。
背景技术
随着互联网的普及和信息全球化,网购已经成为了日常生活中必不可少的事情。跨境电商作为一种新型国际贸易,因低成本,低风险,敏捷性,多元化,也得到了快速的发展。为了给消费者带来更加便利消费咨询和售后服务,客服服务成为跨境电商平台运作的关键。
现有技术中的客服服务通常基于语音交互的方式实现,图1为现有技术提供的一种语音交互方法的流程示意图,如图1所示,通过语音识别将用户的声音转写为文本;通过语义解析模块将文本理解成意图与槽;通过对话管理模块根据意图选择需要执行的对话流程;若该对话流程需要和用户交互,则语言生成模块被触发,用于生成与用户交互的自然语言;通过语言合成模块将自然语言合成为语音播报给用户。
上述语音交互方法是只能适用于实时的短对话场景,即只适用于短文本的单一意图识别,无法适用于长文本的多层次的意图识别。
发明内容
本发明提供一种基于长文本的意图识别方法、装置、设备及存储介质,以实现对长文本进行全面准确的意图识别,进而生成对应的回复文本。
第一方面,本发明实施例提供了一种基于长文本的意图识别方法,其特征在于,包括:
获取用户发送的长文本;
将所述长文本拆分为至少两个子句;
通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
根据多个意图结果确定所述长文本的主业务场景;
将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
进一步的,将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本包括:
将所述主业务场景和各意图结果,以及所述用户的用户画像数据,输入到预设回复模型中,生成回复文本。
进一步的,将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本包括:
将所述主业务场景和各意图结果,以及基于所述长文本确定的用户情感因素,输入到预设回复模型中,生成回复文本。
进一步的,所述预设知识库模型包括至少两个业务场景;每个业务场景对应设置有至少一个场景地图元素;每个场景地图元素对应设置有至少一个标准问;每个标准问对应设置有至少一个扩展问;每个标准问对应设置有至少一个关键元素词汇。
进一步的,所述业务场景包括下述至少一种:退换货、货物催发、问题投诉和商品咨询;场景地图元素包括下述一种:问题描述、期望解决方式、情绪表达和评价。
进一步的,通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果包括:
基于预设知识库模型中业务场景的各扩展问,分别与每个子句进行相似度匹配;
如果相似度匹配结果满足设定要求,则获取匹配的扩展问对应的标准问和场景地图元素;
如果相似度匹配结果不满足设定要求,则基于预设知识库模型中业务场景的各关键要素词汇,分别与子句进行相似度匹配,并获取匹配的关键要素词汇对应的标准问和场景地图元素;
将获取的标准问和场景地图元素,确定为子句的意图结果。
进一步的,所述意图结果包括子句在所述预设知识库模型中匹配的标准问和场景地图元素,以及各自的匹配得分;则根据多个意图结果确定所述长文本的主业务场景包括:
根据各子句匹配的标准问和场景地图元素,以及各自的匹配得分,确定所述长文本对应的主业务场景。
进一步的,所述长文本为所述用户向客服发起的邮件文本。
进一步的,将所述长文本拆分为至少两个子句之前,还包括:
对所述长文本进行版面识别和语种归一处理。
第二方面,本发明实施例还提供了一种基于长文本的意图识别装置,该装置包括:
获取模块,用于获取用户发送的长文本;
拆分模块,用于将所述长文本拆分为至少两个子句;
识别模块,用于通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
确定模块,用于根据多个意图结果确定所述长文本的主业务场景;
生成模块,用于将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于长文本的意图识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于长文本的意图识别方法。
本发明实施例的技术方案,通过获取用户发送的长文本;将所述长文本拆分为至少两个子句;通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;根据多个意图结果确定所述长文本的主业务场景,解决现有技术无法准确的对长文本进行多层次意图识别的问题,实现对长文本进行全面准确的意图识别的效果。
附图说明
图1为现有技术提供的一种语音交互方法的流程示意图;
图2为本发明实施例一提供的一种基于长文本的意图识别方法的流程示意图;
图3为本发明实施例二提供的一种基于长文本的意图识别方法的流程示意图;
图4为本发明实施例三提供的一种基于长文本的意图识别方法的流程示意图;
图5为本发明实施例四提供的一种基于长文本的意图识别方法的示例流程图;
图6为本发明实施例五提供的一种基于长文本的意图识别装置的结构示意图;
图7为本发明实施例六提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图2为本发明实施例一提供的一种基于长文本的意图识别方法的流程示意图,本实施例可适用于机器人客服对用户发送的长文本进行回复的情况,该方法可以由电子设备来执行。如图2所示,该方法具体包括如下步骤:
S110、获取用户发送的长文本。
其中,用户可以通过多种方式发送长文本,例如,用户可以通过邮箱发送长文本的邮件,用户还可以通过聊天软件发送长文本的短信。长文本的内容可以包括对商品的描述以及问题的反馈等内容。
本实施例中,对获取用户发送的长文本的方式不作具体限定,示例性的,可以从系统邮箱获取用户发送的长文本邮件,还可以从聊天软件中获取用户发送的长文本消息。
S120、将所述长文本拆分为至少两个子句。
其中,长文本可以包括原因描述、情绪表达和商品评价等相关场景的内容,部分用户会通过长文本表达多意图办理需求,直接对长文本进行语义解读会丢失部分语境和语义。因此,需要对长文本进行子句拆分。
本实施例中,通过句子拆分可以将长文本拆分为多个子句。每个子句为完整句子。此处对长文本拆分的具体方式不作限制,示例性的,可以基于标点符号对长文本进行拆分,还可以基于滑窗的方法对长文本进行拆分。
需要说明的是,将所述长文本拆分为至少两个子句之前,若长文本为邮件长文本,则可以对邮件长文本进行版面识别和语种归一处理;若长文本为消息长文本,则可以对消息长文本进行语种归一处理。S130、通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果。
本实施例中,预设知识库模型可以为根据专家经验或大数据统计预先设置的业务场景地图,预设知识库模型中可以包括业务场景列表、标准问列表、扩展问列表以及关键要素列表。其中,业务场景列表中可以包括至少两个主场景;场景地图元素列表中包括至少一个场景地图元素;扩展问列表可以包括至少一个扩展问;关键要素列表中可以包括至少一个关键要素。
进一步的,所述预设知识库模型包括至少两个业务场景;每个业务场景对应设置有至少一个场景地图元素;每个场景地图元素对应设置有至少一个标准问;每个标准问对应设置有至少一个扩展问;每个标准问对应设置有至少一个关键元素词汇。
其中,业务场景可以理解为长文本内容的业务场景;场景地图元素可以理解为业务场景下的元素;标准问可以为明确用户意图表达的句子;扩展问可以为标准问的其他表达形式;关键要素可以为槽值,一个标准问可以对应多个槽值。
其中,标准问和扩展问之间可以为1:N的关系,N为大于1的正整数。示例性的,标准问为“货物破损故障”,则对应的扩展问可以包括“收到的东西破了”、“收到的东西损坏”和“收到的东西断了”,对应的关键要素可以包括“破损”、“损坏”以及“断了”等。
在一个实施例中,所述业务场景包括下述至少一种:退换货、货物催发、问题投诉和商品咨询;场景地图元素包括下述一种:问题描述、期望解决方式、情绪表达和评价。
需要说明的是,不同业务场景对应设置的场景地图元素可以不同,例如商品咨询场景对应设置的场景地图元素可以包括产品描述、关注点和问题类别等。
示例性的,表1为预设知识库模型的示例:
Figure BDA0003946961790000081
表1
本实施例中,通过预设知识库模型分别对各子句进行意图识别以得到多个意图结果的过程可以包括以下两种方式:
方式一、在预设知识库模型中,基于可能的业务场景分别与各子句进行意图识别,得到多个意图结果。
其中,可能的业务场景可以为基于各子句预先估计出的长文本可能属于的业务场景,可能的业务场景的个数可以为一个或多个。
方式二、在预设知识库模型中,基于所有业务场景分别与各子句进行意图识别,得到多个意图结果。
S140、根据多个意图结果确定所述长文本的主业务场景。
本实施例中,基于多个意图结果对匹配出的业务场景投票统计,将票数排序第一的业务场景作为长文本的主业务场景。
S150、将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
其中,预设回复模型可以为预先设置的序列化生产模型,预设回复模型可以为seq2seq模型。回复文本可以为机器人客服回复给用户的文本,回复文本可以为邮件正文也可以为消息内容,即可以通过邮件的形式回复给用户,也可以用个消息的形式回复给用户。
本实施例中,可以将确定的主业务场景和各意图结果输入到预设回复模型中,生成回复文本;也可以将确定的主业务场景、各意图结果,以及用户的用户画像数据输入到预设回复模型中,生成回复文本;还可以将确定的主业务场景、各意图结果,以及用户情感因素输入到预设回复模型中,生成回复文本。
本实施例中,可以基于T5模型进行个性化的话术生成,基于文本到文本任务,可以输出对应的回复文本以及每个回复文本对应的置信度。其中,回复文本的个数可以为一个或多个。
本实施例的技术方案,首先获取用户发送的长文本;其次将所述长文本拆分为至少两个子句;然后通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;之后根据多个意图结果确定所述长文本的主业务场景;最后将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。该方法能够基于预设知识库模型对长文本进行多层次的语义识别,并基于识别出的意图结果以及确定的主场景进行话术回复。
可选的,所述长文本为所述用户向客服发起的邮件文本。
其中,长文本为用户向客服发送的邮件长文本。
可选的,将所述长文本拆分为至少两个子句之前,还包括:对所述长文本进行版面识别和语种归一处理。
其中,版面识别可以包括提取邮件的正文、邮件标题、发件人以及订单号等信息。语种归一化处理可以包括语种识别和语言转换。
由于跨境电商平台来自不同国家,邮件可能使用不同的语言,如英语、德语、法语、西班牙语等,在接收到邮件后可以自动进行语种识别,然后进行语言翻译,统一翻译为中文文本形式进行后续处理,可以避免维护多套知识库及对语言专家的依赖。
可选的,上述方法还包括:根据回复文本的置信度确定是否对所述回复文本进行人工审核。
其中,若生成的回复文本的置信度大于预设值,则确定对回复文本不进行人工审核;若生成的回复文本的置信度小于预设值,则确定对回复文本进行人工审核。人工审核包括通过人工对该回复文本进行修改和确认得到最终的回复文本。
本实施例根据回复文本的置信度确定是否进行人工审核,可以有效减少人工审核的次数,节约人力成本。此外,还可以有效解决由于人工审核耗费大量时间导致回复不及时造成用户等待时间较长的问题。
实施例二
图3为本发明实施例二提供的一种基于长文本的意图识别方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。在本实施例中,将通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果,进一步具体化。本实施例尚未详尽的内容请参考实施例一。
如图3所示,本发明实施例二提供的一种基于长文本的意图识别方法的流程示意图,包括如下步骤:
S210、获取用户发送的长文本。
S220、对所述长文本进行版面识别和语种归一处理。
S230、将所述长文本拆分为至少两个子句。
S240、基于预设知识库模型中业务场景的各扩展问,分别与每个子句进行相似度匹配。
本步骤中,可以基于预设知识库模型中的所有业务场景的各扩展问,分别与每个子句进行相似度匹配,即变量预设知识库模型中的所有业务场景的各扩展词,进行相似度匹配。
本步骤中,还可以基于子句预先估计出一个或多个可能的业务场景。示例性的,针对邮件长文本,通过版面识别,识别出邮件的邮件主题和邮件内容;对邮件主题和邮件内容进行要素抽取即通过要素抽取技术提取关键词;根据关键词预先估计出一个或多个可能的业务场景。
其中,相似度匹配可以为进行语义相似度计算。可以理解的是,每个子句都要进行相似度匹配,且每个子句的相似度匹配过程相同,下面以一个子句为例进行说明。
需要说明的是,下文中的S251和S252的执行不分先后顺序,可以选择一个执行。
S251、如果相似度匹配结果满足设定要求,则获取匹配的扩展问对应的标准问和场景地图元素。
其中,相似度匹配结果可以具有多种形式,相似度匹配结果可以包括子句与匹配到的扩展问的匹配得分,还可以包括子句匹配到的扩展问的正确率。若一个子句匹配到多个扩展问,则可以将对应匹配得分最高的扩展问作为匹配的扩展问。
本步骤中,如果一个子句与匹配到的扩展问的匹配得分大于预设阈值,则可以从预设知识库模型中获取匹配的扩展问对应的标准问和场景地图元素。
示例性的,如果子句1的内容为“我已经试着拔出针脚了,但拔不出来。”,子句1与预设知识库模型中的所有业务场景的各扩展问进行匹配后得到匹配的扩展问为“架子坏了,拔不出来”,匹配得分为0.8,预设阈值为0.5,由于0.8>0.5,则可以在预设知识库模型中获取“架子坏了,拔不出来”对应的标准问“货物破损故障”以及对应的场景地图元素“问题描述”;如果子句2的内容为“我非常失望,你能尽快寄一个替代品吗?”,子句2与预设知识库模型中的所有业务场景的各扩展问进行匹配后得到匹配的扩展问为“麻烦尽快寄一个新的”,匹配得分为0.6,由于0.6>0.5,则可以在预设知识库模型中获取“麻烦尽快寄一个新的”对应的标准问“货物催发”以及对应的场景地图元素“期望解决方式”。
S252、如果相似度匹配结果不满足设定要求,则基于预设知识库模型中业务场景的各关键要素词汇,分别与子句进行相似度匹配,并获取匹配的关键要素词汇对应的标准问和场景地图元素。
本步骤中,如果一个子句与匹配到的扩展问的匹配得分小于或等于预设阈值,则可以基于预设知识库模型中业务场景的各关键要素词汇,分别与子句的要素进行相似度匹配,并获取匹配的关键要素词汇对应的标准问和场景地图元素。其中,若进行相似度匹配后匹配出多个关键要素词汇,则可以将匹配得分最高的关键要素词汇作为匹配的关键要素词汇。
示例性的,如果子句3的内容为“或者我可以寄回来并得到全额退款”,子句3与预设知识库模型中的所有业务场景的各扩展问进行匹配后得到匹配的扩展问为“申请全额退款”,匹配得分为0.3,由于0.3<0.5,则可以将子句3的要素“全额退款”分别与预设知识库模型中的各关键要素进行匹配确定匹配的关键要素为“退款”,从预设知识库模型中获取关键要素“退款”对应的标准问为“退款”以及对应的场景地图元素为“期望解决方式”。
S260、将获取的标准问和场景地图元素,确定为子句的意图结果。
示例性的,若获取的标准问为“退款”,获取的场景地图元素为“期望解决方式”,则可以将“期望解决方式为退款”作为子句3的意图结果。
S270、根据多个意图结果确定所述长文本的主业务场景。
本步骤中,可以根据每个子句的意图结果确定出每个子句命中的业务场景,将命中次数最多的业务场景作为长文本的主业务场景。
示例性的,根据子句1匹配的标准问和场景地图元素可以确定出子句1命中的业务场景为:退换货;根据子句2匹配出的标准问和场景地图元素可以确定出子句2命中的业务场景为:货物催发;根据子句3匹配出的标准问和场景地图元素可以确定出子句2命中的业务场景为:退换货;由于3个子句中有2个子句命中的业务场景为“退还货”,则可以将“退换货”作为主业务场景。
在一个实施例中,所述意图结果包括子句在所述预设知识库模型中匹配的标准问和场景地图元素,以及各自的匹配得分,则根据多个意图结果确定所述长文本的主业务场景包括:根据各子句匹配的标准问和场景地图元素,以及各自的匹配得分,确定所述长文本对应的主业务场景。
示例性的,若根据各子句匹配的标准问和场景地图元素确定出多个子句命中的最多的业务场景包括“退换货”和“货物催发”,则可以根据各子句的匹配得分,将匹配得分总分最高的业务场景作为长文本对应的主业务场景。S280、将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
本发明实施例二提供的一种基于长文本的意图识别方法,具体化了生成多个意图结果的过程以及确定主业务场景的过程,该方法可以根据预设知识库模型中的扩展问、标准问、关键要素以及地图场景元素对每个子句进行匹配,可以更加准确全面的确定意图结果和主业务场景。
实施例三
图4为本发明实施例三提供的一种基于长文本的意图识别方法的流程示意图,本实施例三在上述各实施例的基础上进行优化。在本实施例中对将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本,进一步优化。本实施例尚未详尽的内容请参考实施例一和实施例二。
如图4所示,本发明实施例二提供的一种基于长文本的意图识别方法的流程示意图,包括如下步骤:
S310、获取用户发送的长文本。
S320、将所述长文本拆分为至少两个子句。
S330、通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果。
S340、根据多个意图结果确定所述长文本的主业务场景。
以下步骤中的S351和S352不区分执行顺序,可以选择其中一个步骤执行。
S351、将所述主业务场景和各意图结果,以及所述用户的用户画像数据,输入到预设回复模型中,生成回复文本。
其中,用户画像数据可以基于系统已有的用户信息确定,可以根据用户历史是由账号的行为给用户打上标签,例如易怒型标签。
本实施例中,在主业务场景和各意图结果的基础上,再结合用户画像数据可以更加准确的生成回复文本。
例如,用户画像数据表征该用户易怒,经常投诉经常给差评,则生成的回复文本的用语要礼貌客气。
S352、将所述主业务场景和各意图结果,以及基于所述长文本确定的用户情感因素,输入到预设回复模型中,生成回复文本。
其中,用户情感因素可以用于表征用户当前的情绪状态,可以基于情感识别算法从长文本中识别出用户情感因素。
本实施例中,在主业务场景和各意图结果的基础上,再结合用户情感因素可以使得生成的回复文本更加人性化。
示例性的,确定出用户情感因素为愤怒,则回复文本中可以包括安抚词。
进一步的,在后续推送给人审核时,还可以在回复文本上打上情绪标签,以提示工作人员提高关注度和处理优先级。
本发明实施例三提供的一种基于长文本的意图识别方法,具体化了生成回复文本的过程,该方法在主业务场景以及各意图结果的基础上结合用户画像数据或用户情感因素生成回复文本,使得生成的回复文本更加人性化,能够更大程度上迎合用户的喜好,有利于提高用户的满意度。
实施例四
本发明实施例在上述各实施例的技术方案的基础上,提供了一种具体的实施方式。
图5为本发明实施例四提供的一种基于长文本的意图识别方法的示例流程图,如图5所示,该方法可以包括如下流程:
接收多语种邮件即获取用户发送的长文本,对多语种邮件进行语种归一化;对邮件内容进行子句拆分;通过场景地图进行主意图识别即通过预设知识库模型分别对各子句进行意图识别得到多个意图结果,并确定主业务场景为“换货申请”后,将“退换货申请”以及多个意图结果输入子模块;子模块汇总产品问题、退换时间、新产品要求等客观因素、情感因子即用户情感因素以及用户的画像信息即用户画像数据;将汇总的信息发送给对话回复系统即预设回复模型中,输出回复话术以及置信度;通过人工复核得到回复内容。
实施例五
图6为本发明实施例五提供的一种基于长文本的意图识别装置的结构示意图,该装置可适用于机器人客服对用户发送的长文本进行回复的情况,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上。
如图6所示,该装置包括:获取模块110、拆分模块120、识别模块130、确定模块140以及生成模块150。
获取模块110,用于获取用户发送的长文本;
拆分模块120,用于将所述长文本拆分为至少两个子句;
识别模块130,用于通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
确定模块140,用于根据多个意图结果确定所述长文本的主业务场景;
生成模块150,用于将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
在本实施例中,该装置首先通过获取模块110获取用户发送的长文本;其次通过拆分模块120将所述长文本拆分为至少两个子句;然后通过识别模块130用于通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;之后通过确定模块140根据多个意图结果确定所述长文本的主业务场景;最后通过生成模块150将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
进一步的,所述预设知识库模型包括至少两个业务场景;每个业务场景对应设置有至少一个场景地图元素;每个场景地图元素对应设置有至少一个标准问;每个标准问对应设置有至少一个扩展问;每个标准问对应设置有至少一个关键元素词汇。
在上述优化的基础上,所述业务场景包括下述至少一种:退换货、货物催发、问题投诉和商品咨询;场景地图元素包括下述一种:问题描述、期望解决方式、情绪表达和评价。
技术上述优化内容,识别模块130包括第一匹配子模块、获取子模块、第二匹配子模块以及确定子模块;
第一匹配子模块,用于基于预设知识库模型中业务场景的各扩展问,分别与每个子句进行相似度匹配;
获取子模块,用于如果相似度匹配结果满足设定要求,则获取匹配的扩展问对应的标准问和场景地图元素;
第二匹配子模块,用于如果相似度匹配结果不满足设定要求,则基于预设知识库模型中业务场景的各关键要素词汇,分别与子句进行相似度匹配,并获取匹配的关键要素词汇对应的标准问和场景地图元素;
确定子模块,用于将获取的标准问和场景地图元素,确定为子句的意图结果。
进一步的,所述意图结果包括子句在所述预设知识库模型中匹配的标准问和场景地图元素,以及各自的匹配得分,则确定模块140具体用于:根据各子句匹配的标准问和场景地图元素,以及各自的匹配得分,确定所述长文本对应的主业务场景。
进一步的,生成模块150包括第一生成子模块和第二生成子模块;
第一生成子模块用于:将所述主业务场景和各意图结果,以及所述用户的用户画像数据,输入到预设回复模型中,生成回复文本。
第二生成子模块用于:将所述主业务场景和各意图结果,以及基于所述长文本确定的用户情感因素,输入到预设回复模型中,生成回复文本。
进一步的,所述装置还包括处理模块,用于:在将所述长文本拆分为至少两个子句之前,对所述长文本进行版面识别和语种归一处理。
本发明实施例所提供的于长文本的意图识别装置可执行本发明任意实施例所提供的于长文本的意图识别方法,具备执行方法相应的功能模块和有益效果。
实施例六
图7为本发明实施例六提供的一种电子设备的结构示意图,如图6所示,该电子设备包括处理器70、存储器71、输入装置72和输出装置73;电子设备中处理器70的数量可以是一个或多个,图6中以一个处理器70为例;电子设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于长文本的意图识别方法对应的程序指令/模块(例如,基于长文本的意图识别装置中的信息获取模块110、拆分模块120、识别模块130、确定模块140和生成模块150)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的基于长文本的意图识别方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于长文本的意图识别方法,该方法包括:
获取用户发送的长文本;
将所述长文本拆分为至少两个子句;
通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
根据多个意图结果确定所述长文本的主业务场景;
将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于长文本的意图识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种基于长文本的意图识别方法,其特征在于,包括:
获取用户发送的长文本;
将所述长文本拆分为至少两个子句;
通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
根据多个意图结果确定所述长文本的主业务场景;
将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
2.根据权利要求1所述的方法,其特征在于,将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本包括:
将所述主业务场景和各意图结果,以及所述用户的用户画像数据,输入到预设回复模型中,生成回复文本。
3.根据权利要求1或2所述的方法,其特征在于,将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本包括:
将所述主业务场景和各意图结果,以及基于所述长文本确定的用户情感因素,输入到预设回复模型中,生成回复文本。
4.根据权利要求1所述的方法,其特征在于,所述预设知识库模型包括至少两个业务场景;每个业务场景对应设置有至少一个场景地图元素;每个场景地图元素对应设置有至少一个标准问;每个标准问对应设置有至少一个扩展问;每个标准问对应设置有至少一个关键元素词汇。
5.根据权利要求4所述的方法,其特征在于:
所述业务场景包括下述至少一种:退换货、货物催发、问题投诉和商品咨询;
场景地图元素包括下述一种:问题描述、期望解决方式、情绪表达和评价。
6.根据权利要求4所述的方法,其特征在于,通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果包括:
基于预设知识库模型中业务场景的各扩展问,分别与每个子句进行相似度匹配;
如果相似度匹配结果满足设定要求,则获取匹配的扩展问对应的标准问和场景地图元素;
如果相似度匹配结果不满足设定要求,则基于预设知识库模型中业务场景的各关键要素词汇,分别与子句进行相似度匹配,并获取匹配的关键要素词汇对应的标准问和场景地图元素;
将获取的标准问和场景地图元素,确定为子句的意图结果。
7.根据权利要求4所述的方法,其特征在于,所述意图结果包括子句在所述预设知识库模型中匹配的标准问和场景地图元素,以及各自的匹配得分;则根据多个意图结果确定所述长文本的主业务场景包括:
根据各子句匹配的标准问和场景地图元素,以及各自的匹配得分,确定所述长文本对应的主业务场景。
8.根据权利要求1所述的方法,其特征在于,所述长文本为所述用户向客服发起的邮件文本。
9.根据权利要求8所述的方法,其特征在于,将所述长文本拆分为至少两个子句之前,还包括:
对所述长文本进行版面识别和语种归一处理。
10.一种基于长文本的意图识别装置,其特征在于,包括:
获取模块,用于获取用户发送的长文本;
拆分模块,用于将所述长文本拆分为至少两个子句;
识别模块,用于通过预设知识库模型,分别对各子句进行意图识别,以得到多个意图结果;
确定模块,用于根据多个意图结果确定所述长文本的主业务场景;
生成模块,用于将所述主业务场景和各意图结果输入到预设回复模型中,生成回复文本。
11.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的基于长文本的意图识别方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的基于长文本的意图识别方法。
CN202211436516.1A 2022-11-16 2022-11-16 一种基于长文本的意图识别方法、装置、设备及存储介质 Pending CN115688769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211436516.1A CN115688769A (zh) 2022-11-16 2022-11-16 一种基于长文本的意图识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211436516.1A CN115688769A (zh) 2022-11-16 2022-11-16 一种基于长文本的意图识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115688769A true CN115688769A (zh) 2023-02-03

Family

ID=85053665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211436516.1A Pending CN115688769A (zh) 2022-11-16 2022-11-16 一种基于长文本的意图识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115688769A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271753A (zh) * 2023-11-20 2023-12-22 深圳市数商时代科技有限公司 智慧物业问答方法及相关产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271753A (zh) * 2023-11-20 2023-12-22 深圳市数商时代科技有限公司 智慧物业问答方法及相关产品
CN117271753B (zh) * 2023-11-20 2024-03-19 深圳市数商时代科技有限公司 智慧物业问答方法及相关产品

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
US11200886B2 (en) System and method for training a virtual agent to identify a user&#39;s intent from a conversation
CN104199810A (zh) 一种基于自然语言交互的智能服务方法及系统
CN108538294B (zh) 一种语音交互方法及装置
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN112818109B (zh) 邮件的智能回复方法、介质、装置和计算设备
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111429157A (zh) 投诉工单的评价处理方法、装置、设备及存储介质
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
CN115688769A (zh) 一种基于长文本的意图识别方法、装置、设备及存储介质
CN115481229A (zh) 一种应答话术推送方法、装置、电子设备及存储介质
CN111368040B (zh) 对话处理方法、模型训练方法及其相关设备
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN110750619A (zh) 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN113886545A (zh) 知识问答方法、装置、计算机可读介质及电子设备
US20210319481A1 (en) System and method for summerization of customer interaction
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN111507114A (zh) 基于反向翻译的口语文本增强方法及系统
CN113015002B (zh) 一种主播视频数据的处理方法和装置
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination