CN111783439B - 人机交互对话处理方法、装置、计算机设备及存储介质 - Google Patents

人机交互对话处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111783439B
CN111783439B CN202010601485.5A CN202010601485A CN111783439B CN 111783439 B CN111783439 B CN 111783439B CN 202010601485 A CN202010601485 A CN 202010601485A CN 111783439 B CN111783439 B CN 111783439B
Authority
CN
China
Prior art keywords
field
intention
dialog
effective
intents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010601485.5A
Other languages
English (en)
Other versions
CN111783439A (zh
Inventor
伍叶飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202010601485.5A priority Critical patent/CN111783439B/zh
Publication of CN111783439A publication Critical patent/CN111783439A/zh
Application granted granted Critical
Publication of CN111783439B publication Critical patent/CN111783439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Abstract

本发明涉及人工智能技术领域,提供一种人机交互对话处理方法、装置、计算机设备及存储介质,包括:接收用户的本轮对话语音;识别所述本轮对话语音得到本轮对话文本;调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;计算所述多个意图识别结果中有效意图的个数;根据所述有效意图的个数进行下一轮对话处理。本发明既能进行封闭式的业务回答又能回答用户提出的开放式问题,使得人机对话更加顺畅。此外,本发明还涉及区块链技术,可以从区块链获取多个领域意图识别模型。

Description

人机交互对话处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及人机交互技术领域,具体涉及一种人机交互对话处理方法、装置、计算机设备及存储介质。
背景技术
近些年来,随着人工智能技术的迅猛发展,人机交互领域有了巨大的进步。而人机对话系统是人机交互中十分重要的一个子领域,在虚拟个人助手应用中扮演着非常重要的角色。
现有大部分的多轮会话交互系统多是开放式的对话系统,但针对需要核实用户信息的场景则又涉及到一些封闭式的业务话题,用户的回答往往既包含封闭式的业务回答又包含用户自己提出的开放式问题。用户的回答有可能有多个意图,现有的对话系统往往只能忽略用户的提问继续业务流程或者回答用户的提问问题,后面有机会再继续业务流程,中间可能会出现中断,从而导致对客户不友好或影响客户的体验和满意度。
发明内容
鉴于以上内容,有必要提出一种人机交互对话处理方法、装置、计算机设备及存储介质,旨在于解决人机对话出现中断的技术问题。
本发明的第一方面提供一种人机交互对话处理方法,所述方法包括:
接收用户的本轮对话语音;
识别所述本轮对话语音得到本轮对话文本;
调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
计算所述多个意图识别结果中有效意图的个数;
根据所述有效意图的个数进行下一轮对话处理。
可选的,每个所述领域意图识别模型的训练过程包括:
获取所述领域的多个历史对话文本以及标注每个历史对话文本的意图类型;
将每个历史对话文本及对应的意图类型组合为文本训练数据对;
利用skip-gram模型训练多个所述文本训练数据对,得到低维度的字向量;
通过卷积、池化操作将所述字向量转换成特征向量;
使用Hard Tanh函数对所述特征向量进行预设次数的特征抽取,得到最终特征;
利用梯度下降算法对所述最终特征进行迭代训练得到所述领域的领域意图识别模型。
可选的,所述计算所述多个意图识别结果中有效意图的个数包括:
获取每一个领域意图识别模型输出的意图识别结果对应的概率值;
获取所述概率值中大于或者等于预设概率阈值的目标概率值;
确定所述目标概率值对应的意图识别结果为有效意图并计算所述有效意图的个数。
可选的,所述根据所述有效意图的个数进行下一轮对话处理包括:
将所述有效意图的个数与0或者1进行比较;
当所述有效意图的个数等于0时,根据无意图策略话术进行下一轮对话处理;
当所述有效意图的个数等于1时,匹配出与所述有效意图对应的意图标签检索知识库,检索所述意图标签检索知识库中的话术,并采用检索到的话术进行下一轮对话处理;
若所述有效意图的个数大于1时,根据多意图策略话术进行下一轮对话处理。
可选的,所述根据多意图策略话术进行下一轮对话处理包括:
获取每个所述有效意图对应的意图标签检索知识库;
检索每个所述意图标签检索知识库中的话术;
按照预设的领域优先级拼接检索到的话术,得到完整的话术;
根据所述完整的话术进行下一轮对话处理。
可选的,所述方法还包括:
获取所述本轮对话文本的上一轮对话文本;
根据所述上一轮对话文本确定历史领域;
根据所述本轮对话文本确定当前领域;
判断所述历史领域是否与所述当前领域一致;
当所述历史领域与所述当前领域一致时,则切换领域状态为所述当前领域。
可选的,所述根据所述本轮对话文本确定当前领域包括:
对所述本轮对话文本进行分词得到多个第一词语;
针对每个第一词语,依次遍历多个领域词库中的第二词语;
当所述第一词语与所述第二词语匹配成功时,将匹配成功的第二词语对应的领域确定为目标领域;
计算每个目标领域的个数;
确定个数最多的目标领域为当前领域。
本发明的第二方面提供一种人机交互对话处理装置,所述装置包括:
接收模块,用于接收用户的本轮对话语音;
识别模块,用于识别所述本轮对话语音得到本轮对话文本;
调用模块,用于调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
计算模块,用于计算所述多个意图识别结果中有效意图的个数;
对话模块,用于根据所述有效意图的个数进行下一轮对话处理。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述人机交互对话处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述人机交互对话处理方法。
综上所述,本发明所述的人机交互对话处理方法、装置、计算机设备及存储介质,通过采用多个意图识别模型来识别本轮对话的有效意图的个数,并根据本轮对话的有效意图的个数进行下一轮对话的处理,实现了既能进行封闭式的业务回答又能回答用户提出的开放式问题,使得人机对话更加顺畅,提高用户的对话体验。
附图说明
图1是本发明实施例一提供的人机交互对话处理方法的流程图。
图2是本发明实施例二提供的人机交互对话处理装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的人机交互对话处理方法的流程图。所述人机交互对话处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,接收用户的本轮对话语音。
计算机设备可以是智能机器人,所述计算机设备中安装有语音助手,能够与用户进行语音对话。用户提问,计算机设备回答,这种一问一答称之为一轮对话。
S12,识别所述本轮对话语音得到本轮对话文本。
计算机设备接收到用户的本轮对话语音后,通过语音识别技术(AutomaticSpeech Recognition,ASR)识别用户的本轮对话语音,并输出本轮对话文本。
S13,调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果。
本实施例中,领域可以包括业务领域和其他领域,所述业务领域即用户的对话是针对业务问题的,其他领域可以根据实际场景划分为以下几种类型:咨询领域、闲聊领域、特殊要求领域、高危敏感领域。咨询领域:针对用户提出的咨询类的问题;闲聊领域:针对用户聊天娱乐类的问题;特殊要求领域:针对用户提出的一些特殊要求的问题,例如要求等待、要求提高或降低说话声音等;高危敏感领域:针对用户辱骂等敏感的问题。
本实施例中,计算机设备中预先训练了多个领域意图识别模型,用以识别对话文本的意图。计算机设备可以开启多个子线程,每个子线程调用一个领域意图识别模型识别对话文本得到一个意图识别结果。通过并行的方式调用多个领域意图识别模型识别对话文本能够提高意图识别的效率,快速的进行下一轮对话。
在一个可选的实施例中,所述领域意图识别模型的训练过程包括:获取所述领域的多个历史对话文本以及标注每个历史对话文本的意图类型;将每个历史对话文本及对应的意图类型组合为文本训练数据对;利用skip-gram模型训练多个所述文本训练数据对,得到低维度的字向量;通过卷积、池化操作将所述字向量转换成特征向量;使用Hard Tanh函数对所述特征向量进行预设次数的特征抽取,得到最终特征;利用梯度下降算法对所述最终特征进行迭代训练得到所述领域的领域意图识别模型。
在该可选的实施例中,针对每一个领域,获取该领域相关的多个历史对话文本,及标注每个历史对话文本的意图类型,基于多个历史对话文本及每个历史对话文本的意图类型训练该领域的领域意图识别模型。
S14,计算所述多个意图识别结果中有效意图的个数。
在一个可选的实施例中,所述计算所述多个意图识别结果中有效意图的个数包括:获取每一个领域意图识别模型输出的意图识别结果对应的概率值;获取所述概率值中大于或者等于预设概率阈值的目标概率值;确定所述目标概率值对应的意图识别结果为有效意图并计算所述有效意图的个数。
在该可选的实施例中,当某一个领域意图识别模型输出的概率值大于或者等于所述预设概率阈值时,表明该领域意图识别模型能够有效的识别出所述对话文本,因而输出的概率值较高,输出的意图识别结果为有效意图。当某一个领域意图识别模型输出的概率值小于所述预设概率阈值时,表明该领域意图识别模型无法有效的识别出所述对话文本,因而输出的概率值较低,输出的意图识别结果为无效意图。
S15,根据所述有效意图的个数进行下一轮对话处理。
通过采用多个意图识别模型来识别本轮对话的有效意图的个数,并根据本轮对话的有效意图的个数进行下一轮对话的处理,实现了既能进行封闭式的业务回答又能回答用户提出的开放式问题,使得人机对话更加顺畅,提高用户的对话体验。
在一个可选的实施例中,所述根据所述有效意图的个数进行下一轮对话处理包括:将所述有效意图的个数与0或者1进行比较;当所述有效意图的个数等于0时,根据无意图策略话术进行下一轮对话处理;当所述有效意图的个数等于1时,匹配出与所述有效意图对应的意图标签检索知识库,检索所述意图标签检索知识库中的话术,并采用检索到的话术进行下一轮对话处理;若所述有效意图的个数大于1时,根据多意图策略话术进行下一轮对话处理。
在该可选的实施例中,有效意图的个数为0,表明当前的对话为无效回答,则返回无意图策略话术,例如,对不起,您的回答为无效回答。当无效回答的次数没有超过3次时,可以继续对话;当无效回答的次数超过3次时,转人工或挂断处理。
在一个可选的实施例中,所述根据多意图策略话术进行下一轮对话处理包括:获取每个所述有效意图对应的意图标签检索知识库;检索每个所述意图标签检索知识库中的话术;按照预设的领域优先级拼接检索到的话术,得到完整的话术;根据所述完整的话术进行下一轮对话处理。
例如,预先设置业务领域的优先级最高、咨询领域的优先级次之、闲聊领域的优先级次于咨询领域、特殊要求领域的优先级较低、高危敏感领域的优先级最低。
事先构建意图标签检索知识库可以更好的组织知识,更快速准备与当前对话对应的答案。当确定用户的意图后,从意图标签检索知识库中查询答案。所述意图标签检索知识库可以解决业务领域相关程度高的问题。例如,解决用户在贷款领域相关程度高的问题。假设用户询问关于贷款利率问题时,识别出该用户的意图后,查询贷款领域意图标签检索知识库得到该问题的答案。
在一个可选的实施例中,所述方法还包括:更新意图标签检索知识库。
所述意图标签检索知识库的答案可以由客服人员进行维护。
当某用户的问题属于贷款咨询类,但贷款咨询类对应的意图识别的概率值较低时,客服人员可以确定该问题为新问题,并在贷款领域意图标签检索知识库中增加该问题的答案,从而使得系统的语义理解越来越精确。
在一个可选的实施例中,所述方法还包括:获取所述本轮对话文本的上一轮对话文本;根据所述上一轮对话文本确定历史领域;根据所述本轮对话文本确定当前领域;判断所述历史领域是否与所述当前领域一致;当所述历史领域与所述当前领域一致时,则切换领域状态为所述当前领域。
在该可选的实施例中,根据用户的上一轮对话确定所属的历史领域,根据用户的当前对话确定当前领域,并根据历史领域和当前领域决定是否切换领域状态,便于在下一轮对话时,能够精确且快速的给出答案;且根据上下文之间的关联性,下一轮对话的领域与当前对话的领域更贴近。
在一个可选的实施例中,所述根据所述本轮对话文本确定当前领域包括:对所述本轮对话文本进行分词得到多个第一词语;针对每个第一词语,依次遍历多个领域词库中的第二词语;当所述第一词语与所述第二词语匹配成功时,将匹配成功的第二词语对应的领域确定为目标领域;计算每个目标领域的个数;确定个数最多的目标领域为当前领域。
在该可选的实施例中,针对业务领域、咨询领域、闲聊领域、特殊要求领域及高危敏感领域分别设置有领域词库,每一个领域词库中记录有相关的词语。通过多意图选择及优先级处理原则(冲突处理原则),可以根据业务配置,灵活地挑选有效意图,并在意图冲突时有效解决并拼接话术,既不会忽略用户的提问,也不会中断业务流程,能有效的且完整的将对话进行下去,提升用户体验和满意度。
需要强调的是,为进一步保证上述多个领域意图识别模型的私密和安全性,上述多个领域意图识别模型还可以同时存储于一区块链的节点中,或者存储于不同的区块链的节点中。
实施例二
图2是本发明实施例二提供的人机交互对话处理装置的结构图。
在一些实施例中,所述人机交互对话处理装置20可以包括多个由计算机程序段所组成的功能模块。所述人机交互对话处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)人机交互对话处理的功能。
本实施例中,所述人机交互对话处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、识别模块202、调用模块203、训练模块204、计算模块205、对话模块206、更新模块207及切换模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述接收模块201,用于接收用户的本轮对话语音。
计算机设备可以是智能机器人,所述计算机设备中安装有语音助手,能够与用户进行语音对话。用户提问,计算机设备回答,这种一问一答称之为一轮对话。
所述识别模块202,用于识别所述本轮对话语音得到本轮对话文本。
计算机设备接收到用户的本轮对话语音后,通过语音识别技术(AutomaticSpeech Recognition,ASR)识别用户的本轮对话语音,并输出本轮对话文本。
所述调用模块203,用于调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果。
本实施例中,领域可以包括业务领域和其他领域,所述业务领域即用户的对话是针对业务问题的,其他领域可以根据实际场景划分为以下几种类型:咨询领域、闲聊领域、特殊要求领域、高危敏感领域。咨询领域:针对用户提出的咨询类的问题;闲聊领域:针对用户聊天娱乐类的问题;特殊要求领域:针对用户提出的一些特殊要求的问题,例如要求等待、要求提高或降低说话声音等;高危敏感领域:针对用户辱骂等敏感的问题。
本实施例中,计算机设备中预先训练了多个领域意图识别模型,用以识别对话文本的意图。计算机设备可以开启多个子线程,每个子线程调用一个领域意图识别模型识别对话文本得到一个意图识别结果。通过并行的方式调用多个领域意图识别模型识别对话文本能够提高意图识别的效率,快速的进行下一轮对话。
所述训练模块204,用于训练领域意图识别模型。
在一个可选的实施例中,所述训练模块204训练领域意图识别模型的过程包括:获取所述领域的多个历史对话文本以及标注每个历史对话文本的意图类型;将每个历史对话文本及对应的意图类型组合为文本训练数据对;利用skip-gram模型训练多个所述文本训练数据对,得到低维度的字向量;通过卷积、池化操作将所述字向量转换成特征向量;使用Hard Tanh函数对所述特征向量进行预设次数的特征抽取,得到最终特征;利用梯度下降算法对所述最终特征进行迭代训练得到所述领域的领域意图识别模型。
在该可选的实施例中,针对每一个领域,获取该领域相关的多个历史对话文本,及标注每个历史对话文本的意图类型,基于多个历史对话文本及每个历史对话文本的意图类型训练该领域的领域意图识别模型。
所述计算模块205,用于计算所述多个意图识别结果中有效意图的个数。
在一个可选的实施例中,所述计算模块205计算所述多个意图识别结果中有效意图的个数包括:获取每一个领域意图识别模型输出的意图识别结果对应的概率值;获取所述概率值中大于或者等于预设概率阈值的目标概率值;确定所述目标概率值对应的意图识别结果为有效意图并计算所述有效意图的个数。
在该可选的实施例中,当某一个领域意图识别模型输出的概率值大于或者等于所述预设概率阈值时,表明该领域意图识别模型能够有效的识别出所述对话文本,因而输出的概率值较高,输出的意图识别结果为有效意图。当某一个领域意图识别模型输出的概率值小于所述预设概率阈值时,表明该领域意图识别模型无法有效的识别出所述对话文本,因而输出的概率值较低,输出的意图识别结果为无效意图。
所述对话模块206,用于根据所述有效意图的个数进行下一轮对话处理。
通过采用多个意图识别模型来识别本轮对话的有效意图的个数,并根据本轮对话的有效意图的个数进行下一轮对话的处理,实现了既能进行封闭式的业务回答又能回答用户提出的开放式问题,使得人机对话更加顺畅,提高用户的对话体验。
在一个可选的实施例中,所述对话模块206根据所述有效意图的个数进行下一轮对话处理包括:将所述有效意图的个数与0或者1进行比较;当所述有效意图的个数等于0时,根据无意图策略话术进行下一轮对话处理;当所述有效意图的个数等于1时,匹配出与所述有效意图对应的意图标签检索知识库,检索所述意图标签检索知识库中的话术,并采用检索到的话术进行下一轮对话处理;若所述有效意图的个数大于1时,根据多意图策略话术进行下一轮对话处理。
在该可选的实施例中,有效意图的个数为0,表明当前的对话为无效回答,则返回无意图策略话术,例如,对不起,您的回答为无效回答。当无效回答的次数没有超过3次时,可以继续对话;当无效回答的次数超过3次时,转人工或挂断处理。
在一个可选的实施例中,所述根据多意图策略话术进行下一轮对话处理包括:获取每个所述有效意图对应的意图标签检索知识库;检索每个所述意图标签检索知识库中的话术;按照预设的领域优先级拼接检索到的话术,得到完整的话术;根据所述完整的话术进行下一轮对话处理。
例如,预先设置业务领域的优先级最高、咨询领域的优先级次之、闲聊领域的优先级次于咨询领域、特殊要求领域的优先级较低、高危敏感领域的优先级最低。
事先构建意图标签检索知识库可以更好的组织知识,更快速准备与当前对话对应的答案。当确定用户的意图后,从意图标签检索知识库中查询答案。所述意图标签检索知识库可以解决业务领域相关程度高的问题。例如,解决用户在贷款领域相关程度高的问题。假设用户询问关于贷款利率问题时,识别出该用户的意图后,查询贷款领域意图标签检索知识库得到该问题的答案。
所述更新模块207,用于更新所述意图标签检索知识库。
所述意图标签检索知识库的答案可以由客服人员进行维护。
当某用户的问题属于贷款咨询类,但贷款咨询类对应的意图识别的概率值较低时,客服人员可以确定该问题为新问题,并在贷款领域意图标签检索知识库中增加该问题的答案,从而使得系统的语义理解越来越精确。
所述切换模块208,用于获取所述本轮对话文本的上一轮对话文本;根据所述上一轮对话文本确定历史领域;根据所述本轮对话文本确定当前领域;判断所述历史领域是否与所述当前领域一致;当所述历史领域与所述当前领域一致时,则切换领域状态为所述当前领域。
在该可选的实施例中,根据用户的上一轮对话确定所属的历史领域,根据用户的当前对话确定当前领域,并根据历史领域和当前领域决定是否切换领域状态,便于在下一轮对话时,能够精确且快速的给出答案;且根据上下文之间的关联性,下一轮对话的领域与当前对话的领域更贴近。
在一个可选的实施例中,所述根据所述本轮对话文本确定当前领域包括:对所述本轮对话文本进行分词得到多个第一词语;针对每个第一词语,依次遍历多个领域词库中的第二词语;当所述第一词语与所述第二词语匹配成功时,将匹配成功的第二词语对应的领域确定为目标领域;计算每个目标领域的个数;确定个数最多的目标领域为当前领域。
在该可选的实施例中,针对业务领域、咨询领域、闲聊领域、特殊要求领域及高危敏感领域分别设置有领域词库,每一个领域词库中记录有相关的词语。通过多意图选择及优先级处理原则(冲突处理原则),可以根据业务配置,灵活地挑选有效意图,并在意图冲突时有效解决并拼接话术,既不会忽略用户的提问,也不会中断业务流程,能有效的且完整的将对话进行下去,提升用户体验和满意度。
需要强调的是,为进一步保证上述多个领域意图识别模型的私密和安全性,上述多个领域意图识别模型还可以同时存储于一区块链的节点中,或者存储于不同的区块链的节点中。
本实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述人机交互对话处理方法实施例中的步骤,例如图1所示的S11-S15:
S11,接收用户的本轮对话语音;
S12,识别所述本轮对话语音得到本轮对话文本;
S13,调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
S14,计算所述多个意图识别结果中有效意图的个数;
S15,根据所述有效意图的个数进行下一轮对话处理。
或者,所述计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-208:
所述接收模块201,用于接收用户的本轮对话语音;
所述识别模块202,用于识别所述本轮对话语音得到本轮对话文本;
所述调用模块203,用于调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
所述训练模块204,用于训练领域意图识别模型;
所述计算模块205,用于计算所述多个意图识别结果中有效意图的个数;
所述对话模块206,用于根据所述有效意图的个数进行下一轮对话处理;
所述更新模块207,用于更新所述意图标签检索知识库;
所述切换模块208,用于获取所述本轮对话文本的上一轮对话文本;根据所述上一轮对话文本确定历史领域;根据所述本轮对话文本确定当前领域;判断所述历史领域是否与所述当前领域一致;当所述历史领域与所述当前领域一致时,则切换领域状态为所述当前领域。
实施例三
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,且所述至少一个处理器32可调用所述存储器31中存储的计算机程序以执行相关的功能。例如,上述实施例中所述的各个模块是存储在所述存储器31中的计算机程序,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的人机交互对话处理方法的全部或者部分步骤。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (9)

1.一种人机交互对话处理方法,其特征在于,所述方法包括:
接收用户的本轮对话语音;
识别所述本轮对话语音得到本轮对话文本;
采用并行调用的方式,调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
计算所述多个意图识别结果中有效意图的个数;
根据所述有效意图的个数进行下一轮对话处理,包括:将所述有效意图的个数与1进行比较;
当所述有效意图的个数等于1时,匹配出与所述有效意图对应的意图标签检索知识库,检索所述意图标签检索知识库中的话术,并采用检索到的话术进行下一轮对话处理;
若所述有效意图的个数大于1时,获取每个所述有效意图对应的意图标签检索知识库,检索每个所述意图标签检索知识库中的话术,按照预设的领域优先级拼接检索到的话术,得到完整的话术,以及根据所述完整的话术进行下一轮对话处理。
2.如权利要求1所述的人机交互对话处理方法,其特征在于,每个所述领域意图识别模型的训练过程包括:
获取所述领域的多个历史对话文本以及标注每个历史对话文本的意图类型;
将每个历史对话文本及对应的意图类型组合为文本训练数据对;
利用skip-gram模型训练多个所述文本训练数据对,得到低维度的字向量;
通过卷积、池化操作将所述字向量转换成特征向量;
使用Hard Tanh函数对所述特征向量进行预设次数的特征抽取,得到最终特征;
利用梯度下降算法对所述最终特征进行迭代训练得到所述领域的领域意图识别模型。
3.如权利要求1所述的人机交互对话处理方法,其特征在于,所述计算所述多个意图识别结果中有效意图的个数包括:
获取每一个领域意图识别模型输出的意图识别结果对应的概率值;
获取所述概率值中大于或者等于预设概率阈值的目标概率值;
确定所述目标概率值对应的意图识别结果为有效意图并计算所述有效意图的个数。
4.如权利要求1所述的人机交互对话处理方法,其特征在于,所述根据所述有效意图的个数进行下一轮对话处理还包括:
将所述有效意图的个数与0进行比较;
当所述有效意图的个数等于0时,根据无意图策略话术进行下一轮对话处理。
5.如权利要求4所述的人机交互对话处理方法,其特征在于,所述方法还包括:
获取所述本轮对话文本的上一轮对话文本;
根据所述上一轮对话文本确定历史领域;
根据所述本轮对话文本确定当前领域;
判断所述历史领域是否与所述当前领域一致;
当所述历史领域与所述当前领域一致时,则切换领域状态为所述当前领域。
6.如权利要求5所述的人机交互对话处理方法,其特征在于,所述根据所述本轮对话文本确定当前领域包括:
对所述本轮对话文本进行分词得到多个第一词语;
针对每个第一词语,依次遍历多个领域词库中的第二词语;
当所述第一词语与所述第二词语匹配成功时,将匹配成功的第二词语对应的领域确定为目标领域;
计算每个目标领域的个数;
确定个数最多的目标领域为当前领域。
7.一种人机交互对话处理装置,其特征在于,所述装置包括:
接收模块,用于接收用户的本轮对话语音;
识别模块,用于识别所述本轮对话语音得到本轮对话文本;
调用模块,用于采用并行调用的方式,调用多个领域意图识别模型识别所述本轮对话文本得到多个意图识别结果;
计算模块,用于计算所述多个意图识别结果中有效意图的个数;
对话模块,用于根据所述有效意图的个数进行下一轮对话处理,包括:将所述有效意图的个数与1进行比较;
当所述有效意图的个数等于1时,匹配出与所述有效意图对应的意图标签检索知识库,检索所述意图标签检索知识库中的话术,并采用检索到的话术进行下一轮对话处理;
若所述有效意图的个数大于1时,获取每个所述有效意图对应的意图标签检索知识库,检索每个所述意图标签检索知识库中的话术,按照预设的领域优先级拼接检索到的话术,得到完整的话术,以及根据所述完整的话术进行下一轮对话处理。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述人机交互对话处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述人机交互对话处理方法。
CN202010601485.5A 2020-06-28 2020-06-28 人机交互对话处理方法、装置、计算机设备及存储介质 Active CN111783439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601485.5A CN111783439B (zh) 2020-06-28 2020-06-28 人机交互对话处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601485.5A CN111783439B (zh) 2020-06-28 2020-06-28 人机交互对话处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111783439A CN111783439A (zh) 2020-10-16
CN111783439B true CN111783439B (zh) 2022-10-04

Family

ID=72760789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601485.5A Active CN111783439B (zh) 2020-06-28 2020-06-28 人机交互对话处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111783439B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463939A (zh) * 2020-11-12 2021-03-09 深圳市欢太科技有限公司 人机对话方法、系统、服务设备及计算机存储介质
CN112529585A (zh) * 2020-12-09 2021-03-19 支付宝(杭州)信息技术有限公司 风险交易的交互唤醒方法、装置、设备及系统
CN112685546B (zh) * 2020-12-29 2023-10-31 王福山 人机多轮对话方法、装置及计算机可读存储介质
CN113763947B (zh) * 2021-01-15 2024-04-05 北京沃东天骏信息技术有限公司 一种语音意图识别方法、装置、电子设备及存储介质
CN113254615A (zh) * 2021-05-31 2021-08-13 中国移动通信集团陕西有限公司 文本处理方法、装置、设备及介质
CN113282755A (zh) * 2021-06-11 2021-08-20 上海寻梦信息技术有限公司 对话型文本分类方法、系统、设备及存储介质
CN113435196B (zh) * 2021-06-22 2022-07-29 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113626568A (zh) * 2021-07-30 2021-11-09 平安普惠企业管理有限公司 机器人的人机对话控制方法、装置、计算机设备及介质
CN116453522B (zh) * 2023-06-19 2023-08-29 北京中关村科金技术有限公司 语音识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN110334201A (zh) * 2019-07-18 2019-10-15 中国工商银行股份有限公司 一种意图识别方法、装置及系统
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN112492111A (zh) * 2020-11-25 2021-03-12 苏宁金融科技(南京)有限公司 一种智能语音外呼方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN110334201A (zh) * 2019-07-18 2019-10-15 中国工商银行股份有限公司 一种意图识别方法、装置及系统
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN112492111A (zh) * 2020-11-25 2021-03-12 苏宁金融科技(南京)有限公司 一种智能语音外呼方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111783439A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783439B (zh) 人机交互对话处理方法、装置、计算机设备及存储介质
CA3085315C (en) Systems and methods for chatbot generation
Sarikaya et al. An overview of end-to-end language understanding and dialog management for personal digital assistants
US10395641B2 (en) Modifying a language conversation model
JP2020140210A (ja) 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
CN109933647A (zh) 确定描述信息的方法、装置、电子设备和计算机存储介质
US11153109B2 (en) Intelligent teleconference operations in an internet of things (IoT) computing environment
CN112417128B (zh) 话术推荐方法、装置、计算机设备及存储介质
WO2020073533A1 (zh) 自动问答方法及装置
CN114007131A (zh) 视频监控方法、装置及相关设备
CN111695354A (zh) 基于命名实体的文本问答方法、装置及可读存储介质
CN113435582B (zh) 基于句向量预训练模型的文本处理方法及相关设备
US20200302316A1 (en) Question answering system influenced by user behavior and text metadata generation
JP7436077B2 (ja) スキルの音声ウェイクアップ方法および装置
CN113435998B (zh) 贷款逾期预测方法、装置、电子设备及存储介质
CN113409823B (zh) 语音情绪识别方法、装置、电子设备及存储介质
CN108780444A (zh) 可扩展设备和依赖于域的自然语言理解
US20200349226A1 (en) Dictionary Expansion Using Neural Language Models
CN106202288A (zh) 一种人机交互系统知识库的优化方法及系统
CN113486166B (zh) 智能客服机器人的构建方法、装置、设备以及存储介质
CN115658858A (zh) 基于人工智能的对话推荐方法及相关设备
WO2023040545A1 (zh) 一种数据处理方法、装置、设备、存储介质和程序产品
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN115617975A (zh) 针对少样本多轮对话的意图识别方法及装置
US20220327356A1 (en) Transformer-Based Model Knowledge Graph Link Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant