CN117059074A - 一种基于意图识别的语音交互方法、装置及存储介质 - Google Patents
一种基于意图识别的语音交互方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117059074A CN117059074A CN202311287625.6A CN202311287625A CN117059074A CN 117059074 A CN117059074 A CN 117059074A CN 202311287625 A CN202311287625 A CN 202311287625A CN 117059074 A CN117059074 A CN 117059074A
- Authority
- CN
- China
- Prior art keywords
- intention
- text segment
- target
- current
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000003993 interaction Effects 0.000 title claims abstract description 64
- 230000004044 response Effects 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000005352 clarification Methods 0.000 claims description 62
- 230000002159 abnormal effect Effects 0.000 claims description 47
- 238000012790 confirmation Methods 0.000 claims description 22
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 11
- 230000000977 initiatory effect Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000009191 jumping Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于意图识别的语音交互方法、装置及存储介质,方法包括:获取客户端发送的语音会话对应的第一文字片段;根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和目标关联度;如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;将第一文字片段对应的应答结果返回至客户端。以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题,提高用户体验度。
Description
技术领域
本申请涉及语音交互技术领域,尤其是涉及一种基于意图识别的语音交互方法、装置及存储介质。
背景技术
随着现代信息技术和人工智能的发展,人机对话系统逐渐成为人们与计算机进行交互的重要方式,也越来越受到大众的关注。目前,人机对话系统按照功能可以分为任务导向型对话系统、闲聊型对话系统、问答型对话系统。其中,任务导向型对话系统是通过自然语言交互的形式帮助用户完成某个特定的任务;问答型对话系统是基于特定的知识回答用户特定的问题,以帮助用户获取其关注的信息;而闲聊型对话系统是通过模拟人的聊天行为与用户闲聊,提供合理、相关、有趣、个性化的回复。
但是,现阶段的对话系统大多仅能部分地实现上述3种功能,因而现阶段在同一个对话系统中并不能满足用户在同一空间中出现多种不同功能型对话任务的需求,导致对话系统在处理对话时因用户交互对话场景下所表达意图与对话系统功能不相符致使对话系统不能准确识别用户意图,进而无法给予用户准确反馈,存在答非所问、无法应答用户问题等缺陷,降低用户体验度,无法为用户营造沉浸式交互体验氛围。以智能家电为例,若用户向智能音箱发出“播放下一首”或“声音调高一点”等语音指令时,智能音箱可识别该语音指令的意图并执行以完成本次任务导向型对话任务。但是该智能音箱不支持与用户进行情感陪伴的闲聊任务或者特定领域知识问答的对话任务,这就是由于对话系统功能类型限制导致智能音箱不能识别用户意图,因而无法对此作出符合用户期待的应答,随着上述意图识别不准确、答非所问等劣质交互次数的增多用户就不愿意再进行交流了,降低用户粘性。
发明内容
本申请的目的在于提供一种基于意图识别的语音交互方法、装置及存储介质,以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题,提高用户体验度。
第一方面,本申请提供一种基于意图识别的语音交互方法,方法包括:获取客户端发送的语音会话对应的第一文字片段;根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;将第一文字片段对应的应答结果返回至客户端。
进一步地,上述对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度的步骤,包括:按照意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:将第一文字片段输入至当前场景进行意图识别,得到当前意图和当前关联度;判断当前关联度是否超过预设关联阈值;如果是,将当前意图和当前关联度,作为目标意图和对应的目标关联度;如果否,将优先级次高的对话场景重新作为当前场景,继续执行意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过预设关联阈值,将当前意图和当前关联度,确定为目标意图和对应的目标关联度。
进一步地,上述基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果的步骤,包括:将第一文字片段和目标意图,输入至目标对话场景中,通过目标对话场景中的决策器输出多个执行策略分别对应的置信度;根据多个执行策略分别对应的置信度确定当前执行策略;如果当前执行策略为规则执行策略,输出第一文字片段对应的应答结果;规则执行策略为:通过第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略;如果当前执行策略为剧本执行策略,获取第一文字片段对应缺失的必要信息,基于第一文字片段和缺失的必要信息,输出第一文字片段对应的应答结果;剧本执行策略为:通过多轮交互引导用户提供第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。
进一步地,上述根据多个执行策略分别对应的置信度确定当前执行策略的步骤,包括:如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。
进一步地,上述获取第一文字片段对应缺失的必要信息的步骤,包括:根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;预设剧本中包括:目标对话场景对应的所有必要信息;将多个必要信息分别对应的澄清语料,按照多个必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;询问任务节点与澄清语料一一对应;基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息。
进一步地,上述根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料的步骤,包括:获取第一文字片段中的至少一个必要信息;基于至少一个必要信息,对预设剧本包含的所有必要信息进行去重处理,得到第一文字片段中缺失的必要信息。
进一步地,上述基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息的步骤,包括:将询问语音任务流中的每个询问任务节点的初始状态设置为异常节点,将第一异常节点作为当前节点,执行以下询问澄清步骤:根据当前节点对应的当前澄清语料,生成询问语音信息,向客户端发送当前澄清请求;获取客户端根据当前澄清请求返回的语音信息对应的第二文字片段;对第二文字片段,以及当前澄清语料分别进行意图识别;判断二者意图识别结果是否一致;如果是,将当前节点标记为正常节点,并保留当前澄清语料对应的必要信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤,直至遍历完所有异常节点;如果否,根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤。
进一步地,上述根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤的步骤,包括:判断当前节点对应的澄清请求的次数是否超过预设次数阈值,或者当前节点的请求响应时间是否超过预设时间阈值;如果否,继续执行当前节点的询问澄清步骤;如果是,向客户端发起确认请求,确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项;如果接收到对第一选项的确认信息,将第二文字片段作为新的第一文字片段,继续执行根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别的步骤;如果接收到对第二选项的确认信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤。
第二方面,本申请还提供一种基于意图识别的语音交互装置,装置包括用于执行第一方面任一项所述的一种基于意图识别的语音交互方法的步骤的多个模块,多个模块包括片段获取模块、场景意图识别模块、模型应答模块和信息返回模块,其中:片段获取模块,用于获取客户端发送的语音会话对应的第一文字片段;场景意图识别模块,用于根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;模型应答模块,用于如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;信息返回模块,用于将第一文字片段对应的应答结果返回至客户端。
第三方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
本申请提供的一种基于意图识别的语音交互方法、装置及存储介质中,首先获取客户端发送的语音会话对应的第一文字片段;然后根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;最后将第一文字片段对应的应答结果返回至客户端。本申请根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,相当于通过对话场景意图识别优先级服务指令控制不同对话场景优先进行意图识别的顺序,便于用户实时根据自己的意图识别结果自适应性选择最优的对话模型完成相应的对话任务,提高用户体验度,以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于意图识别的语音交互方法的流程图;
图2为本申请实施例提供的一种基于意图识别的语音交互方法的完整流程图;
图3为本申请实施例提供的一种基于意图识别的语音交互方法中意图识别过程的示意图;
图4为本申请实施例提供的一种基于意图识别的语音交互装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有的语音对话系统往往仅能实现任务导向型对话功能、闲聊型对话功能、问答型对话功能中的一个,均存在因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题。
基于此,本申请实施例提供一种基于意图识别的语音交互方法、装置及存储介质,通过对话场景意图识别优先级服务指令控制不同对话场景优先进行意图识别的顺序,便于用户实时根据自己的意图识别结果自适应性选择最优的对话模型完成相应的对话任务,提高用户体验度。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种基于意图识别的语音交互方法进行详细介绍。
图1为本申请实施例提供的一种基于意图识别的语音交互方法的流程图,该方法具体包括以下步骤:
步骤S102,获取客户端发送的语音会话对应的第一文字片段。
在用户通过客户端发送语音会话后,服务端可以将语音会话转换为文字片段,然后将文字片段传输给服务端的对话平台,对话平台中配置有对话模型,进而进行执行后续意图识别步骤。
步骤S104,根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度。
本实施例中,上述多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景三种场景,也即三种对话模型,均能对第一文字片段进行意图识别;上述目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;关联程度高,则表示利用该目标关联度对应的对话场景给出的应答结果会更加准确,更符合用户的询问意图。
上述三种对话场景的意图识别优先级可以根据不同的业务场景进行不同的设置,在此不做具体限定。而在场景意图识别时,按照对话场景优先级从高到低的顺序,对第一文字片段进行意图识别,这样可以保证在当前业务场景下,最大可能地确定出与用户意图最匹配的对话场景,从而给出最准确的应答结果,提高用户体验。
步骤S106,如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果。
在上述目标关联度未超过预设关联阈值时,说明上述三种对话场景与用户意图的匹配度都较低,用户当前对话任务涉及的知识领域在三种对话场景所涵盖的领域之外,这时就采用对话平台中的另一个对话大模型通过问答匹配的方式,得到对应的应答结果;而在目标关联度超过预设关联阈值时,就说明识别出目标意图的目标对话场景与用户意图的匹配度较高,可以通过目标对话场景,根据第一文字片段和目标意图进行处理,给出准确的应答结果。
步骤S108,将第一文字片段对应的应答结果返回至客户端。
本申请实施例还提供的一种基于意图识别的语音交互方法中,基于对话场景意图识别优先级服务指令进行意图识别,可针对用户在不同时间输入信息(即对应不同时间段的第一文字片段)对应的意图进行实时的对话功能场景切换,使得用户输入信息所表达意图与对话系统功能相匹配,提高对话系统识别用户意图的准确度,在不同的时间维度上满足用户多功能性对话任务的需求,进而提高交互系统应答准确率,实现同一用户在同一对话系统内既能与交互系统闲聊,又能进行专业领域知识的查询及问答,还能完成用户预定任务,提升用户体验度,为用户营造沉浸式互动体验氛围。不仅能提高应答信息的准确率,还能解决现有交互系统对话场景功能单一而可能造成的应答信息专业性差、准确率低、无法应答等问题。而且,当交互系统内配置的对话模型中所包含的对话意图与用户输入信息意图不相关时,则将其交由对话大模型进行处理,得到对应的应答信息,提高应答信息的准确率、趣味性和灵活性。
本申请实施例还提供另一种基于意图识别的语音交互方法,该方法在上述实施例的基础上实现;本实施例重点描述整体语音交互过程、场景识别过程以及通过对话场景给出应答结果的过程。
参见图2所示,实际应用中,整体语音交互过程如下:
1.前端基于用户登录信息发起登录请求,后端响应于登录请求验证用户登录信息是否通过,若通过则得到用户身份信息并跳转至步骤2执行,若不通过则前端基于用户登录信息重新发起登录请求或注册。
用户身份信息为区分不同用户之间的身份信息,可以是用户ID,也可以是设备ID等等,具体不做限制。用户登录信息可以是手机号、身份证号等,具体不做限制。
2.基于该用户身份信息,前端获取输入信息,并将输入信息传输至后端进行语音识别,得到第一文字片段,并将第一文字片段传输给对话平台。
交互系统被唤醒后,基于该用户身份信息前端通过麦克风等设备采集用户的输入信息,并将其传输至后端进行语音识别得到对应的第一文字片段,并将其传送至对话平台进行处理,便于后期对话平台进行语义分析、理解,匹配对应的应答信息。另外,基于用户身份信息能够便于对话平台区别用户身份,将用户的应答信息返回给对应的用户,避免用户之间对话任务相互干扰。
3.基于该用户身份信息,对话平台对第一文字片段进行意图识别并生成应答信息,然后将应答信息传输给对应后端。
上述意图识别过程如下:
按照意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:将第一文字片段输入至当前场景进行意图识别,得到当前意图和当前关联度;判断当前关联度是否超过预设关联阈值;如果是,将当前意图和当前关联度,作为目标意图和对应的目标关联度;如果否,将优先级次高的对话场景重新作为当前场景,继续执行意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过预设关联阈值,将当前意图和当前关联度,确定为目标意图和对应的目标关联度。
具体的意图识别过程如图3所示:
3.1.配置对话平台的对话模型,对话模型中至少包含任务对话场景、闲聊对话场景和问答对话场景,同时设置对话场景意图识别优先级服务指令,本申请中对话场景意图识别优先级服务指令为任务对话场景优先于问答对话场景进行意图识别,问答对话场景优先于闲聊对话场景进行识别。
有益效果:通过对话场景意图识别优先级服务指令控制不同对话场景优先进行意图识别的顺序,便于用户能够根据自己应用场景的实际需求进行调整,以保证对话系统能够优先完成特定场景下的对话任务,提高用户体验度。例如:在餐厅、酒店等环境下,若用户在交互系统内输入语音信息为“今天下雨都影响我心情了,吃点好吃的吧”,这句话里同时包含了用户的情感诉求意图和点餐意图,但实际上其意图应落在后面对应的点餐意图。若没有设置对话场景意图识别优先级服务指令时,则任务对话场景和闲聊对话场景均能各自匹配到对应的意图,交互系统无法选择到底该执行哪个任务,而且即使选择了也不一定能选择到用户真实意图对应的对话场景,造成对话任务准确率较低。若按照本申请实施例设置的对话场景意图识别优先级服务指令,则会优先利用任务对话场景匹配用户输入信息的意图。若在休闲场所则可根据需求将闲聊对话场景设置为最先执行,具体不做限制。
3.2.基于第一文字片段和对话场景意图识别优先级服务指令,将第一文字片段输入任务对话场景中进行意图识别,得到第一意图和第一意图关联度。判断第一意图关联度是否大于或等于匹配关联阈值(即前述预设关联阈值)。其中,匹配关联阈值为与用户输入信息意图相关的最小相似值。
3.3.若第一意图关联度大于或等于匹配关联阈值,则基于第一意图对应的子任务对话场景(任务对话场景中关于第一意图的对话子场景),跳转至步骤3.9执行。
3.4.若第一意图关联度小于匹配关联阈值,则将第一文字片段输入问答对话场景中进行意图识别,得到第二意图和第二意图关联度。判断第二意图关联度是否大于或等于匹配关联阈值。
3.5.若第二意图关联度大于或等于匹配关联阈值,则基于第二意图对应的子问答对话场景(问答对话场景中关于第二意图的对话子场景),跳转至步骤3.9执行。
3.6.若第二意图关联度小于匹配关联阈值,则将第一文字片段输入闲聊对话场景中进行意图识别,得到第三意图和第三意图关联度。判断第三意图关联度是否大于或等于匹配关联阈值。
3.7.若第三意图关联度大于或等于匹配关联阈值,则基于第三意图对应的子闲聊对话场景(问答对话场景中关于第三意图的对话子场景),跳转至步骤3.9执行。
3.8.若第三意图关联度小于匹配关联阈值,则将第一文字片段输入对话大模型中进行意图识别,得到对应的应答信息。
步骤3.1至3.8的数据处理逻辑如下(需要注意的是,此处对话场景意图识别优先级只是给出了一个示例性例子,具体的可根据对话场景意图识别优先级服务指令的优先执行顺序进行调整,具体不做限制):响应于对话场景意图识别优先级服务指令执行顺序,将用户输入信息(即第一文字片段)逐一传输至不同的对话场景中进行意图识别,当在任务对话场景中进行意图识别,且得到意图识别结果对应关联度大于匹配关联阈值时,则后续对话均会在该任务对话场景中进行,并直接在对应子任务场景中由对应的决策器进行判断,确定对应的执行策略。只有当任务对话场景中得到意图识别结果对应关联度小于匹配关联阈值时,才会跳转至问答对话场景进行意图识别,并根据意图识别结果对应关联度是否大于匹配关联阈值判断是否需要跳转至闲聊对话场景进行意图识别。当对话平台内所包含的所有对话场景识别用户输入信息的意图,其对应意图识别结果的关联度均小于匹配关联阈值时,此时将第一文字片段输入对话大模型中进行意图识别,得到对应的应答信息。
有益效果:基于对话场景意图识别优先级服务指令进行意图识别,可针对用户在不同时间输入的信息(即对应不同时间段的第一文字片段)对应的意图进行实时的对话场景切换,在不同的时间维度上满足用户多维度对话意图的应答,实现同一用户在一段时间内既能与交互系统闲聊,又能进行专业领域知识的查询及问答,还能完成用户预定任务,提升用户体验度,为用户营造沉浸式互动体验氛围,不仅能提高应答信息的准确率,还能解决现有交互系统功能单一而可能造成的应答信息专业性差、准确率低、无法应答等问题。而且,当交互系统内配置的对话模型中所包含的对话意图与用户输入信息意图不相关时,则将其交由对话大模型进行处理,得到对应的应答信息,提高应答信息的准确率、趣味性和灵活性。
上述基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果的过程如下:
(1)将第一文字片段和目标意图,输入至目标对话场景中,通过目标对话场景中的决策器输出多个执行策略分别对应的置信度;
(2)根据多个执行策略分别对应的置信度确定当前执行策略;具体的,如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。
(3)如果当前执行策略为规则执行策略,输出第一文字片段对应的应答结果;规则执行策略为:通过第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略。
(4)如果当前执行策略为剧本执行策略,获取第一文字片段对应缺失的必要信息,基于第一文字片段和缺失的必要信息,输出第一文字片段对应的应答结果;剧本执行策略为:通过多轮交互引导用户提供第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。
上述获取第一文字片段对应缺失的必要信息的步骤,包括:
A、根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;预设剧本中包括:目标对话场景对应的所有必要信息;具体实施时,获取第一文字片段中的至少一个必要信息;基于至少一个必要信息,对预设剧本包含的所有必要信息进行去重处理,得到第一文字片段中缺失的必要信息。
B、将多个必要信息分别对应的澄清语料,按照多个必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;询问任务节点与澄清语料一一对应;
C、基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息。
具体实施时,将询问语音任务流中的每个询问任务节点的初始状态设置为异常节点,将第一异常节点作为当前节点,执行以下询问澄清步骤:根据当前节点对应的当前澄清语料,生成询问语音信息,向客户端发送当前澄清请求;获取客户端根据当前澄清请求返回的语音信息对应的第二文字片段;对第二文字片段,以及当前澄清语料分别进行意图识别;判断二者意图识别结果是否一致;如果是,将当前节点标记为正常节点,并保留当前澄清语料对应的必要信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤,直至遍历完所有异常节点;如果否,根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤。
进一步地,上述根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤的步骤,包括:判断当前节点对应的澄清请求的次数是否超过预设次数阈值,或者当前节点的请求响应时间是否超过预设时间阈值;如果否,继续执行当前节点的询问澄清步骤;如果是,向客户端发起确认请求,确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项;如果接收到对第一选项的确认信息,将第二文字片段作为新的第一文字片段,继续执行根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别的步骤;如果接收到对第二选项的确认信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤。
上述通过对话场景或对话大模型确定第一文字片段对应的应答结果的整体流程如图2所示,(接着上面的步骤3.8):
3.9.将基于该用户身份信息,将当前第一文字片段及其对应的意图识别结果输入训练好的决策器模型中,得到多个执行策略及其对应置信度,其中执行策略至少包括规则执行策略和剧本执行策略,且执行策略响应优先级规则为:当规则执行策略与剧本执行策略各自对应的置信度相等时,规则执行策略的执行优先级高于剧本执行策略,否则优先执行较高置信度对应的执行策略。规则执行策略是描述通过第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略。剧本执行策略是描述第一文字片段没有提供所有必要信息,需要通过多轮交互引导用户提供必要信息以确定用户真实意图进而返回对应应答动作的策略。
在确定第一文字片段适用的某一意图对应的语境中,将第一文字片段及其对应的意图识别结果输入训练好的决策器模型中,分别得到规则执行策略(例如返回招呼语等)及其对应的第一置信度(如为0.3),剧本执行策略(点外卖的执行动作)及其对应第二置信度(如为0.7)。响应于执行策略响应优先级规则,如果规则执行策略与剧本执行策略的置信度均为0.5时,则优先执行规则执行策略,否则执行较高置信度对应的执行策略(如上述例子执行置信度为0.7的剧本执行策略)。
3.10.基于最大置信度对应的执行策略和执行策略响应优先级规则,判断当前执行策略是否为剧本执行策略,若是,则跳转至步骤3.11执行。若不是,则基于规则执行策略确定对应的应答信息,并将其传输至后端。
根据最大置信度对应的执行策略和执行策略响应优先级规则,确定针对当前第一文字片段应该执行哪种策略,具体方法如上述步骤3.9所述。判断当前执行策略是否为剧本执行策略,若是,则针对对应的剧本执行策略确定必要信息的多轮语音交互流程,以进一步明晰用户意图提高应答信息质量。若不是,则基于规则执行策略确定对应的应答信息,并将其传输至后端。
有益效果:本申请中针对对话系统的特定需求和目标,可以通过对话场景意图识别优先级和执行策略响应优先级规则之间的相互配合与调整,确定不同应用场景下可灵活采用不同的执行顺序,从而实现更复杂和灵活的对话管理,以满足特定场合下进行的对话流程和行为需求,提高交互系统的的灵活性、可扩展性和智能化。
3.11.对话平台基于剧本执行策略确定多轮交互澄清语料,形成询问语音任务流,询问语音任务流是基于预设剧本内的所有必要信息,除去第一文字片段中含有的必要信息后剩余所有必要信息按照其自身重要性由不同询问任务节点顺序连接形成,每个询问任务节点对应一个必要信息对应的澄清语料,同时设置每个询问任务节点的初始状态标记为异常节点。
当执行策略为剧本执行策略时,根据预设剧本内的所有必要信息和第一文字片段内的必要信息进行去重,得到该第一文字片段中缺失的所有必要信息,并对应确定每个缺失必要信息向用户进行反问时对应的澄清语料,并按照其必要信息对应答信息查询的影响度进行降序排列,得到询问语音任务流。
有益效果:针对第一文字片段中缺失的必要信息确定询问语音任务流,以反问用户的方式进一步确定用户的真实意图,提高应答信息的准确率。
3.12.对话平台基于询问语音任务流中每个异常节点对应的顺序,将询问任务节点对应的澄清语料发送至后端,后端将其转为询问语音,并基于该询问语音向前端发起澄清请求,澄清请求是请求在前端播放询问语音并对应获取用户回复语音的指令。
3.13.前端响应于澄清请求,并获取用户回复语音的指令。然后将用户回复语音发送至后端、对话平台分别处理,判断用户回复语音的意图是否与询问语音的意图是否一致。
前端响应后端发送的澄清请求,播放询问语音,并对应获取用户回复语音,再将用户回复的语音传输至后端进行文字识别,并将文字识别结果(即前述第二文字片段)发送至对话平台进行意图识别。同时也对对应的询问语音的意图进行识别,对话平台判断二者之间的意图是否一致。
有益效果:当用户输入信息意图较为模糊时,现有技术一般通过多轮对话交互填充关键词槽来明确用户意图进而提高应答信息准确率,该技术方案仅仅是从用户回复信息中抽取部分关键信息填充空缺词槽,并通过验证该填充内容的词性是否满足词槽类型的方案判断当前填充内容是否为关键信息。当人机对话场景如下时:用户“帮我订张从杭州到北京的机票”,机器“请问您希望哪天出发呢?”用户“明天杭州下雨吗?”由此可以看出,针对购票这个意图,确定缺少出发时间这个必要信息时,机器向用户传达询问出发时间的意图,而用户回复中出现了满足空缺词槽对应词槽类型的信息“明天”,那么按照现有词槽填充规则会直接将“明天”这个时间节点填入出发时间的词槽内,但实际上用户回复的“明天下雨吗”这是查询天气的意图,此时用户上下交互的意图发生了变化,“明天”这个信息不应该被填入出发时间的词槽内,这与实际情况是不相符的。本申请实施例中,通过分别对当前询问任务节点对应的用户回复语音和澄清语料分别进行意图识别,能够及时帮助对话系统识别到用户聊天背景是否发生更改,尤其是针对相同词语在不同语境中含义不同的场景下辩证的判断当前用户回复信息是否为真实所需的必要信息,降低了现有技术仅通过词槽类型校验造成的误判的概率。
3.14.若一致,则标记询问任务节点为正常节点,对应保留用户回复语音对应的必要信息。然后,对话平台基于询问语音任务流判断是否还存在异常节点,若不存在,则基于所有正常节点保存的所有必要信息以及第一文字片段的必要信息进行检索,得到对应应答信息。若存在,则跳转至步骤3.12执行。
3.15.若不一致,则标记询问任务节点为异常节点,并判断响应于同一异常节点对应的澄清请求的次数是否超过预设次数或停留在同一异常节点的运行时间是否在预设时间阈值内,若是,则后端向前端发起确认请求,确认请求是询问用户继续当前对话任务或基于异常节点对应的用户回复信息进行下一轮对话的请求。若不是,则跳转至步骤3.12执行。
当返回同一异常节点的次数超过预设次数或者停留在同一异常节点的运行时间超过预设时间阈值,则向前端发起确认请求;确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项。
有益效果:通过正常节点和异常节点的对比标记便于对话交互系统快速的识别是否缺少必要信息,并且在当前用户回复语音中不包含必要信息时,能够基于当前异常节点返回询问语音任务流对应节点位置进行相应处理,而不用返回到询问语音任务流的初始状态重新采集所有缺失的必要信息,有效降低了端到端处理异常节点的时间,提高用户体验感。而且通过返回同一异常节点的预设次数和同一异常节点预设运行时间这两个方面来控制是否向前端发起确认请求,避免前端采集用户语音时将外界噪音信息当成用户下达语音指令,或者用户长时间停留在对话界面但实际情况是用户已经离开机器附近了,避免用户没有对话需求却长期占用交互系统。而且,还能通过确认请求的响应内容判断是继续当前的对话任务,还是基于异常节点对应的用户回复信息进行对话场景的自由切换,给予用户沉浸式的语音交互体验。
3.16.响应于确认请求,判断是否为继续当前对话任务,即是否继续下一个异常节点的询问澄清步骤,若不是,则基于异常节点对应的用户回复信息作为用户输入信息,并返回至步骤2步执行,也就是进行下轮的语音会话。若是,则返回至步骤3.12执行。
若用户回复为基于异常节点对应的用户回复信息进行下一轮对话,即相当于选择了进行下一轮语音会话的第一选项,则将异常节点对应的用户回复信息作为用户输入信息,并返回至步骤2步执行。若用户回复为继续当前对话任务,即选择了继续下一个异常节点的询问澄清步骤的第二选项,则返回至步骤3.12执行,基于异常节点发起澄清请求。
当用户输入信息意图较为模糊时,现有技术一般通过多轮对话交互填充关键词槽来明确用户意图进而提高应答信息准确率,该技术方案仅仅是从用户回复信息中抽取相关信息填充空缺词槽内,并通过验证该填充内容的词性是否满足词槽类型的方案判断当前填充内容是否为关键信息。而本申请实施例还提供一种基于意图识别的语音交互方法中,通过分别对当前询问任务节点对应的用户回复语音和澄清语料分别进行意图识别以判断用户回复信息是否为关键信息,且能够及时帮助对话系统识别到用户聊天背景是否发生更改,尤其是针对相同词语在不同语境中含义不同的场景下辩证的判断当前用户回复信息是否为真实所需的必要信息,降低了现有技术仅通过词槽类型校验造成误判几率。再者,当验证二者意图不一致时基于用户不继续当前对话任务的意图,基于用户改变聊天背景时对应的语音信息自由切换对话内容,给予用户沉浸式的语音交互体验。
基于上述方法实施例,本申请实施例还提供一种基于意图识别的语音交互装置,装置包括用于执行上述方法实施例所述的一种基于意图识别的语音交互方法的步骤的多个模块,参见图4所示,多个模块包括片段获取模块42、场景意图识别模块44、模型应答模块46和信息返回模块48,其中:片段获取模块42,用于获取客户端发送的语音会话对应的第一文字片段;场景意图识别模块44,用于根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;模型应答模块46,用于如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;信息返回模块48,用于将第一文字片段对应的应答结果返回至客户端。
进一步地,上述场景意图识别模块44,用于:按照意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:将第一文字片段输入至当前场景进行意图识别,得到当前意图和当前关联度;判断当前关联度是否超过预设关联阈值;如果是,将当前意图和当前关联度,作为目标意图和对应的目标关联度;如果否,将优先级次高的对话场景重新作为当前场景,继续执行意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过预设关联阈值,将当前意图和当前关联度,确定为目标意图和对应的目标关联度。
进一步地,上述模型应答模块46,用于:将第一文字片段和目标意图,输入至目标对话场景中,通过目标对话场景中的决策器输出多个执行策略分别对应的置信度;根据多个执行策略分别对应的置信度确定当前执行策略;如果当前执行策略为规则执行策略,输出第一文字片段对应的应答结果;规则执行策略为:通过第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略;如果当前执行策略为剧本执行策略,获取第一文字片段对应缺失的必要信息,基于第一文字片段和缺失的必要信息,输出第一文字片段对应的应答结果;剧本执行策略为:通过多轮交互引导用户提供第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。
进一步地,上述模型应答模块46,用于:如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。
进一步地,上述模型应答模块46,用于根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;预设剧本中包括:目标对话场景对应的所有必要信息;将多个必要信息分别对应的澄清语料,按照多个必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;询问任务节点与澄清语料一一对应;基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息。
进一步地,上述模型应答模块46,用于:获取第一文字片段中的至少一个必要信息;基于至少一个必要信息,对预设剧本包含的所有必要信息进行去重处理,得到第一文字片段中缺失的必要信息。
进一步地,上述模型应答模块46,用于:将询问语音任务流中的每个询问任务节点的初始状态设置为异常节点,将第一异常节点作为当前节点,执行以下询问澄清步骤:根据当前节点对应的当前澄清语料,生成询问语音信息,向客户端发送当前澄清请求;获取客户端根据当前澄清请求返回的语音信息对应的第二文字片段;对第二文字片段,以及当前澄清语料分别进行意图识别;判断二者意图识别结果是否一致;如果是,将当前节点标记为正常节点,并保留当前澄清语料对应的必要信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤,直至遍历完所有异常节点;如果否,根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤。
进一步地,上述模型应答模块46,用于:判断当前节点对应的澄清请求的次数是否超过预设次数阈值,或者当前节点的请求响应时间是否超过预设时间阈值;如果否,继续执行当前节点的询问澄清步骤;如果是,向客户端发起确认请求,确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项;如果接收到对第一选项的确认信息,将第二文字片段作为新的第一文字片段,继续执行根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别的步骤;如果接收到对第二选项的确认信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤。
本申请实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器51和存储器50,该存储器50存储有能够被该处理器51执行的计算机可执行指令,该处理器51执行该计算机可执行指令以实现上述方法。
在图5示出的实施方式中,该电子设备还包括总线52和通信接口53,其中,处理器51、通信接口53和存储器50通过总线52连接。
其中,存储器50可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线52可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器51读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于意图识别的语音交互方法,其特征在于,所述方法包括:
获取客户端发送的语音会话对应的第一文字片段;
根据预设的多个对话场景对应的意图识别优先级,对所述第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,所述多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;所述目标关联度用于表征所述目标意图与识别出所述目标意图的对话场景的关联程度;
如果所述目标关联度未超过预设关联阈值,通过预设的对话大模型对所述第一文字片段进行处理,得到所述第一文字片段对应的应答结果;
如果所述目标关联度超过预设关联阈值,基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理,输出所述第一文字片段对应的应答结果;
将所述第一文字片段对应的应答结果返回至所述客户端。
2.根据权利要求1所述的基于意图识别的语音交互方法,其特征在于,对所述第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度的步骤,包括:
按照所述意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:
将所述第一文字片段输入至所述当前场景进行意图识别,得到当前意图和当前关联度;
判断所述当前关联度是否超过所述预设关联阈值;
如果是,将所述当前意图和所述当前关联度,作为目标意图和对应的目标关联度;
如果否,将优先级次高的对话场景重新作为所述当前场景,继续执行所述意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过所述预设关联阈值,将所述当前意图和所述当前关联度,确定为所述目标意图和对应的目标关联度。
3.根据权利要求1所述的基于意图识别的语音交互方法,其特征在于,基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理,输出所述第一文字片段对应的应答结果的步骤,包括:
将所述第一文字片段和所述目标意图,输入至所述目标对话场景中,通过所述目标对话场景中的决策器输出多个执行策略分别对应的置信度;
根据多个执行策略分别对应的置信度确定当前执行策略;
如果所述当前执行策略为规则执行策略,输出所述第一文字片段对应的应答结果;所述规则执行策略为:通过所述第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略;
如果所述当前执行策略为剧本执行策略,获取所述第一文字片段对应缺失的必要信息,基于所述第一文字片段和所述缺失的必要信息,输出所述第一文字片段对应的应答结果;所述剧本执行策略为:通过多轮交互引导用户提供所述第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。
4.根据权利要求3所述的基于意图识别的语音交互方法,其特征在于,根据多个执行策略分别对应的置信度确定当前执行策略的步骤,包括:
如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;
如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。
5.根据权利要求3所述的基于意图识别的语音交互方法,其特征在于,获取所述第一文字片段对应缺失的必要信息的步骤,包括:
根据预设剧本和所述第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;所述预设剧本中包括:所述目标对话场景对应的所有必要信息;
将多个必要信息分别对应的澄清语料,按照多个所述必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;所述询问任务节点与所述澄清语料一一对应;
基于所述询问语音任务流,向客户端发起澄清请求,以获取所述第一文字片段对应缺失的必要信息。
6.根据权利要求5所述的基于意图识别的语音交互方法,其特征在于,根据所述预设剧本和所述第一文字片段,确定缺失的多个必要信息分别对应的澄清语料的步骤,包括:
获取所述第一文字片段中的至少一个必要信息;
基于所述至少一个必要信息,对所述预设剧本包含的所有必要信息进行去重处理,得到所述第一文字片段中缺失的必要信息。
7.根据权利要求5所述的基于意图识别的语音交互方法,其特征在于,基于所述询问语音任务流,向客户端发起澄清请求,以获取所述第一文字片段对应缺失的必要信息的步骤,包括:
将所述询问语音任务流中的每个所述询问任务节点的初始状态设置为异常节点,将第一异常节点作为当前节点,执行以下询问澄清步骤:
根据所述当前节点对应的当前澄清语料,生成询问语音信息,向所述客户端发送当前澄清请求;
获取所述客户端根据所述当前澄清请求返回的语音信息对应的第二文字片段;
对所述第二文字片段,以及所述当前澄清语料分别进行意图识别;
判断二者意图识别结果是否一致;
如果是,将所述当前节点标记为正常节点,并保留所述当前澄清语料对应的必要信息,将下一异常节点重新作为所述当前节点,继续执行所述询问澄清步骤,直至遍历完所有异常节点;
如果否,根据所述当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤。
8.根据权利要求7所述的基于意图识别的语音交互方法,其特征在于,根据所述当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤的步骤,包括:
判断所述当前节点对应的澄清请求的次数是否超过预设次数阈值,或者所述当前节点的请求响应时间是否超过预设时间阈值;
如果否,继续执行所述当前节点的询问澄清步骤;
如果是,向所述客户端发起确认请求,所述确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项;
如果接收到对所述第一选项的确认信息,将所述第二文字片段作为新的所述第一文字片段,继续执行所述根据预设的多个对话场景对应的意图识别优先级,对所述第一文字片段进行场景意图识别的步骤;
如果接收到对所述第二选项的确认信息,将下一异常节点重新作为所述当前节点,继续执行所述询问澄清步骤。
9.一种基于意图识别的语音交互装置,其特征在于,所述装置包括用于执行权利要求1至8任一项所述的基于意图识别的语音交互方法的步骤的多个模块,所述多个模块包括片段获取模块、场景意图识别模块、模型应答模块和信息返回模块,其中:
所述片段获取模块,用于获取客户端发送的语音会话对应的第一文字片段;
所述场景意图识别模块,用于根据预设的多个对话场景对应的意图识别优先级,对所述第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,所述多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;所述目标关联度用于表征所述目标意图与识别出所述目标意图的对话场景的关联程度;
所述模型应答模块,用于如果所述目标关联度未超过预设关联阈值,通过预设的对话大模型对所述第一文字片段进行处理,得到所述第一文字片段对应的应答结果;如果所述目标关联度超过预设关联阈值,基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理,输出所述第一文字片段对应的应答结果;
所述信息返回模块,用于将所述第一文字片段对应的应答结果返回至所述客户端。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至8任一项所述的基于意图识别的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287625.6A CN117059074B (zh) | 2023-10-08 | 2023-10-08 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287625.6A CN117059074B (zh) | 2023-10-08 | 2023-10-08 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117059074A true CN117059074A (zh) | 2023-11-14 |
CN117059074B CN117059074B (zh) | 2024-01-19 |
Family
ID=88662922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311287625.6A Active CN117059074B (zh) | 2023-10-08 | 2023-10-08 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117059074B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496973A (zh) * | 2024-01-02 | 2024-02-02 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694942A (zh) * | 2018-04-02 | 2018-10-23 | 浙江大学 | 一种基于家居智能服务机器人的智能家居交互问答系统 |
CN110634477A (zh) * | 2018-06-21 | 2019-12-31 | 海信集团有限公司 | 一种基于场景感知的上下文判断方法、装置及系统 |
US20200005772A1 (en) * | 2018-06-28 | 2020-01-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interactive method and device of robot, and device |
CN111048091A (zh) * | 2019-12-30 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN111368043A (zh) * | 2020-02-19 | 2020-07-03 | 中国平安人寿保险股份有限公司 | 基于人工智能的事件问答方法、装置、设备及存储介质 |
CN111639168A (zh) * | 2020-05-21 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种多轮对话的处理方法、装置、电子设备及存储介质 |
CN113132214A (zh) * | 2019-12-31 | 2021-07-16 | 深圳市优必选科技股份有限公司 | 一种对话方法、装置、服务器及存储介质 |
WO2021232957A1 (zh) * | 2020-05-20 | 2021-11-25 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN115602160A (zh) * | 2022-09-30 | 2023-01-13 | 中国工商银行股份有限公司(Cn) | 基于语音识别的业务办理方法、装置及电子设备 |
CN115858741A (zh) * | 2022-07-19 | 2023-03-28 | 北京中关村科金技术有限公司 | 一种适用于多场景的智能问答方法、装置及存储介质 |
CN116186219A (zh) * | 2023-02-16 | 2023-05-30 | 上海合胜计算机科技股份有限公司 | 一种人机对话交互方法方法、系统及存储介质 |
CN116450781A (zh) * | 2022-01-04 | 2023-07-18 | 中移动信息技术有限公司 | 问答的处理方法及装置 |
US20230245654A1 (en) * | 2022-01-31 | 2023-08-03 | Meta Platforms, Inc. | Systems and Methods for Implementing Smart Assistant Systems |
-
2023
- 2023-10-08 CN CN202311287625.6A patent/CN117059074B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694942A (zh) * | 2018-04-02 | 2018-10-23 | 浙江大学 | 一种基于家居智能服务机器人的智能家居交互问答系统 |
CN110634477A (zh) * | 2018-06-21 | 2019-12-31 | 海信集团有限公司 | 一种基于场景感知的上下文判断方法、装置及系统 |
US20200005772A1 (en) * | 2018-06-28 | 2020-01-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interactive method and device of robot, and device |
CN111048091A (zh) * | 2019-12-30 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、设备及计算机可读存储介质 |
CN113132214A (zh) * | 2019-12-31 | 2021-07-16 | 深圳市优必选科技股份有限公司 | 一种对话方法、装置、服务器及存储介质 |
CN111368043A (zh) * | 2020-02-19 | 2020-07-03 | 中国平安人寿保险股份有限公司 | 基于人工智能的事件问答方法、装置、设备及存储介质 |
WO2021232957A1 (zh) * | 2020-05-20 | 2021-11-25 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN111639168A (zh) * | 2020-05-21 | 2020-09-08 | 北京百度网讯科技有限公司 | 一种多轮对话的处理方法、装置、电子设备及存储介质 |
CN116450781A (zh) * | 2022-01-04 | 2023-07-18 | 中移动信息技术有限公司 | 问答的处理方法及装置 |
US20230245654A1 (en) * | 2022-01-31 | 2023-08-03 | Meta Platforms, Inc. | Systems and Methods for Implementing Smart Assistant Systems |
CN115858741A (zh) * | 2022-07-19 | 2023-03-28 | 北京中关村科金技术有限公司 | 一种适用于多场景的智能问答方法、装置及存储介质 |
CN115602160A (zh) * | 2022-09-30 | 2023-01-13 | 中国工商银行股份有限公司(Cn) | 基于语音识别的业务办理方法、装置及电子设备 |
CN116186219A (zh) * | 2023-02-16 | 2023-05-30 | 上海合胜计算机科技股份有限公司 | 一种人机对话交互方法方法、系统及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496973A (zh) * | 2024-01-02 | 2024-02-02 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
CN117496973B (zh) * | 2024-01-02 | 2024-03-19 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117059074B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
US9626964B2 (en) | Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server | |
JP6431993B2 (ja) | 自動返答方法、自動返答装置、自動返答機器、自動返答プログラムおよびコンピュータ読み取り可能記憶媒体 | |
US9583102B2 (en) | Method of controlling interactive system, method of controlling server, server, and interactive device | |
CN109949071A (zh) | 基于语音情绪分析的产品推荐方法、装置、设备和介质 | |
CN117059074B (zh) | 一种基于意图识别的语音交互方法、装置及存储介质 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112365894A (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN109254669A (zh) | 一种表情图片输入方法、装置、电子设备及系统 | |
CN111831795B (zh) | 多轮对话处理方法、装置、电子设备及存储介质 | |
CN111813900B (zh) | 多轮对话处理方法、装置、电子设备及存储介质 | |
WO2023273776A1 (zh) | 语音数据的处理方法及装置、存储介质、电子装置 | |
CN107798239B (zh) | 操作风险处理方法、装置、计算机设备和存储介质 | |
CN111368040B (zh) | 对话处理方法、模型训练方法及其相关设备 | |
EP3451189B1 (en) | A system and method for user query recognition | |
CN113241080A (zh) | 自动注册声纹识别方法和装置 | |
CN113342945A (zh) | 一种语音会话处理方法及装置 | |
KR20090076318A (ko) | 실시간 대화 서비스 시스템 및 그 방법 | |
CN117424956A (zh) | 设置项处理方法、装置、电子设备及存储介质 | |
CN112349287A (zh) | 显示设备及其控制方法、从设备及计算机可读存储介质 | |
EP4254400A1 (en) | Method and device for determining user intent | |
CN113643706B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN108694939A (zh) | 语音搜索优化方法、装置和系统 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
CN112182047B (zh) | 一种信息推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |