CN108197115A - 智能交互方法、装置、计算机设备和计算机可读存储介质 - Google Patents

智能交互方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN108197115A
CN108197115A CN201810079267.2A CN201810079267A CN108197115A CN 108197115 A CN108197115 A CN 108197115A CN 201810079267 A CN201810079267 A CN 201810079267A CN 108197115 A CN108197115 A CN 108197115A
Authority
CN
China
Prior art keywords
emotion identification
mood
identification result
audio
intent information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810079267.2A
Other languages
English (en)
Other versions
CN108197115B (zh
Inventor
王慧
余世经
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201810079267.2A priority Critical patent/CN108197115B/zh
Publication of CN108197115A publication Critical patent/CN108197115A/zh
Priority to PCT/CN2019/073141 priority patent/WO2019144926A1/zh
Priority to JP2020540499A priority patent/JP6979534B2/ja
Priority to US16/414,293 priority patent/US11373641B2/en
Application granted granted Critical
Publication of CN108197115B publication Critical patent/CN108197115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例提供了一种智能交互方法、装置、计算机设备和计算机可读存储介质,解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。该智能交互方法包括:根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息;根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令。

Description

智能交互方法、装置、计算机设备和计算机可读存储介质
技术领域
本发明涉及智能交互技术领域,具体涉及一种智能交互方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高,智能交互方式已逐渐开始替代一些传统的人机交互方式,并且已成为一个研究热点。然而,现有智能交互方式仅能大概分析出用户消息的语义内容,并无法识别用户当前的情绪状态,因而无法根据用户的情绪状态分析出用户消息所实际想要表达的深层次的情绪需求,也无法根据用户消息提供更人性化的交互体验。例如,对于一个正在赶时间的情绪状态为焦急的用户与一个刚开始做行程规划的情绪状态为平和的用户,在询问航班时间信息时所希望得到的回复方式肯定是有所不同的,而根据现有的基于语义的智能交互方式,不同的用户所得到的回复方式是相同的,例如只是把对应的航班时间信息程序给用户。
发明内容
有鉴于此,本发明实施例提供了一种智能交互方法、装置、计算机设备和计算机可读存储介质,解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。
本发明一实施例提供的一种智能交互方法包括:
根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息;
根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及
根据所述情绪识别结果和所述基本意图信息确定对应的交互指令。
本发明一实施例提供的一种智能交互装置包括:
情绪识别模块,配置为根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息;
基本意图识别模块,配置为根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及
交互指令确定模块,配置为根据所述情绪识别结果和所述基本意图信息确定对应的交互指令。
本发明一实施例提供的一种计算机设备包括:存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如前所述方法的步骤。
本发明一实施例提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述方法的步骤。
本发明实施例提供的一种智能交互方法、装置、计算机设备和计算机可读存储介质,在理解用户的基本意图信息的基础上,结合了基于用户消息获取的情绪识别结果,并进一步根据基本意图信息和情绪识别结果给出带有情绪的交互指令,从而解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。
附图说明
图1所示为本发明一实施例提供的一种智能交互方法的流程示意图。
图2所示为本发明一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。
图3所示为本发明一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。该实施例中的用户消息也至少包括用户语音消息,情绪识别。
图4所示为本发明另一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。
图5所示为本发明一实施例所提供的智能交互方法中根据用户语音消息的音频数据获取音频情绪识别结果的流程示意图。
图6所示为本发明一实施例所提供的智能交互方法中建立情绪特征模型的流程示意图。
图7所示为本发明一实施例所提供的语音情绪识别方法中提取用户语音消息的流程示意图。
图8所示为本发明一实施例所提供的智能交互方法中确定语音开始帧以及语音结束帧的流程示意图。
图9所示为本发明一实施例所提供的智能交互方法中检测发音帧或非发音帧的流程示意图。
图10所示为本发明一实施例提供的智能交互方法中根据用户语音消息的文本内容获取文本情绪识别结果的流程示意图。
图11所示为本发明一实施例提供的智能交互方法中根据用户语音消息的文本内容获取文本情绪识别结果的流程示意图。
图12所示为本发明一实施例提供的智能交互方法中确定文本情绪识别结果的流程示意图。
图13所示为本发明另一实施例提供的智能交互方法中确定文本情绪识别结果的流程示意图。
图14所示为本发明一实施例提供的智能交互方法中根据用户语音消息获取基本意图信息的流程示意图。
图15为本发明一实施例提供的一种智能交互装置的结构示意图。
图16为本发明一实施例提供的一种智能交互装置的结构示意图。
图17为本发明一实施例提供的一种智能交互装置的结构示意图。
图18为本发明一实施例提供的一种智能交互装置的结构示意图。
图19为本发明一实施例提供的一种智能交互装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的一种智能交互方法的流程示意图。如图1所示,该智能交互方法包括如下步骤:
步骤101:根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息。
用户消息是指在与用户交互的过程中由用户输入的或获取到的与用户的交互意图和需求相关的信息。例如,在呼叫中心系统的客服交互场景中,用户消息的具体形式就可以包括用户发出的用户语音消息,此时的用户可能是客户端也可能是服务端;再例如在智能机器人交互场景中,用户消息就可包括用户通过该智能机器人的输入模块输入的信息(例如文字或语音等),或该智能机器人的采集模块所采集到的用户的信息(例如面部表情、动作姿势等)。本发明对用户消息的具体来源和具体形式不做限定。
应当理解,根据用户消息的具体形式不同,情绪识别结果的获取方式也可有所不同。例如,当用户消息包括获取到的用户的面部表情时,就可通过识别面部特征点在图像中的位置差别变化来判断用户当前的情绪状态。本发明对根据用户消息获取情绪识别结果的具体方式不做限定。再例如,当用户消息包括用户语音消息时,由于不同情绪状态的用户语音消息的音频数据会包括不同的音频特征,此时就可根据用户语音消息的音频数据获取音频情绪识别结果,并根据音频情绪识别结果确定情绪识别结果。
根据该用户消息所获取到的情绪识别结果将在后续的过程中与基本意图信息进行结合,以推测用户的情绪意图,或直接根据基本意图信息和情绪识别结果给出带有情绪的交互指令。
步骤102:根据用户消息进行意图分析,得到对应的基本意图信息。
基本意图信息对应的是用户消息所直观反映出的意图,但并无法反映用户当前状态下的真实情绪需求,因此才需要结合情绪识别结果来综合确定用户消息所实际想要表达的深层次的意图和情绪需求。例如,对于一个正在赶时间的情绪状态为焦急的用户与一个刚开始做行程规划的情绪状态为平和的用户,当二者所发出的用户语音消息的内容同样为询问航班信息时,所得到的基本意图信息也是相同的,都为查询航班信息,但二者所需要的情绪需求显然是不同的。
应当理解,根据用户消息的具体形式不同,基本意图信息的具体内容和获取方式也可有所不同。例如,当用户消息包括用户语音消息时,基本意图信息就可根据用户语音消息的文本内容进行意图分析得出,该基本意图信息对应的是用户语音消息的文本内容在语义层面所反映出的意图,并不会带有任何感情色彩。
在本发明一实施例中,为了进一步提高所获取的基本意图信息的准确度,还可根据当前的用户语音消息,并结合过往的用户语音消息和/或后续的用户语音消息进行意图分析,得到对应的基本意图信息。例如,当前用户语音消息的意图中可能缺乏一些关键词和槽位(slot),但这些内容可通过过往的用户语音消息和/或后续的用户语音消息获取。例如,当前的用户语音消息的内容为“有什么特产?”时,其中的主语(slot)是缺失的,但通过结合过往的用户语音消息“常州天气如何?”即可提取“常州”作为主语,这样所最终获取的当前用户语音消息的基本意图信息就可为“常州有什么特产?”。
步骤103:根据情绪识别结果和基本意图信息确定对应的交互指令。
情绪识别结果和基本意图信息与交互指令之间的对应关系可通过与学习过程建立。在本发明一实施例中,交互指令的内容和形式包括以下一种或多种情感呈现模态:文本输出情感呈现模态、乐曲播放情感呈现模态、语音情感呈现模态、图像情感呈现模态和机械动作情感呈现模态。然而应当理解,交互指令的具体情感呈现模态也可根据交互场景的需求而调整,本发明对交互指令的具体内容和形式并不做限定。
在本发明一实施例中,可以是先根据情绪识别结果和基本意图信息确定对应的情绪意图信息,然后再根据情绪意图信息确定对应的交互指令,或根据情绪意图信息和基本意图信息确定对应的所述交互指令。此时的情绪意图信息可以有具体的内容。
具体而言,情绪意图信息的具体内容指的是带有感情色彩的意图信息,能在反映基本意图的同时反映用户消息的情绪需求,情绪意图信息与情绪识别结果和基本意图信息之间的对应关系可通过预学习过程预先建立。在本发明一实施例中,该情绪意图信息可包括与情绪识别结果对应的情感需求信息,或可包括与情绪识别结果对应的情感需求信息以及情绪识别结果与基本意图信息的关联关系。情绪识别结果与基本意图信息的关联关系可为预先设定(比如通过规则设定,或者逻辑判断)。例如,当情绪识别结果的内容为“焦急”,基本意图信息的内容为“挂失信用卡”时,确定出的情绪意图信息的内容就可包括情绪识别结果与基本意图信息的关联关系:“挂失信用卡,用户很焦急,可能信用卡丢失或被盗”,同时所确定的情感需求信息就可为“安慰”。情绪识别结果与基本意图信息的关联关系也可以是基于特定训练过程得到的模型(比如训练好的端到端模型,可以通过输入情绪识别结果和基本意图信息直接输出情感意图)。这个训练模型可以是固定的深度网络模型(例如包括了预先设定好的规则),也可以通过在线学习不断更新(比如利用增强学习模型,在模型中设定目标函数和奖励函数,随着人机交互次数增加,该深度网络模型也可以不断更新演化)。
然而应当理解,情绪意图信息也可仅作为映射关系的标识存在。情绪意图信息与交互指令之间的对应关系、以及情绪意图信息和基本意图信息与交互指令之间的对应关系也可通过预学习过程预先建立。
应当理解,在一些应用场景下,是需要将对该情绪意图信息的回馈内容呈现出来的。例如在一些客服交互场景下,需要将根据客户的语音内容分析出的情绪意图信息呈现给客服人员,以起到提醒作用,此时就必然要确定对应的情绪意图信息,并将对该情绪意图信息的回馈内容呈现出来。然而在另外一些应用场景下,需要直接给出对应的交互指令,而并不需要呈现出对该情绪意图信息的回馈内容,此时也可根据情绪识别结果和基本意图信息直接确定对应的交互指令,而不用生成情绪意图信息。
在本发明一实施例中,为了进一步提高所获取的情绪意图信息的准确度,也可以根据当前的用户语音消息的情绪识别结果和基本意图信息,并结合过往的用户语音消息和/或后续的用户语音消息的情绪识别结果和基本意图信息,确定对应的情绪意图信息。此时就需要实时记录当前的用户语音消息的情绪识别结果和基本意图信息,以便于在根据其他的用户语音消息确定情绪意图信息时作为参考。例如,当前的用户语音消息的内容为“没有银行卡怎么取钱?”,所获取情绪识别结果为“焦急”,但是根据当前的用户语音消息无法准确判断“焦急”情绪的原因。此时可以追溯过往的用户语音消息和/或后续的用户语音消息,结果发现过往的一个用户语音消息为“银行卡如何挂失?”,于是可以推测用户的情绪意图信息可为“银行卡丢失导致了情绪焦急,希望咨询如何挂失或者在无银行卡的情况下取钱”。这时候可以针对情绪意图信息生成交互指令,如播放如下安慰语音“无卡取款请按照如下步骤操作,请您不要着急,丢失银行卡还可以按照下述方法操作……”。
在本发明一实施例中,为了进一步提高所获取的对应的交互指令的准确度,也可以根据当前的用户语音消息的情绪意图信息和基本意图信息,并结合过往的用户语音消息和/或后续的用户语音消息的情绪意图信息和基本意图信息,确定对应的交互指令。此时就需要实时记录当前的用户语音消息的情绪识别结果和基本意图信息,以便于在根据其他的用户语音消息确定交互指令时作为参考。
由此可见,本发明实施例提供的智能交互方法,在理解用户的基本意图信息的基础上,结合了基于用户消息获取的情绪识别结果,并进一步推测用户的情绪意图,或直接根据基本意图信息和情绪识别结果给出带有情绪的交互指令,从而解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图和情绪需求、以及无法提供更人性化的交互体验的问题。
在本发明一实施例中,当用户消息包括用户语音消息时,情绪识别结果可根据音频情绪识别结果以及文本情绪识别结果综合确定。具体而言,需要根据用户语音消息的音频数据获取音频情绪识别结果,并根据用户语音消息的文本内容获取文本情绪识别结果,然后根据音频情绪识别结果以及文本情绪识别结果综合确定情绪识别结果。然而如前所述,也可以仅根据音频情绪识别结果确定最终的情绪识别结果,本发明对此不作限定。
应当理解,音频情绪识别结果和文本情绪识别结果可通过多种方式来表征。在本发明一实施例中,可采用离散的情绪分类的方式来表征情绪识别结果,此时音频情绪识别结果和文本情绪识别结果可分别包括多个情绪分类中的一种或多种。例如,在客服交互场景中,该多个情绪分类就可包括:满意分类、平静分类以及烦躁分类,以对应客服交互场景中用户可能出现的情绪状态;或者,该多个情绪分类可包括:满意分类、平静分类、烦躁分类以及生气分类,以对应客服交互场景中客服人员可能出现的情绪状态。然而应当理解,这些情绪分类的种类和数量可根据实际的应用场景需求而调整,本发明对情绪分类的种类和数量同样不做严格限定。在一进一步实施例中,每个情绪分类还可包括多个情绪强度级别。具体而言,情绪分类和情绪强度级别可以认为是两个维度参数,可以彼此独立(例如,每种情绪分类都有对应的N种情绪强度级别,例如轻度、中度和重度),也可以有预设的对应关系(例如“烦躁”情绪分类包括三种情绪强度级别,轻度、中度和重度;而“满意”情绪分类只包括两种情绪强度级别,中度和重度)。由此可见,此时的情绪强度级别可以看做是情绪分类的一个属性参数,当通过情绪识别过程确定一种情绪分类时,也就确定了该情绪分类的情绪强度级别。
在本发明另一实施例中,还可采用非离散的维度情绪模型的方式来表征情绪识别结果。此时音频情绪识别结果和文本情绪识别结果可分别对应多维情感空间中的一个坐标点,多维情感空间中的每个维度对应一个心理学定义的情感因素。例如,可采用PAD(PleasureArousalDominanc)三维情绪模型。该模型认为情绪具有愉悦度,激活度和优势度三个维度,每种情绪都可通过这三个维度所分别对应的情感因素来表征。其中P代表愉悦度,表示个体情绪状态的正负特性;A代表激活度,表示个体的神经胜利激活水平;D代表优势度,表示个体对情景和他人的控制状态。
应当理解,音频情绪识别结果和文本情绪识别结果也可采用其他的表征方式来表征,本发明对具体的表征方式并不做限定。
图2所示为本发明一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。该实施例中的用户消息至少包括用户语音消息,情绪识别结果需要根据音频情绪识别结果和文本情绪识别结果综合确定,且音频情绪识别结果和文本情绪识别结果分别包括多个情绪分类中的一种或多种,此时该确定情绪识别结果的方法可包括如下步骤:
步骤201:如果音频情绪识别结果和文本情绪识别结果包括相同的情绪分类,则将相同的情绪分类作为情绪识别结果。
步骤202:如果音频情绪识别结果和文本情绪识别结果没有包括相同的情绪分类,则将音频情绪识别结果和文本情绪识别结果共同作为情绪识别结果。
应当理解,虽然在步骤202中限定了当音频情绪识别结果和文本情绪识别结果没有包括相同的情绪分类时,将音频情绪识别结果和文本情绪识别结果共同作为情绪识别结果,但在本发明的其他实施例中,也可采取更为保守的交互策略,例如直接生成报错信息或不输出情绪识别结果等,以免对交互过程造成误导,本发明对音频情绪识别结果和文本情绪识别结果没有包括相同的情绪分类时的处理方式并不做严格限定。
图3所示为本发明一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。该实施例中的用户消息也至少包括用户语音消息,情绪识别结果也需要根据音频情绪识别结果和文本情绪识别结果综合确定,且音频情绪识别结果和文本情绪识别结果分别包括多个情绪分类中的一种或多种,该确定情绪识别结果的方法可包括如下步骤:
步骤301:计算音频情绪识别结果中情绪分类的置信度以及文本情绪识别结果中情绪分类的置信度。
在统计学上,置信度也称为可靠度、置信水平、或置信系数。由于样本具有随机性,当利用抽样对总体参数作出估计时,所得出的结论总是不确定的。因此,可采用数理统计中的区间估计法来估计一个估计值与总体参数之间的误差在一定允许的范围以内的概率有多大,这个相应的概率即称作置信度。例如,假设预设的情绪分类与表征情绪分类的一个变量有关,即,根据该变量值的大小情绪分类可对应到不同的取值。当要获取语音情绪识别结果的置信度时,先通过多次的音频情绪识别/文本情绪识别过程得到该变量的多个测量值,然后将该多个测量值的均值作为一个估计值。再通过区间估计法来估计该估计值与该变量的真值之间的误差范围在一定范围内的概率,这个概率值越大说明这个估计值越准确,即当前的情绪分类的置信度越高。
步骤302:判断音频情绪识别结果中置信度最高的情绪分类与文本情绪识别结果中置信度最高的情绪分类是否相同。如果判断结果为是,则执行步骤303,否则执行步骤304。
步骤303:将音频情绪识别结果中置信度最高的情绪分类或文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
例如,当音频情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而文本情绪识别结果仅包括了满意分类(置信度为b1)时,且a1>a2时,则将满意分类作为最终的情绪识别结果。
步骤304:比较音频情绪识别结果中置信度最高的情绪分类的置信度与文本情绪识别结果中置信度最高的情绪分类的置信度。
在本发明一实施例中,考虑到在实际的应用场景中,根据情绪识别的具体算法以及用户语音消息的类型和内容的限制,可选择音频情绪识别结果和文本情绪识别结果中的一个作为主要考虑的情绪识别结果输出,而将另一个作为辅助考虑的情绪识别结果输出,然后再利用置信度和情绪强度级别等因素来综合确定最终的情绪识别结果。应当理解,选择音频情绪识别结果和文本情绪识别结果中的哪一个作为主要考虑的情绪识别结果输出可根据实际的场景而定。然而本发明对选择音频情绪识别结果和文本情绪识别结果中的哪一个作为主要考虑的情绪识别结果输出并不做限定。
在本发明一实施例中,将音频情绪识别结果作为主要考虑的情绪识别结果输出,将文本情绪识别结果作为辅助考虑的情绪识别结果输出。此时,如果音频情绪识别结果中置信度最高的情绪分类的置信度大于文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤305;如果音频情绪识别结果中置信度最高的情绪分类的置信度小于文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤306;如果音频情绪识别结果中置信度最高的情绪分类的置信度等于文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤309。
步骤305:将音频情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
由于选择了音频情绪识别结果作为主要考虑的情绪识别结果输出,因此本来就应优先考虑音频情绪识别结果中的情绪分类;再加上音频情绪识别结果中置信度最高的情绪分类的置信度大于文本情绪识别结果中置信度最高的情绪分类的置信度,因此就可选择主要考虑的音频情绪识别结果中可信度最高的情绪分类作为情绪识别结果。例如,当音频情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而文本情绪识别结果仅包括了平静分类(置信度为b1)时,a1>a2且a1>b1时,则将满意分类作为最终的情绪识别结果。
步骤306:判断音频情绪识别结果中是否包括了文本情绪识别结果中置信度最高的情绪分类。如果判断结果为是,则执行步骤307;如果判断结果为否,则执行步骤309。
例如,当音频情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而文本情绪识别结果仅包括了平静分类(置信度为b1),a1>a2且a1<b1时,则需要判断一下音频情绪识别结果中是否包括了文本情绪识别结果中的置信度最高的平静分类。
步骤307:进一步判断音频情绪识别结果中的文本情绪识别结果中置信度最高的情绪分类的情绪强度级别是否大于第一强度阈值。如果进一步判断的结果为是,则执行步骤308;否则执行步骤309。
步骤308:将文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
执行到步骤308意味着文本情绪识别结果中的该置信度最高的情绪分类不仅可信度高,且情绪的倾向十分明显,因此可将文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
步骤309:将音频情绪识别结果中置信度最高的情绪分类作为情绪识别结果,或将音频情绪识别结果中置信度最高的情绪分类和文本情绪识别结果中置信度最高的情绪分类共同作为情绪识别结果。
当音频情绪识别结果中置信度最高的情绪分类的置信度等于文本情绪识别结果中置信度最高的情绪分类的置信度,或音频情绪识别结果中并未包括文本情绪识别结果中置信度最高的情绪分类,或即使音频情绪识别结果中包括了文本情绪识别结果中置信度最高的情绪分类但该情绪分类的情绪强度级别不够高时,说明此时尚无法根据音频情绪识别结果和文本情绪识别结果输出一个统一的情绪分类作为最终的情绪识别结果。此时,在本发明一实施例中,考虑到选择了音频情绪识别结果作为主要考虑的情绪识别结果输出,因此直接将音频情绪识别结果中置信度最高的情绪分类作为情绪识别结果即可。在本发明另一实施例中,也可将音频情绪识别结果和文本情绪识别结果共同作为情绪识别结果。并在后续的过程中结合过往的用户语音消息和/或后续的用户语音消息的情绪识别结果和基本意图信息,确定对应的情绪意图信息。
图4所示为本发明另一实施例提供的智能交互方法中确定情绪识别结果的流程示意图。不同于图3所示的实施例,图4所示的实施例中选择了文本情绪识别结果作为主要考虑的情绪识别结果输出,而将音频情绪识别结果作为辅助考虑的情绪识别结果输出。应当理解,此时该确定情绪识别结果的流程可类似于图3所示的流程逻辑,仅是将作为主要考虑的情绪识别结果输出变更为了文本情绪识别结果,具体可包括如下步骤,但重复的逻辑描述不再赘述:
步骤401:计算音频情绪识别结果中情绪分类的置信度以及文本情绪识别结果中情绪分类的置信度。
步骤402:判断音频情绪识别结果中置信度最高的情绪分类与文本情绪识别结果中置信度最高的情绪分类是否相同。如果判断结果为是,则执行步骤403,否则执行步骤404。
步骤403:将音频情绪识别结果中置信度最高的情绪分类或文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
步骤404:比较文本情绪识别结果中置信度最高的情绪分类的置信度与音频情绪识别结果中置信度最高的情绪分类的置信度。
如果文本情绪识别结果中置信度最高的情绪分类的置信度大于音频情绪识别结果中置信度最高的情绪分类的置信度,执行步骤405;如果文本情绪识别结果中置信度最高的情绪分类的置信度小于音频情绪识别结果中置信度最高的情绪分类的置信度,执行步骤406;如果文本情绪识别结果中置信度最高的情绪分类的置信度等于音频情绪识别结果中置信度最高的情绪分类的置信度,执行步骤409。
步骤405:将文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
步骤406:判断文本情绪识别结果中是否包括了音频情绪识别结果中置信度最高的情绪分类。如果判断结果为是,则执行步骤407;如果判断结果为否,则执行步骤409。
步骤407:进一步判断文本情绪识别结果中的音频情绪识别结果中置信度最高的情绪分类的情绪强度级别是否大于第一强度阈值。如果进一步判断的结果为是,则执行步骤408;否则执行步骤409。
步骤408:将音频情绪识别结果中置信度最高的情绪分类作为情绪识别结果。
步骤409:将文本情绪识别结果中置信度最高的情绪分类作为情绪识别结果,或将文本情绪识别结果中置信度最高的情绪分类和音频情绪识别结果中置信度最高的情绪分类共同作为情绪识别结果。
应当理解,虽然图3和图4的实施例给出了确定情绪识别结果的示例,但根据音频情绪识别结果和文本情绪识别结果的具体形式不同,该根据音频情绪识别结果和文本情绪识别结果综合确定情绪识别结果的过程也可采取其他方式实现,而并不限于图3和图4所示的实施例,本发明对此并不做限定。
在本发明一实施例中,音频情绪识别结果和文本情绪识别结果分别对应多维情感空间中的一个坐标点,此时就可将音频情绪识别结果和文本情绪识别结果在多维情感空间中的坐标点的坐标值进行加权平均处理,将加权平均处理后得到的坐标点作为情绪识别结果。例如,当采用PAD三维情绪模型时,音频情绪识别结果表征为(p1,a1,d1),文本情绪识别结果表征为(p2,a2,d2),那么最终的情绪识别结果就可表征为((p1+p2)/2,(a1+1.3*a2)/2,(d1+0.8*d2)/2),其中的1.3和0.8为权重系数。采用非离散的维度情绪模型更便于以量化的方式计算出最终的情绪识别结果。然而应当理解,二者的组合方式并不限于上述的加权平均处理,本发明对当音频情绪识别结果和文本情绪识别结果分别对应多维情感空间中的一个坐标点时确定情绪识别结果的具体方式不做限定。
图5所示为本发明一实施例所提供的智能交互方法中根据用户语音消息的音频数据获取音频情绪识别结果的流程示意图。如图5所示,该根据用户语音消息的音频数据获取音频情绪识别结果的流程包括:
步骤501:提取待识别音频流中的用户语音消息的音频特征向量,其中用户语音消息对应待识别音频流中的一段话。
音频特征向量包括至少一个音频特征在至少一个向量方向上的取值。这样其实是利用一个多维的向量空间来表征所有的音频特征,在该向量空间中,音频特征向量的方向和取值可看做是由很多个音频特征各自在不同的向量方向上的取值在向量空间内求和而成,其中每个音频特征在一个向量方向上的取值可看做音频特征向量的一个分量。包括了不同情绪的用户语音消息必然有着不同的音频特征,本发明正是利用不同情绪与不同音频特征之间的对应关系来识别用户语音消息的情绪的。具体而言,音频特征可包括以下几种中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。在本发明一实施例中,可在该向量空间内设置以下向量方向:比例值、均值、最大值、中值以及标准差。
能量特征指的是用户语音消息的功率谱特征,可通过功率谱求和得到。计算公式可为:其中E表示能量特征的取值,k代表帧的编号,j代表频率点的编号,N为帧长,P表示功率谱的取值。在本发明一实施例中,能量特征可包括短时能量一阶差分、和/或预设频率以下的能量大小。短时能量一阶差分的计算公式可为:
ΔE(k)=(-2*E(k-2)-E(k-1)+E(k+1)+2*E(k+2))/3;
预设频率以下的能量大小可通过比例值来衡量,例如500Hz以下频段能量占总能量的比例值的计算公式可为:
其中j500为500Hz对应的频点编号,k1为待识别的用户语音消息的语音开始帧的编号,k2为待识别的用户语音消息的语音结束帧的编号。
发音帧数特征指的是用户语音消息内发音帧的数量大小,该发音帧的数量大小也可通过比例值来衡量。例如记该用户语音消息内发音帧和不发音帧的数量分别为n1和n2,则发音帧数和不发音帧数的比例为p2=n1/n2,发音帧数和总帧数的比例为:p3=n1/(n1+n2)。
基音频率特征可采用基于线性预测(LPC)误差信号的自相关函数的算法来提取。基音频率特征可包括基音频率和/或基音频率一阶差分。基音频率的算法流程可如下:首先,计算发音帧x(k)的线性预测系数并计算线性预测估计信号其次,计算误差信号的自相关函数c1:然后,在对应基音频率为80-500Hz的偏移量范围内,寻找自相关函数的最大值,记录其对应的偏移量Δh。基音频率F0的计算公式为:F0=Fs/Δh,其中Fs为采样频率。
共振峰特征可采用基于线性预测的多项式求根的算法来提取,可包括第一共振峰、第二共振峰和第三共振峰,以及该三个共振峰的一阶差分。谐波噪声比(HNR)特征可采用基于独立分量分析(ICA)的算法来提取。梅尔倒谱(MFCC)系数特征可包括1-12阶梅尔倒谱系数,可采用通用的梅尔倒谱系数计算流程获取,在此不再赘述。
应当理解,具体提取哪些音频特征向量可根据实际场景的需求而定,本发明对所提取音频特征向量所对应音频特征的种类、数量以及向量方向均不做限定。然而在本发明一实施例中,为了获得最优的情绪识别效果,可同时提取上述的六个音频特征:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。例如,当同时提取上述的六个音频特征时,所提取的音频特征向量就可包括如下表1所示的173个分量,采用下表1的音频特征向量以及高斯模型(GMM)作为情绪特征模型来对casia汉语情绪语料库进行语音情绪识别的准确度可以达到74%至80%。
表1
在本发明一实施例中,待识别音频流可为客服交互音频流,用户语音消息对应待识别音频流中的一次用户输入语音段或一次客服输入语音段。由于客户交互过程往往是一问一答的形式,因此一次用户输入语音段就可对应一次交互过程中用户的一次提问或回答,而一次客服输入语音段就可对应一次交互过程中客服人员的一次提问或回答。由于一般认为用户或客服在一次提问或回答中能完整的表达情绪,因此通过将一次用户输入语音段或一次客服输入语音段作为情绪识别的单元,既能保证情绪识别的完整性,又能保证客服交互过程中情绪识别的实时性。
步骤502:将用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中多个情绪特征模型分别对应多个情绪分类之一。
这些情绪特征模型可通过对包括多个情绪分类对应的情绪分类标签的多个预设用户语音消息各自的音频特征向量进行预学习而建立,这样就相当于建立起了情绪特征模型与情绪分类之间的对应关系,每个情绪特征模型可对应一个情绪分类。如图6所示,该建立情绪特征模型的预学习过程可包括:首先将包括多个情绪分类对应的情绪分类标签的多个预设用户语音消息各自的音频特征向量进行聚类处理,得到预设情绪分类的聚类结果(S61);然后,根据聚类结果,将每个聚类中的预设用户语音消息的音频特征向量训练为一个情绪特征模型(S62)。基于这些情绪特征模型,通过基于音频特征向量的匹配过程即可获得与当前用户语音消息对应的情绪特征模型,并进而获得对应的情绪分类。
在本发明一实施例中,这些情绪特征模型可为混合高斯模型(GMM)(混合度可为5)。这样可先采用K-means算法对同一情绪分类的语音样本的情绪特征向量进行聚类,根据聚类结果计算出混合高斯模型的参数的初始值(迭代次数可为50)。然后再采用E-M算法训练出各类情绪分类对应的混合高斯模型(迭代次数为200)。当要利用这些混合高斯模型进行情绪分类的匹配过程时,可通过计算当前用户语音消息的音频特征向量分别与多个情绪特征模型之间的似然概率,然后通过衡量该似然概率来确定匹配的情绪特征模型,例如将似然概率大于预设阈值且最大的情绪特征模型作为匹配的情绪特征模型。
应当理解,虽然在上面的描述中阐述了情绪特征模型可为混合高斯模型,但其实该情绪特征模型还可通过其他形式实现,例如支持向量机(SVM)模型、K最近邻分类算法(KNN)模型、马尔科夫模型(HMM)以及神经网络(ANN)模型等。
在本发明一实施例中,该多个情绪分类可包括:满意分类、平静分类以及烦躁分类,以对应客服交互场景中用户可能出现的情绪状态。在另一实施例中,该多个情绪分类可包括:满意分类、平静分类、烦躁分类以及生气分类,以对应客服交互场景中客服人员可能出现的情绪状态。即,待识别音频流为客服交互场景中的用户客服交互音频流时,若当前用户语音消息对应一次客服输入语音段时,该多个情绪分类可包括:满意分类、平静分类以及烦躁分类;若当前用户语音消息对应一次用户输入语音段时,该多个情绪分类可包括:满意分类、平静分类、烦躁分类以及生气分类。通过上述的对用户以及客服的情绪分类,可以更简洁的适用于呼叫中心系统,减少计算量并满足呼叫中心系统的情绪识别需求。然而应当理解,这些情绪分类的种类和数量可根据实际的应用场景需求而调整。
步骤503:将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为用户语音消息的情绪分类。
如前所述,由于情绪特征模型与情绪分类之间存在对应关系,因此当根据步骤502的匹配过程确定了相匹配的情绪特征模型后,该匹配的情绪特征模型所对应的情绪分类便为所识别出的情绪分类。例如,当这些情绪特征模型为混合高斯模型时,该匹配过程就可通过衡量当前用户语音消息的音频特征向量分别与多个情绪特征模型之间的似然概率的方式实现,然后将似然概率大于预设阈值且最大的情绪特征模型所对应的情绪分类作为用户语音消息的情绪分类即可。
由此可见,本发明实施例提供的一种语音情绪识别方法,通过提取待识别音频流中的用户语音消息的音频特征向量,并利用预先建立的情绪特征模型对所提取的音频特征向量进行匹配,从而实现了对用户语音消息的实时情绪识别。
还应当理解,基于本发明实施例提供的语音情绪识别方法所识别出的情绪分类,还可进一步配合具体的场景需求实现更多灵活的二次应用。在本发明一实施例中,可实时显示当前识别出的用户语音消息的情绪分类,具体的实时显示方式可根据实际的场景需求而调整。例如,可以信号灯的不同颜色来表征不同的情绪分类,这样根据信号灯颜色的变化,可以实时的提醒客服人员和质检人员目前通话所处的情绪状态。在另一实施例中,还可统计预设时间段内的所识别出的用户语音消息的情绪分类,例如将通话录音的音频编号、用户语音消息的开始点和结束点的时间戳,以及情绪识别结果记录下来,最终形成一个情绪识别资料库,并统计出一段时间内各种情绪出现的次数和概率,做出曲线图或表格,用于企业评判一段时间内客服人员服务质量的参考依据。在另一实施例中,还可实时发送与所识别出的用户语音消息的情绪分类对应的情绪应答信息,这可适用于无人工值守的机器客服场景。例如,当实时识别出目前通话中用户已经处于“生气”状态时,则自动回复用户与“生气”状态对应的安抚话语,以平复用户心情,达到继续沟通的目的。至于情绪分类与情绪应答信息之间的对应关系可通过预学习过程预先建立。
在本发明一实施例中,在提取待识别音频流中的用户语音消息的音频特征向量之前,需要先将用户语音消息从待识别音频流中提取出来,以便于后续以用户语音消息为单位进行情绪识别,该提取过程可以是实时进行的。
图7所示为本发明一实施例所提供的语音情绪识别方法中提取用户语音消息的流程示意图。如图7所示,该用户语音消息的提取方法包括:
步骤701:确定待识别音频流中的语音开始帧以及语音结束帧。
语音开始帧为一个用户语音消息的开始帧,语音结束帧为一个用户语音消息的结束帧。当确定了语音开始帧和语音结束帧后,语音开始帧和语音结束帧之间的部分即为所要提取的用户语音消息。
步骤702:提取语音开始帧与语音结束帧之间的音频流部分作为用户语音消息。
在本发明一实施例中,如图8所示,可具体通过如下步骤确定待识别音频流中的语音开始帧以及语音结束帧:
步骤801:判断待识别音频流中的语音帧是发音帧还是非发音帧。
在本发明一实施例中,该发音帧或非发音帧的判断过程可基于对语音端点检测(VAD)判决参数以及功率谱均值的判断实现,如图9所示,具体如下:
步骤8011:对待识别音频流进行分帧、加窗、预加重等预处理。窗函数可采用汉明窗,预加重系数可取0.97。记预处理后的第k帧信号为x(k)=[x(k*N),x(k*N+1),...,x(k*N+N-1)],N为帧长,例如可取256。然而应当理解,是否需要进行预处理过程,以及需要经过哪些预处理过程可根据实际的场景需求而定,本发明此不做限定。
步骤8012:对预处理后的第k帧信号x(k)做离散傅里叶变换(DFT)并计算其功率谱,DFT长度取为和帧长一致:
P(k,j)=|FFT(x(k))|2,j=0,1,...,N-1;
这里j代表频率点的编号。
步骤8013:计算后验信噪比γ和先验信噪比ξ:
ξ(k,j)=αξ(k-1,j)+(1-α)max(γ(k,j)-1,0);
这里的系数α=0.98;λ为背景噪声功率谱,可以检测开始的最初5至10帧的功率谱算数平均值作为初始值;min()和max()分别为取最小函数和取最大函数;先验信噪比ξ(k,j)可初始化为0.98。
步骤8014:计算似然比参数η:
步骤8015:计算VAD判决参数Γ和功率谱均值ρ,
VAD判决参数可初始化为1。
步骤8016:判断第k帧信号的VAD判决参数Γ(k)是否大于等于第一预设VAD阈值,并且ρ(k)是否大于等于预设功率均值阈值。在本发明一实施例中,该第一预设VAD阈值可为5,该预设功率均值阈值可为0.01。
步骤8017:如果步骤8016中的两个判断的结果均为是,则将第k帧音频信号判定为发音帧。
步骤8018:如果步骤8016中的两个判断中至少一个的结果为否,将第k帧音频信号判定为不发音帧,执行步骤8019。
步骤8019:按下面公式更新噪声功率谱λ:
λ(k+1,j)=β*λ(k,j)+(1-β)*P(k,j);
这里的系数β为平滑系数,可取值为0.98。
由此可见,通过不断循环如图5所示的方法步骤便可实时监测出待识别音频流中的发音帧和非发音帧。这些发音帧和非发音帧的识别结果是后续识别语音开始帧和语音结束帧的基础。
步骤802:在确定上一段用户语音消息的所述语音结束帧之后或者当前用户语音消息为所述待识别音频流的第一段用户语音消息时,当有第一预设数量个语音帧被连续判断为发音帧时,将该第一预设数量个语音帧中的第一个语音帧作为当前用户语音消息的语音开始帧。
在本发明一实施例中,可首先设置两个端点标志flag_start和flag_end,分别代表语音开始帧和语音结束帧的检测状态变量,ture和false分别代表出现和未出现。当flag_end=ture时,则说明上一个用户语音消息的结束帧已经被确定,此时开始检测下一个用户语音消息的开始帧。而当连续30帧信号的VAD判决参数满足大于等于第二预设阈值时,说明该30帧已经进入了一个用户语音消息,此时将该30帧中的第一个语音帧作为语音开始帧,flag_start=ture;否则lag_start=false。
步骤803:在确定当前用户语音消息的所述语音开始帧之后,当有第二预设数量个语音帧被连续判断为非发音帧时,说明该第二预设数量个语音帧已经不属于该用户语音消息,此时将第二预设数量个语音帧中的第一个语音帧作为当前用户语音消息的语音结束帧。
具体而言,仍沿用上面的例子,当flag_start=ture时,则说明已经进入了一个用户语音消息且该用户语音消息的语音起始帧已经被确定,此时开始检查当前用户语音消息的结束帧。而当连续30帧信号的VAD判决参数满足小于第三预设阈值时,判定为当前用户语音消息结束,flag_end=ture,对应30帧的第一帧为语音结束帧;否则flag_end=false。
在本发明一实施例中,为了进一步提高语音开始帧和语音结束帧的判断准确度,避免误判,可使得该第二预设阈值和第三预设阈值均大于前述发音帧和非发音帧识别过程中的第一预设阈值,例如该第二预设阈值可为40,该第三预设阈值可为20。
由此可见,通过如图8所示的方法步骤,便可确定待识别音频流中的语音开始帧以及语音结束帧,并可提取语音开始帧和语音结束帧之间的用户语音消息进行情绪识别。
应当理解,虽然在上述图8和图9的实施例描述中引入了一些计算系数、参数的初始值以及一些判断阈值,但这些计算系数、参数的初始值以及判断阈值可根据实际的应用场景而调整,本发明对这些计算系数、参数的初始值以及判断阈值的大小不做限定。
图10所示为本发明一实施例提供的智能交互方法中根据用户语音消息的文本内容获取文本情绪识别结果的流程示意图。如图10所示,该据用户语音消息的文本内容获取文本情绪识别结果的流程可包括如下步骤:
步骤1001:识别用户语音消息的文本内容中的情绪词汇,根据所识别出的情绪词汇确定第一文本情绪识别结果。
情绪词汇与第一文本情绪识别结果之间的对应关系可通过预学习过程建立,每个情绪词汇都有对应的情绪分类和情绪强度级别,按照预设的统计算法和对应关系便会得到用户语音消息的整个文本内容的情绪分类以及该情绪分类的情绪强度级别。例如,用户语音消息的文本内容中包括了如下情绪词汇:“谢谢”(对应满意情绪分类,情绪强度级别为中度)、“你真棒”(对应满意情绪分类,情绪强度级别为高度)、“太好了”(对应满意情绪分类,情绪强度级别为高度)等情绪词汇时,所对应的第一文本情绪识别结果就可能是满意情绪分类,且该满意情绪分类的情绪强度级别为高度。
步骤1002:将用户语音消息的文本内容输入文本情绪识别深度学习模型,文本情绪识别深度学习模型基于对包括情绪分类标签和情绪强度级别标签的文本内容进行训练而建立,将文本情绪识别深度学习模型的输出结果作为第二文本情绪识别结果。
步骤1003:根据第一文本情绪识别结果和第二文本情绪识别结果确定文本情绪识别结果。
应当理解,第一文本情绪识别结果和第二文本情绪识别结果可通过多种方式来表征。在本发明一实施例中,可采用离散的情绪分类的方式来表征情绪识别结果,此时第一文本情绪识别结果和第二文本情绪识别结果可分别包括多个情绪分类中的一种或多种,其中的每个情绪分类可包括多个情绪强度级别。在本发明另一实施例中,也可采用非离散的维度情绪模型的方式来表征情绪识别结果,第一文本情绪识别结果以及第二文本情绪识别结果分别对应多维情感空间中的一个坐标点,多维情感空间中的每个维度对应一个心理学定义的情感因素。关于离散的情绪分类的表征方式和非离散的维度情绪模型的表征方式已在前面有所描述,在此不再赘述。然而应当理解,第一文本情绪识别结果和第二文本情绪识别结果也可采用其他的表征方式来表征,本发明对具体的表征方式并不做限定。同时应当理解,在本发明一实施例中,也可以仅根据第一文本情绪识别结果以及第二文本情绪识别结果中的一种来确定最终的文本情绪识别结果,本发明对此不作限定。
图11所示为本发明一实施例提供的智能交互方法中根据用户语音消息的文本内容获取文本情绪识别结果的流程示意图。该实施例中的用户消息包括用户语音消息,文本情绪识别结果需要根据第一文本情绪识别结果和第二文本情绪识别结果综合确定,且第一文本情绪识别结果和第二文本情绪识别结果分别包括多个情绪分类中的一种或多种,此时该确定文本情绪识别结果的方法可包括如下步骤:
步骤1101:如果第一文本情绪识别结果和第二文本情绪识别结果包括相同的情绪分类,则将相同的情绪分类作为文本情绪识别结果。
例如,当第一文本情绪识别结果包括了满意分类和平静分类,而第二文本情绪识别结果仅包括了满意分类时,则最终的文本情绪识别结果就可为满意分类。
步骤1102:如果第一文本情绪识别结果和第二文本情绪识别结果没有包括相同的情绪分类,则将第一文本情绪识别结果和第二文本情绪识别结果共同作为文本情绪识别结果。
例如,当第一文本情绪识别结果包括了满意分类,而第二文本情绪识别结果仅包括了平静分类时,则最终的文本情绪识别结果就可为满意分类和平静分类。在本发明一实施例中,当最终的文本情绪识别结果包括了多个情绪分类时,就还要在后续的过程中结合过往的用户语音消息和/或后续的用户语音消息的文本情绪识别结果和基本意图信息,以确定对应的情绪意图信息。
应当理解,虽然在步骤1102中限定了当第一文本情绪识别结果和第二文本情绪识别结果没有包括相同的情绪分类时,将第一文本情绪识别结果和第二文本情绪识别结果共同作为文本情绪识别结果,但在本发明的其他实施例中,也可采取更为保守的交互策略,例如直接生成报错信息或不输出文本情绪识别结果等,以免对交互过程造成误导,本发明对第一文本情绪识别结果和第二文本情绪识别结果没有包括相同的情绪分类时的处理方式并不做严格限定。
图12所示为本发明一实施例提供的智能交互方法中确定文本情绪识别结果的流程示意图。该实施例中的用户消息也包括用户语音消息,文本情绪识别结果也需要根据第一文本情绪识别结果和第二文本情绪识别结果综合确定,且第一文本情绪识别结果和第二文本情绪识别结果分别包括多个情绪分类中的一种或多种,该确定文本情绪识别结果的方法可包括如下步骤:
步骤1201:计算第一文本情绪识别结果中情绪分类的置信度以及第二文本情绪识别结果中情绪分类的置信度。
在统计学上,置信度也称为可靠度、置信水平、或置信系数。由于样本具有随机性,当利用抽样对总体参数作出估计时,所得出的结论总是不确定的。因此,可采用数理统计中的区间估计法来估计一个估计值与总体参数之间的误差在一定允许的范围以内的概率有多大,这个相应的概率即称作置信度。例如,假设预设的情绪分类与表征情绪分类的一个变量有关,即,根据该变量值的大小情绪分类可对应到不同的取值。当要获取语音文本情绪识别结果的置信度时,先通过多次的第一文本情绪识别/第二文本情绪识别过程得到该变量的多个测量值,然后将该多个测量值的均值作为一个估计值。再通过区间估计法来估计该估计值与该变量的真值之间的误差范围在一定范围内的概率,这个概率值越大说明这个估计值越准确,即当前的情绪分类的置信度越高。应当理解,上述表征情绪分类的变量可根据情绪识别的具体算法而确定,本发明对此不做限定。
步骤1202:判断第一文本情绪识别结果中置信度最高的情绪分类与第二文本情绪识别结果中置信度最高的情绪分类是否相同。如果判断结果为是,则执行步骤1203,否则执行步骤1204。
步骤1203:将第一文本情绪识别结果中置信度最高的情绪分类或第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
此时说明第一文本情绪识别结果和第二文本情绪识别结果中可信度最高的情绪分类是相同的,因此可将该相同的可信度最高的情绪分类直接作为最终的文本情绪识别结果。例如,当第一文本情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而第二文本情绪识别结果仅包括了满意分类(置信度为b1)时,且a1>a2时,则将满意分类作为最终的文本情绪识别结果。
步骤1204:比较第一文本情绪识别结果中置信度最高的情绪分类的置信度与第二文本情绪识别结果中置信度最高的情绪分类的置信度。
在本发明一实施例中,考虑到在实际的应用场景中,根据情绪识别的具体算法以及用户语音消息的类型和内容的限制,可选择第一文本情绪识别结果和第二文本情绪识别结果中的一个作为主要考虑的文本情绪识别结果输出,而将另一个作为辅助考虑的文本情绪识别结果输出,然后再利用置信度和情绪强度级别等因素来综合确定最终的文本情绪识别结果。应当理解,选择第一文本情绪识别结果和第二文本情绪识别结果中的哪一个作为主要考虑的文本情绪识别结果输出可根据实际的场景而定,本发明对选择第一文本情绪识别结果和第二文本情绪识别结果中的哪一个作为主要考虑的文本情绪识别结果输出并不做限定。
在本发明一实施例中,将第一文本情绪识别结果作为主要考虑的文本情绪识别结果输出,将第二文本情绪识别结果作为辅助考虑的文本情绪识别结果输出。此时,如果第一文本情绪识别结果中置信度最高的情绪分类的置信度大于第二文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1205;如果第一文本情绪识别结果中置信度最高的情绪分类的置信度小于第二文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1206;如果第一文本情绪识别结果中置信度最高的情绪分类的置信度等于第二文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1209。
步骤1205:将第一文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
例如,当第一文本情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而第二文本情绪识别结果仅包括了平静分类(置信度为b1)时,a1>a2且a1>b1时,则将满意分类作为最终的文本情绪识别结果。
步骤1206:判断第一文本情绪识别结果中是否包括了第二文本情绪识别结果中置信度最高的情绪分类。如果判断结果为是,则执行步骤1207;如果判断结果为否,则执行步骤1209。
例如,当第一文本情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而第二文本情绪识别结果仅包括了平静分类(置信度为b1),a1>a2且a1<b1时,则需要判断一下第一文本情绪识别结果中是否包括了第二文本情绪识别结果中的置信度最高的平静分类。
步骤1207:进一步判断第一文本情绪识别结果中的第二文本情绪识别结果中置信度最高的情绪分类的情绪强度级别是否大于第一强度阈值。如果进一步判断的结果为是,则执行步骤1208;否则执行步骤1209。
步骤1208:将第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
此时意味着第二文本情绪识别结果中的该置信度最高的情绪分类不仅可信度高,且情绪的倾向十分明显,因此可将第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。例如,当第一文本情绪识别结果包括了满意分类(置信度为a1)和平静分类(置信度为a2),而第二文本情绪识别结果仅包括了平静分类(置信度为b1),a1>a2、a1<b1且第二文本情绪识别结果中的平静分类的情绪强度级别大于了第一强度阈值,则将平静分类作为最终的文本情绪识别结果。
步骤1209:将第一文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果,或将第一文本情绪识别结果中置信度最高的情绪分类和第二文本情绪识别结果中置信度最高的情绪分类共同作为文本情绪识别结果。
说明此时尚无法根据第一文本情绪识别结果和第二文本情绪识别结果输出一个统一的情绪分类作为最终的文本情绪识别结果。此时,在本发明一实施例中,考虑到选择了第一文本情绪识别结果作为主要考虑的文本情绪识别结果输出,因此直接将第一文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果即可。在本发明另一实施例中,也可将第一文本情绪识别结果和第二文本情绪识别结果共同作为文本情绪识别结果。并在后续的过程中结合过往的用户语音消息和/或后续的用户语音消息的文本情绪识别结果和基本意图信息,确定对应的情绪意图信息。
图13所示为本发明另一实施例提供的智能交互方法中确定文本情绪识别结果的流程示意图。不同于图12所示的实施例,图13所示的实施例中选择了第二文本情绪识别结果作为主要考虑的文本情绪识别结果输出,而将第一文本情绪识别结果作为辅助考虑的文本情绪识别结果输出。应当理解,此时该确定文本情绪识别结果的流程可类似于图12所示的流程逻辑,仅是将作为主要考虑的文本情绪识别结果输出变更为了第二文本情绪识别结果,具体可包括如下步骤,但重复的逻辑描述不再赘述:
步骤1301:计算第一文本情绪识别结果中情绪分类的置信度以及第二文本情绪识别结果中情绪分类的置信度。
步骤1302:判断第一文本情绪识别结果中置信度最高的情绪分类与第二文本情绪识别结果中置信度最高的情绪分类是否相同。如果判断结果为是,则执行步骤1303,否则执行步骤1304。
步骤1303:将第一文本情绪识别结果中置信度最高的情绪分类或第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
步骤1304:比较第二文本情绪识别结果中置信度最高的情绪分类的置信度与第一文本情绪识别结果中置信度最高的情绪分类的置信度。
如果第二文本情绪识别结果中置信度最高的情绪分类的置信度大于第一文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1305;如果第二文本情绪识别结果中置信度最高的情绪分类的置信度小于第一文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1306;如果第二文本情绪识别结果中置信度最高的情绪分类的置信度等于第一文本情绪识别结果中置信度最高的情绪分类的置信度,执行步骤1309。
步骤1305:将第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
步骤1306:判断第二文本情绪识别结果中是否包括了第一文本情绪识别结果中置信度最高的情绪分类。如果判断结果为是,则执行步骤1307;如果判断结果为否,则执行步骤1309。
步骤1307:进一步判断第二文本情绪识别结果中的第一文本情绪识别结果中置信度最高的情绪分类的情绪强度级别是否大于第一强度阈值。如果进一步判断的结果为是,则执行步骤1308;否则执行步骤1309。
步骤1308:将第一文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果。
步骤1309:将第二文本情绪识别结果中置信度最高的情绪分类作为文本情绪识别结果,或将第二文本情绪识别结果中置信度最高的情绪分类和第一文本情绪识别结果中置信度最高的情绪分类共同作为文本情绪识别结果。
应当理解,虽然图12和图13的实施例给出了确定文本情绪识别结果的示例,但根据第一文本情绪识别结果和第二文本情绪识别结果的具体形式不同,该根据第一文本情绪识别结果和第二文本情绪识别结果综合确定文本情绪识别结果的过程也可采取其他方式实现,而并不限于图12和图13所示的实施例,本发明对此并不做限定。
在本发明一实施例中,第一文本情绪识别结果和第二文本情绪识别结果分别对应多维情感空间中的一个坐标点,此时就可将第一文本情绪识别结果和第二文本情绪识别结果在多维情感空间中的坐标点的坐标值进行加权平均处理,将加权平均处理后得到的坐标点作为文本情绪识别结果。例如,当采用PAD三维情绪模型时,第一文本情绪识别结果表征为(p1,a1,d1),第二文本情绪识别结果表征为(p2,a2,d2),那么最终的文本情绪识别结果就可表征为((p1+p2)/2,(a1+1.3*a2)/2,(d1+0.8*d2)/2),其中的1.3和0.8为权重系数。采用非离散的维度情绪模型更便于以量化的方式计算出最终的文本情绪识别结果。然而应当理解,二者的组合方式并不限于上述的加权平均处理,本发明对此具体方式不做限定。
图14所示为本发明一实施例提供的智能交互方法中根据用户语音消息获取基本意图信息的流程示意图。如图14所示,该获取基本意图信息的流程可包括如下步骤:
步骤1401:将用户语音消息的文本内容与语义知识库中多个预设的语义模板进行匹配以确定匹配的语义模板;其中语义模板与基本意图信息之间的对应关系预先建立在语义知识库中,同一意图信息对应一个或多个语义模板。
应当理解,通过语义模板进行语义的匹配(如标准问、扩展问等语义模板)只是一种实现方式,用户输入的语音文本信息也可以直接通过网络提取字、词、句向量特征(可能加入attention机制)直接做匹配或分类。
步骤1402:获取与匹配的语义模板对应的基本意图信息。
在本发明一实施例中,用户语音消息的文本内容可与语义知识库中的“标准问”对应,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。用户在向智能交互机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。
然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式,即为扩展问。因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。因此,在本发明一进一步实施例中,语义模板为表示某一种语义内容的一个或多个语义表达式的集合,由开发人员根据预定的规则结合语义内容生成,即通过一个语义模板就可描述所对应语义内容的多种不同表达方式的语句,以应对用户语音消息的文本内容可能的多种变形。这样将用户消息的文本内容与预设的语义模板进行匹配,避免了利用仅能描述一种表达方式的“标准问”来识别用户消息时的局限性。
例如采用抽象语义对本体类属性做进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表达式在组成元素上进行了扩充。
应当理解,语义成分词的具体内容和词类,语义规则词的具体内容和词类以及语义符号的定义和搭配都可由开发人员根据该智能交互方法所应用的具体交互业务场景而预设,本发明对此并不做限定。
在本发明一实施例中,根据用户语音消息的文本内容确定匹配的语义模板的过程可通过相似度计算过程实现。具体而言,计算用户语音消息的文本内容与多个预设的语义模板之间的多个文本相似度,然后将文本相似度最高的语义模板作为匹配的语义模板。相似度可采用如下计算方法中的一种或多种:编辑距离计算方法,n-gram计算方法,JaroWinkler计算方法以及Soundex计算方法。在一进一步实施例中,当识别出用户语音消息的文本内容中的语义成分词和语义规则词时,用户语音消息和语义模板中所包括语义成分词和语义规则词还可被转化成简化的文本字符串,以提高语义相似度计算的效率。
在本发明一实施例中,如前所述,语义模板可由语义成分词和语义规则词构成,而这些语义成分词和语义规则词又与这些词语在语义模板中的词性以及词语之间的语法关系有关,因此该相似度计算过程可具体为:先识别出用户语音消息文本中的词语、词语的词性以及语法关系,然后根据词语的词性以及语法关系识别出其中的语义成分词和语义规则词,再将所识别出的语义成分词和语义规则词引入向量空间模型以计算用户语音消息的文本内容与多个预设的语义模板之间的多个相似度。在本发明一实施例中,可以如下分词方法中的一种或多种识别用户语音消息的文本内容中的词语、词语的词性以及词语之间的语法关系:隐马尔可夫模型方法、正向最大匹配方法、逆向最大匹配方法以及命名实体识别方法。
在本发明一实施例中,如前所述,语义模板可为表示某一种语义内容的多个语义表达式的集合,此时通过一个语义模板就可描述所对应语义内容的多种不同表达方式的语句,以对应同一标准问的多个扩展问。因此在计算用户语音消息的文本内容与预设的语义模板之间的语义相似度时,需要计算用户语音消息的文本内容与多个预设的语义模板各自展开的至少一个扩展问之间的相似度,然后将相似度最高的扩展问所对应的语义模板作为匹配的语义模板。这些展开的扩展问可根据语义模板所包括的语义成分词和/或语义规则词和/或语义符号而获得。
当然获取基本意图信息的方法并不限于此,用户输入的语音文本信息可以直接通过网络提取字、词、句向量特征(如可能加入attention机制)直接匹配或分类到基本意图信息来实现。
由此可见,通过本发明实施例所提供的智能交互方法,可实现根据用户情绪状态不同而提供不同应答服务的智能交互方式,由此可大大提高智能交互的体验。例如,当本发明实施例所提供的智能交互方法应用在银行客服领域的实体机器人时,用户用语音对实体客服机器人说:“信用卡要挂失怎么办?”。实体客服机器人通过麦克风接收用户语音消息,并通过分析用户语音消息的音频数据得到音频情绪识别结果为“焦急”,并将音频情绪识别结果作为最终的情绪识别结果;将用户语音消息转换为文本,得到客户的基本意图信息为“挂失信用卡”(这一步骤也可能需要涉及到结合过往或后续的用户语音消息和银行领域的语义知识库);然后,将情绪识别结果“焦急”与基本意图信息“挂失信用卡”联系在一起,得到情绪意图信息“挂失信用卡,用户很焦急,可能信用卡丢失或被盗”(这一步骤也可能需要涉及到结合过往或后续的用户语音消息和银行领域的语义知识库);确定对应的交互指令:屏幕输出信用卡挂失步骤,同时通过语音播报呈现情绪分类“安慰”,情绪强度级别为高,输出给用户符合该情绪指令的可能是音调轻快、中等语速的语音播报:“挂失信用卡的步骤请见屏幕显示,请您不要担心,如果是信用卡遗失或被盗,卡挂失后立刻冻结,不会对您的财产和信誉造成损失……”。
在本发明一实施例中,一些应用场景(例如银行客服)也可能考虑交互内容的隐私性而避免语音播报操作,而改为以纯文本或动画的方式实现交互指令。这种交互指令的模态选择可根据应用场景而调整。
应当理解,交互指令中对于情绪分类和情绪强度级别的呈现方式可通过调整语音播报的语速和语调等方式实现,本发明对此不做限定。
再例如,当本发明实施例所提供的智能交互方法应用在智能终端设备的虚拟智能个人助理应用中时,用户对智能终端设备用语音说:“从家里到机场最快的路径是什么?”。虚拟智能个人助理应用通过智能终端设备的麦克风接收用户语音消息,并通过分析用户语音消息的音频数据得到音频情绪识别结果为“兴奋”;同时将用户语音消息转化为文本,并通过分析用户语音消息的文本内容得到文本情绪识别结果为“焦急”,经过逻辑判断将“兴奋”和“焦急”两种情绪分类同时作为了情绪识别结果。通过结合过往或后续的用户语音消息和本领域的语义知识库得到客户的基本意图信息为“获得用户从家到机场最快的路径导航”。由于虚拟智能个人助理应用将“焦急”与基本意图信息“获得用户从家到机场最快的路径导航”联系在一起得到的情绪意图信息为“获得用户从家到机场最快的路径导航,用户很焦急,可能担心误点飞机”;而将“兴奋”与基本意图信息联系在一起得到的情绪意图信息为“获得用户从家到机场最快的路径导航,用户很兴奋,可能马上要去旅行”;因此,这里会产生两种情绪意图信息,此时可结合过往或后续的用户语音消息,发现前面用户提到“我的航班是11点起飞,需要几点出发?”,于是判断用户的情绪识别结果为“焦急”,情绪意图信息为“获得用户从家到机场最快的路径导航,用户很焦急,可能担心误点飞机”。确定对应的交互指令:屏幕输出导航信息,同时通过语音播报呈现情绪分类“安慰”和“警示”,情绪强度级别分别为高,输出给用户符合该情绪指令的可能是音调平稳、中等语速的语音播报:“从您家庭住址到机场最快的路径规划完毕,请按屏幕显示进行导航,正常行驶预计可在1小时内到达机场,请您不要担心。另外提醒做好时间规划,注意行车安全,请勿超速行驶。”
再例如,当本发明实施例所提供的智能交互方法应用在一种智能穿戴设备中时,用户在运动的时候对智能穿戴设备用语音说:“我现在的心跳情况如何?”。智能穿戴设备通过麦克风接收用户语音消息,并通过分析用户语音消息的音频数据得到音频情绪识别结果为PAD三维情绪模型向量(p1,a1,d1),通过分析用户语音消息的音频数据得到文本情绪识别结果为PAD三维情绪模型向量(p2,a2,d2),结合音频情绪识别结果和文本情绪识别结果得到最终的情绪识别结果(p3,a3,d3),表征了“担忧”和“紧张”的结合。与此同时,智能穿戴设备通过结合医疗健康领域的语义知识库得到客户的基本意图信息为“获得用户的心跳数据”。接着,将情绪识别结果(p3,a3,d3)与基本意图“获得用户的心跳数据”联系在一起,得到情绪意图信息为“获得用户的心跳数据,用户表示担忧,可能当前有心跳过快等不适症状”。根据情绪意图信息和交互指令之间的对应关系确定交互指令:在输出心跳数据的同时呈现情绪(p6,a6,d6),即“安慰”和“鼓励”的结合,情绪强度分别为高,同时启动实时监控心跳的程序持续10min,并以音调轻快、缓慢语速的语音播报:“您当前的心跳数据是每分钟150次,请您不要担心,该数据尚属于正常心跳范围。如有感到心跳过快等不适症状请放松心情做深呼吸进行调整。您以往的健康数据显示心脏工作良好,可以通过保持规律的锻炼增强心肺功能。”然后持续关注用户的情绪状态。如果5min后用户说“有些不舒服。”通过情绪识别过程得到情绪识别结果为三维情绪模型向量(p7,a7,d7),表征了“痛苦”,则重新更新交互指令为:屏幕输出心跳数据,同时通过语音播报呈现情绪(p8,a8,d8),即“警示”,情绪强度分别为高等,输出报警音,并以音调沉稳、缓慢语速的语音播报:“您当前的心跳数据是每分钟170次,已超过正常范围,请您停止运动,调整呼吸。如需求助请按屏幕。”
图15为本发明一实施例提供的一种智能交互装置的结构示意图。如图15所示,该智能交互装置10包括:情绪识别模块11、基本意图识别模块12以及交互指令确定模块13。
情绪识别模块11配置为根据用户消息获取情绪识别结果,用户消息中至少包括用户语音消息。基本意图识别模块12配置为根据用户语音消息的文本内容进行意图分析,得到对应的基本意图信息。交互指令确定模块13,配置为根据情绪识别结果和基本意图信息确定对应的交互指令。
本发明实施例提供的智能交互装置10,在理解用户的基本意图信息的基础上,结合了基于用户消息获取的情绪识别结果,并进一步根据基本意图信息和情绪识别结果给出带有情绪的交互指令,从而解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。
在本发明一实施例中,如图16所示,交互指令确定模块13包括:情绪意图识别单元131和交互指令确定单元132。情绪意图识别单元131配置为根据情绪识别结果和基本意图信息确定对应的情绪意图信息。交互指令确定单元132配置为根据情绪意图信息确定对应的交互指令,或根据情绪意图信息和基本意图信息确定对应的交互指令。
在本发明一实施例中,交互指令包括呈现对情绪意图信息的回馈内容。例如在一些客服交互场景下,需要将根据客户的语音内容分析出的情绪意图信息呈现给客服人员,以起到提醒作用,此时就必然要确定对应的情绪意图信息,并将对该情绪意图信息的回馈内容呈现出来。
在本发明一实施例中,交互指令包括以下一种或多种情感呈现模态:文本输出情感呈现模态、乐曲播放情感呈现模态、语音情感呈现模态、图像情感呈现模态和机械动作情感呈现模态。
在本发明一实施例中,情绪意图信息包括与情绪识别结果对应的情感需求信息;或,情绪意图信息包括与情绪识别结果对应的情感需求信息以及情绪识别结果与基本意图信息的关联关系。
在本发明一实施例中,情绪识别结果与基本意图信息的关联关系为预先设定。
在本发明一实施例中,用户信息至少包括用户语音消息;其中,情绪识别模块11进一步配置为:根据用户语音消息获取情绪识别结果。
在本发明一实施例中,如图16所示,情绪识别模块11可包括:音频情绪识别单元111,配置为根据用户语音消息的音频数据获取音频情绪识别结果;以及,情绪识别结果确定单元112,配置为根据音频情绪识别结果确定情绪识别结果。
或,情绪识别模块11包括:音频情绪识别单元111,配置为根据用户语音消息的音频数据获取音频情绪识别结果;文本情绪识别单元113,配置为根据用户语音消息的文本内容获取文本情绪识别结果;以及,情绪识别结果确定单元112,配置为根据音频情绪识别结果以及文本情绪识别结果确定情绪识别结果。
在本发明一实施例中,音频情绪识别结果包括多个情绪分类中的一种或多种;或,音频情绪识别结果对应多维情感空间中的一个坐标点。或,音频情绪识别结果以及文本情绪识别结果分别包括多个情绪分类中的一种或多种;或,音频情绪识别结果以及文本情绪识别结果分别对应多维情感空间中的一个坐标点。其中,多维情感空间中的每个维度对应一个心理学定义的情感因素,每个情绪分类包括多个情绪强度级别。
图17为本发明一实施例提供的一种智能交互装置的结构示意图。如图17所示,该智能交互装置10中的音频情绪识别单元111包括:音频特征提取子单元1111、匹配子单元1112和音频情绪判定子单元1113。
音频特征提取子单元1111配置为提取用户语音消息的音频特征向量,其中用户语音消息对应待识别音频流中的一段话。匹配子单元1112,配置为将用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中多个情绪特征模型分别对应多个情绪分类中的一个。音频情绪判定子单元1113配置为将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为用户语音消息的情绪分类。
在本发明一实施例中,如图18所示,音频情绪识别单元111进一步包括:情绪模型建立子单元1114,配置为通过对包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立多个情绪特征模型。
在本发明一实施例中,情绪模型建立子单元1114包括:聚类子单元和训练子单元。聚类子单元配置为将包括多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行聚类处理,得到预设情绪分类的聚类结果。训练子单元配置为根据聚类结果,将每个聚类中的预设语音片段的音频特征向量集合训练为一个情绪特征模型。
在本发明一实施例中,如图18所示,音频情绪识别单元111进一步包括:语句端点检测子单元1115、和提取子单元1116。语句端点检测子单元1115配置为确定待识别音频流中的语音开始帧以及语音结束帧。提取子单元1116配置为提取语音开始帧与语音结束帧之间的音频流部分作为用户语音消息。
在本发明一实施例中,语句端点检测子单元1115包括:第一判断子单元、语音开始帧判定子单元以及语音结束帧判定子单元。
第一判断子单元配置为判断待识别音频流中的语音帧是发音帧还是非发音帧。语音开始帧判定子单元配置为在上一段语音片段的语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量个语音帧被连续判断为发音帧时,将第一预设数量个语音帧中的第一个语音帧作为当前语音片段的语音开始帧。语音结束帧判定子单元配置为在当前语音片段的语音开始帧之后,当有第二预设数量个语音帧被连续判断为非发音帧时,将第二预设数量个语音帧中的第一个语音帧作为当前语音片段的语音结束帧。
在本发明一实施例中,音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征。
在本发明一实施例中,能量特征包括:短时能量一阶差分,和/或预设频率以下的能量大小;和/或,基音频率特征包括:基音频率和/或基音频率一阶差分;和/或,共振峰特征包括以下几项中的一种或多种:第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分;和/或,梅尔倒谱系数特征包括1-12阶梅尔倒谱系数和/或1-12阶梅尔倒谱系数一阶差分。
在本发明一实施例中,音频特征通过以下计算表征方式中的一种或多种来表征:比例值、均值、最大值、中值以及标准差。
在本发明一实施例中,能量特征包括:短时能量一阶差分的均值、最大值、中值以及标准差,和/或预设频率以下的能量与总体能量的比例值;和/或,发音帧数特征包括:发音帧数和不发音帧数的比例值,和/或发音帧数和总帧数的比例值;基音频率特征包括:基音频率的均值、最大值、中值以及标准差,和/或基音频率一阶差分的均值、最大值、中值以及标准差;和/或,共振峰特征包括以下几项中的一种或多种:第一共振峰的均值、最大值、中值以及标准差,第二共振峰的均值、最大值、中值以及标准差,第三共振峰的均值、最大值、中值以及标准差,第一共振峰一阶差分的均值、最大值、中值以及标准差,第二共振峰一阶差分的均值、最大值、中值以及标准差,以及第三共振峰一阶差分的均值、最大值、中值以及标准差;和/或,梅尔倒谱系数特征包括1-12阶梅尔倒谱系数的均值、最大值、中值以及标准差,和/或1-12阶梅尔倒谱系数一阶差分的均值、最大值、中值以及标准差。
图19为本发明一实施例提供的一种智能交互装置的结构示意图。如图19所示,该智能交互装置10中的基本意图识别模块12包括:语义模板匹配单元121和基本意图获取单元122。
语义模板匹配单元121配置为将用户语音消息的文本内容与语义知识库中多个预设的语义模板进行匹配以确定匹配的语义模板。基本意图获取单元122配置为获取与匹配的语义模板对应的基本意图信息。其中语义模板与基本意图信息之间的对应关系预先建立在语义知识库中,同一意图信息对应一个或多个语义模板。
在本发明一实施例中,语义模板匹配单元121包括:相似度计算子单元1211和语义模板判定子单元1212。
相似度计算子单元1211配置为将用户语音消息的文本内容与多个预设的语义模板之间进行相似度计算。语义模板判定子单元1212配置为将相似度最高的语义模板作为匹配的语义模板。
在本发明一实施例中,情绪识别结果和基本意图信息与情绪意图信息之间的对应关系为预先建立;或,情绪意图信息与交互指令之间的对应关系为预先建立;或,情绪意图信息和基本意图信息与交互指令之间的对应关系为预先建立。
在本发明一实施例中,为了进一步提高基本意图信息获取的准确性,基本意图识别模块12进一步配置为:根据当前的用户语音消息,并结合过往的用户语音消息和/或后续的用户语音消息进行意图分析,得到对应的基本意图信息。
在本发明一实施例中,为了进一步提高情绪意图信息获取的准确性,该智能交互装置10进一步包括:第一记录模块,配置为记录用户语音消息的情绪识别结果和基本意图信息。其中,情绪意图识别单元131进一步配置为:根据当前的用户语音消息的情绪识别结果和基本意图信息,并结合过往的用户语音消息和/或后续的用户语音消息的情绪识别结果和基本意图信息,确定对应的情绪意图信息。
在本发明一实施例中,为了进一步提高交互指令获取的准确性,该智能交互装置10进一步包括:第二记录模块,配置为记录用户语音消息的情绪意图信息和基本意图信息。其中,交互指令确定单元132进一步配置为:根据当前的用户语音消息的情绪意图信息和基本意图信息,并结合过往的用户语音消息和/或后续的用户语音消息的情绪意图信息和基本意图信息,确定对应的交互指令。
应当理解,上述实施例所提供的智能交互装置10中记载的每个模块或单元都与前述的一个方法步骤相对应。由此,前述的方法步骤描述的操作、特征和效果同样适用于智能交互装置10及其中所包含的对应的模块和单元,重复的内容在此不再赘述。
本发明一实施例还提供一种计算机设备,包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序,其特征在于,处理器执行计算机程序时实现如前任一实施例所述的智能交互方法。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如前任一实施例所述的智能交互方法。该计算机存储介质可以为任何有形媒介,例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。
应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。
应当理解,本发明实施例描述中所用到的限定词“第一”、“第二”和“第三”等仅用于更清楚的阐述技术方案,并不能用于限制本发明的保护范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (28)

1.一种智能交互方法,其特征在于,包括:
根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息;
根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及
根据所述情绪识别结果和所述基本意图信息确定对应的交互指令。
2.根据权利要求1所述的智能交互方法,其特征在于,所述根据所述情绪识别结果和所述基本意图信息确定对应的交互指令包括:
根据所述情绪识别结果和所述基本意图信息确定对应的情绪意图信息;以及根据所述情绪意图信息确定对应的所述交互指令,或根据所述情绪意图信息和所述基本意图信息确定对应的所述交互指令。
3.根据权利要求2所述的智能交互方法,其特征在于,所述交互指令包括呈现对所述情绪意图信息的回馈内容。
4.根据权利要求1所述的智能交互方法,其特征在于,所述交互指令包括以下一种或多种情感呈现模态:文本输出情感呈现模态、乐曲播放情感呈现模态、语音情感呈现模态、图像情感呈现模态和机械动作情感呈现模态。
5.根据权利要求2所述的智能交互方法,其特征在于,所述情绪意图信息包括与所述情绪识别结果对应的情感需求信息;或,
所述情绪意图信息包括与所述情绪识别结果对应的所述情感需求信息以及所述情绪识别结果与所述基本意图信息的关联关系。
6.根据权利要求5所述的智能交互方法,其特征在于,
所述情绪识别结果与所述基本意图信息的关联关系为预先设定。
7.根据权利要求1所述的智能交互方法,其特征在于,所述用户信息至少包括用户语音消息;
其中,所述根据获取的用户消息获取情绪识别结果包括:根据所述用户语音消息获取所述情绪识别结果。
8.根据权利要求7所述的智能交互方法,其特征在于,所述根据用户语音消息获取情绪识别结果包括:
根据所述用户语音消息的音频数据获取音频情绪识别结果;以及,根据所述音频情绪识别结果确定所述情绪识别结果;
或,
根据所述用户语音消息的音频数据获取音频情绪识别结果,且根据所述用户语音消息的文本内容获取文本情绪识别结果;以及,根据所述音频情绪识别结果以及所述文本情绪识别结果确定所述情绪识别结果。
9.根据权利要求8所述的智能交互方法,其特征在于,所述音频情绪识别结果包括多个情绪分类中的一种或多种;或,所述音频情绪识别结果对应多维情感空间中的一个坐标点;
或,所述音频情绪识别结果以及所述文本情绪识别结果分别包括多个情绪分类中的一种或多种;或,所述音频情绪识别结果以及所述文本情绪识别结果分别对应多维情感空间中的一个坐标点;
其中,所述多维情感空间中的每个维度对应一个心理学定义的情感因素,每个所述情绪分类包括多个情绪强度级别。
10.根据权利要求8所述的智能交互方法,其特征在于,所述根据所述用户语音消息的音频数据获取音频情绪识别结果包括:
提取所述用户语音消息的音频特征向量,其中所述用户语音消息对应所述待识别音频流中的一段话;
将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类中的一个;以及
将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。
11.根据权利要求10所述的智能交互方法,其特征在于,所述多个情绪特征模型通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行预学习而建立。
12.根据权利要求11所述的智能交互方法,其特征在于,所述预学习过程包括:
将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行聚类处理,得到预设情绪分类的聚类结果;以及
根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量集合训练为一个所述情绪特征模型。
13.根据权利要求10所述的智能交互方法,其特征在于,所述根据所述用户语音消息的音频数据获取音频情绪识别结果进一步包括:
确定所述待识别音频流中的语音开始帧以及语音结束帧;以及
提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述用户语音消息。
14.根据权利要求13所述的智能交互方法,其特征在于,所述确定所述待识别音频流中的语音开始帧以及语音结束帧包括:
判断所述待识别音频流中的语音帧是发音帧还是非发音帧;
在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量个语音帧被连续判断为发音帧时,将所述第一预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音开始帧;以及
在当前语音片段的所述语音开始帧之后,当有第二预设数量个语音帧被连续判断为非发音帧时,将所述第二预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音结束帧。
15.根据权利要求10所述的智能交互方法,其特征在于,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征。
16.根据权利要求15所述的智能交互方法,其特征在于,所述能量特征包括:短时能量一阶差分,和/或预设频率以下的能量大小;和/或,
所述基音频率特征包括:基音频率和/或基音频率一阶差分;和/或,
所述共振峰特征包括以下几项中的一种或多种:第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分;和/或,
所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数和/或1-12阶梅尔倒谱系数一阶差分。
17.根据权利要求15所述的智能交互方法,其特征在于,所述音频特征通过以下计算表征方式中的一种或多种来表征:比例值、均值、最大值、中值以及标准差。
18.根据权利要求15所述的语音情绪识别方法,其特征在于,所述能量特征包括:短时能量一阶差分的均值、最大值、中值以及标准差,和/或预设频率以下的能量与总体能量的比例值;和/或,
所述发音帧数特征包括:发音帧数和不发音帧数的比例值,和/或发音帧数和总帧数的比例值;
所述基音频率特征包括:基音频率的均值、最大值、中值以及标准差,和/或基音频率一阶差分的均值、最大值、中值以及标准差;和/或,
所述共振峰特征包括以下几项中的一种或多种:第一共振峰的均值、最大值、中值以及标准差,第二共振峰的均值、最大值、中值以及标准差,第三共振峰的均值、最大值、中值以及标准差,第一共振峰一阶差分的均值、最大值、中值以及标准差,第二共振峰一阶差分的均值、最大值、中值以及标准差,以及第三共振峰一阶差分的均值、最大值、中值以及标准差;和/或,
所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数的均值、最大值、中值以及标准差,和/或1-12阶梅尔倒谱系数一阶差分的均值、最大值、中值以及标准差。
19.根据权利要求1所述的智能交互方法,其特征在于,所述根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息包括:
将所述用户语音消息的文本内容与语义知识库中多个预设的语义模板进行匹配以确定匹配的语义模板;以及
获取与所述匹配的语义模板对应的所述基本意图信息;
其中所述语义模板与所述基本意图信息之间的对应关系预先建立在所述语义知识库中,同一所述意图信息对应一个或多个所述语义模板。
20.根据权利要求19所述的智能交互方法,其特征在于,所述将所述用户语音消息的文本内容与多个预设的语义模板进行匹配以确定匹配的语义模板包括:
将所述用户语音消息的文本内容与多个预设的语义模板之间进行相似度计算;以及
将相似度最高的语义模板作为所述匹配的语义模板。
21.根据权利要求2所述的智能交互方法,其特征在于,所述情绪识别结果和所述基本意图信息与所述情绪意图信息之间的对应关系为预先建立;或,
所述情绪意图信息与所述交互指令之间的对应关系为预先建立;或,
所述情绪意图信息和所述基本意图信息与所述交互指令之间的对应关系为预先建立。
22.根据权利要求1所述的智能交互方法,其特征在于,所述根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息包括:
根据当前的所述用户语音消息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息进行意图分析,得到对应的所述基本意图信息。
23.根据权利要求2所述的智能交互方法,其特征在于,进一步包括:
记录所述用户语音消息的所述情绪识别结果和所述基本意图信息;
其中,所述根据所述情绪识别结果和所述基本意图信息确定对应的情绪意图信息包括:
根据当前的所述用户语音消息的所述情绪识别结果和所述基本意图信息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息的所述情绪识别结果和所述基本意图信息,确定对应的情绪意图信息。
24.根据权利要求2所述的智能交互方法,其特征在于,进一步包括:
记录所述用户语音消息的所述情绪意图信息和所述基本意图信息;
其中,所述根据所述情绪意图信息和所述基本意图信息确定对应的交互指令包括:
根据当前的所述用户语音消息的所述情绪意图信息和所述基本意图信息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息的所述情绪意图信息和所述基本意图信息,确定对应的所述交互指令。
25.一种智能交互装置,其特征在于,包括:
情绪识别模块,配置为根据用户消息获取情绪识别结果,所述用户消息中至少包括用户语音消息;
基本意图识别模块,配置为根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及
交互指令确定模块,配置为根据所述情绪识别结果和所述基本意图信息确定对应的交互指令。
26.根据权利要求25所述的智能交互装置,其特征在于,所述交互指令确定模块包括:
情绪意图识别单元,配置为根据所述情绪识别结果和所述基本意图信息确定对应的情绪意图信息;以及
交互指令确定单元,配置为根据所述情绪意图信息确定对应的所述交互指令,或根据所述情绪意图信息和所述基本意图信息确定对应的所述交互指令;
其中,所述交互指令包括呈现对所述情绪意图信息的回馈内容;
其中,所述交互指令包括以下一种或多种情感呈现模态:文本输出情感呈现模态、乐曲播放情感呈现模态、语音情感呈现模态、图像情感呈现模态和机械动作情感呈现模态;
其中,所述情绪意图信息包括与所述情绪识别结果对应的情感需求信息;或,所述情绪意图信息包括与所述情绪识别结果对应的所述情感需求信息以及所述情绪识别结果与所述基本意图信息的关联关系;
其中,所述情绪识别结果与所述基本意图信息的关联关系为预先设定;
其中,所述用户信息至少包括用户语音消息;其中,所述情绪识别模块进一步配置为:根据所述用户语音消息获取所述情绪识别结果;
其中,所述情绪识别模块包括:
音频情绪识别单元,配置为根据所述用户语音消息的音频数据获取音频情绪识别结果;以及,情绪识别结果确定单元,配置为根据所述音频情绪识别结果确定所述情绪识别结果;
或,
音频情绪识别单元,配置为根据所述用户语音消息的音频数据获取音频情绪识别结果;文本情绪识别单元,配置为根据所述用户语音消息的文本内容获取文本情绪识别结果;以及,情绪识别结果确定单元,配置为根据所述音频情绪识别结果以及所述文本情绪识别结果确定所述情绪识别结果;
其中,所述音频情绪识别结果包括多个情绪分类中的一种或多种;或,所述音频情绪识别结果对应多维情感空间中的一个坐标点;
或,所述音频情绪识别结果以及所述文本情绪识别结果分别包括多个情绪分类中的一种或多种;或,所述音频情绪识别结果以及所述文本情绪识别结果分别对应多维情感空间中的一个坐标点;
其中,所述多维情感空间中的每个维度对应一个心理学定义的情感因素,每个所述情绪分类包括多个情绪强度级别;
其中,所述音频情绪识别单元包括:
音频特征提取子单元,配置为提取所述用户语音消息的音频特征向量,其中所述用户语音消息对应所述待识别音频流中的一段话;
匹配子单元,配置为将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类中的一个;以及
音频情绪判定子单元,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类;
其中,所述音频情绪识别单元进一步包括:
情绪模型建立子单元,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;
其中,所述情绪模型建立子单元包括:
聚类子单元,配置为将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行聚类处理,得到预设情绪分类的聚类结果;以及
训练子单元,配置为根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量集合训练为一个所述情绪特征模型;
其中,所述音频情绪识别单元进一步包括:
语句端点检测子单元,配置为确定所述待识别音频流中的语音开始帧以及语音结束帧;以及
提取子单元,配置为提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述用户语音消息;
其中,所述语句端点检测子单元包括:
第一判断子单元,配置为判断所述待识别音频流中的语音帧是发音帧还是非发音帧;
语音开始帧判定子单元,配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量个语音帧被连续判断为发音帧时,将所述第一预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音开始帧;以及
语音结束帧判定子单元,配置为在当前语音片段的所述语音开始帧之后,当有第二预设数量个语音帧被连续判断为非发音帧时,将所述第二预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音结束帧;
其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征;
其中,所述能量特征包括:短时能量一阶差分,和/或预设频率以下的能量大小;和/或,
所述基音频率特征包括:基音频率和/或基音频率一阶差分;和/或,
所述共振峰特征包括以下几项中的一种或多种:第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分;和/或,
所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数和/或1-12阶梅尔倒谱系数一阶差分;
其中,所述音频特征通过以下计算表征方式中的一种或多种来表征:比例值、均值、最大值、中值以及标准差;
其中,所述能量特征包括:短时能量一阶差分的均值、最大值、中值以及标准差,和/或预设频率以下的能量与总体能量的比例值;和/或,
所述发音帧数特征包括:发音帧数和不发音帧数的比例值,和/或发音帧数和总帧数的比例值;
所述基音频率特征包括:基音频率的均值、最大值、中值以及标准差,和/或基音频率一阶差分的均值、最大值、中值以及标准差;和/或,
所述共振峰特征包括以下几项中的一种或多种:第一共振峰的均值、最大值、中值以及标准差,第二共振峰的均值、最大值、中值以及标准差,第三共振峰的均值、最大值、中值以及标准差,第一共振峰一阶差分的均值、最大值、中值以及标准差,第二共振峰一阶差分的均值、最大值、中值以及标准差,以及第三共振峰一阶差分的均值、最大值、中值以及标准差;和/或,
所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数的均值、最大值、中值以及标准差,和/或1-12阶梅尔倒谱系数一阶差分的均值、最大值、中值以及标准差;
其中,所述基本意图识别模块包括:
语义模板匹配单元,配置为将所述用户语音消息的文本内容与语义知识库中多个预设的语义模板进行匹配以确定匹配的语义模板;以及
基本意图获取单元,配置为获取与所述匹配的语义模板对应的所述基本意图信息;
其中所述语义模板与所述基本意图信息之间的对应关系预先建立在所述语义知识库中,同一所述意图信息对应一个或多个所述语义模板;
其中,所述语义模板匹配单元包括:
相似度计算子单元,配置为将所述用户语音消息的文本内容与多个预设的语义模板之间进行相似度计算;以及
语义模板判定子单元,配置为将相似度最高的语义模板作为所述匹配的语义模板;
其中,所述情绪识别结果和所述基本意图信息与所述情绪意图信息之间的对应关系为预先建立;或,
所述情绪意图信息与所述交互指令之间的对应关系为预先建立;或,
所述情绪意图信息和所述基本意图信息与所述交互指令之间的对应关系为预先建立;
其中,所述基本意图识别模块进一步配置为:
根据当前的所述用户语音消息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息进行意图分析,得到对应的所述基本意图信息;
其中,所述智能交互装置进一步包括:
第一记录模块,配置为记录所述用户语音消息的所述情绪识别结果和所述基本意图信息;
其中,所述情绪意图识别单元进一步配置为:
根据当前的所述用户语音消息的所述情绪识别结果和所述基本意图信息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息的所述情绪识别结果和所述基本意图信息,确定对应的情绪意图信息;
其中,所述智能交互装置进一步包括:
第二记录模块,配置为记录所述用户语音消息的所述情绪意图信息和所述基本意图信息;
其中,所述交互指令确定单元进一步配置为:
根据当前的所述用户语音消息的所述情绪意图信息和所述基本意图信息,并结合过往的所述用户语音消息和/或后续的所述用户语音消息的所述情绪意图信息和所述基本意图信息,确定对应的所述交互指令。
27.一种计算机设备,包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至24中任一项所述方法的步骤。
28.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至24中任一项所述方法的步骤。
CN201810079267.2A 2018-01-26 2018-01-26 智能交互方法、装置、计算机设备和计算机可读存储介质 Active CN108197115B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810079267.2A CN108197115B (zh) 2018-01-26 2018-01-26 智能交互方法、装置、计算机设备和计算机可读存储介质
PCT/CN2019/073141 WO2019144926A1 (zh) 2018-01-26 2019-01-25 智能交互方法、装置、计算机设备和计算机可读存储介质
JP2020540499A JP6979534B2 (ja) 2018-01-26 2019-01-25 インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体
US16/414,293 US11373641B2 (en) 2018-01-26 2019-05-16 Intelligent interactive method and apparatus, computer device and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810079267.2A CN108197115B (zh) 2018-01-26 2018-01-26 智能交互方法、装置、计算机设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108197115A true CN108197115A (zh) 2018-06-22
CN108197115B CN108197115B (zh) 2022-04-22

Family

ID=62591411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810079267.2A Active CN108197115B (zh) 2018-01-26 2018-01-26 智能交互方法、装置、计算机设备和计算机可读存储介质

Country Status (4)

Country Link
US (1) US11373641B2 (zh)
JP (1) JP6979534B2 (zh)
CN (1) CN108197115B (zh)
WO (1) WO2019144926A1 (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922564A (zh) * 2018-06-29 2018-11-30 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN109003624A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN109036405A (zh) * 2018-07-27 2018-12-18 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备及存储介质
CN109065035A (zh) * 2018-09-06 2018-12-21 珠海格力电器股份有限公司 信息交互方法及装置
CN109327609A (zh) * 2018-09-13 2019-02-12 新联协同通信技术(北京)有限公司 基于手机呼叫转移和微信、公众号或小程序的来电智能处理办法和系统
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN109447819A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 一种智能话术提醒方法、系统及终端设备
CN109447822A (zh) * 2018-09-19 2019-03-08 平安科技(深圳)有限公司 保单智能回访方法、装置及计算机可读存储介质
CN109543182A (zh) * 2018-11-15 2019-03-29 广东电网有限责任公司信息中心 一种基于solr引擎的电力企业多轮交互语义分析方法
CN109587360A (zh) * 2018-11-12 2019-04-05 平安科技(深圳)有限公司 电子装置、应对话术推荐方法和计算机可读存储介质
CN109634554A (zh) * 2018-12-18 2019-04-16 三星电子(中国)研发中心 用于输出信息的方法和装置
CN109783625A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 交互方法和计算设备
CN109902157A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 一种训练样本有效性检测方法及装置
WO2019144926A1 (zh) * 2018-01-26 2019-08-01 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN110085229A (zh) * 2019-04-29 2019-08-02 珠海景秀光电科技有限公司 智能虚拟外教信息交互方法及装置
CN110216681A (zh) * 2019-07-23 2019-09-10 广东佳奇科技教育股份有限公司 一种基于大数据的智能机器人分析控制系统
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110473546A (zh) * 2019-07-08 2019-11-19 华为技术有限公司 一种媒体文件推荐方法及装置
CN110890089A (zh) * 2018-08-17 2020-03-17 珠海格力电器股份有限公司 语音识别方法及装置
CN110970017A (zh) * 2018-09-27 2020-04-07 北京京东尚科信息技术有限公司 人机交互方法及系统、计算机系统
CN110991329A (zh) * 2019-11-29 2020-04-10 上海商汤智能科技有限公司 一种语义分析方法及装置、电子设备和存储介质
CN111127031A (zh) * 2018-10-11 2020-05-08 上海智臻智能网络科技股份有限公司 智能客服系统交互方法及智能客服机器人、存储介质
CN111123851A (zh) * 2019-11-11 2020-05-08 珠海格力电器股份有限公司 根据用户情绪控制电器设备的方法、装置和系统
CN111199732A (zh) * 2018-11-16 2020-05-26 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
CN111273990A (zh) * 2020-01-21 2020-06-12 腾讯科技(深圳)有限公司 信息交互方法、装置、计算机设备和存储介质
CN111310882A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN111401198A (zh) * 2020-03-10 2020-07-10 广东九联科技股份有限公司 观众情绪识别方法、装置及系统
CN111506183A (zh) * 2019-01-30 2020-08-07 阿里巴巴集团控股有限公司 一种智能终端及用户交互方法
CN111696558A (zh) * 2020-06-24 2020-09-22 深圳壹账通智能科技有限公司 智能外呼方法、装置、计算机设备及存储介质
CN111833907A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111862984A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
CN111897434A (zh) * 2020-08-05 2020-11-06 上海永骁智能技术有限公司 信号控制虚拟人像的系统、方法及介质
CN112446405A (zh) * 2019-09-04 2021-03-05 杭州九阳小家电有限公司 一种家电客服的用户意图引导方法及智能家电
CN112487179A (zh) * 2019-09-11 2021-03-12 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统
CN112652301A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质
CN113805698A (zh) * 2021-09-10 2021-12-17 中国第一汽车股份有限公司 一种执行指令确定方法、装置、设备及存储介质
CN115101074A (zh) * 2022-08-24 2022-09-23 深圳通联金融网络科技服务有限公司 基于用户说话情绪的语音识别方法、装置、介质及设备
WO2022252951A1 (en) * 2021-06-02 2022-12-08 International Business Machines Corporation Curiosity based activation and search depth
CN116030811A (zh) * 2023-03-22 2023-04-28 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质
CN111401198B (zh) * 2020-03-10 2024-04-23 广东九联科技股份有限公司 观众情绪识别方法、装置及系统

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021099839A1 (en) * 2019-11-18 2021-05-27 Roy Mann Collaborative networking systems, methods, and devices
US10652183B2 (en) * 2017-06-30 2020-05-12 Intel Corporation Incoming communication filtering system
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10915712B2 (en) * 2018-07-26 2021-02-09 International Business Machines Corporation Unsupervised tunable stylized text transformations
US11354507B2 (en) * 2018-09-13 2022-06-07 International Business Machines Corporation Compared sentiment queues
TWI666558B (zh) * 2018-11-20 2019-07-21 財團法人資訊工業策進會 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
US10963639B2 (en) * 2019-03-08 2021-03-30 Medallia, Inc. Systems and methods for identifying sentiment in text strings
US11769016B2 (en) * 2019-03-27 2023-09-26 Apple Inc. Generating responses to user interaction data based on user interaction-styles
CN110377716B (zh) * 2019-07-23 2022-07-12 百度在线网络技术(北京)有限公司 对话的交互方法、装置及计算机可读存储介质
EP3783531A1 (en) * 2019-08-23 2021-02-24 Tata Consultancy Services Limited Automated conversion of text based privacy policy to video
CN111128254B (zh) * 2019-11-14 2021-09-03 网易(杭州)网络有限公司 音频播放方法、电子设备及存储介质
CN110827857B (zh) * 2019-11-28 2022-04-12 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
CN110910904A (zh) * 2019-12-25 2020-03-24 浙江百应科技有限公司 一种建立语音情感识别模型的方法及语音情感识别方法
CN111106995B (zh) * 2019-12-26 2022-06-24 腾讯科技(深圳)有限公司 一种消息显示方法、装置、终端及计算机可读存储介质
CN111199205B (zh) * 2019-12-30 2023-10-31 科大讯飞股份有限公司 车载语音交互体验评估方法、装置、设备及存储介质
WO2021139737A1 (zh) * 2020-01-08 2021-07-15 北京嘀嘀无限科技发展有限公司 一种人机交互的方法和系统
CN111291156B (zh) * 2020-01-21 2024-01-12 同方知网(北京)技术有限公司 一种基于知识图谱的问答意图识别方法
CN111340104B (zh) * 2020-02-24 2023-10-31 中移(杭州)信息技术有限公司 智能设备的控制规则的生成方法和装置、电子设备及可读存储介质
WO2022198474A1 (en) * 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
CN111428017B (zh) * 2020-03-24 2022-12-02 科大讯飞股份有限公司 人机交互优化方法以及相关装置
US11557288B2 (en) * 2020-04-10 2023-01-17 International Business Machines Corporation Hindrance speech portion detection using time stamps
CN111651454B (zh) * 2020-05-18 2023-08-08 珠海格力电器股份有限公司 一种数据处理方法、装置及计算机设备
CN111627462B (zh) * 2020-05-22 2023-12-19 上海师范大学 一种基于语义分析的情绪识别方法和设备
CN111666396B (zh) * 2020-06-05 2023-10-31 北京百度网讯科技有限公司 用户意图理解满意度评估方法、装置、设备和存储介质
CN111931897A (zh) * 2020-06-30 2020-11-13 华为技术有限公司 交互方法、装置、电子设备和存储介质
CN111883131B (zh) * 2020-08-20 2023-10-27 腾讯科技(深圳)有限公司 语音数据的处理方法及装置
CN112016317A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN112164394A (zh) * 2020-09-10 2021-01-01 北京三快在线科技有限公司 一种信息交互方法、装置、存储介质及电子设备
CN112185389A (zh) * 2020-09-22 2021-01-05 北京小米松果电子有限公司 语音生成方法、装置、存储介质和电子设备
CN112185379A (zh) * 2020-09-29 2021-01-05 珠海格力电器股份有限公司 一种语音交互的方法、装置、电子设备及存储介质
CN112489688A (zh) * 2020-11-09 2021-03-12 浪潮通用软件有限公司 一种基于神经网络的情感识别方法、设备及介质
CN112380332A (zh) * 2020-11-17 2021-02-19 深圳追一科技有限公司 交互式的知识反馈方法、装置及计算机存储介质
CN112671984B (zh) * 2020-12-01 2022-09-23 长沙市到家悠享网络科技有限公司 服务模式切换方法、装置、机器人客服及存储介质
CN112541067A (zh) * 2020-12-15 2021-03-23 平安科技(深圳)有限公司 知识库问题挖掘方法、装置、电子设备及存储介质
CN112633172B (zh) * 2020-12-23 2023-11-14 平安银行股份有限公司 通讯优化方法、装置、设备及介质
CN113763947B (zh) * 2021-01-15 2024-04-05 北京沃东天骏信息技术有限公司 一种语音意图识别方法、装置、电子设备及存储介质
CN112863542B (zh) * 2021-01-29 2022-10-28 青岛海尔科技有限公司 语音检测方法和装置、存储介质及电子设备
CN113096657A (zh) * 2021-03-30 2021-07-09 西安云湾科技有限公司 一种基于物联网产品的智能交互系统和方法
CN113011193B (zh) * 2021-04-09 2021-11-23 广东外语外贸大学 基于Bi-LSTM算法的检测咨询语句重复性评价方法及系统
US20220345779A1 (en) * 2021-04-22 2022-10-27 STE Capital, LLC System for audience sentiment feedback and analysis
CN113140219A (zh) * 2021-05-08 2021-07-20 广东电网有限责任公司 调控指令生成方法、装置、电子设备及存储介质
CN113220839B (zh) * 2021-05-13 2022-05-24 亿咖通(湖北)技术有限公司 一种意图识别方法、电子设备及计算机可读存储介质
CN113139525B (zh) * 2021-05-21 2022-03-01 国家康复辅具研究中心 一种基于多源信息融合的情感识别方法和人机交互系统
CN113335205B (zh) * 2021-06-09 2022-06-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质
CN113807642A (zh) * 2021-06-25 2021-12-17 国网浙江省电力有限公司金华供电公司 基于程控电话的电力调度智能交互方法
CN113407677B (zh) * 2021-06-28 2023-11-14 北京百度网讯科技有限公司 评估咨询对话质量的方法、装置、设备和存储介质
CN114287938B (zh) * 2021-12-13 2024-02-13 重庆大学 建筑环境中人体参数的安全区间获得方法和设备
CN114533063B (zh) * 2022-02-23 2023-10-27 金华高等研究院(金华理工学院筹建工作领导小组办公室) 一种多源监测结合的情感计算系统及方法
CN114598922A (zh) * 2022-03-07 2022-06-07 深圳创维-Rgb电子有限公司 语音消息交互方法、装置、设备及存储介质
US20230395078A1 (en) * 2022-06-06 2023-12-07 Cerence Operating Company Emotion-aware voice assistant
CN115097946B (zh) * 2022-08-15 2023-04-18 汉华智能科技(佛山)有限公司 基于物联网的远程祭拜方法、系统及存储介质
CN115460317A (zh) * 2022-09-05 2022-12-09 西安万像电子科技有限公司 一种情绪识别及语音反馈方法、装置、介质及电子设备
CN116528438B (zh) * 2023-04-28 2023-10-10 广州力铭光电科技有限公司 一种灯具的智能调光方法和装置
CN116975355B (zh) * 2023-09-22 2023-12-08 南通贝瑞斯曼信息科技有限公司 一种用于物联网语音平台的语音数据分类存储方法
CN117390216A (zh) * 2023-10-12 2024-01-12 牡丹江师范学院 音乐数据处理方法、装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489453A (zh) * 2013-06-28 2014-01-01 陆蔚华 基于声学参数的产品情感量化方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN105681546A (zh) * 2015-12-30 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
CN106531162A (zh) * 2016-10-28 2017-03-22 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN106537294A (zh) * 2016-06-29 2017-03-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN106776936A (zh) * 2016-12-01 2017-05-31 上海智臻智能网络科技股份有限公司 智能交互方法和系统
US20170358305A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194385A (ja) * 1998-12-24 2000-07-14 Mitsubishi Electric Corp 音声認識処理装置
JP2002123289A (ja) * 2000-10-13 2002-04-26 Matsushita Electric Ind Co Ltd 音声対話装置
EP1256931A1 (en) * 2001-05-11 2002-11-13 Sony France S.A. Method and apparatus for voice synthesis and robot apparatus
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
JP2003345727A (ja) * 2002-05-24 2003-12-05 Mitsubishi Heavy Ind Ltd 感情伝達装置
JP2004090109A (ja) * 2002-08-29 2004-03-25 Sony Corp ロボット装置およびロボット装置の対話方法
JP2006190101A (ja) * 2005-01-06 2006-07-20 Csk Holdings Corp 自然言語解析装置、自然言語解析方法、及び、自然言語解析プログラム
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
JP4728868B2 (ja) * 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
CN103593054B (zh) * 2013-11-25 2018-04-20 北京光年无限科技有限公司 一种结合情绪识别及输出的问答系统
US10127927B2 (en) * 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US10811005B2 (en) * 2015-06-19 2020-10-20 Lenovo (Singapore) Pte. Ltd. Adapting voice input processing based on voice input characteristics
JP2017009826A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 グループ状態判定装置およびグループ状態判定方法
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
JP6617053B2 (ja) * 2016-02-29 2019-12-04 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
US10515629B2 (en) * 2016-04-11 2019-12-24 Sonde Health, Inc. System and method for activation of voice interactive services based on user state
US9818406B1 (en) * 2016-06-23 2017-11-14 Intuit Inc. Adjusting user experience based on paralinguistic information
US10074368B2 (en) * 2016-08-17 2018-09-11 International Business Machines Corporation Personalized situation awareness using human emotions and incident properties
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
US10135979B2 (en) * 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
US9812151B1 (en) * 2016-11-18 2017-11-07 IPsoft Incorporated Generating communicative behaviors for anthropomorphic virtual agents based on user's affect
KR102640420B1 (ko) * 2016-12-22 2024-02-26 삼성전자주식회사 홈 로봇 장치의 동작 운용 방법 및 이를 지원하는 홈 로봇 장치
CN106658129B (zh) * 2016-12-27 2020-09-01 上海智臻智能网络科技股份有限公司 基于情绪的终端控制方法、装置及终端
US10838967B2 (en) * 2017-06-08 2020-11-17 Microsoft Technology Licensing, Llc Emotional intelligence for a conversational chatbot
CN107437415B (zh) * 2017-08-09 2020-06-02 科大讯飞股份有限公司 一种智能语音交互方法及系统
US10372825B2 (en) * 2017-12-18 2019-08-06 International Business Machines Corporation Emotion detection and expression integration in dialog systems
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489453A (zh) * 2013-06-28 2014-01-01 陆蔚华 基于声学参数的产品情感量化方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN105681546A (zh) * 2015-12-30 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
US20170358305A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN106537294A (zh) * 2016-06-29 2017-03-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106531162A (zh) * 2016-10-28 2017-03-22 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN106776936A (zh) * 2016-12-01 2017-05-31 上海智臻智能网络科技股份有限公司 智能交互方法和系统
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144926A1 (zh) * 2018-01-26 2019-08-01 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
US11373641B2 (en) 2018-01-26 2022-06-28 Shanghai Xiaoi Robot Technology Co., Ltd. Intelligent interactive method and apparatus, computer device and computer readable storage medium
CN109003624A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN108922564A (zh) * 2018-06-29 2018-11-30 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN109003624B (zh) * 2018-06-29 2022-02-15 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN109036405A (zh) * 2018-07-27 2018-12-18 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备及存储介质
CN110890089A (zh) * 2018-08-17 2020-03-17 珠海格力电器股份有限公司 语音识别方法及装置
CN110890089B (zh) * 2018-08-17 2022-08-19 珠海格力电器股份有限公司 语音识别方法及装置
CN109447819A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 一种智能话术提醒方法、系统及终端设备
CN109065035A (zh) * 2018-09-06 2018-12-21 珠海格力电器股份有限公司 信息交互方法及装置
CN109327609A (zh) * 2018-09-13 2019-02-12 新联协同通信技术(北京)有限公司 基于手机呼叫转移和微信、公众号或小程序的来电智能处理办法和系统
CN109447822A (zh) * 2018-09-19 2019-03-08 平安科技(深圳)有限公司 保单智能回访方法、装置及计算机可读存储介质
CN110970017A (zh) * 2018-09-27 2020-04-07 北京京东尚科信息技术有限公司 人机交互方法及系统、计算机系统
CN111127031A (zh) * 2018-10-11 2020-05-08 上海智臻智能网络科技股份有限公司 智能客服系统交互方法及智能客服机器人、存储介质
CN109587360B (zh) * 2018-11-12 2021-07-13 平安科技(深圳)有限公司 电子装置、应对话术推荐方法和计算机可读存储介质
CN109587360A (zh) * 2018-11-12 2019-04-05 平安科技(深圳)有限公司 电子装置、应对话术推荐方法和计算机可读存储介质
CN109543182A (zh) * 2018-11-15 2019-03-29 广东电网有限责任公司信息中心 一种基于solr引擎的电力企业多轮交互语义分析方法
CN111199732A (zh) * 2018-11-16 2020-05-26 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN111310882A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN109634554A (zh) * 2018-12-18 2019-04-16 三星电子(中国)研发中心 用于输出信息的方法和装置
CN109783625A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 交互方法和计算设备
CN109902157A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 一种训练样本有效性检测方法及装置
CN111506183A (zh) * 2019-01-30 2020-08-07 阿里巴巴集团控股有限公司 一种智能终端及用户交互方法
CN110085229A (zh) * 2019-04-29 2019-08-02 珠海景秀光电科技有限公司 智能虚拟外教信息交互方法及装置
CN111862984B (zh) * 2019-05-17 2024-03-29 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
CN111862984A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信号输入方法、装置、电子设备和可读存储介质
CN110288016B (zh) * 2019-06-21 2021-09-28 济南大学 一种多模态意图融合方法及应用
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110473546A (zh) * 2019-07-08 2019-11-19 华为技术有限公司 一种媒体文件推荐方法及装置
CN110473546B (zh) * 2019-07-08 2022-05-31 华为技术有限公司 一种媒体文件推荐方法及装置
CN110216681A (zh) * 2019-07-23 2019-09-10 广东佳奇科技教育股份有限公司 一种基于大数据的智能机器人分析控制系统
CN112446405A (zh) * 2019-09-04 2021-03-05 杭州九阳小家电有限公司 一种家电客服的用户意图引导方法及智能家电
CN112487179A (zh) * 2019-09-11 2021-03-12 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统
CN112652301B (zh) * 2019-10-12 2023-05-12 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法
CN112652301A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法
CN111123851A (zh) * 2019-11-11 2020-05-08 珠海格力电器股份有限公司 根据用户情绪控制电器设备的方法、装置和系统
CN110991329A (zh) * 2019-11-29 2020-04-10 上海商汤智能科技有限公司 一种语义分析方法及装置、电子设备和存储介质
CN111833907A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111273990A (zh) * 2020-01-21 2020-06-12 腾讯科技(深圳)有限公司 信息交互方法、装置、计算机设备和存储介质
CN111401198B (zh) * 2020-03-10 2024-04-23 广东九联科技股份有限公司 观众情绪识别方法、装置及系统
CN111401198A (zh) * 2020-03-10 2020-07-10 广东九联科技股份有限公司 观众情绪识别方法、装置及系统
CN111696558A (zh) * 2020-06-24 2020-09-22 深圳壹账通智能科技有限公司 智能外呼方法、装置、计算机设备及存储介质
CN111897434A (zh) * 2020-08-05 2020-11-06 上海永骁智能技术有限公司 信号控制虚拟人像的系统、方法及介质
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质
WO2022252951A1 (en) * 2021-06-02 2022-12-08 International Business Machines Corporation Curiosity based activation and search depth
US11769501B2 (en) 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth
CN113805698A (zh) * 2021-09-10 2021-12-17 中国第一汽车股份有限公司 一种执行指令确定方法、装置、设备及存储介质
CN115101074B (zh) * 2022-08-24 2022-11-11 深圳通联金融网络科技服务有限公司 基于用户说话情绪的语音识别方法、装置、介质及设备
CN115101074A (zh) * 2022-08-24 2022-09-23 深圳通联金融网络科技服务有限公司 基于用户说话情绪的语音识别方法、装置、介质及设备
CN116030811A (zh) * 2023-03-22 2023-04-28 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质

Also Published As

Publication number Publication date
JP2021510851A (ja) 2021-04-30
US20190295533A1 (en) 2019-09-26
CN108197115B (zh) 2022-04-22
US11373641B2 (en) 2022-06-28
JP6979534B2 (ja) 2021-12-15
WO2019144926A1 (zh) 2019-08-01

Similar Documents

Publication Publication Date Title
CN108197115A (zh) 智能交互方法、装置、计算机设备和计算机可读存储介质
CN110085221A (zh) 语音情感交互方法、计算机设备和计算机可读存储介质
CN110085262A (zh) 语音情绪交互方法、计算机设备和计算机可读存储介质
Akçay et al. Speech emotion recognition: Emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers
Wu et al. Automatic speech emotion recognition using modulation spectral features
Bone et al. Robust unsupervised arousal rating: A rule-based framework withknowledge-inspired vocal features
CN110085220A (zh) 智能交互装置
Jing et al. Prominence features: Effective emotional features for speech emotion recognition
CN110085211A (zh) 语音识别交互方法、装置、计算机设备和存储介质
Busso et al. Iterative feature normalization scheme for automatic emotion detection from speech
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
Sethu et al. Speech based emotion recognition
Al-Dujaili et al. Speech emotion recognition: a comprehensive survey
Sefara The effects of normalisation methods on speech emotion recognition
Hema et al. Emotional speech recognition using cnn and deep learning techniques
He Stress and emotion recognition in natural speech in the work and family environments
Chang Speech Analysis Methodologies towards Unobtrusive Mental Health Monitoring
Taneja et al. Beyond words: Extracting emotions from speech with ai techniques
Wusu-Ansah Emotion recognition from speech: An implementation in MATLAB
Kalatzantonakis-Jullien et al. Investigation and ordinal modelling of vocal features for stress detection in speech
Ignatius et al. A survey on paralinguistics in tamil speech processing
Giangregorio Machine learning-based analysis of spontaneous speech to detect and monitor decline of cognitive functionality in elderly people
Fu et al. Audio signal-based depression level prediction combining temporal and spectral features
Qiu et al. Machine Learning in Human Emotion Detection from the Speech
Uluocak Speech Emotion Recognition in Continuous Space by Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1257106

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant