CN108922564B - 情绪识别方法、装置、计算机设备及存储介质 - Google Patents

情绪识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108922564B
CN108922564B CN201810694923.XA CN201810694923A CN108922564B CN 108922564 B CN108922564 B CN 108922564B CN 201810694923 A CN201810694923 A CN 201810694923A CN 108922564 B CN108922564 B CN 108922564B
Authority
CN
China
Prior art keywords
target
emotion
general
text
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810694923.XA
Other languages
English (en)
Other versions
CN108922564A (zh
Inventor
林英展
陈炳金
梁一川
凌光
周超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810694923.XA priority Critical patent/CN108922564B/zh
Publication of CN108922564A publication Critical patent/CN108922564A/zh
Application granted granted Critical
Publication of CN108922564B publication Critical patent/CN108922564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例中提供了一种情绪识别方法、装置、计算机设备及存储介质。所述方法包括:采用语音识别技术确定在目标场景中对话语音的目标对话文本;采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。本发明实施例中的情绪识别方法能够结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,提高了情绪状态识别结果的准确度,降低了人力成本,克服了语音交互效果难以把控的缺陷。

Description

情绪识别方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种情绪识别方法、装置、计算机设备及存储介质。
背景技术
随着人工智能的发展,智能交互在越来越多的领域中发挥着越来越重要的作用,而智能交互中,一个重要的方向,就是如何识别交互过程中,用户当前的情绪状态,从而为整个智能交互系统提供情绪层面的反馈,及时作出调整,以便应对不同情绪状态下的用户,提升整个交互过程的服务质量。
由于同一词语在不同场景下含义不同,表示的情绪状态不同,相关技术的通用性不足,情绪状态的识别准确率低;并且,还存在样本量需求大,依赖于人力操作,人力成本高,语音交互效果难以把控等缺陷。
发明内容
本发明提供的一种情绪识别方法、装置、计算机设备及存储介质,能够结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,提高了情绪状态识别结果的准确度。
第一方面,本发明实施例中提供了一种情绪识别方法,该方法包括:
采用语音识别技术确定在目标场景中对话语音的目标对话文本;
采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。
第二方面,本发明实施例中还提供了一种情绪识别装置,该装置包括:
文本确定模块,用于采用语音识别技术确定在目标场景中对话语音的目标对话文本;
通用识别模块,用于采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
目标识别模块,用于采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
情绪确定模块,用于依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。
第三方面,本发明实施例中还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一所述的情绪识别方法。
第四方面,本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的情绪识别方法。
本发明实施例中提供了一种情绪识别方法,采用语音识别技术确定在目标场景中对话语音的目标对话文本;采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。本发明实施例中的情绪识别方法能够结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,提高了情绪状态识别结果的准确度,降低了人力成本,克服了语音交互效果难以把控的缺陷。
附图说明
图1示出了本发明实施例一中提供的一种情绪识别方法的流程示意图;
图2示出了本发明实施例二中提供的一种情绪识别方法的流程示意图;
图3示出了本发明实施例三中提供的一种情绪识别方法的流程示意图;
图4示出了本发明实施例四中提供的一种情绪识别装置的结构示意图;
图5示出了本发明实施例五中提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1示出了本发明实施例一中提供的一种情绪识别方法的流程示意图,本发明实施例可应用于金融客服平台、银行客服平台、智能家居平台、在线教育平台等需要进行智能交互的场景,该方法可以由情绪识别装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以集成在任何具有网络通信功能的计算机设备,该计算机设备可以为移动终端,比如手机、电脑等移动终端,也可以为服务器。
如图1所示,本发明实施例中的情绪识别方法可以包括:
S101、采用语音识别技术确定在目标场景中对话语音的目标对话文本。
在本发明实施例中,目标场景可以是金融客服平台、网络贷款平台、银行客服平台、智能家居平台以及在线教育平台等类似平台中的客户服务场景,也可以是商家与客户之间的交互场景或者用户与用户之间的交互场景。通过语音输入部件可以获取目标场景中的对话语音。其中,语音输入部件可以为麦克风等用于接收语音的部件。情绪识别装置可以采用语音识别技术将获取的目标场景中的对话语音转化为与目标场景中的对话语音相对应的目标对话文本。需要说明的是,这里的语音识别技术可以是任一符合条件的语音识别技术,目标场景和目标对话文本是一种代指,目标场景可以理解为情绪识别装置当前正在进行情绪识别的场景,而目标对话文本可以理解为目标场景中对话语音对应的文本信息。
在本发明实施例中,目标场景中的对话语音可能会比较长,当目标场景中的对话语音比较长时,情绪识别装置采用语音识别技术将目标场景中的对话语音转化为目标对话文本的过程会占用大量的资源。基于上述情况,可选的,可以将目标场景中的对话语音拆分成多个对话语音片段,采用语音识别技术将拆分得到的多个对话语音片段转换成相应的多个对话文本片段,然后将转换得到的多个对话文本片段按照顺序进行拼接,就可以确定在目标场景中对话语音的目标对话文本。这样可以既能准确的将目标场景中的对话语音转换为对应的目标对话文本,又不会在语音识别过程中占用大量的数据处理资源,以免由于占用过多资源影响其他数据的正常处理。
S102、采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别得到通用识别结果。
在本发明实施例中,目标对话文本中可以包括强烈情感的情绪关键词和对场景敏感的情绪关键词等多种类型的情绪关键词。不同的目标场景中对情绪关键词的容忍度也不相同。强烈情感的情绪关键词可以理解为在任何场景下均需要被识别出来,不会因为场景的不同而会导致对话文本中的情绪状态发生变化的情绪关键词。例如,一种是具有强烈正向情感的情绪关键词的对话文本,比如:“你们这个真的是做的太棒了!”、“非常感谢,我特别喜欢这种功能!”、“哇,真厉害!”等类似的对话文本,上述对话文本中包含有强烈正向情感的情绪关键词;另一种是具有强烈负向情感的情绪关键词的对话文本,比如:“你们这个作品太垃圾了!”、“你今天看上去很痛苦!”、“你太可恶了!”等类似的对话文本,上述对话文本中包含有强烈负向情感的情绪关键词。对于强烈情感的情绪关键词而言,在任何场景下,都是不会有歧义的,不会对识别目标对话文本的情绪状态产生影响,并且由于上述情绪关键词为强烈情感的情绪关键词,各个场景下对强烈情感的情绪关键词容忍度均超过对应场景的容忍度阈值,因此必须被识别出来。
在本发明实施例中,在将目标对话文本输入至预先训练的通用情绪识别模型之后,通过预先训练的通用情绪识别模型可以输出目标对话文本的通用识别结果。其中,通用识别结果中可能存在目标文本的通用情绪状态,也可能没有通用情绪状态。通用情绪识别模型可以在任何场景下对包含有强烈情感的情绪关键词的目标对话文本进行识别,并识别出该目标对话文本的情绪状态。如果目标对话文本中包括强烈情感的情绪关键词,通过预先训练的通用场景的通用情绪识别模型对目标对话文本中的强烈情感的情绪关键词进行识别,从而得到目标对话文本的通用情绪状态类型。其中,通用情绪状态的类型可以包括正向强烈情绪和负向强烈情绪。例如,“开心”、“快乐”、“兴奋”等正向强烈情感的情绪关键词在目标对话文本中可以反映目标对话文本对应的通用情绪状态是正向情绪,而“痛苦”、“悲痛”、“垃圾”等负向强烈情感的情绪关键词在目标对话文本中可以反映目标对话文本对应的通用情绪状态是负向强烈情绪。如果目标对话文本中不包括强烈情感的情绪关键词,采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别,则无法得到目标对话文本的通用情绪状态,也就是说,通用识别结果中不存在通用情绪状态。可选的,预先训练的情绪识别模型可以包括基于深度学习的模型。
在本发明实施例中,通过引入通用情绪识别模型,可以将大部分与场景无关的具有强烈情感的情绪关键词的对话文本独立的抽取出来,然后根据抽取的对话文本进行不断的训练和学习生成一个独立的通用情绪识别模型,从而使得该通用情绪识别模型可以在不同的场景上进行复用。
S103、采用预先训练的目标场景的目标情绪识别模型对目标对话文本进行识别得到目标场景识别结果。
在本发明实施例中,目标对话文本中不仅可以包括强烈情感的情绪关键词,还可以包括对场景敏感的情绪关键词。强烈情感的情绪关键词与对场景敏感的情绪关键词区别在于:各个场景下对强烈情感的情绪关键词容忍度均超过对应场景的容忍度阈值,但是对场景敏感的情绪关键词的容忍度可能在一些特定场景下超过对应场景的容忍度阈值,需要被识别出来,也可能在另外一些特定场景下不会超过对应场景的容忍度阈值,不需要被识别出来。对场景敏感的情绪关键词可以理解为在特定的场景下才比较敏感的情绪关键词,对于不同的场景而言,由于对场景敏感的情绪关键词原因可能会使得相似的目标对话文本在不同的场景下被识别为不同的情绪状态对该场景下产生不同的影响。例如,在对客户的反馈非常敏感的银行客服场景中:类似“你们已经拖了我一周的时间了”等这样的目标对话文本需要被识别为负向情绪;而在对客户反馈容忍度较高的网络贷款平台客服场景中:类似“我这都申请好几天了,这么慢叫我下次怎么贷?”等这样的目标对话文本则不需要被识别为负向情绪。可见,在不同的场景下对目标文本的识别程度可能不相同,在某一些场景下需要将目标对话文本识别为负向情绪状态,而另外一些场景下只需要将目标文本作为中性情绪而不需要将目标文本识别为负向情绪。
在本发明实施例中,对于包含对场景敏感的情绪关键词的目标对话文本而言,由于目标对话文本在不同的场景下可能会被识别为不同的情绪状态或者被识别为没有情绪状态,如果单独采用通用情绪识别模型可能无法正确识别该包含对场景敏感的情绪关键词的目标对话文本的真实情绪状态。为此,可以针对性的为每一个目标场景构建预先训练的目标场景的目标情绪识别模型,在采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别时,还可以采用预先训练的目标场景的目标情绪识别模型对目标对话文本进行识别,并得到目标场景识别结果。其中,目标场景识别结果中可能存在目标文本的目标场景情绪状态,也可能不存在目标场景情绪状态。如果目标场景识别结果中存在目标文本的目标场景情绪状态,相应的可以确定目标场景识别结果中的目标对话文本的目标情绪状态的类型。其中,目标情绪状态的类型可以包括对场景敏感的正向情绪和对场景敏感的负向情绪。
在本发明实施例中,通过抽取标注有对场景敏感的情绪关键词的对话文本,并确定各个对话文本在不同场景下的情绪状态,然后采用各个包含有对场景敏感的情绪关键词的对话文本以及各个对话文本在不同场景下的情绪状态作为模型训练数据进行模型训练,就可以得到在不同的目标场景下的目标情绪识别模型,这样就可以针对性的为每一个目标场景构建对应目标情绪识别模型。
S104、依据通用识别结果和目标场景识别结果,得到目标对话文本的情绪状态。
在本发明实施例中,在采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别时,还需要采用预先训练的目标场景的目标情绪识别模型对目标对话文本进行识别。通用识别结果中可能存在目标文本的通用情绪状态,也可能没有通用情绪状态。目标场景识别结果中可能存在目标文本的目标场景情绪状态,也可能不存在目标场景情绪状态。若通用识别结果中不存在情绪状态,表明通过通用情绪识别模型没有识别得到目标文本的通用情绪状态,可以将目标场景识别结果作为目标对话文本的情绪状态。具体的,在通用识别结果中不存在情绪状态的情况下,当采用预先训练的目标场景的目标情绪识别模型可以识别得到目标对话文本的情绪状态时,可以将目标情绪识别模型对目标对话文本的识别得到的目标情绪状态作为目标对话文本的情绪状态;当采用预先训练的目标场景的目标情绪识别模型无法识别得到目标对话文本的情绪状态时,则需要在对应的场景下重新训练目标情绪识别模型或者更新目标情绪识别模型。
在本发明实施例中,当通用识别结果中存在情绪状态,且目标场景识别结果中存在情绪状态时,则依据通用识别结果和目标场景识别结果来共同确定目标对话文本的情绪状态。可选的,情绪识别装置可以依据通用识别结果中目标对话文本对应的情绪状态的第一相似度和目标场景识别结果中目标对话文本对应的情绪状态的第二相似度,确定目标对话文本的情绪状态。其中,目标对话文本的最终情绪状态的类型可以包括:正向情绪和负向情绪。需要说明的是,同一种情绪状态还可以分为不同的情绪状态等级,通过不同的情绪状态等级可以反映用户在对应目标对话文本下的情绪强弱程度。
具体的,当通用识别结果中存在情绪状态时,不仅可以在通用识别结果中确定目标对话文本的通用情绪状态,还可以确定目标对话文本的通用情绪状态的相似度,并记为第一相似度。其中,通用情绪状态可以包括正向强烈情绪和负向强烈情绪;第一相似度越大,表明识别得到的通用情绪状态与目标对话文本的实际情绪状态越相似,即识别得到的目标对话文本的通用情绪状态越准确,反之第一相似度越小,表明识别得到的通用情绪状态与目标对话文本的实际情绪状态越不相似,即识别得到的目标对话文本的通用情绪状态越不准确。当目标场景识别结果中存在情绪状态时,不仅可以在目标场景识别结果中确定目标对话文本的目标情绪状态,还可以确定目标对话文本对应的目标情绪状态的相似度,并记为第二相似度。其中,目标情绪状态可以包括对场景敏感的正向情绪和对场景敏感的负向情绪;第二相似度越大,表明识别得到的目标情绪状态与目标对话文本在对应场景下的实际情绪状态越相似,即识别得到的目标对话文本的目标情绪状态越准确,反之第二相似度越小,表明识别得到的目标情绪状态与目标对话文本在对应场景下的实际情绪状态越不相似,即识别得到的目标对话文本的目标情绪状态越不准确。在确定识别得到的通用情绪状态的第一相似度和目标情绪状态的第二相似度之后,可以根据第一相似度大小和第二相似度大小来确定目标对话文本的最终情绪状态,比如选择相似度较大的识别结果作为目标对话文本的最终情绪状态。需要注意的,通用情绪状态和目标情绪状态之间可能存在极性方向不同的情况,比如一个是正向情绪,一个是负向情绪,则需要对目标对话文本的情绪进行进一步判断。
本发明实施例中提供了一种情绪识别方法,采用语音识别技术确定在目标场景中对话语音的目标对话文本;采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。本发明实施例中的情绪识别方法能够结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,提高了情绪状态识别结果的准确度,降低了人力成本,克服了语音交互效果难以把控的缺陷。
实施例二
图2示出了本发明实施例二中提供的一种情绪识别方法的流程示意图,本实施例在上述实施例的基础上进一步地优化。
如图2所示,本发明实施例中的情绪识别方法可以包括:
S201、采用语音识别技术确定在目标场景中对话语音的目标对话文本。
S202、若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对目标对话文本进行识别得到通用识别结果。
在本发明实施例中,通用情绪识别模型和目标场景情绪识别模型是分离设置,当检测到在其他场景中使用了通用情绪识别模型对其他场景中的其他对话文本进行情绪识别时,则可以将其他场景中使用的通用模型直接拉取,然后使用拉取的其他场景中使用的通用情绪识别模型对目标对话文本进行识别得到通用识别结果。具体地,与上述实施例中使用自身预先训练的通用情绪识别模型的操作相似,此处不再赘述。本实施例中通过层级模型识别结构的方式,分离了通用情绪识别模型与目标场景情绪识别模型,从而降低了目标场景情绪识别模型的压力,可以使得目标场景情绪识别模型专注于提升对包含有对场景敏感的情绪关键词的目标对话文本的情绪识别能力,同时还可以对通用情绪识别模型进行复用,而不需要重新训练模型。
S203、采用预先训练的目标场景的目标情绪识别模型对目标对话文本进行识别得到目标场景识别结果。
S204、依据通用识别结果和所述目标场景识别结果,得到目标对话文本的情绪状态。
可选的,依据通用识别结果和目标场景识别结果,得到目标对话文本的情绪状态,可以包括:若通用识别结果中没有情绪状态,则将目标场景识别结果作为目标对话文本的情绪状态。
本发明实施例中提供了一种情绪识别方法,采用语音识别技术确定在目标场景中对话语音的目标对话文本;若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对目标对话文本进行识别得到通用识别结果;采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。本发明实施例中的情绪识别方法不仅能够结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,提高了情绪状态识别结果的准确度,克服了语音交互效果难以把控的缺陷,而且还能复用其他场景的通用情绪识别模型,而不需要重新训练模型,提高了模型训练效率,节约模型训练成本。
实施例三
图3示出了本发明实施例三中提供的一种情绪识别方法的流程示意图,本实施例在上述实施例的基础上进一步地优化。
如图3所示,本发明实施例中的情绪识别方法可以包括:
S301、采用语音识别技术确定在目标场景中对话语音的目标对话文本。
S302、从至少一个场景的对话文本中选择通用对话文本,并确定通用对话文本的情绪状态。
S303、依据通用对话文本以及通用对话文本的情绪状态,训练得到通用情绪识别模型。
在本发明实施例中,从至少一个场景中抽取标注有与场景无关的强烈情感的情绪关键词的通用对话文本,并确定各个通用对话文本对应的通用情绪状态,然后采用各个包含有与场景无关的强烈情感的情绪关键词的通用对话文本以及各个通用对话文本对应的通用情绪状态作为模型训练数据进行模型训练,就可以得到通用情绪识别模型。可选的,本实施例中可以采用支持向量机、神经网络、决策树、贝叶斯网络、K近邻以及隐马尔科夫等算法模型进行学习训练,以得到通用情绪识别模型。另外,为了保证通用情绪识别模型的准确度,还可以按照预设时间对通用情绪识别模型进行验证,并根据验证结果对通用情绪识别模型的参数进行修正,得到修正后的通用情绪识别模型。
S304、采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别得到通用识别结果。
可选的,采用预先训练的通用场景的通用情绪识别模型对目标对话文本进行识别得到通用识别结果,包括:若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对目标对话文本进行识别得到通用识别结果。
S305、采用预先训练的目标场景的目标情绪识别模型对目标对话文本进行识别得到目标场景识别结果。
S306、依据通用识别结果和目标场景识别结果,得到目标对话文本的情绪状态。
可选的,依据通用识别结果和目标场景识别结果,得到目标对话文本的情绪状态,可以包括:若通用识别结果中没有情绪状态,则将目标场景识别结果作为目标对话文本的情绪状态。
本发明实施例中提供了一种情绪识别方法,结合通用情绪识别模型和目标场景的目标情绪识别模型来对目标场景的语音会话进行情绪识别,不仅可以提高情绪识别结果的准确度,而且还能复用其他场景的通用情绪识别模型,提高了模型训练效率,节约了模型训练成本。
实施例四
图4示出了本发明实施例四中提供的一种情绪识别装置的结构示意图,本发明实施例可应用于金融客服平台、银行客服平台、智能家居平台、在线教育平台等需要进行智能交互的场景,该装置可以采用软件和/或硬件的方式实现,该装置可以集成在任何具有网络通信功能的计算机设备。
如图4所示,本发明实施例中的情绪识别装置可以包括:文本确定模块401、通用识别模块402、目标识别模块403和情绪确定模块404,其中:
文本确定模块401,用于采用语音识别技术确定在目标场景中对话语音的目标对话文本;
通用识别模块402,用于采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
目标识别模块403,用于采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
情绪确定模块404,用于依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。
在上述方案的基础上,可选的,通用识别模块402可以包括:
模型复用单元,用于若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果。
在上述方案的基础上,可选的,所述情绪识别装置还可以包括:
通用文本选择模块405,用于从至少一个场景的对话文本中选择通用对话文本,并确定所述通用对话文本的情绪状态;
通用模型训练模块406,用于依据所述通用对话文本以及所述通用对话文本的情绪状态,训练得到通用情绪识别模型。
在上述方案的基础上,可选的,情绪确定模块404具体可以用于:
若所述通用识别结果中没有情绪状态,则将所述目标场景识别结果作为目标对话文本的情绪状态。
本发明实施例中提供的情绪识别装置可执行本发明任意实施例所提供的情绪识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5示出了本发明实施例五中提供的一种计算机设备的结构示意图。本实施例中提供了一种计算机设备500,其包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器520执行,使得所述一个或多个处理器520实现本发明实施例中提供的情绪识别方法,该情绪识别方法可以包括:
采用语音识别技术确定在目标场景中对话语音的目标对话文本;
采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。
当然,本领域技术人员可以理解,处理器520还可以实现本发明任意实施例中所提供的情绪识别方法的技术方案。
图5显示的计算机设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备500以通用计算设备的形式表现。计算机设备500的组件可以包括但不限于:一个或者多个处理器520,存储装置510,连接不同系统组件(包括存储装置510和处理器520)的总线550。
总线550表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置510可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)511和/或高速缓存存储器512。计算机设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统513可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线550相连。存储装置510可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块515的程序/实用工具514,可以存储在例如存储装置510中,这样的程序模块515包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块515通常执行本发明所描述的任意实施例中的功能和/或方法。
计算机设备500也可以与一个或多个外部设备560(例如键盘、指向设备、显示器570等)通信,还可与一个或者多个使得用户能与该计算机设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口530进行。并且,计算机设备500还可以通过网络适配器540与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器540通过总线550与计算机设备500的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器520通过运行存储在存储装置510中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例中所提供的情绪识别方法。
实施例六
本发明实施例中提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种情绪识别方法,本发明实施例的情绪识别方法可以包括:
采用语音识别技术确定在目标场景中对话语音的目标对话文本;
采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态。
当然,本发明实施例中所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的情绪识别方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种情绪识别方法,其特征在于,所述方法包括:
采用语音识别技术确定在目标场景中对话语音的目标对话文本;
采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态;
所述依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态,包括:
若所述通用识别结果中没有情绪状态,则将所述目标场景识别结果作为目标对话文本的情绪状态;
若所述通用识别结果和所述目标场景识别结果中都存在情绪状态时,则依据所述通用识别结果中所述目标对话文本对应的情绪状态的第一相似度和所述目标场景识别结果中所述目标对话文本对应的情绪状态的第二相似度,确定所述目标对话文本的情绪状态。
2.根据权利要求1所述的方法,其特征在于,所述采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果,包括:
若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果。
3.根据权利要求1所述的方法,其特征在于,在所述采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果之前,还包括:
从至少一个场景的对话文本中选择通用对话文本,并确定所述通用对话文本的情绪状态;
依据所述通用对话文本以及所述通用对话文本的情绪状态,训练得到通用情绪识别模型。
4.一种情绪识别装置,其特征在于,所述装置包括:
文本确定模块,用于采用语音识别技术确定在目标场景中对话语音的目标对话文本;
通用识别模块,用于采用预先训练的通用场景的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果;
目标识别模块,用于采用预先训练的目标场景的目标情绪识别模型对所述目标对话文本进行识别得到目标场景识别结果;
情绪确定模块,用于依据所述通用识别结果和所述目标场景识别结果,得到所述目标对话文本的情绪状态;
所述情绪确定模块具体用于:
若所述通用识别结果中没有情绪状态,则将所述目标场景识别结果作为目标对话文本的情绪状态;
若所述通用识别结果和所述目标场景识别结果中都存在情绪状态时,则依据所述通用识别结果中所述目标对话文本对应的情绪状态的第一相似度和所述目标场景识别结果中所述目标对话文本对应的情绪状态的第二相似度,确定所述目标对话文本的情绪状态。
5.根据权利要求4所述的装置,其特征在于,通用识别模块包括:
模型复用单元,用于若检测到在对其他场景中的其他对话文本进行情绪识别过程中使用了通用情绪识别模型,则复用其他场景中使用的通用情绪识别模型对所述目标对话文本进行识别得到通用识别结果。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
通用文本选择模块,用于从至少一个场景的对话文本中选择通用对话文本,并确定所述通用对话文本的情绪状态;
通用模型训练模块,用于依据所述通用对话文本以及所述通用对话文本的情绪状态,训练得到通用情绪识别模型。
7.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一项所述的情绪识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一项所述的情绪识别方法。
CN201810694923.XA 2018-06-29 2018-06-29 情绪识别方法、装置、计算机设备及存储介质 Active CN108922564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810694923.XA CN108922564B (zh) 2018-06-29 2018-06-29 情绪识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810694923.XA CN108922564B (zh) 2018-06-29 2018-06-29 情绪识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108922564A CN108922564A (zh) 2018-11-30
CN108922564B true CN108922564B (zh) 2021-05-07

Family

ID=64423301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810694923.XA Active CN108922564B (zh) 2018-06-29 2018-06-29 情绪识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108922564B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326173B (zh) * 2018-12-17 2023-03-24 北京嘀嘀无限科技发展有限公司 语音信息处理方法、装置、电子设备以及可读存储介质
CN110444229A (zh) * 2019-06-17 2019-11-12 深圳壹账通智能科技有限公司 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN110737761B (zh) * 2019-09-26 2023-09-19 联想(北京)有限公司 一种信息处理方法、电子设备和存储介质
CN110931002B (zh) * 2019-10-12 2023-06-20 平安科技(深圳)有限公司 人机交互方法、装置、计算机设备和存储介质
CN111429946A (zh) * 2020-03-03 2020-07-17 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、介质及电子设备
CN111489522A (zh) * 2020-05-29 2020-08-04 北京百度网讯科技有限公司 用于输出信息的方法、装置和系统
CN113815625B (zh) * 2020-06-19 2024-01-19 广州汽车集团股份有限公司 车辆辅助驾驶控制方法、装置及智能方向盘
CN112101042A (zh) * 2020-09-14 2020-12-18 平安科技(深圳)有限公司 文本情绪识别方法、装置、终端设备和存储介质
CN112671984B (zh) * 2020-12-01 2022-09-23 长沙市到家悠享网络科技有限公司 服务模式切换方法、装置、机器人客服及存储介质
CN116662503B (zh) * 2023-05-22 2023-12-29 深圳市新美网络科技有限公司 私域用户场景话术推荐方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
US20140114655A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
US20170102765A1 (en) * 2015-10-08 2017-04-13 Panasonic Intellectual Property Corporation Of America Information presenting apparatus and control method therefor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101840644B1 (ko) * 2011-05-31 2018-03-22 한국전자통신연구원 감성인지 기반 보디가드 시스템, 감성인지 디바이스, 영상 및 센서 제어 장치, 신변 보호 관리 장치 및 그 제어 방법
CN103829958B (zh) * 2014-02-19 2016-11-09 广东小天才科技有限公司 一种监测人情绪的方法及装置
WO2016195474A1 (en) * 2015-05-29 2016-12-08 Charles Vincent Albert Method for analysing comprehensive state of a subject
JP6761598B2 (ja) * 2016-10-24 2020-09-30 富士ゼロックス株式会社 感情推定システム、感情推定モデル生成システム
CN106682142A (zh) * 2016-12-21 2017-05-17 兰州交通大学 特定事件情境下网络用户情感挖掘与传播特征分析方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN108009297B (zh) * 2017-12-27 2020-09-04 云润大数据服务有限公司 基于自然语言处理的文本情感分析方法与系统
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
US20140114655A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
US20170102765A1 (en) * 2015-10-08 2017-04-13 Panasonic Intellectual Property Corporation Of America Information presenting apparatus and control method therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多文化场景下的多模态情感识别;陈师哲 等;《软件学报》;20171204;第1060-1070页 *

Also Published As

Publication number Publication date
CN108922564A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108922564B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
US11184298B2 (en) Methods and systems for improving chatbot intent training by correlating user feedback provided subsequent to a failed response to an initial user intent
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN111027291B (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN111737991B (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN110704597B (zh) 对话系统可靠性校验方法、模型生成方法及装置
EP3956882A1 (en) Code-switching speech recognition with end-to-end connectionist temporal classification model
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
CN112825114A (zh) 语义识别方法、装置、电子设备及存储介质
CN111753524A (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN115935182A (zh) 模型训练方法、多轮对话中的话题分割方法、介质及装置
CN114067790A (zh) 语音信息处理方法、装置、设备及存储介质
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN114913590A (zh) 一种数据的情感识别方法、装置、设备及可读存储介质
CN113782030B (zh) 基于多模态语音识别结果纠错方法及相关设备
CN113160820A (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
CN116431501A (zh) 语音助手的性能测试方法、装置、电子设备及介质
CN113792133B (zh) 判题方法、装置、电子设备和介质
EP4064031A1 (en) Method and system for tracking in extended reality using voice commmand
CN114466106A (zh) 外呼系统的测试数据生成方法、装置、设备和介质
CN111782775B (zh) 对话方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant