CN116560513B - 基于情绪识别的ai数字人交互方法、装置及系统 - Google Patents

基于情绪识别的ai数字人交互方法、装置及系统 Download PDF

Info

Publication number
CN116560513B
CN116560513B CN202310832478.XA CN202310832478A CN116560513B CN 116560513 B CN116560513 B CN 116560513B CN 202310832478 A CN202310832478 A CN 202310832478A CN 116560513 B CN116560513 B CN 116560513B
Authority
CN
China
Prior art keywords
emotion
data
intensity
digital person
limb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310832478.XA
Other languages
English (en)
Other versions
CN116560513A (zh
Inventor
王英
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4u Beijing Technology Co ltd
Original Assignee
4u Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4u Beijing Technology Co ltd filed Critical 4u Beijing Technology Co ltd
Priority to CN202310832478.XA priority Critical patent/CN116560513B/zh
Publication of CN116560513A publication Critical patent/CN116560513A/zh
Application granted granted Critical
Publication of CN116560513B publication Critical patent/CN116560513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于情绪识别的AI数字人交互方法、装置及系统,其中,该方法包括:响应于接收到用户的语音数据,从语音数据中提取音频特征,并将语音数据转换为文本内容;基于音频特征和文本内容,计算用户的情绪值,并基于用户的情绪值确定AI数字人播报语音数据的响应数据时的表情类型;基于表情类型确定用于驱动AI数字人的驱动数据,其中,驱动数据包括面部表情驱动数据和肢体驱动数据;在控制AI数字人播报响应数据时,基于面部表情驱动数据控制AI数字人的面部表情,并基于肢体驱动数据控制AI数字人的肢体动作。本申请解决了相关技术中AI数字人无法基于用户的情绪进行响应的技术问题。

Description

基于情绪识别的AI数字人交互方法、装置及系统
技术领域
本申请涉及人工智能领域,具体而言,涉及一种基于情绪识别的AI数字人交互方法、装置及系统。
背景技术所述技术、方法和设备应当被视为授权说明书的一部分
AI数字人是利用人工智能技术创建的虚拟人物,其外貌、动作和语音能力高度逼真。通过AI算法和技术,AI数字人能够模拟人类的外观、行为和交流方式,使其在视觉和听觉上与真实人类无异。
AI数字人可以担任企业中的数字员工,如专业客服、行政前台、销售主播等,为企业提供内容传播、品牌营销和销售转化等服务。它们可以应用于各种终端场景,如PC、APP、小程序、VRMR等,以满足不同行业多样化的需求,并提升数据交互能力,助力企业在营销方面实现长足发展。
然而,目前的AI数字人的交互技术虽然使用了机器学习算法和自然语言处理技术,使得AI数字人能够理解和回应用户的提问或互动,但是现有的AI数字人只能基于用户输入的语音数据或者文本数据来进行响应,而无法综合考虑用户的情绪。这就意味着在与AI数字人进行互动时,用户的情绪状态无法被准确识别和应对。
识别用户的情绪对于提供个性化和情感化的服务至关重要。通过准确感知和理解用户情绪,AI数字人可以更好地回应用户的需求,提供相应的支持和解决方案。因此,开发一种情绪识别技术,使AI数字人能够准确捕捉和分析用户的情绪变化,是亟待解决的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于情绪识别的AI数字人交互方法、装置及系统,以至少解决相关技术中AI数字人无法基于用户的情绪进行响应的技术问题。
根据本发明实施例的一个方面,提供了一种基于情绪识别的AI数字人交互方法,包括:响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型;基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。
根据本发明实施例的另一方面,还提供了一种基于情绪识别的AI数字人交互装置,包括:语音处理模块,被配置为响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;表情确定模块,被配置为基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型;驱动数据确定模块,被配置为基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;驱动模块,被配置为在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。
在本发明实施例中,响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型;基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。通过上述方案,解决了相关技术中AI数字人无法基于用户的情绪进行响应的技术问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种基于情绪识别的AI数字人交互方法的流程图;
图2是根据本申请实施例的另一种基于情绪识别的AI数字人交互方法的流程图;
图3是根据本申请实施例的一种对语音数据进行处理的方法的流程图;
图4是根据本申请实施例的一种确定文本内容的应用场景的方法的流程图;
图5是根据本申请实施例的一种获取情感词和强度限定词的方法的流程图;
图6是根据本申请实施例的一种计算情绪强度的方法的流程图;
图7是根据本申请实施例的一种基于情绪识别的AI数字人交互装置的结构示意图;
图8示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到 :相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1
本申请实施例提供了一种基于情绪识别的AI数字人交互方法,如图1所示,该方法包括以下步骤:
步骤S102,响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容。
当AI数字人接收到用户的语音数据时,首先进行音频特征提取和语音转文本的处理过程。具体地,利用信号处理技术对接收到的语音数据进行预处理,包括去除噪声、调整音量等操作,以确保提取到的音频特征质量较高。
接下来,通过特征提取算法从经过预处理的语音数据中提取音频特征。音频特征可以包括频谱信息、音高、音强等相关数据。这些特征能够描述语音信号的不同方面,例如声音的频率分布、音调高低、音量大小等。通过提取这些特征,系统可以更好地理解语音信号的内容和特征。
随后,利用语音识别技术将提取到的音频特征转换为文本内容。语音识别技术通过对音频特征进行模式匹配和语言模型分析,将语音数据转换为对应的文本表示。这样,就能够将用户的语音输入转化为可处理和理解的文本形式。
通过将语音数据转换为文本内容,AI数字人可以更方便地进行后续的情感识别和情绪分析等处理,以实现对用户情绪的识别和响应。
步骤S104,基于所述音频特征和所述文本内容,计算所述用户的情绪值。
1)识别所述文本内容中用于表征情绪的情感词,并基于所述情感词在所述文本内容中的位置确定用于表征情绪强度的强度限定词。
首先,基于所述情感词在所述文本内容中的位置,对所述情感词的上下文范围内的词语进行特征提取,得到特征向量。
接着,利用分类算法来对所述特征向量进行分类,确定所述强度限定词。例如,利用等频离散化方法对所述特征向量进行连续值离散化处理,得到离散的所述特征向量;分别计算离散的所述特征向量在每个强度限定类别下的后验概率,并选择所述后验概率中具有最高概率值的强度限定类别作为离散的所述特征向量的分类结果,其中,所述后验概率是一个特征向量出现在一个强度限定类别下的概率。
本实施例,通过使用等频离散化方法对特征向量进行连续值离散化处理,将其转化为离散的特征向量,从而简化了情绪强度的分类问题。这样的离散化处理有助于减少特征空间的复杂性,提高分类的效率和准确性。此外,通过计算离散的特征向量在每个强度限定类别下的后验概率,可以对特征向量进行更精确的情绪分类。后验概率表示特征向量出现在某个强度限定类别下的概率,通过分别计算特征向量在每个强度限定类别下的后验概率,可以确定其在各个强度限定类别中的归属程度。选择具有最高后验概率值的强度限定类别作为特征向量的分类结果,有助于更准确地确定特征向量所表达的强度限定类别。
在一些实施例中,可以采用以下的方式计算离散的所述特征向量在每个强度限定类别下的后验概率:计算离散的所述特征向量在每个强度限定类别下的条件概率,其中,所述条件概率表示在给定强度限定类别的前提下一个特征向量出现的概率;计算所述每个强度限定类别的先验概率,其中,所述先验概率表示训练数据集中的所有数据被归入一个强度限定类别的概率;基于所述条件概率和所述先验概率,计算离散的所述特征向量在每个强度限定类别下的所述后验概率。
本实施例通过计算离散特征向量在每个强度限定类别下的条件概率,可以在给定强度限定类别的前提下,评估特征向量在该强度限定类别下出现的概率。这有助于理解特征向量与不同强度限定类别之间的关联程度,进一步揭示特征向量所表达的情绪信息。此外,通过计算每个强度限定类别的先验概率,可以衡量训练数据集中被归入每个强度限定类别的数据的概率。先验概率提供了对强度限定类别在整个数据集中的分布情况的了解,为后验概率的计算提供了重要参考。通过综合考虑特征向量的条件概率和每个强度限定类别的先验概率,可以更准确地计算离散特征向量在每个强度限定类别下的后验概率。综上,采用上述方式计算离散特征向量在每个强度限定类别下的后验概率可以提供更全面、准确的情绪分类结果。
2)基于所述情感词确定所述文本内容对应的情绪类型,并基于所述强度限定词和所述音频特征确定所述文本内容对应的情绪强度。
首先,确定情绪类型。例如,基于字符串查找法,从文本内容中查找出情感词,然后,基于情感词确定情绪类型。
接着,确定强度权重。例如,从所述文本内容中提取场景特征,将所述场景特征和应用场景库中的各个应用场景进行相似度匹配,确定与所述文本内容相应的应用场景类型;基于所述应用场景类型和所述强度限定词,确定所述强度权重,其中,不同的应用场景类型下,相同的强度限定词具有不同的强度权重。
本实施例,通过从文本内容中提取场景特征并与应用场景库中的各个应用场景进行相似度匹配,可以确定与文本内容相应的应用场景类型。这有助于理解文本内容所处的具体情境和语境,进一步提供了关于情绪表达的背景信息。此外,在不同的应用场景类型下,相同的强度限定词可能具有不同的强度权重,这是因为情绪表达的强度在不同情境下可能有所差异。通过考虑应用场景类型,可以对情绪强度进行更加精确的调整和定量化。最后,通过确定强度权重,可以将情绪表达的强度与具体的应用场景和语境相匹配,使情绪分类更加准确和可靠。
然后,确定情绪强度。例如,基于所述强度限定词和所述强度权重计算所述文本内容的第一情绪强度值;基于所述音频特征,识别所述文本内容对应的第二情绪强度值,其中,所述音频特征包括音高特征和音速特征;基于所述第一情绪强度值和所述第二情绪强度值,确定所述文本内容对应的情绪强度。
本实施例通过基于所述强度限定词和所述强度权重计算文本内容的第一情绪强度值,可以将情绪强度量化并与情感词和情境相关联。这有助于确定情绪的整体程度和强弱,提供了对情绪表达强度的度量和理解。此外,通过基于音频特征识别文本内容对应的第二情绪强度值,特别是音高特征和音速特征,可以从声音角度对情绪进行补充评估。音高特征可以反映声音的频率特性,而音速特征可以反映语速和语调的变化。结合这些音频特征,可以更全面地分析情绪表达的细节和声音属性。最后,基于第一情绪强度值和第二情绪强度值,可以综合考虑文本内容的情感信息和音频特征的情绪指标,从而确定文本内容对应的情绪强度。通过综合考虑文本和声音两个方面的情绪表达,可以提供更全面、准确的情绪评估和分析结果。
3)基于所述情绪类型和所述情绪强度,计算情绪值。
获取所述情感词的情绪值,计算所述情绪值和所述情绪强度的累积值;将所述文本内容中包含的所有情感词对应的所述累积值的和作为所述文本内容的情绪值。
本实施例通过将情绪类型和情绪强度进行匹配和组合来实现用户情绪的识别。例如,如果情绪类型被确定为愤怒,而情绪强度被确定为高强度,则可以推断用户正在经历强烈的愤怒情绪。类似地,根据不同的情绪类型和相应的情绪强度值,可以确定用户可能正在经历的具体情感状态。
步骤S106,基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型。
在所述用户的情绪值大于第一阈值的情况下,将所述表情类型确定为积极类型,其中,所述积极类型表示所述AI数字人的表情为愉悦的状态;在所述用户的情绪值小于所述第一阈值但大于所述第二阈值的情况下,将所述表情类型确定为中性类型,其中,所述中性类型表示所述AI数字人的表情为中性的状态;在所述用户的情绪值小于所述第二阈值的情况下,将所述表情类型确定为消极类型,其中,所述消极类型表示所述AI数字人的表情为悲伤的状态。
本实施例通过基于用户情绪值确定不同表情类型,AI数字人能够更准确地反映用户的情感状态。将积极类型表情应用于愉悦的情绪,中性类型表情应用于情绪不明确或平静的状态,以及消极类型表情应用于悲伤的情绪,使得AI数字人能够与用户情感更加契合,提供更加贴切的反馈和交互体验。通过对不同情绪值范围的情感类型进行细分,AI数字人能够更好地响应用户的情感变化。这种细分可以提供更加丰富和多样化的情感交互效果,使得AI数字人能够更加智能地理解和回应用户的情感需求,增强用户与AI数字人之间的情感连接和沟通效果。最后,基于情绪值的阈值确定表情类型,使得AI数字人能够根据用户的情感状态自适应地调整表情。这种个性化的表情反馈可以提升用户的参与感和满意度,使用户感受到与AI数字人之间更加真实和有共鸣的互动体验。
步骤S108,基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据。
在所述表情类型为所述积极类型的情况下,将所述面部表情驱动数据设置为第一面部数据,并将所述肢体驱动数据设置为第一肢体数据,其中,所述第一面部数据能够驱动所述AI数字人呈现愉悦状态的面部表情,所述第一肢体数据能够驱动所述AI数字人呈现活跃的肢体动作;
在所述表情类型为所述中性类型的情况下,将所述面部表情驱动数据设置为第二面部数据,并将所述肢体驱动数据设置为第二肢体数据,其中,所述第二面部数据能够驱动所述AI数字人呈现面部放松状态的面部表情,所述第二肢体数据能够确定所述AI数字人呈现轻柔的肢体动作;
在所述表情类型为所述消极类型的情况下,将所述面部表情驱动数据设置为第三面部数据,并将所述肢体驱动数据设置为第三肢体数据,其中,所述第三面部数据能够驱动所述AI数字人呈现面部悲伤状态的面部表情,所述第三肢体数据能够驱动所述AI数字人呈现缓慢的肢体动作。
本实施例通过将面部表情驱动数据和肢体驱动数据与表情类型相匹配,AI数字人能够呈现与用户情感相一致的反应。这种一致性使得AI数字人的情感表达更加连贯和逼真,增强了与用户的情感互动效果。此外,通过设置不同的面部表情和肢体动作,AI数字人能够更好地传达特定的情感状态。最后,通过呈现与用户情感相匹配的面部表情和肢体动作,AI数字人能够更好地理解和回应用户的情感需求,提升用户的情感体验和参与感。
步骤S110,在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。
将所述面部表情驱动数据映射到所述AI数字人的面部控制器上,利用所述面部控制器调整相应的面部控制点的位移、旋转或缩放,以控制所述AI数字人的面部表情。同时,将所述肢体驱动数据映射到所述AI数字人的肢体控制器上,利用所述肢体控制器对所述AI数字人的姿势数据进行自动逆向运动学解算,并基于所述自动逆向运动学解算的结果,来控制所述AI数字人的肢体动作。例如,根据所述AI数字人的模型骨架,计算出所述AI数字人的模型骨架的末端效应器的位置和姿势;将所述AI数字人的模型骨架的末端效应器的位置和姿势与标准骨骼动画数据的末端效应器位置和姿势进行比较,并通过最小二乘法,计算出所述AI数字人的模型骨架上的每个关节的角度或姿势。
具体地,可以将所述标准骨骼动画数据的末端效应器的位置和姿势转换到所述AI数字人的模型的坐标系下;计算所述AI数字人的模型的骨架的末端效应器的位置和姿势与转换后的所述标准骨骼动画数据的末端效应器位置和姿势之间的误差;利用最小二乘法,计算出使误差最小化的所述角色模型的每个关节的角度或姿势,以匹配所述标准骨骼动画数据的末端效应器位置和姿势。
在一些实施例中,误差可以通过以下方法计算:对于所述AI数字人的模型骨架的每个关节,计算所述标准骨骼动画数据中相应的关节姿势或角度的加权平均值,其中,所述加权平均值是根据其在骨架层次结构中的位置分配,越接近根部的关节权重越大;对于所述AI数字人的模型骨架的每个关节,基于相应的所述加权平均值,计算所述AI数字人的模型骨架的末端效应器的位置和姿势;对于所述AI数字人的模型骨架的每个关节,使用欧几里得距离或角度差计算所述AI数字人的模型骨架的末端效应器的位置和姿势与转换后的所述标准骨骼动画数据的末端效应器位置和姿势之间的误差。
本申请实施例通过将面部表情驱动数据和肢体驱动数据映射到AI数字人的面部控制器和肢体控制器上,可以实现实时的面部表情和肢体动作控制。这样,当控制AI数字人播报响应数据时,可以根据面部表情驱动数据来调整AI数字人的面部表情,并基于肢体驱动数据来控制AI数字人的肢体动作。这种实时控制能够使得AI数字人的反应更加灵活、自然,并提供更具交互性和情感表达的用户体验。
此外,通过利用肢体控制器对AI数字人的姿势数据进行自动逆向运动学解算,可以根据末端效应器的位置和姿势来计算出每个关节的角度或姿势。这种解算方法能够实现对AI数字人肢体动作的精确控制,使得AI数字人的动作更加逼真和流畅。通过与标准骨骼动画数据进行比较和最小二乘法的计算,可以优化关节角度或姿势,以匹配标准骨骼动画数据,进一步提高肢体动作的准确性和真实感。
最后,通过计算AI数字人模型骨架的关节姿势或角度与标准骨骼动画数据中相应关节姿势或角度之间的误差,可以评估模型与标准数据之间的差异。利用加权平均的方法,根据关节在骨架层次结构中的位置分配权重,计算出使误差最小化的关节角度或姿势,以匹配标准骨骼动画数据。这种误差计算和加权平均的方法可以提高肢体动作的匹配度和模拟效果,增强AI数字人的动作逼真度。
本申请实施例通过根据用户情绪值确定不同表情类型,AI数字人可以更准确、细致地表达用户的情感状态,提供更加个性化和互动性强的用户体验。这种情感驱动的表情反馈方案可以增强用户与AI数字人之间的情感连接,提高人机交互的质量和效果。
实施例2
本申请实施例提供了另一种基于情绪识别的AI数字人交互方法,如图2所示,该方法包括以下步骤:
步骤S202,获取用户的语音数据。
用户可以使用语音输入设备来提供语音数据,如麦克风、语音识别应用程序等。用户可以通过这些设备直接将语音输入到终端设备中。
步骤S204,对所述语音数据进行处理,得到语音数据的音频特征和文本内容。
对语音数据进行处理的方法,如图3所示,包括以下步骤:
步骤S2042,对语音数据进行预处理。
在对语音数据进行任何处理之前,需要进行预处理步骤来提高音频质量。例如,去除噪声、降低回声、调整音量等操作,以确保后续处理得到的音频数据具有较高的质量。
步骤S2044,音频特征提取。
从预处理后的语音数据中提取音频特征。音频特征可以包括频谱信息、音高、音强等。这些特征能够描述语音信号的不同方面,例如声音的频率分布、音调高低、音量大小等。
步骤S2046,将语音数据转换为文本内容。
将经过预处理和特征提取的语音数据转换为文本内容。利用语音识别技术将语音数据转换为对应的文本表示。语音识别技术利用模式匹配和语言模型分析对音频特征进行处理,以识别出语音中所包含的语言内容。常用的语音识别方法包括基于隐马尔可夫模型(Hidden Markov Model,HMM)和深度学习方法(如循环神经网络,长短期记忆网络等)。
本实施例中的文本内容可以是短语、句子或由多个句子组成的片段,本实施例对文本内容的长度和形式不做限制。
步骤S206,确定文本内容的应用场景。
如图4所示,确定文本内容的应用场景的方法包括:
步骤S2062,建立应用场景库。
首先需要建立一个包含各种应用场景类型的应用场景库。这个库可以包括多个应用场景,每个应用场景都有对应的特征描述,例如关键词、主题、领域知识等。这些特征描述可以用来表示每个应用场景的特点和特征。
步骤S2064,文本特征提取。
对于给定的文本内容,需要从中提取出代表其特征的信息。例如,利用TF-IDF向量表示方法将文本转换为向量表示,捕捉文本中的关键信息和特征。
步骤S2066,场景特征提取。
根据文本特征,从中提取出表示场景特征的信息。这可以通过分析文本中的关键词、上下文信息、语义表示等来实现。例如,可以提取文本中的特定词语、词性、情感词、行为动词等作为场景特征。
步骤S2068,相似度匹配。
将提取的场景特征与应用场景库中的各个应用场景进行相似度匹配。相似度匹配可以使用各种距离度量或相似度计算方法,如余弦相似度、欧几里德距离、Jaccard相似度等。通过计算文本特征与应用场景特征之间的相似度,可以评估文本与每个应用场景之间的匹配程度。
步骤S2069,确定应用场景类型。
根据相似度匹配的结果,选择与文本内容相似度最高的应用场景类型作为最终确定的应用场景类型。可以设置一个相似度阈值,只有当相似度超过阈值时才认为匹配成功。
步骤S208,基于文本内容,得到文本内容中的情感词和强度限定词。
如图5所示,获取情感词和强度限定词的方法包括以下步骤:
步骤S2082,对文本内容进行分词。
将文本内容进行分词处理,将文本拆分成一个个独立的词语或短语。可以使用中文分词工具,如jieba等,将文本划分成词语的序列。
步骤S2084,情感词提取。
利用情感词典或语料库来识别文本中的情感词。情感词典是一个包含情感词及其情感极性(如正面、负面、中性)的词典,可以通过查找文本中的词语是否存在于情感词典中来确定其是否为情感词。可以使用现有的中文情感词典,如情感知识库(HowNet)等。
步骤S2086,强度限定词识别。
首先,基于所述情感词在所述文本内容中的位置,对所述情感词的上下文范围内的词语进行特征提取,得到特征向量。
根据所述情感词在文本内容中的位置,确定情感词的上下文范围。可以选择一定数量的前后词语作为上下文窗口。例如,可以选择情感词前后的5个词语作为上下文范围。在确定的上下文范围内,提取与情感词相关的特征。例如,可以考虑以下特征:提取上下文范围内的单词作为特征;提取上下文范围内单词的词性作为特征;判断上下文范围内的单词是否为情感词,并将其作为特征;计算上下文范围内各个单词的词频,并将其作为特征。之后,将提取到的特征转换为特征向量的形式。可以使用TF-IDF等方法将特征表示为向量。每个特征对应特征向量中的一个维度,特征向量中的值可以表示该特征在上下文范围内的重要程度或出现频率。
接着,利用等频离散化方法对所述特征向量进行连续值离散化处理,得到离散的所述特征向量。利用等频离散化方法将连续值划分为相同数量的区间,使得每个区间内的样本数量相等。这样可以将连续值特征转换为离散的特征,方便后续的处理和计算。
随后,识别强度限定词。
1)计算条件概率。
对于离散化的特征向量,需要计算其在每个强度限定类别下的条件概率。条件概率表示在给定强度限定类别的前提下,一个特征向量出现在所述给定强度限定类别的概率。具体步骤如下:对于每个强度限定类别,统计在该类别下出现的特征向量的数量。计算每个强度限定类别下特征向量的条件概率。条件概率可以通过特征向量在该强度限定类别下的出现次数除以该强度限定类别下所有特征向量的总数来计算。
在一些实施例中,可以基于特征向量在强度限定类别中的计数、特征向量的计数总和、控制平滑的强度的参数、控制平滑的程度的参数、以及特征向量在强度限定类别中的相对频率来计算条件概率。例如,可以采用以下公式来计算条件概率:
其中,count(v, c) 表示特征向量 v 在强度限定类别 c 中的计数;total_count表示所有特征向量的计数总和;k 是非负整数,用于控制平滑的强度;λ 是平滑参数,控制平滑的程度,p(v|c) 是相对频率,表示特征向量 v 在强度限定类别 c 中的相对频率。
本实施例,通过调节 k 的值,可以在计算条件概率时对特征向量的计数进行平滑处理。平滑可以缓解特征向量计数中的稀疏性问题,并降低过拟合的风险。调节平滑强度可以根据具体情况平衡模型的拟合能力和泛化能力。通过调节λ的值,可以控制平滑的程度。将λ值控制为大于预设阈值会增加平滑效果,减小特征向量的计数对条件概率的影响,从而更加平滑化条件概率的估计。平滑程度的控制可以根据数据集的特点和需求进行调整,以达到更好的模型性能。此外,相对频率 p(v|c) 考虑了特征向量在强度限定类别 c 中的相对频率。这样可以更加准确地估计特征向量在给定强度限定类别下的概率。相对频率反映了特征向量在强度限定类别中的相对重要性,可以更好地反映特征与情绪之间的关联关系。综上,通过综合考虑特征向量的计数、总计数、平滑参数和相对频率,本实施例可以更准确地计算条件概率,从而提高情绪分类模型的性能和泛化能力。它能够处理特征向量计数的稀疏性问题,并平衡拟合能力与泛化能力之间的关系。
在一些实施例中,相对频率可以通过下式得到:
其中,count(v,c) 表示特定特征向量 v 在强度限定类别 c 中的计数,v’表示每一个特征向量,V表示所有特征向量,count(v’,c)表示每一个特征向量v’在强度限定类别c中的计数。
本实施例计算了特征向量在给定强度限定类别下的相对频率,即特征向量 v 在强度限定类别 c 中的出现频率与所有特征向量在强度限定类别 c 中出现频率的比值。它反映了特征向量在该强度限定类别中的重要程度或显著性。通过计算相对频率,可以更好地了解特征向量在情绪分类中的贡献,进而在条件概率计算中提供更准确的信息。
2)计算先验概率。
先验概率表示所有特征向量被归入各个强度限定类别的概率。计算每个强度限定类别的先验概率的步骤如下:统计每个强度限定类别下的特征向量的数量。计算每个强度限定类别的先验概率。先验概率可以通过该强度限定类别下特征向量的数量除以所有特征向量的总数来计算。
例如,可以通过下式来计算先验概率:
其中,count(emotion) 表示强度限定类别下所有特征向量的总数,total_count表示所有特征向量的总数。
3)基于条件概率和先验概率计算后验概率。
后验概率表示离散的特征向量在每个强度限定类别下的概率。计算离散的特征向量在每个强度限定类别下的后验概率的步骤如下:对于每个强度限定类别,将特征向量的条件概率与该强度限定类别的先验概率相乘,得到特征向量在该强度限定类别下的后验概率。
例如,可以通过下式计算后验概率:
本实施例通过计算条件概率、先验概率和后验概率,可以量化离散的特征向量在每个强度限定类别下的概率分布。这些概率值反映了特征向量与不同强度限定类别之间的关联程度。在选择特征向量的分类结果时,可以根据后验概率的大小,选择具有最高概率值的强度限定类别作为特征向量的分类结果。这样可以确定离散的特征向量所对应的强度限定类别。
步骤S210,基于强度限定词和音频特征计算情绪强度。
如图6所示,计算情绪强度的方法包括以下步骤:
步骤S2102,基于所述强度限定词确定与所述强度限定词对应的强度权重,并基于所述强度限定词和所述强度权重计算所述文本内容的第一情绪强度值。
基于上文中确定的应用场景类型和强度限定词,确定所述强度权重,其中,不同的应用场景类型下,相同的强度限定词具有不同的强度权重。对于每个应用场景类型下的各个强度限定词,根据该应用场景类型的特点和语义含义,确定相应的强度权重。强度权重反映了在不同应用场景类型下,相同的强度限定词对情感表达的重要程度或影响程度。
对于每个强度限定词,根据其在文本内容中的出现情况和对应的强度权重,计算第一情绪强度值。可以使用以下公式进行计算:
第一情绪强度值 = 强度权重1 × 强度限定词1的出现次数 + 强度权重2 × 强度限定词2的出现次数 + ... + 强度权重n × 强度限定词n的出现次数
其中,n 表示文本中的强度限定词的数量,强度限定词i 表示第 i 个强度限定词,强度权重i 表示与强度限定词i 相对应的强度权重,强度限定词i 的出现次数表示文本中该强度限定词出现的次数。
通过以上步骤,基于强度限定词和强度权重,可以计算文本内容的第一情绪强度值。这样可以对情感表达进行量化和评估,从而更好地理解和分析文本中所表达的情绪。
步骤S2104,基于所述音频特征,识别所述文本内容对应的第二情绪强度值,其中,所述音频特征包括音高特征和音速特征。
通过音频信号处理技术提取出音频中的音高特征。常用的音高提取算法包括基频估计、自相关函数和频谱分析等。提取音高特征后,可以得到音高序列,表示音频信号在不同时间点的音高信息。
通过音频信号处理技术提取出音频中的音速特征。常用的音速提取方法包括声学模型和时延估计等。提取音速特征后,可以得到音速序列,表示音频信号在不同时间点的音速信息。
然后,对音高和音速特征进行预处理。在应用情感识别模型之前,通常需要对音高和音速特征进行预处理。这可以包括特征归一化、降维、平滑等处理步骤,以提取出更有用的特征表示。
构建情感识别模型。基于已标记的音频样本和其对应的情绪强度值,可以使用机器学习算法(如支持向量机、随机森林、深度神经网络等)构建情感识别模型。模型的输入为音频特征(包括音高和音速特征),输出为对应的情绪强度值。
最后,预测第二情绪强度值。使用构建好的情感识别模型,对音频特征进行预测,得到其对应的第二情绪强度值。根据输入的音高和音速特征,模型会输出一个数值,表示音频所表达的第二情绪的强度程度。
通过以上步骤,基于音高特征和音速特征,可以识别文本内容对应的第二情绪强度值。这样可以从音频中进一步了解情感表达的特征,提供更全面的情感分析和理解。
步骤S2106,基于所述第一情绪强度值和所述第二情绪强度值,确定所述文本内容对应的情绪强度。
将第一情绪强度值和所述第二情绪强度值的乘积,作为文本内容对应的情绪强度。
步骤S212,基于情绪强度和情感词计算情绪值。
1)获取情感词的情绪值。
对于文本中包含的每个情感词,根据情感词库或情感词典,获取其对应的情绪值。
2)计算情感词的情绪值和情绪强度的累积值。
对于文本中的每个情感词,将其情绪值与对应的情绪强度相乘,得到该情感词的情绪值和情绪强度的乘积。然后,将所有情感词的情绪值和情绪强度的乘积相加,得到一个累积值。这个累积值表示了文本中所有情感词对情绪值和情绪强度的综合影响。
3)将所有情感词对应的累积值的和作为文本内容的情绪值。
对于文本中包含的所有情感词,将其对应的情绪值和情绪强度的累积值相加,得到一个总和。这个总和即为文本内容的情绪值,反映了文本整体的情绪倾向或情感状态。
根据情绪值的大小和情绪类型的定义,将文本内容的情绪值与情绪类型进行比较。情绪类型可以包括积极、消极、中性,或更详细的强度限定类别如喜悦、悲伤、愤怒等。根据情绪值所处的范围或与情绪类型的匹配程度,确定用户的情绪。例如,如果情绪值较高且与积极情绪类型匹配,则可以判断用户情绪为积极;如果情绪值较低且与消极情绪类型匹配,则可以判断用户情绪为消极。
通过以上步骤,可以获取情感词的情绪值并计算情绪值和情绪强度的累积值,将情感词累积值的和作为文本内容的情绪值,并基于情绪类型和情绪值来确定用户的情绪。这样可以更准确地分析文本的情感倾向和用户的情绪状态。
步骤S214,基于情绪值驱动AI数字人。
基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型。例如,在所述用户的情绪值大于第一阈值的情况下,将所述表情类型确定为积极类型,其中,所述积极类型表示所述AI数字人的表情为愉悦的状态;在所述用户的情绪值小于所述第一阈值但大于所述第二阈值的情况下,将所述表情类型确定为中性类型,其中,所述中性类型表示所述AI数字人的表情为中性的状态;在所述用户的情绪值小于所述第二阈值的情况下,将所述表情类型确定为消极类型,其中,所述消极类型表示所述AI数字人的表情为悲伤的状态。
基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。
在所述表情类型为所述积极类型的情况下,将所述面部表情驱动数据设置为第一面部数据,并将所述肢体驱动数据设置为第一肢体数据,其中,所述第一面部数据能够驱动所述AI数字人呈现愉悦状态的面部表情,所述第一肢体数据能够驱动所述AI数字人呈现活跃的肢体动作。
在所述表情类型为所述中性类型的情况下,将所述面部表情驱动数据设置为第二面部数据,并将所述肢体驱动数据设置为第二肢体数据,其中,所述第二面部数据能够驱动所述AI数字人呈现面部放松状态的面部表情,所述第二肢体数据能够确定所述AI数字人呈现轻柔的肢体动作。
在所述表情类型为所述消极类型的情况下,将所述面部表情驱动数据设置为第三面部数据,并将所述肢体驱动数据设置为第三肢体数据,其中,所述第三面部数据能够驱动所述AI数字人呈现面部悲伤状态的面部表情,所述第三肢体数据能够驱动所述AI数字人呈现缓慢的肢体动作。
本实施例根据用户的情绪值来确定表情类型,这样,AI数字人可以呈现出与用户当前情绪相匹配的表情状态。这为用户提供了一种个性化的体验,使其感觉到与AI数字人的交互更加真实和有意义。此外,通过调整面部表情和肢体动作,AI数字人可以更准确地传达情感和意图。当用户的情绪值为积极类型时,愉悦的面部表情和活跃的肢体动作可以增强交流的积极性和愉悦感。当情绪值为中性类型时,面部放松状态的表情和轻柔的肢体动作可以让用户感到放松和舒适。当情绪值为消极类型时,悲伤的面部表情和缓慢的肢体动作可以更好地理解和回应用户的消极情绪。最后,AI数字人的表情和动作的调整可以帮助用户感受到情感共鸣。当用户在与AI数字人的交互中表达自己的情绪时,AI数字人能够以相应的表情回应,增强用户的情感连接和理解。
实施例3
本申请实施例提供了一种基于情绪识别的AI数字人交互装置,如图7所示,包括:语音处理模块72、词识别模块74、驱动数据确定模块76、驱动模块78。
语音处理模块72被配置为响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;表情确定模块74被配置为基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型;驱动数据确定模块76被配置为基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;驱动模块78被配置为在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作。
需要说明的是:上述实施例提供的基于情绪识别的AI数字人交互装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于情绪识别的AI数字人交互装置与基于情绪识别的AI数字人交互方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
实施例4
图8示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图8示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,该电子设备包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,电子设备还可以包括AI( ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现上述方法实施例的各个步骤等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种基于情绪识别的AI数字人交互方法,其特征在于,包括:
响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;
基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定AI 数字人播报所述语音数据的响应数据时的表情类型;
基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;
在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作;
其中,基于所述音频特征和所述文本内容,计算所述用户的情绪值,包括:识别所述文本内容中用于表征情绪的情感词,并基于所述情感词在所述文本内容中的位置确定用于表征情绪强度的强度限定词;基于所述情感词确定所述文本内容对应的情绪类型,并基于所述强度限定词和所述音频特征确定所述文本内容对应的情绪强度;基于所述情绪类型和所述情绪强度,计算所述用户的情绪值;
其中,基于所述情感词在所述文本内容中的位置确定用于表征情绪强度的强度限定词,包括:基于所述情感词在所述文本内容中的位置,对所述情感词的上下文范围内的词语进行特征提取,得到特征向量;利用等频离散化方法对所述特征向量进行连续值离散化处理,得到离散的所述特征向量;分别计算离散的所述特征向量在每个强度限定类别下的后验概率,并选择所述后验概率中具有最高概率值的强度限定类别作为离散的所述特征向量的分类结果,其中,所述后验概率是一个特征向量出现在一个强度限定类别下的概率;基于所述分类结果,来确定所述强度限定词。
2.根据权利要求1所述的方法,其特征在于,基于所述用户的情绪值确定所述AI 数字人播报所述语音数据的响应数据时的表情类型,包括:
在所述用户的情绪值大于第一阈值的情况下,将所述表情类型确定为积极类型,其中,所述积极类型表示所述AI数字人的表情为愉悦的状态;
在所述用户的情绪值小于所述第一阈值但大于第二阈值的情况下,将所述表情类型确定为中性类型,其中,所述中性类型表示所述AI数字人的表情为中性的状态;
在所述用户的情绪值小于所述第二阈值的情况下,将所述表情类型确定为消极类型,其中,所述消极类型表示所述AI数字人的表情为悲伤的状态。
3.根据权利要求2所述的方法,其特征在于,基于所述表情类型确定用于驱动所述AI数字人的驱动数据,包括:
在所述表情类型为所述积极类型的情况下,将所述面部表情驱动数据设置为第一面部数据,并将所述肢体驱动数据设置为第一肢体数据,其中,所述第一面部数据能够驱动所述AI数字人呈现愉悦状态的面部表情,所述第一肢体数据能够驱动所述AI数字人呈现活跃的肢体动作;
在所述表情类型为所述中性类型的情况下,将所述面部表情驱动数据设置为第二面部数据,并将所述肢体驱动数据设置为第二肢体数据,其中,所述第二面部数据能够驱动所述AI数字人呈现面部放松状态的面部表情,所述第二肢体数据能够驱动所述AI数字人呈现轻柔的肢体动作;
在所述表情类型为所述消极类型的情况下,将所述面部表情驱动数据设置为第三面部数据,并将所述肢体驱动数据设置为第三肢体数据,其中,所述第三面部数据能够驱动所述AI数字人呈现面部悲伤状态的面部表情,所述第三肢体数据能够驱动所述AI数字人呈现缓慢的肢体动作。
4.根据权利要求1至3中任一项所述的方法,其特征在于,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作,包括:
将所述面部表情驱动数据映射到所述AI数字人的面部控制器上,利用所述面部控制器调整相应的面部控制点的位移、旋转或缩放,以控制所述AI数字人的面部表情;
将所述肢体驱动数据映射到所述AI数字人的肢体控制器上,利用所述肢体控制器对所述AI数字人的姿势数据进行自动逆向运动学解算,并基于所述自动逆向运动学解算的结果,来控制所述AI数字人的肢体动作。
5.根据权利要求4所述的方法,其特征在于,利用所述肢体控制器对所述AI数字人的姿势数据进行自动逆向运动学解算,包括:
根据所述AI数字人的模型骨架,计算出所述AI数字人的模型骨架的末端效应器的位置和姿势;
将所述AI数字人的模型骨架的末端效应器的位置和姿势与标准骨骼动画数据的末端效应器的位置和姿势进行比较,并基于比较结果,利用最小二乘法计算所述AI数字人的模型骨架上的每个关节的姿势。
6.根据权利要求1所述的方法,其特征在于,基于所述强度限定词和所述音频特征确定所述文本内容对应的情绪强度,包括:
基于所述文本内容,确定与所述文本内容相应的应用场景类型,并基于所述应用场景类型和所述强度限定词,确定强度权重,其中,不同的应用场景类型下,相同的强度限定词具有不同的强度权重;
基于所述强度限定词和所述强度权重计算所述文本内容的第一情绪强度值,并基于所述音频特征,识别所述文本内容对应的第二情绪强度值,其中,所述音频特征包括音高特征和音速特征;
基于所述第一情绪强度值和所述第二情绪强度值,确定所述文本内容对应的情绪强度。
7.一种基于情绪识别的AI数字人交互装置,其特征在于,包括:
语音处理模块,被配置为响应于接收到用户的语音数据,从所述语音数据中提取音频特征,并将所述语音数据转换为文本内容;
表情确定模块,被配置为基于所述音频特征和所述文本内容,计算所述用户的情绪值,并基于所述用户的情绪值确定AI 数字人播报所述语音数据的响应数据时的表情类型;
驱动数据确定模块,被配置为基于所述表情类型确定用于驱动所述AI数字人的驱动数据,其中,所述驱动数据包括面部表情驱动数据和肢体驱动数据;
驱动模块,被配置为在控制所述AI数字人播报所述响应数据时,基于所述面部表情驱动数据控制所述AI数字人的面部表情,并基于所述肢体驱动数据控制所述AI数字人的肢体动作;
其中,所述表情确定模块还被配置为:识别所述文本内容中用于表征情绪的情感词,并基于所述情感词在所述文本内容中的位置确定用于表征情绪强度的强度限定词;基于所述情感词确定所述文本内容对应的情绪类型,并基于所述强度限定词和所述音频特征确定所述文本内容对应的情绪强度;基于所述情绪类型和所述情绪强度,计算所述用户的情绪值;
其中,所述表情确定模块还被配置为:基于所述情感词在所述文本内容中的位置,对所述情感词的上下文范围内的词语进行特征提取,得到特征向量;利用等频离散化方法对所述特征向量进行连续值离散化处理,得到离散的所述特征向量;分别计算离散的所述特征向量在每个强度限定类别下的后验概率,并选择所述后验概率中具有最高概率值的强度限定类别作为离散的所述特征向量的分类结果,其中,所述后验概率是一个特征向量出现在一个强度限定类别下的概率;基于所述分类结果,来确定所述强度限定词。
8.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至6中任一项所述的方法。
CN202310832478.XA 2023-07-08 2023-07-08 基于情绪识别的ai数字人交互方法、装置及系统 Active CN116560513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310832478.XA CN116560513B (zh) 2023-07-08 2023-07-08 基于情绪识别的ai数字人交互方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310832478.XA CN116560513B (zh) 2023-07-08 2023-07-08 基于情绪识别的ai数字人交互方法、装置及系统

Publications (2)

Publication Number Publication Date
CN116560513A CN116560513A (zh) 2023-08-08
CN116560513B true CN116560513B (zh) 2023-09-15

Family

ID=87500438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310832478.XA Active CN116560513B (zh) 2023-07-08 2023-07-08 基于情绪识别的ai数字人交互方法、装置及系统

Country Status (1)

Country Link
CN (1) CN116560513B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备
CN117558259A (zh) * 2023-11-22 2024-02-13 北京风平智能科技有限公司 一种数字人播报风格控制方法及装置
CN117393003B (zh) * 2023-12-13 2024-03-15 广州云趣信息科技有限公司 一种基于语义理解的情绪识别方法及系统
CN117708312B (zh) * 2023-12-16 2024-05-24 浙江开悟智能科技有限公司 一种基于交互设备的数字人处理方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055025A1 (ko) * 2011-10-12 2013-04-18 한국과학기술연구원 지능 로봇, 지능 로봇과 사용자의 상호작용을 위한 시스템 및 지능 로봇과 사용자의 상호작용을 위한 방법
CN106361356A (zh) * 2016-08-24 2017-02-01 北京光年无限科技有限公司 情绪监控和预警方法及系统
CN115035220A (zh) * 2022-06-08 2022-09-09 杭州优链时代科技有限公司 一种3d虚拟数字人社交方法及系统
CN115376559A (zh) * 2022-08-22 2022-11-22 中国工商银行股份有限公司 基于音视频的情绪识别方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230082830A1 (en) * 2020-05-18 2023-03-16 Beijing Sogou Technology Development Co., Ltd. Method and apparatus for driving digital human, and electronic device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055025A1 (ko) * 2011-10-12 2013-04-18 한국과학기술연구원 지능 로봇, 지능 로봇과 사용자의 상호작용을 위한 시스템 및 지능 로봇과 사용자의 상호작용을 위한 방법
CN106361356A (zh) * 2016-08-24 2017-02-01 北京光年无限科技有限公司 情绪监控和预警方法及系统
CN115035220A (zh) * 2022-06-08 2022-09-09 杭州优链时代科技有限公司 一种3d虚拟数字人社交方法及系统
CN115376559A (zh) * 2022-08-22 2022-11-22 中国工商银行股份有限公司 基于音视频的情绪识别方法、装置及设备

Also Published As

Publication number Publication date
CN116560513A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN116560513B (zh) 基于情绪识别的ai数字人交互方法、装置及系统
CN110427617B (zh) 推送信息的生成方法及装置
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
Gharavian et al. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN109582952B (zh) 诗歌生成方法、装置、计算机设备和介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN110851650B (zh) 一种评论输出方法、装置、以及计算机存储介质
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN112634858A (zh) 语音合成方法、装置、计算机设备及存储介质
CN112837669A (zh) 语音合成方法、装置及服务器
US20210158823A1 (en) Method, apparatus, and medium for processing speech signal
CN112329433A (zh) 文本通顺度检测方法、装置、设备及计算机可读存储介质
Bozkurt et al. Affective synthesis and animation of arm gestures from speech prosody
CN112017690B (zh) 一种音频处理方法、装置、设备和介质
CN114299920A (zh) 用于语音识别的语言模型的训练、语音识别方法及装置
CN111177346B (zh) 人机交互方法、装置、电子设备、存储介质
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
US20230368777A1 (en) Method And Apparatus For Processing Audio, Electronic Device And Storage Medium
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant