CN118103872A - 信息处理设备、信息处理方法及程序 - Google Patents

信息处理设备、信息处理方法及程序 Download PDF

Info

Publication number
CN118103872A
CN118103872A CN202280068600.4A CN202280068600A CN118103872A CN 118103872 A CN118103872 A CN 118103872A CN 202280068600 A CN202280068600 A CN 202280068600A CN 118103872 A CN118103872 A CN 118103872A
Authority
CN
China
Prior art keywords
avatar
information processing
facial expression
processing apparatus
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280068600.4A
Other languages
English (en)
Inventor
富永宽菜
宫崎秀平
深谷裕美
松井丈
佐贺野正行
西原沙纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN118103872A publication Critical patent/CN118103872A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

信息处理设备(1)包括情绪识别单元(13)、面部表情输出单元(15)和化身合成单元(17)。情绪识别单元(13)基于语音波形识别情绪。面部表情输出单元(15)输出对应于情绪的面部表情。化身合成单元(17)合成表现出所输出的面部表情的化身。

Description

信息处理设备、信息处理方法及程序
技术领域
本发明涉及信息处理设备、信息处理方法及程序。
背景技术
比如面部表情、脸色、姿态和手势之类的非言语信息在实现顺畅的沟通方面扮演重要角色。这同样适用于使用化身(avatar)的沟通。用于生成化身的应用程序(app)被安装在智能电话中。在这种类型的应用程序中,基于通过动作捕获所获取的信息来生成化身。
引用列表
专利文献
专利文献1:WO 2017/175351 A
发明内容
技术问题
通过用户的面部表情的信息生成化身的面部表情。在正常沟通中,用户的面部表情不常发生大的改变。在面部表情中所表现出的改变至多是比如视线或面部朝向的移动之类的微小改变。因此,很难使得化身表达出丰富的情绪。
因此,本公开内容提出能够使得化身表达出丰富情绪的信息处理设备、信息处理方法及程序。
针对问题的解决方案
根据本公开内容,提供一种信息处理设备,包括:情绪识别单元,基于语音波形识别情绪;面部表情输出单元,输出对应于所述情绪的面部表情;以及化身合成单元,合成表现出所述面部表情的化身。根据本公开内容,提供由计算机执行所述信息处理设备的信息处理的信息处理方法,以及用于使得计算机执行所述信息处理设备的信息处理的程序。
附图说明
图1是示出通信支持服务的示例的视图。
图2是示出信息处理设备的功能配置示例的方框图。
图3是示出情绪识别方法的示例的视图。
图4是示出动作识别方法的示例的视图。
图5是示出面部表情/动作输出的示例的视图。
图6是示出面部表情/动作输出的示例的视图。
图7是示出面部表情/动作输出的示例的视图。
图8是示出针对化身的角色的设定方法的示例的视图。
图9是示出背景设定方法的示例的视图。
图10是示出对单向通信应用通信支持服务的示例的视图。
图11是示出对双向通信应用通信支持服务的示例的视图。
图12是示出信息处理设备的硬件配置示例的视图。
具体实施方式
下面将基于附图详细描述本公开内容的实施例。在下面的每一个实施例中,通过为相同的部分指派相同的附图标记而省略重复的描述。
应当注意的是,将按照下面的顺序来进行描述。
[1、通信支持服务的概述]
[2、信息处理设备的配置]
[3、语音识别处理]
[3-1、情绪/动作识别]
[3-2、面部表情/动作输出]
[4、角色设定]
[5、背景设定]
[6、系统配置示例]
[7、硬件配置示例]
[8、效果]
[1、通信支持服务的概述]
图1是示出通信支持服务的示例的视图。
通信支持服务是使用化身AB支持用户U之间的通信的服务。基于通过语音识别所获取的用户U的情绪EM和激动程度(情绪EM的激动程度)来控制化身AB的面部表情和动作。与利用动作捕获生成化身AB的面部表情和动作的情况相比,有可能表达出更丰富的情绪。因此,有可能向另一方更好地传达仅通过言语难以传达的各种信息。通信支持服务被应用于单向和双向通信。
通过如图1中所示的信息处理设备1来实施通信支持服务。信息处理设备1通过使用语音识别技术从语音数据SG(参见图10)中提取与语音波形SD(参见图8)相关的声波信息和与说话内容相关的文本信息。信息处理设备1将提取自语音波形SD的声波特征数量应用到情绪数据库ED,并且估计用户U的情绪EM。信息处理设备1基于语音波形SD和说话内容确定说话时的激动程度。信息处理设备1根据激动程度调节指示情绪EM的面部表情。信息处理设备1将调节后的面部表情确定为化身AB的面部表情。
信息处理设备1与姿态数据库JD核对说话内容,并且估计用户U在说话时所实施的姿态。信息处理设备1将与说话内容相关联的姿态连同激动程度一起应用于动作数据库AD(参见图2)。其结果是,信息处理设备1在考虑到激动程度的情况下估计动作AC。信息处理设备1基于所估计的用户U的表情和动作AC控制化身AB的面部表情和动作。
在图1的示例中,在用户U的终端上检测到语音“呜呼!”。通过使用已知的语音识别技术,信息处理设备1从获取自用户U的终端的语音数据SG中提取出语音波形SD和文本信息“呜呼!”。
信息处理设备1从语音波形中提取出指示快乐的情绪EM,并且将激动程度确定为“高”。信息处理设备1将快乐的面部表情确定为化身AB的面部表情,其中根据激动程度调节嘴角的位置等等。此外,信息处理设备1从说话内容“呜呼!”估计用户U感到高兴并且例如正在做出挥拳或欢呼的场景。信息处理设备1根据激动程度选择欢呼的姿势,并且将所述姿势输出为化身AB的动作AC。
应当注意的是,化身AB不一定是人类。狗、猫等等也可以被用作化身AB的角色。在这种情况下,做出面部表情的方式和用于做出姿态的身体动作(动作AC)根据角色的类型(比如人、狗或猫)而不同。信息处理设备1包括根据角色的类型而不同的面部表情数据库FD和动作数据库AD。
[2、信息处理设备的配置]
图2是示出信息处理设备1的功能配置示例的方框图。
信息处理设备1包括语音输入单元10、语音波形识别单元11、文本识别单元12、情绪识别单元13、姿态识别单元14、面部表情输出单元15、动作输出单元16、化身合成单元17、背景合成单元18和视频输出单元19。
语音输入单元10将获取自用户U的终端的语音数据SG输出到语音波形识别单元11和文本识别单元12。语音波形识别单元11从语音数据SG中提取出语音波形SD(声波信息)。文本识别单元12从语音数据SG中提取出文本信息(说话内容)。通过利用已知的语音识别技术来提取文本信息。
情绪识别单元13基于语音波形SD和说话内容识别用户U的情绪和激动程度。主要基于语音波形SD(比如话音的声调和音量)来估计情绪和激动程度。还可以通过在激动时说出的特有用词、言语的表现状态等等来估计激动程度。情绪识别单元13通过与情绪数据库ED核对从语音波形SD和说话内容中提取出的各种特征来检测情绪和激动程度。
姿态识别单元14基于说话内容识别姿态。所述姿态包括无意识姿态和结合说话的有意识姿态。举例来说,在感到快乐时做出挥拳或者在感到悲伤时崩溃哭泣的动作是无意识姿态。结合说话“我现在要吃饭团”时吃饭团的动作是有意识姿态。在姿态数据库JD中,定义说话内容与姿态之间的对应关系。姿态识别单元14与姿态数据库JD核对说话内容,并且估计用户U说话时的姿态。
面部表情输出单元15输出对应于情绪EM的面部表情。人类具有比如愉悦、厌恶、悲伤、恐惧和愤怒之类的情绪。为每一种情绪指派标准的面部表情。举例来说,抬高脸颊、放低眉毛或眼睑和眼睛下方起皱纹的面部表情被指派到愉悦。突出上唇、放低眉毛和从鼻孔下方到嘴唇的两端扩散皱纹的面部表情被指派到厌恶。视线向下和降低上眼睑的面部表情被指派到悲伤。抬高上眼睑、放低下巴和张嘴的面部表情被指派到恐惧。使得眉毛彼此靠近和睁大眼睛的面部表情被指派到愤怒。
面部表情输出单元15根据激动程度调节被指派到情绪EM的标准面部表情。举例来说,在关于愉悦的情绪EM检测到强烈激动的情况下,面部表情输出单元15调节抬高脸颊的程度、放低眉毛和眼睑的程度、嘴角抬高的程度等等。在关于悲伤的情绪EM检测到强烈激动程度的情况下,面部表情输出单元15输出张嘴和悲痛的面部表情。情绪、激动程度和面部表情之间的关系被定义在面部表情数据库FD中。面部表情输出单元15与面部表情数据库FD核对情绪EM和激动程度,并且输出反映情绪EM和激动程度的面部表情。
动作输出单元16输出化身AB的动作AC,所述动作对应于姿态。根据激动程度,动作输出单元16调节对应于姿态的标准动作AC。举例来说,在检测到关于悲伤的情绪EM的强烈激动程度(强烈悲伤)的情况下,动作输出单元16输出跪下和低垂的动作AC。姿态、激动程度和动作AC之间的关系被定义在动作数据库AD中。动作输出单元16与动作数据库AD核对姿态和激动程度,并且输出反映姿态和激动程度的动作AC。
化身合成单元17获取针对化身AB的角色的3D数据。可以基于用户输入信息人工选择角色,或者可以基于语音数据SG自动选择角色。通过使用角色的3D数据,化身合成单元17合成指示从面部表情输出单元15和动作输出单元16获取的面部表情和动作AC的化身AB。
背景合成单元18合成基于语音波形SD和说话内容所估计的场景所对应的背景BG(参见图9)。举例来说,基于雨声(语音波形SD)设定下雨的背景BG。基于说话内容“我去了意大利旅行”设定意大利城市的背景BG。
视频输出单元19输出包括化身AB和背景BG的视频VD(参见图10)。基于静音设定,视频输出单元19确定是否要将由语音输入单元10获取的语音数据SG包括在视频VD中。在静音设定为关闭(OFF)的情况下,视频输出单元19实施具有包括在视频VD中的语音数据SG(从中提取出语音波形SD)的输出。在静音设定为开启(ON)的情况下,视频输出单元19输出不包括语音数据SG的视频VD。
[3、语音识别处理]
[3-1、情绪/动作识别]
图3是示出情绪识别方法的示例的视图。
情绪识别单元13基于语音波形SD识别情绪EM。举例来说,情绪识别单元13确定基本频率(话音的声调)、语音的音量以及说话的速度和切换暂停作为语音参数。情绪识别单元13从语音波形SD中提取出与各个单独的语音参数的值和时间改变相关的特征作为声波特征数量。在情绪数据库ED中,定义声波特征数量与情绪EM之间的对应关系。通过与情绪数据库ED核对从语音波形SD中提取出的声波特征数量,情绪识别单元13检测用户U说话时的情绪EM。
情绪识别单元13基于语音波形SD和说话内容识别用户U的激动程度。举例来说,情绪识别单元13从语音波形SD和说话内容中提取出与在激动时出现的特定言语的出现频率、说话的速度和所述基本频率的时间改变相关的特征作为附带特征数量。在情绪数据库ED中定义了附带特征数量与激动程度之间的对应关系。情绪识别单元13通过与情绪数据库ED核对从说话内容中提取出的语音波形SD和附带特征数量来检测与情绪EM相关的激动程度。
应当注意的是,对于情绪EM和激动程度的分析算法可以基于特定阈值,或者可以基于实施机器学习的学习模型。在图3的示例中,基于所述基本频率、信号强度以及说话的速度和切换暂停来估计情绪EM。但是情绪估计方法不限于前述方法。举例来说,可以通过利用比如(AGI公司的)Sens i t ivi ty Technology(ST)之类的已知的情绪估计技术来估计情绪EM。
图4是示出动作AC的识别方法的示例的视图。
从话语“嗨”、“再见”、“欢迎”、“好的”、“很好”、“吃惊!”、“悲伤”、“哈哈”、“请”等等识别出的动作AC的示例在图4中示出。图4中示出的动作AC是由于用户U的情绪而无意识地实施。举例来说,抬手以表达问候的姿态与“嗨”相关联。挥手以告别的姿态与“再见”相关联。在姿态数据库JD中定义了说话内容与姿态之间的对应关系。姿态识别单元14与姿态数据库JD核对说话内容,并且估计用户U说话时的姿态。
在动作数据库AD中,针对每一种姿态定义动作的标准(标准身体动作)。在动作AC不根据激动程度而改变的情况下,比如“嗨”、“再见”、“欢迎”、“好的”和“很好”的情况,动作输出单元16输出被指派到姿态的标准动作以作为化身AB的动作AC。在姿态根据激动程度而改变的情况下,比如“吃惊!”、“悲伤”、“哈哈”和“请”的情况,动作输出单元16根据激动程度调节被指派到姿态的标准动作。
举例来说,低下头并且低垂的姿态被指派到话语“悲伤”。当悲伤的程度处于标准水平时(激动程度处于标准水平),其中低下头的角度或速度变为标准值的标准动作被输出作为化身AB的动作AC。在悲伤较小的情况下(激动程度较小),其中低垂的数量(低下头的角度)或其速度变为小于标准值的动作被输出作为化身AB的动作。在悲伤较大的情况下(激动程度较大),其中低垂的数量或速度大于标准值的动作或者崩溃哭泣的动作被输出为化身AB的动作AC。
在提出请求的场景中,当用户不急切时仅将双手合在一起,而当急切的情绪较大时则实施低下头并且用整个身体恳请的动作AC。在动作数据库AD中定义了姿态、激动程度和动作AC之间的对应关系。动作输出单元16与动作数据库AD核对姿态和激动程度,并且输出反映姿态和激动程度的动作。
[3-2、面部表情/动作输出]
图5到图7是示出面部表情/动作输出的示例的视图。
在图5中示出了结合说话无意识地实施的姿态的示例。在图5的示例中,当化身AB-A与化身AB-2进行对话时,化身AB-1的用户U说出“饭团真好吃”。结合该话语,面部表情输出单元15输出快乐的面部表情,并且动作输出单元16输出吃饭团的动作AC。
在图6中示出了化身AB的动作AC的另一个控制示例。对于“随音乐移动”、“倾听小的声音”和“被大的声音惊到”,动作输出单元16基于语音波形SD估计播放快节奏歌曲的场景,难以听到声音的场景,以及发生快速音量升高的场景。动作输出单元16输出基于语音波形SD估计的场景所对应的动作AC。在基于语音波形SD检测到对话中断的场景的情况下,动作输出单元16可以输出眨眼、有时点头等等的动作AC。应当注意的是,还有可能实施从场景中识别说话者和增加新的化身AB或移除不说话的化身AB。
“嗯哼”、“不要”和“我知道了”是被用作应答的言语。姿态数据库JD储存对应于所述应答的姿态。动作输出单元16输出对应于“嗯哼”、“不要”和“我知道了”的姿态的标准动作以作为化身AB的动作。
在图7中示出了通过语音移动化身AB的位置的示例。在图7的示例中,对话的音量根据化身AB之间的距离而改变。附近的化身AB的话音的声音大,远处的化身AB的话音的声音小。在有讲话对象的情况下,有必要将自身的化身AB移动靠近对象的化身AB。在想要使得他/她的化身AB更靠近友人A的化身AB的情况下,用户U互换友人A的姓名或者说出“对友人A讲话”。姿态识别单元14识别指示响应于用户U的互换等等的移动(比如行走或跑动)的姿态。动作输出单元16输出对应于比如行走或跑步的姿态的动作AC。
应当注意的是,即使当用户U的终端被静音时,只要语音识别处理被开启(ON),仍可以通过语音来控制化身AB的动作AC的面部表情。
[4、角色设定]
图8是示出针对化身AB的角色CH的设定方法的示例的视图。
可以基于语音数据SG自动选择角色CH。举例来说,化身合成单元17基于语音波形SD估计与用户的话音质量相匹配的角色CH。化身合成单元17通过使用所估计的角色CH的数据生成化身AB。
举例来说,化身合成单元17将语音波形SD应用于在其中学习动画角色的语音波形的角色分析模型(步骤SA2)。在角色分析模型中实施机器学习,从而使得当语音波形SD被输入时输出具有类似于语音波形SD的话音质量的动画角色。
化身合成单元17搜索具有类似于语音波形SD的话音质量的一个或多个动画角色作为角色候选CHC。化身合成单元17使用基于用户输入信息所选择的一个角色候选CHC作为用于化身AB的角色CH(步骤SA3到SA4)。
在图8的示例中,由具有类似于用户U的话音质量的配音演员VA所扮演的多个动画角色被呈现为角色候选CHC。用户U可以从所呈现的一个或多个角色候选CHC中选择最喜欢的角色候选CHC。此时,可以为角色候选CHC给出对应于语音波形SD的面部表情,从而使得可以很容易地选择适合于情绪表达的角色CH。
举例来说,化身合成单元17对于检索到的一个或多个角色候选CHC中的每一个生成对应于语音波形SD的面部表情。化身合成单元17将一个或多个角色候选CHC的所生成的面部表情呈现为选择目标。用户U在考虑到角色候选CHC在动画中所扮演的角色的情况下从所述一个或多个角色候选CHC中选择一个角色候选CHC作为用于化身AB的角色CH,从而使得在将要表达的情绪与角色候选CHC的角色之间不会产生不一致性。化身合成单元17通过使用所选择的角色CH生成化身AB。
[5、背景设定]
图9是示出背景BG的设定方法的示例的视图。
可以基于语音数据SG自动选择背景BG。举例来说,背景合成单元18从语音波形SD中提取出指示环境声音ES的波形分量。背景合成单元18基于所提取出的波形分量确定背景BG。
举例来说,背景合成单元18从语音波形识别单元11获取语音波形SD(步骤SB1)。背景合成单元18通过使用已知的声源分离技术从语音波形SD中移除用户U的话音信息,并且仅提取出指示环境声音ES的波形分量(步骤SB2)。背景合成单元18将语音波形SD应用于在其中学习环境声音ES与环境之间的对应关系的环境分析模型(步骤SB3)。在环境分析模型中,实施机器学习以便在输入环境声音ES时输出在其中生成环境声音ES的环境。
背景合成单元18搜索指示与在其中生成环境声音ES的环境类似的环境的一个或多个背景以作为背景候选BGC。背景合成单元18使用基于用户输入信息所选择的一个背景候选BGC作为用于化身AB的背景BG(步骤SB4)。
[6、系统配置示例]
图10和图11是示出通信支持服务的系统配置示例的视图。图10是示出将通信支持服务应用于单向通信的示例的视图。图11是示出将通信支持服务应用于双向通信的示例的视图。
通信支持服务可以被应用于单向通信和双向通信全部二者。在图10的示例中,用户U作为发送方T向信息处理设备1-A(服务器)发送语音数据SG,并且控制化身AB的面部表情和动作。信息处理设备1-A向接收方R发送包括发送方T的化身AB的视频VD。在图11的示例中,连接到信息处理设备1-B(服务器)的各个单独用户U是发送方T和接收方R。
在图11的示例中,发送方/接收方TR中的每一个可以通过静音设定防止自身的语音数据SG被发送到另一个发送方/接收方TR。举例来说,用户U可以通过开启静音设定来分发不包括语音数据SG的视频VD。即使在静音设定开启的情况下,用户U的终端仍然向信息处理设备1-B发送通过麦克风获取的语音数据SG。基于所接收到的语音数据SG,信息处理设备1-B控制将静音设定开启的用户U的化身AB的面部表情和动作。其结果是,有可能在不向另一个人分发语音数据的情况下适当地控制化身AB的面部表情和动作。
举例来说,在网络会议等等中存在以下情况:未被调度讲话的用户U关闭应用程序上的语音传输功能,并且实施仅听取会议内容的状态的设定(静音设定:开启),以便防止他/她的话音在会议中被错误地分发。在这种情况下,当麦克风(话音接收功能)被完全关闭时,无法控制化身AB的面部表情和动作。因此,即使在静音设定开启的情况下,用户U的终端仍然开启麦克风,并且向信息处理设备1-B发送通过麦克风获取的语音。虽然基于所接收到的语音数据SG生成用户U的化身AB并且分发视频VD,但是信息处理设备1-B并不向其他发送方/接收方TR分发语音数据SG本身。其结果是,有可能在防止语音的错误传输的同时控制化身AB。
[7、硬件配置示例]
图12是示出信息处理设备1的硬件配置示例的视图。举例来说,信息处理设备1通过计算机1000实现。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500和输入/输出接口1600。计算机1000的每一个单元通过总线1050连接。
CPU 1100基于存储在ROM 1300或HDD 1400中的程序进行操作,并且控制每一个单元。举例来说,CPU 1100将存储在ROM 1300或HDD 1400中的程序在RAM 1200中展开,并且执行对应于各种程序的处理。
ROM 1300存储引导程序,比如作为取决于计算机1000的硬件的程序的在计算机1000的激活期间由CPU 1100执行的基本输入输出系统(BIOS)等等。
HDD 1400是非临时性地记录由CPU 1100执行的程序、由所述程序使用的数据(包括各种数据库)等等的计算机可读记录介质。具体来说,HDD 1400是记录根据本公开内容的信息处理程序的记录介质,该程序是程序数据1450的示例。
通信接口1500是用于将计算机1000连接到外部网络1550(比如因特网)的接口。举例来说,通过通信接口1500,CPU 1100接收来自另一个设备的数据或者将CPU 1100所生成的数据发送到另一个设备。
输入/输出接口1600是用以连接输入/输出设备1650和计算机1000的接口。举例来说,CPU 1100通过输入/输出接口1600接收来自输入设备(比如键盘或鼠标)的数据。此外,CPU 1100通过输入/输出接口1600将数据发送到输出设备,比如显示器、扬声器或打印机。此外,输入/输出接口1600可以充当读取记录在预定记录介质(介质)上的程序等等的介质接口。所述介质例如是比如数字通用盘(DVD)或相变可重写盘(PD)之类的光学记录介质,比如磁光盘(MO)之类的磁光记录介质,带介质,磁性记录介质,半导体存储器等等。
举例来说,在计算机1000充当信息处理设备1的情况下,计算机1000的CPU 1100通过执行加载在RAM 1200上的程序来实现前面所描述的各种功能。此外,HDD 1400存储用于使得计算机充当信息处理设备1的程序。应当注意的是,CPU 1100从HDD 1400读取程序数据1450,并且实施其执行。但是在另一个示例中,可以通过外部网络1550从另一个设备获取这些程序。
[8、效果]
信息处理设备1包括情绪识别单元13、面部表情输出单元15和化身合成单元17。情绪识别单元13基于语音波形SD识别情绪EM。面部表情输出单元15输出对应于情绪EM的面部表情。化身合成单元17合成表现出所输出的面部表情的化身AB。在本公开内容的信息处理方法中,信息处理设备1的处理由计算机1000执行。本公开内容的程序使得计算机1000实现信息处理设备1的处理。
根据这种配置,可以通过利用声调来控制化身AB的面部表情。因此,与通过动作捕获生成面部表情的情况相比,有可能使得化身AB表达出更丰富的情绪。
情绪识别单元13基于语音波形SD和说话内容识别激动程度。面部表情输出单元15输出反映激动程度的面部表情。
根据这种配置,在面部表情中更好地反映出作为激动的内部信息。
信息处理设备1包括姿态识别单元14和动作输出单元16。姿态识别单元14基于说话内容识别姿态。动作输出单元16输出化身AB的动作AC,所述动作对应于姿态。
根据这种配置,与通过动作捕获生成情绪的情况相比,更容易在化身AB的动作中反映出用户U的情绪EM。由于在面部表情和动作AC中都反映出用户的情绪EM,因此变得有可能表达出更丰富的情绪。
动作输出单元16输出反映激动程度的动作AC。
根据这种配置,在动作AC中更好地反映出作为激动的内部信息。
动作输出单元16输出对应于基于语音波形SD所估计的场景的动作AC。
根据这种配置,有可能使得化身AB实施对应于场景的适当动作AC。
信息处理设备1包括背景合成单元18。背景合成单元18合成对应于基于语音波形SD或说话内容所估计的场景的背景BG。
根据这种配置,可以通过语音改变背景BG的视频。
背景合成单元18从语音波形SD中提取出指示环境声音ES的波形分量,并且基于所提取出的波形分量确定背景BG。
根据这种配置,以高度准确性再现充当背景BG的环境。
背景合成单元18搜索指示与在其中生成环境声音ES的环境类似的环境的一个或多个背景以作为背景候选BGC。背景合成单元18使用基于用户输入信息所选择的一个背景候选BGC作为用于化身AB的背景。
根据这种配置,选择反映出用户U的优选项的适当背景BG。
化身合成单元17通过使用基于语音波形SD所估计的角色CH的数据生成化身AB。
根据这种配置,提供适合于用户U的话音质量的化身AB。
化身合成单元17搜索具有类似于语音波形SD的话音质量的一个或多个动画角色作为角色候选CHC。化身合成单元17使用基于用户输入信息所选择的一个角色候选CHC作为用于化身AB的角色CH。
根据这种配置,将与用户U的话音质量相匹配的最喜欢的动画角色用作化身AB。
化身合成单元17对于检索到的一个或多个角色候选CHC中的每一个生成对应于语音波形SD的面部表情。化身合成单元17将一个或多个角色候选CHC的所生成的面部表情呈现为选择候选。
根据这种配置,变得很容易选择适合于情绪表达的角色CH。
信息处理设备1包括视频输出单元19。视频输出单元19输出包括化身AB的视频VD。在静音设定关闭的情况下,视频输出单元19以被包括在视频VD中的形式输出从中提取出语音波形SD的语音数据SG。在静音设定开启的情况下,视频输出单元19输出不包括语音数据SG的视频VD。
根据这种配置,通过开启静音设定,有可能在不将语音数据SG分发到其他人的情况下适当地控制化身AB的面部表情和动作。
应当注意的是,在本说明书中所描述的效果仅仅是举例而非限制,并且可以有其他效果。
[补充说明]
应当注意的是,本发明的技术还可以具有以下配置。
(1)一种信息处理设备,包括:
情绪识别单元,基于语音波形识别情绪;
面部表情输出单元,输出对应于所述情绪的面部表情;以及化身合成单元,合成表现出所述面部表情的化身。
(2)根据(1)的信息处理设备,其中
情绪识别单元基于语音波形和说话内容识别激动程度;并且
面部表情输出单元输出反映激动程度的面部表情。
(3)根据(2)的信息处理设备,还包括:
姿态识别单元,基于说话内容识别姿态;以及
动作输出单元,输出化身的动作,所述动作对应于姿态。
(4)根据(3)的信息处理设备,其中
动作输出单元输出反映激动程度的动作。
(5)根据(3)或(4)的信息处理设备,其中
动作输出单元输出对应于基于语音波形所估计的场景的动作。
(6)根据(1)到(5)中的任一条的信息处理设备,还包括:
背景合成单元,合成对应于基于语音波形或说话内容所估计的场景的背景。
(7)根据(6)的信息处理设备,其中
背景合成单元从语音波形中提取出指示环境声音的波形分量,并且基于所提取出的波形分量确定背景。
(8)根据(7)的信息处理设备,其中
背景合成单元搜索指示与生成环境声音的环境类似的环境的一个或多个背景以作为背景候选,并且使用基于用户输入信息所选择的一个背景候选作为用于化身的背景。
(9)根据(1)到(8)中的任一条的信息处理设备,其中
化身合成单元通过使用基于语音波形所估计的角色的数据生成化身。
(10)根据(9)的信息处理设备,其中
化身合成单元搜索具有类似于语音波形的话音质量的一个或多个动画角色作为角色候选,并且使用基于用户输入信息所选择的一个角色候选作为用于化身的角色。
(11)根据(10)的信息处理设备,其中
化身合成单元对于检索到的一个或多个角色候选中的每一个生成对应于语音波形的面部表情,并且将一个或多个角色候选的所生成的面部表情呈现为选择候选。
(12)根据(1)到(11)中的任一条的信息处理设备,还包括:
视频输出单元,输出包括化身的视频,其中
视频输出单元在静音设定关闭的情况下输出包括从中提取出语音波形的语音数据的视频,并且在静音设定开启的情况下输出不包括语音数据的视频。
(13)一种由计算机执行的信息处理方法,所述方法包括:
基于语音波形识别情绪;
输出对应于情绪的面部表情;以及
合成表现出面部表情的化身。
(14)一种用于使得计算机实现以下操作的程序:
基于语音波形识别情绪;
输出对应于情绪的面部表情;以及
合成表现出面部表情的化身。
附图标记列表
1——信息处理设备
13——情绪识别单元
14——姿态识别单元
15——面部表情输出单元
16——动作输出单元
17——化身合成单元
18——背景合成单元
19——视频输出单元
AB——化身
AC——动作
BG——背景
BGC——背景候选
CH——角色
CHC——角色候选
EM——情绪
ES——环境声音
SD——语音波形

Claims (14)

1.一种信息处理设备,包括:
情绪识别单元,基于语音波形识别情绪;
面部表情输出单元,输出对应于所述情绪的面部表情;以及
化身合成单元,合成表现出所述面部表情的化身。
2.根据权利要求1所述的信息处理设备,其中
情绪识别单元基于语音波形和说话内容识别激动程度;并且
面部表情输出单元输出反映激动程度的面部表情。
3.根据权利要求2所述的信息处理设备,还包括:
姿态识别单元,基于说话内容识别姿态;以及
动作输出单元,输出化身的动作,所述动作对应于姿态。
4.根据权利要求3所述的信息处理设备,其中
动作输出单元输出反映激动程度的动作。
5.根据权利要求3所述的信息处理设备,其中
动作输出单元输出对应于基于语音波形所估计的场景的动作。
6.根据权利要求1所述的信息处理设备,还包括:
背景合成单元,合成对应于基于语音波形或说话内容所估计的场景的背景。
7.根据权利要求6所述的信息处理设备,其中
背景合成单元从语音波形中提取出指示环境声音的波形分量,并且基于所提取出的波形分量确定背景。
8.根据权利要求7所述的信息处理设备,其中
背景合成单元搜索指示与生成环境声音的环境类似的环境的一个或多个背景以作为背景候选,并且使用基于用户输入信息所选择的一个背景候选作为用于化身的背景。
9.根据权利要求1所述的信息处理设备,其中
化身合成单元通过使用基于语音波形所估计的角色的数据生成化身。
10.根据权利要求9所述的信息处理设备,其中
化身合成单元搜索具有类似于语音波形的话音质量的一个或多个动画角色作为角色候选,并且使用基于用户输入信息所选择的一个角色候选作为用于化身的角色。
11.根据权利要求10所述的信息处理设备,其中
化身合成单元对于检索到的一个或多个角色候选中的每一个生成对应于语音波形的面部表情,并且将一个或多个角色候选的所生成的面部表情呈现为选择目标。
12.根据权利要求1所述的信息处理设备,还包括:
视频输出单元,输出包括化身的视频,其中
视频输出单元在静音设定关闭的情况下输出包括从中提取出语音波形的语音数据的视频,并且在静音设定开启的情况下输出不包括语音数据的视频。
13.一种由计算机执行的信息处理方法,所述方法包括:
基于语音波形识别情绪;
输出对应于情绪的面部表情;以及
合成表现出面部表情的化身。
14.一种用于使得计算机实现以下操作的程序:
基于语音波形识别情绪;
输出对应于情绪的面部表情;以及
合成表现出面部表情的化身。
CN202280068600.4A 2021-10-18 2022-10-06 信息处理设备、信息处理方法及程序 Pending CN118103872A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-170366 2021-10-18
JP2021170366 2021-10-18
PCT/JP2022/037498 WO2023068067A1 (ja) 2021-10-18 2022-10-06 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
CN118103872A true CN118103872A (zh) 2024-05-28

Family

ID=86058119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280068600.4A Pending CN118103872A (zh) 2021-10-18 2022-10-06 信息处理设备、信息处理方法及程序

Country Status (2)

Country Link
CN (1) CN118103872A (zh)
WO (1) WO2023068067A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2132650A4 (en) * 2007-03-01 2010-10-27 Sony Comp Entertainment Us SYSTEM AND METHOD FOR COMMUNICATING WITH A VIRTUAL WORLD
JP6654691B2 (ja) 2016-04-07 2020-02-26 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US10595101B2 (en) * 2018-03-15 2020-03-17 International Business Machines Corporation Auto-curation and personalization of sports highlights
US11430424B2 (en) * 2019-11-13 2022-08-30 Meta Platforms Technologies, Llc Generating a voice model for a user

Also Published As

Publication number Publication date
WO2023068067A1 (ja) 2023-04-27

Similar Documents

Publication Publication Date Title
US11222632B2 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11468894B2 (en) System and method for personalizing dialogue based on user's appearances
US20200279553A1 (en) Linguistic style matching agent
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
KR20170085422A (ko) 가상 에이전트 동작 방법 및 장치
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
CN108711423A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
US20210205987A1 (en) System and method for dynamic robot configuration for enhanced digital experiences
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
JP7193015B2 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
CN110162598B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
US11331807B2 (en) System and method for dynamic program configuration
CN111787986A (zh) 基于面部表情的语音效果
WO2023246163A9 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
Ritschel et al. Multimodal joke generation and paralinguistic personalization for a socially-aware robot
CN118103872A (zh) 信息处理设备、信息处理方法及程序
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP7423490B2 (ja) ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
JP2021113835A (ja) 音声処理装置および音声処理方法
CN110166844B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
US20240078731A1 (en) Avatar representation and audio generation
US20240078732A1 (en) Avatar facial expressions based on semantical context
CN111443794A (zh) 一种阅读互动方法、装置、设备、服务器及存储介质
WO2024014318A1 (ja) 学習モデル生成装置、推論処理装置、学習モデル生成方法および推論処理方法
CN110892475A (zh) 信息处理装置、信息处理方法和程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication