CN111128190A - 一种表情匹配的方法及系统 - Google Patents

一种表情匹配的方法及系统 Download PDF

Info

Publication number
CN111128190A
CN111128190A CN201911412320.7A CN201911412320A CN111128190A CN 111128190 A CN111128190 A CN 111128190A CN 201911412320 A CN201911412320 A CN 201911412320A CN 111128190 A CN111128190 A CN 111128190A
Authority
CN
China
Prior art keywords
voice
input
expression
input voice
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911412320.7A
Other languages
English (en)
Other versions
CN111128190B (zh
Inventor
李小波
李晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengxin Shambala Culture Co ltd
Original Assignee
Hengxin Shambala Culture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengxin Shambala Culture Co ltd filed Critical Hengxin Shambala Culture Co ltd
Priority to CN201911412320.7A priority Critical patent/CN111128190B/zh
Publication of CN111128190A publication Critical patent/CN111128190A/zh
Application granted granted Critical
Publication of CN111128190B publication Critical patent/CN111128190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种表情匹配的方法及系统,其中表情匹配的方法具体包括以下步骤:获取输入视频,提取视频中的输入语音;查看输入语音是否完整;若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情;将对应的人脸表情匹配到输入视频中;输出匹配后带有人脸表情的视频。本申请根据用户的输入语音为对应的任务匹配最合适的表情,提高人脸表情与语音的匹配度,使输出的视频更加生动形象。

Description

一种表情匹配的方法及系统
技术领域
本申请涉及计算机领域,具体地,涉及一种表情匹配的方法及系统。
背景技术
在越来越普及的视频领域中,虚拟形象表情应用是目前一种非常流行的实时应用,广泛实现在多种移动终端上,虚拟形象的表情大部分是通过摄像头采集包含人脸的视频流,实时地对人脸表情进行检测,并应用在虚拟形象(例如卡通形象)中。然而,在将人脸表情应用到虚拟形象中时,存在人脸表情和虚拟形象表情不能精确对照的问题。因此会出现人脸表情和虚拟形象表情不统一,虚拟形象表情和输入语音不统一的问题。
因此,如何有效的进行表情匹配,提高输入语音与人脸表情的匹配度是本领域人员目前急需解决的问题。
发明内容
本申请的目的在于提供一种表情匹配的方法及系统,能够有效的进行表情匹配,提高输入语音与人脸表情的匹配度。
为达到上述目的,本申请提供了一种表情匹配的方法,具体包括以下步骤:获取输入视频,提取视频中的输入语音;查看输入语音是否完整;若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情;将对应的人脸表情匹配到输入视频中;输出匹配后带有人脸表情的视频。
如上的,其中,输入视频包括脸部不存在人物表情的人物形象以及人物的输入语音。
如上的,其中,在对输入的语音进行识别之前,还包括,构建声音音谱库;声音音谱库包括声音区域和表情区域,声音区域中包括预先录入的多个目标语音,表情区域中包括预先录入的多个人脸表情,声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。
如上的,其中,在对输入的语音进行识别过程中,包括以下子步骤:对输入语音进行预处理检测;获取预处理后的输入语音特征;根据输入语音特征,查找声音区域中与输入语音相同的语音。
如上的,其中,在获取输入语音的特征之前,还包括以下子步骤:对预处理后的输入语音进行划分;对划分后的输入语音进行加强处理;获取加强后的输入语音特征;其中输入语音特征E具体表示为:
Figure BDA0002350308560000021
其中n为输入语音划分后的帧数量,x(m)为划分后且加强的每一帧的语音信号的长度,i为自然数。
如上的,其中,计算目标语音的特征,将目标语音特征与输入语音特征进行差值运算,若二者的特征差值小于指定特征阈值,则两者为同一语音,将目标语音对应的人脸表情匹配到人物形象的脸部区域中。
如上的,其中,将对应的人脸表情匹配到输入视频之前,还包括,计算输入语音的输入特性,根据输入特性调取不同的人脸表情。
一种表情匹配系统,具体包括识别处理器以及输出单元;识别处理器用于执行上述任一项的表情匹配方法;输出单元用于输出匹配后带有人脸表情的视频。
如上的,其中,识别处理器包括以下子模块:提取模块、查看模块、识别获取模块以及匹配模块;其中提取模块,用于获取输入视频,提取视频中的输入语音;查看模块,用于查看输入语音是否完整;识别获取模块,用于若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情;匹配模块,用于将对应的人脸表情匹配到输入视频中。
如上的,其中,识别获取模块还包括以下子模块:预处理模块、特征获取模块以及查找模块;预处理模块,用于对输入语音进行预处理检测;特征获取模块,用于获取预处理后的输入语音特征;查找模块,用于根据输入语音特征,查找声音区域中与输入语音相同的语音。
本申请的有益效果是:能够根据用户的输入语音为对应的任务匹配最合适的表情,提高人脸表情与语音的匹配度,使输出的视频更加生动形象。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的表情匹配的方法流程图;
图2是根据本申请实施例提供的表情匹配的系统的内部结构图;
图3是根据本申请实施例提供的表情匹配的系统的又一内部结构图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及一种识别唱跳节目动作的方法及识别系统。根据本申请,能够根据用户的输入语音为对应的任务匹配最合适的表情,提高人脸表情与语音的匹配度,使输出的视频更加生动形象。
本申请提供了表情匹配的方法,请参考图1,具体包括如下步骤:
步骤S110:获取输入视频,提取视频中的输入语音。
其中输入视频为系统中显示的正在播放的视频画面,输入视频包括人物以及人物的输入语音,其中该人物的脸部为预先抠除脸部表情,有且只有脸部轮廓的脸部。其中预先抠除脸部表情的方式可参考现有技术。
步骤S120:查看输入语音是否完整。
在提取输入视频中的输入语音后,还进行语音完整性的识别,具体地,接收输入语音后,根据数据的传输协议进行输入语音的分析,具体为进行是否存在媒体流数据的分析。
其中预先设定多个指定时间段,若该输入语音中存在媒体流数据,则在第一指定时间段后查看是否依然接收到输入语音,若不存在媒体流数据则流程退出。若在第一指定时间段内未接收到,则说明该输入语音完成输入,执行步骤S130。否则继续接收输入语音并进行媒体流的数据分析,若存在媒体数据流则依然在第二指定时间段内继续接收,否则流程退出。若第二指定时间段未接收到语音则执行步骤S130,否则进行媒体流数据分析。按照上述方式直至完成多个指定时间段的查看。
步骤S130:对输入语音进行识别,获取与输入语音对应的人脸表情。
其中在对输入的语音进行识别之前,还包括,构建声音音谱库。该声音音谱库中,包括声音区域和表情区域,声音区域中包括预先录入的多个目标语音,表情区域中包括预先录入的多个人脸表情。声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。其中一个目标语音对应的多个表情分为一般、良好、优秀三个程度。
示例性地,声音区域中包括的“我简直太高兴了”语音,与表情区域中的一个或多个程度的“笑脸”表情是对应的,声音区域中包括的“我好难过”语音,与表情区域中的一个或多个程度的“难过”表情对应,表情区域中的表情是与对应的声音区域进行配合,达到声音与表情同步的状态。
在对输入语音进行识别的过程中,具体包括以下子步骤:
步骤D1:对输入语音进行预处理检测。
其中预处理检测能够从背景噪声中准确找出输入语音的起始点和终止点,具体地,将输入语音的首尾端的静音切除,降低对后续步骤造成的干扰。
步骤D2:获取预处理后的输入语音特征。
具体地,在获取输入语音的特征之前,还包括以下子步骤:
步骤D210:对预处理后的输入语音进行划分。
由于输入语音的语音信号的准平稳性,使得只有在短时段上才可视为是一个平稳过程,因此需要讲输入语音的语音信号划分为一个一个的短时段,每一个短时段简称为一帧,每一帧具有固定的长度。值得注意的是,将输入语音信号进行帧划分,每一帧的帧尾与下一帧的帧头是重叠的,防止出现语音间断的问题。
步骤D220:对划分后的输入语音进行加强处理。
具体地,其中为了降低每一帧两端的坡度,使每一帧的两端不引起急剧变化而平滑过渡到零,因此需要对每一帧的语音信号进行加强处理,即将原始的帧信号乘以一个加强函数变为加强后的帧信号,具体地,加强后的帧信号x(m)具体表示为:
x(m)=ε*x′(m) (公式一)
其中ε表示加强函数,x′(m)表示原始帧信号的长度。
步骤D230:获取加强后的输入语音特征。
具体地,获取输入语音的短时能量,即输入语音特征,其中输入语音特征E具体表示为:
Figure BDA0002350308560000051
其中,n为输入语音帧划分后的帧数量,x(m)为划分后且加强的每一帧的语音信号的长度,i为自然数。
步骤D3:根据输入语音特征,查找声音区域中与输入语音相同的语音。
具体地,其中可根据公式一和二进行声音区域中目标语音的特征计算,将目标语音的特征与输入语音的特征进行比对,查找与输入语音相同的目标语音。若二者的特征差值小于指定特征阈值,则两者为同一语音,则可执行步骤S140。否则流程退出。
其中指定特征阈值为工作人员预先设置并且可被修改,具体数值在此不进行限定。
步骤S140:将对应的人脸表情匹配到输入视频中。
具体地,查找到与输入语音相同的目标语音,则调取与目标语音对应的人脸表情。由于一个目标语音对应多个人脸表情,因此在对应的人脸表情匹配到输入视频中之前,还包括,根据输入语音的特性进行人脸表情的选取。
其中,输入语音中的输入特性表示了输入语音所带有的感情变化,不同的感情变化对应不同的人脸表情程度,因此可根据输入特性的大小选取不同的人脸表情。例如输入语音的“我很高兴”中输入特性较大,则说明人物表现的感情深色彩很强烈,可选取优秀程度的“高兴”表情。若输入特性较小,则选取一般程度的“高兴”表情。
具体地,其中输入语音的输入特性Y具体表示为:
Figure BDA0002350308560000061
其中,pj表示声压,Y0为标准声强,σ为输入语音的语速,log表示对数运算。
若输入语音的输入特性Y小于第一阈值,则说明该输入语音的感情色彩一般,调取对应的一般程度的表情。
若输入语音的输入特性Y大于第一阈值小于第二阈值,则说明该输入语音的感情色彩丰富,则调取对应的良好程度的表情。
若输入语音的输入特性Y大于第二阈值小于第三阈值,则说明该输入语音的感情色彩浓烈,则调取对应的优秀程度的表情。
值得注意的是,第一阈值、第二阈值以及第三阈值为系统预先设定的数值,三者的数值为依次增大,具体数值在此不进行限定。
进一步地,调取到对应的人脸表情后,将该人脸表情复制到输入视频中不具有人脸表情的人物形象的脸部区域中。
其中在将人脸表情复制到输入视频中不具有人脸表情的脸部区域中,若脸部区域出现倾斜的情况,则人脸表情也需要进行倾斜,因此还包括以下子步骤:
步骤Q1:将人脸表情与脸部区域进行每一度的角度对比。
具体地,其中人脸表情与脸部区域对比主要为脸部外轮廓的像素对比。将可旋转0-360度的人脸表情从0度开始与指定旋转角度为0的脸部区域进行对比,再将人脸表情旋转至指定角度为1度,与指定角度为0的脸部区域进行对比,并记录此时二者的相似度,直至完成所有角度的人脸表情与脸部区域的对比。
其中本步骤中涉及图像对比的方法可参考现有技术中多种实施图像对比的方法,本实施例中不进行赘述。
步骤Q2:将人脸表情按照角度对比的结果进行贴合。
具体地,若角度对比中,旋转0-360度的人脸表情从0度开始与指定旋转角度为0的脸部区域的对比相似度大于指定阈值,则按照当前旋转的角度进行人脸表情与脸部区域的贴合。
步骤S150:输出匹配后带有人脸表情的视频。
具体地,将带有人脸表情与同步的输入语音进行输出。
本申请提供了表情匹配系统,如图2所示,具体包括:识别处理器201以及输出单元202。
其中识别处理器201用于对输入语音进行识别,获取与输入语音对应的人脸表情。
具体地,如图3所示,其中识别处理器201具体包括以下子模块:提取模块301、查看模块302、识别获取模块303、匹配模块304。
其中提取模块301用于获取输入视频,提取视频中的输入语音。
查看模块302与提取模块301连接,用于查看输入语音是否完整。
识别获取模块303与查看模块302连接,用于若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情。
具体地,其中识别获取模块303还包括以下子模块:预处理模块、特征获取模块、查找模块。
其中预处理模块用于对输入语音进行预处理检测。
特征获取模块与预处理模块连接,用于获取预处理后的输入语音特征。
查找模块与特征获取模块连接,用于根据输入语音特征,查找声音区域中与输入语音相同的语音。
匹配模块304与识别获取模块303连接,用于将对应的人脸表情匹配到输入视频中。
输出单元202与识别处理器连接,用于输出匹配后带有人脸表情的视频。
本申请的有益效果是:能够根据用户的输入语音为对应的任务匹配最合适的表情,提高人脸表情与语音的匹配度,使输出的视频更加生动形象。
虽然当前申请参考的示例被描述,其只是为了解释的目的而不是对本申请的限制,对实施方式的改变,增加和/或删除可以被做出而不脱离本申请的范围。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种表情匹配的方法,其特征在于,具体包括以下步骤:
获取输入视频,提取视频中的输入语音;
查看输入语音是否完整;
若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情;
将对应的人脸表情匹配到输入视频中;
输出匹配后带有人脸表情的视频。
2.如权利要求1所述的表情匹配的方法,其特征在于,输入视频包括脸部不存在人物表情的人物形象以及人物的输入语音。
3.如权利要求1所述的表情匹配的方法,其特征在于,在对输入的语音进行识别之前,还包括,构建声音音谱库;
声音音谱库包括声音区域和表情区域,声音区域中包括预先录入的多个目标语音,表情区域中包括预先录入的多个人脸表情,声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。
4.如权利要求1所述的表情匹配的方法,其特征在于,在对输入的语音进行识别过程中,包括以下子步骤:
对输入语音进行预处理检测;
获取预处理后的输入语音特征;
根据输入语音特征,查找声音区域中与输入语音相同的语音。
5.如权利要求4所述的表情匹配的方法,其特征在于,在获取输入语音的特征之前,还包括以下子步骤:
对预处理后的输入语音进行划分;
对划分后的输入语音进行加强处理;
获取加强后的输入语音特征;
其中输入语音特征E具体表示为:
Figure FDA0002350308550000021
其中n为输入语音划分后的帧数量,x(m)为划分后且加强的每一帧的语音信号的长度,i为自然数。
6.如权利要求5所述的表情匹配的方法,其特征在于,计算目标语音的特征,将目标语音特征与输入语音特征进行差值运算,若二者的特征差值小于指定特征阈值,则两者为同一语音,将目标语音对应的人脸表情匹配到人物形象的脸部区域中。
7.如权利要求1所述的表情匹配的方法,其特征在于,将对应的人脸表情匹配到输入视频之前,还包括,计算输入语音的输入特性,根据输入特性调取不同的人脸表情。
8.一种表情匹配系统,其特征在于,具体包括识别处理器以及输出单元;识别处理器用于执行上述权利要求1-7任一项所述的表情匹配方法;输出单元用于输出匹配后带有人脸表情的视频。
9.如权利要求8所述的表情匹配系统,其特征在于,识别处理器包括以下子模块:提取模块、查看模块、识别获取模块以及匹配模块;
其中提取模块,用于获取输入视频,提取视频中的输入语音;
查看模块,用于查看输入语音是否完整;
识别获取模块,用于若输入语音完整,则对输入语音进行识别,获取与输入语音对应的人脸表情;
匹配模块,用于将对应的人脸表情匹配到输入视频中。
10.如权利要求9所述的表情匹配系统,其特征在于,识别获取模块还包括以下子模块:预处理模块、特征获取模块以及查找模块;
预处理模块,用于对输入语音进行预处理检测;
特征获取模块,用于获取预处理后的输入语音特征;
查找模块,用于根据输入语音特征,查找声音区域中与输入语音相同的语音。
CN201911412320.7A 2019-12-31 2019-12-31 一种表情匹配的方法及系统 Active CN111128190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911412320.7A CN111128190B (zh) 2019-12-31 2019-12-31 一种表情匹配的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911412320.7A CN111128190B (zh) 2019-12-31 2019-12-31 一种表情匹配的方法及系统

Publications (2)

Publication Number Publication Date
CN111128190A true CN111128190A (zh) 2020-05-08
CN111128190B CN111128190B (zh) 2023-03-21

Family

ID=70506441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911412320.7A Active CN111128190B (zh) 2019-12-31 2019-12-31 一种表情匹配的方法及系统

Country Status (1)

Country Link
CN (1) CN111128190B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634466A (zh) * 2020-12-25 2021-04-09 游艺星际(北京)科技有限公司 虚拟形象模型的表情显示方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005057431A (ja) * 2003-08-01 2005-03-03 Victor Co Of Japan Ltd テレビ電話端末装置
US20170083506A1 (en) * 2015-09-21 2017-03-23 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
CN106886606A (zh) * 2017-03-21 2017-06-23 联想(北京)有限公司 用于根据用户语音推荐表情的方法和系统
US20170185827A1 (en) * 2015-12-24 2017-06-29 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的插入方法、装置和电子设备
US20180025221A1 (en) * 2016-07-20 2018-01-25 International Business Machines Corporation Video sentiment analysis tool for video messaging
CN108875539A (zh) * 2018-03-09 2018-11-23 北京旷视科技有限公司 表情匹配方法、装置和系统及存储介质
CN109079805A (zh) * 2017-06-14 2018-12-25 丰田自动车株式会社 通信装置、通信机器人以及计算机可读存储介质
CN109147825A (zh) * 2018-08-09 2019-01-04 湖南永爱生物科技有限公司 基于语音识别的人脸表情装饰方法、装置、存储介质及电子设备
US20190050881A1 (en) * 2017-08-09 2019-02-14 Motion Device Inc. Method and apparatus for rewarding reaction of simulation participant
CN109473122A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 基于检测模型的情绪分析方法、装置及终端设备
CN109885713A (zh) * 2019-01-03 2019-06-14 刘伯涵 基于语音情绪识别的表情图像推荐方法以及装置
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005057431A (ja) * 2003-08-01 2005-03-03 Victor Co Of Japan Ltd テレビ電話端末装置
US20170083506A1 (en) * 2015-09-21 2017-03-23 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
US20170185827A1 (en) * 2015-12-24 2017-06-29 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
US20180025221A1 (en) * 2016-07-20 2018-01-25 International Business Machines Corporation Video sentiment analysis tool for video messaging
CN106886606A (zh) * 2017-03-21 2017-06-23 联想(北京)有限公司 用于根据用户语音推荐表情的方法和系统
CN109079805A (zh) * 2017-06-14 2018-12-25 丰田自动车株式会社 通信装置、通信机器人以及计算机可读存储介质
US20190050881A1 (en) * 2017-08-09 2019-02-14 Motion Device Inc. Method and apparatus for rewarding reaction of simulation participant
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的插入方法、装置和电子设备
CN108875539A (zh) * 2018-03-09 2018-11-23 北京旷视科技有限公司 表情匹配方法、装置和系统及存储介质
CN109147825A (zh) * 2018-08-09 2019-01-04 湖南永爱生物科技有限公司 基于语音识别的人脸表情装饰方法、装置、存储介质及电子设备
CN109473122A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 基于检测模型的情绪分析方法、装置及终端设备
CN109885713A (zh) * 2019-01-03 2019-06-14 刘伯涵 基于语音情绪识别的表情图像推荐方法以及装置
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANG-HYUN PARK: "Emotion recognition of speech based on RNN", 《EMOTION RECOGNITION OF SPEECH BASED ON RNN》 *
彭杰: "语音情感识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634466A (zh) * 2020-12-25 2021-04-09 游艺星际(北京)科技有限公司 虚拟形象模型的表情显示方法、装置、设备及存储介质
CN112634466B (zh) * 2020-12-25 2021-10-22 游艺星际(北京)科技有限公司 虚拟形象模型的表情显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111128190B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
Tao et al. Is someone speaking? exploring long-term temporal features for audio-visual active speaker detection
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
Yang et al. LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild
US10497382B2 (en) Associating faces with voices for speaker diarization within videos
US9672829B2 (en) Extracting and displaying key points of a video conference
WO2020253051A1 (zh) 唇语的识别方法及其装置
US11551393B2 (en) Systems and methods for animation generation
CN110557659B (zh) 视频推荐方法、装置、服务器及存储介质
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN108920640B (zh) 基于语音交互的上下文获取方法及设备
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
RU2764125C1 (ru) Способ оценки качества видео и аппарат, устройство и носитель данных
CN113242361B (zh) 一种视频处理方法、装置以及计算机可读存储介质
CN111050023A (zh) 视频检测方法、装置、终端设备及存储介质
CN112735385B (zh) 语音端点检测方法、装置、计算机设备及存储介质
CN110750996A (zh) 多媒体信息的生成方法、装置及可读存储介质
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN111128190B (zh) 一种表情匹配的方法及系统
CN111613227A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
Gu et al. Deepfake video detection using audio-visual consistency
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
CN116708055B (zh) 智能多媒体视听图像处理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant