CN111354376A - 一种表演能力的自动评测方法、装置及智能终端 - Google Patents
一种表演能力的自动评测方法、装置及智能终端 Download PDFInfo
- Publication number
- CN111354376A CN111354376A CN201811571826.8A CN201811571826A CN111354376A CN 111354376 A CN111354376 A CN 111354376A CN 201811571826 A CN201811571826 A CN 201811571826A CN 111354376 A CN111354376 A CN 111354376A
- Authority
- CN
- China
- Prior art keywords
- performance
- data
- performance evaluation
- emotion
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 118
- 230000008451 emotion Effects 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 7
- 230000008921 facial expression Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 39
- 230000009471 action Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 206010044565 Tremor Diseases 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003278 mimic effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 206010023644 Lacrimation increased Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 208000032974 Gagging Diseases 0.000 description 1
- 206010038776 Retching Diseases 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 230000004317 lacrimation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Biophysics (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种表演能力的自动评测方法、装置及智能终端,该方法包括:获取用户的表演信息;确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;根据所述情绪类别获取其对应的预存的表演评测数据;将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。本发明实施例中,通过根据情绪类别得到表演数据和表演评测数据,并通过二者的对比分析,得到了表演评测结果,相对于现有的利用标准语音进行评测的方法相比,由于表演者的情绪与表演能力有至关重要的联系,因此将情绪作为评测的核心,使得表演评测的结果更为准确。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种表演能力的自动评测方法、装置及智能终端。
背景技术
由于影视剧的火热,许多非科班出身的人想通过锻炼自己,来提升自己的表演能力。目前,对于表演能力的评测主要是依靠专业人员来进行的,因此普通人想提升自己的表演能力,大多数是通过报培训班的方式,而培训班的培训费用一般都比较高,这使得人们提升表演能力的成本变高。
为了减少训练成本,目前也有针对表演能力进行自动评测的系统,但是现有的自动评测系统一般是通过比较表演者的语音与标准语音之间的区别,从而得到评测结果的。这种仅通过比较语音之间是否相同的评测方法,并未考虑到基于相同的情绪,表演者的语音可能有多种多样。例如悲伤的情绪,表演者的语音可能是带有哭泣,也可能是大笑,用大笑来掩盖自己心里的悲伤,使得评测结果并不准确,从而不能准确地了解自己的表演能力。
发明内容
有鉴于此,本发明实施例提供了一种表演能力的自动评测方法、装置及终端,以使得表演者能够准确地了解自己的表演能力。
本发明实施例的第一方面提供了一种表演能力的自动评测方法,包括:
获取用户的表演信息;
确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
根据所述情绪类别获取其对应的预存的表演评测数据;
将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
本发明实施例的第二方面提供了一种表演能力的自动评测装置,包括:
表演信息获取模块,用于获取用户的表演信息;
特征提取模块,用于确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
表演评测数据获取模块,用于根据所述情绪类别获取其对应的预存的表演评测数据;
对比分析模块,用于将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
本发明实施例的第三方面提供了一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面所述的方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面所述的方法。
本发明实施例中,通过根据情绪类别得到表演数据和表演评测数据,并通过二者的对比分析,得到了表演评测结果,相对于现有的利用标准语音进行评测的方法相比,由于表演者的情绪与表演能力有至关重要的联系,因此将情绪作为评测的核心,使得表演评测的结果更为准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种表演能力的自动评测方法的实现流程示意图;
图2是本发明实施例提供的另一种表演能力的自动评测方法的实现流程示意图;
图3是本发明实施例提供的一种表演能力的自动评测装置的示意图;
图4是本发明实施例提供的一种智能终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“所述”意在包括复数形式。
请参见图1,图1是本发明一实施例提供的一种表演能力的自动评测方法的示意流程图,详述如下:
步骤S101:获取用户的表演信息。
其中,所述表演信息包括:表情信息、语音信息、动作信息和生理特征信息中的一种或多种。
表演信息可以是用户在表演过程中做出的表情、发出的语音、做出的动作,以及生理特征信息中的任意一种或者多种的组合。由于用户的表演信息有多种,因此需要通过不同的器件或设备获取所述表演信息。
为了获取用户在表演过程中的表情信息,可以通过多个摄像机拍摄,得到表情图序列集合。若拍摄得到的是关于用户表情的视频,则可以按照预设帧率将视频分解成图片,进而得到表情图序列集合。其中,预设帧率可以根据需要任意设定,如50fps或者80fps,在此不做限定。对于用户的语音信息,则可以通过声音传感器或者是录音设备来获取。对于用户的动作信息,采集方法可以是通过在用户身体上的关键部位(如关节、手、腰等)上做出标记点,使用动作捕捉相机实时探测标记点,从而得知用户的动作信息。而用户的生理特征信息则由生理特征监测设备来获取,得到生理特征图。其中,生理特征图可以是心电图、皮电图和脑电图中的任意一种或多种。
优选地,在所述获取用户的表演信息之前,还包括:接收用户的模式选择指令。
其中,所述模式选择指令可以有两种,即自演模式和模仿模式,不同的模式选择指令对应的评测过程不同。自演模式是指用户可以选择输入文本,即表演剧本,并根据该文本进行表演;或者也可以选择不输入文本,随意进行一段表演。而模仿模式是指用户可以指定要模仿的视频,并模仿该视频进行表演。若用户需要输入文本,则可以通过文字输入设备来获取用户输入的文本。
步骤S102:确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据。
其中,所述情绪类别可分为喜、怒、哀、乐、惊、恐和思等几种。
确定所述表演信息对应的情绪类别的方式可以有多种,例如,可以通过接收用户输入的文本,即用户所要表演的剧本,再利用自然语言处理(NLP,Natural LanguageProcessing)的方法,将该文本中的情感子句提取出来,从而确定该文本对应的情绪类别,也即用户的表演信息对应的情绪类别。其中,所述情感子句是指与情绪相关的句子,例如,假设用户输入的文本为“今天小红跟我分手了,好难过啊”,提取出来的情感子句则为“好难过啊”,由此可以确定对应的情绪类别为“哀”。或者也可以通过获取到的用户的表演信息如语音信息或者表情信息等,再对该表演信息进行情绪识别处理,从而确定所述情绪类别。
在确定了第一情绪类别为“哀”之后,分别对表演信息中的表情信息即表情图序列集合、语音信息、动作信息和生理信息即生理特征图中的一种或多种进行特征提取。
其中,可以使用LBP特征提取算法、HOG特征提取算法或者Haar特征提取算子来对表情图序列集合进行特征提取,得到表情特征。对于语音的特征提取,可以通过梅尔频率倒谱系数(MFCC,Mel-Frequency Cepstrum Coefficient),线性预测分析(LPC,LinearPrediction Coefficients)或者是感知线性预测系数(PLP,Perceptual LinearPredictive)来实现。动作特征的提取可以通过Cuboid特征提取算法来实现,生理特征的获取是通过统计学方法得到的。
示例性地,根据“哀”这一情绪类别,提取出来的对应于“哀”的表情特征为哭丧(表情特征1)和眼泪(表情特征2),语音特征为声音颤抖(语音特征1)和哽咽(语音特征2),动作特征为低头(动作特征1)和站着(动作特征2),生理特征为脑电图(生理特征1)、心电图(生理特征2)和皮电图(生理特征3)。将所有的表情特征、语音特征、动作特征和生理特征组合起来,便得到了表演数据,即“哀”这一情绪对应的所有的表情特征、语音特征、动作特征和生理特征。
步骤S103:根据所述情绪类别获取其对应的预存的表演评测数据。
在确定了所述表演数据对应的情绪类别之后,还要根据所述情绪类别获取其对应的预存的表演评测数据。
进一步地,所述根据所述情绪类别获取其对应的预存的表演评测数据,具体包括:
若所述模式选择指令为自演模式,则获取与所述情绪类别对应的预存的第一表演评测数据;其中,所述第一表演评测数据为预训练的深度学习模型的输出;
若所述模式选择指令为模仿模式,则获取与所述情绪类别对应的预存的第二表演评测数据;其中,所述第二表演评测数据是通过对所述用户指定的表演片段进行特征提取得到。
可选地,当所述模式选择指令为自演模式时,获取与所述情绪类别对应的预存的第一表演评测数据;其中,所述第一表演评测数据是预训练的深度学习模型的输出。
具体地,所述预训练的深度学习模型的训练方法为:
A.预处理过程:输入带情绪标注的表演样本集,以情绪作为标签,训练得到预训练的分类子网络;其中,表演样本集的类型包括:生理特征图集、表情图集、语音音频集和动作图集。
B.核心处理过程:输入带文本的表演片段样本集,根据该文本确定所述表演片段的情绪;以情绪作为标签,利用预训练的分类子网络进行训练,得到第一表演评测信息。
分别输入不同类型的表演样本集,对每个类型的表演样本集进行的预处理过程如下:
A1.输入带情绪标注的生理特征图集,根据标注的情绪,利用深度学习的方法,训练得到预训练的生理分类子网络;其中,生理特征图可以包括心电图、脑电图和皮电图中的任意一种或多种;
A2.输入带情绪标注的表情图集,根据标注的情绪,利用深度学习的方法,训练得到预训练的表情分类子网络;
A3.输入带情绪标注的语音音频集,根据标注的情绪,利用深度学习的方法,训练得到预训练的语音分类子网络;
A4.输入带情绪标注的动作图集,根据标注的情绪,利用深度学习的方法,训练得到预训练的动作分类子网络。
通过训练,得到的各个分类子网络具备了分类能力,即能够对输入的样本进行分类。在得到了各个分类子网络之后,再进行核心处理过程。
需要说明的是,在深度学习模型的训练过程中,为了保证训练结果的准确性,需要输入大量的样本。因此,在上述步骤A1-A4以及步骤B中需要输入的样本数量很多,例如可以是5000个或者是10000个,输入的样本数量为多少,可以根据需要确定,在此不做限制。
需要说明的是,如果直接把表演片段输入到深度学习模型中,由于表演片段中包含了丰富的信息,如语音信息、动作信息和表情信息,这会使得在深度学习模型的训练中,计算量急剧增大,同时训练速度也会变慢。因此需要先分别将每种类型的信息经过训练,得到各个分类子网络,再利用这些分类子网络对表演片段进行训练。
具体地,在输入大量的带文本的表演片段样本集之后,对于每个表演片段样本集,需要从其对应的文本中提取出跟情绪有关的情感子句,再根据该情感子句确定所述表演片段的情绪。然后再根据所述表演片段的情绪,对该表演片段的语音信息、动作信息和表情信息进行特征提取,得到了对应的语音特征、动作特征和表情特征。再以情绪作为标签,利用预训练的表情分类子网络、预训练的语音分类子网络和预训练的动作子分类网络进行训练,得到了中间分类结果。
其中,上述中间分类结果是以情绪作为分类标签的特征集,例如将“哀”这一种情绪作为分类标签,其对应的特征集包括了生理特征、表情特征、语音特征和动作特征。
再利用现有的一些分类网络如ResNet分类网络或者AlexNet分类网络,对上述得到的特征集做进一步的分类,同时对各个特征做特征归一化,得到以情绪作为标签的语音特征组、表情特征组和动作特征组。例如,得到的以“哀”这一种情绪作为标签的语音特征组包括:哽咽(语音特征1)、声音颤抖(语音特征2)和哭泣的声音(语音特征3),以“哀”这一种情绪作为标签的表情特征组包括:哭丧(表情特征1)、流泪(表情特征2)和面无表情(表情特征3),以“哀”这一种情绪作为标签的动作特征组包括:低头(动作特征1)、站着(动作特征2)、蹲着(动作特征3)。
其中,特征归一化是指将相似的特征归类为一个标准的特征,这是由于同一个动作或者表情,不同的表演者做出来的动作幅度或表情会有一些差别,因此为了减少特征的数量,需要判断多个特征之间是否为相似的特征,并将相似的特征归为一个标准特征。例如,嘴角带笑这一表情特征,嘴角带笑1这一表情特征中的嘴唇弧度为30度,嘴角带笑2这一表情特征中的嘴唇弧度为28度,对于嘴角弧度的预设范围为5度,很显然嘴角带笑1与嘴角带笑2这两个表情特征是相似的,因此归为都属于嘴角带笑这一标准特征。特征归一化可以通过现有的分类网络如ResNet分类网络实现。
得到了以情绪作为标签的各个特征组之后,对上述的语音特征组、表情特征组和动作特征组进行特征组合,并结合生理分类子网络输出的生理特征,将所有的组合方式记录下来,便得到了以情绪作为分类依据的第一表演评测数据。例如,对于“哀”这一种情绪,其中一种特征组合方式可以是:哽咽(语音特征1)-哭丧(表情特征1)-低头(动作特征1)-生理特征1,而另一种特征组合方式可以是:哽咽(语音特征1)-流泪(语音特征2)-蹲着(动作特征2)-生理特征2。
需要说明的是,在预训练的深度学习模型的训练过程中,由于输入的表演片段样本集中不包括生理特征信息,因此得到的中间数据仅包括语音特征、动作特征和表情特征,所以需要将所得到的中间数据与生理分类子网络输出的生理特征结合起来,从而得到第一表演评测数据。
步骤S104:将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
进一步地,所述将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果,具体包括:
若所述模式选择指令为自演模式,将所述表演数据与所述第一表演评测数据进行对比分析,得到表演评测结果。
其中,用户的表演评测结果可以采用分数的形式。例如,将所述表演数据和所述第一表演评测数据作对比,根据二者的匹配程度,对用户的表演做出评分。可以采用如下的评分方法:将表情、语音、动作和生理特征作为四个维度进行评分,每个维度分配一个权重,权重可以均等分配,也可以根据需要自行设定,只要权重之和加起来为1即可,在此不做限定。如可以给表情/语音/动作和生理特征这四个维度平均分配0.25的权重,也可以给表情和语音分别分配0.3的权重,而动作和生理特征分别分配0.2的权重。最后,将四个维度获得的分数进行加权,最终得到用户当前的表演分数。例如,表情得分为70,语音得分为80,动作得分为75,生理特征得分为75,最终得到用户的表演分数为:70*0.25+80*0.25+75*0.25+75*0.25=75。
可选地,在所述生成用户的表演评测结果之后,还包括:根据所述表演评测结果,生成表演建议。
在得到了用户的表演分数即表演评测结果之后,还可以根据这一表演分数,对用户的表演做出建议,比如对于哀的语音,声音的颤抖幅度要更大一点。
本实施例中,通过根据情绪类别得到表演数据和表演评测数据,并通过二者的对比分析,得到了表演评测结果,相对于现有的利用标准语音进行评测的方法相比,由于表演者的情绪与表演能力有至关重要的联系,因此将情绪作为评测的核心,使得评测的结果更为准确,并且还能根据用户的表演评测结果给出建议,使得用户能够根据建议有针对性地提高自己的表演能力。
请参见图2,图2是本发明另一实施例提供的一种表演能力的自动评测方法的示意流程图,详述如下:
步骤S201:获取用户的表演信息。
本实施例中S201与上一实施例中的S101相同,具体请参阅上一实施例中S101的相关描述,此处不赘述。
步骤S202:确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据。
本实施例中S202与上一实施例中的S102相同,具体请参阅上一实施例中S102的相关描述,此处不赘述。
步骤S203:若所述模式选择指令为模仿模式,则获取与所述情绪类别对应的预存的第二表演评测数据;其中,所述第二表演评测数据是通过对所述用户指定的表演片段进行特征提取得到。
当所述模式选择指令为模仿指令时,说明用户想对一个表演片段进行模仿表演,而表演片段即模仿视频可以由用户指定。可以根据用户输入的关键词,在本地或者云端进行模仿视频的查找,若查找到与该关键词相关的模仿视频,则返回模仿视频列表,以供用户选择自己想要模仿的视频。
例如,获取到用户输入的关键词为“周星驰”,则从本地或者云端查找与周星驰相关的模仿视频,在查找到与周星驰相关的模仿视频之后,返回模仿视频列表,以供用户选择自己想要模仿的视频。
需要说明的是,根据用户输入的关键词,也有可能查找不到相关的模仿视频,那么需要做出提示,提示内容包括但不限于:与该关键词相关的模仿视频不存在,需要用户重新输入。
在确定了用户所指定的模仿视频之后,通过现有的特征提取算法对该模仿视频进行特征提取,从而得到第二表演评测数据。由于模仿视频中包含的信息仅为语音信息、表情信息和动作信息,而不包含生理特征信息,因此所述第二表演评测数据包含了语音特征、表情特征和动作特征。
步骤S204:若所述模式选择指令为模仿模式,将所述表演数据与所述第二表演评测数据进行对比分析,得到表演评测结果。
由于第二表演评测数据包含了语音特征、表情特征和动作特征,因此只需要将表演数据包含的语音特征、表情特征和动作特征与所述第二表演评测数据进行对比即可。
其中,用户的表演评测结果可以采用分数的形式。例如,将所述表演数据和所述第一表演评测数据作对比,根据二者的匹配程度,对用户的表演做出评分。可以采用如下的评分方法:将表情、语音和动作作为三个维度进行评分,每个维度分配一个权重,权重可以根据需要自行设定,只要权重之和加起来为1即可,在此不做限定。例如,可以给表情/语音/动作这三个维度各分配0.3、0.3和0.4的权重。最后,将三个维度获得的分数进行加权,最终得到用户当前的表演分数。例如,表情得分为70,语音得分为80,动作得分为75,最终得到用户的表演分数为:70*0.3+80*0.3+75*0.4=75。
可选地,在所述生成用户的表演评测结果之后,还包括步骤S205:根据所述表演评测结果,生成表演建议。
在得到了用户的表演分数即表演评测结果之后,还可以根据这一表演分数,对用户的表演做出建议,比如对于哀的语音,声音的颤抖幅度要更大一点。
本实施例使得用户能够通过指定自己想要模仿的视频进行模仿,从而增加了用户对于表演模式的可选择性,即用户不仅能选择自演模式,也可以选择模仿模式进行表演,并且还能根据用户的表演评测结果给出建议,使得用户能够根据建议有针对性地提高自己的表演能力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参见图3,图3为本发明提供的一种表演能力的自动评测装置,该装置包括:
表演信息获取模块301,用于获取用户的表演信息;
特征提取模块302,用于确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
表演评测数据获取模块303,用于根据所述情绪类别获取其对应的预存的表演评测数据;
对比分析模块304,用于将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
可选地,所述装置还可以包括模式选择指令接收模块305和表演建议生成模块306;
其中,模式选择指令接收模块305,用于接收用户的模式选择指令;
表演建议生成模块306,用于根据所述表演评测结果,生成表演建议。
进一步地,所述表演评测数据获取模块303具体包括:
第一表演评测数据获取单元3031,用于若所述模式选择指令为自演模式,则获取与所述情绪类别对应的预存的第一表演评测数据;其中,所述第一表演评测数据为预训练的深度学习模型的输出;
第二表演评测数据获取单元3032,用于若所述模式选择指令为模仿模式,则获取与所述情绪类别对应的预存的第二表演评测数据;其中,所述第二表演评测数据是通过对所述用户指定的表演片段进行特征提取得到。
进一步地,所述对比分析模块304具体包括:
第一对比分析单元3041,用于若所述模式选择指令为自演模式,将所述表演数据与所述第一表演评测数据进行对比分析,得到表演评测结果;
第二对比分析单元3042,用于若所述模式选择指令为模仿模式,将所述表演数据与所述第二表演评测数据进行对比分析,得到表演评测结果。
图4是本发明一实施例提供的一种智能终端的示意图。如图4所示,该实施例的智能终端4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如表演能力的自动评测程序。所述处理器40执行所述计算机程序42时实现上述各个表演能力自动评测方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块31至34的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述智能终端4中的执行过程。例如,所述计算机程序42可以被分割成表演信息获取模块、特征提取模块、表演评测数据获取模块和对比分析模块,各模块具体功能如下:
表演信息获取模块,用于获取用户的表演信息;
特征提取模块,用于确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
表演评测数据获取模块,用于根据所述情绪类别获取其对应的预存的表演评测数据;
对比分析模块,用于将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
所述智能终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述智能终端可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是智能终端4的示例,并不构成对智能终端4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述智能终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述智能终端4的内部存储单元,例如智能终端4的硬盘或内存。所述存储器41也可以是所述智能终端4的外部存储设备,例如所述智能终端4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述智能终端4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述智能终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/智能终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/智能终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种表演能力的自动评测方法,其特征在于,包括:
获取用户的表演信息;
确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
根据所述情绪类别获取其对应的预存的表演评测数据;
将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
2.如权利要求1所述的方法,其特征在于,所述表演信息包括:表情信息、语音信息、动作信息和生理特征信息中的一种或多种。
3.如权利要求1所述的方法,其特征在于,在所述获取用户的表演信息之前,还包括:接收用户的模式选择指令。
4.如权利要求3所述的方法,其特征在于,所述根据所述情绪类别获取其对应的预存的表演评测数据,具体包括:
若所述模式选择指令为自演模式,则获取与所述情绪类别对应的预存的第一表演评测数据;其中,所述第一表演评测数据为预训练的深度学习模型的输出;
若所述模式选择指令为模仿模式,则获取与所述情绪类别对应的预存的第二表演评测数据;其中,所述第二表演评测数据是通过对所述用户指定的表演片段进行特征提取得到。
5.如权利要求4所述的方法,其特征在于,所述将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果,具体包括:
若所述模式选择指令为自演模式,将所述表演数据与所述第一表演评测数据进行对比分析,得到表演评测结果。
6.如权利要求4所述的方法,其特征在于,所述将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果,还包括:
若所述模式选择指令为模仿模式,将所述表演数据与所述第二表演评测数据进行对比分析,得到表演评测结果。
7.如权利要求1-6任一项所述的方法,其特征在于,在所述得到表演评测结果之后,还包括:
根据所述表演评测结果,生成表演建议。
8.一种表演能力的自动评测装置,其特征在于,包括:
表演信息获取模块,用于获取用户的表演信息;
特征提取模块,用于确定所述表演信息对应的情绪类别,并根据所述情绪类别对所述表演信息进行特征提取,得到表演数据;
表演评测数据获取模块,用于根据所述情绪类别获取其对应的预存的表演评测数据;
对比分析模块,用于将所述表演数据与所述表演评测数据进行对比分析,得到表演评测结果。
9.一种智能终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571826.8A CN111354376A (zh) | 2018-12-21 | 2018-12-21 | 一种表演能力的自动评测方法、装置及智能终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571826.8A CN111354376A (zh) | 2018-12-21 | 2018-12-21 | 一种表演能力的自动评测方法、装置及智能终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111354376A true CN111354376A (zh) | 2020-06-30 |
Family
ID=71195682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811571826.8A Pending CN111354376A (zh) | 2018-12-21 | 2018-12-21 | 一种表演能力的自动评测方法、装置及智能终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354376A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000317144A (ja) * | 2000-01-01 | 2000-11-21 | Konami Co Ltd | 音楽ゲームシステム、該システムにおける演出指示連動制御方法及び該システムにおける演出指示連動制御プログラムを記録した可読記録媒体 |
CN104510482A (zh) * | 2015-01-14 | 2015-04-15 | 北京理工大学 | 一种数字表演感官数据采集系统 |
CN105359166A (zh) * | 2013-02-08 | 2016-02-24 | 意莫森特公司 | 收集用于表情识别的机器学习训练数据 |
CN108898115A (zh) * | 2018-07-03 | 2018-11-27 | 北京大米科技有限公司 | 数据处理方法、存储介质和电子设备 |
-
2018
- 2018-12-21 CN CN201811571826.8A patent/CN111354376A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000317144A (ja) * | 2000-01-01 | 2000-11-21 | Konami Co Ltd | 音楽ゲームシステム、該システムにおける演出指示連動制御方法及び該システムにおける演出指示連動制御プログラムを記録した可読記録媒体 |
CN105359166A (zh) * | 2013-02-08 | 2016-02-24 | 意莫森特公司 | 收集用于表情识别的机器学习训练数据 |
CN104510482A (zh) * | 2015-01-14 | 2015-04-15 | 北京理工大学 | 一种数字表演感官数据采集系统 |
CN108898115A (zh) * | 2018-07-03 | 2018-11-27 | 北京大米科技有限公司 | 数据处理方法、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536681B (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
CN108428446A (zh) | 语音识别方法和装置 | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
US10157619B2 (en) | Method and device for searching according to speech based on artificial intelligence | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
CN110457432A (zh) | 面试评分方法、装置、设备及存储介质 | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112468659A (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN113903361A (zh) | 基于人工智能的语音质检方法、装置、设备及存储介质 | |
CN113837594A (zh) | 多场景下客服的质量评价方法、系统、设备及介质 | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
Ferdiana et al. | Cat sounds classification with convolutional neural network | |
CN111354376A (zh) | 一种表演能力的自动评测方法、装置及智能终端 | |
CN111324710B (zh) | 一种基于虚拟人的在线调研方法、装置和终端设备 | |
CN114267324A (zh) | 语音生成方法、装置、设备和存储介质 | |
CN110263346B (zh) | 基于小样本学习的语意分析方法、电子设备及存储介质 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
CN114911910A (zh) | 问答系统、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |