CN109254669B

CN109254669B - 一种表情图片输入方法、装置、电子设备及系统

Info

Publication number: CN109254669B
Application number: CN201710566366.9A
Authority: CN
Inventors: 佟林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2022-05-10
Anticipated expiration: 2037-07-12
Also published as: CN109254669A

Abstract

本发明实施例提供一种表情图片输入方法、装置、电子设备及系统，该方法包括：获取用户语音；提取用户语音的目标声学特征；根据所述目标声学特征确定第一情绪；将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；从所述候选表情图片中，确定输入的目标表情图片。本发明实施例可基于用户语音进行表情图片的输入，用户操作极为便捷，并且将基于用户语音的目标声学特征确定的情绪，与基于用户语音的文本确定的情绪进行结合验证，可使得所确定的用户语音表达的情绪更为准确，提升输入的目标表情图片的准确性。

Description

一种表情图片输入方法、装置、电子设备及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种表情图片输入方法、装置、电子设备及系统。

背景技术

表情图片能够形象化的表达用户情绪，在网络聊天场景中有着广泛的应用，网络聊天场景如即时通讯聊天、论坛评论、微博评论等场景。

目前表情图片的输入一般需要用户操作终端设备(终端设备如智能手机、平板电脑、笔记本电脑等用户设备)进行；具体的，用户需要在终端设备上唤醒表情面板，从表情面板中查找并选取需要输入的表情图片。

可以看出，目前的表情图片输入方式，需要涉及用户唤醒表情面板，并从表情面板中查找选取表情图片的操作，表情图片的输入操作过程较为麻烦，尤其是在用户处于驾驶机动车等不方便操作终端设备的情况下，表情图片的输入成为了难题。因此，如何便捷的实现表情图片的输入，成为了本领域技术人员需要考虑的问题。

发明内容

有鉴于此，本发明实施例提供一种表情图片输入方法、装置、电子设备及系统，以实现便捷的表情图片输入。

为实现上述目的，本发明实施例提供如下技术方案：

一种表情图片输入方法，包括：

获取用户语音；

提取所述用户语音的目标声学特征；

根据所述目标声学特征确定第一情绪；

将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；

若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；

从所述候选表情图片中，确定输入的目标表情图片。

本发明实施例还提供一种表情图片输入装置，包括：

用户语音获取模块，用于获取用户语音；

目标声学特征提取模块，用于提取所述用户语音的目标声学特征；

第一情绪确定模块，用于根据所述目标声学特征确定第一情绪；

情绪匹配验证模块，用于将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；

候选表情图片确定模块，用于若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；

目标表情图片确定模块，用于从所述候选表情图片中，确定输入的目标表情图片。

本发明实施例还提供一种电子设备，包括：存储器和处理器；所述存储器存储程序，所述处理器调用所述程序，所述程序用于：

获取用户语音；

提取所述用户语音的目标声学特征；

根据所述目标声学特征确定第一情绪；

从所述候选表情图片中，确定输入的目标表情图片。

本发明实施例还提供一种表情图片输入系统，包括：车载终端设备，和服务器；

所述车载终端设备，用于采集用户语音，将所述用户语音上传至服务器；

所述服务器，用于获取所述用户语音；提取所述用户语音的目标声学特征；根据所述目标声学特征确定第一情绪；将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；从所述候选表情图片中，确定输入的目标表情图片。

基于上述技术方案，本发明实施例提供的表情图片输入方法，可通过用户语音的目标声学特征确定第一情绪，并通过语义识别确定出用户语音的文本表达的第二情绪，将第一情绪与第二情绪进行结合验证，在第一情绪与第二情绪相匹配时，确定第一情绪或第二情绪相对应的候选表情图片，从而根据所述候选表情图片，进行输入的目标表情图片的确定。本发明实施例可基于用户语音进行表情图片的输入，用户操作极为便捷，并且将基于用户语音的目标声学特征确定的情绪，与基于用户语音的文本确定的情绪进行结合验证，可使得所确定的用户语音表达的情绪更为准确，提升最终确定的目标表情图片的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的表情图片输入系统的结构框图；

图2为本发明实施例提供的表情图片输入方法的信令流程图；

图3为本发明实施例提供的情绪兴奋度和情绪积极度的确定示意图；

图4为终端设备显示输入的语音、文本和表情图片的示意图；

图5为本发明实施例提供的表情图片输入方法的另一信令流程图；

图6为本发明实施例提供的表情图片输入方法的流程图；

图7为以情绪兴奋度和情绪积极度建立的坐标系与情绪的对应示意图；

图8为基于情绪兴奋度和情绪积极度，确定第一情绪的方法流程图；

图9为设定各情绪对应的表情图片的示意流程图；

图10为车载状态下的表情图片输入示例示意图；

图11为本发明实施例提供的表情图片输入装置的结构框图；

图12为本发明实施例提供的表情图片输入装置的另一结构框图；

图13为本发明实施例提供的表情图片输入装置的再一结构框图；

图14为电子设备的硬件结构框图；

图15为表情图片输入系统的另一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以即时通讯聊天场景为例，作为一种可选实现，本发明实施例提供的表情图片输入方法可由终端设备和服务器交互实现，相应的进行表情图片输入的系统结构可如图1所示，包括：终端设备10和服务器20；

终端设备10可以是用户侧的由用户操作的智能手机、平板电脑、笔记本电脑等用户设备；在传统的表情图片输入方式中，用户主要通过操作终端设备，唤醒表情面板来实现表情图片的输入；

服务器20可以是网络侧的服务设备，可以由单一服务器实现，也可能是多台服务器组成的服务器集群；服务器20可选为即时通讯服务器，也可能是即时通讯服务器所属的服务器集群中的服务设备。

基于图1所示系统结构，图2示出了本发明实施例提供的表情图片输入方法的信令流程，结合图1和图2所示，该信令流程可以包括：

步骤S10、终端设备采集用户语音。

可选的，用户可通过语音形式进行即时通信聊天，显然，本发明实施例并不排除用户以语音形式进行论坛评论、微博评论等网络聊天情况；

在用户说出聊天的语音后，终端设备可通过设置的麦克风等语音采集装置实现用户语音的采集。

步骤S11、终端设备将所述用户语音发送给服务器。

步骤S12、服务器提取所述用户语音的声学特征。

可选的，声学特征可以认为是用户语音的声学属性的表示，本发明实施例中声学特征的类型包括但不限于如下至少一项：

用户语音的基频，相应的，针对用户语音的基频，可计算用户语音的基频的均值，范围和极值(最大值和最小值)等；

用户语音的能量，相应的，针对用户语音的能量，可计算用户语音的能量的均值，范围和方差等；

用户语音的语速，如设定时间段内用户语音相应的说出字数；

用户语音的流利程度，如用户语音中韵律词之间的停顿时间。

可选的，服务器获取用户语音后，可确定所述用户语音相应的基频，能量，语速和流利程度等声学特征类型的声学特征，从而提取出所述用户语音的声学特征；

可选的，声学特征的类型并不限于上述描述，根据实际情况还可进行扩展。

步骤S13、服务器根据所述声学特征确定情绪兴奋度和情绪积极度。

可选的，在本发明实施例中，情绪兴奋度和情绪积极度是通过语音的声学特征识别情绪的两个衡量指标，通过明确的情绪兴奋度和情绪积极度可以进行相应情绪的确定；

情绪兴奋度可以认为是情绪的激活程度指标，可以对情绪的激烈程度进行表示；比如微笑，大笑，狂笑，歇斯底里等情绪相应的情绪兴奋度是递增的，相应的情绪的激烈程度是递增的；可选的，情绪兴奋度可以是一个向量形式(具有大小和方向)，情绪兴奋度越往正向方向发展，说明情绪的激活程度升高，情绪的激烈程度越高，而情绪兴奋度越往负向方向发展，说明情绪的激活程度降低，情绪的激烈程度越低；

情绪积极度可以认为是情绪所表达的消极和乐观程度，比如紧张，放松，高兴等情绪相应的情绪积极度是递增的，所表达的乐观程度递增，消极程度递减；可选的，情绪积极度可以是一个向量形式，情绪积极度越往正向方向发展，说明情绪的乐观程度升高，消极程度降低，而情绪积极度越往负向方向发展，说明情绪的乐观程度降低，消极程度升高。

本发明实施例可统计分析情绪兴奋度和情绪积极度，与语音的声学特征的变化规律，从而确定出情绪兴奋度和情绪积极度，与声学特征的关联关系，进而以该关联关系，确定出所述用户语音的声学特征相应的情绪兴奋度和情绪积极度，从而实现根据用户语音的声学特征确定情绪兴奋度和情绪积极度；

可选的，经过统计分析，情绪兴奋度可与语音的基频的最小值呈正相关，且情绪兴奋度升高，语音的基频的均值升高，语音的语速和流利程度一般也升高；而情绪积极度与语音的短时能量，语速，基频的变化率等存在关系，情绪积极度升高，语音的短时能量，语速一般也升高，情绪积极度降低，语音的基频的变化率将升高；而情绪兴奋度和情绪积极度降低，语音的短时能量均值则下降，并在情绪兴奋度和情绪积极度下降到一定程度(如达到悲哀状态的情绪)时，语音的短时能量均值接近平静状(如语音的噪音能量很小)等。

可选的，通过统计分析情绪兴奋度和情绪积极度，与语音的声学特征的变化规律，可以确定出统计分析结果：

影响情绪兴奋度的声学特征，及影响情绪兴奋度的声学特征对情绪兴奋度的影响关系；

影响情绪积极度的声学特征，及影响情绪积极度的声学特征对情绪积极度的影响关系；

影响情绪兴奋度和情绪积极度的声学特征，以及影响情绪兴奋度和情绪积极度的声学特征，对情绪兴奋度和情绪积极度的影响关系。

进而，可以根据统计分析结果，确定出情绪兴奋度和情绪积极度，与声学特征的关联关系；根据此关联关系，可以确定出用户语音的声学特征相对应的情绪兴奋度和情绪积极度，从而明确出用户语音表达的情绪的衡量指标；

可选的，如图3所示示例，服务器在获取到用户语音后，可确定用户语音的基频、能量、语速、流利程度等声学特征，相应计算出基频的均值、范围和极值，并相应计算出能量的均值、范围和方差；从而将所确定的用户语音的声学特征导入，情绪兴奋度和情绪积极度与声学特征的关联关系中，确定出用户语音的声学特征相应的情绪兴奋度和情绪积极度。

步骤S14、服务器根据所述情绪兴奋度和情绪积极度，确定第一情绪。

可选的，情绪兴奋度和情绪积极度作为本发明实施例决定语音的声学特征表达的情绪的衡量指标，在明确所述用户语音的情绪兴奋度和情绪积极度后，可确定出第一情绪；

可选的，在本发明实施例中，第一情绪特指通过声学特征所确定出的情绪，一方面可涉及本发明实施例基于用户语音的设定的所有声学特征所确定出的情绪，另一方面，可涉及下文基于语音的文本确定情绪相关的声学特征类型，由用户语音中该声学特征类型的声学特征所确定的情绪。

可选的，步骤S13至步骤S14仅是本发明实施例根据语音信息的声学特征，确定第一情绪的一种可选实现，除通过语音信息的声学特征确定用户语音相应的情绪兴奋度和情绪积极度，从而以所述情绪兴奋度和情绪积极度，确定第一情绪外，本发明实施例并不排除基于语音信息的声学特征，确定第一情绪的其他方式；如本发明实施例可统计分析各情绪下的声学特征，从而设置出情绪与声学特征的关联关系，进而根据情绪与声学特征的关联关系，确定出用户语音的声学特征相应的第一情绪等。

步骤S15、服务器将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配。

可选的，为保障所确定的用户语音表达的情绪的准确性，本发明实施例可将基于用户语音的声学特征所确定的第一情绪，与基于用户语音的文本所确定的第二情绪进行结合验证，从而避免单纯基于用户语音的文本确定情绪所带来的情绪识别结果的准确性较低的问题。

可选的，本发明实施例可将所述用户语音转化为文本，对该文本进行语义识别，根据文本中的用词确定出用户语音的文本所对应的第二情绪；

在本发明实施例中，第二情绪特指基于用户语音的文本所确定的情绪，以与基于语音的声学特征所确定的第一情绪进行区分。

可选的，本发明实施例可设置关键词与情绪的对应关系，从而通过文本中的关键词确定初始情绪，并通过文本的语义对初始情绪进行调整，得到用户语音的文本相应的第二情绪。

可选的，根据用户语音的文本确定第二情绪的过程可以在服务器获取用户语音时进行；具体可与服务器基于用户语音的声学特征确定第一情绪的过程同步，或者，先于服务器基于用户语音的声学特征确定第一情绪的过程，或者，晚于服务器基于用户语音的声学特征确定第一情绪的过程；根据用户语音的文本确定第二情绪的过程的执行时机可以根据实际情况调整。

步骤S16、若所述第一情绪与所述第二情绪相匹配，服务器确定所述第一情绪或所述第二情绪相对应的候选表情图片。

可选的，第一情绪与第二情绪相匹配可以认为是第一情绪和第二情绪相一致，或者，第一情绪与第二情绪为相近情绪；

相近情绪可以认为是表达情感类似的多个情绪，比如高兴和愉悦为相近情绪，平静和镇静为相近情绪；可选的，本发明实施例可定义出各情绪的相近情绪，从而根据所定义的各情绪的相近情绪，判断第一情绪与第二情绪是否为相近情绪，作为衡量第一情绪和第二情绪是否匹配的一个因素。

在第一情绪与第二情绪相匹配时，本发明实施例可任选第一情绪或第二情绪来作为用户语音所表达的情绪，从而根据第一情绪或第二情绪确定用户语音所表达的情绪相应的候选表情图片；

可选的，本发明实施例可预置各情绪对应的表情图片，一个情绪往往可以通过多个表情图片进行表达，因此一个情绪对应的表情图片为至少一个；从而根据预置的各情绪对应的表情图片，本发明实施例可确定所述第一情绪或所述第二情绪对应的表情图片，得到候选表情图片；

候选表情图片为本发明实施例所输入的表情图片的选择范围，传统技术中用户需要操作终端设备唤醒表情面板，将表情面板显示的众多的表情图片作为候选表情图片，来进行表情图片的输入；而本发明实施例可基于用户语音进行用户表达情绪的确定，从而以用户语音相应的用户表达情绪(第一情绪或第二情绪)进行候选表情图片的确定，确定候选表情图片基于用户语音触发，用户操作极为便捷，并且所确定的候选表情图片与用户语音相应的用户表达情绪对应，缩小了候选表情图片的范围，可以更加高效、精准的进行最终输入表情图片的确定。

可选的，若所述第一情绪与所述第二情绪不匹配，则可确定表情图片输入失败，服务器可向终端设备进行相应的提示。

可选的，本发明实施例中，表情图片可以是动态图片(如gif等动图格式的图片)，也可能是静态图片。

步骤S17、服务器从所述候选表情图片中，确定输入的目标表情图片。

在本发明实施例中，服务器可基于终端设备发送的用户语音，确定用户语音表达的情绪相应的目标表情图片，从而由服务器将目标表情图片输入至聊天服务，实现目标表情图片的输入。

可选的，如果候选表情图片的数量为一个，则可直接将候选表情图片确定为最终输入的目标表情图片；

如果候选表情图片的数量为多个，则本发明实施例可随机从候选表情图片中确定最终输入的目标表情图片；显然，从候选表情图片中确定最终输入的目标表情图片的方式可以有多种，并不限于随机从候选表情图片中确定最终输入的目标表情图片的方式，比如还可确定候选表情图片中用户历史输入次数最多的表情图片作为最终输入的目标表情图片等。

可选的，服务器还可进一步将用户语音，用户语音的文本，目标表情图片发送给接收终端设备(接收终端设备可以是与发送用户语音的终端设备，当前正进行即时通讯聊天的终端设备，可能是单一的接收终端设备，也可能是群聊等场景下的多个接收终端设备)；显然，服务器也可仅将用户语音和目标表情图片发送给接收终端设备；

进一步，服务器还可以将用户语音的文本和目标表情图片反馈回发送用户语音的终端设备，以使得发送用户语音的终端设备的聊天界面除显示发送出的用户语音外，还可相应显示出用户语音的文本和目标表情图片；图4示出了终端设备显示用户语音，文本及目标表情图片的示意可参照；可选的，目标表情图片也可插入文本或者缀于文本后进行显示；

显然，服务器也可仅将目标表情图片反馈回发送用户语音的终端设备。

本发明实施例提供的表情图片输入方法，可通过用户语音的声学特征确定出用户语音的第一情绪，并通过语义识别确定出用户语音的文本表达的第二情绪，将第一情绪与第二情绪进行结合验证，在第一情绪与第二情绪相匹配时，确定第一情绪或第二情绪相对应的候选表情图片，从而根据所述候选表情图片，进行输入的目标表情图片的确定。本发明实施例可基于用户语音进行表情图片的输入，用户操作极为便捷，并且将基于用户语音的声学特征确定的情绪，与基于用户语音的文本确定的情绪进行结合验证，可使得所确定的用户语音表达的情绪更为准确，提升最终确定的目标表情图片的准确性。

可选的，图2所示方法是通过分析用户语音的声学特征，将基于用户语音的声学特征所确定的第一情绪，与基于用户语音的文本所确定的第二情绪进行结合验证，来提升所确定的用户语音表达的情绪的准确性；在另一种实现上，本发明实施例可先基于用户语音的文本确定第二情绪，根据第二情绪相关的声学特征类型(对第二情绪起决定作用的声学特征类型)，提取用户语音相应的声学特征，从而通过提取的声学特征所对应的第一情绪，是否与第二情绪相匹配，来实现基于声学特征所确定的第一情绪，与基于用户语音的文本所确定的第二情绪的结合验证。

可选的，图5示出了本发明实施例提供的表情图片输入方法的另一信令流程，结合图1和图5所示，该信令流程可以包括：

步骤S20、终端设备采集用户语音。

步骤S21、终端设备将所述用户语音发送给服务器。

步骤S22、服务器将所述用户语音转化为文本，根据所述文本确定第二情绪。

可选的，本发明实施例可设置关键词与情绪的对应关系，从而通过文本中的关键词确定初始情绪，并通过文本的语义对初始情绪进行调整，得到用户语音的文本的第二情绪；

可以理解的是，单纯通过文本中的关键词进行情绪的确定，可能会导致所确定的情绪与文本所表达情绪不一致的情况，特别是在文本中涉及反语语义(如说反话)的情况，因此本发明实施例可将通过文本的关键词确定的情绪作为初始情绪，进而结合文本的语义，判断文本中是否涉及反语语义的情况；若文本中涉及反语语义，且反语语义出现次数为奇数次，则调整初始情绪(如将初始情绪调整为相反的情绪)，从而通过文本的语义对初始情绪进行调整，得到文本相应的第二情绪；若文本中涉及反语语义，且反语语义出现次数为偶数次，则将初始情绪作为用户语音的文本相应的第二情绪；若文本中不涉及反语语义的情况，则可将初始情绪作为用户语音的文本相应的第二情绪；

例如，“我开心才怪”这一文本，通过关键词“开心”可确定出初始情绪为开心，而通过文本的语义可确定出“我开心才怪”这一文本涉及到一次反语语义，因此对初始情绪进行调整，得到文本相应的第二情绪为难过、不开心；又如，“我不开心才怪”这一文本，初始情绪为开心，而通过文本的语义可确定出“我不开心才怪”这一文本涉及到两次反语语义，因此可得到文本相应的第二情绪为初始情绪开心。

进一步，服务器可将所转化的文本反馈回发送用户语音的终端设备，以便终端设备进行文本的显示。

步骤S23、服务器确定与所述第二情绪相关的声学特征类型。

可选的，本发明实施例可预置各情绪相关的声学特征类型，从而确定出所述第二情绪相关的声学特征类型；可选的，不同的情绪相关的声学特征类型可能不同，比如愉悦的情绪相关的声学特征类型包含用户语音的能量，语速等(愉悦的情绪对应的语音的短时能量增强，语速变快)，而愤怒的情绪相关的声学特征类型包含用户语音的基频(比如愤怒的情绪对应的语音的基频的增长率最高)等。

步骤S24、服务器根据所述声学特征类型，提取所述用户语音的声学特征。

可选的，图2所示方法中服务器可提取用户语音设定的所有的声学特征，确定用户语音整体上表达的情绪；而在图5所示方法中，本发明实施例可并不一定需要提取用户语音设定的所有的声学特征，而是可根据基于用户语音的文本所确定第二情绪，确定第二情绪相关的声学特征类型，从而对用户语音的该声学特征类型的声学特征进行提取，可在一定程度上减少从用户语音中提取声学特征涉及的数据处理量；

可选的，比如基于用户语音的文本所确定的第二情绪为愉悦，则可确定相关的声学特征类型为能量和语速，从而对用户语音中的能量和语速的声学特征进行提取，而不需涉及流利程度等声学特征。

步骤S25、服务器根据所提取的声学特征，确定情绪兴奋度和情绪积极度。

可选的，可根据情绪兴奋度和情绪积极度，与声学特征的关联关系，确定出所提取的所述声学特征类型相应的声学特征，相应的情绪兴奋度和情绪积极度。

步骤S26、服务器根据所述情绪兴奋度和情绪积极度，确定第一情绪。

可选的，步骤S25和步骤S26仅是本发明实施例根据所述声学特征类型相应的声学特征，确定第一情绪的可选实现。本发明实施例还可设置情绪与声学特征的关联关系，进而根据情绪与声学特征的关联关系，确定出所述声学特征类型相应的声学特征相应的第一情绪。

步骤S27、服务器将所述第一情绪，与所述第二情绪进行匹配。

步骤S28、若所述第一情绪与所述第二情绪相匹配，服务器确定所述第一情绪或所述第二情绪相对应的候选表情图片。

步骤S29、服务器从所述候选表情图片中，确定输入的目标表情图片。

可选的，上述描述的表情图片输入方法的处理主要集中在服务器，如果终端设备具有一定的数据处理能力，且允许终端设备设置相应的程序能力，则上述方法内容中涉及的服务器处理流程也可由终端设备完成，最后终端设备可以将所采集的用户语音，用户语音的文本，目标表情图片发送至服务器，由服务器发送给接收终端设备；显然，终端设备也可仅将用户语音，目标表情图片发送至服务器。

结合上述内容，站在单一执行设备的角度来看，本发明实施例提供的表情图片输入方法可由电子设备实施，该电子设备可以是用户侧的终端设备，也可能是网络侧的服务器，可视情况调整表情图片输入方法的执行设备；

图6示出了本发明实施例提供的表情图片输入方法的流程图，该方法可应用于电子设备，参照图6，该方法可以包括：

步骤S100、获取用户语音。

可选的，如果电子设备使用终端设备，则终端设备可采集用户语音，并由终端设备执行后续流程；如果电子设备使用服务器，则服务器可获取终端设备上传的所采集的用户语音，并由服务器执行后续流程。

步骤S110、提取所述用户语音的目标声学特征。

可选的，目标声学特征可以是设定的所有的声学特征类型，在用户语音中相应的声学特征，即目标声学特征的一种实现可以是，从用户语音中提取的设定的所有声学特征类型的声学特征；而另一种实现可以是，先提取所述用户语音的文本相应的第二情绪，通过第二情绪相关的声学特征类型，提取用户语音的目标声学特征，即目标声学特征的另一种实现可以是根据第二情绪相关的声学特征类型，提取的用户语音的声学特征。

步骤S120、根据所述目标声学特征确定第一情绪。

可选的，第一情绪可以是基于语音的声学特征所确定的情绪，涵盖基于用户语音的设定的所有声学特征类型相应的声学特征，所确定的情绪这种情况，以及，基于第二情绪相关的声学特征类型相应的声学特征，所确定的情绪这另一种情况。

可选的，在实现上，本发明实施例可根据目标声学特征确定情绪兴奋度和情绪积极度，以所确定的情绪兴奋度和情绪积极度，确定第一情绪；另一种实现可以是，根据情绪与声学特征的关联关系，确定目标声学特征相应的情绪，确定出第一情绪。

步骤S130、将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配。

步骤S140、若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片。

步骤S150、从所述候选表情图片中，确定输入的目标表情图片。

本发明实施例提供的表情图片输入方法，可通过用户语音的目标声学特征确定第一情绪，并通过语义识别确定出用户语音的文本表达的第二情绪，将第一情绪与第二情绪进行结合验证，在第一情绪与第二情绪相匹配时，确定第一情绪或第二情绪相对应的候选表情图片，从而根据所述候选表情图片，进行输入的目标表情图片的确定。本发明实施例可基于用户语音进行表情图片的输入，用户操作极为便捷，并且将基于用户语音的声学特征确定的情绪，与基于用户语音的文本确定的情绪进行结合验证，可使得所确定的用户语音表达的情绪更为准确，提升最终确定的目标表情图片的准确性。

可选的，如果电子设备选用终端设备，则电子设备可将用户语音，用户语音的文本，所确定的目标表情图片发送给服务器，由服务器发送给接收终端设备；而如果电子设备选用服务器，则电子设备可将用户语音的文本，目标表情图片反馈回发送用户语音的终端设备，并将用户语音，用户语音的文本，所确定的目标表情图片发送给接收终端设备。

可选的，基于目标声学特征所确定的情绪兴奋度和情绪积极度，确定第一情绪的时，本发明实施例可以情绪兴奋度和情绪积极度为坐标轴建立二维坐标系(如可以情绪积极度为横轴，情绪兴奋度为纵轴建立二维坐标系，也可以情绪积极度为纵轴，情绪兴奋度为横轴建立二维坐标系)，并且定义该二维坐标系中各坐标区间相应的情绪；其中，情绪兴奋度的坐标轴越往正向发展，情绪兴奋度越高，情绪积极度的坐标轴越往正向发展，情绪积极度越高；

可选的，图7示出了以情绪兴奋度和情绪积极度为坐标轴所建立的二维坐标系，相应的，本发明实施例可在该二维坐标系中定位基于目标声学特征所确定的情绪兴奋度和情绪积极度对应的坐标，将该坐标所处于的坐标区间相应的情绪，确定为第一情绪；

可选的，图8示出了本发明实施例提供的基于情绪兴奋度和情绪积极度，确定第一情绪的方法流程图，该方法可应用于电子设备，该电子设备视情况可以由终端设备实现，也可能由服务器实现；

参照图8，该方法可以包括：

步骤S200、在预先以情绪兴奋度和情绪积极度为坐标轴建立的二维坐标系中，定位目标声学特征的情绪兴奋度和情绪积极度的坐标；其中，所述二维坐标系的各坐标区间定义有相应的情绪。

步骤S210、将所述坐标所处于的坐标区间相应的情绪，确定为第一情绪。

在确定第一情绪与基于用户语音的文本所确定的第二情绪相匹配后，本发明实施例可根据各情绪对应的表情图片，确定出候选表情图片；可选的，各情绪对应的表情图片，可以通过从多个数据源收集多个表情图片，对各个表情图片进行情绪分类，从而设定出各情绪对应的表情图片(一情绪对应的表情图片为至少一个)；

可选的，图9示出了设定各情绪对应的表情图片的示意流程，该流程可由服务器实现，且服务器在设定各情绪对应的表情图片后可以在服务器中进行保存，也可能发送给终端设备，以在终端设备中保存上各情绪对应的表情图片；

参照图9，服务器可从多个数据源获取表情图片，建立出表情图片数据库；可选的，从数据源获取表情图片的方式可以涉及网络抓取，通过特定的业务渠道获取等；

通过人工分析表情图片数据库中各表情图片所表达的情绪等方式，可以将表情图片数据库中各表情图片进行表达情绪的分类，从而分类出各情绪相应的表情图片；

进一步，本发明实施例可至少根据各表情图片分类出的情绪，为各表情图片进行打标签处理，得到各表情图片的标签(可选的，除根据表情图片归类的情绪这一维度打标签，本发明实施还可根据表情图片的内容进行打标签)，从而根据各表情图片的标签建立出表情图片的索引，并将索引加入到表情图片数据库中。

可选的，通过服务器建立表情图片数据库，以通过建立的表情图片数据库，来设定各情绪对应的表情图片，从而可根据基于语音确定的情绪检索表情图片，能够提供更丰富的候选表情图片。如果终端设备具有足够的信息存储能力，则服务器建立的表情图片数据库可反馈到终端设备中存储；而一般情况下，表情图片数据库可保存在网端的服务器。

进一步，本发明实施例可以表情图片为维度建立表格，表格中可以记录各表情图片对应的编号，资源路径、对应的情绪，情绪id，标签等内容。

可选的，不同的情绪可以通过情绪id区分，本发明实施例基于语音的声学特征所确定的可以是情绪的id，基于语音的文本所确定的也可以是情绪的id，从而可通过情绪的id进行相应情绪的对应；

相应的，不同的表情图片，可以通过表情图片的编号进行区分。

可选的，通过表情图片数据库记录的各情绪对应的表情图片，确定候选表情图片仅是一种可选方式，本发明实施例可以通过函数指令定义各情绪指向的表情图片，从而根据函数指令所定义的各情绪指向的表情图片，确定所述第一情绪或所述第二情绪相对应的候选表情图片。

可选的，在确定候选表情图片后，本发明实施例除随机从候选表情图片中选取目标表情图片外，还可根据终端设备历史发送给接收终端设备的表情图片，判断随机选取的表情图片是否为终端设备历史发送给接收终端设备的表情图片，若是，则确定随机选取的表情图片为目标表情图片，若否，则再次从候选表情图片中随机选取其他表情图片，直至随机选取的表情图片为终端设备历史发送给接收终端设备的表情图片；

除上述方式外，本发明实施例提供的从候选表情图片中主动确定目标表情图片的方式还可以是，基于第一情绪的得分从候选表情图片中选取目标表情图片；

第一情绪的得分可以根据，所述二维坐标系中目标声学特征的情绪兴奋度和情绪积极度所定位的坐标，与第一情绪的坐标区间的中心坐标的差值确定；对于各情绪，本发明实施例可设置该情绪对应的各表情图片匹配的情绪得分，从而调取第一情绪对应的各表情图片匹配的情绪得分(第一情绪对应的各表情图片可以认为是，以第一情绪对应的候选表情图片)，以所述第一情绪的得分，从候选表情图片中选取出目标表情图片。

可选的，上文描述的都是电子设备主动基于候选表情图片，实现目标表情图片的确定。本发明实施例也可在确定候选表情图片后，在终端设备上显示候选表情图片，由用户从终端设备显示的候选表情图片中确定目标表情图片，从而实现目标表情图片的确定；这种方式虽然涉及到用户的主动选取操作，但用户操作简单，并不涉及较为复杂的查找和筛选操作，因此也可一定程度的提升表情图片输入的便捷性。

上文描述了基于候选表情图片主动选取目标表情图片，和用户基于候选表情图片选取目标表情图片的方式，本发明实施例可根据终端设备是否处于车载状态等用户不便操作的场景，来选择基于候选表情图片主动选取目标表情图片，还是由用户基于候选表情图片选取目标表情图片；一般而言，终端设备处于车载状态等用户不便操作的场景下，则可基于候选表情图片主动选取目标表情图片；

显然，基于用户设置，电子设备可以在任意情况下基于候选表情图片主动选取目标表情图片，或者，由终端设备显示候选表情图片，以由用户选取目标表情图片。

可选的，图10示出了终端设备处于车载状态下的表情图片输入示例，可选的，终端设备处于车载状态可以是，机动车内置有可进行即时通讯聊天的终端设备，也可能是用户的手机等终端设备置于机动车内；

参照图10，在用户驾驶机动车的过程中，用户可打开终端设备的即时通讯聊天软件，并说出聊天语音；终端设备采集用户语音后，可将用户语音传输到即时通讯服务器；即时通讯服务器可提取用户语音的目标声学特征，基于用户语音的目标声学特征确定第一情绪，将第一情绪与基于用户语音的文本确定的第二情绪进行匹配，在第一情绪与第二情绪相匹配时，可根据第一情绪或第二情绪确定候选表情图片，并从候选表情图片中选取目标表情图片；

即时通讯服务器可将用户语音，用户语音的文本，目标表情图片发送给接收终端设备；同时，将用户语音的文本和目标表情图片可反馈给用户的终端设备，以便在用户的终端设备上进行用户语音，用户语音的文本和目标表情图片的显示。

可选的，图10所示示例中，也可由终端设备处理即时通讯服务器所进行的基于语音确定目标表情图片的流程，从而终端设备将语音，语音的文本，目标表情图片传输给即时通讯服务器，以便发送给接收终端设备。

可见，采用本发明实施例提供的表情图片输入方法，可基于用户语音进行表情图片的输入，用户操作极为便捷；尤其是在用户处于驾驶机动车等状态时，可以提高表情图片的输入效率，保证驾驶安全。

并且将基于用户语音的声学特征确定的情绪，与基于用户语音的文本确定的情绪进行结合验证，可使得所确定的用户语音表达的情绪更为准确，提升最终确定的目标表情图片的准确性。

下面对本发明实施例提供的表情图片输入装置进行介绍，下文描述的表情图片输入装置可以认为是电子设备(根据实际情况，电子设备可选为服务器或者终端设备)为实现本发明实施例提供的表情图片输入方法所需设置的程序模块；下文描述的表情图片输入装置内容可与上文描述的表情图片输入方法内容相互对应参照。

图11为本发明实施例提供的表情图片输入装置的结构框图，应用于电子设备，参照图11，该表情图片输入装置可以包括：

用户语音获取模块100，用于获取用户语音；

目标声学特征提取模块200，用于提取所述用户语音的目标声学特征；

第一情绪确定模块300，用于根据所述目标声学特征确定第一情绪；

情绪匹配验证模块400，用于将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；

候选表情图片确定模块500，用于若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；

目标表情图片确定模块600，用于从所述候选表情图片中，确定输入的目标表情图片。

可选的，第一情绪确定模块300，用于根据所述目标声学特征确定第一情绪，具体包括：

根据所述目标声学特征确定情绪兴奋度和情绪积极度；

根据所述情绪兴奋度和情绪积极度，确定第一情绪。

可选的，第一情绪确定模块300，用于根据所述情绪兴奋度和情绪积极度，确定第一情绪，具体包括：

在预先以情绪兴奋度和情绪积极度为坐标轴建立的二维坐标系中，定位所述目标声学特征的情绪兴奋度和情绪积极度的坐标；其中，所述二维坐标系的各坐标区间定义有相应的情绪；

将所述坐标所处于的坐标区间相应的情绪，确定为第一情绪。

可选的，所述情绪兴奋度的坐标轴越往正向发展，情绪兴奋度越高，所述情绪积极度的坐标轴越往正向发展，情绪积极度越高。

可选的，图12示出了本发明实施例提供的表情图片输入装置的另一结构框图，结合图11和图12所示，该表情图片输入装置还可以包括：

第二情绪确定模块700，用于将所述用户语音转化为文本，根据所述文本确定第二情绪。

相应的，目标声学特征提取模块200，用于提取所述用户语音的目标声学特征，具体包括：

确定与所述第二情绪相关的声学特征类型；

根据所述声学特征类型，提取所述用户语音的目标声学特征。

可选的，另一方面，作为另一种实现，第一情绪确定模块300也可以提取用户语音中设定的所有声学特征类型相应的声学特征，得到目标声学特征。

可选的，第二情绪确定模块700，用于根据所述文本确定第二情绪，具体包括：

确定所述文本中的关键词的初始情绪，通过所述文本的语义对初始情绪进行调整，得到第二情绪。

可选的，图13示出了本发明实施例提供的表情图片输入装置的再一结构框图，结合图11和图13所示，该表情图片输入装置还可以包括：

表情图片数据库确定模块800，用于从多个数据源获取表情图片，建立表情图片数据库；将表情图片数据库中各表情图片进行表达情绪的分类，分类出各情绪相应的表情图片；根据各表情图片分类出的情绪，为各表情图片进行打标签处理，得到各表情图片的标签；根据各表情图片的标签建立出表情图片的索引，将索引加入到表情图片数据库。

可选的，目标表情图片确定模块600，用于从所述候选表情图片中，确定输入的目标表情图片，具体包括：

从所述候选表情图片中随机选取表情图片，若所选取的表情图片为历史发送给接收终端设备的表情图片，将所选取的表情图片作为目标表情图片；若所选取的表情图片不为历史发送给接收终端设备的表情图片，则再次从所述候选表情图片中随机选取其他表情图片，直至所选取的其他表情图片为历史发送给接收终端设备的表情图片。

可选的，另一方面，目标表情图片确定模块600，用于从所述候选表情图片中，确定输入的目标表情图片，具体包括：

根据各情绪对应的各表情图片匹配的情绪得分，确定第一情绪对应的各表情图片匹配的情绪得分；

根据所述第一情绪的得分，从候选表情图片中选取出目标表情图片；其中，所述第一情绪的得分根据二维坐标系中目标声学特征的情绪兴奋度和情绪积极度所定位的坐标，与预定义的第一情绪的坐标区间的中心坐标的差值确定，所述二维坐标系以情绪兴奋度和情绪积极度为坐标轴建立。

上述描述的表情图片输入装置可以程序模块的形式设置于电子设备内，电子设备可能是终端设备，也可能是服务器，具体可视实际情况确定；图14示出了电子设备的硬件结构框图，参照图14，该电子设备可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有程序，处理器1调用存储器3所存储的程序，该程序具体用于：

获取用户语音；

提取所述用户语音的目标声学特征；

根据所述目标声学特征确定第一情绪；

从所述候选表情图片中，确定输入的目标表情图片。

可选的，所述程序实现表情图片输入方法所执行的流程，可参照上文相应部分描述。

可选的，本发明实施例提供的另一表情图片输入系统的结构可以如图15所示，包括：车载终端设备10’，服务器20；其中，车载终端设备10’可以认为是图1所示终端设备的一种形式，该车载终端设备是机动车内置的终端设备，也可能是用户手持终端设备置于机动车内，该车载终端设备可以装载有即时通讯等聊天软件；可选的，车载终端设备加载即时通讯等聊天软件，并进入聊天界面后，车载终端设备10’和服务器20可实现如下功能；

可选的，车载终端设备可用于，采集用户语音，将所述用户语音上传至服务器；

服务器可用于，获取所述用户语音；提取所述用户语音的目标声学特征；根据所述目标声学特征确定第一情绪；将所述第一情绪，与根据所述用户语音的文本确定的第二情绪进行匹配；若所述第一情绪与所述第二情绪相匹配，确定所述第一情绪或所述第二情绪相对应的候选表情图片；从所述候选表情图片中，确定输入的目标表情图片。

可选的，服务器的进一步细化功能和扩展功能可参照上文相应内容描述。

进一步，服务器还可将用户语音的文本，目标表情图片反馈回车载终端设备；且服务器可将所述用户语音，用户语音的文本，目标表情图片发送给接收终端设备，以实现车载终端设备与接收终端设备之间聊天信息传递。

采用本发明实施例提供的表情图片输入方法，可基于用户语音进行表情图片的输入，用户操作极为便捷；尤其是在用户处于驾驶机动车等状态时，可基于用户语音实现表情图片的输入，提高表情图片的输入效率，保证驾驶安全；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种表情图片输入方法，其特征在于，包括：

获取用户语音；

将所述用户语音转化为文本，确定所述文本中的关键词的初始情绪；

通过所述文本的语义对初始情绪进行调整，得到第二情绪，其中包括：若所述文本中涉及反语语义，且反语语义出现次数为奇数次，则将所述初始情绪调整为相反的情绪，作为第二情绪；若所述文本中涉及反语语义，且反语语义出现次数为偶数次，则将所述初始情绪作为第二情绪；若所述文本中不涉及反语语义，则将所述初始情绪作为第二情绪；

确定与所述第二情绪相关的声学特征类型，不同的情绪相关的声学特征类型不同；

根据所述第二情绪相关的声学特征类型，提取所述用户语音的目标声学特征，并根据所述目标声学特征确定第一情绪；

将所述第一情绪，与所述第二情绪进行匹配；

若所述第一情绪与所述第二情绪相一致，或所述第一情绪与所述第二情绪为相似情绪，确定所述第一情绪或所述第二情绪相对应的候选表情图片；

从所述候选表情图片中，确定输入的目标表情图片。

2.根据权利要求1所述的表情图片输入方法，其特征在于，所述根据所述目标声学特征确定第一情绪包括：

根据所述目标声学特征确定情绪兴奋度和情绪积极度；

根据所述情绪兴奋度和情绪积极度，确定第一情绪。

3.根据权利要求2所述的表情图片输入方法，其特征在于，根据所述情绪兴奋度和情绪积极度，确定第一情绪包括：

4.根据权利要求3所述的表情图片输入方法，其特征在于，所述情绪兴奋度的坐标轴越往正向发展，情绪兴奋度越高，所述情绪积极度的坐标轴越往正向发展，情绪积极度越高。

5.根据权利要求1所述的表情图片输入方法，其特征在于，所述方法还包括：

从多个数据源获取表情图片，建立表情图片数据库；

将表情图片数据库中各表情图片进行表达情绪的分类，分类出各情绪相应的表情图片；

根据各表情图片分类出的情绪，为各表情图片进行打标签处理，得到各表情图片的标签；

根据各表情图片的标签建立出表情图片的索引，将索引加入到表情图片数据库。

6.根据权利要求1所述的表情图片输入方法，其特征在于，所述从所述候选表情图片中，确定输入的目标表情图片包括：

7.根据权利要求1所述的表情图片输入方法，其特征在于，所述从所述候选表情图片中，确定输入的目标表情图片包括：

8.一种表情图片输入装置，其特征在于，包括：

用户语音获取模块，用于获取用户语音；

第二情绪确定模块，用于将所述用户语音转化为文本，确定所述文本中的关键词的初始情绪；通过所述文本的语义对初始情绪进行调整，得到第二情绪，其中包括：若所述文本中涉及反语语义，且反语语义出现次数为奇数次，则将所述初始情绪调整为相反的情绪，作为第二情绪；若所述文本中涉及反语语义，且反语语义出现次数为偶数次，则将所述初始情绪作为第二情绪；若所述文本中不涉及反语语义，则将所述初始情绪作为第二情绪；

目标声学特征提取模块，用于确定与所述第二情绪相关的声学特征类型，不同的情绪相关的声学特征类型不同；根据所述第二情绪相关的声学特征类型，提取所述用户语音的目标声学特征；

情绪匹配验证模块，用于将所述第一情绪，与所述第二情绪进行匹配；

候选表情图片确定模块，用于若所述第一情绪与所述第二情绪相一致，或所述第一情绪与所述第二情绪为相似情绪，确定所述第一情绪或所述第二情绪相对应的候选表情图片；

9.根据权利要求8所述的表情图片输入装置，其特征在于，所述第一情绪确定模块，用于根据所述目标声学特征确定第一情绪，具体包括：

根据所述目标声学特征确定情绪兴奋度和情绪积极度；

根据所述情绪兴奋度和情绪积极度，确定第一情绪。

10.根据权利要求9所述表情图片输入装置，其特征在于，所述第一情绪确定模块，用于根据所述情绪兴奋度和情绪积极度，确定第一情绪，具体包括：

11.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器存储程序，所述处理器调用所述程序，所述程序用于：

获取用户语音；

根据所述第二情绪相关的声学特征类型，提取所述用户语音的目标声学特征；

根据所述目标声学特征确定第一情绪；

将所述第一情绪，与所述第二情绪进行匹配；

从所述候选表情图片中，确定输入的目标表情图片。

12.一种表情图片输入系统，其特征在于，包括：车载终端设备，和服务器；

所述服务器，用于获取所述用户语音；将所述用户语音转化为文本，确定所述文本中的关键词的初始情绪；通过所述文本的语义对初始情绪进行调整，得到第二情绪，其中包括：若所述文本中涉及反语语义，且反语语义出现次数为奇数次，则将所述初始情绪调整为相反的情绪，作为第二情绪；若所述文本中涉及反语语义，且反语语义出现次数为偶数次，则将所述初始情绪作为第二情绪；若所述文本中不涉及反语语义，则将所述初始情绪作为第二情绪；确定与所述第二情绪相关的声学特征类型，不同的情绪相关的声学特征类型不同；根据所述第二情绪相关的声学特征类型，提取所述用户语音的目标声学特征；根据所述目标声学特征确定第一情绪；将所述第一情绪，与所述第二情绪进行匹配；若所述第一情绪与所述第二情绪相一致，或所述第一情绪与所述第二情绪为相似情绪，确定所述第一情绪或所述第二情绪相对应的候选表情图片；从所述候选表情图片中，确定输入的目标表情图片。