CN116705072A

CN116705072A - 一种输入信息的情感处理方法及电子设备

Info

Publication number: CN116705072A
Application number: CN202310257753.XA
Authority: CN
Inventors: 张婧颖
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-09-05
Also published as: CN114495988B; CN114495988A

Abstract

一种输入信息的情感处理方法及电子设备，涉及终端技术领域，可以使得同一输入信息可以用不同的情感表达出来，产生不同的听感效果，从而丰富语音的情感表达。该方法包括：电子设备显示输入界面；输入界面用于接收用户输入的输入信息，输入信息包括语音信息或者文本信息；输入信息的情感包括第一情感；电子设备确定目标情感类型；电子设备根据目标情感类型对输入信息进行情感处理，得到目标语音；目标语音的情感包括第二情感，目标语音的内容与输入信息的内容相同，第一情感与第二情感不同。

Description

一种输入信息的情感处理方法及电子设备

本案是分案申请，原申请的申请号是202111017308.3，原申请日是2021年8月31日，原申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种输入信息的情感处理方法及电子设备。

背景技术

随着智能电子设备的发展，语音处理技术也得到了极大的进步，并且在用户的生活中得到了广泛的应用。例如，语音处理技术可以广泛应用于短视频拍摄、直播以及文本转语音等各种场景中。在该场景下，语音处理技术可以对用户的声音效果进行增强，以提高用户生活的趣味性，同时满足用户多样化的需求。

但是，目前的人声效果增强功能主要是音色均衡和语音降噪，音色均衡通过改变语音频段的能量分布，产生偏沉闷或偏尖亮的声音。可以看出，目前的语音处理技术仅能够改变语音的音色，造成语音在情感表达方面较为单一，导致语音情感丰富性较差。

发明内容

本申请提供一种输入信息的情感处理方法及电子设备，可以使得同一输入信息可以用不同的情感表达出来，产生不同的听感效果，从而丰富语音的情感表达。

第一方面，本申请实施例提供一种输入信息的情感处理方法。该方法包括：电子设备显示输入界面；输入界面用于接收用户输入的输入信息，输入信息包括语音信息或者文本信息；输入信息的情感包括第一情感；电子设备确定目标情感类型；电子设备根据目标情感类型对输入信息进行情感处理，得到目标语音；目标语音的情感包括第二情感，目标语音的内容与输入信息的内容相同，第一情感与第二情感不同。

采用本方案，电子设备能够根据确定出的目标情感类型对输入信息进行情感处理，得到目标语音；由于输入信息的情感包括第一情感，目标语音的情感包括第二情感，而输入信息的内容与目标语音的内容相同，第一情感与第二情感不同，因此使得同一输入信息可以用不同的情感表达出来，产生不同的听感效果，从而丰富语音的情感表达。

在第一方面的一种可能的设计方式中，电子设备显示输入界面，包括：电子设备响应于用户启动摄像头的操作，显示输入界面；输入界面为电子设备拍摄视频之前的预览界面；或者，输入界面为电子设备拍摄视频中的界面；或者，输入界面为电子设备拍摄完视频之后的界面。

在这种设计方式中，输入界面为电子设备拍摄视频的界面，即电子设备可以对拍摄的视频进行语音情感的美化，使得拍摄出的视频在播放时，用户可以听到不同情感的语音，从而丰富了视频拍摄的情感表达。

在第一方面的一种可能的设计方式中，电子设备包括图库应用、录音应用以及记事本应用；电子设备显示输入界面，包括：电子设备响应于用户打开图库应用中的任一视频文件的操作，显示输入界面；或者，电子设备响应于用户打开录音应用中的任一录音文件的操作，显示输入界面；或者，电子设备响应于用户打开记事本应用中任一文本文件的操作，显示输入界面。

在这种设计方式中，电子设备可以在播放图库应用中的视频文件时，对该视频文件的语音情感进行美化；或者，电子设备可以在播放录音应用中的录音文件时，对该录音文件的语音情感进行美化；或者，电子设备可以将转换记事本应用中的文本文件转换为语音的过程中，为该文本文件赋予情感，使得转换后的语音为具有情感色彩的语音，进一步丰富可语音情感效果的表达。

在第一方面的一种可能的设计方式中，输入界面包括多个语音情感控件，一个语音情感控件对应一个情感类型；确定目标情感类型，包括：电子设备响应于用户对多个语音情感控件中的至少一个语音情感控件的操作，确定目标情感类型。

在这种设计方式中，用户可以选择多个语音情感控件中的至少一个语音情感控件，从而使用户可以为输入信息定制自己需要的情感类型，当电子设备播放目标语音时，用户听到的语音为自己定制的情感类型的语音，提高了用户的体验。

在第一方面的一种可能的设计方式中，输入界面包括拍摄画面；确定目标情感类型，包括：电子设备识别所述拍摄画面的风格，并自动匹配与所述拍摄画面的风格相对应的目标情感类型。

在这种设计方式中，电子设备还可以识别拍摄画面的风格，并自动匹配与拍摄画面的风格相对应的目标情感类型，进一步提高了用户体验。

在第一方面的一种可能的设计方式中，输入信息为语音信息；确定目标情感类型，包括：电子设备识别语音信息中的情感，并自动匹配与语音信息中的情感对应的情感类型，以确定目标情感类型。

在这种设计方式中，当输入信息为语音信息时，电子设备还可以识别语音信息中的情感，并自动匹配与语音信息中的情感对应的情感类型，以确定出目标情感类型，进一步提高了用户体验。

在第一方面的一种可能的设计方式中，输入信息为文本信息；确定目标情感类型，包括：电子设备识别文本信息的语义，并自动匹配与文本信息的语义对应的情感类型，以确定目标情感类型。

在这种设计方式中，当输入信息为文本信息时，电子设备还可以识别文本信息的语义，并自动匹配与文本信息的语义对应的情感类型，以确定目标情感类型，进一步提高了用户体验。

在第一方面的一种可能的设计方式中，电子设备根据目标情感类型对输入信息进行情感处理，得到目标语音，包括：电子设备将输入信息输入至语音情感模型中，得到目标语音；语音情感模型用于根据目标情感类型修改输入信息的情感。

在这种设计方式中，电子设备将输入信息输入至语音情感模型中，得到目标语音，由于语音情感模型用于根据目标情感类型修改输入信息的情感，因而电子设备输出的目标语音的情感与输入信息的情感不同，从而丰富了语音的情感表达。

在第一方面的一种可能的设计方式中，电子设备将所述输入信息输入至语音情感模型中，得到目标语音，包括：电子设备对输入信息进行编码处理，得到输入信息的时频特征；编码处理包括分帧处理和傅里叶变换；分帧处理用于将输入信息划分为多个语音帧，时频特征用于描述随时间的变化，每个语音帧的频率与幅度的关系；电子设备将输入信息的时频特征输入至语音情感模型中，得到目标语音的时频特征；电子设备对目标语音的时频特征进行解码处理和语音合成处理，得到目标语音；解码处理包括傅里叶逆变换和时域波形叠加。

在这种设计方式中，电子设备首先对输入信息进行编码处理，然后将处理后的输入新输入至语音情感模型中，得到目标语音的时频特征，最后再对目标语音的时频特征进行解密处理和语音合成处理，得到目标语音，从而能够使得目标语音的情感表达更加准确。

在第一方面的一种可能的设计方式中，该方法还包括：电子设备获取语音情感数据集；语音情感数据集包括多条情感语音；多条情感语音中的每条情感语音对应的情感类型不同；针对语音情感数据集中的每条情感语音，电子设备对所述情感语音进行特征提取处理，得到情感语音的时频特征；电子设备将情感语音的时频特征输入至神经网络模型中进行情感训练，得到语音情感模型。

在这种设计方式中，电子设备可以根据语言情感数据集对神经网络模型进行情感训练，以使得训练得到的语音情感模型比较成熟，有利于提高修改输入信息的情感的准确度。

在第一方面的一种可能的设计方式中，语音情感模型包括第一模型和第二模型；第一模型用于指示情感语音与情感类型的映射关系；第二模型用于修改输入信息的情感。

在这种设计方式中，由于语音情感模型包括第一模型和第二模型；第一模型用于指示情感语音与情感类型的映射关系；第二模型用于修改输入信息的情感，因此电子设备将输入信息输入至语音情感模型后，第一模型首先确定输入信息的情感，而后第二模型对输入信息的情感进行转换，提高了修改输入信息的情感的准确度。

在第一方面的一种可能的设计方式中，当电子设备播放音频画面时，电子设备输出目标语音；音频画面为视频画面；或者，音频画面为音频文件。

在这种设计方式中，当电子设备播放音频画面时，电子设备输出目标语音，从而使用户产生不同的听感效果，丰富了语音的情感表达。

在第一方面的一种可能的设计方式中，当电子设备播放音频画面时，电子设备的界面显示指示信息；指示信息用于指示目标语音对应的情感类型。

在这种设计方式中，当电子设备播放音频画面时，电子设备的界面还显示指示信息，由于指示信息用于指示目标语音对应的情感类型，因此用户可以从电子设备的界面看到此时目标语音的情感类型，提高了用户体验。

第二方面，本申请提供一种电子设备，该电子设备包括存储器、显示屏、一个或多个摄像头和一个或多个处理器。存储器、显示屏、摄像头与处理器耦合。其中，摄像头用于采集图像，显示屏用于显示摄像头采集的图像或者处理器生成的图像，存储器中存储有计算机程序代码，该计算机程序代码包括计算机指令，当该计算机指令被处理器执行时，使得电子设备执行如下步骤：电子设备显示输入界面；输入界面用于接收用户输入的输入信息，输入信息包括语音信息或者文本信息；输入信息的情感包括第一情感；电子设备确定目标情感类型；电子设备根据目标情感类型对输入信息进行情感处理，得到目标语音；目标语音的情感包括第二情感，目标语音的内容与输入信息的内容相同，第一情感与第二情感不同。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备响应于用户启动摄像头的操作，显示输入界面；输入界面为电子设备拍摄视频之前的预览界面；或者，输入界面为电子设备拍摄视频中的界面；或者，输入界面为电子设备拍摄完视频之后的界面。

在第二方面的一种可能的设计方式中，电子设备包括图库应用、录音应用以及记事本应用；当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备响应于用户打开图库应用中的任一视频文件的操作，显示输入界面；或者，电子设备响应于用户打开录音应用中的任一录音文件的操作，显示输入界面；或者，电子设备响应于用户打开记事本应用中任一文本文件的操作，显示输入界面。

在第二方面的一种可能的设计方式中，输入界面包括多个语音情感控件，一个语音情感控件对应一个情感类型；当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备响应于用户对多个语音情感控件中的至少一个语音情感控件的操作，确定目标情感类型。

在第二方面的一种可能的设计方式中，输入界面包括拍摄画面；当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备识别所述拍摄画面的风格，并自动匹配与所述拍摄画面的风格相对应的目标情感类型。

在第二方面的一种可能的设计方式中，输入信息为语音信息；当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备识别语音信息中的情感，并自动匹配与语音信息中的情感对应的情感类型，以确定目标情感类型。

在第二方面的一种可能的设计方式中，输入信息为文本信息；当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备识别文本信息的语义，并自动匹配与文本信息的语义对应的情感类型，以确定目标情感类型。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备将输入信息输入至语音情感模型中，得到目标语音；语音情感模型用于根据目标情感类型修改输入信息的情感。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备具体执行如下步骤：电子设备对输入信息进行编码处理，得到输入信息的时频特征；编码处理包括分帧处理和傅里叶变换；分帧处理用于将输入信息划分为多个语音帧，时频特征用于描述随时间的变化，每个语音帧的频率与幅度的关系；电子设备将输入信息的时频特征输入至语音情感模型中，得到目标语音的时频特征；电子设备对目标语音的时频特征进行解码处理和语音合成处理，得到目标语音；解码处理包括傅里叶逆变换和时域波形叠加。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备还执行如下步骤：电子设备获取语音情感数据集；语音情感数据集包括多条情感语音；多条情感语音中的每条情感语音对应的情感类型不同；针对语音情感数据集中的每条情感语音，电子设备对所述情感语音进行特征提取处理，得到情感语音的时频特征；电子设备将情感语音的时频特征输入至神经网络模型中进行情感训练，得到语音情感模型。

在第二方面的一种可能的设计方式中，语音情感模型包括第一模型和第二模型；第一模型用于指示情感语音与情感类型的映射关系；第二模型用于修改输入信息的情感。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备还执行如下步骤：当电子设备播放音频画面时，电子设备输出目标语音；音频画面为视频画面；或者，音频画面为音频文件。

在第二方面的一种可能的设计方式中，当该计算机指令被处理器执行时，使得电子设备还执行如下步骤：当电子设备播放音频画面时，电子设备的界面显示指示信息；指示信息用于指示目标语音对应的情感类型。

第三方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的设计方式所述的方法。

第四方面，本申请提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行如第一方面及任一种可能的设计方式所述的方法。该计算机可以是上述电子设备。

可以理解地，上述提供的第二方面及其任一种可能的设计方式所述的电子设备，第三方面所述的计算机存储介质，第四方面所述的计算机程序产品所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种电子设备的软件结构示意图；

图3a为本申请实施例提供的一种输入界面的示意图一；

图3b为本申请实施例提供的一种输入界面的示意图二；

图3c为本申请实施例提供的一种输入界面的示意图三；

图4a为本申请实施例提供的一种输入界面的示意图四；

图4b为本申请实施例提供的一种输入界面的示意图五；

图4c为本申请实施例提供的一种播放视频时电子设备的界面示意图；

图5a为本申请实施例提供的一种输入界面的示意图六；

图5b为本申请实施例提供的一种输入界面的示意图七；

图5c为本申请实施例提供的一种输入界面的示意图八；

图6为本申请实施例提供的一种输入信息的情感处理方法的流程示意图一；

图7为本申请实施例提供的一种输入信息的情感处理方法的流程示意图二；

图8为本申请实施例提供的一种实时频谱图的示意图；

图9为本申请实施例提供的一种训练语音情感模型的流程示意图；

图10为本申请实施例提供的一种语音情感数据集的示意图；

图11为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了解决背景技术中的问题，本申请实施例提供一种输入信息的情感处理方法，应用于电子设备中；通过该方法，电子设备可以对输入信息进行情感处理，使得同一输入信息可以用不同的情感表达出来，产生不同的听感效果，从而丰富语音的情感表达。其中，输入信息可以包括语音或文本。

具体的，电子设备将输入信息输入至预先训练好的神经网络模型中，使神经网络模型对输入信息进行情感处理，得到目标语音；其中，目标语音的情感对应的情感类型与输入信息的情感对应的情感类型不同；或者，输入信息不包含情感，而目标语音包含情感；情感类型例如可以包括中性、生气、厌恶、恐惧、欢快、悲伤以及惊喜等。在一些实施例中，当输入信息为待处理语音时，电子设备将待处理语音输入至预先训练好的神经网络模型中，使神经网络模型对待处理语音进行情感变换，得到目标语音。例如，待处理语音的情感对应的情感类型例如可以为生气，目标语音的情感对应的情感类型例如可以为欢快。在另一些实施例中，当输入信息为待处理文本时，电子设备将待处理文本输入至预先训练好的神经网络模型中，使神经网络模型对待处理文本进行情感处理，得到目标语音。例如，待处理文本不具备情感，而得到的目标语音的情感对应的情感类型例如可以为欢快。

本申请实施例提供的输入信息的情感处理方法可以应用于包括智能语音装置的电子设备中，例如语音助手、智能音箱、智能手机、平板电脑、计算机、可穿戴性电子设备和智能机器人等。在上述各个设备中，能够输出用户想要的语音情感。下面介绍几种可能的输入信息的情感处理的应用场景。

应用场景1：文本转语音

在文本转语音的应用场景中，能够结合文本内容，使得用户听到的语音为带有情感的语音，从而在保证文本转语音具有较高的正确率的前提下，还能够丰富语音音质的效果。

应用场景2：智能手机语音交互

在智能手机的语音交互场景中，智能手机的语音助手的声音不再是单一的机器声音，而是用户定制的具有情感的声音。例如，用户可以定制语音助手的声音为欢快的声音，则用户在与语音助手交流的过程中，听到的声音为具有欢快情感的声音。

应用场景3：短视频拍摄

在短视频拍摄的场景中，例如可以将用户的声音定制成生气、欢快等具有特定情感的个性化声音，从而能够在视频拍摄的过程中，对于用户的语音进行美化，使其适配不同拍摄题材的画面风格。

为了更好地理解本申请实施例的方案，下面结合说明书附图对本申请实施例的实施方式进行详细描述。

请参考图1，为本申请实施例提供的一种电子设备100的结构示意图。如图1所示，电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中，上述传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L和骨传导传感器180M等传感器。

可以理解的是，本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。该显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Mini-LED，Micro-LED，Micro-OLED，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。例如，在本申请实施例中，处理器110可以通过执行存储在内部存储器121中的指令，内部存储器121可以包括存储程序区和存储数据区。

其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备100平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of theUSA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。

本申请实施例提供的输入信息的情感处理方法例如可以由上述电子设备100包括的处理器110执行。示例性的，可以由上述处理器110中的神经网络处理器进行实现。其中，该神经网络处理器可以搭载神经网络模型以实现本申请实施例所述的方法。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构或云架构。本发明实施例以分层架构的Android系统为例，示例性地说明电子设备100的软件架构。

图2为本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层(或称应用层)，应用程序框架层(或称框架层)，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息和语音助手等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容管理器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听电话，浏览历史和书签，电话薄等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符，图标，图片，布局文件，视频文件等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

安卓运行时(Android Runtime)包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

以上述电子设备100为手机，对本申请实施例提供的输入信息的情感处理方法进行详细描述。应理解，以下实施例中的方法均可以在具有上述硬件结构和软件结构的电子设备中实现。

其中，手机显示输入界面，该输入界面用于接收用户输入的输入信息，输入信息包括语音信息或者文本信息；该输入信息的情感包括第一情感；而后，手机响应于用户对输入界面的操作，确定目标情感类型；最后，手机根据目标情感类型对输入信息进行情感处理(例如手机将输入信息的情感由第一情感变换为第二情感)，得到目标语音；目标语音的情感包括第二情感，目标语音的内容与输入信息的内容相同，第一情感与第二情感不同。

下面结合说明书附图，根据不同的场景对本申请实施例提供的输入信息的情感处理方法进行详细描述。

在一些实施例中，本申请实施例提供的输入信息的情感处理方法可以应用于短视频拍摄的场景下，示例性的，短视频拍摄场景可以为用户使用手机上的相机应用录制视频的场景。例如，用户可使用相机应用的录像模式录制视频。又例如，用户可以使用相机应用的专业模式录制视频。又例如，用户可以使用相机应用的电影模式录制视频。

需要说明的是，用户还可以使用手机上其它短视频拍摄的应用录制视频。该短视频拍摄应用可以为手机上的系统应用，也可以为手机上的第三方应用(例如从手机的应用市场，或者应用商店下载的应用)，本申请实施例对此不作限制。

示例性的，用户在录制视频的过程中可以输入语音。例如，当用户在录制美食视频时，用户可针对于该美食场景进行相应的介绍，或者评价。在视频拍摄过程中，手机可根据用户输入的语音进行情感变换，以变换出不同情感的语音对该美食场景进行相应的介绍，或者评价，即手机输出的语音的情感类型与用户输入的语音的情感类型不同，从而会产生不同的听感效果，丰富语音的情感表达。

在一种可能的实现方式中，用户可根据自己的主观意识，或者自身的喜好选择不同的语音情感类型，以使得拍摄出的不同视频对应的语音情感类型不同，从而满足用户对语音效果的美化需求。

在一些实施例中，如图3a-图3c所示，手机显示输入界面201，其中，该输入界面201可以为手机拍摄之前的预览界面；或者输入界面201还可以为拍摄中的界面；或者，输入界面201还可以为拍摄结束后的界面。例如，输入界面201为手机在录像模式下录制视频的界面。

以输入界面201为手机拍摄前的预览界面为例，示例性的，参考图3a所示，输入界面201中包括语音情感模板202；其中，语音情感模板202包括多个不同的语音情感类型。例如，语音情感模板202包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。在此基础上，用户可以在录制视频之前选择语音情感模板202中的情感类型，在手机完成录制后，得到录制后的音频画面。其中，该音频画面中的语音为与用户选择的情感类型对应的情感语音。

示例性的，在用户录制视频之前，用户可以根据当前预览界面的预览画面的风格选择语音情感模板202中的其中一个语音情感类型，使其匹配当前预览界面的预览画面的风格。例如，预览界面的预览画面的风格属于极简风格，用户可以选择中性的语音情感类型，使其匹配当前预览画面的极简风格。又例如，预览界面的预览画面的风格属于夸张风格，用户可以选择欢快的语音情感类型，使其匹配当前预览画面的风格。

以输入界面201为手机拍摄中的界面为例，示例性的，参考图3b所示，输入界面201中包括语音情感模板202；其中，语音情感模板202包括多个不同的语音情感类型。例如，语音情感模板202包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。

示例性的，用户可以根据拍摄中的拍摄画面的风格可以选择语音情感模板202中的其中一个语音情感类型，使其匹配当前的拍摄画面的风格。例如，当前的拍摄画面的风格属于极简风格，用户可以选择中性的语音情感类型，使其匹配当前的拍摄画面的风格。又例如，当前的拍摄画面的风格属于夸张风格，用户可以选择欢快的语音情感类型，使其匹配当前的拍摄画面的夸张风格。或者，在视频拍摄的过程中，若当前的拍摄画面的风格发生变化，用户可以相应的改变语音情感类型。示例性的，若当前的拍摄画面的风格由极简风格变化为夸张风格，则用户可以先选择中性的语音情感类型，而后再选择欢快的语音情感类型，以使同一段视频可以包含两种不同的情感类型的语音。

以输入界面201为手机拍摄完成后的界面为例。示例性的，参考图3c所示，第一界面201语音情感模板202；其中，语音情感模板202包括多个不同的语音情感类型。例如，语音情感模板202包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。

示例性的，用户可以根据拍摄后的视频的整体风格选择语音情感模板202中的其中一个语音情感类型，使其匹配拍摄后的视频的整体风格。在一些实施例中，用户可以根据自己的主观意识去确定拍摄完成的视频的风格。例如，当用户确定拍摄完成的视频的整体风格偏向于极简风格时，用户可以选择中性的语音情感类型，使其匹配拍摄完成后的视频的整体风格。又例如，当用户确定拍摄完成后的视频的整体风格偏向于夸张风格时，用户可以选择欢快的语音情感类型，使其匹配拍摄完成后的视频的整体风格。而后，手机可根据用户选择的语音情感类型，对拍摄完成后的视频中的语音进行情感变换，并保存拍摄完成的视频。其中，该视频中的语音为与用户选择的语音情感类型对应的情感语音。

在另一些实施例中，如图4a和图4b所示，手机显示输入界面203，其中，该输入界面203可以为手机拍摄前的预览界面；或者，输入界面203还可以为拍摄中的界面；或者，输入界面203还可以为拍摄结束后的界面。例如，输入界面为手机在录像模式下录制视频的界面。

示例性的，输入界面203包括语音情感设置项204，该语音情感设置项204例如可以包括“中性”设置项、“生气”设置项、“厌恶”设置项和“恐惧”设置项等。本申请实施例中，以语音情感设置项204是图4a和图4b所示的滚动条为例，介绍本申请实施例的方法。

应理解，上述实施例中的语音情感模板202和该实施例中的语音情感设置项204仅为不同的表现方式，而用户选择与输入界面203的画面的风格相匹配的情感类型的方法相同。示例性的，用户可以根据预览界面的预览画面的风格选择情感类型；或者，用户可以根据当前的拍摄画面的风格选择情感类型；或者，用户可以根据拍摄后的视频的整体风格选择情感类型，其具体的举例说明可以参考上述实施例，此处不再赘述。

示例性的，用户可以滑动语音情感设置项204中的其中一个设置项的滚动条，以选择相应地语音情感类型匹配当前拍摄的画面的风格。其中，滚动条的长度为0-1；例如，当滚动条滑动至0的位置时，表示用户没有选择该设置项；相应地，当滚动条滑动至1的位置时，表示用户选择了该设置项。参考图4a所示，例如，语音情感设置项204包括的“中性”设置项的滚动条滑动至1的位置，而其它设置项(如“生气”设置项、“厌恶”设置项和“恐惧”设置项)的滚动条滑动至0的位置，即用户选择中性的情感类型匹配当前拍摄的画面的风格。

在一些实施例中，滚动条0-1还用于表示语音情感的强度。例如，当某一设置项的滚动条越靠近1的位置，表示该设置项对应的情感类型的情感强度越强；当某一设置项的滚动条越靠近0的位置，表示该设置项对应的情感类型的情感强度越弱。这样一来，用户还可以使滚动条位于0-1之间的不同位置处，不仅可以使不同语音对应的情感类型不同，而且还可以使不同情感类型的情感强度也不同，从而进一步满足用户对语音效果的美化需求。

在此基础上，用户还可以滑动语音情感设置项204中的每一个设置项，并且，每个设置项对应的滚动条的位置不完全相同，即每个设置项对应的语音情感的强度不完全相同，这样一来，手机输出的语音情感可以包括多种不同情感强度的情感类型，进一步丰富了语音的情感表达。如图4b所示，语音情感设置项204“中性”设置项、“生气”设置项、“厌恶”设置项和“恐惧”设置项。其中，“中性”设置项、“生气”设置项、“厌恶”设置项和“恐惧”，每个设置项所对应的滚动条的位置不相同。当视频拍摄完成后，该视频的语音会包括不同情感强度的中性，生气，厌恶，恐惧等的复杂情感。

在另一种可能的实现方式中，手机可根据不同的拍摄画面的风格自动匹配对应的语音情感类型。从而可满足用户对录音效果的美化需求。其中，拍摄画面的风格可以为：极简风格、夸张风格、渐变风格、水墨风格、雅致风格和文艺风格等。当然，拍摄画面的风格还可以为其它风格，此处不再一一列举。

例如，当手机识别出当前拍摄画面的风格为极简的风格时，手机可自动匹配中性的语音情感，使其匹配当前拍摄画面的风格。又例如，当手机识别出当前拍摄画面的风格为夸张的风格时，手机可自动匹配欢快的语音情感，使其匹配当前拍摄画面的风格。或者，手机可以识别视频中的语音的情感，根据语音的情感匹配与语言中的情感对应的情感类型。例如，手机可实时地检测用户说话时的关键词，并根据关键词自动匹配与关键词对应的语音情感类型。示例性的，手机在拍摄过程中检测到的关键词包括“难过”、“委屈”，与此同时，手机根据该关键词匹配的语音情感类型为悲伤。

结合上述任一实施例，在一些实施例中，当手机拍摄完视频后，在用户播放该视频时，用户听到的语音的情感类型是用户之前选择的情感类型。在另一些实施例中，当用户播放该视频时，在手机的播放界面显示指示信息。该指示信息用于指示当前播放的视频的语音的情感类型。例如，如图4c所示，该指示信息205为：当前语音情感类型为欢快。

需要说明的是，本申请实施例中，图3a-图4c所示的手机拍摄视频时的拍摄画面均以人物为例进行示意。应当理解的是，手机拍摄视频时的拍摄画面还可以为风景、美食等画面，具体以实际拍摄为准，此处不再一一列举。

在一些实施例中，本申请实施例提供的输入信息的情感处理方法还可以应用于录制音频(以下简称录音)的场景下，其中，录音场景可以为用户使用手机上的录音应用录制音频的场景。示例性的，手机显示输入界面；该输入界面可以为手机录音前的界面；或者，该输入界面可以为录音过程中的界面；或者，该输入界面还可以为播放录音时的界面。

以输入界面为播放录音(也可以称为录音文件)时的界面为例进行示意。示例性的，如图5a所示，输入界面206包括语音情感模板207；其中，语音情感模板207包括多个不同的语音情感类型。例如，语音情感模板207包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。在此基础上，用户可以在播放录音之前选择语音情感模板207中的情感类型，以对该段录音赋予情感；或者，当用户在播放该段录音时，手机可识别录音中的情感，并匹配与录音中的情感相对应的情感类型。例如，手机可实时检测录音中的关键词，并匹配与关键词对应的情感类型，以对该段录音赋予情感。示例性的，当手机识别到的关键词包括“难过”、“哭”时，手机为该段录音匹配的情感类型可以为“悲伤”。应理解，在手机播放该录音时，用户听到的录音的情感与情感类型对应的录音。

在一些实施例中，本申请实施例提供的输入信息的情感处理方法还可以应用于播放视频(也可以称为视频文件)的场景。示例性的，如用户打开手机的图库应用，播放图库应用中的某一个视频文件。以输入界面为播放视频文件的界面为例进行示意。示例性的，如图5b所示，输入界面208包括语音情感模板209；其中，语音情感模板209包括多个不同的语音情感类型。例如，语音情感模板209包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。在此基础上，用户可以在播放该视频文件之前选择情感模板209中的情感类型，以对该视频文件中的语音赋予情感；或者，手机识别视频文件中的情感，并匹配与视频文件的情感对应的情感类型。例如，手机可识别视频文件中的关键字，并匹配与视频文件中的关键字对应的情感类型，以对该段视频赋予情感。示例性的，当手机识别到的关键词包括“难过”、“哭”时，手机为该段视频匹配的情感类型可以为“悲伤”。应理解，在手机播放该视频文件时，用户听到的视频文件中的语音的情感为与情感类型对应的语音。

在一些实施例中，本申请实施例提供的输入信息的情感处理方法还可以应用于文本转语音的场景。示例性的，该文本(也可以称为文本文件)可以为手机的记事本应用中的一段文字。以输入界面为文本转语音的界面为例进行示意。示例性的，如图5c所示，该输入界面210包括语音情感模板211；其中，语音情感模板211包括多个不同的语音情感类型。例如，语音情感模板211包括中性、生气、厌恶、恐惧、欢快、悲伤和惊喜等情感类型。在此基础上，当用户想要将该文本转成语音时，用户可先选择语音情感模板211中的情感类型，以对转后的语音赋予情感；或者，手机可自动识别该段文本的语义，并根据语义为该段文本匹配相应的情感类型。在手机将文本转成语音后，用户听到的语音的情感为与用户选择的情感类型对应的情感语音。

需要说明的是，上述实施例中图5a-图5c中所示的输入界面包括的语音情感模板还可以为语音情感设置项。对于语音情感设置项的举例说明，可以参考上述实施例，此处不再一一赘述。本申请实施例提供一种输入信息的情感处理方法，该方法可以应用于电子设备中。如图6所示，该方法可以包括S301-S304。

S301、电子设备获取输入信息。

其中，输入信息包括语音信息或者文本信息。语音信息例如可以为一段语音，文本信息例如可以为一段文字。输入信息的情感为第一情感；第一情感对应第一情感类型。示例性的，第一情感类型可以包括中性、生气、厌恶、恐惧、欢快、悲伤以及惊喜等情感类型。其中，中性的情感类型指的是不具有任何一种情感色彩的情感类型。例如，当输入信息为文本时，第一情感类型可以中性的情感类型。

S302、电子设备对输入信息进行处理，得到输入信息的时频特征。

结合上述实施例，输入信息包括语音或者文本。电子设备对输入信息进行处理包括：电子设备首先将输入信息转换为语音信号，然后电子设备对语音信号进行编码处理，以得到语音信号对应的时频特征。其中，语音信号指的是语音波(即语音波形)的信号，语音信号是语音波的波长，强度的信息载体。

以输入信息为语音为例，例如，电子设备可以对语音的音频进行识别，从而得到与该语音的音频对应的语音信号。以输入信息为文本为例，例如电子设备首先将文本转化语音，然后对转化后的语音的音频进行识别，从而得到与该文本对应的语音信号。

需要说明的是，对语音的音频进行识别，得到语音信号的具体描述可以参考相关技术的语音识别技术，此处不再详述。

在一些实施例中，如图7所示，编码处理例如可以包括：分帧处理和傅里叶变换。示例性的，分帧处理指的是根据预先设定的帧长和帧移，将语音信号划分为多个语音帧，从而得到语音信号对应的语音帧序列。其中，每个语音帧可以为一个语音片段，进而可以对语音信号逐帧进行处理。

示例性的，帧长可以用于表示每个语音帧的时长，帧移可以用于表示相邻语音帧之间的重叠部分。例如，当帧长为25ms、帧移为15ms时，第一个语音帧为0～25ms，第二个语音帧为15～40ms，依次类推，可以实现对语音信号的分帧处理。应当理解的是，可以根据实际情况设置具体的帧长和帧移，本申请实施例对此不作限制。

而后，电子设备依次对语音帧序列中的每个语音帧进行傅里叶变换处理，得到每个语音帧的时频特征。其中，时频特征可以用于描述随时间的变化，每个语音帧的频率与幅度的关系。在一些实施例中，时频特征可以采用实时频谱图(简称时频谱)进行表示。该实时频谱图可以为三原色像素图(即RGB像素图)；或者，该实时频谱图可以为时频波形。以实时频谱图为RGB像素图为例，如图8所示，在该RGB像素图中，横轴(即X轴)表示时间，纵轴(即Y轴)表示频率，颜色深度表示幅度。

需要说明的是，上述实施例中描述的傅里叶变换例如可以为短时傅里叶变换；或者，可以为快速傅里叶变换，本申请实施例对此不作限制。

S303、电子设备将输入信息的时频特征输入至预先训练好的语音情感模型中，得到目标语音的时频特征。

其中，语音情感模型用于对输入信息的情感进行转换。示例性的，语音情感模型例如可以是基于神经网络搭建的模型，即语音情感模型是基于神经网络训练得到的模型。这里的神经网络包括但不限于以下至少一种网络的组合、叠加、嵌套：卷积神经网络(convolutional neuron network，CNN)、循环神经网络(recurrent neuron network，RNN)、时间递归神经网络(long-short term memory，LSTM)、双向时间递归神经网络(bidirectional long-short termmemory，BLSTM)、深度卷积神经网络(deepconvolutional neuron network，DCNN)等。

神经网络可以是由神经单元组成的。以神经网络为深度神经网络为例，具体的，深度神经网络也可以称为多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对深度神经网络进行划分。示例性的，深度神经网络内部的神经网络可以分为三类：输入层，隐含层，输出层。一般情况下，深度神经网络的第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

在一些实施例中，语音情感模型可以是基于神经网络采用前向传播的算法和反向传播的算法进行训练得到的。示例性的，前向传播算法包括卷积层和池化层；反向传播算法包括解卷积和去池化。在本申请实施例中，神经网络采用反向传播算法可以在语音情感模型训练的过程中修正初始的神经网络模型中参数的数据，使得神经网络模型的重建误差损失越来越小。具体地，前向传播算法会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中的参数，从而时误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。换言之，反向传播算法能够优化神经网络模型的权重。

另外，在一些实施例中，语音情感模型包括第一模型和第二模型。其中，第一模型用于指示情感语音与情感类型之间的映射关系；第二模型用于修改输入信息的情感。示例性的，电子设备将输入信息的时频特征输入至第一模型中，得到输入信息的时频特征以及该时频特征对应的第一情感类型；而后，电子设备将输入信息的时频特征以及该时频特征对应的第一情感类型作为第二模型的输入，使第二模型输出目标语音的时频特征。其中，目标语音的时频特征与输入信息的时频特征不同，目标语音的时频特征对应第二情感类型，而输入信息的时频特征对应第一情感类型。

例如，以第一情感类型为生气为例，示例性的，电子设备将输入信息输入至第一模型中，能够得到输入信息对应的情感类型，即电子设备此时能够知道输入信息的情感类型为第一情感类型(即生气)。需要说明的是，输入至第一模型的输入信息是以时频特征的方式进行表示的。而后，电子设备将输入信息的时频特征输入至第二模型中，第二模型能够对输入信息的时频特征进行修改，以得到具有第二情感类型的目标语音的时频特征。

以时频特征采用实时频谱图进行表示为例，示例性的，第二模型对输入信息的时频特征进行修改包括：修改实时频谱图的能量、频率以及时间的分布。

需要说明的是，对于目标语音的时频特征的举例说明可以参考上述实施例对输入信息的时频特征的举例说明，此处不再一一赘述。应理解，目标语音的时频特征用于描述，随时间的变化，目标语音的语音帧的频率与幅度的关系。

S304、电子设备对目标语音的时频特征进行处理，得到目标语音。

其中，目标语音的情感为第二情感；第二情感对应第二情感类型；输入信息的内容与目标语音的内容相同，第一情感与第二情感不同，即第一情感类型与第二情感类型不同。

在一些实施例中，电子设备对目标语音的时频特征可以进行解码处理和语音合成处理。其中，解码处理包括傅里叶逆变换和时域波形叠加。示例性的，电子设备对目标语音的时频特征中的频率，每个频率下的幅度，以及每个频率下的相位进行傅里叶逆变换，可以得到目标语音的时域信号(即时域波形)。

由上述实施例可知，由于在编码处理过程中对语音信号进行了分帧处理，因此在该实施例中得到的目标语音的时域信号即为每个语音帧的时域信号。基于此，电子设备还应对每个语音帧的时域信号进行时域波形叠加，从而能够得到目标语音的信号(即目标语音波形)。相应的，电子设备可以采用语音合成技术对目标语音的信号进行合成，得到目标语音，即电子设备最终输出的语音。

需要说明的是，语音合成技术可以参考相关技术的语音合成技术，此处不再详述。

综上所述，本申请实施例中，电子设备可以对输入信息进行情感处理，使得同一输入信息可以用不同的情感表达出来，产生不同的听感效果，从而丰富语音的情感表达。

以输入信息为语音为例，示例性的，输入信息为说话者说出的一段语音(如“这里的风景真美”)，在该段语音中包含的情感对应的情感类型为中性，即说话者没有对该段语音注入任何情感色彩。电子设备接收到说话者所说的语音后，对该语音的情感进行修改，并输出包含情感的语音。例如，电子设备输出的语音所包含的情感对应的情感类型为欢快。换言之，说话者说出的语音的情感为中性，而经过电子设备进行情感处理后，输出的语音的情感为欢快，即听者听到的语音为带有欢快情感的语音。

本申请实施例还提供一种模型的训练方法，该方法用于训练出上述实施例所述的语音情感模型。如图9所示，该方法包括：

S401、电子设备获取语音情感数据集。

其中，语音情感数据集包括多条情感语音。

在一些实施例中，电子设备可以对用户的语音进行采集，以构建语音情感数据集。其中，该用户可以为专业的配音员。示例性的，用户可以对语料库包括的文本分别采用不同的情感类型进行语音表达。其中，语料库包括的文本可以为标准普通话文本。例如，语料库包括“你吃饭了吗？”、“今天天气真好！”等标准普通话文本。

以语料库包括的“你吃饭了吗？”这一文本为例，假设用户对该文本采用五种不同的情感类型进行语音表达。其中，五种不同的情感类型包括：恐惧、欢快、惊喜、悲伤以及中性。

示例性的，如图10所示，用户采用恐惧的情感对该文本进行语音表达，得到第一条情感语音；用户采用欢快的情感对该文本进行语音表达，得到第二条情感语音；用户采用惊喜的情感对该文本进行语音表达，得到第三条情感语音；用户采用悲伤的情感对该文本进行语音表达，得到第四条情感语音，以及用户采用中性的情感对该文本进行语音表达，得到第五条情感语音。相应地，对于语料库中的其它文本，均可以采用上述方法以得到其它文本对应的多个不同情感的情感语音，从而可以实现基于语料库对用户的语音进行采集，构建语音情感数据集。

考虑到由于用户情感表达的丰富性，用户可能在表达某一个文本时，除了定制的情感(如恐惧)以外，还会夹杂其它的情感(如中性、生气、厌恶)；并且，每个情感的情感强度也会有差异。基于此，在得到不同文本对应的每条情感语音后，用户可基于每条情感语音进行情感强度进行评价。例如，对每条情感语音的情感强度进行评分。该评分指的是情感语音中包括的多个情感中，每个情感的占比(％)。需要说明的是，对每条情感语音的情感强度进行评分例如可以是基于用户的主观意识。

仍如图10所示，例如，第一条情感语音中，“中性”情感的情感强度的占比为5％，“生气”情感的情感强度的占比为10％，“厌恶”情感的情感强度的占比为15％，“恐惧”情感的情感强度的占比为70％，其它情感(如欢快、悲伤和惊喜)的情感强度的占比为0。第二条情感语音中，“中性”情感的情感强度的占比为5％，“欢快”情感的情感强度的占比为70％，“悲伤”情感的情感强度的占比为10％，“惊喜”情感的情感强度的占比为15％，其它情感(如生气、厌恶、恐惧)的情感强度的占比为0。第三条情感语音中，“生气”情感的情感强度的占比为5％，“中性”情感的情感强度的占比为10％，“欢快”情感的情感强度的占比为15％，“惊喜”情感的情感强度的占比为75％，其它情感(如厌恶、悲伤和恐惧)的情感强度的占比为0。第四条情感语音中，“中性”情感的情感强度的占比为5％，“悲伤”情感的情感强度的占比为70％，“厌恶”情感的情感强度的占比为10％，“恐惧”情感的情感强度的占比为15％，其它情感(如生气、欢快、惊喜)的情感强度的占比为0。第五条情感语音中，“中性”情感的情感强度的占比为80％，“欢快”情感的情感强度的占比为5％，“悲伤”情感的情感强度的占比为10％，“惊喜”情感的情感强度的占比为5％，其它情感(如生气、厌恶、恐惧)的情感强度的占比为0。

S402、针对于语音情感数据集中的每一条情感语音，电子设备对情感语音进行特征提取处理，得到情感语音的时频特征。

在一些实施例中，特征提取处理例如可以包括：分帧处理和傅里叶变换。另外，在进行特征提取处理后，得到的情感语音的时频特征用于描述随时间的变化，情感语音中的每个语音帧的频率与幅度的关系。

需要说明的是，对于分帧处理和傅里叶变换，以及时频特征的举例说明可以参考上述实施例，此处不再一一赘述。

S403、电子设备将情感语音的时频特征输入神经网络模型中进行情感训练，以得到语音情感模型。

示例性的，电子设备将每条情感语音的时频特征输入至神经网络模型中，直到神经网络模型完全收敛，从而得到较为成熟的语音情感模型。例如，语音情感模型用于对输入信息的情感类型进行转换。

需要说明的是，对于神经网络模型的举例说明可以参考上述实施例中对于神经网络的举例说明，此处不再一一赘述。

在一些实施例中，语音情感模型包括第一模型和第二模型。其中，第一模型用于指示情感语音的时频特征与情感类型之间的映射关系；第二模型用于对情感语音的情感类型进行转换。

综上所述，本申请实施例中，电子设备可以基于语音情感数据集对神经网络模型进行训练，得到语音情感模型，从而使得电子设备可以根据语音情感模型对输入信息的情感类型进行变换，得到目标语音，即得到用户想要的情感对应的语音，丰富了语音的情感表达，以及提高了用户的使用体验。

本申请实施例提供了一种电子设备，该电子设备可以包括：显示屏(如触摸屏)、摄像头、存储器和一个或多个处理器。该显示屏、摄像头、存储器和处理器耦合。其中，显示屏用于显示摄像头采集的图像或者处理器生成的图像，存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，电子设备可执行上述方法实施例中手机执行的各个功能或者步骤。该电子设备的结构可以参考图1所示的电子设备100的结构。

本申请实施例还提供一种芯片系统，如图11所示，该芯片系统1800包括至少一个处理器1801和至少一个接口电路1802。

上述处理器1801和接口电路1802可通过线路互联。例如，接口电路1802可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路1802可用于向其它装置(例如处理器1801)发送信号。示例性的，接口电路1802可读取存储器中存储的指令，并将该指令发送给处理器1801。当所述指令被处理器1801执行时，可使得电子设备执行上述实施例中手机180执行的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得该电子设备执行上述方法实施例中手机执行的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中手机执行的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种输入信息的情感处理方法，其特征在于，所述方法包括：

电子设备接收用户输入的第一情感的输入信息；所述输入信息包括语音信息或者文本信息；

所述电子设备基于所述第一情感的输入信息和目标情感类型，输出包括第二情感的目标语音；所述输入信息的内容与所述目标语音的内容相同，所述第一情感与所述第二情感不同。

2.根据权利要求1所述的方法，其特征在于，所述电子设备基于所述第一情感的输入信息和目标情感类型，输出包括第二情感的目标语音，包括：

所述电子设备将所述第一情感的输入信息输入至语音情感模型中，输出包括所述第二情感的目标语音；其中，所述语音情感模型包括第一模型和第二模型，所述第一模型用于根据所述输入信息确定所述输入信息对应的第一情感类型，所述第二模型用于根据所述第一情感类型和所述目标情感类型修改所述输入信息的情感。

3.根据权利要求1或2所述的方法，其特征在于，所述电子设备接收用户输入的第一情感的输入信息，包括：

所述电子设备显示输入界面；

响应于用户在所述输入界面的输入操作，所述电子设备接收用户输入的第一情感的输入信息。

4.根据权利要求3所述的方法，其特征在于，所述电子设备显示输入界面，包括：

所述电子设备响应于用户启动摄像头的操作，显示所述输入界面；所述输入界面为所述电子设备拍摄视频之前的预览界面；或者，所述输入界面为所述电子设备拍摄视频中的界面；或者，所述输入界面为所述电子设备拍摄完视频之后的界面。

5.根据权利要求3所述的方法，其特征在于，所述电子设备包括图库应用、录音应用以及记事本应用；所述电子设备显示输入界面，包括：

所述电子设备响应于用户打开图库应用中的任一视频文件的操作，显示所述输入界面；或者，

所述电子设备响应于用户打开录音应用中的任一录音文件的操作，显示所述输入界面；或者，

所述电子设备响应于用户打开记事本应用中任一文本文件的操作，显示所述输入界面。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述输入界面包括多个语音情感控件，一个所述语音情感控件对应一个情感类型；所述方法还包括：

所述电子设备响应于用户对所述多个语音情感控件中的至少一个语音情感控件的操作，确定所述目标情感类型。

7.根据权利要求3-5中任一项所述的方法，其特征在于，所述输入界面包括拍摄画面；所述方法还包括：

所述电子设备识别所述拍摄画面的风格，并自动匹配与所述拍摄画面的风格相对应的情感类型，以确定所述目标情感类型。

8.根据权利要求4或5所述的方法，其特征在于，所述输入信息为语音信息；所述方法还包括：

所述电子设备识别所述语音信息中的情感，并自动匹配与所述语音信息中的情感对应的情感类型，以确定所述目标情感类型。

9.根据权利要求5所述的方法，其特征在于，所述输入信息为文本信息；所述方法还包括：

所述电子设备识别所述文本信息的语义，并自动匹配与所述文本信息的语义对应的情感类型，以确定所述目标情感类型。

10.根据权利要求1-9中任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备基于所述第一情感的输入信息和所述目标情感类型，输出包括第三情感的目标语音；

其中，所述第三情感与所述第二情感不同，且所述第三情感的情感强度与所述第二情感的情感强度不同。

11.根据权利要求1-10中任一项所述的方法，其特征在于，

所述目标情感类型包括：中性、生气、厌恶、恐惧、欢快、悲伤以及惊喜中的一种或多种。

12.根据权利要求1-11中任一项所述的方法，其特征在于，所述输出包括第二情感的目标语音，包括：

当所述电子设备播放音频画面时，所述电子设备输出包括所述第二情感的目标语音；

其中，所述音频画面为视频画面；或者，所述音频画面为音频文件。

13.根据权利要求12所述的方法，其特征在于，

当所述电子设备播放音频画面时，所述电子设备的界面显示指示信息；所述指示信息用于指示所述目标语音对应的情感类型。

14.根据权利要求2所述的方法，其特征在于，所述电子设备将所述第一情感的输入信息输入至语音情感模型中，输出包括所述第二情感的目标语音，包括：

所述电子设备对所述输入信息进行编码处理，得到所述输入信息的时频特征；所述编码处理包括分帧处理和傅里叶变换；所述分帧处理用于将所述输入信息划分为多个语音帧，所述时频特征用于描述随时间的变化，每个所述语音帧的频率与幅度的关系；

所述电子设备将所述输入信息的时频特征输入至所述语音情感模型中，得到所述目标语音的时频特征；

所述电子设备对所述目标语音的时频特征进行解码处理和语音合成处理，得到所述目标语音；所述解码处理包括傅里叶逆变换和时域波形叠加。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

所述电子设备获取语音情感数据集；所述语音情感数据集包括多条情感语音，所述多条情感语音中的每条情感语音对应多个不同情感，所述多个不同情感中的每个情感在所述情感语音中的情感强度占比不同；

针对所述语音情感数据集中的每条情感语音，所述电子设备对所述情感语音进行特征提取处理，得到所述情感语音的时频特征；

所述电子设备将所述情感语音的时频特征输入至神经网络模型中进行情感训练，得到所述语音情感模型。

16.一种电子设备，其特征在于，所述电子设备包括存储器、显示屏、一个或多个摄像头和一个或多个处理器；所述显示屏用于显示所述摄像头采集的图像或者所述处理器生成的图像，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1-15任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-15中任一项所述的方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-15中任一项所述的方法。