CN107818787B

CN107818787B - 一种语音信息的处理方法、终端及计算机可读存储介质

Info

Publication number: CN107818787B
Application number: CN201711045768.0A
Authority: CN
Inventors: 王秀琳
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-02-05
Anticipated expiration: 2037-10-31
Also published as: CN107818787A

Abstract

本发明实施例公开了一种语音信息的处理方法，所述方法包括：获取待发送语音信息，并将待发送语音信息转换为文字信息；基于文字信息，获取声音模型；根据声音模型转换待发送语音信息，得到目标语音信息，并发送目标语音信息。本发明实施例同时还公开了一种终端及计算机可读存储介质，以解决现有技术中对待发送语音的处理方法无法准确反映发送者的真实情绪的问题，提高了终端的智能化程度。

Description

一种语音信息的处理方法、终端及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音信息的处理方法、终端及计算机可读存储介质。

背景技术

智能手机已经成为重要的通讯工具，人们之间通过智能手机等设备进行语音通话已经非常普遍，通过这种方式与亲朋好友交流沟通，不仅可以增进彼此的感情，也可以拉近彼此的距离。为了使语音通话更加生动形象，现有技术中在发送语音时，可以对待发送语音增加特效。具体地，在智能手机接收到待发送语音之后，直接对待发送语音进行声调特征分析，基于该分析结果增加语音特效。

然而，对于没有明显的声调变化的待发送语音信息，采用上述方法则无法提取出准确的情感信息。例如：待发送语音内容为“这个月话费扣的有点多”。该内容虽然包含负面情绪，但是用户在输出上述待发送语音的过程中，如果没有明显的声调变化，那么手机获取到的语音特效将无法反映发送者的真实情绪。可见，现有技术中存在对待发送语音的处理方法无法准确反映发送者的真实情绪的问题。

发明内容

有鉴于此，本发明的主要目的在于提出一种语音信息的处理方法、终端及计算机可读存储介质，以解决现有技术中对待发送语音的处理方法无法准确反映发送者的真实情绪的问题，提高终端的智能化程度。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语音信息的处理方法，所述方法包括：获取待发送语音信息，并将待发送语音信息转换为文字信息；

基于文字信息，获取声音模型；

根据声音模型转换待发送语音信息，得到目标语音信息，并发送目标语音信息。

进一步地，基于文字信息，获取声音模型，包括：

从文字信息中获取关键字；

基于关键字，获取声音模型。

进一步地，基于关键字，获取声音模型，包括：

获取关键字对应的情感标识；

根据预存的情感标识与预设声音模型之间的映射关系，确定情感标识对应的声音模型。

进一步地，在获取待发送语音信息之前，方法还包括：

获取终端保存的历史通讯记录；

按照预设算法对历史通信记录进行学习，以生成预存的情感标识与预设声音模型之间的映射关系。

进一步地，获取待发送语音信息，并将待发送语音信息转换为文字信息，包括：

获取待发送语音信息的发送方与待发送语音信息的接收方之间的联系紧密度值；

判断联系紧密度值是否符合预设阈值；

若联系紧密度值符合预设阈值，确定将待发送语音信息转换为文字信息。

进一步地，在获取待发送语音信息之前，方法包括：

若检测到待发送语音信息的接收方，在终端的用户界面上显示可交互控件，可交互控件提供是否对待发送语音信息进行处理的选项；

相应的，获取待发送语音信息，并将待发送语音信息转换为文字信息，包括：

获取待发送语音信息；

若检测到可交互控件中的选项指示对待发送语音信息进行处理，将待发送语音信息转换为文字信息。

第二方面，本发明实施例提供一种终端，该终端包括处理器、存储器及通信总线；

通信总线用于实现处理器和存储器之间的连接通信；

处理器用于执行存储器中存储的语音信息的处理程序，以实现以下步骤：

获取待发送语音信息，并将待发送语音信息转换为文字信息；

基于文字信息，获取声音模型；

进一步地，基于文字信息，获取声音模型时，处理器还用于执行语音信息的处理程序，以实现以下步骤：

从文字信息中获取关键字；

基于关键字，获取声音模型。

进一步地，基于关键字，获取声音模型时，处理器还用于执行语音信息的处理程序，以实现以下步骤：

获取关键字对应的情感标识；

进一步地，在获取待发送语音信息之前，处理器还用于执行语音信息的处理程序，以实现以下步骤：

获取终端保存的历史通讯记录；

进一步地，获取待发送语音信息，并将待发送语音信息转换为文字信息时，处理器还用于执行语音信息的处理程序，以实现以下步骤：获取待发送语音信息的发送方与待发送语音信息的接收方之间的联系紧密度值；

判断联系紧密度值是否符合预设阈值；

获取待发送语音信息；

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述语音信息的处理方法的步骤。

本发明实施例提供的一种语音信息的处理方法、终端及计算机可读存储介质，该方法包括：获取待发送语音信息，并将待发送语音信息转换为文字信息；基于文字信息，获取声音模型；根据声音模型转换待发送语音信息，得到目标语音信息，并发送目标语音信息。也就是说，本发明实施例所提供的语音信息的处理方法，将待发送语音信息先转换为文字信息，然后基于文字信息获取声音模型，这相比于直接根据语音信息获取声音模型而言，能够更加精确的捕捉到待发送语音信息所包含的发送者的真实情绪并确定最接近的语音模型，最终基于确定的语音模型转换待发送语音信息得到目标语音；如此，终端能够将最能体现发送者真实情绪的目标语音发送给接收方，使得接收方准确的获取发送方的真实情绪；进而解决了现有技术中对待发送语音的处理方法无法准确反映发送者的真实情绪的问题，提高了终端的智能化程度。

附图说明

图1为实现本发明各个实施例的一种移动终端的硬件结构示意图；

图2为本发明实施例提供的一种通信网络系统架构图；

图3为本发明实施例的一种语音信息的处理方法的流程示意图；

图4为本发明实施例的一种语音信息的处理的界面示意图；

图5为本发明实施例的另一种语音信息的处理的界面示意图；

图6为本发明实施例的又一种语音信息的处理的界面示意图；

图7为本发明实施例的终端的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明的技术方案，并不用于限定本发明的保护范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PDA，Personal Digital Assistant)、便捷式媒体播放器(PMP，Portable Media Player)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：射频(RF，Radio Frequency)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址2000(CDMA2000，Code Division Multiple Access 2000)、宽带码分多址(WCDMA，WidebandCode Division Multiple Access)、时分同步码分多址(TD-SCDMA，Time Division-Synchronous Code Division Multiple Access)、频分双工长期演进(FDD-LTE，FrequencyDivision Duplexing-Long Term Evolution)和分时双工长期演进(TDD-LTE，TimeDivision Duplexing-Long Term Evolution)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮箱、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(GPU，Graphics Processing Unit)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为显示单元，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步地，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的用户设备(UE，UserEquipment)201，演进式UMTS陆地无线接入网(E-UTRAN，Evolved UMTS Terrestrial RadioAccess Network)202，演进式分组核心网(EPC，Evolved Packet Core)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括移动性管理实体(MME，Mobility Management Entity)2031，归属用户服务器(HSS，Home Subscriber Server)2032，其它MME2033，服务网关(SGW，ServingGate Way)2034，分组数据网络网关(PGW，PDN Gate Way)2035和政策和资费功能实体(PCRF，Policy and Charging Rules Function)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费关闭策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IP多媒体子系统(IMS，IP MultimediaSubsystem)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明方法各个实施例。

应理解，说明书通篇中提到的“本发明实施例”或“本发明其他实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在发明实施例中”或“在发明其他实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

本发明实施例提供一种语音信息的处理方法，该方法应用于终端，该方法所实现的功能可以通过终端中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该终端至少包括处理器和存储介质。在本实施例中，以终端是手机为例进行说明，参见图3所示，该方法包括以下步骤：

S301：获取待发送语音信息，并将待发送语音信息转换为文字信息。

这里，在用户使用手机进行即时语音聊天的过程中，手机能够实时获取到用户输入的待发送语音信息；然后，手机可以通过编码器芯片或带通滤波器、模/数转换器(Analog-to-Digital Converter，ADC)等对上述待发送语音信息进行预处理，如进行放大、滤波等预处理；接着，手机对上述待发送语音信息进行解析和转换，以得到转换后的文字信息。例如，手机可以通过调用应用程序编程接口(Application Programming Interface，API)实现语音转换为文字Speech To Text的目的。在本发明实施例中，将待发送语音信息转化为文字信息还可以采用现有的其他转换方法实现，以得到较为精确的文字信息为准，本发明实施例对此并不做具体的限定。此外，在手机获取待发送语音之前、或者之后，或者获取待发送语音的过程中，均可以获取到上述待发送语音的发送对象，即该待发送语音的接收方。该接受方与用户即发送方之间可以是第一次语音交互，也可以是经历了多次语音交互。

在实际应用中，示例性的，结合图4所示，当用户想要使用手机上的即时通讯软件与其他联系人进行语音聊天时，首先，用户在该即时通讯软件的通讯录41中选择其想要发送语音的接收方如张某42(图中黑色加粗边框显示联系人张某被用户选中，作为待发送语音的接收方)；此时，手机可以获取到待发送语音的接收方为张某。当然，该通讯录41中还可以包括其他的多个联系人，如王某、李某等。然后，结合图5所示，待用户选择张某作为接收方时，即时通讯软件的显示界面跳转到与张某的通讯界面；该通讯界面中显示有联系人张某51(与图4中的张某42所指代的是同一个联系人)、以及语音输入的触控按键52；该触控按键52用于接收用户输入的语音信息。在用户触控该触控按键52之后，输入待发送语音，相应的，在显示界面显示手机接收到待发送语音如图5中的53所示。然后，手机对上述待发送语音进行预处理，并将预处理后的待发送语音转换为文字信息。例如，该文字信息可以是：这个月话费扣的有点多；明显该文字信息包含有负面情绪。也可以是：这本书讲的是一个小男孩的成长故事；明显该文字信息包含平和、平稳的中性情绪。还可以是：开心麻花团队出品的羞羞的铁拳是一部非常感人的电影，有笑点有泪点，励志！明显该文字信息包含有正面情绪。由上述简单举例可知，人们日常生活交流中所说的文字信息包含有不同的情绪。最普遍、通俗的情绪有喜、怒、哀、惊、恐、爱等，也有一些细腻微妙的情绪如嫉妒、惭愧、羞耻、自豪等。本发明实施例正是基于情绪所包含的丰富多样的信息，提出一种语音信息的处理方法，能够自动为待发送语音信息增加特效，以反映用户即发送者的真实情绪，提升手机的智能化程度，提高人与人之间的沟通质量。

S302：基于文字信息，获取声音模型。

这里，上述声音模型可以是预先存储在手机中的多个不同的声音模型。通过上述多个不同的声音模型，可以改变输入的待发送语音的声音频率，进而改变声音的音色、音调，使输出的声音在感官上与原声音不同。例如，上述多个声音模型提供不同的变声，例如：大叔、惊悚、搞怪、感冒、外国人等等。例如，若手机将待发送语音信息转换为文字信息，得到：我今天去了游乐场，去鬼屋体验了一下，好可怕啊。那么，手机基于上述文字信息，获取到的声音模型可以是提供惊悚变声的声音模型。再例如，若手机将待发送语音信息转换为文字信息，得到：我实在是太聪明了。那么，手机基于上述文字信息，获取到的声音模型可以是提供搞怪变声的声音模型(如与武状元苏乞儿的台词原声模型)。需要说明的是，本发明实施例所提及的上述不同的声音模型以及不同声音模型对应的变声都是示例性的，并非对本发明实施例的限定，当然，本发明实施例还可以包括除了上述多种的声音模型之外的声音模型。

S303：根据声音模型转换待发送语音信息，得到目标语音信息，并发送目标语音信息。

这里，在S302根据文字信息，获取到对应的声音模型之后，可以根据声音模型对待发送语音进行转换，以得到变声后的目标语音信息。例如，若手机针对“我今天去了游乐场，去鬼屋体验了一下，好可怕啊”这一待发送语音获取到的声音模型是提供惊悚变声的声音模型，那么，该提供惊悚变声的声音模型可以将上述待发送语音进行惊悚变声，得到能体现发送者害怕情绪的目标语音信息。再例如，若手机针对“我实在是太聪明了”这一待发送语音获取到的声音模型是提供搞怪变声的声音模型，那么，该提供搞怪变声的声音模型可以将上述待发送语音进行搞怪变声，得到能体现发送者兴奋情绪的目标语音信息。最后，手机可以将目标语音信息发送至接收方。如此，接收方接收到的语音信息就是最能体现发送者情绪的语音信息。

由上述内容可知，本发明实施例所提供的语音信息的处理方法，能够获取待发送语音信息，并将待发送语音信息转换为文字信息；基于文字信息，获取声音模型；根据声音模型转换待发送语音信息，得到目标语音信息，并发送目标语音信息。也就是说，本发明实施例所提供的语音信息的处理方法，将待发送语音信息先转换为文字信息，然后基于文字信息获取声音模型，这相比于直接根据语音信息获取声音模型而言，能够更加精确的捕捉到待发送语音信息所包含的发送者的真实情绪并确定最接近的语音模型，最终基于确定的语音模型转换待发送语音信息得到目标语音；如此，终端能够将最能体现发送者真实情绪的目标语音发送给接收方，使得接收方准确的获取发送方的真实情绪；进而解决了现有技术中对待发送语音的处理方法无法准确反映发送者的真实情绪的问题，提高了终端的智能化程度。

基于前述实施例，在本发明其它实施例中，在上述S301获取待发送语音信息之前，方法还包括：

A₁、获取终端保存的历史通讯记录。

这里，历史通讯记录可以包括手机中存储的所有历史通讯记录。例如，包括不同联系人对应的所有历史通讯记录。上述历史通讯信息可以包括手机中的不同应用中的通讯记录。例如，针对联系人张某而言，与其对应的所有历史通讯记录可以来自于：手机短信、即使语音通讯软件、邮件等等。

A₂、按照预设算法对历史通信记录进行学习，以生成预存的情感标识与预设声音模型之间的映射关系。

这里，预设算法可以包括下述任意一种：文本情感分析、利用LSTM结合句法分析树、基于卷积神经网络和支持向量机。进一步地，手机可以基于上述预设算法对保存的历史通讯记录进行深度情感分析。这里，深度情感分析的目的是为了获取情感标签。由于用户使用手机与不同的联系人通讯时，发送的通讯信息所包含的内容、语气等都存在很大的区别。因此，手机可以获取保存的历史通讯记录，并根据该历史通讯记录挖掘用户与各个联系人的通讯过程中的情感标签。这里，上述预设声音模型可以是用户自己录制的声音模型，也可以是从网络上下载的声音模型。

进一步地，在实际应用中，按照预设算法对历史通讯记录进行学习的过程中，首先，需要建立预存的情感标识库，如：“撒娇”、“悲伤”、“兴奋”、“害怕”等等。上述预存的情感标识库中的情感标识是从上述历史通讯记录中获取的。在获取情感标识的过程中，可以参考网络情感标识库中的情感标识进行提取。在按照预设算法对历史通讯记录进行学习的过程中，手机可以根据用户的习惯等进行学习，将用户使用的一些新的情感标识类型添加到预存的情感标识库中，来扩充预存的情感标识库；此外，手机还可以通过运营商提供的网络或手机的无线网络等连接到网络情感标识库，在网络情感标识库中查询用户输入的待发送语音信息所包含的情感标识，也可以基于预存的情感标识库对用户输入的待发送语音信息所包含的情感标识进行查询，当然还可以有其它方式，本发明实施例不做具体限定。

其次，对于预存的情感标识库中的每一个预存的情感标识，维护一个词典；如针对预存的情感标识“兴奋”可维护一个如下词典：{“太好了”、“真棒”、“棒”，……}。相应的，针对其他预存的情感标识也可以维护一个对应的词典。然后，按照预设算法对预存的情感标识库进行学习，以生成预存的情感标识与预设声音模型之间的映射关系，如：预存的情感标识1对应于声音模型1、预存的情感标识1加预存的情感标识2对应于声音模型2、预存的情感标识3对应于声音模型3、预存的情感标识4对应于声音模型4以及预存的情感标识3加预存的情感标识4对应于声音模型5等等。

基于前述实施例，在本发明其它实施例中，上述S302基于文字信息，获取声音模型可以包括：

第一步，从文字信息中获取关键字；

这里，手机从文字中获取到的关键字可以是多个。例如，关键字包括：S₁、S₂、S₃、S₄。

第二步，基于关键字，获取声音模型。进一步地，上述基于关键字，获取声音模型，可以包括：B₁、获取关键字对应的情感标识。

这里，在手机从文字信息中获取到上述关键字S₁、S₂、S₃之后，进一步地，获取上述关键字对应的情感标识。这里，假设获取到的上述S₁对应的情感标识为预存的情感标识1；S₂对应的情感标识为预存的情感标识4；S₃对应的情感标识为预存的情感标识3。

B₂、根据预存的情感标识与预设声音模型之间的映射关系，确定情感标识对应的声音模型。

这里，可以根据上述A₂中生成的预存的情感标识与预设声音模型之间的映射关系，确定B₁中获取的关键字对应的情感标识所对应的声音模型。例如，S₁对应的情感标识1所对应的声音模型为声音模型1。S₂对应的情感标识4所对应的声音模型为声音模型4。S₃对应的情感标识3所对应的声音模型为声音模型3。

基于前述实施例，在本发明其它实施例中，上述S301获取待发送语音信息，并将待发送语音信息转换为文字信息，可以包括：

C₁、获取待发送语音信息的发送方与待发送语音信息的接收方之间的联系紧密度值。

这里，上述紧密度值可以用于表征发送方与接收方之间的通讯频度、历史通讯信息中的情感标签的丰富度、以及接收方在发送方的联系人中的排列顺序。

C₂、判断联系紧密度值是否符合预设阈值。

这里，预设阈值可以是百分比数值，如80％。相应的，当紧密度值用于表征发送方与接收方之间的通讯频度时，若一个月内发送方与接收方K₁之间的通讯次数大于50次，则确定通讯频度为99％。当紧密度值用于表征历史通讯信息中的情感标签的丰富度时，若发送方与接收方K₂的历史通讯记录中的情感标签仅为2个，则确定情感标签的丰富度为1％。当紧密度值用于表征接收方在发送方的联系人中的排列重要程度时，若接收方K₃在发送方的联系人中为第二联系人，则确定排列重要程度为85％。进一步地，手机可以基于上述通讯频度、情感标签的丰富度以及排列重要程度分别接收方K₁、K₂、以及K₃与发送方的联系紧密度值是否符合预设阈值80％。

C3、若联系紧密度值符合预设阈值，确定将待发送语音信息转换为文字信息。

这里，将C₂中的通讯频度、情感标签的丰富度以及排列重要程度与预设阈值80％进行比较可以得到，上述通讯频度和排列重要程度均符合预设阈值，那么，在用户通过手机向K₁和K₃发送语音信息时，手机将自动将待发送语音信息转换为文字信息。然而，由于上述情感标签的丰富度不符合预设阈值，那么，在在用户通过手机向K₂发送语音信息时，手机将不会执行自动将待发送语音信息转换为文字信息的相关操作。

当然，为了提高手机发送语音的灵活性，用户还可以自行选择对待发送语音信息是否进行特效处理。

基于前述实施例，在本发明其它实施例中，在上述S301获取待发送语音信息之前，上述方法可以包括：若检测到待发送语音信息的接收方，在终端的用户界面上显示可交互控件，可交互控件提供是否对待发送语音信息进行处理的选项。

这里，结合图4所示，在用户基于通讯录选择待发送语音信息的接收方如张某之后，手机的用户界面上显示一可交互控件。示例性的，参考图6所示，在图6中，该可交互控件向用户提供是否对待发送语音信息进行处理的选项，包括，选项61，该选项用于在接收到用户的第一触控指令后，响应该第一触控指令，确定对待发送语音信息进行处理；选项62，该选项用于在接收到用户的第二触控指令后，响应该第二触控指令，确定不对待发送语音信息进行处理。

相应的，获取待发送语音信息，并将待发送语音信息转换为文字信息，包括：获取待发送语音信息；若检测到可交互控件中的选项指示对待发送语音信息进行处理，将待发送语音信息转换为文字信息。这里，在选项61接收到用户的第一触控指令后(参见图6，图6中61黑色加粗边框显示该选项被用户选中，此时，手机获取到第一触控指令)，响应该第一触控指令，确定对待发送语音信息进行处理，将待发送语音信息转换为文字信息。

此外，在本发明实施例中，还可向用户提供相关的接口，以供用户选择数个好友加入到发送列表中，当用户向此发送列表中的好友发送语音信息时，自动对其进行特效处理。

基于前述实施例，本发明实施例提供一种终端，参考图7所示，该终端70包括：存储器71(对应于图1中的存储器109)、处理器72(对应于图1中的存储器110)以及存储在存储器71上并可在处理器72上运行的计算机程序73，上述存储器71与处理器72之间通过通信总线74连接，处理器72执行计算机程序73时实现以下步骤：

基于文字信息，获取声音模型；

从文字信息中获取关键字；

基于关键字，获取声音模型。

获取关键字对应的情感标识；

获取终端保存的历史通讯记录；

判断联系紧密度值是否符合预设阈值；

获取待发送语音信息；

在实际应用中，上述处理器可由中央处理器(Central Processing Unit，CPU)、GPU、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

这里需要指出的是：以上终端实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明终端实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，这里不再赘述。由上述内容可知，本发明实施例中的终端能够将待发送语音信息先转换为文字信息，然后基于文字信息获取声音模型，这相比于直接根据语音信息获取声音模型而言，能够更加精确的捕捉到待发送语音信息所包含的发送者的真实情绪并确定最接近的语音模型，最终基于确定的语音模型转换待发送语音信息得到目标语音；如此，终端能够将最能体现发送者真实情绪的目标语音发送给接收方，使得接收方准确的获取发送方的真实情绪；进而解决了现有技术中对待发送语音的处理方法无法准确反映发送者的真实情绪的问题，提高了终端的智能化程度。

基于前述实施例，本实施例提供一种计算机可读存储介质，可以应用于上述一个或者多个实施例中的移动终端，上述计算机可读存储介质存储有一个或者多个程序，上述一个或者多个程序可被一个或者多个处理器执行，以实现以下步骤：

基于文字信息，获取声音模型；

从文字信息中获取关键字；

基于关键字，获取声音模型。

获取关键字对应的情感标识；

获取终端保存的历史通讯记录；

判断联系紧密度值是否符合预设阈值；

获取待发送语音信息；

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语音信息的处理方法，其特征在于，所述方法包括：

获取待发送语音信息，并将所述待发送语音信息转换为文字信息；

基于所述文字信息，获取声音模型；

根据所述声音模型转换所述待发送语音信息，得到目标语音信息，并发送所述目标语音信息至接收方；

其中，所述获取待发送语音信息，并将所述待发送语音信息转换为文字信息，包括：

获取所述待发送语音信息的发送方与所述待发送语音信息的接收方之间的联系紧密度值，其中，所述联系紧密度值用于表征以下至少之一：所述发送方与所述接收方之间的通讯频度、历史通讯信息中的情感标签的丰富度、以及所述接收方在所述发送方的联系人中的排列顺序；

判断所述联系紧密度值是否符合预设阈值；

若所述联系紧密度值符合预设阈值，确定将所述待发送语音信息转换为所述文字信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述文字信息，获取声音模型，包括：

从所述文字信息中获取关键字；

基于所述关键字，获取所述声音模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述关键字，获取所述声音模型，包括：

获取所述关键字对应的情感标识；

根据预存的情感标识与预设声音模型之间的映射关系，确定所述情感标识对应的所述声音模型。

4.根据权利要求1或2所述的方法，其特征在于，在所述获取待发送语音信息之前，所述方法还包括：

获取终端保存的历史通讯记录；

按照预设算法对所述历史通讯记录进行学习，以生成预存的情感标识与预设声音模型之间的映射关系。

5.根据权利要求1所述的方法，其特征在于，在所述获取待发送语音信息之前，所述方法包括：

若检测到所述待发送语音信息的接收方，在终端的用户界面上显示可交互控件，所述可交互控件提供是否对所述待发送语音信息进行处理的选项；

相应的，所述获取待发送语音信息，并将所述待发送语音信息转换为文字信息，包括：

获取所述待发送语音信息；

若检测到所述可交互控件中的选项指示对所述待发送语音信息进行处理，将所述待发送语音信息转换为所述文字信息。

6.一种终端，其特征在于，所述终端包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的语音信息的处理程序，以实现以下步骤：

基于所述文字信息，获取声音模型；

其中，所述获取待发送语音信息，并将所述待发送语音信息转换为文字信息时，所述处理器还用于执行所述语音信息的处理程序，以实现以下步骤：

判断所述联系紧密度值是否符合预设阈值；

7.根据权利要求6所述的终端，其特征在于，在所述获取待发送语音信息之前，所述处理器还用于执行所述语音信息的处理程序，以实现以下步骤：

获取所述待发送语音信息；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的语音信息的处理方法的步骤。