CN106571136A

CN106571136A - 一种语音输出装置和方法

Info

Publication number: CN106571136A
Application number: CN201610972627.2A
Authority: CN
Inventors: 谢鲁冰; 温枭
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-04-19

Abstract

本发明公开了一种语音输出装置和方法，可以获取目标人物的历史语音信息，根据历史语音信息提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息；对转换得到的语音信息进行输出；目标人物的身份为人类，得到的声音特征信息反映的是目标人物的发音习惯，所以转换得到的语音信息与目标人物的发音相似，声音具有起伏高低，具有人类化的情绪，相对于现有技术中将文字信息转换为机器语言进行输出，本发明可以带给用户更加舒适自然的听觉享受，提升用户体验。

Description

一种语音输出装置和方法

技术领域

本发明涉及终端技术领域，更具体地说，涉及一种语音输出装置和方法。

背景技术

现在，一般的终端都提供有语音播报服务，可以将用户指定的文字转换为语音进行输出，以解决用户在不方便查看文字的时候，获取信息，或者解放双眼，保护视力。

该语音播报服务在很多时候可以为用户提供文字到语音的转换，例如当用户在开车时，收到了一条短信，出于安全考虑，用户不会点击手机查看短信，但是又不想错过重要信息，此时终端可以自动用语音播报的方式将短信念给用户，但是，在现有技术中，终端根据文字得到的语音是机器语音，与人类发音相差甚大，发音呆板，缺少与人交流的情感属性，用户体验较差。

发明内容

本发明要解决的技术问题在于现有技术的语音播报的声音机械化，缺少情感与人类自然发音效果差别大，针对该技术问题，提供一种语音输出装置和方法。

为解决上述技术问题，本发明提供一种语音输出装置，包括：

获取模块，用于获取目标人物的历史语音信息，以及获取目标文字信息；

提取模块，用于对所述历史语音信息进行特征提取，提取出所述目标人物的声音特征信息；

转换模块，用于将获取到的目标文字信息转换成与所述目标人物的声音特征信息相匹配的语音信息；

输出模块，用于对所述语音信息进行输出。

进一步地，获取模块包括：

第二接收模块，用于接收目标人物发送的文字信息，将接收到的文字信息作为目标文字信息；

或者，生成模块，用于将本地存储的任一段文字信息作为目标文字信息。

进一步地，获取模块包括第一接收模块，用于在获取目标人物的历史语音信息前，接收用户在通讯录中对联系人的选定操作，将用户选定的联系人作为所述目标人物。

进一步地，获取模块还包括匹配模块，用于根据所述用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。

进一步地，声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。

为解决上述技术问题，本发明还提供了一种语音输出方法，包括：

获取目标人物的历史语音信息；

对所述历史语音信息进行特征提取，提取出所述目标人物的声音特征信息；

获取目标文字信息；

将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息；

对语音信息进行输出。

进一步地，获取目标文字信息包括：

接收目标人物发送的文字信息，将接收到的文字信息作为目标文字信息；

或者，将本地存储的任一段文字信息作为目标文字信息。

进一步地，获取目标人物的历史语音信息之前，还包括通过以下方式确定所述目标人物：

接收用户在通讯录中对联系人的选定操作，将用户选定的联系人所述目标人物。

进一步地，获取目标人物的历史语音信息包括：

根据所述用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息

采用本发明的语音输出装置和方法，可以获取目标人物的历史语音信息，根据历史语音信息提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与声音特征信息相匹配的语音信息；目标人物的身份为人类，得到的声音特征信息反映的是目标人物的发音习惯，所以转换得到的语音信息与目标人物的发音习惯相似，声音具有起伏高低，具有人类化的情绪，相对于现有技术的机器语言，对转换得到的语音信息进行输出可以带给用户更加舒适自然的听觉享受，提升用户体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

图2为本发明实施例一提供的一种语音输出装置的模块示意图；

图3为本发明实施例一提供的另一种语音输出装置的模块示意图；

图4为本发明实施例二提供的一种终端的硬件结构示意图

图5为本发明实施例三提供的一种语音输出方法的流程图；

图6为本发明实施例四提供的另一种语音输出方法的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端，然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元140、存储器150、控制器160和电源单元170等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件，可以替代地实施更多或更少的组件，将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。本实施例的无线通信模块110可以用来获取目标文字信息，以及从网上获取目标对象的语音数据作为历史语音信息存储在存储器150中。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器150(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示模块141上。经相机121处理后的图像帧可以存储在存储器150(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示模块141上时，可以形成触摸屏。

输出单元140可以包括显示模块141、音频输出模块142、警报模块143等等。

显示模块141可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示模块141可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示模块141可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示模块141和触摸板以层的形式彼此叠加以形成触摸屏时，显示模块141可以用作输入装置和输出装置。显示模块141可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示模块(或其它显示装置)，例如，移动终端可以包括外部显示模块(未示出)和内部显示模块(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块142可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器150中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块142可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块142可以包括扬声器、蜂鸣器等等。音频输出模块142可以用来播放转换得到的语音信息。

警报模块143可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报模块143可以以不同的方式提供输出以通知事件的发生。例如，警报模块143可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incoming communication)时，警报模块143可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报模块143也可以经由显示模块141或音频输出模块142提供通知事件的发生的输出。

存储器150可以存储由控制器160执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器150可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。存储器150种可以存储目标人物的历史语音信息，联系人与历史语音信息的对应关系。

存储器150可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器150的存储功能的网络存储装置协作。

控制器160通常控制移动终端的总体操作。例如，控制器160执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器160可以包括用于再现(或回放)多媒体数据的多媒体模块181，多媒体模块181可以构造在控制器160内，或者可以构造为与控制器160分离。控制器160可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。控制器160可以用于对历史语音信息进行特征提取，提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息。

电源单元170在控制器160的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器160中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器150中并且由控制器160执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

以下通过具体实施例进行详细说明。

第一实施例

参见图2，本实施例示出一种语音输出装置，可以对人类的发音习惯进行学习，在用户需要将文字信息进行语音输出时，模仿人类的发音进行输出，改善了现有技术中，电子设备模拟发音时，语气呆板、僵硬，没有起伏变换没有情感等缺点，带给用户更优质的语音输出服务，有效提升用户体验感。

本实施例的语音输出装置包括：

第一获取模块21，用于获取目标人物的历史语音信息；

提取模块22，用于对历史语音信息进行特征提取，提取出目标人物的声音特征信息；

第二获取模块23，用于获取目标文字信息；

转换模块24，用于将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息；

输出模块25，用于对语音信息进行输出。

在本实施例中，语音输出装置可以由图1中的终端实现，终端包括但不限于移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。第一获取模块21根据作用的不同，可以由不同的硬件实现、提取模块22和转换模块24可以由图1中的控制器160实现，输出模块25可以由图1中的音频输出模块151实现。

本实施例中的语音输出装置的作用是将目标文字信息转换为人类语音输出，本实施例对于目标人物的身份没有任何限定，无论男女、老幼，所有人的声音特征信息在本实施例中都可以作为目标人物的声音特征信息使用。例如，若用户喜欢蔡国庆的声音，可以将蔡国庆设置为目标人物，语音输出装置可以利用图1中的无线通信单元110从网上下载蔡国庆的语音数据包，将该语音数据包作为历史语音信息，提取其声音特征信息；或者若用户喜欢自己亲人的声音，语音输出装置可以利用图1中的麦克风122录制目标人物的音频数据，将该音频数据作为目标人物的历史语音信息，根据录制的音频数据提取该目标人物的声音特征信息。

可以理解，当目标人物是用户熟悉的亲朋好友时，用户一般会通过多种语音交流手段和该目标人物进行沟通，例如电话通信、微信语音、QQ语音等。这些语音交流手段为目标人物的历史语音信息提供了来源。所以，本实施例中第一获取模块21获取的历史语音信息可以是在例如微信、QQ等聊天软件的聊天记录中，对目标人物的音频数据进行提取得到的历史语音信息，也可以是对与目标人物的历史通话进行录音获取的目标人物的语音信息等等，本实施例对目标人物的历史语音信息来源没有任何限制。

可以理解，为了转换模块24转换得到的语音信息与目标人物声音差别更小，提取模块22用于对历史语音进行特征提取，提取出目标人物在不同情绪下的声音特征信息。

其中，可以预见，对于提取模块22，其提取出的声音特征信息越详细、准确，转换模块24转换得到的语音信息与目标人物的发音习惯就越接近。进一步的，本实施例的声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。

可以理解的是，对于同一目标人物而言，当其处于不同情绪时，说话的声音特征信息也不相同。例如，当目标人物伤心时，其声音的音调一般比较低沉，音量一般不会很高，而且说话的尾音一般会降调；当目标人物高兴时，声音的音调一般比较高昂，音量一般不会太低，且声音的尾音一般会上扬等等。所以进一步地，提取模块22用于提取目标人物在不同的情绪下的声音特征信息。

转换模块24在将获取到的目标文字信息转换成与提取模块22提取的声音特征信息相匹配的语音信息时，可以先对获取到的目标文字信息进行情绪分析，确定发送目标文字信息的一方在发送目标文字信息时欲表达的情绪，例如，若目标文字信息是用来通知使用语音输出装置的用户其亲人生病住院，目标文字信息对应的情绪一般是伤心；若目标文字信息是用来祝贺和使用语音输出装置的用户节日快乐，目标文字信息对应的情绪一般是高兴；进一步地，转换模块24用于根据获取的目标文字信息的内容对该目标文字信息进行情绪分析，确定该目标文字信息对应的情绪，再根据提取模块22提取的目标人物在不同情绪下的声音特征信息，将获取到的目标文字信息转换成与提取模块22提取的声音特征信息相匹配的语音信息。

转换模块24完成了目标文字信息到目标人物的声音信息的转换，之后，转换模块24可以将语音信息输入到输出模块25，并控制输出模块25对语音信息进行输出即可。

一般而言，终端上的通讯录集成了绝大部分用户熟悉的联系人的信息。为了保证历史语音信息与目标人物的对应关系正确，在存储历史语音信息时，可以使用目标人物在通讯录中的信息，对历史语音信息和联系人进行对应存储。所以，本实施例中，用户还可以将通讯录中的联系人设置为目标人物，语音输出装置可以对每个联系人对应存储其历史语音信息；该历史语音信息可以存储统一的数据库中，该数据库可以设置在图1中的存储器150中。

参见图3，进一步的，第一获取模块21包括第一接收模块211和匹配模块212，第一接收模块211用于接收用户在通讯录中对联系人的选定操作，将用户选定的联系人作为目标人物。其中选定操作包括：手动选定操作或语音选定操作。匹配模块212，用于根据第一接收模块211根据用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。为了丰富得到历史语音信息方式，本实施例的还包括录音模块，可以在通讯录上的联系人与用户通话时，记录联系人的语音信息，并将语音信息与联系人对应存入存储器150中统一设置的数据库。录音模块可以由图1中的麦克风122和处理器160实现。

在生活中，用户在与目标人物沟通时，若接收到目标人物的文字信息，但又不方便查看，例如用户A在开车，收到了用户B的短信，为了安全着想不能打开手机查看，此时，用户可以利用本实施例的装置，模仿人类说话的声音特性将用户B的短信进行语音输出。当然，上述的文字信息并不限于在短信中，还可以是在微信、QQ等实时聊天软件中收到的文字信息，还可以是某些AAP的文字推广信息、提示信息，或者是本地存储的文字信息，如小说、工作文件等等。

进一步的，当用户A通过短信、微信、QQ等收到用户B的文字信息后，如是采用用户B的声音将用户B发送的文字信息播放出来，则用户通过倾听播放的语音信息，可以知道用户B的身份，以及用户B发送的文字信息的内容，有利于提高用户体验。

鉴于此，语音输出装置优选采用发送文字信息的用户的声音播放该用户发送的文字信息。可选的，本实施例第二获取模块23还包括第二接收模块231，用于接收目标人物发送的文字信息，将接收到的文字信息作为目标文字信息，此时，提取模块22提取的声音特征信息就是发送目标文字信息的对象的声音特征信息，输出模块25在进行语音输出时利用的自然是发送目标文字信息的对象的声音。

其中，若第二接收模块231接收的是目标人物通过短信发送的文字信息，则匹配模块212可以根据目标人物对应的联系人信息，以及存储在数据库中的联系人与历史语音信息的对应关系，从数据库中匹配出目标人物的历史语音信息。

另外，可以理解的是，若是用户想通过语音输出方式对某用户的历史文字信息进行了解，本实施例中的装置还包括生成模块232，用于将本地存储的任一段文字信息作为目标文字信息，该目标文字信息可以是短信、微信、QQ等历史记录中的文字信息，生成模块232可以根据用户的设置，将用户选定的本地的文字信息作为目标文字信息。然后利用提取模块22、转换模块24以及输出模块25完成文字到语音的转换、输出过程。

在本实施例中，若微信、QQ等实时通讯软件与终端上的通讯录绑定，则本实施例的语音输出装置可以将在微信、QQ中的语音记录信息与联系人对应保存在数据库中，若微信、QQ等实时通讯软件与终端上的通讯录未绑定，则微信、QQ等软件中的语音记录可以分别保存，保存时，可以将微信号或QQ号等用户身份识别信息与语音对应保存在数据库中以供提取声音特征信息使用。

采用本实施例的语音输出装置，可以获取目标人物的历史语音信息，并根据该历史语音信息提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与声音特征信息相匹配的语音信息；对语音信息进行输出，本实施例得到的声音特征信息反映的是目标人物的发音习惯，所以转换得到的语音信息与目标对应的发音相似，声音具有起伏高低，具有人类化的情绪，相对于现有技术的机器语言输出，本实施例的装置可以带给用户更加人性化的语音输出体验。

第二实施例

参见图4，本实施例示出一种终端，包括控制器160、无线通信单元110、音频输出模块142，存储器150，麦克风122，用户输入单元130。其中，无线通信单元110、音频输出模块142，存储器150，麦克风122，用户输入单元130与控制器160连接；无线通信单元110包括移动通信模块112、互联网通信模块113、短程通信模块114。

无线通信单元110用于获取目标文字信息。移动通信模块112用于通过短信接收目标文字信息。互联网通信模块113和短程通信模块114用于通过网络接收对方利用即时通讯软件发送的目标文字信息。该目标文字信息可以是发送方通过短信、微信、QQ等即时通讯软件发送的文字信息。

控制器160用于将存储在本地文字信息作为目标文字，以及获取目标人物的历史语音信息；还用于对历史语音信息进行特征提取，提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息；将转换后的语音信息传输给音频输出模块142，音频输出模块142用于对控制器160转换得到的语音信息进行输出。

本实施例的终端包括但不限于移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本实施例中对目标人物的身份没有任何限定，无论男女、老幼，所有人的声音特征信息在本实施例中都可以作为目标人物的声音特征信息使用。

例如，若用户喜欢蔡国庆的声音，可以将蔡国庆设置为目标人物，无线通信单元110中的无线互联网模块113可以利用无线互联网从网上下载蔡国庆的语音数据包，将该语音数据包作为历史语音信息存储，由控制器160从存储器160中获取该语音数据包，提取蔡国庆的声音特征信息；或者，短程通信模块114利用WiFi或蓝牙的方式连接无线热点，通过无线热点网络从网上下载蔡国庆的语音数据包，将该语音数据包作为历史语音信息存储，由控制器160从存储器160中获取该语音数据包。另外，若用户喜欢自己亲人的声音，终端中的麦克风122可以用来录制目标人物的音频数据，将该音频数据作为历史语音信息存储，控制器160根据录制的音频数据提取该目标人物的声音特征信息。

可以理解，当目标人物是用户熟悉的亲朋好友时，用户一般会通过多种语音交流手段和该目标人物进行沟通，例如电话通信、微信语音、QQ语音等。这些语音交流手段为目标人物的历史语音信息提供了来源。所以，本实施例中控制器160获取的历史语音信息可以是在例如微信、QQ等聊天软件的聊天记录中，对目标人物的音频数据进行提取得到的历史语音信息，也可以是对与目标人物的历史通话进行录音获取的目标人物的语音信息等等，本实施例对目标人物的历史语音信息来源没有任何限制。

可以预见，本实施例的控制器160提取出的声音特征信息越详细、准确，转换得到的语音信息与目标人物的发音习惯就越接近。进一步的，本实施例的声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。

可以理解的是，对于同一目标人物而言，当其处于不同情绪时，说话的声音特征信息也不相同。例如，当目标人物伤心时，其声音的音调一般比较低沉，音量一般不会很高，而且说话的尾音一般会降调；当目标人物高兴时，声音的音调一般比较高昂，音量一般不会太低，且声音的尾音一般会上扬等等。所以进一步地，控制器160用于提取目标人物在不同的情绪下的声音特征信息。

控制器160在将获取到的目标文字信息转换成与自身提取的声音特征信息相匹配的语音信息时，可以先对获取到的目标文字信息的内容进行情绪分析，确定发送目标文字信息的一方在发送目标文字信息时欲表达的情绪，例如，若目标文字信息是用来通知使用终端的用户其亲人生病住院，目标文字信息对应的情绪一般是伤心；若目标文字信息是用来祝贺和使用终端的用户节日快乐，目标文字信息对应的情绪一般是高兴。进一步地，控制器160用于根据获取的目标文字信息的内容对该目标文字信息进行情绪分析，确定该目标文字信息对应的情绪，再根据自身提取的目标人物在不同情绪下的声音特征信息，将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息。

控制器160完成了目标文字信息到目标人物的声音信息的转换之后，可以将语音信息输入到音频输出模块142，并控制音频输出模块142对语音信息进行输出即可。

一般而言，终端上的通讯录集成了绝大部分用户熟悉的联系人的信息。为了保证历史语音信息与目标人物的对应关系正确，在存储历史语音信息时，可以使用目标人物在通讯录中的信息，对历史语音信息和联系人进行对应存储。所以，本实施例中，用户还可以将通讯录中的联系人设置为目标人物，终端可以对每个联系人对应存储其历史语音信息；该历史语音信息可以存储统一的数据库中，该数据库可以设置在存储器150中。

可选的，控制器160用于接收用户对通讯录中联系人的选定操作，将用户选定的联系人作为目标人物。其中选定操作包括：手动选定操作或语音选定操作。用户的手动选定操作可以通过用户输入单元130输入。语音选定操作可以通过麦克风122输入。确定目标人物后，控制器160还可以根据用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。

在生活中，用户在与目标人物沟通时，若接收到目标人物的文字信息，但又不方便查看，例如用户A在开车，收到了用户B的短信，为了安全着想不能打开手机查看，此时，终端可以实现模仿人类说话的声音特性将用户B的短信进行语音输出。当然，本实施例的目标文字信息并不限于在短信中，还可以是在微信、QQ等实时聊天软件中收到的文字信息，还可以是某些AAP的文字推广信息、提示信息，或者是本地存储的文字信息，如小说、工作文件等等。

进一步的，当用户A通过短信、微信、QQ等收到用户B的文字信息后，若采用用户B的声音将用户B发送的文字信息播放出来，则用户A通过倾听播放的语音信息，可以知道用户B的身份，以及用户B发送的文字信息的内容，用户体验得到了很大的提升。

鉴于此，可选的，本实施例的终端可以利用发送文字信息的用户的声音播放该用户发送的文字信息。无线通信单元110用于接收目标人物发送的文字信息，控制器160将无线通信单元110接收到的文字信息作为目标文字信息。最终，控制器160提取的声音特征信息就是发送目标文字信息的对象的声音特征信息，音频输出模块142在输出语音信息时自然是以发送目标文字信息的目标人物的声音进行输出。

其中，若无线通信单元110接收的是目标人物通过短信发送的文字信息，则处理器180可以根据目标人物对应的联系人信息，以及存储在数据库中的联系人与历史语音信息的对应关系，从数据库中匹配出目标人物的历史语音信息；对历史语音信息进行特征提取，提取出目标人物的声音特征信息。

另外，可以理解的是，本实施例的终端还可以用来通过语音输出方式对短信、微信、QQ等的历史文字信息进行输出。控制器160还用于将本地存储的任一段文字信息作为目标文字信息，该目标文字信息可以是短信、微信、QQ等历史记录中的文字信息，控制器160可以根据用户的设置，将用户选定的本地的文字信息作为目标文字信息。然后完成目标文字信息到语音信息的转换过程。

采用本实施例的终端，可以获取目标人物的历史语音信息，并根据该历史语音信息提取出目标人物的声音特征信息；将获取到的目标文字信息转换成与声音特征信息相匹配的语音信息；本实施例终端得到的声音特征信息反映的是目标人物的发音习惯，所以转换得到的语音信息与目标对应的发音相似，声音具有起伏高低，具有人类化的情绪，相对于现有技术的机器语言输出，本实施例的终端对语音信息进行输出时声音更加人性化，更具有人类情感，提升了语音输出的听觉体验。

第三实施例

参见图5，本实施例示出一种语音输出方法，可以模仿人类的发音对文字信息进行语音输出，改善了现有技术中，电子设备模拟发音时，语气呆板、僵硬，没有起伏变换没有情感等缺点，带给用户更优质的语音输出服务。

本实施例的语音输出方法包括：

S501、获取目标人物的历史语音信息；

S502、对历史语音信息进行特征提取，提取出目标人物的声音特征信息；

S503、获取目标文字信息；

S504、将获取到的目标文字信息转换成与目标人物的声音特征信息相匹配的语音信息；

S505、对语音信息进行输出。

在本实施例中，上述的步骤可以由图1中的终端实现。

在本实施例中，对于目标人物的身份没有任何限定，无论男女、老幼，所有人的声音特征信息在本实施例中都可以作为目标人物的声音特征信息使用。例如，若用户喜欢蔡国庆的声音，可以将蔡国庆设置为目标人物，具体的，可以通过图1中的无线通信单元110，利用无线互联网、蓝牙或WiFi的方式，从网上下载蔡国庆的语音数据包，将该语音数据包作为历史语音信息，然后提取其声音特征信息；或者若用户喜欢自己亲人的声音，本实施例还可以预先录制目标人物的音频数据，将该音频数据作为目标人物的历史语音信息，根据录制的音频数据提取该目标人物的声音特征信息。

其中，可以预见，本实施例S502中提取出的声音特征信息越详细、准确，S504中转换得到的语音信息与目标人物的发音习惯就越接近。进一步的，本实施例的声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。

可以理解的是，对于同一目标人物而言，当其处于不同情绪时，说话的声音特征信息也不相同。例如，当目标人物伤心时，其声音的音调一般比较低沉，音量一般不会很高，而且说话的尾音一般会降调；当目标人物高兴时，声音的音调一般比较高昂，音量一般不会太低，且声音的尾音一般会上扬等等。

所以进一步地，S502包括根据历史语音信息，提取目标人物在不同的情绪下的声音特征信息。对应的，在S504中，在将获取到的目标文字信息转换成与提取的声音特征信息相匹配的语音信息的过程时，可以先对获取到的目标文字信息进行情绪分析，确定发送目标文字信息的一方在发送目标文字信息时欲表达的情绪，如若目标文字信息是用来通知使用终端的用户其亲人生病住院，目标文字信息对应的情绪一般是伤心；若目标文字信息是用来祝贺和使用终端的用户节日快乐，目标文字信息对应的情绪一般是高兴；再将目标文字信息转换为该情绪下与目标人物的声音特征信息相匹配的语音信息。

所以，进一步地，S504包括：根据获取的目标文字信息的内容对该目标文字信息进行情绪分析，确定该目标文字信息对应的情绪，再根据S502中提取的目标人物在不同情绪下的声音特征信息，将获取到的目标文字信息转换成确定的情绪下与提取的声音特征信息相匹配的语音信息。

完成了目标文字信息到目标人物的声音信息的转换之后，就可以继续进行S505的语音输出过程。

可以理解，当目标人物是用户熟悉的亲朋好友时，用户与目标人物一般都存在语音沟通。例如，电话通信、微信语音通信等。所以除了特地录制目标人物的声音得到历史语音信息外，还可以在与目标人物通话的同时，记录目标人物的语音信息得到历史语音。

上述历史语音信息可以是在例如微信、QQ等聊天软件的聊天记录中，对目标人物的音频数据进行提取得到的历史语音信息，也可以是对与目标人物的历史电话通话进行录音获取的目标人物的语音信息。

一般而言，终端上的通讯录集成了绝大部分用户熟悉的联系人的信息。为了保证历史语音信息与目标人物的对应关系正确，在存储历史语音信息时，可以使用目标人物在通讯录中的信息，对历史语音信息和联系人进行对应存储。所以，本实施例中，用户还可以将通讯录中的联系人设置为目标人物，语音输出装置可以对每个联系人对应存储其历史语音信息；该历史语音信息可以存储统一的数据库中，该数据库可以设置存储器中。

其中，若微信、QQ等实时通讯软件与终端上的通讯录绑定，则本实施例的还可以将在微信、QQ中的语音记录信息与联系人对应保存在数据库中，若微信、QQ等实时通讯软件与终端上的通讯录未绑定，则微信、QQ等软件中的语音记录可以分别保存，保存时，可以将微信号或QQ号等用户身份识别信息与语音对应保存在数据库中以供提取声音特征信息使用。

进一步的，本实施例确定目标人物的方法包括：

接收用户在通讯录中对联系人的选定操作，将用户选定的联系人作为目标人物。其中选定操作包括：手动选定操作或语音选定操作。

获取目标人物的历史语音信息包括：

根据用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。

在生活中，用户在与其他人沟通时，若接收到目标人物的文字信息，但又不方便查看，例如用户A在开车，收到了用户B的短信，为了安全着想不能打开手机查看，此时，用户可以利用本实施例的方法，模仿人类说话的声音特性对用户B的短信进行输出。当然，上述的文字信息并不限于在短信中，还可以是在微信、QQ等实时聊天软件中收到的文字信息，还可以是某些AAP的文字推广信息、提示信息，或者是本地存储的文字信息，如小说、工作文件等等。

鉴于此，在本实施例中，还可以利用发送文字信息的用户的声音播放该用户发送的文字信息。可选的，本实施例还包括通过如下方式获取目标文字信息：

或者，将本地存储的任一段文字信息作为目标文字信息。

其中，若接收的是目标人物通过短信发送的文字信息，则本实施例可以根据目标人物对应的联系人信息，以及存储在数据库中的联系人与历史语音信息的对应关系，从数据库中匹配出目标人物的历史语音信息；对历史语音信息进行特征提取，提取出目标人物的声音特征信息，完成目标人物的文字信息到目标任务的语音信息的转换过程。

另外，可以理解的是，若是用户想通过语音输出方式对某用户的历史文字信息进行了解，终端可以根据用户的设置，将用户选定的本地的文字信息作为目标文字信息。然后进行文字到语音的转换、输出过程。

采用本实施例的语音输出方法，可以得到反映目标人物发音习惯的声音特征信息，进而将获取的目标文字信息转换得到与目标人物的发音相似的语音信息，本实施例的方法得到的语音信息在输出时具有起伏高低，具有人类化的情绪，相对于现有技术的机器语言输出，本实施例的输出声音更加人性化，更具有人类情感，提升了用户对语音输出的听觉体验。

第四实施例

参见图6，本实施例示出一种语音输出方法，包括：

S601、终端接收目标人物发送的文字信息，将接收到的文字信息作为目标文字信息；

S602、根据数据库中预存的联系人与历史语音信息的对应关系，查找到目标人物的历史语音数据；

S603、对目标人物的历史语音数据进行语音特征提取，得到目标人物的语音声音特征信息；

其中，上述的语音声音特征信息包括音色、音调、音量、振幅、尾音中的至少一种。

S604、将获取到的目标文字信息转换成与提取的声音特征信息相匹配的语音信息。

S605、对转换得到的语音信息进行输出。

采用本实施例的语音输出方法，可以得到反映目标人物发音习惯的声音特征信息，进而将目标人物发送的目标文字信息转换为与目标人物的发音习惯相似的语音信息，相对于现有技术的机器语言，本实施例输出的声音更加人性化，更具有人的类情感表达，且能利用发送文字信息的用户的声音播放该文字信息对应的语音信息，提升了用户对语音输出服务的体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种终端，语音输出装置，其特征在于，包括：

第一获取模块，用于获取目标人物的历史语音信息；

第二获取模块，用于获取目标文字信息；

输出模块，用于对所述语音信息进行输出。

2.如权利要求1所述的语音输出装置，其特征在于，所述第二获取模块包括：

第二接收模块，用于接收所述目标人物发送的文字信息，将接收到的所述文字信息作为所述目标文字信息；

或者，生成模块，用于将本地存储的任一段文字信息作为所述目标文字信息。

3.如权利要求1所述的语音输出装置，其特征在于，所述第一获取模块包括第一接收模块，用于在获取目标人物的历史语音信息前，接收用户在通讯录中对联系人的选定操作，将用户选定的联系人作为所述目标人物。

4.如权利要求3所述的语音输出装置，其特征在于，所述第一获取模块还包括匹配模块，用于根据所述用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。

5.如权利要求1至4任一项所述的语音输出装置，其特征在于，所述声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。

6.一种语音输出方法，其特征在于，包括：

获取目标人物的历史语音信息；

获取目标文字信息；

将获取到的目标文字信息转换成与所述目标人物的声音特征信息相匹配的语音信息；

对所述语音信息进行输出。

7.如权利要求6所述的语音输出方法，其特征在于，所述获取目标文字信息包括：

接收所述目标人物发送的文字信息，将接收到的所述文字信息作为所述目标文字信息；

或者，将本地存储的任一段文字信息作为所述目标文字信息。

8.如权利要求6所述的语音输出方法，其特征在于，所述获取目标人物的历史语音信息之前，还包括通过以下方式确定所述目标人物：

接收用户在通讯录中对联系人的选定操作，将用户选定的联系人作为所述目标人物。

9.如权利要求8所述的语音输出方法，其特征在于，所述获取目标人物的历史语音信息包括：

根据所述用户选定的联系人，以及预存的联系人与历史语音信息的对应关系，从数据库中匹配对应的历史语音信息。

10.如权利要求6至9任一项所述的语音输出方法，其特征在于，所述声音特征信息包括：音色、音调、音量、振幅、尾音中的至少一种。