CN106024014A

CN106024014A - 一种语音转换方法、装置及移动终端

Info

Publication number: CN106024014A
Application number: CN201610350035.7A
Authority: CN
Inventors: 张涛
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2016-10-12
Anticipated expiration: 2036-05-24
Also published as: CN106024014B

Abstract

本发明公开了一种语音转换方法、装置及移动终端，在接收到语音信息后，通过对语音信息进行识别，将语音信息转换成对应的文本信息，然后根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号并进行显示，其有益效果是使得用户在使用移动终端的过程中，可直接将接收到的语音信息以表情符号的形式进行显示，直观的表达用户的情绪，也增加了聊天的趣味性。同时，也使得用户不受环境因素的影响，能时刻关注到重要信息，相应的，也避免了用户长期使用单一的语音聊天模式，极大程度的提升了用户体验。

Description

一种语音转换方法、装置及移动终端

技术领域

本发明涉及网络通信技术领域，更具体地说，涉及一种语音转换方法、装置及移动终端。

背景技术

近些年通信技术和电子终端的快速发展，已使得各种终端可以提供网络服务，越来越多的人通过网络进行交流沟通，传统的聊天方式是通过语音的形式进行交流沟通，当用户不便接听语音或者在嘈杂环境中无法听清语音时，可直接将语音转换成文字进行显示，如微信的语音转文字功能。但是，在将语音转换成文字时，无法将语音信息以表情符号的形式进行显示，如，无法将语音中的语气以表情符号的形式进行显示，从而使语音接收者无法通过文字体会语音发送者的情绪，在影响用户体验的同时，也缺乏趣味性。

发明内容

本发明实施例要解决的技术问题在于现有技术中无法将语音信息转换成表情符号进行显示，从而影响用户体验，针对该技术问题，提出一种语音转换方法、装置及移动终端。

为解决上述技术问题，本发明实施例提供一种语音转换装置，包括：

接收模块，用于接收语音信息；

文本转换模块，用于对语音信息进行识别，将语音信息转换成对应的文本信息；

表情转换模块，用于根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号；

显示模块，用于显示表情符号。

其中，所述文本转换模块用于从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签；

和/或，所述文本转换模块用于从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

其中，还包括：存储模块，用于存储所述表情库。

其中，还包括：处理模块，用于接收转换权限指令，根据所述转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

进一步地，本发明实施例还提供一种移动终端，包括：如上所述的语音转换装置。

进一步地，本发明实施例还提供一种语音转换方法，包括：

接收语音信息；

对语音信息进行识别，将语音信息转换成对应的文本信息；

根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号；

显示表情符号。

其中，所述将语音信息转换成对应的文本信息包括：

从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签；

和/或，从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

其中，在所述接收语音信息之前，还包括：存储所述表情库。

其中，在所述接收语音信息之前，还包括：接收转换权限指令，根据所述转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

其中，在云端或本端将语音信息转换成对应的文本信息，并将文本信息转换成表情符号。

有益效果

本发明实施例提出的语音转换方法、装置及移动终端，在接收到语音信息后，通过对语音信息进行识别，将语音信息转换成对应的文本信息，然后根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号并进行显示，使得用户在使用移动终端的过程中，可直接将接收到的语音信息以表情符号的形式进行显示，直观的表达用户的情绪，也增加了聊天的趣味性。同时，也使得用户不受环境因素的影响，能时刻关注到重要信息，相应的，也避免了用户长期使用单一的语音聊天模式，极大程度的提升了用户体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图；

图2为本发明第一实施例提供的语音转换装置示意图；

图3为本发明第二实施例提供的移动终端示意图；

图4为本发明第三实施例提供的语音转换方法流程图；

图5为本发明第四实施例提供的将语气标签转换为表情符号的流程图；

图6为本发明第五实施例提供的将文本内容转换为表情符号的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"单元"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本实施例的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

移动终端100包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图2示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括麦克风122，麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)，例如，移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报单元153可以以不同的方式提供输出以通知事件的发生。例如，警报单元153可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(in coming communication)时，警报单元153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信等等相关的控制和处理。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

以下通过具体实施例进行详细说明。

第一实施例

本实施例提供了一种语音转换装置，该装置能够在周边嘈杂、正在开会、语音信息中存在敏感字词等不便接听语音的场景下，将语音信息转换成文本信息，然后将文本信息转换成表情符号，使得用户及时获取到重要信息的同时，可以根据表情符号直观的感受语音发送者的情绪，相应的也增加了聊天的趣味性，进一步的提升用户体验。

请参见图2，图2为本实施例提供的语音转换装置示意图，该装置包括：

接收模块201，用于接收语音信息；

文本转换模块202，用于对语音信息进行识别，将语音信息转换成对应的文本信息；

表情转换模块203，用于根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号；

显示模块204，用于显示表情符号。

文本转换模块202用于从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签；

和/或，文本转换模块202用于从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

该语音转换装置还包括：

存储模块205，用于存储所述表情库；

处理模块206，用于接收转换权限指令，根据转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

上述各功能模块执行的功能可通过图1中的部分硬件来实现，并在后续的描述中以具体硬件对本发明各实施例进行说明，当然，各硬件执行的功能也可由上述功能模块实现。上述各功能模块的功能具体由如下硬件实现：

接收模块201的功能可通过A/V输入单元120实现。A/V输入单元120采集语音信息，并将语音信息发送至控制器180进行语音转换处理。其中，A/V输入单元120可以包括麦克风122，麦克风122可以在语音识别模式中经由麦克风122接收语音，并且能够将这样的语音处理为音频数据。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。或者，通过无线通信单元110提供的网络接收其他移动终端发送的语音信息，并将语音信息发送至控制器180进行语音转换处理。其中，无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

文本转换模块202、表情转换模块203以及处理模块206的功能可通过控制器180实现。控制器180执行与数据通信等等相关的控制和处理，如对语音信息的转换过程进行处理。此外，文本转换模块202的功能也可由语音处理器来实现。

显示模块204的表情符号显示功能可通过显示单元151实现。显示单元151可以显示与通信(例如，语音消息收发、文本消息收发等等)相关的用户界面(UI)或图形用户界面(GUI)。

存储模块205存储表情库的功能可通过存储器160实现，存储器160可以包括至少一种类型的存储介质，该存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。

A/V输入单元120在接收用户输入的语音信息之前，首先通过控制器180接收用户发送的转换权限指令，基于该转换权限指令，确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。具体的，当接收到语音信息时，判断接收语音信息的应用程序是否具备触发语音转换操作的权限，在具备该权限的情况下，启用语音转换操作，实现语音转表情符号的功能。

具体的，用户事先设置能够进行语音转换的应用程序、应用程序中的联系人等转换列表，以更人性化的满足用户需求。控制器180依据该转换列表确定触发语音转换操作的应用程序，当然，转换列表可存储于存储器160中方便调用。控制器180在将语音信息转换为文本信息之前，控制器180首先从存储器160中调用转换列表，以判断接收语音信息的应用程序是否拥有语音转换权限，若不具备该权限，则终止语音转换为文本信息的操作；若具备该权限，判断应用程序中该语音信息对应的联系人是否拥有语音转换的权限，若具备该权限，则对此联系人发送的语音信息进行转换，并以图文结合(即文字与表情符号结合)的形式进行显示；若不具备该权限，则终止语音转换操作。

控制器180在判断接收语音信息的应用程序或应用程序中的联系人是否拥有语音转换权限时，一种实施方式中，在接收语音信息之前判断该应用程序或者应用程序中的联系人是否拥有语音转换权限，在拥有权限的情况下，接收该语音信息并进行转换；反之，接收该语音信息但不做处理。在另一种实施方式中，在接收语音信息之后判断接收语音信息的应用程序或应用程序中的联系人是否拥有语音转换权限，在拥有权限的情况下，将接收的语音信息进行转换；反之，不对语音信息做处理。需要注意的是，在对语音信息进行转换时，可在云端进行转换，如，接收到一条语音消息后，在数据网络连接的情况下，在通过云端实现语音转换，转换完毕后将转换结果反馈给本端；或者直接由本端完成语音转换的处理。参见表1，为用户设置的转换列表。

表1

应用程序	联系人
		QQ	张三
QQ	李四
		微信	张三

表1中，支持将语音转换为带有表情符号的文字的联系人包括QQ中的张三和李四，以及微信中的张三。假设微信中联系人李四发送了一条语音消息，控制器180判断李四不属于表1，则转换模块(包括文本转换模块202和表情转换模块103)不会对该语音消息做任何处理；假设微信中QQ中联系人张三发送了一条语音消息，控制器180判断张三处于表1中，则转换模块将该语音信息转换成表情符号和文字以供用户及时查看重要信息。

当确定微信中的张三发来语音消息时，检测当前微信所处聊天模式，若当前聊天模式为语音模式，触发语音转文字和表情符号的操作；若当前聊天模式为文本输入模式，则不对语音信息做任何处理。需要注意的是，触发语音转换成文字和表情符号的操作可以为手动模式，即逐条将语音信息转换成文字和表情符号，或者增加一键转化功能，触发一次转化操作，即可将接收的所有语音信息转换成文字和表情符号；也可以为自动模式，一旦确定在语音聊天模式下，若预设时间内没有接听语音信息，则语音转换装置自动将接收的语音信息通过控制器180转换成文字和表情符号，从而解放用户双手，无需主动触发语音转换操作。例如，在语音聊天模式下，接收到张三发送的微信语音消息，1分钟后，该语音消息仍未被用户手动触发接听操作，则装置自动将该语音消息通过转换模块转换成文字和表情符号以方便用户查看，从而避免用户因为环境因素不便接听语音消息的情况发生，同时也增加了用户聊天的趣味性。其中，预设时间是指用户根据实际情况设定的时间。

进一步地，控制器180在将语音信息转换成对应的文本信息时，存在如下两种实施方式，两种实施方式可相互结合，在将文本内容转换成表情符号的同时，将语气标签转换为表情符号；也可单独执行，仅将本文内容转换成表情符号，或仅将语气标签转换成表情符号。

一种实施方式中，从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签，语气标签包括表达喜、怒、哀、乐等情绪的语气特征，如音量高低、语速急缓、声音长短、声音强弱等。

另一种实施方式中，从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。该文本内容中包括与表情库中的表情符号存在映射关系的文字，和与表情符号不存在映射关系的文字。

语音转换完毕，显示单元151在显示表情符号时，包括两种显示方式：

一种实施方式中，将接收的语音消息在当前界面进行显示，然后触发语音转换操作，在当前界面显示另一条文字消息，即该文字消息为重新生成的一条信息，语音信息与文字、表情符号同时存在，用户也可在合适的场景下接听语音，避免因为语音识别的误差导致部分信息不准确。

另一种实施方式中，将接收的语音信息在当前界面进行显示，然后触发语音转换操作，将语音信息直接以文字和表情符号的形式进行显示，即转换后的文字和表情符号覆盖语音信息，使得聊天界面简洁直观。

需要注意的是，对于上述语音库、语气库以及表情库可部分存储于本端或云端，也可全部存储与本端或云端。同时，在将语音信息转换成对应的文本信息时，可通过调用本端存储的语音库、语气库以及表情库中的至少一个库的信息在本端实现转换；或者直接通过云端在线语音转换，进一步的提升用户体验。

通过本实施例的语音转换装置，用户在嘈杂环境无法听清语音或者因为某种原因不便接听语音时，直接将语音信息转换为文字和表情符号，避免错过重要信息，从而提升用户体验；同时，将语音中的语气在文字中直观的以表情符号的形式进行显示，在增加趣味性的同时，更直观的表达了用户情绪，进一步的提升用户满意度。

第二实施例

请参见图3，图3为本实施例提供的移动终端示意图。该移动终端包括第一实施例中的语音转换装置。语音转换装置中接收模块201的功能通过麦克风122实现，麦克风122采集用户的语音信息；或者，通过无线通信单元110提供的网络接收其他移动终端发送的语音信息，实现语音转换装置中接收模块201的功能。

语音转换装置中文本转换模块102和表情转换模块103的功能通过控制器180实现，也即控制器180将语音信息转换成对应的文本信息，然后根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号，实现。语音转换装置中处理模块206的功能也可由控制器180实现，控制器180接收转换权限指令，根据转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

语音转换装置中显示模块104的功能通过输出单元150中的显示单元151实现，显示单元151显示控制器180转换后得到的文字和表情符号。

此外，当移动终端接收到其他移动终端发送的语音信息时，通过输出单元150中的音频输出模块152输出声音，以提醒用户收到新信息。

移动终端在电源单元190供电的情况下，通过无线通信单元110接收到语音发送者发送的语音信息，或者通过麦克风122(麦克风122通过接口单元170与移动终端连接)采集用户输入的语音信息，将语音信息传输至控制器180，控制器180对语音信息进行识别，将语音信息转换成对应的文本信息，然后根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号，最后控制器180将转换后的表情符号和文字通过显示单元150进行显示。此外，控制器180从文本内容中提取如地址、电话、邮件等关键词保存至存储器160中，通过警报单元153或音频输出模块152提醒用户关键事件；或者音频输出模块152提醒用户收到一条新消息。

控制器180在对语音信息进行识别时，包括两种实施方式，两种实施方式可在云端进行转换，如，接收到一条语音消息后，在数据网络连接的情况下，在通过云端实现语音转换，转换完毕后将转换结果反馈给本端；或者直接由本端完成语音转换的处理。

一种实施方式中，控制器180从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签。

具体的，由于语气存在音高、音长和音强等特征，因此控制器180从语音信息中提取语气特征，将语气特征与语气库(声学模型)中预存的语气特征进行匹配，语气库中的语气特征与语气标签存在映射关系，基于该映射关系，将语气特征转换成语气标签，并将该语气标签插入转换后的文字中，对于具体插入位置，可根据语气出现的位置进行插入，或者随机插入。语气标签与表情库中的表情符号存在映射关系，基于该映射关系，从表情库中调用对应的表情符号，将调用的表情符号替换该语气标签。例如：假设微信接收到张三发送的语音信息“今天好开心呀！”，控制器180将该语音信息通过语气库进行识别，确定对应的语气标签为“高兴”，同时，将语音信息通过语音库进行识别，确定对应的文本内容为“今天好开心呀”，将语气标签插入到文本内容中，得到“今天好开心呀(高兴)”。然后从表情库中调用与“高兴”对应的表情符号“高兴的样子”，将语气标签“高兴”替换为表情符号“高兴的样子”，最终转换后的效果为“今天好开心呀(高兴的样子)”。当然，“高兴的样子”的表情符号存在多种，可随机或者根据用户习惯选择一个进行显示。通过本实施方式，用户通过转换的表情符号直观的确认语音发送者的情绪，从而给出较为妥当的处理方式，进一步的提升用户体验。

另一种实施方式中，控制器180从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

具体的，控制器180将提取的语音特征与语音库(即声学模型)中预设的语音特征进行匹配，将匹配成功后的语音特征转换成文本内容，文本内容与表情库中的表情符号存在映射关系，基于该映射关系，从表情库中调用与文本内容对应的表情符号，将调用的表情符号替换该文本内容。语音库中存有语音特征与文字的关系表。需要明白的是，并非将所有文本内容均以表情符号进行替换，对于不存在映射关系的表情符号，则不对文本内容进行转换。将转换后的表情符号插入文本内容中，具体插入位置可依据该表情符号对应的文本内容所处的位置，或者任意插入文本内容中，不对位置做出限定。例如：假设微信接收到张三发送的语音信息“你吃饭了吗？”，将该语音信息通过语音库进行识别，根据识别结果从字词库中找到对应的文本内容，该文本内容为“你吃饭了吗”，从表情库中调用与“吃饭”存在映射关系的表情符号“米饭”，将文本内容中的“吃饭”替换为表情符号“米饭”。当然，文本内容“吃饭”对应的表情内容可以多个，且以不同形式进行体现，移动终端根据用户之前的选择习惯或者随机选择一个进行替换或者插入，最终转换后的效果为“你(米饭)了吗”或者“你吃饭(米饭)了吗”。通过本实施方式，能够将文本内容中的文字以表情符号的形式进行体现，将图文很好的进行结合，在增加聊天趣味性的同时，也提升了用户体验。

更具体的，控制器180将接收到的语音信息进行转换形成音频文件，然后将音频文件转录为文本文件。具体的，语音信息转换得到的音频文件有多个，类似于将语音信息拆分成多个片段，每个片段可以为一个字、一个词或者简短的一句话等等，然后将各音频文件转录成文本文件，最后将文本文件合并成一段完整的文字。其具体转录过程如下：

从转换后形成的音频文件中提取语音信号的语音特征，根据提取的语音特征，对语音信号进行分析处理，去掉与语音识别无关的冗余信息并获得影响语音识别的重要信息，同时对语音信号进行压缩处理。对语音信号处理的目的在于，避免冗余信息影响语音识别，使得识别准确率降低。

对语音信号处理完成后，进行语音识别。将提取的语音特征与语音库中记录的语音特征进行匹配，找出与提取的语音特征相似度较高的语音特征，从而识别出该语音特征对应的文字。具体的，声学模型中记录了大量的语音特征，且各语音特征的音频谱线与文字存在映射关系，只要提取的语音特征可以与声学模型中的语音特征匹配，就能查出该语音特征对应的文字。应该明白的是，提取的语音特征的音频谱线与声学模型中的语音特征的音频谱线越接近，识别的准确性也越高。

对于上述语音特征与文本内容的映射关系、文本内容与表情符号的映射关系、语气特征与语气标签的映射关系以及语气标签与表情符号的映射关系可以一对一、一对多或者多对一。如：“不高兴”的语气标签对应的表情符号可以是“哭”、“大哭”、“伤心”等等；“吃饭”的文本内容对应的表情符号可以是“米饭”、“饭碗”、“筷子”等等；“生气”的表情符号对应的文本内容“愤怒”、“咒骂”等等。通过上述映射关系，实现语音到文字和表情符号的转换。

将音频文件转录成文本文件后，每个音频文件都存在一个时间戳，将该时间戳添加到对应的文本文件上，然后根据添加的时间戳，将各个文本文件按照时间的先后顺序拼接成一份完整的文本内容，同时，在将时间戳添加到对应文本文件上时，在该文本文件中添加表征语音中的喜怒哀乐的语气标签，也即文本文件对应一条音频文件，音频文件中的语气经过分析得到表情符号，将该表情符号插入文本文件中，形成一段带有表情符号的文字，为通话双方的会话提供了一份通话的“历史记录”。

文本内容和表情符号整合完成后，分析文本内容，将满足预设条件的内容进行记录，形成备忘录，将备忘录存储于存储器160中，并通过音频输出模块152重点提醒用户，避免用户错过重要信息。所述预设条件包括但不限于设定时间日期、地址、电话等等关键词，一旦文本信息中存在关键词，就将该内容添加至备忘录并提醒用户。

语音转换完毕，通过显示单元151显示表情符号。

通过本发明提供的移动终端，将语音信息转换成表情符号和文字，使得用户能够及时了解到语音发送者的消息，同时，语音中的语气在文字中以表情符号的形式进行显示，在增加趣味性的同时，更直观的表达了用户情绪，进一步的提升用户满意度。

第三实施例

如图4所示，图4为本实施例提供的语音转换方法流程图，该方法包括以下步骤：

S401，接收语音信息。

具体的，语音信息中包括表征人情绪的语气、表征人意图的语义，将语气通过语气库转换为表情符号，直观的表现语音发送者的喜怒哀乐，将语义通过语音库转换为文本内容，清楚的表述语音发送者要表述的意思。在文本内容中插入表情符号，或者将文本内容中的部分文字替换成表情符号，实现图文结合的良好体验。

进一步的，当接收到语音信息时，判断接收语音信息的应用程序是否具备触发语音转换操作的权限，在具备该权限的情况下，启用语音转换操作，实现语音转表情符号的功能。

在判断接收的语音信息的应用程序或应用程序中的联系人是否拥有语音转换权限时，一种实施方式中，在接收语音信息之前判断该联系人或应用是否具备语音转换条件，在具备转换条件的情况下，接收该语音信息并进行本地转换；在不具备转换条件的情况下，接收该语音信息但不做处理。在另一种实施方式中，在接收语音信息之后判断该联系人或应用是否具备转换条件，在具备转换条件的情况下，将接收的语音信息进行本地转换；在不具备转换条件的情况下，不对语音信息做处理。

当确定接收语音信息的应用程序或应用程序中的联系人拥有语音转换权限时，检测应用程序当前所处的聊天模式，也即检测该聊天模式为语音模式还是文本输入模式。聊天模式为语音模式的情况下，在触发语音转换操作时可以为手动模式或自动模式。

S402，对语音信息进行识别，将语音信息转换成对应的文本信息。

具体的，在将语音信息转换成对应的文本信息时，存在如下两种实施方式，两种实施方式可相互结合，在将文本内容转换成表情符号的同时，将语气标签转换为表情符号，也可单独执行，仅将本文内容转换成表情符号，或仅将语气标签转换成表情符号，具体实施过程如下：

另一种实施方式中，从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

S403，根据文本信息从表情库中调用对应的表情符号，将文本信息转换成对应的表情符号。

具体的，文本信息包括本文内容和语气标签，将文本内容中与表情符号存在映射关系的文字替换成表情符号，将文本内容中插入的语气标签通过调用表情库中的表情符号进行替换，然后将文本内容和表情符号整合成一段完整的带有表情符号的文字。

更具体的，将音频文件转录成文本文件后，每个音频文件都存在一个时间戳，将该时间戳添加到对应的文本文件上，然后根据添加的时间戳，将各个文本文件按照时间的先后顺序拼接成一份完整的文本内容，同时，在将时间戳添加到对应文本文件上时，在该文本文件中添加表征语音中的喜怒哀乐的语气标签，也即文本文件对应一条音频文件，音频文件中的语气经过分析得到表情符号，将该表情符号插入文本文件中，形成一段带有表情符号的文字，为通话双方的会话提供了一份通话的“历史记录”。

文本内容和表情符号整合完成后，分析文本内容，将满足预设条件的内容进行记录，形成备忘录，重点提醒用户，避免用户错过重要信息。所述预设条件包括但不限于设定时间日期、地址、电话等等关键词，一旦文本信息中存在关键词，就将该内容添加至备忘录并提醒用户。

S404，显示表情符号。

具体的，将接收的语音消息在当前界面进行显示，然后通过触发语音转换操作，在当前界面或其他界面显示另一条文字消息，即该文字消息为重新获取的一条信息，语音信息与文字、表情符号同时存在，用户也可在合适的场景下接听语音，避免因为语音识别的误差导致部分信息不准确。另一种实施方式中，将接收的语音信息在当前界面进行显示，然后通过触发语音转换操作，将语音信息直接以文字和表情符号的形式进行显示，即转换后的文字和表情符号覆盖语音信息，使得聊天界面简洁直观。需要注意的是，本实施例提供的语音转换方法可应用第一实施例提供的语音转换装置中。

进一步的，对于上述语音库、语气库以及表情库可部分存储于本端或云端，也可全部存储与本端或云端。同时，在将语音信息转换成对应的文本信息时，可通过调用本端存储的语音库、语气库以及表情库中的至少一个库的信息在本端实现转换；或者直接通过云端在线语音转换，进一步的提升用户体验。

基于上述步骤的实施，通过将语音信息转换为带有表情符号的文字，避免了用户错过重要信息，从而提升用户体验；同时，通过语音中的语气在文本中直观的以表情符号的形式进行显示，在增加趣味性的同时，更直观的表达了用户情绪，进一步的提升用户满意度。

第四实施例

本实施例以第三实施例提供语音转换方法为基础，以语气标签转换为表情符号为场景对本发明进行说明，具体请参见图5，图5为本实施例提供的将语气标签转换为表情符号的流程图。具体转换过程如下：

S501，确定触发语音转换操作的应用程序。

S502，检测该应用程序所处的聊天模式。

具体的，当确定微信中的张三发来语音消息时，检测当前微信所处聊天模式，若当前聊天模式为语音模式，触发语音转文字和表情符号的操作；若当前聊天模式为文本输入模式，则不对语音信息做任何处理。需要注意的是，触发语音转换成文字和表情符号的操作可以为主动模式，即逐条将语音信息转换成文字和表情符号，或者增加一键转化功能，触发一次转化操作，即可将接收的所有语音信息转换成文字和表情符号；也可以为自动模式，一旦确定在语音聊天模式下，若预设时间内没有接听语音信息，则自动将接收的语音信息转换成文字和表情符号，从而解放用户双手，无需主动触发语音转换操作。例如，在语音聊天模式下，接收到张三发送的微信语音消息，1分钟后，该语音消息仍未被用户手动触发接听操作，则装置自动将该语音消息通过转换模块转换成文字和表情符号以方便用户查看，从而避免用户因为环境因素不便接听语音消息的情况发生，同时也增加了用户聊天的趣味性。其中，预设时间是指用户根据实际情况设定的时间。

S503，接收语音信息。

S504，对语音信息进行识别，从语音信息中提取语气特征，将语气特征转换成对应的语气标签，将语气标签转换为表情符号。

具体的，由于语气存在音高、音长和音强等特征，因此从语音信息中提取语气特征，将语气特征与语气库(声学模型)中预存的语气特征进行匹配，语气库中的语气特征与语气标签存在映射关系，基于该映射关系，将语气特征转换成语气标签，并将该语气标签插入转换后的文字中，对于具体插入位置，可根据语气出现的位置进行插入，或者随机插入。语气标签与表情库中的表情符号存在映射关系，基于该映射关系，从表情库中调用对应的表情符号，将调用的表情符号替换该语气标签。例如：假设微信接收到张三发送的语音信息“今天好开心呀！”，将该语音信息通过语气库进行识别，确定对应的语气标签为“高兴”，同时，将语音信息通过语音库进行识别，确定对应的文本内容为“今天好开心呀”，将语气标签插入到文本内容中，得到“今天好开心呀(高兴)”。然后从表情库中调用与高兴”对应的表情符号“高兴的样子”，将语气标签“高兴”替换为表情符号“高兴的样子”，最终转换后的效果为“今天好开心呀(高兴的样子)”。当然，“高兴的样子”的表情符号存在多种，可随机或者根据用户习惯选择一个进行显示。

对于上述语气特征与语气标签的映射关系以及语气标签与表情符号的映射个按需可以一对一、一对多或者多对一。如：“不高兴”的语气标签对应的表情符号可以是“哭”、“大哭”、“伤心”等等。

S505，显示表情符号。

具体的，在显示表情符号时，包括两种显示方式：

通过本实施方式，用户通过转换的表情符号直观的确认语音发送者的情绪，从而给出较为妥当的处理方式，进一步的提升用户体验。

第五实施例

本实施例以第三实施例提供语音转换方法为基础，以文本内容转换为表情符号为场景对本发明进行说明，具体请参见图6，图6为本实施例提供的将文本内容转换为表情符号的流程图。部分步骤与图5中的步骤类似，故本实施例将不再做详细说明。具体转换过程如下：

S601，确定触发语音转换操作的应用程序。

S602，检测该应用程序所处的聊天模式。

S603，接收语音信息。

S604，对语音信息进行识别，从语音信息中提取语音特征，通过语音库对语音特征进行识别，将语音特征转换成对应的文本内容。

具体的，将提取的语音特征与语音库(即声学模型)中预设的语音特征进行匹配，将匹配成功后的语音特征转换成文本内容，文本内容与表情库中的表情符号存在映射关系，基于该映射关系，从表情库中调用与文本内容对应的表情符号，将调用的表情符号替换该文本内容。语音库中存有语音特征与文字的关系表。需要明白的是，并非将所有文本内容均以表情符号进行替换，对于不存在映射关系的表情符号，则不对文本内容进行转换。将转换后的表情符号插入文本内容中，具体插入位置可依据该表情符号对应的文本内容所处的位置，或者任意插入文本内容中，不对位置做出限定。例如：假设微信接收到张三发送的语音信息“你吃饭了吗？”，将该语音信息通过语音库进行识别，根据识别结果从字词库中找到对应的文本内容，该文本内容为“你吃饭了吗”，从表情库中调用与“吃饭”存在映射关系的表情符号“米饭”，将文本内容中的“吃饭”替换为表情符号“米饭”。当然，文本内容“吃饭”对应的表情内容可以多个，且以不同形式进行体现，移动终端根据用户之前的选择习惯或者随机选择一个进行替换或者插入，最终转换后的效果为“你(米饭)了吗”或者“你吃饭(米饭)了吗”。

更具体的，将接收到的语音信息进行转换形成音频文件，然后将音频文件转录为文本文件。具体的，语音信息转换得到的音频文件有多个，类似于将语音信息拆分成多个片段，每个片段可以为一个字、一个词或者简短的一句话等等，然后将各音频文件转录成文本文件，最后将文本文件合并成一段完整的文字。其具体转录过程如下：

对于上述语音特征与文本内容的映射关系以及文本内容与表情符号的映射关系可以一对一、一对多或者多对一。如：“生气”的表情符号对应的文本内容“愤怒”、“咒骂”等等。通过上述映射关系，实现语音到文字和表情符号的转换。

S605，显示表情符号。

通过本实施方式，能够将文本内容中的文字以表情符号的形式进行体现，将图文很好的进行结合，在增加聊天趣味性的同时，也提升了用户体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音转换装置，其特征在于，包括：

接收模块，用于接收语音信息；

显示模块，用于显示表情符号。

2.如权利要求1所述的语音转换装置，其特征在于，所述文本转换模块用于从语音信息中提取语气特征，通过语气库对语气特征进行识别，将语气特征转换成对应的语气标签；

3.如权利要求1所述的语音转换装置，其特征在于，还包括：

存储模块，用于存储所述表情库。

4.如权利要求1-3任一项所述的语音转换装置，其特征在于，还包括：

处理模块，用于接收转换权限指令，根据所述转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

5.一种移动终端，其特征在于，包括如权利要求1-4任一项所述的语音转换装置。

6.一种语音转换方法，其特征在于，包括：

接收语音信息；

对语音信息进行识别，将语音信息转换成对应的文本信息；

显示表情符号。

7.如权利要求6所述的语音转换方法，其特征在于，所述将语音信息转换成对应的文本信息包括：

8.如权利要求6所述的语音转换方法，其特征在于，在所述接收语音信息之前，还包括：存储所述表情库。

9.如权利要求6-8任一项所述的语音转换方法，其特征在于，在所述接收语音信息之前，还包括：

接收转换权限指令，根据所述转换权限指令确定触发语音转换操作的应用程序，并在所述应用程序中启用语音转换操作。

10.如权利要求6-8任一项所述的语音转换方法，其特征在于，在云端或本端将语音信息转换成对应的文本信息，并将文本信息转换成表情符号。