WO2013127367A1

WO2013127367A1 - 一种即时通信的语音识别方法和终端

Info

Publication number: WO2013127367A1
Application number: PCT/CN2013/072086
Authority: WO
Inventors: 路依莎
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-03-02
Filing date: 2013-03-01
Publication date: 2013-09-06
Also published as: CN110164437B; KR101633208B1; CN103295576A; KR20140136964A; US9263029B2; US20150039298A1; JP2015515643A; CN110164437A

Abstract

一种即时通信的语音识别方法和终端，属于通信领域。所述方法包括：接收用户输入的语音信息；获取当前的环境信息，并根据所述当前的环境信息判断是否需要播放所述语音信息；判断出不需要播放所述语音信息时，则将所述语音信息识别为文字信息。所述终端包括获取模块、判断模块和识别模块。

Description

说明书一种即时通信的语音识别方法和终端

本申请要求于 2012年 3月 2日提交中国专利局、申请号为 2012100536289、发明名称为 "一种即时通信的语音识别方法和终端"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及通信领域，特别涉及一种即时通信的语音识别方法和终端。背景技术

随着网络的发展，越来越多的人们逐渐开始依赖移动装置打发时间、与朋友聊天和娱乐消遣，其中，移动终端网民中，近 3/4的用户用聊天工具和好友交流。目前主流的聊天工具中，语音输入越来越流行，语音输入摆脱了传统虚拟键盘输入反复点击的操作，用户之间的沟通更快捷、更流畅。

目前终端的即时通信工具中大多提供了语音输入的功能，比如 PC端 QQ、移动终端的微信对讲、手机 QQ的语音输入，米聊的对讲等等。但是^艮多场景下，如在会议室或嘈杂的环境下，或接收方没有耳机或播放器或语音内容比较私密等，基于即时通信进行语音输入时，接收方不太方便直接播放语音，此时，如何让接收方直接获取到语音内容是本领域人员一直关注的问题。发明内容

为了在即时通信时让接收方直接获取到语音内容，本发明实施例提供了一种即时通信的语音识别方法和终端。所述技术方案如下：

本发明实施例提供了一种即时通信的语音识别方法，所述方法包括：接收用户输入的语音信息；

获取当前的环境信息，并根据所述当前的环境信息判断是否需要播放所述语音信息；

判断出不需要播放所述语音信息时，则将所述语音信息识别为文字信息。其中，所述将所述语音信息识别为文字信息，具体包括：将所述语音信息发送给云端的语音识别服务器，使所述语音识别服务器将所述语音信息识别为文字信息；

接收所述语音识别服务器识别得到的文字信息。

其中，所述将语音信息识别为文字信息，具体包括：

将所述语音信息通过终端内置的语音识别模块进行语音识别，得到文字信息。

其中，所述当前的环境信息具体为用户的操作指令，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

当所述用户的操作指令是获取文字信息的指令时，则判断出不需要播放所述语音；

当所述用户的操作指令不是获取文字信息的指令时，则判断出需要播放所述语音信息。

其中，所述当前的环境信息具体包括终端自身的硬件信息，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

当所述终端自身的硬件信息满足播放所述语音信息的条件时，则判断出需要播放所述语音信息；

当所述终端自身的硬件信息不满足播放所述语音信息的条件时，则判断出不需要播放所述语音信息。

其中，所述当前的环境信息具体包括当前的噪声信息，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

判断所述当前的噪声信息是否在预设的范围内；

当所述当前的噪声信息在预设的范围内，则判断出需要播放所述语音信息；

当所述当前的噪声信息不在预设的范围内，则判断出不需要播放所述语音信息。

其中，所述终端为移动终端或 PC终端。

本发明实施例还提供了一种终端，所述终端包括：

获取模块，用于接收用户输入的语音信息；

判断模块，用于获取当前的环境信息，根据所述当前的环境信息判断是否需要播放所述语音信息；

识别模块，用于当所述判断模块的判断结果为否时，将所述语音信息识别为文字信息。

其中，所述识别模块具体包括发送单元和接收单元；

所述发送单元，用于当所述判断模块的判断结果为否时，将所述语音信息发送给云端的语音识别服务器，使所述语音识别服务器将所述语音信息识别为文字信息；

所述接收单元，用于接收所述语音识别服务器识别得到的文字信息。其中，所述识别模块具体包括：当所述判断模块的判断结果为否时，将所述语音信息通过终端内置的语音识别模块识别为文字信息。

其中，所述判断模块具体包括获取单元和判断单元，

所述获取单元，用于获取用户的操作指令；

所述判断单元，用于当所述用户的操作指令是获取文字信息的指令时，则判断出不需要播放所述语音信息件；当所述用户的操作指令不是获取文字信息的指令时，则判断出需要播放所述语音信息件。

其中，所述判断模块具体包括获取单元和判断单元；

所述获取单元，用于获取终端自身的硬件信息；

所述判断单元，用于当所述终端自身的硬件信息满足播放所述语音信息的条件时，则判断出需要播放所述语音信息件；当所述终端自身的硬件信息不满足播放所述语音信息的条件时，则判断出不需要播放所述语音信息件。

其中，所述判断模块具体包括获取单元和判断单元；

所述获取单元，用于获取当前的噪声信息；

所述判断单元，用于当所述当前的噪声信息在预设的范围内，则判断出需要播放所述语音信息件；当所述当前的噪声信息不在预设的范围内，则判断出不需要播放所述语音信息件。

其中，所述终端为移动终端或 PC终端。

本发明实施例提供的技术方案带来的有益效果是：通过终端接收到即时通信的语音信息时，为语音接收方提供语音识别的功能，以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合，不方便播放语音时，或在无播放设备的情景下，无法播放语音时，用户能够快捷的获知语音内容。附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。

图 1是本发明实施例 1中提供的基于即时通信的语音识别方法流程图；图 2是本发明实施例 2中提供的基于即时通信的语音识别方法流程图；图 3是本发明实施例 2中在移动终端下的即时通信的语音识别示意图；图 4是本发明实施例 2中在 PC端下的即时通信的语音识别示意图；图 5是本发明实施例 3中提供的终端的结构示意图；

图 6是本发明实施例 3中提供的终端中判断模块的结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例 1

参见图 1 , 本发明实施例提供了一种基于即时通信的语音识别方法，所述方法包括：

步骤 101 : 接收用户输入的语音信息；

步骤 102: 获取当前的环境信息，并根据当前的环境信息判断是否需要播放语音信息；

步骤 103: 判断出不需要播放所述语音信息时，则将语音信息识别为文字信息。

本发明实施例提供的方法，通过终端接收到即时通信的语音信息时，为语音接收方提供语音识别的功能，以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合，不方便播放语音时，或在无播放设备的情景下，无法播放语音时，用户能够快捷的获知语音内容。实施例 2

参见图 2, 本发明实施例提供了一种即时通信的语音识别方法，所述方法包括：

步骤 201 : 接收用户输入的语音信息；

该步骤中，终端接收到用户输入的语音信息。具体地，本发明实施例中的应用场景，可以为用户在互联网应用的即时场景下输入语音信息，也可以为用户在聊天场景下输入语音信息。

其中，本发明实施例中的终端为移动终端或 PC终端。该移动终端可以为手机、 PDA ( Personal Digital Assistant, 个人数字助理 )和 MID ( Mobile Internet Devices, 移动互联网设备）等。

步骤 202: 获取当前的环境信息；

该步骤中，本发明实施例中的当前的环境信息可以为终端自身的硬件信息，也可以为用户的操作指令，也可以为当前的噪声信息等等。本发明实施例中对当前的环境信息的具体内容不做限定。

其中，终端自身的硬件信息包括但不限于终端当前安装的硬件设备信息，如通过接口连接的音频输入或输出设备，该硬件信息还可以包括音频输入或输出设备的驱动信息等等，如音频编解码器和音频设备驱动等。

用户的操作指令可以是对终端进行的任一操作指令，根据技术人员的开发时的设置，不同的操作指令可以对应不同的功能，如，对语音信息的点击操作可以为用于播放该语音信息的操作指令，而对于语音信息相应的获取文字信息的选项的点击操作可以为用于获取文字信息的操作指令。

当前的噪声信息是指终端所处环境的噪音信息，如该终端当前处于会议室，则该当前的噪声信息是指该会议室内的噪声信息。相应地，获取当前的环境信息即为获取当前的噪声信息，该噪声信息可以由终端的麦克风进行，其具体过程与获取语音的过程类似，在此不作赘述。

需要说明的是，获取的环境信息类型可以由以由技术人员默认设置，还可以由用户在使用过程中调整。对于不同类型的环境信息类型，其具体的判断过程不同，详见步骤 203的描述。

步骤 203: 根据当前的环境信息判断否需要播放语音信息，若否，则执行步骤 204, 若是，则执行步骤 206;

其中，语音输入确实能够带给用户更快捷、更流畅的沟通过程，但在^艮多场景下（比如会议室、嘈杂的环境或对方没有耳机或播放器，或者语音内容比较私密等情况下），接收方不太方便播放语音。此时，为了让接收方顺利的获知语音发送者要表达的内容，可以将语音信息识别为文字信息，便于接收方进行选择，接收方可以选择播放语音信息，也可以选择查看识别后的文字信息。

该步骤中，根据当前的环境信息的不同，判断否需要播放语音信息的方式也不同，本发明实施例提供下面几种实现方式：

方式一、当前的环境信息为用户的操作指令；

根据当前的环境信息判断是否需要播放语音信息，具体包括：判断该操作指令是否为获取文字信息的指令，当该操作指令为获取文字信息的指令时，则判断出不需要播放语音信息，执行步骤 204的操作；当用户的操作指令不是获取文字信息的指令时，则判断出需要播放语音信息，执行步骤 206的操作。

具体地，用户通过执行操作指令读取终端上接收的语音信息，该操作指令可以为点击操作或触摸操作，本发明在此不做限定。终端根据用户的操作指令判断出用户选择哪种获取信息的方式，其中，终端接收到用户的操作指令后，根据该操作指令判断出终端是否需要播放语音信息，若用户不需要播放语音信息时，则需要将该语音信息识别为文字信息并提供给用户；若用户需要播放语音信息时，则终端将该语音信息直接播放给用户即可，不需要做其他的特殊处理操作。

例如，终端上设置至少两个按钮 A和 B , 按钮 A上显示 "语音"、 "喇叭形状" 等字符，按钮 B上显示 "文字"、 "ABC" 等字符，其中，用户若点击或触摸按钮 A, 则表明获取到语音信息，播放出该语音信息；用户若点击或触摸按钮 B, 则表明获取到文字信息，将该文字信息显示出来。

方式二、当前的环境信息为终端自身的硬件信息；

其中，终端满足播放语音信息的硬件信息至少包括音频编解码器和音频输出设备。

根据当前的环境信息判断是否需要播放语音信息，具体包括：判断终端自身的硬件条件是否具备音频解码器和音频输出设备，当该终端自身的硬件信息具备音频编解码器和音频输出设备时，则该终端自身的硬件信息满足播放语音信息的条件，此时判断出该终端需要播放语音信息，执行步骤 206的操作；当该终端自身的硬件信息不具备音频编解码器，或不具备音频输出设备，或不具备音频编解码和音频输出设备时，则该终端自身的硬件信息不满足播放语音信息的条件，判断出不需要播放语音信息，执行步骤 204的操作。

方式三、当前的环境信息为当前的噪声信息；

本发明预设一定的噪声范围，如预设的范围为 30分贝至 90分贝，根据当前的环境信息判断是否需要播放语音信息，具体包括：判断当前的噪声信息是否在预设的范围内；当当前的噪声信息在预设的范围内，则判断出需要播放语音信息，执行步骤 206的操作；当当前的噪声信息不在预设的范围内，则表明当前环境为无声环境或特别嘈杂的环境，判断出不需要播放语音信息，执行步骤 204的操作。

其中，该方式一，方式二，方式三为或的关系，实际应用中，可以采用方式一的实现方式，也可以采用方式二的实现方式，也可以采用方式三的实现方式，也可以设置三种实现方式的优先级，根据优先级的高低进行实现，该实现方式的采用可以由技术人员默认设置，还可以由用户在使用过程中调整。

步骤 204: 将语音信息识别为文字信息；

具体地，本发明实施例提供的将获取的语音信息识别为文字信息的方式，可以在云端进行识别，也可在本地内置识别模块，本发明对此不做限制。

其中，在云端将语音信息识别为文字信息时，终端将该语音信息发送给云端的语音识别服务器，由语音识别服务器进行语音识别，云端即指网络上，云端的语音识别服务器即指网络上的语音识别服务器，然后语音识别服务器将识别结果传输给终端，终端接收到该语音识别服务器识别得到的文字信息。其中，终端将该语音信息传输到网络上指定的语音识别服务器，该语音识别服务器可以对一种或多种语音信息进行识别。

其中，在本地内置识别模块将语音信息识别为文字信息时，终端将该语音信息通过终端内置的语音识别模块进行语音识别，得到文字信息。其中，终端在安装即时通信工具时，就已经内置了语音识别模块，终端欲识别该语音信息时，直接使用该模块即可对待识别的语音信息进行语音识别，然后直接将该识别结果提供给用户即可。

本发明实施例中，无论是云端识别还是本地内置识别模块，都需要用到语音识别技术，比如： google、百度、讯飞等，本发明实施例对具体采用哪种语音识别技术不做限定，只要能将语音信息识别为文字信息即可。

以下将从移动终端和 PC终端两种场景下描述本发明方案。

移动终端场景：在移动终端的即时通信的聊天场景下，如图 3所示，在语音信息后面，提供 "文字" 的功能键，用户点击此键时，表示用户的操作指令为获取文字信息的指令，此时移动终端将语音信息识别成文字信息。

PC终端场景：在 PC终端的即时通信的聊天场景下，如图 4所示，在语音信息后面，提供 "识别成文字" 的功能键，用户点击此键，表示用户的操作指令为获取文字信息的指令，此时 PC终端将该语音信息识别成文字信息。步骤 205: 将该文字信息显示给用户；

其中，将语音信息识别为文字信息后，将该文字信息显示在终端屏幕上。需要说明的是，该文字信息在显示时，可以以独立的信息形式显示在指定区域，还可以覆盖在语音信息的显示区域上进行显示，该原地显示提供更直观的视觉效果。

步骤 206: 播放该语音信息。

具体地，终端判断出需要播放语音信息时，则直接播放该语音信息。

本发明实施例提供的方法，通过终端接收到即时通信的语音信息时，为语音接收方提供语音识别的功能，以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合，不方便播放语音时，或在无播放设备的情景下，无法播放语音时，用户能够快捷的获知语音内容。实施例 3

参见图 5 , 本发明实施例提供了一种终端，所述终端包括：

获取模块 301 , 用于接收用户输入的语音信息；

判断模块 302, 用于获取当前的环境信息，根据所述当前的环境信息判断是否需要播放所述语音信息；

识别模块 303 , 用于当判断模块 302的判断结果为否时，将语音信息识别文字信息。

其中，识别模块 303具体包括发送单元和接收单元；

发送单元，用于当判断模块 302的判断结果为否时，将语音信息发送给语音识别服务器，使语音识别服务器将所述语音信息识别为文字信息；

接收单元，用于接收语音识别服务器识别得到的文字信息。

其中，识别模块 303具体包括：当判断模块 302的判断结果为否时，将语音信息通过终端内置的语音识别模块识别为文字信息。

其中，参见图 6, 判断模块 302具体包括获取单元 3021和判断单元 3022, 获取单元 3021 , 用于获取用户的操作指令；

判断单元 3022,用于当用户的操作指令是获取文字信息的指令时，则判断出不需要播放语音信息件；当用户的操作指令不是获取文字信息的指令时，则判断出需要播放语音信息。

其中，判断模块 302具体包括获取单元 3021和判断单元 3022; 获取单元 3021 , 用于获取终端自身的硬件信息；

判断单元 3022, 用于当终端自身的硬件信息满足播放语音信息的条件时，则判断出需要播放语音信息；当终端自身的硬件信息不满足播放语音信息的条件时，则判断出不需要播放语音信息。

其中，判断模块 302具体包括获取单元 3021和判断单元 3022;

获取单元 3021 , 用于获取当前的噪声信息；

判断单元 3022,用于当当前的噪声信息在预设的范围内，则判断出需要播放语音信息；当当前的噪声信息不在预设的范围内，则判断出不需要播放语音信息。

其中，该终端具体为移动终端或 PC终端。该移动终端可以为手机、 PDA ( Personal Digital Assistant, 个人数字助理 )和 MID ( Mobile Internet Devices , 移动互联网设备）等。

本发明实施例提供的终端，通过终端接收到即时通信的语音信息时，为语音接收方提供语音识别的功能，以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合，不方便播放语音时，或在无播放设备的情景下，无法播放语音时，用户能够快捷的获知语音内容。

本实施例提供的终端，具体可以与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种即时通信的语音识别方法，其特征在于，所述方法包括：接收用户输入的语音信息；

判断出不需要播放所述语音信息时，则将所述语音信息识别为文字信息。

2、如权利要求 1所述的方法，其特征在于，所述将所述语音信息识别为文字信息，具体包括：

将所述语音信息发送给云端的语音识别服务器，使所述语音识别服务器将所述语音信息识别为文字信息；

接收所述语音识别服务器识别得到的文字信息。

3、如权利要求 1所述的方法，其特征在于，所述将语音信息识别为文字信息，具体包括：

4、如权利要求 1-3任一权利要求所述的方法，其特征在于，所述当前的环境信息具体为用户的操作指令，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

5、如权利要求 1-3任一权利要求所述的方法，其特征在于，所述当前的环境信息具体包括终端自身的硬件信息，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

6、如权利要求 1-3权利要求所述的方法，其特征在于，所述当前的环境信息具体包括当前的噪声信息，所述根据所述当前的环境信息判断是否需要播放所述语音信息，具体包括：

判断所述当前的噪声信息是否在预设的范围内；

当所述当前的噪声信息在预设的范围内，则判断出需要播放所述语音信息；当所述当前的噪声信息不在预设的范围内，则判断出不需要播放所述语音信息。

7、如权利要求 1-3任一权利要求所述的方法，其特征在于，所述终端为移动终端或 PC终端。

8、一种终端，其特征在于，所述终端包括：

获取模块，用于接收用户输入的语音信息；

9、如权利要求 8所述的终端，其特征在于，所述识别模块具体包括发送单元和接收单元；

所述接收单元，用于接收所述语音识别服务器识别得到的文字信息。

10、如权利要求 8所述的终端，其特征在于，所述识别模块具体包括：当所述判断模块的判断结果为否时，将所述语音信息通过终端内置的语音识别模块识别为文字信息。

11、如权利要求 8-10任一权利要求所述的终端，其特征在于，所述判断模块具体包括获取单元和判断单元，

所述获取单元，用于获取用户的操作指令；

所述判断单元，用于当所述用户的操作指令是获取文字信息的指令时，则判断出不需要播放所述语音信息件；当所述用户的操作指令不是获取文字信息的指令时，则判断出需要播放所述语音信息。

12、如权利要求 8-10所述的终端，其特征在于，所述判断模块具体包括获取单元和判断单元；

所述获取单元，用于获取终端自身的硬件信息；

所述判断单元，用于当所述终端自身的硬件信息满足播放所述语音信息的条件时，则判断出需要播放所述语音信息；当所述终端自身的硬件信息不满足播放所述语音信息的条件时，则判断出不需要播放所述语音信息。

13、如权利要求 8-10所述的终端，其特征在于，所述判断模块具体包括获取单元和判断单元；

所述获取单元，用于获取当前的噪声信息；

所述判断单元，用于当所述当前的噪声信息在预设的范围内，则判断出需要播放所述语音信息；当所述当前的噪声信息不在预设的范围内，则判断出不需要播放所述语音信息。

14、如权利要求 8-10任一权利要求所述的终端，其特征在于，所述终端为移动终端或 PC终端。