CN103295576A - 一种即时通信的语音识别方法和终端 - Google Patents

一种即时通信的语音识别方法和终端 Download PDF

Info

Publication number
CN103295576A
CN103295576A CN 201210053628 CN201210053628A CN103295576A CN 103295576 A CN103295576 A CN 103295576A CN 201210053628 CN201210053628 CN 201210053628 CN 201210053628 A CN201210053628 A CN 201210053628A CN 103295576 A CN103295576 A CN 103295576A
Authority
CN
China
Prior art keywords
information
voice
terminal
current
play
Prior art date
Application number
CN 201210053628
Other languages
English (en)
Inventor
路依莎
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to CN 201210053628 priority Critical patent/CN103295576A/zh
Publication of CN103295576A publication Critical patent/CN103295576A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages
    • H04L51/10Messages including multimedia information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/45Aspects of automatic or semi-automatic exchanges related to voicemail messaging
    • H04M2203/4536Voicemail combined with text-based messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

本发明公开了一种即时通信的语音识别方法和终端,属于通信领域。所述方法包括:接收用户输入的语音信息;获取当前的环境信息,并根据所述当前的环境信息判断是否需要播放所述语音信息;判断出不需要播放所述语音信息时,则将所述语音信息识别为文字信息。所述终端包括获取模块、判断模块和识别模块。本发明通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。

Description

一种即时通信的语音识别方法和终端

技术领域

[0001] 本发明涉及通信领域,特别涉及一种即时通信的语音识别方法和终端。

背景技术

[0002] 随着网络的发展,越来越多的人们逐渐开始依赖移动装置打发时间、与朋友聊天和娱乐消遣,其中,移动终端网民中,近3/4的用户用聊天工具和好友交流。目前主流的聊天工具中,语音输入越来越流行,语音输入摆脱了传统虚拟键盘输入反复点击的操作,用户之间的沟通更快捷、更流畅。

[0003]目前终端的即时通信工具中大多提供了语音输入的功能,比如PC端QQ、移动终端的微信对讲、手机QQ的语音输入,米聊的对讲等等。但是很多场景下,如在会议室或嘈杂的环境下,或接收方没有耳机或播放器或语音内容比较私密等,基于即时通信进行语音输入时,接收方不太方便直接播放语音,此时,如何让接收方直接获取到语音内容是本领域人员一直关注的问题。

发明内容

[0004] 为了在即时通信时让接收方直接获取到语音内容,本发明实施例提供了一种即时通信的语音识别方法和终端。所述技术方案如下:

[0005] 本发明实施例提供了 一种即时通信的语音识别方法,所述方法包括:

[0006] 接收用户输入的语音信息;

[0007] 获取当前的环境信息,并根据所述当前的环境信息判断是否需要播放所述语音信息;

[0008] 判断出不需要播放所述语音信息时,则将所述语音信息识别为文字信息。

[0009] 其中,所述将所述语音信息识别为文字信息,具体包括:

[0010] 将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息;

[0011] 接收所述语音识别服务器识别得到的文字信息。

[0012] 其中,所述将语音信息识别为文字信息,具体包括:

[0013] 将所述语音信息通过终端内置的语音识别模块进行语音识别,得到文字信息。

[0014] 其中,所述当前的环境信息具体为用户的操作指令,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:

[0015] 当所述用户的操作指令是获取文字信息的指令时,则判断出不需要播放所述语

曰;

[0016] 当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息。

[0017] 其中,所述当前的环境信息具体包括终端自身的硬件信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:[0018] 当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语音信息;[0019] 当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息。[0020] 其中,所述当前的环境信息具体包括当前的噪声信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:[0021] 判断所述当前的噪声信息是否在预设的范围内;[0022] 当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息;[0023] 当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息。[0024] 其中,所述终〗而为移动终〗而或PC终2而。[0025] 本发明实施例还提供了一种终端,所述终端包括:[0026] 获取模块,用于接收用户输入的语音信息;[0027] 判断模块,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息;[0028] 识别模块,用于当所述判断模块的判断结果为否时,将所述语音信息识别为文字信息。[0029] 其中,所述识别模块具体包括发送单元和接收单元;[0030] 所述发送单元,用于当所述判断模块的判断结果为否时,将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息;[0031] 所述接收单元,用于接收所述语音识别服务器识别得到的文字信息。[0032] 其中,所述识别模块具体包括:当所述判断模块的判断结果为否时,将所述语音信息通过终端内置的语音识别模块识别为文字信息。[0033] 其中,所述判断模块具体包括获取单元和判断单元,[0034] 所述获取单元,用于获取用户的操作指令;[0035] 所述判断单元,用于当所述用户的操作指令是获取文字信息的指令时,则判断出不需要播放所述语音信息件;当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息件。[0036] 其中,所述判断模块具体包括获取单元和判断单元;[0037] 所述获取单元,用于获取终端自身的硬件信息;[0038] 所述判断单元,用于当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语音信息件;当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息件。[0039] 其中,所述判断模块具体包括获取单元和判断单元;[0040] 所述获取单元,用于获取当前的噪声信息;[0041] 所述判断单元,用于当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息件;当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息件。[0042] 其中,所述终端为移动终%5或PC终2而。[0043] 本发明实施例提供的技术方案带来的有益效果是:通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。

附图说明

[0044] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

[0045] 图1是本发明实施例1中提供的基于即时通信的语音识别方法流程图;

[0046] 图2是本发明实施例2中提供的基于即时通信的语音识别方法流程图;

[0047] 图3是本发明实施例2中在移动终端下的即时通信的语音识别示意图;

[0048] 图4是本发明实施例2中在PC端下的即时通信的语音识别示意图;

[0049] 图5是本发明实施例3中提供的终端的结构示意图;

[0050] 图6是本发明实施例3中提供的终端中判断模块的结构示意图。 具体实施方式

[0051] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

[0052] 实施例1

[0053] 参见图1,本发明实施例提供了一种基于即时通信的语音识别方法,所述方法包括:

[0054] 步骤101:接收用户输入的语音信息;

[0055] 步骤102:获取当前的环境信息,并根据当前的环境信息判断是否需要播放语音信息;

[0056] 步骤103:判断出不需要播放所述语音信息时,则将语音信息识别为文字信息。

[0057] 本发明实施例提供的方法,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。

[0058] 实施例2

[0059] 参见图2,本发明实施例提供了一种即时通信的语音识别方法,所述方法包括:

[0060] 步骤201:接收用户输入的语音信息;

[0061] 该步骤中,终端接收到用户输入的语音信息。具体地,本发明实施例中的应用场景,可以为用户在互联网应用的即时场景下输入语音信息,也可以为用户在聊天场景下输入语首ί目息。

[0062] 其中,本发明实施例中的终端为移动终端或PC终端。该移动终端可以为手机、PDA (Personal Digital Assistant,个人数字助理)和 MID (Mobile Internet Devices,移动互联网设备)等。[0063] 步骤202:获取当前的环境信息;[0064] 该步骤中,本发明实施例中的当前的环境信息可以为终端自身的硬件信息,也可以为用户的操作指令,也可以为当前的噪声信息等等。本发明实施例中对当前的环境信息的具体内容不做限定。[0065] 步骤203:根据当前的环境信息判断否需要播放语音信息,若否,则执行步骤204,若是,则执行步骤206 ;[0066] 其中,语音输入确实能够带给用户更快捷、更流畅的沟通过程,但在很多场景下(比如会议室、嘈杂的环境或对方没有耳机或播放器,或者语音内容比较私密等情况下),接收方不太方便播放语音。此时,为了让接收方顺利的获知语音发送者要表达的内容,可以将语音信息识别为文字信息,便于接收方进行选择,接收方可以选择播放语音信息,也可以选择查看识别后的文字信息。[0067] 该步骤中,根据当前的环境信息的不同,判断否需要播放语音信息的方式也不同,本发明实施例提供下面几种实现方式:[0068] 方式一、当前的环境信息为用户的操作指令;[0069] 根据当前的环境信息判断是否需要播放语音信息,具体包括:判断该操作指令是否为获取文字信息的指令,当该操作指令为获取文字信息的指令时,则判断出不需要播放语音信息,执行步骤204的操作;当用户的操作指令不是获取文字信息的指令时,则判断出需要播放语音信息,执行步骤206的操作。[0070] 具体地,用户通过执行操作指令读取终端上接收的语音信息,该操作指令可以为点击操作或触摸操作,本发明在此不做限定。终端根据用户的操作指令判断出用户选择哪种获取信息的方式,其中,终端接收到用户的操作指令后,根据该操作指令判断出终端是否需要播放语音信息,若用户不需要播放语音信息时,则需要将该语音信息识别为文字信息并提供给用户;若用户需要播放语音信息时,则终端将该语音信息直接播放给用户即可,不需要做其他的特殊处理操作。[0071] 例如,终端上设置至少两个按钮A和B,按钮A上显示“语音”、“喇叭形状”等字符,按钮B上显示“文字”、“ABC”等字符,其中,用户若点击或触摸按钮A,则表明获取到语音信息,播放出该语音信息;用户若点击或触摸按钮B,则表明获取到文字信息,将该文字信息显示出来。[0072] 方式二、当前的环境信息为终端自身的硬件信息;[0073] 其中,终端满足播放语音信息的硬件信息至少包括音频编解码器和音频输出设备。[0074] 根据当前的环境信息判断是否需要播放语音信息,具体包括:判断终端自身的硬件条件是否具备音频解码器和音频输出设备,当该终端自身的硬件信息具备音频编解码器和音频输出设备时,则该终端自身的硬件信息满足播放语音信息的条件,此时判断出该终端需要播放语音信息,执行步骤206的操作;当该终端自身的硬件信息不具备音频编解码器,或不具备音频输出设备,或不具备音频编解码和音频输出设备时,则该终端自身的硬件信息不满足播放语音信息的条件,判断出不需要播放语音信息,执行步骤204的操作。[0075] 方式三、当前的环境信息为当前的噪声信息;[0076] 本发明预设一定的噪声范围,如预设的范围为30分贝至90分贝,根据当前的环境信息判断是否需要播放语音信息,具体包括:判断当前的噪声信息是否在预设的范围内;当当前的噪声信息在预设的范围内,则判断出需要播放语音信息,执行步骤206的操作;当当前的噪声信息不在预设的范围内,则表明当前环境为无声环境或特别嘈杂的环境,判断出不需要播放语音信息,执行步骤204的操作。

[0077] 其中,该方式一,方式二,方式三为或的关系,实际应用中,可以采用方式一的实现方式,也可以采用方式二的实现方式,也可以采用方式三的实现方式,也可以设置三种实现方式的优先级,根据优先级的高低进行实现。

[0078] 步骤204:将语音信息识别为文字信息;

[0079] 具体地,本发明实施例提供的将获取的语音信息识别为文字信息的方式,可以在云端进行识别,也可在本地内置识别模块,本发明对此不做限制。

[0080] 其中,在云端将语音信息识别为文字信息时,终端将该语音信息发送给云端的语音识别服务器,由语音识别服务器进行语音识别,云端即指网络上,云端的语音识别服务器即指网络上的语音识别服务器,然后语音识别服务器将识别结果传输给终端,终端接收到该语音识别服务器识别得到的文字信息。其中,终端将该语音信息传输到网络上指定的语音识别服务器,该语音识别服务器可以对一种或多种语音信息进行识别。

[0081] 其中,在本地内置识别模块将语音信息识别为文字信息时,终端将该语音信息通过终端内置的语音识别模块进行语音识别,得到文字信息。其中,终端在安装即时通信工具时,就已经内置了语音识别模块,终端欲识别该语音信息时,直接使用该模块即可对待识别的语音信息进行语音识别,然后直接将该识别结果提供给用户即可。

[0082] 本发明实施例中,无论是云端识别还是本地内置识别模块,都需要用到语音识别技术,比如:g00gle、百度、讯飞等,本发明实施例对具体采用哪种语音识别技术不做限定,只要能将语音信息识别为文字信息即可。

[0083] 以下将从移动终端和PC终端两种场景下描述本发明方案。

[0084] 移动终端场景:在移动终端的即时通信的聊天场景下,如图3所示,在语音信息后面,提供“文字”的功能键,用户点击此键时,表示用户的操作指令为获取文字信息的指令,此时移动终端将语首息识别成文字息。

[0085] PC终端场景:在PC终端的即时通信的聊天场景下,如图4所示,在语音信息后面,提供“识别成文字”的功能键,用户点击此键,表示用户的操作指令为获取文字信息的指令,此时PC终端将该语音信息识别成文字信息。

[0086] 步骤205:将该文字信息显示给用户;

[0087] 其中,将语音信息识别为文字信息后,将该文字信息显示在终端屏幕上。

[0088] 步骤206:播放该语音信息。

[0089] 具体地,终端判断出需要播放语音信息时,则直接播放该语音信息。

[0090] 本发明实施例提供的方法,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。

[0091] 实施例3

[0092] 参见图5,本发明实施例提供了一种终端,所述终端包括:[0093] 获取模块301,用于接收用户输入的语音信息;[0094] 判断模块302,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息;[0095] 识别模块303,用于当判断模块302的判断结果为否时,将语音信息识别文字信肩、O[0096] 其中,识别模块303具体包括发送单元和接收单元;[0097] 发送单元,用于当判断模块302的判断结果为否时,将语音信息发送给语音识别服务器,使语音识别服务器将所述语音信息识别为文字信息;[0098] 接收单元,用于接收语音识别服务器识别得到的文字信息。[0099] 其中,识别模块303具体包括:当判断模块302的判断结果为否时,将语音信息通过终端内置的语音识别模块识别为文字信息。[0100] 其中,参见图6,判断模块302具体包括获取单元3021和判断单元3022,[0101] 获取单元3021,用于获取用户的操作指令;[0102] 判断单元3022,用于当用户的操作指令是获取文字信息的指令时,则判断出不需要播放语音信息件;当用户的操作指令不是获取文字信息的指令时,则判断出需要播放语音信息。[0103] 其中,判断模块302具体包括获取单元3021和判断单元3022 ;[0104] 获取单元3021,用于获取终端自身的硬件信息;[0105] 判断单元3022,用于当终端自身的硬件信息满足播放语音信息的条件时,则判断出需要播放语音信息;当终端自身的硬件信息不满足播放语音信息的条件时,则判断出不需要播放语音信息。[0106] 其中,判断模块302具体包括获取单元3021和判断单元3022 ;[0107] 获取单元3021,用于获取当前的噪声信息;[0108] 判断单元3022,用于当当前的噪声信息在预设的范围内,则判断出需要播放语音信息;当当前的噪声信息不在预设的范围内,则判断出不需要播放语音信息。[0109] 其中,该终端具体为移动终端或PC终端。该移动终端可以为手机、PDA (PersonalDigital Assistant,个人数字助理)和 MID (Mobile Internet Devices,移动互联网设备)坐寸ο[0110] 本发明实施例提供的终端,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。[0111] 本实施例提供的终端,具体可以与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。[0112] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。[0113] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种即时通信的语音识别方法,其特征在于,所述方法包括: 接收用户输入的语音信息; 获取当前的环境信息,并根据所述当前的环境信息判断是否需要播放所述语音信息; 判断出不需要播放所述语音信息时,则将所述语音信息识别为文字信息。
2.如权利要求1所述的方法,其特征在于,所述将所述语音信息识别为文字信息,具体包括: 将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息; 接收所述语音识别服务器识别得到的文字信息。
3.如权利要求1所述的方法,其特征在于,所述将语音信息识别为文字信息,具体包括: 将所述语音信息通过终端内置的语音识别模块进行语音识别,得到文字信息。
4.如权利要求1-3任一权利要求所述的方法,其特征在于,所述当前的环境信息具体为用户的操作指令,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括: 当所述用户的操作指令是 获取文字信息的指令时,则判断出不需要播放所述语音; 当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信肩、O
5.如权利要求1-3任一权利要求所述的方法,其特征在于,所述当前的环境信息具体包括终端自身的硬件信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括: 当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语首ί目息; 当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息。
6.如权利要求1-3任一权利要求所述的方法,其特征在于,所述当前的环境信息具体包括当前的噪声信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括: 判断所述当前的噪声信息是否在预设的范围内; 当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息; 当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息。
7.如权利要求1-3任一权利要求所述的方法,其特征在于,所述终端为移动终端或PC终端。
8.—种终端,其特征在于,所述终端包括: 获取模块,用于接收用户输入的语音信息; 判断模块,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息; 识别模块,用于当所述判断模块的判断结果为否时,将所述语音信息识别为文字信息。
9.如权利要求8所述的终端,其特征在于,所述识别模块具体包括发送单元和接收单元; 所述发送单元,用于当所述判断模块的判断结果为否时,将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息; 所述接收单元,用于接收所述语音识别服务器识别得到的文字信息。
10.如权利要求8所述的终端,其特征在于,所述识别模块具体包括:当所述判断模块的判断结果为否时,将所述语音信息通过终端内置的语音识别模块识别为文字信息。
11.如权利要求8-10任一权利要求所述的终端,其特征在于,所述判断模块具体包括获取单元和判断单元, 所述获取单元,用于获取用户的操作指令; 所述判断单元,用于当所述用户的操作指令是获取文字信息的指令时,则判断出不需要播放所述语音信息件;当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息。
12.如权利 要求8-10任一权利要求所述的终端,其特征在于,所述判断模块具体包括获取单元和判断单元; 所述获取单元,用于获取终端自身的硬件信息; 所述判断单元,用于当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语音信息;当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息。
13.如权利要求8-10任一权利要求所述的终端,其特征在于,所述判断模块具体包括获取单元和判断单元; 所述获取单元,用于获取当前的噪声信息; 所述判断单元,用于当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息;当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息。
14.如权利要求8-10任一权利要求所述的终端,其特征在于,所述终端为移动终端或PC终端。
CN 201210053628 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端 CN103295576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210053628 CN103295576A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN 201210053628 CN103295576A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端
CN201910434480.5A CN110164437A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端
US14/382,122 US9263029B2 (en) 2012-03-02 2013-03-01 Instant communication voice recognition method and terminal
KR1020147027277A KR101633208B1 (ko) 2012-03-02 2013-03-01 인스턴트 통신 음성 인식 방법 및 단말기
JP2014559078A JP2015515643A (ja) 2012-03-02 2013-03-01 インスタントコミュニケーション音声認識方法および端末
PCT/CN2013/072086 WO2013127367A1 (zh) 2012-03-02 2013-03-01 一种即时通信的语音识别方法和终端

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910434480.5A Division CN110164437A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端

Publications (1)

Publication Number Publication Date
CN103295576A true CN103295576A (zh) 2013-09-11

Family

ID=49081658

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910434480.5A CN110164437A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端
CN 201210053628 CN103295576A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910434480.5A CN110164437A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端

Country Status (5)

Country Link
US (1) US9263029B2 (zh)
JP (1) JP2015515643A (zh)
KR (1) KR101633208B1 (zh)
CN (2) CN110164437A (zh)
WO (1) WO2013127367A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578474A (zh) * 2013-10-25 2014-02-12 小米科技有限责任公司 一种语音控制方法、装置和设备
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
CN103634321A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置
CN103853465A (zh) * 2014-04-01 2014-06-11 湖南科技学院 一种电子教案文字与图片录入方法
CN104700836A (zh) * 2013-12-10 2015-06-10 阿里巴巴集团控股有限公司 一种语音识别方法和系统
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN107483736A (zh) * 2017-08-23 2017-12-15 广东小天才科技有限公司 一种即时通信应用程序的消息处理方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104734942B (zh) * 2015-03-13 2018-02-02 日立楼宇技术(广州)有限公司 一种会议管理方法、装置及系统
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
WO2017120960A1 (zh) * 2016-01-17 2017-07-20 段春燕 耳机语音识别功能的数据采集方法以及交流耳机
CN107888479A (zh) * 2017-10-31 2018-04-06 深圳云之家网络有限公司 语音通信方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798167A (zh) * 2004-12-31 2006-07-05 乐金电子(中国)研究开发中心有限公司 具有噪音识别通话方法变更功能的移动终端及其变更方法
CN101079836A (zh) * 2006-12-21 2007-11-28 腾讯科技(深圳)有限公司 一种基于非对称媒体的即时通信方法及系统
CN101098309A (zh) * 2006-06-30 2008-01-02 佛山市顺德区顺达电脑厂有限公司;神达电脑股份有限公司 便携式电子装置与其实时信息服务方法及装置
CN101453611A (zh) * 2007-12-07 2009-06-10 希姆通信息技术(上海)有限公司 失聪者与正常人的视频通讯方法
US20100121636A1 (en) * 2008-11-10 2010-05-13 Google Inc. Multisensory Speech Detection
US20110137660A1 (en) * 2009-12-08 2011-06-09 Skype Limited Encoding and decoding speech signals

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948D0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
JP2002185569A (ja) 2000-12-13 2002-06-28 Hitachi Kokusai Electric Inc 携帯端末
JP2004219918A (ja) 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2005078427A (ja) 2003-09-01 2005-03-24 Hitachi Ltd 携帯端末及びコンピュータ・ソフトウエア
CN1910653A (zh) 2004-01-20 2007-02-07 皇家飞利浦电子股份有限公司 增强噪声环境下的电话使用
US7551727B2 (en) 2004-10-20 2009-06-23 Microsoft Corporation Unified messaging architecture
US8638908B2 (en) * 2008-02-28 2014-01-28 Computer Products Introductions, Corp Contextual conversation processing in telecommunication applications
CN102017585B (zh) * 2008-02-28 2015-05-06 计算机产品引进公司 用于通知和电信管理的方法和系统
CN101482976B (zh) * 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798167A (zh) * 2004-12-31 2006-07-05 乐金电子(中国)研究开发中心有限公司 具有噪音识别通话方法变更功能的移动终端及其变更方法
CN101098309A (zh) * 2006-06-30 2008-01-02 佛山市顺德区顺达电脑厂有限公司;神达电脑股份有限公司 便携式电子装置与其实时信息服务方法及装置
CN101079836A (zh) * 2006-12-21 2007-11-28 腾讯科技(深圳)有限公司 一种基于非对称媒体的即时通信方法及系统
CN101453611A (zh) * 2007-12-07 2009-06-10 希姆通信息技术(上海)有限公司 失聪者与正常人的视频通讯方法
US20100121636A1 (en) * 2008-11-10 2010-05-13 Google Inc. Multisensory Speech Detection
US20110137660A1 (en) * 2009-12-08 2011-06-09 Skype Limited Encoding and decoding speech signals

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578474A (zh) * 2013-10-25 2014-02-12 小米科技有限责任公司 一种语音控制方法、装置和设备
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
CN103634321A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置
CN103634321B (zh) * 2013-12-04 2017-01-18 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置
CN104700836A (zh) * 2013-12-10 2015-06-10 阿里巴巴集团控股有限公司 一种语音识别方法和系统
CN104700836B (zh) * 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和系统
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN103853465A (zh) * 2014-04-01 2014-06-11 湖南科技学院 一种电子教案文字与图片录入方法
CN107483736A (zh) * 2017-08-23 2017-12-15 广东小天才科技有限公司 一种即时通信应用程序的消息处理方法及装置

Also Published As

Publication number Publication date
JP2015515643A (ja) 2015-05-28
US20150039298A1 (en) 2015-02-05
US9263029B2 (en) 2016-02-16
WO2013127367A1 (zh) 2013-09-06
KR20140136964A (ko) 2014-12-01
KR101633208B1 (ko) 2016-06-23
CN110164437A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
US7124372B2 (en) Interactive communication between a plurality of users
CA2648617C (en) Hosted voice recognition system for wireless devices
CN101971250B (zh) 具有活动语音识别的移动电子设备
CN102318295B (zh) 用于处理消息的设备和方法
CN1658687B (zh) 利用移动消息接收机和服务器的基于命令的分组sms
CA2717504C (en) Open architecture based domain dependent real time multi-lingual communication service
US20130041661A1 (en) Audio communication assessment
US20100299150A1 (en) Language Translation System
US20080027984A1 (en) Method and system for multi-dimensional action capture
US20080126491A1 (en) Method for Transmitting Messages from a Sender to a Recipient, a Messaging System and Message Converting Means
KR100935963B1 (ko) 프로세서 주변장치인 통신 장치와, 그를 이용하는 시스템 및 방법
US20120201362A1 (en) Posting to social networks by voice
CN102117614B (zh) 个性化文本语音合成和个性化语音特征提取
JP2014512049A (ja) 音声対話型メッセージ交換
CN101632316A (zh) 音频别名标签
US20170162201A1 (en) Environmentally aware dialog policies and response generation
CN102427493A (zh) 用应用扩充通信会话
CN103198831A (zh) 语音操控方法与移动终端装置
CN1711585A (zh) 使用通信设备的化身控制
JP3899876B2 (ja) 電話用システム
WO2013180874A1 (en) System and methods for managing concurrent audio messages
CN102238097B (zh) 一种基于即时通讯im的信息提醒方法和装置
CN201440733U (zh) 一种适用于语言障碍人士的移动通话终端
US9099090B2 (en) Timely speech recognition
CN102422268A (zh) 用于支持多设备协作的框架

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination