CN110164437B - 一种即时通信的语音识别方法和终端 - Google Patents
一种即时通信的语音识别方法和终端 Download PDFInfo
- Publication number
- CN110164437B CN110164437B CN201910434480.5A CN201910434480A CN110164437B CN 110164437 B CN110164437 B CN 110164437B CN 201910434480 A CN201910434480 A CN 201910434480A CN 110164437 B CN110164437 B CN 110164437B
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- voice information
- played
- judging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 claims abstract description 7
- 230000001960 triggered Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 210000003284 Horns Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/45—Aspects of automatic or semi-automatic exchanges related to voicemail messaging
- H04M2203/4536—Voicemail combined with text-based messaging
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Abstract
本发明公开了一种即时通信的语音识别方法和终端,属于通信领域。所述方法包括:接收用户输入的语音信息;获取当前的环境信息,并根据所述当前的环境信息判断是否需要播放所述语音信息;判断出不需要播放所述语音信息时,则将所述语音信息识别为文字信息。所述终端包括获取模块、判断模块和识别模块。本发明通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。
Description
本申请为2012年3月2日提交的申请号为201210053628.9、发明名称为“一种即时通信的语音识别方法和终端”的中国专利申请的分案申请。
技术领域
本发明涉及通信领域,特别涉及一种即时通信的语音识别方法和终端。
背景技术
随着网络的发展,越来越多的人们逐渐开始依赖移动装置打发时间、与朋友聊天和娱乐消遣,其中,移动终端网民中,近3/4的用户用聊天工具和好友交流。目前主流的聊天工具中,语音输入越来越流行,语音输入摆脱了传统虚拟键盘输入反复点击的操作,用户之间的沟通更快捷、更流畅。
目前终端的即时通信工具中大多提供了语音输入的功能,比如PC端QQ、移动终端的微信对讲、手机QQ的语音输入,米聊的对讲等等。但是很多场景下,如在会议室或嘈杂的环境下,或接收方没有耳机或播放器或语音内容比较私密等,基于即时通信进行语音输入时,接收方不太方便直接播放语音,此时,如何让接收方直接获取到语音内容是本领域人员一直关注的问题。
发明内容
为了在即时通信时让接收方直接获取到语音内容,本发明实施例提供了一种即时通信的语音识别方法和终端。所述技术方案如下:
本发明实施例提供了一种即时通信的语音识别方法,所述方法包括:
接收用户输入的语音信息;
获取当前的环境信息,并根据所述当前的环境信息判断是否需要播放所述语音信息;
判断出不需要播放所述语音信息时,则将所述语音信息识别为文字信息。
其中,所述将所述语音信息识别为文字信息,具体包括:
将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息;
接收所述语音识别服务器识别得到的文字信息。
其中,所述将语音信息识别为文字信息,具体包括:
将所述语音信息通过终端内置的语音识别模块进行语音识别,得到文字信息。
其中,所述当前的环境信息具体为用户的操作指令,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:
当所述用户的操作指令是获取文字信息的指令时,则判断出不需要播放所述语音;
当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息。
其中,所述当前的环境信息具体包括终端自身的硬件信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:
当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语音信息;
当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息。
其中,所述当前的环境信息具体包括当前的噪声信息,所述根据所述当前的环境信息判断是否需要播放所述语音信息,具体包括:
判断所述当前的噪声信息是否在预设的范围内;
当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息;
当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息。
其中,所述终端为移动终端或PC终端。
本发明实施例还提供了一种终端,所述终端包括:
获取模块,用于接收用户输入的语音信息;
判断模块,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息;
识别模块,用于当所述判断模块的判断结果为否时,将所述语音信息识别为文字信息。
其中,所述识别模块具体包括发送单元和接收单元;
所述发送单元,用于当所述判断模块的判断结果为否时,将所述语音信息发送给云端的语音识别服务器,使所述语音识别服务器将所述语音信息识别为文字信息;
所述接收单元,用于接收所述语音识别服务器识别得到的文字信息。
其中,所述识别模块具体包括:当所述判断模块的判断结果为否时,将所述语音信息通过终端内置的语音识别模块识别为文字信息。
其中,所述判断模块具体包括获取单元和判断单元,
所述获取单元,用于获取用户的操作指令;
所述判断单元,用于当所述用户的操作指令是获取文字信息的指令时,则判断出不需要播放所述语音信息件;当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息件。
其中,所述判断模块具体包括获取单元和判断单元;
所述获取单元,用于获取终端自身的硬件信息;
所述判断单元,用于当所述终端自身的硬件信息满足播放所述语音信息的条件时,则判断出需要播放所述语音信息件;当所述终端自身的硬件信息不满足播放所述语音信息的条件时,则判断出不需要播放所述语音信息件。
其中,所述判断模块具体包括获取单元和判断单元;
所述获取单元,用于获取当前的噪声信息;
所述判断单元,用于当所述当前的噪声信息在预设的范围内,则判断出需要播放所述语音信息件;当所述当前的噪声信息不在预设的范围内,则判断出不需要播放所述语音信息件。
其中,所述终端为移动终端或PC终端。
本发明实施例提供的技术方案带来的有益效果是:通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中提供的基于即时通信的语音识别方法流程图;
图2是本发明实施例2中提供的基于即时通信的语音识别方法流程图;
图3是本发明实施例2中在移动终端下的即时通信的语音识别示意图;
图4是本发明实施例2中在PC端下的即时通信的语音识别示意图;
图5是本发明实施例3中提供的终端的结构示意图;
图6是本发明实施例3中提供的终端中判断模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本发明实施例提供了一种基于即时通信的语音识别方法,所述方法包括:
步骤101:接收用户输入的语音信息;
步骤102:获取当前的环境信息,并根据当前的环境信息判断是否需要播放语音信息;
步骤103:判断出不需要播放所述语音信息时,则将语音信息识别为文字信息。
本发明实施例提供的方法,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。
实施例2
参见图2,本发明实施例提供了一种即时通信的语音识别方法,所述方法包括:
步骤201:接收用户输入的语音信息;
该步骤中,终端接收到用户输入的语音信息。具体地,本发明实施例中的应用场景,可以为用户在互联网应用的即时场景下输入语音信息,也可以为用户在聊天场景下输入语音信息。
其中,本发明实施例中的终端为移动终端或PC终端。该移动终端可以为手机、PDA(Personal Digital Assistant,个人数字助理)和MID(Mobile Internet Devices,移动互联网设备)等。
步骤202:获取当前的环境信息;
该步骤中,本发明实施例中的当前的环境信息可以为终端自身的硬件信息,也可以为用户的操作指令,也可以为当前的噪声信息等等。本发明实施例中对当前的环境信息的具体内容不做限定。
步骤203:根据当前的环境信息判断否需要播放语音信息,若否,则执行步骤204,若是,则执行步骤206;
其中,语音输入确实能够带给用户更快捷、更流畅的沟通过程,但在很多场景下(比如会议室、嘈杂的环境或对方没有耳机或播放器,或者语音内容比较私密等情况下),接收方不太方便播放语音。此时,为了让接收方顺利的获知语音发送者要表达的内容,可以将语音信息识别为文字信息,便于接收方进行选择,接收方可以选择播放语音信息,也可以选择查看识别后的文字信息。
该步骤中,根据当前的环境信息的不同,判断否需要播放语音信息的方式也不同,本发明实施例提供下面几种实现方式:
方式一、当前的环境信息为用户的操作指令;
根据当前的环境信息判断是否需要播放语音信息,具体包括:判断该操作指令是否为获取文字信息的指令,当该操作指令为获取文字信息的指令时,则判断出不需要播放语音信息,执行步骤204的操作;当用户的操作指令不是获取文字信息的指令时,则判断出需要播放语音信息,执行步骤206的操作。
具体地,用户通过执行操作指令读取终端上接收的语音信息,该操作指令可以为点击操作或触摸操作,本发明在此不做限定。终端根据用户的操作指令判断出用户选择哪种获取信息的方式,其中,终端接收到用户的操作指令后,根据该操作指令判断出终端是否需要播放语音信息,若用户不需要播放语音信息时,则需要将该语音信息识别为文字信息并提供给用户;若用户需要播放语音信息时,则终端将该语音信息直接播放给用户即可,不需要做其他的特殊处理操作。
例如,终端上设置至少两个按钮A和B,按钮A上显示“语音”、“喇叭形状”等字符,按钮B上显示“文字”、“ABC”等字符,其中,用户若点击或触摸按钮A,则表明获取到语音信息,播放出该语音信息;用户若点击或触摸按钮B,则表明获取到文字信息,将该文字信息显示出来。
方式二、当前的环境信息为终端自身的硬件信息;
其中,终端满足播放语音信息的硬件信息至少包括音频编解码器和音频输出设备。
根据当前的环境信息判断是否需要播放语音信息,具体包括:判断终端自身的硬件条件是否具备音频解码器和音频输出设备,当该终端自身的硬件信息具备音频编解码器和音频输出设备时,则该终端自身的硬件信息满足播放语音信息的条件,此时判断出该终端需要播放语音信息,执行步骤206的操作;当该终端自身的硬件信息不具备音频编解码器,或不具备音频输出设备,或不具备音频编解码和音频输出设备时,则该终端自身的硬件信息不满足播放语音信息的条件,判断出不需要播放语音信息,执行步骤204的操作。
方式三、当前的环境信息为当前的噪声信息;
本发明预设一定的噪声范围,如预设的范围为30分贝至90分贝,根据当前的环境信息判断是否需要播放语音信息,具体包括:判断当前的噪声信息是否在预设的范围内;当当前的噪声信息在预设的范围内,则判断出需要播放语音信息,执行步骤206的操作;当当前的噪声信息不在预设的范围内,则表明当前环境为无声环境或特别嘈杂的环境,判断出不需要播放语音信息,执行步骤204的操作。
其中,该方式一,方式二,方式三为或的关系,实际应用中,可以采用方式一的实现方式,也可以采用方式二的实现方式,也可以采用方式三的实现方式,也可以设置三种实现方式的优先级,根据优先级的高低进行实现。
步骤204:将语音信息识别为文字信息;
具体地,本发明实施例提供的将获取的语音信息识别为文字信息的方式,可以在云端进行识别,也可在本地内置识别模块,本发明对此不做限制。
其中,在云端将语音信息识别为文字信息时,终端将该语音信息发送给云端的语音识别服务器,由语音识别服务器进行语音识别,云端即指网络上,云端的语音识别服务器即指网络上的语音识别服务器,然后语音识别服务器将识别结果传输给终端,终端接收到该语音识别服务器识别得到的文字信息。其中,终端将该语音信息传输到网络上指定的语音识别服务器,该语音识别服务器可以对一种或多种语音信息进行识别。
其中,在本地内置识别模块将语音信息识别为文字信息时,终端将该语音信息通过终端内置的语音识别模块进行语音识别,得到文字信息。其中,终端在安装即时通信工具时,就已经内置了语音识别模块,终端欲识别该语音信息时,直接使用该模块即可对待识别的语音信息进行语音识别,然后直接将该识别结果提供给用户即可。
本发明实施例中,无论是云端识别还是本地内置识别模块,都需要用到语音识别技术,比如:google、百度、讯飞等,本发明实施例对具体采用哪种语音识别技术不做限定,只要能将语音信息识别为文字信息即可。
以下将从移动终端和PC终端两种场景下描述本发明方案。
移动终端场景:在移动终端的即时通信的聊天场景下,如图3所示,在语音信息后面,提供“文字”的功能键,用户点击此键时,表示用户的操作指令为获取文字信息的指令,此时移动终端将语音信息识别成文字信息。
PC终端场景:在PC终端的即时通信的聊天场景下,如图4所示,在语音信息后面,提供“识别成文字”的功能键,用户点击此键,表示用户的操作指令为获取文字信息的指令,此时PC终端将该语音信息识别成文字信息。
步骤205:将该文字信息显示给用户;
其中,将语音信息识别为文字信息后,将该文字信息显示在终端屏幕上。
步骤206:播放该语音信息。
具体地,终端判断出需要播放语音信息时,则直接播放该语音信息。
本发明实施例提供的方法,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。
实施例3
参见图5,本发明实施例提供了一种终端,所述终端包括:
获取模块301,用于接收用户输入的语音信息;
判断模块302,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息;
识别模块303,用于当判断模块302的判断结果为否时,将语音信息识别文字信息。
其中,识别模块303具体包括发送单元和接收单元;
发送单元,用于当判断模块302的判断结果为否时,将语音信息发送给语音识别服务器,使语音识别服务器将所述语音信息识别为文字信息;
接收单元,用于接收语音识别服务器识别得到的文字信息。
其中,识别模块303具体包括:当判断模块302的判断结果为否时,将语音信息通过终端内置的语音识别模块识别为文字信息。
其中,参见图6,判断模块302具体包括获取单元3021和判断单元3022,
获取单元3021,用于获取用户的操作指令;
判断单元3022,用于当用户的操作指令是获取文字信息的指令时,则判断出不需要播放语音信息件;当用户的操作指令不是获取文字信息的指令时,则判断出需要播放语音信息。
其中,判断模块302具体包括获取单元3021和判断单元3022;
获取单元3021,用于获取终端自身的硬件信息;
判断单元3022,用于当终端自身的硬件信息满足播放语音信息的条件时,则判断出需要播放语音信息;当终端自身的硬件信息不满足播放语音信息的条件时,则判断出不需要播放语音信息。
其中,判断模块302具体包括获取单元3021和判断单元3022;
获取单元3021,用于获取当前的噪声信息;
判断单元3022,用于当当前的噪声信息在预设的范围内,则判断出需要播放语音信息;当当前的噪声信息不在预设的范围内,则判断出不需要播放语音信息。
其中,该终端具体为移动终端或PC终端。该移动终端可以为手机、PDA(PersonalDigital Assistant,个人数字助理)和MID(Mobile Internet Devices,移动互联网设备)等。
本发明实施例提供的终端,通过终端接收到即时通信的语音信息时,为语音接收方提供语音识别的功能,以帮助接收方在不方便的情况下正常获知对方要表达的内容。例如在公共场合,不方便播放语音时,或在无播放设备的情景下,无法播放语音时,用户能够快捷的获知语音内容。
本实施例提供的终端,具体可以与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种即时通信的语音识别方法,其特征在于,所述方法包括:
接收用户输入的语音信息;
获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息,所述当前的环境信息包括当前的噪声信息和用户的操作指令中的至少一种;
当根据当前的环境信息判断需要播放所述语音信息时,播放所述语音信息;
当根据当前的环境信息判断不需要播放所述语音信息时,将所述语音信息识别为文字信息,并显示所述文字信息;
其中,当所述当前的环境信息包括当前的噪声信息时,所述根据所述当前的环境信息判断是否需要播放所述语音信息,包括:
判断所述当前噪声信息是否在预设范围内;
当所述当前噪声信息在预设范围内时,判断出需要播放所述语音信息;
当所述当前噪声信息不在预设范围内时,判断出不需要播放所述语音信息;
其中,当所述当前的环境信息包括所述用户的操作指令时,所述根据所述当前的环境信息判断是否需要播放所述语音信息,包括:
当所述用户的操作指令不是获取文字信息的指令时,判断出需要播放所述语音信息;
在即时通信的界面中,显示语音信息;
在所述语音信息后方,显示功能键,所述功能键用于指示获取所述文字信息;
当所述功能键被触发时,判断出不需要播放所述语音信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信息识别为文字信息,包括:
发送所述语音信息至语音识别服务器,以便所述语音识别服务器识别得到所述文字信息;
接收所述语音识别服务器识别得到的文字信息。
3.根据权利要求1所述的方法,其特征在于,将所述语音信息识别为文字信息,包括:
通过内置的语音识别模块对所述语音信息进行语音识别,获取所述文字信息。
4.根据权利要求1所述的方法,其特征在于,所述语音信息和所述功能键一一对应显示。
5.一种终端,其特征在于,所述终端包括:
获取模块,用于接收用户输入的语音信息;
判断模块,用于获取当前的环境信息,根据所述当前的环境信息判断是否需要播放所述语音信息,所述当前的环境信息包括当前的噪声信息和用户的操作指令中的至少一种;
识别模块,用于当所述判断模块的判断结果为否时,将所述语音信息识别为文字信息;
其中,所述判断模块,包括:获取单元和判断单元;
所述获取单元,用于获取当前的噪声信息,所述当前的环境信息包括所述当前的噪声信息;
所述判断单元,用于当前的噪声信息在预设的范围内,则判断出需要播放语音信息;当当前的噪声信息不在预设的范围内,则判断出不需要播放语音信息;
和/或,
所述获取单元,用于获取用户的操作指令;
所述判断单元,用于当所述用户的操作指令不是获取文字信息的指令时,则判断出需要播放所述语音信息;
所述判断单元,用于在即时通信的界面中,显示语音信息;在所述语音信息后方,显示功能键,所述功能键用于指示获取所述文字信息;当所述功能键被触发时,判断出不需要播放所述语音信息。
6.根据权利要求5所述的终端,其特征在于,所述识别模块包括发送单元和接收单元,所述发送单元,用于当所述判断模块的判断结果为否时,将所述语音信息发送给语音识别服务器,以便所述语音识别服务器识别得到所述文字信息;
所述接收单元,用于接收所述语音识别服务器识别得到的文字信息。
7.根据权利要求5所述的终端,其特征在于,
所述识别模块,用于通过内置的语音识别模块对所述语音信息进行语音识别,获取所述文字信息。
8.如权利要求5所述的终端,其特征在于,所述终端为移动终端或PC终端。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序用于指令相关的硬件以完成如权利要求1至4任一所述的即时通信的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910434480.5A CN110164437B (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100536289A CN103295576A (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
CN201910434480.5A CN110164437B (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date | |
---|---|---|---|---|
CN2012100536289A Division CN103295576A (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110164437A CN110164437A (zh) | 2019-08-23 |
CN110164437B true CN110164437B (zh) | 2021-04-16 |
Family
ID=49081658
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100536289A Pending CN103295576A (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
CN201910434480.5A Active CN110164437B (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100536289A Pending CN103295576A (zh) | 2012-03-02 | 2012-03-02 | 一种即时通信的语音识别方法和终端 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9263029B2 (zh) |
JP (1) | JP2015515643A (zh) |
KR (1) | KR101633208B1 (zh) |
CN (2) | CN103295576A (zh) |
WO (1) | WO2013127367A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103369477B (zh) | 2013-07-02 | 2016-12-07 | 华为技术有限公司 | 显示媒体信息方法、装置、客户端,图形控件显示方法和装置 |
CN103578474B (zh) * | 2013-10-25 | 2017-09-12 | 小米科技有限责任公司 | 一种语音控制方法、装置和设备 |
CN103632670A (zh) * | 2013-11-30 | 2014-03-12 | 青岛英特沃克网络科技有限公司 | 语音和文本消息自动转换系统及其方法 |
CN103634321B (zh) * | 2013-12-04 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别结果的展现方法和装置 |
CN104700836B (zh) | 2013-12-10 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
CN104732975A (zh) * | 2013-12-20 | 2015-06-24 | 华为技术有限公司 | 一种语音即时通讯方法及装置 |
CN103853465A (zh) * | 2014-04-01 | 2014-06-11 | 湖南科技学院 | 一种电子教案文字与图片录入方法 |
CN104184658A (zh) * | 2014-09-13 | 2014-12-03 | 邹时晨 | 一种聊天系统 |
CN104734942B (zh) * | 2015-03-13 | 2018-02-02 | 日立楼宇技术(广州)有限公司 | 一种会议管理方法、装置及系统 |
US9911410B2 (en) * | 2015-08-19 | 2018-03-06 | International Business Machines Corporation | Adaptation of speech recognition |
WO2017120960A1 (zh) * | 2016-01-17 | 2017-07-20 | 段春燕 | 耳机语音识别功能的数据采集方法以及交流耳机 |
CN107342088B (zh) * | 2017-06-19 | 2021-05-18 | 联想(北京)有限公司 | 一种声音信息的转换方法、装置及设备 |
CN107483736B (zh) * | 2017-08-23 | 2020-05-15 | 广东小天才科技有限公司 | 一种即时通信应用程序的消息处理方法及装置 |
CN107888479A (zh) * | 2017-10-31 | 2018-04-06 | 深圳云之家网络有限公司 | 语音通信方法、装置、计算机设备及存储介质 |
CN108806682B (zh) * | 2018-06-12 | 2020-12-01 | 奇瑞汽车股份有限公司 | 获取天气信息的方法和装置 |
CN110853662B (zh) * | 2018-08-02 | 2022-06-24 | 深圳市优必选科技有限公司 | 语音交互方法、装置及机器人 |
CN109243447A (zh) * | 2018-10-12 | 2019-01-18 | 西安蜂语信息科技有限公司 | 语音发送触发方法及装置 |
CN110443545A (zh) * | 2019-07-18 | 2019-11-12 | 深圳市喜悦智慧数据有限公司 | 一种快递收寄件的数据处理装置和方法 |
CN110428804A (zh) * | 2019-09-04 | 2019-11-08 | 广东以诺通讯有限公司 | 一种智能通信方法及系统 |
CN112822331B (zh) * | 2019-10-30 | 2023-06-30 | 阿尔派株式会社 | 电子装置以及信息输入控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1798167A (zh) * | 2004-12-31 | 2006-07-05 | 乐金电子(中国)研究开发中心有限公司 | 具有噪音识别通话方法变更功能的移动终端及其变更方法 |
JP2007520943A (ja) * | 2004-01-20 | 2007-07-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ノイズの大きい環境における電話機の拡張された使用 |
CN101079836A (zh) * | 2006-12-21 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种基于非对称媒体的即时通信方法及系统 |
CN101098309A (zh) * | 2006-06-30 | 2008-01-02 | 佛山市顺德区顺达电脑厂有限公司 | 便携式电子装置与其实时信息服务方法及装置 |
JP2011250475A (ja) * | 2004-10-20 | 2011-12-08 | Microsoft Corp | ユニファイドメッセージングアーキテクチャ |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
US5911129A (en) * | 1996-12-13 | 1999-06-08 | Intel Corporation | Audio font used for capture and rendering |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
JP2002185569A (ja) | 2000-12-13 | 2002-06-28 | Hitachi Kokusai Electric Inc | 携帯端末 |
JP2004219918A (ja) | 2003-01-17 | 2004-08-05 | Canon Inc | 音声認識環境判定方法 |
JP2005078427A (ja) * | 2003-09-01 | 2005-03-24 | Hitachi Ltd | 携帯端末及びコンピュータ・ソフトウエア |
CN101453611A (zh) * | 2007-12-07 | 2009-06-10 | 希姆通信息技术(上海)有限公司 | 失聪者与正常人的视频通讯方法 |
EP2156652B1 (en) * | 2008-02-28 | 2012-04-25 | Leeds, Richard | Method and system for notification and telecommunications management |
US8638908B2 (en) * | 2008-02-28 | 2014-01-28 | Computer Products Introductions, Corp | Contextual conversation processing in telecommunication applications |
KR20210152028A (ko) | 2008-11-10 | 2021-12-14 | 구글 엘엘씨 | 멀티센서 음성 검출 |
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
GB2476041B (en) * | 2009-12-08 | 2017-03-01 | Skype | Encoding and decoding speech signals |
-
2012
- 2012-03-02 CN CN2012100536289A patent/CN103295576A/zh active Pending
- 2012-03-02 CN CN201910434480.5A patent/CN110164437B/zh active Active
-
2013
- 2013-03-01 KR KR1020147027277A patent/KR101633208B1/ko active IP Right Grant
- 2013-03-01 WO PCT/CN2013/072086 patent/WO2013127367A1/zh active Application Filing
- 2013-03-01 JP JP2014559078A patent/JP2015515643A/ja active Pending
- 2013-03-01 US US14/382,122 patent/US9263029B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007520943A (ja) * | 2004-01-20 | 2007-07-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ノイズの大きい環境における電話機の拡張された使用 |
JP2011250475A (ja) * | 2004-10-20 | 2011-12-08 | Microsoft Corp | ユニファイドメッセージングアーキテクチャ |
CN1798167A (zh) * | 2004-12-31 | 2006-07-05 | 乐金电子(中国)研究开发中心有限公司 | 具有噪音识别通话方法变更功能的移动终端及其变更方法 |
CN101098309A (zh) * | 2006-06-30 | 2008-01-02 | 佛山市顺德区顺达电脑厂有限公司 | 便携式电子装置与其实时信息服务方法及装置 |
CN101079836A (zh) * | 2006-12-21 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种基于非对称媒体的即时通信方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR101633208B1 (ko) | 2016-06-23 |
WO2013127367A1 (zh) | 2013-09-06 |
KR20140136964A (ko) | 2014-12-01 |
JP2015515643A (ja) | 2015-05-28 |
CN103295576A (zh) | 2013-09-11 |
CN110164437A (zh) | 2019-08-23 |
US20150039298A1 (en) | 2015-02-05 |
US9263029B2 (en) | 2016-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164437B (zh) | 一种即时通信的语音识别方法和终端 | |
US9111538B2 (en) | Genius button secondary commands | |
CN104571498B (zh) | 一种应用程序启动方法 | |
CN108021572B (zh) | 回复信息推荐方法和装置 | |
CN107767864B (zh) | 基于语音分享信息的方法、装置与移动终端 | |
CN106973330B (zh) | 一种屏幕直播方法、装置和系统 | |
CN108874904B (zh) | 语音消息搜索方法、装置、计算机设备及存储介质 | |
WO2013091409A1 (zh) | 信息提示的方法、装置和终端设备 | |
CN103973877A (zh) | 一种在移动终端中利用文字实现实时通话的方法和装置 | |
WO2017181615A1 (zh) | 一种陌生来电处理方法、装置及移动终端 | |
WO2016184295A1 (zh) | 即时通讯方法、用户设备及系统 | |
CN103973542B (zh) | 一种语音信息处理方法及装置 | |
CN107682752B (zh) | 视频画面显示的方法、装置、系统、终端设备及存储介质 | |
CN110493123B (zh) | 即时通讯方法、装置、设备及存储介质 | |
KR20150009186A (ko) | 메신저 기반의 대화 서비스 기능 운용 방법 및 사용자 인터페이스 그리고 이를 지원하는 전자 장치 | |
CN105677023B (zh) | 信息呈现方法及装置 | |
WO2020063451A1 (zh) | 通话留言方法、终端和具有存储功能的装置 | |
CN103368829A (zh) | 即时通信工具的聊天信息处理方法和系统 | |
CN104333641B (zh) | 通话方法及装置 | |
WO2016202277A1 (zh) | 一种消息的发送方法及移动终端 | |
CN113760145A (zh) | 一种互动方法、装置、电子设备及存储介质 | |
CN107995361B (zh) | 操作语音信息的方法、蓝牙耳机和智能终端 | |
CN113094143A (zh) | 跨应用消息发送方法、装置和电子设备、可读存储介质 | |
CN105357388A (zh) | 一种信息推荐的方法及电子设备 | |
KR20150103855A (ko) | 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |