CN104732975A - 一种语音即时通讯方法及装置 - Google Patents
一种语音即时通讯方法及装置 Download PDFInfo
- Publication number
- CN104732975A CN104732975A CN201310719376.3A CN201310719376A CN104732975A CN 104732975 A CN104732975 A CN 104732975A CN 201310719376 A CN201310719376 A CN 201310719376A CN 104732975 A CN104732975 A CN 104732975A
- Authority
- CN
- China
- Prior art keywords
- frequency information
- audio
- word message
- described audio
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种语音即时通讯方法及装置,该方法包括:收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。本发明在不适合听语音的环境下,用户可以看到语音内容对应的文字来获取信息;在有大量对话的情况下,用户回溯信息时可以看到对应的文字,大大加快了回溯查找信息的速度。
Description
技术领域
本发明涉及即时通讯技术领域,尤其涉及一种语音即时通讯方法及装置。
背景技术
目前即时通讯工具的应用越来越广泛,用户可以通过即时通讯工具和其他用户进行即时通信,发送/接收文字、语音等信息。
目前的即时通讯工具在采用语音形式进行即时通讯时,通常采用的方式是直接发送和接收音频,如图1所示,例如用户采用语音形式即时通讯时,点击即时通信应用界面上的按钮开始录制声音,录制过程中长按按钮,录制完后释放按钮并发送到接收方。录制完成并发送音频信息后,即时通信应用界面上显示一个按钮,按钮的长度和音频长度成正比,并在按钮旁边显示音频的时长、录制时刻等信息。接收方接收到音频信息后获取该音频信息的音频长度及接收时刻等信息,在即时通信应用界面上显示按钮,同样按钮的长度和音频长度成正比,并在按钮旁边显示音频的时长、录制时刻等信息,确定用户点击该按钮时通过播放器开始播放该段音频信息,因此用户就能收听这段音频信息。
对于以直接发送和接收音频信息的方式进行语音通讯时,接收方接收到音频信息后,要想获取音频信息,仅可以通过选择音频播放的形式获取,该方式具有以下技术缺陷:
1)在环境嘈杂的情况下播放音频信息时,所播放的音频信息受环境影响,导致用户难以听清楚,从而用户无法正确获取到音频信息,如果想获取正确的音频信息,需要在私密的场合下播放音频信息;
2)在需要回溯信息的时候,用户需要重新点击按钮重新播放音频信息,听的速度本身就比较慢,而且在有大量对话的情况下,通过重新播放音频信息的方式查找需要的信息就很麻烦。
发明内容
本发明实施例提供一种语音即时通讯方法及装置,以克服现有语音即时通讯方法仅通过听的方式获取音频信息所存在的音频信息受环境影响、回溯信息较麻烦的问题。
第一方面,提供一种语音即时通讯方法,包括:
收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
结合第一方面,第一种可能的实现方式,该方法还包括:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
结合第一方面,第一方面第一种可能的实现方式中,该方法还包括:
将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
结合第一方面,第二种可能的实现方式,在利用语音识别模块对所述音频信息进行语音识别之前,所述方法还包括:
通过所述即时通信应用界面提示用户是否需要语音识别,在确定需要语音识别时,执行利用语音识别模块对所述音频信息进行语音识别的步骤。
结合第一方面,第三种可能的实现方式,所述语音播放图标为与音频信息的时长成正比的播放按钮,所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示,或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
第二方面,本发明实施例还提供一种语音即时通讯方法,包括:
通过语音采集模块获取用户录入的音频信息;
利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
结合第二方面,第一种可能的实施方式,该方法还包括:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
结合第二方面,第二方面第一种可能的实施方式中,该方法还包括:
将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
第三方面,本发明实施例提供一种语音即时通讯装置,包括:
播放显示单元,用于收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
文字显示单元,用于利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
结合第三方面,第一种可能的实施方式,所述文字显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
结合第三方面,第三方面第一种可能的实施方式中,还包括:
样本发送单元,用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
结合第三方面,第二种可能的实施方式,文字显示单元还用于,在利用语音识别模块对所述音频信息进行语音识别之前,通过所述即时通信应用界面提示用户是否需要语音识别,在确定需要语音识别时,执行利用语音识别模块对所述音频信息进行语音识别的步骤。
结合第三方面,第三种可能的实施方式,所述播放显示单元显示的语音播放图标为与音频信息的时长成正比的播放按钮,所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示,或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
第四方面,本发明实施例还提供一种语音即时通讯装置,包括:
音频获取单元,用于通过语音采集模块获取用户录入的音频信息;
文字获取单元,用于利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
发送显示单元,用于将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
第四方面,第一种可能的实施方式,发送显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
结合第四方面,第四方面第一种可能的实施方式中,还包括:
样本发送单元,将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
利用本发明提供的语音即时通讯方法及装置,具有以下有益效果:让用户能够通过看的方式,获取语音信息的内容,在不适合听语音的环境下,用户可以看到语音内容对应的文字来获取信息;在有大量对话的情况下,用户回溯信息时可以看到对应的文字,大大加快了回溯查找信息的速度
附图说明
图1为现有的语音即时通讯方法对应的应用界面示意图;
图2为本发明实施例提供的一种语音即时通讯方法流程图;
图3为本发明实施例提供的另一种发送方的语音即时通讯方法流程图;
图4为本发明实施例1中的语音即时通讯方法流程图;
如图5所示本发明实施例1中即时通讯方法对应的应用界面示意图;
图6为本发明实施例提供的作为接收方的一种语音识别装置结构图;
图7为本发明实施例提供的作为接收方的另一种语音识别装置结构图;
图8为本发明实施例提供的作为发送方的一种语音识别装置结构图;
图9为本发明实施例提供的作为发送方的另一种语音识别装置结构图。
具体实施方式
下面结合附图和实施例对本发明提供的语音即时通讯方法及装置进行更详细地说明。
申请人研究发现,目前的即时通讯工具在采用语音形式进行即时通讯时,另一种方式是通过语音识别技术发送和接收文字信息,具体为在发送方通过音频采集设备如话筒采集用户的语音获得音频信息,通过本地或远端的语音识别软件对音频信息进行语音识别,获得对应的文字结果发送给接收方。如果是在发送方采用语音识别软件进行语音识别,通常将文字结果显示在发送方的发送文字输入框内,用户对识别有错的地方进行修改后,将文字信息发出。
对于通过语音识别技术发送和接收文字信息进行语音通讯方式,存在如下技术缺陷:
1)原始语音信息丢失,语气语调,非语言信息无法表示;
2)语音识别出现错误时,用户修改后的信息没有加以利用。
为了克服现有的直接发送和接收音频信息的语音即时通讯所存在的问题,基于通过语音识别技术发送和接收文字信息的技术,本发明实施例提供了如下解决方案:
方案一、发送语音信息仍采用现有的直接发送音频信息的形式,接收方接收到该音频信息时利用语音识别技术进行语音识别并显示语音识别结果。
如图2所示,本发明实施例提供的语音即时通讯方法,包括:
步骤201,收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
语音播放图标可以是各种形式的语音播放图标,通过用户对语音播放图标的操作,确定开始或停止播放音频信息。
步骤202,利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
语音识别模块可以为本地的语音识别模块,例如安装在本地的语音识别软件,当然,也可以是其它远程设备上的语音识别模块。
采用该方案,对于语音接收方来说,收到音频信息后进行语言识别,在显示音频信息语音播放图标的同时,显示音频信息中被识别出的文字信息,让用户能够通过看的方式,获取语音信息的内容,在不适合听语音的环境下,用户可以看到语音内容对应的文字来获取信息;在有大量对话的情况下,用户回溯信息时可以看到对应的文字,大大加快了回溯查找信息的速度。
方案二、发送方获取音频信息的同时对音频信息进行语音识别,同时向接收方发送音频信息,接收方同时接收并显示音频信息及语音识别结果
如图3所示,对于发送方,本发明实施例提供的语音即时通讯方法包括:
步骤301,通过语音采集模块获取用户录入的音频信息;
可以通过本地的语音采集采集模块如话筒等,在用户说话的时候采集音频信息。
步骤302,利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
由于需要即时通讯,优选地,这里的语音识别模块为本地的语音识别模块,例如为本地的语音识别软件。
步骤303,将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
对于接收方,接收即时通信的对端发送的音频信息及对应的文字信息;在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
采用该方案,对于语音发送方来说,采集到音频信息后进行语言识别,在发送音频信息及文字信息后,在显示音频信息语音播放图标的同时,显示音频信息中被识别出的文字信息,让用户能够通过看的方式,获取语音信息的内容,在有大量对话的情况下,用户回溯信息时可以看到对应的文字,大大加快了回溯查找信息的速度。
对于语音接收方来说,能够同时接收到音频信息及对应的文字信息,在显示音频信息语音播放图标的同时,显示音频信息中被识别出的文字信息,让用户能够通过看的方式,获取语音信息的内容,在不适合听语音的环境下,用户可以看到语音内容对应的文字来获取信息;在有大量对话的情况下,用户回溯信息时可以看到对应的文字,大大加快了回溯查找信息的速度。
下面给出本发明语音即时通讯方法的优选实施例。
实施例1
发送方采用传统方式录制音频信息并发送到IM后台服务端,IM后台服务端将接收到的音频信息发送给接收方,如图4所示,包括:
步骤401,IM后台服务器接收发送方发送的音频信息,并将接收的音频信息发送到接收方;
步骤402,接收方接收来自IM后台服务器的音频信息,在即时通信应用的界面GUI上显示与所述音频信息对应的语音播放图标;
可选地,语音播放图标为与音频信息的时长成正比的播放按钮,还可以在播放按钮的上方显示音频信息的时长及接收时刻等信息。
步骤403,接收方将收到的音频信息发送到语音识别模块进行识别;
可选地,语音识别模块为具有语音识别引擎功能的模块,可以是本地的语音识别引擎也可以是远程的语音识别引擎,进一步地,本发明实施例可以采用远程后台服务器上的语音识别引擎。
步骤404,后台服务器上的语音识别引擎完成语音识别后,将得到的文字信息发送给接收方;
步骤405,接收方接收后台服务器上的语音识别引擎发送的文字信息,在即时通信应用的界面上显示所述音频信息对应的文字信息。
可选地,如图5所示,接收的文字以气泡文本框的形式与播放按钮衔接显示,具体可以是以弹出气泡文本框的方式,在对应播放按钮的上端显示出来,当然,还可以是其它位置。或者文字信息在播放按钮上面显示。
为了正确地显示音频信息的文字结果,用户可以修改错误的文字结果,可选地,本发明实施例还进一步包括:在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的区分性;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在很多先验知识的帮助下,提高识别的准确率。
采用即时通讯进行语音通讯时,大量的音频对话,实际上提供了一个良好的语音识别训练的样本。当前的信息展现方式,没有对这些信息充分利用。
可选地,本发明实施例进一步包括:将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
如果是在气泡文本框中显示语音信息的文字结果,在用户长按显示文字内容的气泡文本框后,气泡文本框可编辑。用户修改气泡文本框中的文字信息,点击文本框外的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给具有语音识别搜索引擎功能的后台服务保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
本发明实施例,可以在收到音频信息时自动将收到的音频信息发送到语音识别模块进行识别,也可以通过即时通信应用界面提示用户是否需要语音识别,根据用户的指示确定需要语音识别时,将收到的音频信息发送到语音识别模块进行识别。
可选地,在步骤402中,接收方接收来自IM后台服务器的音频信息后,在GUI上展现出播放按钮,播放按钮左侧显示“识别”字样提示用户是否需要语音识别,用户点击“识别”后,在执行步骤403,接收方将音频信息送给语音识别引擎进行语音识别。语音识别引擎完成识别,得到文字结果,并将文字结果给GUI,GUI将识别出的文字结果在播放按钮内显示。
同样,在用户长按播放按钮后,播放按钮内的内容可编辑。用户修改播放按钮中的文字信息,点击播放按钮的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给具有语音识别搜索引擎功能的后台服务保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
实施例2
在发送方,通过语音采集装置如话筒获取用户录入的音频信息;利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
语音识别模块优选为发送方本地的语音识别软件。
可选地,语音播放图标为与音频信息的时长成正比的播放按钮,还可以在播放按钮的上方显示音频信息的时长及接收时刻等信息。
可选地,文字形式的语音识别结果以气泡文本框的形式与播放按钮衔接显示,或者文字形式的语音识别结果在播放按钮上面显示。具体可以是以弹出气泡文本框的方式,在对应播放按钮的上端显示出来,当然,还可以是其它位置。
为了正确地显示音频信息的文字结果,用户可以修改错误的文字结果,可选地,本发明实施例还进一步包括:在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
进一步优选地,还包括:将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
如果是在气泡文本框中显示语音信息的文字结果,在用户长按显示文字内容的气泡文本框后,气泡文本框可编辑。用户修改气泡文本框中的文字信息,点击文本框外的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给语音识别模块保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
如果是在播放按钮内显示音频信息的文字结果,在用户长按播放按钮后,播放按钮内的内容可编辑。用户修改播放按钮中的文字信息,点击播放按钮的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给语音识别模块保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
在接收方,接收音频信息及对应的文字信息;在即时通信应用的界面上显示与该段音频信息对应的语音播放图标及文字信息。
语音识别模块可以为发送方本地的语音识别软件或者为远程后台服务器上的语音识别模块。
可选地,语音播放图标为与音频信息的时长成正比的播放按钮,还可以在播放按钮的上方显示音频信息的时长及接收时刻等信息。
可选地,文字信息以气泡文本框的形式与播放按钮衔接显示,或者文字形式的语音识别结果在播放按钮上面显示。具体可以是以弹出气泡文本框的方式,在对应播放按钮的上端显示出来,当然,还可以是其它位置。
为了正确地显示音频信息的文字结果,用户可以修改错误的文字结果,可选地,本发明实施例还进一步包括:在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
进一步优选地,还包括:将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
如果是在气泡文本框中显示语音信息的文字结果,在用户长按显示文字内容的气泡文本框后,气泡文本框可编辑。用户修改气泡文本框中的文字信息,点击文本框外的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给语音识别模块保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
如果是在播放按钮内显示音频信息的文字结果,在用户长按播放按钮后,播放按钮内的内容可编辑。用户修改播放按钮中的文字信息,点击播放按钮的任意位置,完成修改;完成修改后,将用户修改后的文字信息和对应的音频信息,打包发送给语音识别模块保存,作为后续的语音识别训练样本,这样以后的语音识别结果会更加准确,出错的几率越来越小。
本发明实施例在发送方和接收方都可以获取到音频信息和文字结果,可选地,对于接收方,收到音频信息时自动将收到的音频信息对应的文字结果显示或者,通过即时通信应用界面提示用户是否需要语音识别,根据用户的指示确定需要显示文字信息时,将收到的音频信息对应的文字结果。
本发明实施例让用户能够修正错误的语音信息识别结果,用户更正语音识别错误后,更正的内容和对应语音保存为了语音识别素材,为提升语音识别引擎的识别水平提供了基础。
基于同一发明构思,本发明实施例中还提供了一种语音即时通讯装置,由于该装置解决问题的原理与一种语音即时通讯方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的一种语音即时通讯装置,如图6所示,包括:
播放显示单元601,用于收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
文字显示单元602,用于利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
可选地,所述文字显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
可选地,还包括:样本发送单元,用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
可选地,文字显示单元还用于,在利用语音识别模块对所述音频信息进行语音识别之前,通过所述即时通信应用界面提示用户是否需要语音识别,在确定需要语音识别时,执行利用语音识别模块对所述音频信息进行语音识别的步骤。
可选地,播放显示单元显示的语音播放图标为与音频信息的时长成正比的播放按钮,所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示,或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
图7示出了根据本发明另一实施例中作为接收方的语音即时通讯装置700的示意性框图,该语音即时通讯装置700包括:包括处理器710、存储器720和总线系统730。其中,处理器710和存储器720通过总线系统730相连,该存储器720用于存储指令,该处理器710通过该总线系统730,调用该存储器720中存储的该指令,用于:收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标,利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
应理解,在本发明实施例中,该处理器710可以是中央处理单元(CentralProcessing Unit,简称为“CPU”),该处理器700还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器720可以包括只读存储器和随机存取存储器,并向处理器710提供指令和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如,存储器720还可以存储设备类型的信息。
该总线系统730除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统730。
在实现过程中,上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720,处理器710读取存储器720中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本发明实施例还提供另一种语音即时通讯装置,如图8所示,包括:
音频获取单元801,用于通过语音采集装置获取用户录入的音频信息;
文字获取单元802,用于利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
发送显示单元803,用于将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
可选地,发送显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
可选地,还包括:样本发送单元,用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
图9示出了根据本发明另一实施例中作为发送方的语音即时通讯装置900的示意性框图,该语音即时通讯装置900包括:包括处理器910、存储器920和总线系统930。其中,处理器910和存储器920通过总线系统930相连,该存储器920用于存储指令,该处理器910通过该总线系统930,调用该存储器920中存储的该指令,用于:通过语音采集装置获取用户录入的音频信息;利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
应理解,在本发明实施例中,该处理器910可以是中央处理单元(CentralProcessing Unit,简称为“CPU”),该处理器900还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器920可以包括只读存储器和随机存取存储器,并向处理器710提供指令和数据。存储器920的一部分还可以包括非易失性随机存取存储器。例如,存储器920还可以存储设备类型的信息。
该总线系统930除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统930。
在实现过程中,上述方法的各步骤可以通过处理器910中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器920,处理器910读取存储器920中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
上述即时通讯工具可以具有通讯软件的各种手持设备或者PC等,另外,很多笔记类软件也可以保存文字、语音信息。展现语音信息的方式也和IM软件相同。这类软件也可以使用本专利中的语音信息展现方式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种语音即时通讯方法,其特征在于,包括:
收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
2.如权利要求1所述的方法,其特征在于,还包括:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
3.如权利要求2所述的方法,其特征在于,还包括:
将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
4.如权利要求1所述的方法,其特征在于,在利用语音识别模块对所述音频信息进行语音识别之前,所述方法还包括:
通过所述即时通信应用界面提示用户是否需要语音识别,在确定需要语音识别时,执行利用语音识别模块对所述音频信息进行语音识别的步骤。
5.如权利要求1所述的方法,其特征在于,所述语音播放图标为与音频信息的时长成正比的播放按钮,所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示,或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
6.一种语音即时通讯方法,其特征在于,包括:
通过语音采集模块获取用户录入的音频信息;
利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
7.如权利要求6所述的方法,其特征在于,还包括:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
8.如权利要求7所述的方法,其特征在于,还包括:
将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
9.一种语音即时通讯装置,其特征在于,包括:
播放显示单元,用于收到音频信息时,在即时通信应用的界面上显示与所述音频信息对应的语音播放图标;
文字显示单元,用于利用语音识别模块对所述音频信息进行语音识别,得到所述音频信息对应的文字信息,并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
10.如权利要求9所述的装置,其特征在于,所述文字显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
11.如权利要求10所述的装置,其特征在于,还包括:
样本发送单元,用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
12.如权利要求9所述的装置,其特征在于,文字显示单元还用于,在利用语音识别模块对所述音频信息进行语音识别之前,通过所述即时通信应用界面提示用户是否需要语音识别,在确定需要语音识别时,执行利用语音识别模块对所述音频信息进行语音识别的步骤。
13.如权利要求9所述的装置,其特征在于,所述播放显示单元显示的语音播放图标为与音频信息的时长成正比的播放按钮,所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示,或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
14.一种语音即时通讯装置,其特征在于,包括:
音频获取单元,用于通过语音采集模块获取用户录入的音频信息;
文字获取单元,用于利用语音识别模块对获取的音频信息进行语音识别,得到所述音频信息对应的文字信息;
发送显示单元,用于将获取的音频信息及对应的文字信息发送到即时通信的对端,并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
15.如权利要求14所述的装置,其特征在于,发送显示单元还用于:
在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时,在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
16.如权利要求15所述的装置,其特征在于,还包括:
样本发送单元,用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块,以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310719376.3A CN104732975A (zh) | 2013-12-20 | 2013-12-20 | 一种语音即时通讯方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310719376.3A CN104732975A (zh) | 2013-12-20 | 2013-12-20 | 一种语音即时通讯方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104732975A true CN104732975A (zh) | 2015-06-24 |
Family
ID=53456814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310719376.3A Pending CN104732975A (zh) | 2013-12-20 | 2013-12-20 | 一种语音即时通讯方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104732975A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105141500A (zh) * | 2015-07-23 | 2015-12-09 | 无锡天脉聚源传媒科技有限公司 | 一种信息发布方法及装置 |
CN105187295A (zh) * | 2015-08-06 | 2015-12-23 | 广州华多网络科技有限公司 | 一种在客户端实现气泡展示的方法及客户端、服务器和系统 |
CN106098057A (zh) * | 2016-06-13 | 2016-11-09 | 北京云知声信息技术有限公司 | 播放语速管理方法及装置 |
WO2017128991A1 (zh) * | 2016-01-26 | 2017-08-03 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的即时通信方法和即时通信系统 |
CN107438135A (zh) * | 2017-07-31 | 2017-12-05 | 上海爱优威软件开发有限公司 | 基于来电应答的任务处理方法 |
CN109215638A (zh) * | 2018-10-19 | 2019-01-15 | 珠海格力电器股份有限公司 | 一种语音学习方法、装置、语音设备及存储介质 |
CN109286725A (zh) * | 2018-10-15 | 2019-01-29 | 华为技术有限公司 | 翻译方法及终端 |
CN110798393A (zh) * | 2018-08-02 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 声纹气泡的展示方法及使用声纹气泡的终端 |
CN110971502A (zh) * | 2018-09-30 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 应用程序中的声音消息显示方法、装置、设备及存储介质 |
CN111968630A (zh) * | 2019-05-20 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN112151032A (zh) * | 2020-09-15 | 2020-12-29 | 济南雪景网络技术有限公司 | 一种语音消息的智能处理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1371090A (zh) * | 2002-03-25 | 2002-09-25 | 苏州孔雀电器集团有限责任公司 | 一种将语音文件转换成文本文件的方法 |
US20070033037A1 (en) * | 2005-08-05 | 2007-02-08 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
CN101072168A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种多语言即时通讯终端及其系统和方法 |
CN101452700A (zh) * | 2007-11-30 | 2009-06-10 | 王瑞璋 | 一种语音辨识系统 |
US20090306980A1 (en) * | 2008-06-09 | 2009-12-10 | Jong-Ho Shin | Mobile terminal and text correcting method in the same |
CN102543076A (zh) * | 2011-01-04 | 2012-07-04 | 中国移动通信集团公司 | 用于语音输入法的语音训练方法及相应的系统 |
CN103295576A (zh) * | 2012-03-02 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 一种即时通信的语音识别方法和终端 |
CN103327181A (zh) * | 2013-06-08 | 2013-09-25 | 广东欧珀移动通信有限公司 | 可提高用户获知语音信息效率的语音聊天方法 |
CN103379460A (zh) * | 2012-04-20 | 2013-10-30 | 华为终端有限公司 | 一种语音消息处理方法及终端 |
CN104700836A (zh) * | 2013-12-10 | 2015-06-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
-
2013
- 2013-12-20 CN CN201310719376.3A patent/CN104732975A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1371090A (zh) * | 2002-03-25 | 2002-09-25 | 苏州孔雀电器集团有限责任公司 | 一种将语音文件转换成文本文件的方法 |
US20070033037A1 (en) * | 2005-08-05 | 2007-02-08 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
CN101072168A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种多语言即时通讯终端及其系统和方法 |
CN101452700A (zh) * | 2007-11-30 | 2009-06-10 | 王瑞璋 | 一种语音辨识系统 |
US20090306980A1 (en) * | 2008-06-09 | 2009-12-10 | Jong-Ho Shin | Mobile terminal and text correcting method in the same |
CN102543076A (zh) * | 2011-01-04 | 2012-07-04 | 中国移动通信集团公司 | 用于语音输入法的语音训练方法及相应的系统 |
CN103295576A (zh) * | 2012-03-02 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 一种即时通信的语音识别方法和终端 |
CN103379460A (zh) * | 2012-04-20 | 2013-10-30 | 华为终端有限公司 | 一种语音消息处理方法及终端 |
CN103327181A (zh) * | 2013-06-08 | 2013-09-25 | 广东欧珀移动通信有限公司 | 可提高用户获知语音信息效率的语音聊天方法 |
CN104700836A (zh) * | 2013-12-10 | 2015-06-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105141500A (zh) * | 2015-07-23 | 2015-12-09 | 无锡天脉聚源传媒科技有限公司 | 一种信息发布方法及装置 |
CN105187295A (zh) * | 2015-08-06 | 2015-12-23 | 广州华多网络科技有限公司 | 一种在客户端实现气泡展示的方法及客户端、服务器和系统 |
CN105187295B (zh) * | 2015-08-06 | 2019-05-17 | 广州华多网络科技有限公司 | 一种在客户端实现气泡展示的方法及客户端、服务器和系统 |
WO2017128991A1 (zh) * | 2016-01-26 | 2017-08-03 | 阿里巴巴集团控股有限公司 | 一种基于语音识别的即时通信方法和即时通信系统 |
CN106098057A (zh) * | 2016-06-13 | 2016-11-09 | 北京云知声信息技术有限公司 | 播放语速管理方法及装置 |
CN107438135A (zh) * | 2017-07-31 | 2017-12-05 | 上海爱优威软件开发有限公司 | 基于来电应答的任务处理方法 |
CN110798393A (zh) * | 2018-08-02 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 声纹气泡的展示方法及使用声纹气泡的终端 |
CN110798393B (zh) * | 2018-08-02 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 声纹气泡的展示方法及使用声纹气泡的终端 |
CN110971502A (zh) * | 2018-09-30 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 应用程序中的声音消息显示方法、装置、设备及存储介质 |
CN109286725A (zh) * | 2018-10-15 | 2019-01-29 | 华为技术有限公司 | 翻译方法及终端 |
US11893359B2 (en) | 2018-10-15 | 2024-02-06 | Huawei Technologies Co., Ltd. | Speech translation method and terminal when translated speech of two users are obtained at the same time |
CN109215638A (zh) * | 2018-10-19 | 2019-01-15 | 珠海格力电器股份有限公司 | 一种语音学习方法、装置、语音设备及存储介质 |
CN111968630A (zh) * | 2019-05-20 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN111968630B (zh) * | 2019-05-20 | 2024-03-19 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN112151032A (zh) * | 2020-09-15 | 2020-12-29 | 济南雪景网络技术有限公司 | 一种语音消息的智能处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104732975A (zh) | 一种语音即时通讯方法及装置 | |
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
CN107766482B (zh) | 信息推送及发送方法、装置、电子设备、存储介质 | |
KR101213835B1 (ko) | 음성 인식에 있어서 동사 에러 복원 | |
CN107147618A (zh) | 一种用户注册方法、装置及电子设备 | |
EP3382707B1 (en) | Audio file re-recording method, device and storage medium | |
TW201733376A (zh) | 基於語音識別的即時通信方法和即時通信系統 | |
CN107612815B (zh) | 一种信息发送方法、装置及设备 | |
CN106531149A (zh) | 信息处理方法及装置 | |
CN104541325A (zh) | 混合模型语音识别 | |
CN111261144A (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
CN104123938A (zh) | 语音控制系统、电子装置及语音控制方法 | |
CN106328176B (zh) | 一种生成歌曲音频的方法和装置 | |
CN104866275B (zh) | 一种用于获取图像信息的方法和装置 | |
CN109634501B (zh) | 电子书批注添加方法、电子设备及计算机存储介质 | |
US10929606B2 (en) | Method for follow-up expression for intelligent assistance | |
CN110992955A (zh) | 一种智能设备的语音操作方法、装置、设备及存储介质 | |
CN104123114A (zh) | 一种进行语音播放的方法和装置 | |
CN106228047B (zh) | 一种应用程序图标处理方法及终端设备 | |
CN104091596A (zh) | 一种乐曲识别方法、系统和装置 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
CN104092809A (zh) | 通话录音方法、通话录音播放方法及其相应装置 | |
CN113724709A (zh) | 文本内容匹配方法、装置、电子设备及存储介质 | |
CN110943908A (zh) | 语音消息发送方法、电子设备及介质 | |
CN104505103A (zh) | 语音质量评价设备、方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150624 |