CN105162836A - 执行语音通信的方法、服务器和智能终端设备 - Google Patents

执行语音通信的方法、服务器和智能终端设备 Download PDF

Info

Publication number
CN105162836A
CN105162836A CN201510456757.6A CN201510456757A CN105162836A CN 105162836 A CN105162836 A CN 105162836A CN 201510456757 A CN201510456757 A CN 201510456757A CN 105162836 A CN105162836 A CN 105162836A
Authority
CN
China
Prior art keywords
speech
data
text data
speech data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510456757.6A
Other languages
English (en)
Other versions
CN105162836B (zh
Inventor
李世龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510456757.6A priority Critical patent/CN105162836B/zh
Publication of CN105162836A publication Critical patent/CN105162836A/zh
Application granted granted Critical
Publication of CN105162836B publication Critical patent/CN105162836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Abstract

本发明实施例公开了一种在网络业务中执行语音通信的方法、服务器和智能终端设备。所述方法包括:在执行所述网络业务的业务服务器中执行以下步骤:通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器;通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。采用本发明实施例,可为在网络业务中执行通信提供便利。

Description

执行语音通信的方法、服务器和智能终端设备
技术领域
本发明涉及计算机技术领域,特别涉及一种在网络业务中执行语音通信的方法、服务器和智能终端设备。
背景技术
随着终端技术和网络技术的不断发展,人们越来越热衷于使用终端设备通过视频、音频等方式与其他人进行交流和沟通。
例如,在手机网络游戏中,用户之间经常需要进行游戏战术沟通或聊天等,这样,用户之间需要相互传递信息。相应地,用户需要在进行网络游戏的过程中调出所述智能终端设备中安装的文字输入法,通过所述文字输入界面输入相应的文字并发送所述文字内容;或者,用户点击相应的语音输入按键,所述智能终端设备启动麦克风接收用户的语音数据,并且将用户输入的文字或语音数据发送给所述其他用户的智能终端设备。
前述在网络业务中执行通信的方法至少存在以下问题:对于通过文字输入法输入的文字执行通信的情况,用户在输入文字时,无法执行所述网络业务的操作。而对于通过语音执行通信的情况,用户在大多数时候并不方便收听接收到的语音,从而容易错过较重要的信息。
发明内容
本发明的实施例提供一种在网络业务中执行语音通信的方法、服务器和智能终端设备,在执行网络业务的过程中,通过语音执行通信,并且将语音数据转换为识别文本数据,从而为在网络业务中执行通信提供便利。
为达到上述目的,本发明的实施例提供了一种在网络业务中执行语音通信的方法。所述方法包括,在执行所述网络业务的业务服务器中执行以下步骤:通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器;通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
可选地,所述通过第一线程将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器的处理包括:通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
可选地,所述方法还包括:通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中,所述通过第二线程将在所述识别结果接收位置接收到的所述识别文本数据发送给所述目标用户的智能终端设备的处理包括:从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
可选地,通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
可选地,所述将所述第二识别文本数据发送给所述第二目标用户的智能终端设备的处理还包括:将所述第二识别文本数据和与其相应的语音数据发送给所述第二目标用户的智能终端设备。
可选地,所述通过第一线程将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器的处理包括:通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
为达到上述目的,本发明的实施例提供了一种在网络业务中执行语音通信的方法。所述方法包括,语音识别请求接收步骤:从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求;语音识别执行步骤:将所述语音数据转换为识别文本数据;识别文本数据发送步骤:将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
可选地,所述语音识别请求是包括所述语音数据和用于接收所述语音数据的识别结果的回调网页链接的HTTP/HTTPS请求,其中,所述回调网页链接中包括所述目标用户的信息,所述识别文本数据发送步骤的处理包括:根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
可选地,所述语音识别执行步骤的处理包括:如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据;如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
可选地,所述方法还包括:如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
可选地,所述通过单独的线程从所述待识别语音数据队列提取语音识别请求的处理还包括:如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
可选地,所述方法还包括:根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;所述语音识别执行步骤的处理包括:将所述预处理后的语音数据转换为识别文本数据。
为达到上述目的,本发明的实施例提供了一种在网络业务中执行语音通信的方法。所述方法包括,从业务服务器接收来自所述网络业务中另一用户的识别文本数据;显示所述识别文本数据。
可选地,所述从业务服务器接收来自所述网络业务中另一用户的识别文本数据的处理还包括:从业务服务器接收与所述识别文本数据相应的语音数据;所述显示所述识别文本数据的处理包括:显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的识别文本数据。
为达到上述目的,本发明的实施例还提供了一种用于在网络业务中执行语音通信的服务器。所述服务器包括:语音数据收发模块,用于通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器;文本数据发送模块,用于通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
可选地,所述语音数据收发模块用于:通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
可选地,所述服务器还包括:用户信息写入模块,用于通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中,所述文本数据发送模块用于从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
可选地,通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
可选地,所述所述文本数据发送模块用于:将所述第二识别文本数据和与其相应的语音数据发送给所述第二目标用户的智能终端设备。
可选地,所述语音数据收发模块包括:预处理单元,用于通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;语音数据发送单元,用于将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
为达到上述目的,本发明的实施例还提供了一种用于在网络业务中执行语音通信的服务器。所述服务器包括:识别请求接收模块,用于从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求;语音识别执行模块,用于将所述语音数据转换为识别文本数据;文本数据发送模块,用于将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
可选地,所述语音识别请求是包括所述语音数据和用于接收所述语音数据的识别结果的回调网页链接的HTTP/HTTPS请求,其中,所述回调网页链接中包括所述目标用户的信息,所述文本数据发送模块用于:根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
可选地,所述语音识别执行模块用于:如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据;如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
可选地,所述服务器还包括:识别请求放置模块,用于如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,语音识别处理模块,用于通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
可选地,所述语音识别处理模块用于:如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
可选地,所述服务器还包括:预处理模块,用于根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;所述语音识别执行模块用于:将所述预处理后的语音数据转换为识别文本数据。
为达到上述目的,本发明的实施例还提供了一种用于在网络业务中执行语音通信的智能终端设备。所述智能终端设备包括:文本数据接收模块,用于从业务服务器接收来自所述网络业务中另一用户的识别文本数据;文本数据显示模块,用于显示所述识别文本数据。
可选地,所述文本数据接收模块还用于:从业务服务器接收与所述识别文本数据相应的语音数据;所述文本数据显示模块用于:显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的识别文本数据。
本发明实施例提供的在网络业务中执行语音通信的方法、服务器和智能终端设备,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
附图说明
图1为本发明实施例提供的在网络业务中执行语音通信的系统的逻辑框架图;
图2为本发明实施例提供的在网络业务中执行语音通信的方法的流程图;
图3为本发明实施例提供的在网络业务中执行语音通信的方法的流程图;
图4为本发明实施例提供的在网络业务中执行语音通信的方法的流程图;
图5为本发明实施例提供的在网络业务中执行语音通信的方法的流程图;
图6为本发明实施例提供的在网络业务中执行语音通信的界面示意图;
图7为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图8为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图9为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图10为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图11为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图12为本发明实施例提供的用于在网络业务中执行语音通信的服务器的结构示意图;
图13为本发明实施例提供的用于在网络业务中执行语音通信的智能终端设备的结构示意图。
具体实施方式
本方案的发明构思是,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示。目标用户通过接收的识别文本数据了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
为了实现上述方案,可通过用户的智能终端设备、网络业务的业务服务器、语音识别服务器和目标用户的智能终端设备之间的交互处理对上述方案进行详细说明。其中,所述智能终端设备可以为手机、平板电脑等。所述业务服务器可通过相应的软件配置管理相应的网络业务,所述网络业务可包括多种,例如网络游戏业务、在线网络直播业务等。所述语音识别服务器可用于对语音数据进行识别,并得到相应的识别文本数据。
所述在网络业务中执行语音通信的方法可应用于多种不同的网络业务中,例如手机网络游戏业务等。对于不同的网络业务,其相应的处理流程可不同。下面以手机网络游戏业务为例,对在网络业务中执行语音通信的处理的流程进行详细描述。对于其它网络业务,可通过手机网络游戏业务的相关处理执行,在此不再赘述。
如图1所示,某用户在通过其智能终端设备执行网络游戏时,如果该用户需要将某些游戏战术信息告知给另一个用户(即目标用户),或者,该用户需要向目标用户发送聊天消息,则该用户可点击目标用户的用户标识,如目标用户的用户名或头像等,所述智能终端设备显示通信窗口,该用户可点击所述通信窗口中的语音输入按键,所述智能终端设备启动麦克风,用户可对着所述智能终端设备执行语音输入,所述麦克风接收用户的语音数据,所述智能终端设备将所述语音数据发送给所述网络游戏的业务服务器。
所述业务服务器接收到所述语音数据后,可对所述语音数据执行预处理,如将所述语音数据的语音格式转换为预设的语音格式、将所述语音数据的语音采样率转换为预设的语音采样率等。然后,所述业务服务器可将预处理后的语音数据和所述业务服务器的网络地址链接(作为回调网页链接)通过HTTP/HTTPS请求的方式发送给语音识别服务器。其中,可将所述语音识别服务器的相应接口(如HTTP/HTTPS接口)提供给各个网络游戏提供商,以便所述业务服务器向所述语音识别服务器发送HTTP/HTTPS请求。
所述语音识别服务器接收所述HTTP/HTTPS请求时,对其中包含的语音数据进行识别,得到相应的识别文本数据,所述语音识别服务器可通过所述HTTP/HTTPS请求中的回调网页链接,以HTTP/HTTPS响应的方式将所述识别文本数据发送给相应的业务服务器。
所述业务服务器可将所述识别文本数据和与其相对应的语音数据,以及发送所述语音数据的用户的用户标识发送给所述目标用户的智能终端设备。当所述目标用户的终端设备接收到相应的信息后,可弹出通信窗口,并在所述通信窗口中显示该用户的用户标识,在所述用户标识的下方显示用于播放所述语音数据的语音播放按键,同时,在所述语音播放按键的周围的预设位置显示所述识别文本数据。
下面结合附图对本发明实施例在网络业务中执行语音通信的方法、服务器和智能终端设备进行详细描述。
实施例一
图2是本发明实施例提供的在网络业务中执行语音通信的方法的流程图。通过包括如图7所示的服务器系统执行所述方法。
参照图2,在步骤S210,通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
其中,所述第一线程为所述业务服务器中用于接收语音数据和向所述语音识别服务器发送所述语音数据的线程。所述识别结果的接收位置可以为所述业务服务器上的网络端口或者其上用于接收所述识别结果的网络地址链接等。
具体地,某用户在执行某项网络业务的过程中,当所述用户需要与另一个用户(即目标用户)执行通信时,所述用户可点击通信列表中的所述目标用户的用户标识,如用户名或头像等。所述用户的智能终端设备显示通信窗口,用户点击所述通信窗口中的语音输入按键,启动麦克风。之后,所述智能终端设备可通过所述麦克风接收所述用户输入的语音数据。输入完成后,所述用户可点击确认按键,所述智能终端设备将所述语音数据发送给业务服务器。当所述业务服务器的接收语音数据的操作被触发时,所述业务服务器通过第一线程接收发送给所述目标用户的语音数据,并且将所述语音数据和所述识别结果接收位置发送给所述语音识别服务器。这里所说的第一线程可以是所述业务服务器运行所述网络业务的主线程,也可以是为了接收语音数据而单独启动的线程。
为了降低由于所述业务服务器等待相应的识别结果的反馈而对其网络业务造成的影响,所述业务服务器与语音识别服务器之间可采用异步的方式进行相应的处理。也就是说,所述业务服务器分别通过第一线程和第二线程来接收来自客户端的语音数据和将所述语音数据的识别结果发送给目标用户,从而减少点对点(源用户到目标用户)的数据处理延迟时间,提高数据处理效率。
在步骤S220,通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
所述识别文本数据可包括文字、数字和符号中的一种或多种。
具体地,所述语音识别服务器接收到所述语音数据后,可通过其预先建立的语音识别模型将所述语音数据转换为识别文本数据,并将所述识别文本数据发送至所述识别结果接收位置。此时,所述业务服务器通过所述第二线程获取所述识别结果接收位置接收到的识别文本数据,并且将所述识别文本数据发送给所述目标用户的智能终端设备,如手机或平板电脑等。
图3是本发明实施例提供的在网络业务中执行语音通信的方法的流程图。通过包括如图10所示的服务器系统执行所述方法。
如图3所示,在步骤S310(语音识别请求接收步骤),从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求。
具体地,某用户通过其智能终端设备将发送给目标用户的所述语音数据发送给业务服务器,所述业务服务器可将所述语音数据发送给语音识别服务器,以对所述语音数据进行识别。
在步骤S320(语音识别执行步骤),将所述语音数据转换为识别文本数据。
所述语音识别服务器可通过多种方式、多种渠道收集语音数据和相应的文本数据,将所述语音数据作为语料进行模型训练,从而得到相应的语音识别模型。
在步骤S320,所述语音识别服务器接收到所述语音识别请求后,可从中提取所述语音数据,并可通过所述语音识别模型将所述语音数据转换为识别文本数据。
需要指出,本发明中给出了一种具体的语音识别方式,但是可以理解,所述语音识别的处理可采用现有的语音识别技术,不限于前述的方式。
在步骤S330(识别文本数据发送步骤),将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
具体地,语音识别服务器可使用所述识别文本数据生成语音识别响应发送至所述识别结果接收位置。与所述识别结果接收位置相应的业务服务器可将所述识别文本数据发送给目标用户的终端设备,以使所述目标用户可查看到用户发送的语音数据对应的文字内容,为用户在网络业务中执行通信提供了便利。
图4是本发明实施例提供的在网络业务中执行语音通信的方法的流程图。通过包括如图13所示的服务器系统执行所述方法。
如图4所示,在步骤S410,从业务服务器接收来自所述网络业务中另一用户的识别文本数据。
具体地,用户通过其智能终端设备将发送给目标用户的语音数据发送给业务服务器后,所述业务服务器将所述语音数据发送给语音识别服务器进行语音识别,得到相应的识别文本数据,并可将其发送给所述业务服务器。所述业务服务器在将所述识别文本数据和发送所述语音数据的用户的用户标识发送给目标用户的智能终端设备,所述目标用户的智能终端设备除接收所述识别文本数据以外,还可接收发送所述语音数据的用户的用户标识。其中,所述用户标识可以为用户名称、头像等。
在步骤S420,显示所述识别文本数据。
具体地,为了不影响目标用户当前正在进行的网络业务,所述目标用户的智能终端设备可在其显示界面的预设位置(如显示界面的底部等)弹出通信窗口,并在所述通信窗口中显示发送所述语音数据的用户的用户标识,同时可将所述识别文本数据显示在所述用户标识的后面或下面,以表示该用户与目标用户正在通信。
本发明实施例提供的在网络业务中执行语音通信的方法,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利。而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
实施例二
图5为本发明提供的在网络业务中执行语音通信的方法的另一个实施例的流程图,所述实施例可视为图2、图3和图4相结合的又一种具体的实现方案。
如图5所示,在步骤S510,业务服务器通过第一线程从智能终端设备接收发送给目标用户的语音数据。
步骤S510的处理可参见前述步骤S210的内容,在此不再赘述。
在步骤S520,业务服务器通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
其中,HTTP/HTTPS请求通常是一种请求某资源的消息。所述目标用户的信息可包括目标用户的用户名称、头像、用户代码等。
为了使在网络业务中执行语音通信的处理更加简单易行,业务服务器在向语音识别服务器发送语音数据时,可采用HTTP/HTTPS请求的方式执行,即可将语音识别服务器的HTTP/HTTPS接口提供给某网络业务的服务商,所述网络业务的服务商可通过所述HTTP/HTTPS接口将其业务服务器与语音识别服务器连接,从而使得语音识别服务器可从业务服务器中接收以HTTP/HTTPS请求的方式上传的语音数据。
具体地,业务服务器可生成在其上用于接收所述语音数据的识别结果的回调网页链接,将所述回调网页链接和所述语音数据封装在HTTP/HTTPS请求中,并将所述HTTP/HTTPS请求发送给语音识别服务器。所述回调网页链接可为所述业务服务器的网络地址链接。
另外,为了提高语音识别服务器对语音数据的识别效率,可在业务服务器设置相应的预处理机制,对所述语音数据执行预处理,相应的,上述步骤S520的处理包括:通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据。其中,所述预处理参数包括语音格式和语音采样率;将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求(如前述封装的HTTP/HTTPS请求)发送给语音识别服务器。
在步骤S530,语音识别服务器将所述语音数据转换为识别文本数据。步骤S530的处理可参见前述步骤S320的内容,在此不再赘述。
另外,前述对语音数据执行的预处理,可如前所述由业务服务器执行,或者也可通过语音识别服务器执行。相应地,在步骤S530,将所述预处理后的语音数据转换为识别文本数据。
另外,为了提高语音识别服务器对所述语音数据的识别速率,语音识别服务器可将语音时长较长的语音数据切分成多个短语音数据。相应的,步骤S530的处理可包括:如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据。
其中,时长阈值可根据实际情况进行设定,如1分钟或3分钟等。
具体地,可通过多种方式和渠道获取语音数据将其作为语料,并可通过模型训练的方式建立语音切分模型,所述语音切分模型用于基于多种方式对语音数据进行切分,例如,通过语音数据中的静音对语音数据进行切分等。语音识别服务器接收到所述语音数据后,可获取所述语音数据的语音时长,并将其与预设的时长阈值对比。
一方面,如果所述语音数据的语音时长超过预设的时长阈值,则可通过语音切分模型检测所述语音数据中的静音位置,将在检测到的静音位置切分所述语音数据,得到多个语音数据段。此后,可通过语音识别模型同时对多个语音数据段进行识别,得到相应的短识别文本数据。为将所述短识别文本数据组合成一个完整的识别文本数据,语音识别服务器可获取每个语音数据段的语音起始时间和语音结束时间,将其对应的短识别文本数据进行顺序排列,根据得到的排列顺序将所述短识别文本数据组合成所述识别文本数据。
另一方面,如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
进一步地,可通过语音识别服务器对每个或某个业务服务器单位时间内上传的数据量进行限制,以保证语音识别服务器的流量平衡或稳定。相应的,步骤S530的处理可包括:如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
具体地,可在语音识别服务器中设置一个时间区间和相应的数据量,从而得到预定的时间区间内的预定的数据量,例如每分钟的数据量为3MB等。语音识别服务器从某个业务服务器开始接收语音识别请求(即HTTP/HTTPS请求)时计时,并在达到预定的时间区间时结束计时,获取接收到的所述语音识别请求的数据量,然后,可将其与预定的数据量对比。如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,以等待语音识别服务器对其进行识别。如果所述提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度未超过预定的等待时间阈值,则语音识别服务器可从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行相应的识别处理,具体可参见前述步骤S320的内容,在此不再赘述。
此外,如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
需要说明的是,对于提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值的情况,可采用丢弃的方式处理,也可采用其他方式处理,例如,继续等待,直到将语音数据转换为识别文本数据为止等。
在步骤S540,语音识别服务器根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
其中,所述目标用户的信息可包括目标用户的用户名称、头像或用户代码等。
具体地,语音识别服务器可将所述识别文本数据和所述目标用户的信息封装在HTTP/HTTPS响应中,并将其发送给所述回调网页链接对应的业务服务器。具体处理可参见前述内容,在此不再赘述。
在步骤S550,业务服务器通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中。
其中,所述第三线程可与所述第一线程和所述第二线程不同,所述第三线程可用于将接收到的信息写入相应的信息队列中。
在步骤S560,业务服务器从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
需要说明的是,为了使所述第三线程写入的数据和所述第二线程读取的数据保持同步,可执行相应的同步处理,相应的处理可包括:通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
具体地,业务服务器可通过预定的同步规则执行线程同步机制,以保证所述识别结果队列中写入的数据和读取的数据同步,避免产生重复写入相同数据或重复读取相同数据的情况,而增加业务服务器的数据处理负担。
在步骤S570,目标智能终端设备从业务服务器接收来自所述网络业务中另一用户的所述第二识别文本数据。
其中,目标用户的智能终端设备可称为目标智能终端设备。
步骤S570的处理可参见前述步骤S410的内容,在此不再赘述。
此外,业务服务器还可将所述第二识别文本数据对应的语音数据发送给目标终端设备,以方便用户收听所述语音数据,相应的,上述步骤S570的处理还可包括:从业务服务器接收与所述第二识别文本数据相应的语音数据。
具体地,业务服务器接收到所述第二识别文本数据后,可从已存储的语音数据中查找到所述第二识别文本数据对应的语音数据,可将所述第二识别文本数据和查找到的语音数据发送给目标智能终端设备,目标智能终端设备接收所述第二识别文本数据和查找到的语音数据。
在步骤S580,目标智能终端设备显示所述第二识别文本数据。
步骤S580的处理可参见前述步骤S420的内容,在此不再赘述。
此外,对于目标智能终端设备还接收到所述第二识别文本数据对应的语音数据的情况,相应的处理可包括:显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的第二识别文本数据。
具体地,如图6所示,目标智能终端设备在通信窗口中显示了发送所述语音数据的用户的用户标识,并在所述用户标识的后面显示了语音播放按键,同时,所述语音播放按键中还显示有所述语音数据的语音时长(即5”(5秒)),而且还在所述语音播放按键的下方显示了所述第二识别文本数据。
需要说明的是,为了保证优良的语音识别效果,可对上述语音识别模型和语音切分模型进行更新,相应的处理可包括:基于用户和/或网络业务的服务商提供的语料数据,通过预设的更新规则对所述语音识别模型进行更新。网络业务的服务商可定时向语音识别服务器提供相应的语料数据,同时,语音识别服务器也可收集来自用户的语料数据。在达到预设的更新规则(如更新周期等)时,语音识别服务器可通过上述语料数据对所述语音识别模型进行训练,以更新所述语音识别模型。
本发明实施例提供的在网络业务中执行语音通信的方法,一方面,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,即通过业务服务器不同的线程执行相应的处理,业务服务器将发送给目标用户的语音数据通过HTTP/HTTPS请求的方式发送给语音识别服务器进行识别,得到识别文本数据,使得发送语音数据的方式简单易行;另一方面,通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,可提高在网络业务中执行语音通信的效率。
实施例三
基于相同的技术构思,本发明实施例还提供了一种用于在网络业务中执行语音通信的服务器,所述服务器可为网络业务的业务服务器。如图7所示,所述服务器包括语音数据收发模块710和文本数据发送模块720。
语音数据收发模块710,用于通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
文本数据发送模块720,用于通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
此外,语音数据收发模块710用于通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
进一步地,在图7所示实施例的基础上,如图8所示的服务器还包括:用户信息写入模块730,用于通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中,文本数据发送模块720用于从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
此外,通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
此外,文本数据发送模块720用于将所述第二识别文本数据和与其相应的语音数据发送给所述第二目标用户的智能终端设备。
进一步地,在图8所示实施例的基础上,如图9所示的语音数据收发模块710包括:预处理单元711,用于通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;语音数据发送单元712,用于将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
本发明实施例提供的用于在网络业务中执行语音通信的服务器,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
进一步地,本发明实施例中,一方面,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,即通过业务服务器不同的线程执行相应的处理,业务服务器将发送给目标用户的语音数据通过HTTP/HTTPS请求的方式发送给语音识别服务器执行识别,得到识别文本数据,使得发送语音数据的方式简单易行;另一方面,通过业务服务器将所述识别文本数据和相应的语音数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,可提高在网络业务中执行语音通信的效率。
实施例四
基于相同的技术构思,本发明实施例还提供了一种用于在网络业务中执行语音通信的服务器,所述服务器可为用于将语音数据转换为识别文本数据的语音识别服务器。如图10所示,所述服务器包括识别请求接收模块1010、语音识别执行模块1020和文本数据发送模块1030。
识别请求接收模块1010,用于从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求。
语音识别执行模块1020,用于将所述语音数据转换为识别文本数据。
文本数据发送模块1030,用于将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
此外,所述语音识别请求是包括所述语音数据和用于接收所述语音数据的识别结果的回调网页链接的HTTP/HTTPS请求,其中,所述回调网页链接中包括所述目标用户的信息,文本数据发送模块1030用于根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
可选地,语音识别执行模块1020用于如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据;如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
进一步地,在图10所示实施例的基础上,如图11所示的服务器还包括:识别请求放置模块1040,用于如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,语音识别处理模块1050,用于通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
此外,语音识别处理模块1050用于如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
进一步地,在图11所示实施例的基础上,如图12所示的服务器还包括:预处理模块1060,用于根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;语音识别执行模块1020用于将所述预处理后的语音数据转换为识别文本数据。
本发明实施例提供的用于在网络业务中执行语音通信的服务器,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
进一步地,本发明实施例中,一方面,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,即通过业务服务器不同的线程执行相应的处理,业务服务器将发送给目标用户的语音数据通过HTTP/HTTPS请求的方式发送给语音识别服务器进行识别,得到识别文本数据,使得发送语音数据的方式简单易行;另一方面,通过业务服务器将所述识别文本数据和相应的语音数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,可提高在网络业务中执行语音通信的效率。
实施例五
基于相同的技术构思,本发明实施例还提供了一种在网络业务中执行语音通信的智能终端设备。如图13所示,所述智能终端设备包括文本数据接收模块1310和文本数据显示模块1320。
文本数据接收模块1310,用于从业务服务器接收来自所述网络业务中另一用户的识别文本数据。
文本数据显示模块1320,用于显示所述识别文本数据。
另外,文本数据接收模块1310还用于从业务服务器接收与所述识别文本数据相应的语音数据;文本数据显示模块1320用于显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的识别文本数据。
本发明实施例提供的用于在网络业务中执行语音通信的智能终端设备,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,业务服务器将从智能终端设备接收到的发送给目标用户的语音数据发送给语音识别服务器进行识别,得到识别文本数据,进而再通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,而对于发送所述语音数据的用户,可不需要通过文字输入法输入文字执行通信,而通过语音数据执行通信,不会影响用户当前的网络业务,可提高通信效率,从而为在网络业务中执行通信提供了便利。
进一步地,本发明实施例中,一方面,基于网络业务的业务服务器和语音识别服务器之间的交互采用异步的方式,即通过业务服务器不同的线程执行相应的处理,业务服务器将发送给目标用户的语音数据通过HTTP/HTTPS请求的方式发送给语音识别服务器进行识别,得到识别文本数据,使得发送语音数据的方式简单易行;另一方面,通过业务服务器将所述识别文本数据发送给目标用户的终端设备进行显示,目标用户无需收听所述语音数据,而通过识别文本数据即可了解到所述语音数据的内容,从而为目标用户了解通信内容提供了便利,可提高在网络业务中执行语音通信的效率。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (28)

1.一种在网络业务中执行语音通信的方法,其特征在于,所述方法包括,在执行所述网络业务的业务服务器中执行以下步骤:
通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器;
通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
2.根据权利要求1所述的方法,其特征在于,所述通过第一线程将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器的处理包括:
通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中,
所述通过第二线程将在所述识别结果接收位置接收到的所述识别文本数据发送给所述目标用户的智能终端设备的处理包括:
从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
4.根据权利要求3所述的方法,其特征在于,通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二识别文本数据发送给所述第二目标用户的智能终端设备的处理还包括:
将所述第二识别文本数据和与其相应的语音数据发送给所述第二目标用户的智能终端设备。
6.根据权利要求1所述的方法,其特征在于,所述通过第一线程将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器的处理包括:
通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;
将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
7.一种在网络业务中执行语音通信的方法,其特征在于,所述方法包括:
语音识别请求接收步骤:从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求;
语音识别执行步骤:将所述语音数据转换为识别文本数据;
识别文本数据发送步骤:将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
8.根据权利要求7所述的方法,其特征在于,所述语音识别请求是包括所述语音数据和用于接收所述语音数据的识别结果的回调网页链接的HTTP/HTTPS请求,其中,所述回调网页链接中包括所述目标用户的信息,
所述识别文本数据发送步骤的处理包括:
根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
9.根据权利要求8所述的方法,其特征在于,所述语音识别执行步骤的处理包括:
如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据;
如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,
通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
11.根据权利要求10所述的方法,其特征在于,所述通过单独的线程从所述待识别语音数据队列提取语音识别请求的处理还包括:
如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
12.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;
所述语音识别执行步骤的处理包括:
将所述预处理后的语音数据转换为识别文本数据。
13.一种在网络业务中执行语音通信的方法,其特征在于,所述方法包括:
从业务服务器接收来自所述网络业务中另一用户的识别文本数据;
显示所述识别文本数据。
14.根据权利要求13所述的方法,其特征在于,所述从业务服务器接收来自所述网络业务中另一用户的识别文本数据的处理还包括:
从业务服务器接收与所述识别文本数据相应的语音数据;
所述显示所述识别文本数据的处理包括:
显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的识别文本数据。
15.一种用于在网络业务中执行语音通信的服务器,其特征在于,所述服务器包括:
语音数据收发模块,用于通过第一线程从智能终端设备接收发送给目标用户的语音数据,并且将包括所述语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器;
文本数据发送模块,用于通过第二线程将在所述识别结果接收位置接收到的识别文本数据发送给所述目标用户的智能终端设备。
16.根据权利要求15所述的服务器,其特征在于,所述语音数据收发模块用于:
通过所述第一线程将所述语音数据和用于接收所述语音数据的识别结果的回调网页链接封装在HTTP/HTTPS请求中,并且将所述HTTP/HTTPS请求发送给所述语音识别服务器,其中,在所述回调网页链接中包括所述目标用户的信息。
17.根据权利要求16所述的服务器,其特征在于,所述服务器还包括:
用户信息写入模块,用于通过第三线程将通过所述回调网页链接接收到的第一识别文本数据以及所述回调网页链接中包含的第一目标用户的信息写入识别结果队列中,
所述文本数据发送模块用于从所述识别结果队列读取第二识别文本数据和相应的第二目标用户的信息,并且将所述第二识别文本数据发送给所述第二目标用户的智能终端设备。
18.根据权利要求17所述的服务器,其特征在于,通过线程同步机制控制第三线程对所述识别结果队列的写入操作和第二线程对所述识别结果队列的读取操作。
19.根据权利要求18所述的服务器,其特征在于,所述所述文本数据发送模块用于:
将所述第二识别文本数据和与其相应的语音数据发送给所述第二目标用户的智能终端设备。
20.根据权利要求15所述的服务器,其特征在于,所述语音数据收发模块包括:
预处理单元,用于通过第一线程根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;
语音数据发送单元,用于将包括所述预处理后的语音数据和识别结果接收位置的语音识别请求发送给语音识别服务器。
21.一种用于在网络业务中执行语音通信的服务器,其特征在于,所述服务器包括:
识别请求接收模块,用于从业务服务器接收包括发送给目标用户的语音数据和识别结果接收位置的语音识别请求;
语音识别执行模块,用于将所述语音数据转换为识别文本数据;
文本数据发送模块,用于将包括所述识别文本数据的语音识别响应发送至所述识别结果接收位置,以通过所述业务服务器将接收到的识别文本数据发送给所述目标用户的智能终端设备。
22.根据权利要求21所述的服务器,其特征在于,所述语音识别请求是包括所述语音数据和用于接收所述语音数据的识别结果的回调网页链接的HTTP/HTTPS请求,其中,所述回调网页链接中包括所述目标用户的信息,
所述文本数据发送模块用于:
根据所述回调网页链接,将包括所述识别文本数据和所述目标用户的信息的HTTP/HTTPS响应发送给所述回调网页链接对应的业务服务器。
23.根据权利要求22所述的服务器,其特征在于,所述语音识别执行模块用于:
如果所述语音数据的语音时长超过预设的时长阈值,则根据预先建立的语音切分模型将所述语音数据切分为多个语音数据段,分别将所述多个语音数据段转换为短识别文本数据,并且将所述短识别文本数据组合成所述识别文本数据;
如果所述语音数据的语音时长没有超过所述时长阈值,则直接将所述语音数据识别为所述识别文本数据。
24.根据权利要求23所述的服务器,其特征在于,所述服务器还包括:
识别请求放置模块,用于如果在预定的时间区间内从所述业务服务器接收的语音数据超过预定的数据量,则将所述语音识别请求放置在待识别语音数据队列中,
语音识别处理模块,用于通过单独的线程从所述待识别语音数据队列提取语音识别请求,并且对提取的所述语音识别请求执行所述语音识别执行步骤和识别文本数据发送步骤的处理。
25.根据权利要求24所述的服务器,其特征在于,所述语音识别处理模块用于:
如果提取的语音识别请求在所述待识别语音数据队列中等待被处理是时间长度超过预定的等待时间阈值,则丢弃所述语音识别请求。
26.根据权利要求21所述的服务器,其特征在于,所述服务器还包括:
预处理模块,用于根据预先设定的预处理参数对所述语音数据执行预处理,得到预处理后的语音数据,其中,所述预处理参数包括语音格式和语音采样率;
所述语音识别执行模块用于:
将所述预处理后的语音数据转换为识别文本数据。
27.一种用于在网络业务中执行语音通信的智能终端设备,其特征在于,所述智能终端设备包括:
文本数据接收模块,用于从业务服务器接收来自所述网络业务中另一用户的识别文本数据;
文本数据显示模块,用于显示所述识别文本数据。
28.根据权利要求27所述的智能终端设备,其特征在于,所述文本数据接收模块还用于:
从业务服务器接收与所述识别文本数据相应的语音数据;
所述文本数据显示模块用于:
显示用于播放所述语音数据的语音播放按键,并在所述语音播放按键周围的预设位置显示来自所述网络业务中另一用户的识别文本数据。
CN201510456757.6A 2015-07-29 2015-07-29 执行语音通信的方法及服务器 Active CN105162836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510456757.6A CN105162836B (zh) 2015-07-29 2015-07-29 执行语音通信的方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510456757.6A CN105162836B (zh) 2015-07-29 2015-07-29 执行语音通信的方法及服务器

Publications (2)

Publication Number Publication Date
CN105162836A true CN105162836A (zh) 2015-12-16
CN105162836B CN105162836B (zh) 2017-10-31

Family

ID=54803589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510456757.6A Active CN105162836B (zh) 2015-07-29 2015-07-29 执行语音通信的方法及服务器

Country Status (1)

Country Link
CN (1) CN105162836B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869654A (zh) * 2016-03-29 2016-08-17 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
CN107146623A (zh) * 2017-04-07 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和系统
CN109994101A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种语音识别方法、终端、服务器及计算机可读存储介质
CN110534084A (zh) * 2019-08-06 2019-12-03 广州探迹科技有限公司 一种基于FreeSWITCH的智能语音控制方法及系统
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN112489659A (zh) * 2020-11-17 2021-03-12 北京百度网讯科技有限公司 基于输入法的数据处理方法、系统、服务器及终端设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699840A (zh) * 2009-11-09 2010-04-28 南京希华通信技术有限公司 融合通信中智能语音交互系统及其实现方法
CN103369385A (zh) * 2012-03-29 2013-10-23 东方有线网络有限公司 一种基于智能终端显示机顶盒节目信息并控制机顶盒的方法
CN103634321A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
KR20140046891A (ko) * 2012-10-11 2014-04-21 장대중 음성 인식을 이용한 자동 콜센터 시스템
WO2014093384A1 (en) * 2012-12-12 2014-06-19 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699840A (zh) * 2009-11-09 2010-04-28 南京希华通信技术有限公司 融合通信中智能语音交互系统及其实现方法
CN103369385A (zh) * 2012-03-29 2013-10-23 东方有线网络有限公司 一种基于智能终端显示机顶盒节目信息并控制机顶盒的方法
KR20140046891A (ko) * 2012-10-11 2014-04-21 장대중 음성 인식을 이용한 자동 콜센터 시스템
WO2014093384A1 (en) * 2012-12-12 2014-06-19 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
CN103634321A (zh) * 2013-12-04 2014-03-12 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869654A (zh) * 2016-03-29 2016-08-17 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
WO2017167047A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
CN105869654B (zh) * 2016-03-29 2020-12-04 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
US11037568B2 (en) 2016-03-29 2021-06-15 Alibaba Group Holding Limited Audio message processing method and apparatus
CN107146623A (zh) * 2017-04-07 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和系统
CN107146623B (zh) * 2017-04-07 2021-03-16 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和系统
CN109994101A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种语音识别方法、终端、服务器及计算机可读存储介质
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN110534084A (zh) * 2019-08-06 2019-12-03 广州探迹科技有限公司 一种基于FreeSWITCH的智能语音控制方法及系统
CN112489659A (zh) * 2020-11-17 2021-03-12 北京百度网讯科技有限公司 基于输入法的数据处理方法、系统、服务器及终端设备
CN112489659B (zh) * 2020-11-17 2024-02-13 阿波罗智联(北京)科技有限公司 基于输入法的数据处理方法、系统、服务器及终端设备

Also Published As

Publication number Publication date
CN105162836B (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
CN105162836A (zh) 执行语音通信的方法、服务器和智能终端设备
US9412368B2 (en) Display apparatus, interactive system, and response information providing method
CN102842306B (zh) 语音控制方法及装置、语音响应方法及装置
US20200252356A1 (en) Method, apparatus, and client for displaying media information, and method and apparatus for displaying graphical controls
CN108021572B (zh) 回复信息推荐方法和装置
CN111312235B (zh) 一种语音交互方法、装置及系统
CN104902343B (zh) 一种传输和播放音视频与消息的方法、服务器及终端
CN104853405A (zh) 智能联网方法及智能设备
CN204810556U (zh) 智能设备
US11404052B2 (en) Service data processing method and apparatus and related device
CN102468989A (zh) 处理网络数据的方法和系统
CN103797761A (zh) 通信方法、客户端和终端
CN101739437A (zh) 一种网络搜音机的实现方法及其专用设备
CN104123114A (zh) 一种进行语音播放的方法和装置
CN112423081B (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
WO2018166367A1 (zh) 一种实时对话中的实时提醒方法、装置、存储介质及电子装置
CN111339282A (zh) 智能在线应答方法及智能客服系统
US9147403B2 (en) Responding to a call to action contained in an audio signal
CN111026358B (zh) 一种语音消息的播放方法、播放装置及可读存储介质
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
CN110659006B (zh) 跨屏显示的方法、装置、电子设备及可读存储介质
CN110601962B (zh) 消息提示方法、装置、终端及存储介质
US20160275077A1 (en) Method and apparatus for automatically sending multimedia file, mobile terminal, and storage medium
CN112752134A (zh) 视频处理方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant