CN110379429A

CN110379429A - 语音处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110379429A
Application number: CN201910641118.5A
Authority: CN
Inventors: 罗晓龙; 王福海; 赵凯; 张文锋
Original assignee: Merchants Union Consumer Finance Co Ltd
Current assignee: Zhaolian Consumer Finance Co ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-25
Anticipated expiration: 2039-07-16
Also published as: CN110379429B

Abstract

本申请涉及一种语音处理方法、装置、计算机设备和存储介质。所述方法包括：通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器。采用本方法能够基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

Description

语音处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种语音处理方法、装置、计算机设备和存储介质。

背景技术

随着通信技术的不断发展，语音通信越来越广泛应用到各个行业领域，语音通信可以即时通信，进行消息群发，给用户带来极大的便捷。

然而，目前的语音通信服务基于媒体资源控制协议，通过电话软交换系统进行语音通信，电话软交换系统是由C语言实现的。但是基于媒体资源控制协议的语音通信服务在进行部署和迁移时，需要重新安装电话软交换系统，导致部署和迁移操作困难。

发明内容

基于此，有必要针对上述技术问题，提供一种能够简单部署语音通信服务的语音处理方法、装置、计算机设备和存储介质。

一种语音处理方法，所述方法包括：

获取目标音频；

识别所述目标音频，得到音频文本；

将所述音频文本发送给机器人；

接收所述机器人返回的回复语音，所述回复语音为所述机器人根据所述音频文本产生的响应数据；

基于会话初始协议所建立的会话连接，将所述回复语音发送给服务器。

在其中一个实施例中，在所述获取目标音频之前,所述方法还包括：

通过会话初始协议发送呼叫目标的呼叫地址给服务器,从所述服务器中获取与所述呼叫地址对应的线路供应者；

基于所述会话初始协议，建立所述线路供应者与所述呼叫目标之间的会话连接。

在其中一个实施例中，所述识别所述目标音频，得到音频文本，包括：

将所述目标音频发送至语音识别转文字单元，以使所述语音识别转文字单元识别所述目标音频得到音频文本；

所述将所述音频文本发送给机器人，包括：

所述语音识别转文字单元将所述音频文本发送给所述机器人。

在其中一个实施例中，所述方法还包括：

当检测到线路供应者发生变化时，更新呼叫地址与线路供应者的对应关系。

在其中一个实施例中，所述方法还包括：

向所述服务器发起账号注册请求；

接收所述服务器返回的账号信息；所述账号信息是所述服务器对所述账号注册请求响应产生的，所述账号信息与所述线路供应者相对应。

在其中一个实施例中，所述账号注册请求中包括有用户身份标识；所述账号信息与所述用户身份标识对应。

一种语音处理装置，所述装置包括：

音频获取模块，用于获取目标音频；

音频识别模块，用于识别所述目标音频，得到音频文本；

收发模块，用于将所述音频文本发送给机器人和接收所述机器人返回的回复语音；

通讯模块，用于保持与服务器的正常通讯。

在其中一个实施例中，所述装置还包括：

更新模块，用于更新呼叫地址与线路供应者的对应关系。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标音频；

识别所述目标音频，得到音频文本；

将所述音频文本发送给机器人；

接收所述机器人返回的回复语音，所述回复语音为所述机器人根据所述音频文件产生的响应数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标音频；

识别所述目标音频，得到音频文本；

将所述音频文本发送给机器人；

上述语音处理方法、装置、计算机设备和存储介质，通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器；基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移过程中，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

附图说明

图1为一个实施例中语音处理方法的应用环境图；

图2为一个实施例中语音处理方法的流程示意图；

图3为一个实施例中语音处理模组连接基本架构图；

图4为一个实施例中机器人语音流向图；

图5为一个实施例中语音处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种终端，但这些终端不受这些术语限制。这些术语仅用于将第一个终端与另一个终端区分。举例来说，在不脱离本申请的范围的情况下，可以将第一终端称为第二终端，且类似地，可将第二终端称为第一终端。第一终端和第二终端两者都是终端，但其不是同一终端。

本申请提供的语音处理方法，可以应用于如图1所示的应用环境中。其中，第一终端102通过网络与第二终端104进行通信，第二终端104通过网络与服务器106通过网络进行通信。第二终端104获取目标音频后，识别获取的目标音频，得到音频文件，把的得到的音频文本发送给第一终端102，接收第一终端102返回的回复语音，其中，第一终端102返回的回复语音是第一终端102根据音频文本产生的响应数据；基于会话初始协议所建立的会话连接，第二终端104将接收的回复语音发送给服务器106。其中，第一终端可以是机器人，第二终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音处理方法，以该方法应用于图1中的第二终端104为例进行说明，包括以下步骤：

步骤202，获取目标音频。

其中，目标音频可以是需要进行语音处理的音频。音频是人所能听到声音频率在20赫兹至20千赫兹之间的声波，音频可以是自然声、，或者处理后的视频中的音频等。例如,获取的目标音频可以是语音通话中获取，可以理解的是目标音频还可以是其他方式获取的，在此，不做限制。例如，目标音频可以是从网页下载的视频音频，或者是从外接存储设备中读取的音频。目标音频可以是不同语言类型的音频，例如，目标音频可以是外语音频、中文音频,其中，外语音频可以是英语音频、韩语音频、日语音频等；其中，中文音频可以是普通话音频、方言音频等。目标音频可以是有规定的时长的，例如设置目标音频为2分钟时长，当获取的音频有3分钟时长，只能从3分钟时长音频中截取2分钟,可以是截取前2分钟音频或后两分钟音频。在这里，截取的方式不做限定。

具体地，第二终端104获取目标音频后，启动目标音频处理线程，目标音频处理线程可以对目标音频进行一系列音频处理，例如，第二终端104在启动音频处理线程之后对获取的音频目标进行识别，识别之后可以发送目标音频给外接连接设备进行播放等。

步骤204，识别目标音频，得到音频文本。

其中，音频文本可以是把目标音频从音频的形式换成以文字的形式得到的音频文本。音频文本可以是不同语言类型的文本，例如，计算机可识别的机器码音频文本、外语音频文本、中文音频文本等，其中机器码音频文本可以是二进制音频文本等，外语音频文本可以是英语音频文本、韩语音频文本、日语音频文本，中文音频文本可以是方言音频文本、普通话音频文本等。

具体地，在对目标音频进行识别之前，可以先对提取的目标音频进行去噪处理，去噪处理后对目标音频通过增益放大，放大目标音频的音频特征，以便准确识别目标音频，其中增益放大的方式可以是通过放大器放大，音频特征可以是音频的清晰度等。

目标音频经过处理后，调用音频识别转文字单元，对目标音频进行识别，音频识别转文字单元通过算法提取目标音频的音频特征信息，音频特征信息可以是音频的频率、波长等，当音频特征信息与预设的音频数据库中预存的音频特征信息匹配时，可以获得与音频特征信息对应的音频文本。其中，预存的音频特征可以从音频模型训练的音频模型中获取，预设的音频特征与音频文本数据库中的预存的音频文本特征存在对应关系，根据与音频文本特征对应关系获取音频文本，预存的音频文本特征可以从音频文本模型训练的音频文本模型中获取，音频文本特征可以是字或词等。例如，目标音频是：今天是周五,提取的目标音频的音频特征信息是abcde,音频模型中预存的音频特征信息是abcde，与预存的音频特征信息对应音频文本特征是jin tian shi zhou wu,音频文本数据库中jin可为今、金，tian可为天、添，shi可为是、仕，zh可为周、州，wu可为五、舞，根据音频模型获取相似度最高的单个字或词，例如，今的相似度为99％，金的相似度为56％，可以得到jin对应的字是“今”，然后可得到：“今天是周五”的中文音频文本。其中，得到音频文本也可以是外语音频文本，例如英文音频文本：“Today is friday”。

步骤206，将音频文本发送给机器人。

其中，机器人可以是音频文本处理器，实现对接收的音频文本进行处理。在一个音频文本处理场景中，机器人对音频文本进行处理，包括先对接收的音频文本通过文本训练模型进行识别，识别音频文本的文本特征，在识别之后可以获取与识别文本对应的回复如，音频文本是：你是谁？识别后获取的回复文本可以是：我是机器人。机器人还可以把识别的音频文本发送到外界连接装设备把识别的音频文本显示出来或对接收的音频进行加密处理等。

具体地，通过超文本传输安全协议(Hypertext Transfer Protocol Secure，HTTPS)把音频文本发送给机器人。其中，超文本传输安全协议对音频文本加密,保护音频文本的完整性。

步骤208，接收机器人返回的回复语音，回复语音为机器人根据音频文本产生的响应数据。

其中，回复语音可以是通过机器人对音频文本通过与预存回复文本库进行匹配得到的回复文本，再通过文本转语音单元将回复文本转换成回复语音。其中，根据音频文本的特征信息，在预存回复文本库中找到与特征信息匹配的回复文本，特征信息可以是音频文本的字或词。回复语音可以是外语回复语音、中文回复语音等，其中，外语回复语音可以是英语回复语音、韩语回复语音、日语回复语音等，中文回复语音可以是普通话回复语音、方言回复语音等。回复语音可以是不同音色的，比如回复语音是女声、男声等。回复语音的发声效果和语音节奏可以达到舒适的效果，比如，回复语音清晰度高和语音节奏流畅。

响应数据可以是机器人对音频文本处理的结果。响应数据可以是回复文本，也可以是处理完成的回复指令等。

具体地，通过HTTPS协议接收机器人返回的回复语音，返回的语音是机器人在接收音频文本后，根据接收到对应指令指示调用文本转语音单元，获得音频的回复文本，再把回复文本合成回复语音。

步骤210，基于会话初始协议所建立的会话连接，将回复语音发送给服务器。

其中，会话初始协议(Session Initiation Protocol，SIP)是一个应用层的信令控制协议。可用于创建、修改和释放一个或多个参与者的会话连接。服务器是对接收的请求进行处理并返回请求响应。服务器可以是支持SIP协议的服务器，即会话初始协议服务器(SIP服务器)。服务器可以是一个呼叫系统，对接收的呼叫请求进行处理并返回请求响应，实现会话连接。

上述语音处理方法中，通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器；基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

在一个实施例中，在获取目标音频之前,方法还包括：

通过会话初始协议发送呼叫目标的呼叫地址给服务器,从服务器中获取与呼叫地址对应的线路供应者；

基于会话初始协议，建立所述线路供应者与所述呼叫目标之间的会话连接。

其中，线路供应者可以是负责一个区域的线路供应，建立一个完整的会话连接，线路供应者可以有可以识别的标识，线路供应可以是模拟电话线、数字中继线、IMS线路(IPMultimedia Subsystem，IMS)、网络电话线路(Voice over Internet Protocol，VoIP)。其中，模拟电话线可以是家庭常用的固定电话线路，一条线，对应一个号码。数字中继线可以是一根数字中继线，能同时支持30路通话，相当于普通的30路模拟线路。IMS线路可以基于SIP协议注册核心网的线路。网络电话线路可以是将模拟信号数字化，以数据封包的形式在IP网络上做实时传递。

服务器与线路供应者之间存在关联关系，服务器可以根据线路供应者的登录名称和登录密码与线路供应者进行关联，一个服务器可以多个线路供应者相关联；其中，服务器中可以识别关联的每个线路供应者的标识，例如，关联的线路供应者1的标识是00，关联的线路供应者2的识别标识是01，关联的线路供应者3的识别标识是02，服务器可以识别00代表线路供应者1，识别01代表线路供应者2，识别01代表线路供应者2。呼叫地址可以是包括线路供应者的标识和有规则的数字组合，例如00+12345678，其中00代表的是线路供应者1，12345678代表的是呼叫目标的地址。

具体地，通过会话初始协议发送呼叫目标的呼叫地址给服务器，与服务器关联的线路供应者的数目不定，可以是线路供应者1、线路供应者2、线路供应者3等,从服务器中获取与呼叫地址对应的线路供应者。例如，发送的呼叫地址是00+12345678，从服务器中可以获取00代表线路供应者1，基于会话初始协议，通过线路供应者1与00+12345678对应的呼叫目标建立会话连接。通过服务器可以与不同线路供应者建立会话连接，提高了会话连接效率。

在一个实施例中，识别目标音频，得到音频文本，包括：

将目标音频发送至语音识别转文字单元，以使语音识别转文字单元识别目标音频得到音频文本；

将所述音频文本发送给机器人，包括：

语音识别转文字单元将所述音频文本发送给机器人。

具体地，语音识别转文字单元组成可以包括语音识别转文字芯片和其他附属电路，语音识别转文字单元可以包括训练和识别两个阶段，语音识别转文字可以是对目标音频进行预处理，通过预处理可以进行音频特征提取，得到音频特征矢量参数，将提取得到的音频特征矢量参数与训练得到的音频参考模型进行相似度匹配，获取相似度最高的特征矢量对应的音频文本。语音识别转文字单元识别的对象可以是特定音频的或非特定音频等，其中，特定音频是指专门设计的音频，例如，特定音频可以特定声音频率的声波；非特定音频可以是不同声音频率的声波等。语音识别转文字单元通过HTTPS协议将音频文本发送给机器人，达到了音频识别和音频发送的目的。

在一个实施例中，该方法还包括：

其中，线路供应者发生改变，只需更换呼叫地址与线路供应者之间的对应关系可以是将服务器关联到更新的线路供应者，无需重新安装服务器，操作简单、方便。

在一个实施例中，该方法还包括：

向服务器发起账号注册请求；

接收服务器返回的账号信息；账号信息是服务器对所述账号注册请求响应产生的，账号信息与线路供应者相对应。

具体地，服务器可以与多个线路供应者相关联，每个线路供应者可以有不同的标识。服务器可以根据线路供应者的标识识别关联的服务器，服务器根据关联线路关联者的标识得到符合关联线路供应者的账号信息。例如，服务者与线路供应者A关联，线路供应者A的标识是0220，服务器可以得到数目不定的账号信息，例如0220+1111111、0220+222222等。向服务器发起账号注册请求，接收到服务器返回的账号信息，账号信息可以是0220+1111111、0220+222222。可以提高注册的成功率。

在一个实施例中，账号注册请求中包括有用户身份标识；账号信息与用户身份标识对应。

其中，用户身份标识是可以标记不同的用户，便于识别。用户身份标识可以是用户身份证号码、用户所在区域、姓名或性别的组合等。例如，小明的身份证号45645646，所在区域代号0732，性别为男，用01表示，则用户身份标识可以为45645646-0732-01。账号信息与用户标识对应可以是一个用户身份证号码绑定一个账号信息。可以实现实名制注册，便于账号注册管理。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了语音处理模组连接基本架构图，包括语音服务模组302，服务器模组304，线路供应模组306，其中：

语音服务模组302，用于获取目标音频，基于会话初始协议与服务器304建立会话连接，其中，语音服务模组302中可以包括6个会话初始协议客户端，数目不定。

服务器模组304，用于存放与线路供应模组306的关联关系和基于会话初始协议与语音服务模组302进行连接。服务器模组304可以是一个呼叫系统，一个服务器可以与多个线路供应者建立关联。服务器模组304中可以是一个服务器，数据不做限定。

线路供应模组306,用于供应线路，线路通过连接设备与服务器模组304连接。线路供应模组306里面可以有3个线路供应者，数目不限定，每个线路供应者通过不同的外部连接设备与服务器模组304连接。

具体地，服务器模组304中服务器可通过外部连接设备与线路供应模组306不同线路供应者建立连接，获得与线路供应者的关联关系；基于会话初始协议，语音服务模组302与服务器模组304建立会话连接；语音服务模组302通过服务模组304可以找到呼叫目标对应服务器模组304中的线路供应者，与呼叫目标建立连接。

语音服务模组302中会话初始协议客户端获取目标音频，启动目标音频处理线程，通过音频识别转文本单元先识别的目标音频后得到音频文本，然后基于HTTPS协议把音频文本发送给机器人，并接收机器人返回音频文本对应的回复语音；基于会话初始协议，语音服务模组302中会话初始协议客户端把机器人返回的回复语音发送至服务器模组304中对应服务器。

上述语音处理模组连接基本架构图中，通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器；基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

在一个实施例中，如图4所示，提供了机器人语音流向图，包括SIP客户端402，SIP服务器404，机器人406，语音识别服务器408，语音合成服务器410，音频输入412，语音输出414，其中：

SIP会话初始协议客户端402，基于会话初始协议，用于获取目标音频和把机器人406的回复语音发送给SIP服务器404。SIP客户端402中可以包括音频输入412和语音输出414。

SIP服务器404，基于会话初始协议与SIP客户端402建立会话连接。可以接受客户端402中语音输出单元414输出的回复语音。

机器人406，用于接受经过语音识别服务器408的音频文本，音频文本可以是客户意图，即客户所要表达的想法。

语音识别服务器408，用于识别获取的目标音频，得到音频文本。

语音合成服务器410，用于把机器人406根据音频文本产生的机器人话术转换成语音，机器人话术可以理解为机器人406根据音频文本产生的响应数据。例如，机器人406接收的音频文本可以是“查询话费余额”，转换得到的语音是“话费余额查询请按1”，“话费余额查询请按1”的语音文本就是机器人话术。

音频输入412，用于获取目标音频。

语音输出414，用于把机器人403返回的回复语音发送给服务器。

具体地，在一个实例机器人语音流向应用场景中，机器人406接收语音识别服务器408中的音频文本，生成机器人话术，通过语音合成服务器410得到回复语音，经由语音输出414输出给会话初始协议服务器404。

上述语音流向示意图,通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器；基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

在一个实施例中，如图5所示，提供了一种语音处理装置500，包括：音频获取模块502、音频识别模块504、发送模块506、接收模块508、和通讯模块510，其中：

音频获取模块502，用于获取目标音频。

音频识别模块504，用于识别所述目标音频，得到音频文本。

收发模块506，用于将得到的音频文本发送给机器人和接收机器人返回的语音。

通讯模块508，用于保持与服务器的正常通讯。

其中，收发模块506和通讯模块508是单独分开的两个模块，每个模块实现的功能不一样，也就是说，收发模块506实现音频文本的发送和回复语音的接收，通讯模块510实现与服务器的通讯。

上述语音处理装置,通过获取目标音频，识别获取的目标音频，得到音频文本，将音频文本发送给机器人，接收机器人返回的回复语音，机器人返回的回复语音是机器人根据音频文本产生的响应数据，基于会话初始协议所建立的会话连接，把机器人返回的回复语音发送给服务器；基于会话初始协议，能获取目标音频和接收回复语音，服务器基于会话初始协议，在语音通信服务部署和迁移，不需要重新安装服务器，让语音通信服务部署和迁移操作变的简单。

在一个实施例中，如图5所示，语音处理装置500还包括音频转文本模块510、文本转语音模块512，其中：

音频转文本模块510，用于把目标音频转换成音频文本。

文本转语音模块512，用于把根据音频文本对应的回复文本转换成回复语音。

在一个实施例中，如图5所示，语音处理装置500还包括更新模块514，其中：

更新模块514，用于检测到线路供应者发生变化时，更新呼叫地址与线路供应者的对应关系。

在一个实施例中，如图5所示，语音处理装置500还包括注册模块516，其中

注册模块516，用于向所述服务器发起账号注册请求。

关于语音处理装置的具体限定可以参见上文中对于语音处理方法的限定，在此不再赘述。上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标音频；

识别目标音频，得到音频文本；

将音频文本发送给机器人；

接述机器人返回的回复语音，该回复语音为机器人根据音频文本产生的响应数据；

基于会话初始协议所建立的会话连接，将该回复语音发送给服务器。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在获取目标音频之前,还包括：

基于会话初始协议，建立该线路供应者与呼叫目标之间的会话连接。

识别目标音频，得到音频文本，包括：

将该目标音频发送至语音识别转文字单元，以使所述语音识别转文字单元识别该目标音频得到音频文本；

将音频文本发送给机器人，包括：

语音识别转文字单元将音频文本发送给机器人。

向所述服务器发起账号注册请求；

接收服务器返回的账号信息；该账号信息是服务器对账号注册请求响应产生的，该账号信息与线路供应者相对应。

账号注册请求中包括有用户身份标识；该账号信息与所述用户身份标识对应。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标音频；

识别目标音频，得到音频文本；

将音频文本发送给机器人；

接收机器人返回的回复语音，回复语音为所述机器人根据音频文本产生的响应数据；

基于会话初始协议所建立的会话连接，将回复语音发送给服务器。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在获取目标音频之前,还包括：

基于会话初始协议，建立线路供应者与该呼叫目标之间的会话连接。

向服务器发起账号注册请求；

账号注册请求中包括有用户身份标识；该账号信息与用户身份标识对应。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音处理方法，所述方法包括：

获取目标音频；

识别所述目标音频，得到音频文本；

将所述音频文本发送给机器人；

2.根据权利要求1所述的方法，其特征在于，在所述获取目标音频之前,所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述识别所述目标音频，得到音频文本，包括：

所述将所述音频文本发送给机器人，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括:

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

向所述服务器发起账号注册请求；

6.根据权利要求5所述的方法，其特征在于，所述账号注册请求中包括有用户身份标识；所述账号信息与所述用户身份标识对应。

7.一种语音处理装置，其特征在于，所述装置包括：

音频获取模块，用于获取目标音频；

音频识别模块，用于识别所述目标音频，得到音频文本；

收发模块，用于将所述音频文本发送给机器人和接收所述机器人返回的回复语音；通讯模块，用于保持与服务器的正常通讯。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

更新模块，用于更新呼叫地址与线路供应者的对应关系。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。