CN108173740A

CN108173740A - 一种语音通信的方法和装置

Info

Publication number: CN108173740A
Application number: CN201711243075.2A
Authority: CN
Inventors: 张恒莉; 金鑫
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-06-15

Abstract

本发明实施例提供了一种语音通信的方法和移动装置，移动装置包括第一移动装置和第二移动装置，方法应用于第一移动装置与第二移动装置之间；第一移动装置具有第一语音数据库，第二移动装置具有第二语音数据库；包括：第一移动装置采集第一语音数据；第一移动装置获取当前网络状态；当网络状态满足预设条件时，第一移动装置获取第一语音数据的特征参数，以及，采用第一语音数据库，将第一语音数据转换为文本信息；将特征参数和文本信息发送至第二移动装置；第二移动装置依据特征参数，采用第二语音库将文本信息转换为第二语音数据，以及，播放第二语音。本发明实施例中，第一移动装置与第二移动装置在进行语音通信时，减少了服务器了资源消耗。

Description

一种语音通信的方法和装置

技术领域

本发明涉及通信技术领域，特别是涉及一种语音通信的方法和一种语音通信的装置。

背景技术

科技的发展给人们的生活带来了越来越多的便利。从前，人们远距离通信只能通过写信的方式，后来有了移动终端，例如功能手机，人们可以通过短信或通话的方式来进行远距离通信；现在有了智能终端，例如智能手机、平板，人们除了可以发短信，还可以在智能终端上安装第三方即时通讯软件，例如QQ、微信等，通过即时消息进行远距离通信，其中，即时消息可以是文字，也可以是语音。

但是现有技术中，本端和远端进行语音通信时，以本端为例：本端的智能终端会先将用户说的话录下来生成语音文件，然后将语音文件发送至服务器，服务器在接收到语音文件后，会先生成一个文件提取码，然后将该提取码发送至远端的智能终端，远端的智能终端在获取到文件提取码后，依据所述文件提取码从服务器提取语音文件至本地，然后播放该语音文件。这种方式中，一方面，服务器需要耗费资源生成文件提取码；另一方面，不管是本端智能终端发送语音文件还是远端智能终端接收语音文件，相对于文字而言，都需要耗费更多的流量，当网络状态不好时，语音文件会发送得很慢，甚至会出现发送失败的情况。

发明内容

为了解决上述本端和远端进行语音通信时，耗费服务器资源、流量的问题，本发明实施例提出了一种语音通信的方法和相应的一种语音通信的移动装置。

为了解决上述问题，本发明实施例公开了一种语音通信的方法，应用于移动装置，所述移动装置包括第一移动装置和第二移动装置，所述方法应用于第一移动装置与第二移动装置之间；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；所述的方法包括：

所述第一移动装置采集第一语音数据；

所述第一移动装置获取当前网络状态；

当所述网络状态满足预设条件时，所述第一移动装置获取所述第一语音数据的特征参数，以及，采用所述第一语音数据库，将所述第一语音数据转换为文本信息；

将所述特征参数和所述文本信息发送至所述第二移动装置；

所述第二移动装置依据所述特征参数，采用所述第二语音库将所述文本信息转换为第二语音数据，以及，播放所述第二语音。

相应的，本发明实施例公开了语音通信的移动装置，其特征在于，所述移动装置包括第一移动装置和第二移动装置；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；所述第一移动装置包括：

采集模块，用于采集第一语音数据；

获取模块，用于获取当前网络状态；

所述获取模块，还用于当所述网络状态满足预设条件时，获取所述第一语音数据的特征参数；

转换模块，用于采用所述第一语音数据库，将所述第一语音数据转换为文本信息；

发送模块，用于将所述特征参数和所述文本信息发送至所述第二移动装置；所述第二移动装置依据所述特征参数，采用所述第二语音库将所述文本信息转换为第二语音数据，以及，播放所述第二语音。

本发明实施例包括以下优点：

在本发明实施例中，第一移动装置具有第一语音数据库，第二移动装置具有第二语音数据库，当用户触发语音通信时，第一移动装置采集第一语音数据，然后获取当前网络状态，若网络状态满足预设条件，则第一移动装置获取第一语音数据的特征参数，以及，采用第一语音数据库，将第一语音数据转换为文本信息，接着，将特征参数和文本信息发送至第二移动装置，第二移动装置用于依据特征参数，采用第二语音库将文本信息转换为第二语音数据，并播放第二语音。这样，第一移动装置与第二移动装置在进行语音通信时，就不需要直接发送语音文件，而是发送文字和参数，一方面不需要服务器生成文件提取码，减少了服务器了资源消耗，另一方面，又节省了流量。

附图说明

图1是本发明的一种语音通信的方法实施例的步骤流程图；

图2是本发明的一种语音通信的移动装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音通信的方法实施例的步骤流程图一，所述方法应用于第一移动装置与第二移动装置之间；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；

在本发明实施例中，第一移动装置和第二移动装置可以具有如下特点：

(1)在硬件体系上，设备具备中央处理器、存储器、输入部件和输出部件，也就是说，设备往往是具备通信功能的微型计算机设备。另外，还可以具有多种输入方式，诸如键盘、鼠标、触摸屏、送话器和摄像头等，并可以根据需要进行调整输入。同时，设备往往具有多种输出方式，如受话器、显示屏等，也可以根据需要进行调整；

(2)在软件体系上，设备必须具备操作系统，如Windows Mobile、Symbian、Palm、Android、iOS等。同时，这些操作系统越来越开放，基于这些开放的操作系统平台开发的个性化应用程序层出不穷，如通信簿、日程表、记事本、计算器以及各类游戏等，极大程度地满足了个性化用户的需求；

(3)在通信能力上，设备具有灵活的接入方式和高带宽通信性能，并且能根据所选择的业务和所处的环境，自动调整所选的通信方式，从而方便用户使用。设备可以支持GSM、WCDMA、CDMA2000、TDSCDMA、Wi-Fi以及WiMAX等，从而适应多种制式网络，不仅支持语音业务，更支持多种无线数据业务；

(4)在功能使用上，设备更加注重人性化、个性化和多功能化。随着计算机技术的发展，设备从“以设备为中心”的模式进入“以人为中心”的模式，集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等，充分体现了以人为本的宗旨。由于软件技术的发展，设备可以根据个人需求调整设置，更加个性化。同时，设备本身集成了众多软件和硬件，功能也越来越强大。

需要说明的是，本申请中的本端与对端是相对的，当站在对端的角度时，第一移动装置就成了对端，第二移动装置也就成了本端。所以，本申请中只是站在本端的角度进行详细说明，并不是对本申请的限制。

所述的方法具体可以包括如下步骤：

步骤101，所述第一移动装置采集第一语音数据；

第一移动装置具有操作系统，而操作系统是采用GUI(Graphical UserInterface，图形用户接口)与用户进行交互。用户想要发送语音，就需要安装具备语音采集功能的应用程序，而语音通信的功能在GUI中会有相应的按钮。当用户点击了这个按钮，本端终端就会调用麦克风进行语音采集，当然，也可以是用户一直按住按钮进行语音采集，当语音采集完毕再松开按钮。

在本发明一种优选实施例中，所述第一移动装置采集第一语音的步骤包括：

所述第一移动装置采集用户语音，以及，除用户语音外的环境声音；

若所述环境声音的音量小于或等于预设的环境声音音量阈值，则将用户语音作为第一语音数据；

若所述环境声音的音量大于预设的环境声音音量阈值，则将所述用户语音，以及，除用户语音外的环境声音作为第一语音数据。

具体的，用户在进行语音通信时，身边总会或多或少地出现其它环境声音，比如汽车行驶的声音、走路的声音等等，这些声音相对于用户语音来说，都是嗓音，是可以去掉的。因此，当第一移动装置采集到第一语音数据后，通过分析得知第一语音中既有用户的语音，也有嗓音，那么，进一步获取嗓音的音量值，若嗓音的音量值小于或等于预设的环境声音音量阈值，那么就去掉嗓音，仅仅将用户的语音作为第一语音数据。

但是，若嗓音音量大于预设的环境声音音量阈值，比如汽车路过用户身边时鸣笛了，那么这个鸣笛声通常比用户的音量还要大，如果还是继续去掉鸣笛声，那么可能也会影响到用户的语音，这时，就将用户语音和环境声音一起作为第一语音数据。第一语音数据库中保存的就是每次采集到的第一语音数据。

步骤102，所述第一移动装置获取当前网络状态；

当第一移动装置采集到用户输入的第一语音数据后，第一移动装置会获取当前的网络状态。

在本发明一种优选实施例中，所述当前网络状态包括所述第一移动装置的当前网络延迟信息，和/或，所述第二移动装置的当前网络延迟信息。

所谓网络延迟，就是在传输介质中传输所用的时间，即从报文开始进入网络到它开始离开网络之间的时间，通常网络延迟使用PING值的大小来表示，PING值的单位为ms(毫秒)，PING值越小速度越快。一般来说，网络延迟分为以下几个程度：

1～30ms：极快，几乎察觉不出有延迟；

31～50ms：良好，没有明显的延迟情况；

51～100ms：普通，能感觉出明显延迟，稍有停顿；

>100ms：差，有卡顿，丢包并掉线现象。

而PING值可以使用PING命令，查看TTL(Time To Live，生存时间)直接获取，也可以使用其它方式获取，本发明实施例对此不作限制。

第一移动装置可以直接获取到第一移动装置的网络延迟，而第二移动装置的网络延迟则可以在第一移动装置采集第一语音数据的时候获取。例如，用户点击了语音通信的按钮，这时第一移动装置会调用麦克风进行语音采集，同时，生成第二移动装置的网络延迟的查询请求，并发送至第二移动装置，第二移动装置在接收到网络延迟的查询请求后，查询第二移动装置的网络延迟并将结果返回给第一移动装置，这样第一移动装置就获取到了第二移动装置的网络延迟。因为用户输入的语音的时间通常都是几秒、十几秒，甚至几十秒，所以这个时间完全足够第一移动装置获取第二移动装置的网络延迟，而且也不影响第一移动装置的语音采集。

在本发明实施例中，网络状态还可以包括第一移动装置的当前网络带宽信息，和/或，第二移动装置的当前网络带宽信息。

在实际应用中，还会出现网络带宽很窄的情况，例如，本端的网络上传的带宽是5KB/S，下载的带宽是12KB/S，那么发送一个200KB的语音文件则需要40S，显然时间太久了，而且还有可能会发送失败。

因此，可以获取第一移动装置的当前网络带宽信息，和/或，第二移动装置的当前网络带宽信息。第二移动装置的当前网络带宽信息的获取方式与获取第二移动装置的当前网络延迟信息相同，在此就不赘述了。

步骤103，当所述网络状态满足预设条件时，所述第一移动装置获取所述第一语音数据的特征参数，以及，采用所述第一语音数据库，将所述第一语音数据转换为文本信息；

具体的，可以是当第一移动装置的网络延迟，和/或，第二移动装置的网络延迟大于预设的网络延迟阈值时，则判定网络状态满足预设条件；也可以是第一移动装置的网络带宽，和/或，第二移动装置的网络带宽小于预设的网络带宽阈值时，则判定网络状态满足预设条件。

当判定网络状态满足预设条件后，第一移动装置则从采集的第一语音数据获取特征参数，并采用所述第一语音数据库，将所述第一语音数据转换为文本信息。

在本发明一种优选实施例中，所述特征参数包括音色、音调、响度、语速，以及声纹信息。

所谓声纹，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。本申请也是利用这一特征，从第一语音数据中获取本端用户的声纹信息，发送至第二移动装置，这样，第二移动装置根据声纹信息，再结合本端用户输入语音时的音色、音调、语速，就可以模拟出本端用户的声音。

需要说明的是，采用所述第一语音数据库，将所述第一语音数据转换为文本信息，与获取特征参数的顺序并不是固定的，可以是先进行语音转换，再获取特征参数，也可以是先获取特征参数，再进行语音转换，还可以是同时进行，本申请对此不作限制。

在本发明一种优选实施例中，当所述网络状态不满足预设条件时，所述第一移动装置将所述第一语音数据发送至所述第二移动装置。

具体的，第一移动装置的网络延迟，以及，第二移动装置的网络延迟小于预设的网络延迟阈值时，则判定网络状态不满足预设条件；也可以是第一移动装置的网络带宽，以及，第二移动装置的网络带宽大于预设的网络带宽阈值时，则判定网络状态不满足预设条件。

当网络状态不满足预设条件时，第一移动装置将第一语音数据直接发送至所述第二移动装置就行了。

在本发明一种优选实施例中，所述第一移动装置具有第一环境声音库，其中存储有多种环境声音，包括预先设置的环境声音，或者是在用户使用过程中自动采集到的环境声音。若所述环境声音大于预设的音量阈值，则将所述环境声音与所述第一环境声音库进行匹配，获取所述环境声音的环境声音信息。

例如，当本端用户正在输入语音时，正好身边有辆汽车经过且鸣笛了，那么此时鸣笛的音量明显大于预设的音量阈值，甚至大于用户语音的音量，于是将环境声音与第一环境声音库进行匹配，通过匹配可知该环境声音为鸣笛声，并记录下来鸣笛的时长、音量，以及鸣笛声在第一语音中出现的时间点。

步骤104，将所述特征参数和所述文本信息发送至所述第二移动装置；所述第二移动装置用于依据所述特征参数，采用所述第二语音库将所述文本信息转换为第二语音数据，以及，播放所述第二语音。

第一移动装置将特征参数，以及文本信息发送至第二移动装置，第二移动装置根据声纹信息，再结合本端用户输入语音时的音色、音调、语速，就可以模拟出本端用户的声音了，然后将采用第二语音库将文本信息转换为第二语音数据，使用模拟出的本端用户的声音播放第二语音数据。

需要说明的是，本申请中的第一语音库和第二语音库中的数据是相同的，只是为了清楚地区分第一移动装置中的语音库与第二移动装置中的语音库，采用了第一、第二的描述，并不是对语音库的限制。

在本发明一种优选实施例中，所述第二移动装置具有第二环境声音库；若所述环境声音大于预设的音量阈值，则将所述环境声音信息、所述文本信息，以及所述特征参数；所述第二移动装置用于采用所述第二语音库将所述文本信息转换为第二语音，采用所述环境声音信息从所述第二环境声音库获取对应的环境声音，以及，播放所述第二语音和所述环境声音。

继续以步骤103的事例进行说明，当第一移动装置记录下来鸣笛的时长、音量，以及鸣笛声在第一语音中出现的时间点后，将环境声音信息连同文本信息，以及特征参数一起发送至第二移动装置，第二移动装置依据特征参数，采用第二语音库将文本信息转换为第二语音，同时采用环境声音信息从第二环境声音库获取对应的环境声音，然后，播放第二语音和环境声音。

需要说明的是，本申请中的第一环境声音库和第二环境声音库中的数据是相同的，只是为了清楚地区分第一移动装置中的环境声音库与第二移动装置中的环境声音库，采用了第一、第二的描述，并不是对环境声音库的限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种语音通信的移动装置实施例的结构框图，所述移动装置包括第一移动装置和第二移动装置；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；所述第一移动装置具体可以包括如下模块：

采集模块201，用于采集第一语音数据；

获取模块202，用于获取当前网络状态；

转换模块203，用于采用所述第一语音数据库，将所述第一语音数据转换为文本信息；

发送模块204，用于将所述特征参数和所述文本信息发送至所述第二移动装置；所述第二移动装置依据所述特征参数，采用所述第二语音库将所述文本信息转换为第二语音数据，以及，播放所述第二语音。

在本发明一种优选实施例中，所述发送模块还用于：

当所述网络状态不满足预设条件时，将所述第一语音数据发送至所述第二移动装置。

在本发明一种优选实施例中，所述采集模块包括：

音频采集子模块，用于采集用户语音，以及环境声音；

确定子模块，用于若所述环境声音的音量小于或等于预设的环境声音音量阈值，则将用户语音作为第一语音数据；

确定子模块，还用于若所述环境声音的音量大于预设的环境声音音量阈值，则将所述用户语音与环境声音都作为第一语音数据。

在本发明一种优选实施例中，所述第一移动装置具有第一环境声音数据库，所述第二移动装置具有第二环境声音数据库；

所述的移动装置还包括：

匹配模块，用于若所述环境声音大于预设的音量阈值，则将所述环境声音与所述第一环境声音数据库进行匹配，获取环境声音信息；

所述发送模块，还用于将所述环境声音信息、所述文本信息以及所述特征参数发送至所述第二移动装置；所述第二移动装置依据所述特征参数，采用所述第二语音数据库将所述文本信息转换为第二语音，采用所述环境声音信息从所述第二环境声音数据库获取对应的环境声音，以及，播放所述第二语音和所述环境声音。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音通信的方法和一种语音通信的移动装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音通信的方法，应用于移动装置，其特征在于，所述移动装置包括第一移动装置和第二移动装置，所述方法应用于第一移动装置与第二移动装置之间；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；所述的方法包括：

所述第一移动装置采集第一语音数据；

所述第一移动装置获取当前网络状态；

将所述特征参数和所述文本信息发送至所述第二移动装置；

2.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

当所述网络状态不满足预设条件时，所述第一移动装置将所述第一语音数据发送至所述第二移动装置。

3.根据权利要求1或2所述的方法，其特征在于，所述当前网络状态包括所述第一移动装置的当前网络延迟信息，和/或，所述第二移动装置的当前网络延迟信息。

4.根据权利要求1所述的方法，其特征在于，所述特征参数包括音色、音调、响度、语速，以及声纹信息。

5.根据权利要求1所述的方法，其特征在于，所述第一移动装置采集第一语音的步骤包括：

所述第一移动装置采集用户语音，以及环境声音；

若所述环境声音的音量大于预设的环境声音音量阈值，则将所述用户语音与环境声音都作为第一语音数据。

6.根据权利要求5所述的方法，其特征在于，所述第一移动装置具有第一环境声音数据库，所述第二移动装置具有第二环境声音数据库；

若所述环境声音大于预设的音量阈值，则所述的方法还包括：

将所述环境声音与所述第一环境声音数据库进行匹配，获取环境声音信息；

将所述环境声音信息、所述文本信息以及所述特征参数发送至所述第二移动装置；

所述第二移动装置依据所述特征参数，采用所述第二语音数据库将所述文本信息转换为第二语音，采用所述环境声音信息从所述第二环境声音数据库获取对应的环境声音，以及，播放所述第二语音和所述环境声音。

7.一种语音通信的移动装置，其特征在于，所述移动装置包括第一移动装置和第二移动装置；所述第一移动装置具有第一语音数据库，所述第二移动装置具有第二语音数据库；所述第一移动装置包括：

采集模块，用于采集第一语音数据；

获取模块，用于获取当前网络状态；

8.根据权利要求7所述的移动装置，其特征在于，所述发送模块还用于：

9.根据权利要求7或8所述的移动装置，其特征在于，所述当前网络状态包括所述第一移动装置的当前网络延迟信息，和/或，所述第二移动装置的当前网络延迟信息。

10.根据权利要求7所述的移动装置，其特征在于，所述特征参数包括音色、音调、响度、语速，以及声纹信息。

11.根据权利要求7所述的移动装置，其特征在于，所述采集模块包括：

音频采集子模块，用于采集用户语音，以及环境声音；

12.根据权利要求11所述的移动装置，其特征在于，所述第一移动装置具有第一环境声音数据库，所述第二移动装置具有第二环境声音数据库；

所述的移动装置还包括：