CN108305630A

CN108305630A - 低带宽条件下的语言传输方法及语言传输系统

Info

Publication number: CN108305630A
Application number: CN201810101538.XA
Authority: CN
Inventors: 李新明; 刘斌
Original assignee: Zhongke Edge Intelligence Information Technology (suzhou) Co Ltd
Current assignee: Zhongke Edge Intelligence Information Technology (suzhou) Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-07-20

Abstract

本发明涉及一种低带宽条件下的语言传输方法及语言传输系统，所述方法包括：通过语音识别技术将原始语音信息转换成文本信息；通过语音合成技术将所述文本信息转换成机器语音信息；通过声纹识别技术，将所述机器语音信息转换成特定人的语音信息。所述语言传输系统包括语音应用接口模块、客户端模块、及服务器模块。本发明通过语音识别技术、语音合成技术及声纹识别技术，解决在特定区域和特定环境下的沟通和交互障碍，提高交互和沟通效率。

Description

低带宽条件下的语言传输方法及语言传输系统

技术领域

本发明涉及一种低带宽条件下的语言传输方法及语言传输系统。

背景技术

当今时代，通讯技术正在迅猛发展，语音通信在通讯技术中扮演着重要的地位。但无论是有线传输还是无线传输，信道带宽资源都相对宝贵，再如在一些特定的领域内，可用于数据传输的带宽资源是很低的，且这些带宽资源可分配给通信传输的带宽是更低的，如何能在低带宽的条件下实现高品质的语音质量及语音传输是必须解决的问题。目前的难点主要如下：1、语音在经过压缩后数据大小仍会达到十几到几十KB级别，这大大超过了某些领域可用于通信的带宽资源。2、为满足低带宽条件，语音数据在经过压缩及解压后，质量得不到保证。

目前在解决低带宽语音传输方面，市面上并没有太多可靠的解决方案，大多公司采用的是优化压缩算法，将采样后的语音数据压缩至更小数据量级，但仍然不能满足某些领域低带宽的传输条件。

发明内容

本发明的目的在于提供一种解决在特定区域和特定环境下的沟通和交互障碍、提高交互和沟通效率的低带宽条件下的语言传输方法及语言传输系统。

为达到上述目的，本发明提供如下技术方案：一种低带宽条件下的语言传输方法，所述方法包括：

通过语音识别技术将原始语音信息转换成文本信息；

通过语音合成技术将所述文本信息转换成机器语音信息；

通过声纹识别技术，将所述机器语音信息转换成特定人的语音信息。

进一步地，所述“通过语音识别技术将原始语音信息转换成文本信息”具体包括：

所述语音识别技术识别单次原始语音信息并转换成文本信息或者所述语音识别技术识别多次连续的原始语音信息并转换合成文本信息，然后进行网络交互。

进一步地，所述方法还包括：

在进行网络交互前，对语音信息进行音频压缩。

进一步地，所述文本信息为字符编码格式的文本信息，所述字符编码格式包括GB18030、UTF-8及其他字符编码格式。

进一步地，所述“通过语音合成技术将所述文本信息转换成机器语音信息”具体包括：接收所述文本信息并将之转换成机器语音信息，并对所述机器语音信息进行有效语音信息检测，以从所述机器语音信息中分离出有效的语音信息并输出。

进一步地，所述方法还包括：

用户上传录音文件，所述声纹识别技术提取用户的声纹特征，并对提取内容进行质量检查，将符合声纹采集标准的音频及声纹数据存入声纹数据库；

所述声纹数据库提供一分布式存储系统，所述分布式存储系统包括若干个存储节点及读取器，将采集到的音频及声纹数据存入至所述存储节点，所述读取器读取所述采集到的音频及声纹数据并进行验证识。

进一步地，所述声纹数据库整合Web前端组件实现通过HTTP下载和试点的负载均衡，并配合分布式计算引擎实现快速的数据存取。

进一步地，所述采集到的音频及声纹数据包括若干个二进制声纹、特征及语音的音频文件。

本发明还提供了一种语言传输系统，所述语言传输系统包括语音应用接口模块、客户端模块、及服务器模块；

所述客户端模块接收用户所发出的原始语音信息并将所述原始语音信息转换成文本信息，所述语音应用接口模块接收所述文本信息，将所述文本信息再转换成机器语音信息并进行声纹处理以转换成特定人的语音信息后发送至所述服务器模块。

进一步地，所述语言传输系统还包括基础支撑模块，所述基础支撑模块接收所述机器语音信息并进行网络交互，然后将网络交互后的机器语音信息传输至所述服务器模块。

本发明的有益效果在于：通过语音识别技术，不直接将原始语音信息进行传输，而是将原始语音信息转换成文本信息再将文本信息进行传输，可以大大降低传输带宽的占用率，从而满足低带宽条件下的传输问题；

通过语音合成技术，将文本信息转换成对应的机器语音信息返回给用户，有效提高了传输效率及准确度；

通过声纹识别技术，从机器语音信息中提取出代表不同说话人身份的相关固有特征，识别出说话人身份再返回给用户，解决了交互障碍，提高了沟通效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明的低带宽条件下的语言传输方法的工作流程图。

图2为本发明的语音识别技术的流程示意图。

图3为本发明的语音合成技术的流程示意图。

图4为本发明的声纹识别技术中采用的分布式存储系统的架构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

请参见图1，本发明的一较佳实施例中的一种低带宽条件下的语言传输方法，所述方法包括：

通过语音识别技术将原始语音信息转换成文本信息；

通过语音合成技术将所述文本信息转换成机器语音信息；

所述“通过语音识别技术将原始语音信息转换成文本信息”具体包括：所述语音识别技术识别单次原始语音信息并转换成文本信息或者所述语音识别技术识别多次连续的原始语音信息并转换合成文本信息，然后进行网络交互。当然，在进行网络交互前，对语音信息进行音频压缩。

请参见图2，语音识别技术能识别连续原始语音信息，并给出相对应的文本信息。下图给出了语音识别一般流程的示意图。图中虚线框内的“for 0,N,1”表示起始值0、上限N、步长为1的循环。语音识别技术的功能包括：

(1)、语音识别：识别连续的说话人语音，并给出相对应的文本。

(2)、网络交互：能与网络交互，以便于具备联网功能的设备使用语音识别技术。

(3)、音频端点检测：支持对识别音频进行有效语音前后端点的检测，从音频流中分离出有效的语音。

(4)、音频压缩：能对音频进行压缩，在网络传输中使用压缩格式的音频，以降低网络传输流量。

(5)、识别结果多候选：在输出时，支持多个候选的识别结果。

(6)、自定义热词集：支持应用和用户自定义热词集，并在识别结果中给出是否为自定义热词集的信息。

(7)、噪声抑制：支持对识别音频进行噪声抑制，提高识别率。

(8)、识别的语音音频需要为单声道16k音频

(9)、中文普通话的识别准确率预计在95％左右，不包括特定的专有名词。

所述“通过语音合成技术将所述文本信息转换成机器语音信息”具体包括：接收所述文本信息并将之转换成机器语音信息，并对所述机器语音信息进行有效语音信息检测，以从所述机器语音信息中分离出有效的语音信息并输出。

请参见图3，语音合成技术能接受特定格式的合成文本信息，将之转换成机器语音信息再通过声纹识别技术转换成特定人的语音信息返回给用户。下图给出了语音合成一般流程的示意图。图中虚线框内的“for 0,N,1”表示起始值0、上限N、步长为1的循环。

语音合成技术的功能包括：

(1)、语音合成：接受特定格式的合成文本，将之转换成对应的语音返回给用户。

(2)、流式语音合成：支持用户分多次获取合成音频，用户将获取的音频拼接后得到完整的合成音频。

(3)、多种合成文本编码：接受多种字符编码格式的合成文本，如GB18030、UTF-8等。

(4)、网络交互：能与网络交互,以便于具备联网功能的设备使用语音合成服务。

(5)、音频压缩：能对合成音频进行压缩，在网络传输中使用压缩格式的音频，以降低网络传输流量。

(6)、个性化合成：支持用户训练个性化音色库并使用个性化音色库中的音色进行语音合成。

(7)、方言合成：可进行多种方言的语音合成。

(8)、多音色合成：提供具有多种音色的音色库供用户选择，如青年男声、青年女声、童声等。

(9)、用户自定义读音：支持用户对合成文本按指定读音合成音频。

(10)、合成语音输出：合成支持输出8k/16k音频输出。

所述方法还包括声纹识别技术：

所述声纹数据库整合Web前端组件实现通过HTTP下载和试点的负载均衡，并配合分布式计算引擎实现快速的数据存取。

所述采集到的音频及声纹数据包括若干个二进制声纹、特征及语音的音频文件。

声纹识别技术是一项通过语音信号提取代表不同说话人身份的相关固有特征，识别出说话人身份等方面的技术。声纹识别服务包括声纹采集注册系统、声纹数据存储系统、声纹检索比对服务。

(1)声纹采集注册

接受用户通过终端设备上传录音文件(每个声纹ID需要至少3分钟以上的有效语音)，提取声纹特征，并对采集的内容进行质量检查，将符合声纹采集标准的音频与声纹存入声纹数据库。

(2)声纹数据存储

请参见图4，为适应未来声纹库规模的扩展，声纹数据库中非结构化的语音、声纹等数据采用可扩展的分布式存储架构设计，支持海量的声纹数据、语音数据的存储，随着系统的运行，数据量超过目前容量上限时，可以通过添加数据存储服务器非常方便的扩展数据总容量，不需要对系统结构和软件做任何的调整。

声纹数据包括大量的二进制声纹、特征以及语音的音频文件，这些数据的存储需要海量的存储方案，预计每增加一百万声纹数据，就需要3T左右的静态数据存储能力。

考虑到语音、声纹数据的数据量庞大，在声纹数据库的存储方案中将使用分布式存储，使用多服务器、多通道解决负载均衡与故障转移的问题。同时，还需实现分布式计算框架，为声纹检索比对服务提供计算容器。

声纹库将在分布式存储方案的基础进行扩展，实现声纹库专用的语音分布式存储方案，整合Web前端组件实现通过HTTP下载和试点的负载均衡，并配合分布式计算引擎实现快速的数据存取。

每一个组(Group)中均可以存大多个存储节点，每个节点可以是一个独立的服务器，也可以是同一个服务器中的不同进程，对应存储至不同的硬盘空间。组内的数据冗余互为备份，实现故障转移和负载均衡。通过扩展建立更多的Group组可以实现水平的容量扩展，使用系统支持更强的数据存储能力。

同一组内的存储服务器互为备份，实现系统数据的实时备份，当某个单点出现故障时，可由其他备份服务器负责响应业务请求，自动进行故障点的转移。当故障服务器恢复正常时，分布式存储系统也将立刻同步该服务器上的数据，使其恢复到系统最新状态。

3)声纹识别开发接口

声纹识别开发接口按功能划分为三个子类型：数据存储服务、声纹注册服务和声纹验证服务接口。数据存储服务接口主要提供对声纹库中声纹对象及其基础信息的管理操作，声纹注册服务接口主要完成对声纹库中语音和声纹的管理，声纹验证服务接口传输识别系统的状态和声纹结果消息和评价反馈。其中，在本实施例中，接口以Java SDK方式提供。

所述语言传输系统还包括基础支撑模块，所述基础支撑模块接收所述机器语音信息并进行网络交互，然后将网络交互后的机器语音信息传输至所述服务器模块。

综上所述：通过语音识别技术，不直接将原始语音信息进行传输，而是将原始语音信息转换成文本信息再将文本信息进行传输，可以大大降低传输带宽的占用率，从而满足低带宽条件下的传输问题；

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种低带宽条件下的语言传输方法，其特征在于，所述方法包括：

通过语音识别技术将原始语音信息转换成文本信息；

通过语音合成技术将所述文本信息转换成机器语音信息；

2.如权利要求1所述的低带宽条件下的语言传输方法，其特征在于，所述“通过语音识别技术将原始语音信息转换成文本信息”具体包括：

3.如权利要求2所述的低带宽条件下的语言传输方法，其特征在于，所述方法还包括：

在进行网络交互前，对语音信息进行音频压缩。

4.如权利要求2所述的低带宽条件下的语言传输方法，其特征在于，所述文本信息为字符编码格式的文本信息，所述字符编码格式包括GB18030、UTF-8及其他字符编码格式。

5.如权利要求1所述的低带宽条件下的语言传输方法，其特征在于，所述“通过语音合成技术将所述文本信息转换成机器语音信息”具体包括：接收所述文本信息并将之转换成机器语音信息，并对所述机器语音信息进行有效语音信息检测，以从所述机器语音信息中分离出有效的语音信息并输出。

6.如权利要求1所述的低宽带条件下的语言传输方法，其特征在于，所述方法还包括：

7.如权利要求6所述的低宽带条件下的语言传输方法，其特征在于，所述声纹数据库整合Web前端组件实现通过HTTP下载和试点的负载均衡，并配合分布式计算引擎实现快速的数据存取。

8.如权利要求6所述的低宽带条件下的语言传输方法，其特征在于，所述采集到的音频及声纹数据包括若干个二进制声纹、特征及语音的音频文件。

9.一种语言传输系统，其特征在于，所述语言传输系统包括语音应用接口模块、客户端模块、及服务器模块；

10.如权利要求9所述的语言传输系统，其特征在于，所述语言传输系统还包括基础支撑模块，所述基础支撑模块接收所述机器语音信息并进行网络交互，然后将网络交互后的机器语音信息传输至所述服务器模块。