CN112349268A

CN112349268A - 一种应急广播音频处理系统及其运行方法

Info

Publication number: CN112349268A
Application number: CN202011238809.XA
Authority: CN
Inventors: 黎捷; 徐顺暖; 朱磊
Original assignee: Hunan Mango Hearing Technology Co ltd
Current assignee: Hunan Mango Hearing Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-09

Abstract

本发明提供一种应急广播音频处理系统及其运行方法，包括依次连接的应急语音合成端、应急音频处理端和应急广播平台。应急语音合成端接收应急信息文稿，将应急信息文稿合成应急配音，发送给应急音频处理端。应急音频处理端接收应急配音，对其进行音频处理后，形成应急广播信息，发送给应急广播平台，应急广播平台接收并向用户播放应急广播信息。本发明利用语音合成技术训练的虚拟主播可代替专业人员，随时随地进行配音，不受专业设备、环境的限制；解决人力、降低成本的条件下，使应急信息的发布得到充分保障，可为智能终端提供实时语音管控能力与预警能力。

Description

一种应急广播音频处理系统及其运行方法

技术领域

本发明属于应急广播技术领域，尤其是涉及一种应急广播音频处理系统及其运行方法。

背景技术

应急广播是指当发生重大自然灾害、突发事件、公共卫生与社会安全等突发公共危机时，提供一种迅速快捷通讯的信息传输通道。

在第一时间把灾害消息或灾害可能造成的危害传递到民众手中，让人民群众在第一时间知道发生了什么事情，应该怎么撤离、避险，将生命财产损失降到最低。

通过调研发现，目前，我国的应急广播处于如下状况：

第一，省级、市级应急广播基本上由省级电台的一个频道兼顾运行，应急信息源由频道对接各政府有关单位，通过文件传递后，电台频道制作相关音频节目或读稿直播的方式进行。

第二，区、县级的应急广播由于缺少节目制作人员，往往由当值人员向大众按文字稿进行播报。

第三，乡镇、村级的应急广播基本上以大喇叭的形式由村广播站完成。

因此，应急信息的有声传播基本上依赖人工配音完成，需要配备专业的广播配音人员，还要人员值班应付紧急情况的随时发生，区县级广播电台无法承担这一人力成本，这一条件在乡镇更是无法满足。

发明内容

本发明要解决的问题是提供一种应急广播音频处理系统及其运行方法，尤其是通过语音合成技术，为应急信息配音，再通过音频后期处理技术，智能化处理音频，形成一档完整的应急节目，更有利于应急信息的传播，同时，语音合成技术通过智能终端可以提供语音管控能力与事先预告能力。

为解决上述技术问题，本发明采用的技术方案是：一种应急广播音频处理系统，包括依次连接的应急语音合成端、应急音频处理端和应急广播平台，其中，

所述应急语音合成端用于接收应急信息文稿，将所述应急信息文稿合成应急配音，发送给所述应急音频处理端；

所述应急音频处理端用于接收所述应急配音，对其进行音频处理后，形成应急广播信息，发送给所述应急广播平台；

所述应急广播平台用于接收所述应急广播信息，并向用户播放所述应急广播信息。

进一步的，所述应急语音合成端包括虚拟主播音库和语音合成模块。

进一步的，所述虚拟主播音库通过采集专业主播音频，经音库训练平台进行算法调试后形成。

进一步的，所述音库训练平台使用的算法为基于卷积神经网络算法。

进一步的，所述语音合成模块为基于web.api方式的TTS引擎。

进一步的，所述应急音频处理端包括FFmpeg嵌入模块和java转译模块，所述应急音频处理端将FFmpeg组件进行基于java转译，再用互联网基本架构实现其智能处理音频的能力。

进一步的，本发明还提供一种应急广播音频处理系统运行方法，利用上述的应急广播音频处理系统，包括以下步骤，

S1：所述应急语音合成端接收应急信息文稿，将所述应急信息文稿合成应急配音，发送给所述应急音频处理端；

S2：所述应急音频处理端接收所述应急配音，对其进行音频处理后，形成应急广播信息，发送给所述应急广播平台；

S3：所述应急广播平台接收所述应急广播信息，并向用户播放所述应急广播信息。

进一步的，所述S1包括以下步骤，

S11：按机器学习与标注所需的规范标准采集专业主播的配音素材；

S12：对所述配音素材进行筛选，对发音进行标签，转至音库训练平台进行基于卷积神经网络算法的机器学习，经过不断地算法调优，逐步形成拟合原始主播发音水平的虚拟主播；

S13：所述虚拟主播交付后，需完成基于web.api方式的TTS引擎搭建，支持多路并发与双向回调，按应急广播的国家标准实现文字转语音的快速完成，支持海量信息的同时并发；

S14：将已审核过的应急信息文稿输入TTS引擎，进行配音。

进一步的，所述S2包括以下步骤，

S21：嵌入FFmpeg组件，将开源的音频视频处理的主流软件FFmpeg进行基于java转译；

S22：使用互联网基本架构实现其大批量与智能处理音频的能力，完成音频后期处理；

S23：合成的配音与音频后期处理平台结合，生成音频节目，自定义地调节语速、背景音乐、片头、片尾。

进一步的，所述S3包括以下步骤，

S31：合成后的音频节目通过语音识别技术再次确认其合规性；

S32：通过审核的音频推送至所述应急广播平台，用RTMP协议推流方式向用户播报。

本发明具有的优点和积极效果是：

1、本发明利用语音合成技术训练的虚拟主播可代替专业人员，随时随地进行配音，不受专业设备、环境的限制；解决人力、降低成本的条件下，使应急信息的发布得到充分保障，可为智能终端提供实时语音管控能力与预警能力。

2、本发明利用FFmpeg开源组件的再研发，完成音频的后期编辑的自动调用，让音频后期自动化与智能化，无需人工手动处理，大大提高了应急广播的时效性。

3、本发明通过事先文本训练，使虚拟主播有自动的应答交互能力，用于终端设备进行管控，对应急事件的到来，具备预警通知等。虚拟广播在语音交互的能力将极大的提升应急广播的应用能力。

4、本发明可广泛应用于新冠疫情防控、自然灾害、事故灾难、公共卫生事件及其他突发事件、社会安全事件表等预警、管控，可以通过此系统将应急信息进行标准化处理，可广泛地应用于各级政府职能部门、各级广播电视单位、学校、社区街道、公共交通枢纽、CBD等，应用范围广。

附图说明

图1是本发明实施例的系统结构示意图。

图2是本发明实施例的应急广播信息的数字签名机制示意图。

图3是本发明实施例的运行流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明实施例做进一步描述：

如图1所示，一种应急广播音频处理系统，包括依次连接的应急语音合成端、应急音频处理端和应急广播平台。

应急语音合成端用于接收应急信息文稿，将应急信息文稿合成应急配音，发送给应急音频处理端。具体的，应急语音合成端包括虚拟主播音库和语音合成模块，虚拟主播音库通过采集专业主播音频，经音库训练平台进行基于卷积神经网络算法调试后形成。语音合成模块为基于web.api方式的TTS引擎。

应急音频处理端用于接收应急配音，对其进行音频处理后，形成应急广播信息，发送给应急广播平台。具体的，应急音频处理端包括FFmpeg嵌入模块和java转译模块，应急音频处理端将FFmpeg组件进行基于java转译，再用互联网基本架构实现其智能处理音频的能力。

应急广播平台用于接收应急广播信息，并向用户播放应急广播信息。

优选的，为保障国家应急广播各级系统之间应急广播消息和传输覆盖指令传输的安全性，需要通过加密的方式，确保应急广播各级系统仅接收和处理合法的应急广播消息和指令，防止非法攻击干扰正常社会秩序。

具体的，应急广播消息和指令的安全保护机制采用数字签名和数字证书技术实现。应急广播平台及各级应急部门之间传递的应急广播消息以及传输覆盖指令网中传递的应急广播传输覆盖指令采用基于非对称密码算法的数字签名技术实现真实性、合法性和完整性保护。应急广播消息和指令的发送端采用自身的私钥，对应急广播信息主体文件、应急广播节目资源文件、应急广播消息指令文件和应急广播传输覆盖指令计算数字签名，并将数字签名附带在应急广播消息和传输覆盖数据中传递，应急广播消息和应急广播传输覆盖数据的接收端采用发送端的公钥对数字签名进行验证，确保接收端只接收合法的应急广播消息，只处理合法的应急广播指令。优选的，应急广播数字签名的密码算法采用SM2、SM3算法。

应急广播各级系统及接收端采用数字证书技术实现数字签名用密钥的分发、认证与撤销。应急广播数字证书管理系统负责应急广播各级系统及接收端数字证书的申请、生成、分发与撤销，应急广播数字证书及应急广播证书授权列表的传递及更新。

具体的，如图2所示，应急广播信息采用数字签名方式实现其真实性、合法性和完整性保护。应急广播节目资源文件的摘要存储在应急广播信息主体文件中，应急广播信息主体文件采用应急广播平台制作播发系统的私钥进行签名，该签名存储在应急广播信息签名文件中，应急广播信息签名文件中包含了应急广播信息主体文件的标识。

如图3所示，本发明还提供一种应急广播音频处理系统运行方法，利用上述的应急广播音频处理系统，包括以下步骤，

S1：应急语音合成端接收应急信息文稿，将应急信息文稿合成应急配音，发送给应急音频处理端。

S11：采集专业主播的音频，按机器学习与标注所需的规范标准采集一定量指定专业主播的配音素材，具体的，要求在8-10小时以上的干音素材，14000左右比率。

S12：对干音素材进行筛选，对发音进行标签，转至音库训练平台进行基于卷积神经网络算法的机器学习，经过不断地算法调优，逐步形成拟合原始主播发音水平的虚拟主播。具体的，第一阶段约需1个月时间，完成虚拟主播音质的相符度，第二阶段需另花1个月去学习发音的准确度与语速，交付符合播音水平的虚拟主播。

S13：虚拟主播交付后，需完成基于web.api方式的TTS引擎搭建，支持多路并发与双向回调，按应急广播的国家标准实现文字转语音的快速完成，支持海量信息的同时并发。目前，系统支持100条新闻的同时合成，500字的语音转写所需时间为200ms以内。

S14：引入应急信息集成系统，将已审核过的应急源文稿输入TTS引擎，进行配音。具体的，本系统将语音合成包装成独立的Dubbo服务，结合科大讯飞定制化训练的发音库，实现虚拟主播近自然发音场景，该技术目前出于国内领先水平。支持中文、英文等多种语种的合成；支持根据业务需求选择合适的音量、语速等属性；更有多种发音人音色供选择。应用业界先进机器学习算法的合成引擎，丰富的情感语料，让合成的音色更加自然，逼近普通人的朗读水平。专注语音20年，达到实用标准；人声自然饱满，富有表现力。支持16个语种，13种方言，中英混合自然合成。6大场景，90+发音人，男女老少，风格随心选。随心调节语调/语速/音量等参数，满足复杂场景需求。该语音能力是通过Websocket API的方式给开发者提供一个通用的接口。Websocket API具备流式传输能力，适用于需要流式数据传输的AI服务场景。相较于SDK，API具有轻量、跨语言的特点；相较于HTTP API，Websocket API协议有原生支持跨域的优势。

S2：应急音频处理端接收应急配音，对其进行音频处理后，形成应急广播信息，发送给应急广播平台。

S21：FFmpeg组件的嵌入，将开源的音频视频处理的主流软件FFmpeg进行基于java转译。

S22：用互联网基本架构实现其大批量与智能处理音频的能力，包括但不限于添加前奏、间奏、片尾、音频拼接、音频音质优化、多音轨合成等能力。

具体的，应急系统通过TTS生成语音文件后，需要通过ffmpeg框架特殊处理后，才能通过广播设备进行播出。本平台主要采用java command 调用操作系统ffmpeg方式实现上述的音频文件，来达到地方播出格式标准。

S3：应急广播平台接收应急广播信息，并向用户播放应急广播信息。

S31：合成后的音频节目通过语音识别技术再次确认其合规性。

S32：通过审核的音频推送至应急广播平台，用RTMP协议推流方式向用户播报。

本发明具有的优点和积极效果是：

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种应急广播音频处理系统，其特征在于：包括依次连接的应急语音合成端、应急音频处理端和应急广播平台，其中，

2.根据权利要求1所述的一种应急广播音频处理系统，其特征在于：所述应急语音合成端包括虚拟主播音库和语音合成模块。

3.根据权利要求2所述的一种应急广播音频处理系统，其特征在于：所述虚拟主播音库通过采集专业主播音频，经音库训练平台进行算法调试后形成。

4.根据权利要求3所述的一种应急广播音频处理系统，其特征在于：所述音库训练平台使用的算法为基于卷积神经网络算法。

5.根据权利要求2至4任一所述的一种应急广播音频处理系统，其特征在于：所述语音合成模块为基于web.api方式的TTS引擎。

6.根据权利要求1至4任一所述的一种应急广播音频处理系统，其特征在于：所述应急音频处理端包括FFmpeg嵌入模块和java转译模块，所述应急音频处理端将FFmpeg组件进行基于java转译，再用互联网基本架构实现其智能处理音频的能力。

7.一种应急广播音频处理系统运行方法，利用上述权利要求1至6任一所述的应急广播音频处理系统，其特征在于：包括以下步骤，

8.根据权利要求7所述的一种应急广播音频处理系统运行方法，其特征在于：所述S1包括以下步骤，

S14：将已审核过的应急信息文稿输入TTS引擎，进行配音。

9.根据权利要求7或8所述的一种应急广播音频处理系统运行方法，其特征在于：所述S2包括以下步骤，

10.根据权利要求7或8所述的一种应急广播音频处理系统运行方法，其特征在于：所述S3包括以下步骤，