CN114566164A

CN114566164A - 基于公共交通的人工播报音频自适应方法、显示终端及系统

Info

Publication number: CN114566164A
Application number: CN202210170328.2A
Authority: CN
Inventors: 李阳; 严军; 赵丁漫; 张剑勇; 欧华平; 杨征宇; 饶龙强
Original assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Current assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-31

Abstract

本发明公开了基于公共交通的人工播报音频自适应方法、显示终端及系统、电子设备及介质，具体包括以下步骤：S1、接收主控端发送的人工播报音频及相关信息；S2、对所述人工播报音频进行语义识别获得文本信息，所述文本信息包括总字数与总时长；S3、获取所述总字数与总时长的比值并进行判定；S4、当所述比值在预设范围内时，则根据中断指令或所述置信度播放所述人工播报音频；S5、当所述比值不在预设范围内时，则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放。本发明通过对接收到的人工播报音频进行调速处理和/或调速、方言转普通话处理，使得不同工作人员在显示终端播放的内容在语音、速度等方面做到统一标准化。

Description

基于公共交通的人工播报音频自适应方法、显示终端及系统

技术领域

本发明涉及，具体涉及基于公共交通的人工播报音频自适应方法、显示终端及系统。

背景技术

现有的播系统多采用直播的方式，播音员打开话筒对着主控端的拾音器说出需要播报的内容，主控端接收到含有播报内容的人工播报音频发送至站点的站口喇叭进行播报，然后现有播报系统对人工播报音频并没有进行处理，播放的内容通过工作人员说完后直接播放，由于每个人的语音语速不同，或有的工作人员说话带方言，就导致播放出的内容快慢、吐词不清等参差不齐，影响站点的播放效率与播放质量，特别是在应急场景下，亟需乘客及时理解播报内容，因此需要对播报系统的内容进行调速与标准化处理。

发明内容

本发明的目的在于提供一种基于公共交通的人工播报音频自适应方法、显示终端及系统，对接收到的人工播报音频进行调速处理或方言转普通话标准处理，使得不同工作人员在显示终端播放的内容在语音、速度等方面做到统一标准化，用以解决现有的播报系统不统一问题。

基于公共交通的人工播报音频自适应方法，应用于站点的显示终端，所述显示终端与主控端实现通信交互，具体包括以下步骤：

S1、接收主控端发送的人工播报音频及相关信息，所述相关信息包括中断指令或置信度；

S2、对所述人工播报音频进行语义识别获得文本信息，所述文本信息包括总字数与总时长；

S3、获取所述总字数与总时长的比值并进行判定；

S4、当所述比值在预设范围内时，则根据中断指令中断当前播放的音频并播放所述人工播报音频，或根据所述置信度将所述人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频；

S5、当所述比值不在预设范围内时，则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放，并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频，或根据所述置信度将所述调速人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。

可以理解的是，所述置信度越高，其对应人工播报音频的优先级越高，其对应的播放的顺序月靠前。

进一步地，所述步骤S5具体包括以下步骤：

当所述比值小于预设范围的最小端点时，对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加速人工播报音频；

当所述比值大于预设范围的最大端点时，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频并播放。

进一步地，对所步骤S4还包括识别步骤：

对人工播报音频进行拼音解析处理，得到人工播报音频对应的拼音序列；将拼音序列输入普通话识别模型，得到人工播报音频的普通话识别判定结果；

当普通话识别判定结果为是，则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频。

进一步地，所述步骤S5还包括识别步骤：

对所述人工播报音频进行拼音解析处理，得到人工播报音频对应的拼音序列；将拼音序列输入普通话识别模型，得到人工播报音频的普通话识别判定结果；

进一步地，对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加速人工播报音频并播放，具体为：

对所述人工播报音频进行音元检测获得音元分布信息；

基于所述音元分布信息以音元为分割单位进行分段，获得多段分割人工播报音频；

每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频，以得到预设速度相匹配的加速人工播报音频并播放。

进一步地，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频并播放；

对所述人工播报音频进行音元检测获得音元分布信息；

每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频，以得到预设速度相匹配的减速人工播报音频并播放。

进一步地，所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。

进一步地，对所述人工播报音频进行音元检测获得音元分布信息具体为：

根据采样频率F，对所述人工播报音频进行抽样、量化、编码得到编码集合；

遍历所述编码集合，当找到最大极值点时，以所述最大极值点前的第一个零点位置为新音元的开始和前一个音元的结束，直到遍历完所述编码人工播报音频集合；

记录所有音元及其对应的开始、结束位置形成音元分布信息。

基于公共交通的人工播报音频自适应显示终端，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现所述的基于公共交通的人工播报音频自适应方法，所述一个或多个程序包括：

接收模块，用于接收主控端发送的人工播报音频及相关信息，所述相关信息包括中断指令或置信度；

识别模块，用于对所述人工播报音频进行语义识别获得文本信息，所述文本信息包括总字数与总时长；

判定模块，用于获取所述总字数与总时长的比值并进行判定；

直播模块，用于当所述比值在预设范围内时，则根据中断指令中断当前播放的音频并播放所述人工播报音频，或根据所述置信度将所述人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频；

调播模块，用于当所述比值不在预设范围内时，则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放，并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频，或根据所述置信度将所述调速人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。

一种基于公共交通的人工播报音频自适应系统，包括：

显示终端与主控端，所述显示终端与主控端通过局域网实现通信交互，

所述主控端具备语音采集显示终端，用于：

构建站点的三维模型地图，所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸，以及应急场景下预设人工播报音频；

获取三维模型地图中被选择的显示终端；

将预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息下发至所述显示终端；

所述显示终端用于：

接收主控端发送的人工播报音频及相关信息，所述相关信息包括中断指令或置信度；

对所述人工播报音频进行语义识别获得文本信息，所述文本信息包括总字数与总时长；

获取所述总字数与总时长的比值并进行判定；

当所述比值在预设范围内时，则根据中断指令中断当前播放的音频并播放所述人工播报音频，或根据所述置信度将所述人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频；

当所述比值不在预设范围内时，则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放，并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频，或根据所述置信度将所述调速人工播报音频插入待播放队列，所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。

本发明具有的有益效果：

用户在主控端的三维模型中选择需要下发内容的设备，通过长按的方式调出下发的功能(如：预设播表下发、语音实时下发等)，用户选择语音实时下发，调起系统语音采集模块进行语音拾音，拾音完成后，下发至显示终端设备进行播放。

显示终端设备接收人工播报音频，通过设备内嵌的人工播报音频自适应算法将工作人员的语音、语速、语调标准化处理，使得下发设备播放出来的人工播报音频能够保持一致并进行播放展示，流程结束。

通过将自适应算法集成在设备上，设备接收到后台系统下发的实时语音后进行自适应的人工播报音频处理，使得不同工作人员播出去的内容在语音、速度等方面做到统一标准化，大大提升了的整体形象，提高的语音播放效率，也赋予了显示终端设备更多的能力。

附图说明

图1为本发明的基于公共交通的人工播报音频自适应方法流程示意图；

图2为本发明的显示终端结构示意图；

图3为本发明的基于公共交通的人工播报音频自适应系统示意图；

图4为本发明的现有技术示意图；

图5为本发明的主控端内三维模型示意图；

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

本实施例的目的在于提供一种基于公共交通的人工播报音频自适应方法，包括，

S3、获取所述总字数与总时长的比值并进行判定；

所述步骤S4还包括识别步骤：

当普通话识别判定结果为是，则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频，并播放所述合成的人工播报音频。

所述步骤S5具体包括以下步骤：

具体的，一般人的正常语速在每分钟80到160字左右；

我国播音员每分钟正常语速为240字；

演讲的一般语速度控制在100-140字/分钟；

不过也要因人而异,还要看个人的语速。因此选取预设范围时，可以参考具体的应用场景。当处于应急环境中时，可以选取较大的预设范围，当处于日常场景时，可以选取较小的预设范围。

对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加速人工播报音频并播放，具体为：

对所述人工播报音频进行音元检测获得音元分布信息；

对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频并播放；

对所述人工播报音频进行音元检测获得音元分布信息；

所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。

经过对比分析，将所述扩展人工播报音频选取为插入点之前的一段人工播报音频

对所述人工播报音频进行音元检测获得音元分布信息具体为：

具体的，所述采样频率为8K，所述编码为PCM编码，规定在相邻两个零点之间只有一个最大的正峰值。在准确划分各个音元的基础上，通过重复、删除或抽取单个或多个音元的内容来实现语速的变化。

步骤S5还包括识别步骤；

具体地，将拼音序列输入普通话识别模型中，通过普通话识别模型提取出拼音序列中所有拼音数据及其对应的音调数据的词义特征，普通话识别模型根据词义特征预测出所有拼音数据及其对应的音调数据在普通话数据库中的预测汉字，并通过每个词语的通顺度值获得所述拼音序列的通顺度值，当所述拼音序列的通顺度大于识别阈值时，判定所述人工播报音频为普通话，当所述拼音序列的通顺度小于识别阈值时，判定所述人工播报音频为方言，得到普通话识别判定结果，其中，该普通话识别模型可以为卷积神经网络模型。

在一些实施例中，普通话识别模型中设置有普通话数据库以及场景关键词数据库，该场景关键词数据库中存有多个场景关键词，此时，将拼音序列输入普通话识别模型中，根据普通话数据库以及场景关键词数据库得到待识别语音的普通话识别结果。其中，相对于同一拼音，该场景关键词的权重比非场景关键词的权重大，在预测普通话识别结果时优先考虑该场景关键词，

例如，该场景数据库与对话或讲话场景相对应，该人工播报音频的主题为对某系列产品进行讨论，则该场景数据库中包括该系列产品对应的关键词。

可见，本实施例可以结合具体的场景对语音进行识别，进一步提高语音识别的准确率。

实时例2

基于公共交通的人工播报音频自适应显示终端，包括：

一个或多个处理器；

实施例3

一种基于公共交通的人工播报音频自适应系统，包括：

所述主控端具备语音采集显示终端，用于：

获取三维模型地图中被选择的显示终端；

所述显示终端用于：

获取所述总字数与总时长的比值并进行判定；

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于公共交通的人工播报音频自适应方法，其特征在于，应用于站点的显示终端，所述显示终端与主控端实现通信交互，具体包括以下步骤：

S3、获取所述总字数与总时长的比值并进行判定；

2.根据权利要求1所述的基于公共交通的人工播报音频自适应方法，其特征在于，所述步骤S5具体包括以下步骤：

当所述比值大于预设范围的最大端点时，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频。

3.根据权利要求1所述的基于公共交通的人工播报音频自适应方法，其特征在于，对所步骤S3之后还包括识别步骤：

4.根据权利要求2所述的基于公共交通的人工播报音频自适应方法，其特征在于，对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加速人工播报音频并播放，具体为：

对所述人工播报音频进行音元检测获得音元分布信息；

5.根据权利要求2所述的基于公共交通的人工播报音频自适应方法，其特征在于，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频并播放；

对所述人工播报音频进行音元检测获得音元分布信息；

6.根据权利要求5所述的基于公共交通的人工播报音频自适应方法，其特征在于，所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。

7.根据权利要求4或5所述的基于公共交通的人工播报音频自适应方法，其特征在于，对所述人工播报音频进行音元检测获得音元分布信息具体为：

8.基于公共交通的人工播报音频自适应显示终端，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至7中任意一项所述的基于公共交通的人工播报音频自适应方法，所述一个或多个程序包括：

9.一种基于公共交通的人工播报音频自适应系统，其特征在于，包括：

所述主控端具备语音采集显示终端，用于：

获取三维模型地图中被选择的显示终端；

所述显示终端用于：

获取所述总字数与总时长的比值并进行判定；