CN114564165B

CN114564165B - 基于公共交通的文本、音频自适应方法、显示终端、系统

Info

Publication number: CN114564165B
Application number: CN202210169414.1A
Authority: CN
Inventors: 邓秋雄; 赵丁漫; 李阳; 饶龙强; 周武毅; 张剑勇; 李建涛; 袁进泽; 杨伟
Original assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Current assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2023-05-02
Anticipated expiration: 2042-02-23
Also published as: CN114564165A

Abstract

本发明公开了一种基于公共交通的文本自适应方法、显示终端、系统，具体包括以下步骤：S1、接收主控端发送的人工播报信息及相关信息，所述相关信息包括中断指令或置信度，所述人工播报信息包括人工播报音频与文本信息；S2、对所述人工播报音频进行自适应处理，获得自适应人工播报音频；对所述文本信息进行自适应处理，获得自适应显示页面；S3、根据所述自适应人工播报音频、自适应文本信息，以及中断指令或置信度将进行同步播放与显示。本发明通过大大降低了系统的耗能，同时也赋能于设备，使设备不单单只是一个语音播报，同时也具备自适应文本展示的功能，提升了设备价值。

Description

基于公共交通的文本、音频自适应方法、显示终端、系统

技术领域

本发明涉及轨道交通领域，具体涉及基于公共交通的文本、音频自适应方法、显示终端、系统。

背景技术

现有的播系统多采用直播的方式，播音员打开话筒对着主控端的拾音器说出需要播报的内容，主控端接收到含有播报内容的音频信息发送至站点的站口喇叭进行播报，然而在面对早晚高峰或者突发紧急情况的时候，站点的人流拥挤声音嘈杂，使乘客无法清晰准确的获得站点信息或紧急播报的安全信息，因此需要针对站点已有显示终端设备，本发明提出将语音喇叭播报内容进行同步音频播报与文字显示的方案，从而实现边播报边展示的功能，而多个显示终端设备如站口门楣、站内导向、智能显示终端的屏幕多种多样，大小也各有不同的问题，需要解决文本如何在显示终端设备进行自适应的问题，且现有播报系统对人工播报音频并没有进行处理，语音播放的内容通过工作人员说完后直接播放，由于每个人的语音语速不同，或有的工作人员说话带方言，就导致播放出的内容快慢等参差不齐，影响站点的播放效率，特别是在应急场景下，亟需乘客及时理解播报内容，因此需要对播报系统的内容进行调速与标准化处理。

发明内容

本发明的目的在于提供基于公共交通的文本自适应方法、显示终端、系统及介质，显示终端设备接收主控端发送的人工播报音频、文本信息，通过设备内嵌的音频自适应、文本自适应算法将人工播报音频进行调速与标准化处理、将文本信息针对设备尺寸进行自适应处理后播放展示，用以解决现有站点播报系统显示终端屏幕无法自适应同步播报显示的问题。

基于公共交通的文本、音频自适应方法，应用于站点的显示终端，所述显示终端与主控端实现通信交互，具体包括以下步骤：

S1、接收主控端发送的人工播报信息及相关信息，所述相关信息包括中断指令或置信度，所述人工播报信息包括人工播报音频与文本信息；

S2、对所述人工播报音频进行自适应处理，获得自适应人工播报音频；

对所述文本信息进行自适应处理，获得自适应显示页面；

S3、根据所述自适应人工播报音频、自适应文本信息，以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面；或

根据所述自适应人工播报音频、自适应文本信息，以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列，所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面，以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。

进一步地，所述自适应处理包括调速处理，所述调速处理具体包括以下步骤：

对所述人工播报音频进行语义识别获得文本信息，所述文本信息包括总字数与总时长；

获取所述总字数与总时长的比值并进行判定；

当所述比值小于预设范围的最小端点时，对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加速的自适应人工播报音频；

当所述比值大于预设范围的最大端点时，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速的自适应人工播报音频。

进一步地，所述自适应处理还包括标准化处理，所述标准化处理具体包括以下步骤：

对人工播报音频进行拼音解析处理，得到人工播报音频对应的拼音序列；将拼音序列输入普通话识别模型，得到人工播报音频的普通话识别判定结果；

当普通话识别判定结果为是，则通过文本转语音模块对所述文本信息进行语音合成生成合成人工播报音频。

进一步地，对所述文本信息进行自适应处理，获得自适应显示页面，具体包括以下步骤：

获取所述显示终端的屏幕尺寸；

根据所述屏幕尺寸确定与自适应显示页面适配的字体大小；其中，所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息；

进一步地，所述文本信息携带有预设尺寸，根据所述屏幕尺寸确定与自适应显示页面适配的字体大小，具体包括以下步骤：

若所述屏幕尺寸大于预设尺寸，根据所述屏幕尺寸和所述预设尺寸确定尺寸调整量；

根据所述尺寸调整量和预设的调整系数，计算所述与自适应显示页面适配的字体大小。

进一步地，所述文本信息还携带有预设字体大小，通过以下公式计算所述与自适应显示页面适配的字体大小：

c＝b×(w-p)×a

其中，w-p为所述尺寸调整量，w为所述屏幕尺寸，p为所述预设尺寸，a为所述预设的调整系数，b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。

c＝b×w/p

其中，w/p为所述尺寸调整量，w为所述屏幕尺寸，p为所述预设尺寸，b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。

一种基于公共交通的文本、音频自适应显示终端，包括：

显示屏；

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现所述的一种基于公共交通的文本、音频自适应方法，所述一个或多个程序包括：

接收模块，用于接收主控端发送的人工播报信息及相关信息，所述相关信息包括中断指令或置信度，所述人工播报信息包括人工播报音频与文本信息；

自适应模块，用于对所述人工播报音频进行自适应处理，获得自适应人工播报音频；

对所述文本信息进行自适应处理，获得自适应显示页面；

播放显示模块，用于根据所述自适应人工播报音频、自适应文本信息，以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面；或

一种基于公共交通的文本、音频自适应系统，包括：

显示终端与主控端，所述显示终端与主控端通过局域网实现通信交互，

所述主控端具备语音采集显示终端，用于：

构建站点的三维模型地图，所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸，以及应急场景下预设人工播报音频、预设文本信息；

获取三维模型地图中被选择的显示终端；

将人工播报音频、文本信息以及相关信息下发至所述显示终端；所述人工播报音频包括预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息；所述文本信息包括预设文本信息或语音采集模块在触发后采集的人工播报音频信息并进行语音转文字处理生成的文本信息。

所述显示终端用于：

接收主控端发送的人工播报信息及相关信息，所述相关信息包括中断指令或置信度，所述人工播报信息包括人工播报音频与文本信息；

对所述人工播报音频进行自适应处理，获得自适应人工播报音频；

对所述文本信息进行自适应处理，获得自适应显示页面；

根据所述自适应人工播报音频、自适应文本信息，以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面；或

发明具有的有益效果：

用户在主控端的三维模型中选择需要下发内容的设备，通过长按的方式调出下发的功能(如：预设播表下发、语音实时下发等)，用户选择语音实时下发，调起系统语音采集模块进行语音拾音，拾音完成后根据人工播报音频进行语音转文字处理获得文本信息，将人工播报音频与文本信息打包确认下发至显示终端设备进行播放。

显示终端设备接收人工播报音频信息，通过设备内嵌的人工播报音频自适应算法将工作人员的语音、语速、语调标准化处理，使得下发设备播放出来的人工播报音频能够保持一致。

显示终端接收所述文本信息，通过设备内嵌的文本自适应算法将文本信息针对下发的设备尺寸进行自适应处理。

本发明通过将人工播放音频、文本自适应算法集成在设备上，后台只需管理音频、文本内容的接收和下发，对于音频如何播报、文本如何展示则通过显示终端设备进行自适应处理，这样大大降低了系统的耗能，同时也赋能于设备，使设备不单单只是一个语音播报，同时也具备自适应文本展示的功能，提升了设备价值。

附图说明

图1为本发明的基于公共交通的文本、音频自适应方法流程示意图；

图2为本发明的显示终端结构示意图；

图3为本发明的基于公共交通的文本、音频自适应系统示意图；

图4为本发明的现有技术示意图；

图5为本发明的主控端内三维模型示意图；

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例

S201、自适应处理包括调速处理以及标准化处理，调速处理具体包括以下步骤：

获取所述总字数与总时长的比值并进行判定；

当所述比值小于预设范围的最小端点时，对所述人工播报音频进行加速处理，以得到与预设速度相匹配的加快人工播报音频；

当所述比值大于预设范围的最大端点时，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速人工播报音频。

具体的，一般人的正常语速在每分钟80到160字左右；

我国播音员每分钟正常语速为240字；

演讲的一般语速度控制在100-140字/分钟；

不过也要因人而异,还要看个人的语速。因此选取预设范围时，可以参考具体的应用场景。当处于应急环境中时，可以选取较大的预设范围，当处于日常场景时，可以选取较小的预设范围。

所述调速处理具体为：

对所述人工播报音频进行音元检测获得音元分布信息；

基于所述音元分布信息以音元为分割单位进行分段，获得多段分割人工播报音频；

每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频，以得到预设速度相匹配的加快人工播报音频；或

每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频，以得到预设速度相匹配的减速人工播报音频。

所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。

经过对比分析，将所述扩展人工播报音频选取为插入点之前的一段人工播报音频。

标准化处理具体包括以下步骤：

对加速人工播报音频或减速人工播报音频进行拼音解析处理，得到人工播报音频对应的拼音序列；将拼音序列输入普通话识别模型，得到人工播报音频的普通话识别判定结果；

当普通话识别判定结果为是，则通过文本转语音模块对所述文本信息进行语音合成生成自适应人工播报音频。

具体地，将拼音序列输入普通话识别模型中，通过普通话识别模型提取出拼音序列中所有拼音数据及其对应的音调数据的词义特征，普通话识别模型根据词义特征预测出所有拼音数据及其对应的音调数据在普通话数据库中的预测汉字，并通过每个词语的通顺度值获得所述拼音序列的通顺度值，当所述拼音序列的通顺度大于识别阈值时，判定所述人工播报音频为普通话，当所述拼音序列的通顺度小于识别阈值时，判定所述人工播报音频为方言，得到普通话识别判定结果，其中，该普通话识别模型可以为卷积神经网络模型。

在一些实施例中，普通话识别模型中设置有普通话数据库以及场景关键词数据库，该场景关键词数据库中存有多个场景关键词，此时，将拼音序列输入普通话识别模型中，根据普通话数据库以及场景关键词数据库得到待识别语音的普通话识别结果。其中，相对于同一拼音，该场景关键词的权重比非场景关键词的权重大，在预测普通话识别结果时优先考虑该场景关键词，

例如，该场景数据库与对话或讲话场景相对应，该人工播报音频的主题为对某系列产品进行讨论，则该场景数据库中包括该系列产品对应的关键词。

可见，本实施例可以结合具体的场景对语音进行识别，进一步提高语音识别的准确率。

S202、对所述文本信息进行自适应处理，获得自适应显示页面；

所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息；

根据所述屏幕尺寸确定与自适应显示页面适配的字体大小，具体包括以下步骤：

通过以下公式计算所述与自适应显示页面适配的字体大小：

c＝b×(w-p)×a

其中，设尺寸可以由本领域技术人员根据实际需要进行设置，本实施方式对此不做具体限定。比如，显示终端以手机为例，般手机的屏幕宽度在320px至480px之间，可选择500px作为预设尺寸。

具体而言，当显示终端判定屏幕尺寸大于预设尺寸时，可以确定自身屏幕为大屏幕，显示终端根据屏幕尺寸和预设尺寸确定尺寸调整量，并结合预设的调整系数确定与自适应显示页面适配的适配尺寸，该子步骤可以由公式c＝b×(w-p)×a获得，其中，w-p为所述尺寸调整量，w为所述屏幕尺寸，p为所述预设尺寸，a为所述预设的调整系数，b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。

其中，预设尺寸p和预设的调整系数a可以由本领域技术人员根据实际需要进行设定，比如由开发者根据开发需求进行设定，本实施方式对此不做具体限定。

一般站点门楣的屏幕宽度在3200px至4800px之间，可选择5000px作为预设尺寸，若用户的显示终端的宽度大于5000px，判断该显示终端的屏幕为大屏幕。例如，当显示终端的屏幕宽度为6400px时，显示终端判断自身屏幕为大屏幕。屏幕宽度大于500px的部分即需要调整的尺寸调整量，尺寸调整量可以乘以预设的调整系数进行调整(其中，预设的调整系数由开发者设定，可以选择的范围为为0.089至0.12)。经多次实验发现，当预设的调整系数取0.1时，可获得友好的适配效果。b为与预设尺寸相匹配的预设字体大小，当p为5000px时，b为50px，在预设的调整系数取0.1的情况下，该屏幕宽度为6400px的显示终端的字体大小为：50×(6400-5000)×0.001px，即70px。

相应的，还可以是，通过以下公式计算所述与自适应显示页面适配的字体大小：

c＝b×w/p

其中，预设尺寸p可以由本领域技术人员根据实际需要进行设定，比如由开发者根据开发需求进行设定，本实施方式对此不做具体限定。

一般站点门楣的屏幕宽度在3200px至4800px之间，可选择5000px作为预设尺寸，若用户的显示终端的宽度大于5000px，判断该显示终端的屏幕为大屏幕。例如，当显示终端的屏幕宽度为6400px时，显示终端判断自身屏幕为大屏幕，则该屏幕宽度为6400px的显示终端的字体大小为：50×(6400/5000)，即64px。

实施例2

一种基于公共交通的文本、音频自适应显示终端，包括：

显示屏；

一个或多个处理器；

对所述文本信息进行自适应处理，获得自适应显示页面；

实施例3

一种基于公共交通的文本、音频自适应系统，包括：

所述主控端具备语音采集显示终端，用于：

获取三维模型地图中被选择的显示终端；

所述显示终端用于：

对所述文本信息进行自适应处理，获得自适应显示页面；

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于公共交通的文本、音频自适应方法，其特征在于，应用于站点的显示终端，所述显示终端与主控端实现通信交互，具体包括以下步骤：

对所述文本信息进行自适应处理，获得自适应显示页面；

对所述人工播报音频进行自适应处理包括调速处理，所述调速处理具体包括以下步骤：

获取所述总字数与总时长的比值并进行判定；

当所述比值大于预设范围的最大端点时，对所述人工播报音频进行减速处理，以得到与预设速度相匹配的减速的自适应人工播报音频；

所述加速处理或减速处理的调速处理具体为：

对所述人工播报音频进行音元检测获得音元分布信息；

每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频，以得到预设速度相匹配的减速人工播报音频；

所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或经过衰减处理的插入点之前的一段人工播报音频；

2.根据权利要求1所述的基于公共交通的文本、音频自适应方法，其特征在于，对所述人工播报音频进行自适应处理还包括标准化处理，所述标准化处理具体包括以下步骤：

3.根据权利要求1所述的基于公共交通的文本、音频自适应方法，其特征在于，对所述文本信息进行自适应处理，获得自适应显示页面，具体包括以下步骤：

获取所述显示终端的屏幕尺寸；

根据所述屏幕尺寸确定与自适应显示页面适配的字体大小；其中，所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息。

4.根据权利要求3所述的基于公共交通的文本、音频自适应方法，其特征在于，所述文本信息携带有预设尺寸，根据所述屏幕尺寸确定与自适应显示页面适配的字体大小，具体包括以下步骤：

5.根据权利要求4所述的基于公共交通的文本、音频自适应方法，其特征在于，所述文本信息还携带有预设字体大小，通过以下公式计算所述与自适应显示页面适配的字体大小：

c＝b×(w-p)×a；

6.根据权利要求4所述的基于公共交通的文本、音频自适应方法，其特征在于，所述文本信息还携带有预设字体大小，通过以下公式计算所述与自适应显示页面适配的字体大小：

c＝b×w/p；

7.一种基于公共交通的文本、音频自适应显示终端，其特征在于，包括：

显示屏；

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至6中任意一项所述的基于公共交通的文本、音频自适应方法，所述一个或多个程序包括：

对所述文本信息进行自适应处理，获得自适应显示页面；