CN114564165B - 基于公共交通的文本、音频自适应方法、显示终端、系统 - Google Patents

基于公共交通的文本、音频自适应方法、显示终端、系统 Download PDF

Info

Publication number
CN114564165B
CN114564165B CN202210169414.1A CN202210169414A CN114564165B CN 114564165 B CN114564165 B CN 114564165B CN 202210169414 A CN202210169414 A CN 202210169414A CN 114564165 B CN114564165 B CN 114564165B
Authority
CN
China
Prior art keywords
self
adaptive
audio
manual
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210169414.1A
Other languages
English (en)
Other versions
CN114564165A (zh
Inventor
邓秋雄
赵丁漫
李阳
饶龙强
周武毅
张剑勇
李建涛
袁进泽
杨伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhiyuanhui Information Technology Co Ltd
Original Assignee
Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhiyuanhui Information Technology Co Ltd filed Critical Chengdu Zhiyuanhui Information Technology Co Ltd
Priority to CN202210169414.1A priority Critical patent/CN114564165B/zh
Publication of CN114564165A publication Critical patent/CN114564165A/zh
Application granted granted Critical
Publication of CN114564165B publication Critical patent/CN114564165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1454Digital output to display device ; Cooperation and interconnection of the display device with other functional units involving copying of the display data of a local workstation or window to a remote workstation or window so that an actual copy of the data is displayed simultaneously on two or more displays, e.g. teledisplay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/53Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers
    • H04H20/61Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers for local area broadcast, e.g. instore broadcast
    • H04H20/62Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers for local area broadcast, e.g. instore broadcast for transportation systems, e.g. in vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种基于公共交通的文本自适应方法、显示终端、系统,具体包括以下步骤:S1、接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;S2、对所述人工播报音频进行自适应处理,获得自适应人工播报音频;对所述文本信息进行自适应处理,获得自适应显示页面;S3、根据所述自适应人工播报音频、自适应文本信息,以及中断指令或置信度将进行同步播放与显示。本发明通过大大降低了系统的耗能,同时也赋能于设备,使设备不单单只是一个语音播报,同时也具备自适应文本展示的功能,提升了设备价值。

Description

基于公共交通的文本、音频自适应方法、显示终端、系统
技术领域
本发明涉及轨道交通领域,具体涉及基于公共交通的文本、音频自适应方法、显示终端、系统。
背景技术
现有的播系统多采用直播的方式,播音员打开话筒对着主控端的拾音器说出需要播报的内容,主控端接收到含有播报内容的音频信息发送至站点的站口喇叭进行播报,然而在面对早晚高峰或者突发紧急情况的时候,站点的人流拥挤声音嘈杂,使乘客无法清晰准确的获得站点信息或紧急播报的安全信息,因此需要针对站点已有显示终端设备,本发明提出将语音喇叭播报内容进行同步音频播报与文字显示的方案,从而实现边播报边展示的功能,而多个显示终端设备如站口门楣、站内导向、智能显示终端的屏幕多种多样,大小也各有不同的问题,需要解决文本如何在显示终端设备进行自适应的问题,且现有播报系统对人工播报音频并没有进行处理,语音播放的内容通过工作人员说完后直接播放,由于每个人的语音语速不同,或有的工作人员说话带方言,就导致播放出的内容快慢等参差不齐,影响站点的播放效率,特别是在应急场景下,亟需乘客及时理解播报内容,因此需要对播报系统的内容进行调速与标准化处理。
发明内容
本发明的目的在于提供基于公共交通的文本自适应方法、显示终端、系统及介质,显示终端设备接收主控端发送的人工播报音频、文本信息,通过设备内嵌的音频自适应、文本自适应算法将人工播报音频进行调速与标准化处理、将文本信息针对设备尺寸进行自适应处理后播放展示,用以解决现有站点播报系统显示终端屏幕无法自适应同步播报显示的问题。
基于公共交通的文本、音频自适应方法,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
S2、对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
S3、根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
进一步地,所述自适应处理包括调速处理,所述调速处理具体包括以下步骤:
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速的自适应人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速的自适应人工播报音频。
进一步地,所述自适应处理还包括标准化处理,所述标准化处理具体包括以下步骤:
对人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成人工播报音频。
进一步地,对所述文本信息进行自适应处理,获得自适应显示页面,具体包括以下步骤:
获取所述显示终端的屏幕尺寸;
根据所述屏幕尺寸确定与自适应显示页面适配的字体大小;其中,所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息;
进一步地,所述文本信息携带有预设尺寸,根据所述屏幕尺寸确定与自适应显示页面适配的字体大小,具体包括以下步骤:
若所述屏幕尺寸大于预设尺寸,根据所述屏幕尺寸和所述预设尺寸确定尺寸调整量;
根据所述尺寸调整量和预设的调整系数,计算所述与自适应显示页面适配的字体大小。
进一步地,所述文本信息还携带有预设字体大小,通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×(w-p)×a
其中,w-p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,a为所述预设的调整系数,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
进一步地,所述文本信息还携带有预设字体大小,通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×w/p
其中,w/p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
一种基于公共交通的文本、音频自适应显示终端,包括:
显示屏;
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现所述的一种基于公共交通的文本、音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
自适应模块,用于对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
播放显示模块,用于根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
一种基于公共交通的文本、音频自适应系统,包括:
显示终端与主控端,所述显示终端与主控端通过局域网实现通信交互,
所述主控端具备语音采集显示终端,用于:
构建站点的三维模型地图,所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸,以及应急场景下预设人工播报音频、预设文本信息;
获取三维模型地图中被选择的显示终端;
将人工播报音频、文本信息以及相关信息下发至所述显示终端;所述人工播报音频包括预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息;所述文本信息包括预设文本信息或语音采集模块在触发后采集的人工播报音频信息并进行语音转文字处理生成的文本信息。
所述显示终端用于:
接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
发明具有的有益效果:
用户在主控端的三维模型中选择需要下发内容的设备,通过长按的方式调出下发的功能(如:预设播表下发、语音实时下发等),用户选择语音实时下发,调起系统语音采集模块进行语音拾音,拾音完成后根据人工播报音频进行语音转文字处理获得文本信息,将人工播报音频与文本信息打包确认下发至显示终端设备进行播放。
显示终端设备接收人工播报音频信息,通过设备内嵌的人工播报音频自适应算法将工作人员的语音、语速、语调标准化处理,使得下发设备播放出来的人工播报音频能够保持一致。
显示终端接收所述文本信息,通过设备内嵌的文本自适应算法将文本信息针对下发的设备尺寸进行自适应处理。
本发明通过将人工播放音频、文本自适应算法集成在设备上,后台只需管理音频、文本内容的接收和下发,对于音频如何播报、文本如何展示则通过显示终端设备进行自适应处理,这样大大降低了系统的耗能,同时也赋能于设备,使设备不单单只是一个语音播报,同时也具备自适应文本展示的功能,提升了设备价值。
附图说明
图1为本发明的基于公共交通的文本、音频自适应方法流程示意图;
图2为本发明的显示终端结构示意图;
图3为本发明的基于公共交通的文本、音频自适应系统示意图;
图4为本发明的现有技术示意图;
图5为本发明的主控端内三维模型示意图;
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例
基于公共交通的文本、音频自适应方法,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
S2、对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
S201、自适应处理包括调速处理以及标准化处理,调速处理具体包括以下步骤:
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加快人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频。
具体的,一般人的正常语速在每分钟80到160字左右;
我国播音员每分钟正常语速为240字;
演讲的一般语速度控制在100-140字/分钟;
不过也要因人而异,还要看个人的语速。因此选取预设范围时,可以参考具体的应用场景。当处于应急环境中时,可以选取较大的预设范围,当处于日常场景时,可以选取较小的预设范围。
所述调速处理具体为:
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频,以得到预设速度相匹配的加快人工播报音频;或
每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频,以得到预设速度相匹配的减速人工播报音频。
所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。
经过对比分析,将所述扩展人工播报音频选取为插入点之前的一段人工播报音频。
标准化处理具体包括以下步骤:
对加速人工播报音频或减速人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成自适应人工播报音频。
具体地,将拼音序列输入普通话识别模型中,通过普通话识别模型提取出拼音序列中所有拼音数据及其对应的音调数据的词义特征,普通话识别模型根据词义特征预测出所有拼音数据及其对应的音调数据在普通话数据库中的预测汉字,并通过每个词语的通顺度值获得所述拼音序列的通顺度值,当所述拼音序列的通顺度大于识别阈值时,判定所述人工播报音频为普通话,当所述拼音序列的通顺度小于识别阈值时,判定所述人工播报音频为方言,得到普通话识别判定结果,其中,该普通话识别模型可以为卷积神经网络模型。
在一些实施例中,普通话识别模型中设置有普通话数据库以及场景关键词数据库,该场景关键词数据库中存有多个场景关键词,此时,将拼音序列输入普通话识别模型中,根据普通话数据库以及场景关键词数据库得到待识别语音的普通话识别结果。其中,相对于同一拼音,该场景关键词的权重比非场景关键词的权重大,在预测普通话识别结果时优先考虑该场景关键词,
例如,该场景数据库与对话或讲话场景相对应,该人工播报音频的主题为对某系列产品进行讨论,则该场景数据库中包括该系列产品对应的关键词。
可见,本实施例可以结合具体的场景对语音进行识别,进一步提高语音识别的准确率。
S202、对所述文本信息进行自适应处理,获得自适应显示页面;
所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息;
根据所述屏幕尺寸确定与自适应显示页面适配的字体大小,具体包括以下步骤:
若所述屏幕尺寸大于预设尺寸,根据所述屏幕尺寸和所述预设尺寸确定尺寸调整量;
根据所述尺寸调整量和预设的调整系数,计算所述与自适应显示页面适配的字体大小。
通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×(w-p)×a
其中,w-p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,a为所述预设的调整系数,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
其中,设尺寸可以由本领域技术人员根据实际需要进行设置,本实施方式对此不做具体限定。比如,显示终端以手机为例,般手机的屏幕宽度在320px至480px之间,可选择500px作为预设尺寸。
具体而言,当显示终端判定屏幕尺寸大于预设尺寸时,可以确定自身屏幕为大屏幕,显示终端根据屏幕尺寸和预设尺寸确定尺寸调整量,并结合预设的调整系数确定与自适应显示页面适配的适配尺寸,该子步骤可以由公式c=b×(w-p)×a获得,其中,w-p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,a为所述预设的调整系数,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
其中,预设尺寸p和预设的调整系数a可以由本领域技术人员根据实际需要进行设定,比如由开发者根据开发需求进行设定,本实施方式对此不做具体限定。
一般站点门楣的屏幕宽度在3200px至4800px之间,可选择5000px作为预设尺寸,若用户的显示终端的宽度大于5000px,判断该显示终端的屏幕为大屏幕。例如,当显示终端的屏幕宽度为6400px时,显示终端判断自身屏幕为大屏幕。屏幕宽度大于500px的部分即需要调整的尺寸调整量,尺寸调整量可以乘以预设的调整系数进行调整(其中,预设的调整系数由开发者设定,可以选择的范围为为0.089至0.12)。经多次实验发现,当预设的调整系数取0.1时,可获得友好的适配效果。b为与预设尺寸相匹配的预设字体大小,当p为5000px时,b为50px,在预设的调整系数取0.1的情况下,该屏幕宽度为6400px的显示终端的字体大小为:50×(6400-5000)×0.001px,即70px。
相应的,还可以是,通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×w/p
其中,w/p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
其中,预设尺寸p可以由本领域技术人员根据实际需要进行设定,比如由开发者根据开发需求进行设定,本实施方式对此不做具体限定。
一般站点门楣的屏幕宽度在3200px至4800px之间,可选择5000px作为预设尺寸,若用户的显示终端的宽度大于5000px,判断该显示终端的屏幕为大屏幕。例如,当显示终端的屏幕宽度为6400px时,显示终端判断自身屏幕为大屏幕,则该屏幕宽度为6400px的显示终端的字体大小为:50×(6400/5000),即64px。
S3、根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
实施例2
一种基于公共交通的文本、音频自适应显示终端,包括:
显示屏;
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现所述的一种基于公共交通的文本、音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
自适应模块,用于对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
播放显示模块,用于根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
实施例3
一种基于公共交通的文本、音频自适应系统,包括:
显示终端与主控端,所述显示终端与主控端通过局域网实现通信交互,
所述主控端具备语音采集显示终端,用于:
构建站点的三维模型地图,所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸,以及应急场景下预设人工播报音频、预设文本信息;
获取三维模型地图中被选择的显示终端;
将人工播报音频、文本信息以及相关信息下发至所述显示终端;所述人工播报音频包括预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息;所述文本信息包括预设文本信息或语音采集模块在触发后采集的人工播报音频信息并进行语音转文字处理生成的文本信息。
所述显示终端用于:
接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (7)

1.基于公共交通的文本、音频自适应方法,其特征在于,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
S2、对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
对所述人工播报音频进行自适应处理包括调速处理,所述调速处理具体包括以下步骤:
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速的自适应人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速的自适应人工播报音频;
所述加速处理或减速处理的调速处理具体为:
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频,以得到预设速度相匹配的加快人工播报音频;或
每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频,以得到预设速度相匹配的减速人工播报音频;
所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或经过衰减处理的插入点之前的一段人工播报音频;
S3、根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
2.根据权利要求1所述的基于公共交通的文本、音频自适应方法,其特征在于,对所述人工播报音频进行自适应处理还包括标准化处理,所述标准化处理具体包括以下步骤:
对人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成人工播报音频。
3.根据权利要求1所述的基于公共交通的文本、音频自适应方法,其特征在于,对所述文本信息进行自适应处理,获得自适应显示页面,具体包括以下步骤:
获取所述显示终端的屏幕尺寸;
根据所述屏幕尺寸确定与自适应显示页面适配的字体大小;其中,所述自适应显示页面为在所述显示终端的屏幕上待显示的文本信息。
4.根据权利要求3所述的基于公共交通的文本、音频自适应方法,其特征在于,所述文本信息携带有预设尺寸,根据所述屏幕尺寸确定与自适应显示页面适配的字体大小,具体包括以下步骤:
若所述屏幕尺寸大于预设尺寸,根据所述屏幕尺寸和所述预设尺寸确定尺寸调整量;
根据所述尺寸调整量和预设的调整系数,计算所述与自适应显示页面适配的字体大小。
5.根据权利要求4所述的基于公共交通的文本、音频自适应方法,其特征在于,所述文本信息还携带有预设字体大小,通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×(w-p)×a;
其中,w-p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,a为所述预设的调整系数,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
6.根据权利要求4所述的基于公共交通的文本、音频自适应方法,其特征在于,所述文本信息还携带有预设字体大小,通过以下公式计算所述与自适应显示页面适配的字体大小:
c=b×w/p;
其中,w/p为所述尺寸调整量,w为所述屏幕尺寸,p为所述预设尺寸,b为与预设尺寸相匹配的预设字体大小,c为所述与自适应显示页面适配的字体大小。
7.一种基于公共交通的文本、音频自适应显示终端,其特征在于,包括:
显示屏;
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至6中任意一项所述的基于公共交通的文本、音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报信息及相关信息,所述相关信息包括中断指令或置信度,所述人工播报信息包括人工播报音频与文本信息;
自适应模块,用于对所述人工播报音频进行自适应处理,获得自适应人工播报音频;
对所述文本信息进行自适应处理,获得自适应显示页面;
播放显示模块,用于根据所述自适应人工播报音频、自适应文本信息,以及中断指令中断当前播放的音频、中断当前显示的页面并同步播放、显示所述自适应人工播报音频、显示所述自适应显示页面;或
根据所述自适应人工播报音频、自适应文本信息,以及置信度将所述自适应人工播报音频、自适应显示页面插入待播放显示队列,所述待播放显示队列用于按照置信度的大小顺序依次读取所述待播放显示队列中的自适应人工播报音频、自适应显示页面,以用于根据所述自适应人工播报音频、自适应显示页面进行同步播放与显示。
CN202210169414.1A 2022-02-23 2022-02-23 基于公共交通的文本、音频自适应方法、显示终端、系统 Active CN114564165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210169414.1A CN114564165B (zh) 2022-02-23 2022-02-23 基于公共交通的文本、音频自适应方法、显示终端、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210169414.1A CN114564165B (zh) 2022-02-23 2022-02-23 基于公共交通的文本、音频自适应方法、显示终端、系统

Publications (2)

Publication Number Publication Date
CN114564165A CN114564165A (zh) 2022-05-31
CN114564165B true CN114564165B (zh) 2023-05-02

Family

ID=81714213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210169414.1A Active CN114564165B (zh) 2022-02-23 2022-02-23 基于公共交通的文本、音频自适应方法、显示终端、系统

Country Status (1)

Country Link
CN (1) CN114564165B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580742B (zh) * 2022-10-12 2023-05-16 广东保伦电子股份有限公司 一种声文同步的广播方法及广播系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212799A (ja) * 2003-01-07 2004-07-29 Telecommunication Advancement Organization Of Japan 書起し支援装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193841B (zh) * 2016-03-15 2022-07-26 北京三星通信技术研究有限公司 媒体文件加速播放、传输及存储的方法和装置
CN106776969A (zh) * 2016-12-05 2017-05-31 乐视控股(北京)有限公司 页面适配方法、装置及电子设备
CN112102828A (zh) * 2020-09-04 2020-12-18 杭州中软安人网络通信股份有限公司 大屏幕自动播报内容的语音控制方法及系统
CN112349268A (zh) * 2020-11-09 2021-02-09 湖南芒果听见科技有限公司 一种应急广播音频处理系统及其运行方法
CN113781998A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于方言纠正模型的语音识别方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212799A (ja) * 2003-01-07 2004-07-29 Telecommunication Advancement Organization Of Japan 書起し支援装置

Also Published As

Publication number Publication date
CN114564165A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN110300001B (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
US20110144997A1 (en) Voice synthesis model generation device, voice synthesis model generation system, communication terminal device and method for generating voice synthesis model
WO2021169742A1 (zh) 交通工具运行状态的预测方法、装置、终端及存储介质
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN103151039A (zh) 一种基于向量机svm的说话者年龄段识别方法
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN114564165B (zh) 基于公共交通的文本、音频自适应方法、显示终端、系统
CN111683317B (zh) 一种应用于耳机的提示方法、装置、终端及存储介质
CN111325386A (zh) 交通工具运行状态的预测方法、装置、终端及存储介质
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
WO2021115232A1 (zh) 到站提醒方法、装置、终端及存储介质
CN111464876A (zh) 翻译文本字幕流式展示方法、装置以及设备
CN110853621A (zh) 语音顺滑方法、装置、电子设备及计算机存储介质
CN111435595A (zh) 文本规整方法及装置
CN111276156A (zh) 一种实时语音流监控的方法
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
CN113345407A (zh) 一种风格语音合成方法、装置、电子设备及存储介质
CN110992984B (zh) 音频处理方法及装置、存储介质
CN110853669A (zh) 音频识别方法、装置及设备
CN106653003A (zh) 语音识别方法及装置
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
CN115063155A (zh) 一种数据标注方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant