CN114566164A - 基于公共交通的人工播报音频自适应方法、显示终端及系统 - Google Patents
基于公共交通的人工播报音频自适应方法、显示终端及系统 Download PDFInfo
- Publication number
- CN114566164A CN114566164A CN202210170328.2A CN202210170328A CN114566164A CN 114566164 A CN114566164 A CN 114566164A CN 202210170328 A CN202210170328 A CN 202210170328A CN 114566164 A CN114566164 A CN 114566164A
- Authority
- CN
- China
- Prior art keywords
- broadcast audio
- audio
- manual
- speed
- manual broadcast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000001105 regulatory effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 9
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/53—Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers
- H04H20/61—Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers for local area broadcast, e.g. instore broadcast
- H04H20/62—Arrangements specially adapted for specific applications, e.g. for traffic information or for mobile receivers for local area broadcast, e.g. instore broadcast for transportation systems, e.g. in vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了基于公共交通的人工播报音频自适应方法、显示终端及系统、电子设备及介质,具体包括以下步骤:S1、接收主控端发送的人工播报音频及相关信息;S2、对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;S3、获取所述总字数与总时长的比值并进行判定;S4、当所述比值在预设范围内时,则根据中断指令或所述置信度播放所述人工播报音频;S5、当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放。本发明通过对接收到的人工播报音频进行调速处理和/或调速、方言转普通话处理,使得不同工作人员在显示终端播放的内容在语音、速度等方面做到统一标准化。
Description
技术领域
本发明涉及,具体涉及基于公共交通的人工播报音频自适应方法、显示终端及系统。
背景技术
现有的播系统多采用直播的方式,播音员打开话筒对着主控端的拾音器说出需要播报的内容,主控端接收到含有播报内容的人工播报音频发送至站点的站口喇叭进行播报,然后现有播报系统对人工播报音频并没有进行处理,播放的内容通过工作人员说完后直接播放,由于每个人的语音语速不同,或有的工作人员说话带方言,就导致播放出的内容快慢、吐词不清等参差不齐,影响站点的播放效率与播放质量,特别是在应急场景下,亟需乘客及时理解播报内容,因此需要对播报系统的内容进行调速与标准化处理。
发明内容
本发明的目的在于提供一种基于公共交通的人工播报音频自适应方法、显示终端及系统,对接收到的人工播报音频进行调速处理或方言转普通话标准处理,使得不同工作人员在显示终端播放的内容在语音、速度等方面做到统一标准化,用以解决现有的播报系统不统一问题。
基于公共交通的人工播报音频自适应方法,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
S2、对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
S3、获取所述总字数与总时长的比值并进行判定;
S4、当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
S5、当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
可以理解的是,所述置信度越高,其对应人工播报音频的优先级越高,其对应的播放的顺序月靠前。
进一步地,所述步骤S5具体包括以下步骤:
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频并播放。
进一步地,对所步骤S4还包括识别步骤:
对人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频。
进一步地,所述步骤S5还包括识别步骤:
对所述人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频。
进一步地,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频并播放,具体为:
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频,以得到预设速度相匹配的加速人工播报音频并播放。
进一步地,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频并播放;
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频,以得到预设速度相匹配的减速人工播报音频并播放。
进一步地,所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。
进一步地,对所述人工播报音频进行音元检测获得音元分布信息具体为:
根据采样频率F,对所述人工播报音频进行抽样、量化、编码得到编码集合;
遍历所述编码集合,当找到最大极值点时,以所述最大极值点前的第一个零点位置为新音元的开始和前一个音元的结束,直到遍历完所述编码人工播报音频集合;
记录所有音元及其对应的开始、结束位置形成音元分布信息。
基于公共交通的人工播报音频自适应显示终端,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现所述的基于公共交通的人工播报音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
识别模块,用于对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
判定模块,用于获取所述总字数与总时长的比值并进行判定;
直播模块,用于当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
调播模块,用于当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
一种基于公共交通的人工播报音频自适应系统,包括:
显示终端与主控端,所述显示终端与主控端通过局域网实现通信交互,
所述主控端具备语音采集显示终端,用于:
构建站点的三维模型地图,所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸,以及应急场景下预设人工播报音频;
获取三维模型地图中被选择的显示终端;
将预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息下发至所述显示终端;
所述显示终端用于:
接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
本发明具有的有益效果:
用户在主控端的三维模型中选择需要下发内容的设备,通过长按的方式调出下发的功能(如:预设播表下发、语音实时下发等),用户选择语音实时下发,调起系统语音采集模块进行语音拾音,拾音完成后,下发至显示终端设备进行播放。
显示终端设备接收人工播报音频,通过设备内嵌的人工播报音频自适应算法将工作人员的语音、语速、语调标准化处理,使得下发设备播放出来的人工播报音频能够保持一致并进行播放展示,流程结束。
通过将自适应算法集成在设备上,设备接收到后台系统下发的实时语音后进行自适应的人工播报音频处理,使得不同工作人员播出去的内容在语音、速度等方面做到统一标准化,大大提升了的整体形象,提高的语音播放效率,也赋予了显示终端设备更多的能力。
附图说明
图1为本发明的基于公共交通的人工播报音频自适应方法流程示意图;
图2为本发明的显示终端结构示意图;
图3为本发明的基于公共交通的人工播报音频自适应系统示意图;
图4为本发明的现有技术示意图;
图5为本发明的主控端内三维模型示意图;
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
本实施例的目的在于提供一种基于公共交通的人工播报音频自适应方法,包括,
基于公共交通的人工播报音频自适应方法,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
S2、对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
S3、获取所述总字数与总时长的比值并进行判定;
S4、当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
所述步骤S4还包括识别步骤:
对所述人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频,并播放所述合成的人工播报音频。
S5、当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
所述步骤S5具体包括以下步骤:
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频并播放。
具体的,一般人的正常语速在每分钟80到160字左右;
我国播音员每分钟正常语速为240字;
演讲的一般语速度控制在100-140字/分钟;
不过也要因人而异,还要看个人的语速。因此选取预设范围时,可以参考具体的应用场景。当处于应急环境中时,可以选取较大的预设范围,当处于日常场景时,可以选取较小的预设范围。
对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频并播放,具体为:
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频,以得到预设速度相匹配的加速人工播报音频并播放。
对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频并播放;
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频,以得到预设速度相匹配的减速人工播报音频并播放。
所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。
经过对比分析,将所述扩展人工播报音频选取为插入点之前的一段人工播报音频
对所述人工播报音频进行音元检测获得音元分布信息具体为:
根据采样频率F,对所述人工播报音频进行抽样、量化、编码得到编码集合;
遍历所述编码集合,当找到最大极值点时,以所述最大极值点前的第一个零点位置为新音元的开始和前一个音元的结束,直到遍历完所述编码人工播报音频集合;
记录所有音元及其对应的开始、结束位置形成音元分布信息。
具体的,所述采样频率为8K,所述编码为PCM编码,规定在相邻两个零点之间只有一个最大的正峰值。在准确划分各个音元的基础上,通过重复、删除或抽取单个或多个音元的内容来实现语速的变化。
步骤S5还包括识别步骤;
对所述人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频。
具体地,将拼音序列输入普通话识别模型中,通过普通话识别模型提取出拼音序列中所有拼音数据及其对应的音调数据的词义特征,普通话识别模型根据词义特征预测出所有拼音数据及其对应的音调数据在普通话数据库中的预测汉字,并通过每个词语的通顺度值获得所述拼音序列的通顺度值,当所述拼音序列的通顺度大于识别阈值时,判定所述人工播报音频为普通话,当所述拼音序列的通顺度小于识别阈值时,判定所述人工播报音频为方言,得到普通话识别判定结果,其中,该普通话识别模型可以为卷积神经网络模型。
在一些实施例中,普通话识别模型中设置有普通话数据库以及场景关键词数据库,该场景关键词数据库中存有多个场景关键词,此时,将拼音序列输入普通话识别模型中,根据普通话数据库以及场景关键词数据库得到待识别语音的普通话识别结果。其中,相对于同一拼音,该场景关键词的权重比非场景关键词的权重大,在预测普通话识别结果时优先考虑该场景关键词,
例如,该场景数据库与对话或讲话场景相对应,该人工播报音频的主题为对某系列产品进行讨论,则该场景数据库中包括该系列产品对应的关键词。
可见,本实施例可以结合具体的场景对语音进行识别,进一步提高语音识别的准确率。
实时例2
基于公共交通的人工播报音频自适应显示终端,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现所述的基于公共交通的人工播报音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
识别模块,用于对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
判定模块,用于获取所述总字数与总时长的比值并进行判定;
直播模块,用于当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
调播模块,用于当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
实施例3
一种基于公共交通的人工播报音频自适应系统,包括:
显示终端与主控端,所述显示终端与主控端通过局域网实现通信交互,
所述主控端具备语音采集显示终端,用于:
构建站点的三维模型地图,所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸,以及应急场景下预设人工播报音频;
获取三维模型地图中被选择的显示终端;
将预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息下发至所述显示终端;
所述显示终端用于:
接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (9)
1.基于公共交通的人工播报音频自适应方法,其特征在于,应用于站点的显示终端,所述显示终端与主控端实现通信交互,具体包括以下步骤:
S1、接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
S2、对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
S3、获取所述总字数与总时长的比值并进行判定;
S4、当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
S5、当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
2.根据权利要求1所述的基于公共交通的人工播报音频自适应方法,其特征在于,所述步骤S5具体包括以下步骤:
当所述比值小于预设范围的最小端点时,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频;
当所述比值大于预设范围的最大端点时,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频。
3.根据权利要求1所述的基于公共交通的人工播报音频自适应方法,其特征在于,对所步骤S3之后还包括识别步骤:
对人工播报音频进行拼音解析处理,得到人工播报音频对应的拼音序列;将拼音序列输入普通话识别模型,得到人工播报音频的普通话识别判定结果;
当普通话识别判定结果为是,则通过文本转语音模块对所述文本信息进行语音合成生成合成的人工播报音频。
4.根据权利要求2所述的基于公共交通的人工播报音频自适应方法,其特征在于,对所述人工播报音频进行加速处理,以得到与预设速度相匹配的加速人工播报音频并播放,具体为:
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频删除相邻的数量为N的分割人工播报音频,以得到预设速度相匹配的加速人工播报音频并播放。
5.根据权利要求2所述的基于公共交通的人工播报音频自适应方法,其特征在于,对所述人工播报音频进行减速处理,以得到与预设速度相匹配的减速人工播报音频并播放;
对所述人工播报音频进行音元检测获得音元分布信息;
基于所述音元分布信息以音元为分割单位进行分段,获得多段分割人工播报音频;
每隔M段分割人工播报音频插入数量为N’的扩展人工播报音频,以得到预设速度相匹配的减速人工播报音频并播放。
6.根据权利要求5所述的基于公共交通的人工播报音频自适应方法,其特征在于,所述扩展人工播报音频为空白人工播报音频或插入点之前的一段人工播报音频或进过衰减处理的插入点之前的一段人工播报音频。
7.根据权利要求4或5所述的基于公共交通的人工播报音频自适应方法,其特征在于,对所述人工播报音频进行音元检测获得音元分布信息具体为:
根据采样频率F,对所述人工播报音频进行抽样、量化、编码得到编码集合;
遍历所述编码集合,当找到最大极值点时,以所述最大极值点前的第一个零点位置为新音元的开始和前一个音元的结束,直到遍历完所述编码人工播报音频集合;
记录所有音元及其对应的开始、结束位置形成音元分布信息。
8.基于公共交通的人工播报音频自适应显示终端,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至7中任意一项所述的基于公共交通的人工播报音频自适应方法,所述一个或多个程序包括:
接收模块,用于接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
识别模块,用于对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
判定模块,用于获取所述总字数与总时长的比值并进行判定;
直播模块,用于当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
调播模块,用于当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
9.一种基于公共交通的人工播报音频自适应系统,其特征在于,包括:
显示终端与主控端,所述显示终端与主控端通过局域网实现通信交互,
所述主控端具备语音采集显示终端,用于:
构建站点的三维模型地图,所述三维模型中包括站点每个显示终端的标签以及显示终端对应的屏幕尺寸,以及应急场景下预设人工播报音频;
获取三维模型地图中被选择的显示终端;
将预设人工播报音频或语音采集模块在触发后采集的人工播报音频信息下发至所述显示终端;
所述显示终端用于:
接收主控端发送的人工播报音频及相关信息,所述相关信息包括中断指令或置信度;
对所述人工播报音频进行语义识别获得文本信息,所述文本信息包括总字数与总时长;
获取所述总字数与总时长的比值并进行判定;
当所述比值在预设范围内时,则根据中断指令中断当前播放的音频并播放所述人工播报音频,或根据所述置信度将所述人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频;
当所述比值不在预设范围内时,则按照预设语速对所述人工播报音频进行调速后生成调速人工播报音频并播放,并在根据中断指令中断当前播放的音频并播放所述调速人工播报音频,或根据所述置信度将所述调速人工播报音频插入待播放队列,所述待播放队列用于按照置信度的大小顺序依次读取所述待播放队列中的音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170328.2A CN114566164A (zh) | 2022-02-23 | 2022-02-23 | 基于公共交通的人工播报音频自适应方法、显示终端及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170328.2A CN114566164A (zh) | 2022-02-23 | 2022-02-23 | 基于公共交通的人工播报音频自适应方法、显示终端及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566164A true CN114566164A (zh) | 2022-05-31 |
Family
ID=81714112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210170328.2A Pending CN114566164A (zh) | 2022-02-23 | 2022-02-23 | 基于公共交通的人工播报音频自适应方法、显示终端及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566164A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1145519A (zh) * | 1995-09-01 | 1997-03-19 | 苏勇 | 音频信号保真变速处理方法 |
CN1197976A (zh) * | 1997-04-28 | 1998-11-04 | 苏勇 | 一种音频信号保真变速放音方法及其装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN106156303A (zh) * | 2016-06-30 | 2016-11-23 | 百度在线网络技术(北京)有限公司 | 播报处理方法及装置 |
CN110277092A (zh) * | 2019-06-21 | 2019-09-24 | 北京猎户星空科技有限公司 | 一种语音播报方法、装置、电子设备及可读存储介质 |
CN110659389A (zh) * | 2019-09-05 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备和计算机可读存储介质 |
CN110798327A (zh) * | 2019-09-04 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 消息处理方法、设备及存储介质 |
US10685669B1 (en) * | 2018-03-20 | 2020-06-16 | Amazon Technologies, Inc. | Device selection from audio data |
CN111666059A (zh) * | 2020-04-24 | 2020-09-15 | 北京三快在线科技有限公司 | 提醒信息播报方法、装置,以及电子设备 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
-
2022
- 2022-02-23 CN CN202210170328.2A patent/CN114566164A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1145519A (zh) * | 1995-09-01 | 1997-03-19 | 苏勇 | 音频信号保真变速处理方法 |
CN1197976A (zh) * | 1997-04-28 | 1998-11-04 | 苏勇 | 一种音频信号保真变速放音方法及其装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN106156303A (zh) * | 2016-06-30 | 2016-11-23 | 百度在线网络技术(北京)有限公司 | 播报处理方法及装置 |
US10685669B1 (en) * | 2018-03-20 | 2020-06-16 | Amazon Technologies, Inc. | Device selection from audio data |
CN110277092A (zh) * | 2019-06-21 | 2019-09-24 | 北京猎户星空科技有限公司 | 一种语音播报方法、装置、电子设备及可读存储介质 |
CN110798327A (zh) * | 2019-09-04 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 消息处理方法、设备及存储介质 |
CN110659389A (zh) * | 2019-09-05 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备和计算机可读存储介质 |
CN111666059A (zh) * | 2020-04-24 | 2020-09-15 | 北京三快在线科技有限公司 | 提醒信息播报方法、装置,以及电子设备 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
Non-Patent Citations (1)
Title |
---|
宋红花,陈贵灿: "一种语音变速不变调处理算法的FPGA实现" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
EP1345394B1 (en) | Voice message processing system and method | |
US8694317B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
CN103700370B (zh) | 一种广播电视语音识别系统方法及系统 | |
WO2021218086A1 (zh) | 呼叫控制方法、装置、计算机设备以及存储介质 | |
US20070118373A1 (en) | System and method for generating closed captions | |
DE102004050785A1 (de) | Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems | |
CN110970018A (zh) | 语音识别方法和装置 | |
TW201624467A (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
KR20150017662A (ko) | 텍스트-음성 변환 방법, 장치 및 저장 매체 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN114564165B (zh) | 基于公共交通的文本、音频自适应方法、显示终端、系统 | |
WO2007044816A1 (en) | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication | |
CN113327619B (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
CN110428807A (zh) | 一种基于深度学习的语音识别方法、系统及装置 | |
CN112530421B (zh) | 语音识别方法、电子设备及存储装置 | |
CN109376224A (zh) | 语料过滤方法与装置 | |
CN114566164A (zh) | 基于公共交通的人工播报音频自适应方法、显示终端及系统 | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
CN109616116B (zh) | 通话系统及其通话方法 | |
CN112201225B (zh) | 一种语料获取的方法、装置、可读存储介质和电子设备 | |
CN112270922B (zh) | 一种调度日志自动化填写方法及装置 | |
CN114155845A (zh) | 服务确定方法、装置、电子设备及存储介质 | |
KR102291113B1 (ko) | 회의록 작성 장치 및 방법 | |
CN114333834A (zh) | 一种基于语音识别转换的调度录音电话的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220531 |