CN106601241A

CN106601241A - 一种录音文件自动校时方法

Info

Publication number: CN106601241A
Application number: CN201611218473.4A
Authority: CN
Inventors: 蒋伟; 王庆生; 高瑞强
Original assignee: HENAN THINKING INFORMATION TECHNOLOGY Co Ltd
Current assignee: HENAN THINKING INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-04-26

Abstract

本发明提供的一种录音文件自动校时方法，包括以下步骤：对LKJ报警数据，通过标准音进行朗读，模型数据库；对录音文件去除噪声；对去除噪声的录音文件，提取其中的所有语音片段和语音片段对应的时间；将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来，作为有效语音片段；将有效语音片段与模型数据库中的数据进行匹配，获取有效语音片段中的报警信息，同时获取报警信息的报警类别；将获取的报警信息，与LKJ的该报警信息所属的时间进行对比，获取录音文件的延迟，根据该延迟，对录音文件进行校时。

Description

一种录音文件自动校时方法

技术领域

本发明涉及一种校时方法，尤其涉及一种录音文件的校时方法。

背景技术

由于录音文件是机车运行时现场录制的音频信号，其中存在鸣笛、乘务员回话、机车机械振动等非线性复杂噪声信号，大大增加了语音识别的难度。采用传统的梅尔倒谱频率（MFCC）提取信号频率特征和隐式马尔科夫（HMM）算法进行识别难以准确识别LKJ语音报警信息。录音笔由于其内在晶振的问题，录音文件的时间与LKJ的基准时间轴之间往往存在偏差，无法进行音视频联动分析。

发明内容

本发明要解决的技术问题在于提供一种对机车上的录音笔的文件进行自动校时的方法，以解决现有技术存在的问题。

为解决上述技术问题，本发明采用以下技术方案：

一种录音文件自动校时方法，包括以下步骤：

对LKJ报警数据，通过标准音进行朗读，将朗读的标准音进行训练生成报警模型数据库；

对获取的机车中的录音笔的录音文件，分别进行单通道的音频噪声去除和双通道的音频噪声去除；

对去除噪声的录音文件，提取其中的所有语音片段和语音片段对应的时间；

将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来，作为有效语音片段；

将有效语音片段与模型数据库中的数据进行匹配，获取有效语音片段中的报警信息，同时获取报警信息的报警类别；

将获取的报警信息，与LKJ的该报警信息所属的时间进行对比，获取录音文件的延迟，根据该延迟，对录音文件进行校时。

所述对去除噪声的录音文件，提取其中的所有语音片段时，通过MFCC的方式提取其中的信号频率特征。

所述训练模型建立过程为：对标准音朗读的报警语音信号，使用MFCC方法提取信号的频率特征，根据提取出的频率特征，通过马尔科夫算法建立训练模型。

所述对录音文件进行校时的方法为：

设置以LKJ标准时间为X轴坐标和Y轴坐标的平面坐标系，在获取的报警信息中选择至少两个报警信息，且在每个报警信息中获取至少一个时间点，并获取该时间点在录音笔中的时间和在LKJ标准时间中的时间，在上述平面坐标系中计算多个时间点的时间斜率，根据该斜率对该录音笔记录的录音文件进行简单计算校时。

所述设定间隔阈值范围为LKJ对相同的报警信息播报两遍时中间间隔的最短时间和最长时间之间的范围。

所述设定时长阈值为LKJ播报的报警信息中最长报警信息的时长和最短报警信息的时长之间的范围。

本发明的有益效果：采用时域与频域相结合的方法可以准确的识别录音笔中记录的LKJ语音的报警类别，获取报警时间，进而与LKJ视频信息中的报警信息进行比对，对录音文件进行时间调整，达到音视频联动分析的目的。

附图说明

图1为本发明的训练模型建立流程图。

图2为本发明的语音识别流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明提供一种对LKJ上记录机车运行中的所有语音信息的录音文件进行自动校时的方法。该方法通过对录音文件记录的LKJ的报警信息进行识别与时间对照，对录音文件进行校时，以实现音视频的联动分析。

由于录音文件会记录汽车鸣笛、司机对话、汽车机械振动等信息，而LKJ中通常不记录这些信息，且这些信息噪声较大，信息识别具有复杂性，无法根据这些信息进行时间提取，然后根据LKJ的标准时间轴进行录音文件的校时。

而LKJ会对各种报警信息进行语音播报，每次录音文件均会对这些报警信息进行记录，同时，录音文件中记录的报警信息的播报具有独特性，根据这些语音对录音进行校时，准确性高，复杂度低。

本发明的方法首先需要对LKJ播报的报警信息进行数据库训练。即在无噪音条件下，对LKJ所有涉及的报警信息通过机器标准音进行多次朗读，通过梅尔倒谱频率（MFCC）提取这些标准音中的特征，然后通过隐式马尔科夫模型（HMM）将朗读的标准音训练成报警模型数据库。

由于录音文件具有单信道的和双信道的不同录音文件，因此，针对不同的录音文件使用不同的去燥方法进行噪音去除与语音增强。其中，单信道的语音文件通过最优改进对数谱幅度估计（OMLSA）的现有算法进行去燥与语音增强，双信道文件采用基于人耳掩蔽效应的谱减算法进行去燥与语音增强。

对去除噪声且进行语音增强的录音文件，提取其中的所有语音片段和该语音片段对应的前后两个时间。提取其中的所有语音片段时，通过MFCC的方式提取其中的信号频率特征，根据信号的频率特征，获取被认为是语音录音的片段。

由于LKJ报警信息在播报时，报警信息的播报具有独特的规律，例如每个报警信息播报两遍，中间间隔很短的时间（例如1秒），而且报警信息的长度通常较短，而录音笔记录的声音除了报警信息，还有司机说话声音或者其他的声音，这些声音无规律性，或者无法进行准确的时间确定，因此对录音文件中的LKJ报警信息进行识别比对其它信息进行识别更加容易，根据这些报警信息进行校时，校时更快、更准。

具体操作方法为：首先计算所有报警信息播报两遍时的间隔时间，根据间隔时间人为设定阈值的最大和最小值，形成阈值范围，该阈值范围为设定间隔阈值的范围；而同样的，对每个报警信息的语音朗读时间进行计时，记录最长的播报时间和最短的播报时间，根据这些时间设定时长阈值的范围。由于外界干扰因素的存在，上述范围可根据需要调整。

针对提取出来的语音片段，将相邻的语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来，作为有效语音片段。

对有效语音片段提取特征，根据提取的特征与训练模型中的每个音频文件的特征，根据现有的语音特征匹配方法进行匹配，根据匹配结果获取有效语音片段是否为报警信息的结果，不是报警信息，则舍弃该有效语音片段，如果是报警信息，则根据训练模型获取该有效语音片段的报警类别。

即使同一个厂家生产，也会由于晶振的问题导致每个录音笔的延时不同，因此，在进行录音文件校时时，针对不同录音笔记录的文件，应该分别进行校时。

在对某一个录音笔记录的录音文件进行校时时，首先从在录音文件中提取的报警信息中选择若干个报警信息，获取每个报警信息中的某些点在录音笔中的时间和在LKJ标准时间中的时间，在X轴和Y轴均为标准时间的坐标系中，计算两个时间分别对应于二维坐标系中的X轴和Y轴时的时间斜率，根据该斜率对该录音笔记录的录音文件进行简单计算校时。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明整体构思前提下，还可以作出若干改变和改进，这些也应该视为本发明的保护范围。

Claims

1.一种录音文件自动校时方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种录音文件自动校时方法，其特征在于：所述对去除噪声的录音文件，提取其中的所有语音片段时，通过MFCC的方式提取其中的信号频率特征。

3.根据权利要求1所述的一种录音文件自动校时方法，其特征在于：所述训练模型建立过程为：对标准音朗读的报警语音信号，使用MFCC方法提取信号的频率特征，根据提取出的频率特征，通过马尔科夫算法建立训练模型。

4.根据权利要求1所述的一种录音文件自动校时方法，其特征在于：所述对录音文件进行校时的方法为：

5.根据权利要求1所述的一种录音文件自动校时方法，其特征在于：所述设定间隔阈值范围为LKJ对相同的报警信息播报两遍时中间间隔的最短时间和最长时间之间的范围。

6.根据权利要求1所述的一种录音文件自动校时方法，其特征在于：所述设定时长阈值为LKJ播报的报警信息中最长报警信息的时长和最短报警信息的时长之间的范围。