CN106601241A - 一种录音文件自动校时方法 - Google Patents

一种录音文件自动校时方法 Download PDF

Info

Publication number
CN106601241A
CN106601241A CN201611218473.4A CN201611218473A CN106601241A CN 106601241 A CN106601241 A CN 106601241A CN 201611218473 A CN201611218473 A CN 201611218473A CN 106601241 A CN106601241 A CN 106601241A
Authority
CN
China
Prior art keywords
recording file
time
warning message
lkj
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611218473.4A
Other languages
English (en)
Inventor
蒋伟
王庆生
高瑞强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HENAN THINKING INFORMATION TECHNOLOGY Co Ltd
Original Assignee
HENAN THINKING INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HENAN THINKING INFORMATION TECHNOLOGY Co Ltd filed Critical HENAN THINKING INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611218473.4A priority Critical patent/CN106601241A/zh
Publication of CN106601241A publication Critical patent/CN106601241A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供的一种录音文件自动校时方法,包括以下步骤:对LKJ报警数据,通过标准音进行朗读,模型数据库;对录音文件去除噪声;对去除噪声的录音文件,提取其中的所有语音片段和语音片段对应的时间;将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来,作为有效语音片段;将有效语音片段与模型数据库中的数据进行匹配,获取有效语音片段中的报警信息,同时获取报警信息的报警类别;将获取的报警信息,与LKJ的该报警信息所属的时间进行对比,获取录音文件的延迟,根据该延迟,对录音文件进行校时。

Description

一种录音文件自动校时方法
技术领域
本发明涉及一种校时方法,尤其涉及一种录音文件的校时方法。
背景技术
由于录音文件是机车运行时现场录制的音频信号,其中存在鸣笛、乘务员回话、机车机械振动等非线性复杂噪声信号,大大增加了语音识别的难度。采用传统的梅尔倒谱频率(MFCC)提取信号频率特征和隐式马尔科夫(HMM)算法进行识别难以准确识别LKJ语音报警信息。录音笔由于其内在晶振的问题,录音文件的时间与LKJ的基准时间轴之间往往存在偏差,无法进行音视频联动分析。
发明内容
本发明要解决的技术问题在于提供一种对机车上的录音笔的文件进行自动校时的方法,以解决现有技术存在的问题。
为解决上述技术问题,本发明采用以下技术方案:
一种录音文件自动校时方法,包括以下步骤:
对LKJ报警数据,通过标准音进行朗读,将朗读的标准音进行训练生成报警模型数据库;
对获取的机车中的录音笔的录音文件,分别进行单通道的音频噪声去除和双通道的音频噪声去除;
对去除噪声的录音文件,提取其中的所有语音片段和语音片段对应的时间;
将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来,作为有效语音片段;
将有效语音片段与模型数据库中的数据进行匹配,获取有效语音片段中的报警信息,同时获取报警信息的报警类别;
将获取的报警信息,与LKJ的该报警信息所属的时间进行对比,获取录音文件的延迟,根据该延迟,对录音文件进行校时。
所述对去除噪声的录音文件,提取其中的所有语音片段时,通过MFCC的方式提取其中的信号频率特征。
所述训练模型建立过程为:对标准音朗读的报警语音信号,使用MFCC方法提取信号的频率特征,根据提取出的频率特征,通过马尔科夫算法建立训练模型。
所述对录音文件进行校时的方法为:
设置以LKJ标准时间为X轴坐标和Y轴坐标的平面坐标系,在获取的报警信息中选择至少两个报警信息,且在每个报警信息中获取至少一个时间点,并获取该时间点在录音笔中的时间和在LKJ标准时间中的时间,在上述平面坐标系中计算多个时间点的时间斜率,根据该斜率对该录音笔记录的录音文件进行简单计算校时。
所述设定间隔阈值范围为LKJ对相同的报警信息播报两遍时中间间隔的最短时间和最长时间之间的范围。
所述设定时长阈值为LKJ播报的报警信息中最长报警信息的时长和最短报警信息的时长之间的范围。
本发明的有益效果:采用时域与频域相结合的方法可以准确的识别录音笔中记录的LKJ语音的报警类别,获取报警时间,进而与LKJ视频信息中的报警信息进行比对,对录音文件进行时间调整,达到音视频联动分析的目的。
附图说明
图1为本发明的训练模型建立流程图。
图2为本发明的语音识别流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明提供一种对LKJ上记录机车运行中的所有语音信息的录音文件进行自动校时的方法。该方法通过对录音文件记录的LKJ的报警信息进行识别与时间对照,对录音文件进行校时,以实现音视频的联动分析。
由于录音文件会记录汽车鸣笛、司机对话、汽车机械振动等信息,而LKJ中通常不记录这些信息,且这些信息噪声较大,信息识别具有复杂性,无法根据这些信息进行时间提取,然后根据LKJ的标准时间轴进行录音文件的校时。
而LKJ会对各种报警信息进行语音播报,每次录音文件均会对这些报警信息进行记录,同时,录音文件中记录的报警信息的播报具有独特性,根据这些语音对录音进行校时,准确性高,复杂度低。
本发明的方法首先需要对LKJ播报的报警信息进行数据库训练。即在无噪音条件下,对LKJ所有涉及的报警信息通过机器标准音进行多次朗读,通过梅尔倒谱频率(MFCC)提取这些标准音中的特征,然后通过隐式马尔科夫模型(HMM)将朗读的标准音训练成报警模型数据库。
由于录音文件具有单信道的和双信道的不同录音文件,因此,针对不同的录音文件使用不同的去燥方法进行噪音去除与语音增强。其中,单信道的语音文件通过最优改进对数谱幅度估计(OMLSA)的现有算法进行去燥与语音增强,双信道文件采用基于人耳掩蔽效应的谱减算法进行去燥与语音增强。
对去除噪声且进行语音增强的录音文件,提取其中的所有语音片段和该语音片段对应的前后两个时间。提取其中的所有语音片段时,通过MFCC的方式提取其中的信号频率特征,根据信号的频率特征,获取被认为是语音录音的片段。
由于LKJ报警信息在播报时,报警信息的播报具有独特的规律,例如每个报警信息播报两遍,中间间隔很短的时间(例如1秒),而且报警信息的长度通常较短,而录音笔记录的声音除了报警信息,还有司机说话声音或者其他的声音,这些声音无规律性,或者无法进行准确的时间确定,因此对录音文件中的LKJ报警信息进行识别比对其它信息进行识别更加容易,根据这些报警信息进行校时,校时更快、更准。
具体操作方法为:首先计算所有报警信息播报两遍时的间隔时间,根据间隔时间人为设定阈值的最大和最小值,形成阈值范围,该阈值范围为设定间隔阈值的范围;而同样的,对每个报警信息的语音朗读时间进行计时,记录最长的播报时间和最短的播报时间,根据这些时间设定时长阈值的范围。由于外界干扰因素的存在,上述范围可根据需要调整。
针对提取出来的语音片段,将相邻的语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来,作为有效语音片段。
对有效语音片段提取特征,根据提取的特征与训练模型中的每个音频文件的特征,根据现有的语音特征匹配方法进行匹配,根据匹配结果获取有效语音片段是否为报警信息的结果,不是报警信息,则舍弃该有效语音片段,如果是报警信息,则根据训练模型获取该有效语音片段的报警类别。
将获取的报警信息,与LKJ的该报警信息所属的时间进行对比,获取录音文件的延迟,根据该延迟,对录音文件进行校时。
即使同一个厂家生产,也会由于晶振的问题导致每个录音笔的延时不同,因此,在进行录音文件校时时,针对不同录音笔记录的文件,应该分别进行校时。
在对某一个录音笔记录的录音文件进行校时时,首先从在录音文件中提取的报警信息中选择若干个报警信息,获取每个报警信息中的某些点在录音笔中的时间和在LKJ标准时间中的时间,在X轴和Y轴均为标准时间的坐标系中,计算两个时间分别对应于二维坐标系中的X轴和Y轴时的时间斜率,根据该斜率对该录音笔记录的录音文件进行简单计算校时。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明整体构思前提下,还可以作出若干改变和改进,这些也应该视为本发明的保护范围。

Claims (6)

1.一种录音文件自动校时方法,其特征在于,包括以下步骤:
对LKJ报警数据,通过标准音进行朗读,将朗读的标准音进行训练生成报警模型数据库;
对获取的机车中的录音笔的录音文件,分别进行单通道的音频噪声去除和双通道的音频噪声去除;
对去除噪声的录音文件,提取其中的所有语音片段和语音片段对应的时间;
将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来,作为有效语音片段;
将有效语音片段与模型数据库中的数据进行匹配,获取有效语音片段中的报警信息,同时获取报警信息的报警类别;
将获取的报警信息,与LKJ的该报警信息所属的时间进行对比,获取录音文件的延迟,根据该延迟,对录音文件进行校时。
2.根据权利要求1所述的一种录音文件自动校时方法,其特征在于:所述对去除噪声的录音文件,提取其中的所有语音片段时,通过MFCC的方式提取其中的信号频率特征。
3.根据权利要求1所述的一种录音文件自动校时方法,其特征在于:所述训练模型建立过程为:对标准音朗读的报警语音信号,使用MFCC方法提取信号的频率特征,根据提取出的频率特征,通过马尔科夫算法建立训练模型。
4.根据权利要求1所述的一种录音文件自动校时方法,其特征在于:所述对录音文件进行校时的方法为:
设置以LKJ标准时间为X轴坐标和Y轴坐标的平面坐标系,在获取的报警信息中选择至少两个报警信息,且在每个报警信息中获取至少一个时间点,并获取该时间点在录音笔中的时间和在LKJ标准时间中的时间,在上述平面坐标系中计算多个时间点的时间斜率,根据该斜率对该录音笔记录的录音文件进行简单计算校时。
5.根据权利要求1所述的一种录音文件自动校时方法,其特征在于:所述设定间隔阈值范围为LKJ对相同的报警信息播报两遍时中间间隔的最短时间和最长时间之间的范围。
6.根据权利要求1所述的一种录音文件自动校时方法,其特征在于:所述设定时长阈值为LKJ播报的报警信息中最长报警信息的时长和最短报警信息的时长之间的范围。
CN201611218473.4A 2016-12-26 2016-12-26 一种录音文件自动校时方法 Pending CN106601241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611218473.4A CN106601241A (zh) 2016-12-26 2016-12-26 一种录音文件自动校时方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611218473.4A CN106601241A (zh) 2016-12-26 2016-12-26 一种录音文件自动校时方法

Publications (1)

Publication Number Publication Date
CN106601241A true CN106601241A (zh) 2017-04-26

Family

ID=58604019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611218473.4A Pending CN106601241A (zh) 2016-12-26 2016-12-26 一种录音文件自动校时方法

Country Status (1)

Country Link
CN (1) CN106601241A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN113763988A (zh) * 2020-06-01 2021-12-07 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780819A (zh) * 2012-07-27 2012-11-14 广东欧珀移动通信有限公司 一种移动终端的语音识别联系人的方法
CN104766605A (zh) * 2015-04-23 2015-07-08 郑州畅想高科股份有限公司 一种机车录音装置和lkj监控装置间的时间同步系统和方法
CN105249927A (zh) * 2015-10-30 2016-01-20 兔顽智能科技(上海)有限公司 一种鼾声识别方法及止鼾装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780819A (zh) * 2012-07-27 2012-11-14 广东欧珀移动通信有限公司 一种移动终端的语音识别联系人的方法
CN104766605A (zh) * 2015-04-23 2015-07-08 郑州畅想高科股份有限公司 一种机车录音装置和lkj监控装置间的时间同步系统和方法
CN105249927A (zh) * 2015-10-30 2016-01-20 兔顽智能科技(上海)有限公司 一种鼾声识别方法及止鼾装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯亚滨: "列车运行监控记录装置新型综合测试台的检定", 《铁道技术监督》 *
郑继东: "LKJ时间校准器的设计与实现", 《铁道通信信号》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111797632B (zh) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN113763988A (zh) * 2020-06-01 2021-12-07 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统
CN113763988B (zh) * 2020-06-01 2024-05-28 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN101976564A (zh) 昆虫声音识别方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102394062A (zh) 一种自动录音设备源识别的方法和系统
CN106601241A (zh) 一种录音文件自动校时方法
CN109903752B (zh) 对齐语音的方法和装置
CN106649745A (zh) 一种机车运用综合分析方法
US20170125038A1 (en) Transfer function to generate lombard speech from neutral speech
EP3504708B1 (en) A device and method for classifying an acoustic environment
US20240185826A1 (en) Systems and methods for selectively providing audio alerts
Kiktova et al. Comparison of different feature types for acoustic event detection system
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
CN110019922B (zh) 一种音频高潮识别方法和装置
CN109935233A (zh) 一种基于振幅和相位信息的录音攻击检测方法
CN104021791B (zh) 数字音频波形突变的检测方法
CN105336344A (zh) 杂音检测方法和装置
CN110718229A (zh) 录音回放攻击的检测方法及对应检测模型的训练方法
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
CN109410946A (zh) 一种识别语音信号的方法、装置、设备及存储介质
CN109410968B (zh) 一种高效的歌曲中人声起始位置检测方法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
CN112750458B (zh) 一种触屏声音检测方法和装置
CN110931020B (zh) 一种语音检测方法及装置
MX2023006556A (es) Deteccion del deterioro cognitivo.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication