CN112331233A - 听觉信号识别方法、装置、设备及存储介质 - Google Patents
听觉信号识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112331233A CN112331233A CN202011169541.9A CN202011169541A CN112331233A CN 112331233 A CN112331233 A CN 112331233A CN 202011169541 A CN202011169541 A CN 202011169541A CN 112331233 A CN112331233 A CN 112331233A
- Authority
- CN
- China
- Prior art keywords
- audio
- signal
- whistle
- auditory
- fluctuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000005236 sound signal Effects 0.000 claims abstract description 238
- 238000012549 training Methods 0.000 claims abstract description 154
- 238000007664 blowing Methods 0.000 claims abstract description 147
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003137 locomotive effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请提供一种听觉信号识别方法、装置、设备及存储介质,涉及信号处理技术领域。该方法包括获取音频采集设备采集的目标位置的培训音频信号;采用识别算法,检测培训音频信号中是否存在开始吹哨的音频特征;若存在开始吹哨的音频特征,则记录开始吹哨的时间;采用识别算法,检测培训音频信号中开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;若存在结束吹哨的音频特征,则获取培训音频信号的哨声特征;根据哨声特征,采用预设的听觉信号种类配置参数,确定培训音频信号对应的听觉信号类型。本申请可减小对调车作业人员进行听觉信号培训过程中的出错概率,提高听觉信号的培训效率。
Description
技术领域
本申请涉及信号处理技术领域,具体而言,涉及一种听觉信号识别方法、装置、设备及存储介质。
背景技术
在铁路运输生产过程中,对机车进行的一些目的性移动可统称为调车作业,通过调车作业,可使机车在站线或其他线路上移动的作业。长期以来,调车作业,由于机车监控装置无法接收地面调车信号进行有效监控,以及站场作业环境复杂等因素,成为机务安全管理的“软肋”。在调车作业的过程中,主要是由作业人员发出对应对应的听觉信号,机车司机基于该听觉信号,控制机车执行相应操作,其作业人员的安全全凭“人控”,因此,对作业人员的要求很高,则调车作业人员的技能培训尤为重要。
目前,铁路行业对作业人员的培训大多还停留在传统的“师带徒”方式,由师傅进行人工教学,徒弟来模仿学习师傅的操作,这个过程中徒弟的模仿是否正确,只能通过师傅来进行主观判断。
然而,调车作业中,不同听觉信号具有不同的哨声特征,其种类繁多且记忆困难,使用传统的“师带徒”模式进行培训容易出错,且效率低下。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种听觉信号识别方法、装置、设备及存储介质,以减小对调车作业人员进行听觉信号培训过程中的出错概率,提高听觉信号的培训效率。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种听觉信号识别方法,应用于连接音频采集设备的计算机设备,所述计算机设备预先安装有听觉信号识别软件,所述听觉信号识别软件集成有:识别算法;所述方法包括:
获取所述音频采集设备采集的目标位置的培训音频信号,其中,所述目标位置为:所述音频采集设备所在物理环境中的预设位置;
采用所述识别算法,检测所述培训音频信号中是否存在开始吹哨的音频特征;
若存在所述开始吹哨的音频特征,则记录所述开始吹哨的时间;
采用所述识别算法,检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;
若存在所述结束吹哨的音频特征,则获取所述培训音频信号的哨声特征;
根据所述哨声特征,采用预设的听觉信号种类配置参数,确定所述培训音频信号对应的听觉信号类型;所述听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
可选的,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征之前,所述方法还包括:
检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在波动音频;
若不存在所述波动音频,则更新吹哨持续时间。
可选的,所述听觉信号识别软件还集成有:容错算法;所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:所述结束吹哨的音频特征之前,所述方法还包括:
若存在所述波动音频,则采用所述容错算法,检测所述波动音频的波动是否属于预设吹哨波动;
相应的,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:所述结束吹哨的音频特征,包括:
若所述波动音频的波动不属于所述预设吹哨波动,则检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述结束吹哨的音频特征。
可选的,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述结束吹哨的音频特征之前,所述方法还包括:
若所述波动音频的波动属于所述预设吹哨波动,则更新吹哨持续时间。
可选的,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在波动音频,包括:
检测所述培训音频信号中所述开始吹哨的时间之后的信号中,连续预设时间段内的音频波动是否超过预设波动阈值;
若所述连续预设时间段内的音频波动超过所述预设波动阈值,则确定存在所述波动音频,所述波动音频为所述培训音频信号中连续所述预设时间段的音频波动超过所述预设波动阈值的部分音频;
若所述连续预设时间段内的音频波动未超过所述预设波动阈值,则确定不存在所述波动音频。
可选的,所述方法还包括:
若不存在所述结束吹哨的音频特征,则继续检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述波动音频,直至基于所述波动音频的检测结果检测到所述结束吹哨的音频特征。
可选的,所述方法还包括:
获取所述音频采集设备采集的所述目标位置的调试音频信号;
根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果;
根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功。
可选的,所述根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果,包括:
若所述音频采集设备的数量为1,则采用所述听觉识别软件识别所述调试音频信号对应的听觉信号的类型,得到所述调试音频信号的类型识别结果,所述处理结果为所述类型识别结果;
所述根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功,包括:
若所述类型识别结果指示类型识别失败,则输出所述类型识别结果;
根据输入的参数调整操作,对所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功。
可选的,所述根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果,包括:
若所述音频采集设备的数量为多个,则采用所述听觉识别软件分别对多个所述音频采集设备采集的调试音频信号进行听觉信号的类型识别,得到类型识别结果;
若所述类型识别结果指示:多个所述音频采集设备采集的调试音频信号均类型识别失败,则对多个所述音频采集设备采集的调试音频信号进行处理,得到多个所述音频采集设备采集的音频数据差异;所述处理结果包括:所述类型识别结果和所述音频数据差异;
所述根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功,包括:
根据所述音频数据差异,对所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对至少一个音频采集设备所采集的调试音频信号的听觉信号的类型识别成功。
第二方面,本申请实施例还提供一种听觉信号识别装置,应用于连接音频采集设备的计算机设备,所述计算机设备安装有预设听觉信号识别软件,所述听觉信号识别软件集成有:识别算法;所述听觉信号识别装置包括:
第一获取模块,用于获取所述音频采集设备采集的目标位置的培训音频信号,其中,所述目标位置为:所述音频采集设备所在物理环境中的预设位置;
第一检测模块,用于采用所述识别算法,检测所述培训音频信号中是否存在开始吹哨的音频特征;
记录模块,用于若存在所述开始吹哨的音频特征,则记录所述开始吹哨的时间;
所述第一检测模块,还用于采用所述识别算法,检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;
第二获取模块,用于若存在所述结束吹哨的音频特征,则获取所述培训音频信号的哨声特征;
确定模块,用于根据所述哨声特征,采用预设的听觉信号种类配置参数,确定所述培训音频信号对应的听觉信号类型;所述听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
第三方面,本申请实施例还提供一种计算机设备,包括:存储器和处理器,所述处理器连接有音频采集设备,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所提供的任一听觉信号识别方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面所提供的任一听觉信号识别方法。
本申请的有益效果是:
本申请所提供的听觉信号识别方法、装置、设备及存储介质中,可通过计算机设备所安装的听觉信号识别软件,对音频采集设备采集的培训音频信号先后进行开始吹哨的音频特征和结束吹哨的音频特征检测,并在存在结束吹哨的音频特征的情况下,计算哨声特征,继而根据哨声特征以及预设的听觉信号种类配置参数进行听觉信号类型的识别,实现了对于培训音频信号对应的听觉信号类型的快速,准确的类型识别,无需人为记录各种听觉信号的哨声特征进行人为的类型识别,摒弃了人为进行听觉信号的类型识别,避免了人为判断的不准确性,提高了识别率,避免误识别,从而有效减小对调车作业人员进行听觉信号培训过程中的出错概率,从而有效提高听觉信号的培训测试效果以及培训效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例应用的培训测试场景的网络示意图;
图2为本申请实施例提供的一种听觉信号识别方法的流程示意图;
图3为本申请实施例提供的另一种听觉信号识别方法的流程示意图;
图4为本申请实施例提供的又一种听觉信号识别方法的流程示意图;
图5为本申请实施例提供的听觉信号识别软件中算法配置参数调整方法的流程示意图;
图6为本申请实施例提供的听觉信号识别软件的一种算法配置参数调整方法的流程示意图;
图7为本申请实施例提供的听觉信号识别软件的另一种算法配置参数调整方法的流程示意图;
图8为本申请实施例提供的一种听觉信号识别装置的示意图;
图9为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
本申请下述各实施例所提供的听觉信号识别方法、装置、设备及存储介质,可应用于听觉信号的培训测试场景中。图1为本申请实施例应用的培训测试场景的网络示意图。如图1所示,该培训测试场景中可包括:计算机设备10,以及至少一个音频采集设备11。其中,计算机设备10可与每个音频采集设备11通信连接,该通信连接可以为有线通信连接,也可以为无线通信连接。在可能的场景示例中,至少一个语音采集设备11可与计算机设备10分别布置在不同的物理环境中,也可布置在同一物理环境中。
至少一个语音采集设备11所在的物理环境可以为听觉信号测试环境,其还可称为“收音室”、“录音室”或者其他类型的描述。需要指出的是图1所示出的场景中,以多个语音采集设备11为例,在其他的可能示例中,也可仅设置一个语音采集设备11。
若设置多个语音采集设备11,则该多个语音采集设备11均匀部署在该听觉信号测试环境中,与预设目标位置12的距离为预设距离的位置,即,在该听觉信号测试环境中,每个语音采集设备11与预设目标位置12的距离均相等。其中,该预设目标位置12为该听觉信号测试环境中的测试位置,即待测试人员所在的位置,该预设目标位置12例如可以为具有预设半径的区域,只要待测试人员处于该区域内,便可由至少一个语音采集设备11对其待测试人员发出的音频进行采集,得到音频信号,又称语音数据流或者音频数据。
每个音频采集设备11可以为麦克风,或者收音器,或者其它可实现音频采集的设备。计算机设备10可以为安装有听觉信号识别软件的计算机设备,其可能的产品形态可以为台式计算机、笔记本电脑或者平板电脑等任一类型的具有数据处理功能,也安装软件的终端设备。
本申请下述任一实施例提供的听觉信号识别方法,可由上述培训测试场景中的计算机设备10通过运行听觉信号识别软件实现。在需对培训人员进行听觉信号测试的情况下,可由计算机设备10先启动该听觉信号识别软件,读取该听觉信号识别软件的配置文件,并打开计算机设备10与每个音频采集设备11之间的数据传输通路。
计算机设备上所安装的听觉信号识别软件中,可预先集成有识别算法。该识别算法可用以进行音频信号的特征识别以及特征判断等操作,如开始吹哨的音频特征检测以及结束吹哨的音频特征检测。该配置文件可包含有识别算法的配置参数,以及听觉信号种类配置参数。其中,该识别算法的配置参数可用于执行识别算法,听觉信号种类配置参数用于在该听觉信号识别方法中进行听觉信号的类型识别,该听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
如下结合该培训测试场景的示例,通过多个示例对本申请所提供的听觉信号识别方法的可能实现方式进行解释说明。
图2为本申请实施例提供的一种听觉信号识别方法的流程示意图。图2所示,该方法可包括:
S201、获取该音频采集设备采集的目标位置的培训音频信号,其中,该目标位置为:该音频采集设备所在物理环境中的预设位置。
该目标位置例如可以为图1所示的培训测试环境中的预设目标位置12。该培训音频信号可以为该音频采集设备对待测试的培训人员在该目标位置处发出的声音信号进行实时采集,得到的音频信号。
该计算机设备可以预设的周期从音频采集设备中读取该培训音频信号,也可以实时从该音频采集设备中读取该培训音频信号。
S202、采用识别算法,检测该培训音频信号中是否存在开始吹哨的音频特征。
计算机设备在获取该培训音频信号之后,可先启动该听觉信号识别软件中集成的识别算法,并采用该识别算法,执行该S202。可能的实现方式中,可采用该识别算法,识别该培训音频信号中的音频特征,并检测从该培训音频信号识别的音频特征中是否包含该开始吹哨的音频特征。示例的,可将从该培训音频信号识别的音频特征分别与该开始吹哨的音频特征进行比对,若发现比对一致的音频特征,则可确定从该培训音频信号识别的音频特征中包含有该开始吹哨的音频特征;若未发现比对一致的音频特征,则可确定该培训音频信号识别的音频特征中不包含有该开始吹哨的音频特征。
在该示例中,音频特征的比对一致可以为:音频特征与该开始吹哨的音频特征相同,或者,音频特征与该开始吹哨的音频特征的特征偏差在预设偏差范围内。
若包含有该开始吹哨的音频特征,则可确定该培训音频信号中存在该开始吹哨的音频特征;反之,不包含有该开始吹哨的音频特征,则可确定该培训音频信号中不存在该开始吹哨的音频特征。
若通过执行该S202检测得到该培训音频信号中存在该开始吹哨的音频特征,则继续执行下述S203的操作。
若通过执行该S202检测得到该培训音频信号中不存在该开始吹哨的音频特征,则重新执行S201以重新读取该音频采集设备所采集的培训音频信号。
如上所示的该开始吹哨的音频特征可以为预先配置的可用于表征开始吹哨的音频特征,或者,对开始吹哨的音频进行检测得到的音频特征。
需要指出的是,本申请所应用的培训测试场景中可能设置有至少一个音频采集设备。当存在多个音频采集设备的情况下,上述S202实际是分别对每个音频采集设备所采集的培训音频信号,采用该识别算法均进行开始吹哨的音频特征检测,当存在至少一个音频采集设备采集的培训语音信号存在该开始吹哨的音频特征,则确定存在开始吹哨的音频特征,继续执行下述S203的操作;当多个音频采集设备采集的培训音频信号均不存在该开始吹哨的音频特征,则确定不存在开始吹哨的音频特征,重新执行S201。
S203、若存在该开始吹哨的音频特征,则记录该开始吹哨的时间。
若检测得到该培训音频信号中存在该开始吹哨的音频特征,则可获取该培训音频信号中该开始吹哨的音频特征所在的时间,并将其记录为该开始吹哨的时间。也就是说,该开始吹哨的时间为开始吹哨的音频特征在该培训音频信号中对应的时间。
S204、采用该识别算法,检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征。
在可能的实现方式中,可采用该识别算法,检测该培训音频信号中该开始吹哨的时间之后的信号中的音频特征是否包含有该结束吹哨的音频特征。示例的,可将该培训音频信号中该开始吹哨的时间之后的信号中的音频特征分别与该结束吹哨的音频特征进行比对,若发现比对一致的音频特征,则可确定该培训音频信号中开始吹哨的时间之后的信号中的音频特征中,包含有该结束吹哨的音频特征;若未发现比对一致的音频特征,则可确定该培训音频信号中开始吹哨的时间之后的信号中的音频特征中,不包含有该结束吹哨的音频特征。
在该示例中,音频特征的比对一致可以为:音频特征与该结束吹哨的音频特征相同,或者,音频特征与该结束吹哨的音频特征的特征偏差在预设偏差范围内。
若包含有该结束吹哨的音频特征,则可确定该培训音频信号中开始吹哨的时间之后的信号中存在该结束吹哨的音频特征;反之,不包含有该开始吹哨的音频特征,则可确定该培训音频信号中开始吹哨的时间之后的信号中,不存在该结束吹哨的音频特征。
若通过执行该S204检测得到该培训音频信号中开始吹哨的时间之后的信号中,存在该结束吹哨的音频特征,则继续执行下述S205的操作。
若通过执行该S204检测得到该培训音频信号中开始吹哨的时间之后的信号中,不存在该结束吹哨的音频特征,则重新执行S204以对培训音频信号中开始吹哨的时间之后的信号,继续进行结束吹哨的音频特征的检测。
如上所示的该结束吹哨的音频特征可以为预先配置的可用于表征结束吹哨的音频特征,或者,对结束吹哨的音频进行检测得到的音频特征。
需要指出的是,本申请所应用的培训测试场景中可能设置有至少一个音频采集设备。当存在多个音频采集设备的情况下,上述S204实际是分别对每个音频采集设备所采集的培训音频信号,采用该识别算法均进行结束吹哨的音频特征检测,当存在至少一个音频采集设备采集的培训语音信号存在该结束吹哨的音频特征,则确定存在结束吹哨的音频特征,继续执行下述S205的操作;当多个音频采集设备采集的培训音频信号均不存在该结束吹哨的音频特征,则确定不存在开始吹哨的音频特征,重新执行S204。
S205、若存在结束吹哨的音频特征,则获取该培训音频信号的哨声特征。
在检测到该结束吹哨的音频特征的情况下,可对该培训音频信号中的哨声特征进行计算。该哨声特征可包括:该培训音频信号中吹哨的次数、每次吹哨的持续时间、相邻两次吹哨的间隔时间等至少一种特征信息。每次吹哨表征:该培训音频信号中一个开始吹哨的时间和对应的一个结束吹哨的时间之间的信号,每次吹哨的持续时间可以为一个开始吹哨的时间和对应的结束吹哨的时间之间的时间差。
S206、根据该哨声特征,采用预设的听觉信号种类配置参数,确定该培训音频信号对应的听觉信号类型。
其中,该听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
在可能的实现方式中,可分别将该哨声特征,和该听觉信号种类配置参数中的至少一种听觉信号的哨声特征进行比对。当发现该哨声特征与该听觉信号种类配置参数中一种听觉信号的哨声特征比对一致,则确定比对一致的哨声特征的听觉信号类型为该培训音频信号对应的听觉信号类型。
在该示例中,哨声特征的比对一致可以为:哨声特征与听觉信号的哨声特征相同,或者,哨声特征与听觉信号的哨声特征的特征偏差在预设偏差范围内。
可选的,识别得到该培训音频信号对应的听觉信号类型的情况下,在一种示例中,可直接输出识别到的听觉信号类型。
在另一种示例中,可将识别到的听觉信号类型,与预设的待测听觉信号类型进行比对。若该识别到的听觉信号类型与该待测听觉信号类型相同,则可确定该培训音频信号对应的用户测试成功,并输出测试成功信息;若该识别到的听觉信号类型与该待测听觉信号类型不相同,则可确定该培训音频特征对应的用户测试失败,并输出测试失败信息。该测试失败信息中可包含有:测试失败指示信息、以及测试失败的原因信息,该测试失败的原因信息例如可以有:识别到的听觉信号类型以及待测听觉信号类型不一致。
本申请实施例提供的听觉信号识别方法,可通过计算机设备所安装的听觉信号识别软件,对音频采集设备采集的培训音频信号先后进行开始吹哨的音频特征和结束吹哨的音频特征检测,并在存在结束吹哨的音频特征的情况下,计算哨声特征,继而根据哨声特征以及预设的听觉信号种类配置参数进行听觉信号类型的识别,实现了对于培训音频信号对应的听觉信号类型的快速,准确的类型识别,无需人为记录各种听觉信号的哨声特征进行人为的类型识别,摒弃了人为进行听觉信号的类型识别,避免了人为判断的不准确性,提高了识别率,避免误识别,从而有效减小对调车作业人员进行听觉信号培训过程中的出错概率,从而有效提高听觉信号的培训测试效果和培训效率。
在上述听觉信号识别方法的基础上,本申请实施例还可提供一种听觉信号识别方法中结束吹哨的音频特征的可能实现方式。图3为本申请实施例提供的另一种听觉信号识别方法的流程示意图。如图3所示,如上所示的听觉信号识别方法中S204中检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征之前,该方法还可包括:
S301、检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在波动音频。
在可能的实现方式中,可将该培训音频信号转换为音频波形,将该音频波形的振幅波动与预设振幅波动进行比较,若该音频波形的振幅波动超过该预设振幅波动,则可确定该培训音频信号中该开始吹哨的时间之后的信号中,存在波动音频。反之,若该音频波形的振幅波动均为超过该预设振幅波动,则可确定该培训音频信号中该开始吹哨的时间之后的信号中,不存在波动音频。
在另一种实现方式中,可根据该培训音频信号的音频能量,与预设的音频能量波动进行比较,若该音频能量超过该预设音频能量波动,则可确定该培训音频信号中该开始吹哨的时间之后的信号中,存在波动音频。反之,若该音频能量均为超过该预设振幅波动,则可确定该培训音频信号中该开始吹哨的时间之后的信号中,不存在波动音频。
当然,也可采用其他的方式,对该培训音频信号进行波动音频的检测,上述仅为可能的实现方式示例,本申请实施例并不对此进行限制。
可选的,可根据该波动音频的检测结果,在该波动音频的检测结果对应的检测时机,检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:该结束吹哨的音频特征。即,不同的检测结果可对应不同的检测时机。
例如,若通过执行S301确定该波动音频的检测结果为存在波动音频,则可对波动音频进行进一步检测之后,再进行结束吹哨的音频特征检测;而通过执行S301确定该波动音频的检测结果为不存在波动音频,则可进行结束吹哨的音频特征检测。
如下分别通过实现示例,对两种不同检测结果的情况下,进行结束吹哨的音频特征的检测进行解释说明。在一种实现方式中,如上所示的S204中检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:该结束吹哨的音频特征之前,若不存在波动音频,则可执行下述S302。
S302、更新吹哨持续时间。
在更新该吹哨持续时间之后,便可执行S204中检测培训音频信号中开始吹哨的时间之后的信号中是否存在结束吹哨的音频特征的操作。
也就是说,波动音频的检测结果为不存在波动音频,即不存在大范围的波动的情况下,可在对吹哨持续时间进行更新的情况下,便对培训音频信号中开始吹哨的时间之后的信号进行结束吹哨的音频特征检测。
在一种实现方式中,如上所示的S204中检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:该结束吹哨的音频特征之前,该方法还可包括:
S303、若存在该波动音频,则采用容错算法,检测该波动音频的波动是否属于预设吹哨波动。
本申请所涉及的听觉信号识别软件中除了集成有识别算法,还集成有该容错算法。该容错算法可用以进行音频信号中的吹哨波动进行检测以及判断等操作,如检测该波动音频的波动是否属于预设吹哨波动。那么该听觉信号识别软件的配置文件中还可包含有该容错算法的配置参数。该容错算法的配置参数例如可用于执行容错算法,其可包含该预设吹哨波动的参数信息。
预设吹哨波动包括:预设的至少一种听觉信号的吹哨波动。在可能的实现方式中,可采用该容错算法,检测该波动音频的波动,并对检测到的波动音频的波动与预设的至少一种听觉信号的吹哨波动进行比对,若检测到的波动音频的波动与任一种听觉信号的吹哨波动一致,如波动相同,或者波动偏差在预设波动范围内,则可确定该波动音频的波动为预设吹哨波动,即属于正常的吹哨波动。若该检测波动音频的波动与该至少一个听觉新信号的吹哨波动均不一致,则可确定该波动音频的波动不属于预设吹哨波动,即不属于正常吹哨波动,应属于异常波动。
相应的,S204中检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在:该结束吹哨的音频特征可包括:
若波动音频的波动不属于预设吹哨波动,则执行S204检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在所述结束吹哨的音频特征。
在另一种可能实现方式中,S204中检测培训音频信号中开始吹哨的时间之后的信号中是否存在结束吹哨的音频特征之前,若波动音频的波动属于预设吹哨波动,则执行S302,更新吹哨持续时间。
在该示例的情况下,如有检测波动音频的波动属于预设吹哨波动,则更新吹哨持续时间,在更新吹哨持续时间之后,执行S204中的结束吹哨的音频特征的检测。
可选的,在上述任一所示的方法的基础上,该方法还可包括:
若不存在该结束吹哨的音频特征,则继续执行S301检测该培训音频信号中开始吹哨的时间之后的信号中是否存在所述波动音频,直至基于波动音频的检测结果检测到结束吹哨的音频特征。
本申请实施例提供的听觉信号识别方法,可在检测结束吹哨的音频特征之前,通过对波动音频进行检测,根据波动音频的检测结果,通过不同的检测分支,在对应的条件下进行结束吹哨的音频特征的检测,可有效保证结束吹哨的音频特征的检测更准确,同时,在检测存在波动音频的情况下,通过容错算法检测其波动是否为预设吹哨波动,实现了音频波动的过滤,有效减小了吹哨过程中的气息波动对识别结果的影响,从而保证听觉信号类型的识别的准确度。
在上述听觉信号识别方法的基础上,还可提供一种波动音频的可能检测示例。图4为本申请实施例提供的又一种听觉信号识别方法的流程示意图。如图4所示,如上所示的S301中检测该培训音频信号中该开始吹哨的时间之后的信号中是否存在波动音频,可包括:
S401、检测该培训音频信号中该开始吹哨的时间之后的信号中,连续预设时间段内的音频波动是否超过预设波动阈值。
该预设时间段例如可以为1s或者2s等其他预设时间段。在该可能的实现方式中,可以预设时间段为单位,对连续预设预设时间段内的音频波动进行检测。预设波动阈值可以为预设振幅波动,也可以为预设音频能量波动。
若预设波动阈值为预设振幅波动,则可检测该连续预设时间段内的音频波形的振幅波动,与预设振幅波动进行比较,若该连续预设时间段内的音频波动的振幅波动超过该预设振幅波动,则可确定该连续预设时间段内的音频波动超过预设波动阈值。
若预设波动阈值为预设音频能量波动,则可检测该连续预设时间段内音频信号的音频能量波动,与预设音频能量波动进行比较,若该连续预设时间段内的音频信号的音频能量波动超过该预设音频能量波动,则可确定该连续预设时间段内的音频波动超过预设波动阈值。
上述仅为音频波动的检测的可能实现方式,本申请实施例不对此进行限制。
S402、若该连续预设时间段内的音频波动超过预设波动阈值,则确定存在波动音频。
波动音频为培训音频信号中连续预设时间段的音频波动超过预设波动阈值的部分音频。
S403、若连续预设时间段内的音频波动未超过预设波动阈值,则确定不存在波动音频。
本申请该实施例提供的听觉信号识别方法,可通过对连续预设时间端内的音频波动和预设的波动阈值进行比较,进行波动音频的检测,可提高波动音频的检测结果,有效保障基于波动音频的检测结果进行的后续检测结果更准确,更可靠,从而提高听觉信号的类型识别准确度。
为保证基于听觉信号识别软件进行听觉信号类型的准确识别,在执行上述任一所示的听觉信号识别方法之前,可通过参数配置方法对听觉信号识别软件中的算法配置参数进行调整。图5为本申请实施例提供的听觉信号识别软件中算法配置参数调整方法的流程示意图。如图5所示,该方法还可包括:
S501、获取该音频采集设备采集的目标位置的调试音频信号。
该调试音频信号可以为该音频采集设备对该目标位置处发出的声音信号进行采集得到的音频信号。示例的,该调试音频信号可以为音频采集设备采集的调试人员如听觉信号的培训老师在该目标位置发出的预设类型听觉信号进行采集得到的音频信号,也可以为音频采集设备采集的调试音响在该目标位置发出该预设类型听觉信号进行采集得到的音频信号。
S502、根据该音频采集设备的数量,采用该数量对应的处理方式,对该调试音频信号进行处理,得到该调试音频信号的处理结果。
示例的,可判断该音频采集设备的数量为1个还是多个,若为一个,则采用第一处理方式对该调试音频信号进行处理;若为多个,则采用第二处理方式对该调试音频信号进行处理。
S503、根据调试音频信号的处理结果,对听觉识别软件中识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对该调试音频信号对应的听觉信号的类型识别成功。
根据该调制音频信号的处理结果,采用手动或者自动的方式,对该识别算法和/或该容错算法的配置参数进行调整,在配置参数调整之后,基于配置参数调制之后的听觉信号识别软件重新对该调试音频信号进行识别,得到该调试音频信号对应的听觉信号类型,再基于识别到的该调试音频信号对应的听觉信号类型,判断该调试音频信号对应的听觉信号的类型是否识别成功。若未识别成功,则继续进行算法配置参数的调整,直至该调试音频信号对应的听觉信号的类型识别成功;若识别成功,则保存类型识别成功情况下的算法配置参数。
本申请实施例提供的听觉信号识别方法,可根据音频采集设备的数量,采样该数量对应的处理方式,对该调试音频信号进行处理,并根据调试音频信号的处理结果,对听觉识别软件中识别算法和/或容错算法的配置参数进行调整,使得对算法配置参数的调整更准确,保证算法配置参数参数的调整次数,以尽可能快的将算法配置参数调整至满足预设要求的参数,即类型识别成功,提高了算法配置参数的调整效率。
可选的,在上述图5所示的方法的基础上,本申请实施例还分别提供一个音频采集设备以及多个音频采集设备情况下,算法配置参数的调整示例。图6为本申请实施例提供的听觉信号识别软件的一种算法配置参数调整方法的流程示意图。如图6所示,如上所示方法中S502中根据该音频采集设备的数量,采用该数量对应的处理方式,对该调试音频信号进行处理,得到该调试音频信号的处理结果可包括:
S601、若音频采集设备的数量为1,则采用该听觉识别软件识别该调试音频信号对应的听觉信号的类型,得到该调试音频信号的类型识别结果。
该处理结果为类型识别结果。
若该音频采集设备的数量为1,则先打开计算机设备与该一个音频采集设备之间的数据传输通道,以获取语音采集设备采集的该调试音频信号。
该类型识别结果包括:识别到的听觉信号的类型、或者,识别到的听觉信号的类型和该调试音频信号对应的预设听觉信号类型,或者,识别到的听觉信号的类型和该调试音频信号对应的预设听觉信号类型的比较结果。
如上所示的S503中根据调试音频信号的处理结果,对听觉识别软件中识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对该调试音频信号对应的听觉信号的类型识别成功,可包括:
S602、若该类型识别结果指示类型识别失败,则输出该类型识别结果。
若测试环境中设置的音频采集设备的数量为一个,则可采用手动的方式进行算法配置参数的调整,因此,在该实现方式中,可先输出并展示该类型识别结果,以将该类型识别结果展示给调试人员。
S603、根据输入的参数调整操作,对该识别算法和/或该容错算法的配置参数进行调整,直至基于配置参数调整之后的该听觉识别软件对该调试音频信号对应的听觉信号的类型识别成功。
计算机设备的显示屏上可显示有该听觉信号识别软件的算法参数配置界面,并接收调试人员通过该算法参数配置界面输入该参数调整操作。在接收到该参数调整操作之后,对该识别算法和/或该容错算法的配置参数进行调整。
该实施例所提供的听觉信号识别方法中,可通过在具有一个音频采集设备的情况下,通过输出类型识别结果,并接收输入的参数调整操作,实现基于类型识别结果的人工手动的算法配置参数调整,以保证调整之后的参数尽可能准确的识别出调试音频信号对应的听觉信号类型,保证算法配置参数的调整效果。
本申请实施例还提供另一种具有多个音频采集设备的情况下的算法配置参数的调整示例。图7为本申请实施例提供的听觉信号识别软件的另一种算法配置参数调整方法的流程示意图。如图7所示,如上所示方法中S502中根据该音频采集设备的数量,采用该数量对应的处理方式,对该调试音频信号进行处理,得到该调试音频信号的处理结果可包括:
S701、若该音频采集设备的数量为多个,则采用该听觉识别软件分别对多个该音频采集设备采集的调试音频信号进行听觉信号的类型识别,得到类型识别结果。
若该音频采集设备的数量为多个,则先打开计算机设备与该多个音频采集设备之间的数据传输通道,以获取语音采集设备采集的该调试音频信号。
S702、若该类型识别结果指示:多个该音频采集设备采集的调试音频信号均类型识别失败,则对多个该音频采集设备采集的调试音频信号进行处理,得到多个该音频采集设备采集的音频数据差异。
该处理结果包括:该类型识别结果和该音频数据差异。
该类型识别结果指示存在至少一个音频采集设备采集的调试音频信号的类型识别成功,则可确定当前的算法配置参数与该调制音频信号对应的预设听觉信号类型相匹配,无需进行调整。
当该类型识别结果指示所有的音频采集设备采集的调试音频信号均类型识别失败,则确定可能是算法配置参数的原因,导致的识别成功,也可能是多个音频采集设备所布置位置的原因造成识别识别,因此,还需获取多个音频采集设备采集的调整音频信号的音频数据差异。
如上所示的S503中根据调试音频信号的处理结果,对听觉识别软件中识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对该调试音频信号对应的听觉信号的类型识别成功,可包括:
S703、根据音频数据差异,对该识别算法和/或该容错算法的配置参数进行调整,直至基于配置参数调整之后的该听觉识别软件对至少一个音频采集设备所采集的调试音频信号的听觉信号的类型识别成功。
若存在多个音频采集设备,可基于该多个音频采集设备的音频数据差异,对该识别算法和/或该容错算法的配置参数进行自动调整。
该实施例所提供的听觉信号识别方法中,可通过在具有多个音频采集设备的情况下,若多个音频采集设备采集的调试音频信号均类型识别失败,还需获取该多个音频采集设备采集的调试音频信号的音频数据差异,基于该音频数据差异,对算法配置参数进行自动调整,可在保证算法配置参数的调整效果的情况下,保证算法配置参数的调整效率。
本申请实施例提供的听觉信号识别方法,可通过上述算法配置参数的调整,实现对听觉信号识别软件中识别算法和/或容错算法的配置参数进行调整,同时还可支持扩充的可识别的哨声类型,即可识别的听觉信号类型,实现该听觉信号识别软件可识别的听觉信号类型的可配置化,丰富多样化。
对于听觉信号类型的扩充,例如可以采用待扩充的听觉信号类型对应的调试音频信号,实现上述算法配置参数的调整,即可实现听觉信号类型的扩充。
下述对用以执行的本申请所提供的听觉信号识别方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图8为本申请实施例提供的一种听觉信号识别装置的示意图,应用于连接音频采集设备的计算机设备,计算机设备安装有预设听觉信号识别软件,听觉信号识别软件集成有:识别算法;如图8所示,该听觉信号识别装置800可包括:
第一获取模块801,用于获取音频采集设备采集的目标位置的培训音频信号,其中,目标位置为:音频采集设备所在物理环境中的预设位置。
第一检测模块802,用于采用识别算法,检测培训音频信号中是否存在开始吹哨的音频特征。
记录模块803,用于若存在开始吹哨的音频特征,则记录开始吹哨的时间。
第一检测模块802,还用于采用识别算法,检测培训音频信号中开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;
第二获取模块804,用于若存在结束吹哨的音频特征,则获取培训音频信号的哨声特征。
确定模块805,用于根据哨声特征,采用预设的听觉信号种类配置参数,确定培训音频信号对应的听觉信号类型;听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
可选的,第一检测模块802在检测培训音频信号中开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征之前,还可用于:检测培训音频信号中开始吹哨的时间之后的信号中是否存在波动音频。
该听觉信号识别装置800还可包括:
更新模块,用以在不存在的波动音频的情况下,则更新吹哨持续时间。
可选的,听觉信号识别软件还集成有:容错算法。
该听觉信号识别装置800还可包括:
第二检测模块,用于在第一检测模块802在检测培训音频信号中开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征之前,若存在波动音频,则采用容错算法,检测波动音频的波动是否属于预设吹哨波动。
相应的,第一检测模块802具体用于在波动音频的波动不属于预设吹哨波动,则检测培训音频信号中开始吹哨的时间之后的信号中是否存在结束吹哨的音频特征。
可选的,更新模块,还用于在第一检测模块802在检测培训音频信号中开始吹哨的时间之后的信号中是否存在结束吹哨的音频特征之前,若波动音频的波动属于预设吹哨波动,则更新吹哨持续时间。
可选的,第一检测模块802,具体用于:检测培训音频信号中开始吹哨的时间之后的信号中,连续预设时间段内的音频波动是否超过预设波动阈值;若连续预设时间段内的音频波动超过预设波动阈值,则确定存在波动音频;若连续预设时间段内的音频波动未超过预设波动阈值,则确定不存在波动音频。其中,波动音频为培训音频信号中连续预设时间段的音频波动超过预设波动阈值的部分音频。
可选的,第一检测模块802,还用于若不存在结束吹哨的音频特征,则继续检测培训音频信号中开始吹哨的时间之后的信号中是否存在波动音频,直至基于波动音频的检测结果检测到结束吹哨的音频特征。
可选的,第一获取模块801,还用于获取音频采集设备采集的目标位置的调试音频信号。
该听觉信号识别装置800还可包括:
调试处理模块,用于根据音频采集设备的数量,采用数量对应的处理方式,对调试音频信号进行处理,得到调试音频信号的处理结果;根据调试音频信号的处理结果,对听觉识别软件中识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功。
可选的,调试处理模块,具体用于:若音频采集设备的数量为1,则采用听觉识别软件识别对调试音频信号对应的听觉信号的类型,得到调试音频信号的类型识别结果,处理结果为类型识别结果;若类型识别结果指示类型识别失败,则输出类型识别结果,并根据输入的参数调整操作,对识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对调试音频信号对应的听觉信号的类型识别成功。
可选的,调试处理模块,具体用于:若音频采集设备的数量为多个,则采用听觉识别软件分别对多个音频采集设备采集的调试音频信号进行听觉信号的类型识别,得到类型识别结果;若类型识别结果指示:多个音频采集设备采集的调试音频信号均类型识别失败,则对多个音频采集设备采集的调试音频信号进行处理,得到多个音频采集设备采集的音频数据差异;处理结果包括:类型识别结果和音频数据差异;并根据音频数据差异,对识别算法和/或容错算法的配置参数进行调整,直至基于配置参数调整之后的听觉识别软件对至少一个音频采集设备所采集的调试音频信号的听觉信号的类型识别成功。
上述装置用于执行前述实施例提供的听觉信号识别方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图9为本申请实施例提供的一种计算机设备的示意图,该计算机设备可以为具备数据处理功能,可安装程序的计算设备或服务器。
该计算机设备900包括:存储器901、处理器902。存储器901和处理器902通过总线连接。处理器902连接有音频采集设备。
存储器901用于存储程序,处理器902调用存储器901存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种听觉信号识别方法,其特征在于,应用于连接音频采集设备的计算机设备,所述计算机设备预先安装有听觉信号识别软件,所述听觉信号识别软件集成有:识别算法;所述方法包括:
获取所述音频采集设备采集的目标位置的培训音频信号,其中,所述目标位置为:所述音频采集设备所在物理环境中的预设位置;
采用所述识别算法,检测所述培训音频信号中是否存在开始吹哨的音频特征;
若存在所述开始吹哨的音频特征,则记录所述开始吹哨的时间;
采用所述识别算法,检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;
若存在所述结束吹哨的音频特征,则获取所述培训音频信号的哨声特征;
根据所述哨声特征,采用预设的听觉信号种类配置参数,确定所述培训音频信号对应的听觉信号类型;所述听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
2.根据权利要求1所述的方法,其特征在于,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征之前,所述方法还包括:
检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在波动音频;
若不存在所述波动音频,则更新吹哨持续时间。
3.根据权利要求2所述的方法,其特征在于,所述听觉信号识别软件还集成有:容错算法;所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:所述结束吹哨的音频特征之前,所述方法还包括:
若存在所述波动音频,则采用所述容错算法,检测所述波动音频的波动是否属于预设吹哨波动;
相应的,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:所述结束吹哨的音频特征,包括:
若所述波动音频的波动不属于所述预设吹哨波动,则检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述结束吹哨的音频特征。
4.根据权利要求3所述的方法,其特征在于,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述结束吹哨的音频特征之前,所述方法还包括:
若所述波动音频的波动属于所述预设吹哨波动,则更新吹哨持续时间。
5.根据权利要求2所述的方法,其特征在于,所述检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在波动音频,包括:
检测所述培训音频信号中所述开始吹哨的时间之后的信号中,连续预设时间段内的音频波动是否超过预设波动阈值;
若所述连续预设时间段内的音频波动超过所述预设波动阈值,则确定存在所述波动音频,所述波动音频为所述培训音频信号中连续所述预设时间段的音频波动超过所述预设波动阈值的部分音频;
若所述连续预设时间段内的音频波动未超过所述预设波动阈值,则确定不存在所述波动音频。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若不存在所述结束吹哨的音频特征,则继续检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在所述波动音频,直至基于所述波动音频的检测结果检测到所述结束吹哨的音频特征。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述音频采集设备采集的所述目标位置的调试音频信号;
根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果;
根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功。
8.根据权利要求7所述的方法,其特征在于,所述根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果,包括:
若所述音频采集设备的数量为1,则采用所述听觉识别软件识别所述调试音频信号对应的听觉信号的类型,得到所述调试音频信号的类型识别结果,所述处理结果为所述类型识别结果;
所述根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功,包括:
若所述类型识别结果指示类型识别失败,则输出所述类型识别结果;
根据输入的参数调整操作,对所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功。
9.根据权利要求7所述的方法,其特征在于,所述根据所述音频采集设备的数量,采用所述数量对应的处理方式,对所述调试音频信号进行处理,得到所述调试音频信号的处理结果,包括:
若所述音频采集设备的数量为多个,则采用所述听觉识别软件分别对多个所述音频采集设备采集的调试音频信号进行听觉信号的类型识别,得到类型识别结果;
若所述类型识别结果指示:多个所述音频采集设备采集的调试音频信号均类型识别失败,则对多个所述音频采集设备采集的调试音频信号进行处理,得到多个所述音频采集设备采集的音频数据差异;所述处理结果包括:所述类型识别结果和所述音频数据差异;
所述根据所述调试音频信号的处理结果,对所述听觉识别软件中所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对所述调试音频信号对应的听觉信号的类型识别成功,包括:
根据所述音频数据差异,对所述识别算法和/或所述容错算法的配置参数进行调整,直至基于配置参数调整之后的所述听觉识别软件对至少一个音频采集设备所采集的调试音频信号的听觉信号的类型识别成功。
10.一种听觉信号识别装置,其特征在于,应用于连接音频采集设备的计算机设备,所述计算机设备安装有预设听觉信号识别软件,所述听觉信号识别软件集成有:识别算法;所述听觉信号识别装置包括:
第一获取模块,用于获取所述音频采集设备采集的目标位置的培训音频信号,其中,所述目标位置为:所述音频采集设备所在物理环境中的预设位置;
第一检测模块,用于采用所述识别算法,检测所述培训音频信号中是否存在开始吹哨的音频特征;
记录模块,用于若存在所述开始吹哨的音频特征,则记录所述开始吹哨的时间;
所述第一检测模块,还用于采用所述识别算法,检测所述培训音频信号中所述开始吹哨的时间之后的信号中是否存在:结束吹哨的音频特征;
第二获取模块,用于若存在所述结束吹哨的音频特征,则获取所述培训音频信号的哨声特征;
确定模块,用于根据所述哨声特征,采用预设的听觉信号种类配置参数,确定所述培训音频信号对应的听觉信号类型;所述听觉信号种类配置参数包括:至少一种听觉信号的哨声特征。
11.一种计算机设备,其特征在于,包括:存储器和处理器,所述处理器连接有音频采集设备,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-9任一项所述的听觉信号识别方法。
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-9任一项所述的听觉信号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169541.9A CN112331233A (zh) | 2020-10-27 | 2020-10-27 | 听觉信号识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169541.9A CN112331233A (zh) | 2020-10-27 | 2020-10-27 | 听觉信号识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112331233A true CN112331233A (zh) | 2021-02-05 |
Family
ID=74296517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011169541.9A Pending CN112331233A (zh) | 2020-10-27 | 2020-10-27 | 听觉信号识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331233A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250313A1 (en) * | 2006-04-25 | 2007-10-25 | Jiun-Fu Chen | Systems and methods for analyzing video content |
CN106409310A (zh) * | 2013-08-06 | 2017-02-15 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN108550198A (zh) * | 2018-03-29 | 2018-09-18 | 维高时代(北京)科技有限公司 | 一种智能比赛计时方法 |
CN108665906A (zh) * | 2018-03-29 | 2018-10-16 | 维高时代(北京)科技有限公司 | 一种赛事裁判哨声采集识别系统和方法 |
CN108806717A (zh) * | 2018-04-26 | 2018-11-13 | 上海庚视光电科技股份有限公司 | 一种体育比赛哨音识别装置及方法 |
KR20190055535A (ko) * | 2017-11-15 | 2019-05-23 | 주식회사 아이앤나 | 휘파람소리 인식 기능이 구비된 사운드장치 |
-
2020
- 2020-10-27 CN CN202011169541.9A patent/CN112331233A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250313A1 (en) * | 2006-04-25 | 2007-10-25 | Jiun-Fu Chen | Systems and methods for analyzing video content |
CN106409310A (zh) * | 2013-08-06 | 2017-02-15 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
KR20190055535A (ko) * | 2017-11-15 | 2019-05-23 | 주식회사 아이앤나 | 휘파람소리 인식 기능이 구비된 사운드장치 |
CN108550198A (zh) * | 2018-03-29 | 2018-09-18 | 维高时代(北京)科技有限公司 | 一种智能比赛计时方法 |
CN108665906A (zh) * | 2018-03-29 | 2018-10-16 | 维高时代(北京)科技有限公司 | 一种赛事裁判哨声采集识别系统和方法 |
CN108806717A (zh) * | 2018-04-26 | 2018-11-13 | 上海庚视光电科技股份有限公司 | 一种体育比赛哨音识别装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101700099B1 (ko) | 하이브리드 음성인식 복합 성능 자동 평가시스템 | |
CN109300471A (zh) | 融合声音采集识别的场区智能视频监控方法、装置及系统 | |
CN105159111A (zh) | 基于人工智能的智能交互设备控制方法及系统 | |
CN111798852B (zh) | 语音唤醒识别性能测试方法、装置、系统及终端设备 | |
CN111341296B (zh) | 一种语音控制的响应测试方法、测试机和存储介质 | |
US20130158977A1 (en) | System and Method for Evaluating Speech Exposure | |
US10592823B2 (en) | Learning model construction device, abnormality detection device, abnormality detection system and server | |
CN109192193A (zh) | 一种语音识别产品测试方法和测试装置 | |
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
CN108648765B (zh) | 一种语音异常检测的方法、装置及终端 | |
CN104538042A (zh) | 终端智能语音测试系统和方法 | |
CN109147761A (zh) | 一种基于批量语音识别和tts文本合成的测试方法 | |
CN111724781B (zh) | 音频数据的存储方法、装置、终端及存储介质 | |
CN107784649A (zh) | 基于图像识别的芯棒测试远程报警系统及方法 | |
CN109545196B (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN114413409A (zh) | 用于空调故障概率的检测方法及装置、智能空调 | |
CN112331233A (zh) | 听觉信号识别方法、装置、设备及存储介质 | |
CN111933137A (zh) | 语音唤醒测试方法及装置、计算机可读介质和电子设备 | |
Zambon et al. | Real-time urban traffic noise maps: the influence of Anomalous Noise Events in Milan Pilot area of DYNAMAP | |
CN112053693A (zh) | 基于新冠疫情的智能语音测温方法、装置和系统 | |
CN115798520A (zh) | 语音检测的方法和装置、电子设备和存储介质 | |
CN114240926B (zh) | 板卡缺陷类别识别方法、装置、设备及可读存储介质 | |
CN111934800A (zh) | 一种广播内容监测方法及系统 | |
CN114564381A (zh) | 一种物联网设备整机产测方法 | |
CN113721196A (zh) | 枪声定位方法及其定位系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |