CN115171721A - 一种音频数据切片识别处理方法 - Google Patents

一种音频数据切片识别处理方法 Download PDF

Info

Publication number
CN115171721A
CN115171721A CN202210775888.0A CN202210775888A CN115171721A CN 115171721 A CN115171721 A CN 115171721A CN 202210775888 A CN202210775888 A CN 202210775888A CN 115171721 A CN115171721 A CN 115171721A
Authority
CN
China
Prior art keywords
data
sound
array
energy
energy difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210775888.0A
Other languages
English (en)
Other versions
CN115171721B (zh
Inventor
王建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinghan Bona Pharmaceutical Technology Co.,Ltd.
Original Assignee
Beijing Xinghan Bona Medicine Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinghan Bona Medicine Science And Technology Co ltd filed Critical Beijing Xinghan Bona Medicine Science And Technology Co ltd
Priority to CN202210775888.0A priority Critical patent/CN115171721B/zh
Publication of CN115171721A publication Critical patent/CN115171721A/zh
Application granted granted Critical
Publication of CN115171721B publication Critical patent/CN115171721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种音频数据切片识别处理方法,具体涉及声音识别技术领域,包括如下步骤:信号采集,44.1kH采样率获取音频输入,并转换为数组存储;能量差处理;设存储源音数据数组为S,处理后的数组为R,两个数组的长度相同,处理规则:R(n)=S(n‑1)‑S(n),n>0;R(0)=S(0);能量信号切片分层;特征提取和识别。经过能量差处理后,数据产生正、负和零,三类数据,有意义的数据在正负两类数据里,并且这两类数据是绝对附着在过零位上的;解决了低频信号干扰,引起的过零位偏移问题;通过切片分层方法,可以通过调参,剥离不同音量或频率的声音数据,在对声音的分类识别过程中,去除噪音和回声,很有效,效果十分显著。

Description

一种音频数据切片识别处理方法
技术领域
本发明涉及声音识别技术领域,具体为一种音频数据切片识别处理方法。
背景技术
本发明借鉴了人耳对声音识别的生物学原理,模仿人耳提取声音信息的功能;声音是一种机械波,经过空气传递,振动人耳的鼓膜,经耳蜗进行处理,最后传递给大脑进行识别;通过话筒采集到信息,相当于鼓膜到耳蜗之间处理的信息,当前对声音的处理步骤,相当于耳蜗的功能,最终为声音识别功能提供输入信息;核心思路,通过邻居两个采样点的差值,获得一个能量差值,该值也可以另外描述为,单位时间内能量的变化值,频率高的声音变化值大,频率低的声音变化值小;经过能量差处理的数据,通过分层切片方法,提取不同频率的数据,用于声音识别或解析。
对于现有的音频数据切片识别处理方法,如专利公开号为【公开号】CN112863489A的中国专利,其公开了一种语音识别方法、装置、设备及介质,包括如下步骤:该方法包括:获取待识别的第一语音信号,并对第一语音信号进行回声消除处理,获得相应的第二语音信号,且第二语音信号中包括第三语音信号;识别第三语音信号,确定相应的场景信息;根据所确定的场景信息,并基于预设映射表得到与场景信息对应的预设领域;根据所得到的预设领域,从预先存储的语音模型数据库中调取出相应的语音识别模型;基于所调取出的语音识别模型对第二语音信号进行识别,获得相应的语音识别结果。用以通过识别第三语音信号,确定相应的场景信息,有利于提高对语音信号的识别率。
现有技术中的音频数据切片识别处理方法存在以下问题:
1、现有的音频数据切片识别处理受无意义的低频声音信号干扰,会让有意义信号严重偏离过零位,影响识别效果;在做回声消除的处理中,不能有效区分源音和回音,造成过多消除有意义音源;
2、且声音识别过程中,不能对不同音量声音做分层处理,影响语音信号识别率,为此,我们提出一种音频数据切片识别处理方法用于解决上述问题。
发明内容
本发明的目的在于提供一种音频数据切片识别处理方法,以解决上述背景技术中提出的问题。
为解决上述技术问题,本发明采用如下技术方案:一种音频数据切片识别处理方法,包括如下步骤:
步骤一、信号采集,44.1kH采样率获取音频输入,并转换为数组存储;
该步骤可以由文件输入,也可以由话筒设备输入,输入后,取一条主声道数据作为待分析数据,保存为一维数组S。
对于采样率,主要影响当前算法的效率和精度,采样率越高需要计算的采样点越多性能变差,但声音识别精度约高;采样率低,需要分析的采样点少,性能变好,但声音识别精度变差。
对于声道,主要分为2.0声道、3.1声道、5.1声道等,本算法主要使用2.0声道数据,
并且只提取一条声道数据,用于语义识别。
步骤二、能量差处理;
声音是一种机械波,它对话筒的振动产生不同的声音电位信号,如果需要感知能量的变化,就需要计算相邻两个采样点的变化值,这个变化值就是当前步骤最终处理值,所以我们做如下处理:
设存储源音数据数组为S,处理后的数组为R,两个数组的长度相同,处理公式,
R(n)=S(n-1)-S(n),n>0;R(0)=S(0);
根据声音的原理,声音电位信号有变动才会有能量,即使是持续的高电位,但没有变化,也不会产生能量,所以数组R存储的是声音的能量数据。
经过能量差处理后,数据产生正、负和零,三类数据,有意义的数据在正负两类数据里,并且这两类数据是绝对附着在过零位上的。解决了低频信号干扰,引起的过零位偏移问题。
需要注意的是,经过能量差处理后的声音数据,听起来会变尖锐,即频率是处理前的两倍,低频会减弱,但不影响语义和声纹特征识别,如果遇到需要计算源语音频率的地方,需要除步骤二。
图3,为能量差处理后,相同音频处理后的图像选段。
步骤三、能量信号切片分层;
通过能量差处理的数组R,对其进行切片,切片规则为:
正负各切150层,层与层之间的间隔为层数的平方,只保留达到当前层值的能量差数据。一般情况下,高音或源音信息分布在比较大的层次里,低音或回声分布在比较低的层次里,这里高音是声音识别的主要对象;
此处通过调整能量信号提取层数,快速消除回声或背景音。
经过实验数据验证,声音的波形,对语义影响不大,见图4,为信号切片后,相同段信号提取28层切片信号图像,可以看到,经过切片处理后的音频数据,为整齐的上下对称的方波,通过转存为声音文件进行播放,人耳仍然可以识别声音的语义,不影响识别结果。
需要注意,进行声音切片前,必须要经过能量差处理,否则高低频声音信号,会混合在各个层级分层数据里,使得切片变得没有意义。
步骤四、特征提取和识别
通过能量差处理的数组R,取正数或负数部分,按层数提取数据,为了提高效率,可以按比例提取3层数据用于特征提取和识别,高层数数据设置比较大的权重;需要注意,用于识别训练的样本数据,也需要做相同的处理。
借助能量信号切片分层处理规则,可以清晰区分高音语义和低音语义。。
与现有技术相比,本发明的有益效果在于:
1、本发明经过能量差处理后,数据产生正、负和零,三类数据,有意义的数据在正负两类数据里,并且这两类数据是绝对附着在过零位上的;解决了低频信号干扰,引起的过零位偏移问题;通过切片分层方法,可以通过调参,剥离不同音量或频率的声音数据,在对声音的分类识别过程中,去除噪音和回声,很有效,效果十分显著;通过按比例提取不同层次的音频数据,进行特征提取和识别,并对结果加权统计,提高了声音转文字的准确率;
2、本发明经过能量差处理后的数据,取正数或负数部分,进行声音识别计算,减少数据运算量,提高了运行效率;通过对不通层数的声音进行分析,能实现对不同音量目标进行识别,相比传统单个声音目标识别,效果显著提高;通过对声音数据进行切片操作,把声音数据处理成简单的矩形波,由传统的离散余弦运算,变为真假运算,运行量更少,逻辑判断更简单。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的核心处理流程图。
图2为本发明的音频数据采集后,音频图像选段图。
图3为本发明的能量差处理后,相同音频处理后的图像选段。
图4为本发明的信号切片后,相同段信号提取28层切片信号图像图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:如图1-4所示,本发明提供了一种音频数据切片识别处理方法,包括如下步骤:
步骤一、信号采集,44.1kH采样率获取音频输入,并转换为数组存储;
该步骤可以由文件输入,也可以由话筒设备输入,输入后,取一条主声道数据作为待分析数据,保存为一维数组S;
对于采样率,主要影响当前算法的效率和精度,采样率越高需要计算的采样点越多性能变差,但声音识别精度约高;采样率低,需要分析的采样点少,性能变好,但声音识别精度变差;
对于声道,主要分为2.0声道、3.1声道、5.1声道等,本算法主要使用2.0声道数据,并且只提取一条声道数据,用于语义识别。
步骤二、能量差处理;
声音是一种机械波,它对话筒的振动产生不同的声音电位信号,如果需要感知能量的变化,就需要计算相邻两个采样点的变化值,这个变化值就是当前步骤最终处理值,所以我们做如下处理:
设存储源音数据数组为S,处理后的数组为R,两个数组的长度相同,处理公式,
R(n)=S(n-1)-S(n),n>0;R(0)=S(0);
根据声音的原理,声音电位信号有变动才会有能量,即使是持续的高电位,但没有变化,也不会产生能量,所以数组R存储的是声音的能量数据;
经过能量差处理后,数据产生正、负和零,三类数据,有意义的数据在正负两类数据里,并且这两类数据是绝对附着在过零位上的。解决了低频信号干扰,引起的过零位偏移问题;
需要注意的是,经过能量差处理后的声音数据,听起来会变尖锐,即频率是处理前的两倍,低频会减弱,但不影响语义和声纹特征识别,如果遇到需要计算源语音频率的地方,需要除步骤二。
图3,为能量差处理后,相同音频处理后的图像选段。
步骤三、能量信号切片分层;
通过能量差处理的数组R,对其进行切片,切片规则为:
正负各切150层,层与层之间的间隔为层数的平方,只保留达到当前层值的能量差数据;一般情况下,高音或源音信息分布在比较大的层次里,低音或回声分布在比较低的层次里,这里高音是声音识别的主要对象;
此处通过调整能量信号提取层数,快速消除回声或背景音;
经过实验数据验证,声音的波形,对语义影响不大,见图4,为信号切片后,相同段信号提取28层切片信号图像,可以看到,经过切片处理后的音频数据,为整齐的上下对称的方波,通过转存为声音文件进行播放,人耳仍然可以识别声音的语义,不影响识别结果;
需要注意,进行声音切片前,必须要经过能量差处理,否则高低频声音信号,会混合在各个层级分层数据里,使得切片变得没有意义。
步骤四、特征提取和识别
通过能量差处理的数组R,取正数或负数部分,按层数提取数据,为了提高效率,可以按比例提取3层数据用于特征提取和识别,高层数数据设置比较大的权重。需要注意,用于识别训练的样本数据,也需要做相同的处理。
借助能量信号切片分层处理规则,可以清晰区分高音语义和低音语义。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种音频数据切片识别处理方法,其特征在于:包括如下步骤:
1)信号采集,44.1kH采样率获取音频输入,并转换为数组存储;
2)能量差处理;
设存储源音数据数组为S,处理后的数组为R,两个数组的长度相同,处理规则:
R(n)=S(n-1)-S(n),n>0;R(0)=S(0);
3)能量信号切片分层;
4)特征提取和识别。
2.如权利要求1所述的一种音频数据切片识别处理方法,其特征在于,所述信号采集,44.1kH采样率获取音频输入,并转换为数组存储包括:该步骤可以由文件输入,也可以由话筒设备输入,输入后,取一条主声道数据作为待分析数据,保存为一维数组S。
3.如权利要求1所述的一种音频数据切片识别处理方法,其特征在于,所述能量差处理包括根据声音传递的原理,声音电位信号有变动才会有能量,即使是持续的高电位,但没有变化,也不会产生能量,所以数组R存储的是声音的能量数据,后面步骤称为能量差数据。
4.如权利要求1所述的一种音频数据切片识别处理方法,其特征在于,所述能量信号切片分层包括通过能量差处理的数组R,对其进行切片,切片规则为:
相对与x轴,水平正负各切150层,层与层之间的间隔为层数的平方,只保留达到当前层值的能量差数据,未达到的数据置位为零;
具体切片动作是指,只取1层或连续多层数据,如,提取第20层数据,是指提取数据值大于等于20*20,并且小于21*21,满足条件的数据设置为20*20,不满足条件的数据设置为零;
一般情况下,重要的声音信息分布在有声音数据的高层数里,次要信息(如:回音)分布在声音数据的低层数里,这里高层数数据是声音识别的主要对象;高层数是相对于有声音信号的数据而言的,是一个相对值。
5.如权利要求1所述的一种音频数据切片识别处理方法,其特征在于,所述特征提取和识别包括通过能量差处理的数组R,取正数或负数部分,按层数提取数据,为了提高效率,可以按比例提取3层数据用于特征提取和识别高层数数据设置比较大的权重。
CN202210775888.0A 2022-07-03 2022-07-03 一种音频数据切片识别处理方法 Active CN115171721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210775888.0A CN115171721B (zh) 2022-07-03 2022-07-03 一种音频数据切片识别处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210775888.0A CN115171721B (zh) 2022-07-03 2022-07-03 一种音频数据切片识别处理方法

Publications (2)

Publication Number Publication Date
CN115171721A true CN115171721A (zh) 2022-10-11
CN115171721B CN115171721B (zh) 2023-10-17

Family

ID=83490177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210775888.0A Active CN115171721B (zh) 2022-07-03 2022-07-03 一种音频数据切片识别处理方法

Country Status (1)

Country Link
CN (1) CN115171721B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345707A (ja) * 2004-06-02 2005-12-15 Casio Comput Co Ltd 音声処理装置及び音声符号化方法
JP2006121589A (ja) * 2004-10-25 2006-05-11 Nippon Telegr & Teleph Corp <Ntt> エコー消去方法、この方法を実施する装置、プログラムおよびその記録媒体
CN108630217A (zh) * 2017-03-21 2018-10-09 豪威科技股份有限公司 具有减少的残余回声的回声消除系统和方法
CN111048114A (zh) * 2019-12-30 2020-04-21 深圳江行联加智能科技有限公司 一种设备异常声音检测的设备及方法
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345707A (ja) * 2004-06-02 2005-12-15 Casio Comput Co Ltd 音声処理装置及び音声符号化方法
JP2006121589A (ja) * 2004-10-25 2006-05-11 Nippon Telegr & Teleph Corp <Ntt> エコー消去方法、この方法を実施する装置、プログラムおよびその記録媒体
CN108630217A (zh) * 2017-03-21 2018-10-09 豪威科技股份有限公司 具有减少的残余回声的回声消除系统和方法
CN111048114A (zh) * 2019-12-30 2020-04-21 深圳江行联加智能科技有限公司 一种设备异常声音检测的设备及方法
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨素素: "基于双谱运算在语音信号分析中的应用", 电子测试/理论算法, no. 11 *

Also Published As

Publication number Publication date
CN115171721B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
US7711123B2 (en) Segmenting audio signals into auditory events
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
EP0625774B1 (en) A method and an apparatus for speech detection
CN108630209B (zh) 一种基于特征融合与深度置信网络的海洋生物识别方法
AU2002252143A1 (en) Segmenting audio signals into auditory events
WO2002097792A1 (en) Segmenting audio signals into auditory events
Wang et al. ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network.
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Jaafar et al. Automatic syllables segmentation for frog identification system
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN116052689A (zh) 一种声纹识别方法
Murugaiya et al. Probability enhanced entropy (PEE) novel feature for improved bird sound classification
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
CN113936667A (zh) 一种鸟鸣声识别模型训练方法、识别方法及存储介质
CN115171721B (zh) 一种音频数据切片识别处理方法
CN113053351B (zh) 一种基于听觉感知的飞机舱内噪声合成方法
CN114420155A (zh) 基于多模态融合的水声目标识别方法
Okubo et al. Recognition of transient environmental sounds based on temporal and frequency features
CN113409819A (zh) 一种基于听觉谱特征提取的直升机声信号识别方法
CN110610724A (zh) 基于非均匀子带分离方差的语音端点检测方法及装置
CN113077802B (zh) 一种信息处理方法和装置
CN115223589A (zh) 一种低算力的人工耳蜗自动声音场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 101, Building 1, No. 1397 Qingyuan Road, Lingfeng Street, Anji County, Huzhou City, Zhejiang Province, 313000 (self declared)

Patentee after: Zhejiang Xinghan Bona Pharmaceutical Technology Co.,Ltd.

Country or region after: China

Address before: 101300 room 306, floor 3, No. 10, Anxiang street, airport economic core area, Shunyi District, Beijing

Patentee before: Beijing Xinghan Bona medicine science and Technology Co.,Ltd.

Country or region before: China