CN117351988B - 一种基于数据分析的远程音频信息处理方法及系统 - Google Patents

一种基于数据分析的远程音频信息处理方法及系统 Download PDF

Info

Publication number
CN117351988B
CN117351988B CN202311664208.9A CN202311664208A CN117351988B CN 117351988 B CN117351988 B CN 117351988B CN 202311664208 A CN202311664208 A CN 202311664208A CN 117351988 B CN117351988 B CN 117351988B
Authority
CN
China
Prior art keywords
matrix
feature
audio
data
inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311664208.9A
Other languages
English (en)
Other versions
CN117351988A (zh
Inventor
许忠
吴东亮
孙运
张碧强
方利勇
陈艳辉
石晖
陈哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiontu Intelligent Shenzhen Technology Group Co ltd
Original Assignee
Fiontu Intelligent Shenzhen Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiontu Intelligent Shenzhen Technology Group Co ltd filed Critical Fiontu Intelligent Shenzhen Technology Group Co ltd
Priority to CN202311664208.9A priority Critical patent/CN117351988B/zh
Publication of CN117351988A publication Critical patent/CN117351988A/zh
Application granted granted Critical
Publication of CN117351988B publication Critical patent/CN117351988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及音频信息处理技术领域,特别是一种基于数据分析的远程音频信息处理方法及系统。将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果;基于所述分析结果,对相应时段的音频信号进行处理,能够有效提高音频处理效率与音频整体质量。

Description

一种基于数据分析的远程音频信息处理方法及系统
技术领域
本发明涉及音频信息处理技术领域,特别是一种基于数据分析的远程音频信息处理方法及系统。
背景技术
近年来,基于数据分析的技术逐渐应用于音频领域,为远程音频信息处理提供了新的解决方案。在传统的音频处理方法中,通常采用人工进行数据分析和处理,容易受到主观因素的影响。而利用数据分析技术,可以从大量音频数据中提取特征,进行自动化处理和分析,提高了音频处理的效率和准确性。然而,基于数据分析的远程音频信息处理方法在当前技术水平下仍存在一些潜在的技术缺陷,如在复杂环境下,如多人通话、背景噪声干扰等情况下,对音频信号的准确处理和分析面临挑战,需要复杂的信号处理算法和技术支持,难以精准的分析出存在噪声干扰的音频时段加以处理,导致音频质量低下。
发明内容
本发明克服了现有技术的不足,提供了一种基于数据分析的远程音频信息处理方法及系统。
为达到上述目的本发明采用的技术方案为:
本发明第一方面公开了一种基于数据分析的远程音频信息处理方法,包括以下步骤:
获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果;基于所述分析结果,对相应时段的音频信号进行处理。
进一步地,本发明的一个较佳实施例中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵。
进一步地,本发明的一个较佳实施例中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
进一步地,本发明的一个较佳实施例中,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
进一步地,本发明的一个较佳实施例中,将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果,具体为:
通过大数据网络获取各种预设类型音频信号对应的标准波形图,构建数据库,并将各种预设类型音频信号对应的标准波形图导入所述数据库中,得到特性数据库;
获取待分析音频信号的类型信息,根据所述待分析音频信号的类型信息构建检索标签,基于所述检索标签在所述特性数据库中检索得到与待分析音频信号的标准波形图;
通过欧几里得距离算法计算待分析音频信号的实际波形图与标准波形图之间的欧几里得距离值,根据所述欧几里得距离值确定出实际波形图与标准波形图之间的重合度;
若所述重合度不大于预设重合度,则生成第一分析结果;若所述重合度大于预设重合度,则生成第二分析结果。
进一步地,本发明的一个较佳实施例中,基于所述分析结果,对相应时段的音频信号进行处理,具体为:
若分析结果为第一分析结果,则构建配对空间,将所述实际波形图与标准波形图导入所述配对空间中;
在所述配对空间检索出实际波形图与标准波形图的坐标轴位置,并将两者的坐标轴进行整合,以将实际波形图与标准波形图进行配对处理;
配对完成后,将实际波形图与标准波形图互相重合的图形区域筛除,并保留不相重合的图形区域,得到波形偏差图;
在所述波形偏差图中识别出剩余图形区域所对应的时间段,并将剩余图形区域所对应的时间段标记为异常信号时段;
将异常信号时段所对应的音频信号进行降噪、音频增强以及音频修复处理。
本发明第二方面公开了一种基于数据分析的远程音频信息处理系统,所述远程音频信息处理系统包括存储器与处理器,所述存储器中存储有远程音频信息处理方法程序,当所述远程音频信息处理方法程序被所述处理器执行时,实现如下步骤:
获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到结果;基于所述分析结果,对相应时段的音频信号进行处理。
进一步地,本发明的一个较佳实施例中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵。
进一步地,本发明的一个较佳实施例中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
进一步地,本发明的一个较佳实施例中,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
本发明解决了背景技术中存在的技术缺陷,本发明具备以下有益效果:获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到结果;基于所述分析结果,对相应时段的音频信号进行处理。本发明能够快速精准筛选出异常音频部分并有针对性地加以处理,能够有效提高音频处理效率与音频整体质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1为一种基于数据分析的远程音频信息处理方法的第一方法流程图;
图2为一种基于数据分析的远程音频信息处理方法的第一方法流程图;
图3为一种基于数据分析的远程音频信息处理系统的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明第一方面公开了一种基于数据分析的远程音频信息处理方法,包括以下步骤:
S102:获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
S104:引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
S106:对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
S108:将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果;基于所述分析结果,对相应时段的音频信号进行处理。
进一步地,本发明的一个较佳实施例中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵。
需要说明的是,在数字信号处理中,通常将音频信号表示为时间序列数据,这意味着每个时刻都有一个相应的信号值,如果考虑音频信号的采样率,即每秒采用的采样数,每一个时间点的音频信号就可以被看作是一个包含多个维度的高维信号,因此为了减少音频信号的特征数量,以更快速提取数据的主要信息,以及简化数据处理的复杂性,通过引入主成分分析法对高维的音频信号进行降维处理,得到由音频特征数据组成的特征矩阵,其中,特征矩阵的每一行表示一个音频样本,每一列表示一个特征。通过减去特征均值并除以标准差来对特征矩阵进行标准化,以确保每个特征具有相同的权重。
如图2所示,进一步地,本发明的一个较佳实施例中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
S202:引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
S204:根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
S206:将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
S208:更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
需要说明的是,在降维的过程中,通常会将原始高维数据映射到低维空间中,以减少维度并去除数据中的冗余信息,然而,降维后的特征矩阵中仍可能存在一些冗余点,也就是那些在降维过程中没有被完全去除或映射的点,这些冗余点可能是因为降维方法的局限性,或者是因为数据本身的特点所致。如果矩阵中存在冗余点,则可能会在数据过度拟合,降低泛化性能,因此需要通过进一步筛选掉这些冗余点,具体而言,基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵,通过设置合适的阈值,从而筛选出那些重要的特征点,并将其他特征点视为冗余点,值得一提的是,较低的阈值可能会保留太多冗余特征,而较高的阈值可能会过滤掉一些重要特征,因此,在实际应用过程中,具体阈值根据多次实验获取得到,以获得最佳的特征选择结果。通过本步骤能够筛除掉特征矩阵中的冗余点以降低计算复杂度并加快算法运行,使数据更加精确地反映原始数据的特征,从而增强解释性和优化数据探索。
综上,通过对音频信号进行降维与降冗余处理能够帮助提取音频信号中最具代表性和关键的特征,减少冗余信息的影响,使得后续的音频分析和处理更加高效和精确。
进一步地,本发明的一个较佳实施例中,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
需要说明的是,逆变换是指将某种频域表示转换回时域表示的过程,例如从频谱表示转换回波形表示。反标准化是指将经过标准化处理的数据重新还原回原始的数值范围。这两个过程可以分别应用于音频信号的各个频道的数据矩阵,得到各个声道的时域波形。将逆变换和反标准化后的数据矩阵进行重新组合,具体而言,将重新组合后的波形按照声道和样本的顺序进行排列,得到最终的具有正确声道数和样本数的音频波形数据,在重新组合过程中能够正确地保持声道和样本的对应关系,以避免数据错乱或失真。当对音频信号进行降维降冗后,再通过反向转换方式获取波形数据,可以减少音频数据的信息量,实现对音频信号的压缩,以更加高效获取波形数据,提高运算效率,从而获取得到可靠性高的波形图,进一步提高后续分析结果可靠性。
进一步地,本发明的一个较佳实施例中,将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到结果,具体为:
通过大数据网络获取各种预设类型音频信号对应的标准波形图,构建数据库,并将各种预设类型音频信号对应的标准波形图导入所述数据库中,得到特性数据库;
其中,预设类型音频信号包括但不限于音乐音频信号、视频会议记录音频信号以及电话通话记录音频信号;
获取待分析音频信号的类型信息,根据所述待分析音频信号的类型信息构建检索标签,基于所述检索标签在所述特性数据库中检索得到与待分析音频信号的标准波形图;
通过欧几里得距离算法计算待分析音频信号的实际波形图与标准波形图之间的欧几里得距离值,根据所述欧几里得距离值确定出实际波形图与标准波形图之间的重合度;
若所述重合度不大于预设重合度,则生成第一分析结果;若所述重合度大于预设重合度,则生成第二分析结果。
需要说明的是,音乐音频通常具有较丰富的频谱和动态范围,波形图会呈现出较为复杂的振幅变化,包括各种乐器的音符、节奏等特征。视频会议记录音频信号通常以人声为主,波形图会呈现出较为规律的声音波动,具有一定的频率和幅度特征。电话通话记录音频信号通常受到通信网络的限制,波形图可能呈现出较为简单的声音波动,频谱相对较窄,且可能存在一定程度的压缩和失真。因此,可以根据这些区别特征在大数据网络检索获取各种预设类型音频信号对应的标准波形图。然后获取待分析音频信号的类型信息,根据所述待分析音频信号的类型信息构建检索标签,基于所述检索标准在所述特性数据库中检索得到与待分析音频信号的标准波形图。若待分析音频信号的实际波形图与标准波形图之间的重合度不大于预设重合度,说明在预设时间段内音频中存在异常部分,例如音量的突然增大或减小,这些可能是由于噪声、干扰或其他问题导致。若待分析音频信号的实际波形图与标准波形图之间的重合度大于预设重合度,明在预设时间段内音频中不存在异常部分,此时不需要对该时间内音频进行处理。
进一步地,本发明的一个较佳实施例中,基于所述分析结果,对相应时段的音频信号进行处理,具体为:
若分析结果为第一分析结果,则构建配对空间,将所述实际波形图与标准波形图导入所述配对空间中;
在所述配对空间检索出实际波形图与标准波形图的坐标轴位置,并将两者的坐标轴进行整合,以将实际波形图与标准波形图进行配对处理;
配对完成后,将实际波形图与标准波形图互相重合的图形区域筛除,并保留不相重合的图形区域,得到波形偏差图;
在所述波形偏差图中识别出剩余图形区域所对应的时间段,并将剩余图形区域所对应的时间段标记为异常信号时段;
将异常信号时段所对应的音频信号进行降噪、音频增强以及音频修复处理。
需要说明的是,若在预设时间段内音频中存在异常部分,则进一步标记异常的相应时间段,将音频信号进行分割,对其中的异常部分进行单独处理,将异常信号时段所对应的音频信号进行降噪、音频增强以及音频修复等有针对性处理,以提高音频整体质量,例如,使用谱减法、频率增强、时域增强等方法来提升音频的质量。通过本方法能够精准筛选出异常音频部分并有针对性地加以处理,能够有效提高音频处理效率与音频整体质量。
此外,本方法还包括以下步骤:
若分析结果为第一分析结果,则构建贝叶斯网络,并获取相应录制设备的运转状态,根据所述运转状态确定贝叶斯网络中各节点与录制设备中各部件之间的变量与依赖关系;其中,录制设备包括麦克风话筒与录音机;
根据所述变量与依赖关系确定贝叶斯网络中的各个节点的条件概率分布,并通过最大似然估计对各个节点的条件概率分布来估计贝叶斯网络的拟合度;
若贝叶斯网络的拟合度大于预设拟合度,则保存贝叶斯网络参数,并输出训练完成的贝叶斯网络;若贝叶斯网络的拟合度不大于预设拟合度,重新确定贝叶斯网络中各节点与录制设备中各部件之间的变量与依赖关系,直至贝叶斯网络的拟合度大于预设拟合度,则保存贝叶斯网络参数,并输出训练完成的贝叶斯网络;
获取录制设备中各部件的在预设时间段内的实际运行参数,将录制设备中各部件的在预设时间段内的实际运行参数导入所述训练完成的贝叶斯网络中,根据训练完成的贝叶斯网络计算各部件的状态转移概率,根据所述状态转移概率确定出各部件的故障概率;
将故障概率大于预设故障概率对应的部件进行标记并输出。
需要说明的是,若分析结果为第一分析结果,则说明音频信号出现了异常情况,出现异常音频信号一方面可能是由于背景噪声等外界因素引起的,另一方面也有可能是由于录制设备发生了故障异常引起的,因此通过本方法能够进一步有效分析出相应的录制设备中的各零件是否发生了故障,以及时进行更换检修,提高音频质量。
此外,将异常信号时段所对应的音频信号进行降噪处理,具体包括以下步骤:
获取异常信号时段所对应的音频信号,并通过傅里叶变换对所述异常信号时段所对应的音频信号进行特征提取处理,得到音频样本特征数据;
将各个音频样本特征数据均视为一个独立的聚簇,引入马氏距离算法,基于马氏距离算法计算各聚簇之间的马氏距离,得到多个马氏距离,对多个马氏距离进行排序,得到排序结果;
根据所述排序结果将马氏距离最短的两个聚簇汇集,以形成一个新的聚簇;并基于马氏距离算法重新计算各新的聚簇之间的马氏距离,根据各新的聚簇之间的马氏距离不断对各新的聚簇汇集迭代,直至新的聚簇的数目收敛至预设数目,则输出聚类结果;
根据所述聚类结果得到不同类型的音频样本特征数据集;将不同类型的音频样本特征数据集依次导入自适应滤波器中进行降噪处理,得到降噪处理后的音频样本特征数据集;
对所有降噪处理后的音频样本特征数据集进行线性编码复合处理,得到降噪后的音频信号。
需要说明的是,在对音频信号进行降噪前,需要进一步筛选出不同类型的音频样本特征数据,如语音、音乐、环境声音等音频样本特征数据,然后将不同类型的音频样本特征数据有区别的进行降噪处理,这是由于不同类型的音频样本可能具有不同的特征和噪声特性,因此需要针对不同类型的音频样本采用不同的降噪处理方法,以最大程度地保留音频信号的有用信息并减少噪声干扰,不同类型的音频样本特征数据在频谱特性、信噪比、噪声类型等方面可能存在差异。举例来说,对于语音信号,通常会采用语音增强算法,如谱减法、Wiener滤波等,以保留语音的清晰度和语音特征;而对于背景音乐信号,可能会采用基于乐谱分析的降噪方法,以保留音乐的音色和动态范围。通过本方法能够有效对音频信号进行降噪处理,并最大程度保留不同类型音频的有效特征,提高音频处理的效果和质量。
如图3所示,本发明第二方面公开了一种基于数据分析的远程音频信息处理系统,所述远程音频信息处理系统包括存储器11与处理器20,所述存储器11中存储有远程音频信息处理方法程序,当所述远程音频信息处理方法程序被所述处理器20执行时,实现如下步骤:
获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到结果;基于所述分析结果,对相应时段的音频信号进行处理。
进一步地,本发明的一个较佳实施例中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵。
进一步地,本发明的一个较佳实施例中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
进一步地,本发明的一个较佳实施例中,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于数据分析的远程音频信息处理方法,其特征在于,包括以下步骤:
获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果;基于所述分析结果,对相应时段的音频信号进行处理;
其中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵;
其中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
2.根据权利要求1所述的一种基于数据分析的远程音频信息处理方法,其特征在于,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
3.根据权利要求1所述的一种基于数据分析的远程音频信息处理方法,其特征在于,将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果,具体为:
通过大数据网络获取各种预设类型音频信号对应的标准波形图,构建数据库,并将各种预设类型音频信号对应的标准波形图导入所述数据库中,得到特性数据库;
获取待分析音频信号的类型信息,根据所述待分析音频信号的类型信息构建检索标签,基于所述检索标签在所述特性数据库中检索得到与待分析音频信号的标准波形图;
通过欧几里得距离算法计算待分析音频信号的实际波形图与标准波形图之间的欧几里得距离值,根据所述欧几里得距离值确定出实际波形图与标准波形图之间的重合度;
若所述重合度不大于预设重合度,则生成第一分析结果;若所述重合度大于预设重合度,则生成第二分析结果。
4.根据权利要求1所述的一种基于数据分析的远程音频信息处理方法,其特征在于,基于所述分析结果,对相应时段的音频信号进行处理,具体为:
若分析结果为第一分析结果,则构建配对空间,将所述实际波形图与标准波形图导入所述配对空间中;
在所述配对空间检索出实际波形图与标准波形图的坐标轴位置,并将两者的坐标轴进行整合,以将实际波形图与标准波形图进行配对处理;
配对完成后,将实际波形图与标准波形图互相重合的图形区域筛除,并保留不相重合的图形区域,得到波形偏差图;
在所述波形偏差图中识别出剩余图形区域所对应的时间段,并将剩余图形区域所对应的时间段标记为异常信号时段;
将异常信号时段所对应的音频信号进行降噪、音频增强以及音频修复处理。
5.一种基于数据分析的远程音频信息处理系统,其特征在于,所述远程音频信息处理系统包括存储器与处理器,所述存储器中存储有远程音频信息处理方法程序,当所述远程音频信息处理方法程序被所述处理器执行时,实现如下步骤:
获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵;
引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵;
对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图;
将所述待分析音频信号的实际波形图与相应的标准波形图进行比较分析,得到分析结果;基于所述分析结果,对相应时段的音频信号进行处理;
其中,获取预设时间段内待分析的音频信号,将音频信号分成不重叠的短时帧信号,并将所述短时帧信号进行降维处理,得到由音频特征数据组成的特征矩阵,具体为:
获取预设时间段内的音频信号,并将音频信号分成不重叠的短时帧信号,基于特征提取算法提取每帧短时帧信号的特征向量;
将每帧短时帧信号的特征向量拼接成一个具有多行的矩阵,其中每一行是一个特征向量,将矩阵中每个特征进行标准化处理,以确保每个特征具有相同的权重,得到标准化后的矩阵;
根据所述标准化后的矩阵计算协方差矩阵,协方差矩阵描述了不同特征之间的相关性和方差;
对协方差矩阵进行特征值分解,以获得特征值和新的特征向量,特征值表示信号数据在新的特征向量方向上的方差大小,新的特征向量表示信号数据在新的主成分空间中的方向;
根据特征值的大小,选择前 k 个特征值对应的新的特征向量作为主成分;其中,选择的主成分数根据特征值之和的百分比来确定;
将标准化后的矩阵与选定的主成分构成的矩阵相乘,得到由音频特征数据组成的特征矩阵;
其中,引入奇异值分解算法,并基于奇异值分解算法剔除所述特征矩阵的冗余点,得到降冗后的特征矩阵,具体为:
引入奇异值分解算法,并基于奇异值分解算法对所述特征矩阵进行奇异分解处理,得到左奇异矩阵、奇异值矩阵以及右奇异矩阵;
根据奇异值矩阵中的奇异值来确定出每个特征点的独立程度;其中,奇异值的大小表示相应特征点在特征矩阵中的独立性,奇异值越大特征点的独立性越大;
将每个特征点的独立程度与预设阈值进行比较;将独立程度小于预设阈值的特征点视为冗余点;并去除左奇异矩阵、奇异值矩阵以及右奇异矩阵中与各冗余点相应的列,以剔除冗余的特征点;
更新左奇异矩阵、奇异值矩阵以及右奇异矩阵,并将更新后的左奇异矩阵、奇异值矩阵以及右奇异矩阵相乘,得到降冗后的特征矩阵。
6.根据权利要求5所述的一种基于数据分析的远程音频信息处理系统,其特征在于,对所述降冗后的特征矩阵进行逆变换与反标准化处理,得到逆变换和反标准化后的数据矩阵,根据逆变换和反标准化后的数据矩阵生成预设时间段内待分析音频信号的实际波形图,具体为:
基于逆变换的方式,将降冗后的特征矩阵进行逆变换处理,获得逆变换后的数据矩阵,逆变换后的数据矩阵与原短时帧信号的格式和维度相匹配;
基于反标准化的方式,将降冗后的特征矩阵进行反标准化处理,获得反标准化后的数据矩阵,反标准化后的数据矩阵与原短时帧信号的尺度和范围相匹配;
获取音频的声道数和采样率,根据音频的声道数和采样率,将逆变换和反标准化后的数据矩阵进行重新组合与特征转换,得到音频波形数据;
其中,若音频是双声道,则将重新组合数据矩阵的列分为两部分,分别表示左声道和右声道的音频波形数据;若音频是单声道,则将重新组合数据矩阵的所有列作为音频波形数据;
创建一个绘图区域,并设置好坐标轴的范围和标签,根据所述音频波形数据绘制得到待分析音频信号的实际波形图;其中,坐标横轴表示时间,坐标纵轴表示音频振幅。
CN202311664208.9A 2023-12-06 2023-12-06 一种基于数据分析的远程音频信息处理方法及系统 Active CN117351988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311664208.9A CN117351988B (zh) 2023-12-06 2023-12-06 一种基于数据分析的远程音频信息处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311664208.9A CN117351988B (zh) 2023-12-06 2023-12-06 一种基于数据分析的远程音频信息处理方法及系统

Publications (2)

Publication Number Publication Date
CN117351988A CN117351988A (zh) 2024-01-05
CN117351988B true CN117351988B (zh) 2024-02-13

Family

ID=89367265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311664208.9A Active CN117351988B (zh) 2023-12-06 2023-12-06 一种基于数据分析的远程音频信息处理方法及系统

Country Status (1)

Country Link
CN (1) CN117351988B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136199A (zh) * 2006-08-30 2008-03-05 国际商业机器公司 语音数据处理方法和设备
CN107293302A (zh) * 2017-06-27 2017-10-24 苏州大学 一种用于语音测谎系统中的稀疏谱特征提取方法
CN113066502A (zh) * 2021-03-11 2021-07-02 电子科技大学 基于vmd和多小波的心音分割定位方法
CN113314131A (zh) * 2021-05-07 2021-08-27 武汉大学 一种基于两级滤波的多步音频对象编解码方法
CN113990335A (zh) * 2021-10-28 2022-01-28 南京南大电子智慧型服务机器人研究院有限公司 一种基于压缩感知的音频编解码方法
CN114171047A (zh) * 2021-12-23 2022-03-11 思必驰科技股份有限公司 音频信号处理方法、电子设备和存储介质
CN115002642A (zh) * 2022-05-23 2022-09-02 桂林电子科技大学 一种基于听觉掩蔽结合svd-mrmr的扬声器异常声的特征提取方法
CN116597853A (zh) * 2023-03-17 2023-08-15 湖南联智监测科技有限公司 一种音频消噪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136199A (zh) * 2006-08-30 2008-03-05 国际商业机器公司 语音数据处理方法和设备
CN107293302A (zh) * 2017-06-27 2017-10-24 苏州大学 一种用于语音测谎系统中的稀疏谱特征提取方法
CN113066502A (zh) * 2021-03-11 2021-07-02 电子科技大学 基于vmd和多小波的心音分割定位方法
CN113314131A (zh) * 2021-05-07 2021-08-27 武汉大学 一种基于两级滤波的多步音频对象编解码方法
CN113990335A (zh) * 2021-10-28 2022-01-28 南京南大电子智慧型服务机器人研究院有限公司 一种基于压缩感知的音频编解码方法
CN114171047A (zh) * 2021-12-23 2022-03-11 思必驰科技股份有限公司 音频信号处理方法、电子设备和存储介质
CN115002642A (zh) * 2022-05-23 2022-09-02 桂林电子科技大学 一种基于听觉掩蔽结合svd-mrmr的扬声器异常声的特征提取方法
CN116597853A (zh) * 2023-03-17 2023-08-15 湖南联智监测科技有限公司 一种音频消噪方法

Also Published As

Publication number Publication date
CN117351988A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Ittichaichareon et al. Speech recognition using MFCC
Shah et al. Time-frequency mask-based speech enhancement using convolutional generative adversarial network
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
Xu et al. Listening to sounds of silence for speech denoising
EP2751804A1 (en) A method to generate audio fingerprints
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Saleem et al. Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence
Bonet et al. Speech enhancement for wake-up-word detection in voice assistants
CN117351988B (zh) 一种基于数据分析的远程音频信息处理方法及系统
Song et al. Feature enhancement for robust acoustic scene classification with device mismatch
CN117037840A (zh) 异响源识别方法、装置、设备及可读存储介质
CN113473117B (zh) 一种基于门控循环神经网络的无参考音视频质量评价方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
CN113571074A (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
CN112365901A (zh) 一种机械音频故障检测方法及装置
CN111341304A (zh) 一种基于gan的说话人语音特征训练方法、装置和设备
Lung Feature extracted from wavelet decomposition using biorthogonal Riesz basis for text-independent speaker recognition
CN112634942B (zh) 一种手机录音原始性的鉴定方法、存储介质及设备
CN117041618B (zh) 一种用于电商的智能语音客服方法和系统
CN117238311B (zh) 一种多声源及噪声环境中的语音分离增强方法及系统
CN116264620B (zh) 直播录制的音频数据采集处理方法及相关装置
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
CN113689863B (zh) 一种声纹特征提取方法、装置、设备及存储介质
Nag et al. Learning Optimum Number of Bases for Indian Languages in Non-negative Matrix Factorization based Multilingual Speech Separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant