CN113345446A - 音频处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
音频处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113345446A CN113345446A CN202110610926.2A CN202110610926A CN113345446A CN 113345446 A CN113345446 A CN 113345446A CN 202110610926 A CN202110610926 A CN 202110610926A CN 113345446 A CN113345446 A CN 113345446A
- Authority
- CN
- China
- Prior art keywords
- information
- audio data
- data
- sampling
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims description 27
- 238000012952 Resampling Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000006835 compression Effects 0.000 abstract description 13
- 238000007906 compression Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明的实施例提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:对待编码音频数据进行预处理,得到目标音频数据,通过对目标音频数据进行端点检测获得目标音频数据中每种类型的音频数据的起始点和终止点。提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。进而对目标音频数据中设定类型的音频数据的采样点信息进行加速处理,基于设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息,从而提高音频压缩率。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种音频处理方法、装置、电子设备和计算机可读存储介质。
背景技术
人类能够听到的所有声音都称之为音频,它可能包括噪音等。声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音频软件进行处理。音频的处理方式多种多样,其中,很多场景下都需要进行音频压缩。经研究发现,目前市面上的音频压缩大多采用信号编码相关的技术方案,类似的方案实现简单,压缩解压速度较快,但面临压缩率不够的缺点。
发明内容
本发明的目的之一包括,例如,提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,以至少部分地提高音频的压缩率。
本发明的实施例可以这样实现:
第一方面,本发明提供一种音频处理方法,包括:
对待编码音频数据进行预处理,得到目标音频数据;
对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;
提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;
基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
在可选的实施方式中,提取得到内容表征信息的步骤,包括:
调用神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络;
将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息;
将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合;
将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。
在可选的实施方式中,所述音频数据的类型包括人声、噪声和静音,所述设定类型的音频数据为人声数据;
所述人声数据的采样点信息为对所述人声数据的幅值的连续表达;静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值;噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。
在可选的实施方式中,所述对待编码音频数据进行预处理,得到目标音频数据的步骤,包括:
将待编码音频数据进行重采样;
将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。
第二方面,本发明实施例提供一种音频处理方法,包括:
将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;
对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;
根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
在可选的实施方式中,所述设定类型的音频数据包括人声数据,所述神经网络模型包括采样层、全连接层和循环神经网络,所述根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息的步骤,包括:
将所述内容表征信息输入所述循环神经网络,得到融合后的信息;
将所述融合后的信息输入所述全连接层,得到降采样后的响度信息、音高信息和内容信息;
将所述降采样后的响度信息、音高信息和内容信息输入所述采样层进行升采样,得到降采样前的响度信息、音高信息和内容信息,将所述降采样前的响度信息、音高信息和内容信息进行融合,得到所述人声数据加速处理后的采样点信息。
在可选的实施方式中,在所述音频数据包括噪声数据和静音数据的情况下,所述方法还包括还原得到噪声数据和静音数据的步骤,该步骤包括:
查找出噪声数据和静音数据的起始点和终止点的时间戳信息;
基于所述噪声数据的起始点和终止点的时间戳信息及预设噪声数据得到待还原噪声数据,基于所述静音数据的起始点和终止点的时间戳信息及预设静音数据得到待还原静音数据;
将所述待还原噪声数据重采样到设定采样率,还原得到噪声数据,将所述待还原静音数据重采样到设定采样率,还原得到静音数据。
第三方面,本发明实施例提供一种音频处理装置,包括:
信息获得模块,用于对待编码音频数据进行预处理,得到目标音频数据;对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
信息处理模块,用于对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
第四方面,本发明实施例提供一种音频处理装置,包括:
信息输入模块,用于将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
信息还原模块,用于根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
第五方面,本发明提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施方式任一项所述的音频处理方法。
第六方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的音频处理方法。
本发明实施例的有益效果包括,例如:通过获得目标音频数据中每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,并对设定类型的音频数据的采样点信息进行加速处理,进而基于采样点信息、起始点和终止点的时间戳信息,提取得到内容表征信息,基于内容表征信息便可表征及复原得到原始音频数据,有效提高了音频压缩率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种应用场景示意图。
图2示出了本发明实施例提供的一种音频处理方法的流程示意图。
图3示出了本发明实施例提供的一种神经网络模型的结构示意图。
图4示出了本发明实施例提供的一种音频处理方法的另一流程示意图。
图5示出了本发明实施例提供的一种整体流程示意图。
图6示出了本发明实施例提供的一种第一音频处理装置的示例性结构框图。
图7示出了本发明实施例提供的一种第二音频处理装置的示例性结构框图。
图标:100-电子设备;110-存储器;120-处理器;130-通信模块;140-第一音频处理装置;141-信息获得模块;142-信息处理模块;150-第二音频处理装置;151-信息输入模块;152-信息还原模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
请参照图1,是本实施例提供的一种电子设备100的方框示意图,本实施例中的电子设备100可以为能够进行数据交互、处理的服务器、处理设备、处理平台等。所述电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。
通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请结合参阅图2,为本发明实施例提供的一种音频处理方法的流程示意图,可以由图1所述电子设备100执行,例如可以由电子设备100中的处理器120执行。该音频处理方法包括S110至S150,基于该音频处理方法,可以实现对音频数据的编码。
S110,对待编码音频数据进行预处理,得到目标音频数据。
S120,对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点。
S130,提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。
S140,对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理。
S150,基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
本实施例中,通过对设定类型的音频数据的采样点信息进行加速处理,提高了针对设定类型的音频数据单位时间长度表征的内容。对于非设定类型的音频数据,直接通过采样点信息、起始点和终止点的时间戳信息进行表征。基于提取到的内容表征信息便可对目标音频数据进行整体表征,从而高效地实现了对目标音频数据的压缩,提高了目标音频数据的整体压缩率。通过对内容表征信息的存储和传输便可实现对目标音频数据的存储和传输,有效节约了目标音频数据所需的存储空间,降低了存储的成本,加快了目标音频数据的传输效率。
S110中,预处理可以有多种,例如,可以包括预加重、滤波、分帧、降噪、去混响、重采样等中的一种或多种。在一种实现方式中,对待编码音频数据进行预处理,得到目标音频数据的步骤可以包括:将待编码音频数据进行重采样,将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。例如,可以将待编码音频数据进行重采样到24k,采用降噪处理算法对重采样到24k的待编码音频数据进行降噪和去混响,从而得到目标音频数据。
S120中,对目标音频数据进行端点检测,获得目标音频数据中每种类型的音频数据的起始点和终止点的方式有多种,例如,可以通过对目标音频数据进行幅值分析、特征提取等获取到目标音频数据中每种类型的音频数据的起始点和终止点。又例如,可以通过设定的端点检测算法获取到目标音频数据中每种类型的音频数据的起始点和终止点。示例性地,可以使用语音端点检测(VoiceActiveDetection,VAD)进行端点检测,获取到目标音频数据中每种类型的音频数据的起始点和终止点。
目标音频数据中音频数据的类型可能为一种或者多种,例如,可能包括人声、噪声和静音中的至少一种。相应地,对目标音频数据进行端点检测,获得的为静音的起始点和终止点、人声的起始点和终止点,以及噪声的起始点和终止点中的至少一种。
可以理解的是,以上对于音频数据类型的划分仅为示例,音频数据的类型还可以包括其他,或者进行更细的划分。例如,还可以针对不同场景下的人声、噪声和静音分别作进一步细分。本实施例对此不做限制。
在目标音频数据中包括两种以上音频数据的情况下,若要实现对目标音频数据的可靠表征,需确定目标音频数据中每种类型的音频数据所处的时间段和对应的数字化表达。在一种实现方式中,在以采样点信息表征音频数据的数字化表达如幅值的情况下,提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。如在目标音频数据包括人声、噪声和静音的情况下,分别提取人声、噪声和静音的采样点信息以及端点(起始点和终止点)的时间戳信息。
其中,基于不同类型的音频数据各自的特性,不同类型的音频数据的采样点信息可以有不同表达。例如,如在目标音频数据包括人声数据、噪声数据和静音数据的情况下,静音数据的采样点信息可以为设定数量如某一个或几个、用于表征静音数据的幅值。噪声数据的采样点信息可以为设定数量如某一或具有时间先后顺序的若干个、用于表征噪声数据的幅值。人声数据的采样点信息可以为对人声的幅值的连续表达。
在通过采样点信息实现对音频数据的数字化表达的基础上,为了进一步提高压缩率,对目标音频数据中设定类型的音频数据的采样点信息进行加速处理。其中,设定类型的音频数据可以灵活设定,例如,可以由用户指定。又例如,可以根据采样点信息的大小进行选定。示例性地,由于不同类型的音频数据的采样点信息的大小不同,其中,人声的采样点信息由于是对人声的幅值的连续表达,数据量较大,因而,将人声数据作为设定类型的音频数据,对人声数据的采样点信息进行加速处理,从而提高加速处理后的人声数据的采样点信息单位时间长度表征的内容。
以上对于设定类型的音频数据的选择仅为举例,在其他实现方式中,设定类型的音频数据还可以为其他,例如,在需要实现噪声的可靠记录与分析的场景中,可以将噪声数据确定为设定类型的音频数据,噪声的采样点信息可以为对噪声的幅值的连续表达,该种情况下,噪声数据的采样点信息的数据量较大,因而,将噪声数据作为设定类型的音频数据,对噪声数据的采样点信息进行加速处理,从而提高噪声数据加速处理后的采样点信息单位时间长度表征的内容。又例如,还可以将两种以上的音频数据均作为设定类型的音频数据。本实施例对此不作限制。
本实施中,内容表征信息可以通过多种方式提取得到,请结合参阅图3,本实施例提供了其中一种实现方式,基于鲁棒性和收敛性考虑,训练鲁棒性高且易于收敛的神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络。
其中,神经网络模型的训练原理包括:给定y=fx,学习从x到y的映射。本实施例中,神经网络模型的训练过程是学习音频数据和高维信息表征(内容表征信息)之间的映射关系。通过一组神经网络单元,例如多层级联卷积神经网络(Convolutional NeuralNetworks,CNN)中的全连接层(FClayer)、门控循环单元(Gated Recurrent Unit,GRU)、长短期记忆人工神经网络(Understanding LSTM Networks,LSTM)等模型来刻画复杂的函数关系。
在进行内容表征信息提取阶段,调用该神经网络模型,将设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及各种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息。将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合,将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。
神经网络模型的架构可以灵活设置,例如,可以采用CNN和时延神经网络(Time-Delay Neural Network,TDNN)结构,从加速处理后的采样点信息中提取对应的内容表征信息。本实施例中的内容表征信息可以为一组表征了内容的向量,通过神经网络模型对大量数据学习得到。
其中,神经网络模型可以仅对加速处理后的采样点信息进行信息抽取,保留其他类型(非设定类型)的音频数据的采样点信息,以及各类型的音频数据的时间戳信息的原始内容,进而形成用于表征目标音频数据的整体内容表征信息。
采用上述音频处理方法,能够将目标音频数据进行编码压缩,用较少的内容表征信息对目标音频数据进行表征。通过对内容表征信息的存储和传输便可实现对目标音频数据的存储和传输。由于内容表征信息的数据量远小于目标音频数据的数据量,因而能够显著降低存储和传输成本。
基于上述方案进行目标音频数据的编码后,只需通过解码流程,对内容表征信息进行复原,便可得到无损压缩。
请参阅图4,为本发明实施例提供的一种音频处理方法的流程示意图,可以由图1所述电子设备100执行,例如可以由电子设备100中的处理器120执行。该音频处理方法包括S210、S220、S230和S240,基于该音频处理方法,可以实现对音频数据的解码。
S210,将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息。
S220,根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息。
S230,对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据。
S240,根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
与前述编码过程类似,在内容表征信息通过神经网络模型得到的情况下,解码阶段,通过神经网络模型进行数据还原,解码阶段的实现流程可以视为编码阶段的逆过程。
示例性的,神经网络模型可以包括采样层、全连接层和循环神经网络,在设定类型的音频数据的采样点信息为人声数据的采样点信息的情况下,将内容表征信息输入神经网络模型,神经网络模型通过以下方式复原得到音频数据加速处理后的采样点信息:将所述内容表征信息输入所述循环神经网络,得到融合后的信息;将所述融合后的信息输入所述全连接层,得到降采样后的响度信息、音高信息和内容信息;将所述降采样后的响度信息、音高信息和内容信息输入所述采样层进行升采样,得到降采样前的响度信息、音高信息和内容信息,将所述降采样前的响度信息、音高信息和内容信息进行融合,得到所述人声数据加速处理后的采样点信息。
对人声数据加速处理后的采样点信息进行平滑、反归一化和重采样,得到待还原人声数据,并根据人声数据的起始点和终止点的时间戳信息,在时间轴上对待还原人声数据进行处理如重排,从而还原得到原始人声数据。
设定类型的音频数据还可以为其他,例如,可以为噪声数据,在噪声数据为设定类型的音频数据的情况下,采用与上述相同的方式还原得到噪声数据。又例如,设定类型的音频数据还可以为两种以上,每种设定类型的音频数据均采用与上述相同的方式进行还原。
其中,在音频数据的类型包括人声、静音和噪声,人声数据为设定类型的音频数据的情况下,在基于待还原人声数据,在时间轴上进行重排之后,还可以重采样到指定频率,从而得到原始人声数据。
对于噪声数据和静音数据,可以不执行S220至S240的步骤,而直接查找出噪声数据和静音数据的起始点和终止点的时间戳信息,采用预设数据代替噪声数据和静音数据,进行还原。示例性地,可以基于所述噪声数据的起始点和终止点的时间戳信息及预设噪声数据得到待还原噪声数据,基于所述静音数据的起始点和终止点的时间戳信息及预设静音数据得到待还原静音数据。将所述待还原噪声数据重采样到设定采样率,还原得到噪声数据,将所述待还原静音数据重采样到设定采样率,还原得到静音数据。
根据还原得到的各种音频数据的起始点和终止点的时间戳信息,在时间轴上对各音频数据进行重排,便可还原得到目标音频数据。
其中,采样率表示每秒音频包含采样点个数。
本实施例中,可以根据采样点信息确定音频类型。例如,可以预先设定静音、噪声和人声分别对应的采样点信息的特性,从而在解码阶段,通过对内容表征信息中各采样点信息的特性分析,得出所要还原的目标音频数据包括的音频类型。进而在确定存在噪声数据时,调用预设噪声数据进行替代,在确定存在静音数据时,调用预设静音数据进行替代,在确定存在人声数据时,采用步骤S220至S240进行还原。
请结合参阅图5,采用上述方案将音频数据编码为压缩率较高的内容表征信息,从而通过数据量较少的内容表征信息实现对音频数据的表征,通过对数据量较少的内容表征信息进行存储和传输便可实现对数据量较大的音频数据的存储和传输,节约了音频数据的存储成本,提高了传输效率。通过神经网络模型对内容表征信息进行解码便可还原得到音频数据,在提高压缩率的同时,能够基本无损地复原整个音频数据的音频效果。实现较为便捷,适合大规模推广应用。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种用于实现图2所示流程的音频处理装置的实现方式。请参阅图6,图6为本发明实施例提供的一种第一音频处理装置140的功能模块图,该第一音频处理装置140可以应用于图1所示电子设备100。需要说明的是,本实施例所提供的第一音频处理装置140,其基本原理及产生的技术效果和上述图2所示实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该第一音频处理装置140包括信息获得模块141和信息处理模块142。
其中,信息获得模块141用于对待编码音频数据进行预处理,得到目标音频数据;对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。
信息处理模块142用于对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种用于实现图4所示流程的音频处理装置的实现方式。请参阅图7,图7为本发明实施例提供的一种第二音频处理装置150的功能模块图,该第二音频处理装置150可以应用于图1所示电子设备100。需要说明的是,本实施例所提供的第二音频处理装置150,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该第二音频处理装置150包括信息输入模块151和信息还原模块152。
信息输入模块151用于将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息。
信息还原模块152用于根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
在上述基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述的音频处理方法。
本发明实施例中的上述方案和目前市面现有方案相比,大幅度提高了音频数据的压缩率,同时复原精度并未受到损失。由于大幅度降低了存储和传输成本,该技术方案在音频数据存储和编解码网络媒体流传输等领域,具备相当程度的实用价值。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种音频处理方法,其特征在于,包括:
对待编码音频数据进行预处理,得到目标音频数据;
对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;
提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;
基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
2.根据权利要求1所述的音频处理方法,其特征在于,所述提取得到内容表征信息的步骤,包括:
调用神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络;
将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息;
将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合;
将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。
3.根据权利要求1所述的音频处理方法,其特征在于,所述音频数据的类型包括人声、噪声和静音,所述设定类型的音频数据为人声数据;
所述人声数据的采样点信息为对所述人声数据的幅值的连续表达;静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值;噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。
4.根据权利要求1所述的音频处理方法,其特征在于,所述对待编码音频数据进行预处理,得到目标音频数据的步骤,包括:
将待编码音频数据进行重采样;
将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。
5.一种音频处理方法,其特征在于,包括:
将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;
对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;
根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
6.根据权利要求5所述的音频处理方法,其特征在于,所述设定类型的音频数据包括人声数据,所述神经网络模型包括采样层、全连接层和循环神经网络,所述根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息的步骤,包括:
将所述内容表征信息输入所述循环神经网络,得到融合后的信息;
将所述融合后的信息输入所述全连接层,得到降采样后的响度信息、音高信息和内容信息;
将所述降采样后的响度信息、音高信息和内容信息输入所述采样层进行升采样,得到降采样前的响度信息、音高信息和内容信息,将所述降采样前的响度信息、音高信息和内容信息进行融合,得到所述人声数据加速处理后的采样点信息。
7.根据权利要求5所述的音频处理方法,其特征在于,在所述音频数据包括噪声数据和静音数据的情况下,所述方法还包括还原得到噪声数据和静音数据的步骤,该步骤包括:
查找出噪声数据和静音数据的起始点和终止点的时间戳信息;
基于所述噪声数据的起始点和终止点的时间戳信息及预设噪声数据得到待还原噪声数据,基于所述静音数据的起始点和终止点的时间戳信息及预设静音数据得到待还原静音数据;
将所述待还原噪声数据重采样到设定采样率,还原得到噪声数据,将所述待还原静音数据重采样到设定采样率,还原得到静音数据。
8.一种音频处理装置,其特征在于,包括:
信息获得模块,用于对待编码音频数据进行预处理,得到目标音频数据;对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
信息处理模块,用于对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
9.一种音频处理装置,其特征在于,包括:
信息输入模块,用于将内容表征信息输入神经网络模型,所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息;
信息还原模块,用于根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息;对复原得到的采样点信息进行平滑、反归一化和重采样,得到待还原音频数据;根据所述设定类型的音频数据的起始点和终止点的时间戳信息,在时间轴上对所述待还原音频数据进行处理,还原得到原始音频数据。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一项所述的音频处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行权利要求1至7任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610926.2A CN113345446B (zh) | 2021-06-01 | 2021-06-01 | 音频处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610926.2A CN113345446B (zh) | 2021-06-01 | 2021-06-01 | 音频处理方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345446A true CN113345446A (zh) | 2021-09-03 |
CN113345446B CN113345446B (zh) | 2024-02-27 |
Family
ID=77474375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110610926.2A Active CN113345446B (zh) | 2021-06-01 | 2021-06-01 | 音频处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345446B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
CN1419687A (zh) * | 1998-11-23 | 2003-05-21 | 艾利森电话股份有限公司 | 用于音频信号的改进的语音/噪音分类的复合信号激活探测 |
US20050053130A1 (en) * | 2003-09-10 | 2005-03-10 | Dilithium Holdings, Inc. | Method and apparatus for voice transcoding between variable rate coders |
US20070265842A1 (en) * | 2006-05-09 | 2007-11-15 | Nokia Corporation | Adaptive voice activity detection |
CN101359474A (zh) * | 2007-07-30 | 2009-02-04 | 向为 | 一种自适应多速率宽带编码方法及编码器 |
US20110103468A1 (en) * | 2009-11-04 | 2011-05-05 | Qualcomm Incorporated | Controlling video encoding using audio information |
US20160086617A1 (en) * | 2014-09-24 | 2016-03-24 | Nuance Communications, Inc. | System and method for addressing discontinuous transmission in a network device |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN109859730A (zh) * | 2019-03-25 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种音频处理方法及装置 |
-
2021
- 2021-06-01 CN CN202110610926.2A patent/CN113345446B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
CN1419687A (zh) * | 1998-11-23 | 2003-05-21 | 艾利森电话股份有限公司 | 用于音频信号的改进的语音/噪音分类的复合信号激活探测 |
US20050053130A1 (en) * | 2003-09-10 | 2005-03-10 | Dilithium Holdings, Inc. | Method and apparatus for voice transcoding between variable rate coders |
US20070265842A1 (en) * | 2006-05-09 | 2007-11-15 | Nokia Corporation | Adaptive voice activity detection |
CN101359474A (zh) * | 2007-07-30 | 2009-02-04 | 向为 | 一种自适应多速率宽带编码方法及编码器 |
US20110103468A1 (en) * | 2009-11-04 | 2011-05-05 | Qualcomm Incorporated | Controlling video encoding using audio information |
TW201143445A (en) * | 2009-11-04 | 2011-12-01 | Qualcomm Inc | Controlling video encoding using audio information |
US20160086617A1 (en) * | 2014-09-24 | 2016-03-24 | Nuance Communications, Inc. | System and method for addressing discontinuous transmission in a network device |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN109859730A (zh) * | 2019-03-25 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种音频处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113345446B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN112565777B (zh) | 基于深度学习模型视频数据传输方法、系统、介质及设备 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
CN113380262B (zh) | 一种基于注意力机制与扰动感知的声音分离方法 | |
CN112420065B (zh) | 音频降噪处理方法和装置及设备 | |
CN116233445B (zh) | 视频的编解码处理方法、装置、计算机设备和存储介质 | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN113345446B (zh) | 音频处理方法、装置、电子设备和计算机可读存储介质 | |
RU2227324C2 (ru) | Устройство и способ кодирования и декодирования ключевых данных для графической анимации | |
KR102334390B1 (ko) | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 | |
CN115223244A (zh) | 触觉动作仿真方法、装置、设备和存储介质 | |
JP4603429B2 (ja) | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 | |
CN113409792A (zh) | 一种语音识别方法及其相关设备 | |
CN113628338A (zh) | 一种采样重建方法、装置、计算机设备及存储介质 | |
JP4645866B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP4964114B2 (ja) | 符号化装置、復号化装置、符号化方法、復号化方法、符号化プログラム、復号化プログラム、および記録媒体 | |
CN113851107A (zh) | 音频转换方法、装置、电子设备和计算机可读存储介质 | |
EP0293415A1 (en) | Method and apparatus for reversible compression of information-carrying symbols | |
GB2389217A (en) | Speech recognition system | |
CN112218080B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN115914630B (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN117292024B (zh) | 基于语音的图像生成方法、装置、介质及电子设备 | |
JP3787986B2 (ja) | 音波形データ圧縮・復元方式とその動作を実行するためのプログラムを記録した記録媒体 | |
CN115549689A (zh) | 数据压缩方法、数据解压缩方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |