CN117594058A - 基于深度学习的音频话者分离方法 - Google Patents
基于深度学习的音频话者分离方法 Download PDFInfo
- Publication number
- CN117594058A CN117594058A CN202410079739.XA CN202410079739A CN117594058A CN 117594058 A CN117594058 A CN 117594058A CN 202410079739 A CN202410079739 A CN 202410079739A CN 117594058 A CN117594058 A CN 117594058A
- Authority
- CN
- China
- Prior art keywords
- audio
- deep learning
- separation method
- voiceprint
- feature vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 21
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 239000012634 fragment Substances 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及音频处理技术领域,具体涉及一种基于深度学习的音频话者分离方法;采集音频,并进行多通道音频处理;根据音频滤波进行语音活动检测;进行声纹特征提取;将声纹特征向量聚类成不同的类别;将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;读取音频信息,进行可视化界面试听,通过上述方式,实现了提高在复杂的环境中音频话者分离效果。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于深度学习的音频话者分离方法。
背景技术
在多人语音通信或多人会议中,混合音频中包含多个说话者的声音,这会导致语音识别和语音分析任务变得更加复杂。目前再从混合音频中准确地分离不同说话者的声音,以便更好地理解和处理语音数据中,通常依赖于信号处理技术,如独立成分分析和盲源分离。然而,这些方法在复杂的环境中表现不佳,影响音频话者分离效果。
发明内容
本发明的目的在于提供一种基于深度学习的音频话者分离方法,旨在解决现有技术中的在复杂的环境中音频话者分离效果不佳的技术问题。
为实现上述目的,本发明采用的一种基于深度学习的音频话者分离方法,包括如下步骤:
采集音频,并进行多通道音频处理;
根据音频滤波进行语音活动检测;
进行声纹特征提取;
将声纹特征向量聚类成不同的类别;
将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
读取音频信息,进行可视化界面试听。
其中,在采集音频,并进行多通道音频处理的步骤中:
将音频格式进行转换后解码,并进行音频切割,得到音频滤波。
其中,在根据音频滤波进行语音活动检测的步骤中:
设定能量阈值;
对音频滤波进行特征提取,得到音频滤波的能量值;
对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
其中,在将声纹特征向量聚类成不同的类别的步骤中:
切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
对特征数据进行聚类操作;
输出结果。
其中,在对特征数据进行聚类操作的步骤中:
将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中。
其中,在输出结果的步骤中:
将声纹身份与其对应的簇标签关联,并存储。
其中,在进行声纹特征提取的步骤中:
采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征。
本发明的一种基于深度学习的音频话者分离方法,通过采集音频,并进行多通道音频处理;根据音频滤波进行语音活动检测;进行声纹特征提取;将声纹特征向量聚类成不同的类别;将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;读取音频信息,进行可视化界面试听;实现了提高在复杂的环境中音频话者分离效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于深度学习的音频话者分离方法的步骤流程图。
图2是本发明的语音活动检测的步骤流程图。
图3是本发明的将声纹特征向量聚类成不同的类别的步骤流程图。
具体实施方式
请参阅图1至图3,本发明提供了一种基于深度学习的音频话者分离方法,包括如下步骤:
S1:采集音频,并进行多通道音频处理,将音频格式进行转换后解码,并进行音频切割,得到音频滤波;
S2:根据音频滤波进行语音活动检测;
S3:进行声纹特征提取,采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征;
S4:将声纹特征向量聚类成不同的类别;
S5:将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
S6:读取音频信息,进行可视化界面试听。
在本实施方式中,首先采集音频,并进行多通道音频处理,将音频格式进行转换后解码,并进行音频切割,得到音频滤波;然后根据音频滤波进行语音活动检测;再进行声纹特征提取,采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征;然后将声纹特征向量聚类成不同的类别,以便于声纹识别中的身份验证及身份识别;接着将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;最后读取音频信息,进行可视化界面试听;通过上述方式实现了提高在复杂的环境中音频话者分离效果。
进一步地,在根据音频滤波进行语音活动检测的步骤中:
S21:设定能量阈值;
S22:对音频滤波进行特征提取,得到音频滤波的能量值;
S23:对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
在本实施方式中,首先设定能量阈值;然后对音频滤波进行特征提取,得到音频滤波的能量值;最后对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
进一步地,在将声纹特征向量聚类成不同的类别的步骤中:
S41:切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
S42:对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
S43:对特征数据进行聚类操作,将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中;
S44:输出结果,将声纹身份与其对应的簇标签关联,并存储。
在本实施方式中,首先切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;然后对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理,以确保各个特征维度的尺度一致,常见的标准化方法包括Z-score标准化和归一化;再对特征数据进行聚类操作,选择适合声纹特征的聚类算法,常见的包括K均值聚类、层次聚类、DBSCAN等,选择的算法应根据数据的性质和任务需求来确定,将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中;最后输出结果,将声纹身份与其对应的簇标签关联,并存储,以备后续的声纹识别使用。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (7)
1.一种基于深度学习的音频话者分离方法,其特征在于,包括如下步骤:
采集音频,并进行多通道音频处理;
根据音频滤波进行语音活动检测;
进行声纹特征提取;
将声纹特征向量聚类成不同的类别;
将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
读取音频信息,进行可视化界面试听。
2.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在采集音频,并进行多通道音频处理的步骤中:
将音频格式进行转换后解码,并进行音频切割,得到音频滤波。
3.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在根据音频滤波进行语音活动检测的步骤中:
设定能量阈值;
对音频滤波进行特征提取,得到音频滤波的能量值;
对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
4.如权利要求3所述的基于深度学习的音频话者分离方法,其特征在于,在将声纹特征向量聚类成不同的类别的步骤中:
切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
对特征数据进行聚类操作;
输出结果。
5.如权利要求4所述的基于深度学习的音频话者分离方法,其特征在于,在对特征数据进行聚类操作的步骤中:
将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中。
6.如权利要求5所述的基于深度学习的音频话者分离方法,其特征在于,在输出结果的步骤中:
将声纹身份与其对应的簇标签关联,并存储。
7.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在进行声纹特征提取的步骤中:
采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079739.XA CN117594058A (zh) | 2024-01-19 | 2024-01-19 | 基于深度学习的音频话者分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079739.XA CN117594058A (zh) | 2024-01-19 | 2024-01-19 | 基于深度学习的音频话者分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117594058A true CN117594058A (zh) | 2024-02-23 |
Family
ID=89913805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410079739.XA Pending CN117594058A (zh) | 2024-01-19 | 2024-01-19 | 基于深度学习的音频话者分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117594058A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524527A (zh) * | 2020-04-30 | 2020-08-11 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
CN112289323A (zh) * | 2020-12-29 | 2021-01-29 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN116129909A (zh) * | 2022-12-09 | 2023-05-16 | 南京烽火星空通信发展有限公司 | 一种基于聚类的声纹数据自动采集方法 |
-
2024
- 2024-01-19 CN CN202410079739.XA patent/CN117594058A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524527A (zh) * | 2020-04-30 | 2020-08-11 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112289323A (zh) * | 2020-12-29 | 2021-01-29 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN116129909A (zh) * | 2022-12-09 | 2023-05-16 | 南京烽火星空通信发展有限公司 | 一种基于聚类的声纹数据自动采集方法 |
Non-Patent Citations (1)
Title |
---|
姜囡: "《语音信号识别技术与实践》", 31 January 2020, 东北大学出版社, pages: 24 - 25 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN108630193B (zh) | 语音识别方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN112863538B (zh) | 一种基于视听网络的多模态语音分离方法及装置 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN113488063B (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN101290766A (zh) | 安多藏语语音音节切分的方法 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
JP5099211B2 (ja) | 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 | |
US20230154487A1 (en) | Method, system and device of speech emotion recognition and quantization based on deep learning | |
CN111968628B (zh) | 一种用于语音指令捕捉的信号精确度调节系统及方法 | |
CN106228984A (zh) | 语音识别信息获取方法 | |
CN117594058A (zh) | 基于深度学习的音频话者分离方法 | |
CN115063155B (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
US20230238002A1 (en) | Signal processing device, signal processing method and program | |
CN114155845A (zh) | 服务确定方法、装置、电子设备及存储介质 | |
CN115100701A (zh) | 一种基于人工智能技术的会议发言人身份识别方法 | |
CN117059131B (zh) | 基于情绪识别的伪造音频检测方法 | |
Gul et al. | Single channel speech enhancement by colored spectrograms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20240223 |