CN117594058A - 基于深度学习的音频话者分离方法 - Google Patents

基于深度学习的音频话者分离方法 Download PDF

Info

Publication number
CN117594058A
CN117594058A CN202410079739.XA CN202410079739A CN117594058A CN 117594058 A CN117594058 A CN 117594058A CN 202410079739 A CN202410079739 A CN 202410079739A CN 117594058 A CN117594058 A CN 117594058A
Authority
CN
China
Prior art keywords
audio
deep learning
separation method
voiceprint
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410079739.XA
Other languages
English (en)
Inventor
薛凯翔
丁卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Longyuan Information Technology Co ltd
Original Assignee
Nanjing Longyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Longyuan Information Technology Co ltd filed Critical Nanjing Longyuan Information Technology Co ltd
Priority to CN202410079739.XA priority Critical patent/CN117594058A/zh
Publication of CN117594058A publication Critical patent/CN117594058A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及音频处理技术领域,具体涉及一种基于深度学习的音频话者分离方法;采集音频,并进行多通道音频处理;根据音频滤波进行语音活动检测;进行声纹特征提取;将声纹特征向量聚类成不同的类别;将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;读取音频信息,进行可视化界面试听,通过上述方式,实现了提高在复杂的环境中音频话者分离效果。

Description

基于深度学习的音频话者分离方法
技术领域
本发明涉及音频处理技术领域,尤其涉及一种基于深度学习的音频话者分离方法。
背景技术
在多人语音通信或多人会议中,混合音频中包含多个说话者的声音,这会导致语音识别和语音分析任务变得更加复杂。目前再从混合音频中准确地分离不同说话者的声音,以便更好地理解和处理语音数据中,通常依赖于信号处理技术,如独立成分分析和盲源分离。然而,这些方法在复杂的环境中表现不佳,影响音频话者分离效果。
发明内容
本发明的目的在于提供一种基于深度学习的音频话者分离方法,旨在解决现有技术中的在复杂的环境中音频话者分离效果不佳的技术问题。
为实现上述目的,本发明采用的一种基于深度学习的音频话者分离方法,包括如下步骤:
采集音频,并进行多通道音频处理;
根据音频滤波进行语音活动检测;
进行声纹特征提取;
将声纹特征向量聚类成不同的类别;
将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
读取音频信息,进行可视化界面试听。
其中,在采集音频,并进行多通道音频处理的步骤中:
将音频格式进行转换后解码,并进行音频切割,得到音频滤波。
其中,在根据音频滤波进行语音活动检测的步骤中:
设定能量阈值;
对音频滤波进行特征提取,得到音频滤波的能量值;
对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
其中,在将声纹特征向量聚类成不同的类别的步骤中:
切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
对特征数据进行聚类操作;
输出结果。
其中,在对特征数据进行聚类操作的步骤中:
将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中。
其中,在输出结果的步骤中:
将声纹身份与其对应的簇标签关联,并存储。
其中,在进行声纹特征提取的步骤中:
采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征。
本发明的一种基于深度学习的音频话者分离方法,通过采集音频,并进行多通道音频处理;根据音频滤波进行语音活动检测;进行声纹特征提取;将声纹特征向量聚类成不同的类别;将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;读取音频信息,进行可视化界面试听;实现了提高在复杂的环境中音频话者分离效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于深度学习的音频话者分离方法的步骤流程图。
图2是本发明的语音活动检测的步骤流程图。
图3是本发明的将声纹特征向量聚类成不同的类别的步骤流程图。
具体实施方式
请参阅图1至图3,本发明提供了一种基于深度学习的音频话者分离方法,包括如下步骤:
S1:采集音频,并进行多通道音频处理,将音频格式进行转换后解码,并进行音频切割,得到音频滤波;
S2:根据音频滤波进行语音活动检测;
S3:进行声纹特征提取,采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征;
S4:将声纹特征向量聚类成不同的类别;
S5:将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
S6:读取音频信息,进行可视化界面试听。
在本实施方式中,首先采集音频,并进行多通道音频处理,将音频格式进行转换后解码,并进行音频切割,得到音频滤波;然后根据音频滤波进行语音活动检测;再进行声纹特征提取,采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征;然后将声纹特征向量聚类成不同的类别,以便于声纹识别中的身份验证及身份识别;接着将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;最后读取音频信息,进行可视化界面试听;通过上述方式实现了提高在复杂的环境中音频话者分离效果。
进一步地,在根据音频滤波进行语音活动检测的步骤中:
S21:设定能量阈值;
S22:对音频滤波进行特征提取,得到音频滤波的能量值;
S23:对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
在本实施方式中,首先设定能量阈值;然后对音频滤波进行特征提取,得到音频滤波的能量值;最后对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
进一步地,在将声纹特征向量聚类成不同的类别的步骤中:
S41:切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
S42:对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
S43:对特征数据进行聚类操作,将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中;
S44:输出结果,将声纹身份与其对应的簇标签关联,并存储。
在本实施方式中,首先切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;然后对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理,以确保各个特征维度的尺度一致,常见的标准化方法包括Z-score标准化和归一化;再对特征数据进行聚类操作,选择适合声纹特征的聚类算法,常见的包括K均值聚类、层次聚类、DBSCAN等,选择的算法应根据数据的性质和任务需求来确定,将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中;最后输出结果,将声纹身份与其对应的簇标签关联,并存储,以备后续的声纹识别使用。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种基于深度学习的音频话者分离方法,其特征在于,包括如下步骤:
采集音频,并进行多通道音频处理;
根据音频滤波进行语音活动检测;
进行声纹特征提取;
将声纹特征向量聚类成不同的类别;
将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;
读取音频信息,进行可视化界面试听。
2.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在采集音频,并进行多通道音频处理的步骤中:
将音频格式进行转换后解码,并进行音频切割,得到音频滤波。
3.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在根据音频滤波进行语音活动检测的步骤中:
设定能量阈值;
对音频滤波进行特征提取,得到音频滤波的能量值;
对比能量值和能量阈值,当能量值超过能量阈值,判断该音频为语音。
4.如权利要求3所述的基于深度学习的音频话者分离方法,其特征在于,在将声纹特征向量聚类成不同的类别的步骤中:
切割音频,根据能量值和能量阈值的对比结果,在音频中按照语音活动起止时刻进行切割,得到多条音频片段;
对音频片段进行特征提取,对切割后的多条音频片段分别进行声纹特征的提取,并将提取到的特征进行标准化处理;
对特征数据进行聚类操作;
输出结果。
5.如权利要求4所述的基于深度学习的音频话者分离方法,其特征在于,在对特征数据进行聚类操作的步骤中:
将声纹特征向量分成不同的簇或类别,每个簇代表一个声纹身份,确保相同个体的声纹特征向量被分到同一个簇中,不同个体的声纹特征向量被分到不同簇中。
6.如权利要求5所述的基于深度学习的音频话者分离方法,其特征在于,在输出结果的步骤中:
将声纹身份与其对应的簇标签关联,并存储。
7.如权利要求1所述的基于深度学习的音频话者分离方法,其特征在于,在进行声纹特征提取的步骤中:
采用ECAPA-TDNN模型处理音频中的声音和文本信息,并捕捉声音中的情感和语调特征。
CN202410079739.XA 2024-01-19 2024-01-19 基于深度学习的音频话者分离方法 Pending CN117594058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410079739.XA CN117594058A (zh) 2024-01-19 2024-01-19 基于深度学习的音频话者分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410079739.XA CN117594058A (zh) 2024-01-19 2024-01-19 基于深度学习的音频话者分离方法

Publications (1)

Publication Number Publication Date
CN117594058A true CN117594058A (zh) 2024-02-23

Family

ID=89913805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410079739.XA Pending CN117594058A (zh) 2024-01-19 2024-01-19 基于深度学习的音频话者分离方法

Country Status (1)

Country Link
CN (1) CN117594058A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN112289323A (zh) * 2020-12-29 2021-01-29 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN116129909A (zh) * 2022-12-09 2023-05-16 南京烽火星空通信发展有限公司 一种基于聚类的声纹数据自动采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112289323A (zh) * 2020-12-29 2021-01-29 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN116129909A (zh) * 2022-12-09 2023-05-16 南京烽火星空通信发展有限公司 一种基于聚类的声纹数据自动采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜囡: "《语音信号识别技术与实践》", 31 January 2020, 东北大学出版社, pages: 24 - 25 *

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN108630193B (zh) 语音识别方法及装置
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN112289323B (zh) 语音数据处理方法、装置、计算机设备和存储介质
EP3701528B1 (en) Segmentation-based feature extraction for acoustic scene classification
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN111081279A (zh) 语音情绪波动分析方法及装置
CN111429935B (zh) 一种语音话者分离方法和装置
CN111785275A (zh) 语音识别方法及装置
CN112863538B (zh) 一种基于视听网络的多模态语音分离方法及装置
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN113488063B (zh) 一种基于混合特征及编码解码的音频分离方法
CN101290766A (zh) 安多藏语语音音节切分的方法
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
US20230154487A1 (en) Method, system and device of speech emotion recognition and quantization based on deep learning
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法
CN106228984A (zh) 语音识别信息获取方法
CN117594058A (zh) 基于深度学习的音频话者分离方法
CN115063155B (zh) 一种数据标注方法、装置、计算机设备及存储介质
US20230238002A1 (en) Signal processing device, signal processing method and program
CN114155845A (zh) 服务确定方法、装置、电子设备及存储介质
CN115100701A (zh) 一种基于人工智能技术的会议发言人身份识别方法
CN117059131B (zh) 基于情绪识别的伪造音频检测方法
Gul et al. Single channel speech enhancement by colored spectrograms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20240223