CN111341323B - 声纹识别训练数据扩增方法、系统、移动终端及存储介质 - Google Patents

声纹识别训练数据扩增方法、系统、移动终端及存储介质 Download PDF

Info

Publication number
CN111341323B
CN111341323B CN202010085094.2A CN202010085094A CN111341323B CN 111341323 B CN111341323 B CN 111341323B CN 202010085094 A CN202010085094 A CN 202010085094A CN 111341323 B CN111341323 B CN 111341323B
Authority
CN
China
Prior art keywords
voice
data
decoding
coding
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010085094.2A
Other languages
English (en)
Other versions
CN111341323A (zh
Inventor
张广学
肖龙源
蔡振华
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010085094.2A priority Critical patent/CN111341323B/zh
Publication of CN111341323A publication Critical patent/CN111341323A/zh
Application granted granted Critical
Publication of CN111341323B publication Critical patent/CN111341323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供了一种声纹识别训练数据扩增方法、系统、移动终端及存储介质,该方法包括:获取纯净原始语音进行加噪处理,得到至少一个加噪语音;将纯净原始语音与加噪语音进行混合,以得到混合语音,采用至少两种编码方式对混合语音进行编码,得到编码数据;将编码数据通过至少两个信道进行传输,以得到语音传输数据,对语音传输数据进行解码,以得到语音解码数据;将混合语音与语音解码数据进行匹配,并根据匹配结果将混合语音中的语音信息与语音解码数据中解码信息对应进行存储,以得到训练数据集。本发明通过采用不同的编解码技术,并基于将纯净语音通过不同信道进行传输,以使对训练数据集进行了数据扩增,有效的提高了跨信道声纹识别的准确率。

Description

声纹识别训练数据扩增方法、系统、移动终端及存储介质
技术领域
本发明声纹识别技术领域,尤其涉及一种声纹识别训练数据扩增方法、系统、移动终端及存储介质。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。
现有声纹识别方案是提前采集至少一个用户的纯净语音数据,并对纯净语音数据进行特征值提取,将提取到的特征值输入声纹模型得到N维声纹向量。后面在做确认或者识别的时候,先获取任意一个用户的语音数据,然后对语音数据提取特征值,将特征值输入声纹模型,得到N维声纹向量,再与声纹库里原有的声纹向量做相似度匹配,每匹配一个用户会得到一个分值,分值最高并且大于阈值的声纹为待测语音所对应的用户。但现有技术中均是采用纯净语音的方式进行声纹识别模型的训练,由于声纹识别过程中待识别的声纹数据来源的信道和编解码方式不同,进而容易导致待识别声纹与纯净语音之间的声纹识别准确率低下。
发明内容
本发明实施例的目的在于提供一种声纹识别训练数据扩增方法、系统、移动终端及存储介质,旨在解决现有的声纹识别过程中,由于采用纯净语音作为声纹识别模型的训练数据集所导致的声纹识别准确率低下的问题。
本发明实施例是这样实现的,一种声纹识别训练数据扩增方法,所述方法包括:
获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。
更进一步的,所述对所述纯净原始语音进行加噪处理的步骤包括:
采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。
更进一步的,所述采用至少两种编码方式对所述混合语音进行编码的步骤包括:
对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码,以得到所述编码数据。
更进一步的,所述将所述编码数据通过至少两个信道进行传输的步骤包括:
将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输,以得到语音传输数据。
更进一步的,所述将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储的步骤包括:
根据所述混合语音的编码结果,对所述混合语音中的语音信息进行编码标识;
根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识;
将所述编码标识与所述解码标识进行匹配,当所述编码标识与所述解码标识匹配成功时,将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储。
更进一步的,所述方法还包括:
将所述训练数据集输入声纹识别模型,并采用x-vectorDNN的方式训练所述声纹识别模型,直至所述声纹识别模型收敛;
获取待识别声纹,并控制所述声纹识别模型对所述待识别声纹进行识别,以得到声纹识别结果。
本发明实施例的另一目的在于提供一种声纹识别训练数据扩增系统,所述系统包括:
语音加噪模块,用于获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
语音编码模块,用于将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
语音解码模块,用于将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
数据存储模块,用于将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。
更进一步的,所述语音加噪模块还用于:
采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别训练数据扩增方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的声纹识别训练数据扩增方法的步骤。
本发明实施例,通过采用不同的编解码技术,并基于将纯净语音通过不同信道进行传输,以使对训练数据集进行了数据扩增,有效的提高了跨信道声纹识别的准确率,防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。
附图说明
图1是本发明第一实施例提供的语音分离方法的流程图;
图2是本发明第二实施例提供的语音分离方法的流程图;
图3是本发明第三实施例提供的语音分离系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的声纹识别训练数据扩增方法的流程图,包括步骤:
步骤S10,获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
其中,该纯净原始语音为任意用户的声纹语音,该声纹语音已经过去噪处理,即该声纹语音中未携带有噪声或背景声等音频数据;
具体的,由于一般情况下,进行声纹识别的环境是存在噪声的,使得在应对有噪环境时对训练数据进行加噪处理是必要的,因此,该步骤通过对该纯净原始语音进行加噪处理,以使后续得到的训练数据能有效的应对声纹识别过程中的有噪环境,以提高声纹识别的准确率;
步骤S20,将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
其中,该编码方式可以根据需求进行数量和方式的选择,以达到对混合语音的编码效果;
具体的,该步骤中通过对采用至少两种编码方式对所述混合语音进行编码的设计,有效的对训练数据集进行了数据扩增,以得到基于多编码的训练数据集,提高了后续声纹识别的准确率;
步骤S30,将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
其中,可以将该编码数据中的编码信息分别采用至少两个信道进行传输,或根据编码信息的顺序依序轮流采用至少两个信道进行传输,以得到该语音传输数据;
具体的,该步骤中,通过将所述编码数据通过至少两个信道进行传输的设计,有效的对训练数据集进行了数据扩增,以得到基于多通道的训练数据集,提高了后续声纹识别的准确率;
步骤S40,将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集;
其中,通过将所述混合语音与所述语音解码数据进行匹配的设计,以查询该混合语音中语音信息与该语音解码数据中解码信息之间的对应关系,并基于查询到的对应关系进行存储,以得到该训练数据集;
具体的,该步骤中的训练数据集是基于加噪处理、多编码和多信道传输得到的数据,能有效的应对加噪环境和跨信道的声纹识别,提高了声纹识别的准确性;
本实施例,通过采用不同的编解码技术,并基于将纯净语音通过不同信道进行传输,以使对训练数据集进行了数据扩增,有效的提高了跨信道声纹识别的准确率,防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。
实施例二
请参阅图2,是本发明第二实施例提供的声纹识别训练数据扩增方法的流程图,包括步骤:
步骤S11,获取纯净原始语音,并采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音;
其中,通过基于mfcc特征的方式对应在该纯净原始语音中添加语音回响、语音噪声、背景音乐声和背景说话人声的设计,以使应对后续声纹识别过程中声纹环境出现语音回响、语音噪声、背景音乐声和背景说话人声的现象,进而提高了后续声纹识别的准确性;
步骤S21,将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音;
步骤S31,对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码,以得到所述编码数据;
其中,通过对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码的设计,有效的对训练数据集进行了数据扩增,以得到基于多编码的训练数据集,提高了后续声纹识别的准确率;
步骤S41,将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输,以得到语音传输数据;
其中,通过将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输的设计,有效的对训练数据集进行了数据扩增,以得到基于多通道的训练数据集,提高了后续声纹识别的准确率;
步骤S51,对所述语音传输数据进行解码,以得到语音解码数据,并根据所述混合语音的编码结果,对所述混合语音中的语音信息进行编码标识;
其中,通过对所述混合语音中的语音信息进行编码标识的设计,以使将混合语音中的语音数据与编码后的编码数据中对应的编码信息进行标记,进而有效的方便了该语音数据与该编码信息之间的查询;
步骤S61,根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识;
其中,通过根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识的设计,以使将该语音传输数据中的传输信息与该语音解码数据中的解码信息对应进行标记,进而有效的方便了该传输信息与该解码信息之间的对应查询;
步骤S71,将所述编码标识与所述解码标识进行匹配,当所述编码标识与所述解码标识匹配成功时,将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储,以得到训练数据集;
其中,通过将所述编码标识与所述解码标识进行匹配的设计,以根据该编码数据中的编码信息和传输后得到的传输信息之间的对应关系,以查询该语音信息和与之对应的解码信息,并将查询到的对应关系进行存储,以得到该训练数据集;
例如混合语音中的语音信息为a,编码后得到的编码信息为A1,A1传输后的数据为A2,A2解码后的得到的解码信息为A3,因此,基于该A1与A2之间的对应关系,以查询到a与A3之间的对应关系;
步骤S81,将所述训练数据集输入声纹识别模型,并采用x-vectorDNN的方式训练所述声纹识别模型,直至所述声纹识别模型收敛;
步骤S91,获取待识别声纹,并控制所述声纹识别模型对所述待识别声纹进行识别,以得到声纹识别结果;
本实施例,通过采用不同的编解码技术,并基于将纯净语音通过不同信道进行传输,以使对训练数据集进行了数据扩增,有效的提高了跨信道声纹识别的准确率,防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。
实施例三
请参阅图3,是本发明第三实施例提供的声纹识别训练数据扩增系统100的结构示意图,包括:语音加噪模块10、语音编码模块11、语音解码模块12和数据存储模块13,其中:
语音加噪模块10,用于获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音。
其中,所述语音加噪模块10还用于:采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。
语音编码模块11,用于将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据。
其中,所述语音编码模块11还用于:对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码,以得到所述编码数据。
语音解码模块12,用于将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据。
其中,所述语音解码模块12还用于:将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输,以得到语音传输数据。
数据存储模块13,用于将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。
其中,所述数据存储模块13还用于:根据所述混合语音的编码结果,对所述混合语音中的语音信息进行编码标识;
根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识;
将所述编码标识与所述解码标识进行匹配,当所述编码标识与所述解码标识匹配成功时,将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储。
所述声纹识别训练数据扩增系统100还包括:
声纹识别模块14,用于将所述训练数据集输入声纹识别模型,并采用x-vectorDNN的方式训练所述声纹识别模型,直至所述声纹识别模型收敛;
获取待识别声纹,并控制所述声纹识别模型对所述待识别声纹进行识别,以得到声纹识别结果。
本实施例,通过采用不同的编解码技术,并基于将纯净语音通过不同信道进行传输,以使对训练数据集进行了数据扩增,有效的提高了跨信道声纹识别的准确率,防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别训练数据扩增方法,该移动终端101可以为机器人。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的声纹识别训练数据扩增系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的声纹识别训练数据扩增方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前声纹识别训练数据扩增系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述当前声纹识别训练数据扩增系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种声纹识别训练数据扩增方法,其特征在于,所述方法包括:
获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。
2.如权利要求1所述的声纹识别训练数据扩增方法,其特征在于,所述对所述纯净原始语音进行加噪处理的步骤包括:
采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。
3.如权利要求1所述的声纹识别训练数据扩增方法,其特征在于,所述采用至少两种编码方式对所述混合语音进行编码的步骤包括:
对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码,以得到所述编码数据。
4.如权利要求1所述的声纹识别训练数据扩增方法,其特征在于,所述将所述编码数据通过至少两个信道进行传输的步骤包括:
将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输,以得到语音传输数据。
5.如权利要求1所述的声纹识别训练数据扩增方法,其特征在于,所述将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储的步骤包括:
根据所述混合语音的编码结果,对所述混合语音中的语音信息进行编码标识;
根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识;
将所述编码标识与所述解码标识进行匹配,当所述编码标识与所述解码标识匹配成功时,将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储。
6.如权利要求1所述的声纹识别训练数据扩增方法,其特征在于,所述方法还包括:
将所述训练数据集输入声纹识别模型,并采用x-vector DNN的方式训练所述声纹识别模型,直至所述声纹识别模型收敛;
获取待识别声纹,并控制所述声纹识别模型对所述待识别声纹进行识别,以得到声纹识别结果。
7.一种声纹识别训练数据扩增系统,其特征在于,所述系统包括:
语音加噪模块,用于获取纯净原始语音,并对所述纯净原始语音进行加噪处理,得到至少一个加噪语音;
语音编码模块,用于将所述纯净原始语音与所述加噪语音进行混合,以得到混合语音,并采用至少两种编码方式对所述混合语音进行编码,得到编码数据;
语音解码模块,用于将所述编码数据通过至少两个信道进行传输,以得到语音传输数据,并对所述语音传输数据进行解码,以得到语音解码数据;
数据存储模块,用于将所述混合语音与所述语音解码数据进行匹配,并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储,以得到训练数据集。
8.如权利要求7所述的声纹识别训练数据扩增系统,其特征在于,所述语音加噪模块还用于:
采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声,以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的声纹识别训练数据扩增方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的声纹识别训练数据扩增方法的步骤。
CN202010085094.2A 2020-02-10 2020-02-10 声纹识别训练数据扩增方法、系统、移动终端及存储介质 Active CN111341323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085094.2A CN111341323B (zh) 2020-02-10 2020-02-10 声纹识别训练数据扩增方法、系统、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085094.2A CN111341323B (zh) 2020-02-10 2020-02-10 声纹识别训练数据扩增方法、系统、移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN111341323A CN111341323A (zh) 2020-06-26
CN111341323B true CN111341323B (zh) 2022-07-01

Family

ID=71186810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085094.2A Active CN111341323B (zh) 2020-02-10 2020-02-10 声纹识别训练数据扩增方法、系统、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN111341323B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755013B (zh) * 2020-07-07 2022-11-18 思必驰科技股份有限公司 去噪自动编码器训练方法和说话人识别系统
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质
CN113380235B (zh) * 2021-08-13 2021-11-16 中国科学院自动化研究所 基于知识迁移的电话信道虚假语音鉴别方法及存储介质
CN115862638B (zh) * 2023-03-01 2023-12-12 北京海上升科技有限公司 基于区块链的大数据安全存储方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US8126029B2 (en) * 2005-06-08 2012-02-28 Polycom, Inc. Voice interference correction for mixed voice and spread spectrum data signaling
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN108922518B (zh) * 2018-07-18 2020-10-23 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109192216A (zh) * 2018-08-08 2019-01-11 联智科技(天津)有限责任公司 一种声纹识别用训练数据集仿真获取方法及其获取装置
CN110211575B (zh) * 2019-06-13 2021-06-04 思必驰科技股份有限公司 用于数据增强的语音加噪方法及系统

Also Published As

Publication number Publication date
CN111341323A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111341323B (zh) 声纹识别训练数据扩增方法、系统、移动终端及存储介质
CN111243603B (zh) 声纹识别方法、系统、移动终端及存储介质
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN107578769A (zh) 语音数据标注方法和装置
Zhang et al. X-tasnet: Robust and accurate time-domain speaker extraction network
CN103413549A (zh) 语音交互的方法、系统以及交互终端
IL298975B2 (en) Adaptive processing with multiple media processor nodes
CN111312259B (zh) 声纹识别方法、系统、移动终端及存储介质
CN111145758A (zh) 声纹识别方法、系统、移动终端及存储介质
CN1877697A (zh) 一种基于分布式结构的说话人确认方法
KR20110099434A (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN112507311A (zh) 一种基于多模态特征融合的高安全性身份验证方法
CN113362829B (zh) 说话人验证方法、电子设备及存储介质
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN108399913B (zh) 高鲁棒性音频指纹识别方法及系统
CN114429635A (zh) 书本管理方法
CN113593565A (zh) 一种智能家庭设备管控方法和系统
CN111402899B (zh) 跨信道声纹识别方法及装置
CN103180847B (zh) 音乐查询方法和装置
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN115691510A (zh) 一种基于随机屏蔽训练的声纹识别方法及计算机设备
CN114171032A (zh) 跨信道声纹模型训练方法、识别方法、装置及可读介质
US11257503B1 (en) Speaker recognition using domain independent embedding
CN113990344A (zh) 一种基于声纹特征的多人语音分离方法、设备及介质
Kim et al. Disentangled dimensionality reduction for noise-robust speaker diarisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant