CN110444223B - 基于循环神经网络和声学特征的说话人分离方法及装置 - Google Patents

基于循环神经网络和声学特征的说话人分离方法及装置 Download PDF

Info

Publication number
CN110444223B
CN110444223B CN201910561692.XA CN201910561692A CN110444223B CN 110444223 B CN110444223 B CN 110444223B CN 201910561692 A CN201910561692 A CN 201910561692A CN 110444223 B CN110444223 B CN 110444223B
Authority
CN
China
Prior art keywords
speaker
word
recognized
feature vector
segmentation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910561692.XA
Other languages
English (en)
Chinese (zh)
Other versions
CN110444223A (zh
Inventor
王健宗
贾雪丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910561692.XA priority Critical patent/CN110444223B/zh
Publication of CN110444223A publication Critical patent/CN110444223A/zh
Priority to PCT/CN2019/117805 priority patent/WO2020258661A1/fr
Application granted granted Critical
Publication of CN110444223B publication Critical patent/CN110444223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
CN201910561692.XA 2019-06-26 2019-06-26 基于循环神经网络和声学特征的说话人分离方法及装置 Active CN110444223B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910561692.XA CN110444223B (zh) 2019-06-26 2019-06-26 基于循环神经网络和声学特征的说话人分离方法及装置
PCT/CN2019/117805 WO2020258661A1 (fr) 2019-06-26 2019-11-13 Procédé et appareil de séparation relatifs à une personne qui parle fondés sur un réseau neuronal récurrent et sur des caractéristiques acoustiques

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910561692.XA CN110444223B (zh) 2019-06-26 2019-06-26 基于循环神经网络和声学特征的说话人分离方法及装置

Publications (2)

Publication Number Publication Date
CN110444223A CN110444223A (zh) 2019-11-12
CN110444223B true CN110444223B (zh) 2023-05-23

Family

ID=68428733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910561692.XA Active CN110444223B (zh) 2019-06-26 2019-06-26 基于循环神经网络和声学特征的说话人分离方法及装置

Country Status (2)

Country Link
CN (1) CN110444223B (fr)
WO (1) WO2020258661A1 (fr)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112951270B (zh) * 2019-11-26 2024-04-19 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
CN110931013B (zh) * 2019-11-29 2022-06-03 北京搜狗科技发展有限公司 一种语音数据的处理方法及装置
CN111128223B (zh) * 2019-12-30 2022-08-05 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111261186B (zh) * 2020-01-16 2023-05-30 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111461173B (zh) * 2020-03-06 2023-06-20 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法
CN111223476B (zh) * 2020-04-23 2020-08-04 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111883165B (zh) * 2020-07-02 2024-06-18 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质
CN112201275B (zh) * 2020-10-09 2024-05-07 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
CN112233668B (zh) * 2020-10-21 2023-04-07 中国人民解放军海军工程大学 一种基于神经网络的语音指令及身份识别方法
CN112992175B (zh) * 2021-02-04 2023-08-11 深圳壹秘科技有限公司 一种语音区分方法及其语音记录装置
CN113642422B (zh) * 2021-07-27 2024-05-24 东北电力大学 一种连续中文手语识别方法
CN113555034B (zh) * 2021-08-03 2024-03-01 京东科技信息技术有限公司 压缩音频识别方法、装置及存储介质
CN113707130B (zh) * 2021-08-16 2024-06-14 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN113822276B (zh) * 2021-09-30 2024-06-14 中国平安人寿保险股份有限公司 基于神经网络的图片矫正方法、装置、设备及介质
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114927124A (zh) * 2022-03-04 2022-08-19 上海交通大学 一种基于语音识别和自然语言处理的实验室语音监控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
CN105427858B (zh) * 2015-11-06 2019-09-03 科大讯飞股份有限公司 实现语音自动分类的方法及系统
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN108320732A (zh) * 2017-01-13 2018-07-24 阿里巴巴集团控股有限公司 生成目标说话人语音识别计算模型的方法和装置
KR102486395B1 (ko) * 2017-11-23 2023-01-10 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法

Also Published As

Publication number Publication date
WO2020258661A1 (fr) 2020-12-30
CN110444223A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110444223B (zh) 基于循环神经网络和声学特征的说话人分离方法及装置
US10762305B2 (en) Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN1760974B (zh) 用于标识至少一个语音单元的方法
CN111128137A (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN113936643B (zh) 语音识别方法、语音识别模型、电子设备和存储介质
CN116250038A (zh) 变换器换能器:一种统一流式和非流式语音识别的模型
CN113300813B (zh) 基于注意力的针对文本的联合信源信道方法
Karita et al. Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition
KR20230175258A (ko) 반복적 화자 임베딩을 통한 종단간 화자 분리
CN109885811B (zh) 文章风格转换方法、装置、计算机设备及存储介质
Kim et al. Sequential labeling for tracking dynamic dialog states
JP2024508196A (ja) 拡張された自己注意によってコンテキストを取り込むための人工知能システム
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN113948090B (zh) 语音检测方法、会话记录产品及计算机存储介质
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113362858B (zh) 语音情感分类方法、装置、设备及介质
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
CN115691510A (zh) 一种基于随机屏蔽训练的声纹识别方法及计算机设备
CN112735392B (zh) 语音处理方法、装置、设备及存储介质
JP7291099B2 (ja) 音声認識方法及び装置
CN117581233A (zh) 适用于流应用的以双因果和非因果受限自注意力进行序列到序列处理的人工智能系统
CN114333772A (zh) 语音识别方法、装置、设备、可读存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant