CN111868823A - 一种声源分离方法、装置及设备 - Google Patents

一种声源分离方法、装置及设备 Download PDF

Info

Publication number
CN111868823A
CN111868823A CN201980006671.XA CN201980006671A CN111868823A CN 111868823 A CN111868823 A CN 111868823A CN 201980006671 A CN201980006671 A CN 201980006671A CN 111868823 A CN111868823 A CN 111868823A
Authority
CN
China
Prior art keywords
audio signal
sound source
audio
time
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980006671.XA
Other languages
English (en)
Other versions
CN111868823B (zh
Inventor
尚光双
孙凤宇
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN111868823A publication Critical patent/CN111868823A/zh
Application granted granted Critical
Publication of CN111868823B publication Critical patent/CN111868823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供一种声源分离方法、装置及设备,其中方法包括:获取第一音频信号,并获取该第一音频信号对应的至少一个图像帧,该至少一个图像帧包括目标声源的图像信息;以及,根据第一音频信号和至少一个图像帧,获取目标声源在第一音频信号中的时频分布信息;进而,根据所述时频分布信息,从所述第一音频信号中获取属于所述目标声源的第二音频信号。可以较为准确地从第一音频信号中获取属于目标声源的第二音频信号。

Description

PCT国内申请,说明书已公开。

Claims (19)

  1. PCT国内申请,权利要求书已公开。
CN201980006671.XA 2019-02-27 一种声源分离方法、装置及设备 Active CN111868823B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/076371 WO2020172828A1 (zh) 2019-02-27 2019-02-27 一种声源分离方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111868823A true CN111868823A (zh) 2020-10-30
CN111868823B CN111868823B (zh) 2024-07-05

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置
US20220343917A1 (en) * 2021-04-16 2022-10-27 University Of Maryland, College Park Scene-aware far-field automatic speech recognition
WO2023045980A1 (zh) * 2021-09-24 2023-03-30 北京有竹居网络技术有限公司 音频信号播放方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
US20160064000A1 (en) * 2014-08-29 2016-03-03 Honda Motor Co., Ltd. Sound source-separating device and sound source -separating method
US20160314789A1 (en) * 2015-04-27 2016-10-27 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN108877787A (zh) * 2018-06-29 2018-11-23 北京智能管家科技有限公司 语音识别方法、装置、服务器及存储介质
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
US20160064000A1 (en) * 2014-08-29 2016-03-03 Honda Motor Co., Ltd. Sound source-separating device and sound source -separating method
US20160314789A1 (en) * 2015-04-27 2016-10-27 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN108877787A (zh) * 2018-06-29 2018-11-23 北京智能管家科技有限公司 语音识别方法、装置、服务器及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220343917A1 (en) * 2021-04-16 2022-10-27 University Of Maryland, College Park Scene-aware far-field automatic speech recognition
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
WO2023045980A1 (zh) * 2021-09-24 2023-03-30 北京有竹居网络技术有限公司 音频信号播放方法、装置和电子设备
CN115174959A (zh) * 2022-06-21 2022-10-11 咪咕文化科技有限公司 视频3d音效设置方法及装置
CN115174959B (zh) * 2022-06-21 2024-01-30 咪咕文化科技有限公司 视频3d音效设置方法及装置

Also Published As

Publication number Publication date
WO2020172828A1 (zh) 2020-09-03

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP2019522810A (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN104205215B (zh) 自动实时言语障碍矫正
CN110837758B (zh) 一种关键词输入方法、装置及电子设备
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN111667834B (zh) 一种助听设备及助听方法
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
WO2018001125A1 (zh) 一种音频识别方法和装置
CN112786028A (zh) 声学模型处理方法、装置、设备和可读存储介质
CN112908336A (zh) 一种用于语音处理装置的角色分离方法及其语音处理装置
WO2020172828A1 (zh) 一种声源分离方法、装置及设备
CN113724694B (zh) 语音转换模型训练方法、装置、电子设备及存储介质
CN111868823B (zh) 一种声源分离方法、装置及设备
CN115798520A (zh) 语音检测的方法和装置、电子设备和存储介质
WO2023000444A1 (zh) 扬声器的杂音检测方法、装置、电子设备和存储介质
CN112185186B (zh) 一种发音纠正方法、装置、电子设备及存储介质
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN109559753B (zh) 语音识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant