JP2021007216A5 - - Google Patents

Download PDF

Info

Publication number
JP2021007216A5
JP2021007216A5 JP2020096190A JP2020096190A JP2021007216A5 JP 2021007216 A5 JP2021007216 A5 JP 2021007216A5 JP 2020096190 A JP2020096190 A JP 2020096190A JP 2020096190 A JP2020096190 A JP 2020096190A JP 2021007216 A5 JP2021007216 A5 JP 2021007216A5
Authority
JP
Japan
Prior art keywords
signal
sound source
image
audio
channel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020096190A
Other languages
English (en)
Other versions
JP2021007216A (ja
Filing date
Publication date
Priority claimed from US16/455,668 external-priority patent/US11082460B2/en
Application filed filed Critical
Publication of JP2021007216A publication Critical patent/JP2021007216A/ja
Publication of JP2021007216A5 publication Critical patent/JP2021007216A5/ja
Pending legal-status Critical Current

Links

Claims (10)

  1. 複数の音声入力デバイスによって検出された音声入力を備える多チャンネル音声信号を受信することと、
    映像入力デバイスによって撮像された画像を受信することと、
    前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定することと、
    前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定することと、
    前記第2信号に少なくとも部分的に基づいて、出力音声信号を生成するように前記多チャンネル音声信号を処理することと、
    を含む
    方法。
  2. 更に、
    複数の画像を受信することと、
    前記複数の画像において或る音源を前記対象音源として識別することと、
    前記複数の画像に少なくとも部分的に基づいて前記音源について口唇動き検出を行うことと、
    を含み、
    前記第2信号が、前記口唇動き検出に更に基づいている
    請求項1に記載の方法。
  3. 前記多チャンネル音声信号を処理することは、
    前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び/又は、前記対象音源の唇の動きが検出されたかに少なくとも部分的に基づいてミュートされた音声を生成することを含む
    請求項1または2に記載の方法。
  4. 更に、
    前記画像において少なくとも一の顔を検出することと、
    事前に定義された顔識別子に少なくとも部分的に基づいて、前記少なくとも一の顔の一つが、前記対象音源であると識別することと
    を含む
    請求項1から3のいずれか1項に記載の方法。
  5. 更に、前記多チャンネル音声信号に対して音声アクティビティ検出(VAD)を行ってVAD信号を生成することを含み、
    前記第2信号が、前記VAD信号に少なくとも部分的に基づいて規定される
    請求項1から4のいずれか1項に記載の方法。
  6. 更に、
    前記画像における前記対象音源の位置を特定することと、
    前記画像を処理して前記位置に少なくとも部分的に基づいて出力映像信号を生成することを備える
    請求項1から5のいずれか1項に記載の方法。
  7. 前記画像を処理することが、前記位置に少なくとも部分的に基づいて前記画像の一部をぼかして前記出力映像信号を生成することを含む
    請求項に記載の方法。
  8. 前記対象音源が前記画像にいないと判定された場合、前記出力映像信号が、全体がぼかされた画像又は全体が空白にされた画像を含んでいる
    請求項6または7に記載の方法。
  9. 更に、
    前記画像に少なくとも部分的に基づいて前記対象音源の凝視の方向を特定することを含み、
    前記第1信号及び/又は前記第2信号が、前記凝視の前記方向に更に基づいている
    請求項1から8のいずれか1項に記載の方法。
  10. 映像入力デバイスによって撮像された画像を受信するように構成された映像サブシステムであって、前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定するように構成された識別コンポーネントを備える映像サブシステムと、
    複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成された音声サブシステムと
    を備え、
    前記音声サブシステムが、
    前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定するように構成されたロジックコンポーネントと、
    前記第2信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントと
    を備える
    システム。
JP2020096190A 2019-06-27 2020-06-02 映像データを用いて容易化された音源強調 Pending JP2021007216A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/455,668 US11082460B2 (en) 2019-06-27 2019-06-27 Audio source enhancement facilitated using video data
US16/455,668 2019-06-27

Publications (2)

Publication Number Publication Date
JP2021007216A JP2021007216A (ja) 2021-01-21
JP2021007216A5 true JP2021007216A5 (ja) 2023-05-31

Family

ID=73887691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020096190A Pending JP2021007216A (ja) 2019-06-27 2020-06-02 映像データを用いて容易化された音源強調

Country Status (3)

Country Link
US (1) US11082460B2 (ja)
JP (1) JP2021007216A (ja)
CN (1) CN112151063A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2565315B (en) * 2017-08-09 2022-05-04 Emotech Ltd Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
FR3103955A1 (fr) * 2019-11-29 2021-06-04 Orange Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant
KR20220108076A (ko) * 2019-12-09 2022-08-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정
TWI740339B (zh) * 2019-12-31 2021-09-21 宏碁股份有限公司 自動調整特定聲源的方法及應用其之電子裝置
US11234090B2 (en) * 2020-01-06 2022-01-25 Facebook Technologies, Llc Using audio visual correspondence for sound source identification
US11087777B1 (en) 2020-02-11 2021-08-10 Facebook Technologies, Llc Audio visual correspondence based signal augmentation
US11460927B2 (en) * 2020-03-19 2022-10-04 DTEN, Inc. Auto-framing through speech and video localizations
KR20210128074A (ko) * 2020-04-16 2021-10-26 엘지전자 주식회사 립리딩 기반의 화자 검출에 따른 오디오 줌
US11303465B2 (en) 2020-07-16 2022-04-12 International Business Machines Corporation Contextually aware conferencing system
US11190735B1 (en) * 2020-07-16 2021-11-30 International Business Machines Corporation Video modifying conferencing system
US11915716B2 (en) 2020-07-16 2024-02-27 International Business Machines Corporation Audio modifying conferencing system
US11082465B1 (en) * 2020-08-20 2021-08-03 Avaya Management L.P. Intelligent detection and automatic correction of erroneous audio settings in a video conference
WO2022146169A1 (en) * 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation
WO2023021390A1 (en) * 2021-08-14 2023-02-23 Clearone, Inc. Muting specific talkers using a beamforming microphone array
WO2023234939A1 (en) * 2022-06-02 2023-12-07 Innopeak Technology, Inc. Methods and systems for audio processing using visual information

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590941B2 (en) * 2003-10-09 2009-09-15 Hewlett-Packard Development Company, L.P. Communication and collaboration system using rich media environments
US20110099017A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US20120013620A1 (en) * 2010-07-13 2012-01-19 International Business Machines Corporation Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9609273B2 (en) * 2013-11-20 2017-03-28 Avaya Inc. System and method for not displaying duplicate images in a video conference
KR102217191B1 (ko) * 2014-11-05 2021-02-18 삼성전자주식회사 단말 장치 및 그 정보 제공 방법
US9445050B2 (en) * 2014-11-17 2016-09-13 Freescale Semiconductor, Inc. Teleconferencing environment having auditory and visual cues
US9749552B2 (en) * 2014-11-18 2017-08-29 Caavo Inc Automatic identification and mapping of consumer electronic devices to ports on an HDMI switch
EP3101838A1 (en) * 2015-06-03 2016-12-07 Thomson Licensing Method and apparatus for isolating an active participant in a group of participants
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences

Similar Documents

Publication Publication Date Title
JP2021007216A5 (ja)
CN110808048B (zh) 语音处理方法、装置、系统及存储介质
JP2019133160A5 (ja)
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
WO2016183791A1 (zh) 一种语音信号处理方法及装置
JP2016146547A5 (ja)
US10424314B2 (en) Techniques for spatial filtering of speech
EP3177040A3 (en) Information processing apparatus, information processing method, and program
JP5565552B2 (ja) 映像音響処理装置、映像音響処理方法及びプログラム
JP2017067666A5 (ja)
JP2018189924A5 (ja) 信号処理装置、信号処理方法、およびプログラム
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
US20150281839A1 (en) Background noise cancellation using depth
JP2013013066A5 (ja)
JP2013115751A5 (ja)
CN111863005A (zh) 声音信号获取方法和装置、存储介质、电子设备
Arriandiaga et al. Audio-visual target speaker enhancement on multi-talker environment using event-driven cameras
US20180374196A1 (en) A Method, Apparatus or Computer Program for Controlling Image Processing of a Captured Image of a Scene to Adapt the Captured Image
JP2020188385A5 (ja)
JP2018019294A5 (ja)
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
JP2018006826A5 (ja) 音声処理装置および音声処理方法
JP2018093312A5 (ja)
JP2018074251A5 (ja) 音響処理システム、音響処理方法、プログラム
US10812898B2 (en) Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium