JP2021007216A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2021007216A5 JP2021007216A5 JP2020096190A JP2020096190A JP2021007216A5 JP 2021007216 A5 JP2021007216 A5 JP 2021007216A5 JP 2020096190 A JP2020096190 A JP 2020096190A JP 2020096190 A JP2020096190 A JP 2020096190A JP 2021007216 A5 JP2021007216 A5 JP 2021007216A5
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound source
- image
- audio
- channel audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Claims (10)
- 複数の音声入力デバイスによって検出された音声入力を備える多チャンネル音声信号を受信することと、
映像入力デバイスによって撮像された画像を受信することと、
前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定することと、
前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定することと、
前記第2信号に少なくとも部分的に基づいて、出力音声信号を生成するように前記多チャンネル音声信号を処理することと、
を含む
方法。 - 更に、
複数の画像を受信することと、
前記複数の画像において或る音源を前記対象音源として識別することと、
前記複数の画像に少なくとも部分的に基づいて前記音源について口唇動き検出を行うことと、
を含み、
前記第2信号が、前記口唇動き検出に更に基づいている
請求項1に記載の方法。 - 前記多チャンネル音声信号を処理することは、
前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び/又は、前記対象音源の唇の動きが検出されたかに少なくとも部分的に基づいてミュートされた音声を生成することを含む
請求項1または2に記載の方法。 - 更に、
前記画像において少なくとも一の顔を検出することと、
事前に定義された顔識別子に少なくとも部分的に基づいて、前記少なくとも一の顔の一つが、前記対象音源であると識別することと
を含む
請求項1から3のいずれか1項に記載の方法。 - 更に、前記多チャンネル音声信号に対して音声アクティビティ検出(VAD)を行ってVAD信号を生成することを含み、
前記第2信号が、前記VAD信号に少なくとも部分的に基づいて規定される
請求項1から4のいずれか1項に記載の方法。 - 更に、
前記画像における前記対象音源の位置を特定することと、
前記画像を処理して前記位置に少なくとも部分的に基づいて出力映像信号を生成することを備える
請求項1から5のいずれか1項に記載の方法。 - 前記画像を処理することが、前記位置に少なくとも部分的に基づいて前記画像の一部をぼかして前記出力映像信号を生成することを含む
請求項6に記載の方法。 - 前記対象音源が前記画像にいないと判定された場合、前記出力映像信号が、全体がぼかされた画像又は全体が空白にされた画像を含んでいる
請求項6または7に記載の方法。 - 更に、
前記画像に少なくとも部分的に基づいて前記対象音源の凝視の方向を特定することを含み、
前記第1信号及び/又は前記第2信号が、前記凝視の前記方向に更に基づいている
請求項1から8のいずれか1項に記載の方法。 - 映像入力デバイスによって撮像された画像を受信するように構成された映像サブシステムであって、前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定するように構成された識別コンポーネントを備える映像サブシステムと、
複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成された音声サブシステムと
を備え、
前記音声サブシステムが、
前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定するように構成されたロジックコンポーネントと、
前記第2信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントと
を備える
システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/455,668 US11082460B2 (en) | 2019-06-27 | 2019-06-27 | Audio source enhancement facilitated using video data |
US16/455,668 | 2019-06-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021007216A JP2021007216A (ja) | 2021-01-21 |
JP2021007216A5 true JP2021007216A5 (ja) | 2023-05-31 |
Family
ID=73887691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020096190A Pending JP2021007216A (ja) | 2019-06-27 | 2020-06-02 | 映像データを用いて容易化された音源強調 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11082460B2 (ja) |
JP (1) | JP2021007216A (ja) |
CN (1) | CN112151063A (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2565315B (en) * | 2017-08-09 | 2022-05-04 | Emotech Ltd | Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
FR3103955A1 (fr) * | 2019-11-29 | 2021-06-04 | Orange | Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant |
KR20220108076A (ko) * | 2019-12-09 | 2022-08-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정 |
TWI740339B (zh) * | 2019-12-31 | 2021-09-21 | 宏碁股份有限公司 | 自動調整特定聲源的方法及應用其之電子裝置 |
US11234090B2 (en) * | 2020-01-06 | 2022-01-25 | Facebook Technologies, Llc | Using audio visual correspondence for sound source identification |
US11087777B1 (en) | 2020-02-11 | 2021-08-10 | Facebook Technologies, Llc | Audio visual correspondence based signal augmentation |
US11460927B2 (en) * | 2020-03-19 | 2022-10-04 | DTEN, Inc. | Auto-framing through speech and video localizations |
KR20210128074A (ko) * | 2020-04-16 | 2021-10-26 | 엘지전자 주식회사 | 립리딩 기반의 화자 검출에 따른 오디오 줌 |
US11303465B2 (en) | 2020-07-16 | 2022-04-12 | International Business Machines Corporation | Contextually aware conferencing system |
US11190735B1 (en) * | 2020-07-16 | 2021-11-30 | International Business Machines Corporation | Video modifying conferencing system |
US11915716B2 (en) | 2020-07-16 | 2024-02-27 | International Business Machines Corporation | Audio modifying conferencing system |
US11082465B1 (en) * | 2020-08-20 | 2021-08-03 | Avaya Management L.P. | Intelligent detection and automatic correction of erroneous audio settings in a video conference |
WO2022146169A1 (en) * | 2020-12-30 | 2022-07-07 | Ringcentral, Inc., (A Delaware Corporation) | System and method for noise cancellation |
WO2023021390A1 (en) * | 2021-08-14 | 2023-02-23 | Clearone, Inc. | Muting specific talkers using a beamforming microphone array |
WO2023234939A1 (en) * | 2022-06-02 | 2023-12-07 | Innopeak Technology, Inc. | Methods and systems for audio processing using visual information |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590941B2 (en) * | 2003-10-09 | 2009-09-15 | Hewlett-Packard Development Company, L.P. | Communication and collaboration system using rich media environments |
US20110099017A1 (en) * | 2009-10-26 | 2011-04-28 | Ure Michael J | System and method for interactive communication with a media device user such as a television viewer |
US20120013620A1 (en) * | 2010-07-13 | 2012-01-19 | International Business Machines Corporation | Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media |
KR101971697B1 (ko) * | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치 |
US9609273B2 (en) * | 2013-11-20 | 2017-03-28 | Avaya Inc. | System and method for not displaying duplicate images in a video conference |
KR102217191B1 (ko) * | 2014-11-05 | 2021-02-18 | 삼성전자주식회사 | 단말 장치 및 그 정보 제공 방법 |
US9445050B2 (en) * | 2014-11-17 | 2016-09-13 | Freescale Semiconductor, Inc. | Teleconferencing environment having auditory and visual cues |
US9749552B2 (en) * | 2014-11-18 | 2017-08-29 | Caavo Inc | Automatic identification and mapping of consumer electronic devices to ports on an HDMI switch |
EP3101838A1 (en) * | 2015-06-03 | 2016-12-07 | Thomson Licensing | Method and apparatus for isolating an active participant in a group of participants |
US10867610B2 (en) * | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
-
2019
- 2019-06-27 US US16/455,668 patent/US11082460B2/en active Active
-
2020
- 2020-06-02 JP JP2020096190A patent/JP2021007216A/ja active Pending
- 2020-06-24 CN CN202010587240.1A patent/CN112151063A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021007216A5 (ja) | ||
CN110808048B (zh) | 语音处理方法、装置、系统及存储介质 | |
JP2019133160A5 (ja) | ||
US20150022636A1 (en) | Method and system for voice capture using face detection in noisy environments | |
WO2016183791A1 (zh) | 一种语音信号处理方法及装置 | |
JP2016146547A5 (ja) | ||
US10424314B2 (en) | Techniques for spatial filtering of speech | |
EP3177040A3 (en) | Information processing apparatus, information processing method, and program | |
JP5565552B2 (ja) | 映像音響処理装置、映像音響処理方法及びプログラム | |
JP2017067666A5 (ja) | ||
JP2018189924A5 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
US20150281839A1 (en) | Background noise cancellation using depth | |
JP2013013066A5 (ja) | ||
JP2013115751A5 (ja) | ||
CN111863005A (zh) | 声音信号获取方法和装置、存储介质、电子设备 | |
Arriandiaga et al. | Audio-visual target speaker enhancement on multi-talker environment using event-driven cameras | |
US20180374196A1 (en) | A Method, Apparatus or Computer Program for Controlling Image Processing of a Captured Image of a Scene to Adapt the Captured Image | |
JP2020188385A5 (ja) | ||
JP2018019294A5 (ja) | ||
JP5435221B2 (ja) | 音源信号分離装置、音源信号分離方法及びプログラム | |
JP2018006826A5 (ja) | 音声処理装置および音声処理方法 | |
JP2018093312A5 (ja) | ||
JP2018074251A5 (ja) | 音響処理システム、音響処理方法、プログラム | |
US10812898B2 (en) | Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium |