JP2021007216A - 映像データを用いて容易化された音源強調 - Google Patents

映像データを用いて容易化された音源強調 Download PDF

Info

Publication number
JP2021007216A
JP2021007216A JP2020096190A JP2020096190A JP2021007216A JP 2021007216 A JP2021007216 A JP 2021007216A JP 2020096190 A JP2020096190 A JP 2020096190A JP 2020096190 A JP2020096190 A JP 2020096190A JP 2021007216 A JP2021007216 A JP 2021007216A
Authority
JP
Japan
Prior art keywords
signal
audio
sound source
video
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020096190A
Other languages
English (en)
Other versions
JP7525304B2 (ja
JP2021007216A5 (ja
Inventor
ネスタ、フランチェスコ
Nesta Francesco
ボネフ、ボイヤン
Bonev Boyan
ガウール、ウトカルシュ
Gaur Utkarsh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synaptics Inc
Original Assignee
Synaptics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synaptics Inc filed Critical Synaptics Inc
Publication of JP2021007216A publication Critical patent/JP2021007216A/ja
Publication of JP2021007216A5 publication Critical patent/JP2021007216A5/ja
Application granted granted Critical
Publication of JP7525304B2 publication Critical patent/JP7525304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Geometry (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】騒音が多い環境において、対象の音声信号をより高い音質で抽出するシステムを提供する。【解決手段】システム300において、映像サブシステム305は、映像入力デバイスから入力映像フレームC(l)を受信し、顔検出コンポーネント315、顔識別コンポーネント320及び口唇動き検出コンポーネント325により処理を行う。そして、識別された話者が対象話者であることの確からしさである顔検出状態Fd(l)と、対象話者が話しているか否の確率である口唇動き検出状態Lp(l)を、音声サブシステム310に出力する。音声サブシステム310は、多チャンネル音声信号を受信し、映像サブシステム305からの顔検出状態Fd(l)及び口唇動き検出状態Lp(l)を統合して処理することにより、対象話者の発話を精度よく強調した出力音声信号s(l)を生成する。【選択図】図3

Description

本願は、一以上の実施形態によれば、全体としては音声信号処理に関しており、より具体的には、例えば、映像データを用いて容易化された音源強調に関している。
近年、音声及び映像会議システムが普及してきている。対象の音声信号の品質は、ノイズ及び/又は他の干渉音声の存在下では劣化する。このような音声品質の劣化は、特に、業務オフィスエリア、コールセンター、カフェテリア等の混雑した公共の環境において、直ちに気付かれることがある。このような事情なので、騒音が多い環境においてもなお、対象の音声信号についてより高い音質を可能にする音声環境ソルーションが望まれている。
本明細書において更に議論される様々な実施形態によれば、映像データを用いて音声信号を強調するためのシステム及び方法が提供される。いくつかの実施形態では、このようなシステム及び方法は、ノイズが多い環境においてさえも対象の音声(例えば、1以上の対象音源の発話)の強調を可能にする、統括化音声/映像アーキテクチャを提供し得る。いくつかの観点では、このようなシステム及び方法は、ボイスオーバーインターネットプロトコルアプリケーションのような音声アプリケーションにおける使用のために、音声信号、場合によっては映像信号を供給するために用いられることがある。
一以上の実施形態では、方法が、複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信することを含む。当該方法は、更に、映像入力デバイスによって撮像された画像を受信することを含む。当該方法は、更に、前記画像に少なくとも部分的に基づいて第1信号を規定することを含む。前記第1信号は、対象音源に関する確からしさを示している。当該方法は、更に、前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて第2信号を規定することを含む。第2信号は、前記対象音源に由来する音声成分に関する確からしさを示している。当該方法は、更に、前記第2信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成することを含んでいる。
一以上の実施形態において、システムが、映像サブシステムと音声サブシステムとを備えている。前記映像サブシステムは、映像入力デバイスによって撮影された画像を受信するように構成されている。前記映像サブシステムは、前記画像に少なくとも部分的に基づいて第1信号を規定するように構成された識別コンポーネントを備えている。前記第1信号は、前記対象音源に関する確からしさを示している。前記音声サブシステムは、複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成されている。前記音声サブシステムは、前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて第2信号を規定するように構成されたロジックコンポーネントを備えている。前記第2信号は、前記対象音源に起因する音声成分に関する確からしさを示している。前記音声サブシステムは、更に、前記第2信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントを備えている。
本開示の範囲は、参照することによって本項目に組み込まれる特許請求の範囲によって規定される。本開示のより完全な理解は、その追加的な利点の実現と共に、下記の1以上の実施形態の詳細な記載を考慮することによって当業者に与えられるであろう。初めに簡単に説明する添付図面のシートを参照する。
本開示の観点及びその利点は、以下の図面とそれに続く詳細な説明を参照することで、より良く理解可能である。類似の参照符号が1以上の図面に図示されている類似の構成要素を識別するために用いられており、それらの図示は、本開示の実施形態を図示する目的のものであり、限定する目的のものではないと理解されるべきである。図面における部材は、必ずしも寸法通りではなく、その代わり、本開示の原理を明確に図示することに重点が置かれている。
図1は、本開示の一以上の実施形態による、音源強調を容易化するように動作し得るシステムにおける例示的な動作環境を図示している。
図2は、本開示の一以上の実施形態による、音源強調を容易化するための音声/映像処理システムの概略図を図示している。
図3は、本開示の一以上の実施形態による、映像サブシステムと音声サブシステムとを備える例示的なシステムを図示している。
図4Aは、入力映像フレームの例を図示している。
図4Bは、一以上の実施形態による、図4Aの入力映像フレームの背景を処理することで得られた出力映像フレームの例を図示している。
図5は、本開示の一以上の実施形態による、複数の対象音源に対応するための映像サブシステム及び音声サブシステムを備える例示的なシステムを図示している。
図6は、本開示の一以上の実施形態による、映像データを用いて容易化された音源強調のための例示的な処理のフロー図を図示している。
図7は、本開示の一以上の実施形態による、音源強調を実施するための例示的な電子システムを図示している。
以下に提示される詳細な説明は、主題の技術の様々な構成の説明であることが意図されており、主題の技術が実施可能な構成がそれだけであることを表すことを意図しているのではない。添付図面は、本項目に組み込まれ、詳細な説明の一部を構成している。この詳細な説明は、主題の技術の深い理解を提供する目的で具体的な詳細を含んでいる。しかしながら、主題の技術がここに提示した具体的な詳細に限定されるものではなく、一以上の実施形態を用いて実施され得ることは、当業者には、歴然で明白であろう。一以上の例では、主題の技術の概念を曖昧にすることを避ける目的で、構造及び構成要素が、ブロック図の形で図示されている。この主題の開示の一以上の実施形態は、1以上の図によって図示され、及び/又は、1以上の図との関連で説明され、特許請求の範囲に提示されている。
映像データを用いて容易化された音源強調を行うために様々な技術が本明細書に提示されている。いくつかの実施形態では、映像データを用いて音声チャンネルのノイズを低減することを容易にするために、統括化音声/映像システムアーキテクチャが本明細書に提示されている。これに関し、選択的な音源強調を容易化するために、音声のモダリティと映像のモダリティとが共に用いられる。様々な実施形態を用いると、音声のモダリティのみが用いられる場合と比較して、対象音声(例えば、一以上の対象音源の発話)について、ノイズが多い環境においてさえ高い品質が提供され得る。いくつかの観点では、音声/映像システムは、あるユーザ(例えば、対象音源)を認証し、音声アプリケーションのセッション(例えば、通話)のフローを自動的に制御し、音声ノイズの低減を統括して、この認証されたユーザだけを強調し、(例えば、他の発話者に関連する)不所望な周辺ノイズを除去し、認証されたユーザが不在又は通話に関与していないときには、音声アプリケーションのセッションをスリープモードに自動的に設定してもよい。
音源強調技術は、単一マイクロホン又は多マイクロホンの環境において実施されてもよい。このような技術は、対象音源を強調し、及び/又は、ノイズを低減又は除去するために汎用的に用いられる。場合によっては、このような技術は、ノイズの空間的又はスペクトルの統計量に仮定を置くことによって対象音源を強調し、及び/又は、ノイズを低減又は除去することがある。例として、会議アプリケーションでは一般に、音源強調は、主たる会議ユーザからの発話のみを強調し、残りの全ての音を抑制するように実施され得る。場合によっては、残りの全ての音が抑制されながら、(例えば、それぞれがメインの会議ユーザと識別されている)複数のユーザからの発話が強調されてもよい。
本開示は、主として、ボイスオーバーインターネットプロトコル(VoIP)アプリケーションのような音声アプリケーションとの関係で記述されているが、音源強調が望まれ得る任意のアプリケーションにおける音源強調の容易化のために、様々な実施形態が用いられ得る。更に、本開示は、全体として、多チャンネル音声の実装について記述されているが、いくつかの実施形態では、本開示の実施形態は、単一チャンネル音声の実装に適用され得る。
図1は、本開示の一以上の実施形態による、音源強調を容易化するようにシステム105が動作し得る例示的な動作環境100を図示している。動作環境100は、システム105と、対象音源110(例えば、ユーザの声)と、ノイズ源115A〜Cを含んでいる。システム105は、音声/映像(A/V)処理システム120と、音声入力デバイス125A−D(例えば、マイクロホン)と、映像入力デバイス130(例えば、カメラ)と、音声出力デバイス135A、135B(例えば、スピーカー)と、映像出力デバイス140(例えば、ディスプレイ)を備えている。図1に図示された例では、動作環境100は、部屋145(例えば、会議室や家庭の部屋)の内部として図示されているが、動作環境100は、車両の内部、屋外スタジアム、空港のような他のエリアを含み得ると考えられる。
システム105は、4つの音声入力デバイス、1つの映像入力デバイス、2つの音声出力デバイス及び1つの映像出力デバイスを備えるものとして示されているが、システム105は、図1に図示されているよりも少ない、又は、より多い、音声入力デバイス、映像入力デバイス、音声出力デバイス、映像出力デバイスを備えていてもよいことに留意されたい。更に、システム105は、これらの様々な音声及び映像デバイスを包含するものとして示されているが、これらの様々なデバイスが別の筐体及び/又は別のシステムの一部として設けられ、音声/映像処理システム120が、音声入力デバイス125A−D、映像入力デバイス130、音声出力デバイス135A、135B及び/又は映像出力デバイス140から分離されて通信可能に接続されてもよい。これに関し、いくつかの観点では、音声入力デバイス125A−D、映像入力デバイス130、音声出力デバイス135A、135B及び/又は映像出力デバイス140は、音声/映像処理システム120の一部であってもよく、及び/又は、そうでなければ音声/映像処理システム120に通信可能に結合されていてもよい。
音声/映像処理システム120は、音声入力デバイス125A−Dから音声信号を受信し、映像入力デバイス130から映像信号(例えば、映像フレーム)を受信することがある。音声入力デバイス125A−Dは、該音声信号を取得(例えば、検出、検知)してもよい。場合によっては、音声信号は、各チャンネルが音声入力デバイス125A−Dの一つに対応し、多チャンネル音声信号を形成しているとして参照することがある。映像入力デバイス130は映像信号を取得(例えば、検出、検知)してもよい。映像信号は、映像フレーム又は画像として参照することがある。音声/映像処理システム120は、音声処理技術を用いて音声信号を処理し、対象音源110によって生成された対象音声150を検出して対象音声150を強調してもよい。対象音声150は、多チャンネル音声信号の音声成分である。対象音声150は、対象音声150を強調(例えば、振幅及び/又は明瞭性を増大)し、及び/又は、対象音声150以外の如何なる音も抑制(例えば、振幅を減少)することで強調されてもよい。音声/映像処理システム120は、音声出力デバイス135A及び/又は135Bに音声信号を供給し、映像出力デバイス140に映像信号(例えば、静止画像又は映像)を供給することがある。音声出力デバイス135A及び/又は135Bは、音声信号を出力してもよく、映像出力デバイス140は、一人以上のユーザによる消費のために映像信号を出力してもよい。
対象音源110は、音声/映像処理システム120によって声を強調すべき人物であってもよい。一実施形態では、対象音源110は、音声アプリケーションに関与している(例えば、参加している)人物であってもよい。例えば、当該人物は、VoIP通話に関与していることがある。対象音源110は、(例えば、少なくともVoIP通話の目的で)許可ユーザ又は認証ユーザとして参照されることがある。対象音源110は、音声/映像処理システム120によって強調すべき対象音声150(例えば、発話)を生成する。対象音源110の他に、動作環境100における他の音源として、ノイズ源115A〜Cが挙げられる。様々な実施形態において、対象音声150以外の全ての音声がノイズとして処理される。図1に図示された例では、ノイズ源115A、115B及び115Cは、音楽を再生しているラウドスピーカー、テレビ番組を再生しているテレビ、及び、会話をしている非対象の発話者を、それぞれ含んでいる。様々な動作環境において、他のノイズ源が存在し得ることは理解されよう。
音声/映像処理システム120は、多チャンネル音声信号を処理し、強調された音声信号を生成してもよい。強調された音声信号を生成する際、音声/映像処理システム120は、対象音声150と(例えば、ノイズ源115A〜Cによって生成された)ノイズとが異なる方向からシステム105の音声入力デバイス125A−Dに到達することがあり、各音源の位置が時間と共に変化することがあり、対象音声150及び/又はノイズが、部屋145の内部の備品(例えば、壁)で反射されることがあることを考慮に入れる。例えば、ノイズ源115A〜Cは、部屋145の様々な位置でノイズを発生することがあり、及び/又は、対象音源110は、部屋145を歩き回りながら発話することがある。いくつかの実施形態では、強調された音声信号を得るための多チャンネル音声入力の処理が、ここで更に説明するように、映像入力デバイス130からの映像信号を使用することで容易化されることがある。
例として、音声/映像処理システム120は、音声信号を受信し、対象音源110によって生成された対象音声150の方向を識別し、強め合う干渉及びノイズをキャンセルする技術を用いて対象音源110によって生成された対象音声150(例えば、対象の発話又は他の音)を強調する(例えば、強調された対象信号とも呼ばれる)強調された音声信号を出力する空間フィルタ(例えば、ビーム成形器)を備えていてもよい。信号を検出及び/又は強調するための空間フィルタの動作は、映像信号(例えば、映像信号から抽出されたデータ)を使用することで容易化され得る。
音声/映像処理システム120は、例えば、発語認識エンジンや音声指令プロセッサ、又はVoIP通話の間のVoIPアプリケーションへの入力信号のような音声アプリケーションにおける使用のために、強調された音声信号を供給してもよい。例として、例示の目的だけであるが、VoIPアプリケーションを考える。様々な実施形態において、送信サイドを容易にするために、音声/映像処理システム120は、ネットワークを介した(例えば、会議アプリケーションのための)VoIP通信を容易化するために用いられ得る。VoIP通信は、音声だけ(例えば、音声信号だけ)を含んでいてもよく、音声と映像とを含んでいてもよい。場合によっては、音声/映像処理システム120は、映像入力デバイス130からの画像を処理し、例えば、画像をぼかし、ぼかした画像をVoIP通話において用いるために供給してもよい。処理後の画像が、VoIP通話に供されてもよい。受信サイドを容易にするために、音声/映像処理システム120は、(例えば、直接に又はネットワークを介して)離れたデバイスから信号(例えば、音声信号、場合によっては映像信号)を受信し、受信した信号をVoIP通信のために出力してもよい。例えば、受信した音声信号が音声出力デバイス135A及び/又は135Bを介して出力されてもよく、受信した映像信号は、映像出力デバイス140を介して出力されてもよい。
一以上のアナログ−デジタルコンバータ(ADC)が、一以上の入力デバイス(例えば、音声入力デバイス、映像入力デバイス)からのアナログ信号(例えば、音声信号、映像信号)をデジタル化するために送信サイドで用いられてもよく、一以上のデジタル−アナログコンバータ(DAC)が、一以上の出力デバイス(例えば、音声出力デバイス、映像入力デバイス)によって供給されるデジタル信号からアナログ信号(例えば、音声信号、映像信号)を生成するために受信サイドで用いられてもよい。
図2は、本開示の一以上の実施形態による、音源強調を容易化するための音声/映像処理システム200の概念図を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び/又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、音声/映像処理システム200は、図1の音声/映像処理システム120であってもよく、含んでいてもよく、一部であってもよい。音声/映像処理システム200は、他の動作環境においても用いられ得るが、例示の目的で、音声/映像処理システム200を図1の動作環境100との関連で説明する。
音声/映像処理システム200は、映像サブシステム205と音声サブシステム210とを備えている。映像サブシステム205は、例えばカメラのような映像入力デバイス220から入力映像フレームc(l)(例えば、画像)を入力として受信し、出力映像フレームc^(l)と統括信号(図2において「統括」として示されている)とを生成する。映像サブシステム205は、例えばVoIPアプリケーションのような音声アプリケーション215における使用のために出力映像フレームc^(l)を供給(例えば、送信)し、統括信号を音声サブシステム210に供給(例えば、送信)する。出力映像フレームc^(l)は、映像入力フレームc(l)であってもよく、それを処理したものであってもよい。一の観点では、入力映像フレームc(l)は、出力映像フレームc^(l)を得るためにぼかされてもよい。例えば、対象音源を含まない入力映像フレームc(l)の一部分がぼかされてもよい。
音声サブシステム210は、動作環境にある音声入力デバイスのアレイによって検出されたM本の音声信号x1(l), …, xM(l)のセットで形成される多チャンネル音声入力信号と統括信号とを入力として受信する。ここで、lは、時間サンプルを示している。各音声信号は、対応する音声入力デバイスによって供給されてもよく、音声チャンネル(例えば、単にチャンネルとも呼ばれる)に対応付けられてもよい。図2においては、音声入力デバイス225Aが、音声信号x1(l)を供給し、音声入力デバイス225Bが、音声信号xM(l)を供給する。音声入力デバイス225A、225Bの間の楕円は、一以上の追加の音声入力デバイスを表すことがあり、または、追加の入力デバイスが無いこと(例えば、M=2)を表すことがある。例示の目的では、音声入力デバイス225A、225Bは、(例えば、マイクロホンアレイを構成する)マイクロホンであり、音声信号x1(l)、xM(l)は、マイクロホン信号である。ただし、他の実施形態では、音声入力デバイス225A、225B及び/又は他の音声入力デバイスが、音声信号を音声サブシステム210に供給するための他の種類の音声入力デバイスであってもよい。
いくつかの観点では、対象音声を強調する空間的な音声処理を容易化するために、Mは、少なくとも2であってもよい。複数の音声入力デバイスが使用可能である場合、発話強調技術の性能を向上する空間的処理を行うために、該複数の音声入力デバイスが用いられ得る。このような空間ダイバーシティは、ビーム成形、及び/又は、所望の元信号(例えば、対象音源の声)をよりよく検出/抽出し、干渉源の信号(例えば、ノイズ及び/又は他の人物の声)を抑制する他の手法において用いられ得る。他の観点では、Mが1であり(例えば、単一のマイクロホン)、対象の音を強調するために適正な単一音声入力の処理を行ってもよい。
音声サブシステム210は、多チャンネルノイズ低減コンポーネントとゲートコンポーネントとを備えていてもよい。多チャンネルノイズ低減コンポーネントは、対象の発話者によって提供される音声信号の強調(例えば、そのような対象音源の発話の強調)を容易化してもよい。一実施形態では、多チャンネルノイズ低減コンポーネントは、外部からの音声アクティビティ検出(VAD)によって制御されてもよい。場合によっては、多チャンネルノイズ低減コンポーネントは、幾何学的な制約がない(例えば、ユーザは、360°空間のどこにいてもよい)ように構成されてもよい。ゲートコンポーネントは、音声アプリケーション215に送られる信号をミュート(例えば、ミュートされた音声を生成)してもよい。例えば、ゲートコンポーネントは、対象音源が映像入力デバイス220の視界にないとき、及び/又は、音声アプリケーション215に関与していないとき、音声アプリケーション215に送られる信号をミュートしてもよい。この選択的なミュートは、映像サブシステム205によって供給され、継続的に更新されるデータ(例えば、1以上の状態変数)に基づいて制御されてもよい。
多チャンネルノイズ低減コンポーネントとゲートコンポーネントとは、多チャンネル音声入力信号と統括信号とに少なくとも部分的に基づいて動作してもよい。各時間サンプルlについて、音声サブシステム210は、出力音声信号s(l)(例えば、強調された音声信号)を生成し、この出力音声信号s(l)を、音声アプリケーション215における使用のために供給(例えば、送信)する。出力音声信号s(l)は、対象音源によって生成された対象音声(例えば、発話)に対応する多チャンネル音声入力信号の音声成分を強調してもよい。これに関し、音声サブシステム210は、音声信号のそれぞれを分析し(例えば、各音声チャンネルを分析し)、統括信号のような、映像サブシステム205からのデータを活用して対象音源に対応するこのような音声成分が存在するかを判定し、出力音声信号s(l)を得るために該音声成分を処理してもよい。
いくつかの実施形態では、音声/映像処理システム200は、音声アプリケーションのセッション(例えば、会議、VoIP通話)のフローを管理するために用いられ得る。ある観点では、対象音源が映像入力デバイスの視野にいない、又はそうでなければ該音声アプリケーションのセッションに関与していないと判定された場合、音声/映像処理システム200は、(例えば、ユーザによるマニュアル操作を必要とせずに)映像入力デバイス(例えば、カメラ)及び/又は一以上の音声入力デバイス(例えば、マイクロホン)をオンオフし、再生音及び/又は他の動作を低減してもよい。場合によっては、対象音源が不在又はセッションに関与していないとき、当該音声アプリケーションのセッションがスリープモードに設定(例えば、自動的に設定)されてもよい。
例えば、対象音源が映像入力デバイス220を凝視し、及び/又は,対象音源が映像入力デバイス220のしきい値距離の範囲内にいる場合には、対象音源がセッションに関与していると判定されることがある。場合によっては、対象音源が関与しているかは、対象音源の性質、例えば、映像入力デバイス220との関連での対象音源の振る舞いに関する履歴データ及び/又は対象音源の嗜好に依存していてもよい。 例えば、このような履歴データ及び/又は嗜好は、対象音源が話しているときに(そうでなくてもセッションに参加しているとき)に映像入力デバイス220の視野外にいる習慣があるか、及び/又は、対象音源が話しているときに(そうでなくてもセッションに参加しているとき)に映像入力デバイス220を凝視するかを示すことがある。
様々な実施形態を用いて、音声/映像処理システム200は、あるユーザを認証し(例えば、対象音源を指定/識別し)、音声アプリケーションのセッションを自動的に制御してもよい。音声ノイズの低減は、認証されたユーザを強調し、映像入力デバイス220の視野の外部又は内部の認証されていない如何なる話者に由来し得るノイズを含む、如何なる周辺ノイズも除去するように統括されてもよい。場合によっては、対象音源が不在又はセッションに関与していない場合、音声アプリケーションのセッションが、スリープモードに設定(例えば自動的に設定)されてもよい。
映像サブシステム205と音声サブシステム210のそれぞれは、映像信号及び音声信号をそれぞれ受信し、処理するために適宜の入力/インターフェース回路部を備えていてもよい。このような入力/インターフェース回路部は、アンチエイリアシングのフィルタリング、アナログ−デジタル変換、及び/又は、その他の処理演算を実施するために用いられてもよい。図2は、音声/映像処理システム200の送信サイドを図示していることに留意されたい。場合によっては、音声/映像処理システム200は、音声信号及び/又は映像信号を受信し、受信した信号を出力デバイスに供給する受信サイドも備えている。
図3は、本開示の一以上の実施形態による、映像サブシステム305と音声サブシステム310とを備える例示的なシステム300を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び/又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、映像サブシステム305は、図2の映像サブシステム205であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図2の映像サブシステム205又はその一部を実装してもよい。一実施形態では、音声サブシステム310は、図2の音声サブシステム210であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図2の音声サブシステム210又はその一部を実装してもよい。
映像サブシステム305は、顔検出コンポーネント315と、顔識別コンポーネント320と、口唇動き検出コンポーネント325と、映像処理コンポーネント330とを備えている。(例えば、顔検知器としても参照され、及び/又は、顔検出器によって実装される)顔検出コンポーネント315は、映像入力デバイス(例えば、カメラ)から入力映像フレームc(l)を受信する。これに関し、映像入力デバイスは、入力映像フレームc(l)を撮像し、該入力映像フレームc(l)を顔検出コンポーネント315に供給してもよい。入力映像フレームc(l)は、映像入力デバイスの視野(例えば、視界とも参照される)にある画像データを備えている。
入力映像フレームc(l)に関し、顔検出コンポーネント315は、入力映像フレームc(l)において顔を検出し、入力映像フレームc(l)において検出された顔のそれぞれについて顔検出信号を生成する。入力映像フレームc(l)に顔が検出されない場合、顔検出コンポーネント315によって生成された顔検出信号は、入力映像フレームc(l)において検出された顔がないことを示していてもよい。図3において、顔検出コンポーネント315は、入力映像フレームc(l)においてN個の顔を検出し、顔検出信号bn(l)を生成する。ここで、nは、1、・・・、Nである。各顔検出信号は、入力映像フレームc(l)に検出された顔それぞれに対応している。これに関し、顔検出コンポーネント315は、映像入力デバイスの視野に存在する各話者について顔検出信号を供給する。したがって、顔検出信号bn(l)は、検出された顔として、又は、検出された顔に対応するものとして参照されることがある。例えば、b1(l)は、第1話者に関する(例えば、対応する)顔検出信号であり、b2(l)は、第2話者に関する顔検出信号である、等である。各話者に関連付けられた序数/識別子(例えば、第1、第2)は、一般に任意であり、異なる話者を識別する便宜のために用いられることがあることに留意されたい。顔検出コンポーネント315は、顔識別コンポーネント320に顔検出信号bn(l)を供給する。
顔検出コンポーネント315は、任意の顔の入力映像フレームc(l)における位置を特定してもよい。顔検出信号bn(l)は、検出された顔の位置を示すデータであってもよく、該データを含んでいてもよい。非限定的な例として、顔検出コンポーネント315は、勾配ヒストグラム法、Viola-Jones法、畳み込みニューラルネットワーク(CNN)法(例えば、マルチタスクCNN(MTCNN法))、及び/又は、一般に、顔検出を容易化する適切な任意の他の手法を用いてもよい。場合によっては、これらの手法のそれぞれは、正しい位置及び正しい寸法で顔画像に適用されたときに高応答を出力する一組の包括パターンを用いて人間の顔をモデル化してもよい。ある観点では、顔検出信号bn(l)のそれぞれは、入力映像フレームc(l)において検出された顔の位置及び大きさを表す(例えば、顔ボックスとも呼ばれる)境界ボックスである。例えば、検出された顔の位置及び/又は大きさは、入力映像フレームc(l)の座標として表され得る。場合によっては、入力映像フレームc(l)は、入力映像フレームc(l)において検出された顔のそれぞれが、その周囲に描かれた境界ボックスを有するように視覚的に調整されてもよい。
いくつかの観点では、顔検出コンポーネント315及び/又は他の検出コンポーネントは、位置及び大きさに加え、顔ランドマークのような検出された顔の特徴を識別してもよい。一例では、MTCNNベースの顔検出器は、検出された顔のそれぞれについて、2つの目、鼻及び口の2つの唇の概略的な位置の座標を出力してもよい。これらの顔ランドマークは、顔を真正面の顔になるように整列又は歪ませるために用いられてもよく、これは、一般に、顔認識を容易化する(例えば、顔認識をより易しくする)。ある観点では、顔検出コンポーネント315は、境界ボックスを出力する顔検出器と顔ランドマークを識別する一以上のランドマーク検出器とを備えていてもよい。
(例えば、識別コンポーネント、認識コンポーネント又は顔識別器とも呼ばれる)顔識別コンポーネント320は、顔検出コンポーネント315から顔検出信号bn(l)を受信し、顔検出信号bn(l)を処理して顔検出信号bn(l)のいずれかが対象音源(例えば、許可ユーザ)に対応しているかを判定する。対象音源は、例えば会議アプリケーションのために音声/映像処理システム300を用いているユーザであってもよい。これに関し、一実施形態では、対象音源は、その対象音声(例えば、声)が音声/映像処理システム300によって強調されるべきユーザである。
顔検出信号bn(l)のいずれかが対象音源に対応しているかの判定に基づいて、顔識別コンポーネント320は、顔検出信号b(l)と顔検出状態Fd(l)とを生成する。場合によっては、顔識別コンポーネント320は、該判定に基づいて信号d(l)も生成してもよい。信号d(l)は、境界ボックス及び/又は顔ランドマーク検出のような、入力映像フレームc(l)の処理を容易化するデータを含んでいてもよい。顔識別コンポーネント320は、顔検出信号bn(l)のうちの一つが、対象音源に対応している可能性が最も高いと判定することがある。この顔検出信号が、顔検出信号b(l)として供給されてもよい。顔識別コンポーネント320は、顔検出信号b(l)を口唇動き検出コンポーネント325に送信する。例えば、顔検出信号b3(l)に対応する顔が、(例えば残りの顔検出信号と比較して)対象音源であることの最も高い確からしさを有していると判定された場合、顔識別コンポーネント320は、b(l) = b3(l)と設定して顔検出信号b(l)を口唇動き検出コンポーネント325に送信する。場合によっては、顔識別コンポーネント320が、検出された顔に対象音源に対応し得るものがない(例えば、検出された顔のいずれもが、対象音源であることの最小しきい値の確からしさを有していない)と判定することがある。
顔識別コンポーネント320によって生成された顔検出状態Fd(l)は、許可されたユーザが入力映像フレームc(l)に存在していると判定されているかを示していてもよい。これに関し、顔検出状態は、顔検出状態Fd(l)によって識別される音源が対象音源であることの確からしさ(例えば、確率、信頼スコア)を示す信号である。一の観点では、顔検出状態Fd(l)は、二値信号であってもよい。例えば、これらの場合には、顔検出状態Fd(l)が、映像入力デバイスの視野に対象音源が検出された(例えば、存在すると判定された)場合のみ1であり、そうでなければ0であってもよい。場合によっては、顔検出状態Fd(l)が、対象音源が音声アプリケーションに関与していると判定されたかを考慮に入れてもよい。これらの場合、顔検出状態Fd(l)は、対象音源が映像入力デバイスの視野に検出され、音声アプリケーションに関与している場合のみ1であり、そうでなければ0であってもよい。例えば、対象音源が凝視する方向及び/又は対象音源と映像入力デバイスとの間にあると推定される距離に基づいて、対象音源が関与していると判定されてもよい。他の観点では、顔検出状態Fd(l)は、二値でなくてもよく、顔検出状態Fd(l)によって識別される音源が対象音源であることの確からしさ(例えば、0と1の間)であってもよい。
いくつかの観点では、この判定を行うために、顔識別コンポーネント320は、顔検出信号bn(l)に対応する検出された顔のいずれかが(図3ではprior IDとして示されている)事前顔識別子に十分に近いかを判定してもよい。事前顔識別子は、事前に定義された顔識別子として参照されることもある。事前顔識別子は、音声/映像処理システム300の対象音源(例えば、許可/認証されたユーザ)の顔であってもよく、対応づけられていてもよい。ある観点では、事前顔識別子は、入力映像フレームc(l)に検出された顔と比較可能な対象音源の、例えば画像のようなデータであってもよい。
一例として、事前顔識別子は、能動的な加入/登録の段階で決定されてもよい。例えば、場合によっては、音声/映像処理システム305及び/又は音声アプリケーションを容易化することと関連する他のコンポーネントを用いる意図がある人物が、関連する装置及び/又はソフトウェアを用いる会員である、そうでなくても登録する必要があってもよい。事前顔識別子は、予め登録された顔であってもよい。これに関し、ユーザは、(例えば、少なくとも図2の音声アプリケーション215のような音声アプリケーションを用いる目的で)音声/映像処理システム300の許可ユーザとして自らを予め登録する。該ユーザは、その後、加入/登録の直後、及び/又は後の時点で音声アプリケーションを用いるように進んでもよい。他の例として、事前顔識別子は、(音声アプリケーションのセッション(例えば通話)の目的で)対象音源が映像入力デバイスの視界にある主たる正面の顔であると仮定して音声アプリケーションのセッションの開始時に決定されてもよい。これに関し、音声/映像処理システム305は、音声/映像処理システム305に通信可能に接続された映像入力デバイスの正面に位置するユーザが対象音源であると識別する。場合によっては、顔が許可ユーザに対応しているという判定/識別が、顔の大きさや凝視する方向に基づいていてもよい。例えば、映像撮像デバイスの視界において最も大きい顔の人物であっても、当該人物の凝視が映像撮像デバイスから離れている場合(例えば、当該人物が映像撮像デバイスに関与していない場合)、又は、当該人物が映像撮像デバイスを歩いて通り過ぎた場合には許可ユーザでないと判定され得る。場合によっては、音声/映像処理システム305を用いる意図がある人物が、事前の加入/登録なしにアプリケーション(例えば、音声アプリケーション)を容易化すべきかは、音声/映像処理システム305及び/又は該アプリケーションの容易化に関連する他のコンポーネントの所持者及び/又は製造者からの設定、該アプリケーションのプロバイダからの設定(例えば、セキュリティ設定、プライバシー設定)、及び/又は、他の実体及び/又は要因に依存していてもよい。
いくつかの観点では、ユーザの認識/識別において該ユーザの実際の身元を判定しなくてもよく、また、ユーザのデータ(例えば、顔ランドマークの特徴のようなバイオメトリクス)を格納しなくてもよい。これに関し、ユーザの認識/識別では、一のセッション又は複数のセッションの間において、顔を含む画像を分析すること及び/又は用いられる音声(例えば、声)を分析することで得られた、このような区別をするためのデータを用いて、(例えば、顔の特徴に基づいて、及び/又は実際の身元を判定することなく)あるユーザを他のユーザと区別することができてもよい。
いくつかの観点では、顔(例えば、顔ランドマーク)が事前顔識別子に十分に近いかを判定するために、深層映像埋込 (deep video embedding) が顔検出信号bn(l)の処理として又はその一部として用いられてもよい。顔識別コンポーネント320は、深層畳み込みニューラルネットワーク(DCNN)に依拠した手法を用いて顔、例えば対象音源の顔を認識してもよい。このような手法では、顔識別コンポーネント320は、入力映像フレームc(l)において、顔ランドマーク(例えば、人の唇、鼻、目、額等の位置、大きさ、及び/又は、形)を受信してもよい。場合によっては、顔ランドマークは、顔検出コンポーネント315から顔識別コンポーネント320によって受信されてもよい。DCNNは、所定の顔画像パッチをD次元ベクトルfに埋め込む(マッピングする)ように学習されてもよい。このDCNNは、同一個人の顔画像を、環境条件の差異及び/又は顔画像に影響する些細なポーズの差異と無関係に同一又は類似のベクトルfにマッピングする。任意の2つの顔(例えば、埋込ベクトルfを有する第1の顔と埋込ベクトルfを有する第2の顔)の間の類似度は、L2類似度又はコサイン類似度のようなメトリックを介して、対応する埋込ベクトルf、fの間で判定(算出、表現)されてもよい。偽陽性を避けるために、異なる2人の個人の顔ベクトルの間の類似度が、十分に大きい(例えば、これらの顔ベクトルの間の類似度がしきい値を超えている)ことが好ましい。
このようなネットワークを学習させるために、顔データセットが利用可能であると仮定される。場合によっては、顔データセットは、様々なポーズ、照明、化粧、及びその他の現実世界における条件での個人の顔画像(例えば、MS-Celeb-1M、CASIA-Webface)を含んでいてもよい。DCNNの学習バッチのそれぞれは、顔データセットからサンプルされたデータトリプレットを含んでいてもよい。各データトリプレットは、(例えばアンカー(a)と称される)個人の顔画像と、(例えばポジティブ(p)と称される)現実世界での変化を幾分伴う同一個人の他の顔画像と、(例えばネガティブ(n)と称される)他の個人の顔画像とを含んでいてもよい。学習プロセスを開始するに当たり、DCNNの重みはランダムに初期化されてもよい。この、ランダムに初期化されたDCNNは、トリプレットの損失を最小にするように、所定のトリプレットの3つの顔画像のそれぞれについて顔ベクトルを決定するために用いられてもよい。アンカーとポジティブの顔ベクトルの間の距離が大きいか、逆にアンカーとネガティブの顔ベクトルの間の距離が小さい場合には、トリプレットの損失が起こるとDCNNにペナルティーを与えなければならないかもしれない。
いくつかの観点では、前述の手法に代えて、又は加えて、顔識別コンポーネント320は、対象音源の検出を容易化するために他の手法を用いてもよい。顔識別コンポーネント320は、(例えば、一組の顔画像の共分散行列の固有ベクトル上の分類子の学習を行う)固有顔法を用いた顔認識を行い、及び/又は、データセットの全ての顔について線エッジのマップを計算し、到来する顔画像を判別するために分類子を用いてもよい。様々な手法が、事前に登録された(例えば、音声アプリケーション又は他のアプリケーションを使用する目的で事前に登録された)ユーザの顔を使用し得る。
口唇動き検出コンポーネント325は、顔検出信号b(l)を受け取り、(例えば対象音源と判定された)この検出された顔に関連する如何なる口唇の動きをも検出する。対象音源が発話しているか否かは、検出された口唇の任意の動きに少なくとも部分的に基づいていてもよい。口唇動きコンポーネント325は、口唇動き検出状態Lp(l)を生成し、口唇動き検出状態Lp(l)を音声統括ロジックコンポーネント340に送信する。口唇動き検出状態Lp(l)は、対象音源の唇が動いているか否の確率(例えば、確からしさ、信頼スコア)を示している。場合によっては、口唇動き検出状態Lp(l)は、対象音源が話しているか否の確率(例えば確からしさ、信頼スコア)を示している。
口唇の動きを検出するために、口唇動き検出コンポーネント325は、顔検出信号b(l)に対応する検出された顔の唇の上に、複数のランドスケープを識別し(例えば、設置し、位置させ)てもよい。場合によっては、与えられた顔について、唇が開いているか閉じているかを判定するために上唇と下唇との間の相対距離が特定(例えば、推測)されてもよい。相対距離が(例えば映像入力デバイスによって撮像された)フレーム間で十分に変化している(例えば、しきい値量を超えて変化している)場合、口唇動き検出コンポーネント325は、唇が動いていると判定してもよい。
映像処理コンポーネント330は、境界ボックスと顔ランドマーク検出とを含む顔検出出力を入力として受け取ってもよい。例として、一実施形態では、映像処理コンポーネント330は、背景ぼかしコンポーネントとして実装される。このような実施形態では、このような情報(信号d(l)として総称されている)は、顔の周囲にマスクを規定するために用いられてもよい。当該マスクは、背景ぼかしコンポーネントによってぼかすべき入力映像フレームc(l)の部分を識別し/指し示す。境界ボックス又は顔ランドマークの凸型外殻ポリゴンの何れが用いられる場合であっても、人の髪の毛と首が消し去られないように、検出された顔領域の形態が拡張されてもよい。ぼかしそれ自体は、ガウスぼかし、箱ぼかし、又は一般に任意の他の種類のぼかしであってもよい。ぼかしによって入力映像フレームc(l)から高周波情報を除去し、入力映像フレームc(l)に他の人がいてもぼかしを行った後ではその顔が識別できないようにしてもよい。場合によっては、背景領域の全体が単色に置き換えられることも可能である。この単色は、場面の背景の平均であってもよい。場合によっては、背景領域は、ユーザが選択した静止背景又はユーザが選択した動画背景のいずれであってもよい。例として、許可ユーザの実際の位置に無関係に、背景領域は、(例えば許可ユーザによって選択された)オフィスの背景、又は、自然をイメージした背景に置換されてもよい。場合によっては、背景領域の除去、置換及び/又はぼかしにより、(例えば、対象音源、他の人々及び/又は場所の)プライバシーが強化され得る。
信号d(l)に基づいて、背景ぼかしコンポーネントは、検出された許可ユーザの顔を取り囲む如何なる領域をぼかしてもよい。一の観点では、信号d(l)は、検出された許可ユーザの顔を取り囲む入力映像フレームc(l)のエリアを識別するマスクエリアを提供する。その代わりに、信号d(l)は、背景ぼかしコンポーネントが顔の領域の外の如何なる領域もぼかすように、顔の領域を提供する。場合によっては、ぼかしによって(許可ユーザ又は許可ユーザの周囲のために)プライバシーが提供され、及び/又は(入力映像フレームの他の局面がぼかされるので)対象音源の検出が容易化される。場合によっては、対象音源が検出されない場合、入力映像フレーム全体がぼかされ、又は、空白にされる。
図4A、4Bは、本開示の一以上の実施形態による、入力映像フレームc(l) (405と符号が付されている)と、入力映像フレームc(l)の背景を処理することによって得られた出力映像フレームc^(l)(410と符号が付されている)の例を図示している。図4Aにおいて、入力映像フレーム405は、(例えば、顔識別コンポーネント320によって)対象音源と判定された人物415と、ステレオ420と、人物425と、人物430とを含んでいる。図4Bに図示されているように、入力映像フレーム405は、出力映像フレーム410が人物415を含み、入力映像フレーム405のその他の部分(例えば、その背景)が斜め模様の背景に置き換えられるように処理される。場合によっては、映像サブシステム305は、例えばステレオ420のような、ノイズ源となりうる物体を入力映像フレームにおいて検出するために、(例えば物体検出器とも呼ばれる)物体検出コンポーネントを備えていてもよいことに留意されたい。検出された物体が識別され、音声ノイズの低減を容易化するために用いられてもよい。
背景ぼかしコンポーネントは、各フレームで顔検出入力を受信するので、背景ぼかしコンポーネントは、許可ユーザの動きと一致した(例えば、追随する)背景のぼかしを行ってもよい。例えば、背景のぼかしは、対象音源が立ち上がり、その頭を動かすなどをするにつれて対象音源を追随するように行われてもよい。場合によっては、映像入力デバイスによって映像フレームに撮像された対象音源の体全体が、対象音源の手及び/又はその他の体のパーツが消し去られないように区分されてもよい。例えば、許可ユーザの体のパーツを消し去らないことにより、許可ユーザは、ボディランゲージとジェスチャーとを用いてデータを伝達することがある。この区分は、DCNN又は体ポーズ推定(例えば、DCNNに基づくOpenPose)に基づくセマンティックス区分を用いて行われてもよい。
以上では、映像処理コンポーネント330が入力映像フレームc(l)にぼかしを行う実施形態を記述しているが、映像処理コンポーネント330は、ぼかしを行うのに代えて、又は加えて、他の態様で入力映像フレームc(l)を処理してもよい。一例として、対象音源の視認性を向上するために入力映像フレームc(l)にフィルタを適用してもよい。他の例としては、ある用途では、例えばプライバシーの懸念のために及び/又は対象音源の嗜好に基づいて対象音源の外観を調整するために、フィルタが入力映像フレームc(l)に適用されてもよい。場合によっては、映像処理コンポーネント330は、任意的である。例えば、場合によっては、処理コンポーネントは用いられず、出力映像フレームc^(l)は、入力映像フレームc(l)と同一であってもよい。
ここで音声サブシステム310に言及すると、音声サブシステム310は、音声VADコンポーネント335と、音声統括ロジックコンポーネント340と、音声処理コンポーネント345とを備えている。音声VADコンポーネント335は、(音声入力x1(l)、・・・、xM(l)で構成される)多チャンネル音声信号を受信し、多チャンネル音声信号にVAD法を実施することに少なくとも部分的に基づいてVAD信号a(l)を生成する。音声VADコンポーネント335は、(例えばニューラルネットワーク推定に基づく)外部音声に依拠するVADであってもよい。音声VADコンポーネント335は、任意の適切なVAD法を用いて音声信号の異なる部分を識別し、音声信号のいずれかの部分(例えば、いずれかの音声成分)が、対象音源に由来し得るかを判定する。これに関し、VADは、対象音源が話しているか(例えば、対象音声を生成しているか)を判定するために用いられてもよい。いくつかの実施形態では、VADは、一般化固有値(GEV)ビーム成形(最大SNRビーム成形とも呼ばれる)技術及び統括化独立ベクトル分析(IVA)技術のような多チャンネル発話強調技術と共に用いられてもよい。例えば、一般化固有値追跡を包含するビーム成形技術が、受信された音声信号において対象音源を強調するために用いられてもよい。
いくつかの観点では、音声VADコンポーネント335は、音声入力が発話か、発話でないかを判定するために用いられてもよく、映像サブシステム305(例えば、映像サブシステム305によって用いられるLp(l) 及びFd(l))は、アクティビティが、対象音源(例えば、対象の発話)であるか、干渉する音声(例えば、干渉する発話)であるかを判定するために用いられてもよい。これに関し、場合によっては、音声VADコンポーネント335が2人(又はそれ以上の)発話者を区別するために使用されない。例えば、VAD信号a(l)は、人物が話している確率(例えば、確からしさ又は確信スコア)を示していてもよい。対象音源が発話していないときに対象音源が発話していると認識することに関連する偽陽性は、音声のモダリティだけが用いられるときに発生することがあり、同様に、映像のモダリティだけが用いられるときに発生することがある。例えば、映像のモダリティについて、口唇動き検出状態Lp(l)は、時々、偽陽性を生成することがある。例として、会話の間、発話者は音を出すことなく唇を動かすことがある。様々な実施形態を用いると、対象音源が実際には発話していないときに対象音源が発話していると識別することに関連する誤検出は、音声と映像のモダリティを一緒に組み合わせることで低減されることがある。ある場合には、音声統括ロジックコンポーネント340に関連して議論したように、各モダリティの誤検出を低減するためにa(l)とLp(l)の最小値(例えば、より小さい値)をとることで、音声と映像のモダリティが組み合わされてもよい。
音声統括ロジックコンポーネント340は、音声−映像VAD統括信号p(l)とハードゲート信号g(l)とを生成する。信号p(l)及びg(l)は、顔検出状態Fd(l)と口唇動き検出状態Lp(l)とVAD信号a(l)とに少なくとも部分的に基づいて生成される。場合によっては、音声統括ロジックコンポーネント340は、顔検出状態Fd(l)と口唇動き検出状態Lp(l)とVAD信号a(l)との非線形の組み合わせを適用して信号p(l)及びg(l)を生成してもよい。顔検出状態Fd(l)と口唇動き検出状態Lp(l)は、総合して図2に図示されている「統括」信号を提供してもよい。これに関し、顔検出状態Fd(l)と口唇動き検出状態Lp(l)は、音声サブシステム310による音声処理を容易化するデータを供給する。
例として、(例示の目的のみで)全ての状態変数(例えば、Lp(l)、Fd(l)、a(l)及び/又はその他)が二値である、又は、0から1の間の範囲に制限されていると仮定して、p(l)は、a(l)とLp(l)とのうちの小さい値として定義されてもよい(例えば、p(l) = min(a(l), Lp(l)))。この例示的な場合では、「小さい」組み合わせを用いるに当たり、偽陰性より偽陽性が多くなるように対象の発話の検出を行うように各モダリティ(例えば、音声と映像)が設計されると仮定されてもよい。同様に、例として、g(l)は、Fd(l)とa(l)とうちの小さい値として定義されてもよい(例えば、g(l) = min(a(l), Fd(l)))。場合によっては、g(l)について、ゲーティングによって不快で速い不連続性が起こることを避けるために、時間的なスムージングが行われてもよい。
いくつかの観点では、映像サブシステム305からのこのようなデータは、妨げになる発話者によって生成された発話をノイズが含む場合であっても、孤立した妨げになるノイズを観測するという高い確信がある場合に信号の部分を識別するために一般に用いられるVAD(例えば、ニューラルネットワークに依拠するVAD)の使用を容易にすることがある。このような場合、ノイズ低減は、音声のモダリティを排他的に用いるよりも、むしろ映像のモダリティと共に音声のモダリティを用いる(例えば、映像サブシステム305による統括)ことで容易化可能である。
音声−映像VAD統括信号p(l)は、動的多チャンネルフィルタのノイズ及び発話の統計値の推定を制御することがある。音声−映像VAD統括信号p(l)は、多チャンネル音声信号の音声成分が実際に対象音源のものである(例えば、正しい音声成分に強調が行われている)という確率(例えば、確からしさ、信頼スコア)を示していてもよい。ハードゲート信号g(l)は、出力信号をハードによってミュートし又はミュートを解除するために用いられてもよい。例えば、ハードゲート信号g(l)は、(Fd(l)とLp(l)とに少なくとも部分的に基づいて)対象音源が映像撮像デバイスの視野にいない、又は、通話に関与していない確率が高い場合に出力信号をハードによってミュートするために用いられてもよい。ある観点では、音声統括ロジックコンポーネント340と音声処理コンポーネント345は、総合して、音声サブシステム310の多チャンネルノイズ低減コンポーネント及びゲートコンポーネントを実装してもよい。
いくつかの実施形態では、音声/映像処理システム300は、音声アプリケーションのセッション(例えば、会議、VoIP通話)のフローを管理するために用いられ得る。ある観点では、対象音源が映像入力デバイスの視野にいない、又はそうでなくとも音声アプリケーションのセッションに関与していないと判定された場合、音声/映像処理システム300は、映像入力デバイス(例えば、カメラ)及び/又は音声入力デバイス(例えば、マイクロホン)の1つ以上を(例えばユーザによるマニュアル操作を必要とせずに)オンオフし、再生音声及び/又は他の動作を低減してもよい。場合によっては、音声アプリケーションのセッションは、対象音源が不在、又は、セッションに関与していないときに(例えば自動的に)スリープモードに設定されてもよい。ある場合には、顔検出状態Fd(l)が、対象音源が映像入力デバイスの視野にいないことを示している状態(例えば、値)であるときに、音声/映像処理システム300は、音声の再生をミュート(例えば、出力音声信号s(l)をゼロに設定)してもよい。音声再生をミュートすることで、音声アプリケーションのセッションのダウンリンクにおいてもプライバシーを向上させ得る。
映像サブシステム305と音声サブシステム310のそれぞれは、それぞれ映像信号と音声信号を受信して処理するために適切な入力/インターフェース回路部を備えていてもよい。このような入力/インターフェース回路部は、アンチエイリアシングのフィルタリング、アナログ−デジタル変換、及び/又は、他の処理演算を実施するために用いられてもよい。図3は、音声/映像処理システム300の送信サイドを図示していることに留意されたい。場合によっては、音声/映像処理システム300は、音声信号及び/又は映像信号を受信し、受信した信号を出力デバイスに供給する受信サイドも備えている。
このように、様々な実施形態を用いると、多チャンネル音声信号からの強調された音声信号(例えば、s(l))の生成が、映像信号(例えば、c(l))を用いることで容易化される。映像入力信号(例えば、c(l))と音声入力信号(例えば、多チャンネル音声信号)とからユーザを認識/識別し、適切な出力映像信号(例えば、c^(l))と出力音声信号(例えば、s(l))とを生成することは、アプリケーション(例えば、音声アプリケーション)の1つのセッション又は複数のセッションの間、あるユーザを他のユーザから区別することができることを要することがある。当該あるユーザの他のユーザからの区別は、確率(例えば、確からしさ、信頼スコア)として表現されてもよく、例えばbn(l)、b(l)、d(l)、Lp(l)、Fd(l)、a(l)、p(l)及びg(l)のような、映像サブシステム305による映像信号の適切な分析と、音声サブシステム310による、音声信号と映像サブシステム305の出力信号(例えば、Lp(l)、Fd(l))の適切な分析によって得られる出力信号に少なくとも部分的に基づいていてもよい。
図5は、本開示の一以上の実施形態による、映像サブシステム505と音声サブシステム510とを備える例示的なシステム500を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び/又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、映像サブシステム505は、図2の映像サブシステム205であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図2の映像サブシステム205又はその一部を実装してもよい。一実施形態では、音声サブシステム510は、図2の音声サブシステム210であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図2の音声サブシステム210又はその一部を実装してもよい。
映像サブシステム505は、顔検出コンポーネント515と、顔識別コンポーネント520と、口唇動き検出コンポーネント525と、映像処理コンポーネント530とを備えている。音声サブシステム510は、音声VADコンポーネント535と、音声統括ロジックコンポーネント540と、音声処理コンポーネント545とを備えている。図3の説明は、一般に、図5にも当てはまり、図3と図5の差異の例と、その他の説明が明確性のために提供される。これに関し、図5の音声/映像処理システム500の構成要素は、図3の音声/映像処理システム300の様々な対応する構成要素と同じ又は類似の態様で実装され得る。
図5において、音声/映像処理システム500は、複数の対象音源のための音声信号強調(例えば、同時的な音声信号強調)を容易化するために用いられ得る。これに関し、強調された音声ストリームが、複数の対象音源について生成されてもよい。例として、m番目の対象音源(例えば、m番目の許可ユーザ)について、顔識別コンポーネント520が、顔検出信号bm(l)、信号dm(l)及び顔検出状態Fdm(l)を供給し、口唇動き検出コンポーネント525が口唇動き検出状態Lpm(l)を供給し、音声VADコンポーネント535がVAD信号am(l)を供給し、音声統括ロジックコンポーネント540が音声−映像VAD統括信号pm(l)とハードゲート信号gm(l)とを供給し、映像処理コンポーネント530が出力映像フレームc^m(l)を供給し、音声処理コンポーネント545が出力音声信号sm(l)を供給してもよい。顔識別コンポーネント520は、(事前IDとして参照されている)複数の事前顔識別子に少なくとも部分的に基づいて、検出した顔のそれぞれを複数の対象音源の1つに関連付けてもよい。図3は、音声/映像処理システム300が単一の対象音源に対応している図5の例示的なケースを図示している。
図6は、本開示の一以上の実施形態による、映像データを用いて容易化された音源強調のための例示的なプロセス600のフロー図を図示している。例示的なプロセス600は他のシステムと共に使用され得るが、ここでは、例示の目的で、例示的なプロセス600を図3の音声/映像処理システム300を参照して説明する。一以上の動作が、所望の通りに、組み合わされ、省略され、及び/又は異なる順序で行われてもよいことに留意されたい。
ブロック605において、映像サブシステム305は、映像入力デバイス(例えば、カメラ)によって撮像された画像(例えば、入力映像フレームc(l))を受信する。ブロック610において、音声サブシステム310は、複数の音声入力デバイス(例えば、マイクロホン)によって検出された音声信号(例えば、x1(l)、・・・xM(l))を含む多チャンネル音声信号を受信する。
ブロック615において、映像サブシステム305は、該画像に少なくとも部分的にも基づいて対象音源に関する確からしさ(例えば、確率、信頼スコア)を示す第1信号を規定する。いくつかの観点では、第1信号は、該画像において検出された顔が対象音源のものであることの確からしさを示していてもよい。場合によっては、第1信号は、顔識別コンポーネント320によって生成された顔検出状態Fd(l)であってもよい。顔検出状態Fd(l)は、二値信号であってもよく、非二値信号であってもよい。
ブロック620では、音声サブシステム310は、対象音源に由来する音声に関する確からしさを示す第2信号を規定する。第2信号は、ブロック615において映像サブシステム305によって生成された第1信号に少なくとも部分的に基づいて規定されてもよい。場合によっては、第2信号は、検出された唇の動き(例えば、口唇動き検出状態Lp(l))及び音声VAD信号(例えば、a(l))に更に基づいて規定されてもよい。いくつかの観点では、第2信号は、多チャンネル音声信号に検出された音声成分が対象音源のものであることの確からしさを示していてもよい。場合によっては、第2信号は、音声統括ロジックコンポーネント340によって生成された音声−映像VAD統括信号p(l)であってもよい。
ブロック625において、音声サブシステム310は、第2信号に少なくとも部分的に基づいて多チャンネル音声信号を処理して出力音声信号(例えば、強調された音声信号s(l))を生成する。ブロック630において、映像サブシステム305は、該画像を処理して出力映像信号(例えば、c^(l))を生成する。ある観点では、映像サブシステム305は、該画像をぼかす処理をしてもよい。ブロック635において、音声/映像処理システム300は、(例えば、音声アプリケーションにおいて用いるために)出力音声信号を送信する。ブロック640において、音声/映像処理システム300は、(例えば、音声アプリケーションにおいて用いるために)出力映像信号を送信する。例えば音声アプリケーションが音声のみの通話を行っている場合のように、場合によっては、ブロック630、640は、任意である場合がある。
図7は、本開示の一以上の実施形態による、音源強調を行うための例示的な電子システム700を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び/又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。
電子システム700は、一以上のプロセッサ705と、メモリ710と、入力コンポーネント715と、出力コンポーネント720と、通信インターフェース725とを備えている。電子システム700の様々なコンポーネントは、バス又はその他の電子通信インターフェースを介してやり取り及び通信を行ってもよい。電子システム700は、例えば、携帯電話、タブレット、ラップトップコンピューター、デスクトップ、自動車、パーソナルデジタルアシスタント(PDA)、テレビ、スピーカ(例えば、画像撮像が可能な会議用スピーカ)、又は、(例えば、音声入力デバイス及び映像入力デバイスから)音声及び映像信号を受信し、他のデバイスに直接に又はネットワークを介して信号を送信する如何なる電子デバイス一般であってもよく、また、接続されていてもよい。
プロセッサ705は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス(PLD)(例えば、フィールドプログラマブルゲートアレイ(FPGA))、デジタル信号処理(DSP)デバイス、又は、ハードの配線を行い、ソフトウェア指令を実行し、又は、これらの両方の組み合わせによって構成されて、ここに議論した音源強調のための様々な演算を行うように構成され得る他のデバイスのうちの一以上を備えていてもよい。これに関し、プロセッサ705は、メモリ710及び/又は他のメモリコンポーネントに格納された命令を実行するように動作可能であってもよい。一実施形態では、プロセッサ705は、図1、図2、図3、及び図5それぞれの音声/映像処理システム120、200、300及び500の様々なコンポーネントの動作を行ってもよい。例として、プロセッサ705は、音声入力デバイス(例えば、図1の125A〜D)から多チャンネル音声入力信号を受信し、映像入力デバイス(例えば、図1の130)から画像を受信し、これらの音声及び映像信号を処理してもよい。
メモリ710は、音声データ、映像データ及びプログラム命令等のデータを格納するように動作可能な一以上のメモリデバイスとして実装されてもよい。メモリ710は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気書き換え可能プログラマブルリードオンリーメモリ(EEPROM)、フラッシュメモリ、ハードディスクドライブのような揮発性及び不揮発性メモリデバイスを含む一以上の種類のメモリデバイス、及び/又は、他の種類のメモリを備えていてもよい。
入力コンポーネント715は、入力を受け取る一以上のデバイスを備えていてもよい。ある観点では、入力コンポーネント715は、タッチスクリーン、タッチパッドディスプレイ、キーパッド、一以上のボタン、ダイアル、ノブ、及び/又はユーザが電子システム700とやり取りを行うことを可能にするように動作可能な他のコンポーネントを備えていてもよい。場合によっては、入力コンポーネント715は、音声入力デバイス(例えば、マイクロホン)又は映像入力デバイス(例えば、カメラ)を備えていてもよい。例えば、入力コンポーネント715は、入力音声信号と入力映像信号とをプロセッサ705に供給してもよい。他の場合では、入力コンポーネント715は、プロセッサ705に入力音声信号と入力映像信号とを音源強調の目的で供給する音声入力デバイス及び/又は映像入力デバイスを備えていない。出力コンポーネント720は、音声及び/又は映像出力を出力する一以上のデバイスを備えていてもよい。場合によっては、出力コンポーネント720は、音声出力デバイス(例えば、スピーカ)又は映像入力デバイス(例えば、ディスプレイ)を備えていてもよい。
通信インターフェース725は、電子システム700とネットワークと外部デバイスの間の通信を容易化する。例えば、通信インターフェース725は、電子システム700と、例えば外部デバイス730のような一以上のローカルデバイスとの間を、Wi−Fi(例えば、IEEE 802.11)又はブルートゥース(登録商標)によって接続すること可能にし、又は、ネットワーク740を介して外部デバイス735へのネットワークアクセスを提供するためにワイヤレスルータに接続することを可能にする。様々な実施形態において、通信インターフェース725は、電子システム700と他のデバイスとの間の直接又は間接の通信を容易化するための有線及び/又は無線通信コンポーネントを備えていてもよい。例として、電子システム700のユーザは、電子システム700とネットワーク740の間の、及び、ネットワーク740と外部デバイス735の間の無線通信を介して外部デバイス735のユーザとVoIP通話を行ってもよい。
当てはまる場合、本開示によって提供されている様々な実施形態は、ハードウェア、ソフトウェア、又は、ハードウェアとソフトウェアの組み合わせを用いて実施され得る。また、当てはまる場合には、ここに提示した様々なハードウェアコンポーネント及び/又はソフトウェアコンポーネントは、本開示の範囲から離れずに、ソフトウェア、ハードウェア及び/又はその両方を備える複合コンポーネントに組み合わされることがある。当てはまる場合、ここに提示されている様々なハードウェアコンポーネント及び/又はソフトウェアコンポーネントは、本開示の範囲から離れずに、ソフトウェア、ハードウェア及び/又はその両方を備えるサブコンポーネントに分離されることがある。加えて、当てはまる場合には、ソフトウェアコンポーネントは、ハードウェアコンポーネントとして実装され得るし、また逆も同様であると考えられる。
本開示によれば、プログラムコード及び/又はデータのようなソフトウェアは、一以上のコンピュータ読み取り可能媒体に格納されてもよい。ここに特定されたソフトウェアは、一以上の汎用又は特定用途の、ネットワーク化された及び/又はそうではない、コンピュータ及び/又はコンピュータシステムを用いて実装されてもよいと考えられる。当てはまる場合には、ここに記載した様々なステップの順序は、ここに記載した特徴を提供するように変更され、複合ステップに組み合わされ、及び/又は、サブステップに分割されてもよい。
前述の開示は、本開示を、開示されている、まさにその形態や特定の使用分野に限定することを意図したものではない。したがって、明示的に記載され、又は、本願に示唆されているものの何れであっても、様々な代替の実施形態及び/又は本開示の変形例が、本開示に照らして可能であると考えられる。本開示の上記された実施形態をもってすれば、当業者は、本開示の範囲から離れることなく形態及び詳細において変更がなされ得ると認識するであろう。したがって、本開示は、特許請求の範囲によってのみ限定される。

Claims (20)

  1. 複数の音声入力デバイスによって検出された音声信号を備える多チャンネル音声信号を受信することと、
    映像入力デバイスによって撮像された画像を受信することと、
    前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定することと、
    前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定することと、
    前記第2信号に少なくとも部分的に基づいて、出力音声信号を生成するように前記多チャンネル音声信号を処理することと、
    を含む
    方法。
  2. 前記処理することが、前記対象音源に由来する前記音声成分を強調し、
    前記複数の音声入力デバイスが、マイクロホンのアレイを備えている
    請求項1に記載の方法。
  3. 更に、
    複数の画像を受信することと、
    前記複数の画像において或る音源を前記対象音源として識別することと、
    前記複数の画像に少なくとも部分的に基づいて前記音源について口唇動き検出を行うことと、
    を含み、
    前記第2信号が、前記口唇動き検出に更に基づいている
    請求項1に記載の方法。
  4. 前記多チャンネル音声信号を処理することは、
    前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び/又は、前記対象音源の唇の動きが検出されたかに少なくとも部分的に基づいてミュートされた音声を生成することを含む
    請求項1に記載の方法。
  5. 前記第1信号が二値信号であり、
    前記二値信号が、前記対象音源が前記画像にいると判定されることに少なくとも部分的に基づいて第1状態になる
    請求項1に記載の方法。
  6. 更に、
    前記画像において少なくとも一の顔を検出することと、
    事前に定義された顔識別子に少なくとも部分的に基づいて、前記少なくとも一の顔の一つが、前記対象音源であると識別することと
    を含む
    請求項1に記載の方法。
  7. 更に、前記多チャンネル音声信号に対して音声アクティビティ検出(VAD)を行ってVAD信号を生成することを含み、
    前記第2信号が、前記VAD信号に少なくとも部分的に基づいて規定される
    請求項1に記載の方法。
  8. 更に、
    前記画像における前記対象音源の位置を特定することと、
    前記画像を処理して前記位置に少なくとも部分的に基づいて出力映像信号を生成することを備える
    請求項1に記載の方法。
  9. 更に、
    前記出力音声信号と前記出力映像信号とを、ネットワークを介して外部デバイスに送信することを備える
    請求項8に記載の方法。
  10. 前記画像を処理することが、前記位置に少なくとも部分的に基づいて前記画像の一部をぼかして前記出力映像信号を生成することを含む
    請求項8に記載の方法。
  11. 前記対象音源が前記画像にいないと判定された場合、前記出力映像信号が、全体がぼかされた画像又は全体が空白にされた画像を含んでいる
    請求項8に記載の方法。
  12. 更に、
    前記画像に少なくとも部分的に基づいて前記対象音源の凝視の方向を特定することを含み、
    前記第1信号及び/又は前記第2信号が、前記凝視の前記方向に更に基づいている
    請求項1に記載の方法。
  13. 更に、ボイスオーバーインターネットプロトコル(VoIP)アプリケーションにおいて使用するために前記出力音声信号を送信することを含む
    請求項1に記載の方法。
  14. 更に、前記映像入力デバイスに対する前記対象音源の位置に少なくとも部分的に基づいて前記VoIPアプリケーションのセッションをスリープモードに設定することを含む
    請求項13に記載の方法。
  15. 映像入力デバイスによって撮像された画像を受信するように構成された映像サブシステムであって、前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第1信号を規定するように構成された識別コンポーネントを備える映像サブシステムと、
    複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成された音声サブシステムと
    を備え、
    前記音声サブシステムが、
    前記多チャンネル音声信号と前記第1信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第2信号を規定するように構成されたロジックコンポーネントと、
    前記第2信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントと
    を備える
    システム。
  16. 前記映像サブシステムが、更に、前記画像における前記対象音源の位置に少なくとも部分的に基づいて前記画像を処理して出力映像信号を生成するように構成された映像処理コンポーネントを備える
    請求項15に記載のシステム。
  17. 前記映像処理コンポーネントが、前記位置に少なくとも部分的に基づいて前記画像の一部分をぼかして前記出力映像信号を生成するように構成された背景ぼかしコンポーネントを備える
    請求項16に記載のシステム。
  18. 前記識別コンポーネントが、前記複数の画像において或る音源を前記対象音源と識別するように更に構成されており、
    前記映像サブシステムが、前記複数の画像に少なくとも部分的に基づいて口唇動き検出を前記音源に対して行うように構成された口唇動き検出コンポーネントを更に備え、
    前記第2信号が前記口唇動き検出に更に基づいている
    請求項15に記載のシステム。
  19. 前記音声サブシステムが、前記多チャンネル音声信号に対して音声アクティビティ検出(VAD)を行ってVAD信号を生成するように構成されたVADコンポーネントを更に備え、
    前記第2信号が、前記VAD信号に少なくとも部分的に基づいて規定される
    請求項15に記載のシステム。
  20. 前記音声処理コンポーネントが、前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び/又は、前記対象音源の唇の動きが検出されたか、に少なくとも部分的に基づいて、ミュートされた音声を生成するように構成された
    請求項15に記載のシステム。

JP2020096190A 2019-06-27 2020-06-02 映像データを用いて容易化された音源強調 Active JP7525304B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/455,668 US11082460B2 (en) 2019-06-27 2019-06-27 Audio source enhancement facilitated using video data
US16/455,668 2019-06-27

Publications (3)

Publication Number Publication Date
JP2021007216A true JP2021007216A (ja) 2021-01-21
JP2021007216A5 JP2021007216A5 (ja) 2023-05-31
JP7525304B2 JP7525304B2 (ja) 2024-07-30

Family

ID=73887691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020096190A Active JP7525304B2 (ja) 2019-06-27 2020-06-02 映像データを用いて容易化された音源強調

Country Status (3)

Country Link
US (1) US11082460B2 (ja)
JP (1) JP7525304B2 (ja)
CN (1) CN112151063A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2565315B (en) * 2017-08-09 2022-05-04 Emotech Ltd Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
FR3103955A1 (fr) * 2019-11-29 2021-06-04 Orange Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant
EP4073792A1 (en) * 2019-12-09 2022-10-19 Dolby Laboratories Licensing Corp. Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
TWI740339B (zh) * 2019-12-31 2021-09-21 宏碁股份有限公司 自動調整特定聲源的方法及應用其之電子裝置
US11234090B2 (en) * 2020-01-06 2022-01-25 Facebook Technologies, Llc Using audio visual correspondence for sound source identification
US11087777B1 (en) 2020-02-11 2021-08-10 Facebook Technologies, Llc Audio visual correspondence based signal augmentation
US11460927B2 (en) * 2020-03-19 2022-10-04 DTEN, Inc. Auto-framing through speech and video localizations
KR20210128074A (ko) * 2020-04-16 2021-10-26 엘지전자 주식회사 립리딩 기반의 화자 검출에 따른 오디오 줌
US11915716B2 (en) 2020-07-16 2024-02-27 International Business Machines Corporation Audio modifying conferencing system
US11303465B2 (en) 2020-07-16 2022-04-12 International Business Machines Corporation Contextually aware conferencing system
US11190735B1 (en) * 2020-07-16 2021-11-30 International Business Machines Corporation Video modifying conferencing system
US11082465B1 (en) * 2020-08-20 2021-08-03 Avaya Management L.P. Intelligent detection and automatic correction of erroneous audio settings in a video conference
WO2022146169A1 (en) * 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation
EP4385204A1 (en) * 2021-08-14 2024-06-19 ClearOne, Inc. Muting specific talkers using a beamforming microphone array
WO2023234939A1 (en) * 2022-06-02 2023-12-07 Innopeak Technology, Inc. Methods and systems for audio processing using visual information

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590941B2 (en) * 2003-10-09 2009-09-15 Hewlett-Packard Development Company, L.P. Communication and collaboration system using rich media environments
KR100754385B1 (ko) 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US20110099017A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US20120013620A1 (en) * 2010-07-13 2012-01-19 International Business Machines Corporation Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9609273B2 (en) * 2013-11-20 2017-03-28 Avaya Inc. System and method for not displaying duplicate images in a video conference
KR102217191B1 (ko) * 2014-11-05 2021-02-18 삼성전자주식회사 단말 장치 및 그 정보 제공 방법
US9445050B2 (en) * 2014-11-17 2016-09-13 Freescale Semiconductor, Inc. Teleconferencing environment having auditory and visual cues
EP3579551B1 (en) * 2014-11-18 2022-10-26 Caavo Inc Automatic identification and mapping of consumer electronic devices to ports on an hdmi switch
EP3101838A1 (en) * 2015-06-03 2016-12-07 Thomson Licensing Method and apparatus for isolating an active participant in a group of participants
EP3488439B1 (en) 2016-07-22 2021-08-11 Dolby Laboratories Licensing Corporation Network-based processing and distribution of multimedia content of a live musical performance
JP6410769B2 (ja) 2016-07-28 2018-10-24 キヤノン株式会社 情報処理システム及びその制御方法、コンピュータプログラム
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences

Also Published As

Publication number Publication date
JP7525304B2 (ja) 2024-07-30
US20200412772A1 (en) 2020-12-31
CN112151063A (zh) 2020-12-29
US11082460B2 (en) 2021-08-03

Similar Documents

Publication Publication Date Title
JP7525304B2 (ja) 映像データを用いて容易化された音源強調
EP3791390B1 (en) Voice identification enrollment
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
EP3855731B1 (en) Context based target framing in a teleconferencing environment
US11343446B2 (en) Systems and methods for implementing personal camera that adapts to its surroundings, both co-located and remote
US20190311718A1 (en) Context-aware control for smart devices
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
US8416998B2 (en) Information processing device, information processing method, and program
US20230045237A1 (en) Wearable apparatus for active substitution
CN104170374A (zh) 在视频会议期间修改参与者的外观
JP6562790B2 (ja) 対話装置および対話プログラム
KR102077887B1 (ko) 비디오 회의 강화
US10325600B2 (en) Locating individuals using microphone arrays and voice pattern matching
US20210092514A1 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
Huang et al. Audio-visual speech recognition using an infrared headset
US11164341B2 (en) Identifying objects of interest in augmented reality
CN114911449A (zh) 音量控制方法、装置、存储介质和电子设备
CN114187166A (zh) 图像处理方法、智能终端及存储介质
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
JP2021056499A (ja) 方法、プログラム、及び装置
KR20130054131A (ko) 디스플레이장치 및 그 제어방법
KR20140093459A (ko) 자동 통역 방법
US11743588B1 (en) Object selection in computer vision
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
Anderson et al. Robust tri-modal automatic speech recognition for consumer applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240718

R150 Certificate of patent or registration of utility model

Ref document number: 7525304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150