JP7338627B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP7338627B2
JP7338627B2 JP2020532274A JP2020532274A JP7338627B2 JP 7338627 B2 JP7338627 B2 JP 7338627B2 JP 2020532274 A JP2020532274 A JP 2020532274A JP 2020532274 A JP2020532274 A JP 2020532274A JP 7338627 B2 JP7338627 B2 JP 7338627B2
Authority
JP
Japan
Prior art keywords
sound
image
image object
moving image
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020532274A
Other languages
English (en)
Other versions
JPWO2020022055A1 (ja
Inventor
直也 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020022055A1 publication Critical patent/JPWO2020022055A1/ja
Application granted granted Critical
Publication of JP7338627B2 publication Critical patent/JP7338627B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B13/00Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
    • G03B13/18Focusing aids
    • G03B13/20Rangefinders coupled with focusing arrangements, e.g. adjustment of rangefinder automatically focusing camera
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B13/00Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
    • G03B13/32Means for focusing
    • G03B13/34Power focusing
    • G03B13/36Autofocus systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、音声付動画像から所望のオブジェクトを抽出することができるようにした情報処理装置および方法、並びにプログラムに関する。
音声が付随している動画像である音声付動画像から、音を発するオブジェクトを抽出することができれば、その抽出結果を様々な処理に利用することができ、便利である。
例えば音声付動画像再生時において、動画像上のあるオブジェクト(物体)を対象としてフォーカスを行ったり、オブジェクトを中心に拡大やトリミングを行ったりすることが考えられる。そのような場合に、音声付動画像の音声についても、フォーカスや拡大、トリミングなどの画像処理が行われたオブジェクトから発せられた音を強調したり、その音のみを抽出して再生したりしたいという要求がある。
また、例えば所望の音を強調する技術として、マイクアレイを用いてオブジェクト(物体)のある方向の音声を強調する技術が提案されている(例えば、特許文献1参照)。
特開2014-50005号公報
しかしながら、上述した技術では音声付動画像から所望のオブジェクトの画像領域や音を抽出することは困難であった。
例えば特許文献1に記載の技術では、音を発する物体が空間上の同方向に複数ある場合には、所望の物体に音をフォーカスすることができない。すなわち、それらの同方向にある複数の物体(オブジェクト)のなかから、所望の物体の音のみを抽出することはできない。
また、特許文献1に記載の技術では動画像上の位置の選択により物体の選択を近似しているため、人物A、車、ギターといった概念ベースでのオブジェクトの選択を行うことができない。例えばユーザが音声認識インターフェースで「赤いシャツの女の子にフォーカスして」などと指示をしたくても赤いシャツの女の子がオブジェクトとして定義され、そのオブジェクトに対応する画像領域と音が定義されていないと、このようなコマンドに応えることは困難である。
したがって、例えばオブジェクトの音に基づいて、そのオブジェクトにフォーカスするなど、特定の音を発するオブジェクトにフォーカスを行うことができなかった。
本技術は、このような状況に鑑みてなされたものであり、音声付動画像から所望のオブジェクトを抽出することができるようにするものである。
本技術の一側面の情報処理装置は、音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部とを備え、前記音オブジェクト検出部は、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う。
本技術の一側面の情報処理方法またはプログラムは、音声付動画像に基づいて画像オブジェクトを検出し、前記音声付動画像に基づいて音オブジェクトを検出し、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出するステップを含み、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う。
本技術の一側面においては、音声付動画像に基づいて画像オブジェクトが検出され、前記音声付動画像に基づいて音オブジェクトが検出され、前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトが検出される。また、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みが行われる。
本技術の一側面によれば、音声付動画像から所望のオブジェクトを抽出することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
再生装置の構成例を示す図である。 音画像オブジェクト抽出部の構成例を示す図である。 音オブジェクト検出器の構成例を示す図である。 音画像オブジェクトの選択について説明する図である。 再生処理を説明するフローチャートである。 本技術のユースケースについて説明する図である。 本技術のユースケースについて説明する図である。 本技術のユースケースについて説明する図である。 本技術のユースケースについて説明する図である。 本技術のユースケースについて説明する図である。 本技術のユースケースについて説明する図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、音声付動画像から音オブジェクトと画像オブジェクトを検出し、それらの検出結果に基づいて音画像オブジェクトを検出することで、音声付動画像から所望のオブジェクトの画像領域と音、つまり音画像オブジェクトを抽出できるようにするものである。
ここで、音声付動画像とは、動画像と、その動画像に付随する音声とから構成されるものである。以下では、音声付動画像を構成する動画像を単に音声付動画像とも称することとする。また、音オブジェクトとは、音声付動画像の音声の音源となる物体等のオブジェクトであり、画像オブジェクトとは、音声付動画像上の被写体として写っている物体等のオブジェクトである。また、音画像オブジェクトとは、音声付動画像の音オブジェクトでもあり、かつ画像オブジェクトでもあるオブジェクトである。
本技術では、音画像オブジェクトの検出時には、まず画像オブジェクトと音オブジェクトが個別に検出される。
このとき、画像オブジェクトの検出には音オブジェクトの検出結果や音響イベントの検出結果など、音声付動画像の音情報も適宜利用することができる。このようにすれば、音声付動画像を構成する動画像が暗く、輝度が不足していたり、被写体が不鮮明であったり、被写体の大部分が隠れているなどの状況でも画像オブジェクトを検出することができる。
また、音オブジェクトの検出には音源分離が利用される。これにより、1つの方向に複数の音源がある場合でも音源の種類に応じて各音源の音を分離することができる。すなわち、より確実に音オブジェクトを検出および抽出することができる。
なお、ここでは音オブジェクトの検出に音源分離が用いられる例について説明するが、その他、マイクアレイを用いた指向性制御等の音源方向の検出技術などを組み合わせてもよい。
しかし指向性制御を単純に音源分離に置き換えることはできない。これは音源分離には、どのような種類の音源の音を分離抽出するかという事前知識と、その音源に対するモデルが必要となり、モデルの構築にも音量差や位相差、音響特徴量以上の情報、つまりより多くの情報が必要となるからである。
さらに、音オブジェクトの検出時に画像オブジェクトの検出結果等の画像情報を用いるようにしてもよい。例えば画像オブジェクトの検出結果を用いれば、音オブジェクトの検出時に音源(音オブジェクト)のある方向や音源の種類などを絞り込むことができる。
その他、画像オブジェクトや音オブジェクトの検出には、画像オブジェクトや音オブジェクトについての同時発生確率を利用してもよい。そのような場合、例えば所定の画像オブジェクトが存在するときに、複数の各音オブジェクトが同時に観測される確率、すなわち同時発生確率を推定するモデルが事前に学習され、同時発生確率が利用されて検出対象とする音オブジェクトの絞り込みが行われる。
画像オブジェクトと音オブジェクトが検出されると、それらの検出結果に基づいて音画像オブジェクトが検出される。
具体的には、本技術では検出された画像オブジェクトと音オブジェクトの対応付けを行うことで音画像オブジェクトが検出される。
画像オブジェクトと音オブジェクトの対応付けでは、例えば画像オブジェクトや音オブジェクトの事前知識や空間上の位置情報などを利用すれば、位置情報に応じて、各位置にある画像オブジェクトと音オブジェクトとを正しく対応付けることができる。また、画像オブジェクトと音オブジェクトの対応付けでは、同方向にある音源も個別にオブジェクト化することが可能である。
具体的には、例えば学習により得られたニューラルネットワーク等が予め用意され、そのニューラルネットワーク等により音オブジェクトと画像オブジェクトの対応付けを行うようにすることができる。
このとき、例えば音オブジェクトの事前知識(事前情報)から、その音オブジェクトの位置に対応する画像オブジェクトがラベル付け(対応付け)されたり、逆に画像オブジェクトの事前知識から、その画像オブジェクトの位置に対応する音オブジェクトがラベル付け(対応付け)されたりする。
その他、画像オブジェクトと音オブジェクトの共起確率を事前に学習しておき、その共起確率を音画像オブジェクトの検出に利用してもよい。
以上のようにして1または複数の音画像オブジェクトが検出されると、それらの音画像オブジェクトのうちの任意のものを選択し、選択した音画像オブジェクトに基づく処理を実行させることが可能となる。
音画像オブジェクトの選択方法は、ユーザにより指定されてもよいし、機器側で自動的に選択されてもよい。
例えばユーザが音画像オブジェクトを選択(指定)する場合には、ユーザはマウス等の入力操作機器による入力操作や音声認識を利用した音声入力により、音画像オブジェクト単位で所望の音画像オブジェクトを選択することができる。
また、VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)などにおいて、事前に登録された所定の音画像オブジェクトが選択されるようにしてもよい。この場合、例えば人の声や特定の音響イベント、特定の物体(オブジェクト)などに対応する音画像オブジェクトが選択されることになる。
その他、VR、AR、MRなどにおいて、ユーザの注視位置が検出され、その注視位置にある音画像オブジェクトが選択されるようにしてもよいし、カメラ等においてAF(Auto Focus)によりピントが合っている音画像オブジェクトが選択されるようにしてもよい。
また、選択された音画像オブジェクトに基づく処理は、どのような処理であってもよいが、フォーカス処理や除去処理、通知処理、シャッタ動作制御処理などが考えられる。
例えばフォーカス処理では、ARやライトフィールドカメラにおいて、選択された音画像オブジェクトの画像領域がフォーカスされるように強調処理や画像合成等が行われ、同時にその選択された音画像オブジェクトの音声が強調されるようにすることができる。
また、例えば除去処理では、ARにおいて特定の人を消去するなど、選択された音画像オブジェクトが音声付動画像上から除去され、その音画像オブジェクトの音声も除去されるようにすることができる。
さらに通知処理では、例えばARにおいて、選択された音画像オブジェクトが、注目すべきオブジェクトであることをユーザに通知することができる。その他、シャッタ動作制御処理では、カメラにおいて、選択された音画像オブジェクトが特性の音を発したときにシャッタ動作を行い、画像を撮像するように制御することができる。
〈再生装置の構成例〉
それでは、以下、上述した本技術について、さらに詳細に説明する。
図1は、本技術を適用した再生装置の一実施の形態の構成例を示す図である。
図1に示す再生装置11は、例えばパーソナルコンピュータやヘッドマウントディスプレイ、ゲーム機器、スマートホン、カメラ、スマートスピーカ、ロボットなど、音声付動画像を処理することのできる情報処理装置からなる。
再生装置11は音画像オブジェクト抽出部21、音画像オブジェクト選択部22、動画像処理部23、入力部24、メモリ25、表示画像生成部26、表示部27、およびスピーカ28を有している。
音画像オブジェクト抽出部21は、供給された音声付動画像から音画像オブジェクトを検出することで、音声付動画像から音画像オブジェクトを抽出し、その抽出結果を音画像オブジェクト選択部22、動画像処理部23、およびメモリ25に供給する。
ここでは音画像オブジェクトの抽出結果として、例えば音声付動画像のフレームごとに、各音画像オブジェクトの音画像オブジェクト情報が出力される。この音画像オブジェクト情報には、例えば画像領域情報や分離音、種別情報などが含まれている。
画像領域情報は、音声付動画像上における音画像オブジェクトの画像領域、つまり音画像オブジェクトの画像であり、分離音は音画像オブジェクトの音声、より詳細には音画像オブジェクトの音の音声信号である。また、種別情報は音画像オブジェクトの種類(種別)を示す情報である。
一般的に、音声付動画像の音声からは複数の音源(オブジェクト)から発せられた音が混合されて観測されるが、音画像オブジェクト抽出部21では、対象となる音画像オブジェクトの音のみが分離(抽出)され、分離音として出力される。
音画像オブジェクト選択部22は、入力部24から供給された信号に応じて、音画像オブジェクト抽出部21から供給された音画像オブジェクトの抽出結果に基づいて、抽出された1または複数の音画像オブジェクトのなかから、所望の1または複数の音画像オブジェクトを選択し、その選択結果を動画像処理部23に供給する。
動画像処理部23は、入力部24から供給された信号や音画像オブジェクト選択部22から供給された選択結果、音画像オブジェクト抽出部21から供給された抽出結果に応じて、外部から供給された音声付動画像に対して音画像オブジェクトに基づく処理を行う。
動画像処理部23は、音画像オブジェクトに基づく処理として画像処理が行われた場合には、その画像処理後の音声付動画像を表示画像生成部26に供給する。
また、例えば再生装置11がカメラ等の撮像機能を有する機器である場合には、動画像処理部23が音画像オブジェクトに基づく処理として、上述したシャッタ動作制御処理等を行うようにしてもよい。
入力部24は、例えばボタンやスイッチ、表示部27に重畳して設けられたタッチパネル、音声認識に用いるマイクロフォンなどの各種の入力装置からなる。入力部24は、ユーザの操作や音声入力等に応じた信号を音画像オブジェクト選択部22や動画像処理部23、表示画像生成部26に供給する。
メモリ25は、音画像オブジェクト抽出部21から供給された抽出結果を一時的に保持し、保持している抽出結果を適宜、表示画像生成部26に供給する。
表示画像生成部26は、入力部24から供給された信号に応じて、メモリ25に保持されている抽出結果と、動画像処理部23から供給された画像処理後の音声付動画像とに基づいて、再生用の画像と音声である表示画像および再生用音声を生成する。
表示画像生成部26は、生成した表示画像、より詳細には表示画像の画像データを表示部27に供給して表示画像を表示させるとともに、生成した再生用音声、より詳細には再生用音声の音声データをスピーカ28に供給して再生用音声を再生(出力)させる。
表示部27は、例えば液晶表示パネルなどからなり、表示画像生成部26から供給された表示画像を表示する。スピーカ28は、表示画像生成部26から供給された再生用音声を出力する。
〈音画像オブジェクト抽出部の構成例〉
また、再生装置11における音画像オブジェクト抽出部21は、例えば図2に示すように構成される。
図2に示す例では音画像オブジェクト抽出部21は、画像オブジェクト検出器51、音オブジェクト検出器52、および音画像オブジェクト検出器53を有している。
画像オブジェクト検出器51は、音オブジェクト検出器52から供給された、音響イベントや音オブジェクトの検出結果を適宜用いて、外部から供給された音声付動画像から画像オブジェクトを検出する。すなわち、画像オブジェクト検出器51では、音声付動画像を構成する動画像から画像オブジェクトの画像領域が検出される。
画像オブジェクト検出器51は、画像オブジェクトの検出結果を音オブジェクト検出器52および音画像オブジェクト検出器53に供給する。なお、画像オブジェクト検出器51における画像オブジェクトの検出では、音声付動画像を構成する動画像だけでなく、音声付動画像を構成する音声も用いられるようにしてもよい。
音オブジェクト検出器52は、画像オブジェクト検出器51から供給された画像オブジェクトの検出結果を適宜用いて、外部から供給された音声付動画像から音オブジェクトを検出し、その検出結果を音画像オブジェクト検出器53に供給する。音オブジェクトの検出には音声付動画像の音声だけでなく、音声付動画像を構成する動画像も適宜用いられる。
また、音オブジェクト検出器52は、音声付動画像から音響イベントの検出も行う。音オブジェクト検出器52は、音オブジェクトや音響イベントの検出結果を適宜、画像オブジェクト検出器51に供給する。
なお、より詳細には音オブジェクト検出器52では、音オブジェクトを検出することにより、検出された音オブジェクトの音声(分離音)が音声付動画像の音声から抽出される。
音画像オブジェクト検出器53は、画像オブジェクト検出器51から供給された検出結果と、音オブジェクト検出器52から供給された検出結果とに基づいて音画像オブジェクトを検出する。ここでは、画像オブジェクトと音オブジェクトとの対応付けを行うことで、音画像オブジェクトが検出される。
また、音画像オブジェクト検出器53は、画像オブジェクトの検出結果と音オブジェクトの検出結果とから、検出された音画像オブジェクトの音画像オブジェクト情報を生成することで、音声付動画像から音画像オブジェクトを抽出する。音画像オブジェクト検出器53は、音画像オブジェクトの抽出結果として得られた音画像オブジェクト情報を音画像オブジェクト選択部22、動画像処理部23、およびメモリ25に供給する。
なお、音画像オブジェクトは画像オブジェクトであり、かつ音オブジェクトでもあるオブジェクトである。しかし、所定のフレームにおいて画像オブジェクトであるが、音オブジェクトではないものが無音の音画像オブジェクトとされてもよい。
すなわち、過去のフレームにおいては音画像オブジェクトとされていた画像オブジェクトについて、現フレームでは対応する音オブジェクトがない場合でも、現フレームにおいて、その画像オブジェクトが無音の音画像オブジェクトとされるようにしてもよい。
これは、例えば所定のフレームにおいては対応する音オブジェクトは検出されなかったが、過去のフレームにおいては対応する音オブジェクトが検出された画像オブジェクトも音画像オブジェクトとして扱われるべきだからである。なお、複数のフレーム間で、どの画像オブジェクトが互いに対応するものであるかについては、トラッキングなどにより特定することが可能である。
同様に、音画像オブジェクトがあるフレームにおいては、何らかの遮蔽物等に隠れて見えなくなることもある。そこで過去のフレームにおいては音画像オブジェクトとされていた音オブジェクトについて、現フレームでは対応する画像オブジェクトがない場合でも、現フレームにおいて、その音オブジェクトが音画像オブジェクトとされてもよい。
その他、対応する音オブジェクトのない画像オブジェクトや、対応する画像オブジェクトのない音オブジェクトが背景画像や背景音のオブジェクト、つまり背景オブジェクトとして分類されるようにしてもよい。
また、図2では、画像オブジェクトの検出結果と、音オブジェクトの検出結果とに基づいて音画像オブジェクト検出器53が音画像オブジェクトを検出する例について説明したが、音画像オブジェクト検出器53が、音声付動画像を入力として音画像オブジェクトを検出するように構成することも可能である。
しかし、音声付動画像を入力として音画像オブジェクト検出器53で音画像オブジェクトを検出するよりも、図2の例のように音画像オブジェクト検出器53の前段に画像オブジェクト検出器51と音オブジェクト検出器52を設けた方が高精度に音画像オブジェクトを検出することが可能である。
〈音オブジェクト検出器の構成例〉
さらに音オブジェクト検出器52は、例えば図3に示すように構成される。
図3に示す例では、音オブジェクト検出器52は、音源分離部81および音響イベント検出部82を有している。
音源分離部81は、画像オブジェクト検出器51から供給された検出結果や、音響イベント検出部82から供給された音響イベントの検出結果を適宜用いて、外部から供給された音声付動画像の音声に基づいて音源分離により音オブジェクトを検出する。音源分離部81は、音オブジェクトの検出結果を音響イベント検出部82および音画像オブジェクト検出器53に供給する。なお、音オブジェクトの検出結果は、画像オブジェクト検出器51にも供給されるようにしてもよい。
音響イベント検出部82は、音源分離部81から供給された検出結果を適宜用いて、外部から供給された音声付動画像の音声から特定の音響イベントを検出し、その検出結果を音源分離部81および画像オブジェクト検出器51に供給する。
〈再生装置の各部の動作について〉
次に、以上において説明した再生装置11の各部の動作について、より詳細に説明する。
まず、音源分離部81と音響イベント検出部82について説明する。
例えば音源分離部81は、ニューラルネットワークで構築することができる。
一般的にマイクロフォンで収録される音には、複数の音源から発せられた音が混合されている。つまり、マイクロフォンでは、複数の音源からの音が混合された状態で、それらの各音源からの音が観測される。そのため、音オブジェクトを抽出するには、混合音から目的とする音オブジェクトの音だけを分離する音源分離の技術が必要となる。
そこで音源分離部81では、例えば「Multi-scale Multi-band DenseNets for Audio Source Separation, WASPAA2017」(以下、技術文献1と称する)などに記載された技術が利用されて音源分離が行われ、音オブジェクトの音声の検出および抽出が行われる。
すなわち、音源分離部81がニューラルネットワークにより構成される場合、最終的に検出したい所望のオブジェクトが、音源分離で検出対象(抽出対象)となる音オブジェクトとされる。また、検出対象の音オブジェクトの音声と、それと同時に観測され得るその他の音声とを含む音声データがニューラルネットワークの学習用のデータとして予め用意される。
そして、そのような学習用の音声データが用いられて、それらの混合音から目的とするオブジェクトの音声が音オブジェクトの音声として推定されるようにニューラルネットワークの学習が行われる。特に学習時には、周波数領域で振幅スペクトルの推定二乗誤差を最小化するようにニューラルネットワークが学習される。
ニューラルネットワークでは、検出対象とするオブジェクトの種類が増えるにつれて、分離性能が低下することが考えられる。これは類似する音響特性を有するオブジェクト間で混乱が生じ、出力先が分散するためである。
そのような混乱が生じることを防止するために、音源分離部81として機能するニューラルネットワークでの音源分離に画像情報を用いるようにしてもよい。ここで、画像情報は音声付動画像そのものであってもよいし、音声付動画像に対する画像物体認識の結果や、画像オブジェクトの検出結果などであってもよい。
例えば画像情報として、音声付動画像を構成する動画像に対する画像物体認識結果を用いることで、予め候補となる音オブジェクトの種類を絞り込むことができ、より高精度に音源分離を行うことができるようになる。
また、例えばマイクロフォンが複数あり、音声付動画像の音声が複数チャンネルの音声となる場合には、音による音源位置推定結果と、画像による画像物体位置推定結果とを照合し、方向ごとに音オブジェクトの絞り込みを行うようにしてもよい。
具体的には、例えば検出対象とするオブジェクト(音オブジェクト)の種類を示すインデックスをi(但し、i=1,…,N)とし、画像物体認識器でのオブジェクトの検出結果として得られた、i番目のオブジェクトの存在確率をpiとする。
この場合、音源分離部81を構成するニューラルネットワークにおいて存在確率piが所定の閾値th以上であるオブジェクトの集合O={i|pi>th}、または存在確率piが高い上位M個のオブジェクトの集合O’のみに限定して音源分離が行われるようにすればよい。
したがって、この場合、音オブジェクト検出器52には音声付動画像を入力とし、N個の各オブジェクトの画像領域を音声付動画像から検出する、図示せぬ画像物体認識器が設けられることになる。
そして、音源分離部81は、この画像物体認識器の出力である存在確率piと、音声付動画像の音声とを入力として、集合Oまたは集合O’に属す音オブジェクトのみを検出対象として、音声付動画像の音声から音オブジェクトを検出する。
この場合、音源分離部81では、音声付動画像上に被写体として存在するオブジェクトのみが検出対象となるように、音オブジェクトの検出時にオブジェクトの種類に基づく絞り込みが行われることになる。
なお、画像物体認識器の出力である存在確率piに代えて、画像オブジェクト検出器51の出力を用いることも可能である。この場合、音源分離部81は、少なくとも画像オブジェクト検出器51による画像オブジェクトの検出結果と、音声付動画像の音声とを入力として音源分離により音オブジェクトを検出(抽出)する。
その他、音オブジェクトの検出に画像オブジェクト検出器51の出力を用いる場合、例えば音源分離部81を構成するニューラルネットワークにおいて、画像オブジェクト検出器51で検出された画像オブジェクトに対応する音オブジェクトの存在確率が大きくなるようにしてもよい。さらにこの場合、検出されなかった画像オブジェクトに対応する音オブジェクトの存在確率が大幅に小さくなるようにしてもよい。
また、音声付動画像の音声が複数チャンネルである場合、方向ごとに音オブジェクトの候補の絞り込みを行うことができる。
この場合、画像物体認識器や画像オブジェクト検出器51での検出結果として得られた、画像オブジェクト(物体)の位置、つまり画像オブジェクトのある方向と、その位置における画像オブジェクトの存在確率piと、音声付動画像の音声とが音源分離部81に入力される。
音源分離部81では、入力された音声付動画像の音声から音オブジェクトの候補である音源の位置、つまり音源の方向が推定により得られるようになっている。そこで、音源分離部81において、音源の方向ごとに、その音源の方向にある画像オブジェクトの存在確率piについての集合Oまたは集合O’に属すオブジェクトのみが検出対象とされて音オブジェクトが検出される。換言すれば、画像オブジェクトがある方向と音源がある方向との照合が行われ、画像オブジェクトの検出結果から、音源がある方向に存在している可能性が高いオブジェクトのみが検出対象とされる。
この場合、音声付動画像を構成する動画像上における画像オブジェクトの位置、つまり画像物体認識等による画像物体位置、および音オブジェクトとなる音源の位置に基づいて、検出対象とする音オブジェクトの絞り込みが行われることになる。
さらに、音声付動画像上に被写体として写っていない物体から発せられた音が収音されて、音声付動画像の音声に含まれている可能性もある。
そのような場合には、画像物体認識器や画像オブジェクト検出器51の出力、つまり検出された画像オブジェクト(物体)に対して、その画像オブジェクトが存在するときに同時に観測される複数の音オブジェクトの同時発生確率qjを推定するモデルを予め学習しておけばよい。
そうすれば、音源分離部81において同時発生確率qjも入力として用い、同時発生確率qjに基づいて、検出対象とする音オブジェクトの絞り込みを行うことができる。
この場合、音オブジェクト検出器52内には、例えばニューラルネットワークなどにより構成される図示せぬ同時発生確率qjの推定用のモデルが設けられる。そして、そのモデルが、例えば画像オブジェクトの検出結果を入力として複数の音オブジェクトの同時発生確率qjの推定を行い、その結果得られた同時発生確率qjを音源分離部81に供給する。
音源分離部81は、画像オブジェクト検出器51の検出結果としての存在確率piと、音声付動画像の音声と、モデルから供給された同時発生確率qjとを入力として音源分離により音オブジェクトを検出する。
このとき、音オブジェクトの検出時には、同時発生確率qjが高いオブジェクトが集合Oまたは集合O’に加えられたり、同時発生確率qjが低いオブジェクトが集合Oまたは集合O’から除外されたりする。これにより、複数の音オブジェクトが同時に存在する確率である同時発生確率qjに基づく、検出対象とする音オブジェクトの絞り込みが行われる。
また、同種類の音オブジェクトが複数存在し、それらの音オブジェクトが同時に音を発する場合、上述した技術文献1のように、オブジェクトの種類にのみ依存して音源分離を行う手法では、同じ種類の複数の音オブジェクトの音を分離することができない。
そこで、例えば音像の定位位置を示す定位情報、音源の独立性、周波数領域上でのスパース性などを用いたビームフォーミング、独立成分分析、クラスタリングベースの手法、パーミュテーションフリーな学習により得られたニューラルネットワーク等により音源分離部81が構成されるようにしてもよい。なお、定位情報には画像情報を用いることができる。
また、音響イベント検出部82は、例えばニューラルネットワークなどからなり、供給された音声付動画像の音声から特定の音響イベントを検出し、その検出結果である音響イベント情報を画像オブジェクト検出器51および音源分離部81に供給する。
ここでは、例えば人の声や、犬などの動物の鳴き声、予め定められた音楽などが特定の音響イベントとして検出され、その音響イベントの発生の事後確率を含む情報が音響イベント情報として出力される。なお、音響イベント情報には、音響イベントが発生した方向を示す方向情報などが含まれるようにしてもよい。
上述したように、音源分離部81と、音響イベント検出部82とでは、相互に検出結果を利用することができる。
例えば音源分離部81では、音響イベント情報に含まれる事後確率も音源分離のためのニューラルネットワークの入力とされ、入力された事後確率が高い音響イベントに対応する音オブジェクトが検出されやすくなるように音源分離が行われる。この場合、音源分離部81では、音響イベントを検出することで音オブジェクトが検出されるともいうことができる。
これに対して、音響イベント検出部82では、音源分離部81から供給された音オブジェクトの検出結果と、音声付動画像の音声とが入力とされ、検出された音オブジェクトに対応する音響イベントの事後確率が高くなるように、音響イベントの検出が行われる。
続いて、画像オブジェクト検出器51について説明する。
画像オブジェクト検出器51は、例えばニューラルネットワークで構築することができ、画像オブジェクト検出器51の構築には物体検出の技術やセグメンテーションの技術などを利用することができる。
なお、物体検出の技術については、例えば「You Only Look Once: Unified, Real-Time Object Detection,CVPR 2016」(以下、技術文献2と称する)に詳細に記載されている。また、セグメンテーションの技術については例えば「One-Shot Video Object Segmentation, CVPR 2017」(以下、技術文献3と称する)に詳細に記載されている。
さらに、画像オブジェクト検出器51では、音声付動画像上の被写体が不鮮明な際にも高性能に画像オブジェクトを検出することができるように、音声付動画像の音声や、音響イベント検出部82から供給された音響イベント情報、音源分離部81で得られた音オブジェクトの検出結果を入力として用いるようにしてもよい。
例えば、音声付動画像から画像オブジェクトとして犬を検出したいが、犬の動きが激しく音声付動画像上における犬の画像が不鮮明であるような場合がある。
しかし、そのような場合でも、音オブジェクトの検出結果や音響イベント情報として供給された犬の鳴き声の情報から、高い確率で音声付動画像に犬が被写体として含まれているという情報を得ることができる。そして、そのような情報を用いれば画像オブジェクトとしての犬の検出精度を向上させることができる。
このような情報の利用は、画像オブジェクト検出器51を構成するニューラルネットワークの学習時に音声付動画像の音声や、音オブジェクトの検出結果、音響イベント情報等を入力として与え、ニューラルネットワークを学習させることで実現できる。
この場合、画像オブジェクトの検出時には、画像オブジェクト検出器51を構成するニューラルネットワークに対して、音声付動画像の動画像だけでなく、音声付動画像の音声や音オブジェクトの検出結果、音響イベント情報なども入力されることになる。
画像オブジェクト検出器51においても音源分離部81における場合と同様に、音オブジェクトの検出結果や音響イベント情報などが用いられて、オブジェクトの種類や音源の位置、画像物体位置、同時発生確率などに基づく、検出対象とする画像オブジェクトの絞り込みが行われるようにすることができる。
また、音画像オブジェクト検出器53は、画像オブジェクトの検出結果と、音オブジェクトの検出結果とに基づいて音画像オブジェクトを検出する。
ここでは、音画像オブジェクトの検出は、画像オブジェクト検出器51で検出された画像オブジェクトと、音オブジェクト検出器52で検出された音オブジェクトとを対応付ける処理と等価である。
例えば画像オブジェクト検出器51からは画像オブジェクトの検出結果、すなわち画像オブジェクトの抽出結果として画像オブジェクト情報が出力される。画像オブジェクト情報には、例えば画像領域情報と、画像種類情報とが含まれている。
ここで、画像領域情報は、音声付動画像における画像オブジェクトの画像(ビデオ)、つまり画像オブジェクトの存在する画像領域の画像である。また、画像種類情報は、画像領域情報、つまり画像領域に存在する画像オブジェクトの種類を示す情報であり、例えば画像種類情報は、その画像領域における、インデックスがiである画像オブジェクトの存在確率pi Vなどとされる。その他、画像オブジェクト情報には、画像領域情報の位置、つまり画像オブジェクトの位置(方向)を示す画像オブジェクト位置情報も含まれるようにしてもよい。
また、例えば音源分離部81からは音オブジェクトの検出結果、つまり音オブジェクトの抽出結果として音オブジェクト情報が出力される。この音オブジェクト情報には、音声付動画像から抽出された音オブジェクトの音声(分離音)と、その分離音の音オブジェクトの種類を示す音種類情報とが含まれている。例えば音種類情報は、分離音が、インデックスがiである音オブジェクトの音声である確率(識別確率)pi Aなどとされる。その他、音オブジェクト情報には、音オブジェクトのある方向(位置)を示す音オブジェクト方向情報も含まれるようにしてもよい。
例えば音画像オブジェクト検出器53は、画像オブジェクト情報と音オブジェクト情報を入力とし、それらの画像オブジェクト情報と音オブジェクト情報に基づいて、検出された画像オブジェクトと音オブジェクトが同じオブジェクト(物体)である確率を出力するニューラルネットワークである。ここで、画像オブジェクトと音オブジェクトが同じオブジェクトである確率とは、画像オブジェクトと音オブジェクトの共起確率である。
すなわち、音画像オブジェクト検出器53を構成するニューラルネットワークでは、例えば画像種類情報や音種類情報、画像オブジェクト位置情報、音オブジェクト方向情報、時系列の画像オブジェクト位置情報から求まる画像オブジェクトの動きに関する情報などを利用して、検出された画像オブジェクトと音オブジェクトが一致するかを判別する。
このような音画像オブジェクト検出器53を構成するニューラルネットワークは、予め人が画像オブジェクトと音オブジェクトを対応付けた音声付動画像のデータセットが用いられて学習されてもよい。また、音画像オブジェクト検出器53を構成するニューラルネットワークは、学習装置等により自動でラベル付けされたデータ、つまり学習装置等により画像オブジェクトと音オブジェクトとの対応付けが行われた音声付動画像のデータセットが用いられて学習されてもよい。
音画像オブジェクト検出器53は、画像オブジェクトと音オブジェクトの全ての組み合わせ、または一部の組み合わせについて、それらの画像オブジェクトと音オブジェクトが一致する共起確率を求める。
そして、音画像オブジェクト検出器53は、求めた共起確率が高い順に画像オブジェクトと音オブジェクトを対応付けて、対応付けられた画像オブジェクトと音オブジェクトが同じ音画像オブジェクトであるとされる。
また、音画像オブジェクト検出器53は、対応付けられた画像オブジェクトの存在確率pi Vと音オブジェクトの識別確率pi Aとに基づいて、それらの対応付けられた画像オブジェクトと音オブジェクト、すなわち音画像オブジェクトの種類を決定する。
ここでは画像オブジェクト、音オブジェクト、および音画像オブジェクトの定義が同じであるとする。なお、定義が同じであるとは、例えば画像オブジェクトの種類を示すインデックスiと、音オブジェクトの種類を示すインデックスiとがともに同じ種類のオブジェクトを示していることである。
具体的には、例えば画像オブジェクトの種類として「人」があり、音オブジェクトの種類として「人の拍手の音」や「人の話し声」などがあるとする。この場合、画像オブジェクトの種類「人」と、音オブジェクトの種類「人の拍手の音」とは定義が異なることになる。
例えば画像オブジェクト、音オブジェクト、および音画像オブジェクトの定義が同じである場合、音画像オブジェクト検出器53は、画像オブジェクトの存在確率pi Vと音オブジェクトの識別確率pi Aとの和(argmaxi(pi A+pi V))や最大値(argmaxi({pi A,pi V}))から音画像オブジェクトの種類を決定するようにしてもよい。
なお、画像オブジェクトと音オブジェクトの定義が異なる場合には、変換テーブルを用いて、画像オブジェクトと音オブジェクトの一方の種類を他方の種類に変換してから音画像オブジェクトの種類を決定すればよい。
具体的には、例えば画像オブジェクトの種類が「人」であり、音オブジェクトの種類が「人の拍手の音」であるときには、例えば音オブジェクトの種類「人の拍手の音」が「人」に変換される。
なお、変換テーブルは、用途に応じて予め人手により定めるようにしてもよいし、画像オブジェクトと音オブジェクトの種類の対応付け用のデータに基づいて共起確率をクラスタリングするなどして自動生成するようにしてもよい。
以上の処理により、音画像オブジェクトが検出され、その音画像オブジェクトの種類が決定されると、音画像オブジェクト検出器53は音画像オブジェクトの検出結果、すなわち音画像オブジェクトの抽出結果として音画像オブジェクト情報を出力する。
上述したように音画像オブジェクト情報には、例えば音画像オブジェクトの種類を示す種類情報、音画像オブジェクトの画像領域情報、および音画像オブジェクトの分離音が含まれている。なお、画像領域情報には、例えば画像領域の位置、つまり音声付動画像上における音画像オブジェクトの位置を示す情報も含まれているようにしてもよい。
続いて、音画像オブジェクト選択部22による音画像オブジェクトの選択と、動画像処理部23による音画像オブジェクトに基づく処理について説明する。
音画像オブジェクト選択部22では、音画像オブジェクト検出器53から供給された音画像オブジェクト情報に基づいて、音画像オブジェクトに対するズーム処理やフォーカス処理、通知処理などの対象となる音画像オブジェクトが選択される。なお、音画像オブジェクトの選択はユーザにより手動で行われてもよいし、音画像オブジェクト選択部22により自動で行われてもよい。
例えばユーザが手動により音画像オブジェクトを選択する場合、ユーザは表示部27に表示された表示画像を見ながら入力部24を操作し、表示画像上から所望の音画像オブジェクトを選択(指定)する。
具体的には、例えば図4に示す表示画像が表示部27に表示されていたとする。この例では表示画像上には、音声付動画像P11が表示されており、その音声付動画像P11上には音画像オブジェクトとしての子供、車、およびバイオリンのそれぞれの位置を示す矩形の枠W11乃至枠W13が表示されている。
さらに表示画像における音声付動画像P11の図中、左側には枠W11乃至枠W13のそれぞれの位置に表示されている音画像オブジェクトを示す文字「kid」、「car」、および「violin」が表示されている。すなわち、これらの音画像オブジェクトを示す文字は、オブジェクトベースで音画像オブジェクトを選択することができるオブジェクトリストとなっている。
この場合、ユーザは入力部24を操作してオブジェクトリストのなかから所望の音画像オブジェクトを選択する。すると、音画像オブジェクト選択部22は、ユーザの操作に応じて入力部24から供給された信号に基づいて、音画像オブジェクト情報により示される音画像オブジェクトのうちのユーザにより選択されたものを選択する。
その他、例えばユーザが入力部24としてのマイクロフォンに音声として「バイオリンにズームして」など、音画像オブジェクトと、その音画像オブジェクトに対する処理を指定する音声を入力するようにしてもよい。この場合、例えば入力部24は、マイクロフォンにより収音された音声に対して音声認識を行い、その音声認識結果を音画像オブジェクト選択部22に供給する。すると、音画像オブジェクト選択部22は、入力部24から供給された認識結果に基づいて、音画像オブジェクトとして「バイオリン」を選択する。
また、ユーザが選択操作を行うことなく音画像オブジェクト選択部22側で自動的に選択を行う場合、例えば入力部24等によりユーザの視線が検出され、その検出結果が音画像オブジェクト選択部22に供給される。すると音画像オブジェクト選択部22は、供給された視線の検出結果に基づいて、ユーザが注視している音画像オブジェクトを選択する。さらに、例えば音画像オブジェクト情報に基づいて、予め登録された音画像オブジェクトが選択されるようにしてもよい。
動画像処理部23は、音画像オブジェクト選択部22から供給された音画像オブジェクトの選択結果に基づいて、例えば音声付動画像に対して各種の処理を行う。
例えばズーム処理が行われる場合、動画像処理部23は、音画像オブジェクト選択部22により選択された音画像オブジェクトの音画像オブジェクト情報に基づいて、供給された音声付動画像から、選択された音画像オブジェクトを中心とする画像領域を切り出して拡大することで拡大画像を生成する。このとき、拡大画像の生成には画像領域情報が用いられるようにしてもよい。
また、動画像処理部23は、音画像オブジェクト選択部22により選択された音画像オブジェクトの音画像オブジェクト情報に基づいて、選択された音画像オブジェクトの音の音量が相対的に増加するようにしたり、選択された音画像オブジェクトの音のみが再生されるようにしたりする。さらに、選択された音画像オブジェクトの音の音像を、拡大画像に合わせて適切な位置に定位させるようにしてもよい。
例えば選択された音画像オブジェクトの音の音量を増加させる場合には、その選択された音画像オブジェクトの分離音が適切に増幅(ゲイン調整)され、増幅後の分離音が音声付動画像の音声に加算されるようにすればよい。また、選択された音画像オブジェクトの音のみが再生される場合には、分離音が再生用音声とされる。
さらに、例えば音像の定位位置を再配置する場合には、音画像オブジェクトの位置に合わせてインテンシティステレオや頭部伝達関数を用いたバイノーラル再生、波面合成などが利用されて音像の定位が調整される。
また、フォーカス処理が行われる場合、音声付動画像がライトフィールドカメラで撮影された動画像であるときには、動画像処理部23は、音声付動画像としての画像群に基づき画像合成を行うことで、選択された音画像オブジェクトに合焦した動画像をフォーカス処理後の音声付動画像として生成する。
その他、音声付動画像がライトフィールドカメラで撮影されたものではない通常の動画像である場合、動画像処理部23が音声付動画像上における音画像オブジェクトのうちの選択された音画像オブジェクト以外のものにぼかし処理等を施すことで、選択された音画像オブジェクトがフォーカスされるようにすることができる。
また、フォーカス処理が行われる場合、ズーム処理における場合と同様に、選択された音画像オブジェクトの音の音量が相対的に増加されるようにしたり、選択された音画像オブジェクトの音以外の他の音に音声ブラー処理が施されるようにしたりしてもよい。
さらに音画像オブジェクトに関する通知処理が行われる場合、例えば動画像処理部23は、選択された音画像オブジェクトの領域にバウンディングボックス(枠)等が表示されて、その音画像オブジェクトが強調されるように、音画像オブジェクト情報に基づいて音声付動画像に強調処理を施す。これにより、ユーザに対して選択された音画像オブジェクトがどれであるのかを通知(提示)することができる。
また、例えば表示画像としてVRの画像が表示される場合、選択された音画像オブジェクトがユーザの視野外にあるとき、つまり選択された音画像オブジェクトが表示画像外にあるときには、選択された音画像オブジェクトがある方向を示す矢印等が表示画像上に表示されるように音声付動画像に加工を施す処理が通知処理として行われてもよい。さらに、この場合、選択された音画像オブジェクトの分離音がバイノーラル再生で強調して再生されるように動画像処理部23により音声付動画像の音声に対して信号処理が施されるようにしてもよい。これらの処理によって、ユーザに対して、ユーザにとって興味のあり得る音画像オブジェクトの存在を通知することができる。
さらに、表示画像として通常の動画像やARの画像が表示される場合、表示画像の生成に用いる音声付動画像上から、選択された音画像オブジェクトを除去し、選択された音画像オブジェクトの音を除去(消去)する処理を除去処理として行うようにしてもよい。
具体的には、例えば音声付動画像上の被写体となっている街中の風景のなかから、選択された音画像オブジェクトである人を消して無人の街の風景の画像としたいとする。そのような場合、動画像処理部23は音声付動画像上から選択された音画像オブジェクトを除去(消去)するとともに、その除去された音画像オブジェクトの領域に対してインペインティング等の技術を利用して街の風景の画像が付加されるように補完処理を行う。
なお、インペインティングについては、例えば「"A study on effect of automatic perspective correction on exemplar-based image inpainting", ITE Trans. on Media Technology and Applications, Vol. 4, No.1, Jan. 2016」などに詳細に記載されている。
また、音声については、動画像処理部23は、選択された音画像オブジェクトの分離音と、音声付動画像の音声とに基づいて、音声付動画像の音声から分離音のみを除去することで、分離音以外の音声が出力されるように音声を加工することができる。この場合、例えば音声付動画像の音声に対して位相反転された分離音を加算することで、音声付動画像の音声から分離音のみが除去される。これにより、例えば鳥の声や川のせせらぎ、風の音など風景の音を残したまま人の声のみを除去することができる。
さらに、例えば音画像オブジェクトの検出と選択に応じて、音声付動画像やその音声に対する処理以外の他の特定の処理(動作)が実行されるようにすることもできる。
例えば再生装置11が撮像機能を有している場合、特定の音画像オブジェクトが検出されて、音画像オブジェクト選択部22で選択されたときに、動画像処理部23が図示せぬ撮像部に対して静止画像の撮像、つまりシャッタ動作の実行を指示するようにすることができる。その他、例えば動画像処理部23が選択された音画像オブジェクトに関する検索処理の実行を制御するなどしてもよい。
〈再生処理の説明〉
続いて、再生装置11で行われる処理の流れについて説明する。すなわち、以下、図5のフローチャートを参照して、再生装置11により行われる再生処理について説明する。
ステップS11において音響イベント検出部82は、適宜、音源分離部81から供給された音オブジェクトの検出結果を用いて、外部から供給された音声付動画像の音声に基づいて音響イベントを検出する。
例えばステップS11では、音響イベント検出部82を構成するニューラルネットワークに対して、音オブジェクトの検出結果や音声付動画像の音声が入力されて演算処理が行われ、音響イベントが検出される。音響イベント検出部82は、音響イベントの検出結果として得られた音響イベント情報を音源分離部81および画像オブジェクト検出器51に供給する。なお、検出された音響イベントがそのまま音オブジェクトとされてもよい。
ステップS12において音源分離部81は、適宜、音響イベント検出部82から供給された音響イベント情報や、画像オブジェクト検出器51から供給された検出結果等を用いて、外部から供給された音声付動画像の音声に基づいて音オブジェクトを検出し、その検出結果を音響イベント検出部82および音画像オブジェクト検出器53に供給する。なお、音オブジェクトの検出結果が画像オブジェクト検出器51に供給されるようにしてもよい。
例えばステップS12では、音源分離部81を構成するニューラルネットワークに対して、音響イベント情報や画像オブジェクトの検出結果、画像物体認識器での画像物体認識結果、音声付動画像の音声が入力されて演算処理が行われ、音オブジェクトが検出される。このとき、適宜、上述したオブジェクトの種類や音源の位置、画像物体認識等による画像物体位置、同時発生確率などに基づく音オブジェクトの候補の絞り込みが行われるようにしてもよい。
ステップS13において画像オブジェクト検出器51は、適宜、音響イベント検出部82から供給された音響イベント情報や、音源分離部81から供給された音オブジェクトの検出結果を用いて、外部から供給された音声付動画像に基づいて画像オブジェクトを検出する。
例えばステップS13では、画像オブジェクト検出器51を構成するニューラルネットワークに対して、音響イベント情報や音オブジェクトの検出結果、音声付動画像が入力されて演算処理が行われ、画像オブジェクトが検出される。画像オブジェクト検出器51は、画像オブジェクトの検出結果を音源分離部81および音画像オブジェクト検出器53に供給する。
なお、より詳細には以上のステップS11乃至ステップS13の処理は同時に行われる。
ステップS14において音画像オブジェクト検出器53は、画像オブジェクト検出器51から供給された画像オブジェクトの検出結果である画像オブジェクト情報と、音源分離部81から供給された音オブジェクトの検出結果である音オブジェクト情報とに基づいて音画像オブジェクトを検出する。
例えばステップS14では、音画像オブジェクト検出器53を構成するニューラルネットワークに対して、画像オブジェクト情報と音オブジェクト情報が入力されて演算処理が行われる。演算処理では、例えば共起確率に基づく画像オブジェクトと音オブジェクトの対応付けが行われるとともに、対応付けにより検出された音画像オブジェクトの種類が決定される。
音画像オブジェクト検出器53は、音画像オブジェクトの検出結果として得られた音画像オブジェクト情報を音画像オブジェクト選択部22、動画像処理部23、およびメモリ25に供給する。
ステップS15において音画像オブジェクト選択部22は、入力部24から供給された信号等に応じて、音画像オブジェクト検出器53から供給された音画像オブジェクト情報に基づいて1または複数の音画像オブジェクトを選択し、その選択結果を動画像処理部23に供給する。
ステップS16において動画像処理部23は、入力部24から供給された信号や音画像オブジェクト選択部22から供給された選択結果に応じて、音画像オブジェクト検出器53から供給された音画像オブジェクト情報、および外部から供給された音声付動画像に基づいて、音画像オブジェクトに基づく処理を行う。
例えばステップS16では、音画像オブジェクトに基づく処理として、上述したズーム処理やフォーカス処理、通知処理、除去処理などが音声付動画像と、その音声付動画像の音声に対して行われ、処理結果として得られた音声付動画像が表示画像生成部26に供給される。その他、音画像オブジェクトに基づく処理としてシャッタ動作制御処理などが行われてもよい。
ステップS17において表示画像生成部26は、入力部24から供給された信号に応じて、動画像処理部23から供給された音声付動画像に基づいて表示画像および再生用音声を生成する。このとき表示画像生成部26は、適宜、メモリ25に記録されている音画像オブジェクト情報も用いて表示画像を生成する。
例えば表示画像がVRの画像である場合、表示画像生成部26は、動画像処理部23から供給された、音画像オブジェクトに基づく処理後の音声付動画像におけるユーザの視野内となる領域を切り出して表示画像とするとともに、音画像オブジェクトに基づく処理後の音声付動画像の音声をそのまま再生用音声とする。
ステップS18において表示画像生成部26は、生成した表示画像を表示部27に供給して表示させるとともに、再生用音声をスピーカ28に供給して再生用音声を出力させ、再生処理は終了する。
以上のようにして再生装置11は、音声付動画像から画像オブジェクトを検出するとともに音オブジェクトを検出し、それらの検出結果に基づいて音画像オブジェクトを検出する。このようにすることで、より確実に音声付動画像から所望の音画像オブジェクトを抽出することができる。
〈ユースケース1〉
ここで、本技術のユースケースについて説明する。
例えば本技術は、オブジェクトベースのズーム処理を行う場合に利用することが可能である。
すなわち、本技術では、音声付動画像の一部の領域を指定して位置ベースでズーム処理を行うのではなく、音画像オブジェクトを選択してオブジェクトベースでフォーカスやズームを行うことができる。
例えば図6の矢印Q11に示すように、監視カメラ等により撮影された音声付動画像に対して特に処理が施されずに、音声付動画像とその音声がそのまま表示画像および再生用音声として表示部27およびスピーカ28で再生されているとする。
図6に示す例では、矢印Q11に示す部分には、表示部27に表示された表示画像が示されており、その表示画像上には、パーソナルコンピュータを所持した女性が音画像オブジェクトOB11として含まれている。
このような状態で、表示画像を見ているユーザU11が入力部24としてのマイクロフォンに対して、矢印Q12に示すように音声「パソコンを持った女性にズームして会話を聞かせて」と入力したとする。この場合、入力部24から音画像オブジェクト選択部22や動画像処理部23には、入力された音声に対する音声認識の結果等を示す信号が供給される。
すると、音画像オブジェクト選択部22は、入力部24からの信号に応じて、音声付動画像から検出された音画像オブジェクトのうち、ユーザU11により指定された「パソコンを持った女性」である音画像オブジェクトOB11を選択する。
そして動画像処理部23では、音声付動画像における選択された音画像オブジェクトOB11の周囲の領域の画像が表示画像生成部26に供給され、その音画像オブジェクトOB11の周囲の領域の画像が矢印Q13に示すように表示画像として表示部27に表示される。
ここでは動画像処理部23により音画像オブジェクトOB11の周囲の領域の画像を生成する処理がズーム処理として行われる。なお、この音画像オブジェクトOB11の周囲の領域の画像は、音画像オブジェクトOB11の音画像オブジェクト情報に含まれる画像領域情報そのものであってもよいし、画像領域情報等に基づいて音声付動画像から切り出された画像であってもよい。
また、動画像処理部23では、例えば音画像オブジェクトOB11の音声のみを抽出して表示画像生成部26に供給する処理が音声のズーム処理として行われる。ここでは、例えば音画像オブジェクトOB11の音画像オブジェクト情報に含まれる分離音がそのまま表示画像生成部26に供給され、この分離音が再生用音声として出力される。この例では、音画像オブジェクトOB11の音声として「引き渡しは9時に品川埠頭で」が再生用音声として再生されている。
このように本技術では、音声入力(音声コマンド)によりオブジェクト単位で対象とする音画像オブジェクトを指定して画像と音のズーム処理を実行させることができる。
〈ユースケース2〉
また、本技術は、360度の全方位動画像の再生やVR等の画像の再生にも利用することが可能である。
具体的には、例えば図7に示すようにVRの画像においてユーザが注視したオブジェクトにフォーカスを当てるとともに、そのオブジェクトの音を強調することができる。
図7に示す例では、例えば矢印Q21に示すようにヘッドマウントディスプレイの表示部27に、音声付動画像がそのまま表示画像として表示されている。
ここでは表示画像(音声付動画像)には、音画像オブジェクトとして、ユーザが注視している小さい女の子である音画像オブジェクトOB21と、車である音画像オブジェクトOB22と、犬である音画像オブジェクトOB23とが含まれている。また、音画像オブジェクトOB21の音声「パパ見て見て」が再生されているが、この音声は車である音画像オブジェクトOB22の音「ブーン」や、犬である音画像オブジェクトOB23の鳴き声「ワンワン」にかき消されてしまっている。
この場合、入力部24から音画像オブジェクト選択部22へとユーザの注視方向を示す信号が供給され、音画像オブジェクト選択部22において小さい女の子である音画像オブジェクトOB21が選択されたとする。すると動画像処理部23では、その女の子を対象とするフォーカス処理が行われる。
すなわち、例えば動画像処理部23は、音画像オブジェクト検出器53から供給された音画像オブジェクト情報に基づいて、音声付動画像における車と犬、つまり音画像オブジェクトOB22と音画像オブジェクトOB23の領域に対してぼかし処理を施すことで、相対的に音画像オブジェクトOB21がフォーカスされるフォーカス処理を行う。
また、動画像処理部23は、音声付動画像の音声については音画像オブジェクトOB21の分離音のみを後段の表示画像生成部26に出力することで、音画像オブジェクトOB21の音声のみを抽出する、つまり女の子の音声にフォーカスするフォーカス処理を行う。
これにより、表示部27では、例えば矢印Q22に示すように車である音画像オブジェクトOB22と、犬である音画像オブジェクトOB23とがぼかされて、ユーザが注視している女の子である音画像オブジェクトOB21にフォーカスが当てられることになる。また、この場合、音声として音画像オブジェクトOB21の音声「パパ見て見て」だけが再生用音声として再生されるようになる。
また、図7に示した例の他にも例えば表示画像生成部26がメモリ25に保持されている音画像オブジェクトの検出結果に基づいて、音声付動画像から検出された音画像オブジェクトのリストを生成し、表示部27に表示させるようにしてもよい。この場合、ユーザは入力部24を操作して、表示されたリストのなかから所望の音画像オブジェクトを選択することができる。
そうすれば、例えば動画像処理部23では、ライトフィールドカメラにより撮影された音声付動画像としての画像群に基づいて画像合成を行うことで、選択された音画像オブジェクトに合焦した動画像をフォーカス処理後の音声付動画像として生成することができる。この例では、ユーザはより直感的な操作で所望の音画像オブジェクトを選択し、フォーカスさせることができる。
〈ユースケース3〉
さらに本技術は、例えば撮像機能付きのホームエージェントやロボット、アクションカムなどにおける動画像検索等にも利用することが可能である。
すなわち、例えばユーザが特に注意を払わずに撮りためた動画像のなかから、「Aさんがギターを弾いているときの動画」や「愛犬が飼い主と一緒に歌っている動画」など、動画像(映像)と音についての所定の条件を満たす動画像やシーンを検索することができるようになる。
具体例として、例えば図8の矢印Q31に示すように、表示部27に図示せぬ記録部に記録されている音声付動画像の一覧が表示されているとする。ここでは一覧とともに音声付動画像の検索を促す文字「何の動画が見たいですか?」が表示されている。
このような一覧を見たユーザU31が、例えば矢印Q32に示すように入力部24としてのマイクロフォンに対して音声「ビリーがギターを弾いている動画を見せて」と入力したとする。この場合、入力部24から音画像オブジェクト選択部22や動画像処理部23には、入力された音声に対する音声認識の結果等を示す信号が供給される。
すると、音画像オブジェクト抽出部21では、記録部に記録されている全ての音声付動画像が対象とされて音画像オブジェクトの検出が行われる。そして音画像オブジェクト選択部22は、入力部24から供給された信号に基づいて、指定された人物「ビリー」の画像領域情報と分離音を有する音画像オブジェクト、および指定された楽器であるギターの画像領域情報と分離音を有する音画像オブジェクトを選択し、その選択結果を動画像処理部23に供給する。
動画像処理部23は、音画像オブジェクト選択部22から供給された選択結果に基づいて、各音声付動画像のなかからユーザU31により指定された条件を満たす音声付動画像、すなわち音画像オブジェクトとして「ビリー」および「ギター」が検出された音声付動画像を選択し、表示画像生成部26に供給する。このとき、音画像オブジェクトとして「ビリー」および「ギター」の何れか一方のみが検出された音声付動画像が、他の候補となる音声付動画像として表示画像生成部26に供給されてもよい。
これにより表示部27では、例えば矢印Q33に示すように音画像オブジェクトとして「ビリー」および「ギター」が検出された音声付動画像のサムネイルSM11と、他の候補となる音声付動画像のサムネイルとが表示された画面が検索結果として表示される。
〈ユースケース4〉
また、本技術は例えばVRで360度の全方位動画像を視聴する際に、ユーザの視野外に注目すべきオブジェクトがあることを通知する場合などにも利用することが可能である。これにより、例えばユーザが興味を示すであろうシーン等を見逃してしまうことを防止することができる。
具体的には、例えば図9の矢印Q41に示すように、ヘッドマウントディスプレイの表示部27に音声付動画像における所定の視野の領域が表示画像として表示されていたとする。また、このとき、音声付動画像からユーザが興味を示すであろう鳥が音画像オブジェクトOB41として検出されたが、現時点ではその音画像オブジェクトOB41は視野外にあったとする。
そのような場合、例えば音画像オブジェクト選択部22において音画像オブジェクトOB41が選択されると、動画像処理部23は、音声付動画像の現在の視野の領域に対して、音画像オブジェクトOB41を表すマークMK11と、その音画像オブジェクトOB41がある方向を示す矢印マークMK12とを音声付動画像に重畳させる重畳加工処理を行う。ここでは、このような重畳加工処理が、ユーザに対して音画像オブジェクトOB41の存在と、その音画像オブジェクトOB41の方向とを通知する通知処理として行われることになる。
その後、例えばユーザがマークMK11と矢印マークMK12を視認し、矢印マークMK12により示される方向に視線を向けると、表示部27の表示は矢印Q42に示すように変化し、表示画像上に鳥である音画像オブジェクトOB41が表示されるとともに、その音画像オブジェクトOB41の分離音声「ピーチクパーチク」が再生用音声として再生される。
〈ユースケース5〉
さらに、本技術は除去処理を行う場合にも利用することができ、例えば自然や街などの風景の動画像から任意のオブジェクトの画像と音を除去し、あたかもそのオブジェクトがなかったかのような動画像を生成することができる。
具体的には、例えば図10の矢印Q51に示すように、表示部27に散歩中の人と犬である音画像オブジェクトOB51および音画像オブジェクトOB52が含まれていたとする。また、犬である音画像オブジェクトOB52の鳴き声「ワンワン」も再生用音声として再生されているとする。
このとき、例えばユーザが入力部24を操作することで、表示画像上に表示されているポインタPT11を動かして音画像オブジェクトOB51および音画像オブジェクトOB52を選択し、それらの音画像オブジェクトの削除を指示したとする。この場合、音画像オブジェクト選択部22は、入力部24から供給された信号に応じて、音画像オブジェクトOB51および音画像オブジェクトOB52を選択し、その選択結果を動画像処理部23に供給する。
すると、動画像処理部23は音声付動画像から音画像オブジェクトOB51および音画像オブジェクトOB52の領域を除去するとともに、それらの領域に対してインペインティング等の技術を利用した画像補完処理を行う。また、動画像処理部23は音声付動画像の音声に対して、音画像オブジェクトOB52の分離音の逆位相の音を加算することで、音声付動画像の音声から音画像オブジェクトOB52の音を除去する。
これにより、例えば矢印Q52に示すようにもとの音声付動画像から音画像オブジェクトOB51および音画像オブジェクトOB52が除去された画像が表示画像として表示されるようになるとともに、これまで再生されていた音画像オブジェクトOB52の音も聞こえなくなる。すなわち、あたかも散歩中の人と犬がいなかったような表示画像が表示される。
〈ユースケース6〉
その他、本技術はシャッタ動作の実行制御にも利用することができる。
例えば本技術をシャッタ動作の実行制御に利用すれば、特定の人が特定の声を上げたときや、特定の犬が吠えたときなど、周囲の騒音や目的外のオブジェクトの音によらずに決定的瞬間を逃さずシャッタを切ることができるようになる。
具体的には、例えば撮像機能を有するカメラ等の表示画像生成部26が、図11の矢印Q61に示す表示画像を表示部27に表示させているとする。
ここで、矢印Q61に示す表示画像には、人である音画像オブジェクトOB61と、犬である音画像オブジェクトOB62とが被写体として写っている音声付動画像としてのスルー画像MV11が表示された領域と、そのスルー画像MV11から検出された音画像オブジェクトの一覧を表示する領域とが設けられている。
例えば音画像オブジェクトの一覧は、表示画像生成部26がメモリ25に保持されている音画像オブジェクト情報に基づいて生成したものであり、ここでは一覧には音画像オブジェクトとして検出された「犬」と「人」が示されている。
このような状態でユーザが入力部24を操作して表示画像上にあるポインタPT21を移動させ、音画像オブジェクトの一覧から「犬」を選択したとする。これにより、スルー画像MV11上にある音画像オブジェクトのなかから、シャッタ動作のための追跡対象とされる音画像オブジェクトOB62が選択されたことになる。
すると、表示画像生成部26は、矢印Q62に示すように、シャッタ動作を行うタイミングを選択させるために、ユーザにより選択された追跡対象の音画像オブジェクトOB62についてシャッタ動作のトリガとなる動作の一覧を生成し、表示画像上に表示させる。ここでは、トリガとなる動作として「走る」、「鳴く」、および「自動」が表示されている。
例えばトリガとして「走る」が選択された場合には、動画像処理部23は、犬である音画像オブジェクトOB62の時系列の音画像オブジェクト情報に基づいて、犬である音画像オブジェクトOB62が走っていることが検出されたタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。
また、例えばトリガとして「鳴く」が選択された場合には、動画像処理部23は、犬である音画像オブジェクトOB62の音画像オブジェクト情報に基づいて、犬である音画像オブジェクトOB62の鳴き声が検出されたタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。なお、犬が鳴いたか否かは分離音声に対する音声認識等により検出してもよいし、音響イベント検出部82での音響イベントとしての犬の鳴き声の検出結果や、音源分離部81での音オブジェクトとしての犬の鳴き声の検出結果などから特定するようにしてもよい。
さらに、例えばトリガとして「自動」が選択された場合には、動画像処理部23は、犬である音画像オブジェクトOB62の音画像オブジェクト情報に基づいて、犬が静止したタイミングなど、予め定められた条件が満たされた適切なタイミングで図示せぬシャッタまたは撮像素子を動作させ、静止画像を撮像させる。
矢印Q62に示す例ではトリガとして「鳴く」が選択されたので、矢印Q63に示すように犬である音画像オブジェクトOB62の分離音声として犬の鳴き声「ワン」が検出されたタイミングで静止画像が撮像される。
例えば音画像オブジェクトを検出すれば、犬の鳴き声など、特定のオブジェクトが特定の音を発したときにシャッタ動作を行うことができる。特に、同方向に複数の音源がある場合や同種類の音源が複数存在している場合であっても、特定のオブジェクトが特定の音を発したタイミングを正確に特定することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
を備える情報処理装置。
(2)
前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
(1)に記載の情報処理装置。
(3)
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
(1)または(2)に記載の情報処理装置。
(4)
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
(1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
(1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
(1)乃至(6)の何れか一項に記載の情報処理装置。
(8)
前記音オブジェクト検出部は、複数の前記音オブジェクトの同時発生確率、音源位置、画像物体位置、および前記音オブジェクトの種類のうちの少なくとも何れか1つに基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
(1)乃至(7)の何れか一項に記載の情報処理装置。
(9)
前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
(1)乃至(8)の何れか一項に記載の情報処理装置。
(10)
前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
(1)乃至(9)の何れか一項に記載の情報処理装置。
(11)
検出された複数の前記音画像オブジェクトのなかから、1または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
(1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
(11)に記載の情報処理装置。
(13)
前記処理部は、前記選択結果に応じた処理として、
前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
選択された前記音画像オブジェクトに関する通知処理、
選択された前記音画像オブジェクトに関する検索処理、
または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
を実行する
(12)に記載の情報処理装置。
(14)
情報処理装置が、
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
情報処理方法。
(15)
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含む処理をコンピュータに実行させるプログラム。
11 再生装置, 21 音画像オブジェクト抽出部, 22 音画像オブジェクト選択部, 23 動画像処理部, 24 入力部, 26 表示画像生成部, 51 画像オブジェクト検出器, 52 音オブジェクト検出器, 53 音画像オブジェクト検出器

Claims (14)

  1. 音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
    前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
    前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
    を備え、
    前記音オブジェクト検出部は、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
    情報処理装置。
  2. 前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
    請求項1に記載の情報処理装置。
  3. 前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
    請求項1に記載の情報処理装置。
  4. 前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
    請求項1に記載の情報処理装置。
  5. 前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
    請求項1に記載の情報処理装置。
  6. 前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
    請求項1に記載の情報処理装置。
  7. 前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
    請求項1に記載の情報処理装置。
  8. 前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
    請求項1に記載の情報処理装置。
  9. 前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
    請求項1に記載の情報処理装置。
  10. 検出された複数の前記音画像オブジェクトのなかから、1または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
    請求項1に記載の情報処理装置。
  11. 前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
    請求項10に記載の情報処理装置。
  12. 前記処理部は、前記選択結果に応じた処理として、
    前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
    前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
    選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
    選択された前記音画像オブジェクトに関する通知処理、
    選択された前記音画像オブジェクトに関する検索処理、
    または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
    を実行する
    請求項11に記載の情報処理装置。
  13. 情報処理装置が、
    音声付動画像に基づいて画像オブジェクトを検出し、
    前記音声付動画像に基づいて音オブジェクトを検出し、
    前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
    ステップを含み、
    前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
    情報処理方法。
  14. 音声付動画像に基づいて画像オブジェクトを検出し、
    前記音声付動画像に基づいて音オブジェクトを検出し、
    前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
    ステップを含む処理をコンピュータに実行させ、
    前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
    プログラム。
JP2020532274A 2018-07-24 2019-07-10 情報処理装置および方法、並びにプログラム Active JP7338627B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018138482 2018-07-24
JP2018138482 2018-07-24
PCT/JP2019/027261 WO2020022055A1 (ja) 2018-07-24 2019-07-10 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2020022055A1 JPWO2020022055A1 (ja) 2021-08-05
JP7338627B2 true JP7338627B2 (ja) 2023-09-05

Family

ID=69181502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020532274A Active JP7338627B2 (ja) 2018-07-24 2019-07-10 情報処理装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US11431887B2 (ja)
EP (1) EP3829161B1 (ja)
JP (1) JP7338627B2 (ja)
KR (1) KR20210038537A (ja)
CN (1) CN112425157A (ja)
WO (1) WO2020022055A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11463615B2 (en) 2019-03-13 2022-10-04 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
CN113365012A (zh) * 2020-03-06 2021-09-07 华为技术有限公司 一种音频处理方法及设备
US20240038254A1 (en) * 2020-08-13 2024-02-01 Nippon Telegraph And Telephone Corporation Signal processing device, signal processing method, signal processing program, learning device, learning method, and learning program
US11507245B1 (en) * 2021-04-30 2022-11-22 Zebra Technologies Corporation Systems and methods for enhancing image content captured by a machine vision camera
WO2023181889A1 (ja) * 2022-03-24 2023-09-28 ソニーグループ株式会社 撮影装置、撮影方法、およびプログラム
KR102661373B1 (ko) * 2023-04-26 2024-04-26 주식회사 아스트노바 영상 내 무빙 오브젝트의 선택적 추적을 이용한 물리 공간 내 입체 음향 제공 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076451A (ja) 2009-09-30 2011-04-14 Hitachi Ltd 画像付きドキュメントの表示方法
JP2011517357A (ja) 2008-03-04 2011-06-02 ジェスチャー テック,インコーポレイテッド 改良されたジェスチャに基づく画像操作
WO2012004933A1 (ja) 2010-07-09 2012-01-12 パナソニック株式会社 オブジェクト関連付け装置、オブジェクト関連付け方法、プログラム及び記録媒体
JP2014194659A (ja) 2013-03-28 2014-10-09 Brother Ind Ltd 画像処理装置およびコンピュータプログラム
JP2015177490A (ja) 2014-03-18 2015-10-05 株式会社リコー 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP5526727B2 (ja) * 2009-11-20 2014-06-18 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP5917270B2 (ja) 2011-05-27 2016-05-11 キヤノン株式会社 音検出装置及びその制御方法、プログラム
US9495591B2 (en) 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
EP2680615B1 (en) 2012-06-25 2018-08-08 LG Electronics Inc. Mobile terminal and audio zooming method thereof
JP6012342B2 (ja) 2012-09-03 2016-10-25 キヤノン株式会社 再生装置、再生装置の制御方法
US9007524B2 (en) * 2012-09-25 2015-04-14 Intel Corporation Techniques and apparatus for audio isolation in video processing
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
WO2016072120A1 (ja) * 2014-11-07 2016-05-12 ソニー株式会社 情報処理システム、制御方法、および記憶媒体
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US9736580B2 (en) * 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
GB2557241A (en) 2016-12-01 2018-06-20 Nokia Technologies Oy Audio processing
CN111034222A (zh) * 2017-08-30 2020-04-17 松下知识产权经营株式会社 拾音装置、拾音方法以及程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011517357A (ja) 2008-03-04 2011-06-02 ジェスチャー テック,インコーポレイテッド 改良されたジェスチャに基づく画像操作
JP2011076451A (ja) 2009-09-30 2011-04-14 Hitachi Ltd 画像付きドキュメントの表示方法
WO2012004933A1 (ja) 2010-07-09 2012-01-12 パナソニック株式会社 オブジェクト関連付け装置、オブジェクト関連付け方法、プログラム及び記録媒体
JP2014194659A (ja) 2013-03-28 2014-10-09 Brother Ind Ltd 画像処理装置およびコンピュータプログラム
JP2015177490A (ja) 2014-03-18 2015-10-05 株式会社リコー 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム

Also Published As

Publication number Publication date
CN112425157A (zh) 2021-02-26
US20210281739A1 (en) 2021-09-09
US11431887B2 (en) 2022-08-30
EP3829161B1 (en) 2023-08-30
JPWO2020022055A1 (ja) 2021-08-05
KR20210038537A (ko) 2021-04-07
EP3829161A4 (en) 2021-09-01
EP3829161A1 (en) 2021-06-02
WO2020022055A1 (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
JP7338627B2 (ja) 情報処理装置および方法、並びにプログラム
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
US20210249012A1 (en) Systems and methods for operating an output device
KR102148006B1 (ko) 동영상에 특수 이펙트를 제공하는 방법 및 장치
JP2014106637A (ja) 情報処理装置および方法、並びにプログラム
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
KR20070118635A (ko) 오디오 및/또는 비주얼 데이터의 서머라이제이션
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2018081630A (ja) 検索装置、検索方法およびプログラム
US20120242860A1 (en) Arrangement and method relating to audio recognition
CN115867948A (zh) 识别物体的卫生状况方法及相关电子设备
US10347299B2 (en) Method to automate media stream curation utilizing speech and non-speech audio cue analysis
Gillet et al. Automatic transcription of drum sequences using audiovisual features
US11468904B2 (en) Computer apparatus and method implementing sound detection with an image capture system
JP7464730B2 (ja) ビデオ情報に基づく空間オーディオ拡張
US20230410830A1 (en) Audio purification method, computer system and computer-readable medium
Mac Learning efficient temporal information in deep networks: From the viewpoints of applications and modeling
US20230326478A1 (en) Method and System for Target Source Separation
US20230402055A1 (en) System and method for matching a visual source with a sound signal
Kiaei et al. Design and Development of an Integrated Internet of Audio and Video Sensors for COVID-19 Coughing and Sneezing Recognition
GB2601114A (en) Audio processing system and method
WO2023195541A1 (en) Method and system for target source separation
Geeroms et al. Audio-Visual Active Speaker Identification: A comparison of dense image-based features and sparse facial landmark-based features
KR20240026714A (ko) 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법
Umadevi et al. Acoustic Source Localization Model using Audio-Visual Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R151 Written notification of patent or utility model registration

Ref document number: 7338627

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151