JP7338627B2 - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP7338627B2 JP7338627B2 JP2020532274A JP2020532274A JP7338627B2 JP 7338627 B2 JP7338627 B2 JP 7338627B2 JP 2020532274 A JP2020532274 A JP 2020532274A JP 2020532274 A JP2020532274 A JP 2020532274A JP 7338627 B2 JP7338627 B2 JP 7338627B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- image
- image object
- moving image
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 230000010365 information processing Effects 0.000 title claims description 34
- 238000001514 detection method Methods 0.000 claims description 151
- 238000012545 processing Methods 0.000 claims description 130
- 238000000926 separation method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 24
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 34
- 238000013528 artificial neural network Methods 0.000 description 27
- 238000000605 extraction Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000004807 localization Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 101100522111 Oryza sativa subsp. japonica PHT1-11 gene Proteins 0.000 description 1
- 101000639461 Rattus norvegicus Small nuclear ribonucleoprotein-associated protein B Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B13/00—Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
- G03B13/18—Focusing aids
- G03B13/20—Rangefinders coupled with focusing arrangements, e.g. adjustment of rangefinder automatically focusing camera
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B13/00—Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
- G03B13/32—Means for focusing
- G03B13/34—Power focusing
- G03B13/36—Autofocus systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
- H04N9/8211—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Description
〈本技術について〉
本技術は、音声付動画像から音オブジェクトと画像オブジェクトを検出し、それらの検出結果に基づいて音画像オブジェクトを検出することで、音声付動画像から所望のオブジェクトの画像領域と音、つまり音画像オブジェクトを抽出できるようにするものである。
それでは、以下、上述した本技術について、さらに詳細に説明する。
また、再生装置11における音画像オブジェクト抽出部21は、例えば図2に示すように構成される。
さらに音オブジェクト検出器52は、例えば図3に示すように構成される。
次に、以上において説明した再生装置11の各部の動作について、より詳細に説明する。
続いて、再生装置11で行われる処理の流れについて説明する。すなわち、以下、図5のフローチャートを参照して、再生装置11により行われる再生処理について説明する。
ここで、本技術のユースケースについて説明する。
また、本技術は、360度の全方位動画像の再生やVR等の画像の再生にも利用することが可能である。
さらに本技術は、例えば撮像機能付きのホームエージェントやロボット、アクションカムなどにおける動画像検索等にも利用することが可能である。
また、本技術は例えばVRで360度の全方位動画像を視聴する際に、ユーザの視野外に注目すべきオブジェクトがあることを通知する場合などにも利用することが可能である。これにより、例えばユーザが興味を示すであろうシーン等を見逃してしまうことを防止することができる。
さらに、本技術は除去処理を行う場合にも利用することができ、例えば自然や街などの風景の動画像から任意のオブジェクトの画像と音を除去し、あたかもそのオブジェクトがなかったかのような動画像を生成することができる。
その他、本技術はシャッタ動作の実行制御にも利用することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
を備える情報処理装置。
(2)
前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
(1)に記載の情報処理装置。
(3)
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
(1)または(2)に記載の情報処理装置。
(4)
前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
(1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
(1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
(1)乃至(6)の何れか一項に記載の情報処理装置。
(8)
前記音オブジェクト検出部は、複数の前記音オブジェクトの同時発生確率、音源位置、画像物体位置、および前記音オブジェクトの種類のうちの少なくとも何れか1つに基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
(1)乃至(7)の何れか一項に記載の情報処理装置。
(9)
前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
(1)乃至(8)の何れか一項に記載の情報処理装置。
(10)
前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
(1)乃至(9)の何れか一項に記載の情報処理装置。
(11)
検出された複数の前記音画像オブジェクトのなかから、1または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
(1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
(11)に記載の情報処理装置。
(13)
前記処理部は、前記選択結果に応じた処理として、
前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
選択された前記音画像オブジェクトに関する通知処理、
選択された前記音画像オブジェクトに関する検索処理、
または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
を実行する
(12)に記載の情報処理装置。
(14)
情報処理装置が、
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
情報処理方法。
(15)
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含む処理をコンピュータに実行させるプログラム。
Claims (14)
- 音声付動画像に基づいて画像オブジェクトを検出する画像オブジェクト検出部と、
前記音声付動画像に基づいて音オブジェクトを検出する音オブジェクト検出部と、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する音画像オブジェクト検出部と
を備え、
前記音オブジェクト検出部は、前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
情報処理装置。 - 前記音画像オブジェクト検出部は、検出された前記音画像オブジェクトの画像領域情報および分離音を含む音画像オブジェクト情報を出力する
請求項1に記載の情報処理装置。 - 前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの対応付けを行うことで、前記音画像オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記音画像オブジェクト検出部は、前記画像オブジェクトと前記音オブジェクトとの共起確率に基づいて、前記音画像オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記音画像オブジェクト検出部は、前記画像オブジェクトの位置情報、および前記音オブジェクトの位置情報に基づいて、前記音画像オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記画像オブジェクト検出部は、前記音声付動画像を構成する音声、前記音声付動画像を構成する音声からの音響イベントの検出結果、および前記音オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する動画像とに基づいて前記画像オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記音オブジェクト検出部は、前記音声付動画像を構成する動画像、前記音声付動画像を構成する動画像に対する画像物体認識の結果、および前記画像オブジェクトの検出結果のうちの少なくとも何れか1つと、前記音声付動画像を構成する音声とに基づいて前記音オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記音オブジェクト検出部は、音響イベントを検出することで前記音オブジェクトを検出する
請求項1に記載の情報処理装置。 - 前記音オブジェクト検出部は、音源分離により前記音オブジェクトを検出する
請求項1に記載の情報処理装置。 - 検出された複数の前記音画像オブジェクトのなかから、1または複数の前記音画像オブジェクトを選択する音画像オブジェクト選択部をさらに備える
請求項1に記載の情報処理装置。 - 前記音画像オブジェクト選択部による前記音画像オブジェクトの選択結果に応じた処理を実行する処理部をさらに備える
請求項10に記載の情報処理装置。 - 前記処理部は、前記選択結果に応じた処理として、
前記音声付動画像の選択された前記音画像オブジェクトに対するズーム処理、
前記音声付動画像の選択された前記音画像オブジェクトに対するフォーカス処理、
選択された前記音画像オブジェクトの前記音声付動画像からの除去処理、
選択された前記音画像オブジェクトに関する通知処理、
選択された前記音画像オブジェクトに関する検索処理、
または、選択された前記音画像オブジェクトに基づくシャッタ動作制御処理
を実行する
請求項11に記載の情報処理装置。 - 情報処理装置が、
音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含み、
前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
情報処理方法。 - 音声付動画像に基づいて画像オブジェクトを検出し、
前記音声付動画像に基づいて音オブジェクトを検出し、
前記画像オブジェクトの検出結果、および前記音オブジェクトの検出結果に基づいて音画像オブジェクトを検出する
ステップを含む処理をコンピュータに実行させ、
前記画像オブジェクトの検出結果に基づく複数の前記音オブジェクトの同時発生確率に基づいて、検出対象とする前記音オブジェクトの絞り込みを行う
プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018138482 | 2018-07-24 | ||
JP2018138482 | 2018-07-24 | ||
PCT/JP2019/027261 WO2020022055A1 (ja) | 2018-07-24 | 2019-07-10 | 情報処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020022055A1 JPWO2020022055A1 (ja) | 2021-08-05 |
JP7338627B2 true JP7338627B2 (ja) | 2023-09-05 |
Family
ID=69181502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020532274A Active JP7338627B2 (ja) | 2018-07-24 | 2019-07-10 | 情報処理装置および方法、並びにプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11431887B2 (ja) |
EP (1) | EP3829161B1 (ja) |
JP (1) | JP7338627B2 (ja) |
KR (1) | KR20210038537A (ja) |
CN (1) | CN112425157A (ja) |
WO (1) | WO2020022055A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
CN113365012A (zh) * | 2020-03-06 | 2021-09-07 | 华为技术有限公司 | 一种音频处理方法及设备 |
US20240038254A1 (en) * | 2020-08-13 | 2024-02-01 | Nippon Telegraph And Telephone Corporation | Signal processing device, signal processing method, signal processing program, learning device, learning method, and learning program |
US11507245B1 (en) * | 2021-04-30 | 2022-11-22 | Zebra Technologies Corporation | Systems and methods for enhancing image content captured by a machine vision camera |
WO2023181889A1 (ja) * | 2022-03-24 | 2023-09-28 | ソニーグループ株式会社 | 撮影装置、撮影方法、およびプログラム |
KR102661373B1 (ko) * | 2023-04-26 | 2024-04-26 | 주식회사 아스트노바 | 영상 내 무빙 오브젝트의 선택적 추적을 이용한 물리 공간 내 입체 음향 제공 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076451A (ja) | 2009-09-30 | 2011-04-14 | Hitachi Ltd | 画像付きドキュメントの表示方法 |
JP2011517357A (ja) | 2008-03-04 | 2011-06-02 | ジェスチャー テック,インコーポレイテッド | 改良されたジェスチャに基づく画像操作 |
WO2012004933A1 (ja) | 2010-07-09 | 2012-01-12 | パナソニック株式会社 | オブジェクト関連付け装置、オブジェクト関連付け方法、プログラム及び記録媒体 |
JP2014194659A (ja) | 2013-03-28 | 2014-10-09 | Brother Ind Ltd | 画像処理装置およびコンピュータプログラム |
JP2015177490A (ja) | 2014-03-18 | 2015-10-05 | 株式会社リコー | 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
JP4462339B2 (ja) * | 2007-12-07 | 2010-05-12 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2010165305A (ja) * | 2009-01-19 | 2010-07-29 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP5526727B2 (ja) * | 2009-11-20 | 2014-06-18 | ソニー株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP5917270B2 (ja) | 2011-05-27 | 2016-05-11 | キヤノン株式会社 | 音検出装置及びその制御方法、プログラム |
US9495591B2 (en) | 2012-04-13 | 2016-11-15 | Qualcomm Incorporated | Object recognition using multi-modal matching scheme |
EP2680615B1 (en) | 2012-06-25 | 2018-08-08 | LG Electronics Inc. | Mobile terminal and audio zooming method thereof |
JP6012342B2 (ja) | 2012-09-03 | 2016-10-25 | キヤノン株式会社 | 再生装置、再生装置の制御方法 |
US9007524B2 (en) * | 2012-09-25 | 2015-04-14 | Intel Corporation | Techniques and apparatus for audio isolation in video processing |
KR20140114238A (ko) * | 2013-03-18 | 2014-09-26 | 삼성전자주식회사 | 오디오와 결합된 이미지 표시 방법 |
US9693009B2 (en) | 2014-09-12 | 2017-06-27 | International Business Machines Corporation | Sound source selection for aural interest |
WO2016072120A1 (ja) * | 2014-11-07 | 2016-05-12 | ソニー株式会社 | 情報処理システム、制御方法、および記憶媒体 |
CN105989845B (zh) * | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US9736580B2 (en) * | 2015-03-19 | 2017-08-15 | Intel Corporation | Acoustic camera based audio visual scene analysis |
US10134422B2 (en) * | 2015-12-01 | 2018-11-20 | Qualcomm Incorporated | Determining audio event based on location information |
JP2017102085A (ja) * | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
KR20170106063A (ko) * | 2016-03-11 | 2017-09-20 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
GB2557241A (en) | 2016-12-01 | 2018-06-20 | Nokia Technologies Oy | Audio processing |
CN111034222A (zh) * | 2017-08-30 | 2020-04-17 | 松下知识产权经营株式会社 | 拾音装置、拾音方法以及程序 |
-
2019
- 2019-07-10 US US17/250,376 patent/US11431887B2/en active Active
- 2019-07-10 JP JP2020532274A patent/JP7338627B2/ja active Active
- 2019-07-10 KR KR1020217001056A patent/KR20210038537A/ko unknown
- 2019-07-10 CN CN201980047758.1A patent/CN112425157A/zh active Pending
- 2019-07-10 EP EP19840800.7A patent/EP3829161B1/en active Active
- 2019-07-10 WO PCT/JP2019/027261 patent/WO2020022055A1/ja unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011517357A (ja) | 2008-03-04 | 2011-06-02 | ジェスチャー テック,インコーポレイテッド | 改良されたジェスチャに基づく画像操作 |
JP2011076451A (ja) | 2009-09-30 | 2011-04-14 | Hitachi Ltd | 画像付きドキュメントの表示方法 |
WO2012004933A1 (ja) | 2010-07-09 | 2012-01-12 | パナソニック株式会社 | オブジェクト関連付け装置、オブジェクト関連付け方法、プログラム及び記録媒体 |
JP2014194659A (ja) | 2013-03-28 | 2014-10-09 | Brother Ind Ltd | 画像処理装置およびコンピュータプログラム |
JP2015177490A (ja) | 2014-03-18 | 2015-10-05 | 株式会社リコー | 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN112425157A (zh) | 2021-02-26 |
US20210281739A1 (en) | 2021-09-09 |
US11431887B2 (en) | 2022-08-30 |
EP3829161B1 (en) | 2023-08-30 |
JPWO2020022055A1 (ja) | 2021-08-05 |
KR20210038537A (ko) | 2021-04-07 |
EP3829161A4 (en) | 2021-09-01 |
EP3829161A1 (en) | 2021-06-02 |
WO2020022055A1 (ja) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7338627B2 (ja) | 情報処理装置および方法、並びにプログラム | |
CN113709561B (zh) | 视频剪辑方法、装置、设备及存储介质 | |
US20210249012A1 (en) | Systems and methods for operating an output device | |
KR102148006B1 (ko) | 동영상에 특수 이펙트를 제공하는 방법 및 장치 | |
JP2014106637A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2023537705A (ja) | オーディオ・ビジュアル・イベント識別システム、方法、プログラム | |
KR20070118635A (ko) | 오디오 및/또는 비주얼 데이터의 서머라이제이션 | |
JP2010224715A (ja) | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 | |
JP2018081630A (ja) | 検索装置、検索方法およびプログラム | |
US20120242860A1 (en) | Arrangement and method relating to audio recognition | |
CN115867948A (zh) | 识别物体的卫生状况方法及相关电子设备 | |
US10347299B2 (en) | Method to automate media stream curation utilizing speech and non-speech audio cue analysis | |
Gillet et al. | Automatic transcription of drum sequences using audiovisual features | |
US11468904B2 (en) | Computer apparatus and method implementing sound detection with an image capture system | |
JP7464730B2 (ja) | ビデオ情報に基づく空間オーディオ拡張 | |
US20230410830A1 (en) | Audio purification method, computer system and computer-readable medium | |
Mac | Learning efficient temporal information in deep networks: From the viewpoints of applications and modeling | |
US20230326478A1 (en) | Method and System for Target Source Separation | |
US20230402055A1 (en) | System and method for matching a visual source with a sound signal | |
Kiaei et al. | Design and Development of an Integrated Internet of Audio and Video Sensors for COVID-19 Coughing and Sneezing Recognition | |
GB2601114A (en) | Audio processing system and method | |
WO2023195541A1 (en) | Method and system for target source separation | |
Geeroms et al. | Audio-Visual Active Speaker Identification: A comparison of dense image-based features and sparse facial landmark-based features | |
KR20240026714A (ko) | 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법 | |
Umadevi et al. | Acoustic Source Localization Model using Audio-Visual Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230807 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7338627 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |