JP2019220848A - データ処理装置、データ処理方法及びプログラム - Google Patents
データ処理装置、データ処理方法及びプログラム Download PDFInfo
- Publication number
- JP2019220848A JP2019220848A JP2018116973A JP2018116973A JP2019220848A JP 2019220848 A JP2019220848 A JP 2019220848A JP 2018116973 A JP2018116973 A JP 2018116973A JP 2018116973 A JP2018116973 A JP 2018116973A JP 2019220848 A JP2019220848 A JP 2019220848A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- subject
- image
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 93
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 abstract 1
- 238000003384 imaging method Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000010191 image analysis Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/806—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
Description
画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とする。
また、前記課題を解決するため、本発明のデータ処理方法の一態様は、
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とする。
また、前記課題を解決するため、本発明のプログラムの一態様は、
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とする。
本実施形態は、データ処理装置1として適用したセパレート型デジタルカメラに適用した場合を例示したもので、このデジタルカメラは、後述する撮像部を備える撮像装置2と、後述する表示部を備える本体装置3とに分離可能なセパレート型デジタルカメラである。図1(1)は、撮像装置2と本体装置3とを一体的に組み合わせた状態を示し、図1(2)は、撮像装置2と本体装置3とを分離した状態を示している。このデータ処理装置1を構成する撮像装置2と本体装置3とは、それぞれが利用可能な無線通信を用いてペアリング(無線接続認識)が可能なもので、無線通信としては、例えば、無線LAN(Wi−Fi)又はBluetooth(登録商標)を使用するようにしている。
データ処理装置1(本体装置3)は、制御部11、電源部12、記憶部13、タッチ表示部14、短距離通信部15、姿勢検出部16、音響出力部17を有し、更に、本体装置3は、撮像装置2から短距離通信部15を介して画像データを受信取得したり、音響データを受信取得したりするデータ取得機能と、この取得した画像データを再生する画像再生機能と、取得した一連の音響データを再生する音響再生機能とを備えている。制御部11は、電源部(二次電池)12からの電力供給によって動作し、記憶部13内の各種のプログラムに応じてこの本体装置3の全体動作を制御するもので、この制御部11には図示しないCPU(中央演算処理装置)やメモリなどが設けられている。
すなわち、広角レンズ4の光軸方向を天頂に向けた状態(横置き状態)、つまり、光軸方向が重力方向に対して略逆方向となる状態で撮影する場合の姿勢(横置き姿勢)を示している。図3(2)は、この横置き姿勢で撮影された魚眼画像を例示した図で、会議中にテーブル上に横置き姿勢で載置された撮像装置2によって会議の様子が撮影された場合の魚眼画像(半天球画像)を示している。図3(3)は、この魚眼画像から音源(話者)の被写体を含むように所定の領域を切り出してタッチ表示画面6に拡大表示させた場合を示した図である。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音響データ及び動画像データを読み出し取得する(ステップA1)。そして、取得した一連の音響データを逐次解析することにより、その中から音源の音響データを分離抽出して切出し音響を得る(ステップA2)。すなわち、前後の無音区間を切った音響区間において、音圧レベルが所定値以上の音源を主要な音源として分離抽出することにより、雑音を取り除いた主要な音源の音響データを切出し音響として得る。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップA6の後に新たに設け、この新たなステップで作成した管理ファイルを利用して、上述のステップA7以降の各処理を行うような構成にしてもよいことは勿論である。
以下、この発明の第2実施形態について図5のフローチャートを参照して説明する。
なお、上述した第1実施形態においては、音響解析を行ってから画像解析を行うことにより、切出し画像と切出し音響とを対応付けるようにしたが、第2実施形態においては、画像解析を行ってから音響解析を行うにより、切出し画像と切出し音響とを対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第2実施形態の特徴部分を中心に説明するものとする。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音響データ及び動画像データを読み出し取得する(ステップB1)。そして、取得した動画像データをフレーム毎に逐次解析することにより、画像内に各被写体の全体動作や口元の動作などから、音を発している被写体(例えば、発言している人物、吠えている犬など)を音源として特定する(ステップB2)。この場合、物体(音源)検出のアルゴリズムとして、R―CNNの手法を用いて画像内の音源を特定するようにしている。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップB6の後に新たに設け、この新たなステップにより作成した管理ファイルを利用して、上述のステップB7以降の各処理を行うような構成にしてもよいことは勿論である。
上述した第1及び第2実施形態においては、取得した画像データの中から音源として特定した被写体に基づいてその被写体を含む領域を切り出して表示するようにしたが、その切り出し領域をユーザ操作によって任意に指定できるようにしても。すなわち、表示中の画像データの中から音源として任意に指定された被写体を含む領域を、ユーザ操作によって任意に指定されると、その指定領域の画像を切り出して表示するようにしてもよい。これによってユーザにあっては表示中の画像から所望する被写体を任意に指定するだけで、その被写体とその被写体が発生した音響データとを対応付けることができる。
上述した第1及び第2実施形態においては、音源(被写体)の音響データ(切出し音響)のみを分離抽出して出力(他の音響データの出力を抑制)するようにしたが、切出し音響のデータを分離せず、その音源による音響の発生区間を抽出して出力するようにしてもよい。これによって雑音も含めた撮影時の環境をそのまま再現することができるようになる。
上述した第1及び第2実施形態においては、画角が略180゜という広範囲な撮影が可能な広角レンズ(魚眼レンズ)4を使用して撮影した動画像について適用したが、撮像装置2の前面部と背面部に2枚の魚眼レンズを配置し、前面部の魚眼レンズによる前方180゜の撮影と、背面部の魚眼レンズによる後方180゜の撮影を同時に行って、360°の画像(全天球画像)に得るようにしてもよい。ここで、撮像装置2の前面部に設けたモノクロマイク5によって360°の集音を行った場合に、音源としての被写体が、モノクロマイク5に対して逆の方向に位置している場合には、視聴者の後方に音源が存在しているように、その音源の音響データを仮想化して出力するようにしてもよい。この仮想化は、例えば、聴取者に対して任意の方向からの音のように知覚させるバイノーラル化技術と、各チャンネルの音声が反対側の耳へまわりこむ現象(クロストーク成分)を削減する処理(クロストークキャンセル処理)などの一般的な方法で実施することが可能となる。
以下、この発明の第3実施形態について図6及び図7を参照して説明する。
なお、上述した第1実施形態においては、取得した一連の音響データの中から、音源の種類に該当する音響データを分離抽出するようにしたが、この第3実施形態においては、取得した一連の音響データの中から、個々の音源(人物であれば特定話者)に該当する音響データを分離抽出するようにしたものである。すなわち、この第3実施形態は、取得した一連の音響データを解析して音源毎の音響データに分離抽出した後、この分離抽出した音源毎の音響データの中から、音源として特定した被写体に該当する音響データを選別して当該被写体に対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第3実施形態の特徴部分を中心に説明するものとする。
なお、上述した第1及び第2実施形態においては、取得した画像データの中からその一部分として、音源(被写体)を含む領域を切り出して表示するようにしたが、この第3実施形態においては、取得した画像データの全体を表示するようにしている。図示の例では、同時に会話している二人の女性X、Zの音響データが各スピーカ7、8から同時に再生された場合で、上述した第1及び第2実施形態と同様に、話者(音源)がその画像の中心からどの方向にどれくらい離れているかを検出し、この検出結果(話者の位置)に応じて、話者(音源)毎にその出力音量をスピーカ毎に制御するようにしている。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音声データ付き動画像データを取得して(ステップC1)、その動画像データの再生を開始(ステップC2)させた後、取得した一連の音声データを逐次解析して(ステップC3)、音声(人の声)の有無を調べる(ステップC4)。
なお、話者毎に分離抽出した音声データとそれに該当する話者を含む画像データとを管理するためのファイルを作成する処理ステップを、上述のステップC6の後に新たに設ける、又は話者毎に分離抽出した音声データとそれに該当する話者を含む画像データと話者に関する位置情報や認識された話者に関する情報等とを管理するためのファイルを作成する処理ステップを上述のステップC7の後に新たに設け、この新たなステップで作成した管理ファイルを利用してそれ以降の各処理を行うような構成にしてもよいことは勿論である。
なお、上述した第3実施形態においては、取得した音声データの中から分離抽出した話者毎の音声データ(音響的特徴)を基にして、各話者を認識した後、各話者の外観的特徴からその被写体(話者)の位置を特定するようにしたが、これに限らず、例えば、取得した画像データを解析することによって話者毎の外観的特徴から話者を認識してその位置を特定した後、各話者の音響的特徴を基にして、取得した音声データを解析することによって話者毎の音声データを分離抽出するようにしてもよい。すなわち、上述した第1実施形態、第2実施形態の関係の様に、音響解析を行ってから画像解析を行うか、画像解析を行ってから音響解析を行うかのいずれであってもよい。
上述した第3実施形態においては、単一のモノクロマイク5によって集音した音声データを示したが、例えば、会議中の各参加者の個々にマイク(図示省略)を装着しておき、このマイク別に音声データを集音するようにしてもよい。この場合、動画像データの表示時にその画像内の被写体(話者)を特定し、マイク別の音声データの中からその音源(話者)の音声データを選別して当該被写体(話者)と音声データとを対応付けるようにすればよい。このように各参加者の個々にマイクを装着するようにすれば、音声データを解析して話者毎に音声データを分類するクラスタリング処理が不要となる。
その他、上述した第3実施形態においては、動画像データの再生中に話者毎にその音声データを分離抽出するようにしたが、動画像データの再生を開始する前処理として、話者毎にその音声データを分離抽出して記憶しておき、動画像データの再生中にその話者の出現(表示タイミング)に同期して、その音声データを出力するようにしてもよい。更に、第3実施形態は音源(被写体)を人物としたが、それに限らないことは勿論である。
上述した第1〜第3実施形態は、音源(被写体)の音響データのみを分離抽出して出力するようにしたが、音源(被写体)の音響データと、同時集音された雑音を含むその他の音響データとに分離して記憶しておき、音源(被写体)の音響データを出力する際に、雑音などの音響データを合成して出力するようにしてもよい。
上述した第1〜第3実施形態は、データ処理装置1としてデジタルカメラに適用した場合を示したが、音響データ付き動画像データを外部機器に送信することによってその外部機器をデータの出力先とするようにしてもよい。
図8は、データ処理装置(デジタルカメラ)1から外部機器20に音響データ付き動画像データを送信して外部機器20に出力させる場合を示した図である。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップA6の後に新たに設け、この新たなステップで作成した管理ファイルを外部機器20に送信して、外部機器20ではそのデータを利用して音声付画像を出力するような構成であってもよい。
また、外部機器20をデータの出力先とする場合にも上述した第2実施形態又は第3実施形態を適用するようにしてもよい。
上述した第1〜第3実施形態は、2つのスピーカ(第1スピーカ7、第2スピーカ8)を使用してステレオ出力する場合を示したが、例えば、3チャンネル以上のスピーカを使用して、臨場感のあるサラウンド音響を再生するようにしてもよい。この場合、長方形の表示画面の左右方向(長辺方向)に2チャンネルのスピーカを配置する場合に限らず、表示画面の上下方向(短辺方向)にも2チャンネルのスピーカを配置するようにしてもよい。その際、長方形の表示画面が縦長となる姿勢(縦向き姿勢)か、横長となる姿勢(横向き姿勢)に応じて、長辺方向に配置された2台のスピーカを使用するのか、短辺方向に配置された2台のスピーカを使用するのかを選択するようにすればよい。更に、視聴者の背後に2チャンネルのスピーカを配置するようにしてもよい。
その他、第1〜第3実施形態においては、動画像データを再生するようにしたが、静止画像の再生中にその録音内容を出力するようにしてもよい。また、録画・録音されたデータを再生する場合に限らず、撮影中の画像データや撮影中に集音された音響データを、通信手段を介して取得してリアルタイムに出力する場合であってもよい。
以下、本願出願の特許請求の範囲に記載された発明を付記する。
(付記)
(請求項1)
請求項1に記載の発明は、
画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とするデータ処理装置。
(請求項2)
請求項2に記載の発明は、請求項1に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
ことを特徴とする。
(請求項3)
請求項3に記載の発明は、請求項1に記載のデータ処理装置において、
前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項4)
請求項4に記載の発明は、請求項1乃至3の何れか1項に記載のデータ処理装置において、
前記画像データを表示する表示手段を、更に設け、
前記対応付け手段は、前記音源として特定された被写体を含む画像データを前記表示手段に表示させると共に、前記選別した音響データを当該表示中の前記被写体に対応付ける、
ことを特徴とする。
(請求項5)
請求項5に記載の発明は、請求項4に記載のデータ処理装置において、
前記画像取得手段により取得された画像データの中から前記特定手段により音源として特定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該表示中の前記被写体に対応付ける、
ことを特徴とする。
(請求項6)
請求項6に記載の発明は、請求項4に記載のデータ処理装置において、
前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項7)
請求項7に記載の発明は、請求項1乃至6の何れか1項に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を、更に備え、
前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項8)
請求項8に記載の発明は、請求項4に記載のデータ処理装置において、
前記特定手段は、前記表示手段に表示されている画像データを解析することにより当該表示中の画像内に存在している音源としての被写体を特定する、
ことを特徴とする。
(請求項9)
請求項9に記載の発明は、請求項1乃至8の何れか1項に記載のデータ処理装置において、
前記対応付け手段により選別された音響データを出力する音響出力手段と、
前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
を更に備える、
ことを特徴とする。
(請求項10)
請求項10に記載の発明は、請求項9に記載のデータ処理装置において、
前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
ことを特徴とする。
(請求項11)
請求項11に記載の発明は、請求項9又は10に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
ことを特徴とする。
(請求項12)
請求項12に記載の発明は、請求項9乃至11の何れか1項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
ことを特徴とする。
(請求項13)
請求項13に記載の発明は、請求項9乃至11の何れか1項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
ことを特徴とする。
(請求項14)
請求項14に記載の発明は、請求項1乃至13の何れか1項に記載のデータ処理装置において、
前記画像データは、広角撮影された画像データであり、
前記音響データは、前記広角画像の撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
ことを特徴とする。
(請求項15)
請求項15に記載の発明は、請求項1乃至14の何れか1項に記載のデータ処理装置において、
前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
ことを特徴とする。
(請求項16)
請求項16に記載の発明は、
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とする。
(請求項17)
請求項17に記載の発明は、
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とするプログラムである。
2 撮像装置
3 本体装置
4 広角レンズ(魚眼レンズ)
5 モノクロマイク
6 タッチ表示画面
7 第1スピーカ
8 第2スピーカ
11 制御部
13a プログラムメモリ
13c データメモリ
13d 音響認識用メモリ
13e 画像認識用メモリ
14 タッチ表示部
17 音響出力部
20 外部機器
21 表示部
23 左スピーカ
24 右スピーカ
Claims (17)
- 画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とするデータ処理装置。 - 前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
ことを特徴とする請求項1に記載のデータ処理装置。 - 前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項1に記載のデータ処理装置。 - 前記画像データを表示する表示手段を、更に設け、
前記対応付け手段は、前記音源として特定された被写体を含む画像データを前記表示手段に表示させると共に、前記選別した音響データを当該表示中の前記被写体に対応付ける、
ことを特徴とする請求項1乃至3の何れか1項に記載のデータ処理装置。 - 前記画像取得手段により取得された画像データの中から前記特定手段により音源として特定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該表示中の前記被写体に対応付ける、
ことを特徴とする請求項4に記載のデータ処理装置。 - 前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項4に記載のデータ処理装置。 - 前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を、更に備え、
前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする請求項1乃至6の何れか1項に記載のデータ処理装置。 - 前記特定手段は、前記表示手段に表示されている画像データを解析することにより当該表示中の画像内に存在している音源としての被写体を特定する、
ことを特徴とする請求項4に記載のデータ処理装置。 - 前記対応付け手段により選別された音響データを出力する音響出力手段と、
前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
を更に備える、
ことを特徴とする請求項1乃至8の何れか1項に記載のデータ処理装置。 - 前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
ことを特徴とする請求項9に記載のデータ処理装置。 - 前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
ことを特徴とする請求項9又は10に記載のデータ処理装置。 - 前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
ことを特徴とする請求項9乃至11の何れか1項に記載のデータ処理装置。 - 前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
ことを特徴とする請求項9乃至11の何れか1項に記載のデータ処理装置。 - 前記画像データは、広角撮影された画像データであり、
前記音響データは、前記広角画像の撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
ことを特徴とする請求項1乃至13の何れか1項に記載のデータ処理装置。 - 前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
ことを特徴とする請求項1乃至14の何れか1項に記載のデータ処理装置。 - データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とするデータ処理方法。 - データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018116973A JP7100824B2 (ja) | 2018-06-20 | 2018-06-20 | データ処理装置、データ処理方法及びプログラム |
CN201910514660.4A CN110620895A (zh) | 2018-06-20 | 2019-06-13 | 数据处理装置、数据处理方法以及记录介质 |
US16/442,217 US20190394423A1 (en) | 2018-06-20 | 2019-06-14 | Data Processing Apparatus, Data Processing Method and Storage Medium |
JP2022106907A JP7347597B2 (ja) | 2018-06-20 | 2022-07-01 | 動画編集装置、動画編集方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018116973A JP7100824B2 (ja) | 2018-06-20 | 2018-06-20 | データ処理装置、データ処理方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022106907A Division JP7347597B2 (ja) | 2018-06-20 | 2022-07-01 | 動画編集装置、動画編集方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019220848A true JP2019220848A (ja) | 2019-12-26 |
JP7100824B2 JP7100824B2 (ja) | 2022-07-14 |
Family
ID=68921431
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018116973A Active JP7100824B2 (ja) | 2018-06-20 | 2018-06-20 | データ処理装置、データ処理方法及びプログラム |
JP2022106907A Active JP7347597B2 (ja) | 2018-06-20 | 2022-07-01 | 動画編集装置、動画編集方法及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022106907A Active JP7347597B2 (ja) | 2018-06-20 | 2022-07-01 | 動画編集装置、動画編集方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190394423A1 (ja) |
JP (2) | JP7100824B2 (ja) |
CN (1) | CN110620895A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7464927B2 (ja) | 2022-09-12 | 2024-04-10 | 公立大学法人公立はこだて未来大学 | 通信システム、通信装置、プログラム、及び制御方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10579879B2 (en) * | 2016-08-10 | 2020-03-03 | Vivint, Inc. | Sonic sensing |
US11157738B2 (en) * | 2018-11-30 | 2021-10-26 | Cloudminds Robotics Co., Ltd. | Audio-visual perception system and apparatus and robot system |
CN113450823B (zh) * | 2020-03-24 | 2022-10-28 | 海信视像科技股份有限公司 | 基于音频的场景识别方法、装置、设备及存储介质 |
GB2601114A (en) * | 2020-11-11 | 2022-05-25 | Sony Interactive Entertainment Inc | Audio processing system and method |
CN115442549B (zh) * | 2021-06-01 | 2024-09-17 | Oppo广东移动通信有限公司 | 电子设备的发声方法及电子设备 |
US20240073518A1 (en) * | 2022-08-25 | 2024-02-29 | Rovi Guides, Inc. | Systems and methods to supplement digital assistant queries and filter results |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009147727A (ja) * | 2007-12-14 | 2009-07-02 | Sanyo Electric Co Ltd | 撮像装置及び画像再生装置 |
JP2009147768A (ja) * | 2007-12-17 | 2009-07-02 | Hitachi Ltd | 映像音声記録装置および映像音声再生装置 |
JP2012089954A (ja) * | 2010-10-15 | 2012-05-10 | Dainippon Printing Co Ltd | 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等 |
JP2012151544A (ja) * | 2011-01-17 | 2012-08-09 | Casio Comput Co Ltd | 撮像装置及びプログラム |
JP2014195267A (ja) * | 2014-05-02 | 2014-10-09 | Nec Corp | 映像音響処理システム、映像音響処理方法及びプログラム |
JP2015019162A (ja) * | 2013-07-09 | 2015-01-29 | 大日本印刷株式会社 | 会議支援システム |
US20160054895A1 (en) * | 2014-08-21 | 2016-02-25 | Samsung Electronics Co., Ltd. | Method of providing visual sound image and electronic device implementing the same |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009182979A (ja) * | 2009-04-06 | 2009-08-13 | Ricoh Co Ltd | 会議画像再生装置および会議画像再生方法 |
JP5713782B2 (ja) * | 2011-04-21 | 2015-05-07 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2013007851A (ja) * | 2011-06-23 | 2013-01-10 | Nikon Corp | 撮像装置 |
KR102072146B1 (ko) * | 2013-06-27 | 2020-02-03 | 삼성전자주식회사 | 입체 음향 서비스를 제공하는 디스플레이 장치 및 방법 |
US9754193B2 (en) * | 2013-06-27 | 2017-09-05 | Hewlett-Packard Development Company, L.P. | Authenticating a user by correlating speech and corresponding lip shape |
JP2016010010A (ja) * | 2014-06-24 | 2016-01-18 | 日立マクセル株式会社 | 音声入出力機能付き撮像装置およびテレビ会議システム |
JP6651989B2 (ja) * | 2015-08-03 | 2020-02-19 | 株式会社リコー | 映像処理装置、映像処理方法、及び映像処理システム |
JP2018032912A (ja) * | 2016-08-22 | 2018-03-01 | 株式会社リコー | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
CN106817667A (zh) * | 2016-11-30 | 2017-06-09 | 努比亚技术有限公司 | 一种实现立体声的方法、装置及移动终端 |
-
2018
- 2018-06-20 JP JP2018116973A patent/JP7100824B2/ja active Active
-
2019
- 2019-06-13 CN CN201910514660.4A patent/CN110620895A/zh active Pending
- 2019-06-14 US US16/442,217 patent/US20190394423A1/en not_active Abandoned
-
2022
- 2022-07-01 JP JP2022106907A patent/JP7347597B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009147727A (ja) * | 2007-12-14 | 2009-07-02 | Sanyo Electric Co Ltd | 撮像装置及び画像再生装置 |
JP2009147768A (ja) * | 2007-12-17 | 2009-07-02 | Hitachi Ltd | 映像音声記録装置および映像音声再生装置 |
JP2012089954A (ja) * | 2010-10-15 | 2012-05-10 | Dainippon Printing Co Ltd | 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等 |
JP2012151544A (ja) * | 2011-01-17 | 2012-08-09 | Casio Comput Co Ltd | 撮像装置及びプログラム |
JP2015019162A (ja) * | 2013-07-09 | 2015-01-29 | 大日本印刷株式会社 | 会議支援システム |
JP2014195267A (ja) * | 2014-05-02 | 2014-10-09 | Nec Corp | 映像音響処理システム、映像音響処理方法及びプログラム |
US20160054895A1 (en) * | 2014-08-21 | 2016-02-25 | Samsung Electronics Co., Ltd. | Method of providing visual sound image and electronic device implementing the same |
Non-Patent Citations (1)
Title |
---|
劉 玉宇 YUYU LIU: ""音と映像の相関を用いた画像分割による話者領域の切り出し Speaker Segmentation Using Audiovisual Corr", 情報処理学会論文誌 論文誌トランザクション 平成20年度▲1▼ [CD−ROM] (2008-11-15) [CS-N, JPN6022011050, 15 November 2008 (2008-11-15), ISSN: 0004731056 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7464927B2 (ja) | 2022-09-12 | 2024-04-10 | 公立大学法人公立はこだて未来大学 | 通信システム、通信装置、プログラム、及び制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7100824B2 (ja) | 2022-07-14 |
CN110620895A (zh) | 2019-12-27 |
US20190394423A1 (en) | 2019-12-26 |
JP2022133366A (ja) | 2022-09-13 |
JP7347597B2 (ja) | 2023-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP6017854B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム | |
KR102465227B1 (ko) | 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체 | |
US9940969B2 (en) | Audio/video methods and systems | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
CN111445583B (zh) | 增强现实处理方法及装置、存储介质和电子设备 | |
CN111918018B (zh) | 视频会议系统、视频会议设备以及视频会议方法 | |
US9148586B2 (en) | Terminal apparatus for combining images from two different cameras based on detected sound | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、系统、电子设备及存储介质 | |
WO2021147921A1 (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
JP7428763B2 (ja) | 情報取得システム | |
CN112887654B (zh) | 一种会议设备、会议系统及数据处理方法 | |
CN114531564A (zh) | 处理方法及电子设备 | |
KR20130096983A (ko) | 얼굴을 포함하는 영상 처리 방법 및 장치 | |
KR20170107137A (ko) | 복수의 영상 데이터를 이용하는 헤드 마운트 디스플레이 장치 및 복수의 영상 데이터를 송수신하기 위한 시스템 | |
WO2011108377A1 (ja) | 連携動作機器、連携動作方法、連携動作制御プログラム及び機器連携システム | |
JPWO2021230180A5 (ja) | ||
JP2012151544A (ja) | 撮像装置及びプログラム | |
US11902754B2 (en) | Audio processing method, apparatus, electronic device and storage medium | |
US20240144948A1 (en) | Sound signal processing method and electronic device | |
US11184184B2 (en) | Computer system, method for assisting in web conference speech, and program | |
WO2021129444A1 (zh) | 文件聚类方法及装置、存储介质和电子设备 | |
JP7111202B2 (ja) | 収音制御システム及び収音制御システムの制御方法 | |
TWI799048B (zh) | 環景影像會議系統及方法 | |
JP2021124526A (ja) | 記録装置、記録システム、ファイル生成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7100824 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |