JP2004056286A - 画像表示方法 - Google Patents

画像表示方法 Download PDF

Info

Publication number
JP2004056286A
JP2004056286A JP2002208491A JP2002208491A JP2004056286A JP 2004056286 A JP2004056286 A JP 2004056286A JP 2002208491 A JP2002208491 A JP 2002208491A JP 2002208491 A JP2002208491 A JP 2002208491A JP 2004056286 A JP2004056286 A JP 2004056286A
Authority
JP
Japan
Prior art keywords
person
image
data
voice
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002208491A
Other languages
English (en)
Inventor
Naoto Kaneshiro
金城 直人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2002208491A priority Critical patent/JP2004056286A/ja
Publication of JP2004056286A publication Critical patent/JP2004056286A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】画像人物と音声の対応付けの精度を向上させ、音声を文字化したデータを精度良くその話者に対応させて表示する。
【解決手段】画像データ中から人物領域を抽出し、その画像特徴量を算出し、該画像特徴量により人物を推定するとともに、音声データから音声特徴量を算出し、該音声特徴量により人物を推定し、前記画像データから推定された人物と、音声データから推定された人物とが同一シーン内に同時に発生する状況の統計をとり、前記統計の結果に基づいて、前記音声データを発した人物を特定し、前記音声データを文字化して、表示画面上で前記特定された人物の近くに表示することを特徴とする画像表示方法を提供することにより前記課題を解決する。
【選択図】図2

Description

【0001】
【発明の属する技術分野】
本発明は、画像表示方法に係り、特に、動画の再生において、音声を文字データとして画像とともに表示する画像表示方法に関する。
【0002】
【従来の技術】
従来より、画像を表示する方法として、プリントやスライド等の静止画の他に、映画やTV放送またはビデオテープ等の媒体に録画された画像の再生あるいはビデオカメラで撮影した画像の再生のように、動画を音声とともに連続的に表示する方法が良く用いられている。
このとき、映画等において、外国語のセリフ等を翻訳した文章を画面の隅に表示するいわゆる字幕スーパーや、TV放送においても、特にセリフを分かりやすく文字で表示して強調したりすることが行われている。さらに、自分で撮影したビデオ画像においても、文字データを撮影画像に合成して表示したりすることも良く行われている。
【0003】
また、近年、聴覚障害者のために、動画表示中の人物が発している音声の内容を容易に認識できるようにする技術が種々開発されている。
例えば、特開平7−298154号公報には、クローズドキャプションの情報の入ったテレビジョン信号を受信したときに、文字とともに音声信号を個人の能力に合わせて聞き取れるようにするため、明確に文字と音声とを認識することができるキャプションデコーダおよびキャプションデコーダを備えた映像信号再生装置が開示されている。
また、特開平9−233442号公報には、TV会議等に用いられる顔画像表示装置および顔画像通信システムにおいて、被写体の口元の動き、または複数設けられた各マイクの音量に応じて現在の話者の位置を検出し、その話者の音声を文字化してその話者の口の近くに合成して表示するようにしたものが開示されている。
【0004】
【発明が解決しようとする課題】
しかしながら、前記特開平7−298154号公報に開示されたものでは、予めキャプション情報が画像信号とは別に用意されていなければならず、TV放送においても、任意の番組に対応することはできないという問題がある。また、ユーザーが自分で撮影したビデオ画像にも対応することはできない。
また、前記特開平9−233442号公報に開示された被写体の口元の動きから話者を推定する方法では、被写体画像が正面以外の画像の場合や、複数人が同時に話すような場合、あるいは人物の動きが大きい場合や表示画面中の人物のサイズが小さい場合等においては、現在の話者の推定精度が低く、話者を完全には特定できず、文字化されたデータをどこに表示してよいかわからないという問題がある。
【0005】
また、リアルタイムで話者の話の内容を文字化して表示する場合に、話の内容量が多い場合、その全部を表示していては視覚的に見づらくなる。また、あまり表示内容が長いと、全文を一度に表示することができない。そこで表示を次々に切り換えて表示しようとすると、見る側のスピードが追いつかず、結局、話の内容を認識することができないという問題がある。
【0006】
本発明は、前記従来の問題に鑑みてなされたものであり、音声データを伴う動画表示において、音声を発している画像中の人物の推定を行い、画像中の人物と音声の対応付けの精度を向上させ、音声データを文字化して精度良くその話者に対応させて表示することのできる画像表示方法を提供することを課題とする。
【0007】
【課題を解決するための手段】
前記課題を解決するために、本発明の第1の態様は、音声データを伴う画像データを表示する画像表示方法であって、画像データ中から人物領域を抽出し、その画像特徴量を算出し、該画像特徴量により人物を推定するとともに、音声データから音声特徴量を算出し、該音声特徴量により人物を推定し、前記画像データから推定された人物と、音声データから推定された人物とが同一シーン内に同時に発生する状況の統計をとり、前記統計の結果に基づいて、前記音声データを発した人物を特定し、前記音声データを文字化して、表示画面上で前記特定された人物の近くに表示することを特徴とする画像表示方法を提供する。
【0008】
また、同様に前記課題を解決するために、本発明の第2の態様は、音声データを伴う画像データを表示する画像表示方法であって、予め人物の顔画像と、その人物の音声を登録しておき、音声データを伴った画像を表示する際、該音声データを前記登録された音声とマッチングし、人物を特定するとともに、該特定された人物の前記顔画像と、表示される人物の顔領域とをマッチングして、前記音声データを発する人物を表示画面上で特定し、前記音声データを文字化して、表示画面上で前記特定された人物の近くに表示することを特徴とする画像表示方法を提供する。
【0009】
また、前記音声データを文字化して表示画面上に表示した位置を手動で修正することができるようにしたことが好ましい。
【0010】
また、前記表示画面のサイズまたは画像表示の速度に応じて、前記音声データを文字化して表示する際の文字数を切り換えるようにしたことが好ましい。
【0011】
さらに、前記音声データを文字化した文字数に応じて、前記表示画面に表示される画像の表示速度を切り換えるようにしたことが好ましい。
【0012】
【発明の実施の形態】
以下、本発明の画像表示方法について、添付の図面に示される好適実施形態を基に詳細に説明する。
【0013】
図1に、本発明に係る画像表示方法を実行するための画像表示システムの概略を示す。
図1に示すように、本画像表示システム1は、主に、表示装置10、情報処理装置12、再生装置14およびアンテナ16aを有する受信装置16を含んで構成される。画像表示システム1は、再生装置14から入力された音声データ付き画像データ、あるいはアンテナ16aおよび受信装置16を介して入力されたTV放送データを、情報処理装置12で処理して、画像中の人物が発した音声データを文字化して、表示画面中のその人物の近くに表示するものである。
【0014】
表示装置10は、特に限定されるものではないが、CRTディスプレイ、液晶ディスプレイ等の動画像を表示するディスプレイであり、かつスピーカを有して、音声出力もできることが好ましい。
情報処理装置12は、詳しくは後述するが、入力された画像データ、音声データからそれぞれ画像特徴量、音声特徴量を算出し、統計処理を行い、音声を発している人物を特定し、音声データを文字化して表示装置10の所定の位置に表示する等の各種の処理を行うものである。情報処理装置12としては、例えばパソコンが好適に例示されるが、パソコンに限定されるものではない。
再生装置14は、ビデオテープ、CD、DVD等の音声付き画像データの記録された記録媒体から記録データを読み取る、いわゆるメディアドライバである。受信装置16は、TV放送を受信するものであり、チューナ等を含んでいる。
【0015】
以上説明したような画像表示システム1において実行される本発明に係る画像表示方法の第1の実施形態について、次に説明する。
第1の実施形態は、例えばビデオテープ等の画像記録媒体に一旦録画された画像を再生する場合に関するものである。
【0016】
すなわち、録画されている各シーン中の人物を抽出し、その画像特徴量から、その人物を推定するとともに、一方音声データの音声特徴量からもその人物を推定し、画像から推定した人物と音声から推定した人物が同時に同一シーンに出現する状況の統計をとり、その統計結果からその音声を発する人物を特定し、その人物の発する音声を文字化して、表示装置10上において、文字化された音声をその人物の近くに表示しようというものである。
【0017】
図2に、画像表示方法の第1実施形態の処理の流れを示し、以下このフローチャートに沿って説明する。
まず、図2のステップ100において、録画済のビデオテープを再生装置14に挿入し、一旦ビデオテープの再生を行い、録画されたデータを読み込み、情報処理装置12に送る。情報処理装置12では、各シーン中の人物を抽出し、その画像特徴量を算出する。算出された画像特徴量は情報処理装置12中のメモリに記憶される。
【0018】
次に、ステップ110において、情報処理装置12で、画像特徴量等から人物を推定する。このとき、後で用いるために、その人物の顔画像パターンも個人を識別するためのデータとして抽出し、記憶しておく。
画像特徴量としては、例えば、平均濃度、ハイライト(最低濃度)、シャドー(最高濃度)、ヒストグラム等が例示される。人物の推定は、その人物の性別、年齢、職業等の人物層を推定することで行う。
例えば、性別の推定は、上で人物を抽出する際、さらに顔画像(頭髪)を抽出し、これらの抽出結果により、頭髪領域のボリュームが大きい場合や、頭髪領域が細長く、長髪である場合、または、胴体以下の輪郭形状のパターンマッチングから抽出された衣服の形状からスカートであると思われる場合、さらに、衣服の色が赤やピンク系統が多い場合、あるいは顔画像の抽出結果から、化粧の有無、口紅の使用の有無やアクセサリの着用の有無等から総合的に判断して、女性であると推定することができる。
【0019】
また、年齢の推定は、表示画像から被写体人物の身長を算出し、その大きさにより、大人、中高生、小学生、幼児等と推定を行うことができる。または、抽出された頭髪領域のボリュームが少ない場合や頭髪の色が白い場合には、高齢者であると推定される。
また、職業の推定は、主に衣服によって行うことができる。例えば、衣服の形状、濃度、色味からスーツ系の度合いが高い場合には、サラリーマン層と推定でき、衣服の形状や色から制服系であると思われる場合には、性別や年齢の推定結果と合わせて中高生を含めた学生であると推定できる。
なお、人物層の推定方法は、ここに挙げたのは一例であり、これに限定されるものではない。
【0020】
次に、ステップ120で、情報処理装置12において、各シーン中の音声データから音声特徴量を算出する。そして次のステップ130において、音声特徴量から人物の推定を行う。これは、公知の方法により、声紋や話者スピード等の音声特徴量から人物を分類して、人物を推定するものである。
【0021】
次に、ステップ140において、画像データから推定した人物候補N人と、音声データから推定した人物候補M人分について、同一シーン中に登場するタイミングの同時発生状況の統計を取る。このとき、画像による人物層推定結果と、音声による人物層推定結果が矛盾する場合には、統計処理においては、カウントアップしないこととする。例えば、画像では男性なのに、音声は女性のような場合である。また、画像では男性候補と女性候補の両方を抽出していて、音声が女性候補のみの場合には、画像の女性候補のみをカウントアップする。
なお、このとき、画像中の人物の口元の動きを検出して、発声タイミングとの一致度合いを、画像と音声の一致度の重み付けに利用して、統計を取るようにしてもよい。
この統計処理を一定時間区切りで行って集計する。一定時間区切りとしては、例えば、10分間隔とか実際に時間で区切ってもよいし、画像がTV番組を録画したものであれば、1番組内で区切っても、コマーシャルを区切りとしても、またチャプターで区切ってもよい。
【0022】
ステップ150において、このようにして統計を取った結果から、画像による人物推定と音声による人物推定の相関の高い組み合わせに基づいて、画像から推定された人物と、音声から推定された人物との関連付けを決定し、その音声を発した人物を特定する。
なお、この段階で画像による人物推定結果と、音声による人物推定結果との矛盾チェックを行うようにしてもよい。
【0023】
次に、ステップ160において、シーンの先頭に戻り、再度記録画像の再生を開始し、音声データを文字化して、その音声を発したと特定された人物の近くに表示する。このとき、図3に示すように、表示装置10の表示画面10a上で、特定された人物20の口元から吹き出し22を表示して、その中に文字データ24を表示するようにするとよい。このとき、音声データは、公知の音声認識技術によって、その内容を文章化する。
なお、人物に対する文字データの表示にあたっては、前記ステップ100での抽出結果を記憶しておき、その結果を用いると効率的であるが、ここで改めて実行するようにしてもよい。
また、吹き出し22のパターンも図に示すような円形のものに限定はされず、楕円、矩形、星形、雲、その他任意の形でよい。吹き出し22のパターンは、情報処理装置12内のメモリに予め記憶されているものを呼び出して用いるようにすればよく、手動で選択できるようにしてもよい。
【0024】
また、画像と音声のマッチングにミスがあり、図3のように特定された人物20に対して表示された文字データ24が間違っていた場合には、情報処理装置12に付設されたキーボードやマウス等の操作系や手元のリモコン等により、表示画面10a内の吹き出し22の位置等を手動で修正できるようにしてもよい。
このとき、修正内容は、情報処理装置12に入力されて、以後の人物同定処理にフィードバックされることが好ましい。具体的な修正内容としては、例えば、画像人物候補と音声人物候補の相関データの修正や人物抽出エリアの修正等が考えられる。
【0025】
また、画像再生時の表示方法として、表示される文字データの文字数を、表示画面のサイズや表示機器の種類に応じて最適化して、その文字数内で文章を作成して表示するようにしてもよい。
例えば、情報処理装置12の音声表示処理を行う機能に表示装置10の表示機器タイプを入力し、表示段階を切り換えることができるようにしてもよい。これにより、TVや携帯機器等の画面のサイズや表示機器の種類に応じた文字データの表示の切り換えが可能となる。
【0026】
また、早送り再生のスピードに応じて、文字数を最適化した文章となるようにして表示するようにしてもよい。また、通常の再生でも、その場面の切り替わり等の速さに応じて、文字数を適宜調整するようにしてもよい。このとき、これらの文字数等の変更は予め設定された条件等に応じて情報処理装置12内で自動的に行ってもよいが、文字数や表示する文字のサイズをユーザが指定できるようにしてもよい。
【0027】
上では、画像再生の速度を主体にして、表示する文字データの方をそれに合わせたが、その反対に、音声認識結果の文章化は忠実に実行し、文字データは完全に表示するようにして、表示される文字数に応じて画像の早送りのスピードを制御するようにしてもよい。例えば、表示される文字データの文字数が多い場合には、画像をゆっくり再生して、全文章を読めるようにすることが好ましい。
【0028】
また、文字データの表示方法は、図3に示すように、吹き出し22中に表示するものに限定されるものではない。例えば、画面の端部に文字表示エリアを設けて、文字をテロップ風に表示するようにしてもよい。この場合には、誰が話している文章かわからないので、話者を画面上で明度をアップさせたり、話者に矢印マークを付ける等の方法で示すようにすることが好ましい。
【0029】
また、話している人物や、話の種類等に応じて、その文字データの表示エリアを変えたり、文字の色や字体あるいはサイズ等を変えるようにしてもよい。
また、人物別に、その発した音声を表示画面上で区分けして表示するようにしてもよい。このとき、被写体人物に対し、撮影者の音声メモを区別して表示するようにしてもよい。その他、撮影者の音声メモ自体も、撮影時の音声と編集によって後から追加した音声と区別して表示するようにしてもよい。
このように、本実施形態によれば、統計的な頻度を利用することで、人物画像と音声の対応付けの精度が向上する。また、画像と音声のそれぞれから人物推定を行い、矛盾点のチェックを行うことで、人物特定における誤認識の発生を低減することができる。
【0030】
次に、本発明に係る画像表示方法の第2の実施形態について説明する。
これは、これから表示される画像中に現れる人物の顔画像(顔画像パターン)とその音声(音声特徴量)を予め登録しておき、画像が表示されると、リアルタイムで、話者を特定し、その発した音声を文字化してその話者の近くに表示しようというものである。
【0031】
図4に、第2実施形態の処理の流れを示す。
図4のステップ200において、予め人物の顔画像(顔画像パターン)およびその人物の音声(音声特徴量)を情報処理装置12に登録しておく。
次に、ステップ210で、再生画像あるいは受信装置16で受信したTV放送が表示装置10に表示されると、音声データを抽出し、その音声特徴量を算出する。
【0032】
次に、ステップ220において、算出した音声特徴量と、予め登録してある音声特徴量をマッチングして、人物の識別を行う。
その音声を発した人物が識別されると、次に、文字データを表示画面上で表示すべき位置を特定する。そのために、ステップ230において、いま識別された人物に対応する、予め登録された顔画像を用いて、マッチング手法等により表示画面上で話者である人物を特定する。
【0033】
表示画面上で話者が特定されると、最後にステップ240において、音声データを文字化して、その特定された話者の近くに表示する。
このように、本実施形態によれば、予め顔画像および音声を登録し、シーン中の画像と音声をパターンマッチングにより人物を特定することにより、リアルタイムで文字データをその話者に対応させて表示することができる。特に、家族を対象としたムービー撮影等の登場人物が限られるような場合に有効である。
本実施形態において、予め登録するデータは、例えば、前記第1の実施形態の結果を記録して用いるようにしてもよい。また、一度登録しておけば、同様の録画の再生や、TV放送であれば、同様の別番組へも適用することができる。
【0034】
なお、第1および第2の実施形態においては、画像中の人物と音声を発した人物との関連付けにおける処理結果のデータを、情報処理装置12で記録媒体の識別情報と関連付けて記録するようにしてもよい。また、その処理結果のデータを記録媒体に付属情報として追加記録するようにしてもよい。このようにすることにより、再生装置14で記録媒体を交換した場合でも、その後の再生時に、即座に音声を文字化した画面を表示できる。
また、第1および第2の実施形態においては、音声を発した人物が画面内に表示されていないときには、その音声の文字データを画面の下に表示するか、または画面の縁から吹き出しを入れて表示するようにしてもよい。
【0035】
以上、説明したように、本発明は、音声データを伴う動画の表示(再生)において、音声データを文字化して、その画像中の所定の位置に表示するものであったが、本発明を利用して動画を絵本風に再現することも可能である。
すなわち、簡単に言うと、動画中のシーンをいくつか静止画として選択し、これに各シーンでの音声データを文字化したものを付けて出力するものである。
【0036】
このような動画の絵本化の具体的な方法は、特に限定されるものではない。
例えば、ひとつの方法として、あるシーンでの音声を文字化して行き、その文字数が所定数に達した時点で、ページを切り換えるようにする。このとき、そのページの区切りにおけるシーンとして、先頭1コマまたはインデックス風にNコマを静止画として表示する。
出力は、例えばプリンタに接続してプリントとして出力して、アルバムに綴じるようにしてもよい。あるいは、いわゆる電子アルバムのように、電子ペーパーに、各シーン毎の静止画とそれに対応する音声データを文字化したものを表示するようにしてもよい。
【0037】
以上、本発明の画像表示方法について、詳細に説明したが、本発明は、以上の実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、各種の改良や変更を行ってもよいのはもちろんである。
【0038】
【発明の効果】
以上、説明した通り、本発明によれば、動画表示において、画像中の人物の推定を画像と音声の両方から行い、統計を取ることにより、画像人物と音声の対応付けの精度を向上させ、音声を文字化したデータを精度良くその話者に対応させて表示することが可能となる。
【図面の簡単な説明】
【図1】本発明に係る画像表示方法を実行するための画像表示システムの概略を示すブロック図である。
【図2】本発明の第1実施形態の処理の流れを示すフローチャートである。
【図3】本発明に係る画像表示方法による表示画面の例を示す説明図である。
【図4】本発明の第2実施形態の処理の流れを示すフローチャートである。
【符号の説明】
1 画像表示システム
10 表示装置
10a 表示画面
12 情報処理装置
14 再生装置
16 受信装置
16a アンテナ
20 (特定された)人物
22 吹き出し
24 文字データ

Claims (5)

  1. 音声データを伴う画像データを表示する画像表示方法であって、
    画像データ中から人物領域を抽出し、その画像特徴量を算出し、該画像特徴量により人物を推定するとともに、
    音声データから音声特徴量を算出し、該音声特徴量により人物を推定し、
    前記画像データから推定された人物と、音声データから推定された人物とが同一シーン内に同時に発生する状況の統計をとり、
    前記統計の結果に基づいて、前記音声データを発した人物を特定し、前記音声データを文字化して、表示画面上で前記特定された人物の近くに表示することを特徴とする画像表示方法。
  2. 音声データを伴う画像データを表示する画像表示方法であって、
    予め人物の顔画像と、その人物の音声を登録しておき、
    音声データを伴った画像を表示する際、該音声データを前記登録された音声とマッチングし、人物を特定するとともに、
    該特定された人物の前記顔画像と、表示される人物の顔領域とをマッチングして、前記音声データを発する人物を表示画面上で特定し、
    前記音声データを文字化して、表示画面上で前記特定された人物の近くに表示することを特徴とする画像表示方法。
  3. 前記音声データを文字化して表示画面上に表示した位置を手動で修正することができるようにした請求項1または2に記載の画像表示方法。
  4. 前記表示画面のサイズまたは画像表示の速度に応じて、前記音声データを文字化して表示する際の文字数を切り換えるようにした請求項1〜3のいずれかに記載の画像表示方法。
  5. 前記音声データを文字化した文字数に応じて、前記表示画面に表示される画像の表示速度を切り換えるようにした請求項1〜3のいずれかに記載の画像表示方法。
JP2002208491A 2002-07-17 2002-07-17 画像表示方法 Withdrawn JP2004056286A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002208491A JP2004056286A (ja) 2002-07-17 2002-07-17 画像表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002208491A JP2004056286A (ja) 2002-07-17 2002-07-17 画像表示方法

Publications (1)

Publication Number Publication Date
JP2004056286A true JP2004056286A (ja) 2004-02-19

Family

ID=31932628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002208491A Withdrawn JP2004056286A (ja) 2002-07-17 2002-07-17 画像表示方法

Country Status (1)

Country Link
JP (1) JP2004056286A (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2007266793A (ja) * 2006-03-28 2007-10-11 Casio Comput Co Ltd 画像加工装置
WO2008035704A1 (fr) * 2006-09-21 2008-03-27 Panasonic Corporation Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre
JP2008278380A (ja) * 2007-05-02 2008-11-13 Sanyo Electric Co Ltd 画像データ処理装置
JP2010081012A (ja) * 2008-09-24 2010-04-08 Casio Computer Co Ltd 撮像装置、撮像制御方法及びプログラム
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム
JP2010192956A (ja) * 2009-02-16 2010-09-02 Nikon Corp 撮像装置および話し手認識方法
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
JP2011071684A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2011135388A (ja) * 2009-12-25 2011-07-07 Asutemu:Kk 手話映像合成装置、手話映像合成方法、手話表示位置設定装置、手話表示位置設定方法、及びプログラム
JP2012008973A (ja) * 2010-06-28 2012-01-12 Brother Ind Ltd 情報処理プログラムおよび情報処理装置
JP2012249211A (ja) * 2011-05-31 2012-12-13 Casio Comput Co Ltd 画像ファイル生成装置、画像ファイル生成プログラム及び画像ファイル生成方法
US8411160B2 (en) 2007-08-31 2013-04-02 Casio Computer Co., Ltd. Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image
US8558952B2 (en) 2007-05-25 2013-10-15 Nec Corporation Image-sound segment corresponding apparatus, method and program
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
JP2015109571A (ja) * 2013-12-05 2015-06-11 キヤノン株式会社 画像記録装置、その制御方法及びプログラム並びに記憶媒体
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN108320318A (zh) * 2018-01-15 2018-07-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
WO2024131585A1 (zh) * 2022-12-23 2024-06-27 北京字跳网络技术有限公司 视频特效显示方法、装置、电子设备及存储介质

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2007266793A (ja) * 2006-03-28 2007-10-11 Casio Comput Co Ltd 画像加工装置
WO2008035704A1 (fr) * 2006-09-21 2008-03-27 Panasonic Corporation Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre
JP2008079018A (ja) * 2006-09-21 2008-04-03 Matsushita Electric Ind Co Ltd 字幕生成装置、字幕生成方法および字幕生成プログラム
CN101518055A (zh) * 2006-09-21 2009-08-26 松下电器产业株式会社 字幕生成装置、字幕生成方法及字幕生成程序
US20090278986A1 (en) * 2006-09-21 2009-11-12 Panasonic Corporation Closed caption production device, closed caption production method and closed caption production program
US8223269B2 (en) 2006-09-21 2012-07-17 Panasonic Corporation Closed caption production device, method and program for synthesizing video, sound and text
JP2008278380A (ja) * 2007-05-02 2008-11-13 Sanyo Electric Co Ltd 画像データ処理装置
US8558952B2 (en) 2007-05-25 2013-10-15 Nec Corporation Image-sound segment corresponding apparatus, method and program
US8411160B2 (en) 2007-08-31 2013-04-02 Casio Computer Co., Ltd. Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image
JP2010081012A (ja) * 2008-09-24 2010-04-08 Casio Computer Co Ltd 撮像装置、撮像制御方法及びプログラム
JP2010192956A (ja) * 2009-02-16 2010-09-02 Nikon Corp 撮像装置および話し手認識方法
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
JP2011071684A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2011135388A (ja) * 2009-12-25 2011-07-07 Asutemu:Kk 手話映像合成装置、手話映像合成方法、手話表示位置設定装置、手話表示位置設定方法、及びプログラム
JP2010148132A (ja) * 2010-01-20 2010-07-01 Casio Computer Co Ltd 撮像装置、画像検出装置及びプログラム
JP2012008973A (ja) * 2010-06-28 2012-01-12 Brother Ind Ltd 情報処理プログラムおよび情報処理装置
US8611724B2 (en) 2010-06-28 2013-12-17 Brother Kogyo Kabushiki Kaisha Computer readable medium, information processing apparatus and method for processing moving image and sound
JP2012249211A (ja) * 2011-05-31 2012-12-13 Casio Comput Co Ltd 画像ファイル生成装置、画像ファイル生成プログラム及び画像ファイル生成方法
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
US9710219B2 (en) 2013-06-10 2017-07-18 Panasonic Intellectual Property Corporation Of America Speaker identification method, speaker identification device, and speaker identification system
JP2015109571A (ja) * 2013-12-05 2015-06-11 キヤノン株式会社 画像記録装置、その制御方法及びプログラム並びに記憶媒体
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN108320318A (zh) * 2018-01-15 2018-07-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
WO2024131585A1 (zh) * 2022-12-23 2024-06-27 北京字跳网络技术有限公司 视频特效显示方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP2004056286A (ja) 画像表示方法
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP4980018B2 (ja) 字幕生成装置
JP5273042B2 (ja) 画像音響区間群対応付け装置と方法およびプログラム
US8494338B2 (en) Electronic apparatus, video content editing method, and program
EP3226245B1 (en) System and method to insert visual subtitles in videos
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP5353835B2 (ja) 情報処理プログラムおよび情報処理装置
JP2006109119A (ja) 動画記録装置および動画再生装置
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
US9749550B2 (en) Apparatus and method for tuning an audiovisual system to viewer attention level
KR950034155A (ko) 시청각매체의 음향재녹음시스템 및 재녹음방법
Huang et al. Audio-visual speech recognition using an infrared headset
US8437611B2 (en) Reproduction control apparatus, reproduction control method, and program
JP2010134507A (ja) 再生装置
US11689380B2 (en) Method and device for viewing conference
JP5310682B2 (ja) カラオケ装置
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP4235635B2 (ja) データ検索装置及びその制御方法
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
KR20220001657A (ko) 영상 편집 장치
KR20220001658A (ko) 영상 편집 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004