JP2020017885A

JP2020017885A - 情報処理装置およびプログラム

Info

Publication number: JP2020017885A
Application number: JP2018140118A
Authority: JP
Inventors: 麻衣鈴木; Mai Suzuki
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2020-01-30
Anticipated expiration: 2038-07-26
Also published as: CN110782899A; CN110782899B; US11606629B2; US20200037049A1; JP7176272B2

Abstract

【課題】音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することを可能とする。【解決手段】データ通信部３１は、音声データやプレゼンテーション資料等の静止画像データ等を取得する。ユーザ操作受付部４１は、静止画像データ内のユーザが指定する特定文字を受付ける。設定部４４は、音声データにおいて特定文字に対応するキーワードが再生されている再生期間を、ユーザ操作受付部４１により受付けられた表示オブジェクトの静止画像データ内における表示期間として設定する。そして、表示制御部４５は、静止画像データを、音声データに同期させて表示されるように制御する。また、表示制御部４５は、音声データ中のキーワード（特定文字）の再生時刻に合わせて、静止画像データの特定文字に表示オブジェクトを表示させるように制御する。【選択図】図３

Description

本発明は、情報処理装置およびプログラムに関する。

特許文献１には、音声データを含む動画像データを入力する動画像入力手段と、動画像データから音声データとこの音声データが記録された動画像データ上の時間情報を抽出する音声分離手段と、動画像上の空間位置を特定する語句とメタデータとなる語句とが予め登録された音声認識用辞書と、音声認識用辞書を参照して、音声データを認識することにより、該音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、それぞれを文字データに変換する音声認識手段と、動画像上の空間位置と、メタデータとなる語句の文字データと、時間情報とを関連付けてメタデータとして記憶するメタデータ記憶手段とを備える動画メタデータ自動作成装置が開示されている。

特許文献２には、資料データに基づく資料を表示する資料表示手段と、資料表示手段に表示される資料のうちユーザの指示動作により特定される指示箇所の位置情報を取得する指示箇所情報取得手段と、指示箇所情報取得手段により位置情報を取得された指示箇所について、指示動作の動作態様に基づいて注目度合を算出する注目度合い算出手段と、注目度合い算出手段により算出された注目度合いに応じて指示箇所に対応する資料データを編集し、該編集結果を反映させた表示が可能な資料編集データを生成する資料データ編集手段と、を備える資料データ編集システムが開示されている。

特開２００５−０６５１９１号公報特開２００９−２９４９８４号公報

本発明の目的は、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置およびプログラムを提供することである。

［情報処理装置］
請求項１に係る本発明は、
音声データと静止画像データをそれぞれ取得する取得手段と、
前記取得手段により取得した静止画像データを、前記音声データに同期させて表示するように制御する表示制御手段と、
前記表示制御手段により表示する静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付手段と、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付手段により受付けた表示要素の静止画像データ内における表示期間として設定する設定手段と、
を備えた情報処理装置である。

請求項２に係る本発明は、前記静止画像データ内の特定文字を画像認識してテキスト化する画像認識手段をさらに備え、
前記表示制御手段は、前記画像認識手段によりテキスト化された特定文字を表示するよう制御する請求項１記載の情報処理装置である。

請求項３に係る本発明は、前記画像認識手段によりテキスト化された特定文字を修正する修正手段をさらに備える請求項２記載の情報処理装置である。

請求項４に係る本発明は、前記特定文字として、前記音声データ内に含まれる可能性のある読み方の候補を追加する追加手段をさらに備える請求項２又は３記載の情報処理装置である。

請求項５に係る本発明は、前記追加手段により追加する読み方の候補を提案する提案手段をさらに備える請求項４記載の情報処理装置である。

請求項６に係る本発明は、前記特定文字は、前記受付手段により受付けた表示要素が差し示す静止画像データ内の予め設定された領域に配置された文字列である請求項１から５のいずれか記載の情報処理装置である。

請求項７に係る本発明は、前記音声データを音声認識してテキスト化する音声認識手段をさらに備える請求項１記載の情報処理装置である。

請求項８に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列を表示するよう制御する請求項７記載の情報処理装置である。

請求項９に係る本発明は、前記音声認識手段によりテキスト化された文字列を修正する修正手段をさらに備える請求項８記載の情報処理装置である。

請求項１０に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストを表示するように制御する請求項７記載の情報処理装置である。

請求項１１に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストと、各文字列の前記音声データにおける再生期間を表示するよう制御する請求項７記載の情報処理装置である。

請求項１２に係る本発明は、前記表示制御手段は、前記特定文字が前記音声データに複数含まれる場合には、前記特定文字に対応する文字列を候補として表示するよう制御する請求項７記載の情報処理装置である。

請求項１３に係る本発明は、前記表示制御手段は、前記音声認識手段によりテキスト化された前記音声データのテキスト全文を表示し、前記特定文字に対応する文字列を候補として、他の文字列と表示を変えて表示するように制御する請求項１２記載の情報処理装置である。

請求項１４に係る本発明は、前記表示制御手段は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に表示するよう制御する請求項１２記載の情報処理装置である。

請求項１５に係る本発明は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に再生する再生手段をさらに備える請求項１２記載の情報処理装置である。

請求項１６に係る本発明は、前記表示制御手段は、前記特定文字に対応する可能性のある前記音声データを、前記音声認識手段によりテキスト化して表示するよう制御する請求項７記載の情報処理装置である。

［プログラム］
請求項１７に係る本発明は、
音声データと静止画像データをそれぞれ取得する取得ステップと、
前記取得ステップにおいて取得された静止画像データを、前記音声データに同期させて表示するように制御する表示制御ステップと、
前記表示制御ステップにおいて表示される静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付ステップと、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付ステップにおいて受付けられた表示要素の静止画像データ内における表示期間として設定する設定ステップと、
をコンピュータに実行させるためのプログラムである。

請求項１に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項２に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、画像認識結果を確認することが可能な情報処理装置を提供することができる。

請求項３に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、画像認識結果が誤っている場合に正すことが可能な情報処理装置を提供することができる。

請求項４に係る本発明によれば、画像認識結果と音声認識結果の表記が異なる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項５に係る本発明によれば、画像認識結果と音声認識結果の表記が異なる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項６に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項７に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項８に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。

請求項９に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果が誤っている場合に正すことが可能な情報処理装置を提供することができる。

請求項１０に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。

請求項１１に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。

請求項１２に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項１３に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。

請求項１４に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項１５に係る本発明によれば、表示要素を付与したい文字列が音声データに複数含まれる場合であっても、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能な情報処理装置を提供することができる。

請求項１６に係る本発明によれば、表示する静止画像内に表示要素を設定する前に、音声認識結果を確認することが可能な情報処理装置を提供することができる。

請求項１７に係る本発明によれば、音声と同期させて静止画像を表示する際に、表示する静止画像内に付与する表示要素の表示期間を、表示開始時刻と表示終了時刻をそれぞれ指定して設定する場合と比較して容易に設定することが可能なプログラムを提供することができる。

本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。本発明の一実施形態における編集処理サーバ１０のハードウェア構成を示すブロック図である。本発明の一実施形態における編集処理サーバ１０の機能構成を示すブロック図である。本発明の一実施形態の編集処理サーバ１０における処理の概略を示すフローチャートである。静止画・音声取り込みを開始するファイルを選択する際の端末装置２０の表示画面例を示す図である。図５で選択したファイルに対して音声認識処理を実行する際の端末装置２０の表示画面例を示す図である。マルチメディアコンテンツを生成するオーサリングツール画面の一例を示す図である。オーサリングツール画面において、音声認識結果を表示する場合の動作を説明する図である。音声認識結果を示す表示画面例を示す図である。音声認識結果から抽出されたキーワード毎の再生期間を示す図である。オーサリングツール画面において、静止画像データ内にポインタ７０を付与する場合の動作を説明する図である。ポインタを静止画像データ内の「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」付近に表示する場合の動作を説明するための図である。図１２で特定した文字列の画像認識結果を示す表示画面例を示す図である。画像認識結果の読み方を補正する場合の表示画面例を示す図である。（Ａ）は、音声認識結果の全文の一部（文章）を示す図であって、（Ｂ）は、音声認識結果から抽出されたキーワード（単語）と各キーワードの再生期間を示す図である。音声データに同期させて、表示する静止画像データ内の特定した文字列にポインタ７０を付与した場合の表示画面例を示す図である。音声データに同期させて、表示する静止画像データ内の特定した文字列にポインタ７０を付与した場合のプレビュー画面の表示画面例を示す図である。（Ａ）は、音声認識結果の全文の一部（文章）を示し、音声認識結果が誤っていた場合の表示画面例を示す図である。（Ｂ）は、音声認識結果から抽出されたキーワード（単語）と各キーワードの再生期間を示し、音声認識結果が誤っていた場合の表示画面例を示す図である。音声認識結果を修正する場合の表示画面例を示す図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

図１は本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。

本発明の一実施形態のマルチメディアコンテンツ生成システムは、図１に示されるように、ネットワーク３０により相互に接続された編集処理サーバ１０およびパーソナルコンピュータ（以下、パソコンと略す。）等の端末装置２０により構成される。

本実施形態のマルチメディアコンテンツ生成システムは、動画像、静止画像、音声、文字等の様々なコンテンツを組み合わせたマルチメディアコンテンツを生成するものである。本実施形態のマルチメディアコンテンツ生成システムによれば、例えば、プレゼンテーション資料を用いた講義や説明を録音しておき、音声に同期させてプレゼンテーション資料の強調したい箇所にポインタ（矢印）、文字、記号、メモ、下線、網掛け、囲み枠等の表示オブジェクト（表示要素）を表示するようなマルチメディアコンテンツを生成することができる。

編集処理サーバ１０は、このような様々なコンテンツを編集してマルチメディアコンテンツを生成するための編集ソフトウェアがインストールされている情報処理装置である。そして、端末装置２０は、静止画像データと音声データを取り込み、編集処理サーバ１０上で動作する編集ソフトウェアを用いて、マルチメディアコンテンツを生成する。

なお、このような編集ソフトウェアを編集処理サーバ１０にインストールするのではなく、パソコン等の端末装置２０に直接インストールして使用することも可能である。

次に、本実施形態の画像形成システムにおける編集処理サーバ１０のハードウェア構成を図２に示す。

編集処理サーバ１０は、図２に示されるように、ＣＰＵ１１、メモリ１２、ハードディスクドライブ（ＨＤＤ）等の記憶装置１３、ネットワーク３０を介して端末装置２０等の外部の装置等との間でデータの送信及び受信を行う通信インタフェース（ＩＦ）１４、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース（ＵＩ）装置１５を有する。これらの構成要素は、制御バス１６を介して互いに接続されている。

ＣＰＵ１１は、メモリ１２または記憶装置１３に格納された制御プログラムに基づいて所定の処理を実行して、編集処理サーバ１０の動作を制御する。なお、本実施形態では、ＣＰＵ１１は、メモリ１２または記憶装置１３内に格納された制御プログラムを読み出して実行するものとして説明するが、当該プログラムをＣＤ−ＲＯＭ等の記憶媒体に格納してＣＰＵ１１に提供することも可能である。

図３は、上記の制御プログラムが実行されることにより実現される編集処理サーバ１０の機能構成を示すブロック図である。

本実施形態の編集処理サーバ１０は、図３に示されるように、データ通信部３１と、制御部３２と、マルチメディアデータ格納部３３とを備えている。

データ通信部３１は、端末装置２０との間でネットワーク３０を介したデータ通信を行っている。また、データ通信部３１は、音声データやプレゼンテーション資料等の静止画像データ等を取得する取得手段として機能する。

制御部３２は、編集処理サーバ１０の動作を制御していて、ユーザ操作受付部４１と、音声認識部４２と、画像認識部４３と、設定部４４と、表示制御部４５と、確認部４６とを備えている。

マルチメディアデータ格納部３３は、編集処理を行おうとする動画像データ、静止画像データ、音声データ、音声認識処理結果である音声テキストデータ、画像認識結果である画像テキストデータ等の各種コンテンツデータを格納している。

ユーザ操作受付部４１は、静止画像データ内のユーザが指定する特定文字を受付ける。すなわち、ユーザ操作受付部４１は、静止画像データ内に表示オブジェクトを付与する付与タイミングの設定指示を受け付ける。具体的には、例えばプレゼンテーション資料のユーザが特定した文字列に、ポインタを付与する等の付与タイミングの設定指示を受付ける。

ここで、特定文字とは、静止画像データ内のユーザが強調したい領域であって、表示オブジェクトを付与したい領域に配置される文字列である。

音声認識部４２は、音声データに対して音声認識処理を行う。つまり、音声データをテキスト化して音声テキストデータに変換する。さらに、音声認識部４２は、音声テキストデータから文字列であるキーワード（単語）を抽出し、音声データにおける各キーワードの再生開始時刻と再生終了時刻（再生期間）を取得する。

画像認識部４３は、静止画像データ内のユーザの指定により受付けられた特定文字に対して画像認識処理を行う。つまり、特定文字の画像データをテキスト化して画像テキストデータに変換する。

表示制御部４５は、端末装置２０において表示される画面の制御を行っている。

すなわち、表示制御部４５は、音声認識部４２によりテキスト化された音声テキストデータを端末装置２０の表示部に表示するよう制御する。また、表示制御部４５は、音声認識部４２によりテキスト化された音声テキストデータから抽出されたキーワードのリストを表示するように制御する。また、表示制御部４５は、音声認識部４２によりテキスト化された音声テキストデータから抽出されたキーワードのリストと、音声データにおける各キーワードの再生開始時刻と再生終了時刻（再生期間）を表示するよう制御する。

また、表示制御部４５は、画像認識部４３によりテキスト化された特定文字の画像テキストデータを端末装置２０の表示部に表示するよう制御する。

設定部４４は、音声認識部４２によりテキスト化された音声テキストデータの中から、画像認識部４３によりテキスト化された特定文字の画像テキストデータに合致する文字列（キーワード）を抽出し、音声データにおいて特定文字に対応するキーワードが再生されている再生期間を、ユーザ操作受付部４１により受付けられた表示オブジェクトの静止画像データ内における表示期間として設定する。

つまり、設定部４４は、音声認識結果である音声テキストデータと、特定文字の画像認識結果である画像テキストデータと、を合致させて、音声認識結果と画像認識結果とを紐付け、音声データにおける特定文字に対応するキーワードの再生開始時刻と再生終了時刻を、表示オブジェクトの表示開始時刻と表示終了時刻として設定する。

具体的には、例えば設定部４４は、音声の再生開始時刻から何分何秒後にプレゼンテーション資料の特定文字にポインタを表示し、音声の再生開始時刻から何分何秒後にポインタを非表示にする、というような設定をする。

また、表示制御部４５は、ユーザ操作受付部４１により受付けられた特定文字に対応するキーワードが音声データに複数含まれる場合には、各キーワードの再生開始時刻と再生終了時刻とを候補として表示するよう制御する。

また、表示制御部４５は、音声認識部４２によりテキスト化された音声テキストデータの全文を表示するように制御する。すなわち、音声テキストデータに変換されたキーワードが前後の文脈と共に表示される。そして、表示制御部４５は、特定文字に対応するキーワードを枠で囲む、網掛けをする、他の文字列と異なる色で表示する等、他の文字列と表示を変えて候補として表示するように制御する。

また、表示制御部４５は、音声データにおいて特定文字に対応するキーワードが検出されない場合であっても、特定文字に対応する可能性のあるキーワードを表示するよう制御する。また、表示制御部４５は、特定文字として音声データ内に含まれる可能性のある読み方の候補をユーザが追加可能なように制御する。また、表示制御部４５は、特定文字として音声データ内に含まれる可能性のある読み方の候補をユーザに提案するように制御する。

確認部４６は、表示する静止画像データ内に表示オブジェクトを設定する前に、ユーザ（使用者）に音声認識結果を確認する。また、確認部４６は、特定文字に対応する可能性のあるキーワードの出現前後の音声データを再生して、ユーザに確認する再生手段として機能する。

そして、ユーザは、音声認識部４２によりテキスト化された音声テキストデータが誤っていた場合に、端末装置２０の表示画面上で修正することができる。また、画像認識部４３によりテキスト化された画像テキストデータが誤っていた場合に、端末装置２０の表示画面上で修正することができる。

そして、表示制御部４５は、データ通信部３１により取得した静止画像データを、データ通信部により取得した音声データに同期させて表示されるように制御する。また、表示制御部４５は、音声データ中のキーワード（特定文字）の再生時刻に合わせて、静止画像データの特定文字に表示オブジェクトを表示させるように制御する。

ここで、音声データに同期させて静止画像データの表示ページを変更する時刻の設定を行う場合において表示される画面はプレビュー画面と呼ばれ、音声データに同期させて表示する静止画像データに表示オブジェクトを付与する設定をする場合において表示される画面はオーサリングツール画面と呼ばれる。

このプレビュー画面では、音声を再生しながら、切替えて表示を行おうとする複数の静止画像データが表示され、静止画像データの切り替えを行いたいタイミングで切り替える静止画像データを選択することにより切替タイミングの設定指示を行うことができるようになっている。

また、オーサリングツール画面では、音声データと静止画像データを取得して、ユーザが静止画像データ内の表示オブジェクトを付与したい特定文字を特定することにより音声データに同期させて表示オブジェクトの表示位置と表示期間が設定されるようになっている。

次に、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ１０の動作について図面を参照して詳細に説明する。

先ず、編集処理サーバ１０における動作の概略を図４のフローチャートを参照して説明する。

例えば、端末装置２０の表示部において、図５に示すような静止画・音声取り込み画面が表示されて、講演会の録音データ等の音声データを記憶したファイルが選択されてカーソル６０により「ＯＫ」が選択されると、編集処理サーバ１０は、端末装置２０から音声データを取得し（ステップＳ１０）、マルチメディアデータ格納部３３に格納する。

そして、端末装置２０の表示部に図６に示すような音声認識処理の実行画面が表示されて「ＯＫ」が選択されると、編集処理サーバ１０の音声認識部４２が、マルチメディアデータ格納部３３に格納した音声データに対して音声認識処理を実行し（ステップＳ１１）、編集処理サーバ１０は、音声認識処理によりテキスト化された音声テキストデータを取得する。また、音声認識部４２が、音声テキストデータから音声テキストデータに含まれるキーワード（単語）を抽出し、音声データにおける各キーワードの再生開始時刻と再生終了時刻を取得する。そして、端末装置２０の表示部には、図７に示されるようなオーサリングツール画面が表示される。

そして、オーサリングツール画面のツールバー６２上でカーソル６０を右クリックすると、図８に示されるようなコマンドが表示され、ナレーション設定が選択されると、図９に示されるようなナレーション設定画面が表示され、音声テキストデータの全文が表示される。すなわち、音声認識結果の全文（文章）が表示される。また、表示モードの切替えにより、図１０に示されるような音声テキストデータに含まれる各キーワードの再生開始時刻、再生終了時刻、再生ボタンが表示される。すなわち、各キーワード（単語）が再生期間、再生ボタンと共に表示される。

図１０に示されるような各キーワードの再生開始時刻と再生終了時刻は、図９に示される音声テキストデータの全文を用いて取得される。すなわち、音声テキストデータの全文を用いて、各キーワードが文章の始めから何文字目かを抽出し、例えば１文字あたり１秒で読めると仮定して、このキーワードの再生開始時刻と再生終了時刻を特定して取得する。

また、音声データにおいて複数回発話されているキーワードであっても、図９に示されているような音声認識結果の全文を参照することにより、文脈の前後からポインタを付与したい特定文字の再生開始時刻と再生終了時刻を特定することができる。また、図１０に示されているように、各キーワードの再生開始時刻と再生終了時刻を参照することにより、ポインタを付与したい特定文字の再生開始時刻と再生終了時刻を特定することができる。また、各キーワードの再生ボタンを押下することにより、各キーワードの前後（キーワード発話前から発話後まで）の音声データが再生される。

また、上述した静止画・音声取り込み画面において、講演会のプレゼンテーション資料等の静止画像データを記憶したファイルが選択されると、編集処理サーバ１０は、端末装置２０から静止画像データを取得し（ステップＳ１２）、マルチメディアデータ格納部３３に格納する。そして、図１１に示されているようなオーサリングツール画面においてページ切替ボタン６３をクリックすることにより、オーサリングツール画面において設定される静止画像データを切り替えることができる。つまり、表示オブジェクトの一例であるポインタを付与する静止画像データをページ切替ボタン６３で切替えることができる。そして、オーサリングツール画面においてポインタ設定ボタン６４をクリックすると、図１２に示すような表示オブジェクトの一例であるポインタの設定画面が表示される。

そして、ユーザ操作受付部４１は、静止画像データ内の強調したい記述の領域であって、ポインタを付与する文字列（図１２において「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」）がカーソル６０を用いて領域指定されると、この文字列を特定文字として受付ける（ステップＳ１３）。すると、編集処理サーバ１０の画像認識部４３が、この特定文字に対して画像認識処理を実行し（ステップＳ１４）、表示制御部４５が、図１３に示されるような特定文字の画像認識結果を表示するように制御する。なお、画像認識結果が誤っている場合には、図１３に示されるような表示画面上で修正することができる。

そして、音声テキストデータの中から画像認識結果として抽出された特定文字に合致する又は対応する（紐づいた）キーワードを検索し、特定する（ステップＳ１５）。

ここで、本実施形態のように、画像認識結果として抽出された画像テキストデータにおける文字列は英語だが、音声認識結果として抽出された音声テキストデータにおける文字列は、カタカナ、ひらがな等の画像認識結果と音声認識結果の表記が異なる場合がある。

具体的には、特定文字の画像認識結果が「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」である場合に、この画像認識結果と音声認識結果の「アシスタントラングエージティーチャー」の表記は合致しない。このように画像認識結果と音声認識結果が合致しない又は合致しない可能性がある場合には、図１３に示されているような画像認識結果画面において読み補正ボタン６５を選択し、図１４に示されているような表示画面において、画像認識結果の読み方を補正登録しておくことにより音声認識結果と対応づける（紐付ける）ことができる。この読み方の補正登録は、複数登録しておくこともできる。なお、カタカナとひらがな等とが互いに互換されるようにしてもよい。

そして、画像認識結果として、音声認識結果に合致する「アシスタントラングエージティーチャ―」を登録しておくことにより、読み補正して登録された画像認識結果と音声認識結果が合致する又は対応づく（紐づく）こととなる。なお、特定文字に対応するキーワードが検出されない場合に、画像認識結果の読み補正を促す表示をするようにしてもよく、例えば図１４に示されているような読み方補正登録画面を表示するようにしてもよい。

そして、特定文字に合致する又は対応する（紐づく）音声認識結果のキーワードの再生開始時刻と再生終了時刻を、ポインタの表示開始時刻と表示終了時刻（表示期間）として設定し（ステップＳ１６）、表示制御部４５は、特定文字の文頭の中央部を矢印の終点としてポインタを配置するように制御する。なお、ポインタの表示開始時刻と表示終了時刻は、表示画面上で修正できるようにしてもよい。

そして、他の静止画像にポインタ等の表示オブジェクトを付与したい箇所がある場合には（ステップＳ１８においてＹｅｓ）、ステップＳ１３の処理へ戻り、他の静止画像に表示オブジェクトを付与したい箇所がない場合には（ステップＳ１８においてＮｏ）、処理を終了する。

図１５（Ａ）は、音声認識結果の全文の一部（文章）を示す図であって、図１５（Ｂ）は、音声認識結果から抽出されたキーワード（単語）と各キーワードの再生開始時刻、再生終了時刻を示す図である。

図１５（Ａ）及び図１５（Ｂ）に示されているように、特定文字の画像認識結果「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」に対応して（紐づいて）音声テキストデータ中の文字列（キーワード）である「アシスタントラングエージティーチャー」が特定され、表示制御部４５は、この特定されたキーワードが他の文字列と異なるように網掛けして表示するように制御する。また、表示制御部４５は、音声データにおける各キーワードの再生開始時刻と再生終了時刻を表示するように制御する。

具体的には、特定文字の画像テキストデータである「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」と音声テキストデータの「アシスタントラングエージティーチャー」が対応するため、設定部４４は、音声データの「アシスタントラングエージティーチャー」の再生開始時刻である「００：０４：２９」をポインタの表示開始時刻とし、再生終了時刻である「００：０４：３４」をポインタの表示終了時刻と設定する。

そして、図１６に示されるように、音声データに同期させて、静止画像データ内の特定文字「ＡｓｓｉｓｔａｎｔＬａｎｇｕａｇｅＴｅａｃｈｅｒ」の文頭の中央部にポインタ７０の終点が付与されて表示され、図１７に示されているように、プレビュー画面のコマンド設定領域７１に追加したコマンドが表示される。すなわち、プレゼンテーション資料の該当ページにおいて「再生開始時刻０：００：０４．２９」がポインタ赤表示のコマンドとして追加される。さらに、「再生終了時刻０：００：０４．３４」がポインタ赤非表示のコマンドとして追加される。そして、このコマンドの追加後には、表示される画面は、コマンドに従ってプレビュー画面が切り替わり音声の再生が続行されることになる。

次に、音声認識結果に誤りがある場合の編集処理サーバ１０の動作について説明する。

図１８（Ａ）及び図１８（Ｂ）は、音声認識結果に誤りがある場合の表示画面を示す図である。図１８（Ａ）に示した音声認識結果の表示画面例では、全文が表示されて、誤っている可能性のある文字列が他の文字列と区別するように表示されている。また、図１８（Ｂ）に示した音声認識結果の表示画面例では、各キーワードの再生開始時刻と再生終了時刻が表示されて、誤っている可能性のあるキーワードが他のキーワードと区別するように表示されている。

具体的には、図１８（Ａ）及び図１８（Ｂ）では、誤って認識されている可能性のある文字列（キーワード）に網掛けがされて、ユーザが音声認識結果を確認できるように表示されている。つまり、ユーザが画像認識結果と音声認識結果を確認した上で、音声に同期させて、表示する静止画像データ内の特定文字にポインタを表示することができるようにされている。

なお、音声認識結果が誤っている場合には、図１８（Ａ）及び図１８（Ｂ）に示されているような表示画面上で修正することができる。そして、表示画面の一方で修正を加えると、他方も連動して修正される。

具体的には、例えば図１８（Ａ）に示されている音声認識結果の全文を表示する表示画面上において「イーエルティー」を「エーエルティー」に修正すると、図１８（Ｂ）に示されているキーワードの再生開始時刻と再生終了時刻を示す表示画面においても「イーエルティー」から「エーエルティー」に連動して修正される。

さらに、図１９に示されているように、図１８（Ａ）に示されている文章側で修正された文字列と図１８（Ｂ）に示されているキーワードの近似度を算出し、図１９に示されているように合致しないが近似度が比較的高い文字列を抽出して表示してユーザに確認する。つまり、ユーザは、この表示された単語を参照して、音声認識結果を修正することができるようにされている。

なお、上述の実施形態においては、静止画像データ内の特定文字をカーソル６０を用いて領域指定して受付ける構成について説明しているが、本発明はこれに限定されるものではなく、静止画像データ内のポインタを付与した箇所にカーソル６０を配置し、カーソル６０が配置された箇所の近傍であって、カーソル６０の終点の予め設定された領域を画像認識処理するようにしてもよい。このとき、カーソル６０で指定された領域の画像認識結果を候補として表示するようにしてもよい。また、画像認識結果に補足情報を入力する入力手段を設け、入力手段により入力された補正情報を用いて画像認識処理を実行するようにしてもよい。

また、本実施形態においては、音声に同期させて、表示する静止画像データ内の特定文字の文頭にポインタを付与する構成について説明したが、本発明はこれに限定されるものではなく、音声に同期させて、表示する静止画像データ内の特定文字の中央等の予め設定された領域にポインタを付与する構成に適用することができる。

また、本実施形態においては、音声に同期させて、表示する静止画像データ内の特定文字にポインタを付与する構成について説明したが、本発明はこれに限定されるものではなく、音声に同期させて、表示する静止画像データ内の特定文字に囲み枠を追加したり、特定文字を網掛けしたり、特定文字に下線を引いたり、特定文字の字体を太くする、色を変える等、特定文字が強調されるように表示する構成に適用することができる。

また、本実施形態においては、音声データに対して音声認識処理を行うことにより音声テキストデータを生成する構成について説明したが、本発明はこれに限定されるものではなく、動画像データに対して音声認識処理を行うことにより音声テキストデータを生成する構成にも適用される。すなわち、動画像データに同期させて、表示する静止画像データ内に表示オブジェクトを付与する構成にも適用される。

１０編集処理サーバ
１１ＣＰＵ
１２メモリ
１３記憶装置
１４通信インタフェース（ＩＦ）
１５ユーザインタフェース（ＵＩ）装置
１６制御バス
２０端末装置
３０ネットワーク
３１データ通信部
３２制御部
３３マルチメディアデータ格納部
４１ユーザ操作受付部
４２音声認識部
４３画像認識部
４４設定部
４５表示制御部
４６確認部
７０ポインタ（表示オブジェクト）

Claims

音声データと静止画像データをそれぞれ取得する取得手段と、
前記取得手段により取得した静止画像データを、前記音声データに同期させて表示するように制御する表示制御手段と、
前記表示制御手段により表示する静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付手段と、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付手段により受付けた表示要素の静止画像データ内における表示期間として設定する設定手段と、
を備えた情報処理装置。
前記静止画像データ内の特定文字を画像認識してテキスト化する画像認識手段をさらに備え、
前記表示制御手段は、前記画像認識手段によりテキスト化された特定文字を表示するよう制御する請求項１記載の情報処理装置。
前記画像認識手段によりテキスト化された特定文字を修正する修正手段をさらに備える請求項２記載の情報処理装置。
前記特定文字として、前記音声データ内に含まれる可能性のある読み方の候補を追加する追加手段をさらに備える請求項２又は３記載の情報処理装置。
前記追加手段により追加する読み方の候補を提案する提案手段をさらに備える請求項４記載の情報処理装置。
前記特定文字は、前記受付手段により受付けた表示要素が差し示す静止画像データ内の予め設定された領域に配置された文字列である請求項１から５のいずれか記載の情報処理装置。
前記音声データを音声認識してテキスト化する音声認識手段をさらに備える請求項１記載の情報処理装置。
前記表示制御手段は、前記音声認識手段によりテキスト化された文字列を表示するよう制御する請求項７記載の情報処理装置。
前記音声認識手段によりテキスト化された文字列を修正する修正手段をさらに備える請求項８記載の情報処理装置。
前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストを表示するように制御する請求項７記載の情報処理装置。
前記表示制御手段は、前記音声認識手段によりテキスト化された文字列のリストと、各文字列の前記音声データにおける再生期間を表示するよう制御する請求項７記載の情報処理装置。
前記表示制御手段は、前記特定文字が前記音声データに複数含まれる場合には、前記特定文字に対応する文字列を候補として表示するよう制御する請求項７記載の情報処理装置。
前記表示制御手段は、前記音声認識手段によりテキスト化された前記音声データのテキスト全文を表示し、前記特定文字に対応する文字列を候補として、他の文字列と表示を変えて表示するように制御する請求項１２記載の情報処理装置。
前記表示制御手段は、前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に表示するよう制御する請求項１２記載の情報処理装置。
前記特定文字に対応する文字列の候補を、当該文字列の前後の文脈と共に再生する再生手段をさらに備える請求項１２記載の情報処理装置。
前記表示制御手段は、前記特定文字に対応する可能性のある前記音声データを、前記音声認識手段によりテキスト化して表示するよう制御する請求項７記載の情報処理装置。
音声データと静止画像データをそれぞれ取得する取得ステップと、
前記取得ステップにおいて取得された静止画像データを、前記音声データに同期させて表示するように制御する表示制御ステップと、
前記表示制御ステップにおいて表示された静止画像データ内の特定文字に付与して表示する表示要素を受付ける受付ステップと、
前記音声データにおいて前記特定文字が再生されている再生期間を、前記受付ステップにおいて受付けられた表示要素の静止画像データ内における表示期間として設定する設定ステップと、
をコンピュータに実行させるためのプログラム。