JP6095381B2

JP6095381B2 - データ処理装置、データ処理方法及びプログラム

Info

Publication number: JP6095381B2
Application number: JP2013012464A
Authority: JP
Inventors: 雅仁山▲崎▼
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2017-03-15
Anticipated expiration: 2033-01-25
Also published as: JP2014146066A

Description

本発明は、音声データ及び動画データを処理する技術に関する。

従来、講演や対談、会議等の様子や発話内容を録画した動画データに対し、議事録のテキストデータを字幕として挿入することにより、議事録データを生成する技術が知られている。講演等に参加できなかった者に、議事録データを視聴閲覧させることにより講演内容等をわかりやすく且つ正確に伝えることができる。
しかしながら、議事録データは動画データであるため、閲覧者は、発話内容をすべて把握するためには、動画データ全体を視聴閲覧しなければならない。このため、閲覧者の時間を拘束してしまう。これに対し、動画データに対してキーワード毎にタイムコードを関係付け、キーワードを用いた動画データの頭出しを行う技術も知られている。しかし、この技術では、閲覧者は、要点を短時間で視聴することはできるものの、発話内容の全体を把握することはできない。

一方、講演等において録音された音声データを入力とし、テキストデータを議事録文書として自動生成するシステムが実用化されている。このような、テキストデータの議事録文書であれば、閲覧者は自分のペースで読み進めることができる。このため、閲覧者自身の判断で、流し読みや部分的な読み直しが可能である。したがって、閲覧者の拘束時間を低減しつつ、閲覧者は発話内容全体を把握することができる。
また、テキストデータからなる議事録に対し、講演等の様子を示す写真等を挿入した議事録文書も知られている。さらに、テキストデータを用いて、電子文書を生成する技術も知られている。例えば特許文献１には、予め用意された複数の静止画の中から、テキストデータに関係の深い静止画像を選択し、テキストデータと静止画とをユーザに提示する装置が開示されている。

特開２００８−４６９５１号公報

しかしながら、従来の議事録文書への写真等の挿入は、編集者による手作業により行われており、作業効率が悪いという問題があった。また、上述の自動議事録生成システムにおいては、テキストデータは生成できるものの、話題に即した静止画等をテキストデータに対して付加することができない。

本発明はこのような問題点に鑑みなされたもので、閲覧者にとって利便性の高いデータを提示することを目的とする。

そこで、本発明は、音声認識処理により、音声データからテキストデータを生成する音声認識手段と、前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、前記テキストデータを段落単位に分割する分割手段と、前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定手段と、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段とを有し、前記静止画データ抽出手段は、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とする。

本発明によれば、閲覧者にとって利便性の高いデータを提示することができる。

議事録生成システムを示す図である。議事録生成システムを示す図である。コンテンツ生成処理を示すフローチャートである。議事録生成処理を示すフローチャートである。議事録ページの一例を示す図である。第１の実施形態にかかる議事録生成システムを示す図である。第２の実施形態にかかるコンテンツ生成処理を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。
＜第１の実施形態＞
図１は、議事録生成システムのハードウェア構成を示す図である。議事録生成システムは、会議等における音声データ及び動画データを取得する。そして、議事録生成システムは、取得した音声データ及び動画データに基づいて、会議等の議事録ファイルを生成する。ここで、議事録ファイルは、文書データの一例である。
議事録生成システムは、コンピュータ１００、ディスプレイ装置１１０、キーボード１２０、マウス１２１を有している。さらに、本実施形態においては、２人の話者（話者Ａ及び話者Ｂ）による対談の議事録を生成する。２人の話者に対応し、議事録生成システムは、２つのカメラユニット１３０，１３１と、２つのマイクユニット１４０，１４１とをさらに有している。
ディスプレイ装置１１０、キーボード１２０、マウス１２１、カメラユニット１３０，１３１及びマイクユニット１４０，１４１は、いずれもコンピュータ１００に接続されている。なお、コンピュータ１００は、必要に応じて、外部ネットワーク１５０に接続されてもよい。なお、コンピュータ１００は、文書データ生成装置の一例である。

コンピュータ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３及びＨＤＤ１０４を有している。コンピュータ１００は、さらにビデオインタフェース（Ｉ／Ｆ）１０５、ネットワークインタフェース（Ｉ／Ｆ）１０６、ＵＳＢインタフェース（Ｉ／Ｆ）１０７及びこれらを繋ぐシステムバス１０８を有している。
ＣＰＵ１０１は、コンピュータ１００を制御するための中央処理装置である。ＲＡＭ１０２は、ＣＰＵ１０１が動作するためのシステムワークメモリである。ＲＯＭ１０３は、ＢＩＯＳＲＯＭである。ＲＯＭ１０３は、コンピュータの起動プログラムと起動設定値を格納している。ＨＤＤ１０４は、ハードディスクドライブである。ＨＤＤ１０４は、コンピュータ１００を制御するオペレーティングシステム、議事録生成処理を行うプログラムや、一時記録データを格納している。
なお、後述するコンピュータ１００の機能や処理は、ＣＰＵ１０１がＲＯＭ１０３又はＨＤＤ１０４に格納されている議事録生成プログラムを読み出し、このプログラムを実行することにより実現されるものである。

ビデオＩ／Ｆ１０５は、ディスプレイ装置１１０と接続され、コンピュータ１００の画面表示制御を行う。ネットワークＩ／Ｆ１０６は、外部ネットワーク１５０に接続して外部装置との間で議事録ファイルや各種情報の入出力を行う。ＵＳＢＩ／Ｆ１０７は、シリアル通信インタフェースである。ＵＳＢＩ／Ｆ１０７は、ＵＳＢホスト機能及びＵＳＢハブ機能を備えている。これにより、ＵＳＢＩ／Ｆ１０７は、複数のＵＳＢデバイスを接続することができる。以上のユニットがシステムバス１０８上に配置されている。
キーボード１２０及びマウス１２１は、ユーザインタフェースとして機能するＵＳＢデバイスである。キーボード１２０及びマウス１２１は、ユーザからの動作指示を受け付け、ＵＳＢデバイスインタフェース経由で動作指示をコンピュータ１００に伝達する。

カメラユニット１３０，１３１は、図示せぬ光学レンズ、光電変換素子、Ａ／Ｄコンバータ、符号化装置及びＵＳＢデバイスインタフェースなどを有している。光学レンズを通って光電変換素子上に結像した画像は、Ａ／Ｄコンバータによりデジタル画像信号に変換される。その後、符号化装置は、デジタル画像信号を所定の画像データフォーマットに変換した後、ＵＳＢデバイスインタフェース経由で出力する。
マイクユニット１４０，１４１は、図示せぬマイク素子、Ａ／Ｄコンバータ、符号化装置及びＵＳＢデバイスインタフェースなどを有している。マイク素子は、空気振動である音声を電気信号化する。Ａ／Ｄコンバータは、電気信号をデジタル音声信号に変換する。その後、符号化装置は、デジタル音声信号を所定の音声データフォーマットに変換した後、ＵＳＢデバイスインタフェース経由で出力する。

議事録生成システムによる処理の前提として、話者Ａには、カメラユニット１３０及びマイクユニット１４０が向けられてセットされている。また、話者Ｂには、カメラユニット１３１及びマイクユニット１４１が向けられてセットされている。カメラユニット１３０及びマイクユニット１４０は、それぞれ話者Ａの動画データの収集及び話者Ａの発話した音声データの収集を行う。同様に、カメラユニット１３１及びマイクユニット１４１は、それぞれ話者Ｂの動画データの収集及び話者Ｂの発話した音声データの収集を行う。
カメラユニット１３０，１３１により得られた動画データは、動画ストリームとして、ＵＳＢＩ／Ｆ１０７経由でコンピュータ１００に取り込まれる。コンピュータ１００に取り込まれた動画データは、時間を表すタイムコードが付与された形式で、ＨＤＤ１０４に蓄積される。マイクユニット１４０，１４１により得られた音声データは、音声ストリームとして、ＵＳＢＩ／Ｆ１０７経由でコンピュータ１００に取り込まれる。
なお、議事録生成システムが有するカメラユニット及びマイクユニットの数は、実施形態に限定されるものではなく、話者の数に応じて任意に変更することができる。すなわち、カメラユニット及びマイクユニットの数は、１つでもよく、３つ以上であってもよい。また、他の例としては、議事録生成システムは、２人以上の話者に対し、１つのカメラユニット及び１つのマイクユニットを割り当ててもよい。

図２は、コンピュータ１００の機能構成を示す図である。議事録生成システムは、第１コンテンツ生成部２００、第２コンテンツ生成部２１０及び議事録生成部２２０を有している。第１コンテンツ生成部２００は、話者Ａから得られた音声データ及び動画データに基づいて、文書データに含めるコンテンツを生成する。第２コンテンツ生成部２１０は、話者Ｂから得られた音声データ及び動画データに基づいて、文書データに含めるコンテンツを生成する。
話者Ａと話者Ｂによる対談が開始されると、マイクユニット１４０，１４１及びカメラユニット１３０，１３１はそれぞれ音声データ及び動画データの出力を開始する。マイクユニット１４０，１４１及びカメラユニット１３０，１３１が動作を開始すると、第１コンテンツ生成部２００は、マイクユニット１４０及びカメラユニット１３０からそれぞれ話者Ａの音声データ及び動画データのストリーミングを行う。同様に、第２コンテンツ生成部２１０は、マイクユニット１４１及びカメラユニット１３１から話者Ｂの音声データ及び動画データのストリーミングを行う。

第１コンテンツ生成部２００において、音声データは、音声認識及びタイムコード付加部２０１に入力される。音声認識及びタイムコード付加部２０１は、音声データに対する音声認識処理を実行する。これにより、テキストデータＡが生成され、出力される。音声認識処理及びタイムコード付加部２０１はまた、得られたテキストデータに対し、タイムコードを付加する。
ここで、タイムコードは、テキストデータに対応する音声データの時間軸上の位置を示す情報である。例えば、時間ｔ１に対応する音声データからテキストデータ「たんご」が得られた場合に、テキストデータ「たんご」には、時間ｔ１を示すタイムコードが付加される。

キーワード検索部２０２は、音声認識及びタイムコード付加部２０１により得られたテキストデータにおいて、キーワードを検索する。静止画データ抽出部２０３は、テキストデータからキーワードが検出されると、検出されたキーワードに付加されているタイムコードに基づいて、動画データから静止画データを抽出する。
動画データ２０４は、ストリーミングされた動画データを格納する。なお、動画データ２０４に格納されている動画データは、議事録生成部２２０に出力される。以上の処理により、第１コンテンツ生成部２００は、話者Ａに対するテキストデータ、静止画データ及び動画データを議事録生成部２２０に出力する。

第２コンテンツ生成部２１０は、第１コンテンツ生成部２００と同様の処理により、話者Ｂに対するテキストデータ及び静止画データを生成する。第２コンテンツ生成部２１０はさらに、話者Ｂに対するテキストデータ、静止画データ及び動画データを議事録生成部２２０に出力する。第２コンテンツ生成部２１０の構成及び処理は、第１コンテンツ生成部２００の構成及び処理と同様であるため、説明を省略する。
議事録生成部２２０には、第１コンテンツ生成部２００及び第２コンテンツ生成部２１０からテキストデータ、静止画データ及び動画データが入力される。議事録生成部２２０にはさらに、マイクユニット１４０，１４１から音声データが入力される。議事録生成部２２０は、入力されたデータに基づいて、文書データとしての議事録ファイルを生成する。

図３は、議事録生成システムによるコンテンツ生成処理を示すフローチャートである。議事録生成システムは、音声データ及び動画データのストリーミングに先立ち、キーワードの読み込みを行う。なお、前提として、これからストリーミングを行う音声データと動画データとに関連する文書データがＨＤＤ１０４等の記憶部に格納されている。本実施形態においては、対談の議題等が記載された文書ファイルが文書データとしてＨＤＤ１０４に格納されているものとする。
そして、Ｓ３０１において、第１コンテンツ生成部２００は、記憶部に格納されている文書ファイルに基づいてキーワードを決定する（キーワード決定処理）。より具体的には、第１コンテンツ生成部２００は、文書ファイル内から、文書タイトルや見出しとして設定されている文字列、強調表示指定されている文字列等を抽出する。
例えば、文書ファイルがＨＴＭＬ形式である場合には、＜ＴＩＴＬＥ＞タグでマークアップされた文字列がタイトルとして抽出され、＜Ｈ１＞、＜Ｈ２＞、＜Ｈ３＞等の見出しタグでマークアップされた文字列が見出しとして抽出される。また＜ＥＭ＞、＜ＳＴＲＯＮＧ＞の強調タグでマークアップされた文字列が強調表示部として抽出される。抽出された文字列は、図２に示すキーワード検索部２０２にて、キーワードとして利用される。なお、キーワードは、１つでもよく複数でもよい。

次に、Ｓ３０２において、第１コンテンツ生成部２００は、キーワード決定処理により決定されたキーワードを読み込む。次に、Ｓ３０３において、第１コンテンツ生成部２００は、ＵＳＢＩ／Ｆ１０７経由で音声データ及び動画データのストリーミングを開始する。次に、Ｓ３０４において、第１コンテンツ生成部２００は、音声データのストリーミングの終了タイミングか否かを確認する。Ｓ３０５において、終了タイミングでない場合には（Ｓ３０４，Ｎｏ）、第１コンテンツ生成部２００は、Ｓ３１１の処理を行う。
Ｓ３１１において、第１コンテンツ生成部２００の音声認識及びタイムコード付加部２０１は、音声認識処理により、音声データからテキストデータを生成する（音声認識処理）。Ｓ３１１において、音声認識及びタイムコード付加部２０１は、より具体的には、「音響モデル」及び「認識辞書」を用いた音声認識処理により、発話者の発声内容を認識し、音声データを文字列に変換する。Ｓ３１２において、音声認識及びタイムコード付加部２０１は、音声認識により得られた文字列をテキストデータとして出力する。次に、Ｓ３１３において、音声認識及びタイムコード付加部２０１は、音声認識により得られた各単語に対し、タイムコードを付加する。

次に、Ｓ３１４において、第１コンテンツ生成部２００のキーワード検索部２０２は、Ｓ３１１において得られた文字列がキーワードを含むか否かを判定する（キーワード検索処理）。Ｓ３１４において、文字列がキーワードを含まない場合には（Ｓ３１４，Ｎｏ）、第１コンテンツ生成部２００は、Ｓ３０４に処理を進める。
Ｓ３１４において、文字列がキーワードを含む場合には（Ｓ３１４，Ｙｅｓ）、静止画データ抽出部２０３は、Ｓ３１５の処理を行う。Ｓ３１５において、静止画データ抽出部２０３は、キーワードを含むと判定された文字列、すなわち検出されたキーワードに対応付けられているタイムコードを、時間位置として特定する（時間位置特定処理）。ここで、時間位置とは、検出されたキーワードに対応する音声データ中の時間軸方向における位置である。

Ｓ３１５において、静止画データ抽出部２０３はさらに、時間位置の動画データを読み込む。次に、Ｓ３１６において、静止画データ抽出部２０３は、時間位置の動画データから静止画データをキャプチャする。静止画データ抽出部２０３は、さらに得られた静止画データに時間位置を示すタイムコードを付加し、タイムコード付き静止画フォーマットデータとして、静止画データを議事録生成部２２０に出力する。Ｓ３１５及びＳ３１６の処理は、時間位置に基づいて静止画データを抽出する静止画データ抽出処理の一例である。
なお、静止画データ抽出部２０３は、時間位置に基づいて、静止画データを抽出すればよく、例えば、時間位置近傍の位置の静止画データをキャプチャしてもよい。
なお、図３を参照しつつ、第１コンテンツ生成部２００によるコンテンツ生成処理について説明したが、第２コンテンツ生成部２１０も、第１コンテンツ生成部２００と同様のコンテンツ生成処理を行う。

図４は、議事録生成部２２０による、文書データ生成処理としての議事録生成処理を示すフローチャートである。議事録生成処理において、議事録生成部２２０は、テキストデータから検出されたキーワードに対応する位置に、静止画データを配置した議事録ファイルを生成する。Ｓ４０１において、議事録生成部２２０は、第１コンテンツ生成部２００及び第２コンテンツ生成部２１０それぞれから入力されたテキストデータ及び静止画データを取得する。議事録生成部２２０はさらに、マイクユニット１４０，１４１から音声データを取得する。なお、議事録生成部２２０は、第１コンテンツ生成部２００及び第２コンテンツ生成部２１０から音声データを取得してもよい。
次に、Ｓ４０２において、議事録生成部２２０は、Ｓ４０１において取得した音声データに基づいて、テキストデータを段落単位に分割する（分割処理）。Ｓ４０２において、議事録生成部２２０はさらに段落単位のテキストデータをＨＤＤ１０４等の記憶部に格納する。

ここで、テキストデータを段落単位に分割する分割処理について説明する。議事録生成部２２０は、まずテキストデータの生成元の音声データの無音区間を特定する（無音区間特定処理）。ここで、無音区間とは発話のない時間範囲のことである。なお、無音か有音かの判定については、従来技術を用いればよい。例えば、議事録生成部２２０は、音声データのレベルが閾値以上か否かに基づいて無音か否かを判定する。そして、議事録生成部２２０は、無音状態が規定時間以上継続する場合に、無音状態が継続する区間を無音区間と特定する。ここで、規定時間は、議事録生成部２２０に予め設定されているものとする。
議事録生成部２２０は、マイクユニット１４０において得られた話者Ａに対する音声データ（以下、音声データＡと称する）の無音区間及びマイクユニット１４１において得られた話者Ｂに対する音声データ（以下、音声データＢと称する）の無音区間を特定する。

そして、議事録生成部２２０は、音声データＡ（第１の音声データ）の無音区間に対応するテキストデータＡ（第１のテキストデータ）中の位置を境界位置として、音声データＡに対応するテキストデータＡを段落単位に分割する。より詳しくは、議事録生成部２２０は、音声データＡの無音区間であるだけでなく、音声データＢ（第２の音声データ）の発話区間に対応するテキストデータＡ中の位置を境界位置として決定する。
同様に、議事録生成部２２０は、音声データＢの無音区間に対応するテキストデータＢ（第２のテキストデータ）中の位置を境界位置として、音声データＢに対応するテキストデータＢを段落単位に分割する。より詳しくは、議事録生成部２２０は、テキストデータＡと同様に、議事録生成部２２０は、音声データＢの無音区間であって、且つ音声データＡの発話区間となる区間に対応するテキストデータＢ中の位置を境界位置として決定する。
３人以上の話者に対応し、コンピュータ１００に３つの音声データが入力される場合もある。この場合に、議事録生成部２２０は、以下の通り一の音声データに対応する一のテキストデータの位置を境界位置として決定する。すなわち、議事録生成部２２０は、一の音声データの無音区間であって、且つ他のいずれかの音声データの発話区間に対応する位置を、第１のテキストデータの中の位置を境界位置として決定する。

なお、テキストデータを段落単位に分割する処理は、実施形態に限定されるものではない。例えば、コンピュータ１００は、複数の話者の発話を含む音声データを入力とする場合には、話者毎の音声データの周波数の違いに基づいて、テキストデータの境界位置を特定してもよい。このように、コンピュータ１００は、音声データに基づいて段落単位に分割すればよい。
また他の例としては、コンピュータ１００は、テキストデータに基づいて、段落単位に分割してもよい。例えば、コンピュータ１００は、テキストデータに含まれる頻出単語等に基づいて文脈を解析し、解析結果に基づいて、テキストデータを段落単位に分割してもよい。

次に、Ｓ４０３において、議事録生成部２２０は、１段落分のテキストデータを読み込む。次に、Ｓ４０４において、議事録生成部２２０は、１段落分のテキストデータのタイムコードから、段落に対応する動画データの時間範囲を特定する（時間範囲特定処理）。より具体的には、議事録生成部２２０は、段落の始点及び終点のタイムコードを取得し、始点から終点までの範囲を時間範囲として特定する。
次に、Ｓ４０５において、議事録生成部２２０は、図３を参照しつつ説明したコンテンツ生成処理のＳ３１６の処理において出力された静止画データの中から、Ｓ４０４において特定された時間範囲内のタイムコードが付加されている静止画データを取得する。

次に、Ｓ４０６において、議事録生成部２２０は、Ｓ４０５において複数の静止画データを取得したか否かを判定する。議事録生成部２２０は、複数の静止画データを取得したと判定しない場合には（Ｓ４０６，Ｎｏ）、Ｓ４０７の処理を行う。
Ｓ４０７において、議事録生成部２２０は、１つの静止画データを取得したか否かを判定する。１つの静止画データを取得した場合には（Ｓ４０７，Ｙｅｓ）、議事録生成部２２０は、Ｓ４０８の処理を行う。なお、１つの静止画データを取得したことは、１つの段落内において、キーワードが１回のみ発話されたことを意味する。

Ｓ４０８において、議事録生成部２２０は、Ｓ４０３において読み込んだ段落のテキストデータと、１つの静止画データとを議事録ページ中の近接位置にレイアウトする。ここで、議事録ページとは、テキストデータと静止画データとを表示する文書データである。より具体的には、議事録生成部２２０は、１つの静止画データを、対応するキーワードが含まれる段落のテキストデータに対応する位置に配置する。なお、このとき、タイムコードはレイアウトに含めない。
次に、Ｓ４２０において、議事録生成部２２０は、Ｓ４０２において格納したすべての段落をＳ４０３において読み出したか否かを判定する。未処理の段落が存在する場合にはＳ４２０，Ｙｅｓ）、議事録生成部２２０は、Ｓ４０３〜Ｓ４０９の処理を繰り返す。Ｓ４２０の処理により、議事録生成部２２０は、すべての段落のテキストデータが、議事録ファイル上にレイアウトされるまで処理を繰り返す。

一方、Ｓ４０７において、議事録生成部２２０は、静止画データを取得しないと判定した場合には（Ｓ４０７，Ｎｏ）、Ｓ４０９の処理を行う。Ｓ４０９において、議事録生成部２２０は、Ｓ４０３において読み込んだ段落のテキストデータを文書データに配置する。なお、Ｓ４０７において静止画データを取得していないので、Ｓ４０９においては、議事録生成部２２０は、静止画データの配置処理は行わない。
また、Ｓ４０６において、複数の静止画データを取得したと判定した場合には（Ｓ４０６，Ｙｅｓ）、議事録生成部２２０は、Ｓ４１１の処理を行う。なお、複数の静止画データを取得したことは、１つの段落内において、複数回キーワードが発話されたことを意味している。この場合には、Ｓ４１１〜４１４において、段落に対応付けるべき静止画データを新たに抽出する。

Ｓ４１１において、議事録生成部２２０は、Ｓ４０５において取得した静止画データを破棄する。次に、Ｓ４１２において、議事録生成部２２０は、段落に対応する時間範囲の動画データを読み込む。なお、Ｓ４１２において読み込む動画データは、Ｓ４０３において読み込んだテキストデータに対応するデータとする。例えば、Ｓ４０３において、話者Ａに対するテキストデータを読み込んだ場合には、Ｓ４１２において、議事録生成部２２０は、話者Ａに対する動画データを読み込む。また、Ｓ４０３において、話者Ｂに対するテキストデータを読み込んだ場合には、Ｓ４１２において、議事録生成部２２０は、話者Ｂに対する動画データを読み込む。
次に、Ｓ４１３において、議事録生成部２２０は、動画データの画像特徴量の変化量（画像変化量）を計測する。ここで、画像特徴量としては、例えば画素の値や、エッジ領域の位置などが挙げられる。また、画像変化量とは、画像特徴量の時間軸方向における変化量である。すなわち、画像変化量とは、時間経過に伴う、動画データ中の静止画データの画像特徴量の変化量である。

撮影されている話者の動作が大きい瞬間が、その段落内で話者が力説している瞬間と考えられる。そこで、Ｓ４１４において、議事録生成部２２０は、対象となる時間範囲の動画データから、画像変化量が最大となるフレームの直後のフレームを特定する。そして、議事録生成部２２０は、画像変化量が最大となるフレームの直後の１フレームを静止画データとしてキャプチャする。
なお、Ｓ４１４においてキャプチャされるフレームは、画像変化量が最大となるフレームの直後のフレームに限定されるものではない。議事録生成部２２０は、画像変化量に基づいて、適切なフレームを選択すればよい。議事録生成部２２０は、画像変化量が最大となるフレームをキャプチャ対象として選択してもよい。
このように、Ｓ４１４において、議事録生成部２２０は、時間位置を含む時間範囲の動画データから静止画データを得る。すなわち、議事録生成部２２０は、時間位置に基づいて、静止画データを抽出する。すなわち、Ｓ４１４の処理は、静止画データ抽出処理の一例である。

Ｓ４１４の処理に続き、議事録生成部２２０は、Ｓ４０８の処理を行う。すなわち、Ｓ４０８において、議事録生成部２２０は、Ｓ４０３において読み込んだ段落のテキストデータと、Ｓ４１４において得られた静止画データとを議事録ファイルにおいて対応する位置、より具体的には近接する位置にレイアウトする。ここで、近接位置とは、静止画データとテキストデータとの間の距離が閾値以下となるような位置である。本実施の形態にかかる議事録生成部２２０は、このように対応するテキストデータと静止画データとを近接位置に配置する。したがって、閲覧者は、テキストデータと静止画の対応関係を容易に把握することができる。
続いて、議事録生成部２２０は、処理をＳ４２０へ進める。Ｓ４０８又はＳ４０９の処理において、すべての段落のテキストデータがレイアウトされることにより、文書データとしての議事録ファイルが生成される。

図５は、議事録ファイル生成処理により生成される議事録ファイルにより表示される議事録ページの一例を示す図である。図５に示す議事録ページ５０００は、「俳句」というキーワードを含む対談により得られたものである。さらに、図５に示す議事録ページ５０００には、テキストデータが、段落毎に配置されている。さらに、各段落のテキストデータ（段落テキスと称する）は、テキストデータに対応する音声データの時間軸に沿って、すなわち時系列に沿って、議事録ページ５０００の上から下に順に配置されている。さらに、図５に示す例においては、話者Ａに対応するテキストデータＡ及び話者Ｂに対応するテキストデータＢは、それぞれページの左側及び右側に配置されている。
図４を参照しつつ説明した議事録生成処理において、話者Ａの発話に対応する段落テキスト５１０１が得られ、さらに対応する話者Ａの静止画データ５１１１が得られたとする。この場合、議事録生成部２２０は、Ｓ４０８（図４）の処理において、話者Ａに対応する段落テキスト５１０１を議事録ページ５０００の左側に配置する。さらに、議事録生成部２２０は、段落テキスト５１０１内で、「俳句」と発話した時刻（時間位置）でキャプチャされた話者Ａの静止画データ５１１１を段落テキスト５１０１の右側近傍に配置する。

次に、話者Ａの発話に対する話者Ｂの返答に対応する段落テキスト５２０１が得られ、対応する話者Ｂの静止画データ５２１１が得られたとする。この場合、議事録生成部２２０は、Ｓ４０８の処理において、話者Ｂに対応する段落テキスト５２０１を議事録ページ５０００の右側であって、且つ段落テキスト５１０１の下側の位置に配置する。さらに、議事録生成部２２０は、段落テキスト５２０１内で、「俳句」と発話した時刻（時間位置）でキャプチャされた話者Ｂの静止画データ５２１１を段落テキスト５２０１の左側近傍に配置する。
続いて、話者Ａの発話に対応する段落テキスト５１０２が得られたものの、段落テキスト５１０２内においては「俳句」の発話が存在せず、段落テキスト５１０２に対応する静止画データが得られなかったとする。この場合、議事録生成部２２０は、Ｓ４０９の処理において、話者Ａに対応する段落テキスト５１０２を議事録ページ５０００の左側であって、且つ段落テキスト５２０１の下側の位置に配置する。なお、話者Ａの静止画データは存在しないため、段落テキスト５１０２に対応する静止画データは、議事録ページ５０００上にレイアウトされない。

続いて、話者Ｂが発話した段落テキスト５２０２が得られ、対応する話者Ｂの静止画データ５２１２が得られたとする。この場合、議事録生成部２２０は、Ｓ４０８の処理において、話者Ｂに対応する段落テキスト５２０２を議事録ページ５０００の右側であって、且つ段落テキスト５１０２の下側の位置に配置する。さらに、議事録生成部２２０は、段落テキスト５２０２内で、「俳句」と発話した時刻（時間位置）でキャプチャされた話者Ｂの静止画データ５２１２を段落テキスト５２０２の左側近傍に配置する。以上の処理を経て、本実施形態の議事録生成システムは、図５に例示されるような議事録ページ５０００に対応する文書ファイルを生成することができる。
図５に示す議事録ページ５０００においては、テキストデータが対応する発話の時系列に沿って配置されている。したがって、閲覧者は、対談等におけるすべての発話内容を確認することができる。さらに、テキストデータは、段落単位で表示されている。したがって、閲覧者は、対談の概略を容易に確認することができる。また、各段落テキストには、段落テキストにおける特徴的な静止画データが付与されている。したがって、閲覧者は、対談の様子を視覚的に把握することができる。さらに、テキストデータは話者毎に異なる位置に配置されている。したがって、閲覧者は、各段落テキストがいずれの話者による発話内容かを容易に把握することができる。

＜第２の実施形態＞
次に、第２の実施形態にかかる議事録生成システムについて説明する。第１の実施形態にかかる議事録生成システムは、音声認識により得られたすべての単語に対し、タイムコードを付加する。これに対し、第２の実施形態にかかる議事録生成装置は、テキストデータのうち、キーワード検索により検出されたキーワードに対してタイムコードを付与する。これにより、ワークメモリを節約することができる。
図６は、第２の実施形態にかかる議事録生成システムのコンピュータの機能構成を示す図である。議事録生成システムは、第１コンテンツ生成部６００、第２コンテンツ生成部６１０及び議事録生成部６２０を有している。
第１コンテンツ生成部６００において、音声データは、音声認識部６０１に入力される。音声認識部６０１は、音声認識処理を実行し、テキストデータを、キーワード検索部２０２に出力する。キーワード検索部２０２は、検出されたキーワードをタイムコード付加部６０３に出力する。タイムコード付加部６０３は、キーワード及び段落の境界位置の単語に対し、タイムコードを付加する。

図７は、第２の実施形態にかかるコンテンツ生成処理を示すフローチャートである。第２の実施形態にかかるコンテンツ生成処理においては、Ｓ３１１において、音声認識部６０１は、音声認識によりテキストデータを生成する。続いて、Ｓ３１２において、音声認識部６０１は、音声認識により得られた文字列をテキストデータとして出力する。次に、Ｓ３１４において、キーワード検索部２０２は、Ｓ３１１において得られたテキストデータ（文字列）がキーワードを含むか否かを判定する。
Ｓ３１４において、文字列がキーワードを含む場合には（Ｓ３１４，Ｙｅｓ）、タイムコード付加部６０３は、Ｓ３２０の処理を行う。すなわち、Ｓ３２０において、タイムコード付加部６０３は、検出されたキーワードに対し、タイムコードを付加する。

さらに、Ｓ３１６の後、タイムコード付加部６０３は、Ｓ３２１の処理を行う。すなわち、Ｓ３２１において、タイムコード付加部６０３は、得られたテキストデータが段落の先頭又は最後尾の単語であるか否かを判定する。
ここで、話者Ａに対応するテキストデータを例に、段落の先頭及び最後尾の単語を特定する処理について説明する。タイムコード付加部６０３は、話者Ａの音声データにおける無音区間であって且つ話者Ｂの音声データの発話区間に対応する区間の直前の単語を段落の最後尾の単語として特定する。また、タイムコード付加部６０３は、話者Ａの音声データにおける無音区間であって且つ話者Ｂの音声データにおける発話区間に対応する区間の直後の単語を段落の先頭の単語として特定する。
なお、Ｓ３２１において、タイムコード付加部６０３は、段落の先頭及び最後尾の単語を特定する処理において、話者Ａの無音区間であるか否かのみを判定することとしてもよい。この場合には、タイムコード付加部６０３は、話者Ａの音声データのみを参照すればよく、話者Ｂの音声データの参照は不要である。

Ｓ３２１において、タイムコード付加部６０３は、段落の先頭又は最後尾と判定した場合（Ｓ３２１，Ｙｅｓ）、Ｓ３２２の処理を行う。Ｓ３２２において、タイムコード付加部６０３は、判定された単語、すなわちテキストデータに対し、タイムコードを付加する。なお、Ｓ３２１において段落の先頭及び最後尾のいずれとも判定されない場合には（Ｓ３２１，Ｎｏ）、第１コンテンツ生成部６００は、処理をＳ３０４に進める。
なお、第２コンテンツ生成部６１０も同様に、図７を参照しつつ説明したコンテンツ生成処理を行う。

第２の実施形態にかかる議事録生成処理は、図４を参照しつつ説明した第１の実施形態にかかる議事録生成処理とほぼ同様である。ただし、第２の実施形態にかかる議事録生成システムにおいては、コンテンツ生成処理において、段落の先頭及び最後尾の単語に対しタイムコードが付与されており、議事録生成部６２０は、これにより段落を特定することが可能である。したがって、第２の実施形態にかかる議事録生成処理においては、図４に示すＳ４０２の処理は省略することができる。
第２の実施形態にかかる議事録システムのこれ以外の構成及び処理は、第１の実施形態にかかる議事録システムの構成及び処理と同様である。

＜変更例＞
なお、実施形態にかかる議事録生成システムにおいては、テキストデータを段落単位に分割し、各段落テキストに対し、静止画データを割り当てた議事録ファイルを生成した。これに対し、他の例としては、テキストデータを段落に分割しなくともよい。例えば、議事録生成システムは、テキストデータを議事録ページの左側に配置し、キーワードに対応して得られた静止画データを、キーワードの右側近傍に配置するような、議事録ファイルを生成してもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、閲覧者にとって利便性の高い議事録データを生成することのできる装置を提供することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

Claims

音声認識処理により、音声データからテキストデータを生成する音声認識手段と、
前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、
前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、
前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、
前記テキストデータを段落単位に分割する分割手段と、
前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定手段と、
前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段と
を有し、
前記静止画データ抽出手段は、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とするデータ処理装置。
音声認識処理により、音声データからテキストデータを生成する音声認識手段と、
前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、
前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、
前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、
前記テキストデータの生成元の前記音声データの無音区間を特定する無音区間特定手段と、
前記無音区間に対応する前記テキストデータの位置を境界位置として、前記テキストデータを段落単位に分割する分割手段と、
前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段と
を有することを特徴とするデータ処理装置。
前記音声認識手段は、第１の音声データ及び第２の音声データそれぞれから第１のテキストデータ及び第２のテキストデータを生成し、
前記無音区間特定手段は、前記第１の音声データ及び前記第２の音声データそれぞれから前記無音区間を特定し、
前記分割手段は、前記第１の音声データの無音区間に対応し、且つ前記第２の音声データの無音区間に対応しない、前記第１のテキストデータの範囲を１つの段落として前記第１のテキストデータを分割することを特徴とする請求項２に記載のデータ処理装置。
前記無音区間特定手段は、無音状態が規定時間以上継続する場合に、前記無音状態が継続する区間を前記無音区間として特定することを特徴とする請求項２又は３に記載のデータ処理装置。
前記静止画データ抽出手段は、前記動画データのうち前記時間位置に対応付けられている静止画データを抽出することを特徴とする請求項１乃至４の何れか１項に記載のデータ処理装置。
前記分割手段は、前記テキストデータの生成元の前記音声データに基づいて、前記テキ
ストデータを前記段落単位に分割することを特徴とする請求項１乃至５の何れか１項に記載のデータ処理装置。
前記音声データと前記動画データとに関連する文書データを記憶する記憶手段と、
前記文書データに基づいて前記キーワードを決定するキーワード決定手段と
をさらに有し、
前記キーワード検索手段は、前記キーワード決定手段により決定された前記キーワードを検索することを特徴とする請求項１乃至６の何れか１項に記載のデータ処理装置。
音声認識手段が、音声認識処理により、音声データからテキストデータを生成する音声認識ステップと、
キーワード検索手段が、前記テキストデータにおいて、キーワードを検索するキーワード検索ステップと、
時間位置特定手段が、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定ステップと、
静止画データ抽出手段が、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出ステップと、
分割手段が、前記テキストデータを段落単位に分割する分割ステップと、
時間範囲特定手段が、前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定ステップと、
文書データ生成手段が、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成ステップと
を含み、
前記静止画データ抽出ステップにおいては、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とするデータ処理方法。
音声認識手段が、音声認識処理により、音声データからテキストデータを生成する音声認識ステップと、
キーワード検索手段が、前記テキストデータにおいて、キーワードを検索するキーワード検索ステップと、
時間位置特定手段が、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定ステップと、
静止画データ抽出手段が、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出ステップと、
無音区間特定手段が、前記テキストデータの生成元の前記音声データの無音区間を特定する無音区間特定ステップと、
分割手段が、前記無音区間に対応する前記テキストデータの位置を境界位置として、前記テキストデータを段落単位に分割する分割ステップと、
文書データ生成手段が、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成ステップと
を含むことを特徴とするデータ処理方法。
コンピュータを、請求項１乃至７の何れか１項に記載の各手段として機能させるためのプログラム。