JP6095381B2 - データ処理装置、データ処理方法及びプログラム - Google Patents

データ処理装置、データ処理方法及びプログラム Download PDF

Info

Publication number
JP6095381B2
JP6095381B2 JP2013012464A JP2013012464A JP6095381B2 JP 6095381 B2 JP6095381 B2 JP 6095381B2 JP 2013012464 A JP2013012464 A JP 2013012464A JP 2013012464 A JP2013012464 A JP 2013012464A JP 6095381 B2 JP6095381 B2 JP 6095381B2
Authority
JP
Japan
Prior art keywords
data
image data
still image
text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013012464A
Other languages
English (en)
Other versions
JP2014146066A5 (ja
JP2014146066A (ja
Inventor
雅仁 山▲崎▼
雅仁 山▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013012464A priority Critical patent/JP6095381B2/ja
Publication of JP2014146066A publication Critical patent/JP2014146066A/ja
Publication of JP2014146066A5 publication Critical patent/JP2014146066A5/ja
Application granted granted Critical
Publication of JP6095381B2 publication Critical patent/JP6095381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声データ及び動画データを処理する技術に関する。
従来、講演や対談、会議等の様子や発話内容を録画した動画データに対し、議事録のテキストデータを字幕として挿入することにより、議事録データを生成する技術が知られている。講演等に参加できなかった者に、議事録データを視聴閲覧させることにより講演内容等をわかりやすく且つ正確に伝えることができる。
しかしながら、議事録データは動画データであるため、閲覧者は、発話内容をすべて把握するためには、動画データ全体を視聴閲覧しなければならない。このため、閲覧者の時間を拘束してしまう。これに対し、動画データに対してキーワード毎にタイムコードを関係付け、キーワードを用いた動画データの頭出しを行う技術も知られている。しかし、この技術では、閲覧者は、要点を短時間で視聴することはできるものの、発話内容の全体を把握することはできない。
一方、講演等において録音された音声データを入力とし、テキストデータを議事録文書として自動生成するシステムが実用化されている。このような、テキストデータの議事録文書であれば、閲覧者は自分のペースで読み進めることができる。このため、閲覧者自身の判断で、流し読みや部分的な読み直しが可能である。したがって、閲覧者の拘束時間を低減しつつ、閲覧者は発話内容全体を把握することができる。
また、テキストデータからなる議事録に対し、講演等の様子を示す写真等を挿入した議事録文書も知られている。さらに、テキストデータを用いて、電子文書を生成する技術も知られている。例えば特許文献1には、予め用意された複数の静止画の中から、テキストデータに関係の深い静止画像を選択し、テキストデータと静止画とをユーザに提示する装置が開示されている。
特開2008−46951号公報
しかしながら、従来の議事録文書への写真等の挿入は、編集者による手作業により行われており、作業効率が悪いという問題があった。また、上述の自動議事録生成システムにおいては、テキストデータは生成できるものの、話題に即した静止画等をテキストデータに対して付加することができない
本発明はこのような問題点に鑑みなされたもので、閲覧者にとって利便性の高いデータを提示することを目的とする。
そこで、本発明は、音声認識処理により、音声データからテキストデータを生成する音声認識手段と、前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、前記テキストデータを段落単位に分割する分割手段と、前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定手段と、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段とを有し、前記静止画データ抽出手段は、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とする。
本発明によれば、閲覧者にとって利便性の高いデータを提示することができる。
議事録生成システムを示す図である。 議事録生成システムを示す図である。 コンテンツ生成処理を示すフローチャートである。 議事録生成処理を示すフローチャートである。 議事録ページの一例を示す図である。 第1の実施形態にかかる議事録生成システムを示す図である。 第2の実施形態にかかるコンテンツ生成処理を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
<第1の実施形態>
図1は、議事録生成システムのハードウェア構成を示す図である。議事録生成システムは、会議等における音声データ及び動画データを取得する。そして、議事録生成システムは、取得した音声データ及び動画データに基づいて、会議等の議事録ファイルを生成する。ここで、議事録ファイルは、文書データの一例である。
議事録生成システムは、コンピュータ100、ディスプレイ装置110、キーボード120、マウス121を有している。さらに、本実施形態においては、2人の話者(話者A及び話者B)による対談の議事録を生成する。2人の話者に対応し、議事録生成システムは、2つのカメラユニット130,131と、2つのマイクユニット140,141とをさらに有している。
ディスプレイ装置110、キーボード120、マウス121、カメラユニット130,131及びマイクユニット140,141は、いずれもコンピュータ100に接続されている。なお、コンピュータ100は、必要に応じて、外部ネットワーク150に接続されてもよい。なお、コンピュータ100は、文書データ生成装置の一例である。
コンピュータ100は、CPU101、RAM102、ROM103及びHDD104を有している。コンピュータ100は、さらにビデオインタフェース(I/F)105、ネットワークインタフェース(I/F)106、USBインタフェース(I/F)107及びこれらを繋ぐシステムバス108を有している。
CPU101は、コンピュータ100を制御するための中央処理装置である。RAM102は、CPU101が動作するためのシステムワークメモリである。ROM103は、BIOS ROMである。ROM103は、コンピュータの起動プログラムと起動設定値を格納している。HDD104は、ハードディスクドライブである。HDD104は、コンピュータ100を制御するオペレーティングシステム、議事録生成処理を行うプログラムや、一時記録データを格納している。
なお、後述するコンピュータ100の機能や処理は、CPU101がROM103又はHDD104に格納されている議事録生成プログラムを読み出し、このプログラムを実行することにより実現されるものである。
ビデオI/F105は、ディスプレイ装置110と接続され、コンピュータ100の画面表示制御を行う。ネットワークI/F106は、外部ネットワーク150に接続して外部装置との間で議事録ファイルや各種情報の入出力を行う。USBI/F107は、シリアル通信インタフェースである。USBI/F107は、USBホスト機能及びUSBハブ機能を備えている。これにより、USBI/F107は、複数のUSBデバイスを接続することができる。以上のユニットがシステムバス108上に配置されている。
キーボード120及びマウス121は、ユーザインタフェースとして機能するUSBデバイスである。キーボード120及びマウス121は、ユーザからの動作指示を受け付け、USBデバイスインタフェース経由で動作指示をコンピュータ100に伝達する。
カメラユニット130,131は、図示せぬ光学レンズ、光電変換素子、A/Dコンバータ、符号化装置及びUSBデバイスインタフェースなどを有している。光学レンズを通って光電変換素子上に結像した画像は、A/Dコンバータによりデジタル画像信号に変換される。その後、符号化装置は、デジタル画像信号を所定の画像データフォーマットに変換した後、USBデバイスインタフェース経由で出力する。
マイクユニット140,141は、図示せぬマイク素子、A/Dコンバータ、符号化装置及びUSBデバイスインタフェースなどを有している。マイク素子は、空気振動である音声を電気信号化する。A/Dコンバータは、電気信号をデジタル音声信号に変換する。その後、符号化装置は、デジタル音声信号を所定の音声データフォーマットに変換した後、USBデバイスインタフェース経由で出力する。
議事録生成システムによる処理の前提として、話者Aには、カメラユニット130及びマイクユニット140が向けられてセットされている。また、話者Bには、カメラユニット131及びマイクユニット141が向けられてセットされている。カメラユニット130及びマイクユニット140は、それぞれ話者Aの動画データの収集及び話者Aの発話した音声データの収集を行う。同様に、カメラユニット131及びマイクユニット141は、それぞれ話者Bの動画データの収集及び話者Bの発話した音声データの収集を行う。
カメラユニット130,131により得られた動画データは、動画ストリームとして、USBI/F107経由でコンピュータ100に取り込まれる。コンピュータ100に取り込まれた動画データは、時間を表すタイムコードが付与された形式で、HDD104に蓄積される。マイクユニット140,141により得られた音声データは、音声ストリームとして、USBI/F107経由でコンピュータ100に取り込まれる。
なお、議事録生成システムが有するカメラユニット及びマイクユニットの数は、実施形態に限定されるものではなく、話者の数に応じて任意に変更することができる。すなわち、カメラユニット及びマイクユニットの数は、1つでもよく、3つ以上であってもよい。また、他の例としては、議事録生成システムは、2人以上の話者に対し、1つのカメラユニット及び1つのマイクユニットを割り当ててもよい。
図2は、コンピュータ100の機能構成を示す図である。議事録生成システムは、第1コンテンツ生成部200、第2コンテンツ生成部210及び議事録生成部220を有している。第1コンテンツ生成部200は、話者Aから得られた音声データ及び動画データに基づいて、文書データに含めるコンテンツを生成する。第2コンテンツ生成部210は、話者Bから得られた音声データ及び動画データに基づいて、文書データに含めるコンテンツを生成する。
話者Aと話者Bによる対談が開始されると、マイクユニット140,141及びカメラユニット130,131はそれぞれ音声データ及び動画データの出力を開始する。マイクユニット140,141及びカメラユニット130,131が動作を開始すると、第1コンテンツ生成部200は、マイクユニット140及びカメラユニット130からそれぞれ話者Aの音声データ及び動画データのストリーミングを行う。同様に、第2コンテンツ生成部210は、マイクユニット141及びカメラユニット131から話者Bの音声データ及び動画データのストリーミングを行う。
第1コンテンツ生成部200において、音声データは、音声認識及びタイムコード付加部201に入力される。音声認識及びタイムコード付加部201は、音声データに対する音声認識処理を実行する。これにより、テキストデータAが生成され、出力される。音声認識処理及びタイムコード付加部201はまた、得られたテキストデータに対し、タイムコードを付加する。
ここで、タイムコードは、テキストデータに対応する音声データの時間軸上の位置を示す情報である。例えば、時間t1に対応する音声データからテキストデータ「たんご」が得られた場合に、テキストデータ「たんご」には、時間t1を示すタイムコードが付加される。
キーワード検索部202は、音声認識及びタイムコード付加部201により得られたテキストデータにおいて、キーワードを検索する。静止画データ抽出部203は、テキストデータからキーワードが検出されると、検出されたキーワードに付加されているタイムコードに基づいて、動画データから静止画データを抽出する。
動画データ204は、ストリーミングされた動画データを格納する。なお、動画データ204に格納されている動画データは、議事録生成部220に出力される。以上の処理により、第1コンテンツ生成部200は、話者Aに対するテキストデータ、静止画データ及び動画データを議事録生成部220に出力する。
第2コンテンツ生成部210は、第1コンテンツ生成部200と同様の処理により、話者Bに対するテキストデータ及び静止画データを生成する。第2コンテンツ生成部210はさらに、話者Bに対するテキストデータ、静止画データ及び動画データを議事録生成部220に出力する。第2コンテンツ生成部210の構成及び処理は、第1コンテンツ生成部200の構成及び処理と同様であるため、説明を省略する。
議事録生成部220には、第1コンテンツ生成部200及び第2コンテンツ生成部210からテキストデータ、静止画データ及び動画データが入力される。議事録生成部220にはさらに、マイクユニット140,141から音声データが入力される。議事録生成部220は、入力されたデータに基づいて、文書データとしての議事録ファイルを生成する。
図3は、議事録生成システムによるコンテンツ生成処理を示すフローチャートである。議事録生成システムは、音声データ及び動画データのストリーミングに先立ち、キーワードの読み込みを行う。なお、前提として、これからストリーミングを行う音声データと動画データとに関連する文書データがHDD104等の記憶部に格納されている。本実施形態においては、対談の議題等が記載された文書ファイルが文書データとしてHDD104に格納されているものとする。
そして、S301において、第1コンテンツ生成部200は、記憶部に格納されている文書ファイルに基づいてキーワードを決定する(キーワード決定処理)。より具体的には、第1コンテンツ生成部200は、文書ファイル内から、文書タイトルや見出しとして設定されている文字列、強調表示指定されている文字列等を抽出する。
例えば、文書ファイルがHTML形式である場合には、<TITLE>タグでマークアップされた文字列がタイトルとして抽出され、<H1>、<H2>、<H3>等の見出しタグでマークアップされた文字列が見出しとして抽出される。また<EM>、<STRONG>の強調タグでマークアップされた文字列が強調表示部として抽出される。抽出された文字列は、図2に示すキーワード検索部202にて、キーワードとして利用される。なお、キーワードは、1つでもよく複数でもよい。
次に、S302において、第1コンテンツ生成部200は、キーワード決定処理により決定されたキーワードを読み込む。次に、S303において、第1コンテンツ生成部200は、USBI/F107経由で音声データ及び動画データのストリーミングを開始する。次に、S304において、第1コンテンツ生成部200は、音声データのストリーミングの終了タイミングか否かを確認する。S305において、終了タイミングでない場合には(S304,No)、第1コンテンツ生成部200は、S311の処理を行う。
S311において、第1コンテンツ生成部200の音声認識及びタイムコード付加部201は、音声認識処理により、音声データからテキストデータを生成する(音声認識処理)。S311において、音声認識及びタイムコード付加部201は、より具体的には、「音響モデル」及び「認識辞書」を用いた音声認識処理により、発話者の発声内容を認識し、音声データを文字列に変換する。S312において、音声認識及びタイムコード付加部201は、音声認識により得られた文字列をテキストデータとして出力する。次に、S313において、音声認識及びタイムコード付加部201は、音声認識により得られた各単語に対し、タイムコードを付加する。
次に、S314において、第1コンテンツ生成部200のキーワード検索部202は、S311において得られた文字列がキーワードを含むか否かを判定する(キーワード検索処理)。S314において、文字列がキーワードを含まない場合には(S314,No)、第1コンテンツ生成部200は、S304に処理を進める。
S314において、文字列がキーワードを含む場合には(S314,Yes)、静止画データ抽出部203は、S315の処理を行う。S315において、静止画データ抽出部203は、キーワードを含むと判定された文字列、すなわち検出されたキーワードに対応付けられているタイムコードを、時間位置として特定する(時間位置特定処理)。ここで、時間位置とは、検出されたキーワードに対応する音声データ中の時間軸方向における位置である。
S315において、静止画データ抽出部203はさらに、時間位置の動画データを読み込む。次に、S316において、静止画データ抽出部203は、時間位置の動画データから静止画データをキャプチャする。静止画データ抽出部203は、さらに得られた静止画データに時間位置を示すタイムコードを付加し、タイムコード付き静止画フォーマットデータとして、静止画データを議事録生成部220に出力する。S315及びS316の処理は、時間位置に基づいて静止画データを抽出する静止画データ抽出処理の一例である。
なお、静止画データ抽出部203は、時間位置に基づいて、静止画データを抽出すればよく、例えば、時間位置近傍の位置の静止画データをキャプチャしてもよい。
なお、図3を参照しつつ、第1コンテンツ生成部200によるコンテンツ生成処理について説明したが、第2コンテンツ生成部210も、第1コンテンツ生成部200と同様のコンテンツ生成処理を行う。
図4は、議事録生成部220による、文書データ生成処理としての議事録生成処理を示すフローチャートである。議事録生成処理において、議事録生成部220は、テキストデータから検出されたキーワードに対応する位置に、静止画データを配置した議事録ファイルを生成する。S401において、議事録生成部220は、第1コンテンツ生成部200及び第2コンテンツ生成部210それぞれから入力されたテキストデータ及び静止画データを取得する。議事録生成部220はさらに、マイクユニット140,141から音声データを取得する。なお、議事録生成部220は、第1コンテンツ生成部200及び第2コンテンツ生成部210から音声データを取得してもよい。
次に、S402において、議事録生成部220は、S401において取得した音声データに基づいて、テキストデータを段落単位に分割する(分割処理)。S402において、議事録生成部220はさらに段落単位のテキストデータをHDD104等の記憶部に格納する。
ここで、テキストデータを段落単位に分割する分割処理について説明する。議事録生成部220は、まずテキストデータの生成元の音声データの無音区間を特定する(無音区間特定処理)。ここで、無音区間とは発話のない時間範囲のことである。なお、無音か有音かの判定については、従来技術を用いればよい。例えば、議事録生成部220は、音声データのレベルが閾値以上か否かに基づいて無音か否かを判定する。そして、議事録生成部220は、無音状態が規定時間以上継続する場合に、無音状態が継続する区間を無音区間と特定する。ここで、規定時間は、議事録生成部220に予め設定されているものとする。
議事録生成部220は、マイクユニット140において得られた話者Aに対する音声データ(以下、音声データAと称する)の無音区間及びマイクユニット141において得られた話者Bに対する音声データ(以下、音声データBと称する)の無音区間を特定する。
そして、議事録生成部220は、音声データA(第1の音声データ)の無音区間に対応するテキストデータA(第1のテキストデータ)中の位置を境界位置として、音声データAに対応するテキストデータAを段落単位に分割する。より詳しくは、議事録生成部220は、音声データAの無音区間であるだけでなく、音声データB(第2の音声データ)の発話区間に対応するテキストデータA中の位置を境界位置として決定する。
同様に、議事録生成部220は、音声データBの無音区間に対応するテキストデータB(第2のテキストデータ)中の位置を境界位置として、音声データBに対応するテキストデータBを段落単位に分割する。より詳しくは、議事録生成部220は、テキストデータAと同様に、議事録生成部220は、音声データBの無音区間であって、且つ音声データAの発話区間となる区間に対応するテキストデータB中の位置を境界位置として決定する。
3人以上の話者に対応し、コンピュータ100に3つの音声データが入力される場合もある。この場合に、議事録生成部220は、以下の通り一の音声データに対応する一のテキストデータの位置を境界位置として決定する。すなわち、議事録生成部220は、一の音声データの無音区間であって、且つ他のいずれかの音声データの発話区間に対応する位置を、第1のテキストデータの中の位置を境界位置として決定する。
なお、テキストデータを段落単位に分割する処理は、実施形態に限定されるものではない。例えば、コンピュータ100は、複数の話者の発話を含む音声データを入力とする場合には、話者毎の音声データの周波数の違いに基づいて、テキストデータの境界位置を特定してもよい。このように、コンピュータ100は、音声データに基づいて段落単位に分割すればよい。
また他の例としては、コンピュータ100は、テキストデータに基づいて、段落単位に分割してもよい。例えば、コンピュータ100は、テキストデータに含まれる頻出単語等に基づいて文脈を解析し、解析結果に基づいて、テキストデータを段落単位に分割してもよい。
次に、S403において、議事録生成部220は、1段落分のテキストデータを読み込む。次に、S404において、議事録生成部220は、1段落分のテキストデータのタイムコードから、段落に対応する動画データの時間範囲を特定する(時間範囲特定処理)。より具体的には、議事録生成部220は、段落の始点及び終点のタイムコードを取得し、始点から終点までの範囲を時間範囲として特定する。
次に、S405において、議事録生成部220は、図3を参照しつつ説明したコンテンツ生成処理のS316の処理において出力された静止画データの中から、S404において特定された時間範囲内のタイムコードが付加されている静止画データを取得する。
次に、S406において、議事録生成部220は、S405において複数の静止画データを取得したか否かを判定する。議事録生成部220は、複数の静止画データを取得したと判定しない場合には(S406,No)、S407の処理を行う。
S407において、議事録生成部220は、1つの静止画データを取得したか否かを判定する。1つの静止画データを取得した場合には(S407,Yes)、議事録生成部220は、S408の処理を行う。なお、1つの静止画データを取得したことは、1つの段落内において、キーワードが1回のみ発話されたことを意味する。
S408において、議事録生成部220は、S403において読み込んだ段落のテキストデータと、1つの静止画データとを議事録ページ中の近接位置にレイアウトする。ここで、議事録ページとは、テキストデータと静止画データとを表示する文書データである。より具体的には、議事録生成部220は、1つの静止画データを、対応するキーワードが含まれる段落のテキストデータに対応する位置に配置する。なお、このとき、タイムコードはレイアウトに含めない。
次に、S420において、議事録生成部220は、S402において格納したすべての段落をS403において読み出したか否かを判定する。未処理の段落が存在する場合にはS420,Yes)、議事録生成部220は、S403〜S409の処理を繰り返す。S420の処理により、議事録生成部220は、すべての段落のテキストデータが、議事録ファイル上にレイアウトされるまで処理を繰り返す。
一方、S407において、議事録生成部220は、静止画データを取得しないと判定した場合には(S407,No)、S409の処理を行う。S409において、議事録生成部220は、S403において読み込んだ段落のテキストデータを文書データに配置する。なお、S407において静止画データを取得していないので、S409においては、議事録生成部220は、静止画データの配置処理は行わない。
また、S406において、複数の静止画データを取得したと判定した場合には(S406,Yes)、議事録生成部220は、S411の処理を行う。なお、複数の静止画データを取得したことは、1つの段落内において、複数回キーワードが発話されたことを意味している。この場合には、S411〜414において、段落に対応付けるべき静止画データを新たに抽出する。
S411において、議事録生成部220は、S405において取得した静止画データを破棄する。次に、S412において、議事録生成部220は、段落に対応する時間範囲の動画データを読み込む。なお、S412において読み込む動画データは、S403において読み込んだテキストデータに対応するデータとする。例えば、S403において、話者Aに対するテキストデータを読み込んだ場合には、S412において、議事録生成部220は、話者Aに対する動画データを読み込む。また、S403において、話者Bに対するテキストデータを読み込んだ場合には、S412において、議事録生成部220は、話者Bに対する動画データを読み込む。
次に、S413において、議事録生成部220は、動画データの画像特徴量の変化量(画像変化量)を計測する。ここで、画像特徴量としては、例えば画素の値や、エッジ領域の位置などが挙げられる。また、画像変化量とは、画像特徴量の時間軸方向における変化量である。すなわち、画像変化量とは、時間経過に伴う、動画データ中の静止画データの画像特徴量の変化量である。
撮影されている話者の動作が大きい瞬間が、その段落内で話者が力説している瞬間と考えられる。そこで、S414において、議事録生成部220は、対象となる時間範囲の動画データから、画像変化量が最大となるフレームの直後のフレームを特定する。そして、議事録生成部220は、画像変化量が最大となるフレームの直後の1フレームを静止画データとしてキャプチャする。
なお、S414においてキャプチャされるフレームは、画像変化量が最大となるフレームの直後のフレームに限定されるものではない。議事録生成部220は、画像変化量に基づいて、適切なフレームを選択すればよい。議事録生成部220は、画像変化量が最大となるフレームをキャプチャ対象として選択してもよい。
このように、S414において、議事録生成部220は、時間位置を含む時間範囲の動画データから静止画データを得る。すなわち、議事録生成部220は、時間位置に基づいて、静止画データを抽出する。すなわち、S414の処理は、静止画データ抽出処理の一例である。
S414の処理に続き、議事録生成部220は、S408の処理を行う。すなわち、S408において、議事録生成部220は、S403において読み込んだ段落のテキストデータと、S414において得られた静止画データとを議事録ファイルにおいて対応する位置、より具体的には近接する位置にレイアウトする。ここで、近接位置とは、静止画データとテキストデータとの間の距離が閾値以下となるような位置である。本実施の形態にかかる議事録生成部220は、このように対応するテキストデータと静止画データとを近接位置に配置する。したがって、閲覧者は、テキストデータと静止画の対応関係を容易に把握することができる。
続いて、議事録生成部220は、処理をS420へ進める。S408又はS409の処理において、すべての段落のテキストデータがレイアウトされることにより、文書データとしての議事録ファイルが生成される。
図5は、議事録ファイル生成処理により生成される議事録ファイルにより表示される議事録ページの一例を示す図である。図5に示す議事録ページ5000は、「俳句」というキーワードを含む対談により得られたものである。さらに、図5に示す議事録ページ5000には、テキストデータが、段落毎に配置されている。さらに、各段落のテキストデータ(段落テキスと称する)は、テキストデータに対応する音声データの時間軸に沿って、すなわち時系列に沿って、議事録ページ5000の上から下に順に配置されている。さらに、図5に示す例においては、話者Aに対応するテキストデータA及び話者Bに対応するテキストデータBは、それぞれページの左側及び右側に配置されている。
図4を参照しつつ説明した議事録生成処理において、話者Aの発話に対応する段落テキスト5101が得られ、さらに対応する話者Aの静止画データ5111が得られたとする。この場合、議事録生成部220は、S408(図4)の処理において、話者Aに対応する段落テキスト5101を議事録ページ5000の左側に配置する。さらに、議事録生成部220は、段落テキスト5101内で、「俳句」と発話した時刻(時間位置)でキャプチャされた話者Aの静止画データ5111を段落テキスト5101の右側近傍に配置する。
次に、話者Aの発話に対する話者Bの返答に対応する段落テキスト5201が得られ、対応する話者Bの静止画データ5211が得られたとする。この場合、議事録生成部220は、S408の処理において、話者Bに対応する段落テキスト5201を議事録ページ5000の右側であって、且つ段落テキスト5101の下側の位置に配置する。さらに、議事録生成部220は、段落テキスト5201内で、「俳句」と発話した時刻(時間位置)でキャプチャされた話者Bの静止画データ5211を段落テキスト5201の左側近傍に配置する。
続いて、話者Aの発話に対応する段落テキスト5102が得られたものの、段落テキスト5102内においては「俳句」の発話が存在せず、段落テキスト5102に対応する静止画データが得られなかったとする。この場合、議事録生成部220は、S409の処理において、話者Aに対応する段落テキスト5102を議事録ページ5000の左側であって、且つ段落テキスト5201の下側の位置に配置する。なお、話者Aの静止画データは存在しないため、段落テキスト5102に対応する静止画データは、議事録ページ5000上にレイアウトされない。
続いて、話者Bが発話した段落テキスト5202が得られ、対応する話者Bの静止画データ5212が得られたとする。この場合、議事録生成部220は、S408の処理において、話者Bに対応する段落テキスト5202を議事録ページ5000の右側であって、且つ段落テキスト5102の下側の位置に配置する。さらに、議事録生成部220は、段落テキスト5202内で、「俳句」と発話した時刻(時間位置)でキャプチャされた話者Bの静止画データ5212を段落テキスト5202の左側近傍に配置する。以上の処理を経て、本実施形態の議事録生成システムは、図5に例示されるような議事録ページ5000に対応する文書ファイルを生成することができる。
図5に示す議事録ページ5000においては、テキストデータが対応する発話の時系列に沿って配置されている。したがって、閲覧者は、対談等におけるすべての発話内容を確認することができる。さらに、テキストデータは、段落単位で表示されている。したがって、閲覧者は、対談の概略を容易に確認することができる。また、各段落テキストには、段落テキストにおける特徴的な静止画データが付与されている。したがって、閲覧者は、対談の様子を視覚的に把握することができる。さらに、テキストデータは話者毎に異なる位置に配置されている。したがって、閲覧者は、各段落テキストがいずれの話者による発話内容かを容易に把握することができる。
<第2の実施形態>
次に、第2の実施形態にかかる議事録生成システムについて説明する。第1の実施形態にかかる議事録生成システムは、音声認識により得られたすべての単語に対し、タイムコードを付加する。これに対し、第2の実施形態にかかる議事録生成装置は、テキストデータのうち、キーワード検索により検出されたキーワードに対してタイムコードを付与する。これにより、ワークメモリを節約することができる。
図6は、第2の実施形態にかかる議事録生成システムのコンピュータの機能構成を示す図である。議事録生成システムは、第1コンテンツ生成部600、第2コンテンツ生成部610及び議事録生成部620を有している。
第1コンテンツ生成部600において、音声データは、音声認識部601に入力される。音声認識部601は、音声認識処理を実行し、テキストデータを、キーワード検索部202に出力する。キーワード検索部202は、検出されたキーワードをタイムコード付加部603に出力する。タイムコード付加部603は、キーワード及び段落の境界位置の単語に対し、タイムコードを付加する。
図7は、第2の実施形態にかかるコンテンツ生成処理を示すフローチャートである。第2の実施形態にかかるコンテンツ生成処理においては、S311において、音声認識部601は、音声認識によりテキストデータを生成する。続いて、S312において、音声認識部601は、音声認識により得られた文字列をテキストデータとして出力する。次に、S314において、キーワード検索部202は、S311において得られたテキストデータ(文字列)がキーワードを含むか否かを判定する。
S314において、文字列がキーワードを含む場合には(S314,Yes)、タイムコード付加部603は、S320の処理を行う。すなわち、S320において、タイムコード付加部603は、検出されたキーワードに対し、タイムコードを付加する。
さらに、S316の後、タイムコード付加部603は、S321の処理を行う。すなわち、S321において、タイムコード付加部603は、得られたテキストデータが段落の先頭又は最後尾の単語であるか否かを判定する。
ここで、話者Aに対応するテキストデータを例に、段落の先頭及び最後尾の単語を特定する処理について説明する。タイムコード付加部603は、話者Aの音声データにおける無音区間であって且つ話者Bの音声データの発話区間に対応する区間の直前の単語を段落の最後尾の単語として特定する。また、タイムコード付加部603は、話者Aの音声データにおける無音区間であって且つ話者Bの音声データにおける発話区間に対応する区間の直後の単語を段落の先頭の単語として特定する。
なお、S321において、タイムコード付加部603は、段落の先頭及び最後尾の単語を特定する処理において、話者Aの無音区間であるか否かのみを判定することとしてもよい。この場合には、タイムコード付加部603は、話者Aの音声データのみを参照すればよく、話者Bの音声データの参照は不要である。
S321において、タイムコード付加部603は、段落の先頭又は最後尾と判定した場合(S321,Yes)、S322の処理を行う。S322において、タイムコード付加部603は、判定された単語、すなわちテキストデータに対し、タイムコードを付加する。なお、S321において段落の先頭及び最後尾のいずれとも判定されない場合には(S321,No)、第1コンテンツ生成部600は、処理をS304に進める。
なお、第2コンテンツ生成部610も同様に、図7を参照しつつ説明したコンテンツ生成処理を行う。
第2の実施形態にかかる議事録生成処理は、図4を参照しつつ説明した第1の実施形態にかかる議事録生成処理とほぼ同様である。ただし、第2の実施形態にかかる議事録生成システムにおいては、コンテンツ生成処理において、段落の先頭及び最後尾の単語に対しタイムコードが付与されており、議事録生成部620は、これにより段落を特定することが可能である。したがって、第2の実施形態にかかる議事録生成処理においては、図4に示すS402の処理は省略することができる。
第2の実施形態にかかる議事録システムのこれ以外の構成及び処理は、第1の実施形態にかかる議事録システムの構成及び処理と同様である。
<変更例>
なお、実施形態にかかる議事録生成システムにおいては、テキストデータを段落単位に分割し、各段落テキストに対し、静止画データを割り当てた議事録ファイルを生成した。これに対し、他の例としては、テキストデータを段落に分割しなくともよい。例えば、議事録生成システムは、テキストデータを議事録ページの左側に配置し、キーワードに対応して得られた静止画データを、キーワードの右側近傍に配置するような、議事録ファイルを生成してもよい。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、閲覧者にとって利便性の高い議事録データを生成することのできる装置を提供することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

Claims (10)

  1. 音声認識処理により、音声データからテキストデータを生成する音声認識手段と、
    前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、
    前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、
    前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、
    前記テキストデータを段落単位に分割する分割手段と、
    前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定手段と、
    前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段と
    を有し、
    前記静止画データ抽出手段は、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とするデータ処理装置。
  2. 音声認識処理により、音声データからテキストデータを生成する音声認識手段と、
    前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、
    前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、
    前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、
    前記テキストデータの生成元の前記音声データの無音区間を特定する無音区間特定手段と、
    記無音区間に対応する前記テキストデータの位置を境界位置として、前記テキストデータを段落単位に分割する分割手段と、
    前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成手段と
    を有することを特徴とするデータ処理装置。
  3. 前記音声認識手段は、第1の音声データ及び第2の音声データそれぞれから第1のテキストデータ及び第2のテキストデータを生成し、
    前記無音区間特定手段は、前記第1の音声データ及び前記第2の音声データそれぞれから前記無音区間を特定し、
    前記分割手段は、前記第1の音声データの無音区間に対応し、且つ前記第2の音声データの無音区間に対応しない、前記第1のテキストデータの範囲を1つの段落として前記第1のテキストデータを分割することを特徴とする請求項に記載のデータ処理装置。
  4. 前記無音区間特定手段は、無音状態が規定時間以上継続する場合に、前記無音状態が継続する区間を前記無音区間として特定することを特徴とする請求項又はに記載のデータ処理装置。
  5. 前記静止画データ抽出手段は、前記動画データのうち前記時間位置に対応付けられている静止画データを抽出することを特徴とする請求項1乃至4の何れか1項に記載のデータ処理装置。
  6. 前記分割手段は、前記テキストデータの生成元の前記音声データに基づいて、前記テキ
    ストデータを前記段落単位に分割することを特徴とする請求項1乃至5の何れか1項に記載のデータ処理装置。
  7. 前記音声データと前記動画データとに関連する文書データを記憶する記憶手段と、
    前記文書データに基づいて前記キーワードを決定するキーワード決定手段と
    をさらに有し、
    前記キーワード検索手段は、前記キーワード決定手段により決定された前記キーワードを検索することを特徴とする請求項乃至の何れか1項に記載のデータ処理装置。
  8. 音声認識手段が、音声認識処理により、音声データからテキストデータを生成する音声認識ステップと、
    キーワード検索手段が、前記テキストデータにおいて、キーワードを検索するキーワード検索ステップと、
    時間位置特定手段が、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定ステップと、
    静止画データ抽出手段が、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出ステップと、
    分割手段が、前記テキストデータを段落単位に分割する分割ステップと、
    時間範囲特定手段が、前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定ステップと、
    文書データ生成手段が、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成ステップと
    を含み、
    前記静止画データ抽出ステップにおいては、前記段落に対応する前記動画データの時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とするデータ処理方法。
  9. 音声認識手段が、音声認識処理により、音声データからテキストデータを生成する音声認識ステップと、
    キーワード検索手段が、前記テキストデータにおいて、キーワードを検索するキーワード検索ステップと、
    時間位置特定手段が、前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定ステップと、
    静止画データ抽出手段が、前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出ステップと、
    無音区間特定手段が、前記テキストデータの生成元の前記音声データの無音区間を特定する無音区間特定ステップと、
    分割手段が、前記無音区間に対応する前記テキストデータの位置を境界位置として、前記テキストデータを段落単位に分割する分割ステップと、
    文書データ生成手段が、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した文書データを生成する文書データ生成ステップと
    を含むことを特徴とするデータ処理方法。
  10. コンピュータを、請求項1乃至の何れか1項に記載の各手段として機能させるためのプログラム。
JP2013012464A 2013-01-25 2013-01-25 データ処理装置、データ処理方法及びプログラム Active JP6095381B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013012464A JP6095381B2 (ja) 2013-01-25 2013-01-25 データ処理装置、データ処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013012464A JP6095381B2 (ja) 2013-01-25 2013-01-25 データ処理装置、データ処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2014146066A JP2014146066A (ja) 2014-08-14
JP2014146066A5 JP2014146066A5 (ja) 2016-03-10
JP6095381B2 true JP6095381B2 (ja) 2017-03-15

Family

ID=51426311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013012464A Active JP6095381B2 (ja) 2013-01-25 2013-01-25 データ処理装置、データ処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6095381B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6374771B2 (ja) * 2014-11-19 2018-08-15 Kddi株式会社 ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法
JP6627315B2 (ja) * 2015-08-04 2020-01-08 コニカミノルタ株式会社 情報処理装置、情報処理方法、および制御プログラム
JP6897286B2 (ja) * 2016-07-11 2021-06-30 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
KR101856192B1 (ko) * 2016-10-06 2018-06-20 주식회사 카카오 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램
JP2019176375A (ja) * 2018-03-29 2019-10-10 株式会社アドバンスト・メディア 動画出力装置、動画出力方法および動画出力プログラム
JP6949075B2 (ja) * 2018-05-08 2021-10-13 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP7131075B2 (ja) * 2018-05-24 2022-09-06 富士フイルムビジネスイノベーション株式会社 検索処理装置およびプログラム
CN112270918A (zh) * 2020-10-22 2021-01-26 北京百度网讯科技有限公司 信息处理方法、装置、系统、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331760A (ja) * 1998-05-15 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像の要約方法および記憶媒体
JP3621686B2 (ja) * 2002-03-06 2005-02-16 日本電信電話株式会社 データ編集方法、データ編集装置、データ編集プログラム
JP2006333065A (ja) * 2005-05-26 2006-12-07 Fujifilm Holdings Corp 写真アルバム作成方法
JP2007150724A (ja) * 2005-11-28 2007-06-14 Toshiba Corp 映像視聴支援システムおよび方法
JP4920395B2 (ja) * 2006-12-12 2012-04-18 ヤフー株式会社 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP4873018B2 (ja) * 2009-01-09 2012-02-08 ソニー株式会社 データ処理装置、データ処理方法、及び、プログラム

Also Published As

Publication number Publication date
JP2014146066A (ja) 2014-08-14

Similar Documents

Publication Publication Date Title
JP6095381B2 (ja) データ処理装置、データ処理方法及びプログラム
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
CN111050201B (zh) 数据处理方法、装置、电子设备及存储介质
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
EP2816559A2 (en) Translation system comprising display apparatus and server and control method thereof
CN104065869A (zh) 在电子装置中与播放音频组合地显示图像的方法
JP2014106637A (ja) 情報処理装置および方法、並びにプログラム
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
EP3916538A1 (en) Creating a cinematic storytelling experience using network-addressable devices
JP2013046151A (ja) プロジェクタ、投影システム及び情報検索表示方法
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
CN114930867A (zh) 一种录屏方法、装置及计算机可读存储介质
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
KR101756836B1 (ko) 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
JP6801539B2 (ja) 情報処理システム、情報処理装置、情報処理プログラム及び情報処理方法
US8553855B2 (en) Conference support apparatus and conference support method
JP2012178028A (ja) アルバム作成装置、アルバム作成装置の制御方法、及びプログラム
JP2005346259A (ja) 情報処理装置及び情報処理方法
CN114930278A (zh) 一种录屏方法、装置及计算机可读存储介质
JP4235635B2 (ja) データ検索装置及びその制御方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170214

R151 Written notification of patent or utility model registration

Ref document number: 6095381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151