JP2014229075A

JP2014229075A - 文書情報に関連する音声情報を抽出するシステム

Info

Publication number: JP2014229075A
Application number: JP2013108255A
Authority: JP
Inventors: 秀和世渡; Hidekazu Seto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2014-12-08

Abstract

【課題】資料の背景となる情報を適切に紐づけ、後から容易に引き出せるようにする。【解決手段】会話が発生するたびにその録音を録音し、音声認識した結果からその会話のキーワードを抽出しておく。資料が編集されたら、その資料の編集箇所のキーワードと、その直前に行われた会話のキーワードの一致率と、会話時刻との時間差を基準にした関連度を算出し、関連度の高いものを背景情報として記録する。【選択図】図７

Description

本発明は、文書情報に関連する音声情報を抽出する技術に関する。

従来より、音声データとそれに関連する資料を紐づけて保存し、後から容易に引き出す事を可能とする技術がある。例えば特許文献１ではカメラ付き携帯電話によって会議の録音を行い、その最中に資料を撮影した場合、その資料と録音された音声データを紐づけて保存し、後から引き出せるようにしている。

特開２００４−３４３３９２

しかしながら、従来技術では録音された音声データと資料は、同じ時刻に見たり聞いたりしたものでない限り紐づけることはできない。すなわち、資料を見たり編集した時に（即ち、その編集日時に）、その資料に関連し、それ以前に録音された音声データを紐づけることはできない。

例えば何か資料を編集する時に、書く内容を誰かに相談しに行き、その結果を後で資料に反映させる事がある。この時、資料に詳細を省略した簡潔な結果だけを記したために後からその資料を見直した時に何故そういう結論に至ったのかの背景がわからなくなることがある。このような状況において、その資料から、その時行った相談内容を遡って知る事ができれば便利である。

本発明の課題は、資料の背景となる情報を適切に紐づけ、後から容易に引き出せるようにすることである。

上記課題を解決するための構成は、請求項に記載の通りである。

資料からそれを作成した時に利用した情報を引き出す事が容易となる。

システム構成を示す図である。ロガーの構成を示す図である。処理サーバーの構成を示す図である。ＰＣの構成を示す図である。会話情報取得のためのフローチャートを示す図である。会話データ登録のためのフローチャートを示す図である。背景情報関連付けのためのフローチャートを示す図である。会話データの例を示す図である。編集される資料の例を示す図である。背景情報引き出し画面の例を示す図である。ｔｆｉｄｆ値の計算例を示す図である。編集履歴データの例を示す図である。

以下、本発明を実施するための形態について図面を用いて説明する。

（実施例１）
＜実施例１のシステム構成＞
図１は実施例１のシステム構成を示す図である。本実施例のシステムは、ユーザー０００１が装着している情報記録装置（以後ロガー）０２００、ワイヤレスアクセスポイント０１００、処理サーバー０３００、情報端末（以後ＰＣ）０４００、ネットワーク９０００を有する。ロガー０２００とワイヤレスアクセスポイント０１００は無線通信を行い、ロガー０２００はワイヤレスアクセスポイント０１００を介して有線のネットワーク９０００と接続されている。処理サーバー０３００、ＰＣ０４００、ワイヤレスアクセスポイント０１００は有線のネットワーク９０００を介して接続されている。

＜ロガー＞
図２は本実施形態で用いるロガー０２００のハードウェアブロック図である。ロガー０２００は、コントローラー０２２０、カメラ０２０２、マイク０２０１、ジャイロスコープ０２１１を有する。

本実施形態で用いるロガー０２００はフレームで頭部に装着したり、ネックレスのように首からぶら下げたり、衣服にクリップ留めすることができるようになっている。ロガー０２００にはカメラ０２０２が取り付けられており、ユーザーの前方の光景を撮影することが可能である。またマイク０２０１が取り付けられており、装着者本人や近くにいる人の音声を記録する事ができる。

コントローラー０２２０の構成についてさらに説明する。

バッテリー０２０５は、電力をロガー０２００全体に供給する。Ｉ／Ｏコントローラー０２０９は、カメラ０２０２、マイク０２０１、ジャイロスコープ０２１１、加速度センサ０２１２との情報の送受信を行う。ＬＡＮＩ／Ｆ０２０３は、ネットワーク９０００を介して接続されている処理サーバー０３００などの他の機器とＣＰＵ０２０４との情報の送受信を行う。記憶装置０２１４は書き換え可能な記憶領域であり、ブートローダプログラム及びロガー制御プログラムが格納されている。また、カメラで撮影された映像やマイクから取得した音声など外部から取得したデータが格納される。メインメモリ０２０８は揮発性メモリであり、記憶装置０２１４に記憶されている情報や一時的に使用する情報が格納される。ロガー０２００の電源投入時には、ＣＰＵ０２０４が記憶装置０２１４からブートローダプログラムを読み出して実行し、記憶装置０２１４に格納されているロガー制御プログラムを取り出し、メインメモリ０２０８に格納する。そして、ＣＰＵ０２０４がメインメモリ０２０８に格納されているロガー制御プログラムを実行し、ロガー０２００の有する各機能を実行する。また、ＣＰＵ０２０４がこのロガー制御プログラムを実行することで、ロガー０２００の行う処理が実行される。

以上がコントローラー０２２０の構成についての説明である。

カメラ０２０２は撮影した光景をデジタル変換する。マイク０２０１は周囲の音声を取得し、デジタル変換する。ジャイロスコープ０２１１はロガー０２００にかかる角速度を検出する。加速度センサー０２１２はロガー０２００にかかる加速度を検出する。

＜処理サーバー＞
図３は本実施形態で用いる処理サーバーのハードウェアブロック図である。処理サーバー０３００はコントローラー０３２０を有する。

コントローラー０３２０の構成についてさらに説明する。

ＬＡＮＩ／Ｆ０３０４は、ＣＰＵ０３０５の要求に応じて、ネットワーク９０００を介して接続されている他の機器との情報の送受信を行う。

記憶装置０３１０にはブートローダプログラム、処理サーバー制御プログラム、社内の全データが格納されている。メインメモリ０３０８は揮発性メモリであり、記憶装置０３１０に記憶されている情報や一時的に使用する情報がここに格納される。処理サーバー０３００の電源投入時には、ＣＰＵ０３０５がブートローダプログラムを読み出して実行し、記憶装置０３１０に格納されている処理サーバー制御プログラムを取り出し、メインメモリ０３０８に格納する。そして、ＣＰＵ０３０５がメインメモリ０３０８に格納されている処理サーバー制御プログラムを実行し、処理サーバーの有する各機能を実行する。また、ＣＰＵ０３０５がこの処理サーバー制御プログラムを実行することで、処理サーバーの行う処理が実行される。

以上がコントローラー０３２０の構成についての説明である。

＜ＰＣ＞
図４は本実施形態で用いる処理サーバーのハードウェアブロック図である。ＰＣ０４００はコントローラー０４２０を有する。

コントローラー０４２０の構成についてさらに説明する。

Ｉ／Ｏコントローラー０４０９は、キーボード０４０２、マウス０４０１、スピーカー０４０４との情報の送受信を行う。グラフィックコントローラー０４１５はＣＰＵ０４０５からの命令に基づいてディスプレイ０４１１に表示するための画像データを生成する。

ＬＡＮＩ／Ｆ０４０３は、ＣＰＵ０４０５の要求に応じて、ネットワーク９０００を介して接続されている他の機器との情報の送受信を行う。記憶装置０４１０にはブートローダプログラム及びＰＣ制御プログラムが格納されている。また後述の処理によって、資料編集アプリケーションによって編集された資料が格納される。メインメモリ０４０８は揮発性メモリであり、記憶装置０４１０に記憶されている情報や一時的に使用する情報がここに格納される。ＰＣ０４００の電源投入時には、ＣＰＵ０４０５がブートローダプログラムを読み出して実行し、記憶装置０４１０に格納されているＰＣ制御プログラムを取り出し、メインメモリ０４０８に格納する。そして、ＣＰＵ０４０５がメインメモリ０４０８に格納されているＰＣ制御プログラムを実行し、ＰＣの有する各機能を実行する。また、ＣＰＵ０４０５がこのＰＣ制御プログラムを実行することで、ＰＣの行う処理が実行される。

キーボード０４０２及びマウス０４０１はユーザー０００１によるＰＣ操作全般や、資料編集のために必要な入力を受け付ける。スピーカー０４０４は音声を出力する。ディスプレイ０４１１は資料編集アプリケーションの画面やＰＣの操作用画面を表示する。

＜位置情報検出＞
ロガー０２００のＣＰＵ０４０５はジャイロスコープ０２１１や加速度センサ０２１２による測定データを用いてロガー０２００の位置情報を算出する。位置情報は建物のある場所を起点としたＸ，Ｙ，Ｚ座標を示す情報である。位置情報検出は、角速度の積分値から進行方向を推定し、加速度の変化パターンから歩行の検知を行って、一歩検出する毎に予め用意しておいた一歩辺りの歩行距離を前記進行方向に加算することによって行う。位置情報検出の具体的な方法はこれに限るものでなく、他の公知の技術を用いても良い。

ロガー０２００のＣＰＵ０４０５は常に位置情報検出を行い、位置情報が更新されるたびにサーバーにそのロガー０２００の位置情報とロガー０２００を装着しているユーザーのユーザーＩＤを送信する。ユーザーＩＤはユーザーによって予め入力された、そのユーザーを示す識別子である。処理サーバー０３００はユーザーＩＤ毎に位置情報を逐次保存する。これによりどのユーザーが現在どの場所にいるか、また過去の任意の時点においてどこにいたかを調べる事ができる。

＜会話情報取得＞
以下図５のフローチャートを用いて、ロガー０２００におけるユーザー同士の会話の録音処理と処理サーバー０３００へ送信処理について説明する。このフローはロガー０２００のＣＰＵ０２０４上で繰り返し実行される。

ステップＳ０７０１において、ロガー０２００のＣＰＵ０２０４はマイク０２０１による入力の音声レベル（音量）を調べ、それが所定以上の大きさになった場合、処理サーバー０３００に近傍にユーザーが存在するかを問い合わせる。問い合わせ時にはロガー０２００に予め設定されたユーザーＩＤを含む。処理サーバー０３００のＣＰＵ０３０５は問い合わせを受信し、全ユーザーの現在の位置情報を調べ、前記問い合わせ元のユーザーの現在位置との絶対的な距離を調べる。そして、その距離が所定以下のユーザーのユーザーＩＤのリストとして返送する。所定距離以内にユーザーがいない場合、リストは返送するリストは空となる。ロガー０２００のＣＰＵ０２０４は、サーバー０４００から返送されたデータを確認し、リストが空でない場合、すなわち近傍に他のユーザーが存在する場合、会話を開始したと判定し、返送されたユーザーＩＤをメインメモリ０２０８に記録する。会話が開始されたと判定したら、ステップＳ０７０２に移行し、そうでなければ処理を終了する。

ステップＳ０７０２において、ＣＰＵ０２０４はマイク０２０１による入力データを会話音声として記憶装置０２１４に格納することで録音を行う。

ステップＳ０７０３において、ロガー０２００のＣＰＵ０２０４は会話終了検出処理を行う。ＣＰＵ０２０４は定期的に処理サーバー０３００に対して会話相手の位置を問い合わせ、その応答によって得られる会話相手の位置と自分の位置から会話相手への距離を算出し、所定距離以上離れた場合会話は終了したと判定する。会話が終了判定したと判定したら、ステップＳ０７０４へ移行し、そうでなければＳ０７０２へ移行する。

ステップＳ０７０４において、ＣＰＵ０２０４はマイク０２０１による入力データの記憶装置０２１４への格納を終了し、記録された一連のデータを音声データとするための後処理を行う。

ステップＳ０７０５において、ＣＰＵ０２０４は、格納された音声データをネットワーク０９００を通じて処理サーバー０３００に送信する。またこの時自分のユーザーＩＤと会話相手のユーザーＩＤも会話参加者のユーザーＩＤとして併せて会話情報として送信する。

＜会話データ登録＞
以下図６のフローチャートを用いて、処理サーバー０３００上での会話データの登録処理について説明する。

ステップＳ０６０１において、処理サーバー０３００のＣＰＵ０３０５は前記会話情報を受信し、受信した会話参加者のユーザーＩＤをメインメモリ０３０８に記録し、受信した音声データをファイルとして記憶装置０３１０に記録する。

ステップＳ０６０２において、処理サーバー０３００のＣＰＵ０３０５は、ロガー０２００から受信した音声データを音声認識プログラムにかける事によって会話内に含まれる名詞をテキストデータとして抽出する。抽出するのは、登場する名詞のテキストデータと、登場する時刻である。音声認識プログラムは様々な公知技術があり、本発明においてその具体的な方法は問わない。なお、音声認識プログラムによっては、音声認識処理の一部を音声録音装置に行わせ、一部の音声情報のみを処理サーバーに送信させることで通信負荷を小さくするものがあり、これを利用しても良い。この場合前述のステップＳ０７０５において会話音声のかわりに前記一部の音声情報のみを送信することとなる。

ステップＳ０６０３において、ＣＰＵ０３０５は前記音声認識処理によって得られた名詞の一覧から、その会話に特徴的な語（特徴語）を抜き出すべく、キーワード抽出を行う。本発明においてキーワード抽出は一例としてｔｆｉｄｆ法を用いる。ｔｆｉｄｆ法は複数のテキストがあるとき、「他のテキストにはあまり登場せず、注目するテキストにはよく登場する単語」が高く評価されるような評価方法を用いたキーワード抽出方法である。
具体的にはあるテキストにおける単語のｔｆｉｄｆ値を下記式によって計算し、値が大きい単語をそのテキストにおけるキーワードとする。

ただし、ｔｆ_ｉ，ｊはテキストｊにおける単語ｉの登場回数、Ｎは全テキストの数、ｄｆ_ｉは単語ｉが登場するテキストの数である。

会話音声からキーワードを抽出する場合、ｔｆ_ｉ，ｊとしてその会話音声内での単語ｉの登場回数、Ｎとして社内の全会話数、ｄｆ_ｉとして社内の全会話のうち単語ｉが登場する会話の数としてｔｆｉｄｆ法を適用することで、会話のキーワードを抽出する。

処理サーバー０３００はこのようにして、受信した会話の音声認識結果と、過去に記録された会話の音声認識結果を利用することで、受信した会話のキーワードを抽出する。

なお、キーワード抽出方法は特徴語を抽出するものであればｔｆｉｄｆ法に限らず他のものを用いても良い。

ステップＳ０６０４において、ＣＰＵ０３０５はロガー０２００から受信した音声データのファイル名、会話参加者のユーザーＩＤ、会話時刻、及びキーワード抽出した結果のテキストデータを会話データとして記憶装置０３１０に記録する。会話時刻は会話が行われた時刻を示すもので、会話の開始時刻、終了時刻、中間の時刻などで、会話同士統一されていればどれを用いても良い。会話データは記憶装置０３１０上で、それを１行とするデータテーブル（会話データテーブル）として管理される。図８は会話データテーブルの例である。一行が一つの会話データを示す。

＜資料編集アプリケーション＞
ユーザーは資料（文書やプレゼン資料などの文書情報）を作成したい時に資料編集アプリケーションを使用する。ＰＣの０４００のＣＰＵ０４０５はユーザーからキーボード０４０２やマウス０４０１を通じて特定の入力がされたことに応じて資料編集アプリケーションの起動を開始する。

資料編集アプリケーションは資料編集機能を備えている。ＣＰＵ０４０５は資料編集アプリケーションによってキーボード０４０２やマウス０４０１からの特定の入力を、ユーザーより新規文書作成操作又は編集操作又は保存操作が行われたものとみなし、操作内容に応じた処理を行う。新規文書作成操作を受け付けた場合、特定の大きさ情報をもつ資料データを新規に作成する。資料データは複数のページに分けて編集を行う事ができる。編集操作を受け付けた場合、入力内容に応じて文字列、図形、ページを資料データに追加したり削除したりする。保存指示を受け付けた場合、編集中の資料データを一つのファイルとして記憶装置０４１０に記録する。

さらに資料編集アプリケーションには、編集履歴管理機能を備えている。編集履歴管理機能は、ユーザーによって行われた編集操作を記録するものである。ＣＰＵ０４０５は編集操作が行われる度に、編集時刻（編集日時）、編集された箇所（編集箇所）のページ番号、ページ内での位置座標、編集内容、編集のタイプ（追加又は削除）、関連する会話のＩＤを一つの編集履歴データとして記憶装置０４１０に記録する。編集履歴データは、記憶装置０４１０上で、それを一行とするデータテーブル（編集履歴データテーブル）として管理される。所定時間内の間隔の連続した文字列入力や、同一の図形内への文字列入力は一連の編集動作として、まとめて一つの編集履歴データとして記録される。編集履歴データテーブルは資料データの一部として格納される。関連する会話のＩＤは後述する背景情報関連付け処理によって記録される。

なお位置座標はＸ座標及びＹ座標を使って（Ｘ座標、Ｙ座標）のように示され、そのページの左上端を（０，０）とし、下に向かうほどＹ座標が大きく、右に向かうほどＸ座標が大きくなる。座標の単位はｍｍである。

図１２に、編集履歴データテーブルの例を示す。また、図９に資料編集アプリケーションの表示画面の例を示す。図９（ａ）は図１２の編集履歴データテーブルのデータのような操作がされた時の、２０１３／５／１１３：０５時点での２ページ目の状態である。また、図９（ｂ）は同じく、２０１３／５／１１３：３２時点での２ページ目の状態である。

なお、資料編集アプリケーションは、資料編集機能を備える市販のアプリケーションに、プラグイン形式で編集履歴管理機能を加えることによって実現しても良い。

＜背景情報関連付け＞
資料データに追記された文字列に対して、その文字列に関連する会話情報を紐づけるプログラムの処理の流れを、図７のフローを用いて説明する。

このフローはＰＣ０４００のＣＰＵ０４０５において資料編集アプリケーション実行中に繰り返し実行される。

ステップＳ０５０１において、ＰＣ０４００のＣＰＵ０４０５は、資料編集アプリケーションにおいて編集履歴データテーブルを調べることで前回以降に追加で編集操作を受け付けたか否かを調べ、受け付けていた場合ステップＳ０５０２へ移行する。変更されていない場合処理を終了する。

ステップＳ０５０２において、ＣＰＵ０４０５は編集履歴データテーブルより最新の編集履歴データを抽出することで、処理対象とする編集履歴データを選択する。

ステップＳ０５０３において、ＣＰＵ０４０５はステップＳ０５０２で選択された編集履歴データにおいて、キーワード抽出処理を行う。キーワード抽出処理は前述の会話のキーワード抽出と同様、ｔｆｉｄｆ法を用いる。この時、注目するテキストとして、編集履歴データが追加された場所の周辺のテキストを用いる。例としては、プレゼンテーション資料の場合は編集箇所と同一ページ内のテキスト全て、文書資料の場合は編集箇所の前後の所定文字数以内のテキスト又は同じ章のテキストである。こうする事で編集箇所周辺の特徴語を抽出する事ができる。

ｔｆｉｄｆ値を計算するために、ＣＰＵ０４０５はまず社内の全資料の数を処理サーバー０３００に問い合わせる事で取得する。処理サーバー０３００のＣＰＵ０３０５は全資料の数の問い合わせを受信したら、記憶装置０３１０に含まれる全資料の数をその応答として返す。

続いて、ＣＰＵ０４０５は前記注目するテキストに含まれる名詞と、その名詞を含む資料の数を処理サーバー０３００に問い合わせることで調べる。具体的には、まず前記注目するテキストに含まれる名詞を公知の形態素解析プログラムによって抽出する。形態素解析プログラムは文を、その文を構成する品詞に分解して出力するプログラムである。次に、ＣＰＵ０４０５はサーバー０３００に対し、上記抽出された各名詞それぞれについて、その名詞を含む資料の数を問い合わせる。サーバー０３００のＣＰＵ０３０５はこの問い合わせに応じて、記録装置０３１０に含まれる資料全てのうち、指定された名詞を含む資料の数を返す。具体的には、全資料に対して形態素解析を行い、指定された名詞を含む資料の数を調べればよい。ただし、処理負荷を減少させるために、名詞名とその名詞を含む資料の数を管理する名詞数データテーブルを用意し、このデータテーブルから検索するようにしても良い。この場合名詞数データテーブルは常時更新する必要があるが、更新処理は深夜など処理サーバーの負荷が小さい時に行えばよい。資料数が十分に大きければ、名詞数データテーブルの更新はリアルタイムに行わなくても結果に大きな影響は出ない。

次にＣＰＵ０４０５は上記のようにして得た情報を用いてｔｆｉｄｆ値を計算する。具体的な計算方法は、前述の会話のキーワード検出と同等である。ＣＰＵ０４０５は得られたｔｆｉｄｆ値が高いものから所定の数の名詞を編集箇所のキーワードとしてメインメモリ０４０８に格納する。

ステップＳ０５０４において、ＣＰＵ０４０５はＰＣを操作しているユーザーが過去所定時間内に行った会話データを取得する。具体的にはまずＣＰＵ０４０５は処理サーバー０３００に対して、予め設定された資料の編集者のユーザーＩＤと共に、会話データ取得要求を送信する。サーバー０３００のＣＰＵ０３０５はその応答として指定されたユーザーの所定時間内の会話データを、会話データテーブルから抽出し返送する。ＰＣ０４００のＣＰＵ０４０５は返送された会話データをメインメモリ０４０８に格納する。返送される会話データは複数でありうる。

ステップＳ０５０５において、まずＣＰＵ０４０５はステップＳ０５０３で抽出した編集箇所のキーワードと、ステップＳ０５０４で取得した各会話データに含まれる各会話のキーワードとの一致率を式（２）によってそれぞれ算出する。

ただしＥｗ_ｉは編集箇所のキーワードのうち会話データのキーワードとして存在するもの数、Ｗは編集箇所のキーワードの総数である。

次にステップＳ０５０２で選択した編集履歴データから、編集時刻を調べ、各会話データの会話時刻と編集時刻との時間差を調べたのち、各会話の関連度を式（３）で算出する。

ただし、Ｔｄ_ｉは会話ｉの会話時刻と当該編集時刻との時間差、Ｋは式（３）の第一項と第二項との重みを調整するための係数である。

ステップＳ０５０６において、ＣＰＵ０４０５はステップＳ０５０５で求めた各会話の関連度が所定以上の関連度を有する会話を、その資料データに関連する会話として紐づけ、編集履歴データテーブル上の該当編集履歴データの関連する会話のＩＤとして追記する。

以下、図１２のＩＤ７の編集履歴データが生成されるような編集操作が行われた時点の処理について具体的な例を示す。この時点の表示状態は図９（ｂ）の通りである。

ステップＳ０５０１において、ＩＤ７の編集履歴データが追加された事が検出される。

ステップＳ０５０２において、ＩＤ７の編集履歴データが処理対象の編集履歴データとして選択される。

ステップＳ０５０３において、まず形態素解析プログラムによって、編集箇所と同じページであるページ２のテキストから「背景、機能、検討、携帯、電話、市場、動向、調査、国内、売上、記載」が名詞として抽出される。続いて各名詞についてｔｆｉｄｆ値がそれぞれ計算される。式（１）による各名詞のｔｆｉｄｆ値は図１１の通りとなる。図１１中のｄｆは前述のように処理サーバーによって社内の全資料の内容を調べる事によって得られる値である。なお、社内の全資料数Ｎは５００００とした。ここではキーワードとして選定する数の閾値を３とし、結果「携帯、市場、国内」の３つがキーワードとして選択される。

ステップＳ０５０４において、ステップＳ０５０３で抽出したキーワードについて、式（２）によって、直前に行われた会話のキーワードとの一致率が調べられる。図８のＩＤ１〜４の会話に対するキーワードの一致率はそれぞれキーワードの一致率は０、１、０、０．６７となる。

ステップＳ０５０５において、式（３）によって、編集箇所と各会話との関連度が決定される。Ｋを０．０１とし、時間の単位を分とすると、図８のＩＤ１〜４の会話に対する関連度はそれぞれ−０．４、０．８、−０．１、０．６２となる。

ステップＳ０５０６において、閾値が所定以上の関連度を持つ会話を選択する。ここでは閾値を０とする。ステップＳ０５０５の結果から、関連する会話として判定される会話はＩＤ２、ＩＤ４の会話である。結果は編集履歴データテーブルに格納される。

なお、式（３）においてＫ＝１、時間の単位を分とし、ステップＳ０５０６で関連すると判断する閾値として０を選択する事は、１００分以上時間差がある会話を確実に関連会話としなくなるような設定値である。

なお、より処理負荷を減少させるために、図７のフローを実行するタイミングを限定しても良い。具体的には直前に所定時間以上の空白期間がある場合にのみに限っても良い。これは背景情報となるような会話を行う場合、ある程度の期間（予め決められた一定の期間）は会話を行うために資料編集から離れるという行動に基づくものである。

＜背景情報引き出し＞
資料編集アプリケーションは背景情報引き出し機能を備えている。背景情報引き出し機能は、ユーザーにより指定された位置の編集箇所の背景情報を引き出して表示する機能である。具体的には、まずＰＣのＣＰＵ０４００はユーザーの所定の操作によって、背景情報引き出しモードに入る。このモードにおいて、ＰＣ０４００のＣＰＵ０４０５はマウス０４０１による入力により座標の指定とクリック動作を受け付ける。その後入力された座標位置近傍に存在する編集箇所を編集履歴データテーブルから検索し、関連する会話ＩＤが空でないものがあった場合に、関連する会話の情報を表示する。

以下、図９（ｂ）の状態の資料について、座標（６０，１３１）でクリックされた場合を例に説明する。

ＣＰＵ０４０５はまず座標データテーブルから最近傍で行われた編集履歴データとしてＩＤ７の編集履歴データを抽出する。続いてその編集履歴データの関連する会話ＩＤ（ＩＤ２、ＩＤ４）に関する情報を、サーバー０３００に問い合わせる。サーバー０３００のＣＰＵ０３０５は応答として、指定された会話ＩＤの会話参加者名、キーワード、音声データを返送する。なお会話参加者名は、予め登録されたものをユーザーＩＤを用いて取得する。ここではユーザーＩＤ１、３、５の人物の名前はそれぞれ佐藤、山田、杉本とする。

ＰＣの０４００のＣＰＵ０４０５は得られた情報を用いて、図１０の背景情報引き出し画面１００１をディスプレイ０４１１に表示する。再生ボタン１００２が押される事を検知するとＣＰＵ０４０５は会話音声の再生を開始する。なお、再生ボタン１００２ではなく、各キーワードの文字列が押された時に会話を再生してもよく、その場合、予め図６のステップＳ０６０２で取得したそのキーワードの登場時間を用い、その登場時間から再生を開始しても良い。

以上本実施例によれば、編集資料と直前の会話のキーワードとを比較する事で、編集資料にその背景情報となりうる会話音声を紐づけて記録する。これにより、後からユーザーが編集箇所について詳細を思い出したい時に、関連する会話の音声を再生する事ができ、思い出しの一助となる情報を簡単に与えることができるようになる。

なお、本実施例において、音声認識、会話データの登録並びに管理、キーワード抽出に必要な各種処理は、処理サーバー０３００上で行ったが、全てＰＣ０４００で行う事で、処理サーバー０３００を省略する構成としても良い。

（実施例２）
実施例１においては、式（３）において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。

本実施例ではさらに場所情報を利用して関連度を算出する。具体的には、会話が社内で行われたか、社外で行われたかによって関連度を切り替える。すなわち、式（４）のように社外で行われた会話の場合０とする。なぜならば、普段社内で業務を行う社員にとって、社外で機密情報を含む会話をする事は稀であると考えられるためである。

なお、この条件は職場環境やユーザーの職種によって切り替えて良い、例えばよく社内の人間と仕事をする場合は上記条件が当てはまる。しかし職種によってはそうでない場合もありうる。

以上本実施例によれば、関連度の計算に場所情報を含める事で、さらに関連度の計算の精度を向上できる。

（実施例３）
実施例１においては、式（３）において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。

本実施例ではさらに、当該会話と、現在の編集時点との間に別の編集が含まれる場合関連度を下げるような補正を加える。具体的には式（４）のようにして関連度の計算を行う。

ただし、ｎｃ_ｉは会話ｉの会話時刻と当該編集時刻との間に実施された別のまとまった編集の回数である。まとまった編集とは、所定の閾値以下の時間に連続して行われた編集のことである。また、注目する編集Ｋ_２は式５における第一項と第二項との重みづけをするための係数である。

式（５）はすなわち、ある編集操作に関する関連情報はその直前の空白期間に含まれる会話に多いという前提に基づいたもので、さらにその前の相談では（すなわち前回の前記まとまった編集より以前では）関連度は下がる補正を行うべきである。

以上本実施例によれば、関連度の計算の要否に前回資料編集時刻と現在時刻との時間差を用いる事で、関連度の計算の精度を向上できる。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

音声情報を記録する手段と、
文書情報を記録する手段とを有するシステムであって、
前記記録された文書情報からキーワードを抽出する抽出手段と、
前記抽出されたキーワードを含む音声情報を前記記録された音声情報から検索する検索手段と、
を有することを特徴とするシステム。
前記文書情報を記録する手段は、
前記文書情報に関連付けて、前記文書情報の編集日時を記録していることを特徴とする請求項１に記載のシステム。
前記検索手段は、
前記記録された音声情報のうちの、前記文書情報の編集日時から一定の期間に記録された音声情報から、前記抽出されたキーワードを含む音声情報を検索することを特徴とする請求項２に記載のシステム。
前記検索手段の検索により見つかった前記抽出されたキーワードを含む音声情報を流す手段をさらに有することを特徴とする請求項１乃至３の何れか１項に記載のシステム。
前記抽出手段は、前記記録された文書情報のうちの１の文書情報がユーザから指示された場合に、当該１の文書情報からキーワードを抽出することを特徴とする請求項１乃至４の何れか１項に記載のシステム。
前記検索手段は、
前記記録された音声情報から、前記抽出されたキーワードの登場回数が多い音声情報を検索することを特徴とする請求項１に記載のシステム。
音声情報を記録する工程と、
文書情報を記録する工程とを有するシステムの制御方法であって、
前記記録された文書情報からキーワードを抽出する抽出工程と、
前記抽出されたキーワードを含む音声情報を前記記録された音声情報から検索する検索工程と、
を有することを特徴とするシステムの制御方法。
前記文書情報を記録する工程は、
前記文書情報に関連付けて、前記文書情報の編集日時を記録していることを特徴とする請求項７に記載のシステムの制御方法。
前記検索工程は、
前記記録された音声情報のうちの、前記文書情報の編集日時から一定の期間に記録された音声情報から、前記抽出されたキーワードを含む音声情報を検索することを特徴とする請求項８に記載のシステムの制御方法。
前記検索工程の検索により見つかった前記抽出されたキーワードを含む音声情報を流す工程をさらに有することを特徴とする請求項７乃至９の何れか１項に記載のシステムの制御方法。
前記抽出工程は、前記記録された文書情報のうちの１の文書情報がユーザから指示された場合に、当該１の文書情報からキーワードを抽出することを特徴とする請求項７乃至１０の何れか１項に記載のシステムの制御方法。
前記検索工程は、
前記記録された音声情報から、前記抽出されたキーワードの登場回数が多い音声情報を検索することを特徴とする請求項７に記載のシステムの制御方法。
請求項７乃至１２の何れか１項に記載のシステムの制御方法をコンピュータに実行させるためのコンピュータよみとり可能なプログラム。