JP2014229075A - 文書情報に関連する音声情報を抽出するシステム - Google Patents
文書情報に関連する音声情報を抽出するシステム Download PDFInfo
- Publication number
- JP2014229075A JP2014229075A JP2013108255A JP2013108255A JP2014229075A JP 2014229075 A JP2014229075 A JP 2014229075A JP 2013108255 A JP2013108255 A JP 2013108255A JP 2013108255 A JP2013108255 A JP 2013108255A JP 2014229075 A JP2014229075 A JP 2014229075A
- Authority
- JP
- Japan
- Prior art keywords
- information
- conversation
- recorded
- keyword
- document information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 資料の背景となる情報を適切に紐づけ、後から容易に引き出せるようにする。【解決手段】 会話が発生するたびにその録音を録音し、音声認識した結果からその会話のキーワードを抽出しておく。資料が編集されたら、その資料の編集箇所のキーワードと、その直前に行われた会話のキーワードの一致率と、会話時刻との時間差を基準にした関連度を算出し、関連度の高いものを背景情報として記録する。【選択図】 図7
Description
本発明は、文書情報に関連する音声情報を抽出する技術に関する。
従来より、音声データとそれに関連する資料を紐づけて保存し、後から容易に引き出す事を可能とする技術がある。例えば特許文献1ではカメラ付き携帯電話によって会議の録音を行い、その最中に資料を撮影した場合、その資料と録音された音声データを紐づけて保存し、後から引き出せるようにしている。
しかしながら、従来技術では録音された音声データと資料は、同じ時刻に見たり聞いたりしたものでない限り紐づけることはできない。すなわち、資料を見たり編集した時に(即ち、その編集日時に)、その資料に関連し、それ以前に録音された音声データを紐づけることはできない。
例えば何か資料を編集する時に、書く内容を誰かに相談しに行き、その結果を後で資料に反映させる事がある。この時、資料に詳細を省略した簡潔な結果だけを記したために後からその資料を見直した時に何故そういう結論に至ったのかの背景がわからなくなることがある。このような状況において、その資料から、その時行った相談内容を遡って知る事ができれば便利である。
本発明の課題は、資料の背景となる情報を適切に紐づけ、後から容易に引き出せるようにすることである。
上記課題を解決するための構成は、請求項に記載の通りである。
資料からそれを作成した時に利用した情報を引き出す事が容易となる。
以下、本発明を実施するための形態について図面を用いて説明する。
(実施例1)
<実施例1のシステム構成>
図1は実施例1のシステム構成を示す図である。本実施例のシステムは、ユーザー0001が装着している情報記録装置(以後ロガー)0200、ワイヤレスアクセスポイント0100、処理サーバー0300、情報端末(以後PC)0400、ネットワーク9000を有する。ロガー0200とワイヤレスアクセスポイント0100は無線通信を行い、ロガー0200はワイヤレスアクセスポイント0100を介して有線のネットワーク9000と接続されている。処理サーバー0300、PC0400、ワイヤレスアクセスポイント0100は有線のネットワーク9000を介して接続されている。
<実施例1のシステム構成>
図1は実施例1のシステム構成を示す図である。本実施例のシステムは、ユーザー0001が装着している情報記録装置(以後ロガー)0200、ワイヤレスアクセスポイント0100、処理サーバー0300、情報端末(以後PC)0400、ネットワーク9000を有する。ロガー0200とワイヤレスアクセスポイント0100は無線通信を行い、ロガー0200はワイヤレスアクセスポイント0100を介して有線のネットワーク9000と接続されている。処理サーバー0300、PC0400、ワイヤレスアクセスポイント0100は有線のネットワーク9000を介して接続されている。
<ロガー>
図2は本実施形態で用いるロガー0200のハードウェアブロック図である。ロガー0200は、コントローラー0220、カメラ0202、マイク0201、ジャイロスコープ0211を有する。
図2は本実施形態で用いるロガー0200のハードウェアブロック図である。ロガー0200は、コントローラー0220、カメラ0202、マイク0201、ジャイロスコープ0211を有する。
本実施形態で用いるロガー0200はフレームで頭部に装着したり、ネックレスのように首からぶら下げたり、衣服にクリップ留めすることができるようになっている。ロガー0200にはカメラ0202が取り付けられており、ユーザーの前方の光景を撮影することが可能である。またマイク0201が取り付けられており、装着者本人や近くにいる人の音声を記録する事ができる。
コントローラー0220の構成についてさらに説明する。
バッテリー0205は、電力をロガー0200全体に供給する。I/Oコントローラー0209は、カメラ0202、マイク0201、ジャイロスコープ0211、加速度センサ0212との情報の送受信を行う。LANI/F0203は、ネットワーク9000を介して接続されている処理サーバー0300などの他の機器とCPU0204との情報の送受信を行う。記憶装置0214は書き換え可能な記憶領域であり、ブートローダプログラム及びロガー制御プログラムが格納されている。また、カメラで撮影された映像やマイクから取得した音声など外部から取得したデータが格納される。メインメモリ0208は揮発性メモリであり、記憶装置0214に記憶されている情報や一時的に使用する情報が格納される。ロガー0200の電源投入時には、CPU0204が記憶装置0214からブートローダプログラムを読み出して実行し、記憶装置0214に格納されているロガー制御プログラムを取り出し、メインメモリ0208に格納する。そして、CPU0204がメインメモリ0208に格納されているロガー制御プログラムを実行し、ロガー0200の有する各機能を実行する。また、CPU0204がこのロガー制御プログラムを実行することで、ロガー0200の行う処理が実行される。
以上がコントローラー0220の構成についての説明である。
カメラ0202は撮影した光景をデジタル変換する。マイク0201は周囲の音声を取得し、デジタル変換する。ジャイロスコープ0211はロガー0200にかかる角速度を検出する。加速度センサー0212はロガー0200にかかる加速度を検出する。
<処理サーバー>
図3は本実施形態で用いる処理サーバーのハードウェアブロック図である。処理サーバー0300はコントローラー0320を有する。
図3は本実施形態で用いる処理サーバーのハードウェアブロック図である。処理サーバー0300はコントローラー0320を有する。
コントローラー0320の構成についてさらに説明する。
LANI/F0304は、CPU0305の要求に応じて、ネットワーク9000を介して接続されている他の機器との情報の送受信を行う。
記憶装置0310にはブートローダプログラム、処理サーバー制御プログラム、社内の全データが格納されている。メインメモリ0308は揮発性メモリであり、記憶装置0310に記憶されている情報や一時的に使用する情報がここに格納される。処理サーバー0300の電源投入時には、CPU0305がブートローダプログラムを読み出して実行し、記憶装置0310に格納されている処理サーバー制御プログラムを取り出し、メインメモリ0308に格納する。そして、CPU0305がメインメモリ0308に格納されている処理サーバー制御プログラムを実行し、処理サーバーの有する各機能を実行する。また、CPU0305がこの処理サーバー制御プログラムを実行することで、処理サーバーの行う処理が実行される。
以上がコントローラー0320の構成についての説明である。
<PC>
図4は本実施形態で用いる処理サーバーのハードウェアブロック図である。PC0400はコントローラー0420を有する。
図4は本実施形態で用いる処理サーバーのハードウェアブロック図である。PC0400はコントローラー0420を有する。
コントローラー0420の構成についてさらに説明する。
I/Oコントローラー0409は、キーボード0402、マウス0401、スピーカー0404との情報の送受信を行う。グラフィックコントローラー0415はCPU0405からの命令に基づいてディスプレイ0411に表示するための画像データを生成する。
LANI/F0403は、CPU0405の要求に応じて、ネットワーク9000を介して接続されている他の機器との情報の送受信を行う。記憶装置0410にはブートローダプログラム及びPC制御プログラムが格納されている。また後述の処理によって、資料編集アプリケーションによって編集された資料が格納される。メインメモリ0408は揮発性メモリであり、記憶装置0410に記憶されている情報や一時的に使用する情報がここに格納される。PC0400の電源投入時には、CPU0405がブートローダプログラムを読み出して実行し、記憶装置0410に格納されているPC制御プログラムを取り出し、メインメモリ0408に格納する。そして、CPU0405がメインメモリ0408に格納されているPC制御プログラムを実行し、PCの有する各機能を実行する。また、CPU0405がこのPC制御プログラムを実行することで、PCの行う処理が実行される。
以上がコントローラー0320の構成についての説明である。
キーボード0402及びマウス0401はユーザー0001によるPC操作全般や、資料編集のために必要な入力を受け付ける。スピーカー0404は音声を出力する。ディスプレイ0411は資料編集アプリケーションの画面やPCの操作用画面を表示する。
<位置情報検出>
ロガー0200のCPU0405はジャイロスコープ0211や加速度センサ0212による測定データを用いてロガー0200の位置情報を算出する。位置情報は建物のある場所を起点としたX,Y,Z座標を示す情報である。位置情報検出は、角速度の積分値から進行方向を推定し、加速度の変化パターンから歩行の検知を行って、一歩検出する毎に予め用意しておいた一歩辺りの歩行距離を前記進行方向に加算することによって行う。位置情報検出の具体的な方法はこれに限るものでなく、他の公知の技術を用いても良い。
ロガー0200のCPU0405はジャイロスコープ0211や加速度センサ0212による測定データを用いてロガー0200の位置情報を算出する。位置情報は建物のある場所を起点としたX,Y,Z座標を示す情報である。位置情報検出は、角速度の積分値から進行方向を推定し、加速度の変化パターンから歩行の検知を行って、一歩検出する毎に予め用意しておいた一歩辺りの歩行距離を前記進行方向に加算することによって行う。位置情報検出の具体的な方法はこれに限るものでなく、他の公知の技術を用いても良い。
ロガー0200のCPU0405は常に位置情報検出を行い、位置情報が更新されるたびにサーバーにそのロガー0200の位置情報とロガー0200を装着しているユーザーのユーザーIDを送信する。ユーザーIDはユーザーによって予め入力された、そのユーザーを示す識別子である。処理サーバー0300はユーザーID毎に位置情報を逐次保存する。これによりどのユーザーが現在どの場所にいるか、また過去の任意の時点においてどこにいたかを調べる事ができる。
<会話情報取得>
以下図5のフローチャートを用いて、ロガー0200におけるユーザー同士の会話の録音処理と処理サーバー0300へ送信処理について説明する。このフローはロガー0200のCPU0204上で繰り返し実行される。
以下図5のフローチャートを用いて、ロガー0200におけるユーザー同士の会話の録音処理と処理サーバー0300へ送信処理について説明する。このフローはロガー0200のCPU0204上で繰り返し実行される。
ステップS0701において、ロガー0200のCPU0204はマイク0201による入力の音声レベル(音量)を調べ、それが所定以上の大きさになった場合、処理サーバー0300に近傍にユーザーが存在するかを問い合わせる。問い合わせ時にはロガー0200に予め設定されたユーザーIDを含む。処理サーバー0300のCPU0305は問い合わせを受信し、全ユーザーの現在の位置情報を調べ、前記問い合わせ元のユーザーの現在位置との絶対的な距離を調べる。そして、その距離が所定以下のユーザーのユーザーIDのリストとして返送する。所定距離以内にユーザーがいない場合、リストは返送するリストは空となる。ロガー0200のCPU0204は、サーバー0400から返送されたデータを確認し、リストが空でない場合、すなわち近傍に他のユーザーが存在する場合、会話を開始したと判定し、返送されたユーザーIDをメインメモリ0208に記録する。会話が開始されたと判定したら、ステップS0702に移行し、そうでなければ処理を終了する。
ステップS0702において、CPU0204はマイク0201による入力データを会話音声として記憶装置0214に格納することで録音を行う。
ステップS0703において、ロガー0200のCPU0204は会話終了検出処理を行う。CPU0204は定期的に処理サーバー0300に対して会話相手の位置を問い合わせ、その応答によって得られる会話相手の位置と自分の位置から会話相手への距離を算出し、所定距離以上離れた場合会話は終了したと判定する。会話が終了判定したと判定したら、ステップS0704へ移行し、そうでなければS0702へ移行する。
ステップS0704において、CPU0204はマイク0201による入力データの記憶装置0214への格納を終了し、記録された一連のデータを音声データとするための後処理を行う。
ステップS0705において、CPU0204は、格納された音声データをネットワーク0900を通じて処理サーバー0300に送信する。またこの時自分のユーザーIDと会話相手のユーザーIDも会話参加者のユーザーIDとして併せて会話情報として送信する。
<会話データ登録>
以下図6のフローチャートを用いて、処理サーバー0300上での会話データの登録処理について説明する。
以下図6のフローチャートを用いて、処理サーバー0300上での会話データの登録処理について説明する。
ステップS0601において、処理サーバー0300のCPU0305は前記会話情報を受信し、受信した会話参加者のユーザーIDをメインメモリ0308に記録し、受信した音声データをファイルとして記憶装置0310に記録する。
ステップS0602において、処理サーバー0300のCPU0305は、ロガー0200から受信した音声データを音声認識プログラムにかける事によって会話内に含まれる名詞をテキストデータとして抽出する。抽出するのは、登場する名詞のテキストデータと、登場する時刻である。音声認識プログラムは様々な公知技術があり、本発明においてその具体的な方法は問わない。なお、音声認識プログラムによっては、音声認識処理の一部を音声録音装置に行わせ、一部の音声情報のみを処理サーバーに送信させることで通信負荷を小さくするものがあり、これを利用しても良い。この場合前述のステップS0705において会話音声のかわりに前記一部の音声情報のみを送信することとなる。
ステップS0603において、CPU0305は前記音声認識処理によって得られた名詞の一覧から、その会話に特徴的な語(特徴語)を抜き出すべく、キーワード抽出を行う。本発明においてキーワード抽出は一例としてtfidf法を用いる。tfidf法は複数のテキストがあるとき、「他のテキストにはあまり登場せず、注目するテキストにはよく登場する単語」が高く評価されるような評価方法を用いたキーワード抽出方法である。
具体的にはあるテキストにおける単語のtfidf値を下記式によって計算し、値が大きい単語をそのテキストにおけるキーワードとする。
具体的にはあるテキストにおける単語のtfidf値を下記式によって計算し、値が大きい単語をそのテキストにおけるキーワードとする。
ただし、tfi,jはテキストjにおける単語iの登場回数、Nは全テキストの数、dfiは単語iが登場するテキストの数である。
会話音声からキーワードを抽出する場合、tfi,jとしてその会話音声内での単語iの登場回数、Nとして社内の全会話数、dfiとして社内の全会話のうち単語iが登場する会話の数としてtfidf法を適用することで、会話のキーワードを抽出する。
処理サーバー0300はこのようにして、受信した会話の音声認識結果と、過去に記録された会話の音声認識結果を利用することで、受信した会話のキーワードを抽出する。
なお、キーワード抽出方法は特徴語を抽出するものであればtfidf法に限らず他のものを用いても良い。
ステップS0604において、CPU0305はロガー0200から受信した音声データのファイル名、会話参加者のユーザーID、会話時刻、及びキーワード抽出した結果のテキストデータを会話データとして記憶装置0310に記録する。会話時刻は会話が行われた時刻を示すもので、会話の開始時刻、終了時刻、中間の時刻などで、会話同士統一されていればどれを用いても良い。会話データは記憶装置0310上で、それを1行とするデータテーブル(会話データテーブル)として管理される。図8は会話データテーブルの例である。一行が一つの会話データを示す。
<資料編集アプリケーション>
ユーザーは資料(文書やプレゼン資料などの文書情報)を作成したい時に資料編集アプリケーションを使用する。PCの0400のCPU0405はユーザーからキーボード0402やマウス0401を通じて特定の入力がされたことに応じて資料編集アプリケーションの起動を開始する。
ユーザーは資料(文書やプレゼン資料などの文書情報)を作成したい時に資料編集アプリケーションを使用する。PCの0400のCPU0405はユーザーからキーボード0402やマウス0401を通じて特定の入力がされたことに応じて資料編集アプリケーションの起動を開始する。
資料編集アプリケーションは資料編集機能を備えている。CPU0405は資料編集アプリケーションによってキーボード0402やマウス0401からの特定の入力を、ユーザーより新規文書作成操作又は編集操作又は保存操作が行われたものとみなし、操作内容に応じた処理を行う。新規文書作成操作を受け付けた場合、特定の大きさ情報をもつ資料データを新規に作成する。資料データは複数のページに分けて編集を行う事ができる。編集操作を受け付けた場合、入力内容に応じて文字列、図形、ページを資料データに追加したり削除したりする。保存指示を受け付けた場合、編集中の資料データを一つのファイルとして記憶装置0410に記録する。
さらに資料編集アプリケーションには、編集履歴管理機能を備えている。編集履歴管理機能は、ユーザーによって行われた編集操作を記録するものである。CPU0405は編集操作が行われる度に、編集時刻(編集日時)、編集された箇所(編集箇所)のページ番号、ページ内での位置座標、編集内容、編集のタイプ(追加又は削除)、関連する会話のIDを一つの編集履歴データとして記憶装置0410に記録する。編集履歴データは、記憶装置0410上で、それを一行とするデータテーブル(編集履歴データテーブル)として管理される。所定時間内の間隔の連続した文字列入力や、同一の図形内への文字列入力は一連の編集動作として、まとめて一つの編集履歴データとして記録される。編集履歴データテーブルは資料データの一部として格納される。関連する会話のIDは後述する背景情報関連付け処理によって記録される。
なお位置座標はX座標及びY座標を使って(X座標、Y座標)のように示され、そのページの左上端を(0,0)とし、下に向かうほどY座標が大きく、右に向かうほどX座標が大きくなる。座標の単位はmmである。
図12に、編集履歴データテーブルの例を示す。また、図9に資料編集アプリケーションの表示画面の例を示す。図9(a)は図12の編集履歴データテーブルのデータのような操作がされた時の、2013/5/1 13:05時点での2ページ目の状態である。また、図9(b)は同じく、2013/5/1 13:32時点での2ページ目の状態である。
なお、資料編集アプリケーションは、資料編集機能を備える市販のアプリケーションに、プラグイン形式で編集履歴管理機能を加えることによって実現しても良い。
<背景情報関連付け>
資料データに追記された文字列に対して、その文字列に関連する会話情報を紐づけるプログラムの処理の流れを、図7のフローを用いて説明する。
資料データに追記された文字列に対して、その文字列に関連する会話情報を紐づけるプログラムの処理の流れを、図7のフローを用いて説明する。
このフローはPC0400のCPU0405において資料編集アプリケーション実行中に繰り返し実行される。
ステップS0501において、PC0400のCPU0405は、資料編集アプリケーションにおいて編集履歴データテーブルを調べることで前回以降に追加で編集操作を受け付けたか否かを調べ、受け付けていた場合ステップS0502へ移行する。変更されていない場合処理を終了する。
ステップS0502において、CPU0405は編集履歴データテーブルより最新の編集履歴データを抽出することで、処理対象とする編集履歴データを選択する。
ステップS0503において、CPU0405はステップS0502で選択された編集履歴データにおいて、キーワード抽出処理を行う。キーワード抽出処理は前述の会話のキーワード抽出と同様、tfidf法を用いる。この時、注目するテキストとして、編集履歴データが追加された場所の周辺のテキストを用いる。例としては、プレゼンテーション資料の場合は編集箇所と同一ページ内のテキスト全て、文書資料の場合は編集箇所の前後の所定文字数以内のテキスト又は同じ章のテキストである。こうする事で編集箇所周辺の特徴語を抽出する事ができる。
tfidf値を計算するために、CPU0405はまず社内の全資料の数を処理サーバー0300に問い合わせる事で取得する。処理サーバー0300のCPU0305は全資料の数の問い合わせを受信したら、記憶装置0310に含まれる全資料の数をその応答として返す。
続いて、CPU0405は前記注目するテキストに含まれる名詞と、その名詞を含む資料の数を処理サーバー0300に問い合わせることで調べる。具体的には、まず前記注目するテキストに含まれる名詞を公知の形態素解析プログラムによって抽出する。形態素解析プログラムは文を、その文を構成する品詞に分解して出力するプログラムである。次に、CPU0405はサーバー0300に対し、上記抽出された各名詞それぞれについて、その名詞を含む資料の数を問い合わせる。サーバー0300のCPU0305はこの問い合わせに応じて、記録装置0310に含まれる資料全てのうち、指定された名詞を含む資料の数を返す。具体的には、全資料に対して形態素解析を行い、指定された名詞を含む資料の数を調べればよい。ただし、処理負荷を減少させるために、名詞名とその名詞を含む資料の数を管理する名詞数データテーブルを用意し、このデータテーブルから検索するようにしても良い。この場合名詞数データテーブルは常時更新する必要があるが、更新処理は深夜など処理サーバーの負荷が小さい時に行えばよい。資料数が十分に大きければ、名詞数データテーブルの更新はリアルタイムに行わなくても結果に大きな影響は出ない。
次にCPU0405は上記のようにして得た情報を用いてtfidf値を計算する。具体的な計算方法は、前述の会話のキーワード検出と同等である。CPU0405は得られたtfidf値が高いものから所定の数の名詞を編集箇所のキーワードとしてメインメモリ0408に格納する。
ステップS0504において、CPU0405はPCを操作しているユーザーが過去所定時間内に行った会話データを取得する。具体的にはまずCPU0405は処理サーバー0300に対して、予め設定された資料の編集者のユーザーIDと共に、会話データ取得要求を送信する。サーバー0300のCPU0305はその応答として指定されたユーザーの所定時間内の会話データを、会話データテーブルから抽出し返送する。PC0400のCPU0405は返送された会話データをメインメモリ0408に格納する。返送される会話データは複数でありうる。
ステップS0505において、まずCPU0405はステップS0503で抽出した編集箇所のキーワードと、ステップS0504で取得した各会話データに含まれる各会話のキーワードとの一致率を式(2)によってそれぞれ算出する。
ただしEwiは編集箇所のキーワードのうち会話データのキーワードとして存在するもの数、Wは編集箇所のキーワードの総数である。
次にステップS0502で選択した編集履歴データから、編集時刻を調べ、各会話データの会話時刻と編集時刻との時間差を調べたのち、各会話の関連度を式(3)で算出する。
ただし、Tdiは会話iの会話時刻と当該編集時刻との時間差、Kは式(3)の第一項と第二項との重みを調整するための係数である。
ステップS0506において、CPU0405はステップS0505で求めた各会話の関連度が所定以上の関連度を有する会話を、その資料データに関連する会話として紐づけ、編集履歴データテーブル上の該当編集履歴データの関連する会話のIDとして追記する。
以下、図12のID7の編集履歴データが生成されるような編集操作が行われた時点の処理について具体的な例を示す。この時点の表示状態は図9(b)の通りである。
ステップS0501において、ID7の編集履歴データが追加された事が検出される。
ステップS0502において、ID7の編集履歴データが処理対象の編集履歴データとして選択される。
ステップS0503において、まず形態素解析プログラムによって、編集箇所と同じページであるページ2のテキストから「背景、機能、検討、携帯、電話、市場、動向、調査、国内、売上、記載」が名詞として抽出される。続いて各名詞についてtfidf値がそれぞれ計算される。式(1)による各名詞のtfidf値は図11の通りとなる。図11中のdfは前述のように処理サーバーによって社内の全資料の内容を調べる事によって得られる値である。なお、社内の全資料数Nは50000とした。ここではキーワードとして選定する数の閾値を3とし、結果「携帯、市場、国内」の3つがキーワードとして選択される。
ステップS0504において、ステップS0503で抽出したキーワードについて、式(2)によって、直前に行われた会話のキーワードとの一致率が調べられる。図8のID1〜4の会話に対するキーワードの一致率はそれぞれキーワードの一致率は0、1、0、0.67となる。
ステップS0505において、式(3)によって、編集箇所と各会話との関連度が決定される。Kを0.01とし、時間の単位を分とすると、図8のID1〜4の会話に対する関連度はそれぞれ−0.4、0.8、−0.1、0.62となる。
ステップS0506において、閾値が所定以上の関連度を持つ会話を選択する。ここでは閾値を0とする。ステップS0505の結果から、関連する会話として判定される会話はID2、ID4の会話である。結果は編集履歴データテーブルに格納される。
なお、式(3)においてK=1、時間の単位を分とし、ステップS0506で関連すると判断する閾値として0を選択する事は、100分以上時間差がある会話を確実に関連会話としなくなるような設定値である。
なお、より処理負荷を減少させるために、図7のフローを実行するタイミングを限定しても良い。具体的には直前に所定時間以上の空白期間がある場合にのみに限っても良い。これは背景情報となるような会話を行う場合、ある程度の期間(予め決められた一定の期間)は会話を行うために資料編集から離れるという行動に基づくものである。
<背景情報引き出し>
資料編集アプリケーションは背景情報引き出し機能を備えている。背景情報引き出し機能は、ユーザーにより指定された位置の編集箇所の背景情報を引き出して表示する機能である。具体的には、まずPCのCPU0400はユーザーの所定の操作によって、背景情報引き出しモードに入る。このモードにおいて、PC0400のCPU0405はマウス0401による入力により座標の指定とクリック動作を受け付ける。その後入力された座標位置近傍に存在する編集箇所を編集履歴データテーブルから検索し、関連する会話IDが空でないものがあった場合に、関連する会話の情報を表示する。
資料編集アプリケーションは背景情報引き出し機能を備えている。背景情報引き出し機能は、ユーザーにより指定された位置の編集箇所の背景情報を引き出して表示する機能である。具体的には、まずPCのCPU0400はユーザーの所定の操作によって、背景情報引き出しモードに入る。このモードにおいて、PC0400のCPU0405はマウス0401による入力により座標の指定とクリック動作を受け付ける。その後入力された座標位置近傍に存在する編集箇所を編集履歴データテーブルから検索し、関連する会話IDが空でないものがあった場合に、関連する会話の情報を表示する。
以下、図9(b)の状態の資料について、座標(60,131)でクリックされた場合を例に説明する。
CPU0405はまず座標データテーブルから最近傍で行われた編集履歴データとしてID7の編集履歴データを抽出する。続いてその編集履歴データの関連する会話ID(ID2、ID4)に関する情報を、サーバー0300に問い合わせる。サーバー0300のCPU0305は応答として、指定された会話IDの会話参加者名、キーワード、音声データを返送する。なお会話参加者名は、予め登録されたものをユーザーIDを用いて取得する。ここではユーザーID1、3、5の人物の名前はそれぞれ佐藤、山田、杉本とする。
PCの0400のCPU0405は得られた情報を用いて、図10の背景情報引き出し画面1001をディスプレイ0411に表示する。再生ボタン1002が押される事を検知するとCPU0405は会話音声の再生を開始する。なお、再生ボタン1002ではなく、各キーワードの文字列が押された時に会話を再生してもよく、その場合、予め図6のステップS0602で取得したそのキーワードの登場時間を用い、その登場時間から再生を開始しても良い。
以上本実施例によれば、編集資料と直前の会話のキーワードとを比較する事で、編集資料にその背景情報となりうる会話音声を紐づけて記録する。これにより、後からユーザーが編集箇所について詳細を思い出したい時に、関連する会話の音声を再生する事ができ、思い出しの一助となる情報を簡単に与えることができるようになる。
なお、本実施例において、音声認識、会話データの登録並びに管理、キーワード抽出に必要な各種処理は、処理サーバー0300上で行ったが、全てPC0400で行う事で、処理サーバー0300を省略する構成としても良い。
(実施例2)
実施例1においては、式(3)において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。
実施例1においては、式(3)において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。
本実施例ではさらに場所情報を利用して関連度を算出する。具体的には、会話が社内で行われたか、社外で行われたかによって関連度を切り替える。すなわち、式(4)のように社外で行われた会話の場合0とする。なぜならば、普段社内で業務を行う社員にとって、社外で機密情報を含む会話をする事は稀であると考えられるためである。
なお、この条件は職場環境やユーザーの職種によって切り替えて良い、例えばよく社内の人間と仕事をする場合は上記条件が当てはまる。しかし職種によってはそうでない場合もありうる。
以上本実施例によれば、関連度の計算に場所情報を含める事で、さらに関連度の計算の精度を向上できる。
(実施例3)
実施例1においては、式(3)において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。
実施例1においては、式(3)において、キーワードの一致率と、時間差という条件を基に関連度を算出した。さらに条件を追加することで、さらなる関連付けの精度の向上が可能である。
本実施例ではさらに、当該会話と、現在の編集時点との間に別の編集が含まれる場合関連度を下げるような補正を加える。具体的には式(4)のようにして関連度の計算を行う。
ただし、nciは会話iの会話時刻と当該編集時刻との間に実施された別のまとまった編集の回数である。まとまった編集とは、所定の閾値以下の時間に連続して行われた編集のことである。また、注目する編集K2は式5における第一項と第二項との重みづけをするための係数である。
式(5)はすなわち、ある編集操作に関する関連情報はその直前の空白期間に含まれる会話に多いという前提に基づいたもので、さらにその前の相談では(すなわち前回の前記まとまった編集より以前では)関連度は下がる補正を行うべきである。
以上本実施例によれば、関連度の計算の要否に前回資料編集時刻と現在時刻との時間差を用いる事で、関連度の計算の精度を向上できる。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (13)
- 音声情報を記録する手段と、
文書情報を記録する手段とを有するシステムであって、
前記記録された文書情報からキーワードを抽出する抽出手段と、
前記抽出されたキーワードを含む音声情報を前記記録された音声情報から検索する検索手段と、
を有することを特徴とするシステム。 - 前記文書情報を記録する手段は、
前記文書情報に関連付けて、前記文書情報の編集日時を記録していることを特徴とする請求項1に記載のシステム。 - 前記検索手段は、
前記記録された音声情報のうちの、前記文書情報の編集日時から一定の期間に記録された音声情報から、前記抽出されたキーワードを含む音声情報を検索することを特徴とする請求項2に記載のシステム。 - 前記検索手段の検索により見つかった前記抽出されたキーワードを含む音声情報を流す手段をさらに有することを特徴とする請求項1乃至3の何れか1項に記載のシステム。
- 前記抽出手段は、前記記録された文書情報のうちの1の文書情報がユーザから指示された場合に、当該1の文書情報からキーワードを抽出することを特徴とする請求項1乃至4の何れか1項に記載のシステム。
- 前記検索手段は、
前記記録された音声情報から、前記抽出されたキーワードの登場回数が多い音声情報を検索することを特徴とする請求項1に記載のシステム。 - 音声情報を記録する工程と、
文書情報を記録する工程とを有するシステムの制御方法であって、
前記記録された文書情報からキーワードを抽出する抽出工程と、
前記抽出されたキーワードを含む音声情報を前記記録された音声情報から検索する検索工程と、
を有することを特徴とするシステムの制御方法。 - 前記文書情報を記録する工程は、
前記文書情報に関連付けて、前記文書情報の編集日時を記録していることを特徴とする請求項7に記載のシステムの制御方法。 - 前記検索工程は、
前記記録された音声情報のうちの、前記文書情報の編集日時から一定の期間に記録された音声情報から、前記抽出されたキーワードを含む音声情報を検索することを特徴とする請求項8に記載のシステムの制御方法。 - 前記検索工程の検索により見つかった前記抽出されたキーワードを含む音声情報を流す工程をさらに有することを特徴とする請求項7乃至9の何れか1項に記載のシステムの制御方法。
- 前記抽出工程は、前記記録された文書情報のうちの1の文書情報がユーザから指示された場合に、当該1の文書情報からキーワードを抽出することを特徴とする請求項7乃至10の何れか1項に記載のシステムの制御方法。
- 前記検索工程は、
前記記録された音声情報から、前記抽出されたキーワードの登場回数が多い音声情報を検索することを特徴とする請求項7に記載のシステムの制御方法。 - 請求項7乃至12の何れか1項に記載のシステムの制御方法をコンピュータに実行させるためのコンピュータよみとり可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108255A JP2014229075A (ja) | 2013-05-22 | 2013-05-22 | 文書情報に関連する音声情報を抽出するシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108255A JP2014229075A (ja) | 2013-05-22 | 2013-05-22 | 文書情報に関連する音声情報を抽出するシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014229075A true JP2014229075A (ja) | 2014-12-08 |
Family
ID=52128869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013108255A Pending JP2014229075A (ja) | 2013-05-22 | 2013-05-22 | 文書情報に関連する音声情報を抽出するシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014229075A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017038794A1 (ja) * | 2015-08-31 | 2017-03-09 | 株式会社 東芝 | 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム |
JP2022079458A (ja) * | 2017-11-02 | 2022-05-26 | グーグル エルエルシー | 会議能力を有する自動アシスタント |
US11355099B2 (en) | 2017-03-24 | 2022-06-07 | Yamaha Corporation | Word extraction device, related conference extraction system, and word extraction method |
-
2013
- 2013-05-22 JP JP2013108255A patent/JP2014229075A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017038794A1 (ja) * | 2015-08-31 | 2017-03-09 | 株式会社 東芝 | 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム |
JPWO2017038794A1 (ja) * | 2015-08-31 | 2018-01-25 | 株式会社東芝 | 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム |
US11355099B2 (en) | 2017-03-24 | 2022-06-07 | Yamaha Corporation | Word extraction device, related conference extraction system, and word extraction method |
JP2022079458A (ja) * | 2017-11-02 | 2022-05-26 | グーグル エルエルシー | 会議能力を有する自動アシスタント |
JP7443407B2 (ja) | 2017-11-02 | 2024-03-05 | グーグル エルエルシー | 会議能力を有する自動アシスタント |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9454280B2 (en) | Display device providing feedback based on image classification | |
US20200236070A1 (en) | Information processing system and information processing method | |
US20120124517A1 (en) | Image display device providing improved media selection | |
KR20170101730A (ko) | 사용자 데모그래픽 정보 및 콘텍스트 정보에 기초한 텍스트 입력 예측 방법 및 장치 | |
KR20100036347A (ko) | 전자 기기에 보유된 연락처 리스트들 내 이미지들을 이용하는 장치, 방법 및 컴퓨터 프로그램 제품 | |
US20170255654A1 (en) | Image display device providing individualized feedback | |
US11227637B1 (en) | Synchronizing multiple images or videos to an audio track | |
CN110989847B (zh) | 信息推荐方法、装置、终端设备及存储介质 | |
JP2014085916A (ja) | 情報提示システム、情報提示装置およびプログラム | |
US8230344B2 (en) | Multimedia presentation creation | |
CN108763475B (zh) | 一种录制方法、录制装置及终端设备 | |
JP2016102920A (ja) | 文書記録システム及び文書記録プログラム | |
CN108268644B (zh) | 视频搜索方法、服务器及视频搜索系统 | |
JP2014229075A (ja) | 文書情報に関連する音声情報を抽出するシステム | |
JP5228584B2 (ja) | 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム | |
JP2006018551A (ja) | 情報処理装置および方法、並びにプログラム | |
US20210272564A1 (en) | Voice processing device, voice processing method, and recording medium | |
JP2009157537A (ja) | 情報処理装置、情報処理システム、および情報処理プログラム | |
CN110784762A (zh) | 一种视频数据处理方法、装置、设备及存储介质 | |
JP7028179B2 (ja) | 情報処理装置、情報処理方法およびコンピュータ・プログラム | |
JP7316916B2 (ja) | 管理装置及びプログラム | |
JP2004227221A (ja) | データ管理決定方法、データ管理決定装置、データ管理決定プログラム、およびデータ管理決定プログラムを記録した記録媒体 | |
JP2011150521A (ja) | 情報処理装置、メッセージ伝達方法およびプログラム | |
JP6316655B2 (ja) | 医療情報システム | |
JP6394463B2 (ja) | 楽曲検索システム、および楽曲検索プログラム |