JP2006268089A

JP2006268089A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2006268089A
Application number: JP2005081384A
Authority: JP
Inventors: Kengo Omura; 賢悟大村; Takeshi Nagamine; 猛志永峯
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-03-22
Filing date: 2005-03-22
Publication date: 2006-10-05

Abstract

【課題】たとえばスライドが提示されない状況においても、発話記録を容易に検索することができる情報処理装置を提供することを目的とする。
【解決手段】情報処理装置１は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する発話データ抽出部７１と、所定の時間間隔でランドマークデータを生成するランドマークジェネレータ９と、ランドマークジェネレータ９４が生成したランドマークを出力するランドマーク出力部９４と、発話データに対してランドマークデータを索引として付与するインデックス統合処理部１１と、発話の開始時刻と終了時刻を用いて発話をセグメント化した発話セグメントを視覚化した発話チャートにランドマークを対応させて表示する生成部１２とを備える。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

各会議参加者の発話セグメント（発話開始から発話終了まで）をタイムラインに沿って配置した発話チャートから会議情報を検索する方法がいくつか提案されている（特許文献１、特許文献２）。しかし、発話チャートでは、検索範囲を絞り込むための手がかりとして発話者と発話の時間情報が利用することができるが、この２つの手がかりだけでは個々の発話を特定するのは困難である。そこで、個々の発話を特定しやすくするために、個々の発話が行なわれたときの会議風景、スクリーンなどに提示されたスライドをサムネイル化して、発話チャートのタイムライン上に並べて表示するという方法も提案されている（特許文献３）。

この方法では、例えば、あるスライドが提示されたときに特定の（検索すべき）発話がなされたというようなことを憶えている場合には、スライドのサムネイル表示は検索手がかりとして有効に働く。この方式は、会議という時間的なスパンが限定されたものを対象にしているが、その考え方は、下記の非特許文献１に記載の技術と変わらない。

非特許文献１に記載の技術では、多数の文書ファイル（メールやテキストファイル）を、生成日時や参照日時に沿ってタイムライン上に配列するとともに、私的イベント（自分が撮影した写真やスケジュールツールに登録した予定）や公的イベント（祝祭日、ニュースのヘッドライン）に関するテキストや写真もあわせてタイムライン上に配列することによって、時間的な前後関係を把握しやすくするという方法である。

特開平８−３１７３６５号公報特開平１１−５３３８５号公報特開２０００−１２５２７４号公報 Ringel et al, Milestones in time: The value of landmarks in retrieving information from personal stores. In Proc. of Interact,2003.

しかしながら、たとえば会議中のプレゼンテーション時に表示されたスライドのサムネイルは、ランドマークとして有効であるが、スライドが使われない状況ではこの方法は採用できない。また発話時の発話者の表情や姿勢などの写真は、どれも似ているので時間的弁別性に乏しく、ランドマークとしては不適である。したがって、適当なランドマーク事象がない会議・打ち合わせ場面では、ランドマーク事象を用いた検索手法は利用することができないという問題がある。

また、会議では、多数の参加者から多数の発話がなされる。これらの発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索できれることが望まれる。

そこで、本発明は、上記問題点に鑑みてなされたもので、たとえばスライドが無い状況においても、発話記録を容易に検索することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

上記課題を解決するために、本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する抽出手段と、所定の時間間隔でランドマークデータを生成する生成手段と、前記生成手段が生成したランドマークデータを出力する出力手段と、前記発話データに対して前記ランドマークデータを索引として付与する付与手段とを備える情報処理装置である。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索することができる。なお、発話という語のなかには、発言も含まれる。

本発明の情報処理装置は、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段をさらに備える。本発明の情報処理装置は、前記音声信号を入力する音声入力手段と、前記発話データおよび前記音声信号を前記ランドマークデータに関連付けて記憶する記憶手段とをさらに備える。これにより、後でランドマークデータを検索キーとして音声信号を検索できる。

本発明の情報処理装置は、前記音声信号を得た空間を撮影した映像信号を入力する映像入力手段と、前記発話データおよび前記映像信号に前記ランドマークデータを関連付けて記憶する記憶手段とをさらに備える。これにより、後でランドマークデータを検索キーとして映像信号を検索できる。本発明の情報処理装置は、前記入力された音声信号からキーワードを抽出する音声処理手段をさらに備え、前記生成手段は、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする。

本発明の情報処理装置は、前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも１つを算出する算出手段をさらに備え、前記生成手段は、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも１つに基づいて、前記ランドマークデータを生成することを特徴とする。前記生成手段は、音楽、音響および音声の少なくとも一つを前記ランドマークとして生成することを特徴とする。これにより、音楽、音響または音声を検索キーとすることができる。

前記生成手段は、映像および画像の少なくとも一方を前記ランドマークとして生成することを特徴とする。前記ランドマークは、前記ランドマークのサムネイルであることを特徴とする。前記生成手段は、所定の規則に従って、前記ランドマークデータを生成することを特徴とする。これにより、ランドマークデータは、所定の規則に従って生成されるので、ユーザは記憶しやすい。前記生成手段は、所定の規則に従って、所定の時間内に前記ランドマークデータを複数個生成することを特徴とする。前記所定の規則は、かな順およびアルファベット順の少なくとも一方であることを特徴とする。前記抽出手段は、前記発話データを話者毎に抽出し、前記表示手段は、前記話者毎に抽出された発話データに基づいて、話者毎に発話セグメントを前記発話チャートに表示することを特徴とする。前記生成手段は、前記発話データに基づいて、前記ランドマークを成長させるように前記ランドマークデータを生成することを特徴とする。

本発明は、発話データの該発話の開始時刻と終了時刻に合ったランドマークデータを、該音声信号および該音声信号取得時の映像信号の少なくとも一方に関連付けて記憶する記憶手段と、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段と、前記ランドマークデータを検索キーとして、前記音声信号および前記映像信号の少なくとも一方を検索する検索処理手段とを備える情報処理装置である。

本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップと、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップと、前記ランドマークデータを出力するステップと、前記発話データに対して前記ランドマークデータを索引として付与するステップとを有する情報処理方法である。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索することができる。

本発明の情報処理方法は、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示するステップをさらに有する。本発明の情報処理方法は、前記入力された音声信号からキーワードを抽出するステップをさらに有し、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする。本発明の情報処理方法は、前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも１つを算出するステップをさらに有し、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも１つに基づいて、前記ランドマークデータを生成することを特徴とする。

本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、前記ランドマークデータを出力するステップ、前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させるためのプログラムである。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索することができる。

本発明によれば、たとえばスライドが提示されない状況においても、発話記録を容易に検索することができる情報処理装置、情報処理方法およびプログラムを提供できる。

以下、本発明を実施するための最良の形態について説明する。

第１実施例について説明する。図１は、本発明の第１実施例による会議情報検索装置（情報処理装置）１の構成を示すブロック図である。図１に示すように、会議情報検索装置１は、音声入力部２１〜２ｎ、Ａ／Ｄ変換部３、音声データ合成装置（ＭＩＸ）４、情報格納部５、映像入力部６、発話履歴獲得部７、時間情報付与部８、ランドマークジェネレータ９、ランドマークイベント履歴獲得部１０、サムネイル付き発話チャート生成部１２、表示部１３、指示入力部１４、検索制御部１５、映像再生部１６および音声再生部１７を備える。本実施例では、会議で取得した音声信号および映像信号を用いて説明する。図４は、ランドマーク付き発話チャートの表示例を示す図である。図４において、参照符号１３は表示部、１３１は発話チャート、１３２はランドマークのサムネイル表示領域、Ｌ１〜Ｌ１０はランドマークのサムネイルをそれぞれ示す。

会議情報検索装置１は、会議中に、特定のタイムスケジュールにそって一連のランドマークを切り換えて出力し、検索時には先ほど出力したランドマークを発話チャートに対応させて出力することによって、適当なランドマーク事象がない会議・打ち合わせ場面でも、発話記録のなかから任意の発話記録を容易に検索することができるようにするものである。

音声入力部２１〜２ｎはマイクロホンで構成され、会議中の音声信号を入力するためのものである。会議中の発話（音声）は、参加者に装着された個々の音声入力部２１〜２ｎから入力される。音声入力部２１〜２ｎからの音声信号は、Ａ／Ｄ変換部３においてディジタル信号に変換された後、音声データ合成装置４によって合成される。合成された音声信号は、情報格納部５に格納される。映像入力部６は、例えばディジタルビデオカメラで構成され、会議中の映像データ（音声信号を得た空間を撮影した映像信号）が記録される。この結果は、音声信号と関連付けられて情報格納部５に格納される。情報格納部５は、発話データの発話の開始時刻と終了時刻に合ったランドマークデータを、発話データに関連付けて記憶する。

発話履歴獲得部７は、発話データ抽出部７１および発話履歴情報作成部７２を備える。音声入力部２１〜２ｎから入力された音声信号は発話データ抽出部７１に送られる。この発話データ抽出部７１は、音声入力ソースである音声入力部２１〜２ｎ)を特定してそのＩＤを取得する。また、発話データ抽出部７１は、音声信号から発話部分の切り出し処理を行って、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する。

また、発話データ抽出部７１は、音声信号から一定時間枠ごとに音量情報を獲得し、ある閾値音量以上の音声が一定時間以上継続した場合に発話として同定する。発話データ抽出部７１は、発話同定後に、その音量レベルがたとえ閾値音量を低下した場合でも、それが予め規定した時間（０．５秒）を超えない場合には、音声入力ソースに変更が無い限り、「発話は持続している」と見なす補正処理を行う。そして、発話データ抽出部７１は、個々の発話に対して、音声入力ソースＩＤ、発話開始、発話終了に関する信号を発話履歴情報作成部７２に送る。発話履歴情報作成部７２は、発話イベントＩＤ（発話番号）、発話者ＩＤ、発話開始時刻および発話終了時刻を獲得するためのものである。

発話履歴情報作成部７２は、発話開始信号を得ると、累積カウンターを用いて、発話が同定されるたびに発話順序に一致した番号(発話イベントＩＤ)を生成するとともに、そのときの時間情報（発話開始時刻；年日時分秒）を時間情報付与部８から獲得する。つぎに、発話履歴情報作成部７２は、音声入力ソースＩＤを「音声入力ソースＩＤ／発話者ＩＤ対応表」と照合することによって発話者ＩＤを獲得する。発話履歴情報作成部７２は、発話終了信号を受けた場合には、時間情報付与部８から時間情報（発話終了時刻）を獲得する。

ランドマークイベントジェネレータ９は、所定の時間間隔で、会議中に視覚刺激や聴覚刺激（ランドマーク）のもとになるランドマークデータを生成するものである。ランドマークジェネレータ９は、ランドマークイベント生成部９１、イベント生成制御部９２、時間管理部９３およびランドマークイベント出力部９４からなる。ランドマークイベント生成部９１は、ランドマークイベントデータを格納するイベントデータ格納部９１１と、イベント生成制御部９２からの要求信号に応じて特定のランドマークデータを検索するための検索部９１２からなる。イベント生成制御部９２は、どのランドマークデータをいつ、どのくらいの時間提示するかのランドマークイベントの提示タイミングを制御するためのプログラムである。このプログラムは、利用者によって随意に変更できる。

時間管理部９３は、ランドマークイベントの提示タイミング（提示開始、終了時刻）を計時・管理するためのものである。ランドマークイベント出力部９４は、ランドマークイベント生成部９１によって生成されたランドマークデータを出力する。ランドマークが映像や画像の場合、ランドマークイベント出力部９４は、ランドマークデータを表示部１３とは異なるディスプレイやプロジェクターに出力する。ランドマークが音楽、音響、音声の場合、ランドマークイベント出力部９４は、ランドマークデータを図示しないスピーカに出力する。

ランドマークイベントジェネレータ９によって生成された一連のランドマークデータを、会議室に設置された大型のディスプレイ（＆スピーカ）出力して、提示してもよいし、参加者個々人が所有する携帯型パーソナルコンピュータのディスプレイの背景画面として表示してもよい。静止画像の代わりに動画映像を提示したり、また音楽（ＢＧＭとして）を一定時間ごとに変えて流したりしてもよい。ユーザは、ランドマークイベント生成部９１によって生成された映像、画像または音声のランドマークを記憶しておくことにより、後で必要な発話を簡単に検索することができる。

ランドマークイベント履歴獲得部１０は、ランドマークイベント履歴情報作成部１０１およびサムネイル獲得部１０２からなる。ランドマークイベント履歴情報作成部１０１は、ランドマークイベント生成部９１から送られる制御信号に基づいて、ランドマークイベントＩＤ(イベント番号)、イベント開始時刻およびイベント終了時刻を獲得する。時間情報付与部８は、イベント開始時刻およびイベント終了時刻を提供する。サムネイル獲得部１０２は、ランドマークが映像、画像の場合、その縮約された画像(サムネイル)を獲得する。これは、ランドマークイベントＩＤから原データを獲得し、これに縮約処理を施す。獲得されたサムネイルは、ランドマークイベントＩＤと関連付けられて、情報格納部５に格納される。この際、サムネイル格納先アドレス情報を取得し、インデックス情報統合処理部１１へ送る。

インデックス情報統合処理部１１は、発話データに対してランドマークデータを索引として付与するものである。また、インデックス情報統合処理部１１は、発話履歴情報作成部７２で獲得された発話イベントＩＤ（発話番号）、発話者ＩＤ、発話開始時刻および発話終了時刻を統合インデックスファイルに書き込む。一方、インデックス情報統合処理部１１は、ランドマークイベント履歴情報作成部１０１から送られてくるランドマークイベントＩＤ(イベント番号)、イベント開始時刻およびイベント終了時刻を、またサムネイル獲得部１０２から送られてきたサムネイル格納先アドレス情報を統合インデックスファイルに書き込む。統合インデックスファイルは、情報格納部５に格納される。

図２は、統合インデックスファイルの構成例を示す図である。図２に示すように、統合インデックスファイル内には、３つのランドマークイベント（ＬＭＳｔｉｍ１〜３）と、７つの発話（Ｕ１〜７）に対応するインデックスデータが格納されている。さらに、情報格納部５は、発話データに関連付けて音声信号および映像信号を格納している。これにより、ランドマークデータを記憶しておくことで、必要な音声信号および映像信号を検索することができる。

ランドマークサムネイル付き発話チャート生成部１２は、発話の開始時刻と終了時刻を用いて発話をセグメント化した発話セグメントＨ１、Ｈ２を視覚化した発話チャート１３２にランドマーク（ここではランドマークのサムネイル）Ｌ１〜Ｌ１０を対応させて表示する。ランドマークサムネイル付き発話チャート生成部１２は、情報格納部５に格納された統合インデックスファイル内のデータにもとづいてランドマークサムネイル付き発話チャート１３２を生成する。これは、ランドマークサムネイル表示領域１３１のタイムチャート上に、個々の発話とランドマークサムネイルＬ１〜Ｌ１０を配置するための処理である。個々の発話は、開始時刻と終了時刻にもとづいてタイムライン上に配置される。したがって、個々の発話は、発話持続時間の長さに対応した発話セグメントとして可視化される。これらは、発話者ＩＤの違いに応じて異なる位置に配置してもよい。また、ランドマークイベントサムネイルＬ１〜Ｌ１０も、個々の開始時刻と終了時刻にあわせてタイムライン上に配置される。

音楽の場合のサムネイルは、作曲者の写真と作品名を組み合わせたものを作成して利用すればよい。この場合、各サムネイルをクリックすると、音楽の冒頭部や最も印象的な旋律を再生できるようにすることが望ましい。また、音楽をランドマークイベントとして利用する場合、作曲年代、調、速さ、音量などが規則的に変化するように選曲して提示してもよい。

表示部１３は、ランドマークサムネイル付き発話チャート生成部１２によって生成されたランドマークサムネイル付き発話チャート１３２を表示する。利用者は、発話チャート１３２上の発話セグメントＨやランドマークサムネイルＬ１〜Ｌ１０を指示入力部１４によって指示することによって検索要求を行う。検索制御部１５は、指示入力部１４による検索要求に基づいて、ランドマークデータを検索キーとして、情報格納部５を参照して、音声信号および映像信号を検索する。具体的には、たとえば、発話チャート１３２上の発話セグメントＨを指示(例えば、マウスでクリック)することによってそれに対応する音声・映像データを検索することができる。検索された映像信号は、映像再生部１６で再生でき、検索された音声信号は、音声再生部１７で再生できる。

本実施例によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索することができる。

次に、第２実施例について説明する。第２実施例は、第１実施例で説明したランドマークジェネレータの変形例である。また、図１及び図４も参照しながら説明する。

図３は、本実施例によるランドマークイベントジェネレータの構成を示す図である。図３に示すように、ランドマークイベントジェネレータ２０９は、表示スケジュール変更手段２１０、画像データベース２２０、画像検索制御部２３０、タイマー２４０、表示部２５０および表示履歴作成部２６０を備える。

表示スケジュール変更手段２１０は、ユーザが表示スケジュールを変更するものである。画像データベース２２０は、表示スケジューラー２２１、画像ファイル２２２、サムネイル画像ファイル２２３およびインデックスファイル２２４を備える。表示スケジューラー２２１は、表示を管理するものである。画像ファイル２２２は、画像データを保持し、この画像データは、電子百科事典のデータから取得したもので、項目の名称、解説、写真から構成されるページからなる。サムネイル画像ファイル２２３はサムネイル画像を保持する。このサムネイル画像は、各ページ内の写真を縮約化したもので、予め作成して提示順序順に配列し、格納しておく。インデックスファイル２２４は、画像ファイルのインデックスおよびサムネイル画像ファイルのインデックスを保持する。

画像検索制御部２３０は、画像ファイル２２３内のページを会議中に一定時間間隔（１分おき）で画像データベース２２０より画像データを検索し、その画像データに基づくランドマークをたとえば会議室に設置されたディスプレイに提示する。ユーザは、ディスプレイに表示されたランドマークを記憶しておき、このランドマークを後で検索するときに思い出す。表示履歴作成部２６０は、表示部２５０による表示履歴情報を作成し、作成した表示履歴情報をイベント情報統合処理部１１に提供する。イベント情報統合処理部１１は、表示履歴作成部２６０から得た表示履歴情報を他のイベント情報に統合する処理を行う。

また、サムネイル付き発話チャート生成部１２は、図４に示すように、項目の名称の頭文字に従って「あいうえお」順にランドマークＬ１〜Ｌ１０を提示していく。ここで、各かなに対応するランドマークＬを３枚ずつ連続させて提示する（３分）。すなわち、最初の３分間では、「あ」の頭文字の項目を３つ提示し、その後で「い」の頭文字の項目を３つ提示し、さらに「う」、「え」、「お」と選択して順次提示していく。本来、ランドマークＬは、利用者の記憶に残りそうなものであれば、どのようなものでもよく、またそれらの提示順序もランダムでも構わないが、上述のような配慮を行ったのは、想起した画像内容が、会議中のどのあたりに提示されたものなのかを即座に判断できるようにするためである。

したがって、「あいうえお」順のほかにも、時間的順序関係が容易に把握できるような様々な画像選択が可能である。例えば、アルファベット順、歴史、成長、発展、完成や成功までのプロセス、季節変化、空間位置の移動、ストーリ構造にそったかたちで、画像を体制化して、提示していく方法も考えられる。

このようにして、ランドマークイベントジェネレータ２０９は、所定の規則に従って、所定の時間内にランドマークデータを複数個生成する。所定の規則には、上述したように、かな順およびアルファベット順が含まれる。

利用者は、発話チャート１３２上の発話セグメントＨやランドマークサムネイルＬ１〜Ｌ１０を指示入力部１４によって指示することによって検索要求を行う。検索制御部１５は、指示入力部１４による検索要求に基づいて、ランドマークデータを検索キーとして、情報格納部５を参照して、音声信号および映像信号を検索する。具体的には、たとえば、発話チャート１３２上の発話セグメントＨを指示することによってそれに対応する音声・映像データを検索することができる。検索された映像信号は、映像再生部１６で再生でき、検索された音声信号は、音声再生部１７で再生できる。また、発話データ抽出部７１は、発話データを話者毎に抽出し、サムネイル付き発言チャート生成部１２は、話者毎に抽出された発話データに基づいて、図４に示すように、話者毎（Ｊ、Ｋ、Ｍ、Ｔ）に発話セグメントＨを発話チャート１３２に表示することで、話者ごとに必要な発話を検索することができる。

次に、第３実施例について説明する。上記実施例では、提示されるランドマークの内容は会議の議題や参加者の発話に依存せずに決定される。このためランドマークと、会議での議題／発話との関連性が保証されない。実施例３では、参加者の発話や会議中に表示された文書内容に関連した画像／映像／音響を選択して表示する方式を実現することにより、ランドマークと議題／発話とが関連するようにする。この関連性により、検索時にランドマークを見ただけで、発話内容が推察できるようにする。同時に、会議における討議や思考展開に対して有益な情報（発想刺激）が提示されるようにできる。

図５は、本発明の第３実施例による会議情報検索装置２００の構成を示すブロック図である。図５に示すように、会議情報検索装置２００は、音声入力部２１〜２ｎ、Ａ／Ｄ変換部３、音声データ合成装置（ＭＩＸ）４、情報格納部５、映像入力部６、発話履歴獲得部２０７、時間情報付与部８、ランドマークジェネレータ２０９、ランドマークイベント履歴獲得部１０、サムネイル付き発話チャート生成部１２、表示部１３、指示入力部１４、検索制御部１５、映像再生部１６および音声再生部１７を備える。発話履歴獲得部２０７は、発話データ抽出部７１、発話履歴情報作成部７２および音声認識部７３を備える。上記実施例と同一箇所については同一符号を付して説明する。

音声認識部７３は、発話データ抽出処理の後、入力された音声信号に対して音声認識処理を行い、キーワードを抽出し、抽出したキーワードを検索クエリ情報として、イベント生成制御部９２へ送る。ランドマーク生成部９１は、キーワード検索によって生成されるランドマーク刺激が、参加者の発話や発想を促すための知的刺激として機能するようにするため、電子化された百科事典、専門用語辞典、新聞の記事データベースを備える。ランドマークイベント生成部９１は、キーワードに基づいて、上記記事データベースを参照して、写真や図を含む情報を検索することによってランドマークデータを生成する。すなわち、ランドマークイベント生成部９１は、イベント生成制御部９２から取得したキーワードにマッチするランドマークデータ（画像や音楽）を選択してランドマークイベント出力部９４を介して表示部１３で表示する。イベント生成制御部９２は、あらかじめ決めたタイムスケジュールに沿って一定時間のみ音声認識結果であるキーワードを検索クエリとして許容することで、ランドマークイベントの頻繁な生成を回避する。また、音声認識部７３は、音声認識処理の結果を、発話履歴情報作成部７２に送り、インデックスデータとして登録する。これにより、図４の発話チャート１３２やランドマークサムネイルＬ１〜Ｌ１０などの周辺にこのキーワードを表示するように構成でき、さらに、発話のキーワード検索も可能になる。

次に、第４実施例について説明する。会議中に提示されるランドマークが会議での発話状況（誰がどのくらい活発に発話したか）を反映したものであれば、参加者にとっては有用な情報になるし、発話量の少ない参加者からの発話が活発化する可能性がある。そこで、第４実施例では、会議参加者の発話量に応じて、内容や位置が変化するようなランドマークデータを生成し、同時にそれをランドマークとして利用できるようにしたものである。

図６は、本発明の第４実施例に係る会議情報検索装置３００の構成を示す図である。図６に示すように、会議情報検索装置３００は、音声入力部２１〜２ｎ、Ａ／Ｄ変換部３、音声データ合成装置（ＭＩＸ）４、情報格納部５、映像入力部６、発話履歴獲得部３０７、時間情報付与部８、ランドマークジェネレータ３０９、ランドマークイベント履歴獲得部１０、サムネイル付き発話チャート生成部１２、表示部１３、指示入力部１４、検索制御部１５、映像再生部１６および音声再生部１７を備える。発話履歴獲得部３０７は、発話データ抽出部７１、発話履歴情報作成部７２および発話量算定部７４を備える。ランドマークイベントジェネレータ３０９は、変更値算定部３１０、画像変更処理部３１１、画像データ格納部３１２、画像出力部３１３、提示インターバル設定部３１４、時間管理部３１５を備える。なお、上記実施例と同一箇所については同一符号を付するものとしてその説明を省略する。

提示インターバル設定部３１４、ランドマークイベントの提示間隔時間（例えば、５分間）を設定するためのものである。時間管理部３１５は、タイマーであり、提示間隔時間を計時し、時間が来るたびに、発話量算定部７４に信号を送る。発話量算定部７４は、情報格納部５に格納された発話履歴データにもとづいて、各参加者の発話量を算定する。変更値算定部３１０は、参加者ごとに算定された発話持続時間（インターバル内総発話時間）にもとづいて、ランドマークとなる写真画像の大きさ（解像度）を決定する。この写真画像の大きさは、最大長（最大解像度）×インターバル内総発話時間×定数で決定する。

画像データ格納部３１２は、ランドマークデータとなる写真画像データを格納する。画像変更処理部３１１は、発話量に基づいて、ランドマークデータとなる写真画像データを生成するものであり、より詳細には、画像データ格納部３１２を参照し、変更値算定部３１０によって算定された解像度に従ってランドマークとなる参加者の写真の大きさを変更したうえで、提示配列を決定する。
画像出力部３１３は、画像変更処理部３１１によって大きさの変更された画像データをランドマークデータとして出力する。サムネイル獲得部１０２は、各時間間隔で提示された顔写真の配列のサムネイル画像を取得し、これを情報格納部５に格納する。

次に、発話量算定部７４による発話量の算定方法について説明する。発話量算定部７４は、発話量を以下のようにして算定する。
（１）算定のための時間範囲を、現時刻から設定された時間間隔分(例えば５分)だけ過去の時間範囲に設定する。たとえば、発話量算定部７４は、時間間隔分を５分とした場合、現時刻が「１１時１０分」のとき、「１１時５分〜１１時１０分」までを算定のための時間範囲とする。
（２）上記時間範囲においてなされた発話のすべてを抽出する。
（３）発話が設定時間より以前に開始された発話を抽出し、発話開始時刻を設定の初端時刻に置き換える。同様に現在続行中の発話も、現時刻を終端時刻として設定する。たとえば設定時間が「１１時５分」の場合、発話開始時刻を設定の初端時刻「１１時５分」に置き換える。
（４）全ての発話に関して、発話開始時刻と発話終了時刻から発話持続時間を算定する。
（５）参加者ごとに発話を分類し、個々の発話持続時間を総計する（インターバル内総発話時間）。

図７は、ランドマーク付き発話チャートの表示例を示す図である。図７において、参照符号１３は表示部、１３２は発話チャート、１３３はランドマークのサムネイル表示領域をそれぞれ示す。サムネイル付き発話チャート生成部１２は、発話者Ｊ、Ｍ、Ｋ、Ｔの顔画像をランドマーク（ここではサムネイル）Ｌ１１〜Ｌ１４として用いて、発話量に応じてランドマークＬ１１〜Ｌ１４の大きさを変化させている。また、サムネイル付き発話チャート生成部１２は、発話量に応じてランドマークとＬ１１〜Ｌ１４の明るさ、色、透明度、傾き、表示位置、動画の場合には動きの速さや方向などの属性を変化させてよい。また、ランドマークは、顔画像でなくてもかまわない。さらに、発話量に代えて、発話数、発話交代数、沈黙時間などをもとにランドマークとなる表示画像の属性を変えてもよい。個々の参加者の発話量でなく、参加者全員の発話量から画像を変化させてもよい。たとえばモナリザの微笑みの画像のジグソーパズルが、発話量が増えるにしたがって完成していくようなかたちのものも可能である。

このようにして、一定のインターバルごと（例えば５分経過ごと）に各会議参加者の発話量を算定して、その算定結果にもとづいてランドマークとなる会議参加者の顔写真の大きさを変化させた画像を表示することで、これをランドマーク刺激として機能させる。会議中に参加者はこの画像を見ることによって、ある時間帯において誰が発話量が多く、誰が少ないかを知ることができる。そして、検索時に、これをランドマーク手がかりとして利用することによって音声や映像の検索を行うことができる。例えば「あの発話は、ＡさんとＢさんの写真が大きく映し出された直後の発話だった」というように、発話の絞込みが可能になる。

実施例４では、一定のインターバルごとの各参加者の発話時間に依存させて発話者の顔写真の大きさを変化させたが、実施例５では、ランドマークジェネレータにおいて、「樹木」の画像を生成して、それを参加者全員の累積発話回数に依存させて成長させて表示する例について説明する。第５実施例では、第４実施例で説明した図６の会議検索装置３００を用いて説明する。図８は、第５の実施例において利用した樹木曲線生成アルゴリズムを適用したランドマーク図形の生成例である。図８において、参照符号４０１は樹木、４０２は幹、４０３は枝、４０４は花、４０５は果実を示す。

発話回数は、図６の発話量算定部７４に含まれる累積発話回数算定部（図示せず）によって算定される。この算定は、発話履歴情報作成部７２によって作成された発話履歴情報を参照して、会議開始時から現在までの発話を話者を問わずに累積することによって行なわれる。画像変換処理部３１１は、発話データに基づいて、ランドマークとなる樹木を成長させるようにランドマークデータを生成する。

図８に示すように、樹木の画像は、「樹木曲線」生成アルゴリズムを使って画像変更処理部３１１によって生成される（詳しくは、山本芳人「Java（登録商標）による図形処理入門」、工学図書）。これは、幹（一定の長さ）に対する枝分かれの本数、枝の長さ（幹に対する長さの比）、枝分かれの角度を規定して、再帰的な描画を繰り返して樹木を生成するものである。ここでは、会議における発言累積数をカウントして、発言回数が５ずつ増えるごとに、描画の「再帰回数（再帰の深さ）」を１つずつ増やすことによって樹木を成長させて周辺ディスプレイに表示させる方法を用いる。ただし、再帰回数が１０以上になった場合には、再帰的な描画をやめて、図８に示すように、「花」や「果実」を再帰回数１０によって描かれた樹形図に付加して表示してもよい（この場合、花や果実の数は、発言量に比例させて変化させる）。この処理の流れをまとめると、以下のようになる。

・発言数０〜４のとき、木は表示されない
・発言数５のとき、樹木曲線アルゴリズム（枝分かれ本数＝２、幹に対する枝の長さの比＝０．７、枝分かれの角度＝１５度）に対して、再帰回数＝１で描画処理を実行し、表示する。次のステップに移るまで表示しつづける。
・発言数５×ｎのとき、前記の樹木曲線アルゴリズムに対して、再帰回数＝２で描画処理を実行し、表示する。ただし、ｎ＝１１になったら、次に進む。
・発言数が５ずつ増えるごとに、樹木曲線アルゴリズム（枝分かれ本数＝２、幹に対する枝の長さの比＝０．７、枝分かれの角度＝１５度、再帰回数＝１０）で描画処理を行い、さらに「花」か「果実」のグラフィックスを1個ずつ追加して表示する。

図９は、「樹木曲線」生成アルゴリズムを使って生成した樹木図形をサムネイル化して、発話チャートとともに表示した例を示す図である。
図９において、参照符号１３２は発話チャート表示領域、１３３はランドマークサムネイル表示領域、Ｈは発話セグメント、Ｌ２１〜Ｌ２５は図８で説明した樹木に対するランドマークサムネイルである。樹形や、花や果実の数を手がかりにして、会議映像や発話シーンの選択が可能になる。例えば、「探そうとしている発言シーンは、木に花がはじめて咲いたときだった」ということを憶えていたのなら、そのサムネイル（木に花がひとつ付いたもの）を見つけて、これに対応した発話チャートの発話セグメントＨをクリックすれば、ビデオ映像が再生される。このようにしてランドマークサムネイルＬ２１〜Ｌ２５を検索手掛かりに利用できる。

なお、上記の例では、発言数に依存して樹形や花・果実の数を変化させたが、会議における総発言時間、発言交代数、対話回数、対話時間に依存させて樹形や花・果実の数を変化させてもよい。また参加者一人ずつに１本の木に対応づけて表示してもよいし、参加者全員分の発言数、発話交代数などを通算して、１本の木として表示しても良い。参加者一人ずつに１本の木に対応付けて表示する場合は、木の種類が変わるようにパラメータを設定する。また、発言者が異なるごとに、描画の際の増分部分の枝の色を変化させてもよいし、花や果実の種類や色を変えてもよい。このようにすることにより、色や形態の違いによって、誰が会議中のどこで発言したのか樹木を見ればわかるようになる。さらに、「樹木曲線」生成アルゴリズムにおいて、枝の分岐数、枝の長さ、幹に対する枝の長さの比のうちのひとつの変数をランダム値として、樹形の描画にバリエーションを与えても良い。さらに、「樹木曲線」生成アルゴリズムを適用せずに、樹木もしくはその他の動植物の生育状況をステップごとに記録した写真画像や画像を用いて、それらを発言数の変化に合わせて切り換えて表示してもよい。

従来は、会議中に自然に、あるいは必然的に生じた事象（例えば、スライド提示、発話中の顔写真、ホワイトボードへの板書など）をランドマークとして利用しており、そうした事象がない時にはランドマーク刺激を生成して利用するという考えはなかった。そこで、本発明では、検索の際にランドマークとして機能しそうな刺激（映像、音楽、音声、照明など）を、会議中に故意に生成して会議参加者に提示する。そして、従来技術と同様に発話チャート内のタイムラインに沿ってランドマーク（サムネイルや音声クリップなど）を挿入して表示する。これにより、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録（音声・映像情報）のなかから任意の発話記録を容易に検索することができる。したがって、ランドマーク刺激を故意に生成して利用する点が、従来のランドマーク事象を用いた検索手法とは異なる。

なお、本発明による情報処理与法は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)等を用いて実現され、プログラムをハードディスク装置や、ＣＤ−ＲＯＭ、ＤＶＤまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、ＣＰＵがこのプログラムを実行することで、各ステップが実現される。すなわち、プログラムは、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、前記ランドマークデータを出力するステップ、前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明の第１実施例による会議情報検索装置１の構成を示すブロック図である。統合インデックスファイルの構成例を示す図である。本実施例によるランドマークイベントジェネレータの構成を示す図である。ランドマーク付き発話チャートの表示例を示す図である。本発明の第３実施例による会議情報検索装置１の構成を示すブロック図である。本発明の第４実施例に係る会議情報検索装置の構成を示す図である。第４実施例による発話チャートを示す図である。第５の実施例において利用した樹木曲線生成アルゴリズムを適用したランドマーク図形の生成例である。第５の実施例による発話チャートを示す図である。

符号の説明

１、２００、３００会議情報検索装置
２音声入力部
５情報格納部
６映像入力部
７発話履歴獲得部
７１発話データ抽出部
７２発話履歴情報作成部
８時間情報付与部
９、２０９ランドマークイベントジェネレータ
９１ランドマーク生成部
９２イベント生成制御部
９３時間管理部
９４ランドマークイベント出力部
１０ランドマークイベント履歴獲得部
１０１ランドマークイベント履歴情報作成部
１０２サムネイル獲得部

Claims

入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する抽出手段と、
所定の時間間隔でランドマークデータを生成する生成手段と、
前記生成手段が生成したランドマークデータを出力する出力手段と、
前記発話データに対して前記ランドマークデータを索引として付与する付与手段とを備えることを特徴とする情報処理装置。
前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記音声信号を入力する音声入力手段と、
前記発話データおよび前記音声信号を前記ランドマークデータに関連付けて記憶する記憶手段とをさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記音声信号を得た空間を撮影した映像信号を入力する映像入力手段と、
前記発話データおよび前記映像信号に前記ランドマークデータを関連付けて記憶する記憶手段とをさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記入力された音声信号からキーワードを抽出する音声処理手段をさらに備え、
前記生成手段は、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする請求項１に記載の情報処理装置。
前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも１つを算出する算出手段をさらに備え、
前記生成手段は、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも１つに基づいて、前記ランドマークデータを生成することを特徴とする請求項１に記載の情報処理装置。
前記生成手段は、音楽、音響および音声の少なくとも一つを前記ランドマークとして生成することを特徴とする請求項１に記載の情報処理装置。
前記生成手段は、映像および画像の少なくとも一方を前記ランドマークとして生成することを特徴とする請求項１に記載の情報処理装置。
前記ランドマークは、前記ランドマークのサムネイルであることを特徴とする請求項２に記載の情報処理装置。
前記生成手段は、所定の規則に従って、前記ランドマークデータを生成することを特徴とする請求項１に記載の情報処理装置。
前記生成手段は、所定の規則に従って、所定の時間内に前記ランドマークデータを複数個生成することを特徴とする請求項１に記載の情報処理装置。
前記所定の規則は、かな順およびアルファベット順の少なくとも一方であることを特徴とする請求項１０または請求項１１に記載の情報処理装置。
前記抽出手段は、前記発話データを話者毎に抽出し、
前記表示手段は、前記話者毎に抽出された発話データに基づいて、話者毎に発話セグメントを前記発話チャートに表示することを特徴とする請求項１に記載の情報処理装置。
前記生成手段は、前記発話データに基づいて、前記ランドマークを成長させるように前記ランドマークデータを生成することを特徴とする請求項１に記載の情報処理装置。
発話データの該発話の開始時刻と終了時刻に合ったランドマークデータを、該音声信号および該音声信号取得時の映像信号の少なくとも一方に関連付けて記憶する記憶手段と、
前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段と、
前記ランドマークデータを検索キーとして、前記音声信号および前記映像信号の少なくとも一方を検索する検索処理手段と
を備えることを特徴とする情報処理装置。
入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップと、
前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップと、
前記ランドマークデータを出力するステップと、
前記発話データに対して前記ランドマークデータを索引として付与するステップとを有することを特徴とする情報処理方法。
前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示するステップをさらに有することを特徴とする請求項１６に記載の情報処理方法。
前記入力された音声信号からキーワードを抽出するステップをさらに有し、
前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする請求項１６に記載の情報処理方法。
前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも１つを算出するステップをさらに有し、
前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも１つに基づいて、前記ランドマークデータを生成することを特徴とする請求項１６に記載の情報処理方法。
入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、
前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、
前記ランドマークデータを出力するステップ、
前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させるためのプログラム。