JP2006268089A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2006268089A
JP2006268089A JP2005081384A JP2005081384A JP2006268089A JP 2006268089 A JP2006268089 A JP 2006268089A JP 2005081384 A JP2005081384 A JP 2005081384A JP 2005081384 A JP2005081384 A JP 2005081384A JP 2006268089 A JP2006268089 A JP 2006268089A
Authority
JP
Japan
Prior art keywords
utterance
landmark
data
time
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005081384A
Other languages
English (en)
Inventor
Kengo Omura
賢悟 大村
Takeshi Nagamine
猛志 永峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005081384A priority Critical patent/JP2006268089A/ja
Publication of JP2006268089A publication Critical patent/JP2006268089A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 たとえばスライドが提示されない状況においても、発話記録を容易に検索することができる情報処理装置を提供することを目的とする。
【解決手段】 情報処理装置1は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する発話データ抽出部71と、所定の時間間隔でランドマークデータを生成するランドマークジェネレータ9と、ランドマークジェネレータ94が生成したランドマークを出力するランドマーク出力部94と、発話データに対してランドマークデータを索引として付与するインデックス統合処理部11と、発話の開始時刻と終了時刻を用いて発話をセグメント化した発話セグメントを視覚化した発話チャートにランドマークを対応させて表示する生成部12とを備える。
【選択図】 図4

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。
各会議参加者の発話セグメント(発話開始から発話終了まで)をタイムラインに沿って配置した発話チャートから会議情報を検索する方法がいくつか提案されている(特許文献1、特許文献2)。しかし、発話チャートでは、検索範囲を絞り込むための手がかりとして発話者と発話の時間情報が利用することができるが、この2つの手がかりだけでは個々の発話を特定するのは困難である。そこで、個々の発話を特定しやすくするために、個々の発話が行なわれたときの会議風景、スクリーンなどに提示されたスライドをサムネイル化して、発話チャートのタイムライン上に並べて表示するという方法も提案されている(特許文献3)。
この方法では、例えば、あるスライドが提示されたときに特定の(検索すべき)発話がなされたというようなことを憶えている場合には、スライドのサムネイル表示は検索手がかりとして有効に働く。この方式は、会議という時間的なスパンが限定されたものを対象にしているが、その考え方は、下記の非特許文献1に記載の技術と変わらない。
非特許文献1に記載の技術では、多数の文書ファイル(メールやテキストファイル)を、生成日時や参照日時に沿ってタイムライン上に配列するとともに、私的イベント(自分が撮影した写真やスケジュールツールに登録した予定)や公的イベント(祝祭日、ニュースのヘッドライン)に関するテキストや写真もあわせてタイムライン上に配列することによって、時間的な前後関係を把握しやすくするという方法である。
特開平8−317365号公報 特開平11−53385号公報 特開2000−125274号公報 Ringel et al, Milestones in time: The value of landmarks in retrieving information from personal stores. In Proc. of Interact,2003.
しかしながら、たとえば会議中のプレゼンテーション時に表示されたスライドのサムネイルは、ランドマークとして有効であるが、スライドが使われない状況ではこの方法は採用できない。また発話時の発話者の表情や姿勢などの写真は、どれも似ているので時間的弁別性に乏しく、ランドマークとしては不適である。したがって、適当なランドマーク事象がない会議・打ち合わせ場面では、ランドマーク事象を用いた検索手法は利用することができないという問題がある。
また、会議では、多数の参加者から多数の発話がなされる。これらの発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索できれることが望まれる。
そこで、本発明は、上記問題点に鑑みてなされたもので、たとえばスライドが無い状況においても、発話記録を容易に検索することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
上記課題を解決するために、本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する抽出手段と、所定の時間間隔でランドマークデータを生成する生成手段と、前記生成手段が生成したランドマークデータを出力する出力手段と、前記発話データに対して前記ランドマークデータを索引として付与する付与手段とを備える情報処理装置である。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索することができる。なお、発話という語のなかには、発言も含まれる。
本発明の情報処理装置は、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段をさらに備える。本発明の情報処理装置は、前記音声信号を入力する音声入力手段と、前記発話データおよび前記音声信号を前記ランドマークデータに関連付けて記憶する記憶手段とをさらに備える。これにより、後でランドマークデータを検索キーとして音声信号を検索できる。
本発明の情報処理装置は、前記音声信号を得た空間を撮影した映像信号を入力する映像入力手段と、前記発話データおよび前記映像信号に前記ランドマークデータを関連付けて記憶する記憶手段とをさらに備える。これにより、後でランドマークデータを検索キーとして映像信号を検索できる。本発明の情報処理装置は、前記入力された音声信号からキーワードを抽出する音声処理手段をさらに備え、前記生成手段は、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする。
本発明の情報処理装置は、前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも1つを算出する算出手段をさらに備え、前記生成手段は、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも1つに基づいて、前記ランドマークデータを生成することを特徴とする。前記生成手段は、音楽、音響および音声の少なくとも一つを前記ランドマークとして生成することを特徴とする。これにより、音楽、音響または音声を検索キーとすることができる。
前記生成手段は、映像および画像の少なくとも一方を前記ランドマークとして生成することを特徴とする。前記ランドマークは、前記ランドマークのサムネイルであることを特徴とする。前記生成手段は、所定の規則に従って、前記ランドマークデータを生成することを特徴とする。これにより、ランドマークデータは、所定の規則に従って生成されるので、ユーザは記憶しやすい。前記生成手段は、所定の規則に従って、所定の時間内に前記ランドマークデータを複数個生成することを特徴とする。前記所定の規則は、かな順およびアルファベット順の少なくとも一方であることを特徴とする。前記抽出手段は、前記発話データを話者毎に抽出し、前記表示手段は、前記話者毎に抽出された発話データに基づいて、話者毎に発話セグメントを前記発話チャートに表示することを特徴とする。前記生成手段は、前記発話データに基づいて、前記ランドマークを成長させるように前記ランドマークデータを生成することを特徴とする。
本発明は、発話データの該発話の開始時刻と終了時刻に合ったランドマークデータを、該音声信号および該音声信号取得時の映像信号の少なくとも一方に関連付けて記憶する記憶手段と、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段と、前記ランドマークデータを検索キーとして、前記音声信号および前記映像信号の少なくとも一方を検索する検索処理手段とを備える情報処理装置である。
本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップと、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップと、前記ランドマークデータを出力するステップと、前記発話データに対して前記ランドマークデータを索引として付与するステップとを有する情報処理方法である。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索することができる。
本発明の情報処理方法は、前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示するステップをさらに有する。本発明の情報処理方法は、前記入力された音声信号からキーワードを抽出するステップをさらに有し、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする。本発明の情報処理方法は、前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも1つを算出するステップをさらに有し、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも1つに基づいて、前記ランドマークデータを生成することを特徴とする。
本発明は、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、前記ランドマークデータを出力するステップ、前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させるためのプログラムである。本発明によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索することができる。
本発明によれば、たとえばスライドが提示されない状況においても、発話記録を容易に検索することができる情報処理装置、情報処理方法およびプログラムを提供できる。
以下、本発明を実施するための最良の形態について説明する。
第1実施例について説明する。図1は、本発明の第1実施例による会議情報検索装置(情報処理装置)1の構成を示すブロック図である。図1に示すように、会議情報検索装置1は、音声入力部21〜2n、A/D変換部3、音声データ合成装置(MIX)4、情報格納部5、映像入力部6、発話履歴獲得部7、時間情報付与部8、ランドマークジェネレータ9、ランドマークイベント履歴獲得部10、サムネイル付き発話チャート生成部12、表示部13、指示入力部14、検索制御部15、映像再生部16および音声再生部17を備える。本実施例では、会議で取得した音声信号および映像信号を用いて説明する。図4は、ランドマーク付き発話チャートの表示例を示す図である。図4において、参照符号13は表示部、131は発話チャート、132はランドマークのサムネイル表示領域、L1〜L10はランドマークのサムネイルをそれぞれ示す。
会議情報検索装置1は、会議中に、特定のタイムスケジュールにそって一連のランドマークを切り換えて出力し、検索時には先ほど出力したランドマークを発話チャートに対応させて出力することによって、適当なランドマーク事象がない会議・打ち合わせ場面でも、発話記録のなかから任意の発話記録を容易に検索することができるようにするものである。
音声入力部21〜2nはマイクロホンで構成され、会議中の音声信号を入力するためのものである。会議中の発話(音声)は、参加者に装着された個々の音声入力部21〜2nから入力される。音声入力部21〜2nからの音声信号は、A/D変換部3においてディジタル信号に変換された後、音声データ合成装置4によって合成される。合成された音声信号は、情報格納部5に格納される。映像入力部6は、例えばディジタルビデオカメラで構成され、会議中の映像データ(音声信号を得た空間を撮影した映像信号)が記録される。この結果は、音声信号と関連付けられて情報格納部5に格納される。情報格納部5は、発話データの発話の開始時刻と終了時刻に合ったランドマークデータを、発話データに関連付けて記憶する。
発話履歴獲得部7は、発話データ抽出部71および発話履歴情報作成部72を備える。音声入力部21〜2nから入力された音声信号は発話データ抽出部71に送られる。この発話データ抽出部71は、音声入力ソースである音声入力部21〜2n)を特定してそのIDを取得する。また、発話データ抽出部71は、音声信号から発話部分の切り出し処理を行って、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する。
また、発話データ抽出部71は、音声信号から一定時間枠ごとに音量情報を獲得し、ある閾値音量以上の音声が一定時間以上継続した場合に発話として同定する。発話データ抽出部71は、発話同定後に、その音量レベルがたとえ閾値音量を低下した場合でも、それが予め規定した時間(0.5秒)を超えない場合には、音声入力ソースに変更が無い限り、「発話は持続している」と見なす補正処理を行う。そして、発話データ抽出部71は、個々の発話に対して、音声入力ソースID、発話開始、発話終了に関する信号を発話履歴情報作成部72に送る。発話履歴情報作成部72は、発話イベントID(発話番号)、発話者ID、発話開始時刻および発話終了時刻を獲得するためのものである。
発話履歴情報作成部72は、発話開始信号を得ると、累積カウンターを用いて、発話が同定されるたびに発話順序に一致した番号(発話イベントID)を生成するとともに、そのときの時間情報(発話開始時刻;年日時分秒)を時間情報付与部8から獲得する。つぎに、発話履歴情報作成部72は、音声入力ソースIDを「音声入力ソースID/発話者ID対応表」と照合することによって発話者IDを獲得する。発話履歴情報作成部72は、発話終了信号を受けた場合には、時間情報付与部8から時間情報(発話終了時刻)を獲得する。
ランドマークイベントジェネレータ9は、所定の時間間隔で、会議中に視覚刺激や聴覚刺激(ランドマーク)のもとになるランドマークデータを生成するものである。ランドマークジェネレータ9は、ランドマークイベント生成部91、イベント生成制御部92、時間管理部93およびランドマークイベント出力部94からなる。ランドマークイベント生成部91は、ランドマークイベントデータを格納するイベントデータ格納部911と、イベント生成制御部92からの要求信号に応じて特定のランドマークデータを検索するための検索部912からなる。イベント生成制御部92は、どのランドマークデータをいつ、どのくらいの時間提示するかのランドマークイベントの提示タイミングを制御するためのプログラムである。このプログラムは、利用者によって随意に変更できる。
時間管理部93は、ランドマークイベントの提示タイミング(提示開始、終了時刻)を計時・管理するためのものである。ランドマークイベント出力部94は、ランドマークイベント生成部91によって生成されたランドマークデータを出力する。ランドマークが映像や画像の場合、ランドマークイベント出力部94は、ランドマークデータを表示部13とは異なるディスプレイやプロジェクターに出力する。ランドマークが音楽、音響、音声の場合、ランドマークイベント出力部94は、ランドマークデータを図示しないスピーカに出力する。
ランドマークイベントジェネレータ9によって生成された一連のランドマークデータを、会議室に設置された大型のディスプレイ(&スピーカ)出力して、提示してもよいし、参加者個々人が所有する携帯型パーソナルコンピュータのディスプレイの背景画面として表示してもよい。静止画像の代わりに動画映像を提示したり、また音楽(BGMとして)を一定時間ごとに変えて流したりしてもよい。ユーザは、ランドマークイベント生成部91によって生成された映像、画像または音声のランドマークを記憶しておくことにより、後で必要な発話を簡単に検索することができる。
ランドマークイベント履歴獲得部10は、ランドマークイベント履歴情報作成部101およびサムネイル獲得部102からなる。ランドマークイベント履歴情報作成部101は、ランドマークイベント生成部91から送られる制御信号に基づいて、ランドマークイベントID(イベント番号)、イベント開始時刻およびイベント終了時刻を獲得する。時間情報付与部8は、イベント開始時刻およびイベント終了時刻を提供する。サムネイル獲得部102は、ランドマークが映像、画像の場合、その縮約された画像(サムネイル)を獲得する。これは、ランドマークイベントIDから原データを獲得し、これに縮約処理を施す。獲得されたサムネイルは、ランドマークイベントIDと関連付けられて、情報格納部5に格納される。この際、サムネイル格納先アドレス情報を取得し、インデックス情報統合処理部11へ送る。
インデックス情報統合処理部11は、発話データに対してランドマークデータを索引として付与するものである。また、インデックス情報統合処理部11は、発話履歴情報作成部72で獲得された発話イベントID(発話番号)、発話者ID、発話開始時刻および発話終了時刻を統合インデックスファイルに書き込む。一方、インデックス情報統合処理部11は、ランドマークイベント履歴情報作成部101から送られてくるランドマークイベントID(イベント番号)、イベント開始時刻およびイベント終了時刻を、またサムネイル獲得部102から送られてきたサムネイル格納先アドレス情報を統合インデックスファイルに書き込む。統合インデックスファイルは、情報格納部5に格納される。
図2は、統合インデックスファイルの構成例を示す図である。図2に示すように、統合インデックスファイル内には、3つのランドマークイベント(LM Stim1〜3)と、7つの発話(U1〜7)に対応するインデックスデータが格納されている。さらに、情報格納部5は、発話データに関連付けて音声信号および映像信号を格納している。これにより、ランドマークデータを記憶しておくことで、必要な音声信号および映像信号を検索することができる。
ランドマークサムネイル付き発話チャート生成部12は、発話の開始時刻と終了時刻を用いて発話をセグメント化した発話セグメントH1、H2を視覚化した発話チャート132にランドマーク(ここではランドマークのサムネイル)L1〜L10を対応させて表示する。ランドマークサムネイル付き発話チャート生成部12は、情報格納部5に格納された統合インデックスファイル内のデータにもとづいてランドマークサムネイル付き発話チャート132を生成する。これは、ランドマークサムネイル表示領域131のタイムチャート上に、個々の発話とランドマークサムネイルL1〜L10を配置するための処理である。個々の発話は、開始時刻と終了時刻にもとづいてタイムライン上に配置される。したがって、個々の発話は、発話持続時間の長さに対応した発話セグメントとして可視化される。これらは、発話者IDの違いに応じて異なる位置に配置してもよい。また、ランドマークイベントサムネイルL1〜L10も、個々の開始時刻と終了時刻にあわせてタイムライン上に配置される。
音楽の場合のサムネイルは、作曲者の写真と作品名を組み合わせたものを作成して利用すればよい。この場合、各サムネイルをクリックすると、音楽の冒頭部や最も印象的な旋律を再生できるようにすることが望ましい。また、音楽をランドマークイベントとして利用する場合、作曲年代、調、速さ、音量などが規則的に変化するように選曲して提示してもよい。
表示部13は、ランドマークサムネイル付き発話チャート生成部12によって生成されたランドマークサムネイル付き発話チャート132を表示する。利用者は、発話チャート132上の発話セグメントHやランドマークサムネイルL1〜L10を指示入力部14によって指示することによって検索要求を行う。検索制御部15は、指示入力部14による検索要求に基づいて、ランドマークデータを検索キーとして、情報格納部5を参照して、音声信号および映像信号を検索する。具体的には、たとえば、発話チャート132上の発話セグメントHを指示(例えば、マウスでクリック)することによってそれに対応する音声・映像データを検索することができる。検索された映像信号は、映像再生部16で再生でき、検索された音声信号は、音声再生部17で再生できる。
本実施例によれば、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索することができる。
次に、第2実施例について説明する。第2実施例は、第1実施例で説明したランドマークジェネレータの変形例である。また、図1及び図4も参照しながら説明する。
図3は、本実施例によるランドマークイベントジェネレータの構成を示す図である。図3に示すように、ランドマークイベントジェネレータ209は、表示スケジュール変更手段210、画像データベース220、画像検索制御部230、タイマー240、表示部250および表示履歴作成部260を備える。
表示スケジュール変更手段210は、ユーザが表示スケジュールを変更するものである。画像データベース220は、表示スケジューラー221、画像ファイル222、サムネイル画像ファイル223およびインデックスファイル224を備える。表示スケジューラー221は、表示を管理するものである。画像ファイル222は、画像データを保持し、この画像データは、電子百科事典のデータから取得したもので、項目の名称、解説、写真から構成されるページからなる。サムネイル画像ファイル223はサムネイル画像を保持する。このサムネイル画像は、各ページ内の写真を縮約化したもので、予め作成して提示順序順に配列し、格納しておく。インデックスファイル224は、画像ファイルのインデックスおよびサムネイル画像ファイルのインデックスを保持する。
画像検索制御部230は、画像ファイル223内のページを会議中に一定時間間隔(1分おき)で画像データベース220より画像データを検索し、その画像データに基づくランドマークをたとえば会議室に設置されたディスプレイに提示する。ユーザは、ディスプレイに表示されたランドマークを記憶しておき、このランドマークを後で検索するときに思い出す。表示履歴作成部260は、表示部250による表示履歴情報を作成し、作成した表示履歴情報をイベント情報統合処理部11に提供する。イベント情報統合処理部11は、表示履歴作成部260から得た表示履歴情報を他のイベント情報に統合する処理を行う。
また、サムネイル付き発話チャート生成部12は、図4に示すように、項目の名称の頭文字に従って「あいうえお」順にランドマークL1〜L10を提示していく。ここで、各かなに対応するランドマークLを3枚ずつ連続させて提示する(3分)。すなわち、最初の3分間では、「あ」の頭文字の項目を3つ提示し、その後で「い」の頭文字の項目を3つ提示し、さらに「う」、「え」、「お」と選択して順次提示していく。本来、ランドマークLは、利用者の記憶に残りそうなものであれば、どのようなものでもよく、またそれらの提示順序もランダムでも構わないが、上述のような配慮を行ったのは、想起した画像内容が、会議中のどのあたりに提示されたものなのかを即座に判断できるようにするためである。
したがって、「あいうえお」順のほかにも、時間的順序関係が容易に把握できるような様々な画像選択が可能である。例えば、アルファベット順、歴史、成長、発展、完成や成功までのプロセス、季節変化、空間位置の移動、ストーリ構造にそったかたちで、画像を体制化して、提示していく方法も考えられる。
このようにして、ランドマークイベントジェネレータ209は、所定の規則に従って、所定の時間内にランドマークデータを複数個生成する。所定の規則には、上述したように、かな順およびアルファベット順が含まれる。
利用者は、発話チャート132上の発話セグメントHやランドマークサムネイルL1〜L10を指示入力部14によって指示することによって検索要求を行う。検索制御部15は、指示入力部14による検索要求に基づいて、ランドマークデータを検索キーとして、情報格納部5を参照して、音声信号および映像信号を検索する。具体的には、たとえば、発話チャート132上の発話セグメントHを指示することによってそれに対応する音声・映像データを検索することができる。検索された映像信号は、映像再生部16で再生でき、検索された音声信号は、音声再生部17で再生できる。また、発話データ抽出部71は、発話データを話者毎に抽出し、サムネイル付き発言チャート生成部12は、話者毎に抽出された発話データに基づいて、図4に示すように、話者毎(J、K、M、T)に発話セグメントHを発話チャート132に表示することで、話者ごとに必要な発話を検索することができる。
次に、第3実施例について説明する。上記実施例では、提示されるランドマークの内容は会議の議題や参加者の発話に依存せずに決定される。このためランドマークと、会議での議題/発話との関連性が保証されない。実施例3では、参加者の発話や会議中に表示された文書内容に関連した画像/映像/音響を選択して表示する方式を実現することにより、ランドマークと議題/発話とが関連するようにする。この関連性により、検索時にランドマークを見ただけで、発話内容が推察できるようにする。同時に、会議における討議や思考展開に対して有益な情報(発想刺激)が提示されるようにできる。
図5は、本発明の第3実施例による会議情報検索装置200の構成を示すブロック図である。図5に示すように、会議情報検索装置200は、音声入力部21〜2n、A/D変換部3、音声データ合成装置(MIX)4、情報格納部5、映像入力部6、発話履歴獲得部207、時間情報付与部8、ランドマークジェネレータ209、ランドマークイベント履歴獲得部10、サムネイル付き発話チャート生成部12、表示部13、指示入力部14、検索制御部15、映像再生部16および音声再生部17を備える。発話履歴獲得部207は、発話データ抽出部71、発話履歴情報作成部72および音声認識部73を備える。上記実施例と同一箇所については同一符号を付して説明する。
音声認識部73は、発話データ抽出処理の後、入力された音声信号に対して音声認識処理を行い、キーワードを抽出し、抽出したキーワードを検索クエリ情報として、イベント生成制御部92へ送る。ランドマーク生成部91は、キーワード検索によって生成されるランドマーク刺激が、参加者の発話や発想を促すための知的刺激として機能するようにするため、電子化された百科事典、専門用語辞典、新聞の記事データベースを備える。ランドマークイベント生成部91は、キーワードに基づいて、上記記事データベースを参照して、写真や図を含む情報を検索することによってランドマークデータを生成する。すなわち、ランドマークイベント生成部91は、イベント生成制御部92から取得したキーワードにマッチするランドマークデータ(画像や音楽)を選択してランドマークイベント出力部94を介して表示部13で表示する。イベント生成制御部92は、あらかじめ決めたタイムスケジュールに沿って一定時間のみ音声認識結果であるキーワードを検索クエリとして許容することで、ランドマークイベントの頻繁な生成を回避する。また、音声認識部73は、音声認識処理の結果を、発話履歴情報作成部72に送り、インデックスデータとして登録する。これにより、図4の発話チャート132やランドマークサムネイルL1〜L10などの周辺にこのキーワードを表示するように構成でき、さらに、発話のキーワード検索も可能になる。
次に、第4実施例について説明する。会議中に提示されるランドマークが会議での発話状況(誰がどのくらい活発に発話したか)を反映したものであれば、参加者にとっては有用な情報になるし、発話量の少ない参加者からの発話が活発化する可能性がある。そこで、第4実施例では、会議参加者の発話量に応じて、内容や位置が変化するようなランドマークデータを生成し、同時にそれをランドマークとして利用できるようにしたものである。
図6は、本発明の第4実施例に係る会議情報検索装置300の構成を示す図である。図6に示すように、会議情報検索装置300は、音声入力部21〜2n、A/D変換部3、音声データ合成装置(MIX)4、情報格納部5、映像入力部6、発話履歴獲得部307、時間情報付与部8、ランドマークジェネレータ309、ランドマークイベント履歴獲得部10、サムネイル付き発話チャート生成部12、表示部13、指示入力部14、検索制御部15、映像再生部16および音声再生部17を備える。発話履歴獲得部307は、発話データ抽出部71、発話履歴情報作成部72および発話量算定部74を備える。ランドマークイベントジェネレータ309は、変更値算定部310、画像変更処理部311、画像データ格納部312、画像出力部313、提示インターバル設定部314、時間管理部315を備える。なお、上記実施例と同一箇所については同一符号を付するものとしてその説明を省略する。
提示インターバル設定部314、ランドマークイベントの提示間隔時間(例えば、5分間)を設定するためのものである。時間管理部315は、タイマーであり、提示間隔時間を計時し、時間が来るたびに、発話量算定部74に信号を送る。発話量算定部74は、情報格納部5に格納された発話履歴データにもとづいて、各参加者の発話量を算定する。変更値算定部310は、参加者ごとに算定された発話持続時間(インターバル内総発話時間)にもとづいて、ランドマークとなる写真画像の大きさ(解像度)を決定する。この写真画像の大きさは、最大長(最大解像度)×インターバル内総発話時間×定数で決定する。
画像データ格納部312は、ランドマークデータとなる写真画像データを格納する。画像変更処理部311は、発話量に基づいて、ランドマークデータとなる写真画像データを生成するものであり、より詳細には、画像データ格納部312を参照し、変更値算定部310によって算定された解像度に従ってランドマークとなる参加者の写真の大きさを変更したうえで、提示配列を決定する。
画像出力部313は、画像変更処理部311によって大きさの変更された画像データをランドマークデータとして出力する。サムネイル獲得部102は、各時間間隔で提示された顔写真の配列のサムネイル画像を取得し、これを情報格納部5に格納する。
次に、発話量算定部74による発話量の算定方法について説明する。発話量算定部74は、発話量を以下のようにして算定する。
(1)算定のための時間範囲を、現時刻から設定された時間間隔分(例えば5分)だけ過去の時間範囲に設定する。たとえば、発話量算定部74は、時間間隔分を5分とした場合、現時刻が「11時10分」のとき、「11時5分〜11時10分」までを算定のための時間範囲とする。
(2)上記時間範囲においてなされた発話のすべてを抽出する。
(3)発話が設定時間より以前に開始された発話を抽出し、発話開始時刻を設定の初端時刻に置き換える。同様に現在続行中の発話も、現時刻を終端時刻として設定する。たとえば設定時間が「11時5分」の場合、発話開始時刻を設定の初端時刻「11時5分」に置き換える。
(4)全ての発話に関して、発話開始時刻と発話終了時刻から発話持続時間を算定する。
(5)参加者ごとに発話を分類し、個々の発話持続時間を総計する(インターバル内総発話時間)。
図7は、ランドマーク付き発話チャートの表示例を示す図である。図7において、参照符号13は表示部、132は発話チャート、133はランドマークのサムネイル表示領域をそれぞれ示す。サムネイル付き発話チャート生成部12は、発話者J、M、K、Tの顔画像をランドマーク(ここではサムネイル)L11〜L14として用いて、発話量に応じてランドマークL11〜L14の大きさを変化させている。また、サムネイル付き発話チャート生成部12は、発話量に応じてランドマークとL11〜L14の明るさ、色、透明度、傾き、表示位置、動画の場合には動きの速さや方向などの属性を変化させてよい。また、ランドマークは、顔画像でなくてもかまわない。さらに、発話量に代えて、発話数、発話交代数、沈黙時間などをもとにランドマークとなる表示画像の属性を変えてもよい。個々の参加者の発話量でなく、参加者全員の発話量から画像を変化させてもよい。たとえばモナリザの微笑みの画像のジグソーパズルが、発話量が増えるにしたがって完成していくようなかたちのものも可能である。
このようにして、一定のインターバルごと(例えば5分経過ごと)に各会議参加者の発話量を算定して、その算定結果にもとづいてランドマークとなる会議参加者の顔写真の大きさを変化させた画像を表示することで、これをランドマーク刺激として機能させる。会議中に参加者はこの画像を見ることによって、ある時間帯において誰が発話量が多く、誰が少ないかを知ることができる。そして、検索時に、これをランドマーク手がかりとして利用することによって音声や映像の検索を行うことができる。例えば「あの発話は、AさんとBさんの写真が大きく映し出された直後の発話だった」というように、発話の絞込みが可能になる。
実施例4では、一定のインターバルごとの各参加者の発話時間に依存させて発話者の顔写真の大きさを変化させたが、実施例5では、ランドマークジェネレータにおいて、「樹木」の画像を生成して、それを参加者全員の累積発話回数に依存させて成長させて表示する例について説明する。第5実施例では、第4実施例で説明した図6の会議検索装置300を用いて説明する。図8は、第5の実施例において利用した樹木曲線生成アルゴリズムを適用したランドマーク図形の生成例である。図8において、参照符号401は樹木、402は幹、403は枝、404は花、405は果実を示す。
発話回数は、図6の発話量算定部74に含まれる累積発話回数算定部(図示せず)によって算定される。この算定は、発話履歴情報作成部72によって作成された発話履歴情報を参照して、会議開始時から現在までの発話を話者を問わずに累積することによって行なわれる。画像変換処理部311は、発話データに基づいて、ランドマークとなる樹木を成長させるようにランドマークデータを生成する。
図8に示すように、樹木の画像は、「樹木曲線」生成アルゴリズムを使って画像変更処理部311によって生成される(詳しくは、山本芳人「Java(登録商標)による図形処理入門」、工学図書)。これは、幹(一定の長さ)に対する枝分かれの本数、枝の長さ(幹に対する長さの比)、枝分かれの角度を規定して、再帰的な描画を繰り返して樹木を生成するものである。ここでは、会議における発言累積数をカウントして、発言回数が5ずつ増えるごとに、描画の「再帰回数(再帰の深さ)」を1つずつ増やすことによって樹木を成長させて周辺ディスプレイに表示させる方法を用いる。ただし、再帰回数が10以上になった場合には、再帰的な描画をやめて、図8に示すように、「花」や「果実」を再帰回数10によって描かれた樹形図に付加して表示してもよい(この場合、花や果実の数は、発言量に比例させて変化させる)。この処理の流れをまとめると、以下のようになる。
・発言数0〜4のとき、木は表示されない
・発言数5のとき、樹木曲線アルゴリズム(枝分かれ本数=2、幹に対する枝の長さの比=0.7、枝分かれの角度=15度)に対して、再帰回数=1で描画処理を実行し、表示する。次のステップに移るまで表示しつづける。
・発言数5×nのとき、前記の樹木曲線アルゴリズムに対して、再帰回数=2で描画処理を実行し、表示する。ただし、n=11になったら、次に進む。
・発言数が5ずつ増えるごとに、樹木曲線アルゴリズム(枝分かれ本数=2、幹に対する枝の長さの比=0.7、枝分かれの角度=15度、再帰回数=10)で描画処理を行い、さらに「花」か「果実」のグラフィックスを1個ずつ追加して表示する。
図9は、「樹木曲線」生成アルゴリズムを使って生成した樹木図形をサムネイル化して、発話チャートとともに表示した例を示す図である。
図9において、参照符号132は発話チャート表示領域、133はランドマークサムネイル表示領域、Hは発話セグメント、L21〜L25は図8で説明した樹木に対するランドマークサムネイルである。樹形や、花や果実の数を手がかりにして、会議映像や発話シーンの選択が可能になる。例えば、「探そうとしている発言シーンは、木に花がはじめて咲いたときだった」ということを憶えていたのなら、そのサムネイル(木に花がひとつ付いたもの)を見つけて、これに対応した発話チャートの発話セグメントHをクリックすれば、ビデオ映像が再生される。このようにしてランドマークサムネイルL21〜L25を検索手掛かりに利用できる。
なお、上記の例では、発言数に依存して樹形や花・果実の数を変化させたが、会議における総発言時間、発言交代数、対話回数、対話時間に依存させて樹形や花・果実の数を変化させてもよい。また参加者一人ずつに1本の木に対応づけて表示してもよいし、参加者全員分の発言数、発話交代数などを通算して、1本の木として表示しても良い。参加者一人ずつに1本の木に対応付けて表示する場合は、木の種類が変わるようにパラメータを設定する。また、発言者が異なるごとに、描画の際の増分部分の枝の色を変化させてもよいし、花や果実の種類や色を変えてもよい。このようにすることにより、色や形態の違いによって、誰が会議中のどこで発言したのか樹木を見ればわかるようになる。さらに、「樹木曲線」生成アルゴリズムにおいて、枝の分岐数、枝の長さ、幹に対する枝の長さの比のうちのひとつの変数をランダム値として、樹形の描画にバリエーションを与えても良い。さらに、「樹木曲線」生成アルゴリズムを適用せずに、樹木もしくはその他の動植物の生育状況をステップごとに記録した写真画像や画像を用いて、それらを発言数の変化に合わせて切り換えて表示してもよい。
従来は、会議中に自然に、あるいは必然的に生じた事象(例えば、スライド提示、発話中の顔写真、ホワイトボードへの板書など)をランドマークとして利用しており、そうした事象がない時にはランドマーク刺激を生成して利用するという考えはなかった。そこで、本発明では、検索の際にランドマークとして機能しそうな刺激(映像、音楽、音声、照明など)を、会議中に故意に生成して会議参加者に提示する。そして、従来技術と同様に発話チャート内のタイムラインに沿ってランドマーク(サムネイルや音声クリップなど)を挿入して表示する。これにより、適当なランドマーク事象がない会議・打ち合わせ場面でも、ユーザは出力されたランドマークを記憶しておくことにより、発話記録(音声・映像情報)のなかから任意の発話記録を容易に検索することができる。したがって、ランドマーク刺激を故意に生成して利用する点が、従来のランドマーク事象を用いた検索手法とは異なる。
なお、本発明による情報処理与法は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を用いて実現され、プログラムをハードディスク装置や、CD−ROM、DVDまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、CPUがこのプログラムを実行することで、各ステップが実現される。すなわち、プログラムは、入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、前記ランドマークデータを出力するステップ、前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明の第1実施例による会議情報検索装置1の構成を示すブロック図である。 統合インデックスファイルの構成例を示す図である。 本実施例によるランドマークイベントジェネレータの構成を示す図である。 ランドマーク付き発話チャートの表示例を示す図である。 本発明の第3実施例による会議情報検索装置1の構成を示すブロック図である。 本発明の第4実施例に係る会議情報検索装置の構成を示す図である。 第4実施例による発話チャートを示す図である。 第5の実施例において利用した樹木曲線生成アルゴリズムを適用したランドマーク図形の生成例である。 第5の実施例による発話チャートを示す図である。
符号の説明
1、200、300 会議情報検索装置
2 音声入力部
5 情報格納部
6 映像入力部
7 発話履歴獲得部
71 発話データ抽出部
72 発話履歴情報作成部
8 時間情報付与部
9、209 ランドマークイベントジェネレータ
91 ランドマーク生成部
92 イベント生成制御部
93 時間管理部
94 ランドマークイベント出力部
10 ランドマークイベント履歴獲得部
101 ランドマークイベント履歴情報作成部
102 サムネイル獲得部

Claims (20)

  1. 入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出する抽出手段と、
    所定の時間間隔でランドマークデータを生成する生成手段と、
    前記生成手段が生成したランドマークデータを出力する出力手段と、
    前記発話データに対して前記ランドマークデータを索引として付与する付与手段とを備えることを特徴とする情報処理装置。
  2. 前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記音声信号を入力する音声入力手段と、
    前記発話データおよび前記音声信号を前記ランドマークデータに関連付けて記憶する記憶手段とをさらに備えることを特徴とする請求項1に記載の情報処理装置。
  4. 前記音声信号を得た空間を撮影した映像信号を入力する映像入力手段と、
    前記発話データおよび前記映像信号に前記ランドマークデータを関連付けて記憶する記憶手段とをさらに備えることを特徴とする請求項1に記載の情報処理装置。
  5. 前記入力された音声信号からキーワードを抽出する音声処理手段をさらに備え、
    前記生成手段は、前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする請求項1に記載の情報処理装置。
  6. 前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも1つを算出する算出手段をさらに備え、
    前記生成手段は、前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも1つに基づいて、前記ランドマークデータを生成することを特徴とする請求項1に記載の情報処理装置。
  7. 前記生成手段は、音楽、音響および音声の少なくとも一つを前記ランドマークとして生成することを特徴とする請求項1に記載の情報処理装置。
  8. 前記生成手段は、映像および画像の少なくとも一方を前記ランドマークとして生成することを特徴とする請求項1に記載の情報処理装置。
  9. 前記ランドマークは、前記ランドマークのサムネイルであることを特徴とする請求項2に記載の情報処理装置。
  10. 前記生成手段は、所定の規則に従って、前記ランドマークデータを生成することを特徴とする請求項1に記載の情報処理装置。
  11. 前記生成手段は、所定の規則に従って、所定の時間内に前記ランドマークデータを複数個生成することを特徴とする請求項1に記載の情報処理装置。
  12. 前記所定の規則は、かな順およびアルファベット順の少なくとも一方であることを特徴とする請求項10または請求項11に記載の情報処理装置。
  13. 前記抽出手段は、前記発話データを話者毎に抽出し、
    前記表示手段は、前記話者毎に抽出された発話データに基づいて、話者毎に発話セグメントを前記発話チャートに表示することを特徴とする請求項1に記載の情報処理装置。
  14. 前記生成手段は、前記発話データに基づいて、前記ランドマークを成長させるように前記ランドマークデータを生成することを特徴とする請求項1に記載の情報処理装置。
  15. 発話データの該発話の開始時刻と終了時刻に合ったランドマークデータを、該音声信号および該音声信号取得時の映像信号の少なくとも一方に関連付けて記憶する記憶手段と、
    前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示する表示手段と、
    前記ランドマークデータを検索キーとして、前記音声信号および前記映像信号の少なくとも一方を検索する検索処理手段と
    を備えることを特徴とする情報処理装置。
  16. 入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップと、
    前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップと、
    前記ランドマークデータを出力するステップと、
    前記発話データに対して前記ランドマークデータを索引として付与するステップとを有することを特徴とする情報処理方法。
  17. 前記発話の開始時刻と終了時刻を用いて前記発話をセグメント化した発話セグメントを視覚化した発話チャートに前記ランドマークを対応させて表示するステップをさらに有することを特徴とする請求項16に記載の情報処理方法。
  18. 前記入力された音声信号からキーワードを抽出するステップをさらに有し、
    前記キーワードに基づいて、前記ランドマークデータを生成することを特徴とする請求項16に記載の情報処理方法。
  19. 前記発話データに基づいて、発話量、発話数、発話交代数および沈黙時間のうち少なくとも1つを算出するステップをさらに有し、
    前記発話量、前記発話数、前記発話交代数および前記沈黙時間のうち少なくとも1つに基づいて、前記ランドマークデータを生成することを特徴とする請求項16に記載の情報処理方法。
  20. 入力された音声信号に基づいて発話の開示時刻と終了時刻を少なくとも含む発話データを抽出するステップ、
    前記発話の開始時刻と終了時刻に合ったランドマークデータを生成するステップ、
    前記ランドマークデータを出力するステップ、
    前記発話データに対して前記ランドマークデータを索引として付与するステップをコンピュータに実行させるためのプログラム。
JP2005081384A 2005-03-22 2005-03-22 情報処理装置、情報処理方法およびプログラム Pending JP2006268089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005081384A JP2006268089A (ja) 2005-03-22 2005-03-22 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005081384A JP2006268089A (ja) 2005-03-22 2005-03-22 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006268089A true JP2006268089A (ja) 2006-10-05

Family

ID=37204045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005081384A Pending JP2006268089A (ja) 2005-03-22 2005-03-22 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2006268089A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
JP2018049140A (ja) * 2016-09-21 2018-03-29 富士通株式会社 音声分析プログラム、音声分析装置、及び音声分析方法
CN113360223A (zh) * 2020-03-06 2021-09-07 株式会社日立制作所 讲话辅助装置、讲话辅助方法及记录介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060326A (ja) * 2007-08-31 2009-03-19 Sony Corp 撮影装置および撮影方法、情報処理装置および情報処理方法、並びにプログラム
US8059167B2 (en) 2007-08-31 2011-11-15 Sony Corporation Shooting apparatus and shooting method, and program
JP2018049140A (ja) * 2016-09-21 2018-03-29 富士通株式会社 音声分析プログラム、音声分析装置、及び音声分析方法
CN113360223A (zh) * 2020-03-06 2021-09-07 株式会社日立制作所 讲话辅助装置、讲话辅助方法及记录介质

Similar Documents

Publication Publication Date Title
CN110249387B (zh) 用于创建伴随视觉影像的音频轨的方法
CN103620545B (zh) 媒体集合的分级、可缩放呈现
US9753925B2 (en) Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
KR101329266B1 (ko) 관련된 오디오 반주를 찾도록 디지털 영상들의 컨텐트특징들과 메타데이터를 사용하는 시스템 및 방법
US8548249B2 (en) Information processing apparatus, information processing method, and program
TW201545120A (zh) 自動產生編譯視訊
WO2008014408A1 (en) Method and system for displaying multimedia content
US20190034455A1 (en) Dynamic Glyph-Based Search
TW201606538A (zh) 依日期組織影像
JP2008084021A (ja) 動画シナリオ生成方法、プログラムおよび装置
JP2006268089A (ja) 情報処理装置、情報処理方法およびプログラム
CN106162376A (zh) 一种多媒体自动编辑为视频播放文件的方法及装置
Zähres Broadcasting your variety
Chu et al. Tiling slideshow: an audiovisual presentation method for consumer photos
Rokeby Perspectives on Algorithmic Performance through the Lens of Interactive Art
Colangelo Hitchcock, Film Studies, and New Media: The Impact of Technology on the Analysis of Film
JP2009081733A (ja) 画像再生装置、及びプログラム
Corey Siting the Artist’s Voice
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置
JP6638281B2 (ja) 情報処理装置及びプログラム
TWI220483B (en) Creation method of search database for audio/video information and song search system
JPH08235209A (ja) マルチメディア情報処理装置
JP2007143030A (ja) ビデオコンテンツ作成装置
TWI496472B (zh) 背景影像提供系統、方法、電腦程式產品、電腦可讀取儲存媒體、點綴物件提供系統、方法及網路伴唱系統
JP2023122236A (ja) セクション分割処理装置、方法およびプログラム