JP3879793B2

JP3879793B2 - 発言構造検出表示装置

Info

Publication number: JP3879793B2
Application number: JP05976298A
Authority: JP
Inventors: 隆大澤; 浩桂林; 恵理子田丸
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-03-11
Filing date: 1998-03-11
Publication date: 2007-02-14
Anticipated expiration: 2018-03-11
Also published as: JPH11259501A

Description

【０００１】
【発明の属する技術分野】
この発明は、会議における参加者の発言の構造を検出し、表示する発言構造検出表示装置に関する。
【０００２】
【従来の技術】
発言の構造化を広い意味でとらえるならば、発言を他の情報と結び付けることで発言を構造化する技術と、発言情報そのものから発言を構造化する技術とがあると考えられる。
【０００３】
前者の従来の技術として、特開平６−３４３１４６号公報、特開平７―２２６９３１号公報、特開平６−２０５１５１号公報、特開平６−１７６１７１号公報、特開平７−１８２３６５号公報、Ｍａｒｑｅｅ：ＡＴｏｏｌＦｏｒＲｅａｌ−ＴｉｍｅＶｉｄｅｏＬｏｇｇｉｎｇ（ＣＨＩ´９４ＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ）などに記載されている会議システムがある。
【０００４】
これらの会議システムでは、会議などの音声・映像などのマルチメディア情報を記録する一方で、会議参加者のペン入力やキーボード入力などの入力情報と、その入力時刻を記録し、後でその入力時刻を利用してその入力情報に関連するマルチメディア情報を再現できるような仕組みが備えられている。これは、発言情報同士を構造化するわけではないが、発言情報をユーザ入力情報と関連付けて構造化する技術である。
【０００５】
市販のカセットテープレコーダやミニディスクレコーダなどにも、記録中に重要な情報を記録している時に、後で重要箇所を検索し易くするように付箋（トラックマーク）をつけられるようなボタンが具備されているものがあるが、この種の技術も、関連のある従来技術として位置づけられる。
【０００６】
一方、後者、すなわち発言情報そのものから発言を構造化する技術として、音声認識を行うアプローチがある。会議や講演会のような場面で発せられる、ごく自然な人間の発話を認識し、理解することは現状では、極めて困難である。そこで、例えば、ワードスポッティング法のような技術を用いて、キーワードを検出、その結果を用いて、発言を構造化するものである。
【０００７】
また、発言の状況を視覚化して、それによって人間に発言の状況を把握し易くする方法もある。この技術では、発言の構造化を機械が行うわけではないが、人間が発言を構造化するのを支援する技術として位置づけられる。
【０００８】
その代表的な例として、特開平８−３１７３６５号公報に記載の電子会議装置がある。この装置では、各発言者の各発言の記録量の大きさを横軸にとり、縦軸に会話の順序を示すグラフ表示領域を設けることで、発言の状況を視覚的に把握し易くしている。以後、時間軸の概念を持ち、更に発言の状況を示した図を発言者チャートと呼ぶ。
【０００９】
これに類似した発言者チャートは、研究論文の中にも見られる。例えば、「ＣＨＩ´９５ＭＯＳＡＩＣＯＦＣＲＥＡＴＩＶＩＴＹ」に紹介されている、ＤｏｎａｌｄＧ．Ｋｉｍｂｅｒらの研究論文である「ＳｐｅａｋｅｒＳｅｇｍｅｎｔａｔｉｏｎｆｏｒＢｒｏｗｓｉｎｇＲｅｃｏｒｄｅｄＡｕｄｉｏ」にも発言者チャートの情報が記載されている。
【００１０】
【発明が解決しようとする課題】
ところで、会議において、互いに関連のある発言相互の関係が発言者チャートに表示できると便利である。例えば、会議参加者Ａが、他の会議参加者Ｂに対して意見を述べたり、質問をぶつけた時に、会議参加者Ｂが、それに対して回答や反論を行うインタラクティブな場面が、チャートから判別できると、そこでは、何らかの議論があったことが分かり、記録された会議情報の検索者は、それを手掛かりとして、再生したい議論部分を、簡単に検索することができると期待される。
【００１１】
特に、３人以上の多人数の会議では、上述のようなインタラクションの高い発言構造区間もあれば、そうではなく、淡々と発言者が移っていく発言区間もある。このような場合に、上記のようなインターラクションの高い発言構造区間を容易に検出できれば、重要な会議情報部分へのアクセスが比較的簡単になると期待される。
【００１２】
しかしながら、上述した従来の技術の会議システムでは、複数の発言同志の関係を構造化するものではない。すなわち、従来の会議システムの前者の場合には、音声情報をユーザ入力情報と関連付けて構造化することは可能であるが、発言相互の関係を含む発言の流れを抽出することはできない。
【００１３】
また、ワードスポッティングのような技術から、重要な単語を拾い出したとしても、上述のような発言の流れを検出することは、極めて困難であり、人間と同程度の音声認識、理解能力がないと実現できない。
【００１４】
さらに、従来の発言者チャートでは、発言者の交代、発言の長さは分かるが、個々の発言の関連性、流れは分からない。例えば、ある人が発言をした後で、別の人が発言をしたことは、従来の発言者チャートでも把握し得るが、質問に対する回答などのような流れのあるやり取りがあったのか、あるいは単に発言者が移って新たな会話の流れを開始したのかは、従来の発言者チャートからは知ることはできない。
【００１５】
この発明は、以上の点にかんがみ、インターラクションの高い発言相互の関係が表示できるようにした発言構造検出表示装置を提供することを目的とする。
【００１６】
【課題を解決するための手段】
上記課題を解決するため、この発明による発言構造検出表示装置は、
発言者の音声を収音するための音声入力手段と、
前記音声入力手段からの音声信号から、発言者毎の発言区間を検出する発言区間検出手段と、
前記発言者毎の姿勢を検出する姿勢検出手段と、
前記音声入力手段からの音声情報を記録すると共に、前記発言区間検出手段で検出された発言者毎の発言区間の情報と、前記姿勢検出手段で検出された発言者毎の姿勢とを、対応付けて記録する音声・姿勢記録手段と、
前記音声・姿勢記録手段に記録された情報に基づいて、発言が誰に対するものであるかを特定する発言対象者特定手段と、
所定の時間区間における発言の流れを、前記音声・姿勢記録手段の記録情報と、前記発言対象者特定手段の結果に基づいて検出する発言流れ検出手段と、
前記発言流れ検出手段の検出結果に応じた表示情報を表示する表示手段と、
を備えることを特徴とする。
【００１７】
【作用】
上述の構成のこの発明によれば、単に、発言者の発言区間を時系列的に順次に並べるだけでなく、発言者毎の姿勢情報から、特定発言対象者特定手段により、発言が誰に対するものであるかが特定される。そして、発言の流れ検出手段で、発言が誰に対するものであるかの情報を反映した発言の流れが検出され、表示手段で、その発言の流れを示す表示情報が表示画面に表示される。
【００１８】
これにより、発言相互のインターラクションが高い部分を容易に検知でき、この表示情報を見るだけで、ユーザは、どのような発言経過があったのかを予測することが可能となる。したがって、会議の重要部分の検索など、必要な個所の検索に非常に役立つものである。
【００１９】
【発明の実施の形態】
以下、この発明による発言構造検出表示装置の実施の形態について、図を参照しながら説明する。以下に説明する実施の形態は、３人以上の多人数による対面型会議の会議情報記録再生装置に、この発明を適用した場合である。この発明による発言構造検出表示装置の実施の形態を説明する前に、図２を参照して、この例の対面型会議の概要を説明する。
【００２０】
会議参加者１のそれぞれは、視線検出用のセンサ２と、頭部の位置と方向とを検出するための３次元磁気センサ３を装着している。この実施例に用いた視線検出用センサ２は、角膜強膜反射法を用いたセンサを用いた。
【００２１】
また、会議参加者１の各人の音声を個別に収録するために、会議参加者のそれぞれには、マイクロフォン４が割り当てられている。
【００２２】
そして、各々の会議参加者１の視線検出用のセンサ２、３次元磁気センサ３およびマイクロフォン４から得られる情報は、会議情報記録再生用のパーソナルコンピュータ５に入力され、デジタル化されて、記録される。そして、このパーソナルコンピュータ５のソフトウエアとして、この発明の実施の形態の発言構造検出表示装置の要部が実現される。
【００２３】
図１に、この実施の形態の発言構造検出表示装置のブロック図を示す。この実施の形態の発言構造検出表示装置は、各会議参加者のマイクロフォン４からの音声信号を処理する音声情報処理部１１と、視線検出用のセンサ２と磁気センサ３を備える姿勢入力装置６からの姿勢情報を処理する姿勢情報処理部１２と、処理された音声情報および姿勢情報を記録する音声・姿勢記録部１３と、会議参加者や会議情報の検索者のユーザ入力を受け付けるユーザ入力部１４と、ユーザ入力に基づいて制御を行う制御部１５と、会議参加者のユーザ入力を記録するユーザ入力記録部１６と、音声・姿勢記録部１３の情報から発言の状況を視覚的に表現した発言者チャートを作成するチャート作成部１７と、ユーザ入力や発言者チャートなどの情報を表示する表示部１８と、記録された音声を再生する再生部１９と、再生音声を出力する音声出力部２０と、発言が誰に対するものであったかを特定する発言対象者特定部２１と、発言の流れを検出する発言流れ検出部２２とを備える。
【００２４】
音声情報処理部１１は、この例では、音声情報のデジタル化と、各会議参加者毎の発言の区間の検出を行う。デジタル化の部分は、いわゆるサウンドボードをパーソナルコンピュータに接続して構成する。各会議参加者毎の発言の区間の検出は、パーソナルコンピュータのソフトウエア処理で行う。すなわち、デジタル化された音声情報を処理し、会議中に誰がいつ発言したかを、ソフトウエア処理で検出するようにしている。
【００２５】
前述のように、この例では、会議参加者毎の音声を個別のマイクロホン４で収音するようにしており、マイクロホンと、各会議参加者との対応関係が予め認識されている。このマイクロホンと会議参加者の対応関係の情報は、予め、会議開始前に、各会議参加者などにより設定され、音声・姿勢記録部１３に記録されている。
【００２６】
そして、この例では、あるマイクロホンからの音声信号レベルが、予め定めた或るレベルＬ１以上であって、それが予め定めた或る時間Δｔ１以上継続した場合には、そのマイクロホンに対応する会議参加者が発言を開始したとみなし、また、その音声信号レベルが、予め定めた或る時間Δｔ２以上に渡って、予め定めた或るレベルＬ２以下であるときには、発言が終了したとみなして、発言区間を検出する。
【００２７】
図３に、各マイクロホン４からの音声信号についての発言区間検知処理のフローチャートを示す。また、図４に、この発言区間検知処理を説明するための概念図を示す。この例においては、図３の発言区間検出処理は、レベルＬ１以上の音声が検出されたときに起動される。なお、図４の説明図では、Ｌ１＝Ｌ２としている。しかし、レベルＬ１とレベルＬ２とは異なっていても勿論よい。
【００２８】
図３のフローチャートに示すように、まず、マイクロホンからレベルＬ１以上の音声が入力されると、ステップ１０１に進み、定められた時間Δｔ１以上に渡って、その定められた閾値レベルＬ１以上の音声が持続するか否かを監視する。もし、持続しなければ、それは発言とはみなされず、発言区間の検知処理ルーチンを終了する。
【００２９】
図４に示すように、時刻Ｔ１でステップ１０１の条件が満足されたと判別されると、ステップ１０２に進み、現在時刻Ｔ１の情報を取得して、発言開始時刻ｔｓを、ｔｓ＝Ｔ１−Δｔ１とし、その情報を音声・姿勢記録部１３に送って記録するようにする。
【００３０】
次に、ステップ１０３に進み、その音声信号レベルが、予め定めた或る時間Δｔ２以上に渡って、予め定めた或るレベルＬ２以下となったかを監視する。図４に示すように、時刻Ｔ２において、音声が、予め定められた時間Δｔ２以上、レベルＬ２を下回ったことが検出された場合、ステップ１０４へ進み、発言終了時刻ｔｅを、ｔｅ＝Ｔ２―Δｔ２とし、その情報を音声・姿勢記録部１３に送って記録するようにする。
【００３１】
図５に、音声・姿勢記録部１３の発言状況の記録情報である発言状況テーブルＴＢＬ１のデータ構造の一例を示す。「発言ＩＤ」のレコードは、検出された発言にシーケンシャルに付与された識別番号である。「発言者」のレコードは、発言が検出された会議参加者名である。なお、すべての会議参加者と、その識別情報とを記述した会議参加者テーブルを別に持つ場合には、この「発言者」のレコードは、参加者識別情報であってもよい。
【００３２】
「発言開始時刻」および「発言終了時刻」のレコードには、前述した発言区間検出処理により算出された発言開始時刻ｔｓおよび発言終了時刻ｔｅが記録される。なお、最後の「発言対象者」のレコードは、後述する発言対象者特定部２１で特定される、各発言が誰に対して行われたかの記録である。
【００３３】
次に、姿勢情報処理部１２の処理について説明する。姿勢情報処理部１２は、姿勢情報入力部６を構成する視線検出センサ２の出力と、磁気センサ３の出力から、発言者が誰を注目して発言しているかを検出する。
【００３４】
視線検出センサ２は、それを装着しているユーザの頭部座標系における視線方向を検出できるものである。視線検出センサ２は、この例では、両目の視線検出を行っており、両眼の視線を用いて頭部座標系における見ている箇所、すなわち視点を検出する。そして、この視点位置を絶対座標系における視点位置に変換するために、３次元磁気センサ３を用いている。
【００３５】
３次元磁気センサ３は、会議参加者の頭部に装着されており、これにより、この頭部の絶対空間上の方向が求まる。３次元磁気センサ３の情報と頭部座標系における視点位置情報とによって、各会議参加者の絶対空間上における視点位置が求まる。姿勢情報処理部１２には、会議参加者の位置情報が記録されている。この実施例では、この位置情報として、各会議参加者の３次元磁気センサ３から出力される最新の頭部位置情報を記録している。
【００３６】
図６に、この実施例における注視対象者（発言をしている者の注視対象者は、発言対象者である）の求め方の説明図を示す。
【００３７】
図６（Ａ）に示すように、この実施例では、ある会議参加者Ａの視点位置Ｐｅが、他の会議参加者Ｂの頭部に装着されている３次元磁気センサ３の位置Ｐｓを中心とした所定範囲内（半径Ｒの球内）にある場合に、会議参加者Ａは、会議参加者Ｂを注視していると解釈する。
【００３８】
各会議参加者毎の注視対象者の検出処理は、例えば単位時間周期で行われる。音声・姿勢記録部１３には、各参加者毎の、各単位時間内における注視対象者の情報が、例えば図７に示すように、注視対象者テーブルＴＢＬ２として記録されている。この注視対象者テーブルＴＢＬ２の「時間」のレコードは、各単位時間の識別情報であり、この例では、シーケンシャル番号で示されている。図７の例においては、例えば、会議参加者Ａは、時間１および時間２では、会議参加者Ｂを注視していたことが記録される。
【００３９】
なお、上述の例では、両眼で視線検出を行っているため、視点を求めることができる。しかし、片眼の視線と３次元磁気センサ３、あるいは、３次元磁気センサ３だけを用いても近似的に注視対象者を検出する方法が考えられる。ただし、この場合は必ずしも眼球が注視している状況にあることを検知することはできない。
【００４０】
この場合の注視対象者の検出方式を説明するための模式図を図６（Ｂ）に示す。この場合は、視線あるいは頭部方向を表す直線ＤＲと、参加者Ｂの３次元磁気センサ３の位置Ｐｓとの距離ｄを求めて、その距離が、参加者Ｂの３次元磁気センサ３の位置Ｐｓから所定の距離Ｒ内にあれば注視していると解釈する。
【００４１】
音声・姿勢記録部１３には、以上のように、発言状況の記録である発言状況テーブルＴＢＬ１と、姿勢状況の記録である注視者テーブルＴＢＬ２が記録されるとともに、すべてのマイクロホン４からの音声信号が会議情報として記録される。音声情報は、パーソナルコンピュータやワークステーションで提供されているような、通常のオーディオフォーマットで記録している。
【００４２】
表示部１８は、例えばＣＲＴモニタや、液晶モニタで構成される表示画面を備え、この例では、ペン／タブレット一体型入出力装置をも兼用する構成とされている。
【００４３】
ユーザ入力部１４は、この例では、前記のペン／タブレット一体型入出力装置により構成される。制御部１５は、ユーザ入力部１４からのユーザ入力情報を受け取り、表示部１８に送り、表示画面に表示させる。そして、受け取ったユーザ入力情報に応じた処理を、情報記録時（情報蓄積時）あるいは情報再生時に応じて行う。
【００４４】
なお、ユーザ入力情報としては、ペン（またはマウス／トラックボール／タッチパネルなど）からの筆跡あるいは図形（線、四角形、円などのオブジェクト）の他に、筆跡データを文字認識したコード情報、キーボードからのコード情報でもよい。
【００４５】
また、表示されているユーザ入力情報を移動／複写／削除したという編集情報、ページ切り替えを行ったという情報、ユーザがセンサー付きの椅子に座ったという情報、仮想的な消しゴムが用いられたという情報など、ユーザ入力情報が表示されない性質のものであってもよく、この場合は、そのユーザ入力情報の存在を示す所定のしるしを表示部１８に表示する。すなわち、入力される音声信号が存在する間に、ユーザが計算処理能力を持つ装置に対して行った入力は、いずれもこの発明でいうユーザ入力情報に相当する。
【００４６】
制御部１５は、また、会議情報としての音声情報の記録時に入力されたユーザ入力情報と、その入力開始時刻および終了時刻等とを、ユーザ入力情報記録部１６に記録する。
【００４７】
また、制御部１５は、再生時には、ユーザ入力部１４からのユーザの指示に応じて、ユーザ入力情報記録部１６に記録されている情報を読み出し、表示部１８に、その情報を伝達する。さらに、後述するように、表示部１８の表示画面に発言者チャートが表示されているときに、ユーザにより指示入力がなされたときには、その指示された部分に相当する時間部分の再生を行うことができるように構成されている。
【００４８】
表示部１８は、制御部１５から渡されたユーザ入力情報を、その表示画面に表示する。また、後述するように、チャート作成部１７で作成された発言者チャートを、その表示画面に表示する。
【００４９】
ユーザは、後述するように、この表示部１８の表示画面に表示された複数のユーザ入力情報から、いずれかのユーザ入力情報を、対応する時系列情報の再生やチャートの作成指示のために選択することができる。また、このシステムでは、この表示部１８に表示された発言者チャートにおいて、特定の再生箇所、すなわち、再生開始点あるいは再生区間を指示することにより、指定された再生箇所に対応する音声情報の再生を行わせるようにすることができる。
【００５０】
音声・姿勢記録部１３およびユーザ入力情報記録部１６の記録媒体は、具体的にはパーソナルコンピュータに内蔵の半導体メモリやハードディスクを用いている。なお、ＭＯディスクやフロッピーディスク等の記録媒体であってもよい。
【００５１】
また、表示部１７、音声出力部２０は、パーソナルコンピュータに接続されるディスプレイおよびスピーカで実現している。
【００５２】
次に、パーソナルコンピュータのソフトウエアで実現される発言対象者特定部２１、発言流れ検出部２２およびチャート作成部１７の処理動作について、以下に説明する。
【００５３】
まず、発言対象者特定部２１の動作について説明する。ユーザによって、ユーザ入力部１４を通じて発言対象者特定の命令が入力されると、制御部１５を介して、その命令が発言対象者特定部２１に入力される。以下にその動作について述べる。
【００５４】
発言対象者特定部２１は、音声・姿勢記録部１３に記録された注視対象者テーブルＴＢＬ２の情報を用いて、各発言の発言者の発言対象者を特定する。この例の場合、発言対象者の特定の際には、各発言に対して、それぞれ時間区間を特定し、その特定区間での、姿勢状況情報としての注視対象者テーブルＴＢＬ２の情報を参照して発言対象者を特定する。前記特定区間を、以下、対象区間Ｄと呼ぶ。
【００５５】
発言開始時刻をｔｓ、発言終了時刻をｔｅ、その発言における有効な姿勢情報とみなす対象区間をＤとし、発言終了時刻ｔｅから発言開始時刻ｔｓの方向に溯る時間長ｔ１と、発言終了時刻ｔｅよりも後の時間長ｔ２を考えると、基本的には、発言終了時刻ｔｅを基準時刻として、時点ｔｅ−ｔ１から時点ｔｅ＋ｔ２の区間を、対象区間Ｄとする。ただし、この決め方は様々ある。その発言全体を対象区間Ｄとしてもよいし、発言区間の後半の一定の割合の区間を対象区間Ｄとしてもよい。
【００５６】
この対象区間Ｄの定め方には、ケース１からケース４の４つのケースが考えられ、それぞれ図８の模式図を用いて説明する。
【００５７】
まず、図８（Ａ）に示すケース１においては、発言終了時刻ｔｅから時間ｔ１だけ溯った時刻が、発言開始時刻ｔｓと発言終了時刻ｔｅの間の時刻（ｔｓ＜（ｔｅ−ｔ１））であり、かつ、発言終了時刻ｔｅから時点ｔｅ＋ｔ２までの区間で、他の誰の発言もなければ、時点ｔｅ−ｔ１から時点ｔｅ＋ｔ２の区間を対象区間Ｄとする。
【００５８】
図８（Ｂ）に示すケース２は、発言終了時刻ｔｅから時間ｔ１だけ溯った時刻が、発言開始時刻ｔｓよりも前（ｔｓ＞（ｔｅ−ｔ１））であり、発言終了時刻ｔｅから時点ｔｅ＋ｔ２までの区間で、他の誰の発言もない場合である。この場合は、発言開始時刻ｔｓから時点ｔｅ＋ｔ２の区間を対象区間Ｄとする。
【００５９】
図８（Ｃ）に示すケース３は、発言終了時刻ｔｅから時間ｔ１だけ溯った時刻が、発言開始時刻ｔｓと発言終了時刻ｔｅの間の時刻（ｔｓ＜ｔｅ−ｔ１）であるが、発言終了時刻ｔｅから時点ｔｅ＋ｔ２までの区間内の時刻ｔｘで、他の誰かの発言があった場合である。このケース３の場合は、時点ｔｅ−ｔ１から、時点ｔｘまでの区間を対象区間Ｄとする。
【００６０】
図８（Ｄ）に示すケース４は、発言終了時刻ｔｅから時間ｔ１だけ溯った時刻が、発言開始時刻ｔｓよりも前（ｔｓ＞（ｔｅ−ｔ１））であり、発言終了時刻ｔｅから時点ｔｅ＋ｔ２までの区間内の時刻ｔｘで、他の誰かの発言があった場合である。このケース４の場合は、発言開始時刻ｔｓから時点ｔｘまでの区間を対象区間Ｄとする。
【００６１】
次に、発言対象者特定部２１の処理動作のフローチャートを図９に示す。
発言対象者特定部２１は、ユーザ入力部１４からの発言対象者特定の命令が、制御部１５を通じて到来すると処理を起動して、ステップ２０１へ進む。
【００６２】
ステップ２０１では、音声・姿勢記録部１３に記録されている発言状況テーブルＴＢＬ１の最初の発言に着目し、その発言開始時刻ｔｓと発言終了時刻ｔｅを求める。次に、ステップ２０２へ進む。
【００６３】
ステップ２０２では、その発言について、前述の図８を用いて説明したようにして対象区間Ｄを求め、その対象区間Ｄの発言対象者を、音声・姿勢記録部１３の注視対象者テーブルＴＢＬ２を参照して求める。なお、この特定方法の詳細は、後述する。
【００６４】
次に、ステップ２０３へ進み、処理をしたのは、発言状況テーブルＴＢＬ１に記録されている最後の発言か否かをチェックする。もしそうであれば、この発言対象者特定処理を終了し、そうでなければ、ステップ２０４へ進み、次の発言を着目し、その発言開始時刻ｔｓと発言終了時刻ｔｅを求め、ステップ２０２へ進む。
【００６５】
次に、ステップ２０２における、この例における発言対象者を求める方法を説明する。この例においては、注視対象者テーブルＴＢＬ２を参照して、ステップ２０２で特定された対象区間Ｄ内で、３単位時間以上連続して、ある参加者を注視していたときに、その注視対象者を発言対象者として特定するようにする。
【００６６】
図１０の例を用いて説明する。この図１０の例は、音声・姿勢記録部１３の注視対象者テーブルＴＢＬ２の参加者Ａの姿勢状況を示している。今、仮に、ステップ２０２で特定された対象区間Ｄは、時間ｎから時間ｎ＋１５までの単位時間を含むと特定されたとする。
【００６７】
図１０に示すように、この例の場合には、対象区間Ｄにおいて、同じ参加者が３回以上連続で表れている場合に、その参加者が発言対象者となる。図１０の例の場合には、時間ｎから時間ｎ＋１５の間で、参加者Ｂと参加者Ｄが、図１０において、矢印で示すように、それぞれ１回ずつ発言対象者として特定される。
【００６８】
次に、発言の状況をチャートとして表現し、表示部１８に表示する過程について説明する。
【００６９】
ユーザ入力部１４より、チャート作成命令と、作成するチャートの時間区間（開始時刻Ｔｓ，終了時刻Ｔｅ）が入力されると、制御部１５は、それらの情報をチャート作成部１７へ送る。チャート作成部１７は、これを受けて、チャート作成処理を実行する。チャート作成部１７のチャート作成処理の例のフローチャートを図１１に示す。
【００７０】
すなわち、チャート作成部１７は、チャート作成命令と、作成するチャートの時間区間（Ｔｓ，Ｔｅ）を受け取ると、ステップ３０１へ進む。ステップ３０１では、音声・姿勢記録部１３の発言記録情報である発言状況テーブルＴＢＬ１を参照し、時間軸上の各参加者の発言区間を視覚的に表現した、図１２に示すような基本チャートを作成する。
【００７１】
この図１２の基本チャートにおいて、領域３１には、会議参加者名が表示される。そして、会議参加者名の表示領域３２の横は、発言者チャート表示領域３２とされ、この領域３２に、指定された開始時刻Ｔｓと終了時刻Ｔｅとの間での各会議参加者の発言区間が、矩形バー３３により現わされている。
【００７２】
なお、発言者チャート表示領域３２の縦横の大きさ、時間軸の場所、発言者の情報を示す領域３１の位置などは制御部１５に保持されており、それを参照して表示情報が生成されている。この実施例では、指定された区間の長さに応じてチャートの大きさ（時間軸の長さ）は変わるようにされている。
【００７３】
以上のようにして基本チャートが作成されると、ステップ３０２へ進み、発言流れ検出部２２に、時間区間（Ｔｓ，Ｔｅ）の情報と、流れ検出命令を送る。この命令により、後述するようにして、発言流れ検出部２２で発言の流れが検出され、その検出された発言の流れの情報が送られてくる。
【００７４】
そこで、ステップ３０３で、発言流れ検出部２２からの発言の流れの情報を、受け取ったかどうか判断し、受け取った場合には、ステップ３０４へ進み、発言流れ検出部２２から受け取った結果に基づいて、各発言区間の発言者について、発言対象者があったときには、その発言の矩形バー３３と、発言対象者の次の発言の矩形バー３３とを、チャート上で、後述する図１５に示すように、結合線３４で結び、チャートを完成させる。そして、ステップ３０５へ進み、表示部１８の表示画面に、そのチャートを表示する。
【００７５】
次に、ステップ３０２で発せられる命令により起動される発言流れ検出部２２の発言流れ検出処理動作について、図１４のフローチャートを参照して説明する。
【００７６】
すなわち、チャート作成部１７から、時間区間（Ｔｓ，Ｔｅ）の情報と、発言流れ検出命令が入力されると、ステップ４０１へ進み、音声・姿勢記録部１３の発言状況テーブルＴＢＬ１の発言ＩＤのレコードを参照し、指定された時間区間（Ｔｓ，Ｔｅ）内の複数個の発言ＩＤを求める。
【００７７】
次に、ステップ４０２へ進み、求められた複数個の発言ＩＤの最初の発言に着目し、ステップ４０３へ進む。ステップ４０３では、音声・姿勢記録部１３の発言状況テーブルＴＢＬ１の発言対象者のレコードを参照し、着目している発言ＩＤの発言についての発言対象者が次の発言者であるかどうかを調べる。
【００７８】
そして、もし、着目している発言ＩＤの発言についての発言対象者が、次の発言者であって、しかも、着目している発言ＩＤの発言についての発言対象者の発言対象者が、着目した発言ＩＤの発言者であるときには、両発言者は互いに注視しているとみなせることから、着目した発言ＩＤの発言者名、発言開始時間および発言終了時間と、次の発言の発言者名および発言開始時間とを、一つのまとまった情報として、バッファに格納する。このときのバッファの格納情報を、図１５に示す。
【００７９】
次に、ステップ４０４へ進み、着目している発言の発言ＩＤが、指定された時間区間（Ｔｓ，Ｔｅ）の最後から一つ前の発言ＩＤであるかをチェックし、そうであれば、ステップ４０５へ進み、バッファに格納されている情報をチャート作成部１７へ送り、終了する。そうでなければ、ステップ４０６へ進み、次の発言ＩＤに着目する。そして、ステップ４０３へ戻り、上述の同様の処理を繰り返す。
【００８０】
以上のようにして作成され、表示部１８に表示された発言者チャートの例を、図１３に示す。この図１３の例は、会議において、次のような発言状況があった場合のチャートである。すなわち、会議参加者Ａが発言した後に、会議参加者Ｂは、会議参加者Ｃに発言を促す発言をし、会議参加者Ｃは、それに対して回答した。そして、しばらくして、会議参加者Ｂは、それに対してコメントした。次に、会議参加者Ａが会議参加者Ｄに対して何かを発言した。そして、会議参加者Ｄはそれに対して何かを発言した。
【００８１】
上述のような発言状況から、図１３に示すように、会議参加者Ｂが、会議参加者Ｃに発言を促す発言をし、会議参加者Ｃは、それに対して回答した部分や会議参加者Ａが会議参加者Ｄに対してした発言部分は、インターラクティブな部分であり、それらの発言バー３３が、図１３の矢印３４で結ばれて、そのことが表示される。
【００８２】
このように、発言情報と姿勢情報から、発言間の関係をチャート上に表示することで、単なる発言の交代だけでなく、それぞれの発言の流れをユーザは認識することができる。
【００８３】
なお、発言状況テーブルの発言対象者のレコードを、より詳細に記録することにより、発言区間の相互のインターラクションを、より詳細に表示することもできる。
【００８４】
図１６は、そのような場合の発言状況テーブルＴＢＬ３の例を示すものである。図１６では、図５の発言状況テーブルＴＢＬ１に比べて、発言対象者の欄がさらに詳しく記録されている。すなわち、この図１６の場合には、発言対象者のレコードとしては、会議参加者のすべてについて、当該発言ＩＤの発言者が注視していた回数（発言対象者になった回数）と、その注視時間とが、それぞれ記録される。発言対象者特定部２１では、各会議参加者毎に、発言対象者になった回数とその時間を記録する。
【００８５】
すなわち、この例の場合には、発言対象者特定部２１では、各会議参加者毎に、発言対象者になった回数とその時間を記録する。これにより、会議における発言者の他の会議参加者への注視度が分かり、より詳細なインターラクティブ性を発言者チャートに表示できるようになる。
【００８６】
この例の発言状況テーブルＴＢＬ３のように、発言対象者のレコードとして、会議参加者のすべてについて、当該発言ＩＤの発言者が注視していた回数（発言対象者になった回数）と、その注視時間とが、それぞれ記録される場合には、図１７に示すように、発言者チャートにおいては、これらの各会議参加者の発言対象者となった時間と回数の情報に基づいて、結ぶ線３５、３６、３７の属性を変えて表示することができる。
【００８７】
例えば、図１７の例では、注視時間と回数との情報に応じて、インターラクティブ性を判別し、そのインターラクティブ性の高い順に、太い実線３５、太い破線３６、細い実線３７のように属性を変えて表示するようにしている。
【００８８】
なお、発言流れ検出部２２は、チャートを作成するだけに用いられるわけではない。例えば、ユーザ入力部１４から、発言流れ検出命令と、時間区間（Ｔｓ，Ｔｅ）と、発言者２名の名前が入力されると、その時間区間（Ｔｓ，Ｔｅ）における指定された２名の会議参加者のやり取りがあった時間が、この発言流れ検出部２２から出力される。
【００８９】
この出力は、制御部１５を介して、表示部１８へ出力される。この例では、前述のチャート作成におけるバッファ情報を出力させている。これは、発言流れ検出部２２が、検索における一つの構成要素になっている例である。
【００９０】
単に発言者の遷移に着目しただけでは、インターラクティブ性の高いやり取りのあった時間が正確に分からないが、以上のように、発言流れ検出部２２を用いることで、誰が質問して、誰が回答したか、などのように特定の２者のやり取りのあった場面が、精度よく抽出できる。
【００９１】
この例の場合、表示部１８は、入出力一体型のディスプレイであるので、表示された発言の流れを、ユーザが直接指定することで、音声情報を再生することが可能である。その場合には、表示部１８から制御部１５へ、ユーザ入力に応じた入力座標が送られる。
【００９２】
チャート情報や、表示されている命令のように、表示されてる情報の全ては、制御部１５で管理されているため、その入力の意味が制御部１５で解釈される。例えば、ユーザが、表示されているチャートの任意の位置を指示し、再生ボタンを押すと、制御部１５は、座標を時間に変換した後、再生部１９に再生命令と時間を送る。再生部１９は、指定された時間の音声・姿勢記録部１３の記録音声信号を読み出し、音声出力部２０へ出力する。
【００９３】
また、別の実施の形態として、図１８に示すように、区間特定部２３を設けた例を示す。
【００９４】
この例の場合の区間特定部２３は、一度入力された時間、または時間区間情報から発言流れ検出部２２の出力に応じた時間区間を特定する。その特定された区間はチャート作成部１７や再生部１９で利用される。
【００９５】
具体的には、ユーザにより、適当な時間区間が入力されると、その時間、あるいは、その時間帯を含む一連の発言の流れの時間区間を特定し、発言者チャートとして表示、あるいは再生することができる。図１９にその概念図を示す。また、この実施の形態の場合のフローチャートを図２０に示す。
【００９６】
すなわち、図２０に示すように、時間Ｔ、または，時間区間（Ｔ０，Ｔ１）が入力されると、ステップ５０１へ進み、図１９に示すように、時間ＴまたはＴ０以前の発言の流れの最初の開始時刻Ｔａを見つける。そして、ステップ５０２へ進み、時間ＴあるいはＴ１以後で、発言の流れが最初に終了する終了時刻Ｔｂを見つける。
【００９７】
次に、ステップ５０３へ進み、開始時刻Ｔａ，終了時刻Ｔｂを、制御部１５へ出力する。なお、この場合に、図１９に示すように、その時間区間を多少広げた区間（Ｔａ´，Ｔｂ´）としても構わない。この場合は、時間区間を広げた分だけ、多少文脈が分かりやすくなる。
【００９８】
この区間特定部２３へ入力する時間は、ユーザが直接ユーザ入力部１４より入力してもよい。また、次のような使い方でもよい。
【００９９】
すなわち、図２１に示すように、表示部１８に表示されている発言者チャート上の特定の指示個所４１をユーザ入力部１４により指定すると、制御部１５はその指定位置の時刻に基づいて、ユーザ入力記録部１６に記録されているユーザ入力情報と入力時間を参照し、その入力時間を区間特定部２３へ入力するようにする。
【０１００】
以上の実施の形態は、図２に示したような通常の対面型会議の場合に、この発明を適用した場合であるが、この発明は、テレビ会議にも適用可能である。
【０１０１】
図２２は、この発明をテレビ会議に適用した場合の、会議状況の説明図である。この例の場合には、会議情報記録用パーソナルコンピュータ５は、ネットワーク５０を通じて、それぞれの会議参加者６１の部屋６０の端末パーソナルコンピュータ６２と接続されている。
【０１０２】
それぞれの会議参加者６１の端末パーソナルコンピュータ６２のディスプレイ６３の画面には、他の会議参加者の画面がマルチウインドウの形式で表示されている。端末パーソナルコンピュータ６２の上部には、視線検出部６４を構成するセンサが設置されている。この視線検出部６４は、会議参加者６１が、画面上で、どの会議参加者を注視していたかを検出する。この視線検出部６４で検出された姿勢情報は、ネットワーク５０を通じて会議情報記録用パーソナルコンピュータ５に送られる。
【０１０３】
また、この例の場合には、各会議参加者の映像と、その発言音声とが、ビデオカメラ６５により取得され、ネットワーク５０を通じて会議情報記録用パーソナルコンピュータ５に送られる。
【０１０４】
そして、会議情報記録用パーソナルコンピュータ５で、上述と同様にして、発言状況テーブルＴＢＬ１あるいはＴＢＬ３として発言状況情報が記録され、注視対象者テーブルＴＢＬ２により、姿勢状況が記録される。そして、再生に当たっては、図１３や図１７に示したような発言者チャートが表示画面に表示されて、検索に役立つように使用される。
【０１０５】
【発明の効果】
以上説明したように、この発明によれば、従来の会議システムなどでは実現されていなかった会話の流れを検出することができる。そして、それを利用した音声情報の再生やチャートを表示することができる。
【０１０６】
これにより、発言相互のインターラクションが高い部分を容易に検知でき、この表示情報を見るだけで、ユーザは、どのような発言経過があったのかを予測することが可能となる。したがって、会議の重要部分の検索など、必要な個所の検索に非常に役立つものである。
【０１０７】
例えば、二つの連続した発言があった場合、それが一つの流れに含まれるものか、別の会話の流れが始まったかの区別がようにできる。例えば、別の会話の流れであれば、質問と回答などのように、一つの会話の流れに含まれるような会話のやり取りではないことが分かる。会議に参加した人であれば、この流れを見ることで、会議情報の想起の促進にもなる。
【図面の簡単な説明】
【図１】この発明による発言構造検出表示装置の一実施の形態のブロック部である。
【図２】この発明による発言構造検出表示装置が適用される会議の概要を説明するための図である。
【図３】この発明による発言構造検出表示装置の実施の形態における発言区間の検出方法を説明するためのフローチャートである。
【図４】この発明による発言構造検出表示装置の実施の形態における発言区間の検出方法を説明するための図である。
【図５】この発明による発言構造検出表示装置の実施の形態における発言状況の記録情報の例を示す図である。
【図６】この発明による発言構造検出表示装置の実施の形態における発言者の姿勢としての注視状況の検出方法の例を説明するための図である。
【図７】この発明による発言構造検出表示装置の実施の形態における発言者の姿勢としての注視状況の記録情報の例を説明するための図である。
【図８】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する方法の説明に用いる図である。
【図９】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する処理の例を説明するためのフローチャートである。
【図１０】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する方法の説明に用いる図である。
【図１１】この発明による発言構造検出表示装置の実施の形態において、発言者チャートの作成処理の一例の説明のためのフローチャートである。
【図１２】基本的発言者チャートの例を示す図である。
【図１３】この発明による発言構造検出表示装置の実施の形態における発言者チャートの例を示す図である。
【図１４】この発明による発言構造検出表示装置の実施の形態における発言流れ検出処理の一例の説明のためのフローチャートである。
【図１５】この発明による発言構造検出表示装置の実施の形態における発言流れ検出処理の一例を説明するために用いる図である。
【図１６】この発明による発言構造検出表示装置の実施の形態における発言状況の記録情報の例を示す図である。
【図１７】この発明による発言構造検出表示装置の実施の形態における発言者チャートの例を示す図である。
【図１８】この発明による発言構造検出表示装置の他の実施の形態のブロック部である。
【図１９】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いる図である。
【図２０】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いるフローチャートである。
【図２１】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いる図である。
【図２２】この発明による発言構造検出表示装置が適用される会議の他の例の概要を説明するための図である。
【符号の説明】
２視線検出センサ
３３次元磁気センサ
４マイクロホン
５会議記録用パーソナルコンピュータ
１１音声情報処理部
１２姿勢情報処理部
１３音声・姿勢記録部
１４ユーザ入力部
１５制御部
１６ユーザ入力情報記録部
１７チャート作成部
１８表示部
１９再生部
２０音声出力部
２１発言対象者特定部
２２発言流れ検出部
２３区間特定部

Claims

発言者の音声を収音するための音声入力手段と、
前記音声入力手段からの音声信号から、発言者毎の発言区間を検出する発言区間検出手段と、
前記発言者毎の姿勢を検出する姿勢検出手段と、
前記音声入力手段からの音声信号を記録すると共に、前記発言区間検出手段で検出された発言者毎の発言区間の情報と、前記姿勢検出手段で検出された発言者毎の姿勢とを、対応付けて記録する音声・姿勢記録手段と、
前記音声・姿勢記録手段に記録された情報に基づいて、発言が誰に対するものであるかを特定する発言対象者特定手段と、
所定の時間区間における発言の流れを、前記音声・姿勢記録手段の記録情報と、前記発言対象者特定手段の特定結果とに基づいて検出する発言流れ検出手段と、
前記発言流れ検出手段の検出結果に応じた表示情報を表示する表示手段と、
を備えることを特徴とする発言構造検出表示装置。
請求項１に記載の発言構造検出表示装置において、
少なくとも、前記発言流れ検出手段で検出された前記所定の時間区間の発言区間のそれぞれと、発言区間の相互の関係とを、表示手段で表示する発言チャートを作成するチャート作成手段を備えることを特徴とする発言構造検出表示装置。
前記所定の時間区間を特定する区間特定手段を備えることを特徴とする請求項１または請求項２に記載の発言構造検出表示装置。
前記発言に伴って入力されたユーザ入力情報と、その入力時間を記録するユーザ入力情報記録手段を備えることを特徴とする請求項１、請求項２または請求項３に記載の発言構造検出表示装置。