JP3879793B2 - 発言構造検出表示装置 - Google Patents
発言構造検出表示装置 Download PDFInfo
- Publication number
- JP3879793B2 JP3879793B2 JP05976298A JP5976298A JP3879793B2 JP 3879793 B2 JP3879793 B2 JP 3879793B2 JP 05976298 A JP05976298 A JP 05976298A JP 5976298 A JP5976298 A JP 5976298A JP 3879793 B2 JP3879793 B2 JP 3879793B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- information
- unit
- time
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、会議における参加者の発言の構造を検出し、表示する発言構造検出表示装置に関する。
【0002】
【従来の技術】
発言の構造化を広い意味でとらえるならば、発言を他の情報と結び付けることで発言を構造化する技術と、発言情報そのものから発言を構造化する技術とがあると考えられる。
【0003】
前者の従来の技術として、特開平6−343146号公報、特開平7―226931号公報、特開平6−205151号公報、特開平6−176171号公報、特開平7−182365号公報、Marqee:A Tool For Real−Time Video Logging(CHI´94 Human Factors in Computing Systems)などに記載されている会議システムがある。
【0004】
これらの会議システムでは、会議などの音声・映像などのマルチメディア情報を記録する一方で、会議参加者のペン入力やキーボード入力などの入力情報と、その入力時刻を記録し、後でその入力時刻を利用してその入力情報に関連するマルチメディア情報を再現できるような仕組みが備えられている。これは、発言情報同士を構造化するわけではないが、発言情報をユーザ入力情報と関連付けて構造化する技術である。
【0005】
市販のカセットテープレコーダやミニディスクレコーダなどにも、記録中に重要な情報を記録している時に、後で重要箇所を検索し易くするように付箋(トラックマーク)をつけられるようなボタンが具備されているものがあるが、この種の技術も、関連のある従来技術として位置づけられる。
【0006】
一方、後者、すなわち発言情報そのものから発言を構造化する技術として、音声認識を行うアプローチがある。会議や講演会のような場面で発せられる、ごく自然な人間の発話を認識し、理解することは現状では、極めて困難である。そこで、例えば、ワードスポッティング法のような技術を用いて、キーワードを検出、その結果を用いて、発言を構造化するものである。
【0007】
また、発言の状況を視覚化して、それによって人間に発言の状況を把握し易くする方法もある。この技術では、発言の構造化を機械が行うわけではないが、人間が発言を構造化するのを支援する技術として位置づけられる。
【0008】
その代表的な例として、特開平8−317365号公報に記載の電子会議装置がある。この装置では、各発言者の各発言の記録量の大きさを横軸にとり、縦軸に会話の順序を示すグラフ表示領域を設けることで、発言の状況を視覚的に把握し易くしている。以後、時間軸の概念を持ち、更に発言の状況を示した図を発言者チャートと呼ぶ。
【0009】
これに類似した発言者チャートは、研究論文の中にも見られる。例えば、「CHI´95 MOSAIC OF CREATIVITY」に紹介されている、Donald G. Kimberらの研究論文である「Speaker Segmentation for Browsing Recorded Audio」にも発言者チャートの情報が記載されている。
【0010】
【発明が解決しようとする課題】
ところで、会議において、互いに関連のある発言相互の関係が発言者チャートに表示できると便利である。例えば、会議参加者Aが、他の会議参加者Bに対して意見を述べたり、質問をぶつけた時に、会議参加者Bが、それに対して回答や反論を行うインタラクティブな場面が、チャートから判別できると、そこでは、何らかの議論があったことが分かり、記録された会議情報の検索者は、それを手掛かりとして、再生したい議論部分を、簡単に検索することができると期待される。
【0011】
特に、3人以上の多人数の会議では、上述のようなインタラクションの高い発言構造区間もあれば、そうではなく、淡々と発言者が移っていく発言区間もある。このような場合に、上記のようなインターラクションの高い発言構造区間を容易に検出できれば、重要な会議情報部分へのアクセスが比較的簡単になると期待される。
【0012】
しかしながら、上述した従来の技術の会議システムでは、複数の発言同志の関係を構造化するものではない。すなわち、従来の会議システムの前者の場合には、音声情報をユーザ入力情報と関連付けて構造化することは可能であるが、発言相互の関係を含む発言の流れを抽出することはできない。
【0013】
また、ワードスポッティングのような技術から、重要な単語を拾い出したとしても、上述のような発言の流れを検出することは、極めて困難であり、人間と同程度の音声認識、理解能力がないと実現できない。
【0014】
さらに、従来の発言者チャートでは、発言者の交代、発言の長さは分かるが、個々の発言の関連性、流れは分からない。例えば、ある人が発言をした後で、別の人が発言をしたことは、従来の発言者チャートでも把握し得るが、質問に対する回答などのような流れのあるやり取りがあったのか、あるいは単に発言者が移って新たな会話の流れを開始したのかは、従来の発言者チャートからは知ることはできない。
【0015】
この発明は、以上の点にかんがみ、インターラクションの高い発言相互の関係が表示できるようにした発言構造検出表示装置を提供することを目的とする。
【0016】
【課題を解決するための手段】
上記課題を解決するため、この発明による発言構造検出表示装置は、
発言者の音声を収音するための音声入力手段と、
前記音声入力手段からの音声信号から、発言者毎の発言区間を検出する発言区間検出手段と、
前記発言者毎の姿勢を検出する姿勢検出手段と、
前記音声入力手段からの音声情報を記録すると共に、前記発言区間検出手段で検出された発言者毎の発言区間の情報と、前記姿勢検出手段で検出された発言者毎の姿勢とを、対応付けて記録する音声・姿勢記録手段と、
前記音声・姿勢記録手段に記録された情報に基づいて、発言が誰に対するものであるかを特定する発言対象者特定手段と、
所定の時間区間における発言の流れを、前記音声・姿勢記録手段の記録情報と、前記発言対象者特定手段の結果に基づいて検出する発言流れ検出手段と、
前記発言流れ検出手段の検出結果に応じた表示情報を表示する表示手段と、
を備えることを特徴とする。
【0017】
【作用】
上述の構成のこの発明によれば、単に、発言者の発言区間を時系列的に順次に並べるだけでなく、発言者毎の姿勢情報から、特定発言対象者特定手段により、発言が誰に対するものであるかが特定される。そして、発言の流れ検出手段で、発言が誰に対するものであるかの情報を反映した発言の流れが検出され、表示手段で、その発言の流れを示す表示情報が表示画面に表示される。
【0018】
これにより、発言相互のインターラクションが高い部分を容易に検知でき、この表示情報を見るだけで、ユーザは、どのような発言経過があったのかを予測することが可能となる。したがって、会議の重要部分の検索など、必要な個所の検索に非常に役立つものである。
【0019】
【発明の実施の形態】
以下、この発明による発言構造検出表示装置の実施の形態について、図を参照しながら説明する。以下に説明する実施の形態は、3人以上の多人数による対面型会議の会議情報記録再生装置に、この発明を適用した場合である。この発明による発言構造検出表示装置の実施の形態を説明する前に、図2を参照して、この例の対面型会議の概要を説明する。
【0020】
会議参加者1のそれぞれは、視線検出用のセンサ2と、頭部の位置と方向とを検出するための3次元磁気センサ3を装着している。この実施例に用いた視線検出用センサ2は、角膜強膜反射法を用いたセンサを用いた。
【0021】
また、会議参加者1の各人の音声を個別に収録するために、会議参加者のそれぞれには、マイクロフォン4が割り当てられている。
【0022】
そして、各々の会議参加者1の視線検出用のセンサ2、3次元磁気センサ3およびマイクロフォン4から得られる情報は、会議情報記録再生用のパーソナルコンピュータ5に入力され、デジタル化されて、記録される。そして、このパーソナルコンピュータ5のソフトウエアとして、この発明の実施の形態の発言構造検出表示装置の要部が実現される。
【0023】
図1に、この実施の形態の発言構造検出表示装置のブロック図を示す。この実施の形態の発言構造検出表示装置は、各会議参加者のマイクロフォン4からの音声信号を処理する音声情報処理部11と、視線検出用のセンサ2と磁気センサ3を備える姿勢入力装置6からの姿勢情報を処理する姿勢情報処理部12と、処理された音声情報および姿勢情報を記録する音声・姿勢記録部13と、会議参加者や会議情報の検索者のユーザ入力を受け付けるユーザ入力部14と、ユーザ入力に基づいて制御を行う制御部15と、会議参加者のユーザ入力を記録するユーザ入力記録部16と、音声・姿勢記録部13の情報から発言の状況を視覚的に表現した発言者チャートを作成するチャート作成部17と、ユーザ入力や発言者チャートなどの情報を表示する表示部18と、記録された音声を再生する再生部19と、再生音声を出力する音声出力部20と、発言が誰に対するものであったかを特定する発言対象者特定部21と、発言の流れを検出する発言流れ検出部22とを備える。
【0024】
音声情報処理部11は、この例では、音声情報のデジタル化と、各会議参加者毎の発言の区間の検出を行う。デジタル化の部分は、いわゆるサウンドボードをパーソナルコンピュータに接続して構成する。各会議参加者毎の発言の区間の検出は、パーソナルコンピュータのソフトウエア処理で行う。すなわち、デジタル化された音声情報を処理し、会議中に誰がいつ発言したかを、ソフトウエア処理で検出するようにしている。
【0025】
前述のように、この例では、会議参加者毎の音声を個別のマイクロホン4で収音するようにしており、マイクロホンと、各会議参加者との対応関係が予め認識されている。このマイクロホンと会議参加者の対応関係の情報は、予め、会議開始前に、各会議参加者などにより設定され、音声・姿勢記録部13に記録されている。
【0026】
そして、この例では、あるマイクロホンからの音声信号レベルが、予め定めた或るレベルL1以上であって、それが予め定めた或る時間Δt1以上継続した場合には、そのマイクロホンに対応する会議参加者が発言を開始したとみなし、また、その音声信号レベルが、予め定めた或る時間Δt2以上に渡って、予め定めた或るレベルL2以下であるときには、発言が終了したとみなして、発言区間を検出する。
【0027】
図3に、各マイクロホン4からの音声信号についての発言区間検知処理のフローチャートを示す。また、図4に、この発言区間検知処理を説明するための概念図を示す。この例においては、図3の発言区間検出処理は、レベルL1以上の音声が検出されたときに起動される。なお、図4の説明図では、L1=L2としている。しかし、レベルL1とレベルL2とは異なっていても勿論よい。
【0028】
図3のフローチャートに示すように、まず、マイクロホンからレベルL1以上の音声が入力されると、ステップ101に進み、定められた時間Δt1以上に渡って、その定められた閾値レベルL1以上の音声が持続するか否かを監視する。もし、持続しなければ、それは発言とはみなされず、発言区間の検知処理ルーチンを終了する。
【0029】
図4に示すように、時刻T1でステップ101の条件が満足されたと判別されると、ステップ102に進み、現在時刻T1の情報を取得して、発言開始時刻tsを、ts=T1−Δt1とし、その情報を音声・姿勢記録部13に送って記録するようにする。
【0030】
次に、ステップ103に進み、その音声信号レベルが、予め定めた或る時間Δt2以上に渡って、予め定めた或るレベルL2以下となったかを監視する。図4に示すように、時刻T2において、音声が、予め定められた時間Δt2以上、レベルL2を下回ったことが検出された場合、ステップ104へ進み、発言終了時刻teを、te=T2―Δt2とし、その情報を音声・姿勢記録部13に送って記録するようにする。
【0031】
図5に、音声・姿勢記録部13の発言状況の記録情報である発言状況テーブルTBL1のデータ構造の一例を示す。「発言ID」のレコードは、検出された発言にシーケンシャルに付与された識別番号である。「発言者」のレコードは、発言が検出された会議参加者名である。なお、すべての会議参加者と、その識別情報とを記述した会議参加者テーブルを別に持つ場合には、この「発言者」のレコードは、参加者識別情報であってもよい。
【0032】
「発言開始時刻」および「発言終了時刻」のレコードには、前述した発言区間検出処理により算出された発言開始時刻tsおよび発言終了時刻teが記録される。なお、最後の「発言対象者」のレコードは、後述する発言対象者特定部21で特定される、各発言が誰に対して行われたかの記録である。
【0033】
次に、姿勢情報処理部12の処理について説明する。姿勢情報処理部12は、姿勢情報入力部6を構成する視線検出センサ2の出力と、磁気センサ3の出力から、発言者が誰を注目して発言しているかを検出する。
【0034】
視線検出センサ2は、それを装着しているユーザの頭部座標系における視線方向を検出できるものである。視線検出センサ2は、この例では、両目の視線検出を行っており、両眼の視線を用いて頭部座標系における見ている箇所、すなわち視点を検出する。そして、この視点位置を絶対座標系における視点位置に変換するために、3次元磁気センサ3を用いている。
【0035】
3次元磁気センサ3は、会議参加者の頭部に装着されており、これにより、この頭部の絶対空間上の方向が求まる。3次元磁気センサ3の情報と頭部座標系における視点位置情報とによって、各会議参加者の絶対空間上における視点位置が求まる。姿勢情報処理部12には、会議参加者の位置情報が記録されている。この実施例では、この位置情報として、各会議参加者の3次元磁気センサ3から出力される最新の頭部位置情報を記録している。
【0036】
図6に、この実施例における注視対象者(発言をしている者の注視対象者は、発言対象者である)の求め方の説明図を示す。
【0037】
図6(A)に示すように、この実施例では、ある会議参加者Aの視点位置Peが、他の会議参加者Bの頭部に装着されている3次元磁気センサ3の位置Psを中心とした所定範囲内(半径Rの球内)にある場合に、会議参加者Aは、会議参加者Bを注視していると解釈する。
【0038】
各会議参加者毎の注視対象者の検出処理は、例えば単位時間周期で行われる。音声・姿勢記録部13には、各参加者毎の、各単位時間内における注視対象者の情報が、例えば図7に示すように、注視対象者テーブルTBL2として記録されている。この注視対象者テーブルTBL2の「時間」のレコードは、各単位時間の識別情報であり、この例では、シーケンシャル番号で示されている。図7の例においては、例えば、会議参加者Aは、時間1および時間2では、会議参加者Bを注視していたことが記録される。
【0039】
なお、上述の例では、両眼で視線検出を行っているため、視点を求めることができる。しかし、片眼の視線と3次元磁気センサ3、あるいは、3次元磁気センサ3だけを用いても近似的に注視対象者を検出する方法が考えられる。ただし、この場合は必ずしも眼球が注視している状況にあることを検知することはできない。
【0040】
この場合の注視対象者の検出方式を説明するための模式図を図6(B)に示す。この場合は、視線あるいは頭部方向を表す直線DRと、参加者Bの3次元磁気センサ3の位置Psとの距離dを求めて、その距離が、参加者Bの3次元磁気センサ3の位置Psから所定の距離R内にあれば注視していると解釈する。
【0041】
音声・姿勢記録部13には、以上のように、発言状況の記録である発言状況テーブルTBL1と、姿勢状況の記録である注視者テーブルTBL2が記録されるとともに、すべてのマイクロホン4からの音声信号が会議情報として記録される。音声情報は、パーソナルコンピュータやワークステーションで提供されているような、通常のオーディオフォーマットで記録している。
【0042】
表示部18は、例えばCRTモニタや、液晶モニタで構成される表示画面を備え、この例では、ペン/タブレット一体型入出力装置をも兼用する構成とされている。
【0043】
ユーザ入力部14は、この例では、前記のペン/タブレット一体型入出力装置により構成される。制御部15は、ユーザ入力部14からのユーザ入力情報を受け取り、表示部18に送り、表示画面に表示させる。そして、受け取ったユーザ入力情報に応じた処理を、情報記録時(情報蓄積時)あるいは情報再生時に応じて行う。
【0044】
なお、ユーザ入力情報としては、ペン(またはマウス/トラックボール/タッチパネルなど)からの筆跡あるいは図形(線、四角形、円などのオブジェクト)の他に、筆跡データを文字認識したコード情報、キーボードからのコード情報でもよい。
【0045】
また、表示されているユーザ入力情報を移動/複写/削除したという編集情報、ページ切り替えを行ったという情報、ユーザがセンサー付きの椅子に座ったという情報、仮想的な消しゴムが用いられたという情報など、ユーザ入力情報が表示されない性質のものであってもよく、この場合は、そのユーザ入力情報の存在を示す所定のしるしを表示部18に表示する。すなわち、入力される音声信号が存在する間に、ユーザが計算処理能力を持つ装置に対して行った入力は、いずれもこの発明でいうユーザ入力情報に相当する。
【0046】
制御部15は、また、会議情報としての音声情報の記録時に入力されたユーザ入力情報と、その入力開始時刻および終了時刻等とを、ユーザ入力情報記録部16に記録する。
【0047】
また、制御部15は、再生時には、ユーザ入力部14からのユーザの指示に応じて、ユーザ入力情報記録部16に記録されている情報を読み出し、表示部18に、その情報を伝達する。さらに、後述するように、表示部18の表示画面に発言者チャートが表示されているときに、ユーザにより指示入力がなされたときには、その指示された部分に相当する時間部分の再生を行うことができるように構成されている。
【0048】
表示部18は、制御部15から渡されたユーザ入力情報を、その表示画面に表示する。また、後述するように、チャート作成部17で作成された発言者チャートを、その表示画面に表示する。
【0049】
ユーザは、後述するように、この表示部18の表示画面に表示された複数のユーザ入力情報から、いずれかのユーザ入力情報を、対応する時系列情報の再生やチャートの作成指示のために選択することができる。また、このシステムでは、この表示部18に表示された発言者チャートにおいて、特定の再生箇所、すなわち、再生開始点あるいは再生区間を指示することにより、指定された再生箇所に対応する音声情報の再生を行わせるようにすることができる。
【0050】
音声・姿勢記録部13およびユーザ入力情報記録部16の記録媒体は、具体的にはパーソナルコンピュータに内蔵の半導体メモリやハードディスクを用いている。なお、MOディスクやフロッピーディスク等の記録媒体であってもよい。
【0051】
また、表示部17、音声出力部20は、パーソナルコンピュータに接続されるディスプレイおよびスピーカで実現している。
【0052】
次に、パーソナルコンピュータのソフトウエアで実現される発言対象者特定部21、発言流れ検出部22およびチャート作成部17の処理動作について、以下に説明する。
【0053】
まず、発言対象者特定部21の動作について説明する。ユーザによって、ユーザ入力部14を通じて発言対象者特定の命令が入力されると、制御部15を介して、その命令が発言対象者特定部21に入力される。以下にその動作について述べる。
【0054】
発言対象者特定部21は、音声・姿勢記録部13に記録された注視対象者テーブルTBL2の情報を用いて、各発言の発言者の発言対象者を特定する。この例の場合、発言対象者の特定の際には、各発言に対して、それぞれ時間区間を特定し、その特定区間での、姿勢状況情報としての注視対象者テーブルTBL2の情報を参照して発言対象者を特定する。前記特定区間を、以下、対象区間Dと呼ぶ。
【0055】
発言開始時刻をts、発言終了時刻をte、その発言における有効な姿勢情報とみなす対象区間をDとし、発言終了時刻teから発言開始時刻tsの方向に溯る時間長t1と、発言終了時刻teよりも後の時間長t2を考えると、基本的には、発言終了時刻teを基準時刻として、時点te−t1から時点te+t2の区間を、対象区間Dとする。ただし、この決め方は様々ある。その発言全体を対象区間Dとしてもよいし、発言区間の後半の一定の割合の区間を対象区間Dとしてもよい。
【0056】
この対象区間Dの定め方には、ケース1からケース4の4つのケースが考えられ、それぞれ図8の模式図を用いて説明する。
【0057】
まず、図8(A)に示すケース1においては、発言終了時刻teから時間t1だけ溯った時刻が、発言開始時刻tsと発言終了時刻teの間の時刻(ts<(te−t1))であり、かつ、発言終了時刻teから時点te+t2までの区間で、他の誰の発言もなければ、時点te−t1から時点te+t2の区間を対象区間Dとする。
【0058】
図8(B)に示すケース2は、発言終了時刻teから時間t1だけ溯った時刻が、発言開始時刻tsよりも前(ts>(te−t1))であり、発言終了時刻teから時点te+t2までの区間で、他の誰の発言もない場合である。この場合は、発言開始時刻tsから時点te+t2の区間を対象区間Dとする。
【0059】
図8(C)に示すケース3は、発言終了時刻teから時間t1だけ溯った時刻が、発言開始時刻tsと発言終了時刻teの間の時刻(ts<te−t1)であるが、発言終了時刻teから時点te+t2までの区間内の時刻txで、他の誰かの発言があった場合である。このケース3の場合は、時点te−t1から、時点txまでの区間を対象区間Dとする。
【0060】
図8(D)に示すケース4は、発言終了時刻teから時間t1だけ溯った時刻が、発言開始時刻tsよりも前(ts>(te−t1))であり、発言終了時刻teから時点te+t2までの区間内の時刻txで、他の誰かの発言があった場合である。このケース4の場合は、発言開始時刻tsから時点txまでの区間を対象区間Dとする。
【0061】
次に、発言対象者特定部21の処理動作のフローチャートを図9に示す。
発言対象者特定部21は、ユーザ入力部14からの発言対象者特定の命令が、制御部15を通じて到来すると処理を起動して、ステップ201へ進む。
【0062】
ステップ201では、音声・姿勢記録部13に記録されている発言状況テーブルTBL1の最初の発言に着目し、その発言開始時刻tsと発言終了時刻teを求める。次に、ステップ202へ進む。
【0063】
ステップ202では、その発言について、前述の図8を用いて説明したようにして対象区間Dを求め、その対象区間Dの発言対象者を、音声・姿勢記録部13の注視対象者テーブルTBL2を参照して求める。なお、この特定方法の詳細は、後述する。
【0064】
次に、ステップ203へ進み、処理をしたのは、発言状況テーブルTBL1に記録されている最後の発言か否かをチェックする。もしそうであれば、この発言対象者特定処理を終了し、そうでなければ、ステップ204へ進み、次の発言を着目し、その発言開始時刻tsと発言終了時刻teを求め、ステップ202へ進む。
【0065】
次に、ステップ202における、この例における発言対象者を求める方法を説明する。この例においては、注視対象者テーブルTBL2を参照して、ステップ202で特定された対象区間D内で、3単位時間以上連続して、ある参加者を注視していたときに、その注視対象者を発言対象者として特定するようにする。
【0066】
図10の例を用いて説明する。この図10の例は、音声・姿勢記録部13の注視対象者テーブルTBL2の参加者Aの姿勢状況を示している。今、仮に、ステップ202で特定された対象区間Dは、時間nから時間n+15までの単位時間を含むと特定されたとする。
【0067】
図10に示すように、この例の場合には、対象区間Dにおいて、同じ参加者が3回以上連続で表れている場合に、その参加者が発言対象者となる。図10の例の場合には、時間nから時間n+15の間で、参加者Bと参加者Dが、図10において、矢印で示すように、それぞれ1回ずつ発言対象者として特定される。
【0068】
次に、発言の状況をチャートとして表現し、表示部18に表示する過程について説明する。
【0069】
ユーザ入力部14より、チャート作成命令と、作成するチャートの時間区間(開始時刻Ts,終了時刻Te)が入力されると、制御部15は、それらの情報をチャート作成部17へ送る。チャート作成部17は、これを受けて、チャート作成処理を実行する。チャート作成部17のチャート作成処理の例のフローチャートを図11に示す。
【0070】
すなわち、チャート作成部17は、チャート作成命令と、作成するチャートの時間区間(Ts,Te)を受け取ると、ステップ301へ進む。ステップ301では、音声・姿勢記録部13の発言記録情報である発言状況テーブルTBL1を参照し、時間軸上の各参加者の発言区間を視覚的に表現した、図12に示すような基本チャートを作成する。
【0071】
この図12の基本チャートにおいて、領域31には、会議参加者名が表示される。そして、会議参加者名の表示領域32の横は、発言者チャート表示領域32とされ、この領域32に、指定された開始時刻Tsと終了時刻Teとの間での各会議参加者の発言区間が、矩形バー33により現わされている。
【0072】
なお、発言者チャート表示領域32の縦横の大きさ、時間軸の場所、発言者の情報を示す領域31の位置などは制御部15に保持されており、それを参照して表示情報が生成されている。この実施例では、指定された区間の長さに応じてチャートの大きさ(時間軸の長さ)は変わるようにされている。
【0073】
以上のようにして基本チャートが作成されると、ステップ302へ進み、発言流れ検出部22に、時間区間(Ts,Te)の情報と、流れ検出命令を送る。この命令により、後述するようにして、発言流れ検出部22で発言の流れが検出され、その検出された発言の流れの情報が送られてくる。
【0074】
そこで、ステップ303で、発言流れ検出部22からの発言の流れの情報を、受け取ったかどうか判断し、受け取った場合には、ステップ304へ進み、発言流れ検出部22から受け取った結果に基づいて、各発言区間の発言者について、発言対象者があったときには、その発言の矩形バー33と、発言対象者の次の発言の矩形バー33とを、チャート上で、後述する図15に示すように、結合線34で結び、チャートを完成させる。そして、ステップ305へ進み、表示部18の表示画面に、そのチャートを表示する。
【0075】
次に、ステップ302で発せられる命令により起動される発言流れ検出部22の発言流れ検出処理動作について、図14のフローチャートを参照して説明する。
【0076】
すなわち、チャート作成部17から、時間区間(Ts,Te)の情報と、発言流れ検出命令が入力されると、ステップ401へ進み、音声・姿勢記録部13の発言状況テーブルTBL1の発言IDのレコードを参照し、指定された時間区間(Ts,Te)内の複数個の発言IDを求める。
【0077】
次に、ステップ402へ進み、求められた複数個の発言IDの最初の発言に着目し、ステップ403へ進む。ステップ403では、音声・姿勢記録部13の発言状況テーブルTBL1の発言対象者のレコードを参照し、着目している発言IDの発言についての発言対象者が次の発言者であるかどうかを調べる。
【0078】
そして、もし、着目している発言IDの発言についての発言対象者が、次の発言者であって、しかも、着目している発言IDの発言についての発言対象者の発言対象者が、着目した発言IDの発言者であるときには、両発言者は互いに注視しているとみなせることから、着目した発言IDの発言者名、発言開始時間および発言終了時間と、次の発言の発言者名および発言開始時間とを、一つのまとまった情報として、バッファに格納する。このときのバッファの格納情報を、図15に示す。
【0079】
次に、ステップ404へ進み、着目している発言の発言IDが、指定された時間区間(Ts,Te)の最後から一つ前の発言IDであるかをチェックし、そうであれば、ステップ405へ進み、バッファに格納されている情報をチャート作成部17へ送り、終了する。そうでなければ、ステップ406へ進み、次の発言IDに着目する。そして、ステップ403へ戻り、上述の同様の処理を繰り返す。
【0080】
以上のようにして作成され、表示部18に表示された発言者チャートの例を、図13に示す。この図13の例は、会議において、次のような発言状況があった場合のチャートである。すなわち、会議参加者Aが発言した後に、会議参加者Bは、会議参加者Cに発言を促す発言をし、会議参加者Cは、それに対して回答した。そして、しばらくして、会議参加者Bは、それに対してコメントした。次に、会議参加者Aが会議参加者Dに対して何かを発言した。そして、会議参加者Dはそれに対して何かを発言した。
【0081】
上述のような発言状況から、図13に示すように、会議参加者Bが、会議参加者Cに発言を促す発言をし、会議参加者Cは、それに対して回答した部分や会議参加者Aが会議参加者Dに対してした発言部分は、インターラクティブな部分であり、それらの発言バー33が、図13の矢印34で結ばれて、そのことが表示される。
【0082】
このように、発言情報と姿勢情報から、発言間の関係をチャート上に表示することで、単なる発言の交代だけでなく、それぞれの発言の流れをユーザは認識することができる。
【0083】
なお、発言状況テーブルの発言対象者のレコードを、より詳細に記録することにより、発言区間の相互のインターラクションを、より詳細に表示することもできる。
【0084】
図16は、そのような場合の発言状況テーブルTBL3の例を示すものである。図16では、図5の発言状況テーブルTBL1に比べて、発言対象者の欄がさらに詳しく記録されている。すなわち、この図16の場合には、発言対象者のレコードとしては、会議参加者のすべてについて、当該発言IDの発言者が注視していた回数(発言対象者になった回数)と、その注視時間とが、それぞれ記録される。発言対象者特定部21では、各会議参加者毎に、発言対象者になった回数とその時間を記録する。
【0085】
すなわち、この例の場合には、発言対象者特定部21では、各会議参加者毎に、発言対象者になった回数とその時間を記録する。これにより、会議における発言者の他の会議参加者への注視度が分かり、より詳細なインターラクティブ性を発言者チャートに表示できるようになる。
【0086】
この例の発言状況テーブルTBL3のように、発言対象者のレコードとして、会議参加者のすべてについて、当該発言IDの発言者が注視していた回数(発言対象者になった回数)と、その注視時間とが、それぞれ記録される場合には、図17に示すように、発言者チャートにおいては、これらの各会議参加者の発言対象者となった時間と回数の情報に基づいて、結ぶ線35、36、37の属性を変えて表示することができる。
【0087】
例えば、図17の例では、注視時間と回数との情報に応じて、インターラクティブ性を判別し、そのインターラクティブ性の高い順に、太い実線35、太い破線36、細い実線37のように属性を変えて表示するようにしている。
【0088】
なお、発言流れ検出部22は、チャートを作成するだけに用いられるわけではない。例えば、ユーザ入力部14から、発言流れ検出命令と、時間区間(Ts,Te)と、発言者2名の名前が入力されると、その時間区間(Ts,Te)における指定された2名の会議参加者のやり取りがあった時間が、この発言流れ検出部22から出力される。
【0089】
この出力は、制御部15を介して、表示部18へ出力される。この例では、前述のチャート作成におけるバッファ情報を出力させている。これは、発言流れ検出部22が、検索における一つの構成要素になっている例である。
【0090】
単に発言者の遷移に着目しただけでは、インターラクティブ性の高いやり取りのあった時間が正確に分からないが、以上のように、発言流れ検出部22を用いることで、誰が質問して、誰が回答したか、などのように特定の2者のやり取りのあった場面が、精度よく抽出できる。
【0091】
この例の場合、表示部18は、入出力一体型のディスプレイであるので、表示された発言の流れを、ユーザが直接指定することで、音声情報を再生することが可能である。その場合には、表示部18から制御部15へ、ユーザ入力に応じた入力座標が送られる。
【0092】
チャート情報や、表示されている命令のように、表示されてる情報の全ては、制御部15で管理されているため、その入力の意味が制御部15で解釈される。例えば、ユーザが、表示されているチャートの任意の位置を指示し、再生ボタンを押すと、制御部15は、座標を時間に変換した後、再生部19に再生命令と時間を送る。再生部19は、指定された時間の音声・姿勢記録部13の記録音声信号を読み出し、音声出力部20へ出力する。
【0093】
また、別の実施の形態として、図18に示すように、区間特定部23を設けた例を示す。
【0094】
この例の場合の区間特定部23は、一度入力された時間、または時間区間情報から発言流れ検出部22の出力に応じた時間区間を特定する。その特定された区間はチャート作成部17や再生部19で利用される。
【0095】
具体的には、ユーザにより、適当な時間区間が入力されると、その時間、あるいは、その時間帯を含む一連の発言の流れの時間区間を特定し、発言者チャートとして表示、あるいは再生することができる。図19にその概念図を示す。また、この実施の形態の場合のフローチャートを図20に示す。
【0096】
すなわち、図20に示すように、時間T、または,時間区間(T0,T1)が入力されると、ステップ501へ進み、図19に示すように、時間TまたはT0以前の発言の流れの最初の開始時刻Taを見つける。そして、ステップ502へ進み、時間TあるいはT1以後で、発言の流れが最初に終了する終了時刻Tbを見つける。
【0097】
次に、ステップ503へ進み、開始時刻Ta,終了時刻Tbを、制御部15へ出力する。なお、この場合に、図19に示すように、その時間区間を多少広げた区間(Ta´,Tb´)としても構わない。この場合は、時間区間を広げた分だけ、多少文脈が分かりやすくなる。
【0098】
この区間特定部23へ入力する時間は、ユーザが直接ユーザ入力部14より入力してもよい。また、次のような使い方でもよい。
【0099】
すなわち、図21に示すように、表示部18に表示されている発言者チャート上の特定の指示個所41をユーザ入力部14により指定すると、制御部15はその指定位置の時刻に基づいて、ユーザ入力記録部16に記録されているユーザ入力情報と入力時間を参照し、その入力時間を区間特定部23へ入力するようにする。
【0100】
以上の実施の形態は、図2に示したような通常の対面型会議の場合に、この発明を適用した場合であるが、この発明は、テレビ会議にも適用可能である。
【0101】
図22は、この発明をテレビ会議に適用した場合の、会議状況の説明図である。この例の場合には、会議情報記録用パーソナルコンピュータ5は、ネットワーク50を通じて、それぞれの会議参加者61の部屋60の端末パーソナルコンピュータ62と接続されている。
【0102】
それぞれの会議参加者61の端末パーソナルコンピュータ62のディスプレイ63の画面には、他の会議参加者の画面がマルチウインドウの形式で表示されている。端末パーソナルコンピュータ62の上部には、視線検出部64を構成するセンサが設置されている。この視線検出部64は、会議参加者61が、画面上で、どの会議参加者を注視していたかを検出する。この視線検出部64で検出された姿勢情報は、ネットワーク50を通じて会議情報記録用パーソナルコンピュータ5に送られる。
【0103】
また、この例の場合には、各会議参加者の映像と、その発言音声とが、ビデオカメラ65により取得され、ネットワーク50を通じて会議情報記録用パーソナルコンピュータ5に送られる。
【0104】
そして、会議情報記録用パーソナルコンピュータ5で、上述と同様にして、発言状況テーブルTBL1あるいはTBL3として発言状況情報が記録され、注視対象者テーブルTBL2により、姿勢状況が記録される。そして、再生に当たっては、図13や図17に示したような発言者チャートが表示画面に表示されて、検索に役立つように使用される。
【0105】
【発明の効果】
以上説明したように、この発明によれば、従来の会議システムなどでは実現されていなかった会話の流れを検出することができる。そして、それを利用した音声情報の再生やチャートを表示することができる。
【0106】
これにより、発言相互のインターラクションが高い部分を容易に検知でき、この表示情報を見るだけで、ユーザは、どのような発言経過があったのかを予測することが可能となる。したがって、会議の重要部分の検索など、必要な個所の検索に非常に役立つものである。
【0107】
例えば、二つの連続した発言があった場合、それが一つの流れに含まれるものか、別の会話の流れが始まったかの区別がようにできる。例えば、別の会話の流れであれば、質問と回答などのように、一つの会話の流れに含まれるような会話のやり取りではないことが分かる。会議に参加した人であれば、この流れを見ることで、会議情報の想起の促進にもなる。
【図面の簡単な説明】
【図1】この発明による発言構造検出表示装置の一実施の形態のブロック部である。
【図2】この発明による発言構造検出表示装置が適用される会議の概要を説明するための図である。
【図3】この発明による発言構造検出表示装置の実施の形態における発言区間の検出方法を説明するためのフローチャートである。
【図4】この発明による発言構造検出表示装置の実施の形態における発言区間の検出方法を説明するための図である。
【図5】この発明による発言構造検出表示装置の実施の形態における発言状況の記録情報の例を示す図である。
【図6】この発明による発言構造検出表示装置の実施の形態における発言者の姿勢としての注視状況の検出方法の例を説明するための図である。
【図7】この発明による発言構造検出表示装置の実施の形態における発言者の姿勢としての注視状況の記録情報の例を説明するための図である。
【図8】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する方法の説明に用いる図である。
【図9】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する処理の例を説明するためのフローチャートである。
【図10】この発明による発言構造検出表示装置の実施の形態において、発言対象者を特定する方法の説明に用いる図である。
【図11】この発明による発言構造検出表示装置の実施の形態において、発言者チャートの作成処理の一例の説明のためのフローチャートである。
【図12】基本的発言者チャートの例を示す図である。
【図13】この発明による発言構造検出表示装置の実施の形態における発言者チャートの例を示す図である。
【図14】この発明による発言構造検出表示装置の実施の形態における発言流れ検出処理の一例の説明のためのフローチャートである。
【図15】この発明による発言構造検出表示装置の実施の形態における発言流れ検出処理の一例を説明するために用いる図である。
【図16】この発明による発言構造検出表示装置の実施の形態における発言状況の記録情報の例を示す図である。
【図17】この発明による発言構造検出表示装置の実施の形態における発言者チャートの例を示す図である。
【図18】この発明による発言構造検出表示装置の他の実施の形態のブロック部である。
【図19】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いる図である。
【図20】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いるフローチャートである。
【図21】この発明による発言構造検出表示装置の他の実施の形態の動作説明に用いる図である。
【図22】この発明による発言構造検出表示装置が適用される会議の他の例の概要を説明するための図である。
【符号の説明】
2 視線検出センサ
3 3次元磁気センサ
4 マイクロホン
5 会議記録用パーソナルコンピュータ
11 音声情報処理部
12 姿勢情報処理部
13 音声・姿勢記録部
14 ユーザ入力部
15 制御部
16 ユーザ入力情報記録部
17 チャート作成部
18 表示部
19 再生部
20 音声出力部
21 発言対象者特定部
22 発言流れ検出部
23 区間特定部
Claims (4)
- 発言者の音声を収音するための音声入力手段と、
前記音声入力手段からの音声信号から、発言者毎の発言区間を検出する発言区間検出手段と、
前記発言者毎の姿勢を検出する姿勢検出手段と、
前記音声入力手段からの音声信号を記録すると共に、前記発言区間検出手段で検出された発言者毎の発言区間の情報と、前記姿勢検出手段で検出された発言者毎の姿勢とを、対応付けて記録する音声・姿勢記録手段と、
前記音声・姿勢記録手段に記録された情報に基づいて、発言が誰に対するものであるかを特定する発言対象者特定手段と、
所定の時間区間における発言の流れを、前記音声・姿勢記録手段の記録情報と、前記発言対象者特定手段の特定結果とに基づいて検出する発言流れ検出手段と、
前記発言流れ検出手段の検出結果に応じた表示情報を表示する表示手段と、
を備えることを特徴とする発言構造検出表示装置。 - 請求項1に記載の発言構造検出表示装置において、
少なくとも、前記発言流れ検出手段で検出された前記所定の時間区間の発言区間のそれぞれと、発言区間の相互の関係とを、表示手段で表示する発言チャートを作成するチャート作成手段を備えることを特徴とする発言構造検出表示装置。 - 前記所定の時間区間を特定する区間特定手段を備えることを特徴とする請求項1または請求項2に記載の発言構造検出表示装置。
- 前記発言に伴って入力されたユーザ入力情報と、その入力時間を記録するユーザ入力情報記録手段を備えることを特徴とする請求項1、請求項2または請求項3に記載の発言構造検出表示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05976298A JP3879793B2 (ja) | 1998-03-11 | 1998-03-11 | 発言構造検出表示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05976298A JP3879793B2 (ja) | 1998-03-11 | 1998-03-11 | 発言構造検出表示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11259501A JPH11259501A (ja) | 1999-09-24 |
JP3879793B2 true JP3879793B2 (ja) | 2007-02-14 |
Family
ID=13122617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05976298A Expired - Fee Related JP3879793B2 (ja) | 1998-03-11 | 1998-03-11 | 発言構造検出表示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3879793B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117157B1 (en) * | 1999-03-26 | 2006-10-03 | Canon Kabushiki Kaisha | Processing apparatus for determining which person in a group is speaking |
JP4696418B2 (ja) * | 2001-07-25 | 2011-06-08 | ソニー株式会社 | 情報検出装置及び方法 |
DE602004004824T2 (de) * | 2003-02-28 | 2007-06-28 | Palo Alto Research Center Inc., Palo Alto | Automatische Behandlung von Konversationsgruppen |
US7617094B2 (en) | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
JP4804801B2 (ja) * | 2005-06-03 | 2011-11-02 | 日本電信電話株式会社 | 会話構造推定方法、プログラム、および記録媒体 |
JP5055781B2 (ja) * | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
JP5970782B2 (ja) * | 2011-02-28 | 2016-08-17 | 株式会社リコー | 情報処理装置および情報処理方法 |
JP5751143B2 (ja) * | 2011-11-15 | 2015-07-22 | コニカミノルタ株式会社 | 議事録作成支援装置、議事録作成支援システム、および、議事録作成用プログラム |
JP5949843B2 (ja) * | 2013-06-28 | 2016-07-13 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理装置の制御方法、およびプログラム |
JP6783029B2 (ja) * | 2018-03-22 | 2020-11-11 | Kddi株式会社 | 研修におけるユーザ同士の議論内容を分析する装置、プログラム及び方法 |
-
1998
- 1998-03-11 JP JP05976298A patent/JP3879793B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11259501A (ja) | 1999-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6728680B1 (en) | Method and apparatus for providing visual feedback of speed production | |
JP3526067B2 (ja) | 再生装置及び再生方法 | |
JP3758754B2 (ja) | 情報蓄積再生装置および情報蓄積再生方法 | |
US7809792B2 (en) | Conference information processing apparatus, and conference information processing method and storage medium readable by computer | |
JP3185505B2 (ja) | 会議録作成支援装置 | |
CN111193890B (zh) | 会议记录解析装置、方法和会议记录播放系统 | |
JP2007006473A (ja) | ディジタル情報を注釈するためのシステム、方法及び該方法を実行させる命令を記憶する記憶媒体 | |
KR100999655B1 (ko) | 디지털 비디오 레코더 시스템 및 그것의 운용방법 | |
JP2005267279A (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
JP2006085440A (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
JP3879793B2 (ja) | 発言構造検出表示装置 | |
JP6176041B2 (ja) | 情報処理装置及びプログラム | |
JP3879786B2 (ja) | 会議情報記録再生装置および会議情報記録再生方法 | |
JP3437617B2 (ja) | 時系列データ記録再生装置 | |
JPH11272679A (ja) | 発言構造情報提示装置 | |
US20180374512A1 (en) | Method to automate media stream curation utilizing speech and non-speech audio cue analysis | |
JP3775446B2 (ja) | 会議情報記録方法および会議情報記録装置並びに会議情報再生装置 | |
JP2007058767A (ja) | 発話記録作成システム | |
JP6276570B2 (ja) | 画像音声再生システム及び画像音声再生方法とプログラム | |
JP2010061343A (ja) | 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム | |
JP4282343B2 (ja) | 情報管理装置、情報管理システム、及びプログラム | |
JP2000315259A (ja) | データベース作成装置及びデータベース作成プログラムを記録した記録媒体 | |
JP2009283020A (ja) | 記録装置、再生装置、及びプログラム | |
JP2020034823A (ja) | ファシリテーション支援プログラム、ファシリテーション支援装置およびファシリテーション支援方法 | |
Wellner et al. | Browsing recordings of multi-party interactions in ambient intelligence environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |