JP2003330935A

JP2003330935A - マルチモーダル情報システム及びマルチモーダル情報検索方法

Info

Publication number: JP2003330935A
Application number: JP2002140425A
Authority: JP
Inventors: Hiroyuki Tsuboi; 井宏之坪; Yoichi Takebayashi; 林洋一竹; Masaru Suzuki; 木優鈴; Toshiki Kitsu; 津俊樹岐; Takayuki Miyazawa; 澤隆幸宮; Koji Urata; 田耕二浦; Yuzo Tamada; 田雄三玉
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-05-15
Filing date: 2002-05-15
Publication date: 2003-11-21

Abstract

(57)【要約】【課題】人物の動画情報、音声情報及び資料情報を相
互に関連づけて蓄積しておき、必要に応じて所望の情報
を簡易かつ迅速に検索できるようにする。【解決手段】本発明に係るマルチモーダル情報システ
ムは、マルチモーダル情報入力部１と、マルチモーダル
構造情報抽出部２と、マルチモーダル構造情報蓄積部３
と、マルチモーダル情報蓄積部４と、検索情報入力部５
と、マルチモーダル情報検索部６と、編集情報入力部７
と、マルチモーダル情報編集部８と、提示シナリオ入力
部９と、マルチモーダル情報提示シナリオ部１０と、マ
ルチモーダル情報出力部１１を備えている。マルチモー
ダル構造情報に基づいてマルチモーダル情報の検索を行
うようにしたため、複数種類の情報を相互に関連付けて
提供することができ、各情報の理解度を高めることがで
きる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人物の動画情報、
音声情報及び資料情報を相互に関連づけるマルチモーダ
ル情報システム及びマルチモーダル情報検索方法に関
し、例えば、教師や講演者などが資料を利用して説明し
た内容を必要に応じて再生したり、関連する情報を検索
できるようにしたマルチモーダル情報システム及びマル
チモーダル情報検索方法に関する。

【０００２】

【従来の技術】従来、講演内容の記録メディアや教育学
習メディアは、一連の連続した再生のみが可能であり、
知りたい内容が出ている場所を探すには、連続したメデ
ィアを用いて再生して探す必要があった。また、講演者
の声は音声でしか再生できないことが多く、内容を把握
しづらいという欠点があった。

【０００３】一方、教育メディアとして、絵文字情報を
利用した教育システムが数多く利用されているが、内容
の重要な部分や強調すべきところも、予め絵文字情報で
表現しておく必要があり、教育システムの作成に時間と
コストがかかっていた。

【０００４】近年、音声認識、顔認識及び感情認識など
の技術が進展したことで、音声を文字に変換したり、人
物の表情や音声から感情を抽出できるようになってき
た。

【０００５】

【発明が解決しようとする課題】しかしながら、これら
の技術と従来の教育メディアとの統合は実現されておら
ず、絵文字情報、講演者の動作、音声及び講演資料を同
時に提示して、それらを相互に関係づける機能は実現さ
れていない。このため、講演内容の構成、重要な部分及
び関連する部分を再生しながら、必要に応じて、関連す
る情報のみを抽出したり、重要な部分のみを再生した
り、分からない部分について検索したりすることが容易
にはできなかった。

【０００６】学習を行う場合、資料の提示だけではな
く、人物による説明が重要であり、話している人物を映
した場面の映像ストリーム、その人物の音声、その人物
が利用している資料、及び人物の動作などを相互に関連
づけることが重要である。

【０００７】しかしながら、話している内容と映像との
対応関係や、話している内容、映像及び資料の構造との
対応関係を抽出して蓄積しておき、学習する際に利用で
きるシステムは従来なかった。

【０００８】また、講演者等が一方的に説明する内容だ
けでなく、対話や質疑応答などの複数の人がやり取りす
る内容自体も、学習を理解する上で極めて重要である。
ところが、対話や質疑応答などの内容を、講演者等が説
明する内容と対応づけて蓄積するシステムも従来存在し
ていない。

【０００９】さらに、システムだけではなく、コンテン
ツが重要であるが、コンテンツ作成の専門家が作成する
システムだけでは、コンテンツ不足の状況は解消されな
い。日常の講演、教育、企業活動、さらには一般の日常
生活の場にも様々な知りたいコンテンツや共有学習すべ
きコンテンツとなり得る素材があり、その素材をもとに
容易にコンテンツを構築できる環境を提供することが重
要である。

【００１０】Web環境は、個々人が作成したものが蓄積
されて膨大なコンテンツの宝庫となっている。しかしな
がら、Webで得られる情報は、文字情報をベースとし
て、htmlにより構造を持たせたものになっているが、構
造の作成支援機能、それらの構造の対応関係を作成支援
する機能、さらには映像などのストリーム情報を同様に
扱える機能は持っていない。ただし、ストリーム情報の
構造化記述言語はあるが、上記のような機能を実現する
目的では利用されていない。

【００１１】本発明は、このような点に鑑みてなされた
ものであり、その目的は、人物の動画情報、音声情報及
び資料情報を相互に関連づけて蓄積しておき、必要に応
じて関連性のある情報を簡易かつ迅速に検索して提供す
ることで、学習効果を高めるようにしたマルチモーダル
情報システム及びマルチモーダル情報検索方法を提供す
ることにある。

【００１２】

【課題を解決するための手段】上述した課題を解決する
ために、本発明は、人物の動画情報、前記人物の音声情
報、及び前記人物が使用した資料に関連する資料情報
を、マルチモーダル情報として蓄積するマルチモーダル
情報蓄積部と、前記動画情報、前記音声情報及び前記資
料情報に含まれる特徴的な情報をマルチモーダル構造情
報として抽出する抽出部と、前記マルチモーダル情報に
ついての検索条件を指定する検索条件指定部と、前記指
定された検索条件に合致するマルチモーダル情報を前記
マルチモーダル構造情報に基づいて検索する検索部と、
を備える。

【００１３】本発明では、マルチモーダル構造情報を利
用してマルチモーダル情報の検索を行うため、異なる種
類の情報を互いに関連付けて提供することができる。

【００１４】

【発明の実施の形態】以下、本発明に係るマルチモーダ
ル情報システム及びマルチモーダル情報検索方法につい
て、図面を参照しながら具体的に説明する。

【００１５】図１は本発明に係るマルチモーダル情報シ
ステムの一実施形態の概略構成を示すブロック図であ
る。図１のマルチモーダル情報システムは、マルチモー
ダル情報入力部１と、マルチモーダル構造情報抽出部２
と、マルチモーダル構造情報蓄積部３と、マルチモーダ
ル情報蓄積部４と、検索情報入力部５と、マルチモーダ
ル情報検索部６と、編集情報入力部７と、マルチモーダ
ル情報編集部８と、提示シナリオ入力部９と、マルチモ
ーダル情報提示シナリオ部１０と、マルチモーダル情報
出力部１１を備えている。

【００１６】マルチモーダル情報入力部１は、図２に詳
細な内部構成を示すように、ビデオカメラ等を用いて人
物の動画像を取り込む場面動画入力部１２と、マイク等
を用いて人物の音声を取り込む音声入力部１３と、人物
が講演等で利用した資料等に関する情報を入力する資料
入力部１４と、その他の付属情報を入力する付属情報入
力部１５とを有する。

【００１７】なお、マルチモーダル情報入力部１が各種
の情報を入力する具体的な手段は特に限定されない。ま
た、資料情報の入力には、CD-ROM等の記録媒体を利用し
てもよいし、ウェブにアクセスして必要な情報を取得し
てもよいし、あるいは手入力してもよい。

【００１８】マルチモーダル構造情報抽出部２は、図２
に詳細な内部構成を示すように、場面情報抽出部２１
と、人物抽出部２２と、場面動画部分区間情報抽出部２
３と、音声区間抽出部２４と、音声認識部２５と、話者
認識部２６と、感情認識部２７と、音声部分区間情報抽
出部２８と、対話情報抽出部２９と、質疑情報抽出部３
０と、話提情報抽出部３１と、資料構造情報抽出部３２
と、指示位置解析部３３とを有する。以下では、マルチ
モーダル構造情報抽出部２で抽出及び解析された各情報
を、総称してマルチモーダル構造情報と呼ぶ。

【００１９】場面情報抽出部２１は、動画情報の中から
場面の切り替わりを検出し、各場面を抽出する。人物抽
出部２２は、動画情報の中から人物を抽出する。具体的
には、パターンマッチング等の手法により人物を抽出す
る。場面動画部分区間情報抽出部２３は、各場面の部分
区間ごとに含まれる動画情報を抽出する。

【００２０】音声区間抽出部２４は、音声情報の区切り
を検出し、各音声区間の開始時刻と終了時刻を抽出す
る。音声認識部２５は音声認識を行い、話者認識部２６
は話者を特定し、感情認識部２７は音声の高低や強弱か
ら話者の感情を認識する。

【００２１】音声部分区間情報抽出部２８は、音声区間
抽出部２４、音声認識部２５、話者認識部２６及び感情
認識部２７の出力を利用して、各音声区間ごとに音声情
報を抽出する。対話情報抽出部２９は対話している内容
を抽出し、質疑情報抽出部３０は質疑している内容を抽
出し、話提情報抽出部３１は話題の内容を抽出する。

【００２２】資料構造情報抽出部３２は、資料に関する
具体的な情報、例えば、著者、発行日、出版社、刊行
日、資料の入手先などの情報を抽出する。

【００２３】指示位置解析部３３は、講演者等がポイン
タやマウス等により資料の特定箇所を指示したときに、
その指示箇所を解析する。

【００２４】図１のマルチモーダル構造情報蓄積部３
は、図２に詳細な内部構成を示すように、場面動画部分
区間情報蓄積部４１と、音声部分区間情報蓄積部４２
と、対話情報蓄積部４３と、質疑情報蓄積部４４と、話
提情報蓄積部４５と、資料構造情報蓄積部４６と、付属
情報蓄積部４７とを有する。

【００２５】場面動画部分区間情報蓄積部４１は、マル
チモーダル情報抽出部内の場面動画部分区間情報抽出部
２３で抽出された情報を保存する。同様に、音声部分区
間情報蓄積部４２は音声部分区間情報抽出部２８で抽出
された情報を保存し、対話情報蓄積部４３は対話情報抽
出部２９で抽出された情報を保存し、質疑情報蓄積部４
４は質疑情報抽出部３０で抽出された情報を保存し、話
提情報蓄積部４５は話提情報抽出部３１で抽出された情
報を保存し、資料構造情報蓄積部４６は資料構造情報抽
出部３２で抽出された情報を保存し、付属情報蓄積部４
７は付属情報抽出部で抽出された情報を保存する。

【００２６】マルチモーダル構造情報蓄積部３は、マル
チモーダル構造情報を時間を基準として相互に関連付け
て保存する。図３はマルチモーダル構造情報蓄積部３に
保存される各種情報の関連付けを示す図である。図３で
は、人物が講演等で使用した表示資料の種類と、人物を
映した動画像の種類と、人物が資料の特定の場所を指し
示すために使用したポインタの座標と、人物の音声と、
話者を特定する情報と、動画像に映っている人物の数
と、動画像に映っている各人物を特定する表示人物情報
と、音声認識結果とを、時間を基準として相互に関連付
けている。

【００２７】図３の例では、表示資料は時刻Ｔ５で切り
替わり、画像は時刻Ｔ４で切り替わり、ポインタは時刻
Ｔ２，Ｔ６で切り替わり、音声は時刻Ｔ３，Ｔ５で切り
替わり、話者は時刻Ｔ３，Ｔ５で切り替わり、人数は時
刻Ｔ４で切り替わり、表示人物情報は時刻Ｔ４で切り替
わり、音声認識結果は時刻Ｔ３，Ｔ５で切り替わってい
る。

【００２８】マルチモーダル構造情報抽出部２内の場面
動画部分区間情報抽出部２３と音声部分区間情報抽出部
２８は、時刻に関する情報を保存している。これによ
り、マルチモーダル情報を出力する際に、同一時刻に関
する複数種類の情報を相互に関連づけて出力することが
できる。

【００２９】図１のマルチモーダル情報蓄積部４は、図
２に詳細な内部構成を示すように、場面動画情報蓄積部
５１と、音声情報蓄積部５２と、資料情報蓄積部５３と
を有する。マルチモーダル情報蓄積部４は、マルチモー
ダル情報入力部１内の場面動画入力部１２にて入力され
た場面動画情報と、音声入力部１３にて入力された音声
情報と、資料入力部１４にて入力された資料情報とを保
存する。

【００３０】以下、講演者が講演している状況をマルチ
モーダル情報入力部１に入力し、その内容を参照して講
演内容の理解を支援する場合を例に取って、本実施形態
のマルチモーダル情報システムの動作を説明する。

【００３１】マルチモーダル情報入力部１は、講演者の
手元に置かれており、講演者が講演を開始するときに、
講演者自身でマルチモーダル情報入力部１に対して入力
開始を指示する。これにより、マルチモーダル情報入力
部１内の場面動画入力部１２、音声入力部１３、資料入
力部１４及び付属情報入力部１５は、それぞれの情報入
力を開始する。

【００３２】また、マウスの動作や資料画面の切り替え
動作など電子的な講演資料の操作もマルチモーダル情報
入力部１に入力され、マウス等により提示している部分
が分かる情報、例えば資料のページ数などが、資料の講
演の映像、音声及び時刻情報とともにマルチモーダル情
報入力部１に入力される。

【００３３】マルチモーダル情報入力部１から入力され
た人物動画像、音声、資料情報及び資料操作情報など
は、マルチモーダル情報蓄積部４とマルチモーダル情報
抽出部に伝送される。

【００３４】マルチモーダル情報蓄積部４は、人物の映
っている場面動画情報と、語っている人物の音声情報
と、語っている人物が資料として使用している資料情報
とをそれぞれ保存する。

【００３５】マルチモーダル情報抽出部は、各情報の構
造を分析して、情報の種類ごとに各情報を抽出する作業
を行う。抽出された各情報はマルチモーダル構造情報蓄
積部３に伝送され、情報の種類ごとに分類して保存され
る。例えば、講演者がポインタを用いて資料を指し示し
たり、マウスカーソルによって資料の内容を示した場合
には、マルチモーダル情報抽出部内の指示位置解析部３
３により、講演中に映し出された資料中のマウスの指示
箇所を抽出する。

【００３６】マルチモーダル構造情報抽出部２は、講演
者の映像から人物像を抽出し、人物の人数と予め登録し
ておいた顔情報から人物認識を行い、マルチモーダル情
報として登録する。ただし、講演資料や講演式次第など
から講演者を識別できるときには、講演資料を優先した
情報抽出をおこなう。

【００３７】また、マルチモーダル構造情報抽出部２
は、講演者の移動状況を動画像の場面分割技術によって
抽出し、人物移動情報に変換してマルチモーダル構造情
報として時間的な対応を保存する。

【００３８】また、マルチモーダル構造情報抽出部２内
の音声区間抽出部２４は、マルチモーダル情報として記
録された講演者の音声情報から、発声している区間を検
出して音声区間情報の抽出を行う。また、話者認識部２
６は検出された音声ごとに予め登録された話者ごとの音
声情報から話者認識を行い、話者情報をマルチモーダル
情報として抽出し、音声部分区間情報蓄積部４２に保存
する。

【００３９】また、マルチモーダル構造情報抽出部２
は、音声認識部２５、話者認識部２６、感情認識部２７
及び資料構造情報抽出部３２にて、音声認識、発声者の
話者認識、人物の感情の認識、及び資料の内容の構造抽
出なども行う。これらの機能によって抽出された情報
は、人物動画の部分区間情報として分割するための情報
を抽出したり、音声情報からは、一人の人物が話してい
る場合には話しの内容や構成などを抽出し、話題の変化
や内容の構成情報とする。複数の人物が対話している場
合には対話情報を抽出する。また、複数の人物が質問し
たり、それに回答している場面では、その質疑応答情報
を抽出する。これらの抽出された情報は、マルチモーダ
ル構造情報としてマルチモーダル情報蓄積部４に蓄積さ
れるとともに、動画情報、音声情報及び資料情報がマル
チモーダル情報としてマルチモーダル情報蓄積部４に蓄
積される。

【００４０】マルチモーダル情報蓄積部４に蓄積された
マルチモーダル情報は、利用者が再生指示を行ったとき
に、マルチモーダル構造情報蓄積部３に蓄積されている
マルチモーダル構造情報を参照して、マルチモーダル情
報出力部１１から出力される。このとき、人物の発声か
ら抽出された内容情報が動画像部分区間情報とともに関
連付けて表示される。これにより、動画像の再生時に内
容を文字情報として確認できる。

【００４１】マルチモーダル情報出力部１１は、マルチ
メディア構造情報に蓄積された人物の興奮度に基づいて
表示を変化させてもよく、これにより、利用者は重要な
内容であることを確認できる。

【００４２】また、利用者が時間がない場合に重要なと
ころだけを確認できるように、マルチモーダル情報出力
部１１は、マルチモーダル構造情報に蓄積された重要度
にしたがって、マルチモーダル情報を出力してもよい。
これにより、利用者は重要度の高い情報だけを再生する
ことができる。

【００４３】このように、本実施形態では、絵文字情報
だけでなく、講演者等が話をする場面の動画を表示しな
がら、講演者の動作、音声及び講演資料を同時に提示
し、さらにそれらの関係づけを行って、講演内容の構
成、重要な部分及び関連する部分の関係付けを行い、再
生しながら必要に応じて、関連する情報のみを抽出した
り、重要な部分のみを再生したり、分からない部分につ
いて検索したりすることができるため、マルチモーダル
情報を有効に活用でき、学習効果を高めることができ
る。

【００４４】例えば、講演の内容を再生する場合は、講
演で使用した資料、講演者の動画像及び講演者の音声を
相互に関連付けて提供するため、講演者に対する近親感
や信頼感も高まって、講演の内容を把握しやすくなる。
また、講演の中で特に重要な点や注意すべき点を強調す
ることができるため、学習効果をよりいっそう高めるこ
とができる。

【００４５】また、複数の人物間の対話、たとえば、コ
ーチングの際の映像を再生することによって、コーチン
グ技術の実例の分類、分類の頻度、良い事例及び悪い事
例などの分類とコーチングの流れなどを記録再生するこ
とができ、コーチング技術の習得に役立てることができ
る。

【００４６】さらに、講演会における質問や応答場面を
記録することによって、質疑応答内容の検索結果とし
て、実際の質問応答場面を見ることができ、文字情報の
みによる理解に比べて、格段に理解を深めることができ
る。

【００４７】上述した実施形態において、マルチモーダ
ル構造情報は、動画情報、音声情報及び資料情報に含ま
れる特徴的な情報であればよく、図２に示したものに限
定されない。

【００４８】また、上述したマルチモーダル情報は、人
物の動画情報、音声情報及び資料情報を最低限含んでい
ればよく、それ以外の情報を含んでいてもよい。

【００４９】

【発明の効果】以上詳細に説明したように、本発明によ
れば、マルチモーダル構造情報を利用してマルチモーダ
ル情報の検索を行うようにしたため、異なる種類の情報
を互いに関連付けて提供することができ、一種類の情報
を提供する場合に比べて学習効果を高めることができ
る。

【図面の簡単な説明】

【図１】本発明に係るマルチモーダル情報システムの一
実施形態の概略構成を示すブロック図。

【図２】マルチモーダル情報入力部、マルチモーダル構
造情報抽出部、マルチモーダル構造情報蓄積部及びマル
チモーダル情報蓄積部の詳細な内部構成を示すブロック
図。

【図３】マルチモーダル構造情報蓄積部３に保存される
各種情報の関連付けを示す図。

【符号の説明】

１マルチモーダル情報入力部２マルチモーダル構造情報抽出部３マルチモーダル構造情報蓄積部４マルチモーダル情報蓄積部５検索情報入力部６マルチモーダル情報検索部７編集情報入力部８マルチモーダル情報編集部９提示シナリオ入力部１０マルチモーダル情報提示シナリオ蓄積部１１マルチモーダル情報出力部

フロントページの続き (72)発明者鈴木優神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者岐津俊樹神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者宮澤隆幸神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者浦田耕二神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者玉田雄三神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内Ｆターム(参考） 2C028 AA12 BD02 5B075 ND16 NK39 NK44 NR06 NR20 UU40 5C052 AA01 AB02 AB03 AB04 AC08 CC01 CC06 DD03 DD04 DD06 EE02 EE03

Claims

【特許請求の範囲】

【請求項１】人物の動画情報、前記人物の音声情報、及
び前記人物が使用した資料に関連する資料情報を、マル
チモーダル情報として蓄積するマルチモーダル情報蓄積
部と、前記動画情報、前記音声情報及び前記資料情報に含まれ
る特徴的な情報をマルチモーダル構造情報として抽出す
る抽出部と、前記マルチモーダル情報についての検索条件を指定する
検索条件指定部と、前記指定された検索条件に合致するマルチモーダル情報
を前記マルチモーダル構造情報に基づいて検索する検索
部と、を備えることを特徴とするマルチモーダル情報シ
ステム。
【請求項２】前記検索部により検索されたマルチモーダ
ル情報を少なくとも前記動画情報及び前記音声情報に関
連づけて出力する出力部を備えることを特徴とする請求
項１に記載のマルチモーダル情報システム。
【請求項３】前記抽出部は、前記動画情報に基づいて、
前記人物の顔の特徴と表情の変化とを前記マルチモーダ
ル構造情報として抽出することを特徴とする請求項１ま
たは２に記載のマルチモーダル情報システム。
【請求項４】前記抽出部は、前記音声情報に基づいて、
音声認識、話者認識及び感情認識の少なくとも一つを行
った結果を前記マルチモーダル構造情報として抽出する
ことを特徴とする請求項１及至３のいずれかに記載のマ
ルチモーダル情報システム。
【請求項５】前記抽出部は、前記動画情報に含まれる場
面の切り替わりと前記音声情報に含まれる音声区間の区
切りとを前記マルチモーダル構造情報として抽出するこ
とを特徴とする請求項１及至４のいずれかに記載のマル
チモーダル情報システム。
【請求項６】前記抽出部は、前記音声情報に含まれる前
記人物の発話内容を前記マルチモーダル構造情報として
抽出することを特徴とする請求項１及至５のいずれかに
記載のマルチモーダル情報システム。
【請求項７】前記マルチモーダル情報及び前記マルチモ
ーダル構造情報の少なくとも一方を編集する編集部を備
えることを特徴とする請求項１及至６のいずれかに記載
のマルチモーダル情報システム。
【請求項８】前記動画情報、前記音声情報及び前記資料
情報の少なくとも一つの特定部分を指し示す提示シナリ
オ入力部と、前記指し示された特定部分に関する情報を蓄積する提示
シナリオ蓄積部と、を備えることを特徴とする請求項１
及至７のいずれかに記載のマルチモーダル情報システ
ム。
【請求項９】人物の動画情報、前記人物の音声情報、及
び前記人物が使用した資料に関連する資料情報を、マル
チモーダル情報として蓄積するステップと、前記動画情報、前記音声情報及び前記資料情報に含まれ
る特徴的な情報をマルチモーダル構造情報として抽出す
るステップと、前記マルチモーダル情報についての検索条件を指定する
ステップと、前記指定された検索条件に合致するマルチモーダル情報
を前記マルチモーダル構造情報に基づいて検索するステ
ップと、を備えることを特徴とするマルチモーダル情報
検索方法。