【0001】
【発明の属する技術分野】
本発明は単体の端末もしくは複数の端末間で情報処理を行い、利用者の作業状況にあわせて情報管理する作業状況管理装置に関するものである。
【0002】
【従来の技術】
近年、各種情報をリアルタイムで交換しながら、会議や意志決定をはじめとした協同作業を行うことを支援するネットワーク会議システムが提案され構築されている。
【0003】
例えば、渡辺 他「マルチメディア分散会議システム MERMAID」、情報処理学会論文誌、Vol.32、No.9(1991)や中山 他「多者間電子対話システム ASSOCIA」、情報処理学会論文誌、Vol.32、No.9(1991)が挙げられる。
【0004】
従来の技術では、個人利用や複数端末間での情報交換のためにウインドウを開き、ファイル単位での会議資料(テキスト、イメージ、図形等からなる文書)の編集や提示等を行う。
【0005】
そのため、会議終了後、議事録としては会議中のメモや会議資料は利用者の手元には残るが、会議の状況といった体系的には取り扱いにくい動的な情報まで含めて会議の議事録として残すことができない(例えば、参加者の一人がカメラで提示された資料を指で指示した場合の指の位置情報の時間経過といった動的な情報が挙げられる)。
【0006】
従って、利用者の記憶を助けるという観点からは従来の手法では十分ではない。
【0007】
また、会議の状況を記録するためにVTR等を利用する方法が考えられるが、会議の状況をすべてVTR等で撮影することにより膨大な情報が発生するため、会議終了後、撮影された映像・音声の情報を検索・編集するのは、利用者に大変な労力を強いる。
【0008】
更に、従来のCAI(計算機支援による教育システム)システムでは、教材を先生や生徒間で共有し、会話の場を設定することが目的であったため、生徒が授業後、個人的な観点で復習をしたり、先生が授業の状況を反映させた教材作成を行うことは難しかった。
【0009】
【発明が解決しようとする課題】
従来の手法では、個人利用や複数端末間での情報交換のためにウインドウを開き、ファイル単位での会議資料(テキスト、イメージ、図形等からなる文書)の編集や提示等を行う。
【0010】
そのため、会議終了後、議事録としては会議中のメモや会議資料が利用者の手元には残るが、会議の状況といった体系的には取り扱いにくい動的な情報まで含めて会議の議事録として残すことができない。
【0011】
また、会議の状況をすべてVTR等で取るにも膨大な情報量になるため、会議終了後、撮影された映像・音声の情報を検索・編集するのは、利用者に大変な労力を強いる。
【0012】
従って、利用者の記憶を助けるという観点からは従来の手法では十分ではないという課題と、必要な情報を必要な量だけ記録できなければならないという課題がある。
【0013】
本発明の目的は、利用者が作り出す様々な情報を作業状況管理装置にて管理を行うとともに、利用者の作業状況にあわせて必要な情報管理することにある。
【0014】
【課題を解決するための手段】
本発明の作業状況管理装置は、作業の時間的経過を表す情報を記憶する記憶手段と、該記憶手段に記憶された該作業の時間的経過を表す該情報に基づいて、該作業に要した時間のうち、キーワードを付すべき時間帯を特定する時間帯特定手段と、該時間帯特定手段によって特定された該時間帯に対して、少なくとも1つのキーワード候補を特定するキーワード候補特定手段と、該少なくとも1つのキーワード候補の中から1つのキーワード候補を所定のルールに従って選択し、該選択されたキーワード候補を該時間帯に対応するキーワードとして決定するキーワード決定手段とを備えており、これにより、上記目的が達成される。
【0015】
前記作業の時間的経過を表す前記情報は、該作業中に発生した音声情報に含まれる有音部と無音部とを識別する情報であり、前記時間帯特定手段は、該有音部に対応する該時間帯のみをキーワードを付すべき時間帯として特定してもよい。
【0016】
前記作業の時間的経過を表す前記情報は、該作業に要した時間のうち、資料情報を表示するウインドウが利用者により着目されていると推定される時間帯を示す情報であり、前記時間帯特定手段は、該ウインドウが該利用者により着目されていると推定される該時間帯のみをキーワードを付すべき時間帯として特定してもよい。
【0017】
前記作業の時間的経過を表す前記情報は、該作業に要した時間のうち、資料情報を表示するウインドウに対して指示情報が発生した時間帯を示す情報であり、前記時間帯特定手段は、該ウインドウに対して該指示情報が発生した該時間帯のみをキーワードを付すべき時間帯として特定してもよい。
【0018】
前記作業の時間的経過を表す前記情報は、該作業中に発生した音声情報に含まれる有音部と無音部とを識別する情報と、該作業に要した時間のうち、資料情報を表示するウインドウが利用者により着目されていると推定される時間帯を示す情報と、該作業に要した時間のうち、該ウインドウに対して指示情報が発生した時間帯を示す情報のうちの少なくとも1つを含み、前記時間帯特定手段は、該有音部に対応する該時間帯と該ウインドウが該利用者により着目されていると推定される該時間帯と該ウインドウに対して該指示情報が発生した該時間帯とのうち少なくとも1つに基づいて決定される時間帯のみをキーワードを付すべき時間帯として特定してもよい。
【0019】
前記キーワード候補特定手段は、前記作業において、編集可能な文字情報を含む資料情報が使用される場合に、該作業に要した時間のうち第1時刻での該資料情報における第1文字情報と該作業に要した時間のうち第2時刻での該資料情報における第2文字情報との間の差分を表す差分情報を記憶する差分情報記憶手段と、該差分情報記憶手段に記憶された該差分情報から少なくとも1つのキーワード候補を抽出する文書キーワード抽出手段とを備えていてもよい。
【0020】
前記キーワード候補特定手段は、前記作業において文字情報を含む資料情報が使用される場合に、該作業中に利用者によって指示された文字情報の位置を示す位置情報を記憶する位置情報記憶手段と、該位置情報記憶手段に記憶された該位置情報に基づいて、該資料情報から少なくとも1つのキーワード候補を抽出する指示キーワード抽出手段とを備えていてもよい。
【0021】
前記キーワード候補特定手段は、前記作業において資料情報が表題を記述するための部分を有するウインドウに表示される場合に、該表題を記憶する表題記憶手段と、該表題記憶手段に記憶された該表題から少なくとも1つのキーワード候補を抽出する表題キーワード抽出手段とを備えていてもよい。
【0022】
前記キーワード候補特定手段は、前記作業において資料情報が個人情報を記述するための部分を有するウインドウに表示される場合に、該個人情報を記憶する個人情報記憶手段と、該個人情報記憶手段に記憶された該個人情報から少なくとも1つのキーワード候補を抽出する個人情報キーワード抽出手段とを備えていてもよい。
【0023】
前記キーワード候補特定手段は、前記作業において生成される音声情報を認識して、該音声情報に対応する文字情報を生成する音声認識手段と、該音声情報に対応する該文字情報を記憶する音声認識情報記憶手段と、音声認識情報記憶手段に記憶された該文字情報から少なくとも1つのキーワード候補を抽出する音声キーワード抽出手段とを備えていてもよい。
【0024】
前記キーワード候補特定手段は、利用者によって入力された文字情報を受け取り、該受け取った文字情報をキーワード候補とするキーワード候補入力手段を備えていてもよい。
【0025】
前記所定のルールは、キーワードの出現比率に関連する評価値に基づいてキーワードを決定するルールを含んでいてもよい。
【0026】
前記所定のルールは、競合区間に割り当てられた複数のキーワードのうちいずれのキーワードを選択すべきかを規定するルールを含んでいてもよい。
【0027】
本発明の他の作業状況管理装置は、作業の時間的経過を表す情報を記憶する記憶手段と、利用者からの検索キーワードを入力するための検索キーワード入力手段と、該入力された検索キーワードに基づいて、該記憶手段に記憶された該作業の時間的経過を表す該情報を検索する検索手段と、該入力された検索キーワードと検索結果とを記憶する検索キーワード記憶手段と、該検索結果に基づいて、該検索キーワードが適切か否かを評価する検索キーワード評価手段とを備えており、これにより、上記目的が達成される。
【0028】
前記検索キーワード評価手段は、少なくとも前記検索キーワードが利用者により入力された回数と、前記検索結果が利用者により採用された回数とに基づいて、該検索キーワードを評価してもよい。
【0029】
本発明の他の作業状況管理装置は、第1映像情報を複数の第1映像ブロックに分割し、第2映像情報を複数の第2映像ブロックに分割する映像情報分割手段と、ある時間帯に、該複数の第1映像ブロックのうちの1つと該複数の第2映像ブロックのうちの1つとが存在するか否かを判定し、該時間帯に該複数の第1映像ブロックのうちの1つと該複数の第2映像ブロックのうちの1つとが存在すると判定された場合には、所定のルールに従って、該時間帯に存在する映像ブロックのうちのいずれを優先的に選択するかを決定する映像ブロック評価手段とを備えており、これにより、該第1映像情報と該第2映像情報とを統合して1つの映像情報を生成する。これにより、上記目的を達成できる。
【0030】
前記所定のルールは、前記時間帯に存在する映像ブロックの時間的な先後関係に基づいて、選択すべき映像ブロックを決定するルールを含んでいてもよい。
【0031】
前記所定のルールは、作業状況の変化に基づいて、選択すべき映像ブロックを決定するルールを含んでいてもよい。
【0032】
本発明においては、会議参加者が作り出す様々な情報を作業状況管理装置にて管理を行うとともに、利用者が必要な情報(資料、コメント、会議の状況)を効率的に取り出して作業できるよう、会話状況といった体系的には取り扱いにくい動的な情報までも取り扱うことが可能である。
【0033】
【発明の実施の形態】
下、図面を参照しながら本発明を実施例について説明する。
【0034】
図1の(a)は、本発明の実施例の作業状況管理装置10の構成を示す。作業状況管理装置10は、作業に関連する情報を入力する入力部11と、利用者による作業状況を管理する作業状況管理部13と、作業状況を記憶する作業状況記憶部14と、資料情報を記憶する資料情報記憶部15と、入力部11と作業状況管理部13とを制御する端末制御部12を備えている。
【0035】
典型的には、「作業」とは、1人または複数人の利用者が資料を提示してその資料を説明することをいう。
【0036】
特に、本明細書では、複数人の利用者が共通の資料をリアルタイムに検討し、意見を交換しあう電子会議を典型的な作業として想定している。しかし、本明細書にいう作業は、そのような作業に限定されない。本明細書では、「作業状況」とは、その作業がどのような経過で行われたかを示す時系列な情報の集合をいう。また、「資料情報」とは、その作業において利用者により提示される資料に関連する情報をいう。
【0037】
図1の(b)は、利用者が資料を提示してその資料を説明する場合の、典型的な作業風景を示したものである。利用者は、作業状況管理装置の前に座り、資料を説明する。その資料を撮影するためのカメラ18(以下、このカメラを書画カメラという)と、その利用者を撮影するためのカメラ19(以下、このカメラを対人カメラという)と、その利用者が発する音声を収録ためのマイクロフォン20が作業状況管理装置に接続される。書画カメラ18、対人カメラ19によって撮影された映像情報とマイクロフォン20によって収録された音声情報とは、作業状況管理装置の入力部11を介して、端末制御部12に供給される。このようにして、利用者がどのような表情で説明していたか、どのような資料をどのような順番で提示していたかといった作業の経過を示す情報が作業状況管理装置に入力されることとなる。また、入力部11として、キーボード、マウス、デジタイザ、タッチパネル、ライトペンを使用してもよい。
【0038】
上述したように、端末制御部12には、種々の入力装置が入力部11として接続され得る。端末制御部12には、端末制御部12に接続されている入力装置を特定するための識別子が予め設定される。端末制御部12は、複数の入力装置から情報が入力された場合に、予め設定された識別子に基づいて、どの入力装置からどの情報が入力されたかを識別する。例えば、対人カメラ19によって撮影された映像情報が端末制御部12に供給された場合には、端末制御部12は、対人カメラ19を特定する識別子とその映像情報との対を作業状況管理部13に出力する。
【0039】
作業状況管理部13は、入力される情報に対して所定の変化が発生したことを検出する。複数の情報が作業状況管理部13に入力される場合には、作業状況管理部13は、その複数の情報のそれぞれに対して所定の変化が発生したことを検出する。その所定の変化は、その複数の情報に共通する変化であってもよいし、複数の情報に応じて互いに異なる変化であってもよい。作業状況管理部13は、入力された情報に対して所定の変化が発生したことを検出すると、その所定の変化が発生した時刻を示す情報とその所定の変化を特定する情報とを作業状況として作業状況記憶部14に記憶する。このような情報を作業状況記憶部14に記憶しておくことにより、特定の情報に対する所定の変化を検索キーとして利用して、その作業における所望の箇所を検索することが可能となる。また、入力される音声情報や映像情報そのものも作業状況として作業状況記憶部14に記憶される。
【0040】
資料情報記憶部15は、資料情報を記憶する。資料情報記憶部15としては、磁気ディスク、VTR、光ディスク等の装置が使用される。
【0041】
作業状況管理装置10は、作業状況や資料情報を出力する出力部16と、他の装置とネットワークを介して接続するための伝送部17とをさらに備えていてもよい。出力部16としては、ディスプレイ、スピーカー、プリンタ等の装置が使用される。伝送部12としては、ローカルエリアネットワーク(LAN)、ケーブルテレビ(CATV)、モデム、デジタルPBX等の装置が使用される。
【0042】
図2は、複数の端末装置20にネットワークを介して接続された作業状況管理装置10を示す。複数の端末装置20のそれぞれは、作業に関連する情報を入力する入力部21と、作業状況管理装置とネットワークを介して接続するための伝送部22と、作業状況や資料情報を出力する出力部24と、入力部21と伝送部22と出力部24とを制御する端末制御部23とを備えている。端末装置20の入力部21から入力された情報は、伝送部22、伝送部17を介して作業状況管理装置10の端末制御部12に供給される。端末制御部12には、ネットワークを介して端末制御部12に接続されている入力装置と端末制御部12に直接接続されている入力装置とを特定するための識別子が予め設定される。端末制御部12は、複数の入力装置から情報が入力された場合に、予め設定された識別子に基づいて、どの入力装置からどの情報が入力されたかを識別する。このようにして、複数の利用者によって使用される複数の端末装置20のそれぞれから作業の時間的経過を示す情報が作業状況管理装置10に収集される。端末装置20の入力部21としては、キーボード、マウス、デジタイザ、タッチパネル、ライトペン、カメラ、マイク等の装置が使用される。端末装置20の出力部24としては、ディスプレイ、スピーカー、プリンタ等の装置が使用される。端末装置20の伝送部22としては、ローカルエリネットワーク(LAN)、ケーブルテレビ(CATV)、モデム、デジタルPBX等の装置が使用される。
【0043】
図3は、作業状況管理部13の構成例を示す。作業状況管理部13は、映像情報の変化を管理する映像情報管理部31と、音声情報の変化を管理する音声情報管理部32と、映像情報管理部31と音声情報管理部32とを制御する作業状況制御部33とを含む。本明細書では、「映像情報」とは、作業の時間的経過を示す情報のうち、映像に関連するものをすべて含む。例えば、カメラによって撮影された複数のフレームからなる映像が映像情報に含まれることはもちろんのこと、カメラ操作によって生じる制御信号も映像情報に含まれる。本明細書では、「音声情報」とは、作業の時間的経過を示す情報のうち、音声に関連するものをすべて含む。例えば、マイクロフォンによって生成される音声信号は音声情報に含まれる。
【0044】
入力部11から入力された映像情報は、作業状況制御部33を介して、映像情報管理部31に入力される。映像情報管理部31は、入力された映像情報に対して所定の変化が発生したことを検出し、その所定の変化が発生した時刻を示す情報とその所定の変化を特定する情報とを生成する。
【0045】
入力部11から入力された音声情報は、作業状況制御部33を介して、音声情報管理部32に入力される。映像情報管理部31は、入力された音声情報に対して所定の変化が発生したことを検出し、その所定の変化が発生した時刻を示す情報とその所定の変化を特定する情報とを生成する。
【0046】
図3に示す作業状況管理部13は、作業状況として管理すべき対象を映像情報と音声情報とに限定している。その結果、作業状況管理部13は、ウインドウを表示する表示装置やウインドウに対して指示する入力装置を要しないので、小型化が容易であるという利点がある。通常のVTR装置の機能を拡張することにより、通常のVTR装置とほぼ同等の大きさを有する作業状況管理装置を実現することができるだろう。また、映像情報の利用が可能となるため、会議参加者の表情や計算機には取り込みにくい立体形状の資料の記録などが可能となる。従って、特に、相手の表情を分析する必要がある駆け引きの強い会議や、計算機には取り込みにくい立体形状の組立過程や操作過程を記憶する場合には、作業状況管理部13は、映像情報管理部31を有していることが好ましい。
【0047】
図4は、作業状況管理部13の他の構成例を示す。作業状況管理部13は、音声情報の変化を管理する音声情報管理部32と、ウインドウ情報の変化を管理をするウインドウ情報管理部43と、音声情報管理部32とウインドウ情報管理部43とを制御する作業状況制御部33とを含む。本明細書では、「ウインドウ情報」とは、ウインドウが有する資源を示す情報をいう。例えば、ウインドウの数、ウインドウのサイズ、ウインドウの位置は、ウインドウ情報に含まれる。利用者の操作によりウインドウ情報が変化すると、そのウインドウ情報の変化を示す制御信号が入力部11を介して、ウインドウ情報管理部43に入力される。利用者の操作によりウインドウ情報が変化したことは、端末制御部12によって検出される。ウインドウ情報の検出を担当する端末制御部12の部分は、通常、ウインドウ管理部(不図示)と呼ばれる。ウインドウ情報管理部43は、入力された制御信号を受け取り、その制御信号を受け取った時刻を示す情報とその制御信号を特定する情報とを生成する。ウインドウ情報管理部43によって生成された情報は作業状況制御部33に送られ、作業状況制御部33によって作業状況記憶部14に記憶される。このようにして、利用者が作業している間のウインドウ情報の変化を作業状況記憶部14に記憶しておくことにより、利用者が作業をしている間の利用者のウインドウ操作をキーとして利用して、音声情報や映像情報を検索することが可能となる。その結果、利用者は、作業の経過において要所となる箇所を容易に振り返ることが可能となる。
【0048】
図4に示す作業状況管理部13は、大量の記憶容量を要する映像情報を作業状況記録部14に記憶しない。従って、作業状況記録部14に記憶される情報量を大幅に削減できるという利点がある。また、図4に示す作業状況管理部13の構成は、会議室などで同一場所に利用者が集まる場合に会議の状況を記録する場合や、音声情報を主として取り扱う通常の電話機の機能を拡張することにより作業状況管理装置を実現する場合に、適している。
【0049】
図5は、作業状況管理部13の他の構成例を示す。この構成は、図4に示す構成に、映像情報の変化を管理する映像情報管理部31を追加した構成である。このような構成とすることにより、実空間における映像情報・音声情報と計算機内の資源であるウインドウ情報とを統合的に管理することができる。
【0050】
図6は、作業状況管理部13の他の構成例を示す。作業状況管理部13は、音声情報の変化を管理する音声情報管理部32と、指示情報の変化を管理する指示情報管理部53と、音声情報管理部32と指示情報管理部53とを制御する作業状況制御部33とを含む。本明細書では、「指示情報」とは、資料情報に対する指示を示す情報をいう。例えば、マウスポインタの位置やタッチパネルによって検出される座標位置は、指示情報に含まれる。
【0051】
入力部11から入力された指示情報は、作業状況制御部33を介して、指示情報管理部53に入力される。指示情報管理部53は、入力された指示情報に対して所定の変化が発生したことを検出し、その所定の変化が発生した時刻を示す情報とその所定の変化を特定する情報とを生成する。
【0052】
図6に示す作業状況管理部13によれば、指示情報の変化と音声情報の変化が同時に発生する箇所を検出できるため、利用者が説明を行った資料の位置に基づいて、会議状況の検索を行うことが容易となる。その理由は、人がある事柄(資料)を説明しようとする場合、音声を発生するのとほぼ同時に資料を指示することが多いからである。図6に示す作業状況管理部13も、図4に示す作業状況管理部13と同様にして、大量の記憶容量を要する映像情報を作業状況記録部14に記憶しない。従って、作業状況記録部14に記憶される情報量を大幅に削減できるという利点がある。また、図6に示す作業状況管理部13の構成も、図4に示す作業状況管理部13の構成と同様にして、会議室などで同一場所に利用者が集まる場合に会議の状況を記録する場合や、音声情報を主として取り扱う通常の電話機の機能を拡張することにより作業状況管理装置を実現する場合に、適している。さらに、図6に示す作業状況管理部13の構成は、図4に示す作業状況管理部13の構成に比較して、ウインドウに対する操作が少ない作業に適している。例えば、資料への書き込みがそれほど頻繁に起こらない報告型の会議などである。
【0053】
図7は、作業状況管理部13の他の構成例を示す。この構成は、図6に示す構成に、映像情報の変化を管理する映像情報管理部31を追加した構成である。このような構成とすることにより、実空間における映像情報・音声情報と計算機内の資源である指示情報とを統合的に管理することができる。
【0054】
図8は、作業状況管理部13の他の構成例を示す。この構成は、図3〜図7に示す構成を統合したものである。このような構成とすることにより、上述した各構成の長所を引き出すことができるという利点がある。
【0055】
図9は、映像情報管理部31の構成を示す。映像情報管理部31は、カメラ操作を検出するカメラ操作検出部91と、映像シーンの変化を検出する映像シーン変化検出部92と、映像チャネルの変化を検出する映像チャネル変化検出部93と、映像情報の変化に応じてその変化が発生した時刻を示す情報とその変化を特定する情報とを生成する映像情報生成部94と、映像情報管理制御部95とを含む。
【0056】
カメラ操作検出部91は、所定のカメラ操作を検出する。カメラ操作を検出する理由は、カメラ操作が発生した前後に、利用者にとって着目すべき情報が発生したとみなせる場合が多いからである。端末制御部12に接続されているカメラが操作されると、そのカメラ操作に応じて、カメラ操作信号が端末制御部12に入力される。カメラ操作は、被写体に対する映像の倍率を変更するズーム操作と、被写体に焦点をあわせるフォーカス操作と、カメラの位置を固定した状態で水平方向にカメラの向きを変更するパン操作と、カメラの位置を固定した状態で上下方向にカメラの向きを変更するチルト操作とを含む。カメラ操作信号は、ズーム操作を示すズーム操作信号と、フォーカス操作を示すフォーカス操作信号とパン操作を示すパン操作信号とチルト操作を示すチルト操作信号とを含む。端末制御部12は、カメラ操作信号がどのカメラから入力されたかを識別し、カメラの識別子とカメラ操作信号とを作業状況管理部13に送る。そのカメラの識別子とそのカメラ操作信号とは、作業状況制御部33と映像情報管理制御部95とを介して、カメラ操作検出部91に入力される。カメラ操作検出部91は、入力されたカメラ操作信号に所定の変化が発生したか否かを判定する。例えば、カメラ操作信号が操作量に比例したアナログ値で表される場合には、カメラ操作信号が所定のレベルを越えた時、所定の変化が発生したと判定する。その所定のレベルは0であってもよい。また、カメラ操作信号が0または1のデジタル値で表される場合には、カメラ操作信号が0から1に変化した時、所定の変化が発生したと判定する。ここで、デジタル値0はカメラ操作がなされていない状態を示し、デジタル値1はカメラ操作がなされている状態を示す。入力されたカメラ操作信号に所定の変化が発生したと判定された場合には、カメラ操作検出部91は、その所定の変化を示す検出信号を映像情報生成部94に送る。映像情報生成部94は、カメラ操作検出部91からの検出信号に応じて、そのカメラ操作が発生した時刻を示す情報とそのカメラ操作を特定する情報とを生成する。その所定の変化が発生した時刻を示す情報は、年月日時分秒の少なくとも1つを示す文字列である。「12時15分10秒」、「5/3 18:03」は、その文字列の一例である。あるいは、その所定の変化が発生した時刻を示す情報は、文字列の代わりに、バイナリ形式のデータであってもよい。このような時刻を表す情報は、現在時刻を管理するタイマー部(不図示)に現在時刻を問い合わせることにより生成される。
【0057】
次に、映像シーン変化検出部92について説明する。端末制御部12に利用者の顔を撮影するための対人カメラと資料情報を撮影するための書画カメラとが接続されていると仮定する。映像シーン変化検出部92の目的は、対人カメラの前に着席している利用者の動きを検知すること、および書画カメラによって撮影される資料情報の動きまたは資料情報を指示する利用者の手などの動きを検出することにある。対人カメラおよび書画カメラによって撮影された映像は、作業状況制御部33および映像情報管理制御部95を介して、映像シーン変化検出部92に入力される。映像シーン変化検出部92は、入力された映像のフレーム間の差分を算出し、その差分が所定の値より大きいか否かを判定する。その差分が所定の値より大きいと判定された場合に、映像シーン変化検出部92は、映像シーンの変化が発生したとみなして、その変化を示す検出信号を映像情報生成部94に送る。映像情報生成部94は、映像シーン変化検出部92からの検出信号に応じて、映像シーンの変化が発生した時刻を示す情報と映像シーンの変化を特定する情報とを生成する。
【0058】
資料情報に対する利用者の手の動きを検知するセンサーが設けられている場合には、映像シーン変化検出部92は、映像のフレーム間の差分に基づいて映像シーンの変化を検出する代わりに、そのセンサーからの出力信号に応じて映像シーンの変化を検出してもよい。例えば、そのセンサーは、利用者の手が資料情報の少なくとも一部を遮ったことを検知する。同様に、対人カメラの前に着席している利用者の動きを検知するセンサーが設けられている場合には、映像シーン変化検出部92は、映像のフレーム間の差分に基づいて映像シーンの変化を検出する代わりに、そのセンサーからの出力信号に応じて映像シーンの変化を検出してもよい。例えば、そのセンサーは、利用者が離席したことを検知する。そのセンサーは、所定の動きを検知したときのみ1の値を有する出力信号を生成する。そのようなセンサーとしては、赤外線センサーや超音波センサーが使用され得る。映像シーン変化検出部92は、そのセンサーから出力信号を受け取り、その出力信号の値が1であるか否かを判定する。その出力信号の値が1であると判定された場合には、映像シーン変化検出部92は、映像シーンの変化が発生したとみなして、その変化を示す検出信号を映像情報生成部94に送る。映像情報生成部94は、映像シーン変化検出部92からの検出信号に応じて、映像シーンの変化が発生した時刻を示す情報と映像シーンの変化を特定する情報とを生成する。
【0059】
次に、映像チャネル変化検出部93について説明する。端末制御部12には4つのカメラ(第1カメラ〜第4カメラ)が接続されていると仮定する。それらのカメラは、ネットワークを介して端末制御部12に接続されているか、直接的に端末制御部12に接続されているかを問わない。端末制御部12は、カメラからの入力をウインドウに割り当て、カメラからの入力とウインドウとの間の割り当て関係を管理する機能を有する。例えば、端末制御部12は、第1カメラからの入力を第1ウインドウに割り当て、第2カメラからの入力を第2ウインドウに割り当てる。本明細書では、「映像チャネルの変化」とは、カメラからの入力とウインドウとの間の割り当て関係を変更することをいう。例えば、上記の割り当て関係を変更して、第3カメラからの入力を第1ウインドウに割り当て、第4カメラからの入力を第2ウインドウに割り当てる場合、映像チャネルの変化が発生したという。端末制御部12は、利用者により入力された所定のコマンドに従って、または、プログラムからの所定の制御命令に従って、カメラからの入力とウインドウとの間の割り当て関係を変更する。例えば、会議の司会者が発言を求める会議参加者の顔を常に同一のウインドウに表示することを望む場合には、会議の司会者は発言者が変更する度に映像チャネルを切り替えるコマンドを入力するかもしれない。あるいは、参加者の顔を均等に同一ウインドウに表示するために、一定の時間間隔ごとにプログラムが映像チャネルを自動的に切り替えるかもしれない。映像チャネル変化検出部93は、所定のコマンドまたはプログラムからの所定の制御命令を検出した場合に、映像チャネルの変化が発生したとみなして、その変化を示す検出信号を映像情報生成部94に送る。映像情報生成部94は、映像チャネル変化検出部93からの検出信号に応じて、その映像チャネルの変化が発生した時刻を示す情報とその映像チャネルの変化を特定する情報とを生成する。映像シーンの変化を検出することは、映像チャネルの利用目的(例えば、会議の参加者の映像を流す映像チャネルなど)が明確である場合に特に有効である。さらに、映像チャネル変化検出部93によれば、撮影時にカメラ操作に関する情報が記憶されていない場合でも、撮影された映像情報のみに基づいて、映像シーンの変化を検出することが可能である。
【0060】
上述したように、カメラ操作検出部91と映像シーン変化検出部92と映像チャネル変化検出部93の機能は、互いに独立である。従って、映像情報管理部31をカメラ操作検出部91と映像シーン変化検出部92と映像チャネル変化検出部93のうちの1つ、または、任意の2つを含むように構成することも可能である。
【0061】
図10は、音声情報管理部32の構成を示す。音声情報管理部32は、マイクロフォンから入力される音声信号のパワーに基づいて、入力される音声信号を有音部と無音部とに分割する音声情報分割部101と、音声信号の無音部から有音部への変化に応じて、その変化が発生した時刻を示す情報とその変化を特定する情報とを生成する音声情報生成部102と、音声情報分割部101と音声情報生成部102とを制御する音声情報管理制御部103とを含む。
【0062】
音声情報分割部101は、入力される音声信号のパワーを測定し、その測定結果に基づいて入力される音声信号を有音部と無音部とに分割する。音声信号を有音部と無音部に分割する具体的な方法については図34を参照して後述する。音声情報分割部101は、この音声分割に基づいて、音声信号の無音部から有音部への変化と有音部が継続する音声ブロック数とを検出する。音声情報生成部102は、音声情報分割部101からの検出信号に応じて、音声信号が無音部から有音部に変化した時刻を示す情報と有音部が継続する音声ブロック数を示す情報とを生成する。音声信号が無音部から有音部に変化した時刻を示す情報と有音部が継続する音声ブロック数を示す情報とは、作業状況記憶部14に記憶される。このように、音声信号が無音部から有音部に変化した時刻と有音部が継続する音声ブロック数とを作業状況記憶部14に記憶しておくことにより、音声信号の有音部に対応する時間帯に利用者により記録もしくは利用された映像情報のみを再生することが可能となる。その結果、利用者は作業の経過において要所となる箇所を容易に振り返ることが可能となる。
【0063】
図11は、ウインドウ情報管理部43の構成を説明する図である。ウインドウ情報管理部43は、ウインドウの生成・破壊を検出するウインドウ生成・破壊検出部111と、ウインドウサイズの変化を検出するウインドウサイズ変化検出部112と、ウインドウの表示位置の変化を検出するウインドウ表示位置変化検出部113と、ウインドウに対するフォーカス(利用者間で編集(話題)の対象となるウインドウの切り替え作業)の変化を検出するウインドウフォーカス変化検出部114と、ウインドウで表示すべき情報の表示領域の変化を検出するウインドウ表示領域変化検出部115と、複数のウインドウ間の重なり関係の変化を検出するウインドウ間の表示変化検出部116と、ウインドウ情報の変化に応じて、その変化が発生した時刻を示す情報とその変化を特定する情報とを生成するウインドウ情報生成部117と、ウインドウ情報管理制御部118とを含む。
【0064】
ウインドウ生成・破壊検出部111は、ウインドウの生成またはウインドウの破壊を検出して、検出信号をウインドウ情報生成部117に送る。その他の検出部112〜116も、同様にして、所定の変化を検出して、検出信号をウインドウ情報生成部117に送る。ウインドウ情報生成部117は、検出信号を受け取り、その検出信号に応じてその変化が発生した時刻を示す情報とその変化を特定する情報とを生成する。
【0065】
図12は、指示情報管理部53の構成を示す。指示情報管理部53は、指示情報の変化を検出する指示情報検出部121と、指示情報の変化に応じて、その変化が発生した時刻を示す情報とその変化を特定する情報とを生成する指示情報生成部122と、指示情報管理制御部123とを含む。
【0066】
マウスポインタによる指示を例にとり、指示情報管理部53の動作を説明する。利用者によってマウスのボタンが押下されると、マウスのボタン押下を示す信号とマウスポインタの座標位置を示す信号が指示情報検出部121に入力される。指示情報検出部121は、マウスポインタの座標位置の所定の変化を検出し、その所定の変化を示す検出信号を生成する。例えば、その所定の変化は、マウスポインタがウインドウ上のある位置から他の位置に移動することである。あるいは、その所定の変化は、マウスポインタがウインドウ上のある領域内からその領域外へ移動することであってもよい。あるいは、その所定の変化は、マウスのボタンがダブルクリックされたことであってもよいし、マウスがドラッギングされていることであってもよい。指示情報生成部122は、指示情報検出部121からの検出信号に応じて、その変化が発生した時刻を示す情報とその変化を特定する情報とを生成する。
【0067】
図13は、音声情報生成部102によって生成され、作業状況制御部33によって作業状況記憶部14に記憶される情報の例を示す。この例では、音声情報の変化が発生した時刻を示す情報として、有音部の開始時刻が記憶されている。また、音声情報の変化を特定する情報として、音声ブロックの識別子、音声を発した利用者、有音部の音声ブロック長が記憶されている。音声を発した利用者は、入力装置の識別子と利用者との対応関係に基づいて特定される。この対応関係は予め設定される。例えば、図13の第1行は、「山口さん」の端末装置に接続されているマイクロフォンから入力された音声情報において、「12時15分10秒」から「15ブロック長(秒)」だけ有音部が続いたという作業状況を示す。
【0068】
図14は、映像情報生成部94によって生成され、作業状況制御部33によって作業状況記憶部14に記憶される情報の例を示す。この例では、映像情報の変化が発生した時刻を示す情報として、事象の発生時刻が記憶されている。また、映像情報の変化を特定する情報として、発生事象、事象発生者、発生位置が記憶されている。本明細書では、「事象」とは、所定の変化と同義であると定義する。発生事象は、映像シーンの変化を含む。事象発生者および発生位置は、入力装置の識別子と利用者と入力装置の用途との対応関係に基づいて特定される。この対応関係は予め設定される。例えば、図14の第1行は、「山口さん」の端末装置に接続されている「書画カメラ」から入力される映像情報において、「5/318:03」に「映像シーンの変化」という事象が発生したという作業状況を示す。
【0069】
なお、映像情報の変化を検出するための方法としては、資料を提示するための書画カメラに手の動きを検出するための赤外線センサーを付加する方法や、利用者の表情を撮影するための対人カメラに利用者の在席状況を調べるための超音波センサーを付加する方法がある。これらの方法により、映像情報の変化を検出することができる。このように、各種センサーを目的に合わせて利用することにより、利用者の動き情報が得られる。また、カメラで得られる映像情報のフレーム間の差分情報を利用することにより、動き情報を得ることも可能である。詳細については、以下の図27を参照して後述する。
【0070】
図15は、映像情報生成部94によって生成され、作業状況制御部33によって作業状況記憶部14に記憶される情報の他の例を示す。この例では、発生事象は、図14で説明した映像シーンの変化に加えて、カメラ操作の変化および映像チャネルの変化をも含む。例えば、図15の第1行は、「山口さん」の端末装置に接続されている「書画カメラ」から入力される映像情報において、「5/3 18:03」に「ズーム拡大」という事象が発生したという作業状況を示す。
【0071】
図16は、ウインドウ情報生成部117および指示情報生成部122によって生成され、作業状況制御部33によって作業状況記憶部14に記憶される情報の例を示す。この例では、ウインドウ情報または指示情報の変化が発生した時刻を示す情報として、事象の発生時刻が記憶されている。また、ウインドウ情報または指示情報の変化を特定する情報として、発生事象、事象発生者、発生位置が記憶されている。事象発生者および発生位置は、入力装置の識別子と利用者と入力装置の用途との対応関係に基づいて特定される。この対応関係は予め設定される。例えば、図15の第1行は、「山口さん」の端末装置のウインドウに表示されている「資料番号1番」の資料の「第1章」において「5/3 18:03」に「マウスポインタによる指示」という事象が発生したという作業状況を示す。ウインドウに対する操作は、論理的なページ、章、節を基本単位としてもよい。更に、ウインドウが個人的なメモを記述するための個人メモ記述部を有している場合には、個人メモ記述部の内容の変化に着目してもよい。このように、作業状況を作業状況記憶部14に記憶しておくことにより、利用者が作業中の記憶をもとに、作業中に撮影した映像情報や音声情報を検索することが可能となる。
【0072】
図17〜図20を参照して、ネットワークで相互接続された複数の端末装置を利用して、複数の利用者で電子会議を行う場合に、作業状況管理部13により管理されることが好ましい所定の変化を例示する。
【0073】
図17を参照して、ウインドウ情報の変化を検出することにより、利用者が着目しているウインドウを決定する方法を説明する。以下、利用者が着目していると作業状況管理部13により推定されるウインドウを着目ウインドウという。ウインドウ情報の変化としてウインドウサイズの変更を例にとり、その方法を説明する。ウインドウは、ウインドウサイズを変更するためのウインドウサイズ変更部を有しているものと仮定する。公知のウインドウシステムでは、ウインドウサイズ変更部はウインドウの周辺部分に設けられていることが多い。通常、利用者は、ウインドウサイズ変更部をマウスで指示したまま、そのマウスをドラッギングすることにより、そのウインドウのサイズを変更する。作業状況管理部13は、ウインドウサイズの変化を検出し、サイズが変更されたウインドウを着目ウインドウであると決定する。作業状況管理部13は、どのウインドウが着目ウインドウであるかを示す情報を時系列に作業状況記憶部14に記憶する。なお、複数のウインドウに対してウインドウサイズの変更が行われ得る場合には、作業状況管理部13は、最も最近にサイズが変更されたウインドウを着目ウインドウである決定してもよい。あるいは、作業状況管理部13は、所定のサイズより大きいサイズを有するウインドウを着目ウインドウであると決定してもよい。また、ウインドウが着目されている時間間隔が所定の時間間隔より短い場合に、利用者が資料を検索していると判断して、そのウインドウは着目されていないと決定してもよい。そのようなウインドウは、利用者の主たる話題の対象ではないと推定されるからである。同様にして、ウインドウサイズの変更以外のウインドウ情報の変化(例えば、ウインドウフォーカスの変化やウインドウ間の表示変化)を利用して、着目ウインドウを決定することも可能である。
【0074】
図18を参照して、ウインドウの所有者情報を利用して利用者が着目しているウインドウを決定する方法を説明する。ディスプレイに表示される編集領域は、図18に示されるように、複数の利用者により編集可能な共同編集領域181と1人の利用者によりのみ編集可能な個人編集領域182とを含み、共同編集領域181の位置と個人編集領域182の位置とは予め設定されていると仮定する。作業状況管理部13は、利用者の操作によりウインドウの位置が個人情報編集領域182から共同情報編集領域181へと移動したことを検出し、その移動したウインドウを着目ウインドウであると決定する。作業状況管理部13は、どのウインドウが着目ウインドウであるかを示す情報とともに、着目ウインドウが共同編集領域181および個人編集領域182のうちいずれの領域に位置するかを示す情報を時系列に作業状況記憶部14に記憶する。
【0075】
図19を参照して、ウインドウ表示領域の変化を検出することにより、利用者の着目している情報を決定する方法を説明する。ウインドウは、表示内容をスクロールするためのウインドウ表示領域変更部191を有するものと仮定する。公知のウインドウシステムにおいては、ウインドウ表示領域変更部191は、スクロール・バー形式のユーザインタフェースを有することが多い。しかし、ウインドウ表示領域変更部191は、押しボタン形式などの他のユーザインタフェースを有していてもよい。利用者がウインドウ表示領域変更部191を操作すると、ウインドウの表示内容がスクロールされる。作業状況管理部13は、ウインドウ表示領域が変化したことを検出する。作業状況管理部13は、ウインドウ表示領域が変化した後、所定のレベル以上の音声信号が所定の時間以上(例えば、1秒間以上)継続するか否かを判定する。このような判定が有効な理由は、人は資料を他人に説明する場合に、資料の特定の位置を指示して説明の対象をあきらかにした後、音声(言葉)を用いて他人に自分の意図を伝えようとすることが多いからである。ウインドウ表示領域が変化した後、所定のレベル以上の音声信号が所定の時間以上継続したと判定された場合には、作業状況管理部13は、利用者が着目している資料情報の時間的、位置的情報(例えば、文書名や項目名等)を作業状況記憶部14に記憶する。また、作業状況管理部13は、ウインドウ表示領域が変化した後、資料情報に対する指示が発生したことを検出し、その指示の時間的、位置的情報を利用者の着目地点を示す情報として作業状況記憶部14に記憶してもよい。更に、上述した2つの検出方法を組み合わせて、作業状況管理部13が利用者が発する音声を所定の時間以上検出し、且つ、資料情報に対する指示が発生したことを検出した場合に、利用者が着目している資料情報の時間的、位置的情報を作業状況記憶部14に記憶してもよい。
【0076】
図20および図21を参照して、映像情報に対する利用者の着目地点を検出する方法を説明する。図21に示すように、端末装置には資料情報を撮影するための書画カメラが接続されていると仮定する。作業状況管理部13は、利用者によって所定のカメラ操作がなされた後に、利用者により音声情報が生成されたことを検出する。その所定のカメラ操作とは、例えば、映像ソースが複数存在する場合の映像チャンネルの切り替え、カメラのズーム操作、VTR機器などの記録装置の操作などである。このような検出が有効である理由は、所定のカメラ操作をした後に、利用者が何かを意図的に説明しようとして音声を発することが多いからである。作業状況管理部13は、そのようなタイミングでの音声情報の発生は利用者の着目地点を示すと判断して、利用者の着目地点を示す時間的、位置的情報(例えば、映像情報のどの位置を、いつ指示したかを示す情報)を作業状況記憶部14に記憶する。
【0077】
図20は、電子会議中に、ある利用者が書画カメラを利用して「回路基盤」を図示した資料を映し出し、他の参加者が「回路基盤」の映像に自分が手で指示している映像をオーバーレイ(重ね合わせ)させているところを示す。ここで、音声情報の会話状態(例えば、誰が、いつ、有音部とみなせる情報を発したか)を利用者毎に記憶しておくことにより、誰が、いつ、着目すべき発言を行ったかを容易に検索することができる。作業状況管理部13は、利用者によってカメラ操作がなされた後に、資料情報に対する指示が発生したことを検出する。作業状況管理部13は、そのようなタイミングでの資料情報に対する指示は利用者の着目地点を示すと判断して、その指示の時間的、位置的情報を作業状況記憶部14に記憶する。資料情報に対する指示を検出する方法としては、例えば、マウスポインタによる指示を検出する方法や、図27に示すように、資料情報を手などで指示したことを書画カメラに設けられた赤外線センサーなどにより検出する方法がある。なお、書画カメラによって撮影された映像情報を利用して資料情報に対する指示を検出する方法としては、映像情報におけるフレーム間の差分を利用してもよい。あるいは、作業状況管理部13は、利用者によってカメラ操作がなされた後に、利用者が発する音声情報を検出し、且つ、資料情報に対する指示が発生したことを検出した場合に、その指示の時間的、位置的情報を利用者の着目地点を示す情報として作業状況記憶部14に記憶してもよい。このような検出が有効な理由は、人は資料を他人に説明する場合に、資料の特定の位置を指示して説明の対象をあきらかにした後、音声(言葉)を用いて他人に自分の意図を伝えようとすることが多いからである。特に、図20に示したように、映像を見ながら複数の利用者の間でその映像について議論をする場合には、音声の発生時間(音声の有音部となる区間)や映像に対する指示を利用者毎に記憶することが有効である。その理由は、利用者が映像に着目したと推定される時点が利用者毎に分かるため資料情報の検索・編集が容易になるからである。さらに、利用者が着目していると推定される時点の映像情報や音声情報のみを記録もしくは出力することにより、利用者に提示する情報量の低減や記憶容量の低減を図ることができる。
【0078】
次に、作業状況記憶部14に記憶された作業状況を利用して、映像情報もしくは音声情報にキーワードを付加するキーワード管理部220を有する作業状況管理装置を説明する。本明細書では、「映像情報もしくは音声情報にキーワードを付加する」とは、時間帯tに対してその時間帯tに対応するキーワードを決定することをいう。例えば、キーワード管理部220は、時間帯t1に対してキーワード「A」、時間帯t2に対してキーワード「B」、時間帯t3に対してキーワード「C」を割り当てる。映像情報もしくは音声情報は時刻tの関数によって表されるので、キーワードを検索キーとして利用して、映像情報もしくは音声情報の所望の箇所を検索することが可能になる。
【0079】
図22は、キーワード管理部220の構成を示す。キーワード管理部220は、作業状況記憶部14から作業の時間的経過を示す情報を入力し、キーワード記憶部224に時間帯tとその時間帯tに対応するキーワードK(t)の組(t,K(t))を出力する。キーワード管理部220は、作業状況記憶部14から作業の時間的経過を示す情報を読み出し、その情報に基づいて、作業に要した時間のうち、キーワードを付すべき時間帯を特定する時間帯特定部221と、時間帯特定部221によって特定された時間帯に対して、少なくとも1つのキーワード候補を特定するキーワード候補特定部222と、キーワード候補の中から1つのキーワード候補を所定のルールに従って選択し、選択されたキーワード候補をその時間帯に対応するキーワードとして決定するキーワード決定部223とを有している。時間帯とその時間帯に対応するキーワードとは、キーワード記憶部224に記憶される。
【0080】
上述したように、キーワード管理部220によって映像情報もしくは音声情報にキーワードを付加するためには、作業の時間的経過を示す情報が作業状況記憶部14に予め記憶されている必要がある。作業の時間的経過を示す情報は、作業状況管理部13によって生成され、作業状況記憶部14に記憶される。以下、どのような情報を作業状況記憶部14に記憶しておくべきかを説明する。
【0081】
図23の(a)は、文書を編集する作業の流れを示したものである。例えば、文書Aに対して変更、挿入、削除などの編集作業が行なわれ、その結果文書A’が作成される。作業状況管理部13は、編集前の文書Aと編集後の文書A’との間の差分を生成し、その差分が発生した時刻を示す情報とその差分を特定する情報を作業状況記憶部14に出力する。差分を特定する情報は、例えば、差分文字列を格納するファイルの名称である。作業状況管理部13は、その差分を特定する情報の代わりに編集後の文書A’を特定する情報を作業状況記憶部14に出力してもよい。差分が存在しない場合もあり得るからである。編集前の文書Aと編集後の文書A’との間の差分を取得するタイミングは、一定時間ごとであってもよいし、ウインドウがオープンされた時またはウインドウがクローズされた時であってもよい。
【0082】
図23の(b)は、図23の(a)に示す作業を行った場合に、作業状況管理部13により作業状況記憶部14に記憶される情報の例を示す。この例では、文書が編集された時間帯と、編集前の文書名と、編集後の文書名と、差分とが記憶されている。
【0083】
図24の(a)は、作業において、利用者により資料情報の一部が指示されている場面を示す。利用者は、マウスポインタやタッチパネルなどを用いて資料情報を指示することにより、資料情報の範囲を指定する。図24の(a)では、利用者により指定された範囲が反転表示されている。作業状況管理部13は、利用者により指定された範囲を検出し、利用者による指示が発生した時刻を示す情報と利用者により指定された範囲を特定する情報とを作業状況記憶部14に出力する。
【0084】
図24の(b)は、図24の(a)に示す指示が発生した場合に、作業状況管理部13により作業状況記憶部14に記憶される情報の例を示す。この例では、指示をした人物名と、指示が発生した時間帯と、その指示により指定された範囲とが記憶されている。
【0085】
図25の(a)は、作業において、資料情報がウインドウに表示されている場面を示す。そのウインドウは資料情報の表題を記述するための表題記述部2501を有している。表題としては、例えば、章、節、項の名称や番号が記述される。作業状況管理部13は、利用者により着目されているウインドウを検出し、着目ウインドウを検出した時刻を示す情報とそのウインドウの表題記述部2501に記述されている情報とを作業状況記憶部14に出力する。さらに、ウインドウは、利用者の個人的なメモを記述するための個人情報記述部2502を有していてもよい。作業状況管理部13は、利用者により着目されているウインドウを検出し、着目ウインドウを検出した時刻を示す情報とそのウインドウの個人情報記述部2502に記述されている情報とを作業状況記憶部14に出力する。
【0086】
図25の(b)は、作業状況管理部13により作業状況記憶部14に記憶される情報の例を示す。この例では、表題と、対象者と、そのウインドウが着目されていた時間帯と、個人メモとが記憶されている。
【0087】
図26の(a)は、音声キーワード検出部2601の構成を示す。音声キーワード検出部2601は作業状況管理部13に含まれる。音声キーワード検出部2601は、入力部11から入力される音声情報に含まれる所定の音声キーワードを検出して、所定の音声キーワードを検出した時刻を示す情報と検出された音声キーワードを示す情報とを作業状況記憶部14に出力する。音声キーワード検出部2601は、音声認識部2602と、音声キーワード抽出部2603と、音声キーワード辞書2604と、音声処理制御部2605とを有している。音声認識部2602は、入力部11から音声情報を受け取り、その音声情報をその音声情報に対応する文字列に変換する。音声キーワード抽出部2603は、音声認識部2602から音声情報に対応する文字列を受け取り、音声キーワード辞書2604を検索することにより、音声情報に対応する文字列から音声キーワードを抽出する。音声キーワード辞書2604には、抽出すべき音声キーワードが予め格納される。例えば、音声キーワード辞書2604に「ソフトウェア」という音声キーワードが予め格納されていると仮定する。音声認識部2602に「このソフトウェアの特徴は高速に動作することである」という音声情報が入力されると、音声認識部2602は、「このソフトウェアの特徴は高速に動作することである」という文字列を生成する。音声キーワード抽出部2603は、「このソフトウェアの特徴は高速に動作することである」という文字列を受け取り、受け取った文字列から音声キーワード辞書2604に格納されている音声キーワードである「ソフトウェア」に一致する文字列を抽出する。音声処理制御部2605は、上述の処理を制御する。
【0088】
図26の(b)は、作業状況管理部13により作業状況記憶部14に記憶される情報の例を示す。この例では、発話した人物名と、発話が行われた時間帯と、発話内容から抽出された音声キーワードとが記憶されている。
【0089】
図27は、図22に示すキーワード管理部220が行う音声情報もしくは映像情報へのキーワード付加処理の流れを示す。時間帯特定部221は、映像情報もしくは音声情報の評価対象区間(時間帯)を特定する(ステップS2701)。評価対象区間(時間帯)の指定方法は、図28の(a)〜(c)を参照して後述される。キーワード候補特定部222は、後述する各キーワード抽出処理部の処理結果に基づいて、少なくとも1つのキーワード候補を特定する(ステップS2702)。キーワード候補の中から1つを採用するために、キーワード決定部223は、後述するキーワードの決定ルールの中から決定ルールを選択する(ステップS2703)。キーワード決定部223は、選択された決定ルールに基づき、評価対象区間(時間帯)に対応するキーワードを決定する(ステップS2704)。
【0090】
図28の(a)〜(c)を参照して、映像情報もしくは音声情報の評価対象区間(時間帯)を特定する方法を説明する。その方法は主として3つある。1つ目は、キーワードを付すべき範囲を音声情報の有音部に限定する方法である。2つ目は、キーワードを付すべき範囲を利用者がウインドウに着目している区間に限定する方法である。利用者が特定のウインドウに着目していることを検出する方法については、図17〜図21を参照して既に説明した。3つ目は、キーワードを付すべき範囲を、指示情報が発生した区間に限定する方法である。指示情報としては、上述したように、マウスポインタによる指示や資料情報への指による指示などが挙げられる。これらの対象範囲の指定方法を組み合わせる方法が、図28の(a)〜(c)に示されている。
【0091】
図28の(a)は、ウインドウ情報と音声情報とに基づいて、キーワードを付すべき範囲を限定する方法である。時間帯特定部221は、キーワードを付すべき範囲を音声情報の有音部と利用者がウインドウに着目している時間帯との重複部分に限定する。図28の(a)に示す例では、音声情報の有音部と利用者がウインドウに着目している時間帯との重複部分として時間帯T1、T2が時間帯特定部221により特定される。
【0092】
図28の(b)は、ウインドウ情報と指示情報とに基づいて、キーワードを付すべき範囲を限定する方法である。時間帯特定部221は、キーワードを付すべき範囲を利用者がウインドウに着目している時間帯と指示情報が発生した時間帯との重複部分に限定する。図28の(b)に示す例では、利用者がウインドウに着目している時間帯と指示情報が発生した時間帯との重複部分として時間帯T1、T2、T3が時間帯特定部221により特定される。
【0093】
図28の(c)は、指示情報と音声情報とに基づいて、キーワードを付すべき範囲を限定する方法である。時間帯特定部221は、キーワードを付すべき範囲を指示情報が発生した時間帯と音声情報の有音部との重複部分に限定する。図28の(c)に示す例では、指示情報が発生した時間帯と音声情報の有音部との重複部分として時間帯T1、T2、T3が時間帯特定部221により特定される。
【0094】
上記の時間帯T1、T2、T3には、互いに異なるキーワードが付加されてもよいし、同一のキーワードが付加されてもよい。例えば、図28の(a)〜(c)に示す例では、時間帯T1、T2、T3に同一のキーワード「回路基板」が付加される。このように、異なる時間帯に同一のキーワードを付加することにより、時間帯の異なる映像情報を、同一キーワードを有する論理的な1つのグループである映像ブロックとして扱うことが可能となる。同様にして、異なる時間帯に同一のキーワードを付加することにより、時間帯の異なる音声情報を、同一キーワードを有する論理的な1つのグループである音声ブロックとして扱うことが可能となる。その結果、映像情報および音声情報を論理的な情報単位で取り扱うことが容易になる。
【0095】
図29は、図22に示すキーワード候補特定部222の構成を示す。キーワード候補特定部222は、編集前の文書と編集後の文書との間の差分に基づいてキーワード候補を抽出する文書キーワード抽出部2901と、指示情報に基づいてキーワード候補を抽出する指示キーワード抽出部2902と、個人情報記述部2502に記述されるメモの内容に基づいてキーワード候補を抽出する個人キーワード抽出部2903と、表題記述部2501に記述される表題の内容に基づいてキーワード候補を抽出する表題キーワード抽出部2904と、音声情報に基づいてキーワード候補を抽出する音声キーワード抽出部2905と、利用者からキーワード候補を入力するためのキーワード入力部2906と、キーワード制御部2907とを有している。
【0096】
次に、キーワード候補特定部222の動作を説明する。時間帯特定部221によって特定された時間帯Tは、キーワード制御部2907に入力される。キーワード制御部2907は、その時間帯Tを抽出部2901〜2905のそれぞれと、キーワード入力部2906とに送る。抽出部2901〜2905のそれぞれは、時間帯Tに対して付加すべきキーワード候補を抽出して、抽出されたキーワード候補をキーワード制御部2907に送り返す。利用者により入力されたキーワード候補もまたキーワード制御部2907に送られる。このようにして、キーワード制御部2907には、時間帯Tに対して少なくとも1つのキーワード候補が収集される。時間帯Tに対して収集された少なくとも1つのキーワード候補は、キーワード決定部223に送られる。
【0097】
例えば、「10時00分から10時01分」の時間帯がキーワード候補特定部222に入力されたと仮定する。文書キーワード抽出部2901は、作業状況記憶部14に記憶されている図23の(b)に示すテーブルを検索する。その結果、「10時00分から10時01分」の時間帯を含む「10時00分から10時03分」(10:00―>10:03)の時間帯がヒットする。文書キーワード抽出部2901は、ヒットされた時間帯に編集された文書の差分からキーワード候補を抽出する。文書の差分からキーワード候補を抽出する方法としては、例えば、文書の差分に含まれる文字列のうち名詞に相当する文字列のみをキーワード候補とする方法がある。文字列が名詞に相当するか否かを判定するには、ワードプロセッサなどで利用する「かな漢字変換辞書」を利用すればよい。
【0098】
指示キーワード抽出部2902は、作業状況記憶部14に記憶されている図24の(b)に示すテーブルを検索する。その結果、「10時00分から10時01分」の時間帯に一致する「10時00分から10時01分」(10:00―>10:01)の時間帯がヒットする。指示キーワード抽出部2902は、ヒットされた時間帯の指定範囲に含まれる文字列からキーワード候補を抽出する。
【0099】
同様にして、個人キーワード抽出部2903と表題キーワード抽出部2904とは、作業状況記憶部14に記憶されている図25の(b)に示すテーブルを検索する。音声キーワード抽出部2905は、作業状況記憶部14に記憶されている図26の(b)に示すテーブルを検索する。
【0100】
次に、キーワード決定部223の動作を説明する。キーワード決定部223は、キーワード候補特定部222から少なくとも1つのキーワード候補を受け取り、所定のキーワード決定ルールに従って、受け取ったキーワード候補のうちの1つを選択する。
【0101】
図30は、キーワード決定ルールの例である。ルール1〜4は、いずれの抽出部から抽出されたキーワード候補を優先的に選択すべきかを定めている。ルール5は、キーワード評価値に基づいて、複数の抽出部から抽出されたキーワード候補のいずれを選択すべきかを定めている。
【0102】
次に、図31に定義されるキーワード評価値に基づいて、複数のキーワード候補のうち1つのキーワード候補を選択する方法を説明する。その方法は、キーワード抽出部の評価や、評価区間の違いを考慮するか否かで、以下の4つに分類される。(1)キーワード評価値に基づいてキーワード候補を選択する方法:キーワード評価値は、1つのキーワード抽出部から複数のキーワード候補が抽出された場合に、その複数のキーワード候補のうちの1つを選択するために使用される。キーワード評価値とは、キーワード抽出部での出現回数を、キーワード抽出部で得られたキーワード候補の数によって割ることにより得られるキーワード出現比率の値である。(2)キーワード総合評価値に基づいてキーワード候補を選択する方法:キーワード総合評価値は、複数のキーワード抽出部の評価結果を考慮したものである。キーワード総合評価値は、キーワード評価値と利用者により予め定義されたキーワード抽出部に対する評価値との積をキーワード抽出部毎に求め、それらの積の総和を求めることにより得られる。(3)キーワード重要度に基づいてキーワード候補を選択する方法:キーワード重要度は、1つのキーワード抽出部から得られる同一名のキーワードを総合的に評価するものである。キーワード重要度は、キーワード評価値を映像ブロックもしくは音声ブロックの時間長であるキーワード出現時間で割ることによって得られる単位時間キーワード評価値を映像ブロック(音声ブロック)毎に求め、当該キーワードが出現するすべての映像ブロック(音声ブロック)に対して単位時間キーワード評価値の総和を求めることにより得られる。(4)キーワード総合重要度に基づいてキーワード候補を選択する方法:キーワード総合重要度は、複数のキーワード抽出部の評価結果を考慮したものである。キーワード総合重要度は、キーワード重要度と利用者により予め定義されたキーワード抽出部に対する評価値との積をキーワード抽出部毎に求め、それらの積の総和を求めることにより得られる。
【0103】
図32を参照して、キーワード評価値およびキーワード重要値に基づいて、キーワードを決定する方法の手順を具体例に即して説明する。まず、(1)キーワードを付すべき評価対象区間(時間帯)毎にキーワード評価値を求める。(2)キーワード評価値に基づいて、キーワードを決定する。図32の例では、評価対象区間(時間帯)T1のキーワード評価値は、キーワード毎にそれぞれ、「回路基盤」が0.5、「回路図面」が0.4、「安全性」が0.1となっている。その結果、キーワード評価値の一番高いものを優先するならば、評価対象区間(時間帯)T1のキーワードは「回路基盤」に決定される。同様にして、評価対象区間(時間帯)T2のキーワードは「回路図面」に決定され、評価対象区間(時間帯)T3のキーワードは「安全性」に決定され、評価対象区間(時間帯)T4のキーワードは「回路基盤」に決定される。(3)複数の評価対象区間(時間帯)に同一のキーワードが付加される場合も考えられる。この場合には、その複数の評価対象区間(時間帯)にまたがってキーワードの評価を行うために、キーワードが出現する時間長が考慮される。図32の例では、キーワード評価値0.5を有する「回路基盤」が時間長5を有する評価対象区間(時間帯)T1に出現し、キーワード評価値0.6を有する「回路基盤」が時間長5を有する評価対象区間(時間帯)T4に出現するので、「回路基盤」のキーワード重要度は、(0.5+0.6)/(5+5)=0.11となる。同様にして、「回路図面」のキーワード重要度は0.1、「安全性」のキーワード重要度は0.25となる。キーワード重要度に従って、キーワードを利用者に提示する順序を制御すると、「安全性」、「回路基盤」、「回路図面」の順になる。これにより、映像情報や音声情報に付加されるキーワードの数を不必要に多くならないように制御できる。
【0104】
次に、図33を参照して、会話情報の自動編集を行う方法を説明する。この方法は、映像情報もしくは音声情報に付加されたキーワードを利用する例の1つである。
【0105】
図33は、音声情報を基準として映像情報もしくは音声情報にキーワードを付加する場合の会話情報の自動編集を行う方法の手順を示す。利用者の会話により発生した音声情報を有音部と無音部とに分割する(ステップS3301)。音声情報を有音部と無音部とに分割するには、例えば、音声情報の有音状態と無音状態とを区別するために音声パワーの閾値を予め決めておき、閾値に基づき分割してゆけばよい。この分割方法は、図34を参照して後述される。特に、複数の利用者が共同して1つの作業をする場合には、会話により発生した音声情報を利用者毎に記録し、管理することにより、会話中の音声情報をより詳細に検索し、編集することが可能になる。次に、ステップS3301により得られた音声情報から雑音部分を削除する(ステップS3302)。例えば、音声情報の有音部の長さが所定の時間(例えば、1秒間)より短い場合には、その音声情報は雑音であるとみなしてよい。なお、音声情報から雑音部分を削除する場合には、該当する音声情報を同じ時間長の無音情報に置き換える。雑音が除去された音声情報をもとに、映像情報を音声情報の無音部に対応する区間と音声情報の有音部に対応する区間とに分割する(ステップS3303)。図27に示すキーワード付加の方法に基づき、映像情報(もしくは音声情報)にキーワードを付加する(ステップS3304)。映像情報(もしくは音声情報)にキーワードを付加するためには、例えば、図30に示されるキーワード決定ルールを適用すればよい。複数の映像情報チャンネル(もしくは複数の音声情報チャネル)が存在する場合には、同一時間帯を示す1つの区間に複数の映像ブロック(もしくは音声ブロック)が存在する場合が有り得る。以下、本明細書では、この区間を競合区間という。競合区間に存在する複数の映像ブロック(もしくは音声ブロック)に対して、異なるキーワードが付加されている場合には、後述される所定のキーワード統合化ルールに従って、それらのキーワードの中から1つのキーワードを選択する(ステップS3305)。映像情報(もしくは音声情報)に付加されたキーワードおよび映像情報(もしくは音声情報)が記録された時刻に基づいて、会話の情報を文字情報に変換する(ステップS3306)。最後に、文字情報を音声情報に変換して出力する(ステップS3307)。なお、文字情報から音声情報への変換は音声合成を用いればよい。
【0106】
図34は、音声情報を有音部と無音部とに分割する方法の手順を示す。音声の無音区間の時間長を測定するために、無音タイマーをセット(MT=0)する(ステップS3401)。音声が有音部か無音部かを示す状態フラグをセットする。すなわち、St=Trueとする(ステップS3402)。音声のレベルが閾値(ThV)を下回っていれば、有音部が開始した時刻(TB)をセットする(ステップS3403)。なお、閾値(ThV)は発話していない状態での音声のレベルに基づいて、予め設定される。音声の状態フラグをクリアーする。すなわち、St=Falseとする(ステップS3404)。音声のレベルが閾値(ThV)を切り、かつ、無音区間が閾値時間(TM)を越えれば、音声の状態フラグをセットする(ステップS3405)。なお、閾値時間(TM)は400ミリ秒から1秒間程度の長さに予め設定される。音声のレベルが閾値(ThV)を切り、かつ、無音区間が閾値時間(TM)を越えず、以前の音声区間が有音部であれば、有音部が終了した時刻(TE)をセットする(ステップS3406)。作業状況記憶部14にTBとTEの値を出力する(ステップS3407)。無音タイマーをセットする(ステップS3408)。
【0107】
次に、図35および図36を参照して、競合区間におけるキーワード統合化ルールを説明する。以下、映像ブロックが競合する場合のキーワード統合化ルールを説明するが、音声ブロックが競合する場合も同様である。映像ブロックAと映像ブロックBとが競合しており、映像ブロックAと映像ブロックBとの競合区間Cが存在すると仮定する。キーワード統合化ルールの例としては、以下の(a)〜(d)の4つルールがある。(a)開始時刻が早い方の映像ブロックを優先するルール。図35の(a)に示す例では、映像情報Aの開始時刻が映像情報Bの開始時刻より早いため、競合区間Cでは、映像情報Aに付加された「回路基盤1」というキーワードが選択される。(b)開始時刻が遅い方の映像ブロックを優先するルール。図35の(b)に示す例では、映像ブロックBの開始時刻が映像情報Aの開始時刻より遅いため、競合区間Cでは、映像ブロックBに付加された「回路基盤2」というキーワードが選択される。(c)競合区間Cにおける利用者の操作履歴情報(状況変化を示す情報)の評価値に基づいてキーワードを決定するルール。図36の(c)に示す例では、状況変化を示す情報は上向きの矢印で表されている。その矢印の数は状況変化の発生した回数を示す。競合区間Cにおける映像ブロックAに対する状況変化の回数は、競合区間Cにおける映像ブロックBに対する状況変化の回数より多い。従って、競合区間Cでは、映像ブロックAに付加された「回路基盤1」というキーワードが選択される。(d)映像ブロックの各時間帯に含まれる利用者の操作履歴情報(状況変化を示す情報)の評価値に基づいてキーワードを決定するルール。図36の(d)に示す例では、映像ブロックBに対する状況変化の回数は、映像ブロックAに対する状況変化の回数より多い。従って、競合区間Cでは、映像ブロックBに付加された「回路基盤2」というキーワードが選択される。
【0108】
図37は、競合区間におけるキーワード統合化ルールを記述した例である。図35および図36を参照して上述したキーワード統合化ルールを含め4つのルールが記述されている。これらのルールに基づいて競合区間におけるキーワードが決定される。
【0109】
次に、キーワード記憶部224に記憶されたキーワードを利用して、作業状況を示す文字情報を生成する文書化部380を説明する。文書化部380は、作業状況管理装置に含まれる。
【0110】
図38は、文書化部380の構成を示す。文書化部380は、キーワードとキーワードが出現する時間帯との関係(Whenに関する情報)を抽出する時間情報抽出部381と、キーワードと対象者との関係(Whoに関する情報)を抽出する対象者抽出部382と、キーワード自身を抽出する対象物抽出部383と、文書化ルールを記憶する文書化ルール記憶部385と、文書化制御部384とを有している。
【0111】
図39を参照して、作業状況を示す文字情報を生成する方法を説明する。以下、映像情報に基づいて作業状況を示す文字情報を生成する方法を説明する。音声情報に基づいて作業状況を示す文字情報を生成する場合も同様である。(a)映像ブロック毎に、文字情報を生成するための属性情報を予め割り当てる。その属性情報は、撮影対象者を特定する情報(Whoに関する情報)と、撮影を開始、終了した時刻の情報(Whenに関する情報)と、利用者により仮想的に設定された会議場所を特定する情報(Whereに関する情報)と、対象物を特定する情報(Whatに関する情報)と、音声の出力が存在するか否かを示す情報(Howに関する情報)とを含む。対象物を特定する情報として、その映像ブロックに付加されたキーワードを使用してもよい。このように、作業状況について5W1H(Who、Why、What、When、Where、How)による文章表現が可能なように、各映像ブロックに予め属性情報を割り当てておく。(b)所定の文書化ルールに従って、映像情報に含まれる複数の映像ブロックのうち特定の映像ブロックを選択する。所定の文書化ルールは利用者により予め作成される。例えば、図39の(b)のルール1に示すように「無音区間は文書化しない」という文書化ルールがある場合には、音声情報の有音部に対応する映像ブロックのみが選択される。(c)映像ブロックに予め割り当てられた属性情報に基づいて、所定の文書化ルールに従って、選択された映像ブロックに対応する作業状況を示す文字情報を生成する。例えば、特定の映像ブロックに対して、Whoに関する情報として「山口さん」が割り当てられ、Whenに関する情報として「○○時ごろ」が割り当てられ、Whatに関する情報として「△△について」が割り当てられ、Howに関する情報として「話しをしました」が割り当てられていると仮定する。この場合には、例えば、図39の(c)に示されるように、「山口さんが○○時ごろ、△△について話をしました」という文字情報が生成される。
【0112】
図40を参照して、作業状況を示す文字情報を生成する他の方法を説明する。その方法は、音声情報における有音部を特定するステップと、その有音部に対応する映像ブロックを特定するステップと、作業状況の変化を検出するステップと、検出された作業状況の変化に基づいて、映像ブロックに対する文字情報を生成するステップとを含む。例えば、映像シーンの変化と音声ブロックが検出された場合には、図39の(b)のルール3に従って、「山口さん、書画カメラで説明」という文字情報を生成することができる。さらに、映像ブロックに付加されたキーワードが「回路基盤」である場合には、そのキーワードを対象物を特定する情報として利用して、「山口さん、書画カメラで回路基盤の説明」という文字情報を生成することができる。これにより、映像情報(もしくは音声情報)に応じて作業内容を示す文字情報を生成したり、その文字情報を検索キーとして映像情報(もしくは音声情報)を検索することが可能となる。
【0113】
次に、キーワード記憶部224に記憶されたキーワードを利用して、作業状況記憶部14に記憶される作業状況を検索するキーワード検索部410を説明する。キーワード検索部410は、作業状況管理装置に含まれる。
【0114】
図41は、キーワード検索部410の構成を示す。キーワード検索部410は、利用者からの検索キーワードを入力するための検索キーワード入力部411と、入力された検索キーワードに基づいて、作業状況記憶部14を検索する検索部412と、入力された検索キーワードと検索結果とを記憶する検索キーワード記憶部413と、検索結果に基づいて、検索キーワードが適切か否かを評価する検索キーワード評価部414とを有している。
【0115】
次に、キーワード検索部410の動作を説明する。
検索キーワード入力部411は、利用者からの検索キーワードを入力する。利用者による検索キーワードの入力を容易にするために、検索キーワード入力部411は、キーワード記憶部224に記憶された複数のキーワードをメニュー形式で表示し、表示されたキーワードの1つを検索キーワードとして利用者が選択的に入力することを許してもよい。検索キーワード入力部411から入力された検索キーワードは、検索キーワード記憶部413に記憶される。
【0116】
検索部412は、入力された検索キーワードに基づいて、作業状況記憶部14を検索する。より詳しくいうと、検索部412は、検索キーワードがキーワード記憶部224に記憶された複数のキーワードのうちの1つに一致するか否かを判定し、一致したキーワードが付加されている映像情報を検索結果として出力部16に出力する。映像情報の代わりにまたは映像情報に加えて、作業状況記憶部14に記憶されている任意の情報が検索結果として出力部16に出力されてもよい。検索部412は、出力部16に出力された検出結果が所望のものである否かを利用者に問い合わせる。その問い合わせに対する利用者の応答は、検索キーワード記憶部413に記憶される。このようにして、入力した検索キーワードに対して所望の検索結果が得られたか否かを示す情報が検索キーワード記憶部413に蓄積される。
【0117】
図42は、検索キーワード記憶部413に記憶される情報の例を示す。この例では、利用者により入力された検索キーワードに加えて、その利用者が所属するグループ名と、利用者名と、検索キーワードが入力された日時と、検索キーワードが入力された項目名と、検索キーワードに基づいて検索された文書名と、検索された文書と利用者が望んでいた文書とが一致したか否かを示す情報とが記憶されている。この例では、検索された文書と利用者が望んでいた文書とが一致した場合には、「採用」が記憶され、一致しない場合には、「不採用」が記憶される。あるいは、検索された文書と利用者が望んでいた文書との一致の度合いを示す数字が記憶されていてもよい。例えば、一致の度合い「70%」などである。ここでは、文書が検索対象となっている例を説明した。もちろん、文書の代わりにまたは文書に加えて、作業状況記憶部14に記憶されている任意の情報が検索対象となり得る。複数の視点からの検索を可能とするために、検索キーワードを入力可能な項目は、図43に示すように、複数個設けられていることが好ましい。また、検索キーワードに基づいて検索された複数の文書名を検索キーワード記憶部413に記憶するようにしてもよい。
【0118】
図43は、検索キーワードを入力するための検索パネル430の例を示す。検索パネル430は、情報を検索するためのユーザインターフェースを利用者に提供する。検索パネル430は、映像キーワード入力部431と、文書キーワード入力部432と、イベント入力部433とを有している。映像キーワード入力部431は、映像情報に付加された複数のキーワードをメニュー形式で表示し、表示されたキーワードの1つを検索キーワードとして利用者が選択的に入力すること許す。文書キーワード入力部432は、文書を検索するための検索キーワードを利用者が入力することを許す。イベント入力部433は、書画カメラを操作することによって発生した端末の状態変化(例えば、映像シーンの変化や映像チャネルの変化など)や、ウインドウに対する利用者の操作によって発生した端末の状態変化(例えば、マウスポインタの移動やウインドウの開閉状態など)を検索キーワードとして利用者が入力することを許す。
【0119】
次に、図41に示す検索キーワード評価部414の動作を説明する。
図44は、検索キーワード評価部414により実行される処理の流れを示す。その処理は、評価範囲を指定するステップ(S4401)と指定された評価範囲において検索キーワードを評価するステップ(S4402)とを含む。評価範囲を指定するために、グループ名、利用者名および日時のうちの少なくとも1つが検索キーワード評価部414に入力される。評価範囲を指定するステップ(S4401)は、グループ名が入力された場合に、検索キーワード記憶部413からそのグループに所属する利用者により使用された検索キーワードを抽出するステップ(S4403)と、利用者名が入力された場合に、検索キーワード記憶部413からその利用者により使用された検索キーワードを抽出するステップ(S4404)と、日時が入力された場合に、検索キーワード記憶部413からその日時に使用された検索キーワードを抽出するステップ(S4405)と、利用者により指定された演算子(例えば、論理和や論理積など)により定義される検索条件に従って検索キーワード記憶部413から検索キーワードを抽出するステップ(S4406)とを含む。指定された評価範囲において検索キーワードを評価するステップ(S4402)は、ステップS4401で抽出された検索キーワードについて、その検索キーワードの採用回数と使用回数とからその検索キーワードのヒット率を算出するステップ(S4407)を含む。ここで、検索キーワードのヒット率(%)は採用回数/使用回数×100により算出される。過去に入力された検索キーワードをヒット率の高い順に利用者に提示することにより、所望の検索結果が得られる確率の高い検索キーワードを利用者が入力することが容易となる。その結果、利用者が所望の検索結果を得るまでに、利用者が検索キーワードを入力する回数が低減される。さらに、検索された情報に対する評価値(利用者が望む情報と検索された情報との一致度合い、例えば、0〜1の間の値)を検索キーワード記憶部413に蓄積するようにすれば、所望の検索結果が得られる確率のより高い検索キーワードを利用者に提示することが可能となる。この場合の検索キーワードのヒット率(%)は採用回数×評価値/使用回数×100により算出される。
【0120】
図45は、作業状況管理部13の他の構成を示す。作業状況管理部13は、映像情報を複数の映像ブロックに分割する映像情報分割部451と、映像ブロックを評価する映像ブロック評価部452と、映像情報分割部451と映像ブロック評価部452とを制御する映像情報統合制御部453とを含む。
【0121】
次に、図45に示す作業状況管理部13の動作を説明する。
映像情報分割部451は、作業状況記憶部14に記憶される作業状況に基づいて、映像情報を複数の論理的な映像ブロックに分割する。各映像ブロックは、少なくとも1つの映像シーンを含む。例えば、音声情報の有音部に応じて映像情報をブロック化すればよい。映像情報をブロック化する方法の詳細は、既に述べたので、ここでは説明を省略する。このようにして、映像情報分割部451は、第1映像情報を複数の第1映像ブロックに分割し、第2映像情報を複数の第2映像ブロックに分割する。例えば、第1映像情報は、利用者Aにより撮影された映像情報であり、第2映像情報は、利用者Bにより撮影された映像情報である。
【0122】
映像ブロック評価部452は、同一時間帯に複数の映像ブロックが存在するか否かを判定し、同一時間帯に複数の映像ブロックが存在すると判定された場合に、その複数の映像ブロックのうちいずれの映像ブロックを優先的に選択するかを決定する。従って、同一時間帯に、複数の第1映像ブロックのうちの1つと複数の第2映像ブロックのうちの1つが存在する場合には、映像ブロック評価部452により、同一時間帯に存在する第1映像ブロックおよび第2映像ブロックのうちの1つが選択される。このようにして、第1映像情報と第2映像情報とが統合され、1つの映像情報が生成される。これにより、利用者Aにより撮影された映像情報と利用者Bにより撮影された映像情報とに基づいて、利用者Aと利用者Bとの対話状況を示す映像情報を生成することが可能となる。
【0123】
図46は、図45に示す作業状況管理部13によって実行される映像情報統合化処理の手順を示す。映像情報分割部451は、映像情報をブロック化することにより、複数の映像ブロックを生成する(ステップS4601)。映像ブロック評価部452は、同一時間帯に複数の映像ブロックが存在するか否かを判定する(ステップS4602)。同一時間帯に複数の映像ブロックが存在すると判定された場合には、映像ブロック評価部452は、所定の優先規則に従って、その複数の映像ブロックのうちのいずれを優先的に選択するかを決定する(ステップS4603)。その所定の優先規則は、利用者により予め設定される。
【0124】
図47は、優先規則の例を示す。図47に示されるように、作業状況の変化に関連する優先規則、時間の先後関係に基づく優先規則など、様々な優先規則が存在する。
【0125】
次に、図48〜図50を参照して、図47に示される規則番号1〜10の優先規則を具体的に説明する。
【0126】
規則番号1の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、開始時刻が最も早い映像ブロックを優先的に選択することを規定する。図48の(a)に示す例では、映像ブロック1bの開始時刻より映像ブロック1aの開始時刻の方が早いので、映像ブロック1aが選択される。
【0127】
規則番号2の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、し、開始時刻が最も最近の映像ブロックを優先的に選択することを規定する。図48の(b)に示す例では、時間帯T2においては、映像ブロック2bの開始時刻が最も最近であるので、映像ブロック2bが選択される。しかし、時間帯T1においては、映像ブロック2aの開始時刻が最も最近であるので、映像ブロック2aが選択される。
【0128】
規則番号3の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、時間的に最も長い映像ブロックを優先的に選択することを規定する。図48の(c)に示す例では、映像ブロック3bの長さより映像ブロック3aの長さの方が長いので、映像ブロック3aが選択される。
【0129】
規則番号4の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、時間的に最も短い映像ブロックを優先的に選択することを規定する。図49の(a)に示す例では、映像ブロック4aの長さより映像ブロック4bの長さの方が短いので、映像ブロック4bが選択される。
【0130】
規則番号5の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、単位時間あたりの作業状況の変化を示す情報を最も多く含む映像ブロックを優先的に選択することを規定する。図49の(b)に示す例では、作業状況の変化を示す情報が発生した時刻が三角印で表されている。この例では、映像ブロック5bの方が映像ブロック5aより単位時間あたりの作業状況の変化を示す情報を多く含んでいるので、映像ブロック5bが選択される。
【0131】
規則番号6の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、所定の発生事象の組み合わせ規則に合致した映像ブロックを優先的に選択することを規定する。図49の(c)に示す例では、映像ブロック6bが所定の発生事象の組み合わせ規則に合致するので、映像ブロック6bが選択される。
【0132】
図51は、発生事象の組み合わせ規則の例を示す。発生事象の組み合わせ規則は、作業においてほぼ同時に発生する事象の組み合わせとその組み合わせに対応する事象名とを規定したものである。例えば、書画カメラを用いて、利用者が資料を説明する場合、対象物を手で指し示しながら行うことが多い。このため、手の動きと音声とがほぼ同時に発生する。図51の第1行に示されるように、例えば、「映像シーンの変化」という事象と「音声ブロック」という事象の組み合わせは、「書画カメラでの説明」という事象であると定義される。また、利用者がウインドウ上に表示された資料情報を説明する場合には、マウスポインタによる指示と音声とがほぼ同時に発生する。図51の第2行に示されるように、例えば、「マウスポインタによる指示」という事象と「音声ブロック」という事象の組み合わせは、「ウインドウ上での説明」という事象であると定義される。
【0133】
図50を参照して、規則番号7の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、指定されたキーワードを含む文書情報を利用していた時間帯に対応する映像ブロックを優先的に選択することを規定する。規則番号8の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、指定されたキーワードを最も多く含む文書情報を利用していた時間帯に対応する映像ブロックを優先的に選択することを規定する。図50の(a)に示す例では、指定されたキーワードは文書情報の第2ページに含まれるので、映像ブロック7aが選択される。
【0134】
規則番号9の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、指定された作業状況の変化が発生した時間帯に対応する映像ブロックを優先的に選択することを規定する。規則番号10の優先規則は、同一時間帯に複数の映像ブロックが存在する場合に、指定された対象者に関連する映像ブロックを優先的に選択することを規定する。図50の(b)に示す例では、規則番号9の優先規則を適用することにより、映像ブロック9bが選択され、規則番号10の優先規則を適用することにより、映像ブロック9cが選択される。
【0135】
図52は、情報を操作するための操作パネル5200を示す。操作パネル5200は、作業状況管理装置に対するユーザインタフェースを利用者に提供する。図52に示されるように、操作パネル5200は、映像情報を少なくとも1枚以上の映像フレームからなる映像ブロックに分割した結果を表示するパネル5201と、音声を有音部と無音部とに分割した結果と作業状況の変化を示す情報(映像シーンの切り替えおよび映像チャンネルの切り替え)とを表示するパネル5202、ウインドウに対する利用者による操作(ウインドウのオープン、クローズ、生成、削除など)と、付せん紙(ウインドウに付された個人的なメモ)への記入と、マウスポインタによる指示とを行った履歴を示す情報を表示するパネル5203と、参照資料を表示するパネル5204と、検索結果の映像を表示するパネル5205とを含む。
【0136】
図53は、情報を検索・編集するための操作パネル5300を示す。操作パネル5300は、作業状況管理装置に対するユーザインタフェースを利用者に提供する。図53に示されるように、操作パネル5300は、作業状況を記録するための操作パネル5301と、情報を検索するための操作パネル5302と、情報を操作するための操作パネル5303と、複数の情報を編集するための操作パネル5304と、同一時間帯に複数の映像ブロックが存在する場合の優先規則を選択する操作パネル5305とを含む。なお、操作パネル5305において優先規則を選択することにより、計算機による半自動的な情報編集が可能となる。操作パネル5306は、映像ブロック毎に、時間情報、映像ブロックに付加された事象名、対象物の情報に応じて、作業状況(例えば、会議の内容など)を文字情報に自動的に変換するためパネルである。
【0137】
図54は、参加者毎に記録された映像情報と音声情報とを統合するための操作パネル5400を示す。操作パネル5400は、ある利用者Aが撮影した映像情報と発話による音声情報とを表示するパネル5401と、他の利用者Bが撮影した映像情報と発話による音声情報とを表示するパネル5402と、自動編集の結果、統合された映像情報と音声情報とを表示するパネル5403とを含む。
【0138】
なお、本発明は会議だけではなく、個人での編集装置利用ではマルチメディアメールの検索・編集、共同での編集装置利用ではCAI(計算機支援による教育)での教材作成などへの応用利用が可能である。
【0139】
【発明の効果】
上述したように、本発明の作業状況管理装置によれば、作業の時間的経過を示す様々な情報を管理することが可能になる。これにより、作業状況の変化に着目して、作業中に記録された映像情報や音声情報の所望の箇所を検索することが容易となる。利用者が必要な情報(資料、コメント、会議の状況)を効率的に取り出して作業できるように、個人の日常の作業内容と対応づけて個人的な観点から管理を行うことが可能である。また、会話状況といった体系的には取り扱いにくい動的な情報を個人的な観点で扱うことが可能である。さらに、利用者が着目していると推定される時点の映像情報や音声情報のみを記録もしくは出力することにより、利用者に提示する情報量の低減や記憶容量の低減をは図ることができる。
【0140】
さらに、本発明の作業状況管理装置によれば、映像情報や音声情報にキーワードを付加することが可能となる。キーワードを利用することにより、映像情報や音声情報の所望の箇所を検索することが容易となる。また、キーワードを利用して、作業状況を示す文字情報を生成することが可能となる。
【図面の簡単な説明】
【図1】(a)は本発明の作業状況管理装置の構成を示す図
(b)は典型的な作業風景を示す図
【図2】ネットワークを介して接続された複数の端末装置と作業状況管理装置とを含むシステムの構成を示す図
【図3】作業状況管理部の構成を示す図
【図4】作業状況管理部の他の構成を示す図
【図5】作業状況管理部の他の構成を示す図
【図6】作業状況管理部の他の構成を示す図
【図7】作業状況管理部の他の構成を示す図
【図8】作業状況管理部の他の構成を示す図
【図9】映像情報管理部の構成を示す図
【図10】音声情報管理部の構成を示す図
【図11】ウインドウ情報管理部の構成を示す図
【図12】指示情報管理部の構成を示す図
【図13】作業状況記憶部に記憶される作業状況を示す情報を示す図
【図14】作業状況記憶部に記憶される作業状況を示す情報を示す図
【図15】作業状況記憶部に記憶される作業状況を示す情報を示す図
【図16】作業状況記憶部に記憶される作業状況を示す情報を示す図
【図17】ウインドウのサイズ変更情報を利用して利用者の着目ウインドウの判定をする方法を説明する図
【図18】ウインドウの所有者情報を利用して利用者の着目ウインドウの判定をする方法を説明する図
【図19】表示位置変更部の操作情報をもとに利用者の着目情報を判定する方法を説明する図
【図20】映像情報に対する利用者の着目地点を検出する方法を説明する図
【図21】映像情報に対する利用者の着目地点を検出する方法を説明する図
【図22】キーワード情報管理部の構成を示す図
【図23】(a)は文書を編集する作業の流れを示す図
(b)は(a)の作業により作業状況記憶部に記憶される情報の例を示す図
【図24】(a)は作業において、利用者により資料情報の一部が指示されている場面を示す図
(b)は(a)の作業により作業状況記憶部に記憶される情報の例を示す図
【図25】(a)は作業において、資料情報がウインドウに表示されている場面を示す図
(b)は(a)の作業により作業状況記憶部に記憶される情報の例を示す図
【図26】(a)は音声キーワード検出部の構成を示す図
(b)は音声キーワード検出部により作業状況記憶部に記憶される情報の例を示す図
【図27】映像情報もしくは音声情報にキーワードを付加する処理の手順を示す図
【図28】映像情報もしくは音声情報の評価対象区間(時間帯)を指定する方法を説明する図
【図29】キーワード候補特定部の構成を示す図
【図30】映像もしくは音声情報に付加するキーワードの決定ルールを示す図
【図31】キーワード評価値を計算する方法を説明する図
【図32】キーワード評価値とキーワード重要値の具体的な利用方法について説明する図
【図33】会話情報の自動編集を行う方法の手順を示す図
【図34】音声情報を有音部と無音部とに分割する方法の手順を示す図
【図35】競合区間におけるキーワード統合化ルールを説明する図
【図36】競合区間におけるキーワード統合化ルールを説明する図
【図37】競合区間におけるキーワード統合化ルールを示す図
【図38】文書化部の構成を示す図
【図39】作業状況を示す文字情報を生成する方法を説明する図
【図40】作業状況を示す文字情報を生成する他の方法を説明する図
【図41】キーワード検索部の構成を示す図
【図42】検索キーワード記憶部に記憶される情報の例を示す図
【図43】検索キーワードを入力するための検索パネルの例を示す図
【図44】検索キーワードの評価処理の手順を示す図
【図45】作業状況管理部の他の構成を示す図
【図46】映像情報の統合化の手順を示す図
【図47】映像ブロックを優先的に選択するための優先規則を示す図
【図48】優先規則を具体的に説明する図
【図49】優先規則を具体的に説明する図
【図50】優先規則を具体的に説明する図
【図51】発生事象の組み合わせ規則を示す図
【図52】情報を操作するための操作パネルの画面イメージを示す図
【図53】情報の検索・編集を行う操作パネルの画面イメージを示す図
【図54】参加者毎に記録した映像情報および音声情報を統合するための操作パネルの画面イメージを示す図
【符号の説明】
10 作業状況管理装置
11 入力部
12 端末制御部
13 作業状況管理部
14 作業状況記憶部
15 資料情報記憶部
16 出力部
17 伝送部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a work status management device that performs information processing between a single terminal or a plurality of terminals and manages information according to the work status of a user.
[0002]
[Prior art]
2. Description of the Related Art In recent years, a network conference system has been proposed and constructed which supports performing collaborative work including meetings and decision making while exchanging various kinds of information in real time.
[0003]
For example, Watanabe et al., "Multimedia Distributed Conference System MERMAID", IPSJ Transactions, Vol. 32, no. 9 (1991), Nakayama et al., "Multi-party Electronic Dialogue System ASSOCIA", Transactions of Information Processing Society of Japan, Vol. 32, no. 9 (1991).
[0004]
In the related art, a window is opened for personal use or information exchange between a plurality of terminals, and editing or presentation of meeting materials (documents composed of text, images, figures, and the like) in file units is performed.
[0005]
For this reason, after the meeting, memos and meeting materials during the meeting remain in the user's hand as minutes of the meeting, but are also kept as minutes of the meeting including dynamic information that is difficult to handle systematically such as the situation of the meeting. Cannot be performed (for example, dynamic information such as the lapse of time of finger position information when one of the participants indicates a material presented by the camera with a finger).
[0006]
Therefore, the conventional method is not sufficient from the viewpoint of helping the user's memory.
[0007]
In addition, a method of using a VTR or the like to record the status of the conference is conceivable. However, since all of the status of the conference is captured by the VTR or the like, a great deal of information is generated. Searching and editing audio information requires a great deal of effort from the user.
[0008]
Furthermore, in the conventional CAI (Computer Aided Education System) system, the purpose was to share teaching materials between teachers and students and to set up a place for conversation, so that students could review from a personal perspective after class. It was difficult for teachers to create teaching materials that reflect the class situation.
[0009]
[Problems to be solved by the invention]
In the conventional method, a window is opened for personal use or information exchange between a plurality of terminals, and a meeting material (a document composed of text, images, figures, and the like) is edited and presented in file units.
[0010]
For this reason, after the meeting, memos and meeting materials during the meeting remain in the user's hand as minutes of the meeting, but are also kept as minutes of the meeting, including dynamic information that is difficult to handle systematically, such as the situation of the meeting. I can't.
[0011]
In addition, since the state of the conference is all enormous even if the state of the conference is taken by a VTR or the like, searching and editing the information of the captured video and audio after the conference requires a great deal of labor for the user.
[0012]
Therefore, there is a problem that the conventional method is not sufficient from the viewpoint of helping the user's memory and a problem that it is necessary to record necessary information in a required amount.
[0013]
An object of the present invention is to manage various information created by a user with a work situation management device and to manage necessary information according to the work situation of the user.
[0014]
[Means for Solving the Problems]
The work situation management device according to the present invention requires a storage unit for storing information indicating the time course of the work, and the work required for the work based on the information indicating the time course of the work stored in the storage unit. A time slot identifying means for identifying a time slot to which a keyword is to be attached, a keyword candidate identifying means for identifying at least one keyword candidate for the time slot identified by the time slot identifying means; Keyword determining means for selecting one keyword candidate from at least one keyword candidate in accordance with a predetermined rule, and determining the selected keyword candidate as a keyword corresponding to the time zone. Objective is achieved.
[0015]
The information indicating the time lapse of the work is information for identifying a sound part and a silent part included in audio information generated during the work, and the time zone specifying unit corresponds to the sound part. May be specified as a time zone to which a keyword should be attached.
[0016]
The information indicating the time lapse of the work is information indicating a time zone in which a window displaying material information is estimated to have been noticed by a user among the time required for the work, and The specifying means may specify only the time zone in which the window is estimated to be noticed by the user as a time zone to which a keyword is to be attached.
[0017]
The information indicating the time lapse of the work is information indicating a time zone in which the instruction information is generated for the window displaying the material information, of the time required for the work, and the time zone identification unit includes: Only the time zone in which the instruction information is generated for the window may be specified as a time zone to which a keyword should be attached.
[0018]
The information indicating the time lapse of the work includes information for identifying a sound part and a silent part included in audio information generated during the work, and material information among time required for the work. At least one of information indicating a time period in which the window is estimated to be focused on by the user and information indicating a time period in which the instruction information is generated for the window, out of the time required for the work The time zone identification means generates the instruction information for the time zone and the window corresponding to the sound part and for the time zone and the window where it is estimated that the user is paying attention to the time zone and the window. Only a time zone determined based on at least one of the time zones described above may be specified as a time zone to which a keyword should be assigned.
[0019]
When material information including editable character information is used in the work, the keyword candidate specifying means may determine the first character information in the material information at a first time of the time required for the work and the first character information. Difference information storage means for storing difference information representing a difference between the second information and the second character information in the material information at the second time of the time required for the work, and the difference information stored in the difference information storage means Document keyword extracting means for extracting at least one keyword candidate from the keyword.
[0020]
The keyword candidate specifying means, when material information including character information is used in the work, position information storage means for storing position information indicating the position of the character information specified by the user during the work, An instruction keyword extracting means for extracting at least one keyword candidate from the material information based on the position information stored in the position information storage means may be provided.
[0021]
The keyword candidate specifying means, when the material information is displayed in a window having a portion for describing a title in the work, a title storage means for storing the title, and the title stored in the title storage means. And a title keyword extracting means for extracting at least one keyword candidate from the keyword.
[0022]
The keyword candidate specifying means, when the material information is displayed in a window having a portion for describing personal information in the work, a personal information storage means for storing the personal information; and a personal information storage means for storing the personal information in the personal information storage means. Personal information keyword extracting means for extracting at least one keyword candidate from the obtained personal information.
[0023]
The keyword candidate specifying unit recognizes voice information generated in the work and generates character information corresponding to the voice information, and voice recognition stores the character information corresponding to the voice information. An information storage unit and a voice keyword extraction unit for extracting at least one keyword candidate from the character information stored in the voice recognition information storage unit may be provided.
[0024]
The keyword candidate specifying unit may include a keyword candidate input unit that receives character information input by a user and uses the received character information as a keyword candidate.
[0025]
The predetermined rule may include a rule for determining a keyword based on an evaluation value related to a keyword appearance ratio.
[0026]
The predetermined rule may include a rule that specifies which keyword is to be selected from the plurality of keywords assigned to the competition section.
[0027]
Another work situation management device of the present invention is a storage means for storing information indicating a time course of work, a search keyword input means for inputting a search keyword from a user, and a search keyword input means for inputting a search keyword. A search means for searching the information indicating the time course of the work stored in the storage means, a search keyword storage means for storing the input search keyword and the search result, and A search keyword evaluation unit for evaluating whether the search keyword is appropriate based on the search keyword, thereby achieving the above object.
[0028]
The search keyword evaluation means may evaluate the search keyword based on at least the number of times the search keyword has been input by a user and the number of times the search result has been employed by the user.
[0029]
According to another aspect of the present invention, there is provided a work situation management device which divides first video information into a plurality of first video blocks and divides the second video information into a plurality of second video blocks. Determining whether one of the plurality of first video blocks and one of the plurality of second video blocks are present, and determining one of the plurality of first video blocks during the time period. If it is determined that one of the plurality of second video blocks exists, one of the video blocks existing in the time zone is determined to be preferentially selected according to a predetermined rule. Video block evaluation means for integrating the first video information and the second video information to generate one video information. Thereby, the above object can be achieved.
[0030]
The predetermined rule may include a rule for determining a video block to be selected based on a temporal pre / post relationship of video blocks existing in the time zone.
[0031]
The predetermined rule may include a rule for determining a video block to be selected based on a change in a work situation.
[0032]
In the present invention, various information created by conference participants is managed by the work status management device, and the user can efficiently extract necessary information (materials, comments, conference status) and work. It is possible to handle even dynamic information that is difficult to handle systematically, such as a conversation situation.
[0033]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0034]
FIG. 1A shows a configuration of a work situation management apparatus 10 according to an embodiment of the present invention. The work status management device 10 includes an input unit 11 for inputting information related to the work, a work status management unit 13 for managing the work status of the user, a work status storage unit 14 for storing the work status, and It has a material information storage unit 15 for storing, and a terminal control unit 12 for controlling the input unit 11 and the work situation management unit 13.
[0035]
Typically, “work” refers to one or more users presenting a material and explaining the material.
[0036]
In particular, in this specification, a typical task is an electronic conference in which a plurality of users review common materials in real time and exchange opinions. However, the operations described in this specification are not limited to such operations. In the present specification, the “work status” refers to a set of time-series information indicating the progress of the work. “Material information” refers to information related to the material presented by the user in the work.
[0037]
FIG. 1B shows a typical work scene when a user presents a material and explains the material. The user sits in front of the work status management device and explains materials. A camera 18 for photographing the material (hereinafter, this camera is referred to as a document camera), a camera 19 for photographing the user (hereinafter, this camera is referred to as an interpersonal camera), and a voice uttered by the user. A microphone 20 for recording is connected to the work status management device. The video information captured by the document camera 18 and the interpersonal camera 19 and the audio information recorded by the microphone 20 are supplied to the terminal control unit 12 via the input unit 11 of the work situation management device. In this way, information indicating the progress of the work, such as what kind of facial expression the user has described, what kind of material was presented in what order, and the like are input to the work situation management device. Become. Further, a keyboard, a mouse, a digitizer, a touch panel, and a light pen may be used as the input unit 11.
[0038]
As described above, various input devices can be connected to the terminal control unit 12 as the input unit 11. An identifier for specifying the input device connected to the terminal control unit 12 is set in the terminal control unit 12 in advance. When information is input from a plurality of input devices, the terminal control unit 12 identifies which information has been input from which input device based on a preset identifier. For example, when video information captured by the interpersonal camera 19 is supplied to the terminal control unit 12, the terminal control unit 12 stores a pair of an identifier for identifying the interpersonal camera 19 and the video information in the work status management unit 13 Output to
[0039]
The work situation management unit 13 detects that a predetermined change has occurred in the input information. When a plurality of pieces of information are input to the work status management unit 13, the work status management unit 13 detects that a predetermined change has occurred in each of the plurality of pieces of information. The predetermined change may be a change common to the plurality of pieces of information, or may be a change different from each other according to the plurality of pieces of information. When detecting that a predetermined change has occurred with respect to the input information, the work status management unit 13 sets information indicating the time at which the predetermined change occurred and information specifying the predetermined change as a work status. It is stored in the work status storage unit 14. By storing such information in the work status storage unit 14, it is possible to search for a desired part in the work by using a predetermined change to specific information as a search key. The input audio information and video information are also stored in the work situation storage unit 14 as work situations.
[0040]
The material information storage unit 15 stores material information. As the material information storage unit 15, a device such as a magnetic disk, a VTR, and an optical disk is used.
[0041]
The work status management device 10 may further include an output unit 16 that outputs the work status and the material information, and a transmission unit 17 that is connected to another device via a network. As the output unit 16, a device such as a display, a speaker, and a printer is used. As the transmission unit 12, a device such as a local area network (LAN), a cable television (CATV), a modem, and a digital PBX is used.
[0042]
FIG. 2 shows the work situation management device 10 connected to a plurality of terminal devices 20 via a network. Each of the plurality of terminal devices 20 includes an input unit 21 for inputting information related to work, a transmission unit 22 for connecting the work status management device via a network, and an output unit for outputting work status and material information. 24, and a terminal control unit 23 that controls the input unit 21, the transmission unit 22, and the output unit 24. Information input from the input unit 21 of the terminal device 20 is supplied to the terminal control unit 12 of the work situation management device 10 via the transmission unit 22 and the transmission unit 17. In the terminal control unit 12, an identifier for specifying an input device connected to the terminal control unit 12 via a network and an input device directly connected to the terminal control unit 12 are set in advance. When information is input from a plurality of input devices, the terminal control unit 12 identifies which information has been input from which input device based on a preset identifier. In this way, information indicating the time progress of the work is collected by the work status management device 10 from each of the plurality of terminal devices 20 used by the plurality of users. As the input unit 21 of the terminal device 20, devices such as a keyboard, a mouse, a digitizer, a touch panel, a light pen, a camera, and a microphone are used. As the output unit 24 of the terminal device 20, devices such as a display, a speaker, and a printer are used. As the transmission unit 22 of the terminal device 20, devices such as a local area network (LAN), a cable television (CATV), a modem, and a digital PBX are used.
[0043]
FIG. 3 shows a configuration example of the work status management unit 13. The work situation management unit 13 controls a video information management unit 31 that manages changes in video information, an audio information management unit 32 that manages changes in audio information, and controls the video information management unit 31 and the audio information management unit 32. And a work status control unit 33. In the present specification, the “video information” includes all pieces of information indicating a lapse of time of a work related to a video. For example, the video information includes not only a video composed of a plurality of frames captured by the camera but also a control signal generated by operating the camera. In the present specification, the “sound information” includes all pieces of information indicating the time lapse of work related to sound. For example, an audio signal generated by a microphone is included in audio information.
[0044]
The video information input from the input unit 11 is input to the video information management unit 31 via the work status control unit 33. The video information management unit 31 detects that a predetermined change has occurred in the input video information, and generates information indicating a time when the predetermined change has occurred and information specifying the predetermined change. .
[0045]
The voice information input from the input unit 11 is input to the voice information management unit 32 via the work status control unit 33. The video information management unit 31 detects that a predetermined change has occurred in the input audio information, and generates information indicating a time at which the predetermined change has occurred and information identifying the predetermined change. .
[0046]
The work status management unit 13 shown in FIG. 3 limits the targets to be managed as the work status to video information and audio information. As a result, the work status management unit 13 does not require a display device for displaying a window or an input device for instructing a window, and thus has an advantage that size reduction is easy. By expanding the functions of a normal VTR device, a work situation management device having a size almost equal to that of a normal VTR device will be realized. In addition, since video information can be used, it is possible to record facial expressions of conference participants and data of a three-dimensional shape that is difficult to be captured by a computer. Therefore, especially in the case of a bargain-strength conference where it is necessary to analyze the expression of the other party, or in the case of storing a process of assembling and operating a three-dimensional shape which is difficult to be taken into a computer, the work status management unit 13 is provided by the video information management unit. Preferably, it has 31.
[0047]
FIG. 4 shows another configuration example of the work status management unit 13. The work status management unit 13 controls the voice information management unit 32 that manages changes in voice information, the window information management unit 43 that manages changes in window information, and the voice information management unit 32 and the window information management unit 43. And a work status control unit 33 that performs the operation. In the present specification, “window information” refers to information indicating resources possessed by a window. For example, the number of windows, the size of the windows, and the positions of the windows are included in the window information. When the window information changes due to a user operation, a control signal indicating the change of the window information is input to the window information management unit 43 via the input unit 11. The terminal control unit 12 detects that the window information has changed due to a user operation. The part of the terminal control unit 12 that is in charge of detecting the window information is usually called a window management unit (not shown). The window information management unit 43 receives the input control signal, and generates information indicating the time at which the control signal was received and information specifying the control signal. The information generated by the window information management unit 43 is sent to the work situation control unit 33, and is stored in the work situation storage unit 14 by the work situation control unit 33. In this way, by storing the change of the window information while the user is working in the work status storage unit 14, the window operation of the user while the user is working is used as a key. It is possible to search for audio information and video information using the information. As a result, the user can easily look back on important points in the course of the work.
[0048]
The work status management unit 13 shown in FIG. 4 does not store video information requiring a large amount of storage capacity in the work status recording unit 14. Therefore, there is an advantage that the amount of information stored in the work status recording unit 14 can be significantly reduced. Further, the configuration of the work status management unit 13 shown in FIG. 4 extends the function of recording a conference status when users gather in the same place in a conference room or the like, or extending the function of a normal telephone mainly handling voice information. This is suitable for realizing a work situation management device.
[0049]
FIG. 5 shows another configuration example of the work status management unit 13. This configuration is a configuration in which a video information management unit 31 that manages changes in video information is added to the configuration shown in FIG. With such a configuration, it is possible to integrally manage the video / audio information in the real space and the window information which is a resource in the computer.
[0050]
FIG. 6 shows another configuration example of the work status management unit 13. The work status management unit 13 controls a voice information management unit 32 that manages changes in voice information, an instruction information management unit 53 that manages changes in instruction information, and controls the voice information management unit 32 and the instruction information management unit 53. And a work status control unit 33. In this specification, "instruction information" refers to information indicating an instruction for material information. For example, the position of the mouse pointer and the coordinate position detected by the touch panel are included in the instruction information.
[0051]
The instruction information input from the input unit 11 is input to the instruction information management unit 53 via the work status control unit 33. The instruction information management unit 53 detects that a predetermined change has occurred to the input instruction information, and generates information indicating a time at which the predetermined change has occurred and information specifying the predetermined change. .
[0052]
According to the work status management unit 13 shown in FIG. 6, since it is possible to detect a portion where a change in the instruction information and a change in the voice information occur at the same time, a search of the conference status is performed based on the position of the material explained by the user Can be easily performed. The reason is that, when a person tries to explain a certain matter (material), he or she often specifies the material almost at the same time as generating a sound. The work status management unit 13 shown in FIG. 6 does not store video information requiring a large amount of storage capacity in the work status recording unit 14 similarly to the work status management unit 13 shown in FIG. Therefore, there is an advantage that the amount of information stored in the work status recording unit 14 can be significantly reduced. Also, the configuration of the work status management unit 13 shown in FIG. 6 is similar to the configuration of the work status management unit 13 shown in FIG. 4, and records the status of a conference when users gather in the same place in a conference room or the like. It is suitable for a case or a case where a work situation management device is realized by extending the function of a normal telephone mainly handling voice information. Furthermore, the configuration of the work status management unit 13 shown in FIG. 6 is suitable for work in which the number of operations on windows is small as compared with the configuration of the work status management unit 13 shown in FIG. For example, a report-type meeting where writing to the material does not occur very often.
[0053]
FIG. 7 shows another configuration example of the work status management unit 13. This configuration is a configuration in which a video information management unit 31 that manages changes in video information is added to the configuration shown in FIG. With such a configuration, it is possible to integrally manage the video / audio information in the real space and the instruction information which is a resource in the computer.
[0054]
FIG. 8 shows another configuration example of the work status management unit 13. This configuration is obtained by integrating the configurations shown in FIGS. With such a configuration, there is an advantage that the advantages of each of the above-described configurations can be brought out.
[0055]
FIG. 9 shows the configuration of the video information management unit 31. The video information management unit 31 includes a camera operation detection unit 91 that detects a camera operation, a video scene change detection unit 92 that detects a change in a video scene, a video channel change detection unit 93 that detects a change in a video channel, A video information generation unit 94 that generates information indicating the time at which the change has occurred and information specifying the change in response to the change of the information, and a video information management control unit 95 are included.
[0056]
The camera operation detection section 91 detects a predetermined camera operation. The reason why the camera operation is detected is that, in many cases, before and after the camera operation has occurred, it can be considered that information to be noticed by the user has occurred. When a camera connected to the terminal control unit 12 is operated, a camera operation signal is input to the terminal control unit 12 according to the camera operation. Camera operation includes zoom operation to change the magnification of the image with respect to the subject, focus operation to focus on the subject, pan operation to change the camera direction horizontally with the camera position fixed, and camera position A tilt operation of changing the direction of the camera in the up and down direction in a fixed state. The camera operation signal includes a zoom operation signal indicating a zoom operation, a focus operation signal indicating a focus operation, a pan operation signal indicating a pan operation, and a tilt operation signal indicating a tilt operation. The terminal control unit 12 identifies the camera from which the camera operation signal has been input, and sends the camera identifier and the camera operation signal to the work status management unit 13. The identifier of the camera and the camera operation signal are input to the camera operation detection unit 91 via the work status control unit 33 and the video information management control unit 95. The camera operation detection unit 91 determines whether a predetermined change has occurred in the input camera operation signal. For example, when the camera operation signal is represented by an analog value proportional to the operation amount, when the camera operation signal exceeds a predetermined level, it is determined that a predetermined change has occurred. The predetermined level may be zero. When the camera operation signal is represented by a digital value of 0 or 1, when the camera operation signal changes from 0 to 1, it is determined that a predetermined change has occurred. Here, the digital value 0 indicates a state where the camera operation is not performed, and the digital value 1 indicates a state where the camera operation is performed. When it is determined that a predetermined change has occurred in the input camera operation signal, the camera operation detection unit 91 sends a detection signal indicating the predetermined change to the video information generation unit 94. The video information generation unit 94 generates information indicating a time when the camera operation has occurred and information specifying the camera operation in accordance with the detection signal from the camera operation detection unit 91. The information indicating the time at which the predetermined change occurred is a character string indicating at least one of year, month, day, hour, minute, and second. "12:15:10" and "5/3 18:03" are examples of the character string. Alternatively, the information indicating the time at which the predetermined change occurred may be binary data instead of a character string. Such information indicating the time is generated by inquiring the timer unit (not shown) for managing the current time about the current time.
[0057]
Next, the video scene change detection unit 92 will be described. It is assumed that an interpersonal camera for photographing a user's face and a document camera for photographing material information are connected to the terminal control unit 12. The purpose of the video scene change detection unit 92 is to detect the movement of a user sitting in front of the interpersonal camera, and to move the material information captured by the document camera or to indicate the material information. Is to detect the movement of the object. The video captured by the interpersonal camera and the document camera is input to the video scene change detection unit 92 via the work situation control unit 33 and the video information management control unit 95. The video scene change detection unit 92 calculates a difference between frames of the input video, and determines whether the difference is larger than a predetermined value. When it is determined that the difference is larger than the predetermined value, the video scene change detection unit 92 determines that a change in the video scene has occurred, and sends a detection signal indicating the change to the video information generation unit 94. The video information generation unit 94 generates information indicating the time at which the change of the video scene has occurred and information specifying the change of the video scene, according to the detection signal from the video scene change detection unit 92.
[0058]
When a sensor that detects the movement of the user's hand with respect to the document information is provided, the video scene change detection unit 92 detects the change in the video scene based on a difference between frames of the video instead of detecting the change. A change in a video scene may be detected according to an output signal from the sensor. For example, the sensor detects that the user's hand has blocked at least a part of the material information. Similarly, when a sensor for detecting the movement of a user sitting in front of the interpersonal camera is provided, the video scene change detection unit 92 changes the video scene based on the difference between video frames. , The change in the video scene may be detected according to the output signal from the sensor. For example, the sensor detects that the user has left. The sensor generates an output signal having a value of 1 only when a predetermined movement is detected. As such a sensor, an infrared sensor or an ultrasonic sensor can be used. The video scene change detection unit 92 receives an output signal from the sensor and determines whether or not the value of the output signal is 1. If it is determined that the value of the output signal is 1, the video scene change detection unit 92 determines that a change in the video scene has occurred, and sends a detection signal indicating the change to the video information generation unit 94. . The video information generation unit 94 generates information indicating the time at which the change of the video scene has occurred and information specifying the change of the video scene, according to the detection signal from the video scene change detection unit 92.
[0059]
Next, the video channel change detection unit 93 will be described. It is assumed that four cameras (first to fourth cameras) are connected to the terminal control unit 12. It does not matter whether those cameras are connected to the terminal control unit 12 via a network or are directly connected to the terminal control unit 12. The terminal control unit 12 has a function of allocating an input from the camera to a window and managing an allocation relationship between the input from the camera and the window. For example, the terminal control unit 12 assigns an input from the first camera to the first window, and assigns an input from the second camera to the second window. In the present specification, “change in video channel” refers to changing an assignment relationship between an input from a camera and a window. For example, when the above-mentioned assignment relationship is changed so that the input from the third camera is assigned to the first window and the input from the fourth camera is assigned to the second window, it is said that a change in the video channel has occurred. The terminal control unit 12 changes the assignment relationship between the input from the camera and the window according to a predetermined command input by the user or a predetermined control command from a program. For example, if the moderator of the conference wants to always display the face of the conference participant who wants to speak in the same window, the moderator of the conference inputs a command to switch the video channel each time the moderator changes. Maybe. Alternatively, the program may automatically switch the video channel at regular time intervals to display the participants' faces evenly in the same window. When detecting a predetermined command or a predetermined control command from a program, the video channel change detection unit 93 regards that a change in the video channel has occurred and sends a detection signal indicating the change to the video information generation unit 94. . The video information generation unit 94 generates information indicating the time at which the change of the video channel has occurred and information specifying the change of the video channel according to the detection signal from the video channel change detection unit 93. Detecting a change in a video scene is particularly effective when the purpose of using the video channel (for example, a video channel through which a video of a conference participant flows) is clear. Furthermore, according to the video channel change detection unit 93, even when information regarding camera operation is not stored at the time of shooting, it is possible to detect a change in a video scene based on only the shot video information.
[0060]
As described above, the functions of the camera operation detection unit 91, the video scene change detection unit 92, and the video channel change detection unit 93 are independent of each other. Therefore, the video information management unit 31 can be configured to include one or any two of the camera operation detection unit 91, the video scene change detection unit 92, and the video channel change detection unit 93. .
[0061]
FIG. 10 shows the configuration of the audio information management unit 32. The audio information management unit 32 includes an audio information division unit 101 that divides an input audio signal into a sound part and a silent part based on the power of the audio signal input from the microphone, In response to the change to the sound part, the voice information generating unit 102 generates information indicating the time at which the change occurred and information specifying the change, and controls the voice information dividing unit 101 and the voice information generating unit 102 And a voice information management control unit 103 that performs the operation.
[0062]
The audio information dividing unit 101 measures the power of an input audio signal, and divides the input audio signal into a sound part and a silent part based on the measurement result. A specific method of dividing the audio signal into a sound part and a silent part will be described later with reference to FIG. Based on the audio division, the audio information division unit 101 detects a change in the audio signal from a silent part to a sound part and the number of audio blocks in which the sound part continues. The audio information generation unit 102 receives information indicating the time at which the audio signal changed from a silent part to a sound part and information indicating the number of audio blocks in which the sound part continues according to the detection signal from the sound information division part 101. Generate Information indicating the time at which the audio signal changed from a silent part to a sound part and information indicating the number of audio blocks in which the sound part continues are stored in the work situation storage unit 14. In this way, by storing the time at which the audio signal changed from a silent part to a sound part and the number of audio blocks in which the sound part continues in the work status storage part 14, it is possible to deal with the sound part of the audio signal. It is possible to reproduce only the video information recorded or used by the user during the time period. As a result, the user can easily look back on important points in the course of the work.
[0063]
FIG. 11 is a diagram illustrating the configuration of the window information management unit 43. The window information management unit 43 includes a window generation / destruction detection unit 111 that detects generation / destruction of a window, a window size change detection unit 112 that detects a change in window size, and a window display that detects a change in the display position of the window. A position change detecting unit 113, a window focus change detecting unit 114 for detecting a change in focus on a window (a switching operation of a window to be edited (topic) between users), and a display area of information to be displayed in the window , A window display area change detecting unit 115 for detecting a change in the overlapping relationship between a plurality of windows, a display change detecting unit 116 for detecting a change in an overlapping relationship between a plurality of windows, and a time at which the change occurs in response to a change in window information. Window for generating information indicating the change and information specifying the change A broadcast generating unit 117, and a window information management control unit 118.
[0064]
The window generation / destruction detection unit 111 detects generation of a window or destruction of a window, and sends a detection signal to the window information generation unit 117. The other detection units 112 to 116 similarly detect a predetermined change and send a detection signal to the window information generation unit 117. The window information generation unit 117 receives the detection signal, and generates information indicating a time when the change has occurred and information specifying the change according to the detection signal.
[0065]
FIG. 12 shows the configuration of the instruction information management unit 53. The instruction information management unit 53 includes an instruction information detection unit 121 that detects a change in the instruction information, and an instruction that generates, in response to the change in the instruction information, information indicating a time when the change has occurred and information that specifies the change. It includes an information generation unit 122 and an instruction information management control unit 123.
[0066]
The operation of the instruction information management unit 53 will be described using an example of an instruction using a mouse pointer. When the mouse button is pressed by the user, a signal indicating that the mouse button is pressed and a signal indicating the coordinate position of the mouse pointer are input to the instruction information detection unit 121. The instruction information detection unit 121 detects a predetermined change in the coordinate position of the mouse pointer, and generates a detection signal indicating the predetermined change. For example, the predetermined change is that the mouse pointer moves from one position on the window to another position. Alternatively, the predetermined change may be that the mouse pointer moves from within a certain area on the window to outside the area. Alternatively, the predetermined change may be that the mouse button is double-clicked, or that the mouse is being dragged. The instruction information generation unit 122 generates information indicating the time at which the change has occurred and information specifying the change according to the detection signal from the instruction information detection unit 121.
[0067]
FIG. 13 shows an example of information generated by the voice information generation unit 102 and stored in the work status storage unit 14 by the work status control unit 33. In this example, the start time of the sound part is stored as information indicating the time when the change of the audio information occurs. Further, as information for specifying a change in audio information, an identifier of an audio block, a user who has emitted audio, and an audio block length of a sound part are stored. The user who has issued the voice is specified based on the correspondence between the identifier of the input device and the user. This correspondence is set in advance. For example, the first line in FIG. 13 has only “15:15:10” and “15 block length (seconds)” in the voice information input from the microphone connected to the terminal device of “Mr. Yamaguchi”. This indicates the work situation in which the sound continued.
[0068]
FIG. 14 illustrates an example of information generated by the video information generation unit 94 and stored in the work status storage unit 14 by the work status control unit 33. In this example, the event occurrence time is stored as information indicating the time at which the change in the video information has occurred. Further, as the information for specifying the change of the video information, an occurrence event, an event person, and an occurrence position are stored. In this specification, “event” is defined as having the same meaning as a predetermined change. The occurrence event includes a change in a video scene. The event person and the occurrence position are specified based on the correspondence between the identifier of the input device and the user and the use of the input device. This correspondence is set in advance. For example, in the first line of FIG. 14, in the video information input from the “document camera” connected to the terminal device of “Mr. Yamaguchi”, the event “change of video scene” at “5/318: 03” This indicates the work situation in which an error has occurred.
[0069]
In addition, as a method for detecting a change in video information, there is a method of adding an infrared sensor for detecting hand movement to a document camera for presenting materials, and a person-person for photographing a user's facial expression. There is a method of adding an ultrasonic sensor for checking a user's presence status to a camera. With these methods, a change in video information can be detected. As described above, by using various sensors according to the purpose, the motion information of the user can be obtained. Also, motion information can be obtained by using difference information between frames of video information obtained by a camera. Details will be described later with reference to FIG. 27 below.
[0070]
FIG. 15 shows another example of information generated by the video information generation unit 94 and stored in the work status storage unit 14 by the work status control unit 33. In this example, the occurrence event includes a change in the camera operation and a change in the video channel in addition to the change in the video scene described in FIG. For example, in the first line of FIG. 15, in the video information input from the “document camera” connected to the terminal device of “Mr. Yamaguchi”, the event “zoom enlargement” occurs at “5/3 18:03” Indicates the work situation that occurred.
[0071]
FIG. 16 illustrates an example of information generated by the window information generation unit 117 and the instruction information generation unit 122 and stored in the work status storage unit 14 by the work status control unit 33. In this example, the event occurrence time is stored as information indicating the time when the window information or the instruction information has changed. Further, as an information for specifying a change in the window information or the instruction information, an occurrence event, an event person, and an occurrence position are stored. The event person and the occurrence position are specified based on the correspondence between the identifier of the input device and the user and the use of the input device. This correspondence is set in advance. For example, the first line of FIG. 15 indicates that “mouse” is “5/3 18:03” in “Chapter 1” of the material of “Material No. 1” displayed in the window of the terminal device of “Mr. Yamaguchi”. This indicates a work situation in which an event "pointer by pointer" has occurred. Operations on a window may be performed on a logical page, chapter, or section basis. Further, when the window has a personal memo description section for describing a personal memo, attention may be paid to a change in the content of the personal memo description section. By storing the work status in the work status storage unit 14 in this manner, it becomes possible for the user to search for video information and audio information captured during the work based on the memory during the work. .
[0072]
Referring to FIGS. 17 to 20, when a plurality of users hold an electronic conference using a plurality of terminal devices interconnected by a network, it is preferable that the work status management unit 13 manage the electronic conference. Is exemplified.
[0073]
With reference to FIG. 17, a method of determining a window of interest to a user by detecting a change in window information will be described. Hereinafter, a window estimated by the work situation management unit 13 to be focused on by the user is referred to as a window of interest. A method for changing the window information will be described taking a change in window size as an example. It is assumed that the window has a window size changing unit for changing the window size. In a known window system, a window size changing unit is often provided in a peripheral portion of a window. Normally, the user changes the size of the window by dragging the mouse while pointing the window size changing unit with the mouse. The work situation management unit 13 detects a change in the window size, and determines that the window whose size has been changed is the window of interest. The work status management unit 13 stores information indicating which window is the window of interest in the work status storage unit 14 in chronological order. If the window size can be changed for a plurality of windows, the work status management unit 13 may determine the window whose size has been changed most recently as the window of interest. Alternatively, the work situation management unit 13 may determine that a window having a size larger than a predetermined size is the window of interest. Further, when the time interval in which the window is focused is shorter than the predetermined time interval, it may be determined that the user is searching for the material, and it may be determined that the window is not focused. This is because such a window is presumed not to be the subject of the main topic of the user. Similarly, the window of interest can be determined using a change in window information other than a change in window size (for example, a change in window focus or a change in display between windows).
[0074]
With reference to FIG. 18, a method of determining a window of interest by a user using the window owner information will be described. The editing area displayed on the display includes, as shown in FIG. 18, a co-editing area 181 that can be edited by a plurality of users and a personal editing area 182 that can be edited only by one user. It is assumed that the position of the area 181 and the position of the personal editing area 182 are set in advance. The work situation management unit 13 detects that the position of the window has been moved from the personal information editing area 182 to the joint information editing area 181 by the operation of the user, and determines that the moved window is the window of interest. The work status management unit 13 chronologically displays the information indicating which window is the window of interest and the information indicating which of the co-editing region 181 and the personal editing region 182 is located in the work status. The information is stored in the storage unit 14.
[0075]
With reference to FIG. 19, a method of determining information focused on by the user by detecting a change in the window display area will be described. It is assumed that the window has a window display area changing unit 191 for scrolling display contents. In a known window system, the window display area changing unit 191 often has a scroll bar type user interface. However, the window display area changing unit 191 may have another user interface such as a push button type. When the user operates the window display area change unit 191, the display contents of the window are scrolled. The work status management unit 13 detects that the window display area has changed. After the window display area changes, the work situation management unit 13 determines whether or not the audio signal of a predetermined level or more continues for a predetermined time (for example, one second or more). The reason why such a judgment is effective is that when explaining a material to another person, a person points to a specific position of the material and clarifies the object of the explanation, and then uses voice (words) to give the person his / her own voice. This is because they often try to convey their intentions. After the window display area is changed, if it is determined that the audio signal of a predetermined level or more has continued for a predetermined time or more, the work situation management unit 13 sets the time and data of the material information of interest to the user. The positional information (for example, a document name or an item name) is stored in the work status storage unit 14. Further, after the window display area changes, the work status management unit 13 detects that an instruction for the material information has occurred, and uses the temporal and positional information of the instruction as information indicating the point of interest of the user. The information may be stored in the storage unit 14. Further, by combining the above two detection methods, when the work situation management unit 13 detects the voice uttered by the user for a predetermined time or more and detects that the instruction to the material information has been issued, the user Temporal and positional information of the material information of interest may be stored in the work situation storage unit 14.
[0076]
With reference to FIGS. 20 and 21, a method of detecting the point of interest of the user for the video information will be described. As shown in FIG. 21, it is assumed that a document camera for capturing material information is connected to the terminal device. The work situation management unit 13 detects that voice information has been generated by the user after a predetermined camera operation has been performed by the user. The predetermined camera operation is, for example, switching of a video channel when there are a plurality of video sources, zoom operation of a camera, operation of a recording device such as a VTR device, and the like. The reason why such detection is effective is that, after performing a predetermined camera operation, the user often makes a sound to intentionally explain something. The work situation management unit 13 determines that the generation of the audio information at such a timing indicates the point of interest of the user, and the temporal and positional information indicating the point of interest of the user (for example, Information indicating when the position was instructed) is stored in the work status storage unit 14.
[0077]
FIG. 20 shows that during a teleconference, a certain user uses a document camera to display a document illustrating a “circuit board”, and another participant instructs himself / herself to an image of the “circuit board”. This shows the image being overlaid (overlaid). Here, the conversation state of the voice information (for example, who issued the information that can be regarded as a sound part) is stored for each user so that it is possible to determine who made the noticeable statement and when. You can easily search. The work situation management unit 13 detects that an instruction to material information has been issued after the user performed a camera operation. The work situation management unit 13 determines that the instruction to the material information at such a timing indicates the point of interest of the user, and stores the temporal and positional information of the instruction in the work situation storage unit 14. As a method of detecting an instruction for the material information, for example, a method of detecting an instruction with a mouse pointer, or as shown in FIG. There is a way to detect it. As a method of detecting an instruction for material information using video information captured by a document camera, a difference between frames in video information may be used. Alternatively, the work situation management unit 13 detects the audio information emitted by the user after the user performs the camera operation, and when it detects that the instruction to the material information has been generated, the time of the instruction is reduced. Alternatively, the positional information may be stored in the work status storage unit 14 as information indicating the point of interest of the user. The reason why such detection is effective is that when explaining a material to another person, a person points to a specific position of the material, clarifies the object of the explanation, and then uses voice (words) to give the other person his / her own voice. This is because they often try to convey their intentions. In particular, as shown in FIG. 20, when a plurality of users discuss the video while watching the video, an instruction for the audio generation time (a section that becomes a sound part of the voice) and the video is given. It is effective to memorize for each user. The reason is that it is easy to search and edit the material information because the time point at which the user is estimated to pay attention to the video is known for each user. Furthermore, by recording or outputting only the video information and the audio information at the time when it is estimated that the user is paying attention, it is possible to reduce the amount of information presented to the user and the storage capacity.
[0078]
Next, a work situation management device having a keyword management unit 220 for adding a keyword to video information or audio information using the work situation stored in the work situation storage unit 14 will be described. In this specification, "adding a keyword to video information or audio information" means determining a keyword corresponding to the time zone t for the time zone t. For example, the keyword management unit 220 1 For the keyword "A" and time zone t 2 For the keyword "B" and time zone t 3 Is assigned a keyword “C”. Since the video information or the audio information is represented by the function of the time t, it is possible to search for a desired portion of the video information or the audio information using the keyword as a search key.
[0079]
FIG. 22 shows the configuration of the keyword management unit 220. The keyword management unit 220 inputs information indicating the time progress of the work from the work status storage unit 14, and stores a set of a time zone t and a keyword K (t) corresponding to the time zone t in the keyword storage unit 224 (t, K (t)). The keyword management unit 220 reads out information indicating the time progress of the work from the work status storage unit 14 and, based on the information, identifies a time period to which a keyword is to be assigned, of the time required for the work. 221, a keyword candidate specifying unit 222 for specifying at least one keyword candidate for the time period specified by the time period specifying unit 221, and selecting one keyword candidate from the keyword candidates according to a predetermined rule; A keyword determining unit 223 that determines the selected keyword candidate as a keyword corresponding to the time zone. The time zone and the keyword corresponding to the time zone are stored in the keyword storage unit 224.
[0080]
As described above, in order for the keyword management unit 220 to add a keyword to video information or audio information, it is necessary that information indicating the time course of the work is stored in the work status storage unit 14 in advance. Information indicating the time progress of the work is generated by the work situation management unit 13 and stored in the work situation storage unit 14. Hereinafter, what kind of information should be stored in the work situation storage unit 14 will be described.
[0081]
FIG. 23A shows the flow of the work of editing a document. For example, editing work such as change, insertion, and deletion is performed on document A, and as a result, document A 'is created. The work status management unit 13 generates a difference between the document A before editing and the document A ′ after editing, and stores information indicating a time at which the difference occurred and information specifying the difference as a work status storage unit 14. Output to The information that specifies the difference is, for example, the name of a file that stores the difference character string. The work status management unit 13 may output information for specifying the edited document A ′ to the work status storage unit 14 instead of the information for specifying the difference. This is because there may be no difference. The timing of acquiring the difference between the document A before editing and the document A ′ after editing may be at regular intervals, or may be when the window is opened or the window is closed. Good.
[0082]
FIG. 23B shows an example of information stored in the work situation storage unit 14 by the work situation management unit 13 when the work shown in FIG. 23A is performed. In this example, the time zone in which the document was edited, the name of the document before editing, the name of the document after editing, and the difference are stored.
[0083]
FIG. 24A shows a scene where a part of the material information is instructed by the user in the work. The user specifies the range of the material information by pointing the material information using a mouse pointer, a touch panel, or the like. In FIG. 24A, the range specified by the user is highlighted. The work status management unit 13 detects the range specified by the user, and outputs information indicating the time at which the instruction has been issued by the user and information specifying the range specified by the user to the work status storage unit 14. I do.
[0084]
FIG. 24B shows an example of information stored in the work situation storage unit 14 by the work situation management unit 13 when the instruction shown in FIG. In this example, the name of the person who issued the instruction, the time zone in which the instruction occurred, and the range specified by the instruction are stored.
[0085]
FIG. 25A shows a scene in which material information is displayed in a window in the work. The window has a title description section 2501 for describing the title of the material information. As the title, for example, the names and numbers of chapters, sections, and sections are described. The work status management unit 13 detects a window of interest by the user, and stores information indicating the time at which the window of interest was detected and information described in the title description unit 2501 of the window in the work status storage unit 14. Output. Further, the window may have a personal information description section 2502 for describing a personal memo of the user. The work status management unit 13 detects a window of interest by the user, and stores information indicating the time at which the window of interest was detected and information described in the personal information description unit 2502 of the window in the work status storage unit 14. Output to
[0086]
FIG. 25B shows an example of information stored in the work status storage unit 14 by the work status management unit 13. In this example, a title, a subject, a time zone in which the window is focused, and a personal memo are stored.
[0087]
FIG. 26A shows the configuration of the voice keyword detection unit 2601. The voice keyword detection unit 2601 is included in the work status management unit 13. The voice keyword detection unit 2601 detects a predetermined voice keyword included in voice information input from the input unit 11, and converts information indicating a time at which the predetermined voice keyword was detected and information indicating the detected voice keyword. Output to the work status storage unit 14. The voice keyword detection unit 2601 includes a voice recognition unit 2602, a voice keyword extraction unit 2603, a voice keyword dictionary 2604, and a voice processing control unit 2605. The voice recognition unit 2602 receives voice information from the input unit 11 and converts the voice information into a character string corresponding to the voice information. The voice keyword extraction unit 2603 receives the character string corresponding to the voice information from the voice recognition unit 2602 and searches the voice keyword dictionary 2604 to extract a voice keyword from the character string corresponding to the voice information. The voice keyword dictionary 2604 stores voice keywords to be extracted in advance. For example, assume that a voice keyword “software” is stored in the voice keyword dictionary 2604 in advance. When the voice information “the feature of this software is to operate at high speed” is input to the voice recognition unit 2602, the voice recognition unit 2602 outputs the text “the feature of this software is to operate at high speed”. Generate a column. The voice keyword extraction unit 2603 receives the character string “the feature of this software is to operate at high speed”, and matches the “software” that is the voice keyword stored in the voice keyword dictionary 2604 from the received character string. Character string to be extracted. The audio processing control unit 2605 controls the above processing.
[0088]
FIG. 26B illustrates an example of information stored in the work status storage unit 14 by the work status management unit 13. In this example, the name of the uttered person, the time period during which the utterance was performed, and the speech keyword extracted from the uttered content are stored.
[0089]
FIG. 27 shows a flow of a keyword addition process to audio information or video information performed by the keyword management unit 220 shown in FIG. The time zone identification unit 221 identifies an evaluation target section (time zone) of the video information or the audio information (step S2701). The method of designating the evaluation target section (time zone) will be described later with reference to FIGS. The keyword candidate specifying unit 222 specifies at least one keyword candidate based on the processing result of each keyword extraction processing unit described later (step S2702). In order to adopt one of the keyword candidates, the keyword determination unit 223 selects a determination rule from keyword determination rules described later (step S2703). The keyword determination unit 223 determines a keyword corresponding to the evaluation target section (time zone) based on the selected determination rule (step S2704).
[0090]
With reference to FIGS. 28A to 28C, a method for specifying an evaluation target section (time zone) of video information or audio information will be described. There are mainly three methods. The first is a method of limiting a range to which a keyword is to be attached to a sound part of audio information. The second method is to limit the range to which a keyword is to be attached to a section in which the user focuses on the window. The method of detecting that the user is paying attention to a specific window has already been described with reference to FIGS. A third method is to limit the range to which a keyword is to be attached to a section where the instruction information has been generated. As described above, the instruction information includes an instruction by a mouse pointer, an instruction by a finger to material information, and the like. A method of combining these target range designation methods is shown in FIGS.
[0091]
FIG. 28A shows a method of limiting a range to which a keyword is to be attached based on window information and audio information. The time zone specifying unit 221 limits the range to which a keyword is to be attached to an overlapping portion between the sound portion of the audio information and the time zone in which the user focuses on the window. In the example shown in FIG. 28A, the time zone T is defined as an overlapping portion between the sound part of the audio information and the time zone in which the user focuses on the window. 1 , T 2 Is specified by the time zone specifying unit 221.
[0092]
FIG. 28B shows a method of limiting a range to which a keyword is to be attached based on window information and instruction information. The time zone specifying unit 221 limits the range to which a keyword is to be attached to an overlapping portion between the time zone in which the user focuses on the window and the time zone in which the instruction information is generated. In the example shown in (b) of FIG. 28, the time zone T is defined as an overlapping portion of the time zone in which the user focuses on the window and the time zone in which the instruction information is generated. 1 , T 2 , T 3 Is specified by the time zone specifying unit 221.
[0093]
FIG. 28C shows a method of limiting the range to which a keyword is to be attached based on the instruction information and the voice information. The time zone specifying unit 221 limits the range to which the keyword is to be attached to the overlapping portion between the time zone in which the instruction information is generated and the sound part of the audio information. In the example shown in FIG. 28 (c), the time zone T is used as an overlapping portion between the time zone in which the instruction information is generated and the sound part of the audio information. 1 , T 2 , T 3 Is specified by the time zone specifying unit 221.
[0094]
The above time zone T 1 , T 2 , T 3 , Different keywords may be added, or the same keyword may be added. For example, in the example shown in (a) to (c) of FIG. 1 , T 2 , T 3 To the same keyword "circuit board". As described above, by adding the same keyword to different time zones, it is possible to handle video information having different time zones as a video block which is a logical group having the same keyword. Similarly, by adding the same keyword to different time zones, it is possible to handle audio information with different time zones as audio blocks that are one logical group having the same keyword. As a result, it becomes easy to handle video information and audio information in logical information units.
[0095]
FIG. 29 shows a configuration of the keyword candidate specifying unit 222 shown in FIG. The keyword candidate specifying unit 222 extracts a keyword candidate based on a difference between a document before editing and a document after editing, and a designated keyword extracting unit that extracts a keyword candidate based on designated information. 2902, a personal keyword extraction unit 2903 that extracts keyword candidates based on the contents of the memo described in the personal information description unit 2502, and a title that extracts keyword candidates based on the contents of the title described in the title description unit 2501 It has a keyword extraction unit 2904, a voice keyword extraction unit 2905 for extracting keyword candidates based on voice information, a keyword input unit 2906 for inputting keyword candidates from a user, and a keyword control unit 2907.
[0096]
Next, the operation of the keyword candidate specifying unit 222 will be described. The time period T specified by the time period specifying unit 221 is input to the keyword control unit 2907. The keyword control unit 2907 sends the time period T to each of the extraction units 2901 to 2905 and the keyword input unit 2906. Each of the extraction units 2901 to 2905 extracts a keyword candidate to be added to the time zone T, and returns the extracted keyword candidate to the keyword control unit 2907. The keyword candidates input by the user are also sent to the keyword control unit 2907. In this way, the keyword control unit 2907 collects at least one keyword candidate for the time period T. At least one keyword candidate collected for the time period T is sent to the keyword determination unit 223.
[0097]
For example, it is assumed that a time zone of “10:00 to 10:01” has been input to the keyword candidate specifying unit 222. The document keyword extraction unit 2901 searches the table shown in FIG. 23B stored in the work status storage unit 14. As a result, a time zone of “10:00 to 10:03” (10: 00 → 10: 03) including the time zone of “10:00 to 10:01” is hit. The document keyword extraction unit 2901 extracts a keyword candidate from a difference between documents edited in a hit time slot. As a method of extracting a keyword candidate from a document difference, for example, there is a method of selecting only a character string corresponding to a noun among the character strings included in the document difference as a keyword candidate. To determine whether or not a character string corresponds to a noun, a “kana-kanji conversion dictionary” used by a word processor or the like may be used.
[0098]
The designated keyword extraction unit 2902 searches the table shown in FIG. 24B stored in the work status storage unit 14. As a result, a time zone of “10:00 to 10:01” (10: 00 → 10: 01) that matches the time zone of “10:00 to 10:01” is hit. The designated keyword extracting unit 2902 extracts a keyword candidate from a character string included in the specified range of the hit time zone.
[0099]
Similarly, the personal keyword extraction unit 2903 and the title keyword extraction unit 2904 search the table shown in FIG. 25B stored in the work status storage unit 14. The voice keyword extraction unit 2905 searches the table shown in FIG. 26B stored in the work status storage unit 14.
[0100]
Next, the operation of the keyword determination unit 223 will be described. The keyword determining unit 223 receives at least one keyword candidate from the keyword candidate specifying unit 222, and selects one of the received keyword candidates according to a predetermined keyword determining rule.
[0101]
FIG. 30 is an example of a keyword determination rule. The rules 1 to 4 define which of the extraction units should be preferentially selected from the extracted keyword candidates. Rule 5 defines which of the keyword candidates extracted from the plurality of extraction units should be selected based on the keyword evaluation value.
[0102]
Next, a method of selecting one keyword candidate from a plurality of keyword candidates based on the keyword evaluation value defined in FIG. 31 will be described. The methods are classified into the following four types depending on whether the evaluation by the keyword extraction unit or the difference in the evaluation section is taken into consideration. (1) A method of selecting a keyword candidate based on a keyword evaluation value: When a plurality of keyword candidates are extracted from one keyword extraction unit, one of the plurality of keyword candidates is selected. Used to The keyword evaluation value is a value of a keyword appearance ratio obtained by dividing the number of appearances in the keyword extraction unit by the number of keyword candidates obtained in the keyword extraction unit. (2) Method of selecting keyword candidates based on keyword comprehensive evaluation value: The keyword comprehensive evaluation value takes into account the evaluation results of a plurality of keyword extraction units. The keyword comprehensive evaluation value is obtained by obtaining the product of the keyword evaluation value and the evaluation value for the keyword extraction unit defined in advance by the user for each keyword extraction unit, and obtaining the sum of those products. (3) Method of selecting keyword candidates based on keyword importance: The keyword importance is to comprehensively evaluate keywords of the same name obtained from one keyword extraction unit. The keyword importance is obtained by dividing a keyword evaluation value by a keyword appearance time, which is the time length of a video block or an audio block, for each video block (audio block). Is obtained by calculating the sum total of the unit time keyword evaluation values for the video block (audio block). (4) Method of Selecting Keyword Candidates Based on Keyword Total Importance: The keyword overall importance takes into account the evaluation results of a plurality of keyword extraction units. The keyword overall importance is obtained by obtaining the product of the keyword importance and the evaluation value for the keyword extraction unit defined in advance by the user for each keyword extraction unit, and obtaining the sum of those products.
[0103]
Referring to FIG. 32, a procedure of a method for determining a keyword based on a keyword evaluation value and a keyword importance value will be described with reference to a specific example. First, (1) a keyword evaluation value is determined for each evaluation target section (time zone) to which a keyword is to be assigned. (2) A keyword is determined based on the keyword evaluation value. In the example of FIG. 32, the evaluation target section (time zone) T 1 The keyword evaluation value of “Circuit Board” is 0.5, “Circuit Drawing” is 0.4, and “Safety” is 0.1 for each keyword. As a result, if the keyword with the highest keyword evaluation value is prioritized, the evaluation target section (time zone) T 1 Is determined to be “circuit board”. Similarly, the evaluation target section (time zone) T 2 Is determined to be “Circuit drawing”, and the evaluation target section (time zone) T 3 Is determined to be “safety” and the evaluation target section (time zone) T 4 Is determined to be “circuit board”. (3) The same keyword may be added to a plurality of evaluation target sections (time zones). In this case, in order to evaluate the keyword over the plurality of evaluation target sections (time zones), the time length in which the keyword appears is considered. In the example of FIG. 32, the “circuit board” having the keyword evaluation value 0.5 is an evaluation target section (time zone) T having a time length 5 1 , And a “circuit board” having a keyword evaluation value of 0.6 is an evaluation target section (time zone) T having a time length of 5 4 , The keyword importance of “circuit board” is (0.5 + 0.6) / (5 + 5) = 0.11. Similarly, the keyword importance of “circuit drawing” is 0.1, and the keyword importance of “safety” is 0.25. When the order in which keywords are presented to the user is controlled according to the keyword importance, the order is "security", "circuit board", and "circuit drawing". This makes it possible to control the number of keywords added to video information and audio information so as not to be unnecessarily large.
[0104]
Next, a method for automatically editing conversation information will be described with reference to FIG. This method is one example of using a keyword added to video information or audio information.
[0105]
FIG. 33 shows a procedure of a method for automatically editing conversation information when a keyword is added to video information or audio information based on audio information. The voice information generated by the conversation of the user is divided into a sound part and a soundless part (step S3301). In order to divide audio information into a sound part and a silent part, for example, a threshold value of audio power is determined in advance to distinguish between a sound state and a silent state of the audio information, and division is performed based on the threshold value. Just fine. This dividing method will be described later with reference to FIG. In particular, when a plurality of users work together in one work, the voice information generated during the conversation is recorded and managed for each user, so that the voice information during the conversation can be searched in more detail. It becomes possible to edit. Next, a noise portion is deleted from the audio information obtained in step S3301 (step S3302). For example, if the length of the sound portion of the audio information is shorter than a predetermined time (for example, one second), the audio information may be regarded as noise. When a noise portion is deleted from audio information, the corresponding audio information is replaced with silent information having the same time length. Based on the audio information from which noise has been removed, the video information is divided into a section corresponding to a silent part of the audio information and a section corresponding to a sound part of the audio information (step S3303). A keyword is added to video information (or audio information) based on the keyword adding method shown in FIG. 27 (step S3304). In order to add a keyword to video information (or audio information), for example, a keyword determination rule shown in FIG. 30 may be applied. When there are a plurality of video information channels (or a plurality of audio information channels), a plurality of video blocks (or audio blocks) may exist in one section indicating the same time zone. Hereinafter, in this specification, this section is called a competitive section. When different keywords are added to a plurality of video blocks (or audio blocks) existing in the conflicting section, one keyword is selected from the keywords according to a predetermined keyword integration rule described later. Selection is made (step S3305). Based on the keyword added to the video information (or audio information) and the time at which the video information (or audio information) was recorded, the conversation information is converted into text information (step S3306). Finally, the character information is converted into audio information and output (step S3307). The conversion from the character information to the voice information may use voice synthesis.
[0106]
FIG. 34 shows a procedure of a method of dividing audio information into a sound part and a silent part. A silence timer is set (MT = 0) to measure the time length of the silence section of the voice (step S3401). A status flag indicating whether the voice is a sound part or a silent part is set. That is, St = True (step S3402). If the sound level is lower than the threshold (ThV), the time (TB) at which the sound part starts is set (step S3403). Note that the threshold (ThV) is set in advance based on the level of the voice when no speech is made. Clear the audio status flag. That is, St = False is set (step S3404). If the audio level falls below the threshold (ThV) and the silent section exceeds the threshold time (TM), the audio status flag is set (step S3405). Note that the threshold time (TM) is set in advance to a length of about 400 milliseconds to one second. If the voice level is below the threshold (ThV), the silent section does not exceed the threshold time (TM), and the previous voice section is a sound section, the time (TE) at which the sound section ends is set. (Step S3406). The values of TB and TE are output to the work status storage unit 14 (step S3407). A silence timer is set (step S3408).
[0107]
Next, with reference to FIG. 35 and FIG. 36, the keyword integration rule in the conflict section will be described. Hereinafter, a keyword integration rule when video blocks compete will be described, but the same applies to a case where audio blocks compete. It is assumed that the video block A and the video block B are competing with each other, and there is a competition section C between the video block A and the video block B. Examples of the keyword integration rules include the following four rules (a) to (d). (A) A rule that gives priority to a video block whose start time is earlier. In the example shown in FIG. 35A, since the start time of the video information A is earlier than the start time of the video information B, the keyword “circuit board 1” added to the video information A is selected in the competitive section C. You. (B) A rule that gives priority to a video block whose start time is later. In the example shown in FIG. 35B, since the start time of the video block B is later than the start time of the video information A, the keyword “circuit board 2” added to the video block B is selected in the competitive section C. You. (C) A rule for determining a keyword based on the evaluation value of the user's operation history information (information indicating a situation change) in the competitive section C. In the example shown in FIG. 36 (c), information indicating a situation change is represented by an upward arrow. The number of the arrows indicates the number of occurrences of the situation change. The number of situation changes for video block A in the competition section C is greater than the number of situation changes for video block B in the competition section C. Therefore, in the competitive section C, the keyword “circuit board 1” added to the video block A is selected. (D) A rule for determining a keyword based on the evaluation value of the user's operation history information (information indicating a status change) included in each time slot of a video block. In the example shown in (d) of FIG. 36, the number of status changes for video block B is greater than the number of status changes for video block A. Therefore, in the competitive section C, the keyword “circuit board 2” added to the video block B is selected.
[0108]
FIG. 37 is an example in which a keyword integration rule in a competition section is described. Four rules including the keyword integration rule described above with reference to FIGS. 35 and 36 are described. The keywords in the competition section are determined based on these rules.
[0109]
Next, a description will be given of a documenting unit 380 that generates character information indicating a work situation by using a keyword stored in the keyword storage unit 224. The documentation unit 380 is included in the work status management device.
[0110]
FIG. 38 shows the configuration of the documenting unit 380. The documenting unit 380 includes a time information extracting unit 381 for extracting a relationship between a keyword and a time zone in which the keyword appears (information about When), and a subject extraction for extracting a relationship between the keyword and a subject (information about Who). A document extraction unit 383 for extracting the keyword itself, a documentation rule storage unit 385 for storing documentation rules, and a documentation control unit 384.
[0111]
With reference to FIG. 39, a method of generating character information indicating a work situation will be described. Hereinafter, a method of generating character information indicating a work situation based on video information will be described. The same applies to the case where character information indicating a work situation is generated based on voice information. (A) Attribute information for generating character information is assigned in advance to each video block. The attribute information includes information for specifying a person to be photographed (information about Who), information on the time when photographing was started and ended (information about When), and information for specifying a meeting place virtually set by a user. (Information about Where), information for specifying the target object (information about What), and information indicating whether or not an audio output is present (information about How). The keyword added to the video block may be used as the information for specifying the target. As described above, the attribute information is assigned to each video block in advance so that the work status can be expressed in a text by 5W1H (Who, Why, What, When, Where, How). (B) Select a specific video block from a plurality of video blocks included in the video information according to a predetermined documentation rule. The predetermined documentation rule is created in advance by the user. For example, as shown in rule 1 of FIG. 39 (b), if there is a documentation rule that “silent sections are not documented”, only the video block corresponding to the sound part of the audio information is selected. (C) Based on the attribute information assigned to the video block in advance, character information indicating a work situation corresponding to the selected video block is generated according to a predetermined documentation rule. For example, “Yamaguchi-san” is assigned to the specific video block as the information about Who, “about XX” is assigned as the information about When, and “about” is assigned as the information about What. Assume that "talked" is assigned as information about. In this case, for example, as shown in (c) of FIG. 39, character information “Mr. Yamaguchi talked about △△ around XX” is generated.
[0112]
With reference to FIG. 40, another method for generating character information indicating a work situation will be described. The method comprises the steps of: identifying a sound part in the audio information; identifying a video block corresponding to the sound part; detecting a change in the work situation; and And generating character information for the video block. For example, when a change in a video scene and an audio block are detected, character information “Mr. Yamaguchi, explained with a document camera” can be generated in accordance with rule 3 of FIG. Furthermore, if the keyword added to the video block is "circuit board", the keyword is used as information for identifying the object, and the character information "Mr. Yamaguchi, explanation of the circuit board with a document camera" is used. Can be generated. As a result, it is possible to generate character information indicating the work content according to the video information (or audio information), or to search for video information (or audio information) using the character information as a search key.
[0113]
Next, a description will be given of a keyword search unit 410 that searches for a work situation stored in the work situation storage unit 14 using a keyword stored in the keyword storage unit 224. The keyword search unit 410 is included in the work status management device.
[0114]
FIG. 41 shows the configuration of the keyword search unit 410. The keyword search unit 410 includes a search keyword input unit 411 for inputting a search keyword from a user, a search unit 412 for searching the work status storage unit 14 based on the input search keyword, and an input search. It has a search keyword storage unit 413 that stores keywords and search results, and a search keyword evaluation unit 414 that evaluates whether the search keywords are appropriate based on the search results.
[0115]
Next, the operation of the keyword search unit 410 will be described.
The search keyword input unit 411 inputs a search keyword from a user. In order to facilitate input of a search keyword by a user, the search keyword input unit 411 displays a plurality of keywords stored in the keyword storage unit 224 in a menu format, and uses one of the displayed keywords as a search keyword. The user may be allowed to selectively input. The search keyword input from the search keyword input unit 411 is stored in the search keyword storage unit 413.
[0116]
The search unit 412 searches the work status storage unit 14 based on the input search keyword. More specifically, the search unit 412 determines whether the search keyword matches one of the plurality of keywords stored in the keyword storage unit 224, and determines the video information to which the matched keyword is added. The result is output to the output unit 16 as a search result. Instead of the video information or in addition to the video information, arbitrary information stored in the work situation storage unit 14 may be output to the output unit 16 as a search result. The search unit 412 inquires of the user whether the detection result output to the output unit 16 is a desired result. The response of the user to the inquiry is stored in the search keyword storage unit 413. In this way, information indicating whether a desired search result has been obtained for the input search keyword is accumulated in the search keyword storage unit 413.
[0117]
FIG. 42 illustrates an example of information stored in the search keyword storage unit 413. In this example, in addition to the search keyword entered by the user, the group name to which the user belongs, the user name, the date and time when the search keyword was entered, the item name in which the search keyword was entered, The document name searched based on the search keyword and information indicating whether the searched document matches the document desired by the user are stored. In this example, if the retrieved document matches the document desired by the user, “adopted” is stored; otherwise, “not adopted” is stored. Alternatively, a number indicating the degree of matching between the retrieved document and the document desired by the user may be stored. For example, the degree of coincidence is “70%”. Here, an example in which a document is a search target has been described. Of course, any information stored in the work status storage unit 14 instead of or in addition to the document may be searched. In order to enable a search from a plurality of viewpoints, it is preferable that a plurality of items in which search keywords can be input are provided as shown in FIG. Further, a plurality of document names searched based on the search keyword may be stored in the search keyword storage unit 413.
[0118]
FIG. 43 shows an example of a search panel 430 for inputting a search keyword. The search panel 430 provides a user with a user interface for searching for information. The search panel 430 has a video keyword input unit 431, a document keyword input unit 432, and an event input unit 433. The video keyword input unit 431 displays a plurality of keywords added to the video information in a menu format, and allows the user to selectively input one of the displayed keywords as a search keyword. The document keyword input unit 432 allows a user to input a search keyword for searching for a document. The event input unit 433 displays a terminal state change (eg, a video scene change or a video channel change) generated by operating the document camera, or a terminal state change generated by a user operation on a window (eg, a terminal state change). , The movement of the mouse pointer, the open / closed state of the window, etc.) as search keywords.
[0119]
Next, the operation of the search keyword evaluation unit 414 shown in FIG. 41 will be described.
FIG. 44 shows the flow of processing executed by the search keyword evaluation unit 414. The processing includes a step of specifying an evaluation range (S4401) and a step of evaluating a search keyword in the specified evaluation range (S4402). At least one of the group name, the user name, and the date and time is input to the search keyword evaluation unit 414 to specify the evaluation range. The step of designating the evaluation range (S4401) includes, when a group name is input, extracting a search keyword used by a user belonging to the group from the search keyword storage unit 413 (S4403); When a name is input, a search keyword used by the user is extracted from the search keyword storage unit 413 (S4404), and when a date is input, the search keyword is used from the search keyword storage unit 413 for that date. Extracting the searched search keyword (S4405) and extracting the search keyword from the search keyword storage unit 413 according to a search condition defined by an operator (for example, a logical sum or a logical product) specified by the user. (S4406). The step of evaluating the search keyword in the specified evaluation range (S4402) includes, for the search keyword extracted in step S4401, calculating the hit rate of the search keyword from the number of adoptions and the number of uses of the search keyword (S4407). )including. Here, the hit rate (%) of the search keyword is calculated by the number of adoptions / the number of uses × 100. By presenting search keywords that have been input in the past to the user in descending order of the hit rate, the user can easily input search keywords that have a high probability of obtaining desired search results. As a result, the number of times a user inputs a search keyword before the user obtains a desired search result is reduced. Furthermore, if the evaluation value for the searched information (the degree of coincidence between the information desired by the user and the searched information, for example, a value between 0 and 1) is stored in the search keyword storage unit 413, the desired value can be obtained. It is possible to present to the user a search keyword with a higher probability of obtaining the search result. In this case, the hit rate (%) of the search keyword is calculated by the number of adoptions × the evaluation value / the number of uses × 100.
[0120]
FIG. 45 shows another configuration of the work status management unit 13. The work status management unit 13 controls a video information division unit 451 that divides video information into a plurality of video blocks, a video block evaluation unit 452 that evaluates video blocks, and a video information division unit 451 and a video block evaluation unit 452. And a video information integration control unit 453.
[0121]
Next, the operation of the work situation management unit 13 shown in FIG. 45 will be described.
The video information division unit 451 divides the video information into a plurality of logical video blocks based on the work status stored in the work status storage unit 14. Each video block includes at least one video scene. For example, the video information may be blocked according to the sound part of the audio information. The details of the method of blocking the video information have already been described, and the description is omitted here. In this way, the video information division unit 451 divides the first video information into a plurality of first video blocks, and divides the second video information into a plurality of second video blocks. For example, the first video information is video information captured by the user A, and the second video information is video information captured by the user B.
[0122]
The video block evaluation unit 452 determines whether or not there are a plurality of video blocks in the same time zone, and when it is determined that there are a plurality of video blocks in the same time zone, any one of the plurality of video blocks It is determined whether or not the video block is preferentially selected. Therefore, when one of the plurality of first video blocks and one of the plurality of second video blocks exist in the same time slot, the video block evaluation unit 452 sets the first and second video blocks existing in the same time slot. One of the video block and the second video block is selected. Thus, the first video information and the second video information are integrated, and one video information is generated. Accordingly, it is possible to generate video information indicating a dialogue state between the user A and the user B based on the video information captured by the user A and the video information captured by the user B. .
[0123]
FIG. 46 shows a procedure of the video information integration processing executed by the work situation management unit 13 shown in FIG. The video information division unit 451 generates a plurality of video blocks by dividing the video information into blocks (step S4601). The video block evaluation unit 452 determines whether a plurality of video blocks exist in the same time zone (Step S4602). When it is determined that there are a plurality of video blocks in the same time zone, the video block evaluation unit 452 determines which of the plurality of video blocks is preferentially selected according to a predetermined priority rule. (Step S4603). The predetermined priority rule is set in advance by the user.
[0124]
FIG. 47 shows an example of the priority rule. As shown in FIG. 47, there are various priority rules, such as a priority rule related to a change in the work situation and a priority rule based on the relationship of time.
[0125]
Next, the priority rules of rule numbers 1 to 10 shown in FIG. 47 will be specifically described with reference to FIGS.
[0126]
The priority rule of rule number 1 specifies that when there are a plurality of video blocks in the same time zone, the video block with the earliest start time is preferentially selected. In the example shown in FIG. 48A, the start time of the video block 1a is earlier than the start time of the video block 1b, so the video block 1a is selected.
[0127]
The priority rule of rule number 2 specifies that, when a plurality of video blocks exist in the same time zone, the video block whose start time is the latest is preferentially selected. In the example shown in FIG. 48B, the time period T 2 In, since the start time of the video block 2b is the latest, the video block 2b is selected. However, time zone T 1 In, since the start time of the video block 2a is the latest, the video block 2a is selected.
[0128]
The priority rule of rule number 3 specifies that when there are a plurality of video blocks in the same time zone, the video block with the longest time is preferentially selected. In the example shown in FIG. 48C, since the length of the video block 3a is longer than the length of the video block 3b, the video block 3a is selected.
[0129]
The priority rule of rule number 4 specifies that when a plurality of video blocks exist in the same time zone, the video block with the shortest time is preferentially selected. In the example shown in FIG. 49A, since the length of the video block 4b is shorter than the length of the video block 4a, the video block 4b is selected.
[0130]
The priority rule of rule number 5 specifies that, when a plurality of video blocks exist in the same time zone, the video block containing the most information indicating the change in the work situation per unit time is preferentially selected. In the example shown in (b) of FIG. 49, the time at which the information indicating the change in the work situation has occurred is indicated by a triangle. In this example, the video block 5b is selected because the video block 5b contains more information indicating a change in work status per unit time than the video block 5a.
[0131]
The priority rule of rule number 6 specifies that, when a plurality of video blocks exist in the same time zone, a video block that matches a predetermined combination rule of an occurrence event is preferentially selected. In the example shown in FIG. 49 (c), the video block 6b is selected because the video block 6b matches the predetermined combination rule of the event.
[0132]
FIG. 51 shows an example of an event combination rule. The event combination rule defines a combination of events that occur almost simultaneously in the work and an event name corresponding to the combination. For example, when a user explains a material using a document camera, the user often performs the operation while pointing at an object by hand. For this reason, the hand movement and the voice occur almost simultaneously. As shown in the first row of FIG. 51, for example, a combination of an event “change in video scene” and an event “audio block” is defined as an event “explanation with document camera”. When the user explains the material information displayed on the window, the instruction by the mouse pointer and the sound are generated almost simultaneously. As shown in the second line of FIG. 51, for example, a combination of the event “instruction by the mouse pointer” and the event “sound block” is defined as the event “explanation on the window”.
[0133]
Referring to FIG. 50, the priority rule of rule number 7 is that, when a plurality of video blocks exist in the same time zone, the video block corresponding to the time zone using the document information including the designated keyword is specified. Specifies that priority is selected. The priority rule of rule number 8 is that, when there are a plurality of video blocks in the same time zone, the video block corresponding to the time zone using the document information containing the most specified keyword is preferentially selected. Stipulates that In the example shown in FIG. 50A, since the specified keyword is included in the second page of the document information, the video block 7a is selected.
[0134]
The priority rule of rule number 9 specifies that, when a plurality of video blocks exist in the same time zone, the video block corresponding to the time zone in which the specified change in the work situation occurs is preferentially selected. The priority rule of rule number 10 specifies that, when a plurality of video blocks exist in the same time zone, the video block related to the designated subject is preferentially selected. In the example shown in FIG. 50B, the video block 9b is selected by applying the priority rule of the rule number 9, and the video block 9c is selected by applying the priority rule of the rule number 10.
[0135]
FIG. 52 shows an operation panel 5200 for operating information. The operation panel 5200 provides a user with a user interface for the work status management device. As shown in FIG. 52, the operation panel 5200 divides the video information into a video block composed of at least one video frame and displays a result of the division, and the audio is divided into a sound part and a silent part. A panel 5202 for displaying the result and information indicating a change in the work situation (switching of a video scene and switching of a video channel), a user's operation on the window (opening, closing, generating, deleting, etc. of the window), and a sticky note (Personal memo attached to the window) Panel 5203 for displaying information indicating the history of entry and instruction with the mouse pointer, Panel 5204 for displaying reference material, and video of search results And a panel 5205 to be used.
[0136]
FIG. 53 shows an operation panel 5300 for searching and editing information. The operation panel 5300 provides a user with a user interface for the work status management device. As shown in FIG. 53, an operation panel 5300 includes an operation panel 5301 for recording a work situation, an operation panel 5302 for searching information, an operation panel 5303 for operating information, and a plurality of information panels. And an operation panel 5305 for selecting a priority rule when a plurality of video blocks exist in the same time zone. By selecting a priority rule on the operation panel 5305, semi-automatic information editing by a computer becomes possible. The operation panel 5306 automatically converts a work situation (for example, the content of a meeting, etc.) into text information according to time information, an event name added to the video block, and information on an object for each video block. It is a panel.
[0137]
FIG. 54 shows an operation panel 5400 for integrating video information and audio information recorded for each participant. An operation panel 5400 includes a panel 5401 that displays video information captured by a certain user A and audio information based on speech, a panel 5402 that displays video information captured by another user B and audio information based on speech, And a panel 5403 for displaying integrated video information and audio information as a result of the automatic editing.
[0138]
The present invention can be applied not only to conferences but also to search and edit of multimedia mail when an editing device is used by an individual, and to create teaching materials by CAI (computer-assisted education) when a collaborative editing device is used. It is.
[0139]
【The invention's effect】
As described above, according to the work situation management device of the present invention, it is possible to manage various information indicating the time progress of the work. This makes it easy to search for a desired portion of the video information and audio information recorded during the work by focusing on the change in the work situation. It is possible to manage from a personal point of view by associating the information with the daily work of the individual so that the user can efficiently extract and work with necessary information (materials, comments, meeting status). In addition, it is possible to handle dynamic information such as a conversation situation that is difficult to handle systematically from a personal viewpoint. Furthermore, by recording or outputting only the video information and the audio information at the time when it is estimated that the user is paying attention, the amount of information presented to the user and the storage capacity can be reduced.
[0140]
Furthermore, according to the work situation management device of the present invention, it is possible to add a keyword to video information and audio information. By using the keyword, it becomes easy to search for a desired portion of the video information or the audio information. In addition, it is possible to generate character information indicating a work situation using a keyword.
[Brief description of the drawings]
FIG. 1A is a diagram showing a configuration of a work status management device of the present invention.
(B) shows a typical work scene
FIG. 2 is a diagram showing a configuration of a system including a plurality of terminal devices and a work status management device connected via a network.
FIG. 3 is a diagram showing a configuration of a work status management unit.
FIG. 4 is a diagram showing another configuration of the work status management unit.
FIG. 5 is a diagram showing another configuration of the work status management unit.
FIG. 6 is a diagram showing another configuration of the work status management unit.
FIG. 7 is a diagram showing another configuration of the work status management unit.
FIG. 8 is a diagram showing another configuration of the work status management unit.
FIG. 9 is a diagram showing a configuration of a video information management unit.
FIG. 10 is a diagram showing a configuration of a voice information management unit.
FIG. 11 is a diagram showing a configuration of a window information management unit.
FIG. 12 is a diagram showing a configuration of an instruction information management unit.
FIG. 13 is a diagram showing information indicating a work status stored in a work status storage unit.
FIG. 14 is a diagram showing information indicating a work status stored in a work status storage unit;
FIG. 15 is a diagram showing information indicating a work status stored in a work status storage unit.
FIG. 16 is a diagram showing information indicating a work status stored in a work status storage unit.
FIG. 17 is a view for explaining a method of determining a user's window of interest by using window size change information;
FIG. 18 is a view for explaining a method for determining a window of interest of a user using window owner information.
FIG. 19 is a view for explaining a method of determining information of interest of a user based on operation information of a display position changing unit.
FIG. 20 is a diagram illustrating a method for detecting a point of interest of a user with respect to video information.
FIG. 21 is a view for explaining a method of detecting a point of interest of a user for video information.
FIG. 22 is a diagram showing a configuration of a keyword information management unit.
FIG. 23A is a diagram showing a flow of work for editing a document.
(B) is a diagram showing an example of information stored in the work status storage unit by the work of (a).
FIG. 24A is a diagram showing a scene where a part of the material information is instructed by a user in an operation.
(B) is a diagram showing an example of information stored in the work status storage unit by the work of (a).
FIG. 25A is a diagram showing a scene in which material information is displayed in a window in a work;
(B) is a diagram showing an example of information stored in the work status storage unit by the work of (a).
FIG. 26A is a diagram illustrating a configuration of a voice keyword detection unit.
FIG. 4B is a diagram illustrating an example of information stored in a work status storage unit by a voice keyword detection unit.
FIG. 27 is a diagram showing a procedure of processing for adding a keyword to video information or audio information.
FIG. 28 is a view for explaining a method of designating an evaluation target section (time zone) of video information or audio information.
FIG. 29 is a diagram showing a configuration of a keyword candidate specifying unit.
FIG. 30 is a diagram showing a rule for determining a keyword to be added to video or audio information.
FIG. 31 is a view for explaining a method of calculating a keyword evaluation value.
FIG. 32 is a diagram illustrating a specific method of using the keyword evaluation value and the keyword important value.
FIG. 33 is a diagram showing a procedure of a method for automatically editing conversation information;
FIG. 34 is a diagram showing a procedure of a method of dividing audio information into a sound part and a silent part.
FIG. 35 is a diagram illustrating a keyword integration rule in a competitive section.
FIG. 36 is a view for explaining a keyword integration rule in a competitive section.
FIG. 37 is a diagram showing a keyword integration rule in a competitive section.
FIG. 38 is a diagram showing a configuration of a documenting unit.
FIG. 39 is a view for explaining a method of generating character information indicating a work situation;
FIG. 40 is a view for explaining another method for generating character information indicating a work situation;
FIG. 41 is a diagram showing a configuration of a keyword search unit.
FIG. 42 is a diagram showing an example of information stored in a search keyword storage unit.
FIG. 43 is a diagram showing an example of a search panel for inputting a search keyword.
FIG. 44 is a diagram showing a procedure of a search keyword evaluation process.
FIG. 45 is a diagram showing another configuration of the work status management unit.
FIG. 46 is a diagram showing a procedure for integrating video information;
FIG. 47 is a diagram showing a priority rule for preferentially selecting a video block.
FIG. 48 specifically illustrates a priority rule.
FIG. 49 is a diagram specifically illustrating a priority rule.
FIG. 50 is a diagram specifically illustrating a priority rule.
FIG. 51 is a diagram showing a combination rule of occurrence events;
FIG. 52 shows a screen image of an operation panel for operating information.
FIG. 53 is a diagram showing a screen image of an operation panel for searching and editing information;
FIG. 54 shows a screen image of an operation panel for integrating video information and audio information recorded for each participant.
[Explanation of symbols]
10 Work status management device
11 Input section
12 Terminal control unit
13 Work status management department
14 Work status storage
15 Document information storage
16 Output section
17 Transmission section