JP2008017050A - 会議システム及び会議方法 - Google Patents

会議システム及び会議方法 Download PDF

Info

Publication number
JP2008017050A
JP2008017050A JP2006184828A JP2006184828A JP2008017050A JP 2008017050 A JP2008017050 A JP 2008017050A JP 2006184828 A JP2006184828 A JP 2006184828A JP 2006184828 A JP2006184828 A JP 2006184828A JP 2008017050 A JP2008017050 A JP 2008017050A
Authority
JP
Japan
Prior art keywords
section
image
acquisition
acquired
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006184828A
Other languages
English (en)
Inventor
Kazumasa Murai
和昌 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006184828A priority Critical patent/JP2008017050A/ja
Publication of JP2008017050A publication Critical patent/JP2008017050A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】所望の音声及び画像特徴を説明する情報に基づいて効率的に検索できる会議システム及び会議方法を提供する。
【解決手段】
会議で取得された音声である取得音声と取得音声を取得した時刻である音声取得時刻とを関連付け、会議で投影された画像であり、かつ会議で取得された画像である取得画像と取得画像を取得した時刻である画像取得時刻とを関連付け、かつ取得音声と取得画像とを音声取得時刻と画像取得時刻とに基づいて時刻で関連付けて記憶するよう制御する制御手段と、を備える会議システムであって、制御手段は、取得画像と取得画像と類似した画像の会議における投影回数とを関連付けて記憶するよう記憶部を制御する。
これにより類似した画像の投影回数が高いと言う特徴を有する画像を知ることができる。
【選択図】図1

Description

本発明は、会議における音声及び画像を記憶又は検索できる会議システム及び会議方法に関し、特に、音声及び画像を効率的に検索できる会議システム及び会議方法に関する。
会議又は講義等において、発表者等は、プロジェクタにより資料画像を投影し、投影した画像に対して発表等を行なう。このようにして行なわれた会議等において投影された画像及び発言された音声等を予め記録しておくことで、会議に出席しなかった者や会議の内容を再確認しようとする者等が会議の内容を参照することができる。
しかし、所望のスライド画像又は発言の検索を容易にするためには索引付け作業が必要であり、人手によらない索引付け処理が必要となる。
このような機能を有する会議システムとしては、マイクにより収音された会議の参加者の音声に対して、マイクロフォンアレイを利用した音源推定技術により推定された位置情報に基づいて判断した発言者を識別する情報、及びビデオカメラによる映像に基づいて取得した発言者の静止画像、を自動的に索引付けできる会議システムが知られている(例えば、特許文献1参照)。
特開2000‐125274
ところで、上記のような会議システムでは、検索対象とする音声並びに画像又は映像(以下単に、音声等と言う)の索引として音声等の特徴を説明する情報を付すことができないため、特徴を説明する情報に従って所望の音声等を効率的に検索できないという問題があった。
本発明は、上記問題に鑑みて成されたものであり、その目的とするところは、所望の音声及び画像を特徴付ける情報に基づいて効率的に検索できる会議システム及び会議方法を提供することにある。
本発明に係る会議システムは、会議において取得された音声である取得音声と取得音声を取得した時刻である音声取得時刻とを関連付け、会議で投影された画像であり、かつ会議において取得された画像である取得画像と取得画像を取得した時刻である画像取得時刻とを関連付け、かつ取得音声と取得画像とを音声取得時刻と画像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御手段と、を備える会議システムであって、制御手段は、画像取得時刻で区切られた時間区間である画像取得時間区間と、取得画像の内で画像取得時間区間において会議で投影された画像である区間取得画像と、区間取得画像を分類する基準となる区間取得画像分類基準と、を関連付けて記憶するよう記憶部を制御し、
区間取得画像分類基準は、分類対象である区間取得画像と類似した取得画像の会議における投影回数を含むことを特徴としている。
一般に会議において説明者が重要だと考える画像及び説明は、他の画像と比較して投影及び説明されると言う特徴を有する。よってこの構成によれば、会議において取得された音声及び画像を取得した時刻のみならず、類似した画像の投影回数に基づいても分類して記憶できるため、類似した画像の投影回数が高いと言う特徴を有する画像のみならず、そのような画像の投影時において取得された説明音声をも知ることができる。
上記構成において、区間取得画像分類基準は、分類対象である取得画像が会議において説明を省略された画像であるか否かを表す情報を含む構成を採用できる。
一般に会議において、説明者は、説明者が重要でないと考える画像には説明を行なわないと言う特徴的な行動を行う。よってこの構成によれば、制御手段は説明を省略された画像であるか否かを表す情報と取得画像とを関連付けて記憶するよう記憶部を制御するため、説明がなされないと言う特徴を有する画像を知ることができる。
上記構成において、検索に用いられるキーワードである検索キーワードを入力する入力手段と、入力手段で入力された検索キーワードに基づいて生成された検索条件を満たす区間取得画像分類基準に関連付けて、記憶部に記憶された区間取得画像を検索する検索手段と、検索手段の検索した区間取得画像の少なくとも1つ以上を表示する表示手段を更に有する構成を採用できる。
この構成によれば、所望の区間取得画像を、検索の手がかりとなる検索キーワードに基づいて検索手段により検索し、検索された画像を表示手段に表示して確認できるため、効率よく所望の画像を検索し、検索した画像を確認できる。
上記構成において、区間取得画像分類基準は、分類対象である区間取得画像であって、かつ検索手段で検索された区間取得画像が表示手段に表示された回数である表示回数を含む構成を採用できる。
一般に、区間取得画像を閲覧する者が重要であると考える画像ほど多く検索され、検索結果として表示されると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の過去における表示回数を知ることができるだけでなく、表示回数が多い又は少ないと言った特徴を有する画像を知ることができる。
上記構成において、画像取得時間区間は、会議において投影された画像の投影を開始した時刻である投影開始時刻と投影を終了した時刻とで定められる時間区間である投影時間区間を含む構成を採用できる。
この構成によれば、制御手段は投影時間区間と取得画像とを関連付けて記憶するよう記憶部を制御するため、特定の時刻に会議において投影されていた画像を知ることができるだけでなく、特定の画像が投影されていた時間区間をも知ることができる。
またこの構成によれば、記憶部は、区間取得画像と画像の投影を開始した時刻とを関連付けて記憶するので、それぞれの画像を投影した順番を知ることができる。
更に、一例として、説明者が重要だと考える画像は会議の最後に結論、又は総論等として表示されると言う特徴を有する、画像を投影した順番が遅い又は早いと言った特徴を有する画像を知ることができる。
上記構成において、区間取得画像分類基準は、分類対象である画像取得時間区間の長さである画像取得時間区間長を含む構成を採用できる。
一般に説明者が重要だと考える画像ほど、長時間投影されると言う特徴を有する。よってこの構成によれば、記憶部は、画像取得時間区間は投影時間区間であり、かつ区間取得画像と投影時間区間長とを関連付けて記憶するので、長時間投影されていた区間取得画像を知ることができるだけでなく、投影時間区間長が長いという特長を有する区間取得画像を知ることができる。
上記構成において、区間取得画像分類基準は、分類対象である区間取得画像に対して文字認識処理を行なうことで抽出した文字情報を含む構成を採用できる。
この構成によれば、取得画像から文字認識処理により取得した文字情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するため、区間取得画像を画像の有する文字情報に基づいて分類できる。
上記構成において、区間取得画像と類似した取得画像は、区間取得画像を構成する画素情報が類似した画像、又は区間取得画像に対して文字認識処理を行なうことで抽出した文字情報を構成する単語が類似した画像である構成を採用できる。
この構成によれば、類似した画像であるか否かを、画像の有する文字情報を構成する単語、又は画素情報に基づいて判断するため、類似・非類似を定量的に判断できる。
上記構成において、説明を省略された画像であるか否かを表す情報は、画像取得時間区間長が所定の閾値以下、又はより小さいか否かを表す情報である構成を採用できる。
この構成によれば、閾値を変化させることで、一例として、説明者の説明速度、又は会議システムの操作者の操作速度に対応して説明対象とした画像とそうでない画像とを分類できる。
上記構成において、区間取得画像分類基準は、分類対象である区間取得画像であって、かつ検索手段で検索された区間取得画像が表示手段に表示された時間長である表示時間長を含む構成を採用できる。
一般に、区間取得画像の閲覧者が重要だと考える画像ほど多く検索され、かつ長時間に渡り表示されると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の過去における表示時間長を知ることができるだけでなく、表示時間長が長いと言う特徴を有する区間取得画像を知ることができる。
上記構成において、表示手段は、検索手段で検索された区間取得画像のサムネイルと、制御手段により区間取得画像に関連付けられた区間取得画像分類基準と、を関連付けて表示する構成を採用できる。
この構成によれば、検索された区間取得画像が所望の画像であるかをサムネイル及び区間取得画像分類基準に基づいて容易に確認できる。
上記構成において、入力手段は、表示手段が表示するサムネイルの並び順を指定するソートキーを入力し、検索手段は、検索した区間取得画像について入力手段が入力したソートキーに基づいて並び順を定め、表示手段は、検索手段が定めた並び順に従って、前期区間取得画像のサムネイルを並べて表示する構成を採用できる。
この構成によれば、所望の画像を特徴付ける並び順で画像を並べて、並び順を手がかりに画像を効率的に探し出すことができる。
上記構成において、区間取得画像分類基準は、分類対象である区間取得画像を検索手段が検索するためにソートキーを用いた回数を含み、
ソートキーは、ソートキーを用いた回数以外の区間取得画像分類基準である構成を採用できる。
一般に所望の画像を特定するためには、所望の画像を特徴付ける並び順で画像を並べて、並び順を手がかりに画像を探し出す。よってこの構成によれば、ソートキーの使用回数と区間取得画像とを関連付けて記憶するよう記憶部を制御手段が制御するため、区間取得画像を検索するために用いられた回数が多い又は少ないと言う区間取得画像を特徴付けるソートキーを知ることができる。これにより所望の画像を容易に検索できる。
上記構成において、入力手段は、区間取得画像を説明する情報であるアノテーション情報を入力し、区間取得画像分類基準は、分類対象である区間取得画像を説明するアノテーション情報であって、かつ入力手段が入力したアノテーション情報を含む構成を採用できる。
この構成によれば、制御手段は、アノテーション情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するので、一例として、講演者、又はシステム管理者が、重要だと考える区間取得画像を視聴する者に対して追加の説明等をアノテーション情報として区間取得画像に関連付けることができる。また、区間取得画像を視聴する者が、重要だと考える区間取得画像を視聴した感想や質問等をアノテーション情報として区間取得画像に関連付けることができる。
よって、アノテーション情報の付されたと言う特徴を有する区間取得画像を知ることができる。
上記構成において、制御手段によって、表示手段が表示する区間取得画像と時刻に基づいて関連付けて記憶された取得音声を同期して出音する出音手段を更に有する構成を採用できる。
この構成によれば、区間取得画像分類基準に基づいて所望の区間取得画像を検索手段で検索し、検索された画像を表示手段で表示するだけでなく検索された画像の画像取得時間区間において収集された音声を出音手段から出音できる。よって、表示された画像が所望の画像であるかを表示された画像だけでなく出音された音声に基づいて容易に確認できる。また、区間取得画像分類基準に基づいて区間取得画像のみならず、画像取得時間区間における取得音声をも検索して視聴できる。
上記構成において、制御手段は、音声取得時刻で区切られた時間区間である音声取得時間区間と、音声取得時間区間において取得された取得音声である区間取得音声と、区間取得音声を分類する基準となる区間取得音声分類基準と、を関連付けて記憶するよう記憶部を制御し、区間取得音声分類基準は、区間取得音声として取得された取得音声の発言者を識別する情報である発言者識別情報を含む構成を採用できる。
この構成によれば、会議において取得された音声及び画像を、音声及び画像を取得した時刻のみならず発言者識別情報に基づいても分類して記憶できる。よって、特定の時刻における音声及び画像のみならず、特定の発言者に関連した音声及び画像を知ることができる。また逆に、特定の音声及び画像に関連した発言者を知ることもできる。
上記構成において、音声取得時間区間は、分類対象とする区間取得音声の発言者が発言を開始した時刻である発言開始時刻と、発言者が発言を終了した時刻である発言終了時刻と、で定まる発言区間である構成を採用できる。
この構成によれば、制御手段は発言区間と区間取得音声と発言者識別情報とを関連付けて記憶するよう記憶部を制御するため、特定の人物が会議においてした発言又は発言区間を知ることができるだけでなく、発言又は発言区間における発言者を知ることができる。
またこの構成によれば、記憶部は、発言である区間取得音声と発言開始時刻とを関連付けて記憶するので、それぞれの発言の順番を知ることができる。
更に、一例として、発言者が重要だと考える事項は、会議の最後に結論、又は総論等として発言されると言う特徴を有する。よって、発言した順番が早い又は遅いと言う特徴を有する区間取得音声を知ることができる。
上記構成において、音声取得時間区間は、分類対象とする区間取得音声の発言者が交代した時刻である発言者交代時刻と次の発言者交代時刻とで定まる時間区間である発言者同一区間である構成を採用できる。
この構成によれば、制御手段は発言者同一区間と区間取得音声と発言者識別情報とを関連付けて記憶するよう記憶部を制御するため、会議における特定の人物が交代することなくした一連の発言又は発言者同一区間を知ることができるだけでなく、そのような発言又は発言者同一区間における発言者を知ることができる。
上記構成において、取得音声分類基準は、分類対象とする区間取得音声から音声認識処理により取得した発言内容を表す文字情報を含む構成を採用できる。
この構成によれば、区間取得音声から文字認識処理により取得した文字情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するため、区間取得音声である発言を発言内容である文字情報に基づいて分類できる。
上記構成において、取得音声分類基準は、分類対象とする区間取得音声の発話量を含む構成を採用できる。
一例として、会議の参加者が重要だと考える事項ほど活発に発言がなされるために発話量が多いと言う特徴を有する。よってこの構成によれば、区間取得音声と発話量とを関連付けて記憶部が記憶するため、発言量が多いと言う特徴を有する区間取得音声を知ることができる。
また、区間取得音声は取得音声であり、取得音声は時刻に基づいて取得画像である区間取得画像と関連付けられているので、投影時間区間における発話量が多いと言う特徴を有する区間取得画像を知ることができる。
上記構成において、発話量は、区間取得音声の発言内容を表す文字情報を構成する文字数、又は区間取得音声の音声取得時間区間の長さである音声取得時間区間長を含む構成を採用できる。
一般に、発言者が重要だと考えるな事項ほど説明が長いと言う特徴を有する。よってこの構成によれば、発言である区間取得音声と発言内容を表す文字情報、又は音声取得時間区間長とを関連付けて記憶部が記憶するため、発言内容が少ない又は多い発言、若しくは長時間に及ぶ又は短時間で終了した発言と言う特徴を有する区間取得音声を知ることができる。
上記構成において、取得音声分類基準は、分類対象とする区間取得音声の音声的特長を含む構成を採用できる。
一般に、発言者が重要だと考える事項の説明時には、音声的特長を変化させることが多い。よってこの構成によれば、音声的特長と区間取得音声とを関連付けて記憶部が記憶するため、音声的な特長を有する区間取得音声を知ることができる。
上記構成において、音声的特長は、分類対象とする区間取得音声の高さ、大きさ、又は単位時間当たりの発言内容を表す文字情報量である構成を採用できる。
一般に、発言者が重要だと考える事項の説明時における音声は、通常の説明時に比べて、声を低く、声を大きく、又はゆっくりと説明すると言う特徴を有する。よってこの構成によれば、音声の高さ、大きさ、又は単位時間当たりの発言内容を表す文字情報量と区間取得音声とを関連付けて記憶部が記憶するため、説明時の音声の高さ、大きさ、又は単位時間当たりの文字情報量が変化したと言う特徴を有する区間取得音声を知ることができる。
上記構成において、区間取得音声分類基準は、分類対象とする区間取得音声の発言者の位置に関する情報である位置情報を含む構成を採用できる。
一般に会議等における発言者の位置は、一例として、講演者と聴衆等の会議における役割によって位置関係が異なる。よってこの構成によれば、制御手段は、位置情報と区間取得音声とを関連付けて記憶するよう記憶部を制御するため、特定の役割を有する者が通常位置する場所から発せられた音声であると言う特徴を有する区間取得音声を知ることができる。
上記構成において、区間取得音声分類基準は、分類対象とする区間取得音声と類似した区間取得音声を、会議において取得した回数を含む構成を採用できる。
一般に会議において説明者が重要だと考える説明は、多少言葉を変えて繰返し説明されると言う特徴を有する。よってこの構成によれば、類似した区間取得音声を、会議において取得した回数が多いと言う特徴を有する音声のみならず、そのような音声の取得時において会議で投影された画像をも知ることができる。
上記構成において、区間取得音声と類似した取得音声は、区間取得音声に対して音声認識処理を行なうことで抽出した文字情報を構成する単語が類似した音声である構成を採用できる。
この構成によれば、類似した音声であるか否かを、音声認識処理を行なうことで抽出した文字情報を構成する単語に基づいて判断するため、類似・非類似を定量的に判断できる。
上記構成において、検索手段は、入力手段で入力された検索キーワードに基づいて生成された検索条件を満たす区間取得音声分類基準に関連づけて、記憶部に記憶された区間取得音声を検索し、出音手段は、検索手段の検索した区間取得音声の少なくとも1つ以上を出音することを特徴とする構成を採用できる。
この構成によれば、所望の区間取得音声を、検索の手がかりとなる検索キーワードに基づいて検索手段により検索し、検索された音声を出音手段から出音して確認できるため、効率よく所望の音声を検索し、検索した音声を確認できる。
上記構成において、区間取得音声分類基準は、分類対象とする区間取得音声であり、かつ検索手段で検索された区間取得音声が出音手段から出音された回数である出音回数を含む構成を採用できる。
一般に、視聴者が重要だと考える音声ほど多く検索され、検索結果として出音される。よってこの構成によれば、所望の区間取得音声の過去における出音回数を知ることができるだけでなく、出音回数が多い又は少ないと言った特徴を有する音声を知ることができる。
上記構成において、区間取得音声分類基準は、分類対象とする区間取得音声であり、かつ検索手段で検索された区間取得音声が出音手段から出音された時間長である出音時間長を含む構成を採用できる。
一般に、視聴者が重要だと考える音声ほど多く検索され、検索結果として繰返し出音されると言う特徴を有する。よってこの構成によれば、所望の区間取得音声の過去における出音時間長を知ることができるだけでなく、出音時間長が長い又は短いと言った特徴を有する音声を知ることができる。
上記構成において、説明を省略された画像であるか否かを表す情報は、取得音声分類基準に含まれる文字情報が「割愛」、又は「省略」と言う語を含むか否かを表す情報である構成を採用できる。
通常、会議において投影した画像の説明を省略する場合には、説明者は投影した画像の説明を「割愛」する、又は「省略」する旨を、その語を用いて会議の参加者に伝える。
よって、この構成によれば、説明者の発した特長的な言葉に基づいて説明対象とした画像とそうでない画像とを分類できる。
上記構成において、区間取得画像分類基準は、分類対象とする区間取得画像の画像取得時間区間に含まれる音声取得時間区間に関連付けて記憶部に記憶した区間取得音声の発言者が交代した回数を含む構成を採用できる。
一般に、会議の参加者が重要だと考える事項ほど活発に議論がなされ、検索結果として発言者が交代した回数が増えると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の画像取得時間区間における発言者が交代した回数を知ることができるだけでなく、画像取得時間区間における発言者の交代回数が多い又は少ないと言った特徴を有する画像を知ることができる。
上記構成において、区間取得画像分類基準に含まれる交代した回数は、区間取得画像分類基準が分類対象とする区間取得画像の画像取得時間区間に含まれる音声取得時間区間に関連付けて記憶部に記憶した区間取得音声分類基準に含まれる発言者識別情報に基づいて、制御手段により算出される構成を採用できる。
この構成によれば、発言者識別情報に基づいて交代回数を算出するため、一例として、位置情報に基づいて交代回数を算出する場合と比べて、精度よく交代回数を算出できる。
上記構成において、区間取得画像分類基準に含まれる交代した回数は、区間取得画像分類基準が分類対象とする区間取得画像の画像取得時間区間に含まれる音声取得時間区間に関連付けて記憶部に記憶した区間取得音声分類基準に含まれる位置情報に基づいて、制御手段により算出される構成を採用できる。
この構成によれば、位置情報に基づいて交代回数を算出するため、一例として、発言者識別情報に基づいて交代回数を算出する場合と比べて、参加者の増加、又は減少に容易に対応できる。
上記構成において、区間取得音声分類基準は、分類対象である区間取得音声を検索手段が検索するためにソートキーを用いた回数を含み、ソートキーは、ソートキーを用いた回数以外の区間取得音声分類基準である構成を採用できる。 一般に所望の音声を特定するためには、所望の音声を特徴付ける並び順で音声を並べて、並び順を手がかりに音声を探し出す。よってこの構成によれば、ソートキーの使用回数と区間取得音声とを関連付けて記憶するよう制御手段が記憶部を制御するため、区間取得音声を検索するために用いられた回数が多い又は少ないと言う区間取得画像を特徴付けるソートキーを知ることができる。これにより所望の音声を容易に検索できる。
上記構成において、入力手段は、区間取得音声を説明する情報であるアノテーション情報を入力し、区間取得音声分類基準は、分類対象である区間取得音声を説明するアノテーション情報であって、かつ入力手段が入力したアノテーション情報を含む構成を採用できる。
この構成によれば、制御手段は、アノテーション情報と区間取得音声とを関連付けて記憶するよう記憶部を制御するので、一例として、講演者、又はシステム管理者が、重要だと考える区間取得音声を視聴する者に対して追加の説明等をアノテーション情報として区間取得音声に関連付けることができる。また、区間取得音声を視聴する者が、重要だと考える区間取得音声を視聴した感想や質問等をアノテーション情報として区間取得音声に関連付けることができる。
よって、アノテーション情報の付されたと言う特徴を有する区間取得音声を知ることができる。
上記構成において、アノテーション情報は、文字情報である構成を採用できる。
この構成によれば、アノテーション情報は文字情報であるので、一例として、文字情報量の多い又は少ないアノテーション情報が付されたと言う特徴を有する区間取得音声を知ることができる。
本発明に係る会議システムは、会議において取得された音声である取得音声と取得音声を取得した時刻である音声取得時刻とを関連付け、会議において取得された映像であり、かつ会議において投影された画像を撮影した映像である取得映像と取得映像を取得した時刻である映像取得時刻とを関連付け、かつ取得音声と取得映像とを音声取得時刻と映像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御手段と、を備える会議システムであって、制御手段は、映像取得時刻で区切られた時間区間である映像取得時間区間と、取得映像の内で映像取得時間区間において会議で投影された映像である区間取得映像と、区間取得映像を分類する基準となる区間取得映像分類基準と、を関連付けて記憶するよう記憶部を制御し、区間取得映像分類基準は、分類対象である区間取得映像と類似した区間取得映像を、会議において取得した回数を含むことを特徴としている。
一般に会議において説明者が重要だと考える画像及び説明は、他の画像と比較して投影及び説明されることが多く、そのような画像を撮影した映像同士は互いに類似すると言う特徴を有する。よってこの構成によれば、会議において取得された音声及び映像を取得した時刻のみならず、撮影対象とした画像と類似した画像の投影回数に基づいても分類して記憶できるため、撮影対象とした画像と類似した画像の投影回数が高いと言う特徴を有する映像のみならず、そのような画像の撮影時において取得された説明音声をも知ることができる。
において会議で投影された映像である区間取得映像と、区間取得映像を分類する基準となる区間取得映像分類基準と、を関連付けて記憶するよう記憶部を制御し、
区間取得映像分類基準は、分類対象である区間取得映像であって、かつ検索手段で検索された区間取得映像が表示手段に表示された回数である表示回数を含むことを特徴としている。
本発明に係る会議方法は、会議において取得された音声である取得音声と取得音声を取得した時刻である音声取得時刻とを関連付け、会議で投影された画像であり、かつ会議で取得された画像である取得画像と取得画像を取得した時刻である画像取得時刻とを関連付け、かつ取得音声と取得画像とを音声取得時刻と画像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御ステップと、を備える会議方法であって、制御ステップは、画像取得時刻で区切られた時間区間である画像取得時間区間と、取得画像の内で画像取得時間区間において会議で投影された画像である区間取得画像と、区間取得画像を分類する基準となる区間取得画像分類基準と、を関連付けて記憶するよう記憶部を制御し、区間取得画像分類基準は、区間取得画像と類似した取得画像の会議における投影回数を含むことを特徴としている。
一般に会議において説明者が重要だと考える画像及び説明は、他の画像と比較して投影及び説明されることが多く、そのような画像を撮影した映像同士は互いに類似すると言う特徴を有する。よってこの構成によれば、会議において取得された音声及び映像を取得した時刻のみならず、撮影対象とした画像と類似した画像の投影回数に基づいても分類して記憶できるため、撮影対象とした画像と類似した画像の投影回数が高いと言う特徴を有する映像のみならず、そのような画像の撮影時において取得された説明音声をも知ることができる。
本発明によれば、会議において取得した音声並びに画像の特徴を説明する情報を索引として付すことができるため、所望の音声及び画像を効率的に検索できる。
以下、本発明の最良の実施形態について、添付図面を参照しつつ説明する。図1は本発明の会議システム10の一実施形態を示す構成図である。
本発明の会議システム10は、情報処理装置100、複数の音声取得装置111ないし11n、画像生成装置120、映像取得装置130、画像投影装置140、分配器150、入力手段である第1入力装置160及び第2入力装置210、表示手段である第1表示装置170及び第2表示装置220、及び出音手段である第1出音装置180及び第2出音装置230、遠隔端末200、並びにネットワーク300等から構成される。
情報処理装置100は、例えば、パーソナルコンピュータ等で構成される。
ここで図2を参照して情報処理装置100が実現する機能を説明する。図2は、本発明に係る会議システムを構成する情報処理装置100の1実施形態の機能ブロック図である。
情報処理装置100は、音声取得装置111ないし11n、映像取得装置130、分配器150、第1入力装置160、第1表示装置170、第1出音装置180、及びネットワーク300に接続している。
情報処理装置100は、A/D変換部1010、発言メタ情報生成部1020、時間管理部1030、画像取得部1040、新規画像検出部1050、投影時間算出部1060、画像変換部1070、テキスト抽出部1080、制御手段である制御部1090、データ格納部1100、検索手段である検索部1110、結果表示制御部1120、及び通信部1130等で構成される。
A/D変換部1010は、例えば、A/Dコンバータ等で構成され、音声取得装置111ないし11n、発言メタ情報生成部1020、及び時間管理部1030に接続している。
ここで、音声取得装置111ないし11nは、所定の閾値以上の音量レベルの信号を出力する際には、音声信号のみならず音声取得装置111ないし11nを識別する情報である音声取得装置識別情報をも送信する。よって、A/D変換部1010は、音声取得装置111ないし11nが取得した音声信号及び音声取得装置識別情報等を関連付けて受信する。その後、A/D変換部1010は、音声取得装置111ないし11nが取得した音声信号をA/D変換してデジタル信号に変換する。
また、A/D変換部1010は、音声信号を取得した時刻(以下単に、音声取得時刻と言う)を時間管理部1030の管理するシステム時刻に基づいて取得する。その後、デジタル信号、音声取得時刻、及び音声取得装置識別情報等を関連付けて発言メタ情報生成部1020へ送信する。
発言メタ情報生成部1020は、発言検出部1021、発言者識別部1022、発言交代検出部1023、音声認識部1024、特徴取得部1025等から構成される。発言メタ情報生成部1020は、A/D変換部1010、制御部1090、及びデータ格納部1100に接続している。
発言メタ情報生成部1020は、音声取得装置111ないし11nで取得された音声である取得音声に基づいて取得音声を説明する情報であるメタ情報を生成する。
ここで、発言メタ情報生成部1020、時間管理部1030、新規画像検出部1050、投影時間算出部1060、画像変換部1070、テキスト抽出部1080、制御部1090、検索部1110、及び結果表示制御部1120の有する各機能は、情報処理装置100が実行するソフトウェア制御により実現できる。
ここで図3を参照して、ソフトウェア制御を実行するための情報処理装置100のハードウェア構成について説明する。図3は、このソフトウェア制御を実現するための情報処理装置100のハードウェアの一構成例を表すハードウェア構成図である。
情報処理装置100は、例えば、CPU(Central Processing Unit)等の演算装置1001、EPROM(Erasable Programmable Read-Only Memory)又はEEPROM(Electrically Erasable Programmable Read-Only Memory)等の読み出し専用メモリであるROM1002(Read-Only Memory )、DRAM(Dynamic RAM)又はSRAM(Static RAM)等の揮発性メモリ及びNVRAM(Non Volatile RAM)等の不揮発性メモリで構成されるRAM1003(Random Access Memory)、並びにI/Oポート(Input/Output Port)で構成され、演算装置1001、ROM1002、RAM1003、及びI/Oポートは互いにバス1005によって接続している。
ソフトウェア制御は、ROM1002に格納したプログラムをCPU101が読み、読込んだプログラムに従ってCPU101が演算を行うことにより上記各部の機能を実現する。なお、RAM1003には、演算結果のデータが書き込まれ、特にNVRAMには、電源オフ時にバックアップが必要なデータが保存される。
ここで、図2に戻り、情報処理装置100の構成について引き続き説明する。
発言検出部1021は、A/D変換部1010、発言者識別部1022及び制御部1090に接続している。発言検出部1021は、A/D変換部1010からデジタル信号、音声取得時刻、及び音声取得装置識別情報等を関連付けて受信する。
発言検出部1021は、A/D変換部1010で変換されたデジタル信号に基づいて、取得音声から発言区間を抽出する。尚、発言区間とは、音声取得装置111ないし11nで取得された取得音声に基づいて得られる発言のなされた時間区間を言い、取得音声の発言者が発言を開始した時刻である発言開始時刻と、発言者が発言を終了した時刻である発言終了時刻と、で定まる時間区間を言う。
具体的には、発言検出部1021は、取得音声の音量を検査し、所定の閾値以上の音量レベルが所定時間以上継続した場合に発言を開始したと判断し、所定の閾値以下の音量レベルが所定時間以上継続した場合に発言を終了したと判断する。尚、本実施例においては、所定時間を2秒とした。
これにより、発言検出部1021は、音声取得時刻の内で発言を開始した時刻を発言開始時刻とし、かつ、発言の終了した時刻を発言終了時刻とし、発言開始時刻及び終了時刻で表される発言区間を取得する。
その後、発言検出部1021は、デジタル信号、音声取得装置識別情報、及び発言区間等を関連付けた情報を発言者識別部1022へ送信する。
また、発言検出部1021は発言の開始を検出した場合に、発言の開始を検出した旨の通知を制御部1090へ通知し、発言の開始日時、及び音声取得装置識別情報等を関連付けて制御部1090へ送信する。同様に、発言の終了を検出した場合に、発言の終了を検出した旨の通知を制御部1090へ通知し、発言の終了時刻、及び音声取得装置識別情報等を関連付けて制御部1090へ送信する。
発言者識別部1022は、発言検出部1021、発言交代検出部1023、及び制御部1090に接続している。
発言者識別部1022は、音声取得装置識別情報と発言者識別情報とを関連付けて記憶装置に記憶している。尚、発言者識別情報とは、取得音声として取得した音声を発した者を識別する情報である。
発言者識別部1022は、デジタル信号、音声取得装置識別情報、及び発言区間等を関連付けた情報を発言検出部1021から取得する。次に、発言者識別部1022は、取得した音声取得装置識別情報に基づいて記憶装置に記憶した発言者識別情報を検索することで、デジタル信号の発言者識別情報を取得する。
次に、発言者識別部1022は、デジタル信号、音声取得装置識別情報、発言者識別情報、及び発言区間等を関連付けた情報を発言交代検出部1023及び制御部1090へ送信する。
発言交代検出部1023は、発言者識別部1022、制御部1090、及び音声認識部1024に接続している。発言交代検出部1023は、発言者識別部1022が発言区間において取得した発言者識別情報と直前の発言区間において取得した発言者識別情報とを比較して、両情報が異なる情報であるか否かを検出する。
つまり、発言交代検出部1023は、直前の発言区間の発言者と比べて発言者が異なるか否かに関する情報(以下単に、交代情報と言う)を取得する。
その後、発言交代検出部1023は、音声取得装置識別情報と発言区間と取得音声とを関連付けて音声認識部1024に送信し、また取得した交代情報と音声取得装置識別情報と発言区間とを関連付けて制御部1090へ送信する。
音声認識部1024は、制御部1090、発言交代検出部1023、及び特徴取得部1025に接続している。音声認識部1024は、音声取得装置識別情報と発言区間とデジタル情報である取得音声とを発言交代検出部1023から受信する。
次に、音声認識部1024は、発言区間における取得音声から音声認識処理により取得した発言内容を表す文字情報を取得する。最後に、取得した文字情報を音声取得装置識別情報と発言区間とに関連付けて制御部1090へ送信する。また、音声取得装置識別情報と発言区間と取得音声とを特徴取得部1025へ送信する。
特徴取得部1025は、例えば、フィルター・バンクで構成され、音声認識部1024、制御部1090、及びデータ格納部1100に接続している。
特徴取得部1025は、音声認識部1024から音声取得装置識別情報と発言区間と取得音声とを受信する。次に、音声認識部1024は、メルケプストラル平均(Mel-Cepstral mean)、又は基底周波数、及び取得音声の音量を算出する。
次に、特徴取得部1025は、取得したメルケプストラル平均、又は基底周波数、及び取得音声の音量と音声取得装置識別情報と発言区間とを関連付けて制御部1090へ送信する。また、音声認識部1024は、デジタル信号をデータ格納部1100の所定の位置に所定のファイル名で記憶させる。
時間管理部1030は、A/D変換部1010、新規画像検出部1050、及び投影時間算出部1060に接続している。時間管理部1030は、例えば、システムクロック等を言い、ハードウェアクロックを基にシステム時刻を提供する。
画像取得部1040は、分配器150及び新規画像検出部1050に接続している。画像取得部1040は、例えば、RGBキャプチャカード等で構成されている。
画像取得部1040は、会議において投影される画像を取得する。具体的には、画像取得部1040は、分配器150から取得したRGB画像信号に基づいて、例えば、BMPフォーマットの画像を取得する。尚、画像取得部1040において取得した画像を取得画像と言う。次に、画像取得部1040は、取得した取得画像を新規画像検出部1050へ送信する。
新規画像検出部1050は、画像取得部1040、時間管理部1030、及び投影時間算出部1060に接続している。新規画像検出部1050は、画像取得部1040が新たに取得した取得画像と直前に取得画像した取得画像とを比較して、両者が異なる画像であるかを検出する。
具体的には、2つの画像データにおける各画素が変化したか否かを判断し、変化した画素が所定の閾値以上存在する場合に、2つの画像データは異なると判断する。尚、画素が変化したか否かについては、各画素のRGB値の差分が所定の閾値以上の場合に当該画素は変化したと判断する。
次に、新規画像検出部1050は、取得画像が変化したと判断する場合に取得画像と取得画像を取得した時刻(以下単に、画像取得時刻と言う)とを関連づけて投影時間算出部1060に送信する。
投影時間算出部1060は、時間管理部1030、新規画像検出部1050、及び画像変換部1070に接続している。投影時間算出部1060は、新規画像検出部1050から取得した取得画像をデータ格納部1100に格納するか否かを判断する。
具体的には、投影時間算出部1060は、取得画像が会議において投影された時間区間である投影時間区間を求める。投影時間算出部1060は、それぞれの取得画像の取得時刻を投影開始時刻とし、次に続く取得画像の画像取得時刻又は会議の終了時刻を投影終了時刻とすることで、投影開始時刻と投影終了時刻とで表される投影時間区間を求める。
その後、投影時間算出部1060は、取得画像と取得した投影時間区間とを画像変換部1070へ送信する。
画像変換部1070は、映像取得装置130、投影時間算出部1060及びテキスト抽出部1080に接続している。画像変換部1070は、投影時間算出部1060から取得した取得画像を記憶サイズがより小さい画像ファイルフォーマットに変換する。本実施例においては、BMPファイルフォーマットからJPGファイルフォーマットへ変換する。また、画像変換部1070は、取得画像に基づいてサムネイルを作成する。
また、画像変換部1070は、映像取得装置130で取得された映像である取得映像に基づいたキャプチャ画像である静止画像を作成し、作成した静止画像に基づいてサムネイルを作成する。
その後、画像変換部1070は、記憶サイズを軽量化した取得画像、取得映像に基づいて作成された静止画像、サムネイル、投影時間区間等を関連付けてテキスト抽出部1080へ送信する。
テキスト抽出部1080は、例えば、OCR装置等で構成される。テキスト抽出部1080は、画像変換部1070及び制御部1090に接続している。
テキスト抽出部1080は、画像変換部1070から取得した取得画像及び取得映像に基づいて作成された静止画像に対し文字認識処理を実施して抽出された文字情報から構成される文字情報を抽出する。
次に、テキスト抽出部1080は、取得画像の変化があった旨の通知を制御部1090へ通知した後に、抽出した文字情報、サムネイル、及び投影時間区間等を関連付けて制御部1090へ送信する。
制御部1090は、発言検出部1021、発言者識別部1022、発言交代検出部1023、音声認識部1024、テキスト抽出部1080、データ格納部1090、及び結果表示制御部1120に接続している。
制御部1090は、取得音声と音声取得時刻とを関連付け、取得画像と画像取得時刻とを関連付け、かつ取得音声と取得画像とを音声取得時刻と画像取得時刻とに基づいて時刻で関連付けて記憶するようプログラムを制御する。
また、制御部1090は、取得映像と映像取得装置130が取得映像を取得した時刻である映像取得時刻とを関連付け、かつ取得音声と取得映像とを音声取得時刻と映像取得時刻とに基づいて時刻で関連付けて記憶するようプログラム制御する。
更に、制御部1090は、画像取得時間区間と区間取得画像と区間取得画像分類基準とを関連付けて記憶するようプログラムを制御する。
尚、画像取得時間区間とは、画像取得時刻で区切られた時間区間であり、投影時間算出部1060で取得した投影開始時刻と投影終了時刻とで表される投影時間区間を言う。具体的には、画像取得部1040で取得された画像が会議において投影された時間区間を言う。
区間取得画像とは、取得画像の内で画像取得時間区間において会議で投影された画像を言う。
区間取得画像分類基準とは、区間取得画像を分類する基準を言う。
具体的には、区間取得画像と類似した取得画像の会議における投影回数(以下単に、類似画像投影回数と言う)、取得画像が会議において説明を省略された画像であるか否かを表す情報(以下単に省略フラグ情報と言う)、投影時間区間、画像取得時間区間の長さである画像取得時間区間長、区間取得画像に対してテキスト抽出部1080が文字認識処理を行なうことで抽出した文字情報、画像取得時間区間において発言者が交代した回数、検索部1110で検索された区間取得画像が第1表示装置170又は第2表示装置220(以下単に、第1表示装置170等と言う)に表示された回数である表示回数、検索部1110で検索された区間取得画像が第1表示装置170等に表示された時間長である表示時間長、区間取得画像を検索部1110が検索するためにソートキーを用いた回数、取得画像に付されたアノテーション情報、アノテーション情報を構成するテキスト量、取得画像の記憶されたディレクトリパス、及び区間取得画像に基づいて画像変換部1070で作成されたサムネイル等を言う。
一般に会議において、説明者は、説明者が重要でないと考える画像には説明を行なわないと言う特徴的な行動を行う。よってこの構成によれば、制御手段は説明を省略された画像であるか否かを表す情報と取得画像とを関連付けて記憶するよう記憶部を制御するため、説明がなされないと言う特徴を有する画像を知ることができる。
また一般に、区間取得画像を閲覧する者が重要であると考える画像ほど多く検索され、検索結果として表示されると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の過去における表示回数を知ることができるだけでなく、表示回数が多い又は少ないと言った特徴を有する画像を知ることができる。
一般に説明者が重要だと考える画像ほど、長時間投影されると言う特徴を有する。よってこの構成によれば、記憶部は、画像取得時間区間は投影時間区間であり、かつ区間取得画像と投影時間区間長とを関連付けて記憶するので、長時間投影されていた区間取得画像を知ることができるだけでなく、投影時間区間長が長いという特長を有する区間取得画像を知ることができる。
一般に、区間取得画像の閲覧者が重要だと考える画像ほど多く検索され、かつ長時間に渡り表示されると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の過去における表示時間長を知ることができるだけでなく、表示時間長が長いと言う特徴を有する区間取得画像を知ることができる。
この構成によれば、所望の画像を特徴付ける並び順で画像を並べて、並び順を手がかりに画像を効率的に探し出すことができる。
一般に所望の画像を特定するためには、所望の画像を特徴付ける並び順で画像を並べて、並び順を手がかりに画像を探し出す。よってこの構成によれば、ソートキーの使用回数と区間取得画像とを関連付けて記憶するよう記憶部を制御手段が制御するため、区間取得画像を検索するために用いられた回数が多い又は少ないと言う区間取得画像を特徴付けるソートキーを知ることができる。これにより所望の画像を容易に検索できる。
この構成によれば、制御手段は、アノテーション情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するので、一例として、講演者、又はシステム管理者が、重要だと考える区間取得画像を視聴する者に対して追加の説明等をアノテーション情報として区間取得画像に関連付けることができる。また、区間取得画像を視聴する者が、重要だと考える区間取得画像を視聴した感想や質問等をアノテーション情報として区間取得画像に関連付けることができる。
よって、アノテーション情報の付されたと言う特徴を有する区間取得画像を知ることができる。
一般に、会議の参加者が重要だと考える事項ほど活発に議論がなされ、検索結果として発言者が交代した回数が増えると言う特徴を有する。よってこの構成によれば、所望の区間取得画像の画像取得時間区間における発言者が交代した回数を知ることができるだけでなく、画像取得時間区間における発言者の交代回数が多い又は少ないと言った特徴を有する画像を知ることができる。
尚、省略フラグ情報は、制御部1090によって生成され、画像取得時間区間長が所定の閾値以下、又はより小さい場合に真、そうでない場合に偽の値を有する。
この構成によれば、閾値を変化させることで、一例として、説明者の説明速度、又は会議システムの操作者の操作速度に対応して説明対象とした画像とそうでない画像とを分類できる。
また、省略フラグ情報は、制御部1090によって生成され、取得音声分類基準に含まれる文字情報が「割愛」、又は「省略」と言う語を含む場合に真、そうでない場合に偽の値を有する構成を採用できる。
通常、会議において投影した画像の説明を省略する場合には、説明者は投影した画像の説明を「割愛」する、又は「省略」する旨を、その語を用いて会議の参加者に伝える。
よって、この構成によれば、説明者の発した特長的な言葉に基づいて説明対象とした画像とそうでない画像とを分類できる。
また、画像取得時間区間において発言者が交代した回数は、制御部1090によって生成され、区間取得画像の画像取得時間区間に含まれる音声取得時間区間に関連付けて記憶部に記憶した発言者識別情報に基づいて算出される。尚、音声取得時間区間及び区間取得音声分類基準については後述する。
この構成によれば、発言者識別情報に基づいて交代回数を算出するため、一例として、位置情報に基づいて交代回数を算出する場合と比べて、精度よく交代回数を算出できる。文字情報
更に、制御部1090は、映像取得時間区間と区間取得映像と区間取得映像分類基準とを関連付けて記憶するようプログラムを制御する。
尚、映像取得時間区間とは、映像取得時刻で区切られた時間区間であり、映像取得装置130で撮影された画像が会議において投影された時間区間を言う。つまり、投影時間算出部1060で取得した投影開始時刻と投影終了時刻とで表される投影時間区間を言う。
区間取得映像とは、映像取得時間区間において映像取得装置130で取得された取得映像を言う。区間取得映像分類基準とは、区間取得映像を分類する基準を言う。
具体的には、区間取得映像として撮影された画像と類似した画像の会議における投影回数、区間取得映像として撮影された画像が会議において説明を省略された画像であるか否かを表す情報、映像取得時間区間、映像取得時間区間の長さである映像取得時間区間長、区間取得映像に対してテキスト抽出部1080が文字認識処理を行なうことで抽出した文字情報、映像取得時間区間において発言者が交代した回数、取得映像に付されたアノテーション情報、アノテーション情報を構成するテキスト量、検索部1110で検索された区間取得映像が第1表示装置170等に表示された回数である表示回数、検索部1110で検索された区間取得映像が第1表示装置170等に表示された時間長である表示時間長、区間取得映像を検索部1110が検索するためにソートキーを用いた回数、取得映像の記憶されたディレクトリパス、及び区間取得映像に基づいて画像変換部1070で作成されたサムネイル等を言う。
尚、制御部1090は、ある区間取得画像とそれ以外の取得画像とが類似しているか否か、及びある区間取得映像とそれ以外の取得映像とが類似しているか否かに対する判断を全ての取得画像間、又は取得映像間で行なう。
具体的には、制御部1090は、テキスト抽出部1080においてそれぞれの取得画像又は取得映像から抽出した文字情報、取得画像又は取得映像を構成するピクセル毎の平均色の分布、若しくは取得画像又は取得映像に対してフーリエ変換を施すことで取得される周波数分布、をそれぞれ比較することで類似しているか否かを判断する。
この構成によれば、類似した画像であるか否かを、画像の有する文字情報を構成する単語、又は画素情報に基づいて判断するため、類似・非類似を定量的に判断できる。
また、区間取得映像として撮影された画像が会議において説明を省略された画像であるか否かを表す情報、及び映像取得時間区間において発言者が交代した回数の算出方法は、省略フラグ情報、及び画像取得時間区間において発言者が交代した回数の算出方法と同様であるため、説明を省略する。
更に、制御部1090は、音声取得時間区間と区間取得音声と区間取得音声分類基準とを関連付けて記憶するようプログラムを制御する。
尚、音声取得時間区間とは、音声取得時刻で区切られた時間区間であり、発言検出部1021で検出された発言区間又は発言者同一区間を言う。尚、発言者同一区間とは、音声取得装置111ないし11nで取得された取得音声の発言者が交代した時刻である発言者交代時刻と次の発言者交代時刻とで定まる時間区間を言い、発言区間と発言交代検出部1023で検出した交代情報とに基づいて定められる。
区間取得音声とは、音声取得時間区間において音声取得装置111ないし11nで取得された取得音声を言う。 区間取得音声分類基準とは、区間取得音声を分類する基準を言う。
具体的には、発言者識別部1022で取得された発言者識別情報、音声取得時間区間、音声取得時間区間の長さである音声取得時間区間長、音声取得装置111ないし11nで取得された取得音声の発言者の位置に関する情報である位置情報、区間取得音声に対して音声認識部1024が音声認識処理を行なうことで抽出した文字情報(テキスト情報)、発話量、音声的特長、区間取得音声と類似した区間取得音声を会議において取得した回数、取得音声に付されたアノテーション情報、アノテーション情報を構成するテキスト量、検索部1110で検索された区間取得音声が第1出音装置180又は第2出音装置230(以下単に、第1出音装置180等と言う)から出音された回数である出音回数、検索部1110で検索された区間取得音声が第1出音装置180等から音声された時間長である音声時間長、区間取得音声を検索部1110が検索するためにソートキーを用いた回数、及び取得音声の記憶されたディレクトリパス等を言う。
この構成によれば、区間取得音声から文字認識処理により取得した文字情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するため、区間取得音声である発言を発言内容である文字情報に基づいて分類できる。
一例として、会議の参加者が重要だと考える事項ほど活発に発言がなされるために発話量が多いと言う特徴を有する。よってこの構成によれば、区間取得音声と発話量とを関連付けて記憶部が記憶するため、発言量が多いと言う特徴を有する区間取得音声を知ることができる。
また、区間取得音声は取得音声であり、取得音声は時刻に基づいて取得画像である区間取得画像と関連付けられているので、投影時間区間における発話量が多いと言う特徴を有する区間取得画像を知ることができる。
一般に、発言者が重要だと考える事項の説明時には、音声的特長を変化させることが多い。よってこの構成によれば、音声的特長と区間取得音声とを関連付けて記憶部が記憶するため、音声的な特長を有する区間取得音声を知ることができる。
一般に会議において説明者が重要だと考える説明は、多少言葉を変えて繰返し説明されると言う特徴を有する。よってこの構成によれば、類似した区間取得音声を、会議において取得した回数が多いと言う特徴を有する音声のみならず、そのような音声の取得時において会議で投影された画像をも知ることができる。
この構成によれば、制御手段は、アノテーション情報と区間取得音声とを関連付けて記憶するよう記憶部を制御するので、一例として、講演者、又はシステム管理者が、重要だと考える区間取得音声を視聴する者に対して追加の説明等をアノテーション情報として区間取得音声に関連付けることができる。また、区間取得音声を視聴する者が、重要だと考える区間取得音声を視聴した感想や質問等をアノテーション情報として区間取得音声に関連付けることができる。
よって、アノテーション情報の付されたと言う特徴を有する区間取得音声を知ることができる。
この構成によれば、アノテーション情報は文字情報であるので、一例として、文字情報量の多い又は少ないアノテーション情報が付されたと言う特徴を有する区間取得音声を知ることができる。
一般に会議等における発言者の位置は、一例として、講演者と聴衆等の会議における役割によって位置関係が異なる。よってこの構成によれば、制御手段は、位置情報と区間取得音声とを関連付けて記憶するよう記憶部を制御するため、特定の役割を有する者が通常位置する場所から発せられた音声であると言う特徴を有する区間取得音声を知ることができる。
一般に、視聴者が重要だと考える音声ほど多く検索され、検索結果として出音される。よってこの構成によれば、所望の区間取得音声の過去における出音回数を知ることができるだけでなく、出音回数が多い又は少ないと言った特徴を有する音声を知ることができる。
一般に、視聴者が重要だと考える音声ほど多く検索され、検索結果として繰返し出音されると言う特徴を有する。よってこの構成によれば、所望の区間取得音声の過去における出音時間長を知ることができるだけでなく、出音時間長が長い又は短いと言った特徴を有する音声を知ることができる。
一般に所望の音声を特定するためには、所望の音声を特徴付ける並び順で音声を並べて、並び順を手がかりに音声を探し出す。よってこの構成によれば、ソートキーの使用回数と区間取得音声とを関連付けて記憶するよう制御手段が記憶部を制御するため、区間取得音声を検索するために用いられた回数が多い又は少ないと言う区間取得画像を特徴付けるソートキーを知ることができる。これにより所望の音声を容易に検索できる。
尚、制御装置は、複数の音声取得装置111ないし11nで取得された取得音声を音源推定技術を用いて解析することで位置情報を取得する。
尚、画像取得時間区間において発言者が交代した回数は、区間取得画像分類基準が分類対象とする区間取得画像の画像取得時間区間に含まれる音声取得時間区間に関連付けて記憶部に記憶した位置情報に基づいて算出される構成を採用できる。
この構成によれば、位置情報に基づいて交代回数を算出するため、一例として、発言者識別情報に基づいて交代回数を算出する場合と比べて、参加者の増加、又は減少に容易に対応できる。
また、制御部1090は、発話量を、音声認識部1024が抽出した区間取得音声の発言内容を表す文字情報を構成する文字数、又は区間取得音声の音声取得区間の長さにより算出する。
一般に、発言者が重要だと考えるな事項ほど説明が長いと言う特徴を有する。よってこの構成によれば、発言である区間取得音声と発言内容を表す文字情報、又は音声取得時間区間長とを関連付けて記憶部が記憶するため、発言内容が少ない又は多い発言、若しくは長時間に及ぶ又は短時間で終了した発言と言う特徴を有する区間取得音声を知ることができる。
また、制御部1090は、区間取得音声と類似した区間取得音声を会議において取得した回数を、音声認識部1024が抽出した文字情報を構成する単語が類似した音声を取得した回数により算出する。
この構成によれば、類似した音声であるか否かを、音声認識処理を行なうことで抽出した文字情報を構成する単語に基づいて判断するため、類似・非類似を定量的に判断できる。
また、音声的特長とは、特徴取得部1025が取得したメルケプストラル平均(Mel-Cepstral mean)、又は基底周波数等の区間取得音声の高低、大きさ、若しくは音声認識部1024が抽出した区間取得音声の発言内容を表す文字情報量を発言区間長で除して算出する単位時間当たりの発言内容を表す文字情報量を含む。
一般に、発言者が重要だと考える事項の説明時における音声は、通常の説明時に比べて、声を低く、声を大きく、又はゆっくりと説明すると言う特徴を有する。よってこの構成によれば、音声の高さ、大きさ、又は単位時間当たりの発言内容を表す文字情報量と区間取得音声とを関連付けて記憶部が記憶するため、説明時の音声の高さ、大きさ、又は単位時間当たりの文字情報量が変化したと言う特徴を有する区間取得音声を知ることができる。
更に、制御部1090は、結果表示制御部1120から、第1出音装置180等から出音された区間取得音声を識別する情報、第1表示装置170等に表示された区間取得画像を識別する情報、又は区間取得映像を識別する情報と、それら区間取得音声、区間取得画像、又は区間取得映像を検索するために検索部1110が用いたソートキーの種類と、を関連付けて取得する。
次に、制御部1090は、取得した区間取得音声、区間取得音声、又は区間取得音声を識別する情報と、ソートキーの種類と、で特定される記憶されたソートキーの使用回数をインクリメントするようにプログラムを制御する。
また、制御部1090は、取得した区間取得音声、区間取得画像、又は区間取得映像を識別する情報と関連付けられた過去の表示又は出音回数の総和をインクリメントするようプログラムを制御する。
また更に、制御部1090は、結果表示制御部1120から、出音された区間取得音声を識別する情報、表示された区間取得画像を識別する情報、又は区間取得映像を識別する情報と、それら区間取得音声、区間取得画像、又は区間取得映像を表示又は出音した時間長と、を関連付けて取得する。
次に、制御部1090は、取得した区間取得音声、区間取得画像、又は区間取得映像を識別する情報と関連付けられた過去の表示又は出音した時間長の総和に対して、取得した表示又は出音した時間長を加算するようにプログラムを制御する。
更に、制御部1090は、発言者識別情報と発言者説明情報とを関連付けて記憶するよう制御する。発言者説明情報とは、発言者を説明する情報であり、具体的には発言者の氏名、所属、役職、電子メールアカウント、住所、電話番号、FAX番号、URL、又は参加者撮影画像等を言う。
尚、参加者撮影画像とは、会議の参加者を撮影した画像を言い、予め会議の前、会議中、又は会議後に撮影された画像を用いる構成を採用できる。更に例えば、人事情報を扱う人事システム等の本会議システム以外のシステムが記憶する参加者撮影画像を用いる構成を採用できる。
具体的には、制御部1090は、各情報を関連付けて記憶する又は更新する命令を記述したSQL文を作成し、作成したSQL文を実行するようにデータ格納部1100に格納された情報を管理するプログラムを実行制御する。
データ格納部1100は、例えば、ハードディスク等の外部記憶装置で構成される。データ格納部1100は、映像取得装置130、発言メタ情報生成部1020、制御部1090、及び検索部1110に接続している。
データ格納部1100は、映像取得装置130により取得された取得映像を所定のディレクトリに所定のファイル名で記憶される。
データ格納部1100は、発言メタ情報生成部1020により取得音声であるデジタル信号をデータ格納部1100の所定のディレクトリに所定のファイル名で記憶される。
データ格納部1100は、制御部1090により、取得音声と音声取得時刻とを関連付けられ、取得画像と画像取得時刻とを関連付けられ、かつ取得音声と取得画像とを音声取得時刻と画像取得時刻とに基づいて時刻で関連付けられて記憶する。また、取得音声と音声取得時刻とを関連付けられ、取得映像と映像取得時刻とを関連付けられ、かつ取得音声と取得映像とを音声取得時刻と映像取得時刻とに基づいて時刻で関連付けられて記憶する。
更に、データ格納部1100は、制御部1090により、画像取得時間区間と区間取得画像と区間取得画像分類基準とを関連付けられて記憶し、映像取得時間区間と区間取得映像と区間取得映像分類基準とを関連付けられて記憶し、かつ音声取得時間区間と区間取得音声と区間取得音声分類基準とを関連付けられて記憶する。
また更に、データ格納部1100は、発言者識別情報と発言者説明情報とを関連付けられて記憶する。
データ格納部1100に記憶された情報は、検索部1110が検索する際、若しくは結果表示制御部1120が検索結果を第1表示装置170等に表示させる又は第1出音装置180等に出音させる際に参照される。
ここで、図4を参照してデータ格納部1100の記憶する画像及び映像に関する情報について説明する。図4は、データ格納部1100の記憶する映像及び画像に関する情報の一例を説明するための図である。
データ格納部1100は、取得画像テーブルTP、取得映像テーブルTM、及び分割取得映像テーブルTSMを有している。
取得画像テーブルTPは、取得画像識別情報カラム、投影開始日付カラム、投影開始時刻カラム、投影終了時刻カラム、格納アドレスカラム、及び類似画像数カラムを有する。
取得画像識別カラムは取得画像を識別する情報である取得画像識別情報を、投影開始日カラムは同一レコードの取得画像識別カラムに記憶された取得画像識別情報で識別される画像の投影開始日を、投影開始時刻カラムは投影開始時刻を、投影終了時刻カラムは投影終了時刻を、及び格納アドレスカラムは取得画像を記憶したディレクトリを表す情報を、類似画像数カラムは取得画像識別情報で識別される区間取得画像と類似した取得画像の会議における投影回数を記憶する。
尚、取得画像テーブルTPは、取得画像識別情報の重複するレコードを有する事はない。
つまり、取得画像テーブルTPは、取得画像と投影時間区間で表される画像取得時刻とを制御部1090により関連付けられて記憶している。
また、取得画像テーブルTPは、画像取得時間区間である投影時間区間と、区間取得画像を識別する取得画像識別情報と、区間取得画像分類基準である類似画像投影回数、を制御部1090により関連付けられて記憶している。
一般に会議において説明者が重要だと考える画像及び説明は、他の画像と比較して投影及び説明されると言う特徴を有する。よってこの構成によれば、会議において取得された音声及び画像を取得した時刻のみならず、類似した画像の投影回数に基づいても分類して記憶できるため、類似した画像の投影回数が高いと言う特徴を有する画像のみならず、そのような画像の投影時において取得された説明音声をも知ることができる。
取得映像テーブルTMは、取得映像識別情報カラム、撮影開始日付カラム、撮影開始時刻カラム、撮影終了時刻カラム、及び格納アドレスカラムを有する。
取得映像識別カラムは取得映像を識別する情報である取得映像識別情報を、撮影開始日カラムは同一レコードの取得映像識別カラムに記憶された取得映像識別情報で識別される映像の撮影開始日を、撮影開始時刻カラムは撮影開始時刻を、撮影終了時刻カラムは撮影終了時刻を、及び格納アドレスカラムは取得映像を記憶したディレクトリを表す情報を記憶する。
尚、取得映像テーブルTMは、取得映像識別情報の重複するレコードを有する事はない。
つまり、取得映像テーブルTMは、取得映像と映像取得時刻とを制御部1090により関連付けられて記憶している。
分割取得映像テーブルTSMは、取得映像識別情報カラム、分割識別情報カラム、投影開始日付カラム、投影開始時刻カラム、投影終了時刻カラム、及び類似映像数カラムを有する。
取得映像識別カラムは取得映像テーブルTMの取得映像識別カラムに記憶された情報と同じ情報を、分割識別カラムは同一レコードの取得映像識別カラムに記憶された取得映像識別情報で識別される取得映像を投影時間区間に基づいて分割した部分映像を識別する情報である分割識別情報を、類似映像数カラムは取得映像識別カラム及び分割識別情報カラムに記憶された識別情報で識別される区間取得映像として撮影された画像と類似した画像の会議における投影回数を記憶する。
尚、投影開始日付カラム、投影開始時刻カラム、及び投影終了時刻カラムについては、取得画像テーブルTPの有する投影開始日付カラム、投影開始時刻カラム、及び投影終了時刻カラムと同様の情報を記憶する。
つまり、分割取得映像テーブルTSMは、映像取得時間区間である投影時間区間と、区間取得映像を識別する取得映像識別情報及び分割識別情報の組合せ情報である区間取得映像識別情報と、区間取得画像分類基準である類似した取得画像の会議における投影回数と、を制御部1090により関連付けられて記憶している。
この構成によれば、制御手段は投影時間区間と取得画像とを関連付けて記憶するよう記憶部を制御するため、特定の時刻に会議において投影されていた画像を知ることができるだけでなく、特定の画像が投影されていた時間区間をも知ることができる。
またこの構成によれば、記憶部は、区間取得画像と画像の投影を開始した時刻とを関連付けて記憶するので、それぞれの画像を投影した順番を知ることができる。
更に、一例として、説明者が重要だと考える画像は会議の最後に結論、又は総論等として表示されると言う特徴を有する、画像を投影した順番が遅い又は早いと言った特徴を有する画像を知ることができる。
また図5を参照してデータ格納部1100の記憶する発言に関する情報について引き続き説明する。図5は、データ格納部1100の記憶する発言に関する情報の一例を説明するための図である。
データ格納部1100は、更に発言イベントテーブルTS、及び交代イベントビューVCを有している。
発言イベントテーブルTSは、発言識別情報カラム、発言開始日カラム、発言開始時刻カラム、発言終了時刻カラム、発言者識別情報カラム、交代情報カラム、及び格納アドレスカラムを有する。
発言識別情報カラムは発言を識別する情報である発言識別情報を、発言開始日時カラムは発言開始日を、発言開始時刻カラムは同一レコードの発言識別情報カラムに記憶された発言識別情報で識別される発言の発言開始時刻を、発言終了時刻カラムは発言終了時刻を、発言者識別情報カラムは発言者識別情報を、交代情報カラムは交代情報を、及び格納アドレスカラムは取得音声を格納したディレクトリを表す情報を記憶する。尚、交代情報は、発言者の交代の有無を表すコード(例えば「Y」又は「N」)をを記憶する。
つまり、発言イベントテーブルTSは、会議において音声取得装置111ないし11nによって取得した取得音声と、音声取得時刻で表される発言区間及び発言者識別情報等と、を制御部1090により関連付けられて記憶している。
また、発言イベントテーブルTSは、音声取得時間区間である発言区間と、区間取得音声と、区間取得音声分類基準である発言者識別情報と、を制御部1090により関連付けられて記憶している。
尚、発言イベントテーブルTSは、発言識別情報の重複するレコード、並びに、発言開始日、発言開始時刻、発言終了時刻、及び発言者識別情報の全てが重複するレコードを有する事はない。
交代イベントビューVCは、発言イベントテーブルTSに記憶された情報を加工して得られる情報を記憶する。
交代イベントビューVCは、発言者同一区間識別情報カラム、発言者同一区間開始日カラム、発言者同一区開始時刻カラム、発言者同一区間終了時刻カラム、遷移元発言者識別情報カラム、遷移先発言者識別情報カラム、及び発言者同一区間長カラムを有する。
交代イベントビューVCは、発言者同一区間に関する情報を記憶する。
発言者同一区間識別カラムは発言者同一区間を識別する情報である発言者同一区間識別情報を、発言者同一区間開始日カラムは同一レコードの発言者同一区間識別カラムに記憶した発言者同一区間識別情報で識別される発言者同一区間の開始日を、発言者同一区間開始時刻カラムは発言者同一区間の開始時刻を、発言者同一区間終了時刻カラムは発言者同一区間の終了時刻を、遷移元発言者識別情報カラムは当該発言者同一区間の発言者を識別する情報を、遷移先発言者識別情報カラムは当該発言者同一区間の直後の発言者同一区間の発言者を識別する情報を、及び発言者同一区間区間長カラムは発言者同一区間の時間長を記憶する。
つまり、交代イベントビューVCは音声取得時間区間である発言者同一区間と、区間取得音声と、区間取得音声分類基準である発言者識別情報と、を制御部1090により関連付けられて記憶している。
この構成によれば、制御手段は発言者同一区間と区間取得音声と発言者識別情報とを関連付けて記憶するよう記憶部を制御するため、会議における特定の人物が交代することなくした一連の発言又は発言者同一区間を知ることができるだけでなく、そのような発言又は発言者同一区間における発言者を知ることができる。
また図6を参照してデータ格納部1100が関連付けて記憶する発言、画像、及び映像に関する情報の一例について引き続き説明する。図6は、データ格納部1100が関連付けて記憶する発言、画像、及び映像に関する情報の一例を説明するための図である。
データ格納部1100は、更に音声画像映像ビューVAを有している。
発言識別情報カラムは発言イベントテーブルTSの発言識別情報カラムと、取得音声識別情報カラムは取得画像テーブルTPの取得音声識別情報カラムと、取得映像識別情報カラムは分割取得映像テーブルTSMの取得映像識別情報カラムと、及び分割識別情報カラムは分割取得映像テーブルTSMの分割識別情報カラムと、それぞれ同様の情報を記憶する。
つまり音声画像映像ビューVAは、発言識別情報カラムに記憶された識別情報で識別される発言のなされた時間区間において取得された取得音声、取得画像及び取得映像を、音声取得時刻、画像取得時刻、及び映像取得時刻に基づいて制御部1090により時刻で関連付けられて記憶している。
ここで、図2に戻り会議システムの構成の一例について引き続き説明する。
検索部1110は、データ格納部1110、結果表示制御部1120、通信部1130、及び第1入力装置160に接続している。
検索部1110は、第1入力装置160等で入力された検索キーワードに従って、データ格納部1100に記憶された情報を検索する。
尚、第1入力装置160等とは、第1入力装置160と図1に示すネットワーク300を介して接続された遠隔端末200に接続された第2入力装置210とを言う。
具体的には、検索部1110は、第1入力装置160等で入力された検索キーワードに基づいて生成された検索条件を満たす区間取得画像分類基準、区間取得映像分類基準、又は区間取得音声分類基準に従って、制御部1090によりデータ格納部1100に記憶された区間取得音声、区間取得画像又は区間取得映像を検索する。
この構成によれば、所望の区間取得画像を、検索の手がかりとなる検索キーワードに基づいて検索手段により検索し、検索された画像を表示手段に表示して確認できるため、効率よく所望の画像を検索し、検索した画像を確認できる。
また、検索部1110は、検索した区間取得音声、区間取得画像又は区間取得映像について第1入力装置160等が入力したソートキーに基づいて並び順を定めてソートする。尚、ソートキーは、ソートキーを用いた回数以外の区間取得画像分類基準である。
具体的には、検索部1110は、例えば、第1入力装置160から取得した検索キーワード及びソートキーに基づいて検索条件を記述したSQL文を作成してSQL文による検索を実行する。その後、検索部1110は、区間取得音声を識別する情報である区間取得音声識別情報、区間取得画像を識別する情報である区間取得画像識別情報、又は区間取得映像を識別する情報である区間取得映像識別情報をソートして、検索結果として結果表示制御部1120へ送信する。また、検索部1110は、検索結果と関連付けて検索に使用したソートキーを結果表示制御部1120へ送信する。
尚、区間取得音声識別情報は発言識別情報又は発言区間識別情報で、区間取得画像識別情報は取得画像識別情報で、及び区間取得映像識別情報は取得映像識別情報及び分割識別情報の組合せ情報で、表される。
結果表示制御部1120は、制御部1090、データ格納部1100、検索部1110、通信部1130、第1入力装置160、第1表示装置170、及び第1出音装置に接続している。
結果表示制御部1120は、検索部1110から検索結果である区間取得音声識別情報、区間取得画像識別情報又は区間取得映像識別情報を並べたリスト、並びに検索結果のソートに用いたソートキーを取得する。
結果表示制御部1120は、取得した検索結果で特定される区間取得音声、と区間取得画像又は区間取得映像とを、それぞれの取得時刻に基づいて同期して表示及び出音するよう第1表示装置170等及び第1出音装置180等を制御する。
また、結果表示制御部1120は、表示及び出音するよう制御する際に、表示及び出音するよう制御した区間取得音声、区間取得画像又は区間取得映像を識別する情報と、区間取得音声、区間取得画像又は区間取得映像の検索の際に用いたソートキーと、を関連付けて制御手段に送信する。
更に、結果表示制御部1120は、表示及び出音を終了するよう制御する際に、表示及び出音するよう制御した区間取得音声、区間取得画像又は区間取得映像を識別する情報と、出音又は表示するよう制御した時間長と、を関連付けて制御手段に送信する。
通信部1130は、例えば、ネットワークカード等で構成される。通信部1130は、検索部1110、結果表示制御部1120、及びネットワーク300に接続している。
通信部1130は、ネットワークを介して遠隔端末200に接続された第2入力装置210から送信された各種命令及び検索条件等を受信する。また、通信部1130は、遠隔端末200に接続された第2表示装置220に表示させる情報及び第2出音装置230に出音させる情報等を送信する。
次に、図1に戻り本発明の会議システム10の一構成について引き続き説明をする。
音声取得装置111ないし11nは、例えば、マイクロフォン等で構成され、情報処理装置100に接続している。音声取得装置111ないし11nは、会議における音声を取得して音声信号を情報処理装置100に送信する。
また、音声取得装置111ないし11nは、それぞれ音声取得装置識別情報を有し、所定の閾値以上の音量レベルの信号を出力する際には、音声信号のみならず音声取得装置識別情報をも送信する。
画像生成装置120は、例えば、ノートパソコン等で構成され、分配器150に取外し可能に接続している。画像生成装置120は、会議において説明対象とする画像の画像信号を生成する。その後、画像生成装置120は、生成した画像信号を分配器150に送信する。
映像取得装置130は、例えば、ウェブカメラ、又はデジタルビデオカメラ等で構成され、情報処理装置100に接続している。
映像取得装置130は、画像投影装置140により、例えば、会議等においてスクリーン等に投影された画像を撮影可能に設置されている。映像取得装置130は、会議において投影された画像を撮影した映像を取得し、取得した取得映像に撮影時刻(タイムスタンプ)を付けてデータ格納部1100の所定のディレクトリに記憶する。また、映像取得装置130は、撮影した映像を図2で説明した情報処理装置100の画像変換部1070へリアルタイム送信する。
画像投影装置140は、例えば、プロジェクタ等で構成され、分配器150に接続している。画像投影装置140は分配器150から入力された画像信号をスクリーンなどへ投影する。
分配器150は、例えば VGAスプリッタ等で構成され、画像生成装置120、画像投影装置140、及び情報処理装置100の画像取得部1040に接続している。分配器150は、画像生成装置120から受信した画像信号を画像投影装置140及び図2に示した情報処理装置100の画像取得部1040へ分配して送信する。
第1入力装置160は、例えば、キーボード、マウス、又はタッチパネル等で構成され、情報処理装置100に接続している。第1入力装置160は、ユーザに操作されて検索に用いられるキーワードである検索キーワード、検索結果の並び順を指定するソートキー等で表される検索条件、各種の命令、若しくは区間取得画像、区間取得映像、又は区間取得音声を説明する情報であるアノテーション情報を入力する。
第1表示装置170は、例えば、液晶ディスプレイ、プラズマディスプレイ、又はCRTディスプレイ等で構成され、情報処理装置100に接続している。第1表示装置170は、情報処理装置100により制御されて区間取得画像及び区間取得映像等の情報を表示する。特に、検索部1110で検索された区間取得画像及び区間取得映像の少なくとも1つ以上を表示する。
また、第1表示装置170は、検索部1110で検索された区間取得画像又は区間取得映像のサムネイルと、制御部1090により区間取得画像又は区間取得映像に関連付けられた区間取得画像分類基準又は区間取得映像分類基準と、を関連付けて表示する。
第1出音装置180は、例えば、スピーカ等で構成され、情報処理装置100に接続している。第1出音装置180は、情報処理装置100により制御されて、検索部1110で検索された区間取得音声の少なくとも1つ以上を出音する。
また特に、第1出音装置180は、第1表示装置170等が表示する区間取得画像又は区間取得映像に対して、制御部1090が時刻に基づいて関連付けて記憶されるよう制御した取得音声を出音する
この構成によれば、所望の区間取得音声を、検索の手がかりとなる検索キーワードに基づいて検索手段により検索し、検索された音声を出音手段から出音して確認できるため、効率よく所望の音声を検索し、検索した音声を確認できる。
ネットワーク300は、LAN、WAN、又はインタネット等で構成され、情報処理装置100と遠隔端末200とに接続している。
遠隔端末200は、例えば、パーソナルコンピュータ等で構成され、入力手段である第2入力装置210、表示手段である第2表示装置220、出音手段である第2出音装置230に接続している。
遠隔端末200は、第2入力手段から受領した検索条件及び各種命令等をネットワーク300を介して情報処理装置100へ送信する。また、遠隔端末200は、ネットワーク300を介して情報処理装置100の送信する制御情報を受信し、受信した制御情報に従って、第2表示装置220の表示、及び第2出音装置230の出音を制御する。
第2入力装置210、第2表示装置220、及び第2出音装置230は、遠隔端末に接続している。
第2入力装置210、第2表示装置220、及び第2出音装置230の構成及び機能については、第1入力装置160、第1表示装置170、及び第1出音装置180と同様であるため、説明を省略する。
ここで、図7を参照して、ユーザが第1入力装置160等により区間取得音声、区間取得画像又は区間取得映像を検索するためのキーワードを入力する際に第1表示装置170等が表示する画面であるキーワード検索画面について説明する。図7は、第1表示装置170等が表示するキーワード検索画面の一例である。
キーワード検索画面FSWは、区間取得音声、区間取得画像又は区間取得映像を検索するためのキーワードを入力する際に第1表示装置170等が表示する表示画面である。
キーワード検索画面FSWは、キーワード入力テキストボックスTBW1ないし5、発言者名入力テキストボックスTBP1ないし5、結合条件設定ラジオボタン、検索ボタンBT、及びソートキー検索画面表示ボタンBTS等で構成されている。尚、キーワード入力テキストボックスTBW1ないし5及び発言者名入力テキストボックスTBP1ないし5について以下単に、テキストボックスと言う。
キーワード入力テキストボックスTBW1ないし5は、区間取得音声、区間取得画像又は区間取得映像を、区間取得音声分類基準、区間取得画像分類基準、又は取得映像分類基準である文字情報に従って検索するために用いられる検索キーワードであって、ユーザが第1入力装置160等を操作して入力したキーワードを表示する。
発言者名入力テキストボックスTBP1ないし5は、区間取得音声、区間取得画像又は区間取得映像を、区間取得音声分類基準である発言者識別情報に関連付けられた発言者名に従って検索するために用いられる検索キーワードであって、ユーザが第1入力装置160等を操作して入力したキーワードを表示する。
結合条件設定ラジオボタンは、ユーザが第1入力装置160等を操作して入力した複数のキーワードにより表される検索条件の結合条件を表示する。尚、結合条件設定ラジオボタンのグループは、結合条件はAND結合とOR結合とが択一的に選択可能であることを示している。
検索ボタンBTは、テキストボックスに表示されたキーワードを検索条件として確定し、確定した検索条件に従った検索の実行を検索部1110に命令する命令を、ユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。
ソートキー検索画面表示ボタンBTSは、ソートキー検索画面を表示する命令を、ユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。尚、ソートキー検索画面とは、区間取得音声、区間取得画像又は区間取得映像を検索する際に過去に指定したソートキーを検索条件として指定するために第1表示装置170等が表示する画面である。
次に、図8を参照して、第1表示装置170等がキーワード検索をした結果を表示する画面であるキーワード検索結果表示画面について説明する。図8は、第1表示装置170等が表示するキーワード検索結果表示画面の一例である。
キーワード検索結果表示画面FRWは、結果表示領域ARW1、キーワード検索画面表示ボタンBTW、及びソートキー検索画面表示ボタンBTS等で構成される。
結果表示領域ARW1は、検索部1110で検索をした検索結果を表示する領域である。
キーワード検索画面表示ボタンBTWは、キーワード検索画面FSWを表示する命令をユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。
ソートキー検索画面表示ボタンBTSは、ソートキー検索画面を表示する命令をユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。
結果表示領域ARW1は、検索部1110で検索された区間取得音声、区間取得画像又は区間取得映像に関連付けられた区間取得音声分類基準、区間取得画像分類基準又は区間取得映像分類基準を行毎に表示する。ただし、区間取得音声分類基準、区間取得画像分類基準又は区間取得映像分類基準の内で、区間取得音声、区間取得画像、又は区間取得映像を検索部1110が検索するためにソートキーを用いた回数についてのみ表示しない。
図8に示す結果表示領域ARW1は、検索部1110で検索された区間取得画像に関連付けられた区間取得画像分類基準を行毎に、第2行から順に表示している。
具体的には、区間取得画像分類基準であるサムネイル、類似画像投影回数、投影開始日、投影開始時刻、投影終了時刻、投影時間区間長、表示回数、表示時間長、及び文字情報を表示する。
この構成によれば、検索された区間取得画像が所望の画像であるかをサムネイル及び区間取得画像分類基準に基づいて容易に確認できる。
結果表示領域ARW1の第1行は、ソートボタンBTT11ないし18をそれぞれの区間取得音声分類基準に関連付けて表示している。具体的には、ソートボタンBTT11は、区間取得音声分類基準である類似画像投影回数と表示位置によって関連付けられて表示されている。
ソートボタンBTT11ないし18は、結果表示領域ARW1の表示する検索結果を、ソートボタンBTT11ないし18に関連付けられた区間取得音声分類基準の昇順又は降順でソートして表示する命令を、ユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。
また、ソートボタンBTT11ないし18は、結果表示領域ARW1に表示する情報を検索する際に検索条件として入力されたソートキーを表示する。尚、ソートキーは、ソートキーを用いた回数以外の区間取得画像分類基準である。
具体的に例を挙げると、ソートボタンBTT11に関連付けられた類似画像投影回数の昇順で表示すると言うソート条件に従って並び順を定められた検索結果を結果表示領域ARW1が表示している場合には、ソートボタンBTT11は昇順を表す記号である下向きの三角形を表示する。
ユーザが第1入力装置160等を操作して、例えば、図示は省略するがポインタ等をソートボタンBTT11ないしBTT18のいずれか1つに重ねてソートボタンBTT11をクリック等をすることで、第1入力装置160等は、クリックされたソートボタンBTTに関連付けられた区間取得画像分類基準の昇順又は降順を表すソートキーを入力し、入力した新たなソートキーを追加して再検索を命ずる命令を入力する。
次に、検索部1110は入力されたソートキー及び命令を受信して、入力されたソートキーを検索条件に追加して再検索を行い、検索結果及び検索に使用したソートキーを結果表示制御部1120へ送信する。
最後に結果表示制御部1120は再検索された検索結果を表示するよう第1表示装置170等を制御する。
また、ユーザが第1入力装置160等を操作して、例えば、ポインタ等を結果表示領域ARW1に表示されたサムネイルSN1ないし5のいずれか1つをクリック等して選択すると、第1入力装置160等は選択されたサムネイルSNに関連付けられた区間取得画像を表示する命令を入力する。
次に、結果表示制御部1120は第1入力装置160等で入力された命令を受領する。次に、選択されたサムネイルSNに関連付けられた区間取得画像を表示するように第1表示装置170等を制御する。また結果表示制御部1120は同時に、選択されたサムネイルSNに関連付けられた画像取得時間区間において取得された取得音声を第1出音装置180等から同期して出音するよう制御する。
またこの構成によれば、所望の区間取得画像を検索手段により検索し、検索された画像を表示手段に表示して確認できる。
この構成によれば、区間取得画像分類基準に基づいて所望の区間取得画像を検索手段で検索し、検索された画像を表示手段で表示するだけでなく検索された画像の画像取得時間区間において収集された音声を出音手段から出音できる。よって、表示された画像が所望の画像であるかを表示された画像だけでなく出音された音声に基づいて容易に確認できる。また、区間取得画像分類基準に基づいて区間取得画像のみならず、画像取得時間区間における取得音声をも検索して視聴できる。
また結果表示制御部1120は、選択されたサムネイルSNに関連付けられた区間取得画像を識別する情報と検索条件として使用されたソートキーとを関連付けて制御部1090へ送信する。次に、制御部1090は、受信したソートキーの種類毎に取得した区間取得画像を識別する情報に関連付けられたソートキーを用いた回数をインクリメントするようプログラムを制御する。
更に結果表示制御部1120は、表示又は出音するよう制御した区間取得画像又は区間取得音声を識別する情報と、出音又は表示するよう制御した時間長とを関連付けて制御部1090へ送信する。
次に、制御部1090は、受信した識別情報で識別される区間取得画像又は区間取得音声に関連付けられた区間取得画像分類基準又は区間取得音声基準である総出音時間長又は総表示時間長に、受信した出音時間長又は表示時間長を加算して更新するようプログラムを制御する。
また、制御部1090は、受信した識別情報で識別される区間取得画像又は区間取得音声に関連付けられた区間取得画像分類基準又は区間取得音声基準である総出音回数又は総表示回数をインクリメントするようプログラムを制御する。
上記実施形態では、図8に示したキーワード検索結果画面FRWの有する結果表示領域ARW1は、検索部1110で検索された区間取得画像に関連付けられた区間取得画像分類基準を行毎に表示する場合について説明したがこれに限定されるわけではなく、区間取得映像に関連付けられた区間取得映像分類基準、又は区間取得音声に関連付けられた区間取得画像分類音声を行毎に表示する構成を採用できる。
ここで、図9を参照して、ソートキー検索画面について説明する。図9は、第1表示装置170等が表示するソートキー検索画面の一例である。
ソートキー検索画面FKは、区間取得音声、区間取得画像又は区間取得映像を検索するための過去に指定したソートキーを検索条件として入力する際に表示される画面であり、また過去に指定したソートキーを検索条件として検索した結果を表示する際に表示される画面でもある。
ソートキー検索画面FKは、結果表示領域ARW2、及びキーワード検索画面表示ボタンBTW等で構成される。
結果表示領域ARW2は、図8に示したキーワード検索結果画面FRWの有する結果表示領域ARW1と同様に検索部1110で検索をした検索結果を表示する領域である。
キーワード検索画面表示ボタンBTWは、キーワード検索結果画面FRWの有するキーワード検索画面表示ボタンBTWと同一であるため説明を省略する。
結果表示領域ARW2は、キーワード検索結果画面FRWの結果表示領域ARW1と異なり、検索部1110で検索された区間取得音声、区間取得画像又は区間取得映像に関連付けられた区間取得音声分類基準、区間取得画像分類基準又は区間取得映像分類基準の内で、区間取得音声、区間取得画像、又は区間取得映像を検索手段が検索するためにソートキーを用いた回数について、サムネイルと関連付けて表示する。
図9に示す結果表示領域ARW2は、検索部1110で検索された区間取得画像のサムネイルと、区間取得画像分類基準をソートキーとして用いた回数とを関連付けて第2行から行毎に順に表示している。
具体的には、類似画像投影回数、投影開始日、投影開始時刻、投影終了時刻、投影時間区間長、表示回数、表示時間長、及び文字情報をソートキーとして区間取得画像を検索する際に用いた回数を、区間取得画像のサムネイルと同一行に表示することで関連付けて表示する。
結果表示領域ARW2の第1行は、ソートボタンBTT21ないし28をソートキーとして用いられた区間取得音声分類基準に関連付けて表示している。具体的には、ソートボタンBTT21はソートキーとして用いられた類似画像投影回数と表示位置によって関連付けられて表示されている。
ソートボタンBTT21ないし28は、結果表示領域ARW2の表示する検索結果を、ソートボタンBTT21ないし28に関連付けられたソートキーの使用回数の昇順又は降順でソートして表示する命令を、ユーザが第1入力装置160等を操作して入力できることを表すボタン表示である。
また、ソートボタンBTT21ないし28は、結果表示領域ARW2に表示する情報を検索する際に検索条件として入力されたソートキーを表示する。具体的に例を挙げると、ソートボタンBTT21に関連付けられた類似画像投影回数をソートキーとした回数の昇順で表示すると言うソート条件に従って並び順を定められた検索結果を結果表示領域ARW2が表示している場合には、ソートボタンBTT21は昇順を表す記号である下向きの三角形を表示する。
ユーザが第1入力装置160等を操作して、例えば、ポインタ等をソートボタンBTT21ないしBTT28のいずれか1つに重てソートボタンBTT21をクリック等をすることで、第1入力装置160等は、選択されたソートボタンBTTに関連付けられたソートキーの使用回数の昇順又は降順で検索結果を並び替えると言うソートキーを入力し、入力した新たなソートキーを追加して再検索を命ずる命令を入力する。
次に、検索部1110は入力されたソートキー及び命令を受信して、入力されたソートキーを検索条件に追加して再検索を行う。最後に結果表示制御部1120は再検索された検索結果を表示するよう第1表示装置170等を制御する。
また、ユーザが第1入力装置160等を操作して、例えば、ポインタ等を結果表示領域ARW2に表示されたサムネイルSN1ないし5のいずれか1つをクリック等して選択することで、第1入力装置160等は選択されたサムネイルSNに関連付けられた区間取得画像を表示する命令を入力する。
次に、結果表示制御部1120は入力装置160で入力された命令を受領する。次に、選択されたサムネイルSNに関連付けられた区間取得画像を表示するように第1表示装置170等を制御する。また結果表示制御部1120は同時に、選択されたサムネイルSNに関連付けられた画像取得時間区間において取得された取得音声を第1出音装置180等から同期して出音する。
次に図10を参照して、制御部1090がデータ格納部1100に情報を格納するために実行する制御処理(以下単に、情報格納制御処理と言う)について説明する。図10は、制御部1090の行なう情報格納制御処理の一例を説明するためのフローチャートである。
先ず、制御部1090は、取得画像の変更をテキスト抽出部1080により通知されるまで、発言の開始又は終了を発言メタ情報生成部1020から通知されるまで、第1入力装置160等から実行終了通知を通知されるまで、若しくは、所定の時刻を経過するまでスリープする(ステップST001)。
次に、制御部1090は、発言検出部1021から通知を受けたかを判断する(ステップST002)。発言検出部1021から通知を受けたと判断する場合にはステップST003の処理を、そうでない場合にはステップST007の処理を実行する。
ステップST002において、制御部1090は、発言検出部1021から通知を受けたと判断する場合には、発言の開始を検出した旨の通知を受けたかを判断する(ステップST003)。発言の開始を検出したと判断する場合にはステップST004の処理を、そうでない場合にはステップST006の処理を実行する。
ステップST003において、制御部1090は、発言の開始を検出した旨の通知を受けたと判断した場合には発言開始時処理を実行する(ステップST004)。
ステップST004、ステップST006、又はステップST008の処理を実行した後には、制御部1090は、テキスト抽出部1080による通知、発言検出部1021による通知、第1入力装置160等からの通知、又は所定時刻の経過の全てに対して処理を実行したかを判断する(ステップST005)。制御部1090は、全てを処理したと判断する場合にはステップST001に戻り上記処理を繰り返し、そうでない場合にはステップST002に戻り既に行なった処理以外の処理を実行する。
ステップST003において、制御部1090は、発言の開始を検出した旨の通知を受けていないと判断した場合には発言終了時処理を実行する(ステップ00ST6)。その後、ステップST005の処理を実行する。
ステップST002において、制御部1090は、発言検出部1021から通知を受けていないと判断する場合には、取得画像の変更をテキスト抽出部1080から通知されたかを判断する(ステップST007)。取得画像の変更を通知されたと判断する場合にはステップST008の処理を、そうでない場合に実行停止指示を受領したと判断してステップST009処理を実行する。
ステップST007において、制御部1090は、取得画像の変更を通知されたと判断する場合には画像格納時処理を実行する(ステップST008)。その後、ステップST005の処理を実行する。
ステップST007において、制御部1090は、取得画像の変更を通知されなかったと判断する場合には終了時処理を実行する(ステップST009)。その後処理を終了する。
次に図11を参照して、制御部1090が実行する発言開始時処理について説明する。図11は、制御部1090の行なう発言開始時処理の一例を説明するためのフローチャートである。
先ず、制御部1090は、発言検出部1021が検出した発言を識別する発言識別情報を生成する(ステップST101)。次に、制御部1090は、発言検出部1021から発言開始時刻及び音声取得装置識別情報等を取得する(ステップST102)。その後、制御部1090は、発言者識別部1022から発言者識別情報及び音声取得装置識別情報等を取得する(ステップST103)。次に、制御部1090は、発言交代検出部1023から発言交代の有無に関する情報及び音声取得装置識別情報等を取得する(ステップST104)。その後、制御部1090は、処理を終了する。
次に図12を参照して、制御部1090が実行する発言終了時処理について説明する。図12は、制御部1090の行なう発言終了時処理の一例を説明するためのフローチャートである。
先ず、制御部1090は、発言検出部1021から発言の終了時刻及び音声取得装置識別情報等を取得する(ステップST201)。次に、制御部1090は、発言を記録した取得音声が保存された所定のディレクトリパスを取得する(ステップST202)。その後、制御部1090は、音声認識部1024から取得音声より抽出された文字情報及び音声取得装置識別情報等を取得する(ステップST203)。
次に、制御部1090は、特徴取得部1025から取得音声のメルケプストラル平均(Mel-Cepstral mean)、又は基底周波数、及び取得音声の音量を取得する。また、ステップST203で取得した文字情報、及びステップST201で取得した発言終了時刻等に基づいて単位時間当たりの発言内容を表す文字情報量を算出する(ステップST204)。
次に、制御部1090は、発言開始時処理で取得した情報及び上記ステップステップST201ないし203で取得した情報をそれぞれ関連付けて発言イベントテーブルTS等に記憶する(ステップ205)。
この構成によれば、会議において取得された音声及び画像を、音声及び画像を取得した時刻のみならず発言者識別情報に基づいても分類して記憶できる。よって、特定の時刻における音声及び画像のみならず、特定の発言者に関連した音声及び画像を知ることができる。また逆に、特定の音声及び画像に関連した発言者を知ることもできる。
この構成によれば、制御手段は発言区間と区間取得音声と発言者識別情報とを関連付けて記憶するよう記憶部を制御するため、特定の人物が会議においてした発言又は発言区間を知ることができるだけでなく、発言又は発言区間における発言者を知ることができる。
またこの構成によれば、記憶部は、発言である区間取得音声と発言開始時刻とを関連付けて記憶するので、それぞれの発言の順番を知ることができる。
更に、一例として、発言者が重要だと考える事項は、会議の最後に結論、又は総論等として発言されると言う特徴を有する。よって、発言した順番が早い又は遅いと言う特徴を有する区間取得音声を知ることができる。
次に図13を参照して、制御部1090が実行する画像格納時処理について説明する。図13は、制御部1090の行なう画像格納時処理の一例を説明するためのフローチャートである。
先ず、制御部1090は、テキスト抽出部1080から取得画像及びキャプチャ画像、並びに画像取得時刻及び映像取得時刻を取得して、投影開始時刻を同時に取得する(ステップST301)。次に、制御部1090は、テキスト抽出部1080から取得した取得画像及び取得映像のキャプチャ画像を識別する識別情報を生成する(ステップST302)。
その後、制御部1090は、テキスト抽出部1080から取得画像及びキャプチャ画像のサムネイルを取得する(ステップST303)。次に、制御部1090は、テキスト抽出部1080からサムネイルを識別する情報であるサムネイル識別情報を生成する(ステップST304)。
その後、制御部1090は、テキスト抽出部1080から取得画像又は取得映像のキャプチャ画像により抽出した文字情報を取得する(ステップST305)。最後に、制御部1090は、上記ステップST301ないし305で取得した情報をそれぞれ関連付けてデータ格納部1100へ記憶するよう制御する(ステップST306)。
この構成によれば、取得画像から文字認識処理により取得した文字情報と区間取得画像とを関連付けて記憶するよう記憶部を制御するため、区間取得画像を画像の有する文字情報に基づいて分類できる。
次に図14を参照して、制御部1090が実行する終了時処理について説明する。図14は、制御部1090の行なう終了時処理の一例を説明するためのフローチャートである。
先ず、制御部1090は、全ての区分取得画像及び区分取得映像(以下単に、区分取得画像等と言う)についてステップST402の処理を行なったかを判断する。全ての区分取得画像等についてステップST402の処理を行なったと判断する場合にはステップST403の処理をそうでない場合にはステップST402の処理を実行する。
ステップST401において、制御部1090は、全ての区分取得画像等についてステップST402の処理を行なっていないと判断した場合には、ステップST402の処理の処理を行なっていない区分取得画像について、他の全ての区分取得画像との類似を判断して、区間取得画像と類似した取得画像の会議における投影回数を取得する。
また、ステップST402の処理の処理をこなっていない区分取得映像として撮影された画像と、他の全ての区間取得映像として撮影された画像と、の類似を判断して区間取得映像として撮影された画像と類似した画像の会議における投影回数を取得する(ステップST402)。その後、ステップST401に戻り上記処理を繰り返す。
ステップST401において、制御部1090は、全ての区分取得画像等についてステップST402の処理を行なったと判断した場合には、全ての区分取得画像等について、それぞれ類似した画像の投影回数と区分取得画像等とを関連付けてデータ格納部1100の取得画像テーブルTP又は分割取得映像テーブルTSM等に記憶するよう制御する(ステップST403)。
上記実施形態では、図4に示す取得画像テーブルTPは、画像取得時間区間である投影時間区間と、区間取得画像を識別する取得画像識別情報と、区間取得画像分類基準である類似画像投影回数と、を制御部1090により関連付けられて記憶している場合について説明したがこれに限定されるわけではなく、例えば、取得画像テーブルTPは、投影時間区間と、取得画像識別情報と、区間取得画像分類基準である画像取得時間区間長、文字情報、表示回数、表示時間長、又はソートキーを用いた回数と、を制御部1090により関連付けられて記憶する構成を採用できる。
上記実施形態では、図4に示す分割取得映像テーブルTSMは、映像取得時間区間である投影時間区間と、区間取得映像を識別する区間取得映像識別情報と、区間取得画像分類基準である類似した取得画像の会議における投影回数と、を制御部1090により関連付けられて記憶している場合について説明したがこれに限定されるわけではなく、例えば、分割取得映像テーブルTSMは、投影時間区間と、区間取得映像識別情報と、区間取得画像分類基準である映像取得時間区間長、文字情報、表示回数、表示時間長、又はソートキーを用いた回数と、を制御部1090により関連付けられて記憶する構成を採用できる。
上記実施形態では、図5に示す発言イベントテーブルTSは、音声取得時間区間である発言区間と、区間取得音声と、区間取得音声分類基準である発言者識別情報と、を制御部1090により関連付けられて記憶し、また交代イベントビューVCは音声取得時間区間である発言者同一区間と、区間取得音声と、区間取得音声分類基準である発言者識別情報と、を制御部1090により関連付けられて記憶している場合について説明した。
しかし、これに限定されるわけではなく、例えば、発言イベントテーブルTS又は交代イベントビューVCは、音声取得時間区間である発言区間又は発言者同一区間と、区間取得音声と、区間取得音声分類基準である音声取得時間区間長、位置情報、出音回数、出音時間長、又はソートキーを用いた回数と、を制御部1090により関連付けられて記憶する構成を採用できる。
上記実施形態では、図7に示したキーワード検索画面FSWは検索キーワードとして、区間取得画像分類基準である文字情報、並びに区間取得音声分類基準である発言者識別情報に関連付けられた発言者名を用いる場合について説明したがこれに限定されるわけではなく、例えば、区間取得音声分類基準である音声取得時間区間長、位置情報、文字情報、出音回数、音声時間長、ソートキーを用いた回数、及びディレクトリパス等、区間取得画像分類基準である類似画像投影回数、画像取得時間区間長、表示回数、表示時間長、ソートキーを用いた回数、ディレクトリパス等、並びに区間取得映像分類基準である類似画像投影回数、映像取得時間区間長、文字情報、表示回数、表示時間長、ソートキーを用いた回数、ディレクトリパス等を検索キーワードにより検索し、それぞれの入力されたキーワードを表示するテキストボックスを有する構成を採用できる。
上記実施形態では、画像取得部1040はBMPフォーマットの画像を取得する場合について説明したがこれに限定されるわけではなく、例えば、JPG、GIF、TIFF、又は、PNGフォーマットの画像を取得する構成を採用することも可能である。
上記実施形態では、画像変換部1070はJPGフォーマットの画像を取得する場合について説明したがこれに限定されるわけではなく、例えば、JPG、BMP、GIF、TIFF、又は、PNGフォーマットの画像、画像データサイズの縮小された画像、若しくは、色情報の軽減された画像、であって画像変換部1070が取得した画像の情報量よりも少ない情報量で表される画像を取得する構成を採用することも可能である。
尚、画像生成装置120が画像信号を生成するために用いた電子ファイルから生成される画像と、データ格納部1100に格納された画像とを比較することで、会議において投影されなかった電子ファイルから生成される画像を知ることができる。
上記実施形態では、区間取得画像、区間取得映像、又は区間取得音声を説明するアノテーション情報は、区間取得画像、区間取得映像、又は区間取得音声と関連付けてデータ格納部1100に格納される場合について説明したが。
しかし限定されるわけではなく、アノテーション情報は、例えば、区間取得画像、区間取得映像、又は区間取得音声である電子ファイルのヘッダ部等に直接記載される構成を採用できる。
この構成によれば、例えば、Adobe Premier、又はAdapTVと言ったソフトウェアによって電子ファイルに記載されたアノテーションを区間取得画像分類基準、区間取得映像分類基準、又は区間取得音声分類基準とすることができる。
本発明の会議システムの一実施形態を示す構成図である。 本発明に係る会議システムを構成する情報処理装置の1実施形態の機能ブロック図である。 本発明の情報処理装置の実施形態を表すハードウェア構成図である。 データ格納部の記憶する映像及び画像に関する情報の一例を説明するための図である。 データ格納部の記憶する発言に関する情報の一例を説明するための図である。 データ格納部が関連付けて記憶する発言、画像、及び映像に関する情報の一例を説明するための図である。 表示装置等が表示するキーワード検索画面の一例である。 表示装置等が表示するキーワード検索結果表示画面の一例である。 表示装置等が表示するソートキー検索画面の一例である。 制御部の行なう情報格納制御処理の一例を説明するためのフローチャートである。 制御部の行なう発言開始時処理の一例を説明するためのフローチャートである。 制御部の行なう発言終了時処理の一例を説明するためのフローチャートである。 制御部の行なう画像格納時処理の一例を説明するためのフローチャートである。 制御部の行なう終了時処理の一例を説明するためのフローチャートである。
符号の説明
10…会議システム
100…情報処理装置
11n…音声取得装置
120…画像生成装置
130…映像取得装置(映像取得手段)
140…画像投影装置
150…分配器
160…第1入力装置(入力手段)
170…第1表示装置(表示手段)
180…第1出音装置(出音手段)
200…制御装置
210…第2入力装置(入力手段)
220…第2表示装置(表示手段)
230…第2出音装置(出音手段)
300…ネットワーク
1010…A/D変換部
1020…発言メタ情報生成部
1021…発言検出部
1022…発言者識別部
1023…発言交代検出部
1024…音声認識部
1025…特徴取得部
1030…時間管理部
1040…画像取得部
1050…新規画像検出部
1060…投影時間算出部
1070…画像変換部
1080…テキスト抽出部
1090…制御部(制御手段)
1100…データ格納部
1110…検索部(検索手段)
1120…結果表示制御部
1130…通信部
ARW1、2…検索結果表示領域
BT…検索ボタン
BTS…ソートキー検索画面表示ボタン
BTT11〜18、21〜28…ソートボタン
BTW…キーワード検索画面表示ボタン
FK…ソートキー検索画面
FRW…キーワード検索結果画面
FSW…キーワード検索画面
SN1〜5…サムネイル
TBP1〜5…発言者名入力テキストボックス
TBW1〜5…キーワード入力テキストボックス
TM…取得映像テーブル
TP…取得画像テーブル
TS…発言イベントテーブル
TSM…分割取得映像テーブル
VA…音声画像映像ビュー
VC…交代イベントビュー

Claims (38)

  1. 会議において取得された音声である取得音声と前記取得音声を取得した時刻である音声取得時刻とを関連付け、前記会議で投影された画像であり、かつ会議において取得された画像である取得画像と前記取得画像を取得した時刻である画像取得時刻とを関連付け、かつ前記取得音声と前記取得画像とを前記音声取得時刻と前記画像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御手段と、を備える会議システムであって、
    前記制御手段は、前記画像取得時刻で区切られた時間区間である画像取得時間区間と、前記取得画像の内で前記画像取得時間区間において会議で投影された画像である区間取得画像と、前記区間取得画像を分類する基準となる区間取得画像分類基準と、を関連付けて記憶するよう前記記憶部を制御し、
    前記区間取得画像分類基準は、分類対象である前記区間取得画像と類似した前記取得画像の前記会議における投影回数を含むことを特徴とする会議システム。
  2. 前記区間取得画像分類基準は、分類対象である前記取得画像が会議において説明を省略された画像であるか否かを表す情報を含むことを特徴とする請求項1に記載の会議システム。
  3. 検索に用いられるキーワードである検索キーワードを入力する入力手段と、
    前記入力手段で入力された検索キーワードに基づいて生成された検索条件を満たす区間取得画像分類基準に関連付けて、前記記憶部に記憶された区間取得画像を検索する検索手段と、
    前記検索手段の検索した区間取得画像の少なくとも1つ以上を表示する表示手段を更に有することを特徴とする請求項1又は2に記載の会議システム。
  4. 区間取得画像分類基準は、分類対象である前記区間取得画像であって、かつ前記検索手段で検索された区間取得画像が前記表示手段に表示された回数である表示回数を含むことを特徴とする請求項3に記載の会議システム。
  5. 前記画像取得時間区間は、前記会議において投影された画像の投影を開始した時刻である投影開始時刻と投影を終了した時刻とで定められる時間区間である投影時間区間を含むことを特徴とする請求項4に記載の会議システム。
  6. 前記区間取得画像分類基準は、分類対象である前記区間の画像取得時間区間の長さである画像取得時間区間長を含むことを特徴とする請求項5に記載の会議システム。
  7. 前記区間取得画像分類基準は、分類対象である前記区間取得画像に対して文字認識処理を行なうことで抽出した文字情報を含むことを特徴とする請求項5又は6に記載の会議システム。
  8. 前記区間取得画像と類似した前記取得画像は、前記区間取得画像を構成する画素情報が類似した画像、又は前記区間取得画像に対して文字認識処理を行なうことで抽出した文字情報を構成する単語が類似した画像であることを特徴とする請求項7に記載の会議システム。
  9. 前記説明を省略された画像であるか否かを表す情報は、前記画像取得時間区間長が所定の閾値以下、又はより小さいか否かを表す情報であることを特徴とする請求項5ないし8に記載の会議システム。
  10. 前記区間取得画像分類基準は、分類対象である前記区間取得画像であって、かつ前記検索手段で検索された区間取得画像が前記表示手段に表示された時間長である表示時間長を含むことを特徴とする請求項5ないし9に記載の会議システム。
  11. 前記表示手段は、前記検索手段で検索された区間取得画像のサムネイルと、前記制御手段により区間取得画像に関連付けられた区間取得画像分類基準と、を関連付けて表示することを特徴とする請求項5ないし10に記載の会議システム。
  12. 前記入力手段は、前記表示手段が表示する前記サムネイルの並び順を指定するソートキーを入力し、
    前記検索手段は、検索した前記区間取得画像について前記入力手段が入力したソートキーに基づいて並び順を定め、
    前記表示手段は、前記検索手段が定めた並び順に従って、前期区間取得画像のサムネイルを並べて表示することを特徴とする請求項11に記載の会議システム。
  13. 前記区間取得画像分類基準は、分類対象である前記区間取得画像を検索手段が検索するために前記ソートキーを用いた回数を含み、
    前記ソートキーは、前記ソートキーを用いた回数以外の区間取得画像分類基準であることを特徴とする請求項12に記載の会議システム。
  14. 前記入力手段は、前記区間取得画像を説明する情報であるアノテーション情報を入力し、
    前記区間取得画像分類基準は、分類対象である前記区間取得画像を説明するアノテーション情報であって、かつ前記入力手段が入力したアノテーション情報を含むことを特徴とする請求項5ないし13に記載の会議システム。
  15. 前記制御手段によって、前記表示手段が表示する区間取得画像と時刻に基づいて関連付けて記憶された取得音声を出音する出音手段を更に有することを特徴とする請求項5ないし14に記載の会議システム。
  16. 前記制御手段は、前記音声取得時刻で区切られた時間区間である音声取得時間区間と、前記音声取得時間区間において取得された取得音声である区間取得音声と、前記区間取得音声を分類する基準となる区間取得音声分類基準と、を関連付けて記憶するよう前記記憶部を制御し、
    前記区間取得音声分類基準は、前記区間取得音声として取得された取得音声の発言者を識別する情報である発言者識別情報を含むことを特徴とする請求項15に記載の会議システム。
  17. 前記音声取得時間区間は、分類対象とする前記区間取得音声の発言者が発言を開始した時刻である発言開始時刻と、発言者が発言を終了した時刻である発言終了時刻と、で定まる発言区間であることを特徴とする請求項16に記載の会議システム。
  18. 前記音声取得時間区間は、分類対象とする前記区間取得音声の発言者が交代した時刻である発言者交代時刻と次の発言者交代時刻とで定まる時間区間である発言者同一区間であることを特徴とする請求項16に記載の会議システム。
  19. 前記取得音声分類基準は、分類対象とする前記区間取得音声から音声認識処理により取得した発言内容を表す文字情報を含むことを特徴とする請求項16ないし18に記載の会議システム。
  20. 前記取得音声分類基準は、分類対象とする前記区間取得音声の発話量を含むことを特徴とする請求項16ないし19に記載の会議システム。
  21. 前記発話量は、前記区間取得音声の発言内容を表す文字情報を構成する文字数、又は前記区間取得音声の音声取得時間区間の長さである音声取得時間区間長を含むことを特徴とする請求項20に記載の会議システム。
  22. 前記取得音声分類基準は、分類対象とする前記区間取得音声の音声的特長を含むことを特徴とする請求項16ないし21に記載の会議システム。
  23. 前記音声的特長は、分類対象とする前記区間取得音声の高さ、大きさ、又は単位時間当たりの発言内容を表す文字情報量であることを特徴とする請求項22に記載の会議システム。
  24. 前記区間取得音声分類基準は、分類対象とする前記区間取得音声の発言者の位置に関する情報である位置情報を含むことを特徴とする請求項16ないし23に記載の会議システム。
  25. 前記区間取得音声分類基準は、分類対象とする前記区間取得音声と類似した前記区間取得音声を、前記会議において取得した回数を含むことを特徴とする請求項16ないし24に記載の会議システム。
  26. 前記区間取得音声と類似した前記取得音声は、前記区間取得音声に対して音声認識処理を行なうことで抽出した文字情報を構成する単語が類似した音声であることを特徴とする請求項25に記載の会議システム。
  27. 前記検索手段は、前記入力手段で入力された検索キーワードに基づいて生成された検索条件を満たす区間取得音声分類基準に関連づけて、前記記憶部に記憶された区間取得音声を検索し、
    前記出音手段は、前記検索手段の検索した区間取得音声の少なくとも1つ以上を出音することを特徴とする請求項16ないし26に記載の会議システム。
  28. 前記区間取得音声分類基準は、分類対象とする前記区間取得音声であり、かつ前記検索手段で検索された区間取得音声が前記出音手段から出音された回数である出音回数を含むことを特徴とする請求項27に記載の会議システム。
  29. 前記区間取得音声分類基準は、分類対象とする前記区間取得音声であり、かつ前記検索手段で検索された区間取得音声が前記出音手段から出音された時間長である出音時間長を含むことを特徴とする請求項27又は28に記載の会議システム。
  30. 前記説明を省略された画像であるか否かを表す情報は、前記取得音声分類基準に含まれる文字情報が「割愛」、又は「省略」と言う語を含むか否かを表す情報であることを特徴とする請求項26ないし29に記載の会議システム。
  31. 前記区間取得画像分類基準は、分類対象とする前記区間取得画像の画像取得時間区間に含まれる前記音声取得時間区間に関連付けて前記記憶部に記憶した区間取得音声の発言者が交代した回数を含むことを特徴とする請求項26ないし30に記載の会議システム。
  32. 前記区間取得画像分類基準に含まれる交代した回数は、前記区間取得画像分類基準が分類対象とする前記区間取得画像の画像取得時間区間に含まれる前記音声取得時間区間に関連付けて前記記憶部に記憶した区間取得音声分類基準に含まれる発言者識別情報に基づいて、前記制御手段により算出されることを特徴とする請求項31に記載の会議システム。
  33. 前記区間取得画像分類基準に含まれる交代した回数は、前記区間取得画像分類基準が分類対象とする前記区間取得画像の画像取得時間区間に含まれる前記音声取得時間区間に関連付けて前記記憶部に記憶した区間取得音声分類基準に含まれる前記位置情報に基づいて、前記制御手段により算出されることを特徴とする請求項31に記載の会議システム。
  34. 前記区間取得音声分類基準は、分類対象である前記区間取得音声を前記検索手段が検索するためにソートキーを用いた回数を含み、
    前記ソートキーは、前記ソートキーを用いた回数以外の区間取得音声分類基準であることを特徴とする請求項16ないし33に記載の会議システム。
  35. 前記入力手段は、前記区間取得音声を説明する情報であるアノテーション情報を入力し、
    前記区間取得音声分類基準は、分類対象である前記区間取得音声を説明するアノテーション情報であって、かつ前記入力手段が入力したアノテーション情報を含むことを特徴とする請求項16ないし34に記載の会議システム。
  36. 前記アノテーション情報は、文字情報であることを特徴とする請求項35に記載の会議システム。
  37. 会議において取得された音声である取得音声と前記取得音声を取得した時刻である音声取得時刻とを関連付け、前記会議において取得された映像であり、かつ前記会議において投影された画像を撮影した映像である取得映像と前記取得映像を取得した時刻である映像取得時刻とを関連付け、かつ前記取得音声と前記取得映像とを前記音声取得時刻と前記映像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御手段と、を備える会議システムであって、
    前記制御手段は、前記映像取得時刻で区切られた時間区間である映像取得時間区間と、前記取得映像の内で前記映像取得時間区間において会議で投影された映像である区間取得映像と、前記区間取得映像を分類する基準となる区間取得映像分類基準と、を関連付けて記憶するよう前記記憶部を制御し、
    前記区間取得映像分類基準は、分類対象である前記区間取得映像と類似した前記区間取得映像を、前記会議において取得した回数を含むことを特徴とする会議システム。
  38. 会議において取得された音声である取得音声と前記取得音声を取得した時刻である音声取得時刻とを関連付け、前記会議で投影された画像であり、かつ会議で取得された画像である取得画像と前記取得画像を取得した時刻である画像取得時刻とを関連付け、かつ前記取得音声と前記取得画像とを前記音声取得時刻と前記画像取得時刻とに基づいて時刻で関連付けて記憶するよう記憶部を制御する制御ステップと、を備える会議方法であって、
    前記制御ステップは、前記画像取得時刻で区切られた時間区間である画像取得時間区間と、前記取得画像の内で前記画像取得時間区間において会議で投影された画像である区間取得画像と、前記区間取得画像を分類する基準となる区間取得画像分類基準と、を関連付けて記憶するよう前記記憶部を制御し、
    前記区間取得画像分類基準は、前記区間取得画像と類似した前記取得画像の前記会議における投影回数を含むことを特徴とする会議方法。
JP2006184828A 2006-07-04 2006-07-04 会議システム及び会議方法 Pending JP2008017050A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006184828A JP2008017050A (ja) 2006-07-04 2006-07-04 会議システム及び会議方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006184828A JP2008017050A (ja) 2006-07-04 2006-07-04 会議システム及び会議方法

Publications (1)

Publication Number Publication Date
JP2008017050A true JP2008017050A (ja) 2008-01-24

Family

ID=39073674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006184828A Pending JP2008017050A (ja) 2006-07-04 2006-07-04 会議システム及び会議方法

Country Status (1)

Country Link
JP (1) JP2008017050A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866421A (zh) * 2019-04-30 2020-10-30 陈筱涵 会议记录系统与会议记录方法
JP7288491B2 (ja) 2021-10-19 2023-06-07 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、及び制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866421A (zh) * 2019-04-30 2020-10-30 陈筱涵 会议记录系统与会议记录方法
JP7288491B2 (ja) 2021-10-19 2023-06-07 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、及び制御方法

Similar Documents

Publication Publication Date Title
US11055342B2 (en) System and method for rich media annotation
JP5671557B2 (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US7616840B2 (en) Techniques for using an image for the retrieval of television program information
US8385588B2 (en) Recording audio metadata for stored images
US5550966A (en) Automated presentation capture, storage and playback system
KR101660271B1 (ko) 메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법
US20080079693A1 (en) Apparatus for displaying presentation information
US20140149865A1 (en) Information processing apparatus and method, and program
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
JP2008257460A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2004152063A (ja) マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
US20090144056A1 (en) Method and computer program product for generating recognition error correction information
JP2007148904A (ja) 情報提示方法、情報提示装置及び情報提示プログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
JP2008048204A (ja) 情報処理装置、情報処理システム及び情報処理プログラム
JP2017021672A (ja) 検索装置
JP2007328713A (ja) 関連語表示装置、検索装置、その方法及びプログラム
CN110309324A (zh) 一种搜索方法及相关装置
JP2007199315A (ja) コンテンツ提供装置
JP2008017050A (ja) 会議システム及び会議方法
CN116049490A (zh) 素材搜索方法、装置和电子设备
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
JP7077585B2 (ja) 情報処理システム、情報処理装置およびプログラム
JP2007288539A (ja) 会議システム及び会議方法
JP2006338550A (ja) メタデータ作成装置及びメタデータ作成方法