JP3879786B2 - 会議情報記録再生装置および会議情報記録再生方法 - Google Patents

会議情報記録再生装置および会議情報記録再生方法 Download PDF

Info

Publication number
JP3879786B2
JP3879786B2 JP21029197A JP21029197A JP3879786B2 JP 3879786 B2 JP3879786 B2 JP 3879786B2 JP 21029197 A JP21029197 A JP 21029197A JP 21029197 A JP21029197 A JP 21029197A JP 3879786 B2 JP3879786 B2 JP 3879786B2
Authority
JP
Japan
Prior art keywords
speech
speaker
similar
similarity
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21029197A
Other languages
English (en)
Other versions
JPH1153385A (ja
Inventor
恵理子 田丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP21029197A priority Critical patent/JP3879786B2/ja
Publication of JPH1153385A publication Critical patent/JPH1153385A/ja
Application granted granted Critical
Publication of JP3879786B2 publication Critical patent/JP3879786B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、会議における音声情報あるいは映像情報などの会議情報を記録し、再生する装置および方法において、会議の参加者の発言構造から特定の状況の音声情報および/または映像情報を検索して再生する場合に、特に、検索者の意図に適したアクセス個所をできるだけもれなく効率的に検索できる装置および方法に関わる。
【0002】
【従来の技術】
会議では、多くの情報が会話による音声情報として生成される。これらのうち、ホワイトボードや議事録にテキスト情報として記録される情報はわずかであり、多くの重要な情報が記録されない、あるいは正確に思い出せないなどの問題点がある。
【0003】
この問題に対して、会議で発生するあらゆる情報を記録しておく会議記録装置があり、この会議記録装置の一例が、特開平6-343146号公報に記載されている。ここでは、マイクロフォンから入力された音声情報、ビデオカメラから入力された映像情報、ペン入力によるテキスト情報や図形情報など、あらゆるマルチメディア情報がもれなく記録される。
【0004】
このような会議記録装置においては、会議の内容を思い出そうとしたとき、どのようにして、適切に必要な場所へアクセスできるのかが重要な問題となる。しかし、リアルタイムに参加者が、各会議場面にインデックスを貼付するのはきわめて困難である。この点、会議終了後、人間による手動によって、適切なインデックスづけがなされれば、効果的なインデックスが可能である。
【0005】
しかしながら、このようなインデックス付けの手間は莫大である。さらに、後で必要な情報は、検索を行う人それぞれによって、あるいは時間の経過に伴って変化することが多く、あらかじめ決められたインデックスで十分な検索を行うことは困難である。したがって、会議中に発生する多様な手がかり情報から、人手をわずらわせず、自動的に効果的なインデックスを提供する方法が検討されている。
【0006】
特開平6-343146号公報では、ペンによる入力手段によって、テキストやジェスチャーが入力された時刻をインデックスとして、音声や映像情報を検索できる手段を提供している。会議参加者は、重要な発言が発生すると、しばしば手書きメモをとる。このことから、手書きメモを行った時刻をインデックスとすることで、会議の重要情報に効果的にアクセスすることが可能となる。
【0007】
しかしながら、会議参加者は議論に熱中すると、メモがとれないという問題点が存在する。したがって、このような会議参加者の能動的な指示および行為を必要とするインデックスは、効果的なものが多い反面、もれも多い。また、十分なインデックスを作成しようと思ったら、会議参加者は、多くのメモを取らなければならず、負担が増す。また、十分なメモ書きが存在すれば、マルチメディア記録の必要性も小さくなるという矛盾が発生する。
【0008】
できるだけ会議参加者に負担をかけず、十分なインデックスを自動的に抽出するための方法として、他にもいくつかの方法が検討されている。特開平2-113790号公報では、動画像から、画像情報の特徴抽出により検索シーンを抽出し、これをメニュー表示することにより、検索者が対話的に必要とする場面を選択していくことにより、大量の動画像データから、効率的に必要なデータへとアクセスを可能とする。「特定の人物が黒板に出て話した時」というように、会議の中でもこのような技術が有効である局面は存在する。しかしながら、一般的には会議における映像情報はあまり大きな変化がなく、ここから会議内容を思い出すための十分な手がかりを抽出するのは困難である。
【0009】
会議で最も重要な情報は、会話による音声データである。この音声データから検索のための手がかりを抽出す方法が試みられている。特開平3-250481号公報には、ユーザが道具を使用している映像の中からトラブルに陥った時の映像へとアクセスするために、トラブル時に頻繁に発せられるキーワードを用いて、該当するデータが記録されている場所へとアクセスする手法が記載されている。しかしながら、ここではかなり状況が特定化されており、汎用的な手がかり情報とはなり得ていない。
【0010】
同じく音声情報を利用するものとして、特開示平6-236410号公報がある。ここでは、発話者の言語解析を行い、発話内容の話題とその分野を同定し、話題に適した情報群をデータベースから自動的に選択する。ここでは、発話表現用の辞書を用いて、話題転換個所およびそこでの話題の候補を検出する。話題の転換点は、会議記録へのアクセスの手がかりとして、非常に重要である。
【0011】
しかしながら、話題転換点は重要ではあるが、アクセスの手がかり情報としては、粒度が大きすぎることで、きめの細かいアクセスができないという問題点がある。さらに、実用的な話題転換点を見つけるためには、現時点での自然な発話における音声認識技術では対応が十分ではないことと、発話表現用の辞書の充実において困難性が高い。
【0012】
一方、特開平8-317365号公報には、会議の発言者の音声データを、データの記憶量の大きさに応じた長さで時系列的にグラフ化する技術が示されている。これにより、どのような順序で、誰が、どのくらいの時間長の発言を行ったのかを、グラフとして視覚化することができる。以下、この明細書では、この発言構造図を発言者チャートと呼ぶこととする。
【0013】
この発言者チャートから会議参加者は、会議終了後でも、自身が参加した会議の会議内容をある程度想起することができ、重要な、あるいは必要とする情報の記録場所にアクセスすることが可能となる。この技術の利点は、高度な音声認識技術や辞書を必要としないこと、会議参加者の明示的な指示が必要なく、記録された情報だけから自動的に作成可能な点である。
【0014】
【発明が解決しようとする課題】
しかしながら、発言者チャートを使用した会議記録における検索においては、次のような問題点が存在する。
【0015】
一つには、記録された会議情報中の「部分情報」にアクセスすることに起因する問題点である。具体的には、現在、アクセスしている情報が、どこの情報だったのかがわからなくなってしまうという、アクセスの絶対位置の喪失の問題がある。また、会議全体の中で現在アクセスしている場所がどの辺なのかがわからないと言う、全体の中の相対的な位置の喪失感の問題がある。さらに、アクセスした部分情報を信用して結論を出してしまい、後で、結論が覆った部分の情報を見逃してしまうという、論理展開のどんでん返しに対する弱さが存在している。
【0016】
2点めは、正しくない再生場所にアクセスした時、他のどこに必要な情報が存在しているのかわからないという点が挙げられる。
【0017】
これらの問題点に対して、特開平8-317365号公報では対処できていない。これに対して、Xerox PARCのAudio browsing Tool(Donald G. Kimber,lynn D.Wilcox, Francine R. Chen, and Thomas Moran: "Speaker Segmentation for Browsing Recorded Audio", CHI ’95 Proceedings( short paper), pp.212-213) では、現在アクセスしている場所を明示的に発言者チャート上に示すことと、全体の中のどの部分を発言者チャートとして表示しているのかという2つの情報を表示することで、上記の「部分情報」へのアクセスに起因する問題点の、絶対的および相対的なアクセス位置の喪失という問題点は解決している。
【0018】
しかし、他の2つ問題点は残されたままである。すなわち、会議に中では、論理展開が二点三点する可能性があり、誤って最初の結論にアクセスしてしまった時、その後に存在する正しい情報を見落としがちである。したがって、このような論理展開の転換に対して、アクセス漏れがなくなるような支援が必要となる。
【0019】
また、発言者チャート自身は必ずしも、1回で正確に必要な情報の存在場所にアクセスできるインデックスではない。実際には、手書きメモなどと併用されることで、正確さを増すことができる。しかしながら、先にも述べたように手書きメモは参加者の負荷が高いため、むしろ、あいまい性の存在する発言者チャートから、どのように適切な情報の存在場所にたどりつける支援を行えるのかが重要となる。すなわち、たとえ正しくない場所にアクセスしたとしても、必要とする情報が他のどの辺に存在しているのかがわかるような情報が必要である。
【0020】
以上の問題点に鑑み、この発明は、会議における発言構造を視覚化表示し、それを記録された会議情報へのアクセスのインデックスとして利用することが可能な会議情報記録再生装置において、会議参加者の負荷が小さく、しかも検索漏れが少なくでき、できるだけ効率的に欲しい情報へと到達できるようにする装置を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記課題を解決するため、請求項1に記載の発明による会議情報記録再生装置は、
複数人の会議参加者が会議を行う際の音声データを記録する記録手段と、
前記音声データから、前記複数人の会議参加者による発言を抽出して発言構造を示す情報を記憶するとともに、前記発言に関連する複数の属性情報を記憶する発言構造情報記憶手段と、
前記発言構造を視覚化するための視覚化情報を生成する視覚化情報生成手段と、
前記視覚化情報に基づいて前記発言構造を表示装置にて視覚化させる発言構造表示手段と、
前記発言構造表示手段により表示装置上に視覚化された発言構造中において指示入力を行うための指示入力手段と、
前記指示入力手段で指示された位置または部分に該当する音声データを再生する再生手段と、
前記指示入力手段で指示された位置または部分に対応する前記複数の属性情報を、前記発言構造記憶手段から、検索者の指示操作の意図として取得する意図取得手段と、
前記意図取得手段で取得された前記複数の属性情報と、前記発言構造情報記憶手段に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の指示操作の意図と類似した意図を持つと判定される音声データ区間を検出する類似候補検出手段と、
前記類似候補検出手段で検出された類似候補を表示装置上に視覚化するための類似候補表示手段と、
を具備することを特徴とする。
【0022】
また、請求項2に記載の発明による会議情報記録再生装置は、
会議情報の音声データを入力するために会議参加者のそれぞれに設けられる音声入力装置と、
前記音声データを格納する第1の記憶手段と、
前記音声データから発言を抽出する発話データ抽出手段と、
前記抽出した発言のデータと、前記発言に関連する複数の属性情報と、タイマーから発言構造テーブルを生成する発言構造テーブル生成手段と、
前記発言構造テーブルを格納する第2の記憶手段と、
前記音声入力装置と前記会議参加者との対応関係を保持する会議参加者テーブルを格納する第3の記憶手段と、
前記発言構造テーブルを表示装置上に視覚化するための発言者チャートを生成する発言者チャート生成手段と、
前記発言者チャート生成手段で生成された前記発言者チャートを前記表示装置上に表示する発言者チャート表示手段と、
前記発言者チャート上で、検索者が再生を意図する任意の発言を指示するための指示入力手段と、
前記指示入力手段によって指示された発言を特定する発言特定手段と、
前記発言特定手段で特定された発言の音声データを再生する再生手段と、
前記特定された発言に関する前記検索者の指示意図として、前記特定された前記発言に関連する複数の属性情報を、前記第2の記憶手段から取得する意図取得手段と、
前記意図取得手段で取得された前記複数の属性情報と、前記第2の記憶手段に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の再生指示操作の意図と類似した意図を持つと判定される類似発言候補を検出する類似発言検出手段と、
前記類似発言検出手段で検出された類似発言候補を表示装置上に視覚化するための類似発言候補表示手段と
を具備することを特徴とする。
【0023】
また、請求項3に記載の発明による会議情報記録再生装置は、請求項2に記載の会議情報記録再生装置において、
前記意図取得手段では、前記指示された発言に関する、発言者名、発言時間、前発言者名、後発言者名の4つの属性情報を、前記検索者の意図として取得することを特徴とする。
【0024】
また、請求項4に記載の発明による会議情報記録再生装置は、請求項2に記載の会議情報記録再生装置において、
前記類似発言検出手段は、
前記指示意図抽出手段において抽出された指示入力された発言の意図と、前記発言構造テーブル中の他の発言との類似度を、前記複数個の属性情報の合成関数により算出する発言類似度算出手段と、
前記発言類似度算出手段で算出された前記類似度が、予め定めた値以上の類似度を持つか否かを判定する発言類似度判定手段と、
を有し、前記発言類似度判定手段の判定結果に基づいて、前記類似発言候補を検出することを特徴とする。
【0025】
また、請求項5に記載の会議情報記録再生装置は、請求項2に記載の会議情報記録再生装置において、
前記指示入力手段によって、前記検索者が再生区間の指示が可能であり、
前記意図取得手段では、
前記検索者の再生行為を監視する再生操作監視手段を持ち、
再生された音声データ区間の一連の発言群に関わる前記属性情報を、検索者の再生意図として取得する再生意図取得手段を備える
ことを特徴とする。
【0026】
また、請求項6に記載の発明による会議情報記録再生装置は、請求項5に記載の会議情報記録再生装置において、
前記再生意図取得手段で用いる前記属性情報は、前記再生された音声データ区間の一連の発言群の再生開始発言に関する発言者名、発言時間、前発言者名、後発言者名の4つの属性情報と、停止発言者名、総発言数、総発言時間、発言者集合、発言遷移行列であることを特徴とする。
【0027】
また、請求項7に記載の発明による会議情報記録再生装置は、請求項5に記載の会議情報記録再生装置において、
前記類似発言検出手段では、
前記再生意図取得手段からの前記複数の属性情報を用いて、前記発言構造テーブル中の他の一連の発言群に関して、発言構造の類似度を算出する発言構造類似度算出手段と、
前記発言構造類似度算出手段で算出された前記発言構造の類似度が、予め定めた値以上の類似度を持つか否かを判定する発言構造類似度判定手段と、
を有し、前記発言構造類似度判定手段の判定結果に基づいて、前記類似発言構造候補を検出することを特徴とする。
【0028】
また、請求項8に記載の発明による会議情報再生装置は、請求項5の会議情報記録再生装置において、
前記類似発言検出手段は、
再生された発言の状況に応じて、類似発言検出手段と類似発言構造検出手段を自動的に選択する類似度判定方式選択手段を有することを特徴とする。
【0029】
また、請求項9に記載の発明による会議情報再生装置は、請求項2の会議情報記録再生装置において、
前記類似発言候補表示手段は、
会議時間の情報を時系列的に可視化する全会議時間表示領域と、複数個の発言構造の縮小図を表示する類似候補縮小図表示領域との2つの表示領域を持ち、
前記全会議時間表示領域に、前記検索者の前記指示入力装置からの入力指示により定まる再生区間およびその再生区間の類次候補の存在区間を前記時系列上に部分表示領域として表示する手段と、
前記類似候補縮小図表示領域には、前記全会議時間表示領域に表示された部分表示領域の区間の発言構造を縮小した類似候補縮小図を、前記部分表示領域の数だけ一覧表示する一覧表示手段と、
を備え、
さらに、前記一覧表示された複数個の前記類似候補縮小図のうちの一つが、前記検索者により選択指示されたことを検知して、前記選択指示された区間の音声データを再生する手段と、
を備えることを特徴とする。
【0030】
【作用】
請求項1の発明の会議情報記録再生装置では、会議情報の音声入力データから、発言構造を抽出し、記録する。ここで、発言構造は、例えば、音声入力データから発言を抽出し、その発言の発言者、発言開始時刻、発言終了時刻を特定し、さらに、発言順序をも特定することにより抽出できる。この発言構造は、視覚化情報生成手段により生成された視覚化情報により表示装置上に視覚化される。
【0031】
そして、この視覚化情報上の任意の位置が、例えばマウス等のポインティングデバイスからなる指示入力手段により指示されることにより、音声および映像で記録された会議情報データの任意の位置が再生される。この際、検索者の検索行為が監視され、検索行動から検索者の検索の意図が自動的に抽出される。そして、会議中の他の部分に関して、抽出した検索者の意図と類似した意図を持つ発言が存在するかが検出され、検出された類似候補が表示装置上に表示される。
【0032】
これにより、検索者に対して自動的に類似候補を提示することができる。この情報は、検索が失敗した場合に、次にアクセスすべき情報の存在を示し、効率的な検索を支援することができる。また、検索が成功した場合にも、他にも正解の候補が存在することを検索者に知らしめ、検索もれを減少させる効果を持つ。
【0033】
請求項2の発明の会議情報記録再生装置では、会議情報の音声入力データから、発言構造を抽出し、発言構造データを記録する。発言構造データを視覚化するための手段として、例えば発言者、発言時間、発言遷移情報などの発言構造情報を時系列的に表示する発言者チャートが使用される。
【0034】
発言者チャート上の任意の位置が検索者により指示入力されると、検索者の指示意図が自動的に抽出される。ここでの指示意図は、検索者が指示して再生した特定の発言に関する検索の意図であり、その発言に関わる複数の属性の特性値から構成される。指示発言の意図が抽出されたのち、発言構造データファイル中の他の発言に関して、指示意図と類似した意図を持つ発言が存在するかが評価される。類似した発言が検出された場合、その類似発言として抽出された発言が、発言者チャート上の該当する位置に視覚化される。
【0035】
これにより、会議情報の検索者の検索意図と類似した構造を持つ発言が、検索者の付加的な入力なしに、自動的に抽出できる。さらに、検索者に類次発言候補を視覚的に提示することにより、その存在を知らしめることが可能となる。
【0036】
請求項3の発明の会議情報記録再生装置では、指示意図の抽出において、検索者が指示入力により特定した発言に関する、発言者名、発言時間、前発言者名、後発言者名の4つの属性値を抽出することにより、検索者が行った指示入力の意図を算出することができる。これにより、検索者の意図の複雑な構造から、指示意図を表現する代表的な4つの属性を特定することにより、少ない情報量でかつ適切な検索者の指示意図を抽出することが可能となる。
【0037】
請求項4の発明の会議情報記録再生装置では、検索者により指示された発言以外の会議中に行われた他の発言に関し、指示された発言との類似度が算出される。そして、この類似度がある基準を満足しているかを判定することにより、類似発言が抽出される。これにより、検索者が再生を指示した発言と類似した発言を自動的に抽出することが可能となる。
【0038】
請求項5または請求項6の発明の会議情報記録再生装置では、検索者の検索行為から、指示入力行為だけではなく、再生行為からも自動的に検索意図が抽出される。
【0039】
検索者は発言者チャート上の任意の発言を指示して会議情報を記録した音声および映像データを再生する。ついでしばらく再生した後、再生を停止するという再生行為を行うことができる。ここでは、再生停止指示入力が行われた後、再生区間を特定し、再生区間から、指示入力意図と再生意図の両者が自動的に抽出される。再生区間から意図を抽出するということは、単に1つの発言だけではなく、再生された一連の発言群とその発言構造から検索意図が抽出されるということを意味する。
【0040】
ここで再生意図とは、請求項6においては、開始発言の指示意図、停止発言者名、総発言数、総発言時間、発言者集合、発言遷移行列の6つの発言構造に関わる属性により算出できる。これにより、指示意図だけを利用した時に比較し、より正確に検索者の検索意図を推論することが可能となる。
【0041】
請求項7の発明の会議情報記録再生装置では、再生した区間の発言構造以外の、会議中に発生した他の発言構造について、再生した区間との類似度が算出される。この類似度が一定条件を満たすかが判断され、条件を満足したものが、類似発言構造候補として検出される。これにより、検索者の再生意図と類似した発言構造を持つ一連の発言群が自動的に抽出できる。
【0042】
請求項8の発明の会議情報記録再生装置では、検索者の検索行為から、検索者の意図が特定の発言なのか、一連の発言群なのかを判定し、それぞれに適切な類似度の判定方式を自動的に判定する。これにより、検索者の付加的な入力なしに、適切な類似度を判定する手段を選択でき、より適切な類似候補を提示することが可能となる。
【0043】
請求項9の発明の会議情報記録再生装置では、検出した類次候補を検索者に提示する表示方法に関して、会議の全体を時系列的に示す表示領域と、類次候補の発言構造を縮小表示によって一覧できる表示領域を持つことにより、類次候補の会議の中の相対的な位置関係を時間軸上で把握できることと、その詳細を縮小表示により一覧できることにより、発言の内容の詳細と時系列上の相対的な位置関係の2つの情報を有機的に連結して表示することが可能となる。
【0044】
これにより、発言構造の認識力が向上し、より効率的に検索が可能となる。また、このような情報を参照しながら再生情報を聞く、または見ることにより、再生内容の理解も促進することができる。
【0045】
【発明の実施の形態】
以下、図を参照しながら、この発明による会議情報記録再生装置の実施の形態を説明する。
【0046】
図1は、この発明の一実施の形態の会議情報記録再生装置のシステム構成図を示すブロック図である。この実施の形態の会議情報記録再生装置は、会議情報として音声および映像データを記録し、かつ、記録した音声および映像データファイルの任意の位置へのアクセス手段を持ち、このアクセス手段によりアクセスされた個所の音声および映像データを再生するものである。
【0047】
この実施の形態における会議情報記録再生装置では、検索者の再生指示に応じて、会議情報として記録された音声および映像データファイル中の任意の位置へアクセスすることができるようにするため、発言者チャートのような発言構造を視覚化したアクセスインデックスを備える装置を前提としている。そして、この発言者チャートを介して、検索者が再生指示をしたときに、指示された位置に該当する音声および映像データを再生するのはもちろんであるが、その上に、検索者の再生指示意図を抽出し、その意図と類似した検索候補が存在しないかを検出し、それを表示することにより、検索者の検索もれを減少させるようにするものである。
【0048】
図1に示すように、この実施の形態の会議情報記録再生装置は、複数個の音声入力装置1aと、映像入力装置1bと、音声入力装置1aからの音声信号用のA/D変換装置2と、音声データ合成装置3と、ファイル格納部4と、発言者チャート生成制御部5と、表示装置11と、指示入力装置12と、映像再生装置13と、音声再生装置14とを備える。
【0049】
発言者チャート生成制御部5は、発話データ抽出部6と、タイマー7と、発言構造テーブル生成部8と、発言者チャート生成部9と、発言者チャート表示部10の一部とを備える。発言者チャート検索制御部15は、発言特定部16と、検索者意図抽出部17と、類似候補検出部18と、類次候補表示部19と、発言者チャート表示部10の一部とを備える。
【0050】
この実施の形態においては、発言者チャート生成制御部5および発言者チャート検索制御部15は、コンピュータ処理装置の構成とされる。すなわち、発言者チャート生成制御部5および発言者チャート検索制御部15の各部は、コンピュータのソフトウエアで実現される機能部の構成とされる。
【0051】
音声入力装置1aは、マイクロフォンなどからなる会議参加者の音声を入力する装置であり、会議参加者のそれぞれに割り当てられている。複数個の音声入力装置1aのそれぞれの出力音声信号は、A/D変換装置2においてデジタル信号に変換される。このA/D変換装置2からの複数個のデジタル音声データは、音声データ合成装置3によって会議参加者全員の音声データとして合成され、ファイル格納部4に音声データファイルとして格納される。
【0052】
映像入力装置1bは、例えばデジタルビデオカメラからなり、この映像入力装置1bからのデジタル映像データは、ファイル格納部4に映像データファイルとして格納される。映像入力装置1bのデジタルビデオカメラは、1台でも、あるいは複数台でもよい。
【0053】
図2は、ファイル格納部4に格納されるデータファイルについて説明する図である。ファイル格納部4には、この例では、4つのデータファイルが格納されている。発言構造テーブル41は、会議における会議参加者の発言の構造を、入力音声データから抽出して生成されるデータファイルである。このデータは、音声データファイル43および映像データファイル44へアクセスするためのインデックスとなる情報を保持している。さらに、発言者チャートを生成するためのデータともなる。この発言構造テーブル41については、後で詳述する。
【0054】
音声データファイル43および映像データファイル44は、会議情報として記録した音声データおよび映像データを保持するデータファイルである。これら音声データファイル43および映像データファイル44は、発言構造テーブル41とのあいだにリンク関係を保持している。会議参加者テーブル42は、会議参加者を識別するためのデータファイルであり、音声入力装置1aのそれぞれに対応して付与された入力装置番号と会議参加者名との関係をデータとして保持している。
【0055】
図3は会議参加者テーブル42のデータ構造を説明するための図である。会議参加者テーブルは、会議参加者と入力装置番号との対応関係を保持するデータファイルである。フィールド42aは入力装置番号であり、音声入力装置1aが保持する識別子である装置番号を意味する。フィールド42bは会議参加者名であり、各音声入力装置1aに割り当てられた会議参加者の名前がテキストデータとして保持される。
【0056】
A/D変換装置2からの、複数個の音声入力装置1aのそれぞれについてのデジタル音声データは、発言者チャート生成制御部5に渡され、処理される。発言者チャート生成制御部5は、ファイル格納部4に格納された音声データファイルの任意の位置にアクセスするためのアクセス手段の1つである発言者チャートを生成する装置である。この発言者チャートの生成処理の詳細については後述する。
【0057】
表示装置11は、発言者チャート生成制御部5で生成された発言者チャートを、その画面に視覚的に表示する。また、映像再生装置13により再生された映像も、さらに表示するようにしてもよい。すなわち、映像再生装置13は表示部を備えるので、その表示部に再生された映像を表示するが、表示装置11の表示画面に表示してもよい。もちろん、表示装置11には、発言者チャートのみを表示し、映像は、映像再生装置13の表示部に表示するように分担させて表示させるようにすることもできる。
【0058】
指示入力装置12は、表示装置11の表示画面に表示された発言者チャート中の発言や発言構造を指示するためのもので、マウスやポインティングデバイスによって構成される。
【0059】
映像再生装置13は、ファイル格納部4の映像データファイルの内の、発言者チャートからユーザにより指示された部分の映像データを再生する装置である。また、音声再生装置14は、同様に、ファイル格納部4の音声データファイルの内の、ユーザにより指示された部分の音声データを再生する装置である。発言者チャートを使用して、音声データと同期させて、映像データの任意の箇所を、映像再生装置13で再生することもできる。
【0060】
発言者チャート探索制御部15は、表示装置11の表示画面の発言者チャート上において指示入力装置12により指示された任意の位置に対応する音声データおよび画像データを検索して再生するものである。
【0061】
以下の説明においては、説明の簡単のため、音声データファイルからの指示された音声データの検索について述べるが、会議情報のデータファイルの再生に関しては、映像データにおいても同様である。
【0062】
まず、発言者チャート生成制御部5における処理動作について説明する。
【0063】
A/D変換装置2からの、複数個の音声入力装置1aのそれぞれについてのデジタル音声データは、発話データ抽出部6に入力される。この発話データ抽出部6においては、入力された音声データのそれぞれについて、ある一定以上の音量レベルが一定時間以上継続した場合を発話としてみなして発言区間を抽出し、その発言区間データを発言構造テーブル生成部8に伝達する。発言区間データは、音声入力装置1aのいずれからの音声データをあるかを示す入力装置番号と、発言開始タイミングと、発言終了タイミングの情報とによって構成されている。
【0064】
発言構造テーブル生成部8では、会議の発言を記録した音声データファイルへのアクセスインデックスとなる、発言構造テーブルを生成する。すなわち、前記発話データ抽出部6からの発言区間データと、タイマー7の時間情報から、入力装置番号、発言開始時刻、発言終了時刻など、会議参加者の発言区間に関する情報を抽出し、発言構造テーブルを生成し、ファイル格納部4に格納する。
【0065】
図4は、発言構造テーブルのデータ構造を説明するための図である。発言構造テーブルは、会議における会議参加者の発言の構造を保持し、会議情報を記録した音声データファイルおよび映像データファイルへのアクセスインデックスとして使用されるデータファイルである。
【0066】
図4において、フィールド51は発言番号であり、発言の時間順に識別子が割り当てられる。フィールド52は発言が検出された音声入力装置1aの識別子としての入力装置番号である。フィールド53は発言開始時刻であり、検出された発言の開始時刻を記録開始時からの経過時間として記録する。フィールド54は発言終了時刻であり、検出された発言の終了時刻を同様に記録する。
【0067】
前述もしたように、音声データファイル43と発言構造テーブルとは対応関係が付けられている。例えば、図4で発言番号7の発言についての、両者の対応関係について説明すると、56は音声データファイル43に記録された発言番号7の記録個所を示しており、リンク55aは発言番号7の記録位置の開始点を指している。また、同様に、リンク55bは発言番号7の記録位置の終了点を指している。
【0068】
発言者チャート生成部9は、ファイル格納部4に格納された発言構造テーブルの情報を受け、この発言構造テーブルを視覚化して表示するための発言者チャートの情報を生成する。生成された発言者チャート情報は発言者チャート表示部10に渡され、発言者チャート表示部10は、発言者チャートを表示装置11に表示する。
【0069】
図5は、発言者チャートの一実施の形態を示す図である。101は発言者チャート表示領域である。発言者チャートは、会議全体のオーバービューとして表示する全会議時間表示領域102と、この全会議時間表示領域102中に表示される詳細表示個所104に該当する部分の発言構造の詳細を表示する発言構造表示領域103の2つの領域から構成される。
【0070】
全会議時間表示領域102は、会議の開始時刻を「00:00:00」とし、それから会議終了までを相対時刻として表示する時刻表示を伴う。図5の例では、途中の相対時刻は丁度中間時点の時刻のみを表示している。詳細表示箇所104は、全会議時間のうちの特定の時間区間を示すものである。
【0071】
そして、詳細表示箇所104で示される時間区間の発言構造の詳細が、発言構造表示領域103に表示されるという関係になっている。換言すれば、発言構造表示領域103に表示されている発言構造は、全会議時間中のどの辺りの時間区間のものであるかを詳細表示個所104の、全会議時間表示領域102中の位置により知ることができる。
【0072】
発言構造表示領域103は、発言者を識別するための発言者名を表示する発言者名領域106と、発言の遷移の状態を視覚的に表示するための発言遷移表示領域107とから構成される。図5に示すように、発言構造表示領域103の発言遷移表示領域107に対しても、この領域107に詳細表示される区間の先頭の時刻と、終りの時刻とが表示されて、全会議時間の内のどの時間部分の発言構造が詳細表示されているかが表示されている。
【0073】
発言遷移表示領域107の発言者毎の各欄には、各会議参加者(発言者)が会議時間中において、いつ、どのくらいの時間の発言を行ったのかが、発言区間バーVBの表示位置と長さにより示される。この発言遷移表示領域107の全会議参加者分の発言区間バーの遷移として表示される発言構造を読み取ることで、誰の発言から誰の発言へと遷移したのかという、詳細表示箇所104で示される時間区間の発言遷移構造を読みとることが可能となる。
【0074】
図5の全会議時間表示領域102における三角点105a、または発言遷移表示領域107における破線105bは、その時に再生中の音声データに該当する発言者チャート上の時間位置を示している。
【0075】
この表示装置11に表示された発言者チャートを、指示入力装置12によって任意の位置を指示することで、記録した会議の音声データの任意の位置を再生することができる。発言者チャート検索制御部15は、指示された任意の位置の音声データを検索して再生する。
【0076】
発言者チャート検索制御部15の発言特定部16は、表示装置11上で指示された位置情報から、ファイル格納部4の発言構造テーブル41の該当する発言(発言区間)を特定する処理を行う装置である。そして、図4に示したように、発言構造テーブル41に記録されているインデックスに従い、音声データファイル43の該当する個所が検索され、特定された発言(発言区間)に該当する音声データが音声データファイル43から抽出され、音声再生装置14において再生される。
【0077】
検索者意図抽出部17では、指示入力を行った検索者の指示入力の意図(指示意図)の抽出を行う。ここで、指示意図とは、音声および映像データの任意の位置を再生したい検索者であるユーザが、再生したい発言を指示した時の指示入力の検索意図を意味している。この実施の形態では、検索者の指示意図は、発言に関わる4つの属性、
▲1▼再生が指示された発言に関する発言者名、
▲2▼その発言時間、
▲3▼その前発言者名、
▲4▼その後発言者名
から抽出される。▲3▼前発言者名および▲4▼後発言者名は、発言遷移構造に関わる属性である。検索者意図抽出部17は、発言特定部16で特定された発言に関する情報に基づいて、ファイル格納部4を検索して、前記▲1▼〜▲4▼の4つの属性を取得し、それにより指示意図を抽出する。
【0078】
類次候補検出部18では、検索者意図抽出部17で抽出された指示意図の情報を受けて、当該指示意図に類似した発言である類似候補が存在するかを検索する。類似候補が存在した場合には、類次候補表示部19にその情報を送る。これを受けて、類似候補表示部19は、表示装置11に類似候補を表示する。
【0079】
図6は、検索者が再生したい発言を指示する方法を説明するための図である。図6では、発言者チャートの一部分を拡大して図示している。検索者は、再生したい発言に該当する領域を、指示入力装置12を構成するマウス等のポインティングデバイスを用いて指示する。
【0080】
図6には、図5および図7において番号108を付した、発言者「佐藤」の発言区間バーが図示されており、指示入力装置12で指し示されている位置が、矢印カーソル110によって示されている。矢印カーソル110の示している位置で、マウスボタンのクリック等、指示入力装置12による指示を行うと、後述するようにして発言区間バー108に該当する音声データが再生される。
【0081】
図7は、検索者の指示入力位置の、発言者チャート表示領域101における相対座標位置を説明するための図である。この実施の形態では、指示入力位置は、表示装置11上の座標ではなく、発言者チャート表示領域101内における相対座標として扱われる。図7において、121は発言者チャートにおける起点の座標(0,0)を示す。
【0082】
また、発言遷移表示領域107に表示されている区間の起点(座標(0,0))に該当する会議時刻は、Toriginと表すこととする。また、発言遷移表示領域107に表示されている部分に該当する会議区間の時間幅をΔTmとし、発言遷移表示領域107の表示幅をΔXmとする。したがって、時間幅ΔTmは、そのときに発言構造表示領域103内に表示されている会議区間に応じた値を持つ。ΔXmは、そのときに表示されている発言者チャート表示領域101の表示枠の大きさに依存して変動する。
【0083】
そして、図7において、122は、検索者による指示入力装置12による指示入力位置を示しており、この指示入力位置122に該当する会議時刻の値を、指示入力時刻をTpoint とする。Δxは、この指示入力位置122の、発言者チャート表示領域101における起点121からのx方向(横方向)の相対座標を示している。
【0084】
この指示入力時刻Tpoint の算出式は、
Tpoint =Torigin+ΔTm(Δx/ΔXm) …(1)
となる。
【0085】
次に、図8に、発言者チャート検索制御部15における処理の流れを示すフローチャートを示す。
【0086】
ステップ201 では、検索者であるユーザからの再生の指示入力があるかを監視する。ステップ202 では、指示入力があったかどうかを判定し、指示入力がない場合には、ステップ201 へ戻り、ユーザの指示入力の監視を繰り返す。
【0087】
ユーザからの指示入力があった場合には、ステップ203 において、ユーザの指示入力座標Ppoint を獲得する。これは表示画面上における絶対座標である。次いで、ステップ204 において指示入力位置に該当する発言を特定する。この際に、ステップ203 で獲得したユーザの指示入力座標Ppoint を、前述した発言遷移表示領域107内の相対座標位置に変換する処理も行う。以上の処理は、発言特定部16が行うことになる。そして、ステップ204 の処理の詳細は、図9のフローチャートを用いて後述する。
【0088】
ステップ205 では、特定した発言の意図を抽出する処理を行う。このステップ205 の処理は、検索者意図抽出部17が行う処理に相当する。このステップ205 の処理の詳細は、図11のフローチャートを用いて後述する。
【0089】
次のステップ206 では、抽出した指示意図と類似の発言候補を検出するための処理を行う。このステップ206 の処理は、類似候補検出部18が行う。このステップ206 の詳細は、図13のフローチャートを用いて後述する。
【0090】
次に、図9のフローチャートを用いて、ステップ204 の発言特定処理を説明する。ステップ251 では、入力された座標位置Ppoint を、発言遷移表示領域107内の相対座標位置に変換し、指示入力位置のx座標Δxを算出する。そして、次のステップ252 では、前述した(1)式から、指示入力時刻Tpoint を算出する。
【0091】
次のステップ253 では、ファイル格納部4の発言構造テーブル41から1レコード分、読込み、変数R1に代入する。これは、任意の1発言に相当するデータである。次のステップ254 では、読込んだレコードR1の発言開始時刻フィールドと発言終了時刻フィールドの値をT(開始)、T(終了)という変数にそれぞれ代入する。
【0092】
次のステップ255 では、指示入力時刻Tpoint が、レコードR1の発言開始時刻と終了時刻の間の時刻であるかを判定する。入力指示時刻Tpoint が発言開始時刻と発言終了時刻の間に存在している場合には、指示発言が特定できたと判断し、ステップ256 において、発言構造テーブル41の該当する発言のレコードR1の発言番号フィールドの値を獲得し、それを変数IDに代入し、その変数IDの値を返す。もし、ステップ255 で、指示入力時刻Tpoint が、レコードR1の発言開始時刻と終了時刻の間に存在しないと判定された場合は、ステップ253 にもどり、次のレコードを読込み、次の発言に関する処理を行う。
【0093】
次に、指示意図抽出処理について説明する。
指示意図は、前述したように、発言に関わる4つの属性、発言者名、発言時間、前発言者名、後発言者名によって定義する。これらの属性を用いて、指示意図は、この明細書では、Iinst(発言者名,発言時間,前発言者名,後発言者名)と表記する。
【0094】
図10に発言者チャートの一部を示すが、この図10では、矢印カーソル110により示されるように、会議参加者名「田中」の発言が、検索者により指示されたことを示している。このときの検索者の指示意図は、Iinst(田中,65秒,鈴木,佐藤)と規定される。これは、「田中」の発言が、発言時間が65秒であり、「鈴木」の後に発言し、「田中」の後には「佐藤」が発言したことを意味する。この実施の形態では、検索者は、この4つの属性により表現されている意図をもって特定の発言を指示したと解釈するものである。
【0095】
なお、発言に対する指示意図全体ではなく、指示意図を、個別の属性について表記する場合には、指示意図Iinst()の、()内にそれぞれの属性を記すこととする。例えば、指示意図の発言者名属性は、Iinst(発言者名)と標記する。他の発言時間、前発言者名、後発言者名の属性の場合も同様の形式で記述する。
【0096】
次に、図11のフローチャートを用いて、ステップ205 の指示意図抽出処理を説明する。
【0097】
図11は指示意図を抽出する処理を説明するためのフローチャートである。ステップ311 は初期設定であり、変数IDに発言特定処理によって特定された発言の発言番号を代入する。次のステップ312 では、発言構造テーブル41から、変数IDで示される発言番号のレコードを読込み変数Riに代入する。同様に、変数IDで示される発言番号の前後の発言に関するレコードも読込み、それぞれ変数Rp,変数Rnに代入する。
【0098】
次のステップ313 では、変数Riから発言者名属性に関する指示意図Iinst(発言者名)を導出する。次のステップ314 においても、同様に、発言時間属性の指示意図Iinst(発言時間)を導出する。
【0099】
また、次のステップ315 では、発言遷移構造に関わる指示意図を算出する。まず、変数Rpの入力装置番号に該当する会議参加者名を、ファイル格納部4の会議参加者テーブル42から抽出し、前発言者名属性の指示意図Iinst(前発言者名)を導出する。同様にして、変数Rnの入力装置番号に該当する会議参加者名を、ファイル格納部4の会議参加者テーブル42から抽出し、後発言者名属性の指示意図Iinst(後発言者名)を導出する。
【0100】
そして、次のステップ316 においては、特定された指示意図Iinst(発言者名,発言時間,前発言者名,後発言者名)の値を、類似候補検出部18に送る。
【0101】
次に、ステップ206 の類似発言検出処理について説明する。以下の説明において、発言の類似度はDIartiと表記する。この発言の類似度DIartiは、発言意図Iinstを構成する4つの属性に関する各々の類似度の合成関数として定義される。類似度を、個別の属性について表記する場合には、類似度DIarti()の、()内にそれぞれの属性を記すこととする。例えば、類似度の発言者名属性は、DIarti(発言者名)と標記する。他の発言時間、前発言者名、後発言者名も同様の形式で記述する。
【0102】
類似度DIartiは、類似度が高いほど小さな値を持つものとする。DIarti(A,B)は、発言Aと発言Bの指示意図の類似度とする。発言Aと発言Bの指示意図の各属性毎の類似度は、DIarti(A,B)()の()内にそれぞれの属性を記すことにする。
【0103】
発言者名属性の類似度DIarti(A,B)(発言者名)は、発言Aと発言Bの発言者名が等しい場合に0の値を持つ。異なる場合には、DImax というきわめて大きな類似度の値が割り当てられる。すなわち、類似度を評価する際、発言者名属性の類似度は0でない場合には、まったく類似していないと判断される。発言時間属性の類似度DIarti(A,B)(発言時間)は、発言時間の差異の絶対値で評価する。前発言者名および後発言者名の類似度は一致した場合が0,不一致の場合に1の値をとる。
【0104】
発言の類似度DIartiは、発言者名属性を条件部として、その他の各属性毎の類似度の重みづき合成関数として表現される。この発言の類似度DIartiの定義式は、次のようになる。
【0105】
すなわち、
(i) DIarti(発言者名)=0のときには、
DIarti=w1×DIarti(発言時間)+w2×DIarti(前発言者名)+w3×DIarti(後発言者名)
(ii)DIarti(発言者名)>0のときには、
DIarti=DImax …(2)
と表すことができる。なお、w1,w2,w3は重み係数である。
【0106】
発言の類似度DIartiの定義式および発言Aと発言Bの指示意図の各属性毎の類似度の定義を、図12にまとめて示す。
【0107】
(2)式に示されるように、発言の類似度DIartiに関し、発言者名属性の類似度DIarti(A,B)(発言者名)は条件部であり、一致が必要条件になる。そして、DIarti(発言者名)=0で、発言者名が一致しているときに、他の3つの属性、発言時間、前発言者名、後発言者名の合成関数として定義される。この場合、発言時間、前発言者名、後発言者名の3つの属性については、各々の類似度に、w1,w2,w3という重みがつけられ、これらが加算されることにより発言の類似度DIartiが算出される。そして、発言者名が不一致の場合は、類似度は無限大の値DImax をとり、まったく類似していないことを意味する。
【0108】
図13は類似発言を検出するための処理を説明するフローチャートである。ステップ351 は初期設定値であり、類似発言候補のリストを保持する変数Listに初期値()を設定している。ステップ352 からステップ356 の間では、発言構造テーブル41中の各レコード、すなわち各発言に対して、類似度の算出および判定などの一連の処理を繰り返す。
【0109】
ステップ352 では、発言構造テーブル41から1レコードを読込み、変数R1に代入している。ステップ353 で変数R1がnil でなければ、すなわち処理すべきレコードが存在すれば、ステップ354 の発言類似度算出処理を行う。ついでステップ355 では発言の類似度が、類似していると判定できる一定の基準を満たしているかを評価する発言類似度判定処理を行う。次のステップ356 では、類似していると判定された発言候補に該当するデータファイルの存在場所(音声データファイルや映像データファイル中の位置)を検出する。ステップ353 において、読込むべきレコードがなかったと判定された場合には処理を終了する。
【0110】
図14は、図13のステップ354 の発言類似度算出処理を説明するためのフローチャートである。ステップ401 では、変数の初期設定値を示し、変数input には発言特定処理によって特定した発言の発言番号を代入し、変数R1にはinput との類似比較対照である、現在処理中の発言番号が代入されている。
【0111】
ステップ402 では、変数input および変数R1の2つの発言番号の発言の指示意図Iinst(input )およびIinst(R1)を算出する。次のステップ403 では、定義式(2)に沿って、発言者名属性に関する変数input の指示発言と変数R1の類似発言候補の類似度DIarti(input ,R1)(発言者名)を算出する。
【0112】
そして、次のステップ404 で、この発言者名属性の類似度DIarti(input ,R1)(発言者名)の値が1かどうかを判定する。発言者属性の類似度DIarti(input ,R1)(発言者名)の値が1以外の値、すなわち不一致である場合は、これ以降の類似度は算出せず、ステップ407 において、類似度DIarti(input ,R1)(発言者名)の値として、前述したDImax というきわめて大きな値を代入して処理を終了する。
【0113】
一方、ステップ404 で発言者名が一致したと判定された場合はステップ405 に移行する。ステップ405 では、残りの3つの属性に関する類似度DIarti(input ,R1)(発言時間)、DIarti(input ,R1)(前発言者名)およびDIarti(input ,R1)(後発言者名)を個別に算出する。そして、ステップ406 において、発言番号input の指示発言と、発言番号R1の類似発言候補との類似度DIarti(input ,R1)を、定義式(2)に従って算出し、その値を発言類似度判定処理に渡す。
【0114】
図15は発言類似度判定処理を説明するためのフローチャートである。
ステップ451 では、初期設定として前記発言類似度算出処理により、発言番号input の入力指示発言と、発言番号R1の類似候補発言との類似度が求められている。次のステップ452 では、算出された類似度DIarti(input ,R1)の値が、類似しているという評価基準の類似度DIlimit よりも小さいかが判定される。評価基準値DIlimit よりも小さい場合には、この2つの発言は類似していると判定し、ステップ453 において「True」の値を返す。基準値DIlimit よりも大きい場合には、この2つの発言は類似していないと判断し、ステップ454 において「False 」の値を返す。
【0115】
図16は、図13のステップ356 の類似発言候補検出処理に相当するデータファイルの場所を検出する処理を説明するためのフローチャートである。
【0116】
ステップ471 では初期設定が行われ、変数R1に現在処理中の発言構造テーブル41のレコードが代入されている。ステップ472 において、前記類似度判定処理の結果の判定が行われ、もし戻り値が「True」の場合にはステップ473 において、指示入力発言と類似していると判定された発言に該当する音声データファイルの場所を、発言の開始時刻と終了時刻の区間によって表し、変数Listに追加する。ステップ472 において戻り値が「False 」の場合には、そのまま処理を終了する。
【0117】
以上により、会議等の参加者の音声情報を記録し、音声データファイルへアクセスするためのインデックス情報としての発言構造データを抽出し、発言構造データを発言者チャートとして視覚化するような手段を持つマルチメディア会議記録再生装置において、会議記録の検索者であるユーザが、発言者チャート上の任意の発言位置をポインティングデバイス等で指示したとき、ユーザの指示の意図を抽出し、その意図と類似の発言候補を検出するので、ユーザは、再生された音声や画像の視聴により、自分の意図したものでないと判断したときに、自分の意図するものと類似の発言を容易に検索することができる。
【0118】
[第2の実施の形態]
前記の実施の形態においては、ユーザの検索意図を、特定の発言を指示する指示入力から抽出した。しかし、ユーザの検索意図を、ユーザの再生行為による再生意図を抽出することにより、ユーザが必要としている情報を、より忠実に抽出することが可能になる。
【0119】
この第2の実施の形態では、ユーザは、特定の発言区間を再生するために、前述したように発言チャート上で、希望する発言(発言区間バー)を指示するだけでなく、発言者チャート上で再生開始指示を行い、再生情報を視聴しながら再生終了指示をすることができるようにされている。すなわち、ユーザは、複数個の発言区間に跨がった再生区間を指示することができる。そして、この第2の実施の形態では、ユーザのこの再生指示行為から再生意図を抽出して、それに基づいてユーザが必要としている情報を抽出することができるようにする。
【0120】
図17は、この第2の実施の形態の場合の検索者意図抽出部17の詳細を説明するためのブロック図であり、検索者意図抽出部17は、指示入力の意図を抽出する指示意図抽出部17aと再生意図を抽出する再生意図抽出部17bから構成される。
【0121】
指示意図抽出部17aは、指示入力情報から、指示された特定の発言に対して前述の第1の実施の形態で説明したようにして指示意図を抽出するのに対して、再生意図抽出部17bでは、再生開始から再生終了までの区間に含まれる一連の発言群の発言構造から、ユーザの、検索したい情報に対する再生意図を抽出する。
【0122】
図18は、この第2の実施の形態の場合の類似候補検出部18の詳細を説明するためのブロック図である。この第2の実施の形態の場合、類似候補検出部18は、類似度判定方式選択部18aと、類似発言候補検出部18bと、類似発言構造候補検出部18fとから構成される。
【0123】
類似度判定方式選択部18aは、検索者の指示入力情報と、再生情報とから、類似発言候補検出部18bと類似発言構造候補検出部18fとの、いずれかの適切な類似度の判定方式を選択するための処理を行う。この実施の形態では、類似度判定方式選択部18aは、後述もするように、ユーザの指示入力に応じて特定された再生区間内に1個の発言のみしか含まれていない場合は、類似発言候補検出部18bを選択し、再生区間内に複数個の発言が含まれている場合には、類似発言構造候補検出部18fを選択するようにする。
【0124】
類似発言候補検出部18bは、図13を用いて説明した第1の実施の形態の類似候補検出部の動作と同じもので、発言類似度算出部18cと、発言類似度判定部18dと、類似発言検出部18eとの3つの構成要素からなる。そして、類似発言候補検出部18b、発言類似度判定部18dおよび類似発言検出部18eの処理は、図14、図15および図16を用いて説明したものと同じである。
【0125】
類似発言構造候補検出部18fは、発言構造類似度算出部18gと、発言構造類似度判定部18hと、類似発言構造検出部18iの3つ部分から構成される。類似発言候補検出部18bと類似発言構造候補検出部18fとの相違は、次の通りである。すなわち、指示入力された発言に対して類似度を検出する場合が類似発言候補検出部18bであり、再生情報も付加して一連の発言群に対して類似度を検出するのが類似発言構造候補検出部18fである。
【0126】
図19は、発言者チャートにおける、ユーザの再生区間の指定について説明するための図である。図19は、発言者チャートの一部を示すものである。
【0127】
再生指示入力位置も、第1の実施の形態の指示入力の場合と同様に、発言遷移表示領域107内における相対座標であらわされる。図19で、発言遷移表示領域107のx方向の最も左側を、起点501 として、その相対座標を(0,0)で表す。そして、ユーザにより再生開始指示された再生開始点のx座標502 をΔxstart 、再生終了指示された再生終了点のx座標503 をΔxstopとする。
【0128】
そして、起点(0,0)に相当する時刻を起点時刻Toriginと表し、ユーザにより再生開始指示入力された時刻である再生開始指示時刻をTstart と表し、また、ユーザにより再生終了指示入力された時刻である再生終了指示時刻をTstopと表す。再生開始指示時刻Tstart と、再生終了指示時刻Tstopとの間が、再生区間である。検索者の再生意図は、この再生区間に含まれる一連の発言群に対して抽出する。
【0129】
図20は、類似発言構造候補を検出するための処理を説明するためのフローチャートである。
【0130】
ステップ601 では、検索者であるユーザからの再生開始の指示入力があるかを監視する。ステップ602 では、指示入力があったかどうかを判定し、指示入力がないと判定した場合には、ステップ601 へ戻り、ユーザの指示入力の監視を繰り返す。
【0131】
ステップ602 で、ユーザからの再生開始指示入力があったと判定された場合には、ステップ603 においてユーザの再生開始指示入力座標を抽出し、その座標を変数Pstart に入力する。この座標変数Pstart に対して、発言特定処理を行い、指示入力位置の発言を特定する。この発言特定処理は、図9を用いて説明した処理と同様である。
【0132】
次いで、ステップ605 では、ユーザからの指示入力の監視を継続し、次のステップ606 において再生の終了指示入力があったかを監視し、終了指示入力がない場合にはステップ605 において監視を継続する。ステップ606 で、再生終了指示入力があったと判定された場合には、ステップ607 において、変数Tstopに再生終了時刻を代入する。次いで、ステップ608 において再生区間特定処理を行う。ここで再生区間が特定され、再生区間に含まれる一連の発言群が特定される。再生区間特定処理の詳細については、図21を用いて後述する。
【0133】
検索者の再生終了指示入力後、類似度の判定処理が行われる。
まず、ステップ609 において類似度の判定方式を選択するための類似度判定処理を行う。この類似度判定処理の詳細については、図22を用いて後述する。
【0134】
そして、ステップ610 で、ステップ609 での類似度判定処理の結果、類似度の判定が発言に対して行われると判断された場合には、ステップ611 に移り、指示意図抽出処理を行い、また、次のステップ612 で類似発言検出処理を行う。この611 および612 の処理は、第1の実施の形態において、図11から図16までを参照しながら説明した一連の処理に相当する。
【0135】
また、ステップ610 で、類似度判定処理の結果、類似度の判定が発言構造に対して行われると判断された場合には、ステップ613 において再生意図を抽出するための処理を行い、次のステップ614 において類似した発言構造の検出処理を行う。ステップ613 の再生意図を抽出するための処理は、図24を用いて後述する。また、ステップ614 の類似した発言構造の検出処理は、図27〜図316を用いて後述する。
【0136】
前記ステップ608 の再生区間を特定する処理を、図21のフローチャートを用いて説明する。
【0137】
ステップ651 は、変数IDstart と変数IDstopの初期設定を示すものであり、変数IDstart には、再生開始指示入力位置Pstart から、ステップ604 の発言特定処理によって特定された発言番号を代入する。同様に、変数IDstopには、再生停止指示入力によって指示された入力時刻Tstopから特定された発言番号を代入する。この場合の発言特定処理は、図9に示したステップ253 〜256 の処理を指す。
【0138】
これによって、ユーザが指示入力した再生区間は求められる。しかしながら、再生終了指示行為においては、再生したいという意図がないにも関わらず、次の発言が再生された後に終了指示入力がなされるという可能性も存在する。したがって、できるだけユーザの意図した再生区間を正確に抽出するために、再生の過剰部分を補正する処理を行うほうがよい。
【0139】
一般に、ユーザは、発言の再生が開始して、それが自分の再生意図区間に関係ないものとなったときは、比較的、即座に再生終了入力をすると考えられる。そこで、この第2の実施の形態では、ユーザの再生終了指示入力があった位置の発言(以下、停止発言という)の開始時刻から、再生終了指示入力時刻までが、予め定めた一定時間ΔTlimit よりも短いときには、その最後の発言である停止発言は、再生意図に関係ない発言として、ユーザの意図した再生区間から除外するように補正する。
【0140】
すなわち、ステップ652 で、変数Tstopに再生終了指示時刻を代入する。次のステップ653 において、現時点で特定されている停止発言の発言番号IDstopに相当する発言構造テーブル41のレコードを読込み、それを変数R1に代入する。次に、ステップ654 において、変数T(開始時刻)に、変数R1のレコード中の開始時刻フィールドを代入する。
【0141】
そして、次のステップ655 では、再生終了指示入力のあった実際の時刻Tstopと、停止発言として特定された発言番号IDstopの開始時刻T(開始時刻)との差が、ある一定時間ΔTlimit よりも小さいか否かを判定する。小さい場合には、ステップ656 に移行し、検索者は意図せず過剰に再生したものと見做し、停止発言の区間は再生区間には含めないこととする。すなわち、ステップ656 においては、再生区間の終了時の発言を、停止発言の1つ前の発言と見做し、変数IDstopを「1」だけ減算する。
【0142】
ステップ655 で、再生終了指示入力のあった実際の時刻Tstopと、停止発言の開始時刻T(開始時刻)との差が、ΔTlimit よりも大きいと判別された場合には何もせず、再生終了指示入力位置で指定された時刻までの区間をそのまま再生区間とする。そして、次のステップ657 においては、以上のようにして求めた再生区間(IDstart ,IDstop)の値を返す。
【0143】
次に、類似度の判定方式を選択するための処理を、図22のフローチャートについて説明する。
【0144】
まず、ステップ671 では、前述した再生区間特定処理によって、再生区間(IDstart ,IDstop)が特定されている。次のステップ672 においては、再生開始発言IDstart と再生停止発言IDstopが等しいかが判断される。等しい場合には再生区間は区間ではなく、単一発言であることから、戻り値としては”発言”を返し、発言に対する類似度判定を行う。一方、等しくない場合には、再生区間には複数の発言が含まれていることから、戻り値としては”発言構造”を返し、発言構造に対する類似度判定を行う。
【0145】
図23は、再生意図を説明するための図であり、これは、発言者チャートの一部を示すものである。
【0146】
図24に、再生意図の定義と表記方式について示す。この実施の形態において、再生意図は、再生区間内における発言群の発言構造に関わる6つの属性によって定義する。6つの属性とは、▲1▼指示発言、▲2▼停止発言者名、▲3▼総発言数、▲4▼総発言時間、▲5▼発言者集合、▲6▼発言遷移行列である。
【0147】
これらの属性を用いて、再生意図は、Ireplay(指示発言,停止発言者名,総発言数,総発言時間,発言者集合,発言遷移行列)と表記する。また、再生意図全体ではなく、再生意図を、個別の属性について表記する場合には、再生意図Ireplay()の、()内にそれぞれの属性を記すこととする。例えば、再生意図の発言者名属性は、Ireplay(発言者名)と標記する。他の停止発言者名、総発言数、総発言時間、発言者集合、発言遷移行列の属性の場合も同様の形式で記述する。
【0148】
6つの属性の詳細について説明すると、指示発言は、再生区間指示の場合には、再生開始指示位置の発言(発言区間)に相当し、Ireplay(指示発言)=Iinst(指示発言)である。停止発言者名は、停止発言の発言者名である。総発言数は、再生区間(IDstart ,IDstop)内に含まれる発言数である。また、総発言時間は、再生区間(IDstart ,IDstop)内の各発言の時間の総和である。発言者集合は、再生区間(IDstart ,IDstop)内に含まれる発言者名の、重複を除いたリストである。
【0149】
発言遷移行列は、発言者集合に含まれる複数人の発言者間の発言の遷移を表す行列であり、発言者集合の発言者数がn人であれば、n行×n列の行列である。すなわち、発言者ごとの入力装置番号順に、n人を並べ、また、n列に並べる。そして、ある発言者Aから、ある発言者Bに発言の遷移があった場合に、発言者Aの入力装置番号に相当する行であって、発言者Bの入力装置番号に相当する列の要素に1を加算する。これによって、どの発言者からどの発言者へ、何回の遷移が生じたのかを表すことができる。
【0150】
図25は、図23に示した発言者チャートの再生区間に該当する再生意図の記述例を示している。
【0151】
まず、指示発言は再生入力指示された発言であるから、発言番号205 が特定される。停止発言者名は、特定された再生区間の停止発言に該当する発言の発言者名であるから、図23の例では発言番号209 の発言者「鈴木」である。総発言数は、再生区間内に含まれる発言の総数であるから、この例では5件である。総発言時間は、再生区間内に含まれる発言群の各発言時間の総和であるが、再生指示時刻Tstart ,再停止時刻Tstopの差異時間は考慮せず、発言番号205 の先頭から、発言番号209 の最後までであり、例えば3分20秒である。発言者集合は、この例では、(田中,鈴木,佐藤)である。鈴木は3度の発言を行っているが、重複を除くので、1度しかカウントしない。
【0152】
発言遷移行列は、図23の例では、発言者「鈴木」から「田中」に1回、発言者「田中」から「鈴木」に1回、発言者「鈴木」から「佐藤」に1回、発言者「佐藤」から「鈴木」に1回という行列になる。
【0153】
図26および図27は、再生意図を抽出する処理を説明するためのフローチャートである。
【0154】
ステップ711 とステップ712 とは、初期設定のための処理である。まず、ステップ711 で、再生区間特定処理によって変数IDstart とIDstopに、それぞれ再生開始指示のあった発言の発言番号、再生終了指示のあった発言の発言番号が代入される。
【0155】
次のステップ712 では、各種の変数の初期値を設定している。変数timeは総発言時間の値を保持する。変数Listは発言者集合を保持するためのリストである。変数idには初期値として指示発言(開始発言)が設定される。変数transferは発言遷移行列を保持する変数である。初期値としては、会議参加者数nとした場合、n×nのゼロ行列が設定される。
【0156】
ステップ713 では、再生停止発言の発言番号IDstopに相当する発言構造テーブルのレコードを読込み、変数R1に代入する。次のステップ714 では、変数name-stop に、読み込んだ変数R1のレコード中の入力装置番号に相当する会議参加者名を、会議参加者テーブル42から獲得して代入する。これは、停止発言者名に相当する。
【0157】
次のステップ715 では、発言構造テーブル41中の、再生開始発言の1つ前の発言のレコードを読込み、それを変数R1に代入し、以後のステップ716 からステップ721 における繰り返し処理の準備を行う。ステップ716 〜ステップ721 までの処理は、再生区間内の各発言に対して繰り返し行われる再生意図抽出処理である。
【0158】
まず、ステップ716 において、変数idに示される再生開始発言の発言番号と一致するレコードを発言構造テーブル41から読込み、それを変数R2に代入する。したがって、変数R1と変数R2とには、前後した発言に関するレコードが代入されていることになる。なお、以下の繰り返し処理の中での基本的な処理対象はR2である。
【0159】
ステップ717 では、変数R2のレコード中の発言番号が、停止発言IDstopの発言番号よりも小さいか、すなわち再生区間内に存在するかを判定する。再生区間内に存在する場合には、ステップ718 ,ステップ719 ,ステップ720 において、再生意図に関わる属性の計算を行う。
【0160】
まず、ステップ718 では、総発言時間timeに、変数R2のレコード中の発言時間を加算する。総発言数の変数numberも、+1、加算する。ステップ719 では、発言者集合に関する処理が行われる。変数nameとしては、変数R2のレコード中の入力装置番号に該当する会議参加者名を、会議者参加者テーブル42から取り出す。これが現在処理中の発言の発言者名である。そして、この変数nameに示される発言者名が、発言者集合Listにすでに存在しているかが判定され、まだリストに存在していない場合には、発言者集合Listに、その変数nameの発言者名が追加される。
【0161】
ステップ720 では、発言遷移号列の処理が行われる。会議参加者数=nのときのn×n行列において、発言R2の前発言R1の入力装置番号を行番号とし、R2の入力装置番号を列番号とする要素の値に+1加算する。これはR1からR2への発言の遷移があったことを意味している。
【0162】
ステップ721 では、次の繰り返しのための後処理が行われている。すなわち、変数idに+1加算することで、次の発言を処理するための準備をおこなう。また、変数R2は次の処理ループにおいては前発言となり、変数R1に代入する。
【0163】
ステップ717 で変数idの発言番号が、発言区間内に存在しないと判断された場合には、ステップ722 に移行し、算出した意図属性から全体の再生意図を導出し、再生意図Ireplay(IDstart ,name-stop ,number,time,List,transfer)を戻り値として返す。
【0164】
図28は、発言構造の類似度の定義および表記方法を説明する図である。発言の類似度と同様、意図をI、類似度をDIと表記する。DIは発言構造A,Bの類似度とする。この場合も、類似度は、類似度が高いほど小さな値を持つものとする。
【0165】
発言構造の類似度は、図示の定義式のように定義される。すなわち、発言構造の類似度DIa-struは、指示発言の類似度DIartiと、発言構造の類似度DIstruの総和として定義でき、
DIa-stru=α1×DIarti+α2×DIstru …(3)
として表される。α1およびα2はそれぞれ重み係数である。
【0166】
指示発言の類似度はすでに定義済みであるので、ここでは、再生意図を構成する6つの属性のうち、指示発言を除く、他の5つの属性に関する類似度の定義について説明する。
【0167】
停止発言者名の類似度DIstru(A,B)(停止発言者名)は、発言構造Aと発言構造Bのおのおのの発言区間において、最終の発言者名が同一であるかを判断するものである。停止発言者名が一致する場合には、0の値をとり、異なる場合はDImax という大きな値を持つ。これは、指示発言の類似度と同様に、発言構造の類似度においては、停止発言者名が一致しなければ、類似度の値は限りなく大きくなり、類似していないと判断されることを意味している。
【0168】
総発言数の類似度DIstru(A,B)(総発言数)は、総発言数の差異の絶対値で定義される。
【0169】
同様に、総発言時間の類似度DIstru(A,B)(総発言時間)は、総発言時間の差異の絶対値で定義される。
【0170】
発言者集合の類似度DIstru(A,B)(発言者集合)は、発言構造Aと発言構造Bの発言者集合の和において、集合内の要素でAとBで重複しない発言者の集合を算出する。類似度は、この算出された集合の要素数で定義され、発言者集合が一致しない発言者が多いほどその数値は大きくなる。
【0171】
発言遷移構造の類似度DIstru(A,B)(発言遷移行列)は、発言遷移行列の差異の絶対値を算出し、各要素の総和によって定義される。これは、発言者Xから発言者Yへの遷移というパターンの一致度がどのくらい存在するのかを表し、同一遷移パターンが多いほど、類似度の値は小さくなり、類似度は大きいと解釈する。
【0172】
発言構造の類似度は、次の定義式(4)に示すように、停止発言者名属性を条件部として、その他の各属性毎の類似度の重みづき合成関数として表現される。すなわち、発言構造の類似度DIstruは、
(i) DIstru(停止発言者名)=0のときには、
DIstru=w1×DIstru(総発言数)+w2×DIstru(総発言時間)+w3×DIstru(発言者集合)+w4×DIstru(A,B)(発言遷移行列)
(ii)DIstru(停止発言者名)>0のときには、
DIstru=DImax …(4)
と定義される。なお、w1,w2,w3,w4は重み係数である。
【0173】
この式(4)に示されるように、発言構造の類似度に関し、停止発言者名属性の類似度は条件部であり、一致が必要条件になる。停止発言者名が一致しているときに、他の4つの属性の合成関数の合成関数として定義される。すなわち、発言構造が類似しているということは、指示発言が類似していることに加えて、停止発言者名が一致していることが必要条件であり、不一致の場合は類似度は無限大の値をとり、まったく類似していないことを意味するからである。
【0174】
総発言数、総発言時間、発言者集合、発言遷移行列の4つの属性の合成関数では、各々の類似度に、w1,w2,w3,w4という重みがつけられ、加算することにより類似度を算出する。
【0175】
図29は、類似発言構造を検出するための処理を説明するフローチャートである。
【0176】
ステップ781 は初期設定を行うステップであり、類似発言構造の存在場所の値のリストを保持する変数Listに初期値()を設定している。ステップ782 では、発言構造テーブル41から1レコード読込み、変数R1に代入する。次のステップ783 では、変数R1がnil でなければ、すなわち処理すべきレコードが存在すれば、次のステップ784 において類似発言構造候補の区間の抽出を行う。次いで、ステップ785 の発言構造類似度算出処理を行う。
【0177】
そして、次のステップ786 では、算出された発言構造の類似度が、類似しているという一定の基準を満たしているかいなかを評価する発言構造類似度判定処理を行い、ステップ787 で類似していると判定された発言構造候補に該当するデータファイルの存在場所を検出する。ステップ783 において読込むべきレコードがなかった場合には処理を終了する。
【0178】
図30は、発言構造の類似候補の発言区間を抽出するための処理を説明するフローチャートである。
【0179】
ステップ801 では、処理の初期値として、再生区間特定処理によって再生区間Aと、再生意図抽出処理によって再生意図Ireplay(A)(指示発言、停止発言者名、総発言数、総発言時間、発言者集合、発言遷移行列)を算出する。
【0180】
次のステップ802 では、検出した類似発言構造候補を代入する変数KListに空リスト()を代入する。ステップ803 では、現在処理中の発言構造テーブルのレコードR1の発言番号を抽出し、変数idに代入する。ステップ804 では、再生区間の開始発言である発言番号IDstart の発言と、発言番号idの発言との類似度を算出し、その類似度が、ある一定の類似度DIlimit よりも小さいか否かが判定される。開始発言の指示意図が類似していることは、発言構造が類似しているための必要条件である。従って、もし、類似度が一定の値よりも大きい、すなわち、類似していないと判定されたら、ステップ813 へ移り、戻り値としてKListを返し、処理は終了する。
【0181】
ステップ804 で、再生区間の開始発言と、発言番号idの発言が類似していると判定された場合には、ステップ805 〜ステップ812 の処理で、発言構造の区間を特定する。
【0182】
すなわち、ステップ805 では、カウンタ変数nの初期値としてid+1を代入する。これは、現在処理中の発言の次の発言から処理を行うことを意味している。また、停止発言者の処理に関するカウンタ変数mの初期値として1を設定し、変数Mには、停止発言者名に関する処理のループの最大回数として、再生区間内における停止発言者名の発言回数を設定する。これは、類似発言構造の区間を抽出する際、調査する区間の範囲を限定する一つの基準として、停止発言者の出現回数を用いたケースである。
【0183】
次のステップ806 においては、発言番号がnのレコードを発言構造テーブル41から読込み、それを変数R2に代入する。次のステップ807 においては、変数R2がnil かどうかを判定し、nil の場合、すなわち、読込むべきレコードがない場合には、適切な発言構造が抽出できなかったとして、ステップ813 に移り、変数KListを戻り値として返し、処理は終了する。
【0184】
ステップ807 において、変数R2がnil でないと判定されたときには、ステップ808 に移行する。ステップ808 では、変数mが停止発言者名に関するループの最大値を超えたかどうかが判断され、超えていた場合には、発言idに関する処理は終了し、ステップ813 で戻り値としてKListを返し、処理は終了する。超えていなければ、ステップ809 に進む。
【0185】
ステップ809 においては、再生意図の停止発言者名属性の値と、変数R2の発言番号に相当する会議参加者名が一致しているかを判断する。一致しない場合には、ステップ811 においてカウンタ変数nに1を加算し、次の発言の処理を行うためにステップ806 へ移行する。一致している場合には、類似発言候補の区間が特定されたと判断し、ステップ810 に移行して、変数KListに、特定された類似発言候補の区間(id,n)をKListに追加する。そして、ステップ812 で停止発言者名に関する処理のカウンタ変数mに1を加えて、発言番号idの発言に関して次の発言構造を探索するための処理を継続する。
【0186】
図31は、発言構造の類似度算出処理を説明するためのフローチャートである。まず、ステップ851 では、初期設定として類似発言構造区間抽出処理により、抽出した区間のリストをKListに代入する。次いで、ステップ852 では、再生区間を変数Aに設定する。
【0187】
ステップ853 からステップ858 は、KListの各要素毎に類似度を算出するための処理を行う。ステップ853 では、KListから類似発言構造候補である1つの区間(IDstart ,IDstop)を取り出し、変数Bに代入する。ステップ854 では、KList中のすべての発言構造についての処理が終了したのかを判断する。もし終了したら、ステップ859 に移る。
【0188】
ステップ854 で処理すべき再生区間が存在すると判定された場合には、ステップ855 で変数Aの再生区間と、変数Bの再生区間のそれぞれ開始発言に関する指示意図の類似度を定義式にそって算出する。ついで、ステップ856 では、発言構造を規定する各属性毎の類似度を算出する。このとき、停止発言者名に関する類似度は区間抽出時に判定済みであり、ここでは、総発言数、総発言時間、総発言者集合、発言遷移行列の4つの属性について算出する。
【0189】
次のステップ857 では、定義式にそって、再生区間Aと再生区間Bの発言構造の類似度を定義式にそって算出する。次のステップ858 では、開始発言の指示意図の類似度と、発言構造の類似度の両者を合わせた総合的な発言構造の類似度を算出し、類似度のリストを保持する変数DListに追加する。以降、ステップ853 に戻り、処理を繰り返す。
【0190】
最後に、ステップ859 で、類似発言候補のリストKListと、類似度のリストDListを戻り値として処理を終了する。
【0191】
図32は、類似発言構造候補の類似度の判定を行い、該当する音声データファイルの場所を検出する処理を説明するためのフローチャートである。
【0192】
ステップ871 で、初期設定が行われ、類似度算出処理による戻り値である類似発言候補の区間のリストを変数KListに、再生意図との類似度の値のリストを変数DListに、それぞれ代入する。
【0193】
ステップ872 からステップ875 までは、リスト中の各要素に対して、類似度判定処理を行う。まずステップ872 において、DList,KListのリスト中からそれぞれ1つの要素を取り出し、変数D,変数Kに代入する。次のステップ873 では処理すべき要素が終了したか否かを判定する。終了した場合にはステップ876 に進む。ステップ876 では、類似発言構造の区間を保持する変数Listの値を戻り値として返し、処理を終了する。
【0194】
ステップ873 で、リスト中の要素の処理が終了していないと判定した場合には、ステップ874 で、類似度の値が、ある一定の制限値DIlimit よりも小さいか否かを判定する。ある一定の類似度よりも小さな値の場合には、類似していると判定され、ステップ875 に進み、変数Dに該当する区間Kを、類似発言構造候補を保持するリストListに追加する。そして、ステップ872 に戻り、次の要素に関して処理を繰り返す。ステップ874 で、変数Dの値がDIlimit よりも大きい場合は、類似していないと判定し、ステップ872 に戻り、次の要素の処理に進む。
【0195】
図33は、検出された類似発言構造候補の表示方法の一実施例を説明するための図である。
【0196】
901 は類似発言構造候補表示領域である。この領域901 は、全会議時間表示領域902 と、類似発言構造候補縮小図表示領域903 との2つの領域から構成される。類似発言構造が検出されると、全会議時間表示領域902 に、類似発言構造候補が存在する場所が、縦バー表示904 および905 のように示される。縦バー表示904 は、再生区間を示している。
【0197】
縦バー表示905 は、類似発言候補の存在場所を示す。全会議時間表示領域902 に、類似発言構造候補の存在場所が示されることで、類似発言候補が全体のどの部分に存在しているのかが一覧できる。
【0198】
類似発言構造候補縮小図表示領域903 は、複数の矩形領域から構成される。各矩形領域には、発言構造の縮小図が表示される。906 に表示された縮小図は904 再生区間に相当する発言構造である。矩形領域907 を始めとするその他の矩形領域には、縦バー表示905 を始めとする他の会議時間中に存在する類似発言構造候補に相当する発言構造の縮小図が、時系列順に表示されている。検索者は、表示された縮小図をマウス等ポインティングデバイスによりクリックすることにより、類次候補を選択し、再生することができる。
【0199】
なお、全会議時間表示領域902 において、その存在場所を示すだけではなく、矩形領域の表示色を変化させることで、類似度の大きさも情報として提示することもできる。また、ここでは類似発言候補に関して表示例を示したが、類似発言の表示方法に関しても、類似発言および前後の遷移発言構造を含めた部分に関して、同様の表示を行うことができる。
【0200】
【発明の効果】
以上のように、請求項1〜請求項11の発明による会議記録再生装置および方法によれば、検索者の検索意図を検索の指示入力行為および再生行為から自動的に抽出し、類似した発言および一連の発言群を検出し、表示画面上に視覚化して提示する。これにより、会議情報の検索者の検索意図と類似した構造を持つ発言が、検索者の付加的な入力なしに、自動的に抽出できる。さらに、検索者に類次発言候補を視覚的に提示することにより、その存在を知らしめることが可能となる。
【0201】
また、請求項1〜請求項11の発明によれば、類似発言および類似発言構造候補を、検索者に提示することにより、会議情報の必要とする情報へとアクセスしたい検索者が、十分なアクセスのための手がかりがない状態でアクセスし、正しい場所にアクセスできなかった場合にも、検索意図に類似した他の候補が自動的に提示されることにより、効率的に、正しいアクセス場所へとたどり着くことが可能となる。
【0202】
逆に、あいまいな記憶にたよって、再生個所を正しいと誤って判断した場合にも、他に類似候補が存在することを検索者に示すことで、他にも正しいと考えられる候補が存在することを検索者が知ることができ、検索もれを減少させることができる。
【0203】
また、請求項9の発明によれば、類次候補の表示画面において、時系列的な全体の中の相対的な位置と、各類似候補の内容が把握できる詳細情報の縮小図の一覧表示を同時に表示することにより、相対的な位置情報と絶対的な内容に関する情報2つの情報を有機的に連結することができる。これにより、発言構造の認識力が向上し、検索者の検索行為を適切にナビゲートし、効率的に検索が可能となる。また、このような情報を参照しながら再生情報を聞く、または見ることにより、再生内容の理解も促進することができる。
【図面の簡単な説明】
【図1】この発明の一実施の形態の会議情報記録再生装置のシステム構成図を示すブロック図である。
【図2】この発明の一実施の形態の会議情報記録再生装置のファイル格納部に格納されるデータファイルについて説明する図である。
【図3】図2のファイル格納部の会議参加者テーブルのデータ構造を説明するための図である。
【図4】図2のファイル格納部の発言構造テーブルのデータ構造を説明するための図である。
【図5】発言者チャートの一例を示す図である。
【図6】検索者が再生したい発言を指示する方法を説明するための図である。
【図7】検索者の指示入力位置と発言者チャート表示領域における相対座標位置との関係を説明するための図である。
【図8】この発明の一実施の形態の会議情報記録再生装置において、類似発言候補を検出するための処理の概要を示すフローチャートである。
【図9】この発明の一実施の形態の会議情報記録再生装置において、発言特定処理を説明するためのフローチャートである。
【図10】この発明の一実施の形態の会議情報記録再生装置において、指示意図を説明するための図である。
【図11】この発明の一実施の形態の会議情報記録再生装置において、指示意図を抽出する処理を説明するためのフローチャートである。
【図12】この発明の一実施の形態の会議情報記録再生装置において、発言の類似度の定義および表記方法を説明する図である。
【図13】この発明の一実施の形態の会議情報記録再生装置において、類似発言を検出するための処理を説明するフローチャートである。
【図14】この発明の一実施の形態の会議情報記録再生装置において、発言類似度算出処理を説明するためのフローチャートである。
【図15】この発明の一実施の形態の会議情報記録再生装置において、発言類似度判定処理を説明するためのフローチャートである。
【図16】この発明の一実施の形態の会議情報記録再生装置において、発言類似候補に相当するデータファイルの場所を検出する処理を説明するためのフローチャートである。
【図17】この発明の一実施の形態の会議情報記録再生装置において、検索者意図抽出部の詳細を説明するためのブロック図である。
【図18】この発明の一実施の形態の会議情報記録再生装置において、類似候補検出部の詳細を説明するためのブロック図である。
【図19】この発明の一実施の形態の会議情報記録再生装置において、発言者チャートにおける再生区間について説明するための図である。
【図20】この発明の一実施の形態の会議情報記録再生装置において、類似発言構造候補を検出するための処理を説明するためのフローチャートである。
【図21】この発明の一実施の形態の会議情報記録再生装置において、再生区間を特定する処理を説明するためのフローチャートである。
【図22】この発明の一実施の形態の会議情報記録再生装置において、類似度の判定方式を選択するための処理を説明するフローチャートである。
【図23】この発明の一実施の形態の会議情報記録再生装置において、再生意図を説明するための図である。
【図24】この発明の一実施の形態の会議情報記録再生装置において、再生意図を説明するための図である。
【図25】この発明の一実施の形態の会議情報記録再生装置において、再生意図を説明するための図である。
【図26】この発明の一実施の形態の会議情報記録再生装置において、再生意図を抽出する処理を説明するためのフローチャートの一部を示す図である。
【図27】この発明の一実施の形態の会議情報記録再生装置において、再生意図を抽出する処理を説明するためのフローチャートの一部を示す図である。
【図28】この発明の一実施の形態の会議情報記録再生装置において、発言構造の類似度の定義および表記方法を説明する図である。
【図29】この発明の一実施の形態の会議情報記録再生装置において、類似発言構造を検出するための処理を説明するフローチャートである。
【図30】この発明の一実施の形態の会議情報記録再生装置において、発言構造の類似候補の発言区間を抽出するための処理を説明するフローチャートである。
【図31】この発明の一実施の形態の会議情報記録再生装置において、発言構造の類似度算出処理を説明するためのフローチャートである。
【図32】この発明の一実施の形態の会議情報記録再生装置において、類似発言構造候補の類似度の判定を行い、該当する音声データファイルの場所を検出する処理を説明するためのフローチャートである。
【図33】この発明の一実施の形態の会議情報記録再生装置において、検出された類似発言構造候補の表示方法の一実施例を説明するための図である。
【符号の説明】
1a 音声入力装置
2 A/D変換装置
4 ファイル格納部
5 発言者チャート生成制御部
6 発話データ抽出部
7 タイマー
8 発言構造テーブル生成部
9 発言者チャート生成部
10 発言者チャート表示部
11 表示装置
12 指示入力装置
13 映像再生装置
14 音声再生装置
15 発言者チャート検索制御部
16 発言特定部
17 検索者意図抽出部
18 類似候補検出部
19 類似候補表示部

Claims (11)

  1. 複数人の会議参加者が会議を行う際の音声データを記録する記録手段と、
    前記音声データから、前記複数人の会議参加者による発言を抽出して発言構造を示す情報を記憶するとともに、前記発言に関連する複数の属性情報を記憶する発言構造情報記憶手段と、
    前記発言構造を視覚化するための視覚化情報を生成する視覚化情報生成手段と、
    前記視覚化情報に基づいて前記発言構造を表示装置にて視覚化させる発言構造表示手段と、
    前記発言構造表示手段により前記表示装置上に視覚化された発言構造中において指示入力を行うための指示入力手段と、
    前記指示入力手段で指示された位置または部分に該当する音声データを再生する再生手段と、
    前記指示入力手段で指示された位置または部分に対応する前記複数の属性情報を、前記発言構造記憶手段から、検索者の指示操作の意図として取得する意図取得手段と、
    前記意図取得手段で取得された前記複数の属性情報と、前記発言構造情報記憶手段に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の指示操作の意図と類似した意図を持つと判定される音声データ区間を検出する類似候補検出手段と、
    前記類似候補検出手段で検出された類似候補を表示装置上に視覚化するための類似候補表示手段と、
    を具備することを特徴とする会議情報記録再生装置。
  2. 会議情報の音声データを入力するために会議参加者のそれぞれに設けられる音声入力装置と、
    前記音声データを格納する第1の記憶手段と、
    前記音声データから発言を抽出する発話データ抽出手段と、
    前記抽出した発言のデータと、前記発言に関連する複数の属性情報と、タイマーから発言構造テーブルを生成する発言構造テーブル生成手段と、
    前記発言構造テーブルを格納する第2の記憶手段と、
    前記音声入力装置と前記会議参加者との対応関係を保持する会議参加者テーブルを格納する第3の記憶手段と、
    前記発言構造テーブルを表示装置上に視覚化するための発言者チャートを生成する発言者チャート生成手段と、
    前記発言者チャート生成手段で生成された前記発言者チャートを前記表示装置上に表示する発言者チャート表示手段と、
    前記発言者チャート上で、検索者が再生を意図する任意の発言を指示するための指示入力手段と、
    前記指示入力手段によって指示された発言を特定する発言特定手段と、
    前記発言特定手段で特定された発言の音声データを再生する再生手段と、
    前記特定された発言に関する前記検索者の指示意図として、前記特定された前記発言に関連する複数の属性情報を、前記第2の記憶手段から取得する意図取得手段と、
    前記意図取得手段で取得された前記複数の属性情報と、前記第2の記憶手段に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の再生指示操作の意図と類似した意図を持つと判定される類似発言候補を検出する類似発言検出手段と、
    前記類似発言検出手段で検出された類似発言候補を表示装置上に視覚化するための類似発言候補表示手段と
    を具備することを特徴とする会議情報記録再生装置。
  3. 請求項2に記載の会議情報記録再生装置において、
    前記意図取得手段では、前記指示された発言に関する、発言者名、発言時間、前発言者名、後発言者名の4つの属性情報を、前記検索者の意図として取得することを特徴とする会議情報記録再生装置。
  4. 請求項2に記載の会議情報記録再生装置において、
    前記類似発言検出手段は、
    前記指示意図抽出手段において抽出された指示入力された発言の意図と、前記発言構造テーブル中の他の発言との類似度を、前記複数個の属性情報の合成関数により算出する発言類似度算出手段と、
    前記発言類似度算出手段で算出された前記類似度が、予め定めた値以上の類似度を持つか否かを判定する発言類似度判定手段と、
    を有し、前記発言類似度判定手段の判定結果に基づいて、前記類似発言候補を検出することを特徴とする会議情報記録再生装置。
  5. 請求項2に記載の会議情報記録再生装置において、
    前記指示入力手段によって、前記検索者が再生区間の指示が可能であり、
    前記意図取得手段では、
    前記検索者の再生行為を監視する再生操作監視手段を持ち、
    再生された音声データ区間の一連の発言群に関わる前記属性情報を、検索者の再生意図として取得する再生意図取得手段を備える
    ことを特徴とする会議情報記録再生装置。
  6. 請求項5に記載の会議情報記録再生装置において、
    前記再生意図取得手段で用いる前記属性情報は、前記再生された音声データ区間の一連の発言群の再生開始発言に関する発言者名、発言時間、前発言者名、後発言者名の4つの属性情報と、停止発言者名、総発言数、総発言時間、発言者集合、発言遷移行列であることを特徴とする会議情報記録再生装置。
  7. 請求項5に記載の会議情報記録再生装置において、
    前記類似発言検出手段では、
    前記再生意図取得手段からの前記複数の属性情報を用いて、前記発言構造テーブル中の他の一連の発言群に関して、発言構造の類似度を算出する発言構造類似度算出手段と、
    前記発言構造類似度算出手段で算出された前記発言構造の類似度が、予め定めた値以上の類似度を持つか否かを判定する発言構造類似度判定手段と、
    を有し、前記発言構造類似度判定手段の判定結果に基づいて、前記類似発言構造候補を検出することを特徴とする会議情報記録再生装置。
  8. 請求項5の会議情報記録再生装置において、
    前記類似発言検出手段は、
    再生された発言の状況に応じて、類似発言検出手段と類似発言構造検出手段を自動的に選択する類似度判定方式選択手段を有することを特徴とする会議情報記録再生装置。
  9. 請求項2の会議情報記録再生装置において、
    前記類似発言候補表示手段は、
    会議時間の情報を時系列的に可視化する全会議時間表示領域と、複数個の発言構造の縮小図を表示する類似候補縮小図表示領域との2つの表示領域を持ち、
    前記全会議時間表示領域に、前記検索者の前記指示入力装置からの入力指示により定まる再生区間およびその再生区間の類次候補の存在区間を前記時系列上に部分表示領域として表示する手段と、
    前記類似候補縮小図表示領域には、前記全会議時間表示領域に表示された部分表示領域の区間の発言構造を縮小した類似候補縮小図を、前記部分表示領域の数だけ一覧表示する一覧表示手段と、
    を備え、
    さらに、前記一覧表示された複数個の前記類似候補縮小図のうちの一つが、前記検索者により選択指示されたことを検知して、前記選択指示された区間の音声データを再生する手段と、
    を備えることを特徴とする会議情報記録再生装置。
  10. 記録手段と、発言構造記憶手段と、視覚化情報生成手段と、発言構造表示手段と、指示入力手段と、再生手段と、意図取得手段と、類似候補検出手段と、類似候補表示手段とを具備する会議情報記録再生装置が行う会議情報記録再生方法であって、
    前記記録手段が、複数人の会議参加者が会議を行う際の音声データを記録する記録工程と、
    前記発言構造記憶手段が、前記音声データから、前記複数人の会議参加者による発言を抽出して発言構造を示す情報を記憶するとともに、前記発言に関連する複数の属性情報を記憶部に記憶する発言構造情報記憶工程と、
    前記視覚化情報生成手段が、前記発言構造抽出工程で抽出された前記発言構造を視覚化するための視覚化情報を生成する視覚化情報生成工程と、
    前記発言構造表示手段が、前記視覚化情報生成工程で生成された前記視覚化情報に基づいて前記発言構造を表示装置に表示する表示工程と、
    前記指示入力検出手段が、前記表示装置上に表示された発言構造中において指示入力手段を通じて入力された指示入力を検出する指示入力検出工程と、
    前記再生手段が、前記指示入力検出工程で検出された前記指示入力手段によって指示された位置または部分に該当する音声データを、前記記録された音声データから再生する再生工程と、
    前記意図取得手段が、前記指示入力検出工程で検出された前記指示入力に基づいて、前記指示入力手段で指示された位置または部分に対応する発言に関連する前記複数の属性情報を、前記記憶部から、検索者の指示操作の意図として取得する意図取得工程と、
    前記類似候補検出手段が、前記意図取得工程で取得された前記複数の属性情報と、前記記憶部に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の指示操作の意図と類似した意図を持つと判定される音声データ区間を検出する類似候補検出工程と、
    前記類似候補表示手段が、前記類似候補検出工程で検出された類似候補を前記表示装置上に視覚化する類似候補表示工程と、
    を具備することを特徴とする会議情報記録再生方法。
  11. 第1および第2の記録手段と、発話データ抽出手段と、発言構造テーブル生成手段と、発言者チャート生成手段と、発言者チャート表示手段と、指示入力手段と、発言特定手段と、再生手段と、意図取得手段と、類似発言検出手段と、類似発言候補表示手段とを具備する会議情報記録再生装置が行う会議情報記録再生方法であって、
    前記第1の記録手段が、会議参加者のそれぞれに設けられる音声入力装置からの音声データを第1の記憶部に記録する第1の記録工程と、
    前記発話データ抽出手段が、前記音声入力装置からの音声データから発言を抽出する発話データ抽出工程と、
    前記発言構造テーブル生成手段が、前記発話データ抽出工程で抽出された発言のデータと、前記発言に関連する複数の属性情報と、タイマーから発言構造テーブルを生成する発言構造テーブル生成工程と、
    前記第2の記録手段が、前記発言構造テーブル生成工程で生成された前記発言構造テーブルを第2の記憶部に記録する第2の記録工程と、
    前記発言者チャート生成手段が、前記発言構造テーブルを表示装置上に視覚化するための発言者チャートを生成する発言者チャート生成工程と、
    前記発言者チャート表示手段が、前記発言者チャート生成工程で生成された前記発言者チャートを前記表示装置上に表示する発言者チャート表示工程と、
    前記発言特定手段が、前記発言者チャート表示工程により表示された前記発言者チャート上で、指示入力手段により指示された発言を特定する発言特定工程と、
    前記再生手段が、前記発言特定工程で特定された発言の音声データを、前記第1の記憶部に記録された音声データから再生する再生工程と、
    前記意図取得手段が、前記発言特定工程で特定された発言に関する前記検索者の指示意図として、前記特定された前記発言に関連する複数の属性情報を、前記第2の記憶手段から取得する意図取得工程と、
    前記類似発言検出手段と、前記意図取得工程で取得された前記複数の属性情報と、前記第2の記憶部に記憶されている各発言に関連する複数の属性情報との類似度を算出して、前記検索者の再生指示操作の意図と類似した意図を持つと判定される類似発言候補を検出する類似発言検出工程と、
    前記類似発言候補表示手段が、前記類似発言検出工程で検出された類似発言候補を表示装置上に視覚化するようにする類似発言候補表示工程と
    を具備することを特徴とする会議情報記録再生方法。
JP21029197A 1997-08-05 1997-08-05 会議情報記録再生装置および会議情報記録再生方法 Expired - Fee Related JP3879786B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21029197A JP3879786B2 (ja) 1997-08-05 1997-08-05 会議情報記録再生装置および会議情報記録再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21029197A JP3879786B2 (ja) 1997-08-05 1997-08-05 会議情報記録再生装置および会議情報記録再生方法

Publications (2)

Publication Number Publication Date
JPH1153385A JPH1153385A (ja) 1999-02-26
JP3879786B2 true JP3879786B2 (ja) 2007-02-14

Family

ID=16586976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21029197A Expired - Fee Related JP3879786B2 (ja) 1997-08-05 1997-08-05 会議情報記録再生装置および会議情報記録再生方法

Country Status (1)

Country Link
JP (1) JP3879786B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251393A (ja) * 2001-02-22 2002-09-06 Ricoh Co Ltd 記録装置、記録方法、プログラムおよび記録媒体並びに記録再生システム
JP2005250317A (ja) * 2004-03-08 2005-09-15 Fuji Xerox Co Ltd 情報処理装置
JP2007027918A (ja) * 2005-07-13 2007-02-01 Sharp Corp 実世界コミュニケーション管理装置
JP2007256498A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP5521414B2 (ja) * 2009-07-08 2014-06-11 株式会社ナカヨ通信機 録音装置
JP5573402B2 (ja) * 2010-06-21 2014-08-20 株式会社リコー 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体
JP5849819B2 (ja) * 2012-03-28 2016-02-03 富士通株式会社 音声データ検索装置、音声データ検索方法および音声データ検索プログラム
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
CN106921842B (zh) * 2015-12-28 2019-10-01 南宁富桂精密工业有限公司 录影播放系统及方法
JP6672399B2 (ja) * 2018-08-13 2020-03-25 Dynabook株式会社 電子機器
JP7172299B2 (ja) * 2018-08-31 2022-11-16 沖電気工業株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP7279928B2 (ja) * 2019-03-14 2023-05-23 ハイラブル株式会社 議論分析装置及び議論分析方法

Also Published As

Publication number Publication date
JPH1153385A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
JP3879786B2 (ja) 会議情報記録再生装置および会議情報記録再生方法
Tucker et al. Accessing multimodal meeting data: Systems, problems and possibilities
JPH08249348A (ja) 映像検索方法および装置
JP3185505B2 (ja) 会議録作成支援装置
US7110592B2 (en) Image recording apparatus, image reproducing apparatus and methods therefor
US9167189B2 (en) Automated content detection, analysis, visual synthesis and repurposing
US6799180B1 (en) Method of processing signals and apparatus for signal processing
US20060288273A1 (en) Event-driven annotation techniques
KR20180107147A (ko) 다변수 서치용 사용자 인터페이스
CN110335625A (zh) 背景音乐的提示及识别方法、装置、设备以及介质
JP2005267279A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
CN105045828B (zh) 一种音视频语音信息精确定位的检索系统及方法
JP3736597B2 (ja) 発言構造情報提示装置および発言構造情報提示方法
JP2001092838A (ja) マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
US9098503B1 (en) Subselection of portions of an image review sequence using spatial or other selectors
JPH06205151A (ja) 電子会議システム
Bouamrane et al. Meeting browsing: State-of-the-art review
JP3372096B2 (ja) 画像情報アクセス装置
EP0597798A1 (en) Method and system for utilizing audible search patterns within a multimedia presentation
JP3879793B2 (ja) 発言構造検出表示装置
JP2001306579A (ja) 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH06309381A (ja) 動画像処理装置
JP2015109612A (ja) 画像音声再生システム及び画像音声再生方法とプログラム
JP2006228059A (ja) ポインタの位置情報を利用するプレゼンテーションコンテンツ検索システムおよびその方法、ならびにコンピュータ読み取り可能な記録媒体
JP2009283020A (ja) 記録装置、再生装置、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees