JP5488475B2

JP5488475B2 - トピック遷移解析システム、トピック遷移解析方法およびプログラム

Info

Publication number: JP5488475B2
Application number: JP2010542961A
Authority: JP
Inventors: 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-12-15
Filing date: 2009-12-14
Publication date: 2014-05-14
Anticipated expiration: 2029-12-14
Also published as: US20110246183A1; US8670978B2; JPWO2010071112A1; WO2010071112A1

Description

（関連出願についての記載）
本発明は、日本国特許出願：特願２００８−３１８６３９号（２００８年１２月１５日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明はトピック遷移解析システム、トピック遷移解析方法およびプログラムに関し、特にメディアストリームから平行してなされる各種の言語ストリームにおけるトピックの遷移を解析するトピック遷移解析システム、トピック遷移解析方法およびトピック遷移解析用プログラムに関する。

音声は空気を媒介として伝達されるので、ある場において同時に利用可能な音声チャネルはあまり多くない、という特徴を持つ。例えば会議や講演においては、公に認められた音声チャネルは通常ただひとつであり、この音声チャネル以外を用いた音声コミュニケーションは「雑談」と呼ばれ、不適切なものと考えられることが多い。

会議や講演の役割を情報伝達と捉えるならば、「雑談」は唯一の音声チャネルに対する「雑音」であるから、忌避されるべきものである。しかしながら、会議や講演を、参加者や聴講者が新たな発想や視点を得るためのアイデア想起の契機となるものと捉えるならば、「雑談」もまた有益なアイデア想起の契機となりえるので、必ずしも否定されるべきではない。例えば、学会発表の質疑応答では、往々にして主たる発表内容からやや外れた議論で盛り上がることがある。このような思想に基づいて、音声コミュニケーションと平行してチャットなどの非音声チャネルを用いたコミュニケーションを活発に取り入れるコミュニティが存在する。一例として、非特許文献１に記載されているＷＩＳＳ（ＷｏｒｋｓｈｏｐｏｎＩｎｔｅｒａｃｔｉｖｅＳｙｓｔｅｍｓａｎｄＳｏｆｔｗａｒｅ）の試みが挙げられる。

会議以外の分野では、映像を媒介としたコミュニケーションの例が挙げられる。このようなコミュニケーションは、インターネットの普及以前から、離れた場所にいる親しい友人同士が同じ番組をテレビで見ながら電話を掛けるというような形でしばしば行われてきた。パソコン通信やインターネットの黎明期にはチャットによるコミュニケーションが生まれたが、ここでも同様にテレビ番組を媒介として盛り上がる例が見られた。今日では大手掲示板に専用のスレッドが立てられる（非特許文献２）など、ネット上ではごく普通に見られるコミュニケーション手段となっている。さらに近年では映像そのものもネットワーク上を流れるようになったことで、テレビ番組やラジオ番組の持つ時間的な束縛からも解放された形での適用例も生まれてきている（非特許文献３）。

こうした映像とチャットの併用も、映像という唯一の特権的なチャネルに対し、チャット等の副次的なチャネルを用いたコミュニケーションを併用するという構図から見れば、先に述べた会議・講演の事例と同じ構造を持つことが分かる。

このように、主たるチャネルを通して流れる音声や映像などのメディアストリームに対して、これに付随する副次的なチャネルにおいて平行してなされるコミュニケーションのストリームがひとつまたは複数存在する、というモデルは、近年、さまざまな場面で見られるようになりつつある。

こうしたコミュニケーション・モデルにおける問題のひとつは、ユーザが副次的ストリームにおけるコミュニケーションに集中しすぎた場合に、主たるメディアストリームの一部を見逃したり聞き逃したりしがちである、という点にある。このようなケースで、副次的ストリームに集中しはじめた最初のタイミングまで主たるメディアストリームを簡便に巻き戻すことができれば便利である。

例えば、「首相辞任会見」という映像コンテンツを視聴する複数のユーザがチャットを楽しんでいる状況で、首相が何か暴言を吐いたことを契機として、その暴言に関する話題でチャットが盛り上がり、その流れから歴代総理による暴言、さらには過去の政治家の暴言を次々に羅列する書き込みが連続して行われたりする。この場合、元の「首相辞任会見」というコンテンツにおける「現首相の暴言」という事象からやや離れたトピック（「過去の政治家の暴言」）に対する会話が続いていることになるので、チャット参加者の注意は「首相辞任会見」から一時的に逸れてしまう。しばらく後、ひとしきりチャットで盛り上がったユーザが再び「首相辞任会見」に注意を向けると、そこではまったく異なるトピックに内容が移っていることに気づく。このユーザは、このコンテンツの視聴を継続するために、現時点のトピックが何であるかを読み取り、把握する必要に迫られる。ここで、一連のチャット議論の発端となった「首相の暴言」シーンの直後まで簡単に巻き戻すような仕組みがあれば、ユーザは見失った場面を素早く視聴しなおして、より容易にトピックに追いつくことができる。このような仕組みが実現されていれば、ユーザは、「首相辞任会見」の全体を漏れなく効率的に閲覧しつつ、同時に、思う存分チャットを楽しむことができるようになるだろう。

ところで、ここで想定しているコミュニケーション・モデルにおいては、副次的チャネルにおけるコミュニケーションは必ず主たるチャネルにおけるコミュニケーションを起点として行われている。上述の例で言えば、「過去の政治家の暴言」を語る一連のチャット上の対話は、「首相辞任会見」映像の「首相の暴言」のシーンを起点としている。従って、副次的チャネルにおけるコミュニケーションから、その起点となった主たるチャネルのメディアストリーム上の一点を特定する技術を用いれば、このようなニーズに応えられる。

このような用途に利用できそうな既存の技術として、音声インデキシング技術が考えられる。

音声とそれに付随する副次的なチャネルを扱うインデキシング技術の一例として、非特許文献４を示す。この文献に開示されるシステムは、テレビ番組に対して、その番組に対する実況チャットのテキストを用いて、次の手順でインデキシングする。すなわち、まず単位時間あたりのチャットの書き込み数を計測し、特に書き込みが多ければその時刻の直前にテレビ番組側に特に反響の大きいイベントが起きたと看做す。次にそれらの書き込みを分析し、そこに現れる語彙などを参照に「盛り上がり度」「落胆度」を抽出する。このようにして番組側のイベントが起こった時刻とそれに対応するチャットの書き込みを抽出していくことで、番組の特定時刻とチャットの各書き込みの間の紐付けを行うことができるので、チャットのある書き込みに対応するテレビ番組の特定部位をインデキシングすることができる。

特許文献１もまた音声インデキシング技術の別の一例である。この文献に開示されるテキストと音声のクロスインデキシング・システムは、概略次のように動作する。まず、テキストの全体または各部にトピック・ラベルを付与する。次に、予め与えられたキーワードが入力テキストの全部または各部の各々のトピックに対して出現する確率を求める。最後に入力音声の任意区間に対して前記キーワードの出現尤度を音声認識手段によって推定し、前記トピックごとのキーワードの出現確率と組み合わせることで、テキストと音声の相関関係を推定する。

やや異なる方式であるが、音声要約技術に基づく音声インデキシング技術の一例として、非特許文献５を示す。この文献で開示される会議インデクシングシステムは、会議音声を音声認識技術によってテキスト化し、予め単語ごとに与えられた概念ベクトルを用いて、ある発話音声に対する音声認識結果テキストに含まれる単語集合によって張られる概念ベクトル集合が、別の発話音声のそれと類似するかどうかを基準としてトピックごとに分割する。その後、トピック間の類似度に基づいて会議全体の話題遷移をツリー状に再構築する。ツリーの各ノードは、ある一塊のトピックに属す発話の集合を表すので、このツリー状のトピックネットワークを用いて、会議のある特定の発話と同じトピックを扱う最初の発話を導くことができる。

非特許文献５の技術の主たる用途は音声要約であり、音声から解析されたトピック遷移ツリーを出力とするものであるから、トピック遷移ツリーに現れたテキスト、すなわち音声データの一部から別の一部へのリンクしか張ることができない。しかしながら、トピック遷移ツリーの構築自体は音声認識処理によって得られたテキスト系列に対して施されることと、テキスト系列の起源となるストリームが単一でなければならないという制約が特にないことから、主たるメディアストリームと副次的な言語コミュニケーションチャネルの両方を同時に入力することによって、副次的チャネルで行われる言語コミュニケーションと主メディアストリームとの間のクロスインデキシングに拡張することができる。

非特許文献６から非特許文献１１は、本発明に適用可能な手法等を紹介する文献であり、その内容及び本発明との関連は各実施形態の該当箇所でそれぞれ説明する。

"参加者が作る会議支援システム〜ＷＩＳＳＣｈａｌｌｅｎｇｅ〜"，コンピュータソフトウェア（日本ソフトウェア科学会），２００６，Ｖｏｌ．２３，Ｎｏ．４，ｐｐ．７６−８１ "実況板"，ｈｔｔｐ：／／ｊａ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／実況板，フリー百科事典『ウィキペディア（Ｗｉｋｉｐｅｄｉａ）』 "ニコニコ動画"，ｈｔｔｐ：／／ｊａ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／ニコニコ動画，フリー百科事典『ウィキペディア（Ｗｉｋｉｐｅｄｉａ）』宮森ほか，番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成，日本データベース学会Ｌｅｔｔｅｒｓ，Ｖｏｌ．４，Ｎｏ．１，ｐｐ．９３−９６，２００５別所ほか，話題構造抽出に基づく会議音声インデクシングシステム，電子情報通信学会論文誌ＤＶｏｌ．Ｊ９１−ＤＮｏ．９ｐｐ．２２５６−２２６７，２００８Ｓａｌｔｏｎ，ｅｔａｌ（１９７５）， "ＡＶｅｃｔｏｒＳｐａｃｅＭｏｄｅｌｆｏｒＡｕｔｏｍａｔｉｃＩｎｄｅｘｉｎｇ"，ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，ｖｏｌ．１８，ｎｒ．１１，ｐｐ．６１３−６２０ＮＥＣ，"音声認識ソフトウェアＣＳＶＩＥＷ／ＶｉｓｕａｌＶｏｉｃｅ"，ｈｔｔｐ：／／ｗｗｗ．ｎｅｃ．ｃｏ．ｊｐ／ｍｉｄｄｌｅ／ＶｉｓｕａｌＶｏｉｃｅ／，２００８／０９／１９現在Ｒｏｓｅｎｆｅｌｄ， "Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙａｐｐｒｏａｃｈｔｏａｄａｐｔｉｖｅｓｔａｔｉｓｔｉｃａｌｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ"，Ｃｏｍｐｕｔｅｒ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ１０，ｐｐ．１８７−２２８，１９９６ＫｕｈｎａｎｄｄｅＭｏｒｉ， "Ａｃａｃｈｅ−ｂａｓｅｄｎａｔｕｒａｌｌａｎｇｕａｇｅｍｏｄｅｌｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎＰＡＭＩ，Ｖｏｌ．１２，Ｎｏ．６ｐｐ．５７０−５８３，１９９０Ｗｅｓｓｅｌ，ｅｔａｌ， "ＣｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅｓｆｏｒｌａｒｇｅｖｏｃａｂｕｌａｒｙｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，２００１，ｖｏｌ．９，Ｎｏ．３ｐｐ．２８８−２９８磯谷ほか， "話し言葉認識技術とその応用"，ＮＥＣ技報Ｖｏｌ．５８Ｎｏ．５／２００５，ｐｐ．３０−３２特開２０００−２３５５８５号公報

なお、上記特許文献ならびに非特許文献の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は、本発明によって与えられたものである。
第１の問題点は、主たるメディアストリームに付随する副次的チャネルにおいて主メディアストリームの内容に応じたトピックに関する言語コミュニケーションがなされる際、副次的チャネル上のある言明へと至る一連の言語コミュニケーションの基点となった、主メディアストリーム上の位置をリアルタイムに特定するのに適した手法が知られていない、という点である。

例えば、非特許文献４に記載の技術のように、単に副次的チャネルにおける言明の時刻情報を利用し、時刻的に近傍にある主メディアストリームの一部に紐付けるだけの手法では、副次的チャネルにおける言語コミュニケーションが基点となった主メディアストリームでのトピックから離れていった場合に、適切に関連付けることができない。

また、特許文献１に記載のシステムは、予めテキストにトピック・ラベルを付与するステップが必要であることと、トピックに含まれるキーワードとその出現確率をも事前に算出するステップが必要である点から、事実上、リアルタイムに進行する言語コミュニケーションに対するインデキシングに適用することは困難である。

また、非特許文献５に記載の技術を援用し、主メディアストリームと副次的チャネルにおける言語ストリームを一体にした上でトピック遷移を構造化する手法を用いる方法では、トピックの構造化を適切に行うために主副双方のストリームを一旦すべて分析する必要がある。このような技術は、リアルタイムに進行するメディアストリーム（例えば会議など）で利用することは困難である。

本発明の目的は、主たるメディアストリームに付随する副次的チャネルにおいて行われる言語コミュニケーションの中でなされたある言明から、その言明に至る起点となった主メディアストリームの位置を求めるトピック遷移解析システムを提供することであって、特に、その動作がリアルタイム処理に適した効率の良いトピック遷移解析システムを提供することにある。

本発明の第１の視点によれば、主たるメディアストリームと、当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム（以下、「言語ストリーム」）とを入力とし、前記一つまたは複数の言語ストリーム上のある言明が、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備えるトピック遷移解析システムが提供される。

本発明の第２の視点によれば、メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択し、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法が提供される。

本発明の第３の視点によれば、トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択する処理と、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラムが提供される。なお、このプログラムは、任意の記憶媒体に記憶した状態で、あるいは、ネットワークを介して配布することができる。

本発明によれば、主たるメディアストリームのある時点におけるトピックを基点とする副次的チャネル上の一連の言語コミュニケーションが、基点となったトピックから時間的または内容的に徐々に乖離していった場合であっても、その言語ストリームにおける任意の言明から、基点となったメディアストリーム上のある時点を求めることができるようになる。また、本発明によれば、リアルタイム処理に適した実装で実現することができる。

その理由は、いずれかの言語ストリーム上のある言明が、当該言明のなされた時刻およびその近傍の時刻におけるメディアストリームの内容に起因して新たに生起したものであるか、当該言明の直前になされた一群の言明の内容を継続するものであるか、のいずれであるかを判定する言明誘因系列判定手段を備え、各言語ストリーム上に現れる言明をたどっていくことにより、一連の言明の流れの起点となった主たるメディアストリーム上の一点または一区間を推定することを可能としたことにある。

本発明の第１の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。本発明の第２の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。本発明の第２の実施形態に係るトピック遷移解析システムの動作を説明するための図である。本発明の第３の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。本発明の第３の実施形態に係るトピック遷移解析システムの動作を説明するための図である。本発明の第３の実施形態に係るトピック遷移解析システムによって作成されるトピック遷移ネットワーク（トピック遷移グラフ）の一例である。本発明の第４の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。本発明の第５の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。

次に、本発明の好適な形態について図面を参照して詳細に説明する。

［第１の実施形態］
図１は、本発明の第１の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図１を参照すると、本発明の第１の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段１００を含んで構成されている。

言明誘因系列判定手段１００は、言語ストリームに含まれる個々の言明を一時的に保持する言語ストリームバッファ手段１１０と、誘因系列判定の対象となる言明と言語ストリームバッファ手段１１０に保持された言明との間のトピック類似度を算出する第１トピック類似度計算手段１２０と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第２トピック類似度計算手段１３０と、トピック類似度比較手段１４０と、を含む。

これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。

言語ストリームバッファ手段１１０は、入力される言語ストリームに含まれる言明を一時的にメモリ上に蓄積する。ここで、言明とは、ある意図を持って成された一連の言語的事象を指し、例えば言語ストリーム上におけるコミュニケーションが文章のやり取りであるなら、ひとつの言明はひとつの文章に相当する。またあるいは、言語ストリームが音声会話であるなら、ひとつひとつのセンテンスが言明に相当する。また言明は、それが生起した時刻を示す情報を持つものとする。

第１トピック類似度計算手段１２０は、入力された言明と、言語ストリームバッファ手段１１０に保持された言語ストリーム上の過去の言明とのトピック類似度を、所与のアルゴリズムに基づいて算出する。実際には、言語ストリームバッファ手段１１０に蓄積された直近の言明から、トピック類似度算出アルゴリズムの要請に応じて取り出して類似度を算出する。

第２トピック類似度計算手段１３０は、入力された言明と、メディアストリーム上の任意の一部区間とのトピック類似度を、所与のアルゴリズムに基づいて算出する。

トピック類似度比較手段１４０は二つのトピック類似度計算手段にてそれぞれ算出された、言明と言語ストリームのトピック類似度および言明とメディアストリームのトピック類似度を比較し、より高いトピック類似度を示す側のストリームを、その言明に対する誘因系列と判定して出力する。

続いて、本実施形態の動作について詳細に説明する。まず、言語ストリームバッファ手段１１０に言語ストリームが入力されると、言語ストリームに含まれる各言明が取り出され、言語ストリームバッファ手段１１０が持つメモリ上に蓄積される。

本実施の形態に係るトピック遷移解析システムを言語ストリームに対してオンラインで動作させる場合、すなわち、言語ストリーム上に新たに現れた言明に対して誘因系列判定を順次繰り返し行うことになる。この場合、ある時刻ｔ１に現れた言明ｓ１に対して誘因系列判定を行ったとすれば、この言明は次の時刻ｔ２に現れた言明ｓ２に対して比較対象である言語ストリームの一部となる。従って、このようにリアルタイム形式で動作させる場合には、時刻ｔ１における判定が行われた時点（第１および第２トピック類似度計算手段がｓ１に対するトピック類似度を算出した時点）でｓ１を言語ストリームバッファ手段１１０に格納するよう動作させることになる。

上記言語ストリームバッファ手段１１０への蓄積記憶は一時的なものでよく、どの程度の言明を一度に蓄積するかは、第１トピック類似度計算手段１２０で用いられるアルゴリズムに依存する。例えば、直近の言明が一つだけ必要なアルゴリズムであれば一つだけ、Ｎ個の言明が必要であれば高々Ｎ個だけ保持すればよい。

言語ストリームバッファ手段１１０に蓄積された言明は適切なタイミングで削除して良い。例えば上述のようにアルゴリズムが要求する言明の個数が高々Ｎ個であることが既知であるなら、言語ストリームにＮ＋１個目の言明が現れた時点で、蓄積されている最も古い言明を削除すればよい。あるいはまた、アルゴリズムが必要とする個数の言明を記憶するのに充分なメモリ容量が既知であるなら、新たに言語ストリームに現れた言明を蓄積するとこの容量を超えてしまうというタイミングに、削除を行っても良い。このような事前の予測が困難なアルゴリズムを用いる場合は、第１トピック類似度計算手段１２０の側から、逐次不要になった言明を削除するよう指示させてもよい。

次に、第１および第２トピック類似度計算手段に対して、言明と、この言明の誘因系列であるか否かの判定対象となる言語ストリームおよびメディアストリームがそれぞれ与えられる。

第１トピック類似度計算手段１２０は、与えられた言明と、言語ストリームバッファ手段１１０に蓄積された言明との間のトピック類似度を所与のアルゴリズムに従って計算する。

上記トピック類似度の具体的な計算手法にはさまざまな既存方式を用いることができる。例えば、言明をドキュメントと看做してベクトル空間法（非特許文献６）を用いても良い。このとき、言語ストリームの直近の言明を一つだけ用いると偏った単語ベクトルが生成される恐れがあるので、直近の複数の言明の単語ベクトルの和を用いても良い。また、この和において減衰係数を掛け、直近の言明の単語ベクトルほど重みを持つようにしても良い。

第２トピック類似度計算手段１３０も同様に、与えられた言明と、メディアストリームとの間のトピック類似度を所与のアルゴリズムに従って計算する。

第２トピック類似度計算手段１３０の上記トピック類似度の計算方法も、前述の第１トピック類似度計算手段１２０と同様に、さまざまな既存方式を用いることができる。

一般に、メディアストリームはテキスト情報以外の形態で与えられる場合が多いので、この場合はメディアストリームからテキスト情報を何らかの形で抽出する必要がある。例えば、音声認識ソフトウェア（非特許文献７、もちろんこれに限らない）等を用いていったんテキストデータに変換してしまえば、第１のトピック類似度と同様にベクトル空間法を用いてトピック類似度を計算できる。このほか、画像認識技術と組み合わせ映像ストリーム内の文字情報（テロップなど）を抽出したり、クローズドキャプション信号を利用したりすることでテキスト情報に変換可能である。また、オブジェクトとその属性の集合である概念データベースが利用可能であるなら、映像中の個々のオブジェクトを画像認識した後、そのオブジェクトに対する属性（例えば「りんご」に対して「赤い」、「果物」、「おいしい」、「青森」など）が言明に含まれる頻度等を用いてトピック類似度を定義できる。

第２トピック類似度計算手段１３０にてトピック類似度を算出する際、その時点までに入力されたメディアストリームの全体を用いる必要はなく、判定対象となる言明が生起した時刻の直近の一区間を用いれば充分であることが多い。例えば予め定めた固定長の区間を用いても良いし、音声信号を含むストリームであれば検出された発話数が一定閾値以内になるような区間を用いても良い。

トピック類似度の算出で用いるメディアストリームの区間の長さをどのように制御するかということは、言明とのトピック類似度を適切に算出できるかどうかに係わる。あまり区間が長すぎる場合、トピックに関する特徴がぼやけるために適切なトピック類似度を得られない。その一方、あまりに区間が短い場合はトピック類似度算出の根拠となるトピックに依存した情報（トピックに特有の語彙など）が充分に観測できず、これも適切なトピック類似度が得られなくなる原因となりうる。

また、既知の言明の起点となっているメディアストリーム上の一区間が明らかな場合は、この区間以降のみに限定してトピック類似度計算を行った方が良い。なぜなら、この一区間におけるトピックと、これを起点としてなされた言明におけるトピックとは比較的トピック類似度が高いので、第２トピック類似度計算手段１３０に入力された言明とこれら両者の間のトピック類似度は同じような値となって、判別が困難になるためである。

第１および第２トピック類似度計算手段によって各ストリームに対する言明とのトピック類似度が算出されると、トピック類似度比較手段１４０はそれらを比較し、最も高い類似度を示したストリームをその言明の誘因となったストリームであると判定する。

なお、直近の複数の言明の単語ベクトルの和を用いてトピック類似度を算出している場合には、トピック類似度比較手段１４０が、ある言明に対する誘因系列としてメディアストリームを選択した場合、言語ストリームバッファ手段１１０に蓄積された言明をすべて削除し、当該言明を新たに言語ストリームバッファ手段１１０に蓄積する。このようにすることで、次の時刻における言明に対する誘因系列の判定を正しく行うことが可能になる。

次に、本実施形態の効果について説明する。本実施の形態では、ある言明に対して、その言明が言語ストリーム上の直前の言明へと至る言語コミュニケーションの継続であるか、直近のメディアストリームの内容に応じて新たに生起されたものであるかを判定するのに際し、当該言明の直前の一つまたは複数の言明と、当該言明が生起した時刻の近傍のメディアストリームの一区間のみを用いて、判定処理を行うため、効率が良く、オンライン処理に適した判定手法を実現できる。

その理由は、ある言明に対する基点となるメディアストリーム上の位置を求めるためには、その言明と、それに先行する直前のひとつまたは複数の言明と、その言明の時間的直近におけるメディアストリームの一部が与えられればよく、主副どちらのチャネルに関しても、例えば全体を解析してトピック遷移を計算する必要がないためである。このような性質は、副次的チャネルで行われる言語コミュニケーションが、主たるメディアストリームに対する新規の反応と、副次的チャネルにおけるコミュニケーションの継続と、のいずれかである、という知見から導かれるものである。

また別の理由は、ある言明に対する判定を行う場合、その言明が生起した時刻からある程度以上古い両ストリーム上の情報を必要としないので、必要最小限の記憶装置のみを用いて実装可能なためである。

［第２の実施形態］
次に、本発明の第２の実施形態について図面を参照して詳細に説明する。図２は、本発明の第２の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図２を参照すると、本発明の第２の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段２００を含んで構成されている。

言明誘因系列判定手段２００は、言語ストリームに含まれる個々の言明をトピックグループごとに一時的に保持するトピックグループバッファ手段２１０と、誘因系列判定の対象となる言明とトピックグループバッファ手段２１０に保持された言明との間のトピック類似度を算出する第１トピック類似度計算手段２２０と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第２トピック類似度計算手段２３０と、トピック類似度比較手段２４０と、を含む。

トピックグループバッファ手段２１０は、入力される言語ストリームに含まれる言明を、トピックグループごとに一時的にメモリ上に蓄積する。ここでトピックグループとは、その言明のトピックに関する特徴が互いに近い言明の集合である。言明をバッファリングする機能そのものは本発明の第１の実施形態における言語ストリームバッファ手段１１０とほぼ同様であるので、省略する。

第１および第２トピック類似度計算手段２２０および２３０の動作についても、本発明の第１の実施の形態に準ずる。

ただし、言明と言語ストリームのトピック類似度を求める第１のトピック類似度に関しては若干動作が異なる。第１の実施形態においては、言語ストリームを代表する言明の組は一つだけであったので、言明との比較はこの唯一の言明の組との間でのみ行われた。一方、第２の実施形態においては、言語ストリームを代表する言明の集合（すなわちトピックグループ）は複数存在する。従って、トピック類似度の計算も各グループに対して行われる。

トピック類似度比較手段２４０はこれら各トピックグループに対するトピック類似度と、メディアストリームに対するトピック類似度を比較し、最もトピック類似度の高いトピックグループまたはストリームを、判別対象の言明に対する誘因系列と看做して出力する。

言明がいずれかのトピックグループを誘因としてなされたと判定された場合、その言明は当該トピックグループに属すものとしてトピックグループバッファ手段２１０に蓄積される。

次に、本実施形態の効果について説明する。本発明の第２の実施形態では、言語ストリーム上の言明を複数のトピックグループに分類し、それらの各々に対するトピック類似度を算出することによって、トピックグループ同士が時間的に重複して存在するような言語ストリームでも問題なく動作することを可能としている。

図３は、複数のトピックグループに属する言明が時間的にオーバーラップして現れた状況を示している。時刻ｔ０前後にメディアストリームに現れた事象ｅ０を起点として行われる言語コミュニケーションが言明ｓ０，ｓ１，ｓ２と続いたとする。ここで時刻ｔ１に生じた現象ｅ１に対する言明ｓ３がなされたのち、さらにその後のタイミングでｓ０，ｓ１，ｓ２に続く言明ｓ４がなされた。

第１の実施形態のトピック遷移解析システムを用いる場合、言明ｓ３が現れた時点で言明ｓ０，ｓ１，ｓ２は言語ストリームバッファ手段から削除されるので、言明ｓ４が言明ｓ０，ｓ１，ｓ２のグループに属していてもこれを正しく検知することができず、言明ｓ３を継続するものか、あるいは事象ｅ１の直後のメディアストリームに関する言明であると判断してしまう。

一方、第２の実施形態のトピック遷移解析システムでは、言明ｓ４に対して言明ｓ０，ｓ１，ｓ２のグループと言明ｓ３のグループのそれぞれ、およびメディアストリームに対するトピック類似度を求めて比較することから、正しく言明ｓ０，ｓ１，ｓ２に連なる言明であると判別できる。

このような理由により、本発明の第２の実施形態のトピック遷移解析システムを用いることで、複数のトピックグループが時間的にオーバーラップして現れるような状況においても、言明の誘因系列を正しく判断することができる。

なお、第１の発明の実施形態のトピック遷移解析システムにおける言語ストリームバッファ手段１１０では古い言明をメモリから削除するものとして説明したが、第２の発明の実施の形態においても同様の制御を実施することができる。ただし、削除のタイミングとしてメディアストリームが誘因系列として判別されたタイミングは利用できないので、適当なタイムアウト時間（図３のｔ／ｏ）を予め設定し、あるトピックグループに属す言明が最後に現れた時刻からこのタイムアウト時間を過ぎたタイミングで古い言明を削除するように設計すればよい。あるいは、ある言明が既存のどのトピックグループにも属さないと判定された時刻からタイムアウト処理を開始しても良い。

例えば、図３の言明ｓ５は事象ｅ２に対する言明であるが、事象ｅ０とｅ２のトピック類似度が高いために、言明ｓ０，ｓ１，ｓ２，ｓ４のトピックグループに属すと誤判定される可能性がある。このときタイムアウト処理を用いていれば、言明ｓ５の生起した時刻ｔ２が言明ｓ４の生起した時刻ｔ１からｔ／ｏ秒以上経過していることを利用して、言明ｓ５を正しく事象ｅ２によって生起された言明と判定できるようになる。

このタイムアウト処理が有効である理由は、言語コミュニケーションにおいて、既に別のトピックに関する議論が開始して相当の時間が過ぎた後に、何のきっかけや標識もなくそれ以前のトピックに対する議論が唐突に行われることは少ない、というヒューリスティクに基づく。

なお、同じヒューリスティクを第１トピック類似度計算手段２２０に盛り込むことも可能である。すなわち、あるトピックグループに対するトピック類似度を算出する際に、そのトピックグループで最後に生起した言明の生起時刻と、判別対象である言明の生起時刻との差を求め、差が大きいほどトピック類似度を小さくするような忘却係数を導入するようにすることも可能である。

［第３の実施形態］
次に、本発明の第３の実施形態について図面を参照して詳細に説明する。図４は、本発明の第３の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図４を参照すると、本発明の第３の実施形態に係るトピック遷移解析システムは、トピック遷移ネットワーク生成手段４００を含んで構成されている。

トピック遷移ネットワーク生成手段４００は、誘因系列推定手段４１０と、誘因系列記憶手段４２０と、トピック遷移推定手段４３０とから構成されている。

誘因系列推定手段４１０は、第１、第２の実施形態に記載の言明誘因系列判定手段１００、２００とほぼ同等のものである。ただし、言明誘因系列判定手段１００、２００がある言明に対する誘因系列がいずれであるか判定した結果を出力するのに対し、誘因系列推定手段４１０は各入力ストリーム（言語ストリームに関しては各トピックグループ）の判別対象となる言明とのトピック類似度の組を返す。

誘因系列記憶手段４２０は、誘因系列推定手段４１０によって得られた、言明とその言明に対する各ストリームおよびトピックグループのトピック類似度の組を記録する。

トピック遷移推定手段４３０は、誘因系列記憶手段４２０に蓄えられた各言明に対するトピック類似度の組を用いて、言語ストリーム上の任意の言明以前に現れたすべての言明に対する誘因系列の関係を樹状のネットワークに構築して出力する。この出力は、言語ストリーム上でなされた言語コミュニケーションにおいてどのようにトピックが遷移していったかを示すネットワークであることから、トピック遷移ネットワークと呼ぶ。

次に、図５の遷移図を参照して本実施形態の全体の動作について詳細に説明する。

まず言語ストリームから最初の言明が取り出される。これが時刻ｔ０に現れたとする。時刻ｔ０に現れた言明ｓ０は、それ以前に言明がないので、直近のメディアストリーム（図５のボックスａ）によって生起した言明であると看做せる。誘因系列記憶手段４２０は、この結果｛ｓ０，ｍ０，ｇ１（ｓ０）｝を記録する。これは、言明ｓ０が新たなトピックグループであるトピックグループＧ１を形成したことを意味し、このときトピック類似度を求めたメディアストリームの一区間がｍ０であることを意味する。

ここでｇｉ（ｘ）は言明ｘとトピックグループＧｉのトピック類似度を表す。

次に、時刻ｔ１に二つ目の言明ｓ１が現れたとき、時刻ｔ１に近傍するメディアストリームの一区間（ボックスｂ）の内容か、この直前の言明ｓ０が属すトピックグループ１の最新の言明（ボックスｃ）の内容か、どちらかを誘因として為された言明であるかを求める。誘因系列推定手段４１０によって、言明ｓ１とメディアストリーム、トピックグループＧ１それぞれとのトピック類似度が算出される。誘因系列記憶手段４２０は、この結果｛ｓ１，ｍ１，ｇ１（ｓ１），ｇ２（ｓ１）｝を記録する。ここでトピックグループＧ２は、言明ｓ１がメディアストリームを誘因として為されたとした場合に言明ｓ１が新たに形成するトピックグループにつけられた仮のラベルである。ここでは説明のため、ｇ１（ｓ１）＞ｇ２（ｓ１）であったとする。

次に、時刻ｔ２に三つ目の言明ｓ２が現れたとき、先ほどと同様に各ストリームおよびトピックグループとのトピック類似度が｛ｓ２，ｍ２，ｇ１（ｓ２），ｇ２（ｓ２）｝として求められる。ここでは説明のためにｇ１（ｓ２）＜ｇ２（ｓ２）であったとすると、言明ｓ２は新たなトピックストリームＧ２を形成する。従って、その次の時刻ｔ３に現れた四つ目の言明ｓ３に対しては１つのメディアストリームと２つのトピックグループに対するトピック類似度が求められ、結果として｛ｓ３，ｍ３，ｇ１（ｓ３），ｇ２（ｓ３），ｇ３（ｓ３）｝が誘因系列記憶手段４２０に蓄えられる。以降も同様に続く。

任意のタイミングで既知の言明ｓｎまでに現れたすべての言明に関するトピック遷移ネットワークを生成することができる。このとき、トピック遷移推定手段４３０は次のように動作する。

まず、誘因系列記憶手段４２０から最も古い言明ｓ０を取り出し、これが属す可能性のある各系列とのトピック類似度を比較する。言明ｓ０に関しては｛ｓ０，ｍ０，ｇ１（ｓ０）｝と記録されていることから、トピックグループＧ１に属すことが確定し、またこの時刻の近傍のメディアストリームの一区間ｍ０の内容を誘因として為されたことが確定する。そこで、メディアストリームの一区間ｍ０から言明ｓ０へ遷移するネットワークが構築される。

続いて、次に古い言明ｓ１を取り出すと、｛ｓ１，ｍ１，ｇ１（ｓ１），ｇ２（ｓ１）｝でかつｇ１（ｓ１）＞ｇ２（ｓ１）であるから、言明ｓ１はトピックグループＧ１に属すことが確定する。そこで、先ほど構築したネットワークを更新し、言明ｓ０から言明ｓ１への遷移を追加する。

さらに続けて言明ｓ２を取り出すと、｛ｓ２，ｍ２，ｇ１（ｓ２），ｇ２（ｓ２）｝かつｇ１（ｓ２）＜ｇ２（ｓ２）であるから、言明ｓ２はトピックグループＧ２に属すことが確定する。そこで、先ほど構築したネットワークを更新し、メディアストリームの一区間ｍ２から言明ｓ２への遷移を追加する。

以上を繰り返していくことによって、最終的に図６のようなネットワークを形成することができる。図６は、言明ｓ８に対するトピック類似度が誘因系列記憶手段４２０に記録されたタイミングで生成されたトピック遷移ネットワークを示している。

ここまでに示した動作では、各言明に対して最もトピック類似度の高い系列を決定的に選択しているので、誘因系列記憶手段４２０を省いて、直接、誘因系列推定手段４１０からトピック遷移推定手段４３０にトピック類似度情報を入力してトピック遷移ネットワークをオンラインで構築させるように構成することもできる。

しかし、ある言明に対する各系列のトピック類似度にあまり差がない場合は、決定的に誘因系列を決定することで誤った系列を選択してしまう可能性がある。このような場合は誘因系列記憶手段４２０を経由させることが役に立つ。

例えば図５において、言明ｓ２に対するトピック類似度ｇ１（ｓ２）とｇ２（ｓ２）の差がごく僅かであったとする。もし、この後、相当の時間が超過してもトピックグループＧ２に属すと看做せる言明がひとつも現れなかったのであれば、ｓ２をトピックグループＧ２に分類したことがそもそも誤りであった可能性が高い。そこで、ある言明ｓが新たなトピックグループＧの最初の言明と判断された場合、そのトピックグループＧに属す（と看做せる）新たな言明ｓ’が現れるまでの時間ｔを用いてｓのトピック類似度ｇ（ｓ）を補正する方法が考えられる。具体的には、例えば次の［数１］のように、所与のタイムアウト時間Ｔを超過したのちにペナルティを与える式を用いることができる。ここでλは所与のペナルティ重みである正の実数である。

このように、誘因系列記憶手段４２０にトピック類似度をいったん蓄積することによって、より柔軟なトピック遷移ネットワークの生成が可能となる。

次に、本実施形態の効果について説明する。本発明の第３の実施形態では、言語ストリームのある言明に対して、その言明が直前の言明へと至る言語コミュニケーションの継続であるか、または直前のメディアストリームの内容に関する新たな反応であるか、そのいずれであるかを、トピック類似度を用いて判別するよう構成されているため、言語ストリームにおける言語コミュニケーションの中でトピックが漸進的に基点となったメディアストリームのある時点におけるトピックから遷移していったとしても、その遷移を追跡することができる。

その理由は、メディアストリーム上のある起点から始まる一連の言語ストリーム上の言語コミュニケーションにおいては、トピックは一定であるか漸進的に遷移すると期待できるのに対し、主たるメディアストリームの内容に応じて言語ストリーム上に新たに生起する言語コミュニケーションは、それ以前になされた一連のコミュニケーションのトピックよりも、むしろ、起点となったメディアストリーム上のトピックにより近いものに急激に遷移すると期待できる、という性質を利用しているためである。

また、本実施形態では、さらに、ある言明に対して、その直前のひとつまたは複数の言明と、当該言明の直近のメディアストリームの一部に対する音声認識結果のみを与えることで前記の効果を実現できるよう構成されているため、オンラインな処理に適したトピック遷移解析を行うことができる。オンライン性が特に重要な場合は、誘因系列記憶手段４２０を経由せずにトピック遷移推定手段４３０をオンライン動作させることによって、完全にオンラインな動作も可能である。

［第４の実施形態］
次に、本発明の第４の実施形態について図面を参照して詳細に説明する。図７は、本発明の第４の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。

図７を参照すると、本発明の第４の実施形態に係るトピック遷移解析システムは、誘因系列判別手段８００を含んで構成されている。

誘因系列判別手段８００は、言語ストリームバッファ手段８１０と、第１音声認識手段８２０と、第１認識信頼度計算手段８３０と、第２音声認識手段８４０と、第２認識信頼度計算手段８５０と、認識信頼度比較手段８６０と、認識結果選択手段８７０とを含む。

これらはトピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。

第１および第２音声認識手段８２０、８４０は、入力された言語ストリームに含まれる音声信号を既存の音声認識技術を用いて発話単位にテキスト化する。このとき、各々の音声認識手段はそれぞれ異なるトピックに対して適応処理を施しながら音声認識を行う。

トピック適応音声認識の具体的な方法としてはさまざまな手法が考えられるが、例えば、良く用いられるトリガーモデル（非特許文献８）やキャッシュモデル（非特許文献９）に基づく音声認識手法が利用できる。

言語ストリームバッファ手段８１０は、第１音声認識手段８２０が出力した音声認識結果を、一つの発話に対する認識結果テキストを一つの言明として蓄積する。

言語ストリームバッファ手段８１０における蓄積した言明の扱い（削除タイミング等）は第１および第２の実施形態に準じた形態を適宜採ることができる。

第１音声認識手段８２０は、この言語ストリームバッファ手段８１０に蓄積された直近の言明の集合に対してトピック適応を施した上で音声認識処理を行う。従って認識結果は言語ストリームの直近の内容にやや偏ったものとなる。

一方、第２音声認識手段８４０は直近のメディアストリームの一区間に対してトピック適応を施した上で音声認識処理を行う。メディアストリームからトピック情報を取り出す具体的な方法については第１の実施形態に記載したものに準じた形態を適宜採ることができる。

メディアストリームから何らかのトピック情報が取り出せれば、それに応じたトピック適応音声認識処理を実行することができる。この結果、第２音声認識手段が出力する認識結果は、直近のメディアストリームの内容にやや偏ったものとなる。

第１および第２音声認識手段８２０、８４０によって出力された認識結果は、第１および第２認識信頼度計算手段８３０、８５０への入力として用いられ、認識結果に対する信頼度（妥当性）を示す指標値が出力される。

信頼度としてはさまざまなものが考えられる（非特許文献１０）が、例えば単語事後確率（ｗｏｒｄｐｏｓｔｅｒｉｏｒｐｒｏｂａｂｉｌｉｔｙ）などを用いることもできる。

認識信頼度比較手段８６０は、これらの認識信頼度計算手段８３０、８５０が出力した信頼度を、言語ストリーム上の直近の発話（言明）に対するトピック類似度として用い、第１および第２の実施の形態と同様に誘因系列を判定する。このとき、認識結果選択手段８７０が、あわせて誘因系列と判定された側のストリームに適応して出力された認識結果を、その発話（言明）の認識結果テキストとして出力する。

次に、本実施形態の効果について説明する。本発明の第４の実施形態では、言語ストリームが音声信号を含むメディア信号として与えられた場合、ある音声発話を、その直前の言語ストリームと、その直近のメディアストリームのそれぞれと同じトピックを有すると仮定してトピック適応した音声認識手段を用いてテキストに変換し、その変換結果テキストの信頼度の大小によって、その発話がどちらのストリームの内容を誘因としてなされたかを判定するよう動作するので、言語ストリームがテキストでない場合でも、誘因系列を判定することが可能である。

その理由は、当該発話のトピックは、いずれかのストリームのトピックにより近いので、そちらのストリームのトピックに適応した認識結果の方が、他方よりもよりよい認識結果となるためである。

また本発明の実施形態の別の効果は、言語ストリームが音声信号を含むメディア信号として与えられた場合に、その言語ストリームの音声信号に対してより良い認識結果テキストを同時に得ることができる、という点である。その理由は、ある発話の直前の言語ストリームとメディアストリームのいずれかは当該発話のトピックと等しいのであるから、そのトピックに適応させた認識結果は、どのトピックにも適応させなかった場合にくらべて、より適切なものとなることが期待できるためである。

なお、以上第１から第４の実施の形態では言語ストリームが一つだけの場合について説明したが、二つ以上複数の言語ストリームを用いる場合でも同様の原理にて、上述した作用効果が得られることは明らかである。

［第５の実施形態］
次に、本発明をリアルタイム会議支援装置に応用した第５の実施形態について図面を参照して詳細に説明する。図８は、本発明の第５の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。

図８に示すように、本実施形態に係るリアルタイム会議支援装置は、コンピュータ９００と、このコンピュータに接続されたビデオカメラ、マイクロフォン、ディスプレイ装置、入力装置から構成される。また、このコンピュータ９００はネットワークに接続されている。

コンピュータ９００は以下のソフトウェアモジュールを含む。すなわち、音声および映像を取り込む録画録音モジュール９１０、音声をテキストに変換する音声認識モジュール９２０、ネットワークからコンピュータ・チャットの書く発言（書き込み）を順次取得するチャット読取りモジュール９３０、誘因系列推定モジュール９４０、誘因系列記憶モジュール９５０、トピック遷移ネットワーク生成モジュール９６０、チャットの発言や映像等を適切に整形してハイパーリンクやボタン等のＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）要素とともに配置する画面構成モジュール９７０、この配置情報を元に画像を出力しつつ、対応するＵＩ操作を受け付けるＵＩモジュール９８０、画面構成モジュール９７０の配置に基づいて任意の時刻の映像や音声を再生するメディア再生モジュール９９０、を含む。

これらのモジュールは概略次のように動作する。

録画録音モジュール９１０は、ビデオカメラから入力された映像信号やマイクロフォンから入力された音声信号を所定の方法で取得する。ネットワークを経由した映像／音声ストリームでも良い。このうち音声信号（映像信号の場合はそこから抽出する）は音声認識モジュール９２０に送られる。映像信号および音声信号は、メディア再生モジュール９９０で再生するために、必要に応じてバッファリングされたのち送られる。

音声認識モジュール９２０は、上記した第１〜第４の実施形態の音声認識手段の一具体例として位置付けられ、入力された音声信号に対して最も妥当性の高いテキスト列を生成し、時刻情報とあわせて誘因系列推定モジュール９４０に送る。

本実施形態では会議の場で交わされるいわゆる「話し言葉」音声を想定しているので、非特許文献１１のような話し言葉認識技術を実装した音声認識モジュールを利用することが望ましい。

チャット読取りモジュール９３０は、ネットワーク越しに行われるコンピュータ・チャットにおいて新たに現れた発言を順次取得して、時刻情報と合わせて誘因系列推定モジュール９４０に送る。

ここで、このコンピュータ・チャットでは各発言に何らかの時刻情報が付与されており、これが録画録音モジュール９１０に入力される映像または音声と同期するための何らかのルールは既知でなければならない。本実施形態ではリアルタイム会議支援、すなわち、会議の場で平行して行われるチャットを想定しているので、これは単にチャットの各発言が入力されたタイムスタンプを取得するだけでよい。

誘因系列推定モジュール９４０は、上記した第３の実施形態の誘因系列推定手段の一具体例として位置付けられる。すなわち、誘因系列推定モジュール９４０は、音声認識モジュール９２０から得られた音声認識結果テキストと、チャット読取りモジュール９３０から得られたチャット発言テキストとを入力とし、必要に応じてこれらを一時的に蓄積しながら、新たにチャット読取りモジュール９３０から得られたチャット発言テキストに対してその誘因系列を推定し、推定結果のスコアとともに誘因系列記憶モジュール９５０に送る。

より具体的には次のように動作する。ある時刻ｔに入力されたチャット上の発言ｓ（ｔ）に対して、ｓ（ｔ）の誘因系列の候補としてトピックグループｇ１，ｇ２，…，ｇｎ−１と、映像信号または音声信号の系列が考えられる。仮にｓ（ｔ）が後者を誘因としてなされた発言であるなら新たなトピックグループｇｎを構成するので、結局のところｎ個のトピックグループが誘因系列の候補となる。これらのそれぞれについて、直近のひとつ以上複数の発言とｓ（ｔ）とのトピック類似度を求める。ｇｎ（音声認識結果の系列）に関しては時刻ｔより所与の遅延時間Ｄ以上前に現れたひとつ以上複数の発話区間（それぞれの開始時刻をｕ１，ｕ２，…，ｕｍとする）に対する認識結果テキストｒ（ｕ１），ｒ（ｕ２），…，ｒ（ｕｍ）を用いる。なお、この遅延時間Ｄはチャットの入力およびネットワーク伝送に掛かる最小遅延時間であって、例えば１秒程度の値を与えることができる。

なお、一部のチャットシステムでは、特定の書式でなされた発言は別の特定の発言を誘因として為されたと自動的に判定する機能を備えている。このような機能がなくても、チャット利用者内の共通認識としてある種の書式が同様の効果を認められている場合もある。このようなケースでは、ある発言に対する誘因系列はその書式に基づいて決定しても良く、この場合のトピック類似度は決定的（特定のトピックグループに対して最大値、その他のすべての系列に対して最小値）に与える。

誘因系列記憶モジュール９５０は、上記した第３の実施形態の誘因系列記憶手段の一具体例として位置付けられ、チャット読取りモジュール９３０から得られたチャット発言テキストと、この発言に対する誘因系列とそのスコアの組とをあわせてメモリまたは外部記憶装置に蓄積する。また、誘因系列記憶モジュール９５０は、トピック遷移ネットワーク生成モジュール９６０の要求に応じて任意の発言に対する誘因系列＝スコアの組の集合を返す。

上述の説明に従ってより具体的に蓄積するデータを述べると、誘因系列記憶モジュール９５０は、｛ｔ，ｓ（ｔ），ｄ（ｇ１，ｓ（ｔ）），ｄ（ｇ２，ｓ（ｔ）），…，ｄ（ｇｎ，ｓ（ｔ）），ｕ１，ｕ２，…，ｕｍ｝を一つの組として記憶する。ここでｄ（ｘ，ｙ）は系列ｘと発言ｙのトピック類似度である。

トピック遷移ネットワーク生成モジュール９６０は、ＵＩモジュール９８０の指示に従って、誘因系列記憶モジュール９５０に蓄積された情報に基づいてトピック遷移ネットワーク（トピック遷移グラフ）を生成する。詳細は前述の第３の実施形態に詳しく記載している。生成されたトピック遷移ネットワークはＵＩモジュール９８０で利用される。

画面構成モジュール９７０は、チャット読取りモジュール９３０が取得したチャットの各発言や、メディア再生モジュール９９０が映像や音声を再生するための表示領域など、本実施形態のリアルタイム会議支援システムのユーザに有益な情報を画面に表示するのに先立って、これらにハイパーリンクやボタン・コントロールなどを適切に追加して、画面配置を決定し、画面構成情報として出力する。

例えば、画面配置をＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述する場合には、画面構成モジュールはＨＴＭＬ文書を生成する。この際、個別の発言に対してボタンやハイパーリンクの形でユーザからのインタラクションが可能な形にし、スクロールバーやフレーム構造を埋め込んでユーザが読みやすいように配慮する。また、メディア再生モジュール９９０が映像や音声を再生するためのコントロールを配置する表示領域を確保するようレイアウトの計算を行う。

チャットの各発言は一般的なチャットシステムのように単純に時系列に並べても良い。あるいは、遷移系列ごとにツリー状に表示しても良い（図６参照）が、この場合は画面構成モジュール９７０が画面構成情報を更新する際にトピック遷移ネットワーク生成モジュール９６０からトピック遷移ネットワークを取得する必要がある。またあるいは、メディア再生モジュール９９０の表示内容に合わせてオーバーレイ表示（字幕、非特許文献２参照）してもよいし、再生される映像や音声の時系列に対して吹き出し状に並べても良い。このようにメディア再生モジュールと連携する場合は、連携に必要な情報も画面構成情報に含めて出力する。

ＵＩモジュール９８０は、画面構成モジュール９７０によって生成された画面配置情報を元に実際に画面描画処理を行い、その結果はディスプレイ装置によってユーザに提示される。一方でマウスやキーボード等の入力装置からユーザ入力を受け取り、以下のようにシステムを制御する。

ユーザ入力として画面配置情報に埋め込まれていた各発言を指定するアクション（具体的には、ハイパーリンクやボタン・コントロールのクリックなど）を受けた場合、トピック遷移ネットワーク生成モジュール９６０を用いて当該発言を含むトピック遷移ネットワークを生成し、この発言の起点となった映像または音声の時刻を求め、メディア再生モジュール９９０を制御して当該時刻前後の映像または音声を再生する。一言で言えば、これはチャットの発言をインデックスとして利用した頭出し機能である。

ある発言の起点となった映像や音声の時刻を求める処理は、具体的には以下のように行われる。トピック遷移ネットワーク生成モジュール９６０が生成したネットワークにおいて、当該発言はそのいずれかの節に相当する。この節から、ネットワークの始点方向に発言を辿っていけば、最終的にある発言に到達する。この発言ｓ（ｔ’）が時刻ｔ’になされているならば、これを基準として起点となった映像または音声の時刻を求めることができる。例えば、その時刻ｔ’から一定の時間（１秒、５秒、１０秒など）だけ遡った時刻を選択してもよい。あるいは、時刻ｔ’の時間的に直前に検出された発話区間の開始時刻を用いてもよい。またあるいは、その時刻ｔ’に為された発言ｓ（ｔ’）の誘因系列推定で用いられた最も古い発話の時刻ｕ’１を用いてもよい。もちろん、これらの条件を組み合わせて決定してもよい。

ユーザ入力としてメディア再生モジュール９９０が再生する映像または音声の特定の時刻の指定（例えばスクロールバー等によるタイムシフト動作など）を受けた場合、トピック遷移ネットワーク生成モジュール９６０を用いてトピック遷移ネットワークを生成し、当該時刻の周辺の映像または音声を起点とするトピック遷移の系列（＝トピックグループ）が存在するかどうかを調べる。この結果、いずれかのトピックグループ（複数のトピックグループが含まれることもありうる）がその時刻周辺を起点としていると判断できれば、そのトピックグループの画面表示の際にこれを反映する。具体的には、そのトピックグループに属す発言の表示色を他の発言と区別できるものに変えたり、文字サイズを大きくしたりしてもよい。あるいは、そのトピックグループに属す最新の発言に表示を切り替えても良い。後者は、映像または音声の特定のシーンに対する反応を調べる際に便利である。

以上、本発明の好適な実施形態及びその具体例を説明したが、本発明は、上記した実施形態やその具体例に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。

本発明は、上記したリアルタイム会議支援装置のみならず、その他のメディアストリーム・インデキシング・システムや言語ストリーム検索システムにも適用することができる。例えば、アイデア創造を主たる目的とした会議・講演などで補助的なコミュニケーションを行って議論を活発化させるような、会議・講演支援システムといった用途に適用できる。また、学会発表や教育目的の上記メディアストリーム・インデキシング・システムや言語ストリーム検索システムにも好ましく適用することが可能である。

また本発明は、映像を媒介としたコミュニケーションを活発化させる、映像コミュニケーション支援システムといった用途にも適用可能である。
なお、本発明の開示において、「手段」の語は、当該機能を有するユニットを示すものである。
本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

１００、２００言明誘因系列判定手段
１１０、８１０言語ストリームバッファ手段
１２０、２２０第１トピック類似度計算手段
１３０、２３０第２トピック類似度計算手段
１４０、２４０トピック類似度比較手段
２１０トピックグループバッファ手段
４００トピック遷移ネットワーク生成手段
４１０誘因系列推定手段
４２０誘因系列記憶手段
４３０トピック遷移推定手段
８００誘因系列判別手段
８２０第１音声認識手段
８３０第１認識信頼度計算手段
８４０第２音声認識手段
８５０第２認識信頼度計算手段
８６０認識信頼度比較手段
８７０認識結果選択手段
９００コンピュータ
９１０録画録音モジュール
９２０音声認識モジュール
９３０チャット読取りモジュール
９４０誘因系列推定モジュール
９５０誘因系列記憶モジュール
９６０トピック遷移ネットワーク生成モジュール
９７０画面構成モジュール
９８０ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）モジュール
９９０メディア再生モジュール

Claims

主たるメディアストリームと、
当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム（以下、「言語ストリーム」）とを入力とし、
前記一つまたは複数の言語ストリーム上のある言明が、
当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備える
ことを特徴とするトピック遷移解析システム。
当該言明に対して、
その言明が行われた時刻およびその近傍の時刻におけるメディアストリームとのトピック類似度と、
当該言明の直前になされた一群の言明のトピックとのトピック類似度と、
をそれぞれ求める一つまたは複数のトピック類似度計算手段を備え、
前記言明誘因系列判定手段は、トピック類似度の高い系列を当該言明の誘因系列と判定する
請求項１に記載のトピック遷移解析システム。
前記トピック類似度計算手段のうち少なくとも一つは、
当該言明と、
類似度計算の対象となる一つまたは複数の言明の組とを入力とし、
各々に含まれる単語について、所与のアルゴリズムに基づいて重み付けを行うことで当該言明および言明の組に対する文書ベクトルを算出し、
これら文書ベクトル間の距離を求め、
その大小をもってトピック類似度を算出する請求項２に記載のトピック遷移解析システム。
さらに、前記主たるメディアストリームに含まれる音声信号からテキスト列を生成する音声認識手段を備え、
前記トピック類似度計算手段のうち少なくとも一つは、
当該言明と、
前記音声認識手段を用いて類似度計算の対象となるメディアストリームの全部または任意の区間から生成したテキスト列とのトピック類似度を求める請求項２または３に記載のトピック遷移解析システム。
さらに、前記言語ストリーム上に現れた複数の言明を、互いにトピック類似度の高い言明ごとに分類したトピックグループごとに蓄積するトピックグループ記憶手段を備え、
前記トピック類似度計算手段は、当該言明と、前記トピックグループ記憶手段に蓄積された各グループとのトピック類似度を求め、
前記言明誘因系列判定手段は、よりトピック類似度の高い系列を当該言明の誘因系列と判定する請求項２から４のいずれか一に記載のトピック遷移解析システム。
さらに、前記言語ストリームに含まれる音声信号から任意のトピックに適応したテキスト列を生成する音声認識手段と、
前記音声認識手段にて生成されたテキスト列の妥当性を推定する音声認識結果信頼度推定手段と、を備え、
前記トピック類似度計算手段のうち少なくとも一つは、
当該言明の発話である言語ストリームの一区間の音声信号に対して、
前記音声認識手段を用いてテキスト列を生成するのに際し、
類似度計算の対象となるメディアストリームの全部または任意の区間、および、一つまたは複数の言明の組から推定されるトピックに適応した音声認識処理を行い、
音声認識処理により得られたテキスト列に対する前記音声認識結果信頼度推定手段による信頼度指標の大小をもってトピック類似度を算出する請求項２から５のいずれか一に記載のトピック遷移解析システム。
前記言明誘因系列判定手段によりトピック類似度の高い系列と判定された系列の音声認識結果を出力する請求項４または６に記載のトピック遷移解析システム。
さらに、前記トピック類似度に基づいて、前記メディアストリームの任意の時点または区間および各言明間の誘因系列の関係を樹状のネットワークで表したトピック遷移ネットワークを生成するトピック遷移ネットワーク生成手段を備える請求項２から７のいずれか一に記載のトピック遷移解析システム。
請求項１から８のいずれか一に記載のトピック遷移解析システムを含み、
前記言語ストリーム上の任意の言明に対して、
その誘因となった前記メディアストリーム上の時点または区間を推定する手段を備えるメディアストリーム・インデキシング・システム。
請求項１から８のいずれか一に記載のトピック遷移解析システムを含み、
前記メディアストリーム上の任意の時点または区間に対して、
その時点または区間を誘因とする前記言語ストリーム上の言明の系列を推定する手段を備える言語ストリーム検索システム。
メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム（以下、「言語ストリーム」）から任意の言明を選択し、
当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法。
トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、
メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム（以下、「言語ストリーム」）から任意の言明を選択する処理と、
当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラム。