JP5488475B2 - トピック遷移解析システム、トピック遷移解析方法およびプログラム - Google Patents

トピック遷移解析システム、トピック遷移解析方法およびプログラム Download PDF

Info

Publication number
JP5488475B2
JP5488475B2 JP2010542961A JP2010542961A JP5488475B2 JP 5488475 B2 JP5488475 B2 JP 5488475B2 JP 2010542961 A JP2010542961 A JP 2010542961A JP 2010542961 A JP2010542961 A JP 2010542961A JP 5488475 B2 JP5488475 B2 JP 5488475B2
Authority
JP
Japan
Prior art keywords
topic
statement
stream
language
media stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010542961A
Other languages
English (en)
Other versions
JPWO2010071112A1 (ja
Inventor
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010542961A priority Critical patent/JP5488475B2/ja
Publication of JPWO2010071112A1 publication Critical patent/JPWO2010071112A1/ja
Application granted granted Critical
Publication of JP5488475B2 publication Critical patent/JP5488475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Description

(関連出願についての記載)
本発明は、日本国特許出願:特願2008−318639号(2008年12月15日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明はトピック遷移解析システム、トピック遷移解析方法およびプログラムに関し、特にメディアストリームから平行してなされる各種の言語ストリームにおけるトピックの遷移を解析するトピック遷移解析システム、トピック遷移解析方法およびトピック遷移解析用プログラムに関する。
音声は空気を媒介として伝達されるので、ある場において同時に利用可能な音声チャネルはあまり多くない、という特徴を持つ。例えば会議や講演においては、公に認められた音声チャネルは通常ただひとつであり、この音声チャネル以外を用いた音声コミュニケーションは「雑談」と呼ばれ、不適切なものと考えられることが多い。
会議や講演の役割を情報伝達と捉えるならば、「雑談」は唯一の音声チャネルに対する「雑音」であるから、忌避されるべきものである。しかしながら、会議や講演を、参加者や聴講者が新たな発想や視点を得るためのアイデア想起の契機となるものと捉えるならば、「雑談」もまた有益なアイデア想起の契機となりえるので、必ずしも否定されるべきではない。例えば、学会発表の質疑応答では、往々にして主たる発表内容からやや外れた議論で盛り上がることがある。このような思想に基づいて、音声コミュニケーションと平行してチャットなどの非音声チャネルを用いたコミュニケーションを活発に取り入れるコミュニティが存在する。一例として、非特許文献1に記載されているWISS(Workshop on Interactive Systems and Software)の試みが挙げられる。
会議以外の分野では、映像を媒介としたコミュニケーションの例が挙げられる。このようなコミュニケーションは、インターネットの普及以前から、離れた場所にいる親しい友人同士が同じ番組をテレビで見ながら電話を掛けるというような形でしばしば行われてきた。パソコン通信やインターネットの黎明期にはチャットによるコミュニケーションが生まれたが、ここでも同様にテレビ番組を媒介として盛り上がる例が見られた。今日では大手掲示板に専用のスレッドが立てられる(非特許文献2)など、ネット上ではごく普通に見られるコミュニケーション手段となっている。さらに近年では映像そのものもネットワーク上を流れるようになったことで、テレビ番組やラジオ番組の持つ時間的な束縛からも解放された形での適用例も生まれてきている(非特許文献3)。
こうした映像とチャットの併用も、映像という唯一の特権的なチャネルに対し、チャット等の副次的なチャネルを用いたコミュニケーションを併用するという構図から見れば、先に述べた会議・講演の事例と同じ構造を持つことが分かる。
このように、主たるチャネルを通して流れる音声や映像などのメディアストリームに対して、これに付随する副次的なチャネルにおいて平行してなされるコミュニケーションのストリームがひとつまたは複数存在する、というモデルは、近年、さまざまな場面で見られるようになりつつある。
こうしたコミュニケーション・モデルにおける問題のひとつは、ユーザが副次的ストリームにおけるコミュニケーションに集中しすぎた場合に、主たるメディアストリームの一部を見逃したり聞き逃したりしがちである、という点にある。このようなケースで、副次的ストリームに集中しはじめた最初のタイミングまで主たるメディアストリームを簡便に巻き戻すことができれば便利である。
例えば、「首相辞任会見」という映像コンテンツを視聴する複数のユーザがチャットを楽しんでいる状況で、首相が何か暴言を吐いたことを契機として、その暴言に関する話題でチャットが盛り上がり、その流れから歴代総理による暴言、さらには過去の政治家の暴言を次々に羅列する書き込みが連続して行われたりする。この場合、元の「首相辞任会見」というコンテンツにおける「現首相の暴言」という事象からやや離れたトピック(「過去の政治家の暴言」)に対する会話が続いていることになるので、チャット参加者の注意は「首相辞任会見」から一時的に逸れてしまう。しばらく後、ひとしきりチャットで盛り上がったユーザが再び「首相辞任会見」に注意を向けると、そこではまったく異なるトピックに内容が移っていることに気づく。このユーザは、このコンテンツの視聴を継続するために、現時点のトピックが何であるかを読み取り、把握する必要に迫られる。ここで、一連のチャット議論の発端となった「首相の暴言」シーンの直後まで簡単に巻き戻すような仕組みがあれば、ユーザは見失った場面を素早く視聴しなおして、より容易にトピックに追いつくことができる。このような仕組みが実現されていれば、ユーザは、「首相辞任会見」の全体を漏れなく効率的に閲覧しつつ、同時に、思う存分チャットを楽しむことができるようになるだろう。
ところで、ここで想定しているコミュニケーション・モデルにおいては、副次的チャネルにおけるコミュニケーションは必ず主たるチャネルにおけるコミュニケーションを起点として行われている。上述の例で言えば、「過去の政治家の暴言」を語る一連のチャット上の対話は、「首相辞任会見」映像の「首相の暴言」のシーンを起点としている。従って、副次的チャネルにおけるコミュニケーションから、その起点となった主たるチャネルのメディアストリーム上の一点を特定する技術を用いれば、このようなニーズに応えられる。
このような用途に利用できそうな既存の技術として、音声インデキシング技術が考えられる。
音声とそれに付随する副次的なチャネルを扱うインデキシング技術の一例として、非特許文献4を示す。この文献に開示されるシステムは、テレビ番組に対して、その番組に対する実況チャットのテキストを用いて、次の手順でインデキシングする。すなわち、まず単位時間あたりのチャットの書き込み数を計測し、特に書き込みが多ければその時刻の直前にテレビ番組側に特に反響の大きいイベントが起きたと看做す。次にそれらの書き込みを分析し、そこに現れる語彙などを参照に「盛り上がり度」「落胆度」を抽出する。このようにして番組側のイベントが起こった時刻とそれに対応するチャットの書き込みを抽出していくことで、番組の特定時刻とチャットの各書き込みの間の紐付けを行うことができるので、チャットのある書き込みに対応するテレビ番組の特定部位をインデキシングすることができる。
特許文献1もまた音声インデキシング技術の別の一例である。この文献に開示されるテキストと音声のクロスインデキシング・システムは、概略次のように動作する。まず、テキストの全体または各部にトピック・ラベルを付与する。次に、予め与えられたキーワードが入力テキストの全部または各部の各々のトピックに対して出現する確率を求める。最後に入力音声の任意区間に対して前記キーワードの出現尤度を音声認識手段によって推定し、前記トピックごとのキーワードの出現確率と組み合わせることで、テキストと音声の相関関係を推定する。
やや異なる方式であるが、音声要約技術に基づく音声インデキシング技術の一例として、非特許文献5を示す。この文献で開示される会議インデクシングシステムは、会議音声を音声認識技術によってテキスト化し、予め単語ごとに与えられた概念ベクトルを用いて、ある発話音声に対する音声認識結果テキストに含まれる単語集合によって張られる概念ベクトル集合が、別の発話音声のそれと類似するかどうかを基準としてトピックごとに分割する。その後、トピック間の類似度に基づいて会議全体の話題遷移をツリー状に再構築する。ツリーの各ノードは、ある一塊のトピックに属す発話の集合を表すので、このツリー状のトピックネットワークを用いて、会議のある特定の発話と同じトピックを扱う最初の発話を導くことができる。
非特許文献5の技術の主たる用途は音声要約であり、音声から解析されたトピック遷移ツリーを出力とするものであるから、トピック遷移ツリーに現れたテキスト、すなわち音声データの一部から別の一部へのリンクしか張ることができない。しかしながら、トピック遷移ツリーの構築自体は音声認識処理によって得られたテキスト系列に対して施されることと、テキスト系列の起源となるストリームが単一でなければならないという制約が特にないことから、主たるメディアストリームと副次的な言語コミュニケーションチャネルの両方を同時に入力することによって、副次的チャネルで行われる言語コミュニケーションと主メディアストリームとの間のクロスインデキシングに拡張することができる。
非特許文献6から非特許文献11は、本発明に適用可能な手法等を紹介する文献であり、その内容及び本発明との関連は各実施形態の該当箇所でそれぞれ説明する。
"参加者が作る会議支援システム 〜WISS Challenge〜", コンピュータソフトウェア(日本ソフトウェア科学会), 2006, Vol. 23, No.4, pp.76−81 "実況板", http://ja.wikipedia.org/wiki/実況板, フリー百科事典『ウィキペディア(Wikipedia)』 "ニコニコ動画", http://ja.wikipedia.org/wiki/ニコニコ動画, フリー百科事典『ウィキペディア(Wikipedia)』 宮森 ほか, 番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成, 日本データベース学会Letters, Vol.4, No.1, pp.93−96, 2005 別所 ほか, 話題構造抽出に基づく会議音声インデクシングシステム, 電子情報通信学会論文誌 D Vol.J91−D No.9 pp.2256−2267, 2008 Salton, et al (1975), "A Vector Space Model for Automatic Indexing", Communications of the ACM, vol.18, nr.11, pp.613−620 NEC,"音声認識ソフトウェアCSVIEW/VisualVoice", http://www.nec.co.jp/middle/VisualVoice/, 2008/09/19現在 Rosenfeld, "A maximum entropy approach to adaptive statistical language modeling", Computer, Speech and Language 10, pp.187−228, 1996 Kuhn and de Mori, "A cache−based natural language model for speech recognition", IEEE Transaction PAMI, Vol.12, No.6 pp.570−583, 1990 Wessel, et al, "Confidence measures for large vocabulary continuous speech Recognition", IEEE Transaction on Speech and Audio Processing, 2001, vol.9, No.3 pp.288−298 磯谷ほか, "話し言葉認識技術とその応用", NEC技報 Vol.58 No.5/2005, pp.30−32 特開2000−235585号公報
なお、上記特許文献ならびに非特許文献の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は、本発明によって与えられたものである。
第1の問題点は、主たるメディアストリームに付随する副次的チャネルにおいて主メディアストリームの内容に応じたトピックに関する言語コミュニケーションがなされる際、副次的チャネル上のある言明へと至る一連の言語コミュニケーションの基点となった、主メディアストリーム上の位置をリアルタイムに特定するのに適した手法が知られていない、という点である。
例えば、非特許文献4に記載の技術のように、単に副次的チャネルにおける言明の時刻情報を利用し、時刻的に近傍にある主メディアストリームの一部に紐付けるだけの手法では、副次的チャネルにおける言語コミュニケーションが基点となった主メディアストリームでのトピックから離れていった場合に、適切に関連付けることができない。
また、特許文献1に記載のシステムは、予めテキストにトピック・ラベルを付与するステップが必要であることと、トピックに含まれるキーワードとその出現確率をも事前に算出するステップが必要である点から、事実上、リアルタイムに進行する言語コミュニケーションに対するインデキシングに適用することは困難である。
また、非特許文献5に記載の技術を援用し、主メディアストリームと副次的チャネルにおける言語ストリームを一体にした上でトピック遷移を構造化する手法を用いる方法では、トピックの構造化を適切に行うために主副双方のストリームを一旦すべて分析する必要がある。このような技術は、リアルタイムに進行するメディアストリーム(例えば会議など)で利用することは困難である。
本発明の目的は、主たるメディアストリームに付随する副次的チャネルにおいて行われる言語コミュニケーションの中でなされたある言明から、その言明に至る起点となった主メディアストリームの位置を求めるトピック遷移解析システムを提供することであって、特に、その動作がリアルタイム処理に適した効率の良いトピック遷移解析システムを提供することにある。
本発明の第1の視点によれば、主たるメディアストリームと、当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)とを入力とし、前記一つまたは複数の言語ストリーム上のある言明が、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備えるトピック遷移解析システムが提供される。
本発明の第2の視点によれば、メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択し、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法が提供される。
本発明の第3の視点によれば、トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択する処理と、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラムが提供される。なお、このプログラムは、任意の記憶媒体に記憶した状態で、あるいは、ネットワークを介して配布することができる。
本発明によれば、主たるメディアストリームのある時点におけるトピックを基点とする副次的チャネル上の一連の言語コミュニケーションが、基点となったトピックから時間的または内容的に徐々に乖離していった場合であっても、その言語ストリームにおける任意の言明から、基点となったメディアストリーム上のある時点を求めることができるようになる。また、本発明によれば、リアルタイム処理に適した実装で実現することができる。
その理由は、いずれかの言語ストリーム上のある言明が、当該言明のなされた時刻およびその近傍の時刻におけるメディアストリームの内容に起因して新たに生起したものであるか、当該言明の直前になされた一群の言明の内容を継続するものであるか、のいずれであるかを判定する言明誘因系列判定手段を備え、各言語ストリーム上に現れる言明をたどっていくことにより、一連の言明の流れの起点となった主たるメディアストリーム上の一点または一区間を推定することを可能としたことにある。
本発明の第1の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第2の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第2の実施形態に係るトピック遷移解析システムの動作を説明するための図である。 本発明の第3の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第3の実施形態に係るトピック遷移解析システムの動作を説明するための図である。 本発明の第3の実施形態に係るトピック遷移解析システムによって作成されるトピック遷移ネットワーク(トピック遷移グラフ)の一例である。 本発明の第4の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第5の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。
次に、本発明の好適な形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図1を参照すると、本発明の第1の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段100を含んで構成されている。
言明誘因系列判定手段100は、言語ストリームに含まれる個々の言明を一時的に保持する言語ストリームバッファ手段110と、誘因系列判定の対象となる言明と言語ストリームバッファ手段110に保持された言明との間のトピック類似度を算出する第1トピック類似度計算手段120と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第2トピック類似度計算手段130と、トピック類似度比較手段140と、を含む。
これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
言語ストリームバッファ手段110は、入力される言語ストリームに含まれる言明を一時的にメモリ上に蓄積する。ここで、言明とは、ある意図を持って成された一連の言語的事象を指し、例えば言語ストリーム上におけるコミュニケーションが文章のやり取りであるなら、ひとつの言明はひとつの文章に相当する。またあるいは、言語ストリームが音声会話であるなら、ひとつひとつのセンテンスが言明に相当する。また言明は、それが生起した時刻を示す情報を持つものとする。
第1トピック類似度計算手段120は、入力された言明と、言語ストリームバッファ手段110に保持された言語ストリーム上の過去の言明とのトピック類似度を、所与のアルゴリズムに基づいて算出する。実際には、言語ストリームバッファ手段110に蓄積された直近の言明から、トピック類似度算出アルゴリズムの要請に応じて取り出して類似度を算出する。
第2トピック類似度計算手段130は、入力された言明と、メディアストリーム上の任意の一部区間とのトピック類似度を、所与のアルゴリズムに基づいて算出する。
トピック類似度比較手段140は二つのトピック類似度計算手段にてそれぞれ算出された、言明と言語ストリームのトピック類似度および言明とメディアストリームのトピック類似度を比較し、より高いトピック類似度を示す側のストリームを、その言明に対する誘因系列と判定して出力する。
続いて、本実施形態の動作について詳細に説明する。まず、言語ストリームバッファ手段110に言語ストリームが入力されると、言語ストリームに含まれる各言明が取り出され、言語ストリームバッファ手段110が持つメモリ上に蓄積される。
本実施の形態に係るトピック遷移解析システムを言語ストリームに対してオンラインで動作させる場合、すなわち、言語ストリーム上に新たに現れた言明に対して誘因系列判定を順次繰り返し行うことになる。この場合、ある時刻t1に現れた言明s1に対して誘因系列判定を行ったとすれば、この言明は次の時刻t2に現れた言明s2に対して比較対象である言語ストリームの一部となる。従って、このようにリアルタイム形式で動作させる場合には、時刻t1における判定が行われた時点(第1および第2トピック類似度計算手段がs1に対するトピック類似度を算出した時点)でs1を言語ストリームバッファ手段110に格納するよう動作させることになる。
上記言語ストリームバッファ手段110への蓄積記憶は一時的なものでよく、どの程度の言明を一度に蓄積するかは、第1トピック類似度計算手段120で用いられるアルゴリズムに依存する。例えば、直近の言明が一つだけ必要なアルゴリズムであれば一つだけ、N個の言明が必要であれば高々N個だけ保持すればよい。
言語ストリームバッファ手段110に蓄積された言明は適切なタイミングで削除して良い。例えば上述のようにアルゴリズムが要求する言明の個数が高々N個であることが既知であるなら、言語ストリームにN+1個目の言明が現れた時点で、蓄積されている最も古い言明を削除すればよい。あるいはまた、アルゴリズムが必要とする個数の言明を記憶するのに充分なメモリ容量が既知であるなら、新たに言語ストリームに現れた言明を蓄積するとこの容量を超えてしまうというタイミングに、削除を行っても良い。このような事前の予測が困難なアルゴリズムを用いる場合は、第1トピック類似度計算手段120の側から、逐次不要になった言明を削除するよう指示させてもよい。
次に、第1および第2トピック類似度計算手段に対して、言明と、この言明の誘因系列であるか否かの判定対象となる言語ストリームおよびメディアストリームがそれぞれ与えられる。
第1トピック類似度計算手段120は、与えられた言明と、言語ストリームバッファ手段110に蓄積された言明との間のトピック類似度を所与のアルゴリズムに従って計算する。
上記トピック類似度の具体的な計算手法にはさまざまな既存方式を用いることができる。例えば、言明をドキュメントと看做してベクトル空間法(非特許文献6)を用いても良い。このとき、言語ストリームの直近の言明を一つだけ用いると偏った単語ベクトルが生成される恐れがあるので、直近の複数の言明の単語ベクトルの和を用いても良い。また、この和において減衰係数を掛け、直近の言明の単語ベクトルほど重みを持つようにしても良い。
第2トピック類似度計算手段130も同様に、与えられた言明と、メディアストリームとの間のトピック類似度を所与のアルゴリズムに従って計算する。
第2トピック類似度計算手段130の上記トピック類似度の計算方法も、前述の第1トピック類似度計算手段120と同様に、さまざまな既存方式を用いることができる。
一般に、メディアストリームはテキスト情報以外の形態で与えられる場合が多いので、この場合はメディアストリームからテキスト情報を何らかの形で抽出する必要がある。例えば、音声認識ソフトウェア(非特許文献7、もちろんこれに限らない)等を用いていったんテキストデータに変換してしまえば、第1のトピック類似度と同様にベクトル空間法を用いてトピック類似度を計算できる。このほか、画像認識技術と組み合わせ映像ストリーム内の文字情報(テロップなど)を抽出したり、クローズドキャプション信号を利用したりすることでテキスト情報に変換可能である。また、オブジェクトとその属性の集合である概念データベースが利用可能であるなら、映像中の個々のオブジェクトを画像認識した後、そのオブジェクトに対する属性(例えば「りんご」に対して「赤い」、「果物」、「おいしい」、「青森」など)が言明に含まれる頻度等を用いてトピック類似度を定義できる。
第2トピック類似度計算手段130にてトピック類似度を算出する際、その時点までに入力されたメディアストリームの全体を用いる必要はなく、判定対象となる言明が生起した時刻の直近の一区間を用いれば充分であることが多い。例えば予め定めた固定長の区間を用いても良いし、音声信号を含むストリームであれば検出された発話数が一定閾値以内になるような区間を用いても良い。
トピック類似度の算出で用いるメディアストリームの区間の長さをどのように制御するかということは、言明とのトピック類似度を適切に算出できるかどうかに係わる。あまり区間が長すぎる場合、トピックに関する特徴がぼやけるために適切なトピック類似度を得られない。その一方、あまりに区間が短い場合はトピック類似度算出の根拠となるトピックに依存した情報(トピックに特有の語彙など)が充分に観測できず、これも適切なトピック類似度が得られなくなる原因となりうる。
また、既知の言明の起点となっているメディアストリーム上の一区間が明らかな場合は、この区間以降のみに限定してトピック類似度計算を行った方が良い。なぜなら、この一区間におけるトピックと、これを起点としてなされた言明におけるトピックとは比較的トピック類似度が高いので、第2トピック類似度計算手段130に入力された言明とこれら両者の間のトピック類似度は同じような値となって、判別が困難になるためである。
第1および第2トピック類似度計算手段によって各ストリームに対する言明とのトピック類似度が算出されると、トピック類似度比較手段140はそれらを比較し、最も高い類似度を示したストリームをその言明の誘因となったストリームであると判定する。
なお、直近の複数の言明の単語ベクトルの和を用いてトピック類似度を算出している場合には、トピック類似度比較手段140が、ある言明に対する誘因系列としてメディアストリームを選択した場合、言語ストリームバッファ手段110に蓄積された言明をすべて削除し、当該言明を新たに言語ストリームバッファ手段110に蓄積する。このようにすることで、次の時刻における言明に対する誘因系列の判定を正しく行うことが可能になる。
次に、本実施形態の効果について説明する。本実施の形態では、ある言明に対して、その言明が言語ストリーム上の直前の言明へと至る言語コミュニケーションの継続であるか、直近のメディアストリームの内容に応じて新たに生起されたものであるかを判定するのに際し、当該言明の直前の一つまたは複数の言明と、当該言明が生起した時刻の近傍のメディアストリームの一区間のみを用いて、判定処理を行うため、効率が良く、オンライン処理に適した判定手法を実現できる。
その理由は、ある言明に対する基点となるメディアストリーム上の位置を求めるためには、その言明と、それに先行する直前のひとつまたは複数の言明と、その言明の時間的直近におけるメディアストリームの一部が与えられればよく、主副どちらのチャネルに関しても、例えば全体を解析してトピック遷移を計算する必要がないためである。このような性質は、副次的チャネルで行われる言語コミュニケーションが、主たるメディアストリームに対する新規の反応と、副次的チャネルにおけるコミュニケーションの継続と、のいずれかである、という知見から導かれるものである。
また別の理由は、ある言明に対する判定を行う場合、その言明が生起した時刻からある程度以上古い両ストリーム上の情報を必要としないので、必要最小限の記憶装置のみを用いて実装可能なためである。
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図2は、本発明の第2の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図2を参照すると、本発明の第2の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段200を含んで構成されている。
言明誘因系列判定手段200は、言語ストリームに含まれる個々の言明をトピックグループごとに一時的に保持するトピックグループバッファ手段210と、誘因系列判定の対象となる言明とトピックグループバッファ手段210に保持された言明との間のトピック類似度を算出する第1トピック類似度計算手段220と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第2トピック類似度計算手段230と、トピック類似度比較手段240と、を含む。
これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
トピックグループバッファ手段210は、入力される言語ストリームに含まれる言明を、トピックグループごとに一時的にメモリ上に蓄積する。ここでトピックグループとは、その言明のトピックに関する特徴が互いに近い言明の集合である。言明をバッファリングする機能そのものは本発明の第1の実施形態における言語ストリームバッファ手段110とほぼ同様であるので、省略する。
第1および第2トピック類似度計算手段220および230の動作についても、本発明の第1の実施の形態に準ずる。
ただし、言明と言語ストリームのトピック類似度を求める第1のトピック類似度に関しては若干動作が異なる。第1の実施形態においては、言語ストリームを代表する言明の組は一つだけであったので、言明との比較はこの唯一の言明の組との間でのみ行われた。一方、第2の実施形態においては、言語ストリームを代表する言明の集合(すなわちトピックグループ)は複数存在する。従って、トピック類似度の計算も各グループに対して行われる。
トピック類似度比較手段240はこれら各トピックグループに対するトピック類似度と、メディアストリームに対するトピック類似度を比較し、最もトピック類似度の高いトピックグループまたはストリームを、判別対象の言明に対する誘因系列と看做して出力する。
言明がいずれかのトピックグループを誘因としてなされたと判定された場合、その言明は当該トピックグループに属すものとしてトピックグループバッファ手段210に蓄積される。
次に、本実施形態の効果について説明する。本発明の第2の実施形態では、言語ストリーム上の言明を複数のトピックグループに分類し、それらの各々に対するトピック類似度を算出することによって、トピックグループ同士が時間的に重複して存在するような言語ストリームでも問題なく動作することを可能としている。
図3は、複数のトピックグループに属する言明が時間的にオーバーラップして現れた状況を示している。時刻t0前後にメディアストリームに現れた事象e0を起点として行われる言語コミュニケーションが言明s0,s1,s2と続いたとする。ここで時刻t1に生じた現象e1に対する言明s3がなされたのち、さらにその後のタイミングでs0,s1,s2に続く言明s4がなされた。
第1の実施形態のトピック遷移解析システムを用いる場合、言明s3が現れた時点で言明s0,s1,s2は言語ストリームバッファ手段から削除されるので、言明s4が言明s0,s1,s2のグループに属していてもこれを正しく検知することができず、言明s3を継続するものか、あるいは事象e1の直後のメディアストリームに関する言明であると判断してしまう。
一方、第2の実施形態のトピック遷移解析システムでは、言明s4に対して言明s0,s1,s2のグループと言明s3のグループのそれぞれ、およびメディアストリームに対するトピック類似度を求めて比較することから、正しく言明s0,s1,s2に連なる言明であると判別できる。
このような理由により、本発明の第2の実施形態のトピック遷移解析システムを用いることで、複数のトピックグループが時間的にオーバーラップして現れるような状況においても、言明の誘因系列を正しく判断することができる。
なお、第1の発明の実施形態のトピック遷移解析システムにおける言語ストリームバッファ手段110では古い言明をメモリから削除するものとして説明したが、第2の発明の実施の形態においても同様の制御を実施することができる。ただし、削除のタイミングとしてメディアストリームが誘因系列として判別されたタイミングは利用できないので、適当なタイムアウト時間(図3のt/o)を予め設定し、あるトピックグループに属す言明が最後に現れた時刻からこのタイムアウト時間を過ぎたタイミングで古い言明を削除するように設計すればよい。あるいは、ある言明が既存のどのトピックグループにも属さないと判定された時刻からタイムアウト処理を開始しても良い。
例えば、図3の言明s5は事象e2に対する言明であるが、事象e0とe2のトピック類似度が高いために、言明s0,s1,s2,s4のトピックグループに属すと誤判定される可能性がある。このときタイムアウト処理を用いていれば、言明s5の生起した時刻t2が言明s4の生起した時刻t1からt/o秒以上経過していることを利用して、言明s5を正しく事象e2によって生起された言明と判定できるようになる。
このタイムアウト処理が有効である理由は、言語コミュニケーションにおいて、既に別のトピックに関する議論が開始して相当の時間が過ぎた後に、何のきっかけや標識もなくそれ以前のトピックに対する議論が唐突に行われることは少ない、というヒューリスティクに基づく。
なお、同じヒューリスティクを第1トピック類似度計算手段220に盛り込むことも可能である。すなわち、あるトピックグループに対するトピック類似度を算出する際に、そのトピックグループで最後に生起した言明の生起時刻と、判別対象である言明の生起時刻との差を求め、差が大きいほどトピック類似度を小さくするような忘却係数を導入するようにすることも可能である。
[第3の実施形態]
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。図4は、本発明の第3の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図4を参照すると、本発明の第3の実施形態に係るトピック遷移解析システムは、トピック遷移ネットワーク生成手段400を含んで構成されている。
トピック遷移ネットワーク生成手段400は、誘因系列推定手段410と、誘因系列記憶手段420と、トピック遷移推定手段430とから構成されている。
これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
誘因系列推定手段410は、第1、第2の実施形態に記載の言明誘因系列判定手段100、200とほぼ同等のものである。ただし、言明誘因系列判定手段100、200がある言明に対する誘因系列がいずれであるか判定した結果を出力するのに対し、誘因系列推定手段410は各入力ストリーム(言語ストリームに関しては各トピックグループ)の判別対象となる言明とのトピック類似度の組を返す。
誘因系列記憶手段420は、誘因系列推定手段410によって得られた、言明とその言明に対する各ストリームおよびトピックグループのトピック類似度の組を記録する。
トピック遷移推定手段430は、誘因系列記憶手段420に蓄えられた各言明に対するトピック類似度の組を用いて、言語ストリーム上の任意の言明以前に現れたすべての言明に対する誘因系列の関係を樹状のネットワークに構築して出力する。この出力は、言語ストリーム上でなされた言語コミュニケーションにおいてどのようにトピックが遷移していったかを示すネットワークであることから、トピック遷移ネットワークと呼ぶ。
次に、図5の遷移図を参照して本実施形態の全体の動作について詳細に説明する。
まず言語ストリームから最初の言明が取り出される。これが時刻t0に現れたとする。時刻t0に現れた言明s0は、それ以前に言明がないので、直近のメディアストリーム(図5のボックスa)によって生起した言明であると看做せる。誘因系列記憶手段420は、この結果{s0, m0, g1(s0)}を記録する。これは、言明s0が新たなトピックグループであるトピックグループG1を形成したことを意味し、このときトピック類似度を求めたメディアストリームの一区間がm0であることを意味する。
ここでgi(x)は言明xとトピックグループGiのトピック類似度を表す。
次に、時刻t1に二つ目の言明s1が現れたとき、時刻t1に近傍するメディアストリームの一区間(ボックスb)の内容か、この直前の言明s0が属すトピックグループ1の最新の言明(ボックスc)の内容か、どちらかを誘因として為された言明であるかを求める。誘因系列推定手段410によって、言明s1とメディアストリーム、トピックグループG1それぞれとのトピック類似度が算出される。誘因系列記憶手段420は、この結果{s1,m1,g1(s1),g2(s1)}を記録する。ここでトピックグループG2は、言明s1がメディアストリームを誘因として為されたとした場合に言明s1が新たに形成するトピックグループにつけられた仮のラベルである。ここでは説明のため、g1(s1)>g2(s1)であったとする。
次に、時刻t2に三つ目の言明s2が現れたとき、先ほどと同様に各ストリームおよびトピックグループとのトピック類似度が{s2,m2,g1(s2),g2(s2)}として求められる。ここでは説明のためにg1(s2)<g2(s2)であったとすると、言明s2は新たなトピックストリームG2を形成する。従って、その次の時刻t3に現れた四つ目の言明s3に対しては1つのメディアストリームと2つのトピックグループに対するトピック類似度が求められ、結果として{s3,m3,g1(s3),g2(s3),g3(s3)}が誘因系列記憶手段420に蓄えられる。以降も同様に続く。
任意のタイミングで既知の言明snまでに現れたすべての言明に関するトピック遷移ネットワークを生成することができる。このとき、トピック遷移推定手段430は次のように動作する。
まず、誘因系列記憶手段420から最も古い言明s0を取り出し、これが属す可能性のある各系列とのトピック類似度を比較する。言明s0に関しては{s0,m0,g1(s0)}と記録されていることから、トピックグループG1に属すことが確定し、またこの時刻の近傍のメディアストリームの一区間m0の内容を誘因として為されたことが確定する。そこで、メディアストリームの一区間m0から言明s0へ遷移するネットワークが構築される。
続いて、次に古い言明s1を取り出すと、{s1,m1,g1(s1),g2(s1)}でかつg1(s1)>g2(s1)であるから、言明s1はトピックグループG1に属すことが確定する。そこで、先ほど構築したネットワークを更新し、言明s0から言明s1への遷移を追加する。
さらに続けて言明s2を取り出すと、{s2,m2,g1(s2),g2(s2)}かつg1(s2)<g2(s2)であるから、言明s2はトピックグループG2に属すことが確定する。そこで、先ほど構築したネットワークを更新し、メディアストリームの一区間m2から言明s2への遷移を追加する。
以上を繰り返していくことによって、最終的に図6のようなネットワークを形成することができる。図6は、言明s8に対するトピック類似度が誘因系列記憶手段420に記録されたタイミングで生成されたトピック遷移ネットワークを示している。
ここまでに示した動作では、各言明に対して最もトピック類似度の高い系列を決定的に選択しているので、誘因系列記憶手段420を省いて、直接、誘因系列推定手段410からトピック遷移推定手段430にトピック類似度情報を入力してトピック遷移ネットワークをオンラインで構築させるように構成することもできる。
しかし、ある言明に対する各系列のトピック類似度にあまり差がない場合は、決定的に誘因系列を決定することで誤った系列を選択してしまう可能性がある。このような場合は誘因系列記憶手段420を経由させることが役に立つ。
例えば図5において、言明s2に対するトピック類似度g1(s2)とg2(s2)の差がごく僅かであったとする。もし、この後、相当の時間が超過してもトピックグループG2に属すと看做せる言明がひとつも現れなかったのであれば、s2をトピックグループG2に分類したことがそもそも誤りであった可能性が高い。そこで、ある言明sが新たなトピックグループGの最初の言明と判断された場合、そのトピックグループGに属す(と看做せる)新たな言明s’が現れるまでの時間tを用いてsのトピック類似度g(s)を補正する方法が考えられる。具体的には、例えば次の[数1]のように、所与のタイムアウト時間Tを超過したのちにペナルティを与える式を用いることができる。ここでλは所与のペナルティ重みである正の実数である。
Figure 0005488475
このように、誘因系列記憶手段420にトピック類似度をいったん蓄積することによって、より柔軟なトピック遷移ネットワークの生成が可能となる。
次に、本実施形態の効果について説明する。本発明の第3の実施形態では、言語ストリームのある言明に対して、その言明が直前の言明へと至る言語コミュニケーションの継続であるか、または直前のメディアストリームの内容に関する新たな反応であるか、そのいずれであるかを、トピック類似度を用いて判別するよう構成されているため、言語ストリームにおける言語コミュニケーションの中でトピックが漸進的に基点となったメディアストリームのある時点におけるトピックから遷移していったとしても、その遷移を追跡することができる。
その理由は、メディアストリーム上のある起点から始まる一連の言語ストリーム上の言語コミュニケーションにおいては、トピックは一定であるか漸進的に遷移すると期待できるのに対し、主たるメディアストリームの内容に応じて言語ストリーム上に新たに生起する言語コミュニケーションは、それ以前になされた一連のコミュニケーションのトピックよりも、むしろ、起点となったメディアストリーム上のトピックにより近いものに急激に遷移すると期待できる、という性質を利用しているためである。
また、本実施形態では、さらに、ある言明に対して、その直前のひとつまたは複数の言明と、当該言明の直近のメディアストリームの一部に対する音声認識結果のみを与えることで前記の効果を実現できるよう構成されているため、オンラインな処理に適したトピック遷移解析を行うことができる。オンライン性が特に重要な場合は、誘因系列記憶手段420を経由せずにトピック遷移推定手段430をオンライン動作させることによって、完全にオンラインな動作も可能である。
[第4の実施形態]
次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図7は、本発明の第4の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。
図7を参照すると、本発明の第4の実施形態に係るトピック遷移解析システムは、誘因系列判別手段800を含んで構成されている。
誘因系列判別手段800は、言語ストリームバッファ手段810と、第1音声認識手段820と、第1認識信頼度計算手段830と、第2音声認識手段840と、第2認識信頼度計算手段850と、認識信頼度比較手段860と、認識結果選択手段870とを含む。
これらはトピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
第1および第2音声認識手段820、840は、入力された言語ストリームに含まれる音声信号を既存の音声認識技術を用いて発話単位にテキスト化する。このとき、各々の音声認識手段はそれぞれ異なるトピックに対して適応処理を施しながら音声認識を行う。
トピック適応音声認識の具体的な方法としてはさまざまな手法が考えられるが、例えば、良く用いられるトリガーモデル(非特許文献8)やキャッシュモデル(非特許文献9)に基づく音声認識手法が利用できる。
言語ストリームバッファ手段810は、第1音声認識手段820が出力した音声認識結果を、一つの発話に対する認識結果テキストを一つの言明として蓄積する。
言語ストリームバッファ手段810における蓄積した言明の扱い(削除タイミング等)は第1および第2の実施形態に準じた形態を適宜採ることができる。
第1音声認識手段820は、この言語ストリームバッファ手段810に蓄積された直近の言明の集合に対してトピック適応を施した上で音声認識処理を行う。従って認識結果は言語ストリームの直近の内容にやや偏ったものとなる。
一方、第2音声認識手段840は直近のメディアストリームの一区間に対してトピック適応を施した上で音声認識処理を行う。メディアストリームからトピック情報を取り出す具体的な方法については第1の実施形態に記載したものに準じた形態を適宜採ることができる。
メディアストリームから何らかのトピック情報が取り出せれば、それに応じたトピック適応音声認識処理を実行することができる。この結果、第2音声認識手段が出力する認識結果は、直近のメディアストリームの内容にやや偏ったものとなる。
第1および第2音声認識手段820、840によって出力された認識結果は、第1および第2認識信頼度計算手段830、850への入力として用いられ、認識結果に対する信頼度(妥当性)を示す指標値が出力される。
信頼度としてはさまざまなものが考えられる(非特許文献10)が、例えば単語事後確率(word posterior probability)などを用いることもできる。
認識信頼度比較手段860は、これらの認識信頼度計算手段830、850が出力した信頼度を、言語ストリーム上の直近の発話(言明)に対するトピック類似度として用い、第1および第2の実施の形態と同様に誘因系列を判定する。このとき、認識結果選択手段870が、あわせて誘因系列と判定された側のストリームに適応して出力された認識結果を、その発話(言明)の認識結果テキストとして出力する。
次に、本実施形態の効果について説明する。本発明の第4の実施形態では、言語ストリームが音声信号を含むメディア信号として与えられた場合、ある音声発話を、その直前の言語ストリームと、その直近のメディアストリームのそれぞれと同じトピックを有すると仮定してトピック適応した音声認識手段を用いてテキストに変換し、その変換結果テキストの信頼度の大小によって、その発話がどちらのストリームの内容を誘因としてなされたかを判定するよう動作するので、言語ストリームがテキストでない場合でも、誘因系列を判定することが可能である。
その理由は、当該発話のトピックは、いずれかのストリームのトピックにより近いので、そちらのストリームのトピックに適応した認識結果の方が、他方よりもよりよい認識結果となるためである。
また本発明の実施形態の別の効果は、言語ストリームが音声信号を含むメディア信号として与えられた場合に、その言語ストリームの音声信号に対してより良い認識結果テキストを同時に得ることができる、という点である。その理由は、ある発話の直前の言語ストリームとメディアストリームのいずれかは当該発話のトピックと等しいのであるから、そのトピックに適応させた認識結果は、どのトピックにも適応させなかった場合にくらべて、より適切なものとなることが期待できるためである。
なお、以上第1から第4の実施の形態では言語ストリームが一つだけの場合について説明したが、二つ以上複数の言語ストリームを用いる場合でも同様の原理にて、上述した作用効果が得られることは明らかである。
[第5の実施形態]
次に、本発明をリアルタイム会議支援装置に応用した第5の実施形態について図面を参照して詳細に説明する。図8は、本発明の第5の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。
図8に示すように、本実施形態に係るリアルタイム会議支援装置は、コンピュータ900と、このコンピュータに接続されたビデオカメラ、マイクロフォン、ディスプレイ装置、入力装置から構成される。また、このコンピュータ900はネットワークに接続されている。
コンピュータ900は以下のソフトウェアモジュールを含む。すなわち、音声および映像を取り込む録画録音モジュール910、音声をテキストに変換する音声認識モジュール920、ネットワークからコンピュータ・チャットの書く発言(書き込み)を順次取得するチャット読取りモジュール930、誘因系列推定モジュール940、誘因系列記憶モジュール950、トピック遷移ネットワーク生成モジュール960、チャットの発言や映像等を適切に整形してハイパーリンクやボタン等のUI(User Interface)要素とともに配置する画面構成モジュール970、この配置情報を元に画像を出力しつつ、対応するUI操作を受け付けるUIモジュール980、画面構成モジュール970の配置に基づいて任意の時刻の映像や音声を再生するメディア再生モジュール990、を含む。
これらのモジュールは概略次のように動作する。
録画録音モジュール910は、ビデオカメラから入力された映像信号やマイクロフォンから入力された音声信号を所定の方法で取得する。ネットワークを経由した映像/音声ストリームでも良い。このうち音声信号(映像信号の場合はそこから抽出する)は音声認識モジュール920に送られる。映像信号および音声信号は、メディア再生モジュール990で再生するために、必要に応じてバッファリングされたのち送られる。
音声認識モジュール920は、上記した第1〜第4の実施形態の音声認識手段の一具体例として位置付けられ、入力された音声信号に対して最も妥当性の高いテキスト列を生成し、時刻情報とあわせて誘因系列推定モジュール940に送る。
本実施形態では会議の場で交わされるいわゆる「話し言葉」音声を想定しているので、非特許文献11のような話し言葉認識技術を実装した音声認識モジュールを利用することが望ましい。
チャット読取りモジュール930は、ネットワーク越しに行われるコンピュータ・チャットにおいて新たに現れた発言を順次取得して、時刻情報と合わせて誘因系列推定モジュール940に送る。
ここで、このコンピュータ・チャットでは各発言に何らかの時刻情報が付与されており、これが録画録音モジュール910に入力される映像または音声と同期するための何らかのルールは既知でなければならない。本実施形態ではリアルタイム会議支援、すなわち、会議の場で平行して行われるチャットを想定しているので、これは単にチャットの各発言が入力されたタイムスタンプを取得するだけでよい。
誘因系列推定モジュール940は、上記した第3の実施形態の誘因系列推定手段の一具体例として位置付けられる。すなわち、誘因系列推定モジュール940は、音声認識モジュール920から得られた音声認識結果テキストと、チャット読取りモジュール930から得られたチャット発言テキストとを入力とし、必要に応じてこれらを一時的に蓄積しながら、新たにチャット読取りモジュール930から得られたチャット発言テキストに対してその誘因系列を推定し、推定結果のスコアとともに誘因系列記憶モジュール950に送る。
より具体的には次のように動作する。ある時刻tに入力されたチャット上の発言s(t)に対して、s(t)の誘因系列の候補としてトピックグループg1,g2,…,gn−1と、映像信号または音声信号の系列が考えられる。仮にs(t)が後者を誘因としてなされた発言であるなら新たなトピックグループgnを構成するので、結局のところn個のトピックグループが誘因系列の候補となる。これらのそれぞれについて、直近のひとつ以上複数の発言とs(t)とのトピック類似度を求める。gn(音声認識結果の系列)に関しては時刻tより所与の遅延時間D以上前に現れたひとつ以上複数の発話区間(それぞれの開始時刻をu1,u2,…,umとする)に対する認識結果テキストr(u1),r(u2),…,r(um)を用いる。なお、この遅延時間Dはチャットの入力およびネットワーク伝送に掛かる最小遅延時間であって、例えば1秒程度の値を与えることができる。
なお、一部のチャットシステムでは、特定の書式でなされた発言は別の特定の発言を誘因として為されたと自動的に判定する機能を備えている。このような機能がなくても、チャット利用者内の共通認識としてある種の書式が同様の効果を認められている場合もある。このようなケースでは、ある発言に対する誘因系列はその書式に基づいて決定しても良く、この場合のトピック類似度は決定的(特定のトピックグループに対して最大値、その他のすべての系列に対して最小値)に与える。
誘因系列記憶モジュール950は、上記した第3の実施形態の誘因系列記憶手段の一具体例として位置付けられ、チャット読取りモジュール930から得られたチャット発言テキストと、この発言に対する誘因系列とそのスコアの組とをあわせてメモリまたは外部記憶装置に蓄積する。また、誘因系列記憶モジュール950は、トピック遷移ネットワーク生成モジュール960の要求に応じて任意の発言に対する誘因系列=スコアの組の集合を返す。
上述の説明に従ってより具体的に蓄積するデータを述べると、誘因系列記憶モジュール950は、{t,s(t),d(g1,s(t)),d(g2,s(t)),…,d(gn,s(t)), u1,u2,…,um}を一つの組として記憶する。ここでd(x,y)は系列xと発言yのトピック類似度である。
トピック遷移ネットワーク生成モジュール960は、UIモジュール980の指示に従って、誘因系列記憶モジュール950に蓄積された情報に基づいてトピック遷移ネットワーク(トピック遷移グラフ)を生成する。詳細は前述の第3の実施形態に詳しく記載している。生成されたトピック遷移ネットワークはUIモジュール980で利用される。
画面構成モジュール970は、チャット読取りモジュール930が取得したチャットの各発言や、メディア再生モジュール990が映像や音声を再生するための表示領域など、本実施形態のリアルタイム会議支援システムのユーザに有益な情報を画面に表示するのに先立って、これらにハイパーリンクやボタン・コントロールなどを適切に追加して、画面配置を決定し、画面構成情報として出力する。
例えば、画面配置をHTML(Hyper Text Markup Language)で記述する場合には、画面構成モジュールはHTML文書を生成する。この際、個別の発言に対してボタンやハイパーリンクの形でユーザからのインタラクションが可能な形にし、スクロールバーやフレーム構造を埋め込んでユーザが読みやすいように配慮する。また、メディア再生モジュール990が映像や音声を再生するためのコントロールを配置する表示領域を確保するようレイアウトの計算を行う。
チャットの各発言は一般的なチャットシステムのように単純に時系列に並べても良い。あるいは、遷移系列ごとにツリー状に表示しても良い(図6参照)が、この場合は画面構成モジュール970が画面構成情報を更新する際にトピック遷移ネットワーク生成モジュール960からトピック遷移ネットワークを取得する必要がある。またあるいは、メディア再生モジュール990の表示内容に合わせてオーバーレイ表示(字幕、非特許文献2参照)してもよいし、再生される映像や音声の時系列に対して吹き出し状に並べても良い。このようにメディア再生モジュールと連携する場合は、連携に必要な情報も画面構成情報に含めて出力する。
UIモジュール980は、画面構成モジュール970によって生成された画面配置情報を元に実際に画面描画処理を行い、その結果はディスプレイ装置によってユーザに提示される。一方でマウスやキーボード等の入力装置からユーザ入力を受け取り、以下のようにシステムを制御する。
ユーザ入力として画面配置情報に埋め込まれていた各発言を指定するアクション(具体的には、ハイパーリンクやボタン・コントロールのクリックなど)を受けた場合、トピック遷移ネットワーク生成モジュール960を用いて当該発言を含むトピック遷移ネットワークを生成し、この発言の起点となった映像または音声の時刻を求め、メディア再生モジュール990を制御して当該時刻前後の映像または音声を再生する。一言で言えば、これはチャットの発言をインデックスとして利用した頭出し機能である。
ある発言の起点となった映像や音声の時刻を求める処理は、具体的には以下のように行われる。トピック遷移ネットワーク生成モジュール960が生成したネットワークにおいて、当該発言はそのいずれかの節に相当する。この節から、ネットワークの始点方向に発言を辿っていけば、最終的にある発言に到達する。この発言s(t’)が時刻t’になされているならば、これを基準として起点となった映像または音声の時刻を求めることができる。例えば、その時刻t’から一定の時間(1秒、5秒、10秒など)だけ遡った時刻を選択してもよい。あるいは、時刻t’の時間的に直前に検出された発話区間の開始時刻を用いてもよい。またあるいは、その時刻t’に為された発言s(t’)の誘因系列推定で用いられた最も古い発話の時刻u’1を用いてもよい。もちろん、これらの条件を組み合わせて決定してもよい。
ユーザ入力としてメディア再生モジュール990が再生する映像または音声の特定の時刻の指定(例えばスクロールバー等によるタイムシフト動作など)を受けた場合、トピック遷移ネットワーク生成モジュール960を用いてトピック遷移ネットワークを生成し、当該時刻の周辺の映像または音声を起点とするトピック遷移の系列(=トピックグループ)が存在するかどうかを調べる。この結果、いずれかのトピックグループ(複数のトピックグループが含まれることもありうる)がその時刻周辺を起点としていると判断できれば、そのトピックグループの画面表示の際にこれを反映する。具体的には、そのトピックグループに属す発言の表示色を他の発言と区別できるものに変えたり、文字サイズを大きくしたりしてもよい。あるいは、そのトピックグループに属す最新の発言に表示を切り替えても良い。後者は、映像または音声の特定のシーンに対する反応を調べる際に便利である。
以上、本発明の好適な実施形態及びその具体例を説明したが、本発明は、上記した実施形態やその具体例に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
本発明は、上記したリアルタイム会議支援装置のみならず、その他のメディアストリーム・インデキシング・システムや言語ストリーム検索システムにも適用することができる。例えば、アイデア創造を主たる目的とした会議・講演などで補助的なコミュニケーションを行って議論を活発化させるような、会議・講演支援システムといった用途に適用できる。また、学会発表や教育目的の上記メディアストリーム・インデキシング・システムや言語ストリーム検索システムにも好ましく適用することが可能である。
また本発明は、映像を媒介としたコミュニケーションを活発化させる、映像コミュニケーション支援システムといった用途にも適用可能である。
なお、本発明の開示において、「手段」の語は、当該機能を有するユニットを示すものである。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
100、200 言明誘因系列判定手段
110、810 言語ストリームバッファ手段
120、220 第1トピック類似度計算手段
130、230 第2トピック類似度計算手段
140、240 トピック類似度比較手段
210 トピックグループバッファ手段
400 トピック遷移ネットワーク生成手段
410 誘因系列推定手段
420 誘因系列記憶手段
430 トピック遷移推定手段
800 誘因系列判別手段
820 第1音声認識手段
830 第1認識信頼度計算手段
840 第2音声認識手段
850 第2認識信頼度計算手段
860 認識信頼度比較手段
870 認識結果選択手段
900 コンピュータ
910 録画録音モジュール
920 音声認識モジュール
930 チャット読取りモジュール
940 誘因系列推定モジュール
950 誘因系列記憶モジュール
960 トピック遷移ネットワーク生成モジュール
970 画面構成モジュール
980 UI(User Interface)モジュール
990 メディア再生モジュール

Claims (12)

  1. 主たるメディアストリームと、
    当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)とを入力とし、
    前記一つまたは複数の言語ストリーム上のある言明が、
    当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備える
    ことを特徴とするトピック遷移解析システム。
  2. 当該言明に対して、
    その言明が行われた時刻およびその近傍の時刻におけるメディアストリームとのトピック類似度と、
    当該言明の直前になされた一群の言明のトピックとのトピック類似度と、
    をそれぞれ求める一つまたは複数のトピック類似度計算手段を備え、
    前記言明誘因系列判定手段は、トピック類似度の高い系列を当該言明の誘因系列と判定する
    請求項1に記載のトピック遷移解析システム。
  3. 前記トピック類似度計算手段のうち少なくとも一つは、
    当該言明と、
    類似度計算の対象となる一つまたは複数の言明の組とを入力とし、
    各々に含まれる単語について、所与のアルゴリズムに基づいて重み付けを行うことで当該言明および言明の組に対する文書ベクトルを算出し、
    これら文書ベクトル間の距離を求め、
    その大小をもってトピック類似度を算出する請求項に記載のトピック遷移解析システム。
  4. さらに、前記主たるメディアストリームに含まれる音声信号からテキスト列を生成する音声認識手段を備え、
    前記トピック類似度計算手段のうち少なくとも一つは、
    当該言明と、
    前記音声認識手段を用いて類似度計算の対象となるメディアストリームの全部または任意の区間から生成したテキスト列とのトピック類似度を求める請求項またはに記載のトピック遷移解析システム。
  5. さらに、前記言語ストリーム上に現れた複数の言明を、互いにトピック類似度の高い言明ごとに分類したトピックグループごとに蓄積するトピックグループ記憶手段を備え、
    前記トピック類似度計算手段は、当該言明と、前記トピックグループ記憶手段に蓄積された各グループとのトピック類似度を求め、
    前記言明誘因系列判定手段は、よりトピック類似度の高い系列を当該言明の誘因系列と判定する請求項からのいずれか一に記載のトピック遷移解析システム。
  6. さらに、前記言語ストリームに含まれる音声信号から任意のトピックに適応したテキスト列を生成する音声認識手段と、
    前記音声認識手段にて生成されたテキスト列の妥当性を推定する音声認識結果信頼度推定手段と、を備え、
    前記トピック類似度計算手段のうち少なくとも一つは、
    当該言明の発話である言語ストリームの一区間の音声信号に対して、
    前記音声認識手段を用いてテキスト列を生成するのに際し、
    類似度計算の対象となるメディアストリームの全部または任意の区間、および、一つまたは複数の言明の組から推定されるトピックに適応した音声認識処理を行い、
    音声認識処理により得られたテキスト列に対する前記音声認識結果信頼度推定手段による信頼度指標の大小をもってトピック類似度を算出する請求項からのいずれか一に記載のトピック遷移解析システム。
  7. 前記言明誘因系列判定手段によりトピック類似度の高い系列と判定された系列の音声認識結果を出力する請求項またはに記載のトピック遷移解析システム。
  8. さらに、前記トピック類似度に基づいて、前記メディアストリームの任意の時点または区間および各言明間の誘因系列の関係を樹状のネットワークで表したトピック遷移ネットワークを生成するトピック遷移ネットワーク生成手段を備える請求項からのいずれか一に記載のトピック遷移解析システム。
  9. 請求項1からのいずれか一に記載のトピック遷移解析システムを含み、
    前記言語ストリーム上の任意の言明に対して、
    その誘因となった前記メディアストリーム上の時点または区間を推定する手段を備えるメディアストリーム・インデキシング・システム。
  10. 請求項1からのいずれか一に記載のトピック遷移解析システムを含み、
    前記メディアストリーム上の任意の時点または区間に対して、
    その時点または区間を誘因とする前記言語ストリーム上の言明の系列を推定する手段を備える言語ストリーム検索システム。
  11. ディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)から任意の言明を選択し、
    当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法。
  12. トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、
    ディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)から任意の言明を選択する処理と、
    当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラム。
JP2010542961A 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム Active JP5488475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010542961A JP5488475B2 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008318639 2008-12-15
JP2008318639 2008-12-15
JP2010542961A JP5488475B2 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム
PCT/JP2009/070839 WO2010071112A1 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2010071112A1 JPWO2010071112A1 (ja) 2012-05-31
JP5488475B2 true JP5488475B2 (ja) 2014-05-14

Family

ID=42268783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010542961A Active JP5488475B2 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム

Country Status (3)

Country Link
US (1) US8670978B2 (ja)
JP (1) JP5488475B2 (ja)
WO (1) WO2010071112A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140033025A1 (en) * 2007-12-06 2014-01-30 Adobe Systems Incorporated Displaying a text-based description of digital content in a sub-frame
US10629188B2 (en) * 2013-03-15 2020-04-21 International Business Machines Corporation Automatic note taking within a virtual meeting
US9495357B1 (en) 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
JP6413256B2 (ja) * 2014-02-20 2018-10-31 株式会社リコー 会議支援装置、会議支援装置の制御方法、及びプログラム
US10404806B2 (en) 2015-09-01 2019-09-03 Yen4Ken, Inc. Methods and systems for segmenting multimedia content
US10546028B2 (en) 2015-11-18 2020-01-28 International Business Machines Corporation Method for personalized breaking news feed
US9934449B2 (en) * 2016-02-04 2018-04-03 Videoken, Inc. Methods and systems for detecting topic transitions in a multimedia content
US10296533B2 (en) 2016-07-07 2019-05-21 Yen4Ken, Inc. Method and system for generation of a table of content by processing multimedia content
JP6864833B2 (ja) * 2017-06-05 2021-04-28 株式会社Jvcケンウッド チャット端末装置、チャットシステム、チャット表示方法、及びチャット表示プログラム
US11018997B2 (en) * 2018-04-12 2021-05-25 Disney Enterprises, Inc. Systems and methods for maintaining a conversation
CN111310413B (zh) * 2020-02-20 2023-03-03 阿基米德(上海)传媒有限公司 一种基于节目串联单的广播节目音频智能拆条方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306579A (ja) * 2000-04-25 2001-11-02 Mitsubishi Electric Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404295A (en) * 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5828839A (en) * 1996-11-14 1998-10-27 Interactive Broadcaster Services Corp. Computer network chat room based on channel broadcast in real time
EP1016985A3 (en) 1998-12-30 2004-04-14 Xerox Corporation Method and system for topic based cross indexing of text and audio
US7143428B1 (en) * 1999-04-21 2006-11-28 Microsoft Corporation Concurrent viewing of a video programming and of text communications concerning the video programming
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
EP1297403A4 (en) * 2000-05-01 2006-12-20 Invoke Solutions Inc INTERACTIONS BETWEEN MACROGROUPES
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7137070B2 (en) * 2002-06-27 2006-11-14 International Business Machines Corporation Sampling responses to communication content for use in analyzing reaction responses to other communications
US20040199495A1 (en) * 2002-07-03 2004-10-07 Sean Colbath Name browsing systems and methods
US7739584B2 (en) * 2002-08-08 2010-06-15 Zane Vella Electronic messaging synchronized to media presentation
JP4779481B2 (ja) * 2005-07-19 2011-09-28 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4580885B2 (ja) * 2006-03-27 2010-11-17 株式会社東芝 シーン情報抽出方法、シーン抽出方法および抽出装置
US7624416B1 (en) * 2006-07-21 2009-11-24 Aol Llc Identifying events of interest within video content
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
US20090164572A1 (en) * 2007-12-20 2009-06-25 Motorola, Inc. Apparatus and method for content item annotation
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306579A (ja) * 2000-04-25 2001-11-02 Mitsubishi Electric Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
US20110246183A1 (en) 2011-10-06
US8670978B2 (en) 2014-03-11
JPWO2010071112A1 (ja) 2012-05-31
WO2010071112A1 (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
JP5488475B2 (ja) トピック遷移解析システム、トピック遷移解析方法およびプログラム
US10659499B2 (en) Providing selectable content items in communications
WO2022121601A1 (zh) 一种直播互动方法、装置、设备及介质
CA2771379C (en) Estimating and displaying social interest in time-based media
KR101391599B1 (ko) 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
JP6122792B2 (ja) ロボット制御装置、ロボット制御方法及びロボット制御プログラム
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2008234431A (ja) コメント蓄積装置、コメント作成閲覧装置、コメント閲覧システムおよびプログラム
CN113841418A (zh) 动态视频精彩场面
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
JP4568144B2 (ja) 情報提示装置及び情報提示プログラム
JP2002335473A (ja) 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP2008152605A (ja) プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP7101057B2 (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
JP3923932B2 (ja) 映像要約装置、映像要約方法及びプログラム
JP2015061194A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4270119B2 (ja) 代表画像選定方法及び装置及びプログラム
US20190384466A1 (en) Linking comments to segments of a media presentation
JP4120597B2 (ja) 部分コンテンツ作成方法及び装置及びプログラム
CN117251595A (zh) 视频录像处理
JP4695582B2 (ja) 映像抽出装置及び映像抽出プログラム
Yu et al. Interactive broadcast services for live soccer video based on instant semantics acquisition
US11868399B2 (en) System and methods for resolving query related to content
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140210

R150 Certificate of patent or registration of utility model

Ref document number: 5488475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150