JP4085015B2

JP4085015B2 - ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム

Info

Publication number: JP4085015B2
Application number: JP2003054427A
Authority: JP
Inventors: 寛子羽山; 隆幸宮澤; 優鈴木; 美佳福井; 耕二浦田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-02-28
Filing date: 2003-02-28
Publication date: 2008-04-30
Anticipated expiration: 2023-02-28
Also published as: JP2004266551A

Description

【０００１】
【発明の属する技術分野】
本発明は、ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラムに関し、特に、複数のストリームデータに基づいて新たにストリームデータを生成するストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラムに関する。
【０００２】
【従来の技術】
近年、社内研修等の種々の教育場面で、ネットワーク等の通信回線を介して学習者が教材等にアクセスする、イーラーニング（e-learning）と呼ばれる形態による教育方法の活用が増えてきている。イーラーニングは、従来の講義形式と異なり、学習者には受講場所の制約が少ないのが利点である。イーラーニングの受講者が、各自のパーソナルコンピュータ（以下、PCという）等の計算機を利用して指定されたサーバにネットワーク接続することによって、イーラーニングによる教育を受けることができるようにしたシステムが提案されている（例えば、特許文献１参照）。
【０００３】
その場合、教材として利用されるコンテンツは、テキストや静止画主体のものから、セミナー等において録画されビデオ映像、講師による講義の様子をライブ中継するものと、種々のものがある。予め教材が用意されている場合は、受講者は好きな時間にそれら教材にアクセスして学習が可能であるので、受講者にとって便利である。また、講義をライブ中継するような教材の場合は、受講者はその中継の行われる時間にアクセスする必要があるが、受講者が講師に直接ネットワークを介して質問できるという利点がある。
【０００４】
【特許文献１】
特開2003-9105号公報（段落番号０００６、図１）
【０００５】
【発明が解決しようとする課題】
しかし、上述したようなシステムでは、受講者の疑問を反映した教材を効率的に作成することは容易ではなかった。これは、通常、新たに教材コンテンツを作成するには、時間もコストもかかるためである。例えば、講義の様子をビデオカメラで撮影し、それを教材とするような場合でも、受講者にとって分かり易い教材とするためのビデオ映像の編集作業は、編集者が編集ツールを用いて行っているのが現状である。また、例えば、受講者からのよくある疑問に対する回答コンテンツを作成しようとする場合、回答コンテンツが作成されるまでに時間がかかるため、作成されるまでは、講師は受講者からの同じような多くの質問に直接対応しなければならない。
【０００６】
そこで、本発明は、質問者と回答者のそれぞれを撮影した複数のビデオストリームに基づいて所望のコンテンツの作成を容易に行うためのストリームデータ生成システムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明のストリームデータ生成装置は、質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成装置において、前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有する。
【０００８】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【０００９】
（第１の実施の形態）
まず、図１に基づき、本発明の第１の実施の形態に係わるシステムの構成を説明する。図１は、第１の実施の形態に係わるストリームデータ生成システムの構成例を示す構成図である。以下、ストリームデータ生成システムを、イーラーニングシステムの例を用いて説明する。
【００１０】
図1において、１１は、ストリームデータ生成システムであり、例えば、イーラーニングシステムである。１２は、教師側のストリーム送受信装置であり、１３は、生徒側のストリーム送受信装置であり、それぞれPC等の端末装置であり、図示しないビデオカメラ、マイク、ディスプレイ装置とスピーカとを有している。ストリーム送受信装置１２、１３は、ビデオストリームのストリームデータの送受信を行うことができる。１４は、ストリーム合成蓄積装置であり、例えば、サーバ装置（以下、サーバという）である。ストリーム合成蓄積装置１４には、アクセス可能なハードディスク装置等の記憶装置１５が接続されている。ストリームデータ生成システム１１は、ストリーム送受信装置１２、１３と、ストリーム合成蓄積装置１４とを有し、それぞれが、インターネット等の通信回線１６に接続されている。従って、生徒は、ストリーム送受信装置１３を利用して、ストリーム合成蓄積装置１４を介してストリーム送受信装置１２を利用している教師とリアルタイムでかつインタラクティブに、一対一の授業を受けることができる。ストリーム合成蓄積装置１４は、後述するように、ストリーム送受信装置１２と１３との間で、リアルタイムで、言い換えると同一時間に撮影されたストリームを含む、複数のストリームが送受信されている、複数のストリームデータ（以下、単にストリームともいう。）に基づいて、ストリームデータの合成処理と蓄積処理を行う。
【００１１】
図２は、ストリームデータ生成システム１１のより詳細な構成例を示す構成図である。なお、図２において、矢印付きの点線は通信回線１６を介して通信されるデータの流れを示す。
【００１２】
ストリーム送受信装置１２は、ストリーム受信部１２ａ、ストリーム再生部１２ｂ、ストリーム生成配信部１２ｃ、外部入力受信部１２ｄ、ストリーム特徴抽出部１２ｅ、特徴送信部１２ｆ、及びビデオカメラ及びマイク１２ｇを含む。ビデオカメラおよびマイク１２ｇにより取得した映像および音声データは、外部入力受信部１２ｄに供給され、ストリーム生成配信部１２ｃにより、MPEG4形式などのストリームに変換した後に、ストリーム合成蓄積装置１４に、配信先情報とともに送信される。あるいは、変換せずにそのまま送信してもよい。また、ストリーム受信部１２ａでは、ストリーム合成蓄積装置１４を経由して送信されたストリームデータを受信し、ストリーム再生部１２ｂによってディスプレイ装置（図示せず）への表示とスピーカへの音声出力を行う。
【００１３】
ストリーム送受信装置１３も、ストリーム送受信装置１２と同様に、ストリーム受信部１３ａ、ストリーム再生部１３ｂ、ストリーム生成配信部１３ｃ、外部入力受信部１３ｄ、ストリーム特徴抽出部１３ｅ、特徴送信部１３ｆ、及びビデオカメラ及びマイク１３ｇを含む。ビデオカメラおよびマイク１３ｇにより取得した映像および音声データは、外部入力受信部１３ｄに供給され、ストリーム生成配信部１３ｃにより、MPEG4形式などのストリームデータに変換した後に、ストリーム合成蓄積装置１４に、配信先情報と共に送信される。あるいは、変換せずにそのまま送信してもよい。また、ストリーム受信部１３ａでは、ストリーム合成蓄積装置１４を経由して送信されたストリームデータを受信し、ストリーム再生部１３ｂによってディスプレイ装置（図示せず）への表示とスピーカへの音声出力を行う。
【００１４】
従って、２台のストリーム送受信装置１２、１３が、相互間でリアルタイムでビデオストリームの送受信を行うことによって、例えば、ストリーム送受信装置１２の利用者である教師が、ストリーム送受信装置１３の利用者である生徒の質問に答えるというようなやりとりを、互いのビデオ映像を見ながら行うことができる。
【００１５】
ストリーム送受信装置１２、１３のストリーム特徴抽出部１２ｅ、１３ｅは、音声認識手段としての例えば音声認識ソフトウエア等を含み、ストリームデータに対応する特徴情報として、音声認識手段によってテキストデータを、少なくとも時間情報を含むように抽出する。すなわち、ストリーム特徴抽出部１２ｅは、教師の音声データに基づいてテキストデータ等の特徴情報を生成し、ストリーム特徴抽出部１３ｅは、生徒の音声データに基づいてテキストデータ等の特徴情報を生成する。
【００１６】
抽出された特徴情報は、ストリーム特徴抽出部１２ｅ、１３ｅから、特徴送信部１２ｆ、１３ｆへ供給される。従って、ストリーム生成配信部１２ｃ、１３ｃは、ストリームデータをストリーム合成蓄積装置１４へ送信し、特徴送信部１２ｆ、１３ｆは、抽出されたテキストデータを、音声認識されたストリームに含まれる時間情報等、すなわちストリームデータと対応付けるための時間情報等と共にストリーム合成蓄積装置１４へ送信する。
【００１７】
なお、音声データに基いて認識されたテキストデータは、ストリームデータの特徴情報の一つである。本実施の形態では、音声データから抽出されたテキストデータを特徴情報の例として説明するが、特徴情報として、音声データからのテキストデータ以外には、画像データから抽出される画像の特徴量データ等を利用してもよい。
【００１８】
そして、ストリーム合成蓄積装置１４は、受信したストリームデータと、テキストデータを含む特徴情報を受信し、受信したこれらのデータを記憶装置に格納する。
【００１９】
一方、ストリーム合成蓄積装置１４は、ストリーム配信制御部１４ａ、ストリーム格納部１４ｂ、特徴情報受信制御部１４ｃ、特徴情報解析部１４ｄ、ストリーム選択部１４ｅ、ストリーム生成部１４ｆ、及びストリーム登録部１４ｇを含む。さらに、ストリーム合成蓄積装置１４には、記憶装置１５が接続されている。
【００２０】
ストリーム配信制御部１４ａは、ストリーム送受信装置１２、１３のストリーム生成配信部１２ｃ、１３ｃより、配信先情報と共に送信されてきたストリームデータを受信し、配信先情報に従って、その配信先のストリーム送受信装置１３、１２に送信する。また、受信したストリームデータは、ストリーム格納部１４ｂによって記憶装置１５のストリーム格納部１５ａに格納し蓄積する。
【００２１】
特徴情報受信制御部１４ｃは、ストリーム送受信装置１２、１３の特徴送信部１２ｆ、１３ｆより送信された、ストリームデータの特徴情報、すなわち時間情報等を含むテキストデータを受信し、記憶装置１５の記憶領域であるストリーム特徴情報格納部１５ｂに格納する。なお、受信するストリームの特徴情報には、その特徴情報の抽出元であるストリームを特定できる情報、すなわちストリームの識別情報が含まれている。ストリームの識別情報は、ストリーム送受信装置あるいは送受信装置の利用者の識別情報であってもよいし、あるいは、同じストリーム送受信装置からのストリームデータであっても、送受信時の時間に応じて付される識別情報等であってもよい。
【００２２】
また、特徴情報受信制御部１４ｃに送信されるストリーム特徴情報は、ストリーム特徴抽出部１２ｅ、１３ｅにおいてストリームについての全ての特徴情報の抽出が終了した後にストリーム送受信装置１２、１３の特徴送信部１２ｆ、１３ｆからまとめて一括送信されてもよいし、ストリーム特徴抽出部１２ｅ、１３ｅにおいて特徴情報を抽出後、ストリーム送受信装置１２、１３の特徴送信部１２ｆ、１３ｆから随時送信されるようにしてもよい。後者の場合は、ストリーム合成蓄積装置１４の特徴情報受信制御部１４ｃで、その特徴情報に含まれるストリームの識別情報と時間情報を利用して、送信されてきたストリームの特徴情報をまとめるようにする。
【００２３】
全てのストリームの特徴情報の受信が終了すると、特徴情報受信制御部１４ｃは、特徴情報の受信の終了を示す情報を特徴情報解析部１４ｄに供給する。特徴情報解析部１４ｄでは、その情報を受けると、記憶装置１５に格納されているストリーム特徴情報格納部１５ｂから特徴情報を読み込んで形態素解析を行い、さらに、特徴情報に対して意味タグの付与が行われる。意味タグは、特徴情報の意味すなわち内容を示す予め決められた情報であり、後述する意味役割識別情報が対応する。ここでは、形態素解析後、特徴情報に対して意味タグの付与は、発話単位で行われる。
【００２４】
特徴情報解析部１４ｄでの解析終了後、ストリーム選択部１４ｅでは、新たなストリームデータの生成に使用するストリーム又はストリームの一部（部分ストリーム）の選択を行う。このストリームの選択には、特徴情報解析部１４ｄでの解析結果と、記憶装置１５のストリーム合成規則格納部１５ｃに格納されている予め決められた選択規則を利用して行われる。本実施の形態では、ストリーム又は部分ストリームの選択は、付与された意味タグに基いて行われる。例えば、意味タグに基いて、ストリームの中から「質問」と「回答」のストリームのみを選択するというようにすることができる。ストリームの選択方法についてはさらに後述する。
【００２５】
また、ストリーム生成部１４ｆは、ストリーム選択部１４ｅで選択されたストリームあるいはストリームの一部を使用して、新たなストリームデータ（利用ストリームデータ）を生成する。このとき、ストリームデータの生成には、記憶装置１５のストリーム合成規則格納部１５ｃに格納されている予め決められた合成規則が利用される。
【００２６】
ストリーム登録部１４ｇでは、ストリーム生成部１４ｆで生成された新たなストリームデータを、コンテンツサーバ１７へ供給してコンテンツサーバ１７に接続された記憶装置１８に蓄積する。なお、新たに生成されたストリームデータは、記憶装置１５に蓄積するようにしてもよい。
【００２７】
さらになお、ストリームの特徴情報の抽出をストリーム送受信装置１２、１３で行わず、ストリーム合成蓄積装置１４側で一括して行うようにしてもよい。この場合は、ストリーム送受信装置１２、１３は、ストリーム特徴抽出部１２ｅ、１３ｅおよび特徴送信部１２ｆ、１３ｆを有しない。そして、その場合、ストリーム合成蓄積装置１４は、特徴情報受信制御部１４ｃを有しなくてもよく、その代わりに受信したストリームデータからの特徴抽出を行う手段を有する。
【００２８】
なお、以下の説明では、２台のストリーム送受信装置を利用し、一方のストリーム送受信装置の利用者が回答者Aである教師であり、他方のストリーム送受信装置の利用者が質問者Qである生徒であり、それぞれ互いに自己の利用するストリーム送受信装置のディスプレイ装置上の相手の画像を見ながらかつ相手の音声を聞きながらイーラーニングによる教育がされていると仮定する。
【００２９】
図３は、特徴情報として、ストリームの音声を音声認識したテキストデータを利用する場合の、音声認識結果のテキストデータを含む特徴情報の例を示す図である。例えば、イーラーニングによる教育がされているとき、教師が生徒に対してある事柄について教えている中で、生徒すなわち質問者Qが質問をすると、ストリーム送受信装置１３のストリーム特徴抽出部１３ｅにおいて質問内容が音声認識され、音声認識結果がテキストデータとして得られる。ストリーム送受信装置１３の特徴送信部１３ｆは、得られた音声認識結果であるテキストデータを、例えばその質問がされた時間である音声認識開始時間、その質問が終了した時間である音声認識終了時間、および、音声認識対象のストリームを特定するストリーム識別情報等の情報と共に、特徴情報として、ストリーム合成蓄積装置１４に送信する。ストリーム合成蓄積装置１４では、送信された音声認識結果等の特徴情報を受信し、例えば図３の１０１ａに示すような形式で、特徴情報として記憶装置１５のストリーム特徴情報格納部１５ｂにファイル１０１として格納する。
【００３０】
同様に、回答者Aである教師が、その質問に対応して回答をすると、ストリーム送受信装置１２の特徴送信部１２ｆは、得られた音声認識結果であるテキストデータを、例えばその回答がされた時間である音声認識開始時間、その回答が終了した時間である音声認識終了時間、および、音声認識対象のストリームを特定するストリーム識別情報などの情報と共に、特徴情報として、ストリーム合成蓄積装置１４に送信する。ストリーム合成蓄積装置１４では、送信された音声認識結果等の特徴情報を受信し、例えば図３の１０１ｂに示すような形式で、特徴情報データとして記憶装置１５のストリーム特徴情報格納部１５ｂに格納する。従って、リアルタイムで行われる両者の会話の特徴情報データは、会話の進行に伴って記憶装置１５に格納されていく。
【００３１】
記憶装置１５の特徴情報のファイル１０１には、ストリーム送受信装置１２およびストリーム送受信装置１３からの特徴情報が、会話の行われた順序で格納されている。一つの発話についての特徴情報は、発話開始時間情報、発話終了時間情報、発話者識別情報、および音声認識結果のテキストデータを含む。図３において、１０１ａは、質問者の発話内容を記述している。質問者の発話１０１ａは、特徴情報データとして、発話開始時間情報１０２、発話終了時間情報１０３、発話者識別情報１０４、および音声認識結果のテキストデータ１０５を含む。１０１ｂは、１０１ａの次の発話内容を記述している。次の発話１０１ｂは、特徴情報データとして、発話開始時間情報１０６、発話終了時間情報１０７、発話者識別情報１０８、および音声認識結果のテキストデータ１０９を含む。
【００３２】
特徴情報のファイル１０１において、発話開始時間情報１０２、１０６、および発話終了時間情報１０３、１０７として、ストリーム特徴情報抽出部１２ｅ、１３ｅにおいて抽出された特徴情報に含まれる時間情報、例えば音声認識開始時間および音声認識終了時間のデータが利用されて書き込まれる。あるいは、音声認識開始時間情報及び音声認識終了時間情報の代わりに、ビデオストリームの撮影開始時間からの相対的な時間データを利用してもよい。なお、時間情報として撮影開始時間からの相対時間を使用する場合は、各ストリームの撮影開始時間の差も考慮して各発話の順番が決定される。
【００３３】
発話者識別情報１０４、１０８は、音声認識結果のテキストデータがどのストリームから抽出されたものか、すなわちストリーム送受信装置１２と１３のいずれから送信されたストリームに関して抽出されたものかを特定するためのストリーム識別情報である。音声認識結果のテキストデータがどのストリームから抽出されたものかを決定するために、例えば特徴情報のうち、音声認識対象のストリームを特定するストリーム送受信装置の識別情報を利用してもよい。図３の例では、発話者識別情報１０４は、この音声認識結果のテキストデータ１０５がストリーム送受信装置１３の利用者である生徒すなわち質問者Qの発話であることを、また、発話者識別情報１０８は、この音声認識結果のテキストデータ１０９がストリーム送受信装置１２の利用者である教師すなわち回答者Aの発話であることを示している。また、音声認識結果であるテキストデータ１０５、１０９は、それぞれ発話内容の音声認識結果を示している。
【００３４】
なお、特徴情報のファイル１０１は、図３に示すように、ストリーム合成蓄積装置１４の特徴情報受信制御部１４ｃで受信した各特徴情報を、時間情報を利用して整理し、全てひとつのファイルに保存するようにしても良いし、ストリーム毎に個別のファイルに保存するようにしてもよい。ストリーム毎に個別のファイルに特徴情報を保存する場合は、特徴情報解析部１４ｄにおいて、全ての音声認識結果のテキストデータを、発生時間順に並べる処理を行ってもよい。
【００３５】
図４は、ストリーム合成蓄積装置１４の特徴情報解析部１４ｄの構成例を示す構成図である。特徴情報として、ストリームの音声認識結果であるテキストデータを含む情報を利用するものと仮定する。図４に示すように、特徴情報解析部１４ｄは、特徴情報ファイル読込部１１１、形態素解析部１１２、パターン規則適用部１１３、意味役割識別情報割り当て部１１４、意味役割識別情報遷移確率適用部１１５、意味役割識別情報割り当て修正部１１６、および解析結果格納部１１７を含む。
【００３６】
特徴情報ファイル読込部１１１は、ストリーム特徴情報格納部１５ｂに格納されている特徴情報のファイル１０１のデータを、記憶装置１５から読み込む。形態素解析部１１２は、読み込んだ特徴情報ファイル１０１に記録されている音声認識結果部分であるテキストデータ部分の形態素解析を行う。
【００３７】
図５は、特徴情報の形態素解析結果の例を示す図である。図５に示すように、形態素解析結果２０１には、特徴情報ファイル１０１中の音声認識結果であるテキストデータ部分について形態素解析部１１２によって形態素解析された解析結果データが含まれている。２０２、２０３及び２０４で示すアンダーライン部分は、形態素解析された音声認識テキストデータ部分である。例えば、形態素解析済みである音声認識テキスト２０２の部分は、特徴情報ファイル中の音声認識結果である、「よろしくお願いします」というテキストを形態素解析した結果部分である。その後、パターン規則適用部１１３では、記憶装置１５のパターン規則格納部１５ｄに格納されている、予め定義してあるパターン規則を参照して、形態素解析結果の分析を行う。パターン規則は、特徴情報の意味を示す特徴情報識別情報と、形態素解析パターンとの関連、あるいは対応を記述したものである。特徴情報識別情報は、予め定義されており、例えば各発話の意味を表すものである。
【００３８】
図６は、パターン規則格納部１５ｄに格納されているパターン規則の記述例であるパターン規則表を示す図である。ここでは、各発話の意味を表す意味役割識別情報として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」、「その他」の７つが予め定義されていると仮定する。パターン規則格納部１５ｄに格納されている図６の表は、各形態素パターン３０２が、意味役割識別情報３０１のうちのどれに出現しやすいかを表したものである。重み付け係数(スコア)３０３は、ある形態素パターンが出現したときに、その形態素パターンがどの意味役割識別情報に対応しやすいかを数値で表したものである。図６では、数値が大きいほど、対応する意味役割になりやすいことを示す。形態素パターン３０２は、例えば、いくつかの会話データから、各発話の意味を決定すると思われる、特徴的な部分を抜き出した形態素パターンである。なお、形態素解析結果として付与される「＜」と「＞」の符号で示される部分は、品詞を示している。
【００３９】
また、図６では、意味役割識別情報３０１は、上述した７種類の意味役割識別情報が、質問者の発話である場合と、回答者の発話である場合に分かれている。「挨拶」、「相槌」などの識別情報の後に、「(Q)」がついている識別情報が質問者の識別情報を、「(A)」がついている識別情報が回答者の識別情報を表す。その結果、図６に示す意味役割識別情報には、質問者、回答者という役割の情報が含まれている。図６の例では、形態素解析を行った発話の中の形態素パターン３０２中の「こんにちは＜感＞」という形態素パターンが含まれる場合、その発話が質問者のものであっても回答者のものであっても、「挨拶」という意味役割になりやすい、ということを示している。また、「なんですが＜付＞」という形態素パターンを含む発話は、質問者のものである場合は「質問」に、回答者のものである場合は「回答」になりやすいということを示している。従って、図６に示す意味役割識別情報は、発話の意味を決定するために、質問者、回答者等の役割別になっている。
【００４０】
図４のパターン規則適用部１１３では、各発話の形態素解析結果をパターン規則表１１８に従って分析し、その発話に対応する意味役割識別情報を推定する。たとえば、音声認識結果の中に、「こんにちは」というテキストがあった場合、これはパターン規則中の「こんにちは＜感＞」という形態素パターンとマッチする。これが質問者の発話したものである場合は、「こんにちは」というテキストに対する意味役割候補として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」「その他」の７つの意味役割識別情報のうちの「挨拶」に、パターン規則中の「挨拶（Q）」のスコアが加算される。ひとつのパターンマッチで、複数の意味役割識別情報にスコアが加算される場合もある。また、ひとつの音声認識テキストに複数の形態素パターンがマッチする場合もある。この場合は、その都度マッチした形態素パターンのスコアが加算される。なお、発話者が質問者の場合は、質問者に対する意味役割識別情報（「Q」のつく意味役割識別情報）のみのスコアが加算され、発話者が回答者の場合は、回答者に対する意味役割識別情（「A」のつく意味役割識別情報）のみのスコアが加算されるようにする。
【００４１】
その後、意味役割識別情報割り当て部１１４により、音声認識結果テキストごとに、最もスコアの高い、意味役割識別情報を割り当てる。形態素パターンにマッチしなかった等により、意味役割が不明な発話には、識別情報は割り当てられなくてもよい。なお、意味役割識別情報割り当て部１１４での意味役割識別情報の割り当ては行わず、意味役割識別情報遷移確率適用部１１５処理後に、意味役割識別情報割り当て修正部１１６で割り当てるようにしてもよい。
【００４２】
意味役割識別情報遷移確率適用部１１５は、形態素パターンではなく、会話の前後関係から、各発話の意味役割を推定する部分である。テキストデータを対象とした既存の意味役割解析は、上記パターンマッチングのみを行い、最もスコアの高い意味役割を与える（たとえば、「知識情報共有システム（KIDS）のヘルプデスク業務への適用、第１３回人工知能学会全国大会論文集、ｐ４８４−ｐ４８７（１９９９）」）。
【００４３】
しかし、音声認識結果には、認識誤りが含まれる可能性があるため、形態素パターンと意味役割識別情報との対応だけでは十分な精度が得られない可能性もある。一方、対話には、「質問は回答に先行する」などの、意味役割識別情報の遷移の制約があると期待される。従って、意味役割識別情報遷移確率適用部１１５では、パターン規則適用部１１３により得られた各音声認識結果に対するそれぞれの意味役割識別情報のスコアを、意味役割識別情報毎の、他の意味役割への遷移確率を定義した、記憶装置１５に予め格納されている意味役割識別情報遷移確率表格納部１５ｅの意味役割識別情報遷移確率表のデータを用いて補正する。意味役割識別情報遷移確率表は、例えば、質問者、回答者別に発話に割り当てられる意味役割識別情報全てについて、各意味役割識別情報の次にどの意味役割識別情報が出現しやすいかという確率を定義した表である。
【００４４】
また、上述したように、意味役割識別情報には、質問者、回答者という役割の情報を含むので、結果として、意味役割識別情報遷移確率表は、質問者、回答者という役割に基く、意味役割識別情報の遷移確率を含む。図９は、意味役割識別情報遷移確率表の例を示したものである。図９の意味役割識別情報遷移確率表９００は、先行発話の意味役割識別情報９０１から後続発話の意味役割識別情報９０２への遷移確率を示している。なお、表中には、意味役割識別情報のほかに、対話の開始を示す「開始」と対話の終了を示す「終了」も含まれている。このようにすることで、それぞれの意味役割識別情報が対話の先頭に出現する確率、および対話の最後に出現する確率も利用することができる。意味役割識別情報遷移確率表９００は、たとえば、対話の先頭の発話は、質問者の挨拶である確率が０．５６であり、また、質問者の挨拶の次にくる発話が回答者の挨拶である確率が０．５４であるということを示している。
【００４５】
なお、遷移確率によるスコアの補正には、例えばビダビアルゴリズム（「viterbi algorithm」）が用いられる。なお、遷移確率によるスコアの補正時、形態素パターンにマッチしなかった発話については、全てのスコアが0となっているため、補正前に、全てのスコアに例えば（１/意味役割識別情報の数）などの等スコアを与えるなどの前処理を行ってもよい。
【００４６】
意味役割識別情報割り当て修正部１１６では、意味役割識別情報遷移確率適用部１１５により導出された、最適な意味役割識別情報を、各音声認識結果のテキストに割り当てる。
【００４７】
また、遷移確率を用いることで、形態素パターンによる解析では意味役割を特定できなかった発話に対しても、意味役割識別情報を割り当てることができる。なお、意味役割遷移確率適用部１１５で、遷移確率表の遷移確率情報に基いて、最適な意味役割識別情報を見つけられなかった場合には、意味役割識別情報割り当て部１１４で割り当てられた意味役割識別情報を採用すればよい。意味役割識別情報割り当て部１１４による意味役割識別情報割り当てを行わない場合は、形態素パターン適用部１１３で最もスコアが高かった意味役割識別情報を採用する。
【００４８】
最後に、解析結果格納部１１７は、必要な修正の行われた特徴情報解析結果のデータを記憶装置１５の予め決められた記憶領域部である特徴情報解析結果格納部１５ｆ（図７）に格納する。図１０に、特徴情報解析結果格納部１５ｆ（図７）に格納される特徴情報解析結果の例を示す。図１０の特徴情報解析結果１００１には、各音声認識結果１００３に対し、割り当てられた意味役割識別情報１００２が記載されている。なお、特徴情報解析結果格納部１５ｆには、意味役割識別情報が割り当てられた解析結果データの他に、形態素解析部１１２の解析結果データあるいは意味役割識別情報割り当て部１１４で割り当てられた解析結果データも格納されてもよい。
【００４９】
このようにして、ストリームに対応するテキストデータ等を含む特徴情報に、その特徴情報の意味を示す予め決められた特徴情報識別情報が、対応付けられて記憶装置１５に格納される。
【００５０】
図７は、特徴情報解析部１４ｄによって特徴情報の解析がされた後に、新たなストリームデータを生成する処理部の構成例を示す構成図である。図７において、ストリーム選択部１４ｅは、特徴情報解析結果読込部４０１、シナリオ読込部４０２、及び部分ストリーム切り出し部４０３から構成される。また、ストリーム生成部１４ｆは、シナリオ読込部４０４、部分ストリーム再配置部４０５、およびストリーム生成部４０６より構成される。
【００５１】
ストリーム選択部１４ｅでは、特徴情報解析部１４ｄにおいて解析された特徴情報解析結果格納部１５ｆのデータに基いて、ストリームの合成に利用するストリーム又は部分ストリームを選択する。特徴情報解析結果読込部４０１は、まず、特徴情報解析結果格納部１５ｆの特徴情報解析結果データ（意味役割識別情報が割り当てられた解析結果データ）を読み込む。次に、シナリオ読込部４０２が、記憶装置１５のストリーム合成シナリオ格納部１５ｇに予め格納されているストリーム合成シナリオデータ、具体的には選択すべき発話部分を示すための選択規則データを読み込む。
【００５２】
部分ストリーム切り出し部４０３は、まず、読み込まれた特徴情報解析結果およびストリーム合成シナリオ中の選択規則に基いて、ストリーム合成に利用する部分ストリームを選択する。ストリーム合成シナリオには、例えば、新たに合成して生成するストリームに含めたい意味役割識別情報が、選択規則情報として記述できるようになっている。よって、質問者Qと回答者Aのストリームから、「質問」の意味役割識別情報と「回答」の意味役割識別情報の割り当てられた部分だけ取り出して、「質問」と「回答」の組み合せからなる１つのストリームを合成したい場合は、ストリーム合成シナリオには、「質問」と「回答」の意味役割識別情報のついた部分のみを取り出すような指示が、選択規則として記述される。そして、ストリーム合成シナリオに記述されている選択すべき意味役割識別情報をもつ意味役割解析結果の発話部分と、ストリームとの対応付けは、例えば発話者識別情報、時間情報等の情報を利用して行われる。
【００５３】
部分ストリーム切り出し部４０３は、次に、選択されたストリームデータについて、ストリーム合成シナリオ格納部１５ｇのストリーム合成シナリオに従って取り出された発話部分に対応する部分の特定を行う。発話部分と、これに対応する部分ストリームとの対応付けは、例えば発話開始時間情報、発話終了時間情報などを利用することにより行うことが可能である。
【００５４】
ストリーム生成部１４ｆでは、ストリーム選択部１４ｅによって選択された部分ストリームを編集して、新たなストリームデータを生成する。ストリーム生成部１４ｆは、シナリオ読込部４０４、部分ストリーム再配置部４０５、およびストリーム合成部４０６により構成される。
【００５５】
シナリオ読込部４０２では、ストリーム選択部１４ｅによって選択された部分ストリームの配置に関する記述を含むストリーム合成シナリオ格納部１５ｇのストリーム合成シナリオデータを読み込む。ストリーム合成シナリオは、上述したように、選択すべき発話部分を示す意味役割識別情報の選択規則のデータに加えて、例えば、ストリーム選択部１４ｅにおいて選択された意味役割識別情報を持つ発話部分が、新たに作成するストリームでどのような順序で出現するかを示すかが記述されている編集規則のデータを含む。例えば、「質問」の識別情報をもつ発話を最初に配置し、その次に「回答」の識別情報を持つ発話を配置したい場合は、「質問」→「回答」という順序を表す編集規則の記述も、ストリーム合成シナリオに含まれる。
【００５６】
なお、ストリーム選択部１４ｅにおいて読み込まれるストリーム合成シナリオの選択規則データと、ストリーム生成部１４ｆにおいて読み込まれるストリーム合成シナリオデータの編集規則データとは、別個のファイルとして格納されていてもよい。
【００５７】
部分ストリーム再配置部４０５では、シナリオ読込部４０４において読み込まれたストリーム合成シナリオの内容、および、部分ストリーム切り出し部４０３において切り出した部分ストリームに関する情報を利用して、部分ストリームを適切に順序付ける。その後、ストリーム合成部４０６により、順序付けられた部分ストリームを繋げて一連のストリームになるように合成する。
【００５８】
さらに、ストリーム合成部４０６における処理において、再配置して新たに生成されたストリームデータをオーサリングツールによってディスプレイ装置上に表示し、表示されたストリームの情報に基いて、再配置されたストリームに対して人間が細かい修正を加えられるようになっていてもよい。例えば、選択された部分ストリームのうち、必要のない部分を削除したり、選択されなかった部分を加えたりすることができてもよい。
【００５９】
なお、ストリーム合成部４０６により合成されるストリームデータの形式は、実際に部分ストリームを結合して生成されるストリームデータ自体でもよいし、新たなストリームデータとして使用される部分ストリームデータの格納されている記憶装置内の場所を特定する識別情報と、再生位置及び再生順序等を記述したメタ情報言い換えるとストリーム再生情報であってもよい。図１１は、合成されるストリームデータの形式がメタ情報である場合の例を示したものである。なお、図１１の合成ストリームデータは、選択した部分ストリームの再生情報の記述のみ抜き出した例である。図１１において、出力ストリームデータの一部である１１００には、３つの部分ストリーム１１０１、１２０１、および１３０１の記述がある。ひとつの部分ストリームの記述は、たとえば、＜VisualSummaryComponent>と＜/VisualSummaryComponent>で囲まれた部分に記述される。＜VisualSourceRocator>と＜/VisualSourceRocator>で囲まれた部分１１０２、１２０２および１３０２には、再生される部分ストリームを含むストリームの存在する位置情報が記述されている。図１１の例では、＜MediaUri>と＜/MediaUri>に囲まれた部分に、ストリームのURLが記述されている。＜ComponentSourceTime>と＜/ComponentSourceTime>に囲まれた部分１１０３、１２０３、および１３０３には、それぞれ１１０２、１２０２、および１３０２で指定したURLに対応するストリームのどの位置から再生すればよいのかを、ストリームの先頭からの時間で示している。すなわち、再生されるべき部分ストリームが、それぞれのURLに対応するストリームのどの位置にあたるのかを、ストリームの先頭からの時間で指定している。たとえば、１１０３の、＜MediaRelTimePoint>と＜/MediaRelTimePoint>に囲まれた部分は、ストリームの先頭から６７秒後が、再生すべき部分ストリームの開始点であることを表している。また、＜MediaDuration>と＜/MediaDuration>に囲まれた部分は、部分ストリームの再生時間を示している。したがって、１１０３の部分では、１１０２のURLに対応したストリームの先頭から６７秒後から１２秒間の部分が、再生されるべき部分ストリームであることを示している。また、＜SyncTime>と＜/SyncTime>で囲まれた部分１１０４、１２０４、および１３０４は、合成されたストリームの再生情報を示している。たとえば、１１０４において、＜MediaRelTimePoint>と＜/MediaRelTimePoint>で囲まれた部分は、１１０２および１１０３で特定した部分ストリームを、合成ストリームにおいていつ再生するかを示している。この例では、１１０４は、先頭から０秒後、すなわち、一番最初に再生すべきことを示している。また、１１０４の＜MediaDuration>と＜/MediaDuration>で囲まれた部分では、１１０２および１１０３で特定した部分ストリームの、合成ストリーム内での再生時間を指定できる。１１０４では、１２秒間部分ストリームの再生を行うことを示している。同様に、１２０４では、１２０２および１２０３で特定された部分ストリームが、合成ストリームの再生開始指示から１２秒後に、１０秒間再生されるべきことを示している。１３０４では、１３０２および１３０３で特定された部分ストリームが、合成ストリームの再生開始指示から２２秒後に、１５秒間再生されるべきことを示している。従って、１１０４、１２０４、および１３０４の部分は、合成ストリーム開始からの、部分ストリームの再生順序を示している。
【００６０】
以上のように、本実施の形態に係わるストリームデータ生成システムによれば、同一時間に撮影されたストリームを含む、複数のストリームデータの中から、所望のストリームデータを選択して抽出し新たなストリームデータを所定の構成で生成し合成して、蓄積することができる。よって、教材として選択すべきストリームデータの内容を指定し、かつ、どのような順序で並び替えるかの指定をしておけば、自動的に所望の新たなストリームデータが容易に生成される。
【００６１】
（第２の実施の形態）
図８は、本発明の第２の実施の形態に係わるストリームデータ生成システムの構成図である。
【００６２】
すなわち、図８に示す第２の実施の形態に係るシステムでは、２つのストリーム送受信装置は、相互に直接ストリームデータの送受信を行う、すなわち、各ストリーム送受信装置から送信されるストリームは、直接接続相手のストリーム送受信装置に送信されると共に、各ストリーム送受信装置から送信されるストリームはストリーム合成蓄積装置にも送信される構成となっている点が、第１の実施の形態に係るシステムと異なる。
【００６３】
図８に示すように、ストリームデータ生成システム２１において、ストリーム送受信装置２２には、第１の実施の形態と同様に、映像及び音声取得機器としてのビデオカメラとマイク２２ｃが接続されており、教師あるいは教師が使用する教材の映像と、教師の発する音声のデータがストリーム送受信装置２２に取り込めるようになっている。同様に、ストリーム送受信装置２３には、映像及び音声取得機器としてのビデオカメラとマイク２３ｃが接続されており、生徒あるいは生徒が使用する教材の映像と、生徒の発する音声のデータがストリーム送受信装置２３に取り込めるようになっている。
【００６４】
ストリーム送受信装置２２は、ストリーム受信制御部２２ａとストリーム配信制御部２２ｂを含み、ストリーム送受信装置２３も、ストリーム受信制御部２３ａとストリーム配信制御部２３ｂを含む。ストリーム受信制御部２２ａは、ストリーム配信制御部２３ｂからのストリームデータを受信するための制御部であり、ストリーム受信制御部２３ａは、ストリーム配信制御部２２ｂからのストリームデータを受信するための制御部である。
【００６５】
従って、２台のストリーム送受信装置２２、２３が、相互間でビデオストリームの送受信を行うことによって、例えば、ストリーム送受信装置２２の利用者である教師が、ストリーム送受信装置２３の利用者である生徒の質問に答えるというようなやりとりを、リアルタイムで互いのビデオ映像を見ながら行うことができる。
【００６６】
ストリーム送受信装置２２に接続されているビデオカメラとマイク２２ｃによって得られた映像および音声データは、ストリーム配信制御部２２ｂに供給され、例えばMPEG4形式にエンコードされる等、ネットワークを介するデータ配信に適した形式に変換される。その変換されて生成されたビデオストリームデータは、接続相手であるストリーム送受信装置２３に向けて送信される。ストリーム送受信装置２３では、ストリーム送受信装置２２のストリーム配信制御部２２ｂより送信されたビデオストリームデータを、ストリーム受信制御部２３ａにおいて受信して、ストリーム送受信装置２３のディスプレイ装置上に、教師の画像が表示され、かつ教師の声もスピーカから出力される。
【００６７】
第一の実施の形態と同様に、ストリーム送受信装置２３に接続されているビデオカメラとマイク２３ｃによって得られた映像および音声データも、ストリーム送受信装置２３のストリーム配信制御部２３ｂからストリーム送受信装置２２のストリーム受信制御部２２ａに送信され、ストリーム送受信装置２２のディスプレイ装置上に、生徒の画像が表示され、かつ生徒の声もスピーカから出力される。
【００６８】
ストリーム受信制御部は、第一の実施の形態におけるストリーム受信部とストリーム再生部を含む。ストリーム配信制御部は、第一の実施の形態における外部入力受信部と、ストリーム生成配信部と、ストリーム特徴抽出部と、特徴送信部とを含む。
【００６９】
また、ストリーム送受信装置２２、２３から送信される各ストリームデータは、送信先のストリーム送受信装置２３、２２へ送信されると同時に、ストリーム合成蓄積装置２４にも送信される。ストリーム合成蓄積装置２４は、リアルタイムで撮影されているときの複数のストリームデータを受信し、受信したストリームデータを記憶装置２５の所定の記憶領域に格納する。
【００７０】
従って、生徒は、ストリーム送受信装置２３と通信回線２６を利用したリアルタイムの一対一の授業を受けることができる。教師も、ストリーム送受信装置２２と通信回線２６を利用してリアルタイムの一対一の授業を生徒に対してすることができる。そして、リアルタイムで撮影されているときの生徒と教師の相互のストリームデータは、ストリーム合成蓄積装置２４によって受信され、記憶装置２５に格納される。
【００７１】
さらに、ストリーム送受信装置２２、２３は、第1の実施の形態と同様に、図示しない音声認識装置、例えば音声認識ソフトウエア等を含み、音声認識処理によって音声データからテキストデータを生成することができる。ストリーム送受信装置２２は、教師の音声データに基づいてテキストデータを生成し、ストリーム送受信装置２３は、生徒の音声データに基づいてテキストデータを生成する。生成されたテキストデータは、ストリーム配信制御部２２ｂ、２３ｂから音声認識されたストリームに含まれる時間データと共にストリーム合成蓄積装置２４へ、ストリームデータに対応する特徴情報として送信される。
【００７２】
そして、ストリーム合成蓄積装置２４は、受信したストリームデータと、テキストデータ等を含む特徴情報を受信し、受信したこれらのデータを記憶装置２５に格納する。
【００７３】
第1の実施の形態と同様に、ストリーム合成蓄積装置２４では、ストリーム送受信装置２２、２３より配信されるストリームデータおよびストリームデータの特徴情報を利用して、１つ以上の新たなストリームデータを合成して記憶装置２５に蓄積する。
【００７４】
ストリーム合成蓄積装置２４は、ストリーム特徴情報収集部２４ａ、特徴情報解析部４ｂ、ストリーム選択部２４ｃ、およびストリーム生成部２４ｄを含む。ストリーム特徴情報収集部２４ａは、ストリーム送受信装置２２、２３のストリーム配信制御部２２ａ、２３ａから送信されるストリームの特徴情報を受信し、ストリームを特定する識別情報とともに記憶装置２５の所定の記憶領域に格納する。各ストリーム送受信装置からのストリーム特徴情報の受信が完了すると、ストリーム特徴情報収集部２４ａは、特徴情報解析部２４ｂにその完了を示す情報を供給する。特徴情報解析部２４ｂは、記憶装置２５の記憶領域からストリーム特徴情報を読み出して解析を行う。ストリーム選択部２４ｃは、特徴情報解析部２４ｂの解析結果をもとに、新たに作成するストリームの素材となるストリームと、それらストリームのうちのどの区間すなわち部分を使用するのかを選択する。例えば、特徴情報解析部２４ｂは、ストリーム特徴情報を読み出して解析を行って、その後予め決められた選択規則に基いて、ストリームデータの中から必要な部分ストリームを選択する。
【００７５】
そして、ストリーム生成部２４ｄでは、予め決められた編集規則に基いて、ストリーム選択部２４ｃで選択されたストリームあるいはストリームの一部が矛盾無くつながるように編集し、新たなストリームデータを生成する。新たに生成されたストリームデータは、記憶装置２５の記憶領域に格納されるか、あるいは、コンテンツデータを管理する他のコンテンツサーバに送信してそのサーバの記憶装置に格納するようにしてもよい。
【００７６】
なお、新たに生成されるストリームデータは、ストリームデータ自体ではなく、ストリームデータの中の選択された部分についての再生位置データと再生順序データを含む情報でもよい。
【００７７】
ストリーム合成蓄積装置２４における処理は、第1の実施の形態に係るストリーム合成蓄積装置１４における処理と同じである。
【００７８】
以上説明したように、第２の実施の形態に係わるストリームデータ生成システムによれば、第1の実施の形態に係わるシステムと同様に、同一時間に撮影されたストリームを含む、複数のストリームデータの中から、所望のストリームデータを選択して抽出し新たなストリームデータを所定の構成で生成し合成して、蓄積することができる。よって、教材として選択すべきストリームデータの内容を指定し、かつ、どのような順序で並び替えるかの指定をしておけば、自動的に所望の新たなストリームデータが生成される。
【００７９】
なお、上述した例では、イーラーニングの例で説明したが、他にも、美術館、博物館等における作品解説システム、施設、設備等のメンテナンスのためのオンラインマニュアルシステム等にも、本発明は適用することができる。
【００８０】
さらに、新たに生成されたストリームデータがメタ情報の場合、そのメタ情報に、意味役割識別情報も含めて記述しておくようにすれば、例えば「回答」などの意味役割識別情報をキーワードとしてストリームの検索をすることも可能である。また、メタ情報によりストリーム生成を行う場合は、例えば、「質問」部分の質問者の映像を使わず、その代わりに質問内容をテキストで挿入するなどの編集も可能である。
【００８１】
具体的には、教師と生徒が直接お互いのビデオ映像を見ながらやりとりが行われるような場合に、ストリームデータ合成蓄積装置は、それらのビデオ映像の内容を自動的に解析し、講義部分のみのコンテンツ、あるいは質疑応答部分のコンテンツ等を自動的に抽出して蓄積することができる。
【００８２】
さらにまた、同一時間を撮影されたストリームを含む複数のストリームと特徴情報を、一旦記憶手段に格納しておき、後で、上述したような新たなストリームデータの合成をして生成するようにしてもよい。
【００８３】
よって、コンテンツ編集にかかる労力を低減することができる。例えば、上述した実施の形態において、質疑応答部分のコンテンツのストリームデータを上記のようにして蓄積していけば、生徒が講義部分のみのコンテンツを見ながら学習していて疑問が生じたときに、その疑問が、以前に一度講師が回答している疑問であれば、質問文を入力するだけで適当な回答コンテンツが表示される、というような仕組みを構築することも可能である。
【００８４】
本明細書における各「部」は、実施の形態の各機能に対応する概念的なもので、必ずしも特定のハードウエアやソフトウエア・ルーチンに１対１には対応しない。従って、本明細書では、以上、実施の形態の各機能を有する仮想的回路ブロック（部）を想定して実施の形態を説明した。また、本実施の形態における各手順の各ステップは、その性質に反しない限り、実行順序を変更し、複数同時に実行し、あるいは実行毎に異なった順序で実行してもよい。
【００８５】
なお、以上説明した動作を実行するプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ等の可搬媒体や、ハードディスク等の記憶装置等に、その全体あるいは一部が記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本発明のストリームデータ生成システムを実現することができる。
【００８６】
本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。
【００８７】
【発明の効果】
本発明により、複数のビデオストリームに基づいて所望のコンテンツの作成を容易に行うためのストリームデータ生成システムを実現することができる。
【図面の簡単な説明】
【図１】第１の実施の形態に係わるストリームデータ生成システムの例を示す構成図である。
【図２】第１の実施の形態に係わるストリームデータ生成システムのより詳細な構成例を示す構成図である。
【図３】音声認識結果のテキストデータを含む特徴情報の例を示す図である。
【図４】ストリーム合成蓄積装置の特徴情報解析部の構成例を示す構成図である。
【図５】特徴情報の形態素解析結果の例を示す図である。
【図６】パターン規則の記述例であるパターン規則表を示す図である。
【図７】新たなストリームを生成する処理部の構成例を示す構成図である。
【図８】第２の実施の形態に係わるストリームデータ蓄積システムの例を示す構成図である。
【図９】意味役割識別情報遷移確率表の例を示す図である。
【図１０】特徴情報解析結果格納部に格納される特徴情報解析結果の例を示す図である。
【図１１】合成されるストリームデータの形式がメタ情報である場合の例を示す図のである。
【符号の説明】
１１・・・ストリームデータ生成システム、１２、１３・・・ストリームデータ送受信装置、１４・・・ストリームデータ合成蓄積装置、１５・・・記憶装置、１６・・・通信回線、１７・・・コンテンツサーバ、１８・・・記憶装置

Claims

質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成装置において、
前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、
前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、
前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、
各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有することを特徴とするストリームデータ生成装置。
前記質問者と回答者のそれぞれを撮影したストリームデータは、同一時間に撮影されたデータであることを特徴とする請求項１に記載のストリームデータ生成装置。
前記利用ストリームデータは、前記利用ストリームデータに含まれる前記部分ストリームデータを再生するために必要な、前記部分ストリームデータの再生位置と再生順序のデータを少なくとも含む情報であることを特徴とする請求項１又は請求項２に記載のストリームデータ生成装置。
前記解析手段による、前記テキストデータに対する前記意味役割識別情報の割り当てには、前記意味役割識別情報間の遷移確率情報を利用することを特徴とする請求項１から請求項３のいずれか１つに記載のストリームデータ生成装置。
通信回線を介して接続された複数の端末装置間で通信され、質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータの生成システムにおいて、
前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、
前記複数の端末装置のそれぞれから送信されるストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、
前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、
前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、
各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有することを特徴とするストリームデータ生成システム。
前記複数の端末装置には、それぞれ、ビデオカメラが接続され、前記複数のストリームデータは前記ビデオカメラによってリアルタイムで撮影されているストリームデータであることを特徴とする請求項５に記載のストリームデータ生成システム。
前記テキストデータは、前記複数の端末装置のそれぞれにおいて音声認識されて得られたテキストデータであることを特徴とする請求項６に記載のストリームデータ生成システム。
質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段とを備えたシステムにおいて、前記質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成方法であって、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当て、
前記解析した結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択し、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得ることを特徴とするストリームデータ生成方法。
前記利用ストリームデータは、前記利用ストリームデータに含む前記部分ストリームデータを再生するために必要な、前記部分ストリームデータの再生位置と再生順序のデータを少なくとも含む情報であることを特徴とする請求項８に記載のストリームデータ生成方法。
前記テキストデータに対する前記意味役割識別情報の割り当てには、前記意味役割識別情報間の遷移確率情報を利用することを特徴とする請求項８又は請求項９に記載のストリームデータ生成方法。
質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段とを用いて、後に利用するための利用ストリームデータを生成するためのプログラムであって、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる機能と、
前記解析した結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する機能と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る機能とをコンピュータに実現させるためのプログラム。