JP4085015B2 - ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム - Google Patents
ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム Download PDFInfo
- Publication number
- JP4085015B2 JP4085015B2 JP2003054427A JP2003054427A JP4085015B2 JP 4085015 B2 JP4085015 B2 JP 4085015B2 JP 2003054427 A JP2003054427 A JP 2003054427A JP 2003054427 A JP2003054427 A JP 2003054427A JP 4085015 B2 JP4085015 B2 JP 4085015B2
- Authority
- JP
- Japan
- Prior art keywords
- stream data
- stream
- identification information
- data
- role identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 10
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000000877 morphologic effect Effects 0.000 claims description 25
- 230000007704 transition Effects 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 description 69
- 230000015572 biosynthetic process Effects 0.000 description 36
- 238000003786 synthesis reaction Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 19
- 239000000463 material Substances 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 239000000203 mixture Substances 0.000 description 11
- 239000002131 composite material Substances 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 230000008707 rearrangement Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
【発明の属する技術分野】
本発明は、ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラムに関し、特に、複数のストリームデータに基づいて新たにストリームデータを生成するストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラムに関する。
【0002】
【従来の技術】
近年、社内研修等の種々の教育場面で、ネットワーク等の通信回線を介して学習者が教材等にアクセスする、イーラーニング(e-learning)と呼ばれる形態による教育方法の活用が増えてきている。イーラーニングは、従来の講義形式と異なり、学習者には受講場所の制約が少ないのが利点である。イーラーニングの受講者が、各自のパーソナルコンピュータ(以下、PCという)等の計算機を利用して指定されたサーバにネットワーク接続することによって、イーラーニングによる教育を受けることができるようにしたシステムが提案されている(例えば、特許文献1参照)。
【0003】
その場合、教材として利用されるコンテンツは、テキストや静止画主体のものから、セミナー等において録画されビデオ映像、講師による講義の様子をライブ中継するものと、種々のものがある。予め教材が用意されている場合は、受講者は好きな時間にそれら教材にアクセスして学習が可能であるので、受講者にとって便利である。また、講義をライブ中継するような教材の場合は、受講者はその中継の行われる時間にアクセスする必要があるが、受講者が講師に直接ネットワークを介して質問できるという利点がある。
【0004】
【特許文献1】
特開2003-9105号公報(段落番号0006、図1)
【0005】
【発明が解決しようとする課題】
しかし、上述したようなシステムでは、受講者の疑問を反映した教材を効率的に作成することは容易ではなかった。これは、通常、新たに教材コンテンツを作成するには、時間もコストもかかるためである。例えば、講義の様子をビデオカメラで撮影し、それを教材とするような場合でも、受講者にとって分かり易い教材とするためのビデオ映像の編集作業は、編集者が編集ツールを用いて行っているのが現状である。また、例えば、受講者からのよくある疑問に対する回答コンテンツを作成しようとする場合、回答コンテンツが作成されるまでに時間がかかるため、作成されるまでは、講師は受講者からの同じような多くの質問に直接対応しなければならない。
【0006】
そこで、本発明は、質問者と回答者のそれぞれを撮影した複数のビデオストリームに基づいて所望のコンテンツの作成を容易に行うためのストリームデータ生成システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明のストリームデータ生成装置は、質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成装置において、前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有する。
【0008】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0009】
(第1の実施の形態)
まず、図1に基づき、本発明の第1の実施の形態に係わるシステムの構成を説明する。図1は、第1の実施の形態に係わるストリームデータ生成システムの構成例を示す構成図である。以下、ストリームデータ生成システムを、イーラーニングシステムの例を用いて説明する。
【0010】
図1において、11は、ストリームデータ生成システムであり、例えば、イーラーニングシステムである。12は、教師側のストリーム送受信装置であり、13は、生徒側のストリーム送受信装置であり、それぞれPC等の端末装置であり、図示しないビデオカメラ、マイク、ディスプレイ装置とスピーカとを有している。ストリーム送受信装置12、13は、ビデオストリームのストリームデータの送受信を行うことができる。14は、ストリーム合成蓄積装置であり、例えば、サーバ装置(以下、サーバという)である。ストリーム合成蓄積装置14には、アクセス可能なハードディスク装置等の記憶装置15が接続されている。ストリームデータ生成システム11は、ストリーム送受信装置12、13と、ストリーム合成蓄積装置14とを有し、それぞれが、インターネット等の通信回線16に接続されている。従って、生徒は、ストリーム送受信装置13を利用して、ストリーム合成蓄積装置14を介してストリーム送受信装置12を利用している教師とリアルタイムでかつインタラクティブに、一対一の授業を受けることができる。ストリーム合成蓄積装置14は、後述するように、ストリーム送受信装置12と13との間で、リアルタイムで、言い換えると同一時間に撮影されたストリームを含む、複数のストリームが送受信されている、複数のストリームデータ(以下、単にストリームともいう。)に基づいて、ストリームデータの合成処理と蓄積処理を行う。
【0011】
図2は、ストリームデータ生成システム11のより詳細な構成例を示す構成図である。なお、図2において、矢印付きの点線は通信回線16を介して通信されるデータの流れを示す。
【0012】
ストリーム送受信装置12は、ストリーム受信部12a、ストリーム再生部12b、ストリーム生成配信部12c、外部入力受信部12d、ストリーム特徴抽出部12e、特徴送信部12f、及びビデオカメラ及びマイク12gを含む。ビデオカメラおよびマイク12gにより取得した映像および音声データは、外部入力受信部12dに供給され、ストリーム生成配信部12cにより、MPEG4形式などのストリームに変換した後に、ストリーム合成蓄積装置14に、配信先情報とともに送信される。あるいは、変換せずにそのまま送信してもよい。また、ストリーム受信部12aでは、ストリーム合成蓄積装置14を経由して送信されたストリームデータを受信し、ストリーム再生部12bによってディスプレイ装置(図示せず)への表示とスピーカへの音声出力を行う。
【0013】
ストリーム送受信装置13も、ストリーム送受信装置12と同様に、ストリーム受信部13a、ストリーム再生部13b、ストリーム生成配信部13c、外部入力受信部13d、ストリーム特徴抽出部13e、特徴送信部13f、及びビデオカメラ及びマイク13gを含む。ビデオカメラおよびマイク13gにより取得した映像および音声データは、外部入力受信部13dに供給され、ストリーム生成配信部13cにより、MPEG4形式などのストリームデータに変換した後に、ストリーム合成蓄積装置14に、配信先情報と共に送信される。あるいは、変換せずにそのまま送信してもよい。また、ストリーム受信部13aでは、ストリーム合成蓄積装置14を経由して送信されたストリームデータを受信し、ストリーム再生部13bによってディスプレイ装置(図示せず)への表示とスピーカへの音声出力を行う。
【0014】
従って、2台のストリーム送受信装置12、13が、相互間でリアルタイムでビデオストリームの送受信を行うことによって、例えば、ストリーム送受信装置12の利用者である教師が、ストリーム送受信装置13の利用者である生徒の質問に答えるというようなやりとりを、互いのビデオ映像を見ながら行うことができる。
【0015】
ストリーム送受信装置12、13のストリーム特徴抽出部12e、13eは、音声認識手段としての例えば音声認識ソフトウエア等を含み、ストリームデータに対応する特徴情報として、音声認識手段によってテキストデータを、少なくとも時間情報を含むように抽出する。すなわち、ストリーム特徴抽出部12eは、教師の音声データに基づいてテキストデータ等の特徴情報を生成し、ストリーム特徴抽出部13eは、生徒の音声データに基づいてテキストデータ等の特徴情報を生成する。
【0016】
抽出された特徴情報は、ストリーム特徴抽出部12e、13eから、特徴送信部12f、13fへ供給される。従って、ストリーム生成配信部12c、13cは、ストリームデータをストリーム合成蓄積装置14へ送信し、特徴送信部12f、13fは、抽出されたテキストデータを、音声認識されたストリームに含まれる時間情報等、すなわちストリームデータと対応付けるための時間情報等と共にストリーム合成蓄積装置14へ送信する。
【0017】
なお、音声データに基いて認識されたテキストデータは、ストリームデータの特徴情報の一つである。本実施の形態では、音声データから抽出されたテキストデータを特徴情報の例として説明するが、特徴情報として、音声データからのテキストデータ以外には、画像データから抽出される画像の特徴量データ等を利用してもよい。
【0018】
そして、ストリーム合成蓄積装置14は、受信したストリームデータと、テキストデータを含む特徴情報を受信し、受信したこれらのデータを記憶装置に格納する。
【0019】
一方、ストリーム合成蓄積装置14は、ストリーム配信制御部14a、ストリーム格納部14b、特徴情報受信制御部14c、特徴情報解析部14d、ストリーム選択部14e、ストリーム生成部14f、及びストリーム登録部14gを含む。さらに、ストリーム合成蓄積装置14には、記憶装置15が接続されている。
【0020】
ストリーム配信制御部14aは、ストリーム送受信装置12、13のストリーム生成配信部12c、13cより、配信先情報と共に送信されてきたストリームデータを受信し、配信先情報に従って、その配信先のストリーム送受信装置13、12に送信する。また、受信したストリームデータは、ストリーム格納部14bによって記憶装置15のストリーム格納部15aに格納し蓄積する。
【0021】
特徴情報受信制御部14cは、ストリーム送受信装置12、13の特徴送信部12f、13fより送信された、ストリームデータの特徴情報、すなわち時間情報等を含むテキストデータを受信し、記憶装置15の記憶領域であるストリーム特徴情報格納部15bに格納する。なお、受信するストリームの特徴情報には、その特徴情報の抽出元であるストリームを特定できる情報、すなわちストリームの識別情報が含まれている。ストリームの識別情報は、ストリーム送受信装置あるいは送受信装置の利用者の識別情報であってもよいし、あるいは、同じストリーム送受信装置からのストリームデータであっても、送受信時の時間に応じて付される識別情報等であってもよい。
【0022】
また、特徴情報受信制御部14cに送信されるストリーム特徴情報は、ストリーム特徴抽出部12e、13eにおいてストリームについての全ての特徴情報の抽出が終了した後にストリーム送受信装置12、13の特徴送信部12f、13fからまとめて一括送信されてもよいし、ストリーム特徴抽出部12e、13eにおいて特徴情報を抽出後、ストリーム送受信装置12、13の特徴送信部12f、13fから随時送信されるようにしてもよい。後者の場合は、ストリーム合成蓄積装置14の特徴情報受信制御部14cで、その特徴情報に含まれるストリームの識別情報と時間情報を利用して、送信されてきたストリームの特徴情報をまとめるようにする。
【0023】
全てのストリームの特徴情報の受信が終了すると、特徴情報受信制御部14cは、特徴情報の受信の終了を示す情報を特徴情報解析部14dに供給する。特徴情報解析部14dでは、その情報を受けると、記憶装置15に格納されているストリーム特徴情報格納部15bから特徴情報を読み込んで形態素解析を行い、さらに、特徴情報に対して意味タグの付与が行われる。意味タグは、特徴情報の意味すなわち内容を示す予め決められた情報であり、後述する意味役割識別情報が対応する。ここでは、形態素解析後、特徴情報に対して意味タグの付与は、発話単位で行われる。
【0024】
特徴情報解析部14dでの解析終了後、ストリーム選択部14eでは、新たなストリームデータの生成に使用するストリーム又はストリームの一部(部分ストリーム)の選択を行う。このストリームの選択には、特徴情報解析部14dでの解析結果と、記憶装置15のストリーム合成規則格納部15cに格納されている予め決められた選択規則を利用して行われる。本実施の形態では、ストリーム又は部分ストリームの選択は、付与された意味タグに基いて行われる。例えば、意味タグに基いて、ストリームの中から「質問」と「回答」のストリームのみを選択するというようにすることができる。ストリームの選択方法についてはさらに後述する。
【0025】
また、ストリーム生成部14fは、ストリーム選択部14eで選択されたストリームあるいはストリームの一部を使用して、新たなストリームデータ(利用ストリームデータ)を生成する。このとき、ストリームデータの生成には、記憶装置15のストリーム合成規則格納部15cに格納されている予め決められた合成規則が利用される。
【0026】
ストリーム登録部14gでは、ストリーム生成部14fで生成された新たなストリームデータを、コンテンツサーバ17へ供給してコンテンツサーバ17に接続された記憶装置18に蓄積する。なお、新たに生成されたストリームデータは、記憶装置15に蓄積するようにしてもよい。
【0027】
さらになお、ストリームの特徴情報の抽出をストリーム送受信装置12、13で行わず、ストリーム合成蓄積装置14側で一括して行うようにしてもよい。この場合は、ストリーム送受信装置12、13は、ストリーム特徴抽出部12e、13eおよび特徴送信部12f、13fを有しない。そして、その場合、ストリーム合成蓄積装置14は、特徴情報受信制御部14cを有しなくてもよく、その代わりに受信したストリームデータからの特徴抽出を行う手段を有する。
【0028】
なお、以下の説明では、2台のストリーム送受信装置を利用し、一方のストリーム送受信装置の利用者が回答者Aである教師であり、他方のストリーム送受信装置の利用者が質問者Qである生徒であり、それぞれ互いに自己の利用するストリーム送受信装置のディスプレイ装置上の相手の画像を見ながらかつ相手の音声を聞きながらイーラーニングによる教育がされていると仮定する。
【0029】
図3は、特徴情報として、ストリームの音声を音声認識したテキストデータを利用する場合の、音声認識結果のテキストデータを含む特徴情報の例を示す図である。例えば、イーラーニングによる教育がされているとき、教師が生徒に対してある事柄について教えている中で、生徒すなわち質問者Qが質問をすると、ストリーム送受信装置13のストリーム特徴抽出部13eにおいて質問内容が音声認識され、音声認識結果がテキストデータとして得られる。ストリーム送受信装置13の特徴送信部13fは、得られた音声認識結果であるテキストデータを、例えばその質問がされた時間である音声認識開始時間、その質問が終了した時間である音声認識終了時間、および、音声認識対象のストリームを特定するストリーム識別情報等の情報と共に、特徴情報として、ストリーム合成蓄積装置14に送信する。ストリーム合成蓄積装置14では、送信された音声認識結果等の特徴情報を受信し、例えば図3の101aに示すような形式で、特徴情報として記憶装置15のストリーム特徴情報格納部15bにファイル101として格納する。
【0030】
同様に、回答者Aである教師が、その質問に対応して回答をすると、ストリーム送受信装置12の特徴送信部12fは、得られた音声認識結果であるテキストデータを、例えばその回答がされた時間である音声認識開始時間、その回答が終了した時間である音声認識終了時間、および、音声認識対象のストリームを特定するストリーム識別情報などの情報と共に、特徴情報として、ストリーム合成蓄積装置14に送信する。ストリーム合成蓄積装置14では、送信された音声認識結果等の特徴情報を受信し、例えば図3の101bに示すような形式で、特徴情報データとして記憶装置15のストリーム特徴情報格納部15bに格納する。従って、リアルタイムで行われる両者の会話の特徴情報データは、会話の進行に伴って記憶装置15に格納されていく。
【0031】
記憶装置15の特徴情報のファイル101には、ストリーム送受信装置12およびストリーム送受信装置13からの特徴情報が、会話の行われた順序で格納されている。一つの発話についての特徴情報は、発話開始時間情報、発話終了時間情報、発話者識別情報、および音声認識結果のテキストデータを含む。図3において、101aは、質問者の発話内容を記述している。質問者の発話101aは、特徴情報データとして、発話開始時間情報102、発話終了時間情報103、発話者識別情報104、および音声認識結果のテキストデータ105を含む。101bは、101aの次の発話内容を記述している。次の発話101bは、特徴情報データとして、発話開始時間情報106、発話終了時間情報107、発話者識別情報108、および音声認識結果のテキストデータ109を含む。
【0032】
特徴情報のファイル101において、発話開始時間情報102、106、および発話終了時間情報103、107として、ストリーム特徴情報抽出部12e、13eにおいて抽出された特徴情報に含まれる時間情報、例えば音声認識開始時間および音声認識終了時間のデータが利用されて書き込まれる。あるいは、音声認識開始時間情報及び音声認識終了時間情報の代わりに、ビデオストリームの撮影開始時間からの相対的な時間データを利用してもよい。なお、時間情報として撮影開始時間からの相対時間を使用する場合は、各ストリームの撮影開始時間の差も考慮して各発話の順番が決定される。
【0033】
発話者識別情報104、108は、音声認識結果のテキストデータがどのストリームから抽出されたものか、すなわちストリーム送受信装置12と13のいずれから送信されたストリームに関して抽出されたものかを特定するためのストリーム識別情報である。音声認識結果のテキストデータがどのストリームから抽出されたものかを決定するために、例えば特徴情報のうち、音声認識対象のストリームを特定するストリーム送受信装置の識別情報を利用してもよい。図3の例では、発話者識別情報104は、この音声認識結果のテキストデータ105がストリーム送受信装置13の利用者である生徒すなわち質問者Qの発話であることを、また、発話者識別情報108は、この音声認識結果のテキストデータ109がストリーム送受信装置12の利用者である教師すなわち回答者Aの発話であることを示している。また、音声認識結果であるテキストデータ105、109は、それぞれ発話内容の音声認識結果を示している。
【0034】
なお、特徴情報のファイル101は、図3に示すように、ストリーム合成蓄積装置14の特徴情報受信制御部14cで受信した各特徴情報を、時間情報を利用して整理し、全てひとつのファイルに保存するようにしても良いし、ストリーム毎に個別のファイルに保存するようにしてもよい。ストリーム毎に個別のファイルに特徴情報を保存する場合は、特徴情報解析部14dにおいて、全ての音声認識結果のテキストデータを、発生時間順に並べる処理を行ってもよい。
【0035】
図4は、ストリーム合成蓄積装置14の特徴情報解析部14dの構成例を示す構成図である。特徴情報として、ストリームの音声認識結果であるテキストデータを含む情報を利用するものと仮定する。図4に示すように、特徴情報解析部14dは、特徴情報ファイル読込部111、形態素解析部112、パターン規則適用部113、意味役割識別情報割り当て部114、意味役割識別情報遷移確率適用部115、意味役割識別情報割り当て修正部116、および解析結果格納部117を含む。
【0036】
特徴情報ファイル読込部111は、ストリーム特徴情報格納部15bに格納されている特徴情報のファイル101のデータを、記憶装置15から読み込む。形態素解析部112は、読み込んだ特徴情報ファイル101に記録されている音声認識結果部分であるテキストデータ部分の形態素解析を行う。
【0037】
図5は、特徴情報の形態素解析結果の例を示す図である。図5に示すように、形態素解析結果201には、特徴情報ファイル101中の音声認識結果であるテキストデータ部分について形態素解析部112によって形態素解析された解析結果データが含まれている。202、203及び204で示すアンダーライン部分は、形態素解析された音声認識テキストデータ部分である。例えば、形態素解析済みである音声認識テキスト202の部分は、特徴情報ファイル中の音声認識結果である、「よろしくお願いします」というテキストを形態素解析した結果部分である。その後、パターン規則適用部113では、記憶装置15のパターン規則格納部15dに格納されている、予め定義してあるパターン規則を参照して、形態素解析結果の分析を行う。パターン規則は、特徴情報の意味を示す特徴情報識別情報と、形態素解析パターンとの関連、あるいは対応を記述したものである。特徴情報識別情報は、予め定義されており、例えば各発話の意味を表すものである。
【0038】
図6は、パターン規則格納部15dに格納されているパターン規則の記述例であるパターン規則表を示す図である。ここでは、各発話の意味を表す意味役割識別情報として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」、「その他」の7つが予め定義されていると仮定する。パターン規則格納部15dに格納されている図6の表は、各形態素パターン302が、意味役割識別情報301のうちのどれに出現しやすいかを表したものである。重み付け係数(スコア)303は、ある形態素パターンが出現したときに、その形態素パターンがどの意味役割識別情報に対応しやすいかを数値で表したものである。図6では、数値が大きいほど、対応する意味役割になりやすいことを示す。形態素パターン302は、例えば、いくつかの会話データから、各発話の意味を決定すると思われる、特徴的な部分を抜き出した形態素パターンである。なお、形態素解析結果として付与される「<」と「>」の符号で示される部分は、品詞を示している。
【0039】
また、図6では、意味役割識別情報301は、上述した7種類の意味役割識別情報が、質問者の発話である場合と、回答者の発話である場合に分かれている。「挨拶」、「相槌」などの識別情報の後に、「(Q)」がついている識別情報が質問者の識別情報を、「(A)」がついている識別情報が回答者の識別情報を表す。その結果、図6に示す意味役割識別情報には、質問者、回答者という役割の情報が含まれている。図6の例では、形態素解析を行った発話の中の形態素パターン302中の「こんにちは<感>」という形態素パターンが含まれる場合、その発話が質問者のものであっても回答者のものであっても、「挨拶」という意味役割になりやすい、ということを示している。また、「なんですが<付>」という形態素パターンを含む発話は、質問者のものである場合は「質問」に、回答者のものである場合は「回答」になりやすいということを示している。従って、図6に示す意味役割識別情報は、発話の意味を決定するために、質問者、回答者等の役割別になっている。
【0040】
図4のパターン規則適用部113では、各発話の形態素解析結果をパターン規則表118に従って分析し、その発話に対応する意味役割識別情報を推定する。たとえば、音声認識結果の中に、「こんにちは」というテキストがあった場合、これはパターン規則中の「こんにちは<感>」という形態素パターンとマッチする。これが質問者の発話したものである場合は、「こんにちは」というテキストに対する意味役割候補として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」「その他」の7つの意味役割識別情報のうちの「挨拶」に、パターン規則中の「挨拶(Q)」のスコアが加算される。ひとつのパターンマッチで、複数の意味役割識別情報にスコアが加算される場合もある。また、ひとつの音声認識テキストに複数の形態素パターンがマッチする場合もある。この場合は、その都度マッチした形態素パターンのスコアが加算される。なお、発話者が質問者の場合は、質問者に対する意味役割識別情報(「Q」のつく意味役割識別情報)のみのスコアが加算され、発話者が回答者の場合は、回答者に対する意味役割識別情(「A」のつく意味役割識別情報)のみのスコアが加算されるようにする。
【0041】
その後、意味役割識別情報割り当て部114により、音声認識結果テキストごとに、最もスコアの高い、意味役割識別情報を割り当てる。形態素パターンにマッチしなかった等により、意味役割が不明な発話には、識別情報は割り当てられなくてもよい。なお、意味役割識別情報割り当て部114での意味役割識別情報の割り当ては行わず、意味役割識別情報遷移確率適用部115処理後に、意味役割識別情報割り当て修正部116で割り当てるようにしてもよい。
【0042】
意味役割識別情報遷移確率適用部115は、形態素パターンではなく、会話の前後関係から、各発話の意味役割を推定する部分である。テキストデータを対象とした既存の意味役割解析は、上記パターンマッチングのみを行い、最もスコアの高い意味役割を与える(たとえば、「知識情報共有システム(KIDS)のヘルプデスク業務への適用、第13回人工知能学会全国大会論文集、p484−p487(1999)」)。
【0043】
しかし、音声認識結果には、認識誤りが含まれる可能性があるため、形態素パターンと意味役割識別情報との対応だけでは十分な精度が得られない可能性もある。一方、対話には、「質問は回答に先行する」などの、意味役割識別情報の遷移の制約があると期待される。従って、意味役割識別情報遷移確率適用部115では、パターン規則適用部113により得られた各音声認識結果に対するそれぞれの意味役割識別情報のスコアを、意味役割識別情報毎の、他の意味役割への遷移確率を定義した、記憶装置15に予め格納されている意味役割識別情報遷移確率表格納部15eの意味役割識別情報遷移確率表のデータを用いて補正する。意味役割識別情報遷移確率表は、例えば、質問者、回答者別に発話に割り当てられる意味役割識別情報全てについて、各意味役割識別情報の次にどの意味役割識別情報が出現しやすいかという確率を定義した表である。
【0044】
また、上述したように、意味役割識別情報には、質問者、回答者という役割の情報を含むので、結果として、意味役割識別情報遷移確率表は、質問者、回答者という役割に基く、意味役割識別情報の遷移確率を含む。図9は、意味役割識別情報遷移確率表の例を示したものである。図9の意味役割識別情報遷移確率表900は、先行発話の意味役割識別情報901から後続発話の意味役割識別情報902への遷移確率を示している。なお、表中には、意味役割識別情報のほかに、対話の開始を示す「開始」と対話の終了を示す「終了」も含まれている。このようにすることで、それぞれの意味役割識別情報が対話の先頭に出現する確率、および対話の最後に出現する確率も利用することができる。意味役割識別情報遷移確率表900は、たとえば、対話の先頭の発話は、質問者の挨拶である確率が0.56であり、また、質問者の挨拶の次にくる発話が回答者の挨拶である確率が0.54であるということを示している。
【0045】
なお、遷移確率によるスコアの補正には、例えばビダビアルゴリズム(「viterbi algorithm」)が用いられる。なお、遷移確率によるスコアの補正時、形態素パターンにマッチしなかった発話については、全てのスコアが0となっているため、補正前に、全てのスコアに例えば(1/意味役割識別情報の数)などの等スコアを与えるなどの前処理を行ってもよい。
【0046】
意味役割識別情報割り当て修正部116では、意味役割識別情報遷移確率適用部115により導出された、最適な意味役割識別情報を、各音声認識結果のテキストに割り当てる。
【0047】
また、遷移確率を用いることで、形態素パターンによる解析では意味役割を特定できなかった発話に対しても、意味役割識別情報を割り当てることができる。なお、意味役割遷移確率適用部115で、遷移確率表の遷移確率情報に基いて、最適な意味役割識別情報を見つけられなかった場合には、意味役割識別情報割り当て部114で割り当てられた意味役割識別情報を採用すればよい。意味役割識別情報割り当て部114による意味役割識別情報割り当てを行わない場合は、形態素パターン適用部113で最もスコアが高かった意味役割識別情報を採用する。
【0048】
最後に、解析結果格納部117は、必要な修正の行われた特徴情報解析結果のデータを記憶装置15の予め決められた記憶領域部である特徴情報解析結果格納部15f(図7)に格納する。図10に、特徴情報解析結果格納部15f(図7)に格納される特徴情報解析結果の例を示す。図10の特徴情報解析結果1001には、各音声認識結果1003に対し、割り当てられた意味役割識別情報1002が記載されている。なお、特徴情報解析結果格納部15fには、意味役割識別情報が割り当てられた解析結果データの他に、形態素解析部112の解析結果データあるいは意味役割識別情報割り当て部114で割り当てられた解析結果データも格納されてもよい。
【0049】
このようにして、ストリームに対応するテキストデータ等を含む特徴情報に、その特徴情報の意味を示す予め決められた特徴情報識別情報が、対応付けられて記憶装置15に格納される。
【0050】
図7は、特徴情報解析部14dによって特徴情報の解析がされた後に、新たなストリームデータを生成する処理部の構成例を示す構成図である。図7において、ストリーム選択部14eは、特徴情報解析結果読込部401、シナリオ読込部402、及び部分ストリーム切り出し部403から構成される。また、ストリーム生成部14fは、シナリオ読込部404、部分ストリーム再配置部405、およびストリーム生成部406より構成される。
【0051】
ストリーム選択部14eでは、特徴情報解析部14dにおいて解析された特徴情報解析結果格納部15fのデータに基いて、ストリームの合成に利用するストリーム又は部分ストリームを選択する。特徴情報解析結果読込部401は、まず、特徴情報解析結果格納部15fの特徴情報解析結果データ(意味役割識別情報が割り当てられた解析結果データ)を読み込む。次に、シナリオ読込部402が、記憶装置15のストリーム合成シナリオ格納部15gに予め格納されているストリーム合成シナリオデータ、具体的には選択すべき発話部分を示すための選択規則データを読み込む。
【0052】
部分ストリーム切り出し部403は、まず、読み込まれた特徴情報解析結果およびストリーム合成シナリオ中の選択規則に基いて、ストリーム合成に利用する部分ストリームを選択する。ストリーム合成シナリオには、例えば、新たに合成して生成するストリームに含めたい意味役割識別情報が、選択規則情報として記述できるようになっている。よって、質問者Qと回答者Aのストリームから、「質問」の意味役割識別情報と「回答」の意味役割識別情報の割り当てられた部分だけ取り出して、「質問」と「回答」の組み合せからなる1つのストリームを合成したい場合は、ストリーム合成シナリオには、「質問」と「回答」の意味役割識別情報のついた部分のみを取り出すような指示が、選択規則として記述される。そして、ストリーム合成シナリオに記述されている選択すべき意味役割識別情報をもつ意味役割解析結果の発話部分と、ストリームとの対応付けは、例えば発話者識別情報、時間情報等の情報を利用して行われる。
【0053】
部分ストリーム切り出し部403は、次に、選択されたストリームデータについて、ストリーム合成シナリオ格納部15gのストリーム合成シナリオに従って取り出された発話部分に対応する部分の特定を行う。発話部分と、これに対応する部分ストリームとの対応付けは、例えば発話開始時間情報、発話終了時間情報などを利用することにより行うことが可能である。
【0054】
ストリーム生成部14fでは、ストリーム選択部14eによって選択された部分ストリームを編集して、新たなストリームデータを生成する。ストリーム生成部14fは、シナリオ読込部404、部分ストリーム再配置部405、およびストリーム合成部406により構成される。
【0055】
シナリオ読込部402では、ストリーム選択部14eによって選択された部分ストリームの配置に関する記述を含むストリーム合成シナリオ格納部15gのストリーム合成シナリオデータを読み込む。ストリーム合成シナリオは、上述したように、選択すべき発話部分を示す意味役割識別情報の選択規則のデータに加えて、例えば、ストリーム選択部14eにおいて選択された意味役割識別情報を持つ発話部分が、新たに作成するストリームでどのような順序で出現するかを示すかが記述されている編集規則のデータを含む。例えば、「質問」の識別情報をもつ発話を最初に配置し、その次に「回答」の識別情報を持つ発話を配置したい場合は、「質問」→「回答」という順序を表す編集規則の記述も、ストリーム合成シナリオに含まれる。
【0056】
なお、ストリーム選択部14eにおいて読み込まれるストリーム合成シナリオの選択規則データと、ストリーム生成部14fにおいて読み込まれるストリーム合成シナリオデータの編集規則データとは、別個のファイルとして格納されていてもよい。
【0057】
部分ストリーム再配置部405では、シナリオ読込部404において読み込まれたストリーム合成シナリオの内容、および、部分ストリーム切り出し部403において切り出した部分ストリームに関する情報を利用して、部分ストリームを適切に順序付ける。その後、ストリーム合成部406により、順序付けられた部分ストリームを繋げて一連のストリームになるように合成する。
【0058】
さらに、ストリーム合成部406における処理において、再配置して新たに生成されたストリームデータをオーサリングツールによってディスプレイ装置上に表示し、表示されたストリームの情報に基いて、再配置されたストリームに対して人間が細かい修正を加えられるようになっていてもよい。例えば、選択された部分ストリームのうち、必要のない部分を削除したり、選択されなかった部分を加えたりすることができてもよい。
【0059】
なお、ストリーム合成部406により合成されるストリームデータの形式は、実際に部分ストリームを結合して生成されるストリームデータ自体でもよいし、新たなストリームデータとして使用される部分ストリームデータの格納されている記憶装置内の場所を特定する識別情報と、再生位置及び再生順序等を記述したメタ情報言い換えるとストリーム再生情報であってもよい。図11は、合成されるストリームデータの形式がメタ情報である場合の例を示したものである。なお、図11の合成ストリームデータは、選択した部分ストリームの再生情報の記述のみ抜き出した例である。図11において、出力ストリームデータの一部である1100には、3つの部分ストリーム1101、1201、および1301の記述がある。ひとつの部分ストリームの記述は、たとえば、<VisualSummaryComponent>と</VisualSummaryComponent>で囲まれた部分に記述される。<VisualSourceRocator>と</VisualSourceRocator>で囲まれた部分1102、1202および1302には、再生される部分ストリームを含むストリームの存在する位置情報が記述されている。図11の例では、<MediaUri>と</MediaUri>に囲まれた部分に、ストリームのURLが記述されている。<ComponentSourceTime>と</ComponentSourceTime>に囲まれた部分1103、1203、および1303には、それぞれ1102、1202、および1302で指定したURLに対応するストリームのどの位置から再生すればよいのかを、ストリームの先頭からの時間で示している。すなわち、再生されるべき部分ストリームが、それぞれのURLに対応するストリームのどの位置にあたるのかを、ストリームの先頭からの時間で指定している。たとえば、1103の、<MediaRelTimePoint>と</MediaRelTimePoint>に囲まれた部分は、ストリームの先頭から67秒後が、再生すべき部分ストリームの開始点であることを表している。また、<MediaDuration>と</MediaDuration>に囲まれた部分は、部分ストリームの再生時間を示している。したがって、1103の部分では、1102のURLに対応したストリームの先頭から67秒後から12秒間の部分が、再生されるべき部分ストリームであることを示している。また、<SyncTime>と</SyncTime>で囲まれた部分1104、1204、および1304は、合成されたストリームの再生情報を示している。たとえば、1104において、<MediaRelTimePoint>と</MediaRelTimePoint>で囲まれた部分は、1102および1103で特定した部分ストリームを、合成ストリームにおいていつ再生するかを示している。この例では、1104は、先頭から0秒後、すなわち、一番最初に再生すべきことを示している。また、1104の<MediaDuration>と</MediaDuration>で囲まれた部分では、1102および1103で特定した部分ストリームの、合成ストリーム内での再生時間を指定できる。1104では、12秒間部分ストリームの再生を行うことを示している。同様に、1204では、1202および1203で特定された部分ストリームが、合成ストリームの再生開始指示から12秒後に、10秒間再生されるべきことを示している。1304では、1302および1303で特定された部分ストリームが、合成ストリームの再生開始指示から22秒後に、15秒間再生されるべきことを示している。従って、1104、1204、および1304の部分は、合成ストリーム開始からの、部分ストリームの再生順序を示している。
【0060】
以上のように、本実施の形態に係わるストリームデータ生成システムによれば、同一時間に撮影されたストリームを含む、複数のストリームデータの中から、所望のストリームデータを選択して抽出し新たなストリームデータを所定の構成で生成し合成して、蓄積することができる。よって、教材として選択すべきストリームデータの内容を指定し、かつ、どのような順序で並び替えるかの指定をしておけば、自動的に所望の新たなストリームデータが容易に生成される。
【0061】
(第2の実施の形態)
図8は、本発明の第2の実施の形態に係わるストリームデータ生成システムの構成図である。
【0062】
すなわち、図8に示す第2の実施の形態に係るシステムでは、2つのストリーム送受信装置は、相互に直接ストリームデータの送受信を行う、すなわち、各ストリーム送受信装置から送信されるストリームは、直接接続相手のストリーム送受信装置に送信されると共に、各ストリーム送受信装置から送信されるストリームはストリーム合成蓄積装置にも送信される構成となっている点が、第1の実施の形態に係るシステムと異なる。
【0063】
図8に示すように、ストリームデータ生成システム21において、ストリーム送受信装置22には、第1の実施の形態と同様に、映像及び音声取得機器としてのビデオカメラとマイク22cが接続されており、教師あるいは教師が使用する教材の映像と、教師の発する音声のデータがストリーム送受信装置22に取り込めるようになっている。同様に、ストリーム送受信装置23には、映像及び音声取得機器としてのビデオカメラとマイク23cが接続されており、生徒あるいは生徒が使用する教材の映像と、生徒の発する音声のデータがストリーム送受信装置23に取り込めるようになっている。
【0064】
ストリーム送受信装置22は、ストリーム受信制御部22aとストリーム配信制御部22bを含み、ストリーム送受信装置23も、ストリーム受信制御部23aとストリーム配信制御部23bを含む。ストリーム受信制御部22aは、ストリーム配信制御部23bからのストリームデータを受信するための制御部であり、ストリーム受信制御部23aは、ストリーム配信制御部22bからのストリームデータを受信するための制御部である。
【0065】
従って、2台のストリーム送受信装置22、23が、相互間でビデオストリームの送受信を行うことによって、例えば、ストリーム送受信装置22の利用者である教師が、ストリーム送受信装置23の利用者である生徒の質問に答えるというようなやりとりを、リアルタイムで互いのビデオ映像を見ながら行うことができる。
【0066】
ストリーム送受信装置22に接続されているビデオカメラとマイク22cによって得られた映像および音声データは、ストリーム配信制御部22bに供給され、例えばMPEG4形式にエンコードされる等、ネットワークを介するデータ配信に適した形式に変換される。その変換されて生成されたビデオストリームデータは、接続相手であるストリーム送受信装置23に向けて送信される。ストリーム送受信装置23では、ストリーム送受信装置22のストリーム配信制御部22bより送信されたビデオストリームデータを、ストリーム受信制御部23aにおいて受信して、ストリーム送受信装置23のディスプレイ装置上に、教師の画像が表示され、かつ教師の声もスピーカから出力される。
【0067】
第一の実施の形態と同様に、ストリーム送受信装置23に接続されているビデオカメラとマイク23cによって得られた映像および音声データも、ストリーム送受信装置23のストリーム配信制御部23bからストリーム送受信装置22のストリーム受信制御部22aに送信され、ストリーム送受信装置22のディスプレイ装置上に、生徒の画像が表示され、かつ生徒の声もスピーカから出力される。
【0068】
ストリーム受信制御部は、第一の実施の形態におけるストリーム受信部とストリーム再生部を含む。ストリーム配信制御部は、第一の実施の形態における外部入力受信部と、ストリーム生成配信部と、ストリーム特徴抽出部と、特徴送信部とを含む。
【0069】
また、ストリーム送受信装置22、23から送信される各ストリームデータは、送信先のストリーム送受信装置23、22へ送信されると同時に、ストリーム合成蓄積装置24にも送信される。ストリーム合成蓄積装置24は、リアルタイムで撮影されているときの複数のストリームデータを受信し、受信したストリームデータを記憶装置25の所定の記憶領域に格納する。
【0070】
従って、生徒は、ストリーム送受信装置23と通信回線26を利用したリアルタイムの一対一の授業を受けることができる。教師も、ストリーム送受信装置22と通信回線26を利用してリアルタイムの一対一の授業を生徒に対してすることができる。そして、リアルタイムで撮影されているときの生徒と教師の相互のストリームデータは、ストリーム合成蓄積装置24によって受信され、記憶装置25に格納される。
【0071】
さらに、ストリーム送受信装置22、23は、第1の実施の形態と同様に、図示しない音声認識装置、例えば音声認識ソフトウエア等を含み、音声認識処理によって音声データからテキストデータを生成することができる。ストリーム送受信装置22は、教師の音声データに基づいてテキストデータを生成し、ストリーム送受信装置23は、生徒の音声データに基づいてテキストデータを生成する。生成されたテキストデータは、ストリーム配信制御部22b、23bから音声認識されたストリームに含まれる時間データと共にストリーム合成蓄積装置24へ、ストリームデータに対応する特徴情報として送信される。
【0072】
そして、ストリーム合成蓄積装置24は、受信したストリームデータと、テキストデータ等を含む特徴情報を受信し、受信したこれらのデータを記憶装置25に格納する。
【0073】
第1の実施の形態と同様に、ストリーム合成蓄積装置24では、ストリーム送受信装置22、23より配信されるストリームデータおよびストリームデータの特徴情報を利用して、1つ以上の新たなストリームデータを合成して記憶装置25に蓄積する。
【0074】
ストリーム合成蓄積装置24は、ストリーム特徴情報収集部24a、特徴情報解析部4b、ストリーム選択部24c、およびストリーム生成部24dを含む。ストリーム特徴情報収集部24aは、ストリーム送受信装置22、23のストリーム配信制御部22a、23aから送信されるストリームの特徴情報を受信し、ストリームを特定する識別情報とともに記憶装置25の所定の記憶領域に格納する。各ストリーム送受信装置からのストリーム特徴情報の受信が完了すると、ストリーム特徴情報収集部24aは、特徴情報解析部24bにその完了を示す情報を供給する。特徴情報解析部24bは、記憶装置25の記憶領域からストリーム特徴情報を読み出して解析を行う。ストリーム選択部24cは、特徴情報解析部24bの解析結果をもとに、新たに作成するストリームの素材となるストリームと、それらストリームのうちのどの区間すなわち部分を使用するのかを選択する。例えば、特徴情報解析部24bは、ストリーム特徴情報を読み出して解析を行って、その後予め決められた選択規則に基いて、ストリームデータの中から必要な部分ストリームを選択する。
【0075】
そして、ストリーム生成部24dでは、予め決められた編集規則に基いて、ストリーム選択部24cで選択されたストリームあるいはストリームの一部が矛盾無くつながるように編集し、新たなストリームデータを生成する。新たに生成されたストリームデータは、記憶装置25の記憶領域に格納されるか、あるいは、コンテンツデータを管理する他のコンテンツサーバに送信してそのサーバの記憶装置に格納するようにしてもよい。
【0076】
なお、新たに生成されるストリームデータは、ストリームデータ自体ではなく、ストリームデータの中の選択された部分についての再生位置データと再生順序データを含む情報でもよい。
【0077】
ストリーム合成蓄積装置24における処理は、第1の実施の形態に係るストリーム合成蓄積装置14における処理と同じである。
【0078】
以上説明したように、第2の実施の形態に係わるストリームデータ生成システムによれば、第1の実施の形態に係わるシステムと同様に、同一時間に撮影されたストリームを含む、複数のストリームデータの中から、所望のストリームデータを選択して抽出し新たなストリームデータを所定の構成で生成し合成して、蓄積することができる。よって、教材として選択すべきストリームデータの内容を指定し、かつ、どのような順序で並び替えるかの指定をしておけば、自動的に所望の新たなストリームデータが生成される。
【0079】
なお、上述した例では、イーラーニングの例で説明したが、他にも、美術館、博物館等における作品解説システム、施設、設備等のメンテナンスのためのオンラインマニュアルシステム等にも、本発明は適用することができる。
【0080】
さらに、新たに生成されたストリームデータがメタ情報の場合、そのメタ情報に、意味役割識別情報も含めて記述しておくようにすれば、例えば「回答」などの意味役割識別情報をキーワードとしてストリームの検索をすることも可能である。また、メタ情報によりストリーム生成を行う場合は、例えば、「質問」部分の質問者の映像を使わず、その代わりに質問内容をテキストで挿入するなどの編集も可能である。
【0081】
具体的には、教師と生徒が直接お互いのビデオ映像を見ながらやりとりが行われるような場合に、ストリームデータ合成蓄積装置は、それらのビデオ映像の内容を自動的に解析し、講義部分のみのコンテンツ、あるいは質疑応答部分のコンテンツ等を自動的に抽出して蓄積することができる。
【0082】
さらにまた、同一時間を撮影されたストリームを含む複数のストリームと特徴情報を、一旦記憶手段に格納しておき、後で、上述したような新たなストリームデータの合成をして生成するようにしてもよい。
【0083】
よって、コンテンツ編集にかかる労力を低減することができる。例えば、上述した実施の形態において、質疑応答部分のコンテンツのストリームデータを上記のようにして蓄積していけば、生徒が講義部分のみのコンテンツを見ながら学習していて疑問が生じたときに、その疑問が、以前に一度講師が回答している疑問であれば、質問文を入力するだけで適当な回答コンテンツが表示される、というような仕組みを構築することも可能である。
【0084】
本明細書における各「部」は、実施の形態の各機能に対応する概念的なもので、必ずしも特定のハードウエアやソフトウエア・ルーチンに1対1には対応しない。従って、本明細書では、以上、実施の形態の各機能を有する仮想的回路ブロック(部)を想定して実施の形態を説明した。また、本実施の形態における各手順の各ステップは、その性質に反しない限り、実行順序を変更し、複数同時に実行し、あるいは実行毎に異なった順序で実行してもよい。
【0085】
なお、以上説明した動作を実行するプログラムは、フロッピー(登録商標)ディスク、CD−ROM等の可搬媒体や、ハードディスク等の記憶装置等に、その全体あるいは一部が記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールすることで、容易に本発明のストリームデータ生成システムを実現することができる。
【0086】
本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を変えない範囲において、種々の変更、改変等が可能である。
【0087】
【発明の効果】
本発明により、複数のビデオストリームに基づいて所望のコンテンツの作成を容易に行うためのストリームデータ生成システムを実現することができる。
【図面の簡単な説明】
【図1】第1の実施の形態に係わるストリームデータ生成システムの例を示す構成図である。
【図2】第1の実施の形態に係わるストリームデータ生成システムのより詳細な構成例を示す構成図である。
【図3】音声認識結果のテキストデータを含む特徴情報の例を示す図である。
【図4】ストリーム合成蓄積装置の特徴情報解析部の構成例を示す構成図である。
【図5】特徴情報の形態素解析結果の例を示す図である。
【図6】パターン規則の記述例であるパターン規則表を示す図である。
【図7】新たなストリームを生成する処理部の構成例を示す構成図である。
【図8】第2の実施の形態に係わるストリームデータ蓄積システムの例を示す構成図である。
【図9】意味役割識別情報遷移確率表の例を示す図である。
【図10】特徴情報解析結果格納部に格納される特徴情報解析結果の例を示す図である。
【図11】合成されるストリームデータの形式がメタ情報である場合の例を示す図のである。
【符号の説明】
11・・・ストリームデータ生成システム、12、13・・・ストリームデータ送受信装置、14・・・ストリームデータ合成蓄積装置、15・・・記憶装置、16・・・通信回線、17・・・コンテンツサーバ、18・・・記憶装置
Claims (11)
- 質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成装置において、
前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、
前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、
前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、
各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有することを特徴とするストリームデータ生成装置。 - 前記質問者と回答者のそれぞれを撮影したストリームデータは、同一時間に撮影されたデータであることを特徴とする請求項1に記載のストリームデータ生成装置。
- 前記利用ストリームデータは、前記利用ストリームデータに含まれる前記部分ストリームデータを再生するために必要な、前記部分ストリームデータの再生位置と再生順序のデータを少なくとも含む情報であることを特徴とする請求項1又は請求項2に記載のストリームデータ生成装置。
- 前記解析手段による、前記テキストデータに対する前記意味役割識別情報の割り当てには、前記意味役割識別情報間の遷移確率情報を利用することを特徴とする請求項1から請求項3のいずれか1つに記載のストリームデータ生成装置。
- 通信回線を介して接続された複数の端末装置間で通信され、質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータの生成システムにおいて、
前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、
前記複数の端末装置のそれぞれから送信されるストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる解析手段と、
前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、
前記解析手段による解析結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する部分ストリーム選択手段と、
各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、前記部分ストリーム選択手段によって選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る合成手段とを有することを特徴とするストリームデータ生成システム。 - 前記複数の端末装置には、それぞれ、ビデオカメラが接続され、前記複数のストリームデータは前記ビデオカメラによってリアルタイムで撮影されているストリームデータであることを特徴とする請求項5に記載のストリームデータ生成システム。
- 前記テキストデータは、前記複数の端末装置のそれぞれにおいて音声認識されて得られたテキストデータであることを特徴とする請求項6に記載のストリームデータ生成システム。
- 質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段とを備えたシステムにおいて、前記質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、後に利用するための利用ストリームデータを生成するストリームデータ生成方法であって、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当て、
前記解析した結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択し、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得ることを特徴とするストリームデータ生成方法。 - 前記利用ストリームデータは、前記利用ストリームデータに含む前記部分ストリームデータを再生するために必要な、前記部分ストリームデータの再生位置と再生順序のデータを少なくとも含む情報であることを特徴とする請求項8に記載のストリームデータ生成方法。
- 前記テキストデータに対する前記意味役割識別情報の割り当てには、前記意味役割識別情報間の遷移確率情報を利用することを特徴とする請求項8又は請求項9に記載のストリームデータ生成方法。
- 質問者と回答者のそれぞれを撮影したストリームデータを含む複数のストリームデータに基づいて、前記質問者と回答者のそれぞれについて、予め決められた発話を音声認識して得られるテキストデータを形態素解析して得られる所定の複数の形態素パターンと、該複数の形態素パターンのそれぞれに対応して、前記発話の意味を表す情報に加え、発話者の役割を表す情報を含む意味役割識別情報との対応のし易さを数値で表した情報を予め格納した意味役割識別情報格納手段と、前記意味役割識別情報の予め決められた組合せを選択する選択規則を予め格納する選択規則格納手段と、各発話の出現順序が前記意味役割識別情報によって示された編集規則を予め格納する編集規則格納手段とを用いて、後に利用するための利用ストリームデータを生成するためのプログラムであって、
前記複数のストリームデータの各ストリームデータに対応する、少なくとも時間情報と、前記質問者と回答者の発話を音声認識して得られたテキストデータとを解析し、前記質問者と回答者の発話を音声認識して得られたテキストデータを形態素解析して得られた形態素パターン毎に、前記意味役割識別情報格納手段における形態素パターンに対応する数値を加算して、その加算した値が最も高い意味役割識別情報を、前記質問者と回答者の発話を音声認識して得られたテキストデータに対して、割り当てる機能と、
前記解析した結果と、前記時間情報と、前記選択規則格納手段に格納された前記意味役割識別情報を含む前記選択規則とに基づいて、前記複数のストリームデータから部分ストリームデータを選択する機能と、
前記編集規則格納手段に格納された前記編集規則と前記部分ストリームデータの前記意味役割識別情報に基づいて、選択された前記部分ストリームデータを合成して、前記利用ストリームデータを得る機能とをコンピュータに実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003054427A JP4085015B2 (ja) | 2003-02-28 | 2003-02-28 | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003054427A JP4085015B2 (ja) | 2003-02-28 | 2003-02-28 | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004266551A JP2004266551A (ja) | 2004-09-24 |
JP4085015B2 true JP4085015B2 (ja) | 2008-04-30 |
Family
ID=33118770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003054427A Expired - Fee Related JP4085015B2 (ja) | 2003-02-28 | 2003-02-28 | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4085015B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3816901B2 (ja) * | 2003-05-30 | 2006-08-30 | 株式会社東芝 | ストリームデータの編集方法と編集システム及びプログラム |
JP2006258908A (ja) * | 2005-03-15 | 2006-09-28 | Nippon Telegraph & Telephone East Corp | 遠隔教育装置、遠隔教育方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 |
JP6364723B2 (ja) * | 2013-09-11 | 2018-08-01 | 株式会社リコー | 伝送管理システム、伝送管理方法及び伝送管理プログラム |
CN105306861B (zh) * | 2015-10-15 | 2017-03-01 | 深圳市鹰硕技术有限公司 | 一种网络教学录播方法及系统 |
JP6988924B2 (ja) * | 2018-02-05 | 2022-01-05 | 日本電気株式会社 | 質問群抽出方法、質問群抽出装置および質問群抽出プログラム |
JP7049731B1 (ja) | 2022-01-07 | 2022-04-07 | 株式会社インタラクティブソリューションズ | 質疑応答集の自動作成方法,そのプログラム及び記録媒体 |
WO2023132313A1 (ja) * | 2022-01-07 | 2023-07-13 | 株式会社インタラクティブソリューションズ | 質疑応答集の自動作成方法,そのプログラム及び記録媒体 |
JP7271019B1 (ja) | 2022-03-17 | 2023-05-11 | 株式会社インタラクティブソリューションズ | 質疑応答集の自動作成方法,そのプログラム及び記録媒体 |
-
2003
- 2003-02-28 JP JP2003054427A patent/JP4085015B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004266551A (ja) | 2004-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9318113B2 (en) | Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations | |
WO2018227761A1 (zh) | 一种教学录播数据修正装置 | |
CN111538851B (zh) | 自动生成演示视频的方法、系统、设备及存储介质 | |
US20040186743A1 (en) | System, method and software for individuals to experience an interview simulation and to develop career and interview skills | |
CN109275046A (zh) | 一种基于双视频采集的教学数据标注方法 | |
US7160112B2 (en) | System and method for language education using meaning unit and relational question | |
CN109324811B (zh) | 一种用于更新教学录播数据的装置 | |
CN111417014B (zh) | 基于在线教育的视频生成方法、系统、设备及存储介质 | |
KR101858204B1 (ko) | 양방향 멀티미디어 컨텐츠 생성 방법 및 장치 | |
CN112887790A (zh) | 一种视频快速交互与播放的方法 | |
JP4085015B2 (ja) | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム | |
CN110046290B (zh) | 一种个性化自主教学课程系统 | |
JP6656529B2 (ja) | 外国語の会話訓練システム | |
KR101198091B1 (ko) | 학습 콘텐츠 서비스 제공 방법 및 시스템 | |
KR102534275B1 (ko) | 어학 학습 단말, 이를 포함하는 어학 학습 시스템 및 방법 | |
Arons et al. | The future of speech and audio in the interface: a CHI'94 workshop | |
JP4651981B2 (ja) | 教育情報管理サーバ | |
JP2018146961A (ja) | 音声再生装置及び音楽再生プログラム | |
Fadila et al. | Channeling multiliteracies in digital era: A case study of EFL student-made video project in vocational high school | |
KR20200039907A (ko) | 스크립트를 이용한 스마트 어학학습서비스 및 서비스 제공 방법 | |
JP3930402B2 (ja) | オンライン教育システム、情報処理装置、情報提供方法及びプログラム | |
KR20110124048A (ko) | 온라인 교육 포털 서비스 제공 시스템 및 방법 | |
KR100884826B1 (ko) | 페이지 인덱스를 이용한 반복 학습 단말기, 시스템 및 방법 | |
Beeli-Zimmermann et al. | Video-Based Educational Research: What Happens After Recording With Two Cameras? | |
JP7049718B1 (ja) | 言語教育動画システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080218 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4085015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |