JP2007156286A

JP2007156286A - 情報認識装置及び情報認識プログラム

Info

Publication number: JP2007156286A
Application number: JP2005354310A
Authority: JP
Inventors: Haru Andou; ハル安藤; Keiko Fujita; 啓子藤田; Taro Ishikawa; 太郎石川; Junko Yamagishi; 純子山岸
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-12-08
Filing date: 2005-12-08
Publication date: 2007-06-21
Anticipated expiration: 2025-12-08
Also published as: JP4802689B2

Abstract

【課題】映像コンテンツを検索する際、音声から抽出された単語候補、デジタルボード等に入力された筆記情報から抽出された単語候補、筆記授業マテリアル等のテキスト中に出現する単語の出現位置・順序・頻度等を用いることにより、検索時に用いる映像箇所を示すタグの付与を正確に行い、ユーザにとって簡便に必要な映像箇所が検索できるようにする。
【解決手段】授業用マテリアルであるテキストから単語抽出を行い、抽出された単語の出現位置・順序・頻度、授業・講演と同時に収録される筆記情報等から抽出される単語情報と音声情報から抽出される単語情報の位置関係を用いて、映像箇所にタグを付与する装置であって、授業・講演との関連情報を用いて音声認識率を向上させ、付与するタグの精度を向上させる。
【選択図】図１

Description

本発明は、映像コンテンツの検索用として付与するタグの妥当性を向上させることを目的とした情報認識システムに関する。

昨今のブロードバンドネットワークの普及に伴い、映像メディアや映像コンテンツといった大容量のメディア・コンテンツが普及しつつある。例えば、教育分野における授業映像は、カメラの小型化やサーバの大容量化も影響しアーカイブ化が進んでいる。その結果、大量の授業映像コンテンツが蓄積され、その映像を用いるユーザの選択肢は広がっている。しかしながら、一方では選択肢が増加したことにより、ユーザが自分に必要な映像コンテンツそのもの、或いは映像コンテンツ内箇所を自ら選択することが必須になってきている。

ユーザが複数の映像コンテンツから必要な映像コンテンツを選択したり映像内から必要な箇所を検索したりする場合、コンテンツ自体或いはコンテンツ内の各箇所に対してタグを付与し、ユーザの検索キーとの対応付けを行う必要がある。

ユーザの検索キーは、現状テキストの場合が大半であり、これに対応してコンテンツに付与するタグはテキストベースであることが多い。映像コンテンツに対するタグ付与では、人間が同コンテンツを見て単語テキストを付与したり、既に映像コンテンツに付与されているタイトルをタグとして扱ったりする場合がある。

また、映像内の部分に対するタグ付与において、音声情報や文字情報、テキスト情報を用いる場合がある。音声情報とテキスト情報を用いたタグ付与方法として、例えば、トライグラム等nグラムを利用した統計的言語モデルを用いて、ある単語の生起尤度を算出し、その生起尤度と音声認識候補の尤度とを総合して認識候補を決定する方法がある（例えば、特許文献１参照）。また、音声情報と筆記情報を用いたタグ付与方法として、例えば各情報の認識候補の尤度を算出し、両尤度から求められる総合尤度に基づいて認識候補を決定する方法がある（例えば、特許文献２参照）。

特開平６−２７９８５号公報

特開平８−８３０９２号公報

特許文献１に開示されているように、トライグラム等nグラムを用いた統計的言語モデルは、出現順序を考慮しているが、対象単語からn個前までの出現単語から対象単語を推測するため、出現単語以降に出現すると予測される単語については考慮されていない。そのため、単語の出現順序の変化に柔軟でなく、認識率を向上させるには不十分である。

また、特許文献２の装置は、音声情報と筆記情報が同時に入力された場合にのみ両者の尤度を用いた判定を行う。しかし、例えば授業においては、講師が発話した後に同様の内容を筆記する場合、または講師が筆記をした後に同様の内容を発話する場合が通常である。そのため、同時に音声発話と筆記が行われる場合に限定すると、音声認識率を向上させる十分な機能を果たすことはできない。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記のとおりである。入力される音声情報の音声認識候補とその音声認識についての尤度、授業・講義・講演等の映像データに関連するテキスト情報から設定されるテキスト範囲とを用いて、所定数の音声認識候補から構成される単語群とテキスト範囲とを対応づけ、各テキスト範囲に対応する映像箇所を抽出する。

本発明により、映像に対して関連するテキストが存在する場合に、音声情報をもとに授業、講義、講演のアーカイブデータに対して簡便かつ精度良いタグを付与することが可能となり、テキスト中の単語や各章や単元に対応する映像箇所を精度良く抽出することができる。また、ユーザは、長時間に渡る映像データ或いは複数の映像データから所望の映像箇所を簡便に取得できる。

本発明を実施するための一形態である情報認識システムを図１に示す。実施形態の一つとして示すシステムは、音声やテキストなど複数のメディアを統合利用するシステムであり、ネットワーク環境におけるサーバクライアント環境を対象としたシステムである。

本システムは、ある群（例えば章、単元など）ごとに授業用テキストを構造化し、かつ時系列で授業中に出力された音声データ、書画データを音声認識、文字認識する。そのテキストデータ及び各認識データに基づいて各章に存在する単語を推定することにより認識精度を高め、精度よいタグを付与することを可能とする。これにより、ユーザが所望とする映像箇所を検索できる点を特徴としている。

本システムは以下の構成を有する。学習関連情報蓄積サーバ１０１は、授業時の映像、音声、電子白板情報等を蓄積し、授業の様子を撮影する授業映像撮像カメラ１０１１、教師が授業中に書き込んだ内容を電子データとして取得する電子白板１０１２が接続されている。教育情報制御サーバ１０２は、授業映像コンテンツを分析し、タグ付与を行う。ユーザ用端末１０３は、ユーザが情報入力・閲覧用に用いる。

学習関連情報蓄積サーバ１０１、教育情報制御サーバ１０２、ユーザ用端末１０３は、それぞれネットワーク１（例えば、インターネット）を介して接続されている。なお、本例においては、ネットワーク１に対してユーザ用端末を１台接続している例を示すが、さらに複数台が接続される場合もある。

次に、学習関連情報蓄積サーバ１０１の構成の一例に関して、図２を用いて説明する。
ＣＰＵ１０１０１は、起動したプログラムに応じて処理を行う。

プログラム格納メモリ１０１０２は、サーバの起動とともに、システムプログラム１０１０２０１、映像蓄積プログラム１０１０２０２、テキスト蓄積プログラム１０１０２０３、音声蓄積プログラム１０１０２０４、電子白板データ蓄積プログラム１０１０２０５を読み込んで格納する。

ハードディスク１０１０３は、プログラムやデータ等を記憶して格納する。具体的には、映像蓄積プログラム１０１０２０２によって蓄積された授業映像データ１０１０３０１、テキスト蓄積プログラム１０１０２０３によって蓄積された授業テキストデータ１０１０３０２、音声蓄積プログラム１０１０２０４によって蓄積された音声データ１０１０３０３、及び、電子白板１０１２に書き込まれ、電子白板データ蓄積プログラム１０１０２０５によって蓄積された電子白板書き込みデータ１０１０３０４をそれぞれ格納する。

次に、教育情報管理サーバ１０２の構成の一例に関して、図３を用いて説明する。
ＣＰＵ１０２１は、起動したプログラムに応じて処理を行う。

プログラム格納メモリ１０２２は、サーバの起動とともに、システムプログラム１０２２０１、データ送受信プログラム１０２２０２、映像対応タグ生成・付与プログラム１０２２０３、音声認識プログラム１０２２０４、白板認識プログラム１０２２０５、テキスト処理プログラム１０２２０６、関連情報利用統合認識プログラム１０２２０７を読み込んで格納する。

ハードディスク１０２３は、プログラムやデータ等を記憶し格納する。ハードディスク１０２３に保持されているデータは、必要に応じてプログラム格納メモリ１０２２上に読み込まれ、ＣＰＵ１０２１によって処理がなされる。具体的には、単語辞書１０２３０１、各種データ認識用辞書１０２３０２、上記認識プログラムから出力された認識結果データ１０２３０３を格納する。

次に、ユーザ用端末１０３の構成の一例に関して、図４を用いて説明する。
ＣＰＵ１０３０１は、起動したプログラムに応じて処理を行う。

プログラム格納メモリ１０３０２は、端末の起動とともに、システムプログラム１０３０２０１、データ送受信制御プログラム１０３０２０２、解析用情報入力プログラム１０３０２０３、解析結果閲覧プログラム１０３０２０４を読み込んで格納する。

ハードディスク１０３０３は、プログラムやデータ等を格納する。ハードディスク１０３０３に保持されているデータは、必要に応じてプログラム格納メモリ１０３０２上に読み込まれ、ＣＰＵ１０３０１によって処理がなされる。ハードディスク１０３０３には、解析用情報入力プログラム１０３０２０３によって入力された入力情報及び教育情報制御サーバ１０２から送信されたコンテンツ認識結果データ１０３０３０１を格納する。入力部１０３０４は、キーボード、マウスなどのユーザ入力手段である。

次に、図７を用いて学習関連情報蓄積サーバにおける、データ蓄積の処理に関して説明する。まず、同サーバ１０１を起動する（７００１）。さらに同サーバに接続しているカメラ１０１１及び電子白板１０１２を起動する（７００２）。カメラ１０１１の録画ボタンをＯＮにする（７００３）。さらに各データ蓄積プログラムを起動する（７００４）。この時点で授業映像の撮像が開始され、映像データの撮像と同期して音声・音響を録音する。この時、授業映像データについては、撮像開始時刻及び終了時刻がスタンプされ（７００５）、音声・音響データについても同様に音声録音開始時刻及び終了時刻がスタンプされる（７００６）。電子白板に書き込まれた点列データについては、例えば、電子白板上の座標を電子白板付属のデジタルペンを用いて取得し、デジタルペンが通過した時刻が座標値データのサブデータとしてスタンプされる（７００７）。授業が終了した時点で録画ボタン及び電子白板をOFFにすると（７００８）、該サーバに送信されていたデータは授業映像データセット、音声・音響データセット、電子白板書込みデータセットとして学習関連情報蓄積サーバに格納される。格納された各データセットはデータセットファイルとして格納され（７００９）、データ蓄積処理は終了する（７０１０）。

次に、図５、図８及び図９を用いて、ユーザ用端末１０３においてデータ解析を開始するときのユーザの情報入力に関する処理について説明する。

ユーザがユーザ用端末１０３を起動し（８００１）、解析用情報入力プログラム１０３０２０３を立ち上げると（８００２）、図５に示すような画面５０１が表示される。同画面はユーザがコンテンツ解析か解析結果閲覧を行うかを選択する画面である。ユーザが「コンテンツ解析」ボタン５０３を選択すると（８００３）、次画面５０２に遷移し、映像コンテンツ選択ボタン５０５が表示される（９００１）。

映像コンテンツ選択ボタン５０５を押すと、例えば映像選択メニュー５０６が表示される（９００２）。映像選択メニューに記載されている内容は映像のコンテンツ名であり、例えばＡ先生のＸ授業など、映像に題名付けしたものである。ユーザはそこから閲覧したい映像コンテンツを選択する（９００３）。映像コンテンツは、この場合、映像コンテンツを単数選択しても複数選択してもよい。複数選択することにより、例えば、Ａ先生の授業が２日にまたがった場合等、複数の授業コンテンツ群からユーザが所望とする箇所を発見することが可能となる。この場合、後述する処理を同期して行うことにより、映像コンテンツを単数選択した場合と同様に処理可能である。

さらに、映像コンテンツと対応付いている電子化された授業教科書等の授業用テキストを選択するため、「授業用テキスト選択」ボタン５０７を押す。同ボタンを押すと、授業用テキスト選択メニュー５０８が表示され、同メニューから該当するテキストを選択する（９００４）。授業用テキスト選択メニューに表示される内容はテキスト名であり、前述の映像コンテンツと同様、Ａ先生のＸ授業などと表示される。また、テキストは複数指定することが可能であり、複数指定することによりユーザは必要な箇所を１度に抽出することができる。この場合、複数の授業用テキストを同列に扱い、複数のテキストをマージして、単数のテキストとして扱う。

さらに、「解析開始」ボタン５０９を押すと（９００５）、解析処理開始を示す解析開始指示トリガデータ、選択した映像コンテンツ名、選択した授業用テキストの名前が教育情報制御サーバ１０２に送信される（９００６）。別の方法として、ユーザ用端末からASPを用いて蓄積用サーバにURL経由にて立ち上がっているホームページ等にアクセスし、同ページに上記画面が表示される構成でもよい。

次に、図１０を用いて、教育情報制御サーバにおけるデータ解析処理に関して説明する。まず教育情報制御サーバ１０２を起動する（１０００１）。さらに、映像対応タグ生成・付与プログラム１０２２０３を起動する（１０００２）。本サーバの起動及びプログラムの起動は、ユーザ用端末１０３を立ち上げる前に行なわれているものとする。

同プログラムを起動し、学習関連情報蓄積サーバやユーザ用端末からの送信を待機する。ユーザ用端末１０３から、解析対象を指定するデータとして、前述した解析開始指示トリガデータ、選択した映像コンテンツ名と同コンテンツが格納されているフォルダ等で示される格納位置・選択した授業用テキストの名前・及び同テキストが格納されているフォルダ等で示される格納位置を受信する（１０００３）。

一方、学習関連情報蓄積サーバ１０１から送信された映像データは該制御サーバでA/D変換され、撮像時刻を付加した映像フレームデータとしてフレームデータ格納領域に格納される（１０００４）。さらに音声・音響データも同様にA/D変換され、音声立ち上がり時刻及び立下り時刻を付加したデータとして音声データ格納領域に格納される（１０００５）。

ユーザ用端末から受信した解析開始トリガデータにより、音声認識プログラム１０２２０４、白板認識プログラム１０２２０５、テキスト処理プログラム１０２２０６、関連情報利用統合認識プログラム１０２２０７を起動する（１０００６）。

次に、図１１を用いてテキスト処理プログラムによる授業用テキストの解析処理について説明する。この解析処理は、電子化されたテキストデータ中の単語フォーマット及び項目を示す表記の情報を用いて、テキストデータを群に分割し、テキスト範囲を設定するものである。以下具体的な処理について説明する。

まず、テキスト処理プログラムのサブプログラムである形態素解析プログラムを用いてテキスト情報を分割し、単語データを抽出する（１１００１）。

さらにテキスト処理プログラムのサブプログラムである単語フォーマット認識プログラムによって単語のフォント仕様として、例えば、フォント、スタイル、サイズをテキスト情報から抽出し、各単語に対して上記フォント仕様情報を付与する。付与されるフォント仕様情報とは、例えば、単語Aの表記、品詞、原型、テキストにおける単語の出現位置、単語出現順序、出現位置が行の発端、中間、終端であるかといった位置情報、フォント、スタイル、サイズであり、これらをテキスト抽出単語特徴データとして格納する（１１００２）。

さらに、テキスト処理プログラムのサブプログラムであるテキストフォーマット認識プログラムによってテキストフォーマットを認識する。具体的には、各単語の特徴データのうち、フォント、スタイル、サイズを単語の出現順に並べ、その連続度を算出する（１１００３）。ここで連続度とはフォント、スタイル及びサイズが同一である単語が何回連続して出現しているかを示すものである。連続度が２以上である場合、その連続する単語の集合を単語列とし、単語列が同一行中に連続して出現している場合には、それらを同一単語フォーマット連続単語列として登録する（１１００４）。ここで、単語列となる連続度の閾値は、ユーザが自由に設定することができる。

さらに、行単位で同一単語フォーマット連続単語列が存在する場合、連続単語列の単語フォーマットについて行間で比較し、所定の値（例えば９０％）以上同一であれば、連続単語列が存在する行の発端が章の発端を示すとみなす。章の発端とみなす基準となる該所定の値は、ユーザにより自由に設定可能である。これにより、ユーザはテキストデータをどこまで詳細に構造化するかを自由に設定することができる。

さらに、同連続単語列の表記、フォーマットデータ及び同連続単語列のテキスト初端行を単語フォーマットによる章表現データ候補として登録する（１１００５）。例えば、context[ p ][ s ][ t ][ v ](p=0:単語フォーマットによる判別の場合、s=同一フォーマットの種類組み合わせ数、t=同一フォーマット数、v=0)＝行番号に格納する。

次に、テキストフォーマット認識用辞書を用い、定型・準定型の章題を抽出する（１１００６）。テキストフォーマット認識用辞書には括弧付き数値、例えば(1)、＜１＞、括弧付き英文字(a)、[a]等といった章の発端を示す可能性のある文字列パタンが格納されている。また、括弧の種類と括弧内の数値或いはアルファベット等は、例えば、()、「」、[]、<>、といった括弧の種類と”１”、”２”、”３”、”４”・・・、或いは”ａ”、”ｂ”、”ｃ”、”ｄ”・・・、といった括弧内順序尺度のある文字順を組み合わせる形で記載されている。

各括弧に対しては順序情報が付与されている。例えば、[]について、[1]は、[]における項目数値番号1、[a]は、[]における項目アルファベット小文字番号1といったような順序情報が付与されている。各括弧と項目との組み合わせを括弧セットとする。同文字列とテキストデータを対応付け、マッチングが取れた文字列のテキスト中における位置を特定する。

テキスト全文に対して対応付けが終了した後、括弧セットがテキスト中で抽出された行番号をｎ［ｉ＝ｒ］＝ｒ（ｉ＝０〜ｍ：出現回数・順序）とする。例えば、ある種類の括弧セットがテキストの最初に抽出された場合、同セットの行番号をｎ［ｉ＝０］＝０とする。また、同種類の括弧セットが複数抽出された場合、複数の括弧セット間の行間隔が所定の値以上であれば、同括弧セットを章表現データ候補として登録する。この所定の値は任意に設定可能である。

また、順序情報の種類において、順序データが初期値になった場合には、別セットとして処理する。同表現データは、例えば、context[ p ][ s ][ t ][ v ](p=1:テキストフォーマット認識用辞書中の単語とマッチした場合、s=括弧セットの種類、t=同一括弧セット数、v=1-q(順序情報の種類))＝行番号に格納する。

次に、context[ p ][ s ][ t ][ v ]について、各々の括弧セット、単語フォーマットの包含関係を抽出する（１１００７）。

包含関係は、同一括弧セットの順序データがそれ以外の章表現データを挟んだ場合には、該同一括弧セットがはさんだ章表現データを包含していると判断する。また、同一の単語フォーマットデータが同一括弧セット群の初端から終端を挟んでいる場合には、同単語フォーマットデータが同一括弧セット群を包含していると判断する。ここで、同一括弧セット群でその他の同一括弧セット群及び単語フォーマット群を包含する括弧セットが抽出される場合もある。ただし、上記方法で得られた包含関係を用いて授業内容を認識するが、包含関係のうちどのフォーマット単位を授業内容認識における単位とするかはユーザが選択可能である（１１００８）。

このように包含関係を抽出することにより、例えば第１章に第１単元、第２単元が存在するといったテキストの階層構造を認識することができ、テキスト範囲を的確に設定することが可能となる。

次に、上記テキスト処理によって抽出された章を単位として認識を行うために章単位で単語抽出を行い、授業用テキスト用辞書を生成する。

まず、前記テキスト処理によって抽出された章データをt_themeとする。t_themeには、章を示す特徴量、例えば、フォント仕様、括弧セットの有無、及び章が出現するテキスト行番号をサブデータとして登録する（１１００９）。

次に、テキスト処理プログラムのサブプログラムである章単位単語抽出プログラムにより、章単位で単語群を生成する。ここでは各単語群中の単語を、章を示す行の出現順に単語群として生成し、章単位単語データ：t_word[p][q][t][v](p=章出現順番号、q=章単位に出現する単語数、t=単語形態素特徴量の種類、v＝各形態素表記内容)に格納する。処理においては、各章の行番号を用いて章の初端を抽出し、章の初端行から終端行までに含まれている単語をテキスト抽出単語特徴データから抽出し、t_wordに格納し、これを授業用テキスト辞書とする（１１０１０）。

次に、授業用テキスト辞書を用いて音声認識プログラムによって格納されている音声データをテキストデータに変換する方法について図１２を用いて説明する。

音声認識用一般単語辞書及び授業用テキスト辞書の両辞書、或いは一方の辞書のみとの対応付けにより、章単位における尤度の高い単語候補を抽出する（１２００１）。両者を用いるか何れか一方の辞書のみを用いるかは選択可能とする。授業用テキストには授業に関連した専門用語が含まれているため、発声内容と一致する確率が高く、音声認識用一般単語辞書のみを用いる場合と比較して認識精度を上げることができる。音声データはA/D変換され、さらに音声認識プログラムによって認識を行う。音声認識方法は、例えばワードスポット方式とし、単語候補を抽出する。

音声データから抽出された単語候補は、音声認識単語候補sp_word[a][b][c][d](a=全単語切り出し数、b=認識内容候補数、c=形態素特徴量種類数、d=形態素特徴量テキストデータ)=単語に格納される。なお、形態素特徴量のひとつとして、各単語の音声立ち上がり時刻と立下り時刻をタイムスタンプとして格納し、かつ各切り出し単語の順序情報及び単語認識尤度データを特徴量データとして格納する（１２００３）。

また、白板認識プログラムにより白板に書かれたテキスト情報を抽出する方法について、図１２を用いて説明する。
まず、認識用文字表示パタン単語辞書を用い、格納された点列データ群との対応付けによりテキスト抽出を行う。この結果、複数の単語候補が尤度順に抽出される（１２００２）。

また、各単語候補に関しては、同単語が記述された時刻を付加することにより、タイムスタンプ付き白板テキストデータとして白板認識単語候補：write_word[d][e][f][g]（d=切り出し単語数、e=切り出し単位単語認識候補数、f=形態素特徴量種類数、g=形態素特徴量テキストデータ）=単語に格納する。形態素特徴量には、各単語の書画初端時刻と書画終了時刻をタイムスタンプとして格納し、かつ各切り出し単語の順序情報及び単語認識尤度データを特徴量データとして格納する（１２００３）。

これらのテキスト処理プログラム、音声及び白板認識プログラムは順不同であり、並行処理されても逐次処理されても良い。

最終的に、関連情報利用統合認識プログラムにより、授業用テキスト辞書：t_word[p][q][t][v]、音声認識単語候補：sp_word[a][b][c][d]、白板認識単語候補：write_word[d][e][f][g]を用いて映像箇所に対するタグ付与を行う。

まず、音声認識単語候補と授業用テキスト辞書を用いる処理について図１３を用いて説明する。sp_word[1]における尤度順の単語に関し、t_wordに格納されている各章中の単語群との対応付けを行う。具体的には、例えば、sp_word[1]の尤度３位までの単語候補に対してt_wordの対応付けを行い（１３００１）、各尤度順位における単語とマッチングされたt_word単語を含む章番号とを対応章番号としてメモリ上に記憶しておく（１３００２）。

t_wordと対応づけを行うsp_word[1]の単語候補数すなわち尤度何位まで選択するかはユーザにより自由に設定可能である。これにより、処理速度と精度を自由に変更でき、ユーザの利便性は向上する。

次に、各sp_wordの認識候補の尤度から対応付けられた章番号の妥当性を推定する（１３００３）。具体的には、例えば、各sp_wordの認識候補に対して付与されている尤度を、対応付けられた章番号の妥当率（以下章番号妥当率）とする。ここで、sp_word[1]に対応する単語が複数章に渡って存在する場合には、複数章が対応することを示すために、単語候補に対して複数の章番号を記憶しておく。

次に、時系列に格納されているsp_word順に対応付けられた章番号について、類似状況を抽出する。具体的には、単語数が予め定められた単語群において、各sp_wordにおける章番号の連続性を抽出し（１３００４）、ある章番号が多く出現する場合には、その単語群を同章が示している映像箇所と判断する（１３００５）。

以下、単語群と章番号との対応づける処理の詳細について説明する。

まず、音声認識単語候補sp_word[ 0 ]からsp_word[ｎ]までのｎ＋１単語を単語群とし、各単語候補の章番号妥当率を章番号ごとに加算する。単語群を構成する単語の数は自由に設定可能である。また、章番号妥当率は積算してもよい。さらに、ある認識単語候補に複数の章番号が対応づいている場合には、各章番号に重み付けを行う。例えば、章番号が２個記憶されている場合には対応する認識単語候補の尤度の５０％を各章の妥当率とし、４個記憶されている場合には各章の妥当率を２５％とするように、平均的に重み付けを行う。

そして、章番号妥当率の総和が最も大きい章を、同単語群を代表する章とみなす。または、ある章の妥当率総和が所定の割合以上であった場合に、その章を、同単語群を代表する章とみなすように閾値を設けてもよい。その場合、所定の割合未満であった場合には代表する章確定を行わず、授業映像との対応づけを行わないことにする。

同様にして、sp_word[ 1 ]からsp_word[ｎ+１]、その次はsp_word[２]からsp_word[ ｎ+２ ]というように初端の単語候補をひとつずつインクリメントし、すべての単語群に対して対応する代表章番号を確定する。

ここで既に処理が終了した結果を用いて対応付けを行ってもよい。例えば、sp_word[０]からsp_word[ ｎ ]までの単語群がある章pに対応づいている場合に、sp_word[１]からsp_word[ ｎ+１ ]までの単語群の、章pに対する章番号妥当率を相対的に高くする。同様にsp_word[ ｍ ]からsp_word[ ｍ+ｎ ]の単語群に章番号を対応づける場合、それ以前のｍ回の対応付け結果に基づいて重み付けを行う。この場合、近い距離にある単語群の処理結果である章番号ほど、妥当率を相対的に高くしてもよい。このように、時間的に近い距離にある単語群と章番号との対応付けを考慮することにより、より精度の高い結果を得ることができる。

最後に、隣り合った単語群が同一の代表章番号であった場合には、これらの単語群を、該章を示す単語群であるとみなして、章対応単語群セットとして格納する（１３００６）。同単語群セットに含まれる複数単語群中で、最も出現時刻が早い単語群の先頭単語出現時刻を再生時刻データとして登録しておく。

以上、音声認識単語候補の単語群と章番号を対応づける処理を説明したが、その単語群を構成する単語候補は、単語群に対応づけられた章番号の授業用テキストに存在する単語を選択することにより確定できる。

また、単語群に対応づけられた章番号の授業用テキストに音声認識候補と一致する単語が存在せず、異なる章番号の授業用テキストに一致する単語が存在する場合は、その単語を認識結果としてもよい。

このように授業用テキストの情報を用いることにより、音声認識情報のみ用いる場合に比べて、単語の認識精度を上げることができ、ユーザの検索キーとなる単語を正確に抽出することができる。

さらに、音声認識候補が授業用テキストの単語と一致しない場合は、尤度１位の単語を選択することにより確定してもよい。もちろん、授業用テキストを用いずに尤度１位の単語を選択することも可能である。

一方、音声認識単語候補と白板認識単語候補を用いる処理について図１４を用いて説明する。

音声認識単語候補：sp_wordと白板認識単語候補write_wordを用いて認識単語を判断する際には、音声認識単語候補の尤度と白板認識単語候補の尤度、音声認識候補と文字認識候補の類似度および両単語候補が入力される時間的距離を用いて、認識結果を出力する。ここで時間的距離とは単語が入力される時間の差であり、時間的距離が大きいほど両認識候補の類似度を小さくし、時間的距離が小さいほど類似度を大きくするように重み付けを行う。この重み付けは、発声時間と白板に書く時間が近い程、その内容の類似度が大きいことを考慮したものである。

具体的には、所定の時間幅（例えば３０秒）にある音声認識単語候補と白板認識単語候補を抽出し（１４００１）、第１位の尤度をもつ単語候補が一致した場合は、その単語候補を認識結果とする（１４００２）。一致しない場合は、所定の時間内にある単語候補間で、両尤度、両候補の類似度、時間的距離を用いて一致度を算出し（１４００３）、一致度が最も大きい単語候補を認識結果とする（１４００４）。このように時間的距離を用いることにより、認識精度を高めることができる。

ここで、認識を確実にするために閾値を設けてもよい。例えば、各単語候補の第１位の尤度が閾値を超えない場合は認識結果を出力しないようにする。また、尤度、類似度及び時間的距離を用いて算出した一致度に閾値を設けることも可能である。

前述した授業テキストデータと音声データとを用いた単語認識と、音声データと文字認識データとを用いた単語認識は独立であっても連動していてもよい。すなわち、授業テキストデータと音声データとを用いた単語群中の単語を確定するとき、文字認識データを用いて単語を確定してもよい。それにより、単語認識の精度をさらに高めることが可能となる。

本実施例では、これらの解析結果に基づいて、音声認識される単語が入力された時間情報と授業映像の時間情報に基づいて、単語、単語群及び章番号が授業映像と対応づけることが可能となる。

最後に、図５、図６、図８、図１５及び図１６を用いて、ユーザ用端末１０３においてデータ閲覧を行う場合の処理について説明する。ユーザは、以下のような簡便な操作で、章番号もしくは単語から所望とする授業映像箇所を瞬時に検索し、閲覧することができる。

ユーザが解析結果閲覧ボタン５０４を選択すると（８００４）、閲覧プログラムが起動され（１５００１、１６００１）、映像コンテンツ選択ボタン５０５が表示される。映像コンテンツ選択ボタンを押すと、映像選択メニュー５０６が表示される（１５００２、１６００２）。

以下、単語単位で映像箇所を表示する場合と、章単位で表示する場合について説明する。単語単位で映像箇所を表示する場合、同メニューから映像コンテンツを選択すると、例
えば図６Ａに示すように、選択された映像コンテンツを解析処理した結果得られた単語がメニュー形式６０１で表示される（１５００３）。

ユーザはメニューから単数或いは複数の単語を選択する（１５００４）。選択された単語と対応づけられる映像箇所が検索され、検索された映像箇所が単語出現位置表示領域６０２に明示して表示される（１５００５）。この単語出現位置表示領域は、映像を所定の時間ごとに区切ったものであり、各領域ごとに最も時刻が早いフレーム画像が表示される。

また、図６Ａに示すようにユーザが単語を複数選択し、領域によって対応づけられる単語数が異なる場合は、単語が単数対応付けられた場合と複数対応付けられた場合により表示枠の色、或いは模様を変える。これによりユーザは、指定した単語に対応する複数の映像箇所を対応する単語数により比較閲覧することができ、所望とする映像箇所を検索しやすくなる。例えば、単語が複数対応づけられた映像箇所を所望とする映像箇所として決定することができる。

さらに、単語が出現する時間帯を表す表示枠を押すと、同箇所から映像が再生され映像表示領域６０３に表示される（１５００６）。また、選択した単語のテキスト中の表示位置を示すために、授業テキスト表示領域６０４に表示されている同単語の表記場所の色を変化させる、或いは単語表記に枠付けをするといった方法により表示する（１５００７）。

これにより、ユーザは所望とする映像箇所をピンポイントで検索することが可能となる。また、選択した単語が出現するテキストの位置を確認することができ、ユーザにとって使い勝手のよい情報を提供することが可能となる。

最後に、章単位で映像を表示する場合について説明する。
ユーザが映像選択メニュー５０６から映像コンテンツを選択すると、図６Ｂに示すように、章単位映像箇所選択メニュー・ボタン領域６０５に、例えば、映像コンテンツを解析した結果得られた各章内容、各章に対応する映像箇所を示すボタンが表示される。

同ボタンを押すと（１６００３）、映像表示領域６０６に同ボタンイベントに対応づけられている映像が表示される（１６００４）。ボタンイベントが発生すると、例えば、章対応単語群セット中に格納されている最も出現時刻が早い単語群の先頭単語出現時刻から映像を再生する。

また、ユーザ用端末においてこれらの情報を表示する処理は、映像コンテンツの解析結果に基づいて、教育情報制御サーバ、ユーザ用端末どちらでも行うことができる。

なお、本実施形態における処理フローはプログラムとして構成し、コンピュータでプログラムを読み取ることで実行することができる。

以上、本発明の例を説明したが、本発明は上記実施例に限定されるものではなく種々変形実施可能であり、上述した各実施例を適宜組み合わせることが可能であることは当業者に理解されよう。

本発明の実施形態のシステム構成を示すブロック図の一例学習情報蓄積サーバの構成を示すブロック図の一例教育情報制御サーバの構成を示すブロック図の一例ユーザ用端末の構成を示すブロック図の一例ユーザ用端末の入力画面の一例ユーザ用端末の入力画面の一例学習情報蓄積サーバにおける処理フローの一例ユーザ用端末における処理フローの一例ユーザ用端末における処理フローの一例教育情報制御サーバの処理フローの一例テキスト処理プログラムによる授業用テキスト生成のフローの一例音声認識及び白板認識プログラムによる単語候補抽出のフローの一例関連情報利用統合認識プログラムによる単語群と章番号の対応づけのフローの一例関連情報利用統合認識プログラムによるタグ付与のフローの一例ユーザ用端末の処理フローの一例ユーザ用端末の処理フローの一例

符号の説明

１：ネットワーク、１０１：学習関連情報蓄積サーバ、１０２：教育情報制御サーバ、
１０３：ユーザ用端末。

Claims

入力される音声情報を認識し、１つまたは複数の音声認識候補とその音声認識についての第１の尤度を算出する音声認識部と、
入力されるテキストデータにテキスト範囲を設定するテキストデータ認識部と、
所定数の上記音声認識候補を単語群とし、該単語群を構成する音声認識候補の上記第１の尤度及び上記設定されたテキスト範囲に含まれる単語を用いて、該単語群と上記テキスト範囲の何れかとを対応づける情報認識部とを有することを特徴とする情報認識装置。
上記情報認識部は、上記単語群を構成する音声認識候補と上記テキストデータの単語とを対応づけ、上記テキスト範囲ごとに該テキスト範囲に属する上記単語に対応づけられた音声認識候補の音声認識についての尤度の総和を求め、該総和が最も大きいテキスト範囲を上記単語群と対応づけることを特徴とする請求項１に記載の情報認識装置。
上記情報認識部は、音声認識された順に１単語ずつずらすことにより順次所定数の単語群を形成し、過去の単語群とテキスト範囲との対応づけの結果を用いて、該形成された単語群と上記テキスト範囲との対応づけを行うことを特徴とする請求項１または２に記載の情報認識装置。
上記テキストデータ認識部は、上記テキストデータから単語を抽出し、該抽出された単語のフォーマット及び項目を示す表記の情報を用いて、上記テキストデータを群に分割し上記テキスト範囲を設定することを特徴とする請求項１乃至３の何れかに記載の情報認識装置。
上記情報認識部は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致する場合、該単語を認識結果とすることを特徴とする請求項１乃至４の何れかに記載の情報認識装置。
上記情報認識部は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致せず、該テキスト範囲とは異なるテキスト範囲に含まれる単語と一致する場合、該一致する単語を認識結果とすることを特徴とする請求項１乃至４の何れかに記載の情報認識装置。
上記情報認識部は、上記音声認識候補が上記テキストデータの単語と一致しない場合、上記第１の尤度が１位の音声認識候補を認識結果とすることを特徴とする請求項１乃至４の何れかに記載の情報認識装置。
上記音声認識候補が入力された第1の時刻を抽出する音声時刻抽出部と
入力される文字情報を認識し、１つまたは複数の文字認識候補とその文字認識についての第２の尤度を算出する文字認識部と、
上記文字認識候補が入力された第2の時刻を抽出する文字時刻抽出部とをさらに有し、
上記情報認識部は、上記第1の尤度、上記第2の尤度、上記音声認識候補と上記文字認識候補との類似度、第１の時刻と第2の時刻との時間的距離、を用いて認識結果を決定することを特徴とする請求項１乃至７の何れかに記載の情報認識装置。
音声認識部とテキストデータ認識部と情報認識部とを有する情報認識装置において情報認識方法を実行させる情報認識プログラムであって、
上記情報認識方法は、入力される音声情報を認識し１つまたは複数の音声認識候補とその音声認識についての第１の尤度を算出し、入力されるテキストデータにテキスト範囲を設定し、所定数の上記音声認識候補を単語群とし、該単語群を構成する音声認識候補の上記第１の尤度及び上記設定されたテキスト範囲に含まれる単語を用いて該単語群と上記テキスト範囲の何れかとを対応づけることを特徴とする情報認識プログラム。
上記情報認識方法は、上記単語群を構成する音声認識候補と上記テキストデータの単語とを対応づけ、該対応づけられた単語に上記音声認識候補の音声認識についての尤度を対応づけ、上記テキスト範囲ごとに該テキスト範囲に属する上記単語の尤度の総和を求め、該総和が最も大きいテキスト範囲を上記単語群と対応づけることを特徴とする請求項９に記載の情報認識プログラム。
上記情報認識方法は、上記音声認識候補を算出した順に１単語ずつずらすことにより順次所定数の単語群を形成し、過去の単語群とテキスト範囲との対応づけの結果を用いて、該形成された単語群と上記テキスト範囲との対応づけを行うことを特徴とする請求項９または１０に記載の情報認識プログラム。
上記情報認識方法は、上記テキストデータから単語を抽出し、該抽出された単語のフォーマット及び項目を示す表記の情報を用いて、上記テキストデータを群に分割し上記テキスト範囲を設定することを特徴とする請求項９乃至１１の何れかに記載の情報認識プログラム。
上記情報認識方法は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致する場合、該単語を認識結果とすることを特徴とする請求項９乃至１２の何れかに記載の情報認識プログラム。
上記情報認識方法は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致せず、該テキスト範囲とは異なるテキスト範囲に含まれる単語と一致する場合、該一致する単語を認識結果とすることを特徴とする請求項９乃至１２の何れかに記載の情報認識プログラム。
上記情報認識方法は、上記音声認識候補が上記テキスト範囲に含まれる単語と一致しない場合、上記第１の尤度が１位の音声認識候補を認識結果とすることを特徴とする請求項９乃至１２の何れかに記載の情報認識プログラム。
上記情報認識方法は、
上記音声認識候補が入力された第1の時刻を抽出し、
入力される文字情報を認識し１つまたは複数の文字認識候補とその文字認識についての第２の尤度を算出し上記文字認識候補が入力された第2の時刻を抽出し、
上記第1の尤度、上記第2の尤度、上記音声認識候補と上記文字認識候補との類似度、第１の時刻と第2の時刻との時間的距離、を用いて認識結果を決定することを特徴とする請求項９乃至１５の何れかに記載の情報認識プログラム。
上記情報認識装置は表示部に接続され、
上記情報認識方法は、上記音声認識される単語が入力された時間情報に基づいて該単語と映像とを対応づけ、上記単語を上記表示部に表示し、該表示された単語の何れかが指定されると該指定された単語に対応づけられた映像箇所を上記表示部に表示し、該表示された映像箇所が指定されると該指定された映像箇所から上記映像を再生し上記表示部に表示することを特徴とする請求項１３乃至１６の何れかに記載の情報認識プログラム。
上記情報認識方法は、上記映像箇所に対応づけられた単語数により、該映像箇所の表示を変えることを特徴とする請求項１７に記載の情報認識プログラム。
上記情報認識方法は、上記表示部に、上記指定された単語の上記テキスト範囲内での位置を明示し表示することを特徴とする請求項１７または１８に記載の情報認識プログラム。
上記情報認識方法は、上記時間情報に基づいて上記テキスト範囲と上記映像とを対応づけ、上記テキスト範囲を上記表示部に表示し、該表示されたテキスト範囲の何れかが指定されると該指定されたテキスト範囲に対応する上記映像を再生し上記表示部に表示することを特徴とする請求項１７乃至１９の何れかに記載の情報認識プログラム。