JP2007156286A - 情報認識装置及び情報認識プログラム - Google Patents

情報認識装置及び情報認識プログラム Download PDF

Info

Publication number
JP2007156286A
JP2007156286A JP2005354310A JP2005354310A JP2007156286A JP 2007156286 A JP2007156286 A JP 2007156286A JP 2005354310 A JP2005354310 A JP 2005354310A JP 2005354310 A JP2005354310 A JP 2005354310A JP 2007156286 A JP2007156286 A JP 2007156286A
Authority
JP
Japan
Prior art keywords
word
recognition
information
text
information recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005354310A
Other languages
English (en)
Other versions
JP4802689B2 (ja
Inventor
Haru Andou
ハル 安藤
Keiko Fujita
啓子 藤田
Taro Ishikawa
太郎 石川
Junko Yamagishi
純子 山岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005354310A priority Critical patent/JP4802689B2/ja
Publication of JP2007156286A publication Critical patent/JP2007156286A/ja
Application granted granted Critical
Publication of JP4802689B2 publication Critical patent/JP4802689B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】映像コンテンツを検索する際、音声から抽出された単語候補、デジタルボード等に入力された筆記情報から抽出された単語候補、筆記授業マテリアル等のテキスト中に出現する単語の出現位置・順序・頻度等を用いることにより、検索時に用いる映像箇所を示すタグの付与を正確に行い、ユーザにとって簡便に必要な映像箇所が検索できるようにする。
【解決手段】授業用マテリアルであるテキストから単語抽出を行い、抽出された単語の出現位置・順序・頻度、授業・講演と同時に収録される筆記情報等から抽出される単語情報と音声情報から抽出される単語情報の位置関係を用いて、映像箇所にタグを付与する装置であって、授業・講演との関連情報を用いて音声認識率を向上させ、付与するタグの精度を向上させる。
【選択図】図1

Description

本発明は、映像コンテンツの検索用として付与するタグの妥当性を向上させることを目的とした情報認識システムに関する。
昨今のブロードバンドネットワークの普及に伴い、映像メディアや映像コンテンツといった大容量のメディア・コンテンツが普及しつつある。例えば、教育分野における授業映像は、カメラの小型化やサーバの大容量化も影響しアーカイブ化が進んでいる。その結果、大量の授業映像コンテンツが蓄積され、その映像を用いるユーザの選択肢は広がっている。しかしながら、一方では選択肢が増加したことにより、ユーザが自分に必要な映像コンテンツそのもの、或いは映像コンテンツ内箇所を自ら選択することが必須になってきている。
ユーザが複数の映像コンテンツから必要な映像コンテンツを選択したり映像内から必要な箇所を検索したりする場合、コンテンツ自体或いはコンテンツ内の各箇所に対してタグを付与し、ユーザの検索キーとの対応付けを行う必要がある。
ユーザの検索キーは、現状テキストの場合が大半であり、これに対応してコンテンツに付与するタグはテキストベースであることが多い。映像コンテンツに対するタグ付与では、人間が同コンテンツを見て単語テキストを付与したり、既に映像コンテンツに付与されているタイトルをタグとして扱ったりする場合がある。
また、映像内の部分に対するタグ付与において、音声情報や文字情報、テキスト情報を用いる場合がある。音声情報とテキスト情報を用いたタグ付与方法として、例えば、トライグラム等nグラムを利用した統計的言語モデルを用いて、ある単語の生起尤度を算出し、その生起尤度と音声認識候補の尤度とを総合して認識候補を決定する方法がある(例えば、特許文献1参照)。また、音声情報と筆記情報を用いたタグ付与方法として、例えば各情報の認識候補の尤度を算出し、両尤度から求められる総合尤度に基づいて認識候補を決定する方法がある(例えば、特許文献2参照)。
特開平6−27985号公報
特開平8−83092号公報
特許文献1に開示されているように、トライグラム等nグラムを用いた統計的言語モデルは、出現順序を考慮しているが、対象単語からn個前までの出現単語から対象単語を推測するため、出現単語以降に出現すると予測される単語については考慮されていない。そのため、単語の出現順序の変化に柔軟でなく、認識率を向上させるには不十分である。
また、特許文献2の装置は、音声情報と筆記情報が同時に入力された場合にのみ両者の尤度を用いた判定を行う。しかし、例えば授業においては、講師が発話した後に同様の内容を筆記する場合、または講師が筆記をした後に同様の内容を発話する場合が通常である。そのため、同時に音声発話と筆記が行われる場合に限定すると、音声認識率を向上させる十分な機能を果たすことはできない。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記のとおりである。入力される音声情報の音声認識候補とその音声認識についての尤度、授業・講義・講演等の映像データに関連するテキスト情報から設定されるテキスト範囲とを用いて、所定数の音声認識候補から構成される単語群とテキスト範囲とを対応づけ、各テキスト範囲に対応する映像箇所を抽出する。
本発明により、映像に対して関連するテキストが存在する場合に、音声情報をもとに授業、講義、講演のアーカイブデータに対して簡便かつ精度良いタグを付与することが可能となり、テキスト中の単語や各章や単元に対応する映像箇所を精度良く抽出することができる。また、ユーザは、長時間に渡る映像データ或いは複数の映像データから所望の映像箇所を簡便に取得できる。
本発明を実施するための一形態である情報認識システムを図1に示す。実施形態の一つとして示すシステムは、音声やテキストなど複数のメディアを統合利用するシステムであり、ネットワーク環境におけるサーバクライアント環境を対象としたシステムである。
本システムは、ある群(例えば章、単元など)ごとに授業用テキストを構造化し、かつ時系列で授業中に出力された音声データ、書画データを音声認識、文字認識する。そのテキストデータ及び各認識データに基づいて各章に存在する単語を推定することにより認識精度を高め、精度よいタグを付与することを可能とする。これにより、ユーザが所望とする映像箇所を検索できる点を特徴としている。
本システムは以下の構成を有する。学習関連情報蓄積サーバ101は、授業時の映像、音声、電子白板情報等を蓄積し、授業の様子を撮影する授業映像撮像カメラ1011、教師が授業中に書き込んだ内容を電子データとして取得する電子白板1012が接続されている。教育情報制御サーバ102は、授業映像コンテンツを分析し、タグ付与を行う。ユーザ用端末103は、ユーザが情報入力・閲覧用に用いる。
学習関連情報蓄積サーバ101、教育情報制御サーバ102、ユーザ用端末103は、それぞれネットワーク1(例えば、インターネット)を介して接続されている。なお、本例においては、ネットワーク1に対してユーザ用端末を1台接続している例を示すが、さらに複数台が接続される場合もある。
次に、学習関連情報蓄積サーバ101の構成の一例に関して、図2を用いて説明する。
CPU10101は、起動したプログラムに応じて処理を行う。
プログラム格納メモリ10102は、サーバの起動とともに、システムプログラム1010201、映像蓄積プログラム1010202、テキスト蓄積プログラム1010203、音声蓄積プログラム1010204、電子白板データ蓄積プログラム1010205を読み込んで格納する。
ハードディスク10103は、プログラムやデータ等を記憶して格納する。具体的には、映像蓄積プログラム1010202によって蓄積された授業映像データ1010301、テキスト蓄積プログラム1010203によって蓄積された授業テキストデータ1010302、音声蓄積プログラム1010204によって蓄積された音声データ1010303、及び、電子白板1012に書き込まれ、電子白板データ蓄積プログラム1010205によって蓄積された電子白板書き込みデータ1010304をそれぞれ格納する。
次に、教育情報管理サーバ102の構成の一例に関して、図3を用いて説明する。
CPU1021は、起動したプログラムに応じて処理を行う。
プログラム格納メモリ1022は、サーバの起動とともに、システムプログラム102201、データ送受信プログラム102202、映像対応タグ生成・付与プログラム102203、音声認識プログラム102204、白板認識プログラム102205、テキスト処理プログラム102206、関連情報利用統合認識プログラム102207を読み込んで格納する。
ハードディスク1023は、プログラムやデータ等を記憶し格納する。ハードディスク1023に保持されているデータは、必要に応じてプログラム格納メモリ1022上に読み込まれ、CPU1021によって処理がなされる。具体的には、単語辞書102301、各種データ認識用辞書102302、上記認識プログラムから出力された認識結果データ102303を格納する。
次に、ユーザ用端末103の構成の一例に関して、図4を用いて説明する。
CPU10301は、起動したプログラムに応じて処理を行う。
プログラム格納メモリ10302は、端末の起動とともに、システムプログラム1030201、データ送受信制御プログラム1030202、解析用情報入力プログラム1030203、解析結果閲覧プログラム1030204を読み込んで格納する。
ハードディスク10303は、プログラムやデータ等を格納する。ハードディスク10303に保持されているデータは、必要に応じてプログラム格納メモリ10302上に読み込まれ、CPU10301によって処理がなされる。ハードディスク10303には、解析用情報入力プログラム1030203によって入力された入力情報及び教育情報制御サーバ102から送信されたコンテンツ認識結果データ1030301を格納する。入力部10304は、キーボード、マウスなどのユーザ入力手段である。
次に、図7を用いて学習関連情報蓄積サーバにおける、データ蓄積の処理に関して説明する。まず、同サーバ101を起動する(7001)。さらに同サーバに接続しているカメラ1011及び電子白板1012を起動する(7002)。カメラ1011の録画ボタンをONにする(7003)。さらに各データ蓄積プログラムを起動する(7004)。この時点で授業映像の撮像が開始され、映像データの撮像と同期して音声・音響を録音する。この時、授業映像データについては、撮像開始時刻及び終了時刻がスタンプされ(7005)、音声・音響データについても同様に音声録音開始時刻及び終了時刻がスタンプされる(7006)。電子白板に書き込まれた点列データについては、例えば、電子白板上の座標を電子白板付属のデジタルペンを用いて取得し、デジタルペンが通過した時刻が座標値データのサブデータとしてスタンプされる(7007)。授業が終了した時点で録画ボタン及び電子白板をOFFにすると(7008)、該サーバに送信されていたデータは授業映像データセット、音声・音響データセット、電子白板書込みデータセットとして学習関連情報蓄積サーバに格納される。格納された各データセットはデータセットファイルとして格納され(7009)、データ蓄積処理は終了する(7010)。
次に、図5、図8及び図9を用いて、ユーザ用端末103においてデータ解析を開始するときのユーザの情報入力に関する処理について説明する。
ユーザがユーザ用端末103を起動し(8001)、解析用情報入力プログラム1030203を立ち上げると(8002)、図5に示すような画面501が表示される。同画面はユーザがコンテンツ解析か解析結果閲覧を行うかを選択する画面である。ユーザが「コンテンツ解析」ボタン503を選択すると(8003)、次画面502に遷移し、映像コンテンツ選択ボタン505が表示される(9001)。
映像コンテンツ選択ボタン505を押すと、例えば映像選択メニュー506が表示される(9002)。映像選択メニューに記載されている内容は映像のコンテンツ名であり、例えばA先生のX授業など、映像に題名付けしたものである。ユーザはそこから閲覧したい映像コンテンツを選択する(9003)。映像コンテンツは、この場合、映像コンテンツを単数選択しても複数選択してもよい。複数選択することにより、例えば、A先生の授業が2日にまたがった場合等、複数の授業コンテンツ群からユーザが所望とする箇所を発見することが可能となる。この場合、後述する処理を同期して行うことにより、映像コンテンツを単数選択した場合と同様に処理可能である。
さらに、映像コンテンツと対応付いている電子化された授業教科書等の授業用テキストを選択するため、「授業用テキスト選択」ボタン507を押す。同ボタンを押すと、授業用テキスト選択メニュー508が表示され、同メニューから該当するテキストを選択する(9004)。授業用テキスト選択メニューに表示される内容はテキスト名であり、前述の映像コンテンツと同様、A先生のX授業などと表示される。また、テキストは複数指定することが可能であり、複数指定することによりユーザは必要な箇所を1度に抽出することができる。この場合、複数の授業用テキストを同列に扱い、複数のテキストをマージして、単数のテキストとして扱う。
さらに、「解析開始」ボタン509を押すと(9005)、解析処理開始を示す解析開始指示トリガデータ、選択した映像コンテンツ名、選択した授業用テキストの名前が教育情報制御サーバ102に送信される(9006)。別の方法として、ユーザ用端末からASPを用いて蓄積用サーバにURL経由にて立ち上がっているホームページ等にアクセスし、同ページに上記画面が表示される構成でもよい。
次に、図10を用いて、教育情報制御サーバにおけるデータ解析処理に関して説明する。まず教育情報制御サーバ102を起動する(10001)。さらに、映像対応タグ生成・付与プログラム102203を起動する(10002)。本サーバの起動及びプログラムの起動は、ユーザ用端末103を立ち上げる前に行なわれているものとする。
同プログラムを起動し、学習関連情報蓄積サーバやユーザ用端末からの送信を待機する。ユーザ用端末103から、解析対象を指定するデータとして、前述した解析開始指示トリガデータ、選択した映像コンテンツ名と同コンテンツが格納されているフォルダ等で示される格納位置・選択した授業用テキストの名前・及び同テキストが格納されているフォルダ等で示される格納位置を受信する(10003)。
一方、学習関連情報蓄積サーバ101から送信された映像データは該制御サーバでA/D変換され、撮像時刻を付加した映像フレームデータとしてフレームデータ格納領域に格納される(10004)。さらに音声・音響データも同様にA/D変換され、音声立ち上がり時刻及び立下り時刻を付加したデータとして音声データ格納領域に格納される(10005)。
ユーザ用端末から受信した解析開始トリガデータにより、音声認識プログラム102204、白板認識プログラム102205、テキスト処理プログラム102206、関連情報利用統合認識プログラム102207を起動する(10006)。
次に、図11を用いてテキスト処理プログラムによる授業用テキストの解析処理について説明する。この解析処理は、電子化されたテキストデータ中の単語フォーマット及び項目を示す表記の情報を用いて、テキストデータを群に分割し、テキスト範囲を設定するものである。以下具体的な処理について説明する。
まず、テキスト処理プログラムのサブプログラムである形態素解析プログラムを用いてテキスト情報を分割し、単語データを抽出する(11001)。
さらにテキスト処理プログラムのサブプログラムである単語フォーマット認識プログラムによって単語のフォント仕様として、例えば、フォント、スタイル、サイズをテキスト情報から抽出し、各単語に対して上記フォント仕様情報を付与する。付与されるフォント仕様情報とは、例えば、単語Aの表記、品詞、原型、テキストにおける単語の出現位置、単語出現順序、出現位置が行の発端、中間、終端であるかといった位置情報、フォント、スタイル、サイズであり、これらをテキスト抽出単語特徴データとして格納する(11002)。
さらに、テキスト処理プログラムのサブプログラムであるテキストフォーマット認識プログラムによってテキストフォーマットを認識する。具体的には、各単語の特徴データのうち、フォント、スタイル、サイズを単語の出現順に並べ、その連続度を算出する(11003)。ここで連続度とはフォント、スタイル及びサイズが同一である単語が何回連続して出現しているかを示すものである。連続度が2以上である場合、その連続する単語の集合を単語列とし、単語列が同一行中に連続して出現している場合には、それらを同一単語フォーマット連続単語列として登録する(11004)。ここで、単語列となる連続度の閾値は、ユーザが自由に設定することができる。
さらに、行単位で同一単語フォーマット連続単語列が存在する場合、連続単語列の単語フォーマットについて行間で比較し、所定の値(例えば90%)以上同一であれば、連続単語列が存在する行の発端が章の発端を示すとみなす。章の発端とみなす基準となる該所定の値は、ユーザにより自由に設定可能である。これにより、ユーザはテキストデータをどこまで詳細に構造化するかを自由に設定することができる。
さらに、同連続単語列の表記、フォーマットデータ及び同連続単語列のテキスト初端行を単語フォーマットによる章表現データ候補として登録する(11005)。例えば、context[ p ][ s ][ t ][ v ](p=0:単語フォーマットによる判別の場合、s=同一フォーマットの種類組み合わせ数、t=同一フォーマット数、v=0)=行番号に格納する。
次に、テキストフォーマット認識用辞書を用い、定型・準定型の章題を抽出する(11006)。テキストフォーマット認識用辞書には括弧付き数値、例えば(1)、<1>、括弧付き英文字(a)、[a]等といった章の発端を示す可能性のある文字列パタンが格納されている。また、括弧の種類と括弧内の数値或いはアルファベット等は、例えば、()、「」、[]、<>、といった括弧の種類と”1”、”2”、”3”、”4”・・・、或いは”a”、”b”、”c”、”d”・・・、といった括弧内順序尺度のある文字順を組み合わせる形で記載されている。
各括弧に対しては順序情報が付与されている。例えば、[]について、[1]は、[]における項目数値番号1、[a]は、[]における項目アルファベット小文字番号1といったような順序情報が付与されている。各括弧と項目との組み合わせを括弧セットとする。同文字列とテキストデータを対応付け、マッチングが取れた文字列のテキスト中における位置を特定する。
テキスト全文に対して対応付けが終了した後、括弧セットがテキスト中で抽出された行番号をn[i=r]=r(i=0〜m:出現回数・順序)とする。例えば、ある種類の括弧セットがテキストの最初に抽出された場合、同セットの行番号をn[i=0]=0とする。また、同種類の括弧セットが複数抽出された場合、複数の括弧セット間の行間隔が所定の値以上であれば、同括弧セットを章表現データ候補として登録する。この所定の値は任意に設定可能である。
また、順序情報の種類において、順序データが初期値になった場合には、別セットとして処理する。同表現データは、例えば、context[ p ][ s ][ t ][ v ](p=1:テキストフォーマット認識用辞書中の単語とマッチした場合、s=括弧セットの種類、t=同一括弧セット数、v=1-q(順序情報の種類))=行番号に格納する。
次に、context[ p ][ s ][ t ][ v ]について、各々の括弧セット、単語フォーマットの包含関係を抽出する(11007)。
包含関係は、同一括弧セットの順序データがそれ以外の章表現データを挟んだ場合には、該同一括弧セットがはさんだ章表現データを包含していると判断する。また、同一の単語フォーマットデータが同一括弧セット群の初端から終端を挟んでいる場合には、同単語フォーマットデータが同一括弧セット群を包含していると判断する。ここで、同一括弧セット群でその他の同一括弧セット群及び単語フォーマット群を包含する括弧セットが抽出される場合もある。ただし、上記方法で得られた包含関係を用いて授業内容を認識するが、包含関係のうちどのフォーマット単位を授業内容認識における単位とするかはユーザが選択可能である(11008)。
このように包含関係を抽出することにより、例えば第1章に第1単元、第2単元が存在するといったテキストの階層構造を認識することができ、テキスト範囲を的確に設定することが可能となる。
次に、上記テキスト処理によって抽出された章を単位として認識を行うために章単位で単語抽出を行い、授業用テキスト用辞書を生成する。
まず、前記テキスト処理によって抽出された章データをt_themeとする。t_themeには、章を示す特徴量、例えば、フォント仕様、括弧セットの有無、及び章が出現するテキスト行番号をサブデータとして登録する(11009)。
次に、テキスト処理プログラムのサブプログラムである章単位単語抽出プログラムにより、章単位で単語群を生成する。ここでは各単語群中の単語を、章を示す行の出現順に単語群として生成し、章単位単語データ:t_word[p][q][t][v](p=章出現順番号、q=章単位に出現する単語数、t=単語形態素特徴量の種類、v=各形態素表記内容)に格納する。処理においては、各章の行番号を用いて章の初端を抽出し、章の初端行から終端行までに含まれている単語をテキスト抽出単語特徴データから抽出し、t_wordに格納し、これを授業用テキスト辞書とする(11010)。
次に、授業用テキスト辞書を用いて音声認識プログラムによって格納されている音声データをテキストデータに変換する方法について図12を用いて説明する。
音声認識用一般単語辞書及び授業用テキスト辞書の両辞書、或いは一方の辞書のみとの対応付けにより、章単位における尤度の高い単語候補を抽出する(12001)。両者を用いるか何れか一方の辞書のみを用いるかは選択可能とする。授業用テキストには授業に関連した専門用語が含まれているため、発声内容と一致する確率が高く、音声認識用一般単語辞書のみを用いる場合と比較して認識精度を上げることができる。音声データはA/D変換され、さらに音声認識プログラムによって認識を行う。音声認識方法は、例えばワードスポット方式とし、単語候補を抽出する。
音声データから抽出された単語候補は、音声認識単語候補sp_word[a][b][c][d](a=全単語切り出し数、b=認識内容候補数、c=形態素特徴量種類数、d=形態素特徴量テキストデータ)=単語に格納される。なお、形態素特徴量のひとつとして、各単語の音声立ち上がり時刻と立下り時刻をタイムスタンプとして格納し、かつ各切り出し単語の順序情報及び単語認識尤度データを特徴量データとして格納する(12003)。
また、白板認識プログラムにより白板に書かれたテキスト情報を抽出する方法について、図12を用いて説明する。
まず、認識用文字表示パタン単語辞書を用い、格納された点列データ群との対応付けによりテキスト抽出を行う。この結果、複数の単語候補が尤度順に抽出される(12002)。
また、各単語候補に関しては、同単語が記述された時刻を付加することにより、タイムスタンプ付き白板テキストデータとして白板認識単語候補:write_word[d][e][f][g](d=切り出し単語数、e=切り出し単位単語認識候補数、f=形態素特徴量種類数、g=形態素特徴量テキストデータ)=単語に格納する。形態素特徴量には、各単語の書画初端時刻と書画終了時刻をタイムスタンプとして格納し、かつ各切り出し単語の順序情報及び単語認識尤度データを特徴量データとして格納する(12003)。
これらのテキスト処理プログラム、音声及び白板認識プログラムは順不同であり、並行処理されても逐次処理されても良い。
最終的に、関連情報利用統合認識プログラムにより、授業用テキスト辞書:t_word[p][q][t][v]、音声認識単語候補:sp_word[a][b][c][d]、白板認識単語候補:write_word[d][e][f][g]を用いて映像箇所に対するタグ付与を行う。
まず、音声認識単語候補と授業用テキスト辞書を用いる処理について図13を用いて説明する。sp_word[1]における尤度順の単語に関し、t_wordに格納されている各章中の単語群との対応付けを行う。具体的には、例えば、sp_word[1]の尤度3位までの単語候補に対してt_wordの対応付けを行い(13001)、各尤度順位における単語とマッチングされたt_word単語を含む章番号とを対応章番号としてメモリ上に記憶しておく(13002)。
t_wordと対応づけを行うsp_word[1]の単語候補数すなわち尤度何位まで選択するかはユーザにより自由に設定可能である。これにより、処理速度と精度を自由に変更でき、ユーザの利便性は向上する。
次に、各sp_wordの認識候補の尤度から対応付けられた章番号の妥当性を推定する(13003)。具体的には、例えば、各sp_wordの認識候補に対して付与されている尤度を、対応付けられた章番号の妥当率(以下章番号妥当率)とする。ここで、sp_word[1]に対応する単語が複数章に渡って存在する場合には、複数章が対応することを示すために、単語候補に対して複数の章番号を記憶しておく。
次に、時系列に格納されているsp_word順に対応付けられた章番号について、類似状況を抽出する。具体的には、単語数が予め定められた単語群において、各sp_wordにおける章番号の連続性を抽出し(13004)、ある章番号が多く出現する場合には、その単語群を同章が示している映像箇所と判断する(13005)。
以下、単語群と章番号との対応づける処理の詳細について説明する。
まず、音声認識単語候補sp_word[ 0 ]からsp_word[n]までのn+1単語を単語群とし、各単語候補の章番号妥当率を章番号ごとに加算する。単語群を構成する単語の数は自由に設定可能である。また、章番号妥当率は積算してもよい。さらに、ある認識単語候補に複数の章番号が対応づいている場合には、各章番号に重み付けを行う。例えば、章番号が2個記憶されている場合には対応する認識単語候補の尤度の50%を各章の妥当率とし、4個記憶されている場合には各章の妥当率を25%とするように、平均的に重み付けを行う。
そして、章番号妥当率の総和が最も大きい章を、同単語群を代表する章とみなす。または、ある章の妥当率総和が所定の割合以上であった場合に、その章を、同単語群を代表する章とみなすように閾値を設けてもよい。その場合、所定の割合未満であった場合には代表する章確定を行わず、授業映像との対応づけを行わないことにする。
同様にして、sp_word[ 1 ]からsp_word[n+1]、その次はsp_word[2]からsp_word[ n+2 ]というように初端の単語候補をひとつずつインクリメントし、すべての単語群に対して対応する代表章番号を確定する。
ここで既に処理が終了した結果を用いて対応付けを行ってもよい。例えば、sp_word[0]からsp_word[ n ]までの単語群がある章pに対応づいている場合に、sp_word[1]からsp_word[ n+1 ]までの単語群の、章pに対する章番号妥当率を相対的に高くする。同様にsp_word[ m ]からsp_word[ m+n ]の単語群に章番号を対応づける場合、それ以前のm回の対応付け結果に基づいて重み付けを行う。この場合、近い距離にある単語群の処理結果である章番号ほど、妥当率を相対的に高くしてもよい。このように、時間的に近い距離にある単語群と章番号との対応付けを考慮することにより、より精度の高い結果を得ることができる。
最後に、隣り合った単語群が同一の代表章番号であった場合には、これらの単語群を、該章を示す単語群であるとみなして、章対応単語群セットとして格納する(13006)。同単語群セットに含まれる複数単語群中で、最も出現時刻が早い単語群の先頭単語出現時刻を再生時刻データとして登録しておく。
以上、音声認識単語候補の単語群と章番号を対応づける処理を説明したが、その単語群を構成する単語候補は、単語群に対応づけられた章番号の授業用テキストに存在する単語を選択することにより確定できる。
また、単語群に対応づけられた章番号の授業用テキストに音声認識候補と一致する単語が存在せず、異なる章番号の授業用テキストに一致する単語が存在する場合は、その単語を認識結果としてもよい。
このように授業用テキストの情報を用いることにより、音声認識情報のみ用いる場合に比べて、単語の認識精度を上げることができ、ユーザの検索キーとなる単語を正確に抽出することができる。
さらに、音声認識候補が授業用テキストの単語と一致しない場合は、尤度1位の単語を選択することにより確定してもよい。もちろん、授業用テキストを用いずに尤度1位の単語を選択することも可能である。
一方、音声認識単語候補と白板認識単語候補を用いる処理について図14を用いて説明する。
音声認識単語候補:sp_wordと白板認識単語候補write_wordを用いて認識単語を判断する際には、音声認識単語候補の尤度と白板認識単語候補の尤度、音声認識候補と文字認識候補の類似度および両単語候補が入力される時間的距離を用いて、認識結果を出力する。ここで時間的距離とは単語が入力される時間の差であり、時間的距離が大きいほど両認識候補の類似度を小さくし、時間的距離が小さいほど類似度を大きくするように重み付けを行う。この重み付けは、発声時間と白板に書く時間が近い程、その内容の類似度が大きいことを考慮したものである。
具体的には、所定の時間幅(例えば30秒)にある音声認識単語候補と白板認識単語候補を抽出し(14001)、第1位の尤度をもつ単語候補が一致した場合は、その単語候補を認識結果とする(14002)。一致しない場合は、所定の時間内にある単語候補間で、両尤度、両候補の類似度、時間的距離を用いて一致度を算出し(14003)、一致度が最も大きい単語候補を認識結果とする(14004)。このように時間的距離を用いることにより、認識精度を高めることができる。
ここで、認識を確実にするために閾値を設けてもよい。例えば、各単語候補の第1位の尤度が閾値を超えない場合は認識結果を出力しないようにする。また、尤度、類似度及び時間的距離を用いて算出した一致度に閾値を設けることも可能である。
前述した授業テキストデータと音声データとを用いた単語認識と、音声データと文字認識データとを用いた単語認識は独立であっても連動していてもよい。すなわち、授業テキストデータと音声データとを用いた単語群中の単語を確定するとき、文字認識データを用いて単語を確定してもよい。それにより、単語認識の精度をさらに高めることが可能となる。
本実施例では、これらの解析結果に基づいて、音声認識される単語が入力された時間情報と授業映像の時間情報に基づいて、単語、単語群及び章番号が授業映像と対応づけることが可能となる。
最後に、図5、図6、図8、図15及び図16を用いて、ユーザ用端末103においてデータ閲覧を行う場合の処理について説明する。ユーザは、以下のような簡便な操作で、章番号もしくは単語から所望とする授業映像箇所を瞬時に検索し、閲覧することができる。
ユーザが解析結果閲覧ボタン504を選択すると(8004)、閲覧プログラムが起動され(15001、16001)、映像コンテンツ選択ボタン505が表示される。映像コンテンツ選択ボタンを押すと、映像選択メニュー506が表示される(15002、16002)。
以下、単語単位で映像箇所を表示する場合と、章単位で表示する場合について説明する。単語単位で映像箇所を表示する場合、同メニューから映像コンテンツを選択すると、例
えば図6Aに示すように、選択された映像コンテンツを解析処理した結果得られた単語がメニュー形式601で表示される(15003)。
ユーザはメニューから単数或いは複数の単語を選択する(15004)。選択された単語と対応づけられる映像箇所が検索され、検索された映像箇所が単語出現位置表示領域602に明示して表示される(15005)。この単語出現位置表示領域は、映像を所定の時間ごとに区切ったものであり、各領域ごとに最も時刻が早いフレーム画像が表示される。
また、図6Aに示すようにユーザが単語を複数選択し、領域によって対応づけられる単語数が異なる場合は、単語が単数対応付けられた場合と複数対応付けられた場合により表示枠の色、或いは模様を変える。これによりユーザは、指定した単語に対応する複数の映像箇所を対応する単語数により比較閲覧することができ、所望とする映像箇所を検索しやすくなる。例えば、単語が複数対応づけられた映像箇所を所望とする映像箇所として決定することができる。
さらに、単語が出現する時間帯を表す表示枠を押すと、同箇所から映像が再生され映像表示領域603に表示される(15006)。また、選択した単語のテキスト中の表示位置を示すために、授業テキスト表示領域604に表示されている同単語の表記場所の色を変化させる、或いは単語表記に枠付けをするといった方法により表示する(15007)。
これにより、ユーザは所望とする映像箇所をピンポイントで検索することが可能となる。また、選択した単語が出現するテキストの位置を確認することができ、ユーザにとって使い勝手のよい情報を提供することが可能となる。
最後に、章単位で映像を表示する場合について説明する。
ユーザが映像選択メニュー506から映像コンテンツを選択すると、図6Bに示すように、章単位映像箇所選択メニュー・ボタン領域605に、例えば、映像コンテンツを解析した結果得られた各章内容、各章に対応する映像箇所を示すボタンが表示される。
同ボタンを押すと(16003)、映像表示領域606に同ボタンイベントに対応づけられている映像が表示される(16004)。ボタンイベントが発生すると、例えば、章対応単語群セット中に格納されている最も出現時刻が早い単語群の先頭単語出現時刻から映像を再生する。
また、ユーザ用端末においてこれらの情報を表示する処理は、映像コンテンツの解析結果に基づいて、教育情報制御サーバ、ユーザ用端末どちらでも行うことができる。
なお、本実施形態における処理フローはプログラムとして構成し、コンピュータでプログラムを読み取ることで実行することができる。
以上、本発明の例を説明したが、本発明は上記実施例に限定されるものではなく種々変形実施可能であり、上述した各実施例を適宜組み合わせることが可能であることは当業者に理解されよう。
本発明の実施形態のシステム構成を示すブロック図の一例 学習情報蓄積サーバの構成を示すブロック図の一例 教育情報制御サーバの構成を示すブロック図の一例 ユーザ用端末の構成を示すブロック図の一例 ユーザ用端末の入力画面の一例 ユーザ用端末の入力画面の一例 学習情報蓄積サーバにおける処理フローの一例 ユーザ用端末における処理フローの一例 ユーザ用端末における処理フローの一例 教育情報制御サーバの処理フローの一例 テキスト処理プログラムによる授業用テキスト生成のフローの一例 音声認識及び白板認識プログラムによる単語候補抽出のフローの一例 関連情報利用統合認識プログラムによる単語群と章番号の対応づけのフローの一例 関連情報利用統合認識プログラムによるタグ付与のフローの一例 ユーザ用端末の処理フローの一例 ユーザ用端末の処理フローの一例
符号の説明
1:ネットワーク、101:学習関連情報蓄積サーバ、102:教育情報制御サーバ、
103:ユーザ用端末。

Claims (20)

  1. 入力される音声情報を認識し、1つまたは複数の音声認識候補とその音声認識についての第1の尤度を算出する音声認識部と、
    入力されるテキストデータにテキスト範囲を設定するテキストデータ認識部と、
    所定数の上記音声認識候補を単語群とし、該単語群を構成する音声認識候補の上記第1の尤度及び上記設定されたテキスト範囲に含まれる単語を用いて、該単語群と上記テキスト範囲の何れかとを対応づける情報認識部とを有することを特徴とする情報認識装置。
  2. 上記情報認識部は、上記単語群を構成する音声認識候補と上記テキストデータの単語とを対応づけ、上記テキスト範囲ごとに該テキスト範囲に属する上記単語に対応づけられた音声認識候補の音声認識についての尤度の総和を求め、該総和が最も大きいテキスト範囲を上記単語群と対応づけることを特徴とする請求項1に記載の情報認識装置。
  3. 上記情報認識部は、音声認識された順に1単語ずつずらすことにより順次所定数の単語群を形成し、過去の単語群とテキスト範囲との対応づけの結果を用いて、該形成された単語群と上記テキスト範囲との対応づけを行うことを特徴とする請求項1または2に記載の情報認識装置。
  4. 上記テキストデータ認識部は、上記テキストデータから単語を抽出し、該抽出された単語のフォーマット及び項目を示す表記の情報を用いて、上記テキストデータを群に分割し上記テキスト範囲を設定することを特徴とする請求項1乃至3の何れかに記載の情報認識装置。
  5. 上記情報認識部は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致する場合、該単語を認識結果とすることを特徴とする請求項1乃至4の何れかに記載の情報認識装置。
  6. 上記情報認識部は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致せず、該テキスト範囲とは異なるテキスト範囲に含まれる単語と一致する場合、該一致する単語を認識結果とすることを特徴とする請求項1乃至4の何れかに記載の情報認識装置。
  7. 上記情報認識部は、上記音声認識候補が上記テキストデータの単語と一致しない場合、上記第1の尤度が1位の音声認識候補を認識結果とすることを特徴とする請求項1乃至4の何れかに記載の情報認識装置。
  8. 上記音声認識候補が入力された第1の時刻を抽出する音声時刻抽出部と
    入力される文字情報を認識し、1つまたは複数の文字認識候補とその文字認識についての第2の尤度を算出する文字認識部と、
    上記文字認識候補が入力された第2の時刻を抽出する文字時刻抽出部とをさらに有し、
    上記情報認識部は、上記第1の尤度、上記第2の尤度、上記音声認識候補と上記文字認識候補との類似度、第1の時刻と第2の時刻との時間的距離、を用いて認識結果を決定することを特徴とする請求項1乃至7の何れかに記載の情報認識装置。
  9. 音声認識部とテキストデータ認識部と情報認識部とを有する情報認識装置において情報認識方法を実行させる情報認識プログラムであって、
    上記情報認識方法は、入力される音声情報を認識し1つまたは複数の音声認識候補とその音声認識についての第1の尤度を算出し、入力されるテキストデータにテキスト範囲を設定し、所定数の上記音声認識候補を単語群とし、該単語群を構成する音声認識候補の上記第1の尤度及び上記設定されたテキスト範囲に含まれる単語を用いて該単語群と上記テキスト範囲の何れかとを対応づけることを特徴とする情報認識プログラム。
  10. 上記情報認識方法は、上記単語群を構成する音声認識候補と上記テキストデータの単語とを対応づけ、該対応づけられた単語に上記音声認識候補の音声認識についての尤度を対応づけ、上記テキスト範囲ごとに該テキスト範囲に属する上記単語の尤度の総和を求め、該総和が最も大きいテキスト範囲を上記単語群と対応づけることを特徴とする請求項9に記載の情報認識プログラム。
  11. 上記情報認識方法は、上記音声認識候補を算出した順に1単語ずつずらすことにより順次所定数の単語群を形成し、過去の単語群とテキスト範囲との対応づけの結果を用いて、該形成された単語群と上記テキスト範囲との対応づけを行うことを特徴とする請求項9または10に記載の情報認識プログラム。
  12. 上記情報認識方法は、上記テキストデータから単語を抽出し、該抽出された単語のフォーマット及び項目を示す表記の情報を用いて、上記テキストデータを群に分割し上記テキスト範囲を設定することを特徴とする請求項9乃至11の何れかに記載の情報認識プログラム。
  13. 上記情報認識方法は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致する場合、該単語を認識結果とすることを特徴とする請求項9乃至12の何れかに記載の情報認識プログラム。
  14. 上記情報認識方法は、上記音声認識候補が、該音声認識候補の属する単語群と対応づけられた上記テキスト範囲に含まれる単語と一致せず、該テキスト範囲とは異なるテキスト範囲に含まれる単語と一致する場合、該一致する単語を認識結果とすることを特徴とする請求項9乃至12の何れかに記載の情報認識プログラム。
  15. 上記情報認識方法は、上記音声認識候補が上記テキスト範囲に含まれる単語と一致しない場合、上記第1の尤度が1位の音声認識候補を認識結果とすることを特徴とする請求項9乃至12の何れかに記載の情報認識プログラム。
  16. 上記情報認識方法は、
    上記音声認識候補が入力された第1の時刻を抽出し、
    入力される文字情報を認識し1つまたは複数の文字認識候補とその文字認識についての第2の尤度を算出し上記文字認識候補が入力された第2の時刻を抽出し、
    上記第1の尤度、上記第2の尤度、上記音声認識候補と上記文字認識候補との類似度、第1の時刻と第2の時刻との時間的距離、を用いて認識結果を決定することを特徴とする請求項9乃至15の何れかに記載の情報認識プログラム。
  17. 上記情報認識装置は表示部に接続され、
    上記情報認識方法は、上記音声認識される単語が入力された時間情報に基づいて該単語と映像とを対応づけ、上記単語を上記表示部に表示し、該表示された単語の何れかが指定されると該指定された単語に対応づけられた映像箇所を上記表示部に表示し、該表示された映像箇所が指定されると該指定された映像箇所から上記映像を再生し上記表示部に表示することを特徴とする請求項13乃至16の何れかに記載の情報認識プログラム。
  18. 上記情報認識方法は、上記映像箇所に対応づけられた単語数により、該映像箇所の表示を変えることを特徴とする請求項17に記載の情報認識プログラム。
  19. 上記情報認識方法は、上記表示部に、上記指定された単語の上記テキスト範囲内での位置を明示し表示することを特徴とする請求項17または18に記載の情報認識プログラム。
  20. 上記情報認識方法は、上記時間情報に基づいて上記テキスト範囲と上記映像とを対応づけ、上記テキスト範囲を上記表示部に表示し、該表示されたテキスト範囲の何れかが指定されると該指定されたテキスト範囲に対応する上記映像を再生し上記表示部に表示することを特徴とする請求項17乃至19の何れかに記載の情報認識プログラム。
JP2005354310A 2005-12-08 2005-12-08 情報認識装置及び情報認識プログラム Expired - Fee Related JP4802689B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005354310A JP4802689B2 (ja) 2005-12-08 2005-12-08 情報認識装置及び情報認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005354310A JP4802689B2 (ja) 2005-12-08 2005-12-08 情報認識装置及び情報認識プログラム

Publications (2)

Publication Number Publication Date
JP2007156286A true JP2007156286A (ja) 2007-06-21
JP4802689B2 JP4802689B2 (ja) 2011-10-26

Family

ID=38240713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005354310A Expired - Fee Related JP4802689B2 (ja) 2005-12-08 2005-12-08 情報認識装置及び情報認識プログラム

Country Status (1)

Country Link
JP (1) JP4802689B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
KR101773203B1 (ko) 2010-06-24 2017-08-31 인터내셔널 비지네스 머신즈 코포레이션 사용자 주도의 오디오 콘텐트 탐색
KR101832050B1 (ko) * 2016-03-25 2018-02-23 김준모 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템
CN111933131A (zh) * 2020-05-14 2020-11-13 联想(北京)有限公司 一种语音识别方法以及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863461A (ja) * 1994-08-18 1996-03-08 Fujitsu Ltd ワードプロセッサ
JPH11282772A (ja) * 1998-03-27 1999-10-15 Sony Corp 情報配信システム、情報送信装置、情報受信装置
JP2002268667A (ja) * 2001-03-06 2002-09-20 Canon Inc プレゼンテーションシステムおよびその制御方法
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863461A (ja) * 1994-08-18 1996-03-08 Fujitsu Ltd ワードプロセッサ
JPH11282772A (ja) * 1998-03-27 1999-10-15 Sony Corp 情報配信システム、情報送信装置、情報受信装置
JP2002268667A (ja) * 2001-03-06 2002-09-20 Canon Inc プレゼンテーションシステムおよびその制御方法
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
JP2004326404A (ja) * 2003-04-24 2004-11-18 Nec Corp インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
KR101773203B1 (ko) 2010-06-24 2017-08-31 인터내셔널 비지네스 머신즈 코포레이션 사용자 주도의 오디오 콘텐트 탐색
KR101832050B1 (ko) * 2016-03-25 2018-02-23 김준모 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템
WO2017164510A3 (ko) * 2016-03-25 2018-08-02 김준모 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템
CN111933131A (zh) * 2020-05-14 2020-11-13 联想(北京)有限公司 一种语音识别方法以及装置

Also Published As

Publication number Publication date
JP4802689B2 (ja) 2011-10-26

Similar Documents

Publication Publication Date Title
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
CN109783796B (zh) 预测文本内容中的样式破坏
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US11657725B2 (en) E-reader interface system with audio and highlighting synchronization for digital books
US10978077B1 (en) Knowledge point mark generation system and method thereof
US20080300872A1 (en) Scalable summaries of audio or visual content
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
WO2007004408A1 (ja) 情報処理装置,情報処理方法および情報処理プログラム
CN112911326B (zh) 弹幕信息处理方法、装置、电子设备和存储介质
JP4738847B2 (ja) データ検索装置および方法
US20220269724A1 (en) Audio playing method, electronic device, and storage medium
JP4802689B2 (ja) 情報認識装置及び情報認識プログラム
CN111078915B (zh) 一种点读模式下的点读内容获取方法及电子设备
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN113407775B (zh) 视频搜索方法、装置及电子设备
WO2021097629A1 (zh) 数据处理方法、装置、电子设备和存储介质
Vinciarelli et al. Application of information retrieval technologies to presentation slides
CN114297372A (zh) 个性化的笔记生成方法及系统
JP2008097232A (ja) 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
TWI684964B (zh) 知識點標記生成系統及其方法
Hürst et al. Searching in recorded lectures
CN115083222B (zh) 信息交互方法、装置、电子设备及存储介质
EP4336379A1 (en) Tracking concepts within content in content management systems and adaptive learning systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110725

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees