JP6280025B2

JP6280025B2 - コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム

Info

Publication number: JP6280025B2
Application number: JP2014257339A
Authority: JP
Inventors: 麻衣子井元; 山田　智広; 智広山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2018-02-14
Anticipated expiration: 2034-12-19
Also published as: JP2016118873A

Description

本発明は、コンテンツを加工する技術に関する。

近年、教育とＩＣＴ（Information and Communications Technology）の融合が進み、オンライン教育サービスの市場が拡大している。オンライン教育用の教材コンテンツについては、非特許文献１で述べられているように、デュアル・チャンネル・モデルに基づいて作成することが望ましいとされている。

デュアル・チャンネル・モデルとは、“人間の聴覚と視覚にはそれぞれ独立して情報処理を行うチャンネルがあり、それら２つのチャンネルが処理できる情報量はそれぞれ決まっている”と仮定するモデルである。一方のチャンネルを情報処理のために使用していなくとも他方のチャンネルの作業容量が増加するわけではなく、２つのチャンネルを同時に使用することにより聴覚情報と視覚情報が相互作用し、情報伝達効率を高めることができる。

従来、オンライン教育用の教材コンテンツは人手によって作成されている。例えば、非特許文献２のような既存のサービスを用いることにより、既に作成されているオンライン教育用ではない教材を短時間でオンライン教育用の教材コンテンツに作り替えることはできるが、教材コンテンツ自体は人手で作成されている。

安藤、外１名、"デュアル・チャンネル・モデルに基づくｅラーニング・マルチメディア教材におけるポインタ提示の効果分析"、日本教育工学会論文誌、Vol.32、No.1、2008年、p.43-p.56 "クラウド型教育専用プラットフォーム，かんたんシリーズ"、株式会社ネットラーニング、［online］、［平成26年12月9日検索］、＜URL: http://www.netlearning.co.jp/platform/kantan.html＞

しかし、人手で作成されたオンライン教育用の教材コンテンツを用いて講義する際、講師が該教材コンテンツに記述されていないことを説明することや、該教材コンテンツに記述されているにも関わらず講師が説明しないことがある。前者のように視覚情報が不足している場合、受講者は学習効果を高めるために聴覚情報を記憶又は記録しなければならず、該記録中に再生される聴覚情報への注意が低下する可能性があり、受講者による講義への理解を妨げてしまう。また、後者のように聴覚情報が不足している場合、受講者は講義中に講師が説明しない箇所にも目を通すことになり、視覚情報へ注意が向くことによって聴覚情報への注意が低下する可能性がある。

本発明は、上記事情を鑑みてなされたものであり、コンテンツに対する受講者の理解度を改善することを目的とする。

以上の課題を解決するため、請求項１に記載のコンテンツ加工方法は、コンテンツ加工装置で行うコンテンツ加工方法において、前記コンテンツ加工装置は、コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力ステップと、前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較ステップと、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工する第１の加工ステップと、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する第２の加工ステップと、加工後のスライドを出力する出力ステップと、を有することを要旨とする。

請求項２に記載のコンテンツ加工方法は、請求項１に記載のコンテンツ加工方法において、前記第１の加工ステップでは、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報を枠線で囲むことを要旨とする。

請求項３に記載のコンテンツ加工方法は、請求項１又は２に記載のコンテンツ加工方法において、前記第２の加工ステップでは、前記音声文字情報にのみ含まれる情報を前記スライドに追加する、又は、前記音声文字情報に対応しない前記スライドの文字情報の文字サイズを小さくする若しくは文字色を薄くすることを要旨とする。

請求項４に記載のコンテンツ加工方法は、請求項１乃至３のいずれかに記載のコンテンツ加工方法において、前記音声情報から韻律情報を抽出する抽出ステップと、前記韻律情報と前記音声文字情報とを用いて、強調して説明された強調単語を決定する決定ステップと、前記強調単語に対応する前記スライドの文字情報を強調する加工ステップと、を更に有することを要旨とする。

請求項５に記載のコンテンツ加工装置は、コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力手段と、前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較手段と、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工し、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する加工手段と、加工後のスライドを出力する出力手段と、を有することを要旨とする。

請求項６に記載のコンテンツ加工プログラムは、請求項５に記載のコンテンツ加工装置としてコンピュータを機能させることを要旨とする。

本発明によれば、コンテンツに対する受講者の理解度を向上できる。

コンテンツ加工システムの構成を示す図である。コンテンツ加工方法の処理シーケンスを示す図である。コンテンツＤＢのデータ例を示す図である。情報Ｉ_bothと情報Ｉ_audioと情報Ｉ_textの抽出例を示す図である。教材コンテンツの加工例を示す図である。コンテンツ加工システムの構成を示す図である。コンテンツ加工方法の処理シーケンスを示す図である。強調区間ＤＢのデータ例を示す図である。教材コンテンツの加工例を示す図である。

以下、本発明を実施する一実施の形態について図面を用いて説明する。

〔第１の実施の形態〕
図１は、第１の実施の形態に係るコンテンツ加工システムの構成を示す図である。コンテンツ加工システム１は、教材コンテンツを加工するコンテンツ加工装置１０と、該教材コンテンツの提供者，使用者等が使用するクライアント端末３０と、を備えて構成される。該コンテンツ加工装置１０と該クライアント端末３０は、相互に通信可能に接続されている。

続いて、コンテンツ加工装置１０の機能を説明する。コンテンツ加工装置１０は、コンテンツ要求受信機能部１０１と、音声情報処理機能部１０２と、スライド情報処理機能部１０３と、情報抽出機能部１０４と、音声情報追加機能部１０５と、スライド情報変更機能部１０６と、コンテンツ送信機能部１０７と、コンテンツＤＢ１０８と、を備えて構成される。

コンテンツ要求受信機能部１０１は、クライアント端末３０から送信された教材コンテンツＣの取得要求を受信し、該教材コンテンツＣを構成するスライドの聴覚情報Ｃ_audioと視覚情報Ｃ_textをコンテンツＤＢ１０８から取得するように構成されている。

音声情報処理機能部１０２は、聴覚情報Ｃ_audioを文字情報Ｔ_audioに変換するように構成されている。スライド情報処理機能部１０３は、視覚情報Ｃ_textから文字情報Ｔ_textを取得するように構成されている。

情報抽出機能部１０４は、文字情報Ｔ_audioと文字情報Ｔ_textとを比較し、文字情報Ｔ_audioと文字情報Ｔ_textのどちらにも含まれている情報Ｉ_bothと、文字情報Ｔ_audioにのみ含まれている情報Ｉ_audioと、文字情報Ｔ_textにのみ含まれている情報Ｉ_textと、をそれぞれ抽出するように構成されている。

音声情報追加機能部１０５は、情報Ｉ_audio（＝聴覚情報Ｃ_audioに含まれるが視覚情報Ｃ_textに含まれていない情報）を教材コンテンツＣの視覚情報Ｃ_textに追加し、該情報Ｉ_audioが追加された教材コンテンツＣ’を生成するように構成されている。

スライド情報変更機能部１０６は、該教材コンテンツＣ’に含まれる情報Ｉ_textについては視覚情報Ｃ_textの中で目立たないように加工し、情報Ｉ_bothについては目立つように加工するように構成されている。

コンテンツ送信機能部１０７は、該加工された教材コンテンツＣ’を要求元のクライアント端末３０に送信するように構成されている。

コンテンツＤＢ１０８は、オンライン教育用の教材コンテンツを記憶しておくように構成されている。例えば、デュアル・チャンネル・モデルに基づいて構成されていない教材コンテンツ等、視覚情報と聴覚情報とに差異のあるコンテンツが記憶されている。

次に、クライアント端末３０の機能を説明する。クライアント端末３０は、コンテンツ要求送信機能部３０１と、コンテンツ受信機能部３０２と、を備えて構成される。

コンテンツ要求送信機能部３０１は、教材コンテンツＣを要求するための取得要求をコンテンツ加工装置１０に送信するように構成されている。

コンテンツ受信機能部３０２は、上記取得要求に基づきコンテンツ加工装置１０から送信された加工後の教材コンテンツＣ’を受信し、再生するように構成されている。

かかるコンテンツ加工装置１０およびクライアント端末３０は、ＣＰＵ等の演算機能やメモリ等の記憶機能を備えたコンピュータ（例えば、サーバ、パソコン）で実現できる。また、コンテンツ加工装置１０としてコンピュータを機能させるためのコンテンツ加工プログラムや該コンテンツ加工プログラムの記憶媒体を作成することも可能である。

次に、コンテンツ加工システム１で行うコンテンツ加工方法を説明する。図２は、コンテンツ加工方法の処理シーケンスを示す図である。

まず、ステップＳ１０１において、コンテンツ要求送信機能部３０１は、クライアント端末３０の使用者による指定に基づき、教材コンテンツＣを要求するための取得要求をコンテンツ加工装置１０に送信する。

次に、ステップＳ１０２において、コンテンツ要求受信機能部１０１は、クライアント端末３０から教材コンテンツＣの取得要求を受信すると、コンテンツＤＢ１０８から該教材コンテンツＣに関する聴覚情報Ｃ_audioと視覚情報Ｃ_textを取得（入力）する。そして、該聴覚情報Ｃ_audioを音声情報処理機能部１０２に送信し、該視覚情報Ｃ_textをスライド情報処理機能部１０３に送信する。

図３は、コンテンツＤＢ１０８のデータ例を示す図である。コンテンツＤＢ１０８には、複数の教材コンテンツが格納されている。１つのレコードには１つの教材コンテンツに関する情報が格納されており、コンテンツＩＤカラムと視覚情報カラムと聴覚情報カラムとから構成される。コンテンツＩＤカラムには、教材コンテンツを一意に識別可能なＩＤが格納される。視覚情報カラムには、教材コンテンツの視覚情報、例えば、スライド形式の教材データが格納される。教材データのファイル形式は問わず、例えばpdf，word，html等のファイル形式が考えられる。聴覚情報カラムには、教材コンテンツの聴覚情報、例えば、教材コンテンツに含まれる講師の音声データが格納される。音声データのファイル形式についても問わず、例えばmp3等のファイル形式が考えられる。

次に、ステップＳ１０３において、音声情報処理機能部１０２は、コンテンツ要求受信機能部１０１から送信された聴覚情報Ｃ_audioに対して音声認識処理を行い文字情報Ｔ_audioに変換し、該文字情報Ｔ_audioを情報抽出機能部１０４に送信する。かかる音声認識処理については、例えばVoiceRex等の既存の音声認識エンジンを用いて変換する。文字情報Ｔ_audioが複数の文から構成されている場合には、文単位で区切り、文単位の配列データとして保持するようにしてもよい。なお、VoiceRexについては「http://www.ntt.co.jp/svlab/activity/category_2/product2_12.html」を参照されたい。

また、ステップＳ１０４において、スライド情報処理機能部１０３は、コンテンツ要求受信機能部１０１から送信された視覚情報Ｃ_textから文字情報Ｔ_textを取得し、該文字情報Ｔ_textを情報抽出機能部１０４に送信する。例えば、視覚情報Ｃ_textがhtml形式のファイルデータであれば、所定の要素内に記述されている文字列ｓを取得し、該文字列ｓの集合を文字情報Ｔ_textとする。このとき、文字列ｓの文字数に閾値を設定し、該閾値以上の文字数からなる文字列ｓの集合を文字情報Ｔ_textとしてもよい。

次に、ステップＳ１０５において、情報抽出機能部１０４は、音声情報処理機能部１０２から文字情報Ｔ_audioを受け取り、更にスライド情報処理機能部１０３から文字情報Ｔ_textを受け取って、該文字情報Ｔ_audioと該文字情報Ｔ_textとを比較し、文字情報Ｔ_audioと文字情報Ｔ_textのどちらにも含まれている情報Ｉ_bothと、文字情報Ｔ_audioには含まれているが文字情報Ｔ_textには含まれていない情報Ｉ_audioと、文字情報Ｔ_textには含まれているが文字情報Ｔ_audioには含まれていない情報Ｉ_textと、をそれぞれ抽出する。以下、図４を参照しながら詳述する。

まず、文字情報Ｔ_audioに対して形態素解析を行い、品詞が名詞である形態素を文毎に配列Ｄ_audioに格納する（ステップＳ１０５−１）。該形態素解析については、例えばMeCab等の既存の形態素解析エンジンを用いる。MeCabについては「https://code.google.com/p/mecab/」を参照されたい。

例えば、文字情報Ｔ_audio＝「形態素解析とは、文章を形態素といわれる意味のある単語に区切り、辞書を利用して品詞や内容を判別することをいいます。日本語用の形態素解析エンジンはChaSenとMeCabが有名で、どちらもフリーソフトウェアで提供されています。」を形態素解析すると、「形態素/解析/と/は/、/文章/を/形態素/と/いわ/れる/意味/の/ある/単語/に/区切り/、/辞書/を/利用/し/て/品詞/や/内容/を/判別/する/こと/を/いい/ます/。/日本語/用/の/形態素/解析/エンジン/は/ChaSen/と/MeCab/が/有名/で/、/どちら/も/フリー/ソフトウェア/で/提供/さ/れ/て/い/ます/。/」（“/”は形態素の区切り）となる。それゆえ、配列Ｄ_audio＝｛［形態素，解析，文章，形態素，意味，単語，辞書，利用，品詞，内容，判断，こと］，［日本語，用，形態素，解析，エンジン，ChaSen，MeCab，有名，どちら，フリー，ソフトウェア，提供］｝となる。

次に、文字情報Ｔ_textに対しても形態素解析を行い、同様に品詞が名詞である形態素を配列Ｄ_textに格納する（ステップＳ１０５−２）。

例えば、文字情報Ｔ_text＝｛［形態素解析とは］，［文章を形態素といわれる意味のある単語に区切り、辞書を利用して品詞や内容を判別すること］，［かな漢字変換や、機械翻訳などに用いられる］，［コンピュータによる自然言語処理技術の一つ］｝を形態素解析すると、｛［形態素/解析/と/は］，［文章/を/形態素/と/いわ/れる/意味/の/ある/単語/に/区切り/、/辞書/を/利用/し/て/品詞/や/内容/を/判別/する/こと］，［かな漢字/変換/や/、/機械/翻訳/など/に/用い/られる］，［コンピュータ/による/自然/言語/処理/技術/の/一つ］｝となる。それゆえ、配列Ｄ_text＝｛［形態素，解析］，［文章，形態素，意味，単語，辞書，利用，品詞，内容，判別，こと］，［かな漢字，変換，機械，翻訳］，［コンピュータ，自然，言語，処理，技術、一つ］｝となる。なお、形態素の品詞は、形態素解析エンジンMeCabが判定した品詞を用いればよい。

次に、配列Ｄ_audioのｉ番目の配列に含まれる品詞が配列Ｄ_textのｊ番目の配列にも含まれている割合ｒ_１（ｉ，ｊ）を算出する（ステップＳ１０５−３）。

具体的には、配列Ｄ_audioのｉ番目の配列の個数をｎ（Ｄ_audio（ｉ）），配列Ｄ_audioのｉ番目の配列と配列Ｄ_textのｊ番目の配列のどちらにも存在する名詞の個数をｎ（ｉ，ｊ）として、式（１）を用いて割合ｒ_１（ｉ，ｊ）を算出する（０≦ｒ_１（ｉ，ｊ）≦１）。

上述例の場合、割合ｒ_１（０，０）＝２／１２＝１／６，割合ｒ_１（０，１）＝１０／１２＝５／６，割合ｒ_１（１，０）＝２／１２＝１／６，割合ｒ_１（１，１）＝１／１２となる。

次に、算出した割合ｒ_１（ｉ，ｊ）を用いて、文字情報Ｔ_audioを情報Ｉ_bothと情報Ｉ_audioのいずれかに分類する（ステップＳ１０５−４）。

具体的には、割合ｒ_１（ｉ，ｊ）が所定の閾値Ｍ（０≦Ｍ≦１）以上であれば文字情報Ｔ_audio［ｉ］を情報Ｉ_bothに格納し、割合ｒ_１（ｉ，ｊ）が該閾値Ｍ（０≦Ｍ≦１）未満であれば文字情報Ｔ_audio［ｉ］を情報Ｉ_audioに格納する。上述例において、閾値Ｍ＝０．５の場合、文字情報Ｔ_audio［０］の割合ｒ_１（０，１）については５／６であるから、該文字情報Ｔ_audio［０］を情報Ｉ_bothに格納する。また、文字情報Ｔ_audio［１］の割合ｒ_１（１，０）については１／６であるから、該文字情報Ｔ_audio［１］を情報Ｉ_audioに格納する。

次に、配列Ｄ_textのｋ番目の配列に含まれる品詞が配列Ｄ_audioのｌ番目の配列にも含まれている割合ｒ_２（ｋ，ｌ）を算出する（ステップＳ１０５−５）。

具体的には、配列Ｄ_textのｋ番目の配列の個数をｎ（Ｄ_text（ｋ）），配列Ｄ_textのｋ番目の配列と配列Ｄ_audioのｌ番目の配列のどちらにも存在する名詞の個数をｍ（ｋ，ｌ）として、式（２）を用いて割合ｒ_２（ｋ，ｌ）を算出する（０≦ｒ_２（ｋ，ｌ）≦１）。

上述例の場合、割合ｒ_２（０，０）＝２／２＝１，割合ｒ_２（０，１）＝１／２，割合ｒ_２（１，０）＝１０／１０＝１，割合ｒ_２（１，１）＝１／１０となる。

次に、算出した割合ｒ_２（ｋ，ｌ）を用いて、文字情報Ｔ_textを情報Ｉ_textに分類するかどうかを判定する（ステップＳ１０５−６）。具体的には、割合ｒ_２（ｋ，ｌ）が所定の閾値Ｒ（０≦Ｒ≦１）未満であれば文字情報Ｔ_textを情報Ｉ_textに格納する。

最後に、これまでに格納した情報Ｉ_bothと情報Ｉ_audioと情報Ｉ_textを音声情報追加機能部１０５に送信する（ステップＳ１０５−７）。

図２に戻り、ステップＳ１０５の後、ステップＳ１０６において、音声情報追加機能部１０５は、情報抽出機能部１０４から受け取った情報Ｉ_audioを教材コンテンツＣに追加して教材コンテンツＣ_１を生成し、該教材コンテンツＣ_１と、情報抽出機能部１０４から受け取った情報Ｉ_bothおよび情報Ｉ_textとをスライド情報変更機能部１０６に送信する。

例えば、情報Ｉ_audioを文字化して視覚情報Ｃ_textの余白部分に表示するように追加する。このとき、情報Ｉ_audioを視覚情報Ｃ_textに文字化して表示させるか、情報Ｉ_audioを視覚情報Ｃ_textに追加して記憶させるかを使用者に選択させる機能を付加してもよい。また、情報Ｉ_audioを文字化するときに、話し言葉である情報Ｉ_audioを書き言葉に変換して視覚情報Ｃ_textとしてもよい。話し言葉の表現を書き言葉の表現に変換するには、例えば、“講演の書き起こしに対する統計的手法を用いた文体の整形”（下岡，外２名，京都大学情報学研究科知能情報学専攻，情報処理学会音声言語情報処理研究会，2002年，No.041-003）のような周知の技術を用いてもよいし、予め人手で文字情報Ｔ_audioを書き言葉に変換しておいてもよい。さらに、情報Ｉ_audioの文字数が多い場合には周知の技術を用いて要約して文字化してもよい。

次に、ステップＳ１０７において、スライド情報変更機能部１０６は、情報Ｉ_bothと情報Ｉ_textに関する情報を用いて、音声情報追加機能部１０５から受け取った教材コンテンツＣ_１を加工して教材コンテンツＣ’を生成し、コンテンツ送信機能部１０７に送信する。

例えば、情報Ｉ_textのフォントサイズを小さくしたりテキストの文字色を黒色から灰色に変更したりすることにより、該情報Ｉ_textを視覚情報Ｃ_textの中で目立たないようにする。また、情報Ｉ_bothのフォントサイズを大きくしたりテキストの文字色を黒色から赤色に変更したりすることにより、該情報Ｉ_bothを視覚情報Ｃ_textの中で目立つようにする。情報Ｉ_bothに対応する視覚情報Ｃ_textが再生されているときに、該視覚情報Ｃ_textの範囲を枠線で囲うようにしたり点滅させたりするようにしてもよい。更に、視覚的に目立たせるだけでなく、例えば、情報Ｉ_bothに対応する文字情報Ｔ_audioを講師が発話するときの音量を上げたり、再生速度を変更したりするなど、クライアント端末３０の使用者が聴覚情報Ｃ_audioの変化を感知できるように該聴覚情報Ｃ_audioを加工するようにしてもよい。

加工後の教材コンテンツＣ’の例を図５に示す。情報Ｉ_audioは視覚情報Ｃ_text内に可視化表示され、情報Ｉ_bothは目立つように強調表示又は高音声で再生される。その反面、情報Ｉ_textの視覚情報量は削減されることになる。このとき、該情報Ｉ_audioと該情報Ｉ_bothは、該教材コンテンツＣ’の再生時刻に関係なく表示されていてもよいし、該情報Ｉ_audioと該情報Ｉ_bothに対応する文字情報Ｔ_audioを講師が発話する時刻に表示されるようにしてもよい。後者のように視覚情報Ｃ_textを情報Ｉ_audioが言及されている時間に表示させる場合、デュアル・チャンネル・モデルの効果、すなわち、聴覚情報と視覚情報との相互作用による情報伝達効率を更に高めることができる。さらに、上記後者のように文字情報Ｔ_audioを講師が発話する時刻に表示する場合、該情報Ｉ_audioと該情報Ｉ_bothは一定時間表示させて非表示にするようにしてもよい。このとき、表示時間は予め人手で設定しておいてもよいし、文字数などの情報量や重要度に応じて算出してもよい。該情報Ｉ_audioと該情報Ｉ_bothの重要度の算出には、周知の技術を用いればよく、例えば、“文章に対する重要度付与処理における視点情報の有効性の分析”（永松，外１名，東京大学工学部，情報処理学会第５１回全国大会，1995年，p.119-p.120）を利用する。該情報Ｉ_audioと該情報Ｉ_bothの表示サイズについても同様に、文字数などの情報量や重要度に応じて算出して、表示サイズを変えてもよい。

その後、ステップＳ１０８において、コンテンツ送信機能部１０７は、スライド情報変更機能部１０６から受け取った加工後の教材コンテンツＣ’をクライアント端末３０に送信する。

最後に、ステップＳ１０９において、コンテンツ受信機能部３０２は、コンテンツ加工装置１０から送信された教材コンテンツＣ’を受信し、モニタやマイクを用いて再生する。

〔第２の実施の形態〕
図６は、第２の実施の形態に係るコンテンツ加工システムの構成を示す図である。本実施の形態に係るコンテンツ加工装置１０は、韻律情報処理機能部１１０と、強調区間ＤＢ１１１と、を更に備えて構成される。なお、かかる機能の追加に伴い、本実施の形態では、コンテンツ要求受信機能部１０１をコンテンツ要求伝達機能部１０９、音声情報追加機能部１０５を音声情報加工機能部１１２、スライド情報変更機能部１０６をスライド情報加工機能部１１３、にそれぞれ機能名称を改める。

次に、図７を参照しながら、本実施の形態で行うコンテンツ加工方法を説明する。

まず、ステップＳ２０１において、コンテンツ要求送信機能部３０１は、クライアント端末３０の使用者による指定に基づき、教材コンテンツＣを要求するための取得要求をコンテンツ加工装置１０に送信する。

次に、ステップＳ２０２において、コンテンツ要求伝達機能部１０９は、クライアント端末３０から教材コンテンツＣの取得要求を受信すると、コンテンツＤＢ１０８から該教材コンテンツＣに関する聴覚情報Ｃ_audioと視覚情報Ｃ_textを取得する。そして、該聴覚情報Ｃ_audioを音声情報処理機能部１０２と韻律情報処理機能部１１０に送信し、該視覚情報Ｃ_textをスライド情報処理機能部１０３に送信する。

次に、ステップＳ２０３において、音声情報処理機能部１０２は、コンテンツ要求受信機能部１０１から送信された聴覚情報Ｃ_audioに対して音声認識処理を行う文字情報Ｔ_audioに変換し、該文字情報Ｔ_audioを情報抽出機能部１０４に送信する。

また、ステップＳ２０４において、スライド情報処理機能部１０３は、コンテンツ要求受信機能部１０１から送信された視覚情報Ｃ_textから文字情報Ｔ_textを取得し、該文字情報Ｔ_textを情報抽出機能部１０４に送信する。

さらに、ステップＳ２０５において、韻律情報処理機能部１１０は、コンテンツ要求受信機能部１０１から送信された聴覚情報Ｃ_audioのパワー（強さ），基本周波数（ピッチ），スペクトル変化量（速さ）等を算出し、該算出結果を用いて聴覚情報Ｃ_audioから強調区間Ｃ_emphasisを抽出して強調区間ＤＢ１１１に格納する。なお、強調区間Ｃ_emphasisは公知の技術を用いて抽出できる。例えば、“音声の感性情報に着目したマルチメディアコンテンツ要約技術”（日高，外４名，ＮＴＴサイバーソリューション研究所，インタラクション2003論文集，2003年，p.17-p.24）を利用する。

図８は、強調区間ＤＢ１１１のデータ例を示す図である。強調区間ＤＢ１１１には、１つのレコードに聴覚情報Ｃ_audioの強調区間Ｃ_emphasisに関する情報が保持されており、コンテンツＩＤカラムと時間カラムと文字情報カラムとから構成される。コンテンツＩＤカラムには、教材コンテンツを一意に識別可能なＩＤが格納される。時間カラムには、聴覚情報Ｃ_audioの中で話者が強調して発話している区間を表す時間情報が格納される。文字情報カラムには、該区間の音声を文字情報に変換した文字列が格納される。

次に、ステップＳ２０６において、情報抽出機能部１０４は、音声情報処理機能部１０２から文字情報Ｔ_audioを受け取り、更にスライド情報処理機能部１０３から文字情報Ｔ_textを受け取って、該文字情報Ｔ_audioと該文字情報Ｔ_textとを比較し、ステップＳ１０５と同様の手法を用いて情報Ｉ_bothと情報Ｉ_audioと情報Ｉ_textとをそれぞれ抽出する。

その後、ステップＳ２０７において、音声情報加工機能部１１２は、情報抽出機能部１０４から受け取った情報Ｉ_audioを教材コンテンツＣに追加して教材コンテンツＣ_１を生成し、該教材コンテンツＣ_１と、情報抽出機能部１０４から受け取った情報Ｉ_bothおよび情報Ｉ_textと、強調区間Ｃ_emphasisと、をスライド情報変更機能部１０６に送信する。

例えば、ステップＳ１０６と同様に、情報Ｉ_audioを文字化して視覚情報Ｃ_textの余白部分に表示するように追加する。更に、該情報Ｉ_audioを文字化する際、該情報Ｉ_audioが強調区間Ｃ_emphasisに該当する場合には、該情報Ｉ_audioを目立つように加工する。具体的には、情報Ｉ_audioを文字化する際に該情報Ｉ_audioが強調区間ＤＢ１１１に含まれているかを判定し、含まれている場合には該情報Ｉ_audioの該当部分を特定（決定）し、該部分の情報Ｉ_audioのフォントサイズを大きくしたりテキストの文字色を変更したりすることにより、講師が口頭のみで強調説明した情報Ｉ_audioの強調区間Ｃ_emphasisを目立つように加工する。

次に、ステップＳ２０８において、スライド情報加工機能部１１３は、情報Ｉ_bothと情報Ｉ_textに関する情報と強調区間ＤＢ１１１とを用いて、音声情報追加機能部１０５から受け取った教材コンテンツＣ_１を加工して教材コンテンツＣ’を生成する。そして、該教材コンテンツＣ’をコンテンツ送信機能部１０７に送信する。

例えば、ステップＳ１０７と同様に、情報Ｉ_textを視覚情報Ｃ_textの中で目立たないように加工し、その一方で情報Ｉ_bothを目立つようにする。更に、該情報Ｉ_bothが強調区間ＤＢ１１１に含まれているかを判定し、含まれている場合には該情報Ｉ_bothの該当部分を特定（決定）し、該部分の情報Ｉ_bothを更に目立つように加工する。加工後の教材コンテンツＣ’の例を図９に示す。図５に示した表示形態以外に、強調区間Ｃ_emphasisに該当する情報Ｉ_audioと情報Ｉ_bothの各部分がそれぞれ強調表示される。

その後、ステップＳ２０９において、コンテンツ送信機能部１０７は、スライド情報変更機能部１０６から受け取った教材コンテンツＣ’をクライアント端末３０に送信する。

最後に、ステップＳ２１０において、コンテンツ受信機能部３０２は、コンテンツ加工装置１０から送信された教材コンテンツＣ’を受信し、モニタやマイクを用いて再生する。

なお、第１および第２の実施の形態では、クライアント端末３０から教材コンテンツＣの取得要求を受けた契機に教材コンテンツを加工する例を説明したが、コンテンツＤＢ１０８に含まれる全ての教材コンテンツＣに対して予め加工処理を行い、該加工処理を行った教材コンテンツＣ’をコンテンツ加工装置１０や他のＤＢが保持しておくようにしてもよい。

また、第１の実施の形態で具体的に説明した教材コンテンツの加工方法や表示方法を第２の実施の形態に適用してもよい。これまでに説明した加工方法や表示方法は一例にすぎず、その他、吹き出しの追加，文字スタイル（書体，太字，斜体等）の変更，マーキングや網掛けの追加等、対象の情報を強調・非強調できる方法であれば任意の方法を単独又は組み合わせて適用してもよい。

以上より、第１および第２の実施の形態によれば、聴覚情報Ｃ_audioと視覚情報Ｃ_textとを比較し、聴覚情報Ｃ_audioにのみ含まれている情報Ｉ_audioを視覚情報Ｃ_textに追加し、聴覚情報Ｃ_audioと視覚情報Ｃ_textのどちらにも含まれている情報Ｉ_bothを該視覚情報Ｃ_textの中で目立つように加工し、視覚情報Ｃ_textにのみ含まれている情報Ｉ_textを該視覚情報Ｃ_textの中で目立たないように加工するので、デュアル・チャンネル・モデルに基づいて構成されていないオンライン教育用の教材コンテンツに対して、不足している情報量を増やしたり、講義中には過剰であると考えられる情報量を削除したりすることが可能となる。それにより、受講者が講義を集中して受講しやすいような環境をつくり、講義中の受講者の講義への理解度を向上させることができる。特に、聴覚情報Ｃ_audioと視覚情報Ｃ_textのどちらにも含まれている情報Ｉ_both、つまり講義において重要であると考えられる情報を受講者に明示的に提示するので、受講者が講義の要点をつかむのを容易にすることができる。

１…コンテンツ加工システム
１０…コンテンツ加工装置
１０１…コンテンツ要求受信機能部
１０２…音声情報処理機能部
１０３…スライド情報処理機能部
１０４…情報抽出機能部
１０５…音声情報追加機能部
１０６…スライド情報変更機能部
１０７…コンテンツ送信機能部
１０８…コンテンツＤＢ
１０９…コンテンツ要求伝達機能部
１１０…韻律情報処理機能部
１１１…強調区間ＤＢ
１１２…音声情報加工機能部
１１３…スライド情報加工機能部
３０…クライアント端末
３０１…コンテンツ要求送信機能部
３０２…コンテンツ受信機能部
Ｓ１０１〜Ｓ１０９，Ｓ２０１〜Ｓ２１０…ステップ

Claims

コンテンツ加工装置で行うコンテンツ加工方法において、
前記コンテンツ加工装置は、
コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力ステップと、
前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較ステップと、
前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工する第１の加工ステップと、
前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する第２の加工ステップと、
加工後のスライドを出力する出力ステップと、を有し、
前記第２の加工ステップでは、
前記音声文字情報にのみ含まれる情報を前記スライドに追加することを特徴とするコンテンツ加工方法。
前記第１の加工ステップでは、
前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報を枠線で囲むことを特徴とする請求項１に記載のコンテンツ加工方法。
前記第２の加工ステップでは、
前記音声文字情報に対応しない前記スライドの文字情報の文字サイズを小さくする又は文字色を薄くすることを特徴とする請求項１又は２に記載のコンテンツ加工方法。
前記音声情報から韻律情報を抽出する抽出ステップと、
前記韻律情報と前記音声文字情報とを用いて、強調して説明された強調単語を決定する決定ステップと、
前記強調単語に対応する前記スライドの文字情報を強調する加工ステップと、
を更に有することを特徴とする請求項１乃至３のいずれかに記載のコンテンツ加工方法。
コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力手段と、
前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較手段と、
前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工し、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する加工手段と、
加工後のスライドを出力する出力手段と、を有し、
前記加工手段は、
前記音声文字情報にのみ含まれる情報を前記スライドに追加することを特徴とするコンテンツ加工装置。
請求項５に記載のコンテンツ加工装置としてコンピュータを機能させることを特徴とするコンテンツ加工プログラム。