JP6280025B2 - コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム - Google Patents

コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム Download PDF

Info

Publication number
JP6280025B2
JP6280025B2 JP2014257339A JP2014257339A JP6280025B2 JP 6280025 B2 JP6280025 B2 JP 6280025B2 JP 2014257339 A JP2014257339 A JP 2014257339A JP 2014257339 A JP2014257339 A JP 2014257339A JP 6280025 B2 JP6280025 B2 JP 6280025B2
Authority
JP
Japan
Prior art keywords
information
content
character information
slide
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014257339A
Other languages
English (en)
Other versions
JP2016118873A (ja
Inventor
麻衣子 井元
麻衣子 井元
山田 智広
智広 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014257339A priority Critical patent/JP6280025B2/ja
Publication of JP2016118873A publication Critical patent/JP2016118873A/ja
Application granted granted Critical
Publication of JP6280025B2 publication Critical patent/JP6280025B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、コンテンツを加工する技術に関する。
近年、教育とICT(Information and Communications Technology)の融合が進み、オンライン教育サービスの市場が拡大している。オンライン教育用の教材コンテンツについては、非特許文献1で述べられているように、デュアル・チャンネル・モデルに基づいて作成することが望ましいとされている。
デュアル・チャンネル・モデルとは、“人間の聴覚と視覚にはそれぞれ独立して情報処理を行うチャンネルがあり、それら2つのチャンネルが処理できる情報量はそれぞれ決まっている”と仮定するモデルである。一方のチャンネルを情報処理のために使用していなくとも他方のチャンネルの作業容量が増加するわけではなく、2つのチャンネルを同時に使用することにより聴覚情報と視覚情報が相互作用し、情報伝達効率を高めることができる。
従来、オンライン教育用の教材コンテンツは人手によって作成されている。例えば、非特許文献2のような既存のサービスを用いることにより、既に作成されているオンライン教育用ではない教材を短時間でオンライン教育用の教材コンテンツに作り替えることはできるが、教材コンテンツ自体は人手で作成されている。
安藤、外1名、"デュアル・チャンネル・モデルに基づくeラーニング・マルチメディア教材におけるポインタ提示の効果分析"、日本教育工学会論文誌、Vol.32、No.1、2008年、p.43-p.56 "クラウド型教育専用プラットフォーム,かんたんシリーズ"、株式会社ネットラーニング、[online]、[平成26年12月9日検索]、<URL: http://www.netlearning.co.jp/platform/kantan.html>
しかし、人手で作成されたオンライン教育用の教材コンテンツを用いて講義する際、講師が該教材コンテンツに記述されていないことを説明することや、該教材コンテンツに記述されているにも関わらず講師が説明しないことがある。前者のように視覚情報が不足している場合、受講者は学習効果を高めるために聴覚情報を記憶又は記録しなければならず、該記録中に再生される聴覚情報への注意が低下する可能性があり、受講者による講義への理解を妨げてしまう。また、後者のように聴覚情報が不足している場合、受講者は講義中に講師が説明しない箇所にも目を通すことになり、視覚情報へ注意が向くことによって聴覚情報への注意が低下する可能性がある。
本発明は、上記事情を鑑みてなされたものであり、コンテンツに対する受講者の理解度を改善することを目的とする。
以上の課題を解決するため、請求項1に記載のコンテンツ加工方法は、コンテンツ加工装置で行うコンテンツ加工方法において、前記コンテンツ加工装置は、コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力ステップと、前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較ステップと、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工する第1の加工ステップと、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する第2の加工ステップと、加工後のスライドを出力する出力ステップと、を有することを要旨とする。
請求項2に記載のコンテンツ加工方法は、請求項1に記載のコンテンツ加工方法において、前記第1の加工ステップでは、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報を枠線で囲むことを要旨とする。
請求項3に記載のコンテンツ加工方法は、請求項1又は2に記載のコンテンツ加工方法において、前記第2の加工ステップでは、前記音声文字情報にのみ含まれる情報を前記スライドに追加する、又は、前記音声文字情報に対応しない前記スライドの文字情報の文字サイズを小さくする若しくは文字色を薄くすることを要旨とする。
請求項4に記載のコンテンツ加工方法は、請求項1乃至3のいずれかに記載のコンテンツ加工方法において、前記音声情報から韻律情報を抽出する抽出ステップと、前記韻律情報と前記音声文字情報とを用いて、強調して説明された強調単語を決定する決定ステップと、前記強調単語に対応する前記スライドの文字情報を強調する加工ステップと、を更に有することを要旨とする。
請求項5に記載のコンテンツ加工装置は、コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力手段と、前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較手段と、前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工し、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する加工手段と、加工後のスライドを出力する出力手段と、を有することを要旨とする。
請求項6に記載のコンテンツ加工プログラムは、請求項5に記載のコンテンツ加工装置としてコンピュータを機能させることを要旨とする。
本発明によれば、コンテンツに対する受講者の理解度を向上できる。
コンテンツ加工システムの構成を示す図である。 コンテンツ加工方法の処理シーケンスを示す図である。 コンテンツDBのデータ例を示す図である。 情報Ibothと情報Iaudioと情報Itextの抽出例を示す図である。 教材コンテンツの加工例を示す図である。 コンテンツ加工システムの構成を示す図である。 コンテンツ加工方法の処理シーケンスを示す図である。 強調区間DBのデータ例を示す図である。 教材コンテンツの加工例を示す図である。
以下、本発明を実施する一実施の形態について図面を用いて説明する。
〔第1の実施の形態〕
図1は、第1の実施の形態に係るコンテンツ加工システムの構成を示す図である。コンテンツ加工システム1は、教材コンテンツを加工するコンテンツ加工装置10と、該教材コンテンツの提供者,使用者等が使用するクライアント端末30と、を備えて構成される。該コンテンツ加工装置10と該クライアント端末30は、相互に通信可能に接続されている。
続いて、コンテンツ加工装置10の機能を説明する。コンテンツ加工装置10は、コンテンツ要求受信機能部101と、音声情報処理機能部102と、スライド情報処理機能部103と、情報抽出機能部104と、音声情報追加機能部105と、スライド情報変更機能部106と、コンテンツ送信機能部107と、コンテンツDB108と、を備えて構成される。
コンテンツ要求受信機能部101は、クライアント端末30から送信された教材コンテンツCの取得要求を受信し、該教材コンテンツCを構成するスライドの聴覚情報Caudioと視覚情報CtextをコンテンツDB108から取得するように構成されている。
音声情報処理機能部102は、聴覚情報Caudioを文字情報Taudioに変換するように構成されている。スライド情報処理機能部103は、視覚情報Ctextから文字情報Ttextを取得するように構成されている。
情報抽出機能部104は、文字情報Taudioと文字情報Ttextとを比較し、文字情報Taudioと文字情報Ttextのどちらにも含まれている情報Ibothと、文字情報Taudioにのみ含まれている情報Iaudioと、文字情報Ttextにのみ含まれている情報Itextと、をそれぞれ抽出するように構成されている。
音声情報追加機能部105は、情報Iaudio(=聴覚情報Caudioに含まれるが視覚情報Ctextに含まれていない情報)を教材コンテンツCの視覚情報Ctextに追加し、該情報Iaudioが追加された教材コンテンツC’を生成するように構成されている。
スライド情報変更機能部106は、該教材コンテンツC’に含まれる情報Itextについては視覚情報Ctextの中で目立たないように加工し、情報Ibothについては目立つように加工するように構成されている。
コンテンツ送信機能部107は、該加工された教材コンテンツC’を要求元のクライアント端末30に送信するように構成されている。
コンテンツDB108は、オンライン教育用の教材コンテンツを記憶しておくように構成されている。例えば、デュアル・チャンネル・モデルに基づいて構成されていない教材コンテンツ等、視覚情報と聴覚情報とに差異のあるコンテンツが記憶されている。
次に、クライアント端末30の機能を説明する。クライアント端末30は、コンテンツ要求送信機能部301と、コンテンツ受信機能部302と、を備えて構成される。
コンテンツ要求送信機能部301は、教材コンテンツCを要求するための取得要求をコンテンツ加工装置10に送信するように構成されている。
コンテンツ受信機能部302は、上記取得要求に基づきコンテンツ加工装置10から送信された加工後の教材コンテンツC’を受信し、再生するように構成されている。
かかるコンテンツ加工装置10およびクライアント端末30は、CPU等の演算機能やメモリ等の記憶機能を備えたコンピュータ(例えば、サーバ、パソコン)で実現できる。また、コンテンツ加工装置10としてコンピュータを機能させるためのコンテンツ加工プログラムや該コンテンツ加工プログラムの記憶媒体を作成することも可能である。
次に、コンテンツ加工システム1で行うコンテンツ加工方法を説明する。図2は、コンテンツ加工方法の処理シーケンスを示す図である。
まず、ステップS101において、コンテンツ要求送信機能部301は、クライアント端末30の使用者による指定に基づき、教材コンテンツCを要求するための取得要求をコンテンツ加工装置10に送信する。
次に、ステップS102において、コンテンツ要求受信機能部101は、クライアント端末30から教材コンテンツCの取得要求を受信すると、コンテンツDB108から該教材コンテンツCに関する聴覚情報Caudioと視覚情報Ctextを取得(入力)する。そして、該聴覚情報Caudioを音声情報処理機能部102に送信し、該視覚情報Ctextをスライド情報処理機能部103に送信する。
図3は、コンテンツDB108のデータ例を示す図である。コンテンツDB108には、複数の教材コンテンツが格納されている。1つのレコードには1つの教材コンテンツに関する情報が格納されており、コンテンツIDカラムと視覚情報カラムと聴覚情報カラムとから構成される。コンテンツIDカラムには、教材コンテンツを一意に識別可能なIDが格納される。視覚情報カラムには、教材コンテンツの視覚情報、例えば、スライド形式の教材データが格納される。教材データのファイル形式は問わず、例えばpdf,word,html等のファイル形式が考えられる。聴覚情報カラムには、教材コンテンツの聴覚情報、例えば、教材コンテンツに含まれる講師の音声データが格納される。音声データのファイル形式についても問わず、例えばmp3等のファイル形式が考えられる。
次に、ステップS103において、音声情報処理機能部102は、コンテンツ要求受信機能部101から送信された聴覚情報Caudioに対して音声認識処理を行い文字情報Taudioに変換し、該文字情報Taudioを情報抽出機能部104に送信する。かかる音声認識処理については、例えばVoiceRex等の既存の音声認識エンジンを用いて変換する。文字情報Taudioが複数の文から構成されている場合には、文単位で区切り、文単位の配列データとして保持するようにしてもよい。なお、VoiceRexについては「http://www.ntt.co.jp/svlab/activity/category_2/product2_12.html」を参照されたい。
また、ステップS104において、スライド情報処理機能部103は、コンテンツ要求受信機能部101から送信された視覚情報Ctextから文字情報Ttextを取得し、該文字情報Ttextを情報抽出機能部104に送信する。例えば、視覚情報Ctextがhtml形式のファイルデータであれば、所定の要素内に記述されている文字列sを取得し、該文字列sの集合を文字情報Ttextとする。このとき、文字列sの文字数に閾値を設定し、該閾値以上の文字数からなる文字列sの集合を文字情報Ttextとしてもよい。
次に、ステップS105において、情報抽出機能部104は、音声情報処理機能部102から文字情報Taudioを受け取り、更にスライド情報処理機能部103から文字情報Ttextを受け取って、該文字情報Taudioと該文字情報Ttextとを比較し、文字情報Taudioと文字情報Ttextのどちらにも含まれている情報Ibothと、文字情報Taudioには含まれているが文字情報Ttextには含まれていない情報Iaudioと、文字情報Ttextには含まれているが文字情報Taudioには含まれていない情報Itextと、をそれぞれ抽出する。以下、図4を参照しながら詳述する。
まず、文字情報Taudioに対して形態素解析を行い、品詞が名詞である形態素を文毎に配列Daudioに格納する(ステップS105−1)。該形態素解析については、例えばMeCab等の既存の形態素解析エンジンを用いる。MeCabについては「https://code.google.com/p/mecab/」を参照されたい。
例えば、文字情報Taudio=「形態素解析とは、文章を形態素といわれる意味のある単語に区切り、辞書を利用して品詞や内容を判別することをいいます。日本語用の形態素解析エンジンはChaSenとMeCabが有名で、どちらもフリーソフトウェアで提供されています。」を形態素解析すると、「形態素/解析/と/は/、/文章/を/形態素/と/いわ/れる/意味/の/ある/単語/に/区切り/、/辞書/を/利用/し/て/品詞/や/内容/を/判別/する/こと/を/いい/ます/。/日本語/用/の/形態素/解析/エンジン/は/ChaSen/と/MeCab/が/有名/で/、/どちら/も/フリー/ソフトウェア/で/提供/さ/れ/て/い/ます/。/」(“/”は形態素の区切り)となる。それゆえ、配列Daudio={[形態素,解析,文章,形態素,意味,単語,辞書,利用,品詞,内容,判断,こと],[日本語,用,形態素,解析,エンジン,ChaSen,MeCab,有名,どちら,フリー,ソフトウェア,提供]}となる。
次に、文字情報Ttextに対しても形態素解析を行い、同様に品詞が名詞である形態素を配列Dtextに格納する(ステップS105−2)。
例えば、文字情報Ttext={[形態素解析とは],[文章を形態素といわれる意味のある単語に区切り、辞書を利用して品詞や内容を判別すること],[かな漢字変換や、機械翻訳などに用いられる],[コンピュータによる自然言語処理技術の一つ]}を形態素解析すると、{[形態素/解析/と/は],[文章/を/形態素/と/いわ/れる/意味/の/ある/単語/に/区切り/、/辞書/を/利用/し/て/品詞/や/内容/を/判別/する/こと],[かな漢字/変換/や/、/機械/翻訳/など/に/用い/られる],[コンピュータ/による/自然/言語/処理/技術/の/一つ]}となる。それゆえ、配列Dtext={[形態素,解析],[文章,形態素,意味,単語,辞書,利用,品詞,内容,判別,こと],[かな漢字,変換,機械,翻訳],[コンピュータ,自然,言語,処理,技術、一つ]}となる。なお、形態素の品詞は、形態素解析エンジンMeCabが判定した品詞を用いればよい。
次に、配列Daudioのi番目の配列に含まれる品詞が配列Dtextのj番目の配列にも含まれている割合r(i,j)を算出する(ステップS105−3)。
具体的には、配列Daudioのi番目の配列の個数をn(Daudio(i)),配列Daudioのi番目の配列と配列Dtextのj番目の配列のどちらにも存在する名詞の個数をn(i,j)として、式(1)を用いて割合r(i,j)を算出する(0≦r(i,j)≦1)。
Figure 0006280025
上述例の場合、割合r(0,0)=2/12=1/6,割合r(0,1)=10/12=5/6,割合r(1,0)=2/12=1/6,割合r(1,1)=1/12となる。
次に、算出した割合r(i,j)を用いて、文字情報Taudioを情報Ibothと情報Iaudioのいずれかに分類する(ステップS105−4)。
具体的には、割合r(i,j)が所定の閾値M(0≦M≦1)以上であれば文字情報Taudio[i]を情報Ibothに格納し、割合r(i,j)が該閾値M(0≦M≦1)未満であれば文字情報Taudio[i]を情報Iaudioに格納する。上述例において、閾値M=0.5の場合、文字情報Taudio[0]の割合r(0,1)については5/6であるから、該文字情報Taudio[0]を情報Ibothに格納する。また、文字情報Taudio[1]の割合r(1,0)については1/6であるから、該文字情報Taudio[1]を情報Iaudioに格納する。
次に、配列Dtextのk番目の配列に含まれる品詞が配列Daudioのl番目の配列にも含まれている割合r(k,l)を算出する(ステップS105−5)。
具体的には、配列Dtextのk番目の配列の個数をn(Dtext(k)),配列Dtextのk番目の配列と配列Daudioのl番目の配列のどちらにも存在する名詞の個数をm(k,l)として、式(2)を用いて割合r(k,l)を算出する(0≦r(k,l)≦1)。
Figure 0006280025
上述例の場合、割合r(0,0)=2/2=1,割合r(0,1)=1/2,割合r(1,0)=10/10=1,割合r(1,1)=1/10となる。
次に、算出した割合r(k,l)を用いて、文字情報Ttextを情報Itextに分類するかどうかを判定する(ステップS105−6)。具体的には、割合r(k,l)が所定の閾値R(0≦R≦1)未満であれば文字情報Ttextを情報Itextに格納する。
最後に、これまでに格納した情報Ibothと情報Iaudioと情報Itextを音声情報追加機能部105に送信する(ステップS105−7)。
図2に戻り、ステップS105の後、ステップS106において、音声情報追加機能部105は、情報抽出機能部104から受け取った情報Iaudioを教材コンテンツCに追加して教材コンテンツCを生成し、該教材コンテンツCと、情報抽出機能部104から受け取った情報Ibothおよび情報Itextとをスライド情報変更機能部106に送信する。
例えば、情報Iaudioを文字化して視覚情報Ctextの余白部分に表示するように追加する。このとき、情報Iaudioを視覚情報Ctextに文字化して表示させるか、情報Iaudioを視覚情報Ctextに追加して記憶させるかを使用者に選択させる機能を付加してもよい。また、情報Iaudioを文字化するときに、話し言葉である情報Iaudioを書き言葉に変換して視覚情報Ctextとしてもよい。話し言葉の表現を書き言葉の表現に変換するには、例えば、“講演の書き起こしに対する統計的手法を用いた文体の整形”(下岡,外2名,京都大学 情報学研究科 知能情報学専攻,情報処理学会 音声言語情報処理研究会,2002年,No.041-003)のような周知の技術を用いてもよいし、予め人手で文字情報Taudioを書き言葉に変換しておいてもよい。さらに、情報Iaudioの文字数が多い場合には周知の技術を用いて要約して文字化してもよい。
次に、ステップS107において、スライド情報変更機能部106は、情報Ibothと情報Itextに関する情報を用いて、音声情報追加機能部105から受け取った教材コンテンツCを加工して教材コンテンツC’を生成し、コンテンツ送信機能部107に送信する。
例えば、情報Itextのフォントサイズを小さくしたりテキストの文字色を黒色から灰色に変更したりすることにより、該情報Itextを視覚情報Ctextの中で目立たないようにする。また、情報Ibothのフォントサイズを大きくしたりテキストの文字色を黒色から赤色に変更したりすることにより、該情報Ibothを視覚情報Ctextの中で目立つようにする。情報Ibothに対応する視覚情報Ctextが再生されているときに、該視覚情報Ctextの範囲を枠線で囲うようにしたり点滅させたりするようにしてもよい。更に、視覚的に目立たせるだけでなく、例えば、情報Ibothに対応する文字情報Taudioを講師が発話するときの音量を上げたり、再生速度を変更したりするなど、クライアント端末30の使用者が聴覚情報Caudioの変化を感知できるように該聴覚情報Caudioを加工するようにしてもよい。
加工後の教材コンテンツC’の例を図5に示す。情報Iaudioは視覚情報Ctext内に可視化表示され、情報Ibothは目立つように強調表示又は高音声で再生される。その反面、情報Itextの視覚情報量は削減されることになる。このとき、該情報Iaudioと該情報Ibothは、該教材コンテンツC’の再生時刻に関係なく表示されていてもよいし、該情報Iaudioと該情報Ibothに対応する文字情報Taudioを講師が発話する時刻に表示されるようにしてもよい。後者のように視覚情報Ctextを情報Iaudioが言及されている時間に表示させる場合、デュアル・チャンネル・モデルの効果、すなわち、聴覚情報と視覚情報との相互作用による情報伝達効率を更に高めることができる。さらに、上記後者のように文字情報Taudioを講師が発話する時刻に表示する場合、該情報Iaudioと該情報Ibothは一定時間表示させて非表示にするようにしてもよい。このとき、表示時間は予め人手で設定しておいてもよいし、文字数などの情報量や重要度に応じて算出してもよい。該情報Iaudioと該情報Ibothの重要度の算出には、周知の技術を用いればよく、例えば、“文章に対する重要度付与処理における視点情報の有効性の分析”(永松,外1名,東京大学 工学部,情報処理学会 第51回全国大会,1995年,p.119-p.120)を利用する。該情報Iaudioと該情報Ibothの表示サイズについても同様に、文字数などの情報量や重要度に応じて算出して、表示サイズを変えてもよい。
その後、ステップS108において、コンテンツ送信機能部107は、スライド情報変更機能部106から受け取った加工後の教材コンテンツC’をクライアント端末30に送信する。
最後に、ステップS109において、コンテンツ受信機能部302は、コンテンツ加工装置10から送信された教材コンテンツC’を受信し、モニタやマイクを用いて再生する。
〔第2の実施の形態〕
図6は、第2の実施の形態に係るコンテンツ加工システムの構成を示す図である。本実施の形態に係るコンテンツ加工装置10は、韻律情報処理機能部110と、強調区間DB111と、を更に備えて構成される。なお、かかる機能の追加に伴い、本実施の形態では、コンテンツ要求受信機能部101をコンテンツ要求伝達機能部109、音声情報追加機能部105を音声情報加工機能部112、スライド情報変更機能部106をスライド情報加工機能部113、にそれぞれ機能名称を改める。
次に、図7を参照しながら、本実施の形態で行うコンテンツ加工方法を説明する。
まず、ステップS201において、コンテンツ要求送信機能部301は、クライアント端末30の使用者による指定に基づき、教材コンテンツCを要求するための取得要求をコンテンツ加工装置10に送信する。
次に、ステップS202において、コンテンツ要求伝達機能部109は、クライアント端末30から教材コンテンツCの取得要求を受信すると、コンテンツDB108から該教材コンテンツCに関する聴覚情報Caudioと視覚情報Ctextを取得する。そして、該聴覚情報Caudioを音声情報処理機能部102と韻律情報処理機能部110に送信し、該視覚情報Ctextをスライド情報処理機能部103に送信する。
次に、ステップS203において、音声情報処理機能部102は、コンテンツ要求受信機能部101から送信された聴覚情報Caudioに対して音声認識処理を行う文字情報Taudioに変換し、該文字情報Taudioを情報抽出機能部104に送信する。
また、ステップS204において、スライド情報処理機能部103は、コンテンツ要求受信機能部101から送信された視覚情報Ctextから文字情報Ttextを取得し、該文字情報Ttextを情報抽出機能部104に送信する。
さらに、ステップS205において、韻律情報処理機能部110は、コンテンツ要求受信機能部101から送信された聴覚情報Caudioのパワー(強さ),基本周波数(ピッチ),スペクトル変化量(速さ)等を算出し、該算出結果を用いて聴覚情報Caudioから強調区間Cemphasisを抽出して強調区間DB111に格納する。なお、強調区間Cemphasisは公知の技術を用いて抽出できる。例えば、“音声の感性情報に着目したマルチメディアコンテンツ要約技術”(日高,外4名,NTTサイバーソリューション研究所,インタラクション2003論文集,2003年,p.17-p.24)を利用する。
図8は、強調区間DB111のデータ例を示す図である。強調区間DB111には、1つのレコードに聴覚情報Caudioの強調区間Cemphasisに関する情報が保持されており、コンテンツIDカラムと時間カラムと文字情報カラムとから構成される。コンテンツIDカラムには、教材コンテンツを一意に識別可能なIDが格納される。時間カラムには、聴覚情報Caudioの中で話者が強調して発話している区間を表す時間情報が格納される。文字情報カラムには、該区間の音声を文字情報に変換した文字列が格納される。
次に、ステップS206において、情報抽出機能部104は、音声情報処理機能部102から文字情報Taudioを受け取り、更にスライド情報処理機能部103から文字情報Ttextを受け取って、該文字情報Taudioと該文字情報Ttextとを比較し、ステップS105と同様の手法を用いて情報Ibothと情報Iaudioと情報Itextとをそれぞれ抽出する。
その後、ステップS207において、音声情報加工機能部112は、情報抽出機能部104から受け取った情報Iaudioを教材コンテンツCに追加して教材コンテンツCを生成し、該教材コンテンツCと、情報抽出機能部104から受け取った情報Ibothおよび情報Itextと、強調区間Cemphasisと、をスライド情報変更機能部106に送信する。
例えば、ステップS106と同様に、情報Iaudioを文字化して視覚情報Ctextの余白部分に表示するように追加する。更に、該情報Iaudioを文字化する際、該情報Iaudioが強調区間Cemphasisに該当する場合には、該情報Iaudioを目立つように加工する。具体的には、情報Iaudioを文字化する際に該情報Iaudioが強調区間DB111に含まれているかを判定し、含まれている場合には該情報Iaudioの該当部分を特定(決定)し、該部分の情報Iaudioのフォントサイズを大きくしたりテキストの文字色を変更したりすることにより、講師が口頭のみで強調説明した情報Iaudioの強調区間Cemphasisを目立つように加工する。
次に、ステップS208において、スライド情報加工機能部113は、情報Ibothと情報Itextに関する情報と強調区間DB111とを用いて、音声情報追加機能部105から受け取った教材コンテンツCを加工して教材コンテンツC’を生成する。そして、該教材コンテンツC’をコンテンツ送信機能部107に送信する。
例えば、ステップS107と同様に、情報Itextを視覚情報Ctextの中で目立たないように加工し、その一方で情報Ibothを目立つようにする。更に、該情報Ibothが強調区間DB111に含まれているかを判定し、含まれている場合には該情報Ibothの該当部分を特定(決定)し、該部分の情報Ibothを更に目立つように加工する。加工後の教材コンテンツC’の例を図9に示す。図5に示した表示形態以外に、強調区間Cemphasisに該当する情報Iaudioと情報Ibothの各部分がそれぞれ強調表示される。
その後、ステップS209において、コンテンツ送信機能部107は、スライド情報変更機能部106から受け取った教材コンテンツC’をクライアント端末30に送信する。
最後に、ステップS210において、コンテンツ受信機能部302は、コンテンツ加工装置10から送信された教材コンテンツC’を受信し、モニタやマイクを用いて再生する。
なお、第1および第2の実施の形態では、クライアント端末30から教材コンテンツCの取得要求を受けた契機に教材コンテンツを加工する例を説明したが、コンテンツDB108に含まれる全ての教材コンテンツCに対して予め加工処理を行い、該加工処理を行った教材コンテンツC’をコンテンツ加工装置10や他のDBが保持しておくようにしてもよい。
また、第1の実施の形態で具体的に説明した教材コンテンツの加工方法や表示方法を第2の実施の形態に適用してもよい。これまでに説明した加工方法や表示方法は一例にすぎず、その他、吹き出しの追加,文字スタイル(書体,太字,斜体等)の変更,マーキングや網掛けの追加等、対象の情報を強調・非強調できる方法であれば任意の方法を単独又は組み合わせて適用してもよい。
以上より、第1および第2の実施の形態によれば、聴覚情報Caudioと視覚情報Ctextとを比較し、聴覚情報Caudioにのみ含まれている情報Iaudioを視覚情報Ctextに追加し、聴覚情報Caudioと視覚情報Ctextのどちらにも含まれている情報Ibothを該視覚情報Ctextの中で目立つように加工し、視覚情報Ctextにのみ含まれている情報Itextを該視覚情報Ctextの中で目立たないように加工するので、デュアル・チャンネル・モデルに基づいて構成されていないオンライン教育用の教材コンテンツに対して、不足している情報量を増やしたり、講義中には過剰であると考えられる情報量を削除したりすることが可能となる。それにより、受講者が講義を集中して受講しやすいような環境をつくり、講義中の受講者の講義への理解度を向上させることができる。特に、聴覚情報Caudioと視覚情報Ctextのどちらにも含まれている情報Iboth、つまり講義において重要であると考えられる情報を受講者に明示的に提示するので、受講者が講義の要点をつかむのを容易にすることができる。
1…コンテンツ加工システム
10…コンテンツ加工装置
101…コンテンツ要求受信機能部
102…音声情報処理機能部
103…スライド情報処理機能部
104…情報抽出機能部
105…音声情報追加機能部
106…スライド情報変更機能部
107…コンテンツ送信機能部
108…コンテンツDB
109…コンテンツ要求伝達機能部
110…韻律情報処理機能部
111…強調区間DB
112…音声情報加工機能部
113…スライド情報加工機能部
30…クライアント端末
301…コンテンツ要求送信機能部
302…コンテンツ受信機能部
S101〜S109,S201〜S210…ステップ

Claims (6)

  1. コンテンツ加工装置で行うコンテンツ加工方法において、
    前記コンテンツ加工装置は、
    コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力ステップと、
    前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較ステップと、
    前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工する第1の加工ステップと、
    前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する第2の加工ステップと、
    加工後のスライドを出力する出力ステップと、を有し、
    前記第2の加工ステップでは、
    前記音声文字情報にのみ含まれる情報を前記スライドに追加することを特徴とするコンテンツ加工方法。
  2. 前記第1の加工ステップでは、
    前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報を枠線で囲むことを特徴とする請求項1に記載のコンテンツ加工方法。
  3. 前記第2の加工ステップでは
    記音声文字情報に対応しない前記スライドの文字情報の文字サイズを小さくする又は文字色を薄くすることを特徴とする請求項1又は2に記載のコンテンツ加工方法。
  4. 前記音声情報から韻律情報を抽出する抽出ステップと、
    前記韻律情報と前記音声文字情報とを用いて、強調して説明された強調単語を決定する決定ステップと、
    前記強調単語に対応する前記スライドの文字情報を強調する加工ステップと、
    を更に有することを特徴とする請求項1乃至3のいずれかに記載のコンテンツ加工方法。
  5. コンテンツを記憶手段から取得し、前記コンテンツを構成するスライドの文字情報と、前記スライドを説明する音声情報とを入力する入力手段と、
    前記文字情報と、前記音声情報を文字に変換した音声文字情報とを比較し、前記文字情報と前記音声文字情報との両方に含まれる情報と、前記音声文字情報にのみ含まれる情報とを識別する比較手段と、
    前記文字情報と前記音声文字情報との両方に含まれる情報に対応する前記スライドの文字情報が強調されるように前記スライドを加工し、前記音声文字情報にのみ含まれる情報を用いて前記スライドを加工する加工手段と、
    加工後のスライドを出力する出力手段と、を有し、
    前記加工手段は、
    前記音声文字情報にのみ含まれる情報を前記スライドに追加することを特徴とするコンテンツ加工装置。
  6. 請求項5に記載のコンテンツ加工装置としてコンピュータを機能させることを特徴とするコンテンツ加工プログラム。
JP2014257339A 2014-12-19 2014-12-19 コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム Active JP6280025B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014257339A JP6280025B2 (ja) 2014-12-19 2014-12-19 コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014257339A JP6280025B2 (ja) 2014-12-19 2014-12-19 コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム

Publications (2)

Publication Number Publication Date
JP2016118873A JP2016118873A (ja) 2016-06-30
JP6280025B2 true JP6280025B2 (ja) 2018-02-14

Family

ID=56244264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014257339A Active JP6280025B2 (ja) 2014-12-19 2014-12-19 コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム

Country Status (1)

Country Link
JP (1) JP6280025B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023716A (ja) * 2000-07-05 2002-01-25 Pfu Ltd プレゼンテーションシステムおよび記録媒体
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
JP2006267934A (ja) * 2005-03-25 2006-10-05 Casio Comput Co Ltd 議事録作成装置および議事録作成処理プログラム
JP2011065467A (ja) * 2009-09-17 2011-03-31 Sharp Corp 会議中継装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2016118873A (ja) 2016-06-30

Similar Documents

Publication Publication Date Title
JP5664978B2 (ja) 学習支援システム及び学習支援方法
EP2966601A1 (en) Comprehension assistance system, comprehension assistance server, comprehension assistance method, and computer-readable recording medium
US10685644B2 (en) Method and system for text-to-speech synthesis
US20170263143A1 (en) System and method for content enrichment and for teaching reading and enabling comprehension
KR101534413B1 (ko) 상담 정보를 이용하여 상담 대화를 제공하는 방법 및 장치
KR101130276B1 (ko) 수화 통역 시스템 및 방법
CN111831832B (zh) 词表构建方法、电子设备及计算机可读介质
CN111739509B (zh) 电子书音频生成方法、电子设备及存储介质
KR20160002081A (ko) 음성 인식을 활용한 수화 번역 장치 및 그 방법
JP6280025B2 (ja) コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム
KR101432791B1 (ko) 문장 음 높낮이 표시방법 및 문장 음 높낮이를 표시하는 어학콘텐츠 서비스 시스템과 그 방법
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
Varga Online Automatic Subtitling Platforms and Machine Translation
US20160267811A1 (en) Systems and methods for teaching foreign languages
JP2023034235A (ja) テキスト要約方法、テキスト要約システム
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
KR102107447B1 (ko) 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
CN111445925A (zh) 用于生成差异信息的方法和装置
KR20160016313A (ko) 어순과 억양 정보를 이용한 언어 학습 방법
JP2007156888A (ja) 情報提示装置及び情報提示プログラム
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR20140121169A (ko) 청각장애인용 상황대처 음성 자막 변환 방법 및 장치
KR102107445B1 (ko) 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
Engell TaleTUC: Text-to-Speech and Other Enhancements to Existing Bus Route Information Systems
Hamiti et al. Learning opportunities through generating speech from written texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180118

R150 Certificate of patent or registration of utility model

Ref document number: 6280025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150