JP2007206317A

JP2007206317A - オーサリング方法、オーサリング装置およびプログラム

Info

Publication number: JP2007206317A
Application number: JP2006024320A
Authority: JP
Inventors: Juichi Sato; 寿一佐藤; Naohiro Emoto; 直博江本; Akane Noguchi; あかね野口; Ryuichi Nariyama; 隆一成山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-02-01
Filing date: 2006-02-01
Publication date: 2007-08-16

Abstract

【課題】語学学習システムで用いられるコンテンツを効率よく作成する技術を提供する。
【解決手段】コンピュータ装置１のＣＰＵ１１は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成する。次に、ＣＰＵ１１は、各単語をそれぞれ、発音記号辞書から検索し、検索された単語と対応付けて記憶された発音記号を読み出す。続けて、ＣＰＵ１１は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。コンピュータ装置１のＣＰＵ１１は、音声データと、テキストデータ、アクセント位置情報、単語開始時刻情報、発音記号の情報を所定のフォーマットのコンテンツデータとして出力する。
【選択図】図１

Description

本発明は、語学学習用のコンテンツを作成するための技術に関する。

従来より、語学学習を支援する種々のシステムが提案されている。例えば、特許文献１には、音声データに時間軸情報や制御情報を付与したデータを用いた語学学習システムが開示されている。このシステムによれば、音声データの一部分を時間軸単位でランダムにアクセスすることができ、語学学習において文節単位で音声データを再生することが可能となり、効率的に学習ができるようになっている。
また、このように音声データと他の情報とを関連付ける方法として、例えば、特許文献２には、楽曲の音声データから歌詞と時間情報とを抽出し、表示すべき歌詞に表示時間情報を割り付けた表示歌詞データを作成するオーサリングシステムが開示されている。
特開２００４−０６１７８８号公報特開２００１−１７５２６７号公報

ところで、語学学習システムにおいては、模範となる音声を再生するとともにその音声と対応するテキストデータを表示させるものがある。このような語学学習システムの作成者は、音声データとテキストデータとを対応付けたデータ（以下、コンテンツという）や、単語の開始位置などを更に音声データ毎に付加したコンテンツを作成する必要があり、その作業は煩雑である。特に教材となる音声データの数が多いほど多大な時間を費やす必要がある。

本発明は上述した背景の下になされたものであり、語学学習システムで用いられるコンテンツを効率よく作成することのできる技術を提供することを目的とする。

上記課題を解決するため、本発明は、連続的に発音される複数の単語の音声を表す音声データを取得する第１の取得ステップと、前記音声データに対応するテキストデータを取得する第２の取得ステップと、前記第１の取得ステップにより取得した前記音声データと前記第２の取得ステップにより取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップとを備えることを特徴とするオーサリング方法を提供する。
また、本発明は、連続的に発音される複数の単語の音声を表す音声データを取得する取得ステップと、前記取得ステップにより取得した音声データに対して音声認識処理を行ってテキストデータを生成するステップと、前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップとを備えることを特徴とするオーサリング方法を提供する。
本発明の好ましい態様においては、前記時刻情報が生成されるキャラクタは前記単語の先頭のキャラクタであることを特徴とする。
また、本発明の別の好ましい態様においては、前記単語とその単語の発音記号とを対応付けて複数記憶する記憶手段から、前記テキストデータと対応付けて記憶された発音記号を読み出す発音記号読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記発音記号読出ステップにおいて読み出された前記発音記号を付加して出力することを特徴とする。
または、前記音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を示すアクセント位置情報を生成するステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記アクセント位置情報を付加して出力するようにしてもよい。
または、前記単語とその単語の発音における留意点を示す注意情報とを対応付けて記憶する記憶手段から、前記テキストデータと対応付けて記憶された注意情報を読み出す注意情報読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記注意情報読出ステップにおいて読み出された注意情報を付加して出力するようにしてもよい。

本発明によれば、語学学習システムで用いられるコンテンツを効率よく作成することができる。

＜Ａ：構成＞
図１は、この発明の一実施形態であるコンピュータ装置１のハードウェア構成を例示したブロック図である。コンピュータ装置１は、例えばパーソナルコンピュータ等の装置である。図において、１１はＣＰＵ（Central Processing Unit）である。１２はＲＯＭ（Read Only Memory）である。１３はＲＡＭ（Random Access Memory）である。１４は例えばハードディスクなどの大容量記憶装置で構成された記憶部である。ＣＰＵ１１は、ＲＯＭ１２または記憶部１４に記憶されているコンピュータプログラムを読み出して実行することにより、バス１５を介してコンピュータ装置１の各部を制御する。
１６は例えば液晶ディスプレイ等で構成される表示部であり、ＣＰＵ１１の制御の下、文字列や各種メッセージ、コンピュータ装置１を操作するためのメニュー画面等を表示する。１７はキーボードやマウス等の入力装置を備える操作部であり、キーの押下やマウスの操作等に応じて操作内容に対応した信号をＣＰＵ１１へ出力する。

コンピュータ装置１の記憶部１４は、図１に示すように、音声データ記憶領域１４ａと、発音記号辞書記憶領域１４ｂと、コンテンツ記憶領域１４ｃとを有している。音声データ記憶領域１４ａには、連続的に発音される複数の単語の音声を表す、例えばＷＡＶＥ形式等の音声データがセンテンス（文）を単位として複数記憶されている。発音記号辞書記憶領域１４ｂには、複数の単語について、単語とその単語の発音を表す発音記号とが対応付けられて構成された発音記号辞書が記憶されている。
ここで、発音記号辞書のデータ構造について、図２を参照しつつ以下に説明する。図２は、発音記号辞書のデータ構造の一例を示す図である。発音記号辞書は、図示のように、「単語」と「発音記号」との各項目が互いに関連付けて記憶している。これらの項目のうち、「単語」の項目には、各単語をあらわすテキストデータが記憶されている。「発音記号」の項目には、その単語の発音を表す片仮名のテキストデータや発音記号が記憶されている。

次に、記憶部１４のコンテンツ記憶領域１４ｃには、後述するコンテンツ生成処理によって生成されるコンテンツが記憶される領域である。
ここで、コンテンツのデータ構造について、図３を参照しつつ以下に説明する。
図３は、コンテンツのデータ構造の一例を示す図である。コンテンツは音声データの各センテンス毎に生成される。コンテンツは、図示のように、「音声データ」と「テキストデータ」と「単語開始時刻情報」と「発音記号」と「アクセント位置」との各項目が互いに関連付けて構成される。「音声データ」の項目には、記憶部１４に記憶された音声データが格納される。「テキストデータ」の項目には音声データに対応するテキストデータが格納される。「単語開始時刻情報」の項目には、音声データに含まれる各単語の開始時刻を示す情報が格納される。例えば、音声データが「One centimeter is ten millimeters.」の音声を表すデータである場合には、この音声データに含まれる各単語、すなわち「One」、「centimeter」、「is」、「ten」、「millimeters」のそれぞれの単語の発音を開始する時刻を示す情報が格納される。次に、「発音記号」の項目には、テキストデータの発音を表す発音記号または片仮名のテキストデータが格納される。「アクセント位置」の項目には、音声データにおけるアクセントの位置を示す情報が格納される。

次に、コンピュータ装置１のＣＰＵ１１が記憶部１４に記憶されたコンピュータプログラムを実行することによって実現するコンテンツ生成機能について説明する。
図４は、コンピュータ装置１のコンテンツ生成機能に係るソフトウェア構成を示す図である。なお、図において、音声認識部１１１、マッチング部１１２、発音記号検索部１１３および抑揚検出部１１４は、ＣＰＵ１１が記憶部１４に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図において、音声認識部１１１は、記憶部１４に記憶された音声データを読み出し（取得し）、読み出した音声データに対して音声認識処理を行ってテキストデータを生成する。この音声認識処理は、予め記憶されている様々な言葉に対応する音声の特徴量と、発声者により発声された音声の特徴量との間の類似度に基づき、発声者の発声した言葉を特定することによって行う。音声の特徴量の算出方法としては、例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient、メル周波数ケプストラム係数）を用いた方法がある。なお、この音声認識処理は従来の技術であるため、ここではその詳細な説明を省略する。

マッチング部１１２は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタ（文字）との対応関係を検出し、この対応関係に従って、単語の先頭のキャラクタに対応する時刻情報として開始時刻情報を生成する。この処理は、例えばＣＭＵ（Carnegie Mellon University）で開発されたSphinxツール等などによって行う。なお、この技術は従来の技術であるため、ここではその説明を省略する。
発音記号検索部１１３は、記憶部１４に記憶された発音記号辞書を検索し、テキストデータに含まれる各単語と対応付けて記憶された発音記号を読み出す。抑揚検出部１１４は、音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。

＜Ｂ：動作＞
次に、本実施形態の動作について、図５に示すフローチャートを参照しつつ説明する。
図５は、コンピュータ装置１のＣＰＵ１１が行う処理の流れを示すフローチャートである。コンピュータ装置１のＣＰＵ１１は、まず、音声データを記憶部１４から読み出し（ステップＳＡ１）、読み出した音声データに対して音声認識処理を行ってテキストデータを生成し、ＲＡＭ１３に記憶する（ステップＳＡ２）。次に、ＣＰＵ１１は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成し、ＲＡＭ１３に記憶する（ステップＳＡ３）。次に、音声データに含まれる各単語を発音記号辞書から検索し、各単語と対応付けて記憶された発音記号を読み出してＲＡＭ１３に記憶する（ステップＳＡ４）。続けて、ＣＰＵ１１は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成し、ＲＡＭ１３に記憶する（ステップＳＡ５）。

図５のステップＳＡ１からステップＳＡ５までの処理を行うことによって、記憶部１４から読み出した音声データに対して、その音声データと対応する、テキストデータ、アクセント位置情報、単語開始時刻情報、発音記号が生成される。

コンピュータ装置１のＣＰＵ１１は、ＲＡＭ１３に記憶された音声データ、テキストデータ、アクセント位置情報、単語開始時刻情報および発音記号情報を、図３に示したフォーマットのコンテンツデータとして、記憶部１４のコンテンツ記憶領域１４ｃに記憶させる（ステップＳＡ６）。
なお、このとき、記憶部１４に記憶させるに代えて、通信ネットワーク等を介して他の装置にコンテンツを送信するようにしてもよい。要するに、音声データとテキストデータとに、開始時刻情報とアクセント位置情報と発音記号情報とを付加したコンテンツを出力するようにすればよい。

ところで、語学学習システムにおいては、音声データとテキストデータの対応付けや、その音声データの発音記号、注意ポイントなどを設定していく作業は煩雑であった。
これに対し本実施形態においては、音声データから、テキストデータ、単語開始時刻情報および発音記号を自動的に生成するので、語学学習システムで用いるコンテンツを効率よく作成することができる。
ここで、本実施形態で生成するコンテンツを用いた語学学習システムの具体例について、以下に説明する。
図６は、本実施形態で生成するコンテンツを用いた語学学習システム（語学学習ツール）において表示される画面の一例を示す図である。図６に示す画面においては、図３に具体例として例示したコンテンツが用いられている。具体的には、図６に示すように、各単語の発音時間長を示す帯状の図形Ｂ１〜Ｂ５が表示される。この帯状図形は、コンテンツに含まれる「単語開始時刻情報」に基づいてその帯の長さが決定されている。また、帯の内側には、その帯と対応する単語の「テキストデータ」と「発音記号」とが表示される。また、コンテンツに含まれる「アクセント位置」に基づいて、アクセント位置を示すアイコンＩ１が表示される。
このように、各単語の発音時間長やアクセント位置、発音記号などが表示されるので、語学学習システムを利用する学習者は、その例文における発音や注意箇所（アクセント位置）等を視覚的に把握することができ、学習者の学習効率を向上させることができる。
なお、本実施形態に係るコンテンツを用いた語学学習システムは、図６に例示するものに限定されるものではなく、他の語学学習システムにおいても好適に用いることが可能である。

また、従来の語学学習システムにおいては、教材として提供された音声データのみでしか学習を行うことができなかった。一方、例えば映画やラジオなどの音声を教材として学習者が独学で学習を行うことも可能ではあるが、この場合は、その音声に含まれる単語の発音や注意ポイントを学習者が知らない場合には効果的な学習を行うことができない場合があった。
これに対し本実施形態においては、音声データを取得して、その音声データと対応するテキストデータや、単語開始時刻情報、発音記号、注意ポイントなどを自動的に生成し、語学学習システムで利用可能なフォーマットで出力するので、学習者は、任意の音声データを用いて、その音声の発音記号や注意ポイントを確認しつつ学習を行うことができる。すなわち、例えば映画やラジオなどの音声を教材として、語学学習ツールを用いて学習を行うことができるので、学習者は、自身の趣向に即した語学学習を行うことが可能となる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、コンピュータ装置１のＣＰＵ１１が、音声データに対して音声認識処理を行ってテキストデータを生成するようにした。これに代えて、音声データと対応するテキストデータを予め記憶部（図１のテキストデータ記憶領域１４ｄ参照）に記憶させておくようにしてもよい。この場合は、コンピュータ装置のＣＰＵは、音声認識処理を行わず、記憶部に記憶されたテキストデータを読み出して（取得して）、読み出したテキストデータを用いてコンテンツ生成処理を行うようにすればよい。

（２）上述した実施形態においては、コンピュータ装置１がコンテンツの生成をすべて自動的に行うようにしたが、これに代えて、例えば図７に示すような画面をコンピュータ装置の表示部１６に表示させ、作業者が、操作部１７を介してテキストデータなどを入力するようにしてもよい。または、単語の区切り位置を作業者が操作部を用いて変更できるようにしてもよい。このように、画面を表示させてコンテンツのデータの入力や微調整等を可能とすることによって、コンテンツのデータの精度を向上させることができる。なお、作業者がコンテンツの一部のデータを入力または変更するものの、コンテンツの大部分はコンピュータ装置１が自動的に生成するから、この場合であっても、作業者の作業効率を向上させることができる。

（３）上述した実施形態においては、発音記号辞書に単語とその単語の発音を表すカタカナ文字とを対応付けておくようにしたが、カタカナテキストデータに代えて、単語の発音を示す発音記号を、単語と対応付けて記憶させておくようにしてもよい。この場合は、単語と対応する発音記号を発音記号辞書から検索し、検索した発音記号をコンテンツに含めるようにすればよい。
または、単語と発音記号とに加えて、発音で留意すべき箇所を示す注意情報を対応付けて記憶しておき、単語と対応する注意情報もコンテンツに含めるようにしてもよい。具体的には、例えば、英語における「th」や「l」,「r」の発音は間違いやすいので、この発音が含まれる単語とその注意情報とを対応付けて記憶させておくようにすればよい。

（４）上述した実施形態においては、記憶部１４に記憶される模範音声データはＷＡＶＥ形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
なお、上述した実施形態においては、音声データを記憶部に記憶させて、コンピュータ装置１のＣＰＵ１１が記憶部１４から音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。

（５）上述した実施形態においては、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って単語の先頭キャラクタに対して時刻情報を生成するようにした。なお、対応関係を検出するキャラクタは単語の先頭のキャラクタに限定されるものではなく、音声データの再生時刻とテキストデータに含まれる全てのキャラクタとの対応関係を検出するようにしてもよい。このようにすれば、そのコンテンツを用いた語学学習ツールにおいて、例えば、音声データの再生時に音声データと対応するキャラクタの色を変える等して表示させれば、学習者はテキストデータのどの部分が発音されているのかを視覚的に把握することができる。または、所定の間隔毎にキャラクタとの対応関係を検出するようにしてもよい。

（６）上述した実施形態におけるコンピュータ装置１のＣＰＵ１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー（登録商標）ディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でコンピュータ装置１にダウンロードさせることも可能である。

コンピュータ装置のハードウェア構成の一例を示すブロック図である。発音記号辞書のデータ構造の一例を示す図である。コンテンツのデータ構造の一例を示す図である。コンピュータ装置のソフトウェア構造の一例を示すブロック図である。コンピュータ装置の制御部が行う処理の流れを示すフローチャートである。語学学習システムにおいて表示される画面の一例を示す図である。コンピュータ装置の表示部に表示される画面の一例を示す図である。

符号の説明

１…コンピュータ装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…バス、１６…表示部、１７…操作部、１１１…音声認識部、１１２…マッチング部、１１３…発音記号検索部、１１４…抑揚検出部。

Claims

連続的に発音される複数の単語の音声を表す音声データを取得する第１の取得ステップと、
前記音声データに対応するテキストデータを取得する第２の取得ステップと、
前記第１の取得ステップにより取得した前記音声データと前記第２の取得ステップにより取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップと
を備えることを特徴とするオーサリング方法。
連続的に発音される複数の単語の音声を表す音声データを取得する取得ステップと、
前記取得ステップにより取得した音声データに対して音声認識処理を行ってテキストデータを生成するステップと、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップと
を備えることを特徴とするオーサリング方法。
前記時刻情報が生成されるキャラクタは前記単語の先頭のキャラクタであることを特徴とする請求項１または２に記載のオーサリング方法。
前記単語とその単語の発音記号とを対応付けて複数記憶する記憶手段から、前記テキストデータと対応付けて記憶された発音記号を読み出す発音記号読出ステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記発音記号読出ステップにおいて読み出された前記発音記号を付加して出力することを特徴とする請求項１または２に記載のオーサリング方法。
前記音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を示すアクセント位置情報を生成するステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記アクセント位置情報を付加して出力することを特徴とする請求項１または２に記載のオーサリング方法。
前記単語とその単語の発音における留意点を示す注意情報とを対応付けて記憶する記憶手段から、前記テキストデータと対応付けて記憶された注意情報を読み出す注意情報読出ステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記注意情報読出ステップにおいて読み出された注意情報を付加して出力することを特徴とする請求項１または２に記載のオーサリング方法。
連続的に発音される複数の単語の音声を表す音声データを記憶する第１の記憶手段と、
前記音声データに対応するテキストデータを記憶する第２の記憶手段と、
前記第１の記憶手段に記憶された音声データと前記第２の記憶手段に記憶されたテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する時刻情報生成手段と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力手段と
を備えることを特徴とするオーサリング装置。
連続的に発音される複数の単語の音声を表す音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データに対して音声認識処理を行ってテキストデータを生成するテキストデータ生成手段と、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する時刻情報生成手段と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力手段と
を備えることを特徴とするオーサリング装置。
コンピュータに、
連続的に発音される複数の単語の音声を表す音声データを取得する第１の取得機能と、
前記音声データに対応するテキストデータを取得する第２の取得機能と、
前記第１の取得機能によって取得した前記音声データと前記第２の取得機能によって取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する機能と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力機能と
を実現させるプログラム。
コンピュータに、
連続的に発音される複数の単語の音声を表す音声データを取得する取得機能と、
前記取得機能によって取得した音声データに対して音声認識処理を行ってテキストデータを生成する機能と、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する機能と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する機能と
を実現させるプログラム。