JP2012234201A

JP2012234201A - 音声特徴量算出装置

Info

Publication number: JP2012234201A
Application number: JP2012171737A
Authority: JP
Inventors: Hidenori Kenmochi; 秀紀劔持; Hiroshi Kayama; 啓嘉山; Tatsuya Iriyama; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-08-02
Filing date: 2012-08-02
Publication date: 2012-11-29
Anticipated expiration: 2025-11-09
Also published as: JP5605731B2

Abstract

【課題】語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生する。そして、模範音声のピッチの時間的変化を示す第１ピッチ曲線を生成し、第１ピッチ曲線の道程を算出する。語学学習装置は模範音声の再生が終了すると、例文の発話を学習者に促す。語学学習装置１は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置１は、記憶した学習者の音声の時間的変化を示す第２ピッチ曲線を生成し、第２ピッチ曲線の道程を算出する。この後、語学学習装置は、第１ピッチ曲線の道程と、第２ピッチ曲線の道程とを比較し、その道程の差に応じて、模範音声のピッチと学習者音声のピッチとの相違点を学習者へ出力する。
【選択図】図１

Description

本発明は、お手本の発音の抑揚と学習者の発音の抑揚とを比較して評価する技術に関する。

語学学習において、発音練習を行う際には、ＣＤ（CompactDisk）等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。
そこで、例えば、特許文献１に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献１に開示されている語学学習装置は、発音のお手本となる音声と、学習者の音声とから抑揚等の音声情報を抽出する。そして、お手本の音声と、学習者の音声の類似度を求め、その類似度によって学習者の発音を採点し、抑揚等の採点結果をディスプレイに表示する。特許文献１に開示された技術によれば、学習者の発音が客観的に評価され、その評価結果が表示されるため、学習者は、自信の発音がお手本に近いものか否かを知ることができる。

特開２０００−３４７５６０号公報

さて、特許文献１においては、手本の音声の抑揚を示す曲線と、学習者の音声の抑揚を示す曲線とを重ね合わせて、抑揚の類似度を判断する方法が開示されており、自身の発音がお手本に近いものか否かを知ることが可能となっている。しかしながら、類似度だけでは、似ているか否かしか知ることができず、どのようにすればお手本の発音に近づけられるかを知ることはできない。このため、お手本の発音に一致した発音ができるようになるまでには、試行錯誤して発音の改善と評価とを繰り返すという、根気のいる学習を行うこととなる。

本発明は、上述した背景の下になされたものであり、語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする技術を提供することを目的とする。

本発明は、音声が入力される音声入力手段と、前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を算出する算出手段と、前記算出手段により算出された道程を出力する出力手段とを有する音声特徴量算出装置を提供する。
この態様においては、前記算出手段は、前記音声入力手段に入力された音声の無声区間については、該無声区間の前後の音声のピッチによって該無声区間のピッチを補間してピッチ曲線を生成するようにしてもよい。

本発明によれば、語学学習において、学習者は音声の抑揚を、お手本の音声の抑揚に近づけることができる。

本発明の実施形態に係る語学学習装置のハードウェア構成を示した図である。例文テーブルＴＢ１のフォーマットを例示した図である。第１実施形態に係わるＣＰＵ１０２がプログラムを実行することにより実現する機能ブロックの構成を例示した図である。第１実施形態に係わるＣＰＵ１０２が行う処理の流れを示したフローチャートである。ステップＳＡ６の処理を説明するための図である。第２実施形態に係わるＣＰＵ１０２がプログラムを実行することにより実現する機能ブロックの構成を例示した図である。第２実施形態に係わるＣＰＵ１０２が行う処理の流れを示したフローチャートである。学習者の音声のピッチ曲線と、模範音声のピッチ曲線を例示した図である。

以下、図面を参照して本発明の実施形態について説明する。

［第１実施形態］
［実施形態の構成］
図１は、本発明の実施形態に係る語学学習装置１のハードウェア構成を例示したブロック図である。図１に示したように、語学学習装置１の各部は、バス１０１に接続されており、このバス１０１を介して各部間で信号やデータの授受を行う。

マイクロホン１０９は、音声処理部１０８に接続されており、入力される音声をアナログの電気信号（以下、音声信号と称する）に変換して音声処理部１０８へ出力する。スピーカ１１０は、音声処理部１０８に接続されており、音声処理部１０８から出力される信号に対応した音を出力する。音声処理部１０８は、マイクロホン１０９から入力される音声信号をデジタルデータ（以下、学習者データと称する）に変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ１１０へ出力する機能を備えている。

表示部１０６は、例えば、液晶ディスプレイ等の表示デバイスを備えており、ＣＰＵ１０２の制御の下、文字列や各種メッセージ、語学学習装置１を操作するためのメニュー画面等を表示する。入力部１０７は、キーボードやマウス等（いずれも図示略）の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をＣＰＵ１０２へ出力する。

記憶部１０５は、データを永続的に記憶するＨＤＤ（Hard Disk Drive）装置を備えており、各種データを記憶する。具体的には、記憶部１０５は、音声処理部１０８から出力される学習者データを記憶する。また、記憶部１０５は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声（以下、模範音声と称する）を表すデジタルデータ（以下、模範音声データと称する）とを記憶している。記憶部１０５は、図２に例示したフォーマットの例文テーブルＴＢ１を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。

ＣＰＵ（Central Processing Unit）１０２は、ＲＯＭ（Read Only Memory）１０３に記憶されているプログラムを、ＲＡＭ（Random Access Memory）１０４を作業エリアにして実行する。ＣＰＵ１０２がプログラムを実行すると、ＣＰＵ１０２によって各部が制御され、模範音声と、入力される学習者の音声（以下、学習者音声と称する）とを比較し、学習者音声の抑揚の評価結果を出力する機能が実現する。

図３は、プログラムを実行することにより実現する機能の構成を示した機能ブロック図である。時間軸補正部１０は、模範音声データが表す音声の発音時間と、記憶部１０５に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する。ピッチ抽出部２０は、入力されるデータが示す音声を、再生時間軸上において所定の時間間隔で複数のフレームに分割し、分割されたフレーム毎に、各フレームの音声のピッチを抽出する。ピッチ補間部３０は、無声区間や、無声子音の発音区間等、ピッチ抽出部２０においてピッチを抽出することができなかったフレームについて、これらのフレームに隣接するフレームとの間で直線補間や３次スプライン補間等の補間を行い、これらのフレームのピッチを定める。ピッチ曲線生成部４０は、ピッチ抽出部２０でフレーム毎に求められたピッチと、ピッチ補間部３０で補間されたピッチとを結んでピッチ曲線を生成する。道程計算部５０は、ピッチ曲線生成部４０で生成されたピッチ曲線の道程を計算する。

［実施形態の動作］
次に本実施形態の動作について説明する。まず、学習者が例文の一覧の表示を指示する操作を行うと、ＣＰＵ１０２は例文テーブルＴＢ１に格納されている例文テキストデータを読み出し（図４：ステップＳＡ１）、読み出したデータが表す例文の一覧を表示部１０６に表示する（ステップＳＡ２）。この後、学習者が入力部１０７を操作し、表示された例文の一つを選択する操作を行うと（ステップＳＡ３；ＹＥＳ）、ＣＰＵ１０２は、表示部１０６に表示されている画面と、入力部１０７から送られる信号に基づいて、選択された例文を特定する（ステップＳＡ４）。ＣＰＵ１０２は、選択された例文を特定すると、例文テーブルＴＢ１において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す（ステップＳＡ５）。例えば、図２に示したテーブルにおいて、識別子が「００１」である例文が選択された場合、ファイル名「ａ００１」が読み出される。

次にＣＰＵ１０２は、読み出したファイル名で特定される模範音声データを記憶部１０５から読み出し、読み出したデータが示す音声のピッチを抽出する。具体的には、まずＣＰＵ１０２は、模範音声データが示す音声を、図５に示したように、その再生時間軸上において所定の時間間隔（例えば、５ｍｓｅｃ）で分割する（ステップＳＡ６）（以下、各分割された区間をフレームと称する）。次にＣＰＵ１０２は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する（ステップＳＡ７）。なお、１フレームの時間間隔は、５ｍｓｅｃではなく、１０ｍｓｅｃ等、他の時間間隔であってもよい。ＣＰＵ１０２は、分割されたフレーム毎にピッチを抽出すると、フレーム毎に求められたピッチを結んだピッチ曲線を生成し（以下、このピッチ曲線を第１ピッチ曲線と称する）、生成した第１ピッチ曲線を示す曲線データを記憶部１０５に記憶する（ステップＳＡ８）。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や３次スプライン補間等の補間を行い、第１ピッチ曲線を生成する。

ＣＰＵ１０２は、第１ピッチ曲線の生成が終了すると、読み出したファイル名で特定される模範音声データを記憶部１０５から読み出し、読み出した模範音声データを音声処理部１０８へ出力する（ステップＳＡ９）。音声処理部１０８に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ１１０へ出力され、スピーカ１１０から模範音声が再生される。

ＣＰＵ１０２は、模範音声の再生が終了すると、表示部１０６を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する（ステップＳＡ１０）。学習者は、スピーカ１１０から出力された模範音声を聞いた後、メッセージに従って入力部１０７を操作し、模範音声を真似て例文を読み上げる。学習者が発音すると、学習者の音声がマイクロホン１０９によって音声信号に変換され、変換された信号が音声処理部１０８へ出力される。音声処理部１０８は、マイクロホン１０９から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部１０８から出力されて記憶部１０５に記憶される。

次にＣＰＵ１０２は、入力部１０７から送られる信号を監視し、学習者が発音を終了したか否かを判断する。学習者が発音を終了して入力部１０７を操作すると（ステップＳＡ１１；ＹＥＳ）、ＣＰＵ１０２は、模範音声データが表す音声の発音時間と、記憶部１０５に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する（ステップＳＡ１２）。

次にＣＰＵ１０２は、学習者データが示す音声を、ステップＳＡ６の処理と同様にして、その再生時間軸上において複数のフレームに区切り（ステップＳＡ１３）、区切られたフレーム毎に、各フレームにおける音声のピッチを抽出する（ステップＳＡ１４）。ＣＰＵ１０２は、フレーム毎にピッチを抽出すると、ステップＳＡ８と同様にして、フレーム毎に求められたピッチを結んだピッチ曲線（以下、第２ピッチ曲線と称する）を生成し、生成した第２ピッチ曲線を示すデータを記憶部１０５に記憶する（ステップＳＡ１５）。なお、ここでも、無声区間や、無声子音の発音区間等においては、直線補間や３次スプライン補間等の補間を行い、第２ピッチ曲線を生成する。

ＣＰＵ１０２は、第２ピッチ曲線の生成が終了すると、第１ピッチ曲線の道程を算出し、次に第２ピッチ曲線の道程を算出する（ステップＳＡ１６）。ピッチ曲線の道程は、図８に示したように、ピッチ曲線ｆ（ｔ）の１階微分の絶対値の積分を算出すると求まる。図８に示したように、抑揚の変化が大きな音声はピッチの変化が大きくなるため、ピッチ曲線の道程が長くなり、一方、抑揚の変化が小さな音声はピッチの変化が小さくなるため、ピッチ曲線の道程が短くなる。即ち、ピッチ曲線の道程は、抑揚の変化の大きさを表しているといえる。

次に、ＣＰＵ１０２は、第１ピッチ曲線の道程と、第２ピッチ曲線の道程とを比較する（ステップＳＡ１７）。ピッチ曲線の道程は、抑揚の変化の大きさを表しているため、ピッチ曲線の道程を比較することにより、模範音声の抑揚と学習者音声の抑揚とで、どちらが抑揚の変化が大きいかを知ることができる。図８に示したように、第１ピッチ曲線の道程が第２ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より小さいため、例えば、「抑揚の変化が少ない音声です」というメッセージを表示部１０６に表示し、発音を改善するのに有用な情報を学習者へ出力する（ステップＳＡ１８）。また、第２ピッチ曲線の道程が第１ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より大きいため、例えば、「抑揚の変化が大きすぎます」というメッセージを表示部１０６に表示し、発音を改善するのに有用な情報を学習者へ出力する（ステップＳＡ１８）。また、第１ピッチ曲線の道程と第２ピッチ曲線の道程が同じ場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量と同じであるため、例えば、「良い発音です」というメッセージを表示部１０６に表示する（ステップＳＡ１８）。

ＣＰＵ１０２は、学習者へのメッセージの出力が終了すると、表示部１０６を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する（ステップＳＡ１９）。学習者が入力部１０７を操作し、別の例文の発音練習を行う旨の操作を行った場合（ステップＳＡ２０；ＹＥＳ）、ＣＰＵ１０２は、ステップＳＡ１に処理の流れを戻し、ステップＳＡ１以降の処理を再び実行する。また、学習者が入力部１０７を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合（ステップＳＡ２１；ＹＥＳ）、ＣＰＵ１０２は、ステップＳＡ６に処理の流れを戻し、ステップＳＡ６以降の処理を再び実行する。

以上説明したように本実施形態によれば、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。

［第２実施形態］
［実施形態の構成］
次に本発明の第２実施形態について説明する。本実施形態に係わる語学学習装置１Ａのハードウェア構成は、第１実施形態に係わる語学学習装置１と同じとなっている。このため、ハードウェア構成については、その説明を省略する。本実施形態においては、ＣＰＵ１０２がプログラムを実行することにより実現する機能が第１実施形態と異なる。

図６は、ＣＰＵ１０２がプログラムを実行することにより実現する機能の構成を示した機能ブロック図である。図６において、第１実施形態と同じ機能ブロックについては、図３において付した符号と同じ符号を付し、その説明を省略する。Ｈｚ→Ｃｅｎｔ変換部６０は、Ｈｚで表されているピッチをＣｅｎｔに変換する。フィルタ部７０は、ローパスフィルタとして機能し、ピッチの微細な変化を除去する。

［実施形態の動作］
次に、本実施形態の動作について説明する。図７は、本実施形態におけるＣＰＵ１０２の処理の流れを例示したフローチャートである。なお、図７において、第１実施形態と同じ処理については、第１実施形態と同じ符号を付している。

ＣＰＵ１０２は、学習者により例文が選択されると、選択された例文に対応した模範音声データを記憶部１０５から読み出す（ステップＳＡ１〜ステップＳＡ５）。そして、模範音声データが示す音声を、その再生時間軸上において所定の時間間隔で分割する（ステップＳＡ６）。次にＣＰＵ１０２は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する（ステップＳＡ７）。ＣＰＵ１０２は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をＨｚからＣｅｎｔに変換する（ステップＳＢ１）。ＣＰＵ１０２は、ＨｚからＣｅｎｔへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する（ステップＳＢ２）。そして、ＣＰＵ１０２は、フレーム毎に求められたピッチを結んだピッチ曲線（第１ピッチ曲線）を生成し、生成した第１ピッチ曲線を示す曲線データを記憶部１０５に記憶する（ステップＳＡ８）。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や３次スプライン補間等の補間を行い、第１ピッチ曲線を生成する。

この後、ＣＰＵ１０２は、例文の発音を促すメッセージを表示する（ステップＳＡ１０）。学習者が、模範音声を真似て例文を読み上げると、学習者音声が学習者データに変換される。ＣＰＵ１０２は、入力部１０７から送られる信号を監視し、学習者が発音を終了して入力部１０７を操作すると（ステップＳＡ１１；ＹＥＳ）、模範音声データが表す音声の発音時間と、記憶部１０５に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する（ステップＳＡ１２）。

次にＣＰＵ１０２は、学習者データが示す音声を、ステップＳＡ６の処理と同様にして、その再生時間軸上において複数のフレームに分割する（ステップＳＡ１３）。そしてＣＰＵ１０２は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する（ステップＳＡ１４）。ＣＰＵ１０２は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をＨｚからＣｅｎｔに変換する（ステップＳＢ３）。ＣＰＵ１０２は、ＨｚからＣｅｎｔへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する（ステップＳＢ４）。そして、ＣＰＵ１０２は、フレーム毎に求められたピッチを結んだピッチ曲線（第２ピッチ曲線）を生成し、生成した第２ピッチ曲線を示す曲線データを記憶部１０５に記憶する（ステップＳＡ１５）。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や３次スプライン補間等の補間を行い、第２ピッチ曲線を生成する。
ステップＳＡ１５以降の処理の流れは、第１実施形態と同じであるため、その説明を省略する。

以上説明したように本実施形態によっても、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。また、ピッチをＣｅｎｔの単位で比較するので、より人間の聴感に近い評価が可能となる。

［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。

上述した実施形態においては、ステップＳＡ１２の処理、即ち、模範音声の発音時間と学習者音声の発音時間とを合わせる処理を行わないようにしてもよい。また、ステップＳＡ１２の処理においては、模範音声中における各単語の発音時間と、学習者音声中における各単語の発音時間とが同じとなるようにしてもよい。また、ステップＳＡ１２の処理においては、模範音声中における各音素の発音時間と、学習者音声中における各音素の発音時間とが同じとなるようにしてもよい。
また、第１ピッチ曲線と第２ピッチ曲線の道程を比較する際、比較する時間区間は、例文全体の区間でもよいし、予め指定された例文の一部区間、またはユーザが指定した一部区間であってもよい。

上述した実施形態においては、第１ピッチ曲線の道程と第２ピッチ曲線の道程とを比較し、比較結果に応じて、例えば「もう少し抑揚をつけて発音しましょう」というような、発音の改善ポイントを表示するようにしてもよい。また、上述した実施形態においては、例えば音声中の単語を認識し、単語毎に抑揚の評価結果を表示するようにしてもよい。

上述した実施形態においては、学習者の音声についてのみピッチ曲線を生成してピッチ曲線の道程を求め、求めた道程を出力するようにしてもよい。

１・・・語学学習装置、１０１・・・バス、１０２・・・ＣＰＵ、１０３・・・ＲＯＭ、１０４・・・ＲＡＭ、１０５・・・記憶部、１０６・・・表示部、１０７・・・入力部、１０８・・・音声処理部、１０９・・・マイクロホン、１１０・・・スピーカ

Claims

音声が入力される音声入力手段と、
前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を算出する算出手段と、
前記算出手段により算出された道程を出力する出力手段と
を有する音声特徴量算出装置。
前記算出手段は、前記音声入力手段に入力された音声の無声区間については、該無声区間の前後の音声のピッチによって該無声区間のピッチを補間してピッチ曲線を生成すること
を特徴とする請求項１に記載の音声特徴量算出装置。