JP3701850B2 - Spoken language prosody display device and recording medium - Google Patents

Spoken language prosody display device and recording medium Download PDF

Info

Publication number
JP3701850B2
JP3701850B2 JP2000283480A JP2000283480A JP3701850B2 JP 3701850 B2 JP3701850 B2 JP 3701850B2 JP 2000283480 A JP2000283480 A JP 2000283480A JP 2000283480 A JP2000283480 A JP 2000283480A JP 3701850 B2 JP3701850 B2 JP 3701850B2
Authority
JP
Japan
Prior art keywords
section
fundamental frequency
speech
prosody
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000283480A
Other languages
Japanese (ja)
Other versions
JP2002091472A (en
Inventor
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2000283480A priority Critical patent/JP3701850B2/en
Publication of JP2002091472A publication Critical patent/JP2002091472A/en
Application granted granted Critical
Publication of JP3701850B2 publication Critical patent/JP3701850B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音声言語の韻律表示装置および記録媒体に関し、特に詳細には、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を学習したり、分析したりする際の視覚的/聴覚的支援技術に用いられる音声言語の韻律表示装置および記録媒体に関する。
【0002】
【従来の技術】
従来、語学教育における韻律の学習法は、教師の模範発声を聴取後、学習者がこれを真似て発声し、教師が講評するという聴覚中心の学習であった。教師が同席せず、テープなどに録音された模範音声(モデル音声)のみを聴取する場合においては、学習者は自らの発声の良し悪しを判断する手段がなかった。
【0003】
そこで、近年コンピュータを使って、語学教育等における韻律の習得を支援する試み(特開平3−252700号公報、電子情報通信学会技術研究報告SP96−18など)が行われるようになってきた。このようにコンピュータを使うことによって、聴覚的のみならず、視覚的にも学習者を支援することが可能になる。これらには、音声学や音響学の分野で研究用に開発された計算機によるデジタル音声信号処理技術が応用されている。
【0004】
【発明が解決しようとする課題】
しかし、この種のデジタル音声信号処理技術においては、音声の録音条件が悪い場合、例えば環境騒音が大きい、マイクの使い方が不適切、発声の仕方が悪いなどの条件下では正しい処理が行えず、基本周波数の誤抽出などの誤動作が生じやすい。また、誤動作しない場合でも、研究用の詳細な分析結果をそのまま文字やグラフにしてコンピュータ画面に表示しても、そのユーザーである専門知識のない一般人にとっては、語学学習などの参考として分かりにくいなどの欠点があり、一般ユーザーにも分かりやすく提示する技術は現在まで実用化されていない。
【0005】
本発明は上記の事情に鑑み、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声をコンピュータの記憶媒体に記憶しておき、これと同一内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示することで、ユーザーへの語学教育や音声言語の研究を支援することのできる音声言語の韻律表示装置および記録媒体を提供することを目的としている。
【0006】
【課題を解決するための手段】
上記の目的を達成するために本発明の装置は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、前記入力音声の韻律を分析する分析手段と、前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段とを備えた形態を実施した。
【0007】
上記形態で、前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【0008】
上記形態で、前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態であって良い。
【0009】
上記形態で、前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【0010】
上記の目的を達成するために本発明の記憶媒体は、音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、前記プログラムはコンピュータに、前記入力音声の韻律を分析する分析ステップと、前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップとを実行させる形態を実施した。
【0011】
上記形態で、前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する形態であって良い。
【0012】
上記形態で、前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する形態の記録媒体を実施した形態であって良い。
【0013】
上記形態で、前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とする形態であって良い。
【0032】
上記の形態によれば、入力音声を発声する学習者または研究者がフレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続に発声した場合にもスペクトル的不整合を回避して正しい時間的対応付けを行うことができる。
【0033】
上記の形態によれば、学習すべき韻律の特徴を単純化し、聴感的な音の高さの変化に対応して分かりやすく表示することができる。
【0034】
上記の形態によれば、学習者または研究者による入力音声の分析結果を修正して基本周波数の時間軌跡を表示することができる。
【0035】
上記の形態によれば、予めモデル音声の分析結果に対して、学習すべき韻律の特徴を分かりやすくするための修正を加えておくことにより、学習者または研究者の入力音声についてもそれに準拠した修正を加えた基本周波数の時間軌跡が表示できることになる。
【0036】
上記の形態によれば、韻律の学習を聴覚的に支援することができ、例えばモデル音声が男性の声で、学習者または研究者が女性であっても、正しい女性の声の高さで模範音声の韻律を持った音声を再生することができる。
【0037】
上記の形態によれば、学習者または研究者の入力音声の基本周波数の周波数変換を行うことができ、学習者または研究者の入力音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【0038】
上記の形態によれば、モデル音声に対する学習者の入力音声の韻律の類似度を客観的に算出し、学習者に自らの発声のうまさを知らせることができる。
【0039】
上記の形態によれば、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容を学習者または研究者が発声した場合に、その韻律の特徴を学習者または研究者の音声とモデル音声とを比較して視覚的に表示したり、学習者または研究者の音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することを可能とする。
【0040】
【発明の実施の形態】
図1は本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【0041】
100は上記各装置として動作するコンピュータ装置であり、CPU、主記憶装置としてのROM、補助記憶装置としてのHDD、FDD、CPUの作業エリアおよび一時的なデータ記憶領域としてのRAM、外部との音声データのやり取りに用いられるI/F等のハードウエアを備えた周知の構成の汎用コンピュータ、例えば、市販のパーソナルコンピュータやワークステーションを使用することができる。これらハードウエアは図示を省略し、CPUによる処理の流れを機能的ブロック図として示した。また、101はハードディスクアレー等のモデル音声データベース部、120は表示装置である。
【0042】
この図に示すコンピュータ装置100は、上記補助記憶装置または外部記憶装置(図示せず)等の本発明に係る記録媒体から音声言語の韻律表示方法、再生方法、類似度判定方法、または音声言語処理方法のプログラムをロードし、A/D変換部102、分析部103、時間的対応付け部104、修正部105、時間伸縮部106、平滑化/補間部107、表示データ生成部108、差分算出部109、加算部110、基本周波数変換部111、D/A変換部112、および類似度判定部113としての機能を遂行することができる。
【0043】
これら機能により、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」を対象とした場合に、予めモデルとなる模範的な発声がディスク記憶装置等に用意されていることを前提として、これと同じ内容をユーザー(学習者または研究者)が発声した場合に、その韻律の特徴をユーザー音声とモデル音声とを比較して視覚的に表示したり、ユーザーの音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、ユーザーへの語学教育や音声言語の研究を支援する手段を提供するものである。
【0044】
図1におけるモデル音声データベース部101は、例えば語学学習の場合、学習の基本となるフレーズを予めネイティブなアナウンサーなどが模範音声として発声したもの(以後、“モデル音声”と呼ぶ)を、その基本周波数およびパワーやルビの位置、及びその音声波形などとともにデータベース化してハードディスク等の記憶装置(図示せず)に記憶したものである。
【0045】
データベース化の際には、“モデル音声”に対して、例えばフレーム周期5msで有声/無声/無音の判定と基本周波数の抽出(例えば、電子情報通信学会論文誌A、Vol.J80−ANo.9,pp.1341−1350などの方法による)を行い、さらに手修正を加えた後、各有声音区間単位で基本周波数の平滑化(例えば、カットオフ周波数fc=6HzのLPF)を行って基本周波数の時間軌跡を求める。この際、例えば中国語では音節毎に第1声〜第4声および軽声のいずれかの音調がつくことを理解しやすくするため、実際には有声音が連続する場合でも、基本周波数の時間軌跡上で各音節の境界部分は非表示とし、切れ目を入れる修正を目視で加えてデータベース化することにより、学習者または研究者の理解を促進することができる。
【0046】
上記コンピュータ装置100の処理を概略的に説明すると、まず、ユーザーがD/A変換部112およびスピーカ(図示せず)を介してモデル音声を聴取したり、表示装置120の画面に表示されたモデル音声の基本周波数の時間軌跡を参考にして、モデル音声を真似て、コンピュータ装置100に接続されたマイクロホン(図示せず)に向かって発声(以後、“ユーザー音声”と呼ぶ)すると、A/D変換部102を介して“ユーザー音声”が音声波形としてコンピュータ装置100内に取り込まれる。取り込まれた音声波形は、その基本周波数の時間軌跡が自動的に表示装置120の画面に表示され、ユーザーは、自分が発声したものとモデル音声の基本周波数の時間軌跡との違いを視覚的に知ることができる。
【0047】
同時に、基本周波数変換部111により、ユーザー音声の声質を保ちながらモデル音声の韻律を持った、韻律変換された変換音声を生成する。したがってユーザーは、スピーカからの再生音によりユーザー音声とモデル音声を聞き比べるだけでなく、同じユーザー音声の声質の韻律変換前と韻律変換後の音声を聴覚的に聞き比べることもできる。さらに、類似度判定部113により、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度が判定され、判定結果が表示データ生成部108に出力され、表示データに従って表示装置120の画面に表示される。上記モデル音声データベース101とコンピュータ装置100を用いた本実施形態によれば、ユーザーに対し視覚的および聴覚的支援を実現して学習効果を高めることができる。
【0048】
以下、ユーザー音声の基本周波数時間軌跡を表示する処理手順について説明する。
コンピュータ装置100に取り込まれてA/D変換されたユーザー音声波形に対し、分析部103により、例えばフレーム周期5msで有声/無声/無音が判定され、基本周波数が抽出(例えば、電子情報通信学会論文誌A,J80−ANo.9,pp.1341−1350などの方法による)される。
【0049】
分析部103による上記処理の一方で、モデル音声データベース部101に予め記憶してある、モデル音声の音声波形、有声/無声/無音の情報、有声音区間内の非表示位置情報が時間的対応付け部104に取り込まれる。さらに時間的対応付け部104には、ユーザー音声波形と、分析部103により得られた有声/無声/無音の情報が取り込まれる。
【0050】
次に、時間的対応付け部104はこれらの情報を基に、モデル音声とユーザー音声の間で、LPCケプストラムによるDPマッチングを用いて、両者の音声波形の時間的対応付けを行なう。ところで、ユーザーは、フレーズ内でモデル音声には無い間を入れたり、逆に間を挿入すべきところを連続して発声することがある。このような発声に対してはスペクトル的に不整合が生じるため、時間的対応付けが正しく行われないことが多い。そこで、両者の音声の無音と判定されている区間を省いて(削除して)からDPマッチングを行って、両者の音声間の有声/無声の照合結果および有声音区間内の非表示位置の照合結果を生成する。時間的対応付け部104はまた、モデル音声に対するユーザー音声の時間伸縮情報を生成する。
【0051】
修正部105は、上記の照合結果と、分析部103によって一定の時間間隔でフレーム毎に得たユーザー音声の基本周波数とに従い以下の処理を行う。
【0052】
修正部105によってまず、一定の時間間隔のフレーム毎に得られたユーザー音声の基本周波数について、一連の有声音区間の両端のいくつかのフレームで抽出された基本周波数が乱れ、時間変化に対して不規則に変化している場合、その値は後に行なう平滑化/補間部107による平滑化のデータに含めないことにする。乱れていない場合には、滑らかに変化する基本周波数の時間軌跡を表示するために、平滑化/補間部107による平滑化処理をう。
【0053】
基本周波数の乱れの判定は、具体的には次式(1)に従って行なう。
【0054】
【数1】

Figure 0003701850
【0055】
式(1)において、値Aが1以上になった場合には、以下のように平滑化/補間部107による補間の対象区間を決定する。
【0056】
例えば、図2に示すように有声音区間の終端(終了点)側において式(1)の値Aが1以上になった場合、このフレームより後の部分のフレーム(Aが1以上になったフレームを含む)のデータは平滑化のデータから除外し、除外したデータを、後に平滑化/補間部107によって補間の対象区間とする。図2は有声音区間の終端側について示したが、有声音区間の始端(開始点)側において式(1)の値Aが1以上になった場合は、このフレームより前の部分のフレーム(Aが1以上になったフレームを含む)のデータは平滑化のデータから除外し、除外したデータを、後に平滑化/補間部107によって補間の対象区間とする。
【0057】
なお、式(1)中の定数C1〜C3として、C1=0.2,C2=3.0,C3=200程度を用いると良い結果が得られる。
【0058】
続いて修正部105により、時間的対応付け部104によるDPマッチングの結果、モデル音声の有声部にユーザー音声の無声部が対応した場合、そのユーザー音声の区間についても、後の平滑化/補間部107による基本周波数の平滑化のデータから除外し、平滑化/補間部107による補間の対象区間とする。一方、時間的対応付け部104によるDPマッチングの結果、モデル音声の無声部にユーザー音声の有声部が対応した場合、その区間は基本周波数時間軌跡を非表示とするように修正する。
【0059】
さらに続いて修正部105により、時間的対応付け部104によるDPマッチングの結果、モデル音声の有声音区間でも基本周波数時間軌跡を非表示とした部分に対応するユーザー音声の区間について、同様に基本周波数時間軌跡を非表示とするように修正する。
【0060】
次に、上記の通りに修正されたユーザー音声の基本周波数は、時間伸縮部106により、前述の通り時間的対応付け部104によって生成された時間伸縮情報に従ってモデル音声に合わせ時間伸縮される。時間伸縮された基本周波数データPo(t)に対しては、平滑化/補間部107によって、有声音区間で、非表示区間にも補間対象区間にもなっていない部分について平滑化(例えば、カットオフ周波数fc=6HzのLPF)処理を行う。さらに平滑化/補間部107によって、この平滑化データを用い、修正部105によって前述の通りに補間対象区間とされている部分をその周辺の平滑化済み基本周波数時間軌跡の値から最小自乗法により補間し、ユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)を生成する。
【0061】
最後に表示データ生成部108によって、モデル音声の平滑化済み基本周波数時間軌跡の平均値とユーザー音声の平滑化済み基本周波数時間軌跡の平均値を合わせるように、基本周波数時間軌跡を周波数軸方向に適宜シフトさせて調整し、上記の通り整形された時間軌跡を表示装置120の画面に表示させる。図3は実際の表示の一例を示し、白い軌跡がモデル音声の平滑化済み基本周波数時間軌跡、黒い軌跡がユーザー音声の平滑化済み基本周波数時間軌跡であり、これら軌跡とともに、画面上部に対応する中国語の文字の表示とルビ(読み方)の表示がなされている。
【0062】
次に、基本周波数変換部111等による基本周波数変換音声作成の処理手順について説明する。この処理は、ユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)が得られていれば、上記の表示処理と平行して実行される。
【0063】
まず、差分算出部109によりモデル音声データベース部101からモデル音声の平滑化済み基本周波数時間軌跡Pm(t)を取得し、平滑化/補間部107によるユーザー音声の平滑化済み基本周波数時間軌跡Pu(t)との差分(Pm(t)−Pu(t))を求める。しかしこの差分には、両者の平均的な声の高さの差も含まれている。そこで、差分算出部109によりさらに、Pm(t)、Pu(t)それぞれのフレーズ全体にわたる平均値Pmav、Puavを求め、この差分を上記差分から減算してキャンセルすることで、純粋な基本周波数の時間変化の差分Pd(t)=(Pm(t)−Pu(t))−(Pmav−Puav)を算出する。
【0064】
次に、加算部110により、差分算出部109によって算出された差分Pd(t)と平滑化される前のユーザー音声の基本周波数Po(t)とを加算して、最終的な変換音声の基本周波数の時間変化Po(t)+Pd(t)を得る。これにより、ユーザー音声の有声音区間の基本周波数を、時間的対応付けの結果により対応関係にあるモデル音声の有声音区間の基本周波数に入れ替えた合成音声が作成されたことになる。
【0065】
このようにして、変換音声の基本周波数の時間変化、つまり、変換音声の基本周波数を求めることにより、例えばモデル音声が男性の声でユーザー音声が女性の声であっても、ユーザーの女性の声の高さで模範音声の韻律を持った音声を再生できるだけでなく、ユーザー音声の基本周波数の変化量が部分的に極端に大きくなることを防止でき、基本周波数変換を高品質に行うことができる。
【0066】
すなわち、基本周波数変換部111(例えば、電子情報通信学会論文誌A、Vol.J73−ANo.3,pp.387−396などの方法による)により、A/D変換したユーザー音声波形の基本周期の変換(モデル音声の有声音区間の基本周波数に入れ替えた基本周波数の時間軌跡の平均的な値をユーザー音声の基本周波数の時間軌跡の平均的な値に合わせるように時間軌跡全体を周波数軸でシフトさせる)や個々の音の継続時間長の変換を加算部110による基本周波数の時間変化Po(t)+Pd(t)に従って逐次行ない、韻律をモデル音声のものに入れ替えた変換音声を生成し、D/A変換した音声をスピーカ(図示せず)から出力する。
【0067】
次に、モデル音声に対するユーザー音声の基本周波数時間軌跡に関する類似度判定の手順について説明する。この類似度判定処理は、上記基本周波数変換音声作成処理と並列して行なうことかできる。
【0068】
差分算出部109により差分Pd(t)が求められると、類似度判定部113により、この差分Pd(t)=(Pm(t)−Pu(t))−(Pmav−Puav)について、例えばその自乗を次式(2)のようにフレーズ区間全体にわたって積分して得られる値Bを基準として、韻律の類似度を判定する。但し、(2)式においてTはフレーズの時間長であり、無声区間や無音区間、あるいは修正部105により非表示と判定された区間など、基本周波数の時間軌跡が表示されない部分はPd(t)=0として計算する。
【0069】
【数2】
Figure 0003701850
【0070】
(2)式に従い求められた類似度の判定結果Bは、数値またはグラフなどによって、表示装置120の画面に表示される(図示せず)。
【0071】
【発明の効果】
以上説明したように本発明に係る音声言語の韻律表示装置および記録媒体によれば、語学教育や音声言語の研究などにおいて、アクセント/イントネーションや個々の音の長さのバランスなどの所謂「韻律」のモデルとなる模範的な発声と同じ内容をユーザーが発声した場合に、その韻律の特徴をユーザー音声(学習者または研究者の入力音声)とモデル音声とを比較して視覚的に表示したり、ユーザー音声の韻律をモデル音声の韻律にそっくり入れ替えた変換音声を作成して聴覚的に呈示する際に、基本周波数の誤抽出などの誤動作を低減したり、語学学習などの参考になりやすい形に分析結果を整形して表示することにより、学習者への語学教育や研究者の音声言語の研究を支援することができる。
【図面の簡単な説明】
【図1】 本発明に係る音声言語の韻律表示装置の一実施例を示すブロック図である。
【図2】本発明による有声音区間の終端側において式(1)の値Aが1以上になった場合の例を示す説明図である。
【図3】本発明に係る一実施例による表示装置の実際の表示例を示す説明図である。
【符号の説明】
101 モデル音声データベース部
102 A/D変換部
103 分析部
104 時間的対応付け部
105 修正部
106 時間伸縮部
107 平滑化/補間部
108 表示データ生成部
109 差分算出部
110 加算部
111 基本周波数変換部
112 D/A変換部
113 類似度判定部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a prosodic display device and recording medium for spoken language, and more particularly, to learn so-called “prosody” such as accent / intonation and balance of individual sound lengths in language education and spoken language research. The present invention relates to a prosodic display device and a recording medium for spoken language used in visual / auditory support technology when performing or analyzing.
[0002]
[Prior art]
Conventionally, the prosodic learning method in language education has been auditory-centered learning in which a teacher imitates this after listening to the teacher's model utterance, and the teacher reviews it. In the case where the teacher does not attend and listens only to the model voice (model voice) recorded on tape or the like, the learner has no means of judging whether his / her voice is good or bad.
[0003]
Therefore, in recent years, attempts have been made to support the acquisition of prosody in language education or the like using a computer (Japanese Patent Laid-Open No. 3-252700, IEICE technical report SP96-18, etc.). By using the computer in this way, it is possible to support the learner visually as well as auditorily. These are applied to digital audio signal processing technology using computers developed for research in the fields of phonetics and acoustics.
[0004]
[Problems to be solved by the invention]
However, in this type of digital audio signal processing technology, if the audio recording conditions are bad, for example, the environment noise is high, the microphone is improperly used, or the utterance is bad, the correct processing cannot be performed. Malfunctions such as erroneous extraction of the fundamental frequency are likely to occur. In addition, even if it does not malfunction, even if the detailed analysis results for research are displayed as characters or graphs as they are on the computer screen, it is difficult for the general user who has no expertise to understand as a reference for language learning, etc. The technology that presents it to the general user in an easy-to-understand manner has not been put to practical use until now.
[0005]
In view of the above circumstances, the present invention is an exemplary model that becomes a model in advance when studying so-called “prosody” such as accent / intonation and balance of individual sound lengths in language education and spoken language research. When a user utters the same content as a computer utterance, the prosody features are visually displayed by comparing the user voice with the model voice, or the user's voice Prosody display device and recording medium for spoken language that can support language education and spoken language research to users by creating and presenting auditoryly the converted speech in which the prosody of the model is replaced with the prosody of the model speech The purpose is to provide.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the apparatus of the present invention captures model speech from a database in which the prosodic features of the spoken language are previously analyzed and stored, and inputs speech having the same content as the model speech. A prosody display device for a spoken language that displays prosody, wherein the analysis unit analyzes the prosody of the input speech, and the analysis result by the analysis unit and time correlation between the analysis result and the model speech. A means for correcting, detecting an irregular change with respect to time of a fundamental frequency in a voiced sound section of the input speech obtained by analyzing the prosody, and correcting the analysis result so as not to include the change; Correction means; and display means for generating display data for performing the display in a graph according to a correction result by the correction means, the display means by the correction means When it is determined that the voiced part of the model voice corresponds to the unvoiced part of the analysis result as a result of the inter-correlation, the time track of the fundamental frequency of the input voice in the corresponding section is expressed as a voiced part around the input voice. When the unvoiced part of the model voice is determined to correspond to the voiced part of the analysis result, the corresponding section is provided with a display means that does not display. .
[0007]
In the above form, the correcting means detects the irregular change at at least one of both ends of the voiced sound section, and the display means detects the irregular change near the beginning of the voiced sound section. If it is detected, the data of the section from the detection part to the start end is excluded, and / or if the irregular change is detected near the end of the voiced sound section, the data from the detection part to the end is detected. The data of the section may be excluded, and the data of the excluded section may be interpolated using the value of the time trajectory of the fundamental frequency in the vicinity of the detected part among the parts not excluded in the voiced sound section. .
[0008]
In the above form, the analyzing means further extracts a fundamental frequency for the voiced sound section of the input speech in frame units at a predetermined time interval when analyzing the prosody, and the correcting means is configured to determine a predetermined frequency of the voiced sound section. A value determined by the fundamental frequency extracted for the frame, the fundamental frequency extracted for the previous frame of the frame, the time from the start of the voiced sound period to the predetermined frame, and the time length of the voiced sound period When the value is larger than a predetermined value, the irregular change may be detected.
[0009]
In the above form, as a result of the temporal association by the correcting means, the display means includes a corresponding section of the input speech corresponding to a portion where the time trajectory of the fundamental frequency is not displayed in the voiced sound section of the model speech. It may be a form in which the time trajectory of the fundamental frequency is not displayed.
[0010]
In order to achieve the above object, the storage medium of the present invention captures model speech from a database in which the prosodic features of the spoken language have been analyzed and stored in advance and inputs speech having the same content as the model speech. A storage medium storing a prosody display method program for a spoken language for displaying a prosody of the speech, the program analyzing to the computer an analysis step for analyzing the prosody of the input speech, an analysis result in the analysis step, and the model speech The analysis result is corrected by temporally associating the input speech with the time of the fundamental frequency in the voiced sound section of the input speech obtained by analyzing the prosody in the analysis step. A correction step of detecting a change and correcting the analysis result so as not to include the change; and a correction in the correction step. A display step for generating display data for performing the display graphically according to a result, wherein the voiced portion of the model speech corresponds to the unvoiced portion of the analysis result as a result of the temporal association in the correction step If it is determined, the time trajectory of the fundamental frequency of the input speech in the corresponding section is displayed by interpolating using the value of the voiced portion around the input speech, and the unvoiced portion of the model speech is displayed as the analysis result. When it was determined that it corresponds to the voiced part, a form of executing a display step of hiding the corresponding section was implemented.
[0011]
In the above form, in the correction step, the irregular change is detected at at least one of both ends of the voiced sound section, and in the display step, the irregular change is detected near the beginning of the voiced sound section. If it is detected, the data of the section from the detection part to the start end is excluded, and / or if the irregular change is detected near the end of the voiced sound section, the data from the detection part to the end is detected. The data of the section may be excluded, and the data of the excluded section may be interpolated using the value of the time trajectory of the fundamental frequency in the vicinity of the detected part among the parts not excluded in the voiced sound section. .
[0012]
In the above form, in the analyzing step, the fundamental frequency of the voiced sound section of the input speech is extracted in units of frames at predetermined time intervals when analyzing the prosody, and in the correcting step, the predetermined frequency of the voiced sound section is extracted. A value determined by the fundamental frequency extracted for the frame, the fundamental frequency extracted for the previous frame of the frame, the time from the start of the voiced sound period to the predetermined frame, and the time length of the voiced sound period The recording medium may be configured to detect the irregular change when is larger than a predetermined value.
[0013]
In the above embodiment, in the display step, as a result of the temporal association in the correction step, the corresponding interval of the input speech corresponding to the portion where the time trajectory of the fundamental frequency is not displayed in the voiced interval of the model speech It may be a form in which the time trajectory of the fundamental frequency is not displayed.
[0032]
According to the above form, even if a learner or researcher who utters the input speech puts an interval that is not in the model speech in the phrase, or conversely utters a place where the interval should be inserted continuously, spectral inefficiency. Matching can be avoided and correct time association can be performed.
[0033]
According to said form, the characteristic of the prosody which should be learned can be simplified, and it can display in an easy-to-understand manner corresponding to the change of the auditory sound pitch.
[0034]
According to said form, the analysis result of the input audio | voice by a learner or a researcher can be corrected, and the time locus | trajectory of a fundamental frequency can be displayed.
[0035]
According to the above form, the input speech of the learner or researcher is also compliant with the analysis result of the model speech by making corrections to make the prosodic features to be learned easier to understand. The time trajectory of the corrected fundamental frequency can be displayed.
[0036]
According to the above form, prosodic learning can be audibly supported. For example, even if the model voice is a male voice and the learner or researcher is a female, Voices with voice prosody can be played.
[0037]
According to the above embodiment, the frequency conversion of the fundamental frequency of the input voice of the learner or researcher can be performed, and the amount of change in the fundamental frequency of the input voice of the learner or researcher is partially extremely large. And fundamental frequency conversion can be performed with high quality.
[0038]
According to the above aspect, it is possible to objectively calculate the prosody similarity of the learner's input speech with respect to the model speech, and to inform the learner of the goodness of his / her utterance.
[0039]
According to the above form, in language education and spoken language research, the same content as the exemplary utterance that becomes a model of so-called “prosody” such as accent / intonation and balance of individual sound lengths is obtained by the learner or When a researcher speaks, the prosody features are visually displayed by comparing the voice of the learner or researcher with the model voice, or the prosody of the learner or researcher voice is used as the prosody of the model voice. By creating a completely converted speech and presenting it audibly, by reducing malfunctions such as erroneous extraction of the fundamental frequency, or by formatting and displaying the analysis results in a form that can be easily used as a reference for language learning, etc. It is possible to support language education for learners and research on spoken language by researchers.
[0040]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a block diagram showing an embodiment of a spoken language prosody display apparatus according to the present invention.
[0041]
Reference numeral 100 denotes a computer device that operates as each of the devices described above, and includes a CPU, a ROM as a main storage device, an HDD as an auxiliary storage device, an FDD, a CPU work area and a RAM as a temporary data storage area, and external audio. A general-purpose computer having a known configuration including hardware such as an I / F used for data exchange, for example, a commercially available personal computer or workstation can be used. These hardware are not shown, and the flow of processing by the CPU is shown as a functional block diagram. Reference numeral 101 denotes a model voice database unit such as a hard disk array, and 120 denotes a display device.
[0042]
The computer apparatus 100 shown in this figure is a prosody display method, a reproduction method, a similarity determination method, or a speech language processing of a spoken language from a recording medium according to the present invention such as the auxiliary storage device or the external storage device (not shown). A method program is loaded, an A / D conversion unit 102, an analysis unit 103, a temporal association unit 104, a correction unit 105, a time expansion / contraction unit 106, a smoothing / interpolation unit 107, a display data generation unit 108, and a difference calculation unit 109, an adder 110, a fundamental frequency converter 111, a D / A converter 112, and a similarity determination unit 113 can be performed.
[0043]
With these functions, model utterances that are modeled in advance when discriminating so-called “prosody” such as accent / intonation and balance of individual sound lengths in language education and spoken language research are stored in the disc memory. If the user (learner or researcher) utters the same content, provided that the device is prepared, the prosodic features are visually displayed by comparing the user voice with the model voice. When creating a converted voice that replaces the user's voice prosody with the model voice's prosody and presenting it auditorily, it can reduce malfunctions such as mis-extraction of the fundamental frequency, and can be used as a reference for language learning, etc. By formatting and displaying the analysis results in an easy-to-follow form, it provides a means to support language education and spoken language research for users.
[0044]
For example, in the case of language learning, the model voice database unit 101 in FIG. 1 uses a phrase that serves as a model voice by a native announcer or the like (hereinafter referred to as “model voice”) as a basic frequency. In addition, it is stored in a storage device (not shown) such as a hard disk in a database together with the power and ruby position and its sound waveform.
[0045]
At the time of creating the database, for “model speech”, for example, determination of voiced / unvoiced / silent and extraction of fundamental frequency at a frame period of 5 ms (for example, IEICE Transactions A, Vol. J80-ANo. 9). , Pp. 1341-1350), and after further manual correction, the fundamental frequency is smoothed (for example, LPF with a cut-off frequency fc = 6 Hz) for each voiced sound interval unit. Find the time trajectory. At this time, in order to make it easy to understand that, for example, in Chinese, any of the first to fourth voices and the light voice is produced for each syllable, even when voiced sounds are continuous, the time of the fundamental frequency The boundary of each syllable is hidden on the trajectory, and the learner or researcher's understanding can be promoted by creating a database with visual corrections for making breaks.
[0046]
The process of the computer device 100 will be described schematically. First, a user listens to a model sound through the D / A conversion unit 112 and a speaker (not shown), or a model displayed on the screen of the display device 120. With reference to the time trajectory of the fundamental frequency of speech, the model speech is imitated and uttered toward a microphone (not shown) connected to the computer apparatus 100 (hereinafter referred to as “user speech”). The “user voice” is taken into the computer apparatus 100 as a voice waveform via the conversion unit 102. The captured audio waveform is automatically displayed on the screen of the display device 120 with the time trajectory of the fundamental frequency, and the user visually recognizes the difference between what he uttered and the time trajectory of the fundamental frequency of the model speech. I can know.
[0047]
At the same time, the fundamental frequency conversion unit 111 generates prosody converted converted speech having the prosody of the model speech while maintaining the voice quality of the user speech. Therefore, the user can not only hear and compare the user voice and the model voice by the reproduced sound from the speaker, but can also aurally compare the voice of the same user voice before and after the prosody conversion. Further, the similarity determination unit 113 determines the similarity regarding the fundamental frequency time trajectory of the user voice with respect to the model voice, and the determination result is output to the display data generation unit 108 and displayed on the screen of the display device 120 according to the display data. . According to the present embodiment using the model voice database 101 and the computer apparatus 100, visual and auditory support can be realized for the user to enhance the learning effect.
[0048]
Hereinafter, a processing procedure for displaying the fundamental frequency time locus of the user voice will be described.
The analysis unit 103 determines voiced / unvoiced / silent, for example, with a frame period of 5 ms, and extracts a fundamental frequency from the user voice waveform that has been captured by the computer apparatus 100 and A / D converted (for example, the IEICE paper) Magazine A, J80-A No. 9, pp. 1341-1350).
[0049]
While the analysis unit 103 performs the above processing, the model speech speech waveform, voiced / unvoiced / silent information, and non-display position information in the voiced sound section stored in advance in the model speech database unit 101 are temporally correlated. It is captured by the unit 104. Further, the temporal correlating unit 104 receives the user voice waveform and the voiced / unvoiced / silent information obtained by the analyzing unit 103.
[0050]
Next, based on these pieces of information, the temporal correlation unit 104 temporally correlates the voice waveforms between the model voice and the user voice using DP matching based on the LPC cepstrum. By the way, the user sometimes utters a place that is not included in the model voice in the phrase, or conversely where a gap is to be inserted. Since such an utterance is spectrally inconsistent, temporal matching is often not performed correctly. Therefore, DP matching is performed after omitting (deleting) the section determined to be silent for both voices, and the voiced / unvoiced matching result between the two voices and the non-display position matching in the voiced voice section are checked. Generate results. The temporal association unit 104 also generates time expansion / contraction information of the user voice with respect to the model voice.
[0051]
The correction unit 105 performs the following processing according to the collation result and the fundamental frequency of the user voice obtained for each frame by the analysis unit 103 at regular time intervals.
[0052]
First, with respect to the fundamental frequency of the user voice obtained for each frame at a fixed time interval, the fundamental frequency extracted in several frames at both ends of a series of voiced sound intervals is disturbed, and the correction unit 105 If it is irregularly changed, the value is not included in the data smoothed by the smoothing / interpolating unit 107 to be performed later. If there is no disturbance, smoothing processing by the smoothing / interpolating unit 107 is performed in order to display a time locus of a fundamental frequency that changes smoothly.
[0053]
Specifically, the fundamental frequency disturbance is determined according to the following equation (1).
[0054]
[Expression 1]
Figure 0003701850
[0055]
In the formula (1), when the value A is 1 or more, the interpolation target section by the smoothing / interpolating unit 107 is determined as follows.
[0056]
For example, as shown in FIG. 2, when the value A of the expression (1) becomes 1 or more on the end (end point) side of the voiced sound section, the frame after this frame (A becomes 1 or more) (Including the frame) is excluded from the smoothed data, and the excluded data is set as an interpolation target section later by the smoothing / interpolating unit 107. FIG. 2 shows the end side of the voiced sound section. However, when the value A of the expression (1) is 1 or more on the start end (starting point) side of the voiced sound section, the frame of the portion before this frame ( (Including frames in which A is 1 or more) is excluded from the smoothed data, and the excluded data is later set as an interpolation target section by the smoothing / interpolating unit 107.
[0057]
In addition, the constant C in the formula (1) 1 ~ C Three As C 1 = 0.2, C 2 = 3.0, C Three Good results can be obtained when about 200 is used.
[0058]
Subsequently, as a result of DP matching by the temporal correlating unit 104, when the unvoiced part of the user voice corresponds to the voice part of the model voice, the correction unit 105 also performs a subsequent smoothing / interpolating unit for the user voice section. 107 is excluded from the data of the smoothing of the fundamental frequency by 107, and is set as a section to be interpolated by the smoothing / interpolating unit 107. On the other hand, as a result of the DP matching by the temporal association unit 104, when the voiced part of the user voice corresponds to the voiceless part of the model voice, the section is modified so that the fundamental frequency time trajectory is not displayed.
[0059]
Further, as a result of DP matching by the temporal correlating unit 104 by the correcting unit 105, the fundamental frequency is similarly applied to the section of the user voice corresponding to the portion where the fundamental frequency time trajectory is not displayed even in the voiced section of the model voice. Modify to hide the time trajectory.
[0060]
Next, the basic frequency of the user voice corrected as described above is time-expanded by the time expansion / contraction unit 106 according to the time expansion / contraction information generated by the temporal association unit 104 as described above. For the time-expanded fundamental frequency data Po (t), the smoothing / interpolating unit 107 smoothes (for example, cuts) a portion of the voiced sound section that is neither a non-display section nor an interpolation target section. (LPF with off frequency fc = 6 Hz). Further, the smoothing / interpolation unit 107 uses the smoothed data, and the correction unit 105 determines the portion to be interpolated as described above from the value of the smoothed fundamental frequency time trajectory around the portion by the least square method. Interpolation is performed to generate a smoothed fundamental frequency time trajectory Pu (t) of the user voice.
[0061]
Finally, the display data generation unit 108 adjusts the fundamental frequency time trajectory in the frequency axis direction so as to match the average value of the smoothed fundamental frequency time trajectory of the model speech with the average value of the smoothed fundamental frequency time trajectory of the user speech. The time trajectory adjusted as described above is adjusted as appropriate, and the time trajectory shaped as described above is displayed on the screen of the display device 120. FIG. 3 shows an example of an actual display, in which the white locus is the smoothed fundamental frequency time locus of the model speech, and the black locus is the smoothed fundamental frequency time locus of the user speech. Chinese characters and ruby (reading) are displayed.
[0062]
Next, a processing procedure for creating a fundamental frequency converted sound by the fundamental frequency converting unit 111 will be described. This process is executed in parallel with the above display process if a smoothed fundamental frequency time trajectory Pu (t) of the user voice is obtained.
[0063]
First, the difference calculation unit 109 acquires the smoothed fundamental frequency time trajectory Pm (t) of the model speech from the model speech database unit 101, and the smoothed / interpolation unit 107 smoothes the fundamental frequency time trajectory Pu ( The difference (Pm (t) -Pu (t)) from t) is obtained. However, this difference includes the difference in average voice pitch between the two. Therefore, the difference calculation unit 109 further obtains average values Pmav and Puav over the entire phrases of Pm (t) and Pu (t), and subtracts the difference from the difference to cancel, thereby canceling the pure fundamental frequency. The difference Pd (t) = (Pm (t) −Pu (t)) − (Pmav−Puav) is calculated.
[0064]
Next, the addition unit 110 adds the difference Pd (t) calculated by the difference calculation unit 109 and the fundamental frequency Po (t) of the user voice before being smoothed, thereby obtaining the final converted voice basics. A frequency change Po (t) + Pd (t) is obtained. As a result, a synthesized voice is created in which the fundamental frequency of the voiced sound section of the user voice is replaced with the fundamental frequency of the voiced sound section of the model voice that is in a correspondence relationship as a result of temporal association.
[0065]
In this way, by obtaining the time change of the fundamental frequency of the converted voice, that is, the fundamental frequency of the converted voice, for example, even if the model voice is a male voice and the user voice is a female voice, the user's female voice In addition to playing voices with model voice prosody at high heights, it is possible to prevent the amount of change in the fundamental frequency of user voices from becoming extremely large and to perform basic frequency conversion with high quality .
[0066]
That is, the fundamental frequency of the user speech waveform A / D converted by the fundamental frequency converter 111 (for example, by the method of the Institute of Electronics, Information and Communication Engineers Journal A, Vol. J73-ANo. 3, pp. 387-396). Transform (shift the entire time trajectory on the frequency axis so that the average value of the time trajectory of the fundamental frequency replaced with the fundamental frequency of the voiced section of the model voice matches the average value of the time trajectory of the basic frequency of the user voice And the conversion of the duration time of each sound is sequentially performed according to the time change Po (t) + Pd (t) of the fundamental frequency by the adder 110 to generate converted speech in which the prosody is replaced with that of the model speech, and D / A converted sound is output from a speaker (not shown).
[0067]
Next, a procedure for determining the similarity regarding the fundamental frequency time trajectory of the user voice with respect to the model voice will be described. This similarity determination process can be performed in parallel with the fundamental frequency conversion voice creation process.
[0068]
When the difference Pd (t) is obtained by the difference calculation unit 109, the similarity determination unit 113 calculates the difference Pd (t) = (Pm (t) −Pu (t)) − (Pmav−Puav), for example, The prosody similarity is determined based on a value B obtained by integrating the square over the entire phrase section as in the following equation (2). However, in the expression (2), T is the phrase length, and a portion where the time trajectory of the fundamental frequency is not displayed, such as a silent section, a silent section, or a section determined not to be displayed by the correction unit 105, is Pd (t). Calculate as = 0.
[0069]
[Expression 2]
Figure 0003701850
[0070]
The similarity determination result B obtained according to the equation (2) is displayed on the screen of the display device 120 as a numerical value or a graph (not shown).
[0071]
【The invention's effect】
As described above, according to the spoken language prosody display apparatus and recording medium according to the present invention, so-called “prosody” such as accent / intonation and balance of individual sound lengths in language education and spoken language research. When a user utters the same content as an exemplary utterance that is a model of, the prosody characteristics are visually displayed by comparing the user speech (student or researcher input speech) with the model speech When creating a converted voice that replaces the prosody of the user voice with the prosody of the model voice and presenting it auditorily, it is possible to reduce malfunctions such as mis-extraction of the fundamental frequency and to be used as a reference for language learning etc. By formatting and displaying the analysis results, it is possible to support language education for learners and research of researchers' spoken languages.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a spoken language prosody display apparatus according to the present invention.
FIG. 2 is an explanatory diagram showing an example when the value A of the expression (1) becomes 1 or more on the terminal side of the voiced sound section according to the present invention.
FIG. 3 is an explanatory diagram showing an actual display example of the display device according to the embodiment of the present invention.
[Explanation of symbols]
101 Model voice database section
102 A / D converter
103 analysis unit
104 Temporal association part
105 Correction
106 Time expansion / contraction part
107 Smoothing / interpolation unit
108 Display data generator
109 Difference calculation unit
110 Adder
111 Fundamental frequency converter
112 D / A converter
113 similarity determination unit

Claims (8)

音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示装置であって、
前記入力音声の韻律を分析する分析手段と、
前記分析手段による分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正する手段であって、前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正手段と、
前記修正手段による修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示手段であって、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示手段と
を備えたことを特徴とする韻律表示装置。
A prosody display device for a speech language that captures model speech from a database that has been analyzed and stored in advance from features of the prosodic features of the spoken language, inputs speech having the same content as the model speech, and displays the prosody of the input speech,
Analyzing means for analyzing the prosody of the input speech;
A means for correcting the analysis result by temporally associating the analysis result by the analysis means with the model speech, the fundamental frequency in the voiced sound section of the input speech obtained by analyzing the prosody Correcting means for detecting irregular changes with respect to time and correcting the analysis result so as not to include the changes;
Display means for generating display data for performing the display graphically according to the correction result by the correction means, and as a result of the temporal association by the correction means, the voiced portion of the model voice is the analysis result If it is determined that it corresponds to the unvoiced part of the model voice, the time trajectory of the fundamental frequency of the input voice in the corresponding section is interpolated and displayed using the values of the voiced parts around the input voice, and the voiceless part of the model voice is displayed. Display means for displaying the corresponding section in a non-display state when it is determined that the corresponding section is determined to correspond to the voiced portion of the analysis result.
請求項1において、
前記修正手段は、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示手段は、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間する
ことを特徴とする韻律表示装置。
In claim 1,
The correction means detects the irregular change at at least one of both ends of the voiced sound section,
When the irregular change is detected near the beginning of the voiced sound section, the display means excludes data of the section from the detection portion to the start end and / or the end of the voiced sound section. When the irregular change is detected nearby, the data of the section from the detected portion to the end is excluded, and the data of the excluded section is excluded from the unexcluded portions of the voiced sound section. A prosody display device that performs interpolation using a value of a time locus of a fundamental frequency in the vicinity of a detection portion.
請求項1において、
前記分析手段はさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正手段は、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出する
ことを特徴とする韻律表示装置。
In claim 1,
The analysis means further extracts a fundamental frequency for a voiced sound section of the input speech when analyzing the prosody in frame units of a predetermined time interval,
The correction means includes a fundamental frequency extracted for a predetermined frame of the voiced sound section, a fundamental frequency extracted for a frame immediately before the frame, a time from the start of the voiced sound section to the predetermined frame, The prosody display device, wherein the irregular change is detected when a value determined by a time length of the voiced sound section is larger than a predetermined value.
請求項1において、
前記表示手段は、前記修正手段による前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする韻律表示装置。
In claim 1,
The display means, as a result of the time association by the correcting means, is a time of a fundamental frequency of a corresponding section of the input speech corresponding to a portion in which a time locus of the fundamental frequency is not displayed in the voiced section of the model speech. A prosody display device characterized by hiding a locus.
音声言語の韻律の特徴を予め分析して記憶したデータベースからモデル音声を取り込むとともに前記モデル音声と同一内容の音声を入力し、当該入力音声の韻律を表示する音声言語の韻律表示方法のプログラムを記憶した記憶媒体であって、
前記プログラムはコンピュータに、
前記入力音声の韻律を分析する分析ステップと、
前記分析ステップにおける分析結果と前記モデル音声との時間的対応付けを行なうことで前記分析結果を修正するステップであって、前記分析ステップで前記韻律を分析して得られた前記入力音声の有声音区間における基本周波数の時間に対する不規則な変化を検出し、該変化を含めないように前記分析結果を修正する修正ステップと、
前記修正ステップにおける修正結果に従って、前記表示をグラフ的に行なうための表示データを生成する表示ステップであって、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声部が前記分析結果の無声部に対応すると判定された場合、当該対応区間の前記入力音声の基本周波数の時間軌跡を前記入力音声の周辺の有声部の値を用いて補間して表示し、前記モデル音声の無声部が前記分析結果の有声部に対応すると判定された場合、当該対応区間は非表示とする表示ステップと
を実行させることを特徴とする記録媒体。
Stores a speech language prosody display method program that captures model speech from a database that has been analyzed by storing prosody features of spoken language in advance, inputs speech having the same content as the model speech, and displays the prosody of the input speech Storage medium,
The program is stored on a computer.
An analysis step of analyzing the prosody of the input speech;
The step of correcting the analysis result by temporally associating the analysis result in the analysis step with the model speech, and the voiced sound of the input speech obtained by analyzing the prosody in the analysis step A correction step of detecting irregular changes with respect to time of the fundamental frequency in the section and correcting the analysis result so as not to include the changes;
A display step for generating display data for performing the display in a graph according to a correction result in the correction step, and as a result of the temporal association in the correction step, the voiced portion of the model voice is the analysis result If it is determined that it corresponds to the unvoiced part of the model voice, the time trajectory of the fundamental frequency of the input voice in the corresponding section is interpolated and displayed using the values of the voiced parts around the input voice, and the voiceless part of the model voice is displayed. When the recording medium is determined to correspond to the voiced portion of the analysis result, a display step is performed in which the corresponding section is not displayed.
請求項5において、
前記修正ステップにおいて、前記有声音区間の両端の少なくともどちらかで前記不規則な変化を検出し、
前記表示ステップにおいて、前記有声音区間の始端の近くで前記不規則な変化が検出された場合は該検出部分から前記始端までの区間のデータを除外し、および/または前記有声音区間の終端の近くで前記不規則な変化が検出された場合は該検出部分から前記終端までの区間のデータを除外し、除外された区間のデータを前記有声音区間中の除外されなかった部分のうち、該検出部分近傍の基本周波数の時間軌跡の値を用いて補間することを特徴とする記録媒体。
In claim 5,
In the correction step, the irregular change is detected at at least one of both ends of the voiced sound section;
In the display step, when the irregular change is detected near the beginning of the voiced sound section, the data of the section from the detection portion to the start end is excluded and / or the end of the voiced sound section is excluded. When the irregular change is detected nearby, the data of the section from the detected portion to the end is excluded, and the data of the excluded section is excluded from the unexcluded portions of the voiced sound section. A recording medium, wherein interpolation is performed using a time locus value of a fundamental frequency in the vicinity of a detection portion.
請求項5において、
前記分析ステップにおいてさらに、前記韻律を分析する際に前記入力音声の有声音区間についての基本周波数を所定時間間隔のフレーム単位で抽出し、
前記修正ステップにおいて、前記有声音区間の所定フレームについて抽出された基本周波数と、該フレームの一つ前のフレームについて抽出された基本周波数と、前記有声音区間開始から前記所定フレームまでの時間と、前記有声音区間の時間長とによって決まる値が所定値よりも大きい場合に前記不規則な変化を検出することを特徴とする記録媒体。
In claim 5,
In the analyzing step, when analyzing the prosody, the fundamental frequency of the voiced sound section of the input speech is extracted in units of frames at predetermined time intervals,
In the correction step, a fundamental frequency extracted for a predetermined frame of the voiced sound section, a fundamental frequency extracted for a frame immediately before the frame, a time from the start of the voiced sound section to the predetermined frame, The recording medium, wherein the irregular change is detected when a value determined by a time length of the voiced sound section is larger than a predetermined value.
請求項5において、
前記表示ステップにおいて、前記修正ステップにおける前記時間的対応付けの結果、前記モデル音声の有声音区間において基本周波数の時間軌跡を非表示とした部分に対応する前記入力音声の対応区間の基本周波数の時間軌跡を非表示とすることを特徴とする記録媒体。
In claim 5,
In the display step, as a result of the temporal association in the correction step, the time of the fundamental frequency of the corresponding section of the input speech corresponding to a portion in which the time trajectory of the fundamental frequency is not displayed in the voiced section of the model speech A recording medium in which a locus is not displayed.
JP2000283480A 2000-09-19 2000-09-19 Spoken language prosody display device and recording medium Expired - Lifetime JP3701850B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000283480A JP3701850B2 (en) 2000-09-19 2000-09-19 Spoken language prosody display device and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000283480A JP3701850B2 (en) 2000-09-19 2000-09-19 Spoken language prosody display device and recording medium

Publications (2)

Publication Number Publication Date
JP2002091472A JP2002091472A (en) 2002-03-27
JP3701850B2 true JP3701850B2 (en) 2005-10-05

Family

ID=18767837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000283480A Expired - Lifetime JP3701850B2 (en) 2000-09-19 2000-09-19 Spoken language prosody display device and recording medium

Country Status (1)

Country Link
JP (1) JP3701850B2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE338301T1 (en) * 2002-04-15 2006-09-15 Epos Technologies Ltd METHOD AND SYSTEM FOR COLLECTING POSITIONAL DATA
FR2843479B1 (en) 2002-08-07 2004-10-22 Smart Inf Sa AUDIO-INTONATION CALIBRATION PROCESS
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP4565846B2 (en) * 2004-01-08 2010-10-20 ローランド株式会社 Pitch converter
ATE540350T1 (en) 2005-03-23 2012-01-15 Epos Dev Ltd METHOD AND SYSTEM FOR A DIGITAL PIN ASSEMBLY
JP2007017733A (en) * 2005-07-08 2007-01-25 Sharp Corp Input apparatus, input system, input method, input processing program and program recording medium
JP2007140200A (en) * 2005-11-18 2007-06-07 Yamaha Corp Language learning device and program
JP4797597B2 (en) * 2005-11-24 2011-10-19 ヤマハ株式会社 Language learning device
CA2680226A1 (en) 2007-03-14 2008-09-18 Epos Development Ltd. Mems microphone
JP5119700B2 (en) * 2007-03-20 2013-01-16 富士通株式会社 Prosody modification device, prosody modification method, and prosody modification program
WO2013046629A1 (en) * 2011-09-30 2013-04-04 旭化成株式会社 Fundamental frequency extracting device and fundamental frequency extracting method
JP2015125203A (en) * 2013-12-26 2015-07-06 カシオ計算機株式会社 Sound output device and sound output program
JP2017015823A (en) * 2015-06-29 2017-01-19 ブラザー工業株式会社 Speech training device, display control method and program

Also Published As

Publication number Publication date
JP2002091472A (en) 2002-03-27

Similar Documents

Publication Publication Date Title
Felps et al. Foreign accent conversion in computer assisted pronunciation training
US8185395B2 (en) Information transmission device
Kain et al. Improving the intelligibility of dysarthric speech
US8719030B2 (en) System and method for speech synthesis
JP4882899B2 (en) Speech analysis apparatus, speech analysis method, and computer program
US7219059B2 (en) Automatic pronunciation scoring for language learning
US20090306987A1 (en) Singing synthesis parameter data estimation system
JP3701850B2 (en) Spoken language prosody display device and recording medium
KR20150024180A (en) Pronunciation correction apparatus and method
WO2007148493A1 (en) Emotion recognizer
KR20160122542A (en) Method and apparatus for measuring pronounciation similarity
JP2008139568A (en) Voice processing device and method, and program
JP2002040926A (en) Foreign language-pronunciationtion learning and oral testing method using automatic pronunciation comparing method on internet
JP2003186379A (en) Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system
JP3673507B2 (en) APPARATUS AND PROGRAM FOR DETERMINING PART OF SPECIFIC VOICE CHARACTERISTIC CHARACTERISTICS, APPARATUS AND PROGRAM FOR DETERMINING PART OF SPEECH SIGNAL CHARACTERISTICS WITH HIGH RELIABILITY, AND Pseudo-Syllable Nucleus Extraction Apparatus and Program
JP2019008120A (en) Voice quality conversion system, voice quality conversion method and voice quality conversion program
KR20150024295A (en) Pronunciation correction apparatus
KR20080018658A (en) Pronunciation comparation system for user select section
RU2510954C2 (en) Method of re-sounding audio materials and apparatus for realising said method
JP2003162291A (en) Language learning device
JP4839970B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
JP2844817B2 (en) Speech synthesis method for utterance practice
JP4778402B2 (en) Pause time length calculation device, program thereof, and speech synthesizer
Drioli et al. Speaker adaptive voice source modeling with applications to speech coding and processing
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040914

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20041027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041115

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050714

R150 Certificate of patent or registration of utility model

Ref document number: 3701850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100722

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110722

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130722

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term