JP5166369B2 - アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム - Google Patents

アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム Download PDF

Info

Publication number
JP5166369B2
JP5166369B2 JP2009171473A JP2009171473A JP5166369B2 JP 5166369 B2 JP5166369 B2 JP 5166369B2 JP 2009171473 A JP2009171473 A JP 2009171473A JP 2009171473 A JP2009171473 A JP 2009171473A JP 5166369 B2 JP5166369 B2 JP 5166369B2
Authority
JP
Japan
Prior art keywords
mora
change amount
accent
type
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009171473A
Other languages
English (en)
Other versions
JP2011027852A (ja
Inventor
健太郎 橘
剛 平林
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009171473A priority Critical patent/JP5166369B2/ja
Publication of JP2011027852A publication Critical patent/JP2011027852A/ja
Application granted granted Critical
Publication of JP5166369B2 publication Critical patent/JP5166369B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力された音声と音声の各モーラに同期した時刻情報から、入力された音声のアクセント情報を抽出するアクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラムに関する。
一般に、任意の文章(テキスト)から人工的に音声信号を作り出すテキスト音声合成装置が知られている。このテキスト音声合成装置は、内部に言語処理部を備えており、例えば日本語の漢字仮名混じり文から音声合成を行う場合であれば、単語単位の切り出し、読み付け(音韻系列の作成)、アクセントの付与などを行う。さらに、テキスト音声合成装置は、言語処理の解析結果に基づいて、声の高さの変化パターンであるF0変化パターンと各音韻の継続時間長である韻律情報を生成し、最終的にこの韻律情報と音韻系列に従って音声を合成する。しかしながら、ここで出力された合成音声がユーザーの所望している語句のアクセント型とは異なる場合がある。
日本語においてアクセントとは、各モーラにおいて定まっている高低情報の組み合わせであり、これらの組み合わせをアクセント型と言う。図12は、音声が3モーラの場合における東京方言のアクセント型の種類を説明する図である。ここではF0変化パターンが模式化され、黒丸(●)または白丸(○)はそれぞれモーラを表している。3モーラの場合は、この4通りのアクセント型が存在する。また、アクセント位置は、F0変化パターンにおいて下降し始める位置にあるとされ、その位置にあるモーラをアクセント核という。図中の黒丸(●)はこのアクセント核を示している。例えば、図12(a)は、アクセント核が1モーラ目にあるので1型となる。図12(d)の様に、アクセント核が存在しない場合は0型となる。また3型(図12(c))と0型(図12(d))は、4モーラ目の高低の配置によって区別される、つまり3モーラ目まででは、3型と0型を区別することは出来ない。
また、このアクセント型を正確に指定するために表音文字列が用いられている。表音文字列とは、前記言語処理部の解析結果にあたる音韻系列やアクセント位置などの情報を記号化して表したものであり、正しい表記文字列を入力することにより期待通りの合成音声を得ることが可能である。
このような表音文字列の仕様として、例えば非特許文献1に記載されている社団法人電子情報技術産業協会(JEITA)の規格がある。このような表音文字列を用いることで、例えば「ただしいようです」というテキストの代わりに、「タダシ’ー_ヨ’ーデス」(正しいようです)あるいは「タ’ダシ_イヨーデ’ス」(但し異様です)という表音文字列を入力することで、意図したままの音声合成結果を得ることができる。表音文字列上で、カタカナ表記は読みを、クォーテーションマーク「’」はアクセント位置を、アンダーバー「_」はアクセント句の区切りを表している。
しかし、正確な表音文字列を入力するためには音声や言語に関する専門の知識を要するため、これらの知識を持ち合わせない一般者では扱うことが困難である。
そこで、一般者でもアクセント型を指定可能な手法として、ユーザーが発声した音声からアクセント型を検出する手法が知られている(例えば特許文献1、非特許文献2)。特許文献1では、入力された音声のF0変化パターンにおいてF0が低くなる直前の位置をアクセント核とすることによってアクセント型を導出している。
また、非特許文献2では、入力音声に対して、音声認識技術を用いてモーラ毎に切り出しすることで入力音声の各モーラのF0の代表値(代表F0値)を算出し、モーラの代表F0値と後方に隣接モーラの代表F0値との差分値が所定の閾値よりも小さく、かつ最も小さい負の値を取るモーラをアクセント核とすることによってアクセント型を導出している。
特開2005-37423号公報
JEITA IT-4002 日本語テキスト音声合成用記号 石井カルロス寿憲 他、"日本語単語のピッチアクセント型の発音学習システム"、日本音響学会春季講演論文集、pp245-246、Mar. 1999
しかしながら、上記従来技術においては、以下のような問題点があった。
(1)発声する速度や発声した各モーラの継続時間長について考慮されておらず、アクセント型を誤って判定してしまう。
入力音声から抽出された基本周波数の変化パターンであるF0変化パターンは、発声する速度や発声した各モーラの継続時間長に応じてその形状が変化するため、発声内容が同じであってもF0変化パターンの形状が同じであるとは限らない。従って、入力音声の始端時間と終端時間のみ与えられている特許文献1では、各モーラ境界の時刻情報がなければ十分な精度でアクセント型を判定することが困難である。さらに、特許文献1のアクセント核導出方法は、F0変化パターンにおいてF0が低くなる直前をアクセント核とする手法であるため、アクセント核が存在しないアクセント型0型の判定に関して考慮されていない。
(2)当該モーラと後方に隣接するモーラとのF0変化パターンにおける差分値が最も小さくなるモーラがアクセント核と一致しない場合に、アクセント型を誤って判定してしまう。
上述の通り、通常日本語のアクセント核はF0変化パターンにおいて下降する箇所にあるとされ、非特許文献2のアルゴリズムは日本語のアクセント型の特徴に基づいている。しかし、この特徴の限りではない例も存在する。図13は、上記従来技術におけるアクセント型判定の成功例と失敗例を示す図である。ここでは、従来技術の動作の一連の流れが示されている。通常、図13(a)の様に差分値が最も小さくなる(図中、斜線の白丸(○))モーラにアクセント核が存在する。しかし、図13(b)の様な反例も存在する。これはF0変化パターンの下降する位置つまりアクセント核と、差分値が最も小さくなるモーラとが一致しない場合に生じる。このような場合、従来技術ではアクセント型を誤判定してしまうといった問題があった。
そこで、本発明では、上記従来技術の問題を鑑み、各モーラの継続時間長や発声速度が一定でないといった個人間の違いが生じる場合や当該モーラと後方に隣接するモーラとのF0変化パターンにおける差分値が最小となるモーラがアクセント核とならない場合であっても、入力音声のアクセント型を正確に判定可能なアクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラムを提供することを目的とする。
本発明に係るアクセント情報抽出装置は、入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出部と、前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力部と、前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンにおいてモーラ毎にモーラ代表値を求め、このモーラ代表値と後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出部と、前記算出されたモーラ変化量からアクセント型0型を判定する第1の閾値と、アクセント型0型以外を判定する第2の閾値とを記憶する閾値記憶部と、前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出部と、前記検出されたモーラ変化量である変化量最小値に基づいて、前記第1の閾値より大きい場合は0型と判定し、前記第1の閾値よりも小さい場合は、前記変化量最小値を持つモーラより前方のモーラのモーラ変化量を連続して探索し、前記モーラ変化量が前記所定の第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、アクセント型を判定するアクセント型判定部と、を有することを特徴とする。
本発明に係るアクセント情報抽出方法は、入力音声のアクセント型を判定するコンピュータにおけるアクセント情報抽出方法であって、前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出ステップと、前記入力音声の前記モーラ同期情報を入力するモーラ同期情報入力ステップと、前記F0変化パターンと前記モーラ同期情報とを用いて、モーラのF0変化パターンを基準とした後方に隣接するモーラのF0変化パターンとの変化量であるモーラ変化量を算出する変化量算出ステップと、前記算出されたモーラ変化量からアクセント型0型を判定するための第1の閾値と、アクセント型0型以外を判定するための第2の閾値とを記憶する閾値記憶ステップと、前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出ステップと、前記検出されたモーラ変化量である変化量最小値に基づいて、前記所定の第1の閾値より大きい場合は0型と判定し、前記所定の第1の閾値よりも小さい場合は前記変化量最小値を持つモーラより前方のモーラに係るモーラ変化量を連続して探索し、前記モーラ変化量が前記所定の第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、前記アクセント型を判定するアクセント型判定ステップと、を有することを特徴とする。
本発明に係るアクセント情報抽出プログラムは、入力音声のアクセント型を判定するコンピュータに、前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出プログラムと、前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力プログラムと、前記F0変化パターンと前記モーラ同期情報とを用いて、モーラのF0変化パターンを基準とした前方に隣接するモーラのF0変化パターンとの変化量であるモーラ変化量を算出する変化量算出プログラムと、前記算出されたモーラ変化量から前記アクセント型を判定するための所定の閾値を記憶する閾値記憶プログラムと、全ての前記モーラ変化量が前記閾値より大きい場合は0型と判定し、前記閾値より小さいモーラ変化量が存在する場合は前記モーラ変化量が前記閾値よりも小さいモーラのうち一番前方のモーラをアクセント核とすることによって、前記アクセント型を判定するアクセント型判定プログラムと、を実行させることを特徴とする。
本発明によれば、各モーラの継続時間長や発声速度が一定でないといった個人間の違いが生じる場合や当該モーラと後方に隣接するモーラとのF0変化パターンにおける差分値が最小値となるモーラがアクセント核とならない場合であっても、入力音声のアクセント型を正確に判定可能なアクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラムが提供される。
本発明の実施形態1に係るアクセント情報抽出装置の構成例を示すブロック図。 図1に示すアクセント情報抽出装置のアクセント情報抽出方法を説明する図。 図1に示す変化量算出部におけるモーラ同期情報の修正手順を説明する図。 図1に示す変化量算出部における当該モーラ変化量Vの算出手順を説明する図。 アクセント型0型における当該モーラ変化量Vを説明する図。 第2の閾値Tの導出手順を説明する図。 図1に示すアクセント型判定部のアクセント型判定処理の具体例を示すフローチャート。 本発明の実施形態2に係るアクセント情報抽出装置の構成例を示すブロック図。 図8に示すアクセント情報抽出装置のアクセント情報抽出方法を説明する図。 図8に示すアクセント型判定部のアクセント型判定処理の具体例を示すフローチャート。 本発明の実施形態1および2に係るアクセント情報抽出装置の相違を説明する図。 日本語における3モーラのアクセント型の種類を説明する図。 従来技術におけるアクセント型判定の成功例と失敗例を示す図。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(実施形態1)
図1は、本発明の実施形態1に係るアクセント情報抽出装置の構成例を示すブロック図である。同図に示されるように、本実施形態に係るアクセント情報抽出装置は、F0抽出部100、モーラ同期情報入力部101、変化量算出部102、変化量最小値検出部103、閾値記憶部104およびアクセント型判定部105を備え、入力された音声からアクセント核を検出することでアクセント型を判定する装置である。
F0抽出部100は、マイクロホンなどの入力装置から入力された入力音声波形200からF0変化パターン202を抽出するプログラムである。
モーラ同期情報入力部101は、入力音声の各モーラに同期した時刻情報であるモーラ同期情報201を入力するプログラムである。
変化量算出部102は、F0抽出部100において抽出されたF0変化パターン202とモーラ同期情報入力部101より入力されたモーラ同期情報201を用いて、当該モーラのF0変化パターン202を基準として、モーラ毎に後方に隣接するモーラとの変化量である当該モーラ変化量を算出するプログラムである。
変化量最小値検出部103は、変化量算出部102において算出された当該モーラ変化量が最も小さい負の値を持つモーラを検出するプログラムである。
閾値記憶部104は、アクセント型0型を判定するための第1の閾値(以下、「閾値T1」という。)と、アクセント型0型以外を判定するための第2の閾値(以下、「閾値T2」という。)とを記憶する記憶装置である。尚、閾値T1と閾値T2はT1≧T2を満たす必要がある。
アクセント型判定部105は、変化量最小値検出部103において算出された変化量最小値に基づいて、閾値T1より大きい場合は0型と判定する。また、変化量最小値が閾値T1よりも小さい場合は、変化量最小値を持つ当該モーラより前方のモーラの当該モーラ変化量を連続して探索し、その当該モーラ変化量が閾値T2よりも小さく、かつ、最先のモーラをアクセント核とすることによってアクセント核を決定するプログラムである。
次に、アクセント情報抽出装置の動作について図1、図2に基づいて説明する。図2は、入力された音声からアクセント型を判定するまでの一連の動作を示している。ここでは、「引き算は(ひ/き/ざ/ん/は)」というフレーズに対してアクセント型を判定するために発声した例が示されている。この場合、「引き算は」は2モーラ目の「き」にアクセント核が来るため、アクセント型は2型となる。
以下、本実施形態の一連の動作を図2に基づいて説明する。
まず、音声を例えばマイクロホンの様なものを用いて入力する。入力音声波形200(図2(a))からF0抽出部100においてF0変化パターン202(図2(b))を抽出する。次に、抽出されたF0変化パターン202に対して、入力音声の各モーラに同期したモーラ同期情報201をモーラ同期情報入力部101から取得し、変化量算出部102において、各モーラの当該モーラ変化量を算出する。ここで、当該モーラ変化量をV(n=1…(M−1))、Mはモーラ数とする。例えば、n=1の時、当該モーラ変化量Vは、当該モーラと後方に隣接するモーラとの変化量なので、1モーラ目と2モーラ目との変化量を示している。
変化量の算出方法としては、例えば当該モーラと後方に隣接するモーラとの傾き、上記従来技術の様に各モーラの代表F0を導出し、その代表F0間での差分が考えられる。例として図2(c)は、後者の手法を示す。図中の黒丸(●)は、各モーラの代表F0を示している。変化量算出結果は、図2(d)の様になる。そして、アクセント型を判定するための閾値を閾値記憶部104から取得し、アクセント型判定部105において、閾値T1、T2を用いて、変化量最小値(図2(h))からアクセント型を判定する。ここで、変化量最小値をmin(V)=Vとする。図2(d)では、変化量最小値Vより前方のモーラ変化量Vの内、第2の閾値T2より小さい一番前方にあるモーラの当該モーラ変化量Vは図中斜線の白丸(○)となる。よって、アクセント核が2モーラ目にあると判定される。以上により、判定結果は「き」となり(図2(f))、真のアクセント核(図2(g))と一致することが確認出来る。またこの時n=2となり、アクセント核と一致していることから、アクセント型はn型であるとも言える。
以下、図1の各部における詳細な動作について示す。
F0抽出部100では、入力された音声から声の高さを表す情報であるF0を抽出する。ここで、F0とは種々の表現方式を含み、例えば基本周波数、対数基本周波数が考えられる。そして、音声の入力手段としては例えばマイクロホンを使用するが、音声ファイルを入力しても良い。
モーラ同期情報入力部101では、各モーラに同期した時刻情報であるモーラ同期情報201が入力される。モーラ同期情報201は、各モーラの始端、終端、中心など、モーラ毎の継続時間を導出可能な時刻情報を指す。その取得手段として、例えばユーザーが、マウス、キーボートやマイクなどの入力手段を用いて任意または一定のタイミングでモーラ同期情報201を入力する場合と、種々の公知の音声認識技術を用いてモーラ同期情報201を取得する場合と、が考えられる。
変化量算出部102は、F0抽出部100にて抽出されたF0変化パターン202とモーラ同期情報入力部101にて取得されたモーラ同期情報201を用いて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量である当該モーラ変化量をそれぞれ算出する。
上述したように、モーラ同期情報201の取得手段には、主に2つが考えられる。その内の一つは、ユーザーが、マウス、キーボードやマイクなどの入力手段を用いてモーラ同期情報201を入力する手法であるが、この場合、正確なモーラ同期情報201を取得することが難しく、誤差が生じてしまう。従って、誤差を修正する必要がある。その手法として例えば、取得されたモーラ同期情報201に対して所定の固定値を加算または減算する、所定の比率を乗じる、隣接する後方または前方とのモーラ同期情報201との外挿、内挿を用いる手法が用いられる。これら所定の固定値、比率、または外挿、内挿の割合は、例えば取得されたモーラ同期情報201と、参照データ(例えば音声波形を観察し、手動で判定したモーラ同期情報201)との差分値の統計的データによって決定することが出来る。
以下、所定の固定値、比率による修正手順の一例を図3に基づいて説明する。図3は、図1に示す変化量算出部102におけるモーラ同期情報201の修正手順を説明する図である。ここでは、入力音声波形200とそれに対応するユーザーが入力したモーラ同期情報201が示されている。モーラ同期情報201の入力手段として発声に合わせてスペースキーを押す場合を例にとって以下に各モーラのモーラ継続時間導出の一例を説明する。まず、ユーザーは発声すると同時に、スペースキーを押下する。モーラ毎にスペースキーが押下された時刻(図3(a))を取得し、正確なモーラ始端時刻を算出するために、取得されたモーラ同期情報201は、隣接する後方のモーラ同期情報201との所定の割合で内挿を行うことで、修正する(図3(b))。また、先頭モーラの始端時刻に対してはモーラ始端時刻、最終モーラのモーラ終端時刻に関しては最終モーラのモーラ始端時刻、それぞれ別の所定の固定値を加算することによって算出している。そして、モーラの始端時刻から隣接する後方モーラの始端時刻までを各モーラのモーラ継続時間300(図3(c))とする。
モーラ変化量Vの変化量として、差分値、傾きが考えられる。傾きの算出方法として例えば、当該モーラと後方に隣接するモーラにわたる区間内のフレームの1次回帰直線が挙げられる。また、差分値の例としてはモーラ毎の代表F0値を算出し、当該モーラと、隣接する後方のモーラとの代表F0値の差分値が考えられる。代表F0値としては、当該モーラにおける区間内のフレームのF0値の平均、中央値の平均およびその周辺を使うことが考えられる。以下、変化量を差分値とした場合の変化量算出の一例を図4に基づいて説明する。図4は、図1に示す変化量算出部102における当該モーラ変化量Vの算出手順を説明する図である。ここでは、F0抽出部100から抽出されたF0変化パターン202と、モーラ同期情報入力部101より入力されたモーラ同期情報201とを用いて当該モーラ変化量Vを算出する一連の動作が示されている。
まず、入力音声波形200(図4(a))からF0抽出部100を用いてF0変化パターン202(図4(b))を抽出する。次に、上記各モーラの代表F0値算出手法の内、モーラ区間内のフレームのF0値の中央値およびその周辺の平均を用いて、F0変化パターン202からモーラ継続時間300内の代表F0値(図4(c))を算出する。そして、当該モーラの代表F0値と後方に隣接するモーラの代表F0値との差分値(図4(d))を当該モーラ変化量Vとする。図4(d)にあるように、Vは1モーラ目と2モーラ目のモーラ変化量を表しており、以下同様にVは2モーラ目と3モーラ目、Vは3モーラ目と4モーラ目、Vは4モーラ目と5モーラ目の当該モーラ変化量を表している。
閾値記憶部104では、閾値T1および閾値T2が記憶されている。閾値T1は、アクセント型0型とそれ以外のアクセント型を区別するための閾値である。アクセント型0型の特徴は、F0変化パターン202が平板であり、アクセント核が存在しない点である。よって、変化量最小値Vは他のアクセント型に比べ、大きい値を示すと考えられる。アクセント0型とその他アクセント型を区別するための閾値T1の導出方法の一例を図5に基づいて説明する。図5は、アクセント型0型における当該モーラ変化量Vを説明する図である。図5(a)は、アクセント型0型(実線)と2型(破線)のF0変化パターン202を示している。そして、図5(b)、(c)はそれぞれ代表F0値、当該モーラ変化量Vを示している。図5(a)からも分かるようにアクセント型0型のF0変化パターン202はなだらかに下降している。このなだらかな下降と、アクセント核による下降を判別する閾値がT1である。閾値T1は、図5(d)の様にアクセント0型の変化量最小値データと、その他のアクセント型の変化量最小値データを収集する。次に収集された統計データから、アクセント型0型とその他のアクセント型を区別するために、それぞれのヒストグラムを観察することにより決定する。
図6は、第2の閾値T2の導出手順を説明する図である。上述のように、日本語のアクセント核は多くの場合、F0変化パターン202の下降し始めに存在する。しかし、図6の様に真のアクセント核(図6(e))は2モーラ目であるが、変化量最小値V(図6(d))を持つモーラ、つまりNモーラ目であるため、5モーラ目となり(図6(f))、必ずしも真のアクセント核(図6(e))と変化量最小値Vを持つモーラ(図6(f))とが一致するとは限らない。図6のような場合においてF0変化パターン202の下降始めを検出するために、変化量最小値Vより前方のモーラに対して当該モーラ変化量Vを連続探索する。ここで、アクセント核の当該モーラ変化量VはF0変化パターン202が下降し始める直前の当該モーラ変化量Vである平板参照データ(図6(g))となり、アクセント核と変化量最小値Vを持つモーラとの間にあるモーラの当該モーラ変化量VはF0変化パターン202が下降している区間の当該モーラ変化量Vである下降参照データ(図6(h))となる。この平板参照データと下降参照データを統計データ、例えばヒストグラムを比較することによって、アクセント核を検出する当該モーラ変化量Vに対する閾値(閾値T2)を作成できる。具体的には、アクセント型の判定誤差が最も少なくなる様に調整された、当該モーラ変化量Vに対する変化量最小値Vの比率、または所定値が考えられる。よって、閾値T2は、F0変化パターン202がアクセント核となりうる程下降しているか否かを判定する閾値である。尚、上記の閾値T2作成方法ではアクセント核が既知である必要があるが、例えば、実際に音声を聞き、手動で割り付けることでアクセント核をつけたデータを用意することも出来る。
アクセント型判定部105は、各モーラの当該モーラ変化量Vからアクセント核を導出することによりアクセント型を判定する。図7は、図1に示すアクセント型判定部105のアクセント型判定処理の具体例を示すフローチャートである。
まず、変化量算出部102によって、算出された当該モーラ変化量Vの内、変化量最小値Vを求める(S701)。変化量最小値Vが閾値記憶部104に記憶されている閾値T1より大きい場合においては0型とする(S702)。小さい場合においては、N>1であるか、さらにV(N−1)が閾値T2より小さいかを調べる。大きい場合は、Nモーラ目にアクセント核があると判定し、アクセント型はN型となる(S703)。そして、小さい場合は前方のモーラの当該モーラ変化量を探索する(S704)。N=1の場合は1型となり、これ以上は前方を検索することは出来ないため処理を終了する。
一般に、日本語のアクセント核は、F0変化パターン202の下降するモーラが存在することから変化量最小値Vを持つモーラがアクセント核となることが多い。しかし、本実施形態に係るアクセント情報抽出装置によれば、図6に示されるように真のアクセント核(図6(e))と、変化量最小値Vを持つモーラ(図6(f))が異なる場合においても、変化量最小値Vを持つモーラより前方の当該モーラ変化量に対して連続探索することで、真のアクセント核を検出し、正確にアクセント型を判定することが出来る。すなわち、音声の専門的な知識を持たない一般者でも望んでいるアクセント型を正確、かつ、容易に指定することが出来るため、所望の合成音声も出力可能となる。
(実施形態2)
次に、本発明の実施形態2に係るアクセント情報抽出装置を図面に基づいて説明する。図8は、本実施形態に係るアクセント情報抽出装置の構成例を示すブロック図である。基本的な構成は実施形態1とほぼ同様であるが、図1と比して変化量最小値検出部103が省略されている。また、図1と共通する符号は同一の機能を表すものとし、ここでは実施形態1との相違点に着目して説明する。
本実施形態のアクセント情報抽出の一連の流れを図9に基づいて説明する。まず、F0抽出部100に入力音声波形200(図9(a))のF0変化パターン202を抽出(図9(b))し、次にモーラ同期情報入力部101を用いて、当該モーラ変化量V(図9(c))を算出する。そして、当該モーラ変化量Vを所定の閾値(閾値T)を用いて先頭から判定していき、最初に閾値Tより小さくなった当該モーラ変化量Vを持つモーラに隣接する前方のモーラ、つまりNモーラ目をアクセント核とする(図9(d))ことでアクセント型を判定する。
本実施形態における閾値記憶部104は、閾値Tを記憶している。閾値Tは、実施形態1における閾値T2の場合と同様にF0変化パターン202がアクセント核となりうる程に下降しているか否かを判定する閾値である。よって、閾値T2と同様の導出方法で作成可能である。
本実施形態のアクセント型判定部105のフローチャートを図10に示す。まずn=1とし(S1001)、当該モーラ変化量Vを導出する(S1002)。次にモーラ変化量Vに対して閾値Tと比較して、小さい場合はnモーラ目をアクセント核とする、つまりアクセント型をn型と判定する(S1003)。そして、後方のモーラの対しても同様の処理をする(S1004)。全てのモーラが閾値Tより大きい場合、つまりn=M(Mはモーラ数)となる時、アクセント核がないと判定し、アクセント0型とする(S1005)。
このように、本実施形態によれば、従来技術では誤検出が発生していた例えば図6に見られるように真のアクセント核(図6(e))と、変化量最小値Vを持つモーラ(図6(f))が異なる場合において、適切な閾値Tを用いることで、正確にアクセント型を判定することが出来る。
また、当該モーラ変化量Vを求めるだけでよいため、実施形態1より簡易にアクセント型を判定出来る。しかし、図11の様な例も考えられる。図11では、発声内容「む/ず/か/し/い(難しい)」に対し、真のアクセント核は「し」(図11(g))にある。第2の実施形態では閾値Tより小さくなった一番先頭の当該モーラ変化量Vをアクセント核とするため、「ず」がアクセント核と判定される(図11(f2))。しかし、第1の実施形態では、変化量最小値Vより前方の当該モーラ変化量を探索していき、閾値T2よりも小さくなった場合に限り一番前方の当該モーラ変化量Vを持つモーラをアクセント核とする。今回の例では、変化量最小値Vの1つ前方の当該モーラ変化量Vは閾値T2よりも大きいため、前方への探索を終了し、変化量最小値Vを持つモーラがアクセント核となる。従って、アクセント核は「し」と判定される(図11(f1))。しかし、図11の様な例は稀であるため、実施形態1の場合と比較して、本実施形態に係るアクセント情報抽出装置は、判定精度が大きく劣化しない範囲においては処理量を軽減することが出来るという利点がある。
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。また、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。例えば、実施形態1では、2種類の閾値(閾値T1、T2)が存在したが、閾値T1と閾値T2はT1≧T2を満たすのであれば、これらは一方の閾値で置き換えても問題はない。
1…アクセント情報抽出装置
100…F0抽出部
101…モーラ同期情報入力部
102…変化量算出部
103…変化量最小値検出部
104…閾値記憶部
105…アクセント型判定部
200…入力音声波形
201…モーラ同期情報
202…F0変化パターン

Claims (6)

  1. 入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出部と、
    前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力部と、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出部と、
    前記算出されたモーラ変化量からアクセント型0型を判定する第1の閾値と、アクセント型0型以外を判定する第2の閾値とを記憶する閾値記憶部と、
    前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出部と、
    前記検出されたモーラ変化量である変化量最小値について、前記第1の閾値より大きい場合は0型と判定し、前記第1の閾値よりも小さい場合は、前記変化量最小値を持つモーラより前方のモーラに係るモーラ変化量を連続して探索し、前記モーラ変化量が前記第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、アクセント型を判定するアクセント型判定部と、
    を有することを特徴とするアクセント情報抽出装置。
  2. 入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出部と、
    前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力部と、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出部と、
    前記算出されたモーラ変化量からアクセント型を判定するための所定の閾値を記憶する閾値記憶部と、
    全ての前記モーラ変化量が前記閾値より大きい場合は0型と判定し、前記閾値より小さいモーラ変化量が存在する場合は前記モーラ変化量が前記閾値よりも小さいモーラのうち一番前方のモーラをアクセント核とすることによって、アクセント型を判定するアクセント型判定部と、
    を有することを特徴とするアクセント情報抽出装置。
  3. 入力音声のアクセント型を判定するコンピュータにおけるアクセント情報抽出方法であって、
    前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出ステップと、
    前記入力音声の前記モーラ同期情報を入力するモーラ同期情報入力ステップと、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出ステップと、
    前記算出されたモーラ変化量からアクセント型0型を判定するための第1の閾値と、アクセント型0型以外を判定するための第2の閾値とを記憶する閾値記憶ステップと、
    前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出ステップと、
    前記検出されたモーラ変化量である変化量最小値について、前記第1の閾値より大きい場合は0型と判定し、前記第1の閾値よりも小さい場合は前記変化量最小値を持つモーラより前方のモーラに係るモーラ変化量を連続して探索し、前記モーラ変化量が前記第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、前記アクセント型を判定するアクセント型判定ステップと、
    を有することを特徴とするアクセント情報抽出方法。
  4. 入力音声のアクセント型を判定するコンピュータにおけるアクセント情報抽出方法であって、
    前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出ステップと、
    前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力ステップと、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出ステップと、
    アクセント型0型を判定する第1の閾値と、アクセント型0型以外を判定する第2の閾値とを記憶する閾値記憶ステップと、
    前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出ステップと、
    前記検出されたモーラ変化量である変化量最小値について、前記第1の閾値より大きい場合は0型と判定し、前記第1の閾値よりも小さい場合は、前記変化量最小値を持つモーラより前方のモーラに係るモーラ変化量を連続して探索し、前記モーラ変化量が前記第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、前記アクセント型を判定するアクセント型判定ステップと、
    を有することを特徴とするアクセント情報抽出方法。
  5. 入力音声のアクセント型を判定するコンピュータに、
    前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出プログラムと、
    前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力プログラムと、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出プログラムと、
    アクセント型0型を判定する第1の閾値と、アクセント型0型以外を判定する第2の閾値とを記憶する閾値記憶プログラムと、
    前記モーラ変化量が最も小さい負の値を持つモーラを検出する変化量最小値検出プログラムと、
    前記検出されたモーラ変化量である変化量最小値について、前記第1の閾値より大きい場合は0型と判定し、前記第1の閾値よりも小さい場合は、前記変化量最小値を持つモーラより前方のモーラに係るモーラ変化量を連続して探索し、前記モーラ変化量が前記第2の閾値よりも小さい一番前方のモーラをアクセント核とすることによって、前記アクセント型を判定するアクセント型判定プログラムと、
    を実行させることを特徴とするアクセント情報抽出プログラム。
  6. 入力音声のアクセント型を判定するコンピュータに、
    前記入力音声から基本周波数の変化パターンであるF0変化パターンを抽出するF0抽出プログラムと、
    前記入力音声の各モーラに同期した時刻情報であるモーラ同期情報を入力するモーラ同期情報入力プログラムと、
    前記F0変化パターンおよび前記モーラ同期情報に基づいて、F0変化パターンのモーラ毎にモーラ代表値を求め、このモーラ代表値を基準とした後方に隣接するモーラのモーラ代表値との変化量であるモーラ変化量をそれぞれ算出する変化量算出プログラムと、
    前記算出されたモーラ変化量から前記アクセント型を判定するための所定の閾値を記憶する閾値記憶プログラムと、
    全ての前記モーラ変化量が前記閾値より大きい場合は0型と判定し、前記閾値より小さいモーラ変化量が存在する場合は前記モーラ変化量が前記閾値よりも小さいモーラのうち一番前方のモーラをアクセント核とすることによって、アクセント型を判定するアクセント型判定プログラムと、
    を実行させることを特徴とするアクセント情報抽出プログラム。
JP2009171473A 2009-07-22 2009-07-22 アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム Expired - Fee Related JP5166369B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009171473A JP5166369B2 (ja) 2009-07-22 2009-07-22 アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009171473A JP5166369B2 (ja) 2009-07-22 2009-07-22 アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2011027852A JP2011027852A (ja) 2011-02-10
JP5166369B2 true JP5166369B2 (ja) 2013-03-21

Family

ID=43636704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009171473A Expired - Fee Related JP5166369B2 (ja) 2009-07-22 2009-07-22 アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP5166369B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4856560B2 (ja) * 2007-01-31 2012-01-18 株式会社アルカディア 音声合成装置

Also Published As

Publication number Publication date
JP2011027852A (ja) 2011-02-10

Similar Documents

Publication Publication Date Title
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US7356468B2 (en) Lexical stress prediction
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
CN105931641B (zh) 字幕数据生成方法和装置
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP2010230695A (ja) 音声の境界推定装置及び方法
JP2017111760A (ja) 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
US10572538B2 (en) Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product
JP5166369B2 (ja) アクセント情報抽出装置、アクセント情報抽出方法およびアクセント情報抽出プログラム
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP2004109535A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP2009042509A (ja) アクセント情報抽出装置及びその方法
KR100883649B1 (ko) 텍스트/음성 변환 장치 및 방법
JP6519097B2 (ja) 音声合成装置、方法、およびプログラム
JP2006133478A (ja) 音声処理システム及び方法並びに音声処理用プログラム
CN117690398A (zh) 音频生成方法、装置、终端及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5166369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees