JP5875504B2 - はなし言葉分析装置とその方法とプログラム - Google Patents

はなし言葉分析装置とその方法とプログラム Download PDF

Info

Publication number
JP5875504B2
JP5875504B2 JP2012258184A JP2012258184A JP5875504B2 JP 5875504 B2 JP5875504 B2 JP 5875504B2 JP 2012258184 A JP2012258184 A JP 2012258184A JP 2012258184 A JP2012258184 A JP 2012258184A JP 5875504 B2 JP5875504 B2 JP 5875504B2
Authority
JP
Japan
Prior art keywords
accent phrase
speech
derived
average value
basic frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012258184A
Other languages
English (en)
Other versions
JP2014106313A (ja
Inventor
秀治 中嶋
秀治 中嶋
水野 秀之
秀之 水野
博子 村上
博子 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012258184A priority Critical patent/JP5875504B2/ja
Publication of JP2014106313A publication Critical patent/JP2014106313A/ja
Application granted granted Critical
Publication of JP5875504B2 publication Critical patent/JP5875504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、発話音声中の強調に該当する音声区間を自動抽出するはなし言葉分析装置とその方法と、プログラムに関する。
例えば、映画のシーンに応じた台詞を発話する場面、童話の語り聞かせの場面、テレビなどのメディアを通じた商品宣伝の場面、及び、コールセンタなどでの電話応対場面などにおいて自然に発せられた「表現豊かな音声」において、強調は頻繁に用いられている。このような強調は、何らかの基準と比較して明らかになる相対的なものである。よって、基準が不明な状態で、与えられた音声だけから強調を自動抽出することは困難である。これまでは、予め、単語やフレーズなどの区間を指定しておき、音声収録の際に、その区間に強調を伴って発話された音声を収録して利用されてきた。
強調の箇所とは、一つの発話または複数の発話系列の中での相対的な変化として定義できる。そして、その強調の及ぶ範囲は、文全体または、両端をポーズで挟まれたフレーズ、またはポーズで挟まれたフレーズ内部に1つ以上存在するアクセントフレーズ、または単語といった範囲に渡る。
従来では、「強調」か「強調では無い(非強調)」かの自動付与を、2値判別問題として定式化し、2値判別器を用いて「強調」の箇所を抽出していた。その方法は、非特許文献1に開示されている。非特許文献1では、予め人手で強調区間にラベル付けされた学習用音声データを必要とする。学習用音声には、強調区間へのラベル付けと同時に強調のない箇所には非強調を示すラベルが付与される。
2値判別器は、「音節などの音声単位を表すカテゴリラベルの並び」、「その音声単位のフレーズや文内での位置を示す数値」、「フレーズの有するアクセント核の位置などの韻律に関する言語特徴を表すカテゴリラベル」、「それらを用いて通常の音声合成器によって合成された合成音と学習用音声データ原音のそれぞれの基本周波数間の差分値」、を入力変数とし、強調または非強調という2値のラベルを出力変数として構築される。この構築された2値判別器を用いて、学習データ以外の新たな音声データに対して、強調か非強調かの2値判別を行い、強調区間を音声データから抽出する。
J. Xu and L.・H. Cai, "Automatic emphasis labeling for emotional speech by measuring prosody generation error", Proceedings of ICIC, 2009, pp. 177-186, 2009.
しかしながら、従来の手法では、強調区間の抽出のために強調・非強調のラベルが付与された学習データを必要とした。高い精度で強調区間を判別する2値判別器を構成するためには、正確にラベル付けされた学習データを大量に必要とする。この正確にラベル付けされた音声データを用意するには、人手に頼る他なく、コストが高く付く。
このように、強調区間の自動抽出は困難であり、非特許文献1以前の研究の多くでは、強調のラベルをテキストに予め付けておき、そのラベルの付けられた箇所で人間が強調をつけた発話を行うことによって音声を収録していた。しかし、その方法では、自然な発話データ、且つ、そのような強調や非強調を含む発話が自然な割合で含まれる音声データベースを構築することは困難となる。
この発明は、このような課題に鑑みてなされたものであり、人手で予め強調・非強調ラベルを付与した音声データを用意することなく、音声データから効率的に強調区間を抽出することが可能な、はなし言葉分析装置とその方法とプログラムを提供することを目的とする。
この発明のはなし言葉分析装置は、基本周波数系列抽出部と、音声由来アクセント句上下動判定部と、テキスト解析部と、テキスト由来アクセント句上下動判定部と、強調区間抽出部と、を具備する。基本周波数系列抽出部は、音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する。音声由来アクセント句上下動判定部は、音声の基本周波数系列と音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の基本周波数系列の平均値を求めアクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る。テキスト解析部は、言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測する。テキスト由来アクセント句上下動付与部は、音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与する。強調区間抽出部は、対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する。
この発明のはなし言葉分析装置によれば、収録が必要となる音声は、音声の強調区間を抽出するに当たって必要となる表現豊かな口調で自然に発話された音声だけであり、従来技術で必要であった正確なラベルの付いた学習データが不要である。よって、音声データから低コストで強調区間を抽出することが可能になる。この結果、例えば、強調や非強調を含む発話が自然な割合で含まれる自然な発話データの音声データベースの構築に資することができる。
この発明のはなし言葉分析装置100の機能構成例を示す図。 はなし言葉分析装置100の動作フローを示す図。 音声由来アクセント句上下動判定部20の機能構成例を示す図。 音声由来アクセント句上下動判定部20の動作フローを示す図。 音声由来アクセント句上下動判定部20′の機能構成例を示す図。 音声由来のアクセント句上下動情報の例を示す図。 テキスト由来のアクセント句上下動情報の例を示す図。 強調区間抽出部50の動作フローを示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明のはなし言葉分析装置100の機能構成例を示す。その動作フローを図2に示す。はなし言葉分析装置100は、基本周波数系列抽出部10と、音声由来アクセント句上下動判定部20と、テキスト解析部30と、テキスト由来アクセント句上下動付与部40と、強調区間抽出部50と、制御部60と、を具備する。はなし言葉分析装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
実施例の説明の前に、強調について定義する。強調の箇所とは、1つの発話又は複数の発話系列の中での相対的な変化として定義できる。相対的な変化として測る際に必要となる基準を、この実施例では、従来の読み上げ口調の音声合成器のテキスト解析装置を基準として用いる。その読み上げ口調のテキスト解析結果と、表現豊かに発話された音声とを比較して変化が生じている箇所を抽出対象とする。この変化は、基本周波数変動や発話時間長や声質などのさまざまな物理量の違いとなって現れるが、この実施例では基本周波数の変動によるものに焦点を当てる。つまり、基本周波数が相対的に高くなっているところを「強調」と定義する。また、強調の箇所の単位は、この実施例ではアクセント句の単位と定義する。
基本周波数系列抽出部10は、音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の音声の基本周波数系列を抽出する(ステップS10)。ここでの音声は、表現豊かな口調の自然な発話を収録した音声であり、はなし言葉分析装置100が強調区間を抽出する対象の音声である。
基本周波数は、周期信号の周期の最短のものとして定義され、聴覚上では声の高さとして感じ取られるものである。基本周波数は、例えば1msごとに得ることが出来る。基本周波数の単位は元々Hzであるが、そのままの値でも、底をe(ネイピア数)とする自然対数に変換した値でも良い。
基本周波数は、例えば参考文献1にて抽出する方法が知られている(参考文献1:H. Kawahara, I.Masuda-Katsuse, and A. de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999.)。基本周波数を抽出する方法は、これ以外にも時間領域の自己相関係数から求める方法など複数の方法が存在する。基本周波数を求めること自体は、従来技術であり、その詳しい説明は省略する。
音声のアクセント句の開始・終了時刻情報は、言語ラベルに含まれる情報である。言語ラベルは、例えば音声合成の音響モデルを作成する際などの音声データを活用する場面において、音素や音節の種別などと共に音声データに付与されるものである。言語ラベルには、発話された単語とその品詞、アクセント句の開始・終了時刻情報や、音素や音節の種別などの他に、ポーズ区間の開始・終了の時刻、アクセント句境界とその開始・終了時刻、アクセント句のアクセント型、が含まれる。
音声由来アクセント句上下動判定部20は、基本周波数系列抽出部10が出力する音声の基本周波数系列と音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の基本周波数系列の平均値を求め、アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の基本周波数平均値の上下動の情報である音声由来のアクセント句の上下動情報を得る(ステップS20)。音声由来のアクセント句の上下動情報を、判定する方法については後述する。
テキスト解析部30は、言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測する(ステップS30)。音調結合型の情報は、前方のアクセント句が後続のアクセント句の基本周波数の立上りを抑制する(強い結合)か否かを示す離散情報である(参考文献2:木暮監修、山森編著「未来ねっと技術シリーズ4 メディア処理技術」 pp.76-77, 電気通信協会)。音調結合型の予測は、従来の技術(参考文献3:浅野ほか、「多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成」、自然言語処理 Vol.6, No.2, pp.59-81, 1999.)を利用することで実現できる。音調結合型の予測については後述する。
テキスト由来アクセント句上下動付与部40は、テキスト解析部30で予測した音調結合型を入力として後続のアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与する(ステップS40)。
強調区間抽出部50は、対応する音声由来のアクセント句の上下動情報とテキスト由来のアクセント句上下動情報とを比較して強調であるアクセント句間を抽出して強調区間情報として出力する(ステップS50)。制御部60は、上記した各機能構成部の時系列的な動作を制御する。
以上述べたように、この発明のはなし言葉分析装置100によれば、音声の強調区間を抽出するに当たって必要となる音声は、表現豊かな口調で自然に発話された音声だけであり、従来技術で必要であった正確なラベルの付いた学習データが不要である。つまり、音声収録の効率が改善され、発話の収録に立会い比較条件の揃った強調の発話が行われているかどうかの判定を行う人間の稼動に掛かる高いコストを除去することが可能となる。
〔音声由来アクセント句上下動判定部〕
図3に、音声由来アクセント句上下動判定部20の機能構成例を示して更に詳しく説明する。その動作フローを図4に示す。音声由来アクセント句上下動判定部20は、判定対象アクセント句基本周波数平均値計算手段21と、前側アクセント句基本周波数平均値保持手段22と、閾値生成手段23と、音声由来アクセント句上下動判定手段24と、を備える。
音声由来アクセント句上下動判定部20が動作を開始すると、最初にアクセント句の番号を表すインデックスであるiをi=1として初期化する(ステップS60)。このような時系列な動作の制御は制御部60が行う。
次に、判定対象アクセント句基本周波数平均値計算手段21は、判定対象のアクセント句の基本周波数系列の平均値を計算する(ステップS21)。ここではi=1なので1番目のアクセント句M[1]の基本周波数系列の平均値を計算する。そして、アクセント句M[1]の基本周波数系列の平均値は、前側アクセント句基本周波数平均値保持手段22に保持される。前側アクセント句基本周波数平均値保持手段22は例えばRAM等で実現される。
i=1(ステップS61のYes)では閾値生成手段23は動作せずiがインクリメントされてi=2となり、ステップS21で判定対象のアクセント句M[2]の基本周波数系列の平均値を計算する。以降において、音声由来のアクセント句をM[・]と表記する。
閾値生成手段23は、i>1では前側アクセント句基本周波数平均値保持手段22に保持されている1個前のアクセント句M[1]の基本周波数系列の平均値に、例えば1.1を乗じて上昇閾値θとし、同様に例えば0.9を乗じて下降閾値θを生成する。
音声由来アクセント句上下動判定手段24は、上昇閾値θと下降閾値θを用いて判定対象のアクセント句の音声上下動を判定して音声上下動情報を出力する。音声上下動の判定は、アクセント句M[2]の基本周波数系列の平均値が上限閾値θ以上であればM[1]とM[2]の間のアクセント句境界を上昇(/)と判定する(ステップS241のYes)(ステップS243)。上限閾値θ以上でなく(ステップS241のNo)、且つアクセント句M[2]の基本周波数系列の平均値が下限閾値θ以上であれば、M[1]とM[2]の間のアクセント句境界を変化なしと判定する(ステップS242のYes)(ステップS244)。上限閾値θ以上でなく(ステップS241のNo)、且つアクセント句M[2]の基本周波数系列の平均値が下限閾値θ未満であれば、M[1]とM[2]の間のアクセント句境界を下降(*)と判定する(ステップS242のNo)(ステップS245)。
この音声由来アクセント句上下動判定手段24の対象アクセント句M[i]に対する上昇・下降の判定は、iがインクリメントされながらM[i]が最後のアクセント句になるまで繰り返される(ステップS63のNo)。
図5に、音声由来アクセント句上下動判定手段24で判定したアクセント句M[i]の例を示す。横軸は時間、縦軸は基本周波数の平均値[Hz]である。アクセント句M[i+1]の基本周波数の平均値は、1個前のアクセント句M[i]の基本周波数の平均値より上昇閾値θ以上大きな値なので、M[i]とM[i+1]の間のアクセント句境界の音声由来の音声上下動情報は上昇(/)と判定される。つまり、アクセント句M[i]の音声由来の音声上下動情報は上昇(/)と判定され、アクセント上下動情報Aud[i]にシンボル(/)が格納される(Aud[i]=/)。
アクセント句M[i+1]に対してアクセント句M[i+2]の基本周波数の平均値は、アクセント句M[i+1]の基本周波数の平均値より下降閾値θ未満に低下しているので、M[i+1]の音声由来のアクセント句上下動情報は下降(*)と判定され、アクセント上下動情報Aud[i+1]にシンボル(*)が格納される(Aud[i+1]=*)。なお、上昇を表すシンボルを/、下降を表すシンボルを*で表記しているが、これは一例であり、上昇と下降のバイナリ表現が可能であればどのようなシンボルを用いても良い。
なお、前側アクセント句基本周波数平均値保持手段22に、1個前のアクセント句の基本周波数の平均値を保持する例で説明したが、アクセント句毎に基本周波数の平均値を保持しなくても、音声由来のアクセント句の上下動情報を得ることができる。例えば、一文の音声(1個の音声ファイル)の基本周波数の平均値を予め求めて置く。その一文の音声の各アクセント句の基本周波数の平均値を予め保持させ、隣り合うアクセント句間で平均値を比較して音声由来のアクセント句の上下動情報を得るようにしても良い。
また、基本周波数の平均値を比較するのではなく、前後のアクセント句の平均値の比率や、前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率を比較するようにしても良い。図5に、比率を比較する方法で音声由来のアクセント句の上下動情報を得る音声由来アクセント句上下動判定部20′の機能構成例を示す。
音声由来アクセント句上下動判定部20′は、判定対象アクセント句基本周波数平均値計算手段21と、前側アクセント句基本周波数平均値保持手段22と、上下動判定テーブル25と、音声由来アクセント句上下動判定手段24″と、を備える。上下動判定テーブルは、前後のアクセント句の平均値の比率の閾値、又は前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率の閾値を保持したものである。
音声由来アクセント句上下動判定手段24″は、判定対象アクセント句基本周波数平均値計算手段21が出力する判定対象のアクセント句の基本周波数系列の平均値と、前側アクセント句基本周波数平均値保持手段22に保持され1個前のアクセント句の基本周波数系列の平均値と、を入力としてその両者から前後のアクセント句の平均値の比率を求め、求めた比率と上下動判定テーブル25に保持された閾値を比較して、音声由来のアクセント句の上下動情報を出力する。又は、前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率を求め、その比率と上下動判定テーブル25に保持された閾値を比較して、音声由来のアクセント句の上下動情報を出力しても良い。比較判定においては、閾値を用いて上下動情報を得る。上昇と判断する閾値と下降と判断する閾値とが同じであっても、異なっていても良い。上昇と判断する閾値と下降と判断する閾値との間の比較結果の場合には「ほぼ同じ」と判定する。
〔テキスト解析部〕
テキスト解析部30は、基本周波数系列抽出部10に入力される音声と同一の言語ラベルを入力として、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句間の音調結合型を予測する。音調結合型の予測は、例えば段階的な音調結合型設定法の一つである多段階設定法(参考文献3)に基づいて行う。
多段階設定法とは、時間表現、数量表現や同格表現などを独立に扱うことができ、その構造が複合語内意味的係り受け情報より得られる局所構造内のアクセント句境界と、句読点の直後など品詞情報から容易に意味的、構文的な切れ目であることを推定できるアクセント句境界を対象として、意味的、構文的に大きな切れ目となるアクセント句境界にポーズを、つながりが強いアクセント句境界にポーズなしを設定する。そして、音調結合型が設定されなかったアクセント句境界に対して、前後の単語の品詞情報等より得られるアクセント句結合力を用いて音調結合型を設定する設定法である。
音調結合型の情報は、前方のアクセント句が後続のアクセント句の基本周波数の立上りを抑制する(強い結合)か、抑制しないか(弱い結合)を示すものである(参考文献2の76頁)。
〔テキスト由来アクセント句上下動付与部〕
テキスト由来アクセント句上下動付与部40は、テキスト解析部30で予測した音調結合型を入力として、アクセント句の基本周波数の上下動の情報であるテキスト上下動情報
をテキストに付与する。
音調結合型の情報が強い結合の場合は相対的な音の高さは下がり、弱い結合の場合は上がる関係であるので、テキスト由来アクセント句上下動付与部40はその関係に対応させて上下動情報を付与する。図7に、アクセント句境界に付与されたテキスト由来のアクセント句上下動情報の例を示す。
図7の横軸は時間、縦軸は相対的な音の高さである。図7に示す例は、アクセント句境界の前後の基本周波数が下がる強い結合である。アクセント句T[i]の相対的な音の高さよりもアクセント句T[i+1]の相対的な音の高さの方が低い。また、アクセント句T[i+1]の相対的な音の高さよりもアクセント句T[i+2]の相対的な音の高さの方が低い。テキスト由来アクセント句上下動付与部40は、この場合、上下動情報として基本周波数の下降を表すシンボル*をテキスト由来のアクセント上下動情報Tud[i]とTud[i+1]に格納する(Tud[i]=*,Tud[i+1]=*)。アクセント句境界に付与する。基本周波数が上昇するアクセント句境界には上昇を表すシンボル/を付与する。
〔強調区間抽出部〕
強調区間抽出部50は、テキスト由来アクセント句上下動付与部40が付与したテキスト由来のアクセント句上下動情報を基準として、音声由来アクセント句上下動判定部20の出力する音声由来のアクセント句上下動情報の上下動情報が基準と異なる位置を強調の箇所として抽出する。図8に、強調区間抽出部50の動作フローを示す。
強調区間抽出部50が動作を開始すると、最初にアクセント句の番号を表すインデックスであるiをi=1として初期化する(ステップS601)。そして、入力されるテキスト由来のアクセント句上下動情報Tud[i]と音声由来のアクセント句上下動情報Aud[i]をi=1から最後のiまで順次読み込み、アクセント句上下動情報Tud[i]が下降(*)で且つアクセント句上下動情報Aud[i]が上昇(/)である(i+1)番目のアクセント句を強調区間として出力する(ステップS605)。
図6に示した音声由来のアクセント句上下動情報と、図7に示したテキスト由来のアクセント句下動情報との関係では、テキスト由来のアクセント句上下動情報Tud[i]=*と音声由来のアクセント句上下動情報Aud[i]=/の関係であるので、アクセント句M[i+1]を強調の箇所とする強調区間情報が出力される。
以上述べたようにこの発明のはなし言葉分析装置100によれば、従来技術で必要であった正確なラベルの付いた学習データを用いる必要がない。また、収録が必要となる音声は音声合成を適用したい場面での自然な音声だけとなり、対比する読み上げ口調の音声の収録が不要となる。したがって、音声収録の効率を向上させることができる。このようにこの発明のはなし言葉分析装置100は、正確なラベルの付いた学習データが不要であることと、読み上げ口調の音声の収録が不要となることから、音声データから強調区間を抽出するコストを低下させる効果を奏する。
この効果によって、自然に発話される音声を収録するだけでその分析検討が行えるので、自然な強調を有する音声に基づく研究や開発を加速させることが可能となる。また、この実施例では、基準を読み上げ口調の音声合成装置が予測する読み上げ口調での音調に置くので、基準が明確となり、定義の明確な強調区間情報を得ることが可能である。
なお、この発明のはなし言葉分析装置100は、上記した実施例に限定されるものではない。例えば、上昇閾値θと下降閾値θを設定するに際し、基本周波数平均値にそれぞれ1.1と0.9の数値を乗じて求めたが、この数値は一例であり任意の数値で良いことはいうまでもないことである。このようにこの発明は、この発明の技術思想の範囲の中で種々の変更が可能である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する基本周波数系列抽出部と、
    上記音声の基本周波数系列と上記音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の基本周波数系列の平均値を求め上記アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る音声由来アクセント句上下動判定部と、
    言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測するテキスト解析部と、
    上記音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与するテキスト由来アクセント句上下動付与部と、
    対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する強調区間抽出部と、
    を具備するはなし言葉分析装置。
  2. 請求項1に記載したはなし言葉分析装置において、
    上記音声由来アクセント句上下動判定部は、
    判定対象のアクセント句の基本周波数系列の平均値を計算する判定対象アクセント句基本周波数平均値計算手段と、
    上記判定対象アクセント句基本周波数平均値計算手段で計算した基本周波数系列の平均値を前側アクセント句基本周波数平均値として保持する前側アクセント句基本周波数平均値保持手段と、
    上記前側アクセント句基本周波数平均値から上記判定対象のアクセント句の基本周波数系列の平均値が上昇しているか否かを判定する上昇閾値と、上記判定対象のアクセント句の基本周波数系列の平均値が下降しているか否かを判定する下降閾値とを生成する閾値生成手段と、
    上記上昇閾値と上記下降閾値を用いて上記判定対象のアクセント句境界の音声上下動を判定して音声由来のアクセント句上下動情報を出力する音声由来アクセント句上下動判定手段と、
    を備えることを特徴とするはなし言葉分析装置。
  3. 請求項1又は2に記載したはなし言葉分析装置において、
    上記テキスト由来アクセント句上下動付与部は、
    段階的な音調結合型設定法である多段階設定法に基づいてアクセント句境界の音調結合型を付与するものであることを特徴とするはなし言葉分析装置。
  4. 音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する基本周波数系列抽出過程と、
    上記音声の基本周波数系列と上記音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の基本周波数系列の平均値を求め上記アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る音声由来アクセント句上下動判定過程と、
    言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測するテキスト解析過程と、
    上記音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与するテキスト由来アクセント句上下動付与過程と、
    対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する強調区間抽出過程と、
    を備えるはなし言葉分析方法。
  5. 請求項1乃至3の何れかに記載したはなし言葉分析装置としてコンピュータを機能させるためのプログラム。
JP2012258184A 2012-11-27 2012-11-27 はなし言葉分析装置とその方法とプログラム Active JP5875504B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012258184A JP5875504B2 (ja) 2012-11-27 2012-11-27 はなし言葉分析装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012258184A JP5875504B2 (ja) 2012-11-27 2012-11-27 はなし言葉分析装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014106313A JP2014106313A (ja) 2014-06-09
JP5875504B2 true JP5875504B2 (ja) 2016-03-02

Family

ID=51027875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012258184A Active JP5875504B2 (ja) 2012-11-27 2012-11-27 はなし言葉分析装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5875504B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6370732B2 (ja) * 2015-03-17 2018-08-08 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
CN110390956A (zh) * 2019-08-15 2019-10-29 龙马智芯(珠海横琴)科技有限公司 情感识别网络模型、方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4256393B2 (ja) * 2001-08-08 2009-04-22 日本電信電話株式会社 音声処理方法及びそのプログラム

Also Published As

Publication number Publication date
JP2014106313A (ja) 2014-06-09

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP5148026B1 (ja) 音声合成装置および音声合成方法
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5875504B2 (ja) はなし言葉分析装置とその方法とプログラム
JP3846300B2 (ja) 録音原稿作成装置および方法
EP2062252B1 (en) Speech synthesis
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5588932B2 (ja) はなし言葉分析装置とその方法とプログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160119

R150 Certificate of patent or registration of utility model

Ref document number: 5875504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150