JP5875504B2

JP5875504B2 - はなし言葉分析装置とその方法とプログラム

Info

Publication number: JP5875504B2
Application number: JP2012258184A
Authority: JP
Inventors: 秀治中嶋; 水野　秀之; 秀之水野; 博子村上
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2016-03-02
Anticipated expiration: 2032-11-27
Also published as: JP2014106313A

Description

この発明は、発話音声中の強調に該当する音声区間を自動抽出するはなし言葉分析装置とその方法と、プログラムに関する。

例えば、映画のシーンに応じた台詞を発話する場面、童話の語り聞かせの場面、テレビなどのメディアを通じた商品宣伝の場面、及び、コールセンタなどでの電話応対場面などにおいて自然に発せられた「表現豊かな音声」において、強調は頻繁に用いられている。このような強調は、何らかの基準と比較して明らかになる相対的なものである。よって、基準が不明な状態で、与えられた音声だけから強調を自動抽出することは困難である。これまでは、予め、単語やフレーズなどの区間を指定しておき、音声収録の際に、その区間に強調を伴って発話された音声を収録して利用されてきた。

強調の箇所とは、一つの発話または複数の発話系列の中での相対的な変化として定義できる。そして、その強調の及ぶ範囲は、文全体または、両端をポーズで挟まれたフレーズ、またはポーズで挟まれたフレーズ内部に１つ以上存在するアクセントフレーズ、または単語といった範囲に渡る。

従来では、「強調」か「強調では無い（非強調）」かの自動付与を、２値判別問題として定式化し、２値判別器を用いて「強調」の箇所を抽出していた。その方法は、非特許文献１に開示されている。非特許文献１では、予め人手で強調区間にラベル付けされた学習用音声データを必要とする。学習用音声には、強調区間へのラベル付けと同時に強調のない箇所には非強調を示すラベルが付与される。

２値判別器は、「音節などの音声単位を表すカテゴリラベルの並び」、「その音声単位のフレーズや文内での位置を示す数値」、「フレーズの有するアクセント核の位置などの韻律に関する言語特徴を表すカテゴリラベル」、「それらを用いて通常の音声合成器によって合成された合成音と学習用音声データ原音のそれぞれの基本周波数間の差分値」、を入力変数とし、強調または非強調という２値のラベルを出力変数として構築される。この構築された２値判別器を用いて、学習データ以外の新たな音声データに対して、強調か非強調かの２値判別を行い、強調区間を音声データから抽出する。

J. Xu and L.・H. Cai, "Automatic emphasis labeling for emotional speech by measuring prosody generation error", Proceedings of ICIC, 2009, pp. 177-186, 2009.

しかしながら、従来の手法では、強調区間の抽出のために強調・非強調のラベルが付与された学習データを必要とした。高い精度で強調区間を判別する２値判別器を構成するためには、正確にラベル付けされた学習データを大量に必要とする。この正確にラベル付けされた音声データを用意するには、人手に頼る他なく、コストが高く付く。

このように、強調区間の自動抽出は困難であり、非特許文献１以前の研究の多くでは、強調のラベルをテキストに予め付けておき、そのラベルの付けられた箇所で人間が強調をつけた発話を行うことによって音声を収録していた。しかし、その方法では、自然な発話データ、且つ、そのような強調や非強調を含む発話が自然な割合で含まれる音声データベースを構築することは困難となる。

この発明は、このような課題に鑑みてなされたものであり、人手で予め強調・非強調ラベルを付与した音声データを用意することなく、音声データから効率的に強調区間を抽出することが可能な、はなし言葉分析装置とその方法とプログラムを提供することを目的とする。

この発明のはなし言葉分析装置は、基本周波数系列抽出部と、音声由来アクセント句上下動判定部と、テキスト解析部と、テキスト由来アクセント句上下動判定部と、強調区間抽出部と、を具備する。基本周波数系列抽出部は、音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する。音声由来アクセント句上下動判定部は、音声の基本周波数系列と音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の基本周波数系列の平均値を求めアクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る。テキスト解析部は、言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測する。テキスト由来アクセント句上下動付与部は、音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与する。強調区間抽出部は、対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する。

この発明のはなし言葉分析装置によれば、収録が必要となる音声は、音声の強調区間を抽出するに当たって必要となる表現豊かな口調で自然に発話された音声だけであり、従来技術で必要であった正確なラベルの付いた学習データが不要である。よって、音声データから低コストで強調区間を抽出することが可能になる。この結果、例えば、強調や非強調を含む発話が自然な割合で含まれる自然な発話データの音声データベースの構築に資することができる。

この発明のはなし言葉分析装置１００の機能構成例を示す図。はなし言葉分析装置１００の動作フローを示す図。音声由来アクセント句上下動判定部２０の機能構成例を示す図。音声由来アクセント句上下動判定部２０の動作フローを示す図。音声由来アクセント句上下動判定部２０′の機能構成例を示す図。音声由来のアクセント句上下動情報の例を示す図。テキスト由来のアクセント句上下動情報の例を示す図。強調区間抽出部５０の動作フローを示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明のはなし言葉分析装置１００の機能構成例を示す。その動作フローを図２に示す。はなし言葉分析装置１００は、基本周波数系列抽出部１０と、音声由来アクセント句上下動判定部２０と、テキスト解析部３０と、テキスト由来アクセント句上下動付与部４０と、強調区間抽出部５０と、制御部６０と、を具備する。はなし言葉分析装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

実施例の説明の前に、強調について定義する。強調の箇所とは、１つの発話又は複数の発話系列の中での相対的な変化として定義できる。相対的な変化として測る際に必要となる基準を、この実施例では、従来の読み上げ口調の音声合成器のテキスト解析装置を基準として用いる。その読み上げ口調のテキスト解析結果と、表現豊かに発話された音声とを比較して変化が生じている箇所を抽出対象とする。この変化は、基本周波数変動や発話時間長や声質などのさまざまな物理量の違いとなって現れるが、この実施例では基本周波数の変動によるものに焦点を当てる。つまり、基本周波数が相対的に高くなっているところを「強調」と定義する。また、強調の箇所の単位は、この実施例ではアクセント句の単位と定義する。

基本周波数系列抽出部１０は、音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の音声の基本周波数系列を抽出する（ステップＳ１０）。ここでの音声は、表現豊かな口調の自然な発話を収録した音声であり、はなし言葉分析装置１００が強調区間を抽出する対象の音声である。

基本周波数は、周期信号の周期の最短のものとして定義され、聴覚上では声の高さとして感じ取られるものである。基本周波数は、例えば１ｍｓごとに得ることが出来る。基本周波数の単位は元々Ｈｚであるが、そのままの値でも、底をｅ（ネイピア数）とする自然対数に変換した値でも良い。

基本周波数は、例えば参考文献１にて抽出する方法が知られている（参考文献１：H. Kawahara, I.Masuda-Katsuse, and A. de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999.）。基本周波数を抽出する方法は、これ以外にも時間領域の自己相関係数から求める方法など複数の方法が存在する。基本周波数を求めること自体は、従来技術であり、その詳しい説明は省略する。

音声のアクセント句の開始・終了時刻情報は、言語ラベルに含まれる情報である。言語ラベルは、例えば音声合成の音響モデルを作成する際などの音声データを活用する場面において、音素や音節の種別などと共に音声データに付与されるものである。言語ラベルには、発話された単語とその品詞、アクセント句の開始・終了時刻情報や、音素や音節の種別などの他に、ポーズ区間の開始・終了の時刻、アクセント句境界とその開始・終了時刻、アクセント句のアクセント型、が含まれる。

音声由来アクセント句上下動判定部２０は、基本周波数系列抽出部１０が出力する音声の基本周波数系列と音声のアクセント句の開始・終了時刻情報を入力として、アクセント句毎の基本周波数系列の平均値を求め、アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の基本周波数平均値の上下動の情報である音声由来のアクセント句の上下動情報を得る（ステップＳ２０）。音声由来のアクセント句の上下動情報を、判定する方法については後述する。

テキスト解析部３０は、言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測する（ステップＳ３０）。音調結合型の情報は、前方のアクセント句が後続のアクセント句の基本周波数の立上りを抑制する（強い結合）か否かを示す離散情報である（参考文献２：木暮監修、山森編著「未来ねっと技術シリーズ４メディア処理技術」 pp.76-77, 電気通信協会）。音調結合型の予測は、従来の技術（参考文献３：浅野ほか、「多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成」、自然言語処理 Vol.6, No.2, pp.59-81, 1999.）を利用することで実現できる。音調結合型の予測については後述する。

テキスト由来アクセント句上下動付与部４０は、テキスト解析部３０で予測した音調結合型を入力として後続のアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与する（ステップＳ４０）。

強調区間抽出部５０は、対応する音声由来のアクセント句の上下動情報とテキスト由来のアクセント句上下動情報とを比較して強調であるアクセント句間を抽出して強調区間情報として出力する（ステップＳ５０）。制御部６０は、上記した各機能構成部の時系列的な動作を制御する。

以上述べたように、この発明のはなし言葉分析装置１００によれば、音声の強調区間を抽出するに当たって必要となる音声は、表現豊かな口調で自然に発話された音声だけであり、従来技術で必要であった正確なラベルの付いた学習データが不要である。つまり、音声収録の効率が改善され、発話の収録に立会い比較条件の揃った強調の発話が行われているかどうかの判定を行う人間の稼動に掛かる高いコストを除去することが可能となる。

〔音声由来アクセント句上下動判定部〕
図３に、音声由来アクセント句上下動判定部２０の機能構成例を示して更に詳しく説明する。その動作フローを図４に示す。音声由来アクセント句上下動判定部２０は、判定対象アクセント句基本周波数平均値計算手段２１と、前側アクセント句基本周波数平均値保持手段２２と、閾値生成手段２３と、音声由来アクセント句上下動判定手段２４と、を備える。

音声由来アクセント句上下動判定部２０が動作を開始すると、最初にアクセント句の番号を表すインデックスであるｉをｉ＝１として初期化する（ステップＳ６０）。このような時系列な動作の制御は制御部６０が行う。

次に、判定対象アクセント句基本周波数平均値計算手段２１は、判定対象のアクセント句の基本周波数系列の平均値を計算する（ステップＳ２１）。ここではｉ＝１なので１番目のアクセント句Ｍ[１]の基本周波数系列の平均値を計算する。そして、アクセント句Ｍ[１]の基本周波数系列の平均値は、前側アクセント句基本周波数平均値保持手段２２に保持される。前側アクセント句基本周波数平均値保持手段２２は例えばＲＡＭ等で実現される。

ｉ＝１（ステップＳ６１のＹｅｓ）では閾値生成手段２３は動作せずｉがインクリメントされてｉ＝２となり、ステップＳ２１で判定対象のアクセント句Ｍ[２]の基本周波数系列の平均値を計算する。以降において、音声由来のアクセント句をＭ_ａ[・]と表記する。

閾値生成手段２３は、ｉ＞１では前側アクセント句基本周波数平均値保持手段２２に保持されている１個前のアクセント句Ｍ_ａ[１]の基本周波数系列の平均値に、例えば1.1を乗じて上昇閾値θ_ｕとし、同様に例えば0.9を乗じて下降閾値θ_ｄを生成する。

音声由来アクセント句上下動判定手段２４は、上昇閾値θ_ｕと下降閾値θ_ｄを用いて判定対象のアクセント句の音声上下動を判定して音声上下動情報を出力する。音声上下動の判定は、アクセント句Ｍ_ａ[２]の基本周波数系列の平均値が上限閾値θ_ｕ以上であればＭ_ａ[１]とＭ_ａ[２]の間のアクセント句境界を上昇（／）と判定する（ステップＳ２４１のＹｅｓ）（ステップＳ２４３）。上限閾値θ_ｕ以上でなく（ステップＳ２４１のＮｏ）、且つアクセント句Ｍ_ａ[２]の基本周波数系列の平均値が下限閾値θ_ｄ以上であれば、Ｍ_ａ[１]とＭ_ａ[２]の間のアクセント句境界を変化なしと判定する（ステップＳ２４２のＹｅｓ）（ステップＳ２４４）。上限閾値θ_ｕ以上でなく（ステップＳ２４１のＮｏ）、且つアクセント句Ｍ_ａ[２]の基本周波数系列の平均値が下限閾値θ_ｄ未満であれば、Ｍ_ａ[１]とＭ_ａ[２]の間のアクセント句境界を下降（＊）と判定する（ステップＳ２４２のＮｏ）（ステップＳ２４５）。

この音声由来アクセント句上下動判定手段２４の対象アクセント句Ｍ_ａ[ｉ]に対する上昇・下降の判定は、ｉがインクリメントされながらＭ_ａ[ｉ]が最後のアクセント句になるまで繰り返される（ステップＳ６３のＮｏ）。

図５に、音声由来アクセント句上下動判定手段２４で判定したアクセント句Ｍ_ａ[ｉ]の例を示す。横軸は時間、縦軸は基本周波数の平均値[Ｈｚ]である。アクセント句Ｍ_ａ[ｉ＋１]の基本周波数の平均値は、1個前のアクセント句Ｍ[ｉ]の基本周波数の平均値より上昇閾値θ_ｕ以上大きな値なので、Ｍ_ａ[ｉ]とＭ_ａ[ｉ＋１]の間のアクセント句境界の音声由来の音声上下動情報は上昇（／）と判定される。つまり、アクセント句Ｍ_ａ[ｉ]の音声由来の音声上下動情報は上昇（／）と判定され、アクセント上下動情報Ａ_ｕｄ[ｉ]にシンボル（／）が格納される（Ａ_ｕｄ[ｉ]＝／）。

アクセント句Ｍ_ａ[ｉ＋１]に対してアクセント句Ｍ[ｉ＋２]の基本周波数の平均値は、アクセント句Ｍ_ａ[ｉ＋１]の基本周波数の平均値より下降閾値θ_ｄ未満に低下しているので、Ｍ_ａ[ｉ＋１]の音声由来のアクセント句上下動情報は下降（＊）と判定され、アクセント上下動情報Ａ_ｕｄ[ｉ＋１]にシンボル（＊）が格納される（Ａ_ｕｄ[ｉ＋１]＝＊）。なお、上昇を表すシンボルを／、下降を表すシンボルを＊で表記しているが、これは一例であり、上昇と下降のバイナリ表現が可能であればどのようなシンボルを用いても良い。

なお、前側アクセント句基本周波数平均値保持手段２２に、１個前のアクセント句の基本周波数の平均値を保持する例で説明したが、アクセント句毎に基本周波数の平均値を保持しなくても、音声由来のアクセント句の上下動情報を得ることができる。例えば、一文の音声（１個の音声ファイル）の基本周波数の平均値を予め求めて置く。その一文の音声の各アクセント句の基本周波数の平均値を予め保持させ、隣り合うアクセント句間で平均値を比較して音声由来のアクセント句の上下動情報を得るようにしても良い。

また、基本周波数の平均値を比較するのではなく、前後のアクセント句の平均値の比率や、前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率を比較するようにしても良い。図５に、比率を比較する方法で音声由来のアクセント句の上下動情報を得る音声由来アクセント句上下動判定部２０′の機能構成例を示す。

音声由来アクセント句上下動判定部２０′は、判定対象アクセント句基本周波数平均値計算手段２１と、前側アクセント句基本周波数平均値保持手段２２と、上下動判定テーブル２５と、音声由来アクセント句上下動判定手段２４″と、を備える。上下動判定テーブルは、前後のアクセント句の平均値の比率の閾値、又は前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率の閾値を保持したものである。

音声由来アクセント句上下動判定手段２４″は、判定対象アクセント句基本周波数平均値計算手段２１が出力する判定対象のアクセント句の基本周波数系列の平均値と、前側アクセント句基本周波数平均値保持手段２２に保持され１個前のアクセント句の基本周波数系列の平均値と、を入力としてその両者から前後のアクセント句の平均値の比率を求め、求めた比率と上下動判定テーブル２５に保持された閾値を比較して、音声由来のアクセント句の上下動情報を出力する。又は、前側のアクセント句の平均値を基準とした後ろ側のアクセント句の平均値の比率を求め、その比率と上下動判定テーブル２５に保持された閾値を比較して、音声由来のアクセント句の上下動情報を出力しても良い。比較判定においては、閾値を用いて上下動情報を得る。上昇と判断する閾値と下降と判断する閾値とが同じであっても、異なっていても良い。上昇と判断する閾値と下降と判断する閾値との間の比較結果の場合には「ほぼ同じ」と判定する。

〔テキスト解析部〕
テキスト解析部３０は、基本周波数系列抽出部１０に入力される音声と同一の言語ラベルを入力として、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句間の音調結合型を予測する。音調結合型の予測は、例えば段階的な音調結合型設定法の一つである多段階設定法（参考文献３）に基づいて行う。

多段階設定法とは、時間表現、数量表現や同格表現などを独立に扱うことができ、その構造が複合語内意味的係り受け情報より得られる局所構造内のアクセント句境界と、句読点の直後など品詞情報から容易に意味的、構文的な切れ目であることを推定できるアクセント句境界を対象として、意味的、構文的に大きな切れ目となるアクセント句境界にポーズを、つながりが強いアクセント句境界にポーズなしを設定する。そして、音調結合型が設定されなかったアクセント句境界に対して、前後の単語の品詞情報等より得られるアクセント句結合力を用いて音調結合型を設定する設定法である。

音調結合型の情報は、前方のアクセント句が後続のアクセント句の基本周波数の立上りを抑制する（強い結合）か、抑制しないか（弱い結合）を示すものである（参考文献２の７６頁）。

〔テキスト由来アクセント句上下動付与部〕
テキスト由来アクセント句上下動付与部４０は、テキスト解析部３０で予測した音調結合型を入力として、アクセント句の基本周波数の上下動の情報であるテキスト上下動情報
をテキストに付与する。

音調結合型の情報が強い結合の場合は相対的な音の高さは下がり、弱い結合の場合は上がる関係であるので、テキスト由来アクセント句上下動付与部４０はその関係に対応させて上下動情報を付与する。図７に、アクセント句境界に付与されたテキスト由来のアクセント句上下動情報の例を示す。

図７の横軸は時間、縦軸は相対的な音の高さである。図７に示す例は、アクセント句境界の前後の基本周波数が下がる強い結合である。アクセント句Ｔ[ｉ]の相対的な音の高さよりもアクセント句Ｔ[ｉ＋１]の相対的な音の高さの方が低い。また、アクセント句Ｔ[ｉ＋１]の相対的な音の高さよりもアクセント句Ｔ[ｉ＋２]の相対的な音の高さの方が低い。テキスト由来アクセント句上下動付与部４０は、この場合、上下動情報として基本周波数の下降を表すシンボル＊をテキスト由来のアクセント上下動情報Ｔ_ｕｄ[ｉ]とＴ_ｕｄ[ｉ＋１]に格納する（Ｔ_ｕｄ[ｉ]＝＊，Ｔ_ｕｄ[ｉ＋１]＝＊）。アクセント句境界に付与する。基本周波数が上昇するアクセント句境界には上昇を表すシンボル／を付与する。

〔強調区間抽出部〕
強調区間抽出部５０は、テキスト由来アクセント句上下動付与部４０が付与したテキスト由来のアクセント句上下動情報を基準として、音声由来アクセント句上下動判定部２０の出力する音声由来のアクセント句上下動情報の上下動情報が基準と異なる位置を強調の箇所として抽出する。図８に、強調区間抽出部５０の動作フローを示す。

強調区間抽出部５０が動作を開始すると、最初にアクセント句の番号を表すインデックスであるｉをｉ＝１として初期化する（ステップＳ６０１）。そして、入力されるテキスト由来のアクセント句上下動情報Ｔ_ud［ｉ］と音声由来のアクセント句上下動情報Ａ_ｕｄ［ｉ］をｉ＝１から最後のｉまで順次読み込み、アクセント句上下動情報Ｔ_ud［ｉ］が下降（＊）で且つアクセント句上下動情報Ａ_ｕｄ［ｉ］が上昇（／）である（ｉ＋１）番目のアクセント句を強調区間として出力する（ステップＳ６０５）。

図６に示した音声由来のアクセント句上下動情報と、図７に示したテキスト由来のアクセント句下動情報との関係では、テキスト由来のアクセント句上下動情報Ｔ_ｕｄ［ｉ］＝＊と音声由来のアクセント句上下動情報Ａ_ｕｄ［ｉ］＝／の関係であるので、アクセント句Ｍ_ａ［ｉ＋１］を強調の箇所とする強調区間情報が出力される。

以上述べたようにこの発明のはなし言葉分析装置１００によれば、従来技術で必要であった正確なラベルの付いた学習データを用いる必要がない。また、収録が必要となる音声は音声合成を適用したい場面での自然な音声だけとなり、対比する読み上げ口調の音声の収録が不要となる。したがって、音声収録の効率を向上させることができる。このようにこの発明のはなし言葉分析装置１００は、正確なラベルの付いた学習データが不要であることと、読み上げ口調の音声の収録が不要となることから、音声データから強調区間を抽出するコストを低下させる効果を奏する。

この効果によって、自然に発話される音声を収録するだけでその分析検討が行えるので、自然な強調を有する音声に基づく研究や開発を加速させることが可能となる。また、この実施例では、基準を読み上げ口調の音声合成装置が予測する読み上げ口調での音調に置くので、基準が明確となり、定義の明確な強調区間情報を得ることが可能である。

なお、この発明のはなし言葉分析装置１００は、上記した実施例に限定されるものではない。例えば、上昇閾値θ_ｕと下降閾値θ_ｄを設定するに際し、基本周波数平均値にそれぞれ1.1と0.9の数値を乗じて求めたが、この数値は一例であり任意の数値で良いことはいうまでもないことである。このようにこの発明は、この発明の技術思想の範囲の中で種々の変更が可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する基本周波数系列抽出部と、
上記音声の基本周波数系列と上記音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の基本周波数系列の平均値を求め上記アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る音声由来アクセント句上下動判定部と、
言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測するテキスト解析部と、
上記音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与するテキスト由来アクセント句上下動付与部と、
対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する強調区間抽出部と、
を具備するはなし言葉分析装置。
請求項１に記載したはなし言葉分析装置において、
上記音声由来アクセント句上下動判定部は、
判定対象のアクセント句の基本周波数系列の平均値を計算する判定対象アクセント句基本周波数平均値計算手段と、
上記判定対象アクセント句基本周波数平均値計算手段で計算した基本周波数系列の平均値を前側アクセント句基本周波数平均値として保持する前側アクセント句基本周波数平均値保持手段と、
上記前側アクセント句基本周波数平均値から上記判定対象のアクセント句の基本周波数系列の平均値が上昇しているか否かを判定する上昇閾値と、上記判定対象のアクセント句の基本周波数系列の平均値が下降しているか否かを判定する下降閾値とを生成する閾値生成手段と、
上記上昇閾値と上記下降閾値を用いて上記判定対象のアクセント句境界の音声上下動を判定して音声由来のアクセント句上下動情報を出力する音声由来アクセント句上下動判定手段と、
を備えることを特徴とするはなし言葉分析装置。
請求項１又は２に記載したはなし言葉分析装置において、
上記テキスト由来アクセント句上下動付与部は、
段階的な音調結合型設定法である多段階設定法に基づいてアクセント句境界の音調結合型を付与するものであることを特徴とするはなし言葉分析装置。
音声と、当該音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の上記音声の基本周波数系列を抽出する基本周波数系列抽出過程と、
上記音声の基本周波数系列と上記音声のアクセント句の開始・終了時刻情報を入力として、上記アクセント句毎の基本周波数系列の平均値を求め上記アクセント句毎の基本周波数平均値系列を生成し、アクセント句境界の上記基本周波数平均値の上下動の情報である音声由来のアクセント句上下動情報を得る音声由来アクセント句上下動判定過程と、
言語ラベルを入力とし、当該言語ラベルを読み上げ口調の音声合成器のテキスト解析手法で解析してアクセント句境界の音調結合型を予測するテキスト解析過程と、
上記音調結合型を入力としてアクセント句の基本周波数の上下動の情報であるテキスト由来のアクセント句上下動情報を付与するテキスト由来アクセント句上下動付与過程と、
対応する上記音声由来のアクセント句上下動情報と上記テキスト由来のアクセント句上下動情報とを比較して強調の箇所のアクセント句を抽出する強調区間抽出過程と、
を備えるはなし言葉分析方法。
請求項１乃至３の何れかに記載したはなし言葉分析装置としてコンピュータを機能させるためのプログラム。