JP5812936B2

JP5812936B2 - アクセント句境界推定装置、アクセント句境界推定方法及びプログラム

Info

Publication number: JP5812936B2
Application number: JP2012118229A
Authority: JP
Inventors: 博子村上; 光昭磯貝
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2015-11-17
Anticipated expiration: 2032-05-24
Also published as: JP2013246224A

Description

本発明は、音声合成等において用いられる音声データベースを構成する音声データの単語境界がアクセント句境界であるか否かを推定する技術に関する。

従来、統計的手法による音声合成技術において、正しく韻律情報が生成された自然な合成音声を得るためには、韻律情報について高精度にラベルリングをされた大規模な音声データベースが必要となる。しかし、人手による韻律ラベリング作業には非常に大きなコストがかかる点が課題となっている。この課題を解決するために、人手によって行っている韻律ラベリング作業を自動的に行う手法（自動セグメンテーション）が提案されている。発話内容と音素ラベルが既知の条件のもと、基本周波数（以下「Ｆ０」ともいう）モデルと言語モデルに基づき、アクセント句境界の推定を行う従来技術として、非特許文献１及び非特許文献２が知られている。なお、一つの文章は一つ以上のアクセント句から構成され、各アクセント句は一つ以上の単語から構成され、単語境界をアクセント句境界の候補と考える。

山本，趙，山下，"言語情報とＦ０情報を利用したアクセント句境界の自動推定",IEICE Technical Report,2010,SP2010-109, pp37-42 R.Tachibana, T.Nagano, G.Kurata, M.Nishimura and N. Babagushi, "Automatic Prosody Labeling Using Multiple Models for Japanese", IEICE Trans. Inf & Syst., 2007, E90-D, 11, pp1805-1812

しかしながら、アクセント句境界の置き方は、話者により特徴があるため、従来技術において、話者独立言語モデルを用いてアクセント句境界の推定を行うと、話者依存言語モデルを用いてアクセント句境界の推定を行う場合と比べ、アクセント句境界の推定精度が低下する。なお、話者独立言語モデルとはアクセント句境界の推定の対象となる音声データの話者と異なる話者（不特定話者）の音声データ（話者独立音声データ）に基づき学習した言語モデルであり、話者依存言語モデルとは同じ話者の音声データ（話者依存音声データ）に基づき学習した言語モデルである。

しかし、統計的に十分信頼できる量の句境界ラベル有話者依存音声データを新規に用意し、話者依存言語モデルを構築するのはコストがかかる。

本発明は、従来技術と比べて少量の句境界ラベル有話者依存音声データを用いて、大量の句境界ラベル無話者依存音声データに対してアクセント句境界を精度よく推定できるアクセント句境界推定技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、句境界基本周波数モデル学習部が、単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習し、尤度算出部が、句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し、尤度差算出部が、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出し、仮句境界ラベル付与部が、句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与し、言語素性抽出部が、句境界ラベル無話者依存音声データの単語境界に対して、句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出し、話者依存言語素性データベース構築部が、尤度差の絶対値が閾値より大きい単語境界に対応する言語素性と仮句境界ラベルとを用いて、話者依存言語素性データベースを構築し、話者依存句境界言語モデル生成部が、話者依存言語素性データベースを学習データとして、仮句境界ラベルと言語素性との関係をモデル化した話者依存句境界言語モデルを生成する。

大量の句境界ラベル無話者依存音声データから信頼度の高いデータを選択して句境界言語モデルの学習に用いることで、句境界ラベルを手動で付与した大量の話者依存音声データを用意することなく、話者依存句境界言語モデルを構築することができるという効果を奏する。

図１Ａは句境界ラベル有話者依存音声データの例を、図１Ｂは句境界ラベル無話者依存音声データの例を示す図。第一実施形態に係るアクセント句境界推定装置の機能ブロック図。第一実施形態に係るアクセント句境界推定装置の処理フローを示す図。基本周波数に関する特徴を説明するための図。話者依存言語素性データベースの例を示す図。第一実施形態に係る句境界言語モデル学習部の機能ブロック図。第一実施形態に係る句境界言語モデル学習部の処理フローを示す図。第一実施形態の変形例に係る句境界言語モデル学習部の機能ブロック図。第一実施形態の変形例に係る句境界言語モデル学習部の処理フローを示す図。第一実施形態の変形例に係る句境界言語モデル学習部の機能ブロック図。第一実施形態の変形例に係る句境界言語モデル学習部の処理フローを示す図。第二実施形態に係る句境界言語モデル学習部の機能ブロック図。第二実施形態に係る句境界言語モデル学習部の処理フローを示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
本実施形態では、まず、少量（例えば１５分程度）の、句境界ラベルが付与された話者依存の音声データ（以下「句境界ラベル有話者依存音声データ」ともいう）を用いて、単語境界における音響特徴を学習した、話者依存句境界Ｆ０モデルを構築する。なお、句境界ラベルとは、音声データの単語境界に対して付与され、その単語境界がアクセント句境界であるか否かを表すラベルである。句境界ラベル有話者依存音声データとは、句境界ラベルが付与されている、話者依存の音声データである。図１Ａに句境界ラベル有話者依存音声データに付与される句境界ラベル及び言語情報を例示する。本実施形態では、言語情報として、音声データに対応する発話内容、品詞、音素系列、音素継続時間長及びＦ０値が含まれる。発話内容は既知であり、形態素解析により、品詞情報等の言語素性のラベルが高精度で付与されているものとする。また、自動音素ラベリングにより、音素ラベル及び音素の継続時間長が付与されているものとする。分析フレーム毎に抽出したＦ０パラメータに対し、無声音区間の直線補完、及びスムージング処理が行われ、フレーム毎に連続したＦ０値が与えられる。また、単語境界に対して句境界ラベルが手動で付与されている。ただし、図中は、対象となる単語境界の直前の単語に対して、句境界ラベルが付与されている。該当単語境界がアクセント句境界である場合は１が、アクセント句境界でない場合は０が、句境界ラベルとして付与されている。話者依存句境界Ｆ０モデルとは、句境界ラベル有話者依存音声データにおける、単語境界のＦ０に関する特徴（以下「Ｆ０特徴」ともいい、その詳細は後述する）と句境界ラベルとを学習データとして、アクセント句境界におけるＦ０特徴をモデル化した、アクセント句境界判定モデルのことである。

次に、話者依存句境界Ｆ０モデルを用いて、大量（例えば３時間程度）の、句境界ラベルが付与されていない話者依存の音声データ（以下「句境界ラベル無話者依存音声データ」ともいう）の単語境界に、仮の句境界ラベル（以下「仮句境界ラベル」ともいう。後述するアクセント句境界推定部１３０で推定して最終的に付与する句境界ラベルに対して、仮に付与するものであることを意味する）を付与し、仮句境界ラベルが付与された単語境界の中から信頼度が高い単語境界を選択する。言い換えると、話者依存句境界Ｆ０モデルから算出される、単語境界がアクセント句境界である場合の尤度とない場合の尤度との対数尤度差が一定値以上となる、単語境界のみを選択する。選択された単語境界の言語素性を句境界言語モデルの学習データとして用いることで、話者依存句境界言語モデルを構築する。なお、句境界ラベル無話者依存音声データとは、句境界ラベルが付与されていない、話者依存の音声データである。図１Ｂに句境界ラベル無話者依存音声データに付与される言語情報を例示する。句境界ラベル無話者依存音声データは、大量に用意されていることを前提とし、句境界ラベル無話者依存音声データには句境界ラベル有話者依存音声データと同様の言語情報が付与されているものとする。話者依存句境界言語モデルとは、句境界言語モデル学習部１２０から出力されるものであり、話者依存言語素性データベース（詳細は後述する）を学習データとして、単語境界の仮の句境界ラベルと言語素性との関係をモデル化したものであり、アクセント句境界判定モデルである。

これにより、句境界ラベル無話者依存音声データに手動で句境界ラベルを付与することなく、話者依存句境界言語モデルを構築することができるため、話者依存言語モデル構築にかかるコストを低減できる。

図２は第一実施形態に係るアクセント句境界推定装置１００の機能ブロック図を、図３はその処理フローを示す。アクセント句境界推定装置１００は、句境界Ｆ０モデル学習部１１０、句境界言語モデル学習部１２０及びアクセント句境界推定部１３０を含む。

句境界Ｆ０モデル学習部１１０は、少量の句境界ラベル有話者依存音声データを用いて、話者依存句境界Ｆ０モデルを学習する（ｓ１）。

句境界言語モデル学習部１２０は、話者依存句境界Ｆ０モデルと、大量の句境界ラベル無話者依存音声データとを用いて、話者依存句境界言語モデルを学習する（ｓ２）。

アクセント句境界推定部１３０で、話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとを用いて、句境界ラベル無話者依存音声データの単語境界について句境界ラベルを推定し（ｓ３）、推定した句境界ラベルが付与された話者依存音声データを出力する。なお、推定した句境界ラベルのみを出力する構成としてもよい。

以下、各部の詳細を説明する。

＜句境界Ｆ０モデル学習部１１０＞
句境界Ｆ０モデル学習部１１０は、句境界ラベル有話者依存音声データを受け取り、句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界におけるＦ０特徴と句境界ラベルの関係をモデル化して、話者依存句境界Ｆ０モデルを学習し、句境界言語モデル学習部１２０及びアクセント句境界推定部１３０に出力する。例えば、句境界ラベル有話者依存音声データの単語境界のＦ０特徴をＧＭＭ（Gaussian mixture model；混合ガウス分布モデル）でモデル化する。この場合、句境界ラベル有話者依存音声データから抽出したフレーム毎に連続したＦ０値から、単語境界について、Ｆ０特徴を抽出する。Ｆ０特徴として、例えば、単語境界前後１モーラ長（例えば１６０ｍｓ）におけるＦ０値の変化を２本の直線で近似したときの３つの端点のＦ０値ｖ_１、ｖ_２、ｖ_３からなる特徴ベクトルｆ_ｉ＝（ｖ_１，ｖ_２，ｖ_３）を用いる（図４、非特許文献１及び非特許文献２参照）。

＜句境界言語モデル学習部１２０＞
句境界言語モデル学習部１２０は、話者依存句境界Ｆ０モデル及び大量の句境界ラベル無話者依存音声データを受け取り、話者依存句境界Ｆ０モデルを用いて、大量の句境界ラベル無話者依存音声データから、仮句境界ラベルの自動付与結果の信頼度が高い単語境界群を選択し、それらの単語境界の言語素性と仮句境界ラベルとを抽出した話者依存言語素性データベースを構築する。そして、話者依存言語素性データベースを学習データとして、話者依存句境界言語モデルを構築する。なお、話者依存言語素性データベースは、句境界言語モデル学習用の言語素性データベースであり（図５参照）、単語境界についての、仮句境界ラベル、及び、句境界前後の単語の品詞等の言語素性の情報をもつ。

以下、詳細を説明する。図６は句境界言語モデル学習部１２０の機能ブロック図を、図７はその処理フローを示す。

句境界言語モデル学習部１２０は、尤度算出部１２１と言語素性抽出部１２２と仮句境界ラベル付与部１２３と尤度差算出部１２４と話者依存言語素性データベース構築部１２５と話者依存句境界言語モデル生成部１２７とを含む。

（言語素性抽出部１２２）
言語素性抽出部１２２は、句境界ラベル無話者依存音声データを受け取り、句境界ラベル無話者依存音声データの単語境界に対して、句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出し（ｓ２２）、その言語素性を話者依存言語素性データベース構築部１２５に出力する。本実施形態では、言語素性として、単語境界直前及び直後の単語の品詞情報のペア（例えば｛名詞，助詞｝）を用いる。ここで抽出した言語素性は、後述する閾値Ｔの設計、及び句境界言語モデル構築のための話者依存言語素性データベースの構築の際に使用される。

（仮句境界ラベル付与部１２３）
仮句境界ラベル付与部１２３は、大量の句境界ラベル無話者依存音声データと話者依存句境界Ｆ０モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界Ｆ０モデルを用いて句境界認識を行い、仮句境界ラベルを求め、付与する（ｓ２３）。

句境界認識は、句境界ラベル無話者依存音声データの単語境界付近で観測されるＦ０特徴の系列を入力とし、ＧＭＭによってモデル化された話者依存句境界Ｆ０モデルから算出される尤度を最大とする、仮句境界ラベルの系列を出力することにより行う（非特許文献１及び非特許文献２参照）。仮句境界ラベルの系列を句境界ラベル無話者依存音声データに付与し、話者依存言語素性データベース構築部１２５に出力する。

例えば、文がＮ個の単語からなるとき、ｉ番目の単語境界（ｉ番目の単語とｉ＋１番目の単語の境界）に対する句境界ラベルをｂ_ｉと表すと、句境界ラベルの系列はＢ＝（ｂ_１，ｂ_２，…，ｂ_Ｎ−１）となる。ｂ_ｉ＝１はｉ番目の単語境界がアクセント句であることを、ｂ_ｉ＝０はｉ番目の単語境界がアクセント句でないことを示す。ｉ番目の単語境界におけるＦ０特徴をｆ_ｉと表すと、Ｆ０特徴の系列はＦ＝（ｆ_１，ｆ_２，…，ｆ_Ｎ−１）となる。尤度を最大とする仮句境界ラベルの系列Ｂ＾は、

と表すことができる。ｐ（ｆ_ｉ｜ｂ_ｉ）は、ＧＭＭによってモデル化された話者依存句境界Ｆ０モデルから算出される尤度を表す。

（尤度算出部１２１）
尤度算出部１２１は、大量の句境界ラベル無話者依存音声データと話者依存句境界Ｆ０モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるＦ０特徴を入力として、話者依存句境界Ｆ０モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し（ｓ２１）、尤度差算出部１２４に出力する。

例えば、大量の句境界ラベル無話者依存音声データの、ｉ番目の単語境界付近で観測されるＦ０特徴ｆ_ｉを入力とし、ＧＭＭによってモデル化された話者依存句境界Ｆ０モデルから算出される対数尤度ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝１）及びｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝０）を算出する。

（尤度差算出部１２４）
尤度差算出部１２４は、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを受け取り、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出し（ｓ２４）、尤度差を話者依存言語素性データベース構築部１２５に出力する。例えば、対数尤度差ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝１）−ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝０）を算出し、出力する。

なお、尤度算出部１２１を設けずに、仮句境界ラベル付与部１２３において、句境界認識の際にＧＭＭから算出される、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを用いてもよい。

（話者依存言語素性データベース構築部１２５）
話者依存言語素性データベース構築部１２５は、単語境界についての言語素性、仮句境界ラベル及び尤度差を受け取り、尤度差の絶対値が閾値Ｔより大きい単語境界に対応する言語素性と仮句境界ラベルとを用いて、話者依存言語素性データベースを構築し（ｓ２５）、話者依存句境界言語モデル生成部１２７に出力する。

例えば、算出した対数尤度差と閾値Ｔとを比較する。対数尤度差が閾値Ｔより大きい（または、閾値Ｔ以上である）単語境界については、その単語境界にアクセント句境界が存在する可能性が高い、または、アクセント句境界が存在しない可能性が高い、と判断し、後述する話者依存句境界言語モデルのための学習データとして選択する。（１）尤度差の絶対値が閾値Ｔより大きい場合であって（｜ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝１）−ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝０）｜＞Ｔ）、かつ、（２）アクセント句境界である場合の尤度がアクセント句境界でない場合の尤度よりも大きい（ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝１）＞ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝０））場合には単語境界にアクセント句境界が存在する可能性が高いと判断し、また、アクセント句境界である場合の尤度がアクセント句境界でない場合の尤度よりも小さい（ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝１）＜ｌｏｇｐ（ｆ_ｉ｜ｂ_ｉ＝０））場合には単語境界にアクセント句境界が存在しない可能性が高いと判断する。

ここで、閾値Ｔは、選択される単語境界の言語素性が偏らないよう、言語素性抽出部１２２で抽出した言語素性の頻度に基づき、比較対象となる単語境界の言語素性によって異なる値となるように設計する。つまり、比較対象となる単語境界の言語素性の種類によって、異なる閾値Ｔが設定されるということである。例えば、単語境界の前後の単語の品詞のペアを言語素性とし、品詞の種類を１０種類とすると、言語素性の種類は１０×１０で１００種類となるので、各種類にそれぞれ対応する１００個の異なる閾値Ｔが設定される。出現する確率が低い言語素性（例えば｛動詞，名詞｝）に対しては閾値Ｔとして小さな値を設計することで、選択されやすくする。一方、出現する確率が高い言語素性（例えば｛名詞，助詞｝）に対しては閾値Ｔとして大きな値を設計し、選択されにくくなるように設計する。例えば、閾値の初期値をｔ（定数）、言語素性抽出部１２２で抽出した言語素性の総数（＝単語境界の総数）をＮ−１とし、そのうち、ある種類の言語素性の総数をＡとすると、その種類の言語素性に対する閾値ＴはＴ＝ｔ＋ｗ×Ａ／（Ｎ−１）となるよう設計することができる。ただし、ｗは重みであり、ｔに対するＡ／（Ｎ−１）の重みを調整するために用いられるパラメータである。

さらに、話者依存言語素性データベース構築部１２５は、選択した単語境界について、言語素性抽出部１２２で抽出した言語素性と、仮句境界ラベル付与部１２３で付与した仮句境界ラベルとから、句境界言語モデル学習用の話者依存言語素性データベースを構築する（図５参照）。

（話者依存句境界言語モデル生成部１２７）
話者依存句境界言語モデル生成部１２７は、話者依存言語素性データベースを受け取り、受け取った話者依存言語素性データベースを学習データとして、仮句境界ラベルと言語素性との関係をモデル化した話者依存句境界言語モデルを生成し（ｓ２７）、アクセント句境界推定部１３０に出力する。

例えば、モデル学習にはＣＲＦ（conditional random field：条件付き確率場）を用いてもよい（非特許文献１参照）。ＣＲＦでは、入力ラベルｘ＝（ｘ_１，ｘ_２，…，ｘ_Ｎ）、ｘ_ｎ∈Σ_ｘに対する出力ラベルをｙ＝（ｙ_１，ｙ_２，…，ｙ_Ｎ）、ｙ_ｎ∈Σ_ｙとするとき、ｘからｙを予測するための確率分布ｐ（ｙ｜ｘ）は、

によって、与えられる。ここで、ｊは（ｘ，ｙ）内での変数の組の関係についての独立した素性であり、各素性ｊの重要度をθ_ｊ、（ｘ，ｙ）内で素性ｊが満たされている数をφ_ｊ（ｘ，ｙ）とする。重要度θ_ｊは正解データを与えたときの確率ができるだけ大きくなるように学習によって決定する。ｉ番目の単語境界の言語素性をｗ_ｉとし、Ｎ個の単語からなる文の言語素性の系列をＷ＝（ｗ_１，ｗ_２，…，ｗ_Ｎ−１）とし、入力ラベルｘを言語素性の系列Ｗとし、出力ラベルｙを仮句境界ラベルの系列Ｂとして、ＣＲＦを用いてモデル学習を行う。この他に、決定木やＳＶＭ（Support vector machine）を用いて学習する手法等も考えられる。

＜アクセント句境界推定部１３０＞
アクセント句境界推定部１３０は、大量の句境界ラベル無話者依存音声データと話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとを受け取り、句境界ラベル無話者依存音声データの単語境界におけるＦ０特徴と言語素性とを入力として、話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとから算出される尤度に基づき句境界認識を行い、その単語境界に句境界ラベルを付与し、推定句境界ラベル有話者依存音声データを、アクセント句境界推定装置１００の出力値として出力する。句境界ラベルは、単語境界のＦ０特徴の系列Ｆ及び言語素性の系列Ｗを用いて、話者依存句境界Ｆ０モデル及び話者依存句境界言語モデルから算出される尤度に基づいて、推定される（非特許文献１及び非特許文献２参照）。例えば、推定される句境界ラベルをＢ＾とすると、以下の式により求めることができる。

ただし、βはｐ（Ｆ｜Ｂ）に対する重み係数である。

＜効果＞
大量の句境界ラベル無話者依存音声データから信頼度の高いデータを選択して句境界言語モデルの学習に用いることで、句境界ラベルを手動で付与した大量の話者依存音声データを用意することなく、話者依存の句境界言語モデルを構築することができる。また、話者依存句境界言語モデルを学習し、アクセント句境界推定部１３０において用いることにより、句境界ラベル無話者依存音声データに対するアクセント句境界の検出性能が向上するという効果を奏する。

＜変形例＞
仮句境界ラベル付与部１２３は、尤度算出部１２１の出力値である、単語境界がアクセント句境界である場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝１）と、単語境界がアクセント句境界でない場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝０）とを受け取り、これを利用して各単語境界に対して仮句境界ラベルを付与してもよい。この場合の句境界言語モデル学習部の機能ブロック図を図８に、その処理フローを図９に示す。この場合、仮句境界ラベル付与部１２３は、単語境界がアクセント句境界である場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝１）が、単語境界がアクセント句境界でない場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝０）よりも大きい場合（ｐ（ｆ_ｉ｜ｂ_ｉ＝１）＞ｐ（ｆ_ｉ｜ｂ_ｉ＝０））には、その単語境界がアクセント句境界で有ることを表す仮句境界ラベルｂ_ｉ＝１を付与し、単語境界がアクセント句境界である場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝１）が、単語境界がアクセント句境界でない場合の尤度ｐ（ｆ_ｉ｜ｂ_ｉ＝０）よりも小さい場合（ｐ（ｆ_ｉ｜ｂ_ｉ＝１）＜ｐ（ｆ_ｉ｜ｂ_ｉ＝０））には、その単語境界がアクセント句境界で無いことを表す仮句境界ラベルｂ_ｉ＝０を付与し（ｓ２３）、仮句境界ラベルｂ_ｉを話者依存言語素性データベース構築部１２５に出力する。このような構成により、仮句境界ラベル付与部１２３は、各Ｆ０特徴ｆ_ｉに対してそれぞれ尤度の大きい仮句境界ラベルｂ_ｉを付与することができ、結果として、句境界ラベル無話者依存音声データの単語境界におけるＦ０特徴の系列Ｆを入力として、話者依存句境界Ｆ０モデルから算出される尤度を最大とする仮句境界ラベルの系列Ｂを求めることができる。

また、先に尤度差算出部１２４において尤度差を算出し、その尤度差と閾値Ｔとを比較する構成としてもよい（図１０及び図１１参照）。尤度差算出部１２４は、各単語境界の比較結果を言語素性抽出部１２２と仮句境界ラベル付与部１２３とに出力する。単語境界にアクセント句境界が存在する可能性が高い、または、単語境界にアクセント句境界が存在しない可能性が高いことを表す比較結果に対応する単語境界についてのみ、言語素性抽出部１２２及び仮句境界ラベル付与部１２３が、それぞれ言語素性と仮句境界ラベルとを話者依存言語素性データベース構築部１２５に出力する。話者依存言語素性データベース構築部１２５では、尤度差と閾値Ｔとの比較せずに、受け取った言語素性と仮句境界ラベルとから話者依存言語素性データベースを構築すればよい。

＜第二実施形態＞
第一実施形態と異なる部分についてのみ説明する。本実施形態では、話者依存句境界Ｆ０モデルと学習データ選択（話者依存言語素性データベース構築）後に構築する話者依存句境界言語モデルとを用いて、学習データを再選択（話者依存言語素性データベースを再構築）する。これは、話者依存句境界Ｆ０モデルと話者依存句境界言語モデルから算出される対数尤度差を、学習データ選択（話者依存言語素性データベース構築）の基準とすることで、より仮句境界ラベルの信頼度の高い学習データを選択（話者依存言語素性データベースを構築）することができるためである。この学習データ再選択処理（話者依存言語素性データベース再構築処理）を、学習データが収束（話者依存言語素性データベースの更新が収束）するまで繰返し行う。そして、最終的に選択された仮句境界ラベルの信頼度の高い学習データ（話者依存言語素性データベース）を用いて、話者依存句境界言語モデルを構築することで、よりアクセント句境界検出性能の高い句境界言語モデルを構築することができる。

よって、第二実施形態では、第一実施形態の句境界言語モデル学習部１２０において、第一実施形態の処理を繰り返し行うことで、より句境界認識精度の高い句境界言語モデルを構築する手法について説明する。

第一実施形態の句境界言語モデル学習部１２０（の仮句境界ラベル付与部１２３）では、学習データ選択（話者依存言語素性データベース構築）の基準となるアクセント句境界判定モデルとして、話者依存句境界Ｆ０モデルのみを用いた。しかし、句境界言語モデル学習部１２０（の話者依存句境界言語モデル生成部１２７）で構築した話者依存句境界言語モデルと句境界Ｆ０モデル学習部１１０で構築した話者依存句境界Ｆ０モデルの両方を学習データ選択（話者依存言語素性データベース構築）基準として用いることで、より信頼度の高い言語素性データベースを構築することができると考えられる。この処理を、言語素性データベース内のデータが収束するまで繰り返し行う。

第一実施形態との差分は、以下の２点である。（１）言語素性データベースの構築後に収束判定を行い、収束していない場合は、第一実施形態の処理を繰り返す。（２）繰り返し二回目以降の、対数尤度差の計算には、話者依存句境界Ｆ０モデルだけでなく、話者依存句境界言語モデルも用いる。

第二実施形態の句境界言語モデル学習部１２０の機能ブロック図を図１２に、その処理フローを図１３に示す。仮句境界ラベル付与部１２３及び尤度算出部１２１における二回目以降の処理が第一実施形態とは異なるので、二回目以降の処理について説明する。また、収束判定部１２６の処理内容について説明する。なお、仮句境界ラベル付与部１２３及び尤度算出部１２１における一回目の処理は第一実施形態と同じである。

（仮句境界ラベル付与部１２３）
仮句境界ラベル付与部１２３は、大量の句境界ラベル無話者依存音声データと話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとを用いて句境界認識を行い、仮句境界ラベルを求め、付与する。

句境界認識は、句境界ラベル無話者依存音声データの単語境界付近で観測されるＦ０特徴の系列と言語素性（例えば単語境界の前後の単語の品詞）の系列を入力とし、ＧＭＭによってモデル化された話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとから算出される尤度を最大とする、仮句境界ラベルの系列を出力することにより行う（非特許文献１及び非特許文献２参照）。仮句境界ラベルの系列を句境界ラベル無話者依存音声データに付与し（ｓ２８）、話者依存言語素性データベース構築部１２５に出力する。例えば、仮句境界ラベルをＢ＾とすると、以下の式により求める。

（尤度算出部１２１）
尤度算出部１２１は、大量の句境界ラベル無話者依存音声データと話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるＦ０特徴と言語素性を入力として、話者依存句境界Ｆ０モデルと話者依存句境界言語モデルとから、アクセント句境界である場合の尤度ｐ（ｆ_ｉ｜ｗ_ｉ，ｂ_ｉ＝１）と、アクセント句境界でない場合の尤度ｐ（ｆ_ｉ｜ｗ_ｉ，ｂ_ｉ＝０）とを算出し（ｓ２８）、尤度差算出部１２４に出力する。

（収束判定部１２６）
収束判定部１２６は、話者依存言語素性データベースの更新が収束したか否かを判定し（ｓ２６）、判定結果を話者依存句境界言語モデル生成部１２７に出力する。例えば、言語素性データベースを、更新前の言語素性データベースと比較し、更新が収束しているか否かを判定する。

なお、話者依存句境界言語モデル生成部１２７は、収束しているとの判定結果を受け取った場合には、話者依存句境界言語モデルを生成し（ｓ２７ａ）、アクセント句境界推定部１３０に出力する。一方、収束していないとの判定結果を受け取った場合には、話者依存句境界言語モデルを生成し（ｓ２７ｂ）、尤度算出部１２１及び仮句境界ラベル付与部１２３に出力する。なお、初回は、比較するための言語素性データベースが存在しないため、収束判定部１２６は、判定処理を行わずに、収束していないとの判定結果を出力する。

＜収束判定＞
以下に収束判定の処理を示す。

言語素性データベースの各構成要素について、仮句境界ラベル及び言語素性の組合せ（例えば、｛１，名詞，助詞｝）毎に出現数をカウントし、頻度分布を算出する。次に、更新前の言語素性データベースの頻度分布と距離計算を行う。距離尺度として、カルバック・ライブラー距離を用いる。算出された距離値をｄとする。

算出された距離値ｄを閾値Ｓと比較する。閾値Ｓの初期値は、１００のような充分大きな値を設定しておく。ｄ＜Ｓの場合は、言語素性データベースが収束していないとみなして、閾値Ｓを更新し（Ｓ＝ｄとする）、句境界言語モデルを学習して、第一実施形態の処理に戻る。逆に、ｄ＞Ｓとなった場合は言語素性データベースが収束しているとみなして、句境界言語モデルを学習して処理を終了する。

第二実施形態における理想的な収束基準は、距離値ｄによって繰り返し更新される閾値Ｓが最小の値となった時である。しかし、そのためには、閾値Ｓが最小となるまで、第一実施形態の処理（句境界言語モデル構築や言語素性データベースの構築等）を繰り返し行う必要がある。利用するデータの規模や、計算機スペックにも依存するが、もし、第一実施形態の処理に長時間を要する場合は、閾値Ｓと距離値ｄの差が一定値以下となった時に、処理を終了する方法で対応する事が望ましい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述したアクセント句境界推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施形態で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施形態で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

１００アクセント句境界推定装置
１１０モデル学習部
１２０句境界言語モデル学習部
１２１尤度算出部
１２２言語素性抽出部
１２３仮句境界ラベル付与部
１２４尤度差算出部
１２５話者依存言語素性データベース構築部
１２６収束判定部
１２７話者依存句境界言語モデル生成部
１３０アクセント句境界推定部

Claims

単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習部と、
句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出部と、
前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出部と、
前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与部と、
前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出部と、
前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築部と、
前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成部と、を含む、
アクセント句境界推定装置。
請求項１記載のアクセント句境界推定装置であって、
前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと前記話者依存句境界言語モデルとから算出される尤度に基づき、その単語境界に句境界ラベルを付与するアクセント句境界推定部を、さらに含む、
アクセント句境界推定装置。
請求項１または請求項２記載のアクセント句境界推定装置であって、
前記尤度算出部と前記尤度差算出部と前記仮句境界ラベル付与部と前記話者依存言語素性データベース構築部と前記話者依存句境界言語モデル生成部は、前記話者依存言語素性データベースの更新が収束するまで、その処理を繰返し、二回目以降の繰返し処理において、
前記尤度算出部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し、
前記仮句境界ラベル付与部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから算出される尤度を最大とする仮句境界ラベルを求め、付与する、
アクセント句境界推定装置。
句境界基本周波数モデル学習部が、単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習ステップと、
尤度算出部が、句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出ステップと、
尤度差算出部が、前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出ステップと、
仮句境界ラベル付与部が、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与ステップと、
言語素性抽出部が、前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出ステップと、
話者依存言語素性データベース構築部が、前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築ステップと、
話者依存句境界言語モデル生成部が、前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成ステップと、を含む、
アクセント句境界推定方法。
請求項１から請求項３の何れかに記載のアクセント句境界推定装置の各部として、コンピュータを機能させるためのプログラム。