JP4622788B2

JP4622788B2 - 音韻モデル選択装置，音韻モデル選択方法およびコンピュータプログラム

Info

Publication number: JP4622788B2
Application number: JP2005288147A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-09-30
Filing date: 2005-09-30
Publication date: 2011-02-02
Anticipated expiration: 2025-09-30
Also published as: JP2007101632A

Description

本発明は，音韻モデル選択装置，音韻モデル選択方法およびコンピュータプログラムに関し，特に少量の音声データから，音声を合成する際に用いられる音韻モデルを選択する音韻モデル選択装置に関する。

予め録音された人の自然音声等を基にして，ＰＣ（パーソナルコンピュータ）等に入力されたテキスト文書を音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は，品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて音声を合成する。

上記音声合成装置は，まず，入力されたテキストに対して，例えば，形態素解析，係り受け解析を実行し，音素記号，アクセント記号などに変換する。次に，音素記号，アクセント記号列，および形態素解析結果から得られる入力テキストの品詞情報を用いて，音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の韻律パラメータの推定を行う。推定された韻律パラメータに最も近く，かつ波形辞書に蓄積されている合成単位（音素片）を接続したときのゆがみが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。

「コーパス・ベース音声合成システムXIMERA」電子情報通信学会，信学技報，SP2005-18,P37-42(2005.5)

上記韻律パラメータの推定は，ある話者の声の音響的な特徴をモデル化した音響モデルと，声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとを含む音韻モデルを用いて行われる。音韻モデルは，話者の言い回しや音響的な特徴を含む音声データを用いて，音素ごとに予め統計的に作成される。高品質な合成音声を作成するためには，話者の言い回しや声質を忠実に精度よく再現する音韻モデルを構築する必要がある。このような音韻モデルを構築するためには，数十時間におよぶ大量の音声データが必要となり，大量の音声データを解析してモデル化するために長時間を要する。

音韻モデルが作成されていない話者の音声を用いて合成音声を作成する場合には，新たにその話者の大量の音声データを収集，解析して音声モデルを作成しなければならない。複数の話者の音声を用いて合成音声を作成するためには，それぞれの話者の音韻モデルを作成することは，多くの時間と当力を費やすという問題があった。また，すでに音韻モデルが作成された話者に対して，録音されたものとは異なる言い回しの音声を用いて合成音声を作成する場合にも，新たに異なる言い回しの音韻モデルを作成しなければならないという問題があった。

そこで，本発明は，このような問題に鑑みてなされたもので，その目的とするところは，少量の音声データを用いて予め作成された音韻モデルを効率よく選択することが可能な，新規かつ改良された音韻モデル選択装置，音韻モデル選択方法およびコンピュータプログラムを提供することにある。

上記課題を解決するために，本発明のある観点によれば，テキストから音声を合成するに際して，テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置であって：入力された音声データを構成する各音素の属性情報を示す第１ラベル情報が存在する音声データの特徴量を抽出する特徴量抽出部と；予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部と；特徴量抽出部により抽出された特徴量を基に，入力された音声データの各音素に対応する音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する第２ラベル情報算出部と；第１ラベル情報と第２ラベル情報に応じて，音韻モデル格納部から音響モデルおよび韻律モデルを選択する音韻モデル選択部と；を備えることを特徴とする，音韻モデル選択装置が提供される。

上記音韻モデル選択装置は，第１ラベル情報と第２ラベル情報とを比較するラベル情報比較部を備え，音韻モデル選択部は，ラベル情報比較部の比較結果に応じて，音韻モデル格納部から音響モデルおよび韻律モデルを選択するようにしてもよい。

上記第１ラベル情報は，ユーザにより特定された各音素の境界位置の情報であって，各音素の属性情報である。第１ラベル情報は，例えば，各音素の開始時間，終了時間，継続時間などの時間情報である。上記第２ラベル情報は，例えば，予め録音された各音素の開始時間，終了時間，継続時間などの時間情報であり，第１ラベル情報と同一の評価尺度に基づく情報である。

上記構成によれば，入力された音声データの特徴量を抽出し，抽出した特徴量を基に入力された音声データの各音素に対応する音響モデルから，各音素の属性情報を示す第２ラベル情報を算出し，入力データに付与された第１ラベル情報と第２ラベル情報に応じて，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から音響モデルおよび韻律モデルを選択することができる。

上記発明によれば，上記音韻モデル格納部に格納された音韻モデルのなかから，入力された音声データの音響的な特徴および韻律的な特徴に最も近似した音韻モデルを選択することができる。その結果，音声データの音韻モデルを作成せずとも，音声データの音響的な特徴と韻律的な特徴に最も近似した音韻モデルを音韻モデル格納部から選択して，音韻モデル格納部に格納された音韻モデルに対応する音声以外の音声に対しても，音声を合成する音声合成装置に用いられる音韻モデルを提供することができる。音韻モデルの作成には数十時間におよぶ大量の音声データが必要となるが，上記音韻モデル選択装置によれば，数分程度の少量の音声データにより，音声データの特徴量に近似した音韻モデルを選択して，音声合成を効率よく行うことが可能となる。

また，第１ラベル情報および第２ラベル情報は，音声を構成する各音素の音響的な特徴が現れている時間の情報であって，ラベル情報比較部は，第１ラベル情報と第２ラベル情報の差分値により，第１ラベル情報と第２ラベル情報とを比較してもよい。これにより，第１ラベル情報と第２ラベル情報との差分値を算出して，より差分値の小さい，つまり，より音声データの特徴量に近似した音韻モデルを選択することができる。

また，第１ラベル情報および第２ラベル情報は，音声を構成する各音素の音響的な特徴が現れている時間の情報であって，ラベル情報比較部は，音声を構成する音素ごとに第１ラベル情報と第２ラベル情報の差分値を算出し，算出された差分値が所定の閾値以上である音素以外の音素の第１ラベル情報と第２ラベル情報との差分値により，第１ラベル情報と第２ラベル情報とを比較してもよい。これにより，第１ラベル情報と第２ラベル情報との差分値が所定の閾値以上である音素の差分値を除いて第１ラベル情報と第２ラベル情報との差分値を算出することができる。その結果，例えば，手動により精度の悪い第１ラベル情報が音声データに付与されている場合でも，精度の悪い第１ラベル情報を無視して第１ラベル情報と第２ラベル情報とを比較することができる。

また，上記音韻モデル格納部には，音声を構成する音素ごとに，音響モデルと韻律モデルとの対が格納されており，第２ラベル情報算出部は，入力された音声データを構成する各音素の特徴量を基に，入力された音声データの各音素に対応する音響モデルから第２ラベル情報を算出してもよい。これにより，音素ごとの第２ラベル情報を算出することができ，音声データにより近い音韻モデルを正しく選択することが可能となる。

また，上記音韻モデル格納部には，複数の音韻モデルがグループ化されて記憶されていてもよい。上記第２ラベル情報算出部は，グループ化された音韻モデルごとの第２ラベル情報を算出し，ラベル情報比較部は，第１ラベル情報とグループ化された音韻モデルの第２ラベル情報とを比較し，音韻モデル選択部は，ラベル情報比較部の比較結果に応じて，音韻モデル格納部からグループ化された音韻モデルを選択してもよい。

これにより，音韻モデル格納部に複数のグループ化された音韻モデルを格納して，入力された音声データに最も近似した音韻モデルを選択することが可能となる。例えば，音韻モデル格納部には，異なる話者の音韻モデルや，１の話者の異なる言い回しの音韻モデルがグループ化されて記憶されている。従来，話者Ａの音声を用いて合成音声を作成する場合には，話者Ａの音韻モデルが必要であり，話者Ｂの音声を用いて合成音声を作成する場合には，話者Ｂの音韻モデルが必要であった。しかし，音韻モデル格納部に話者Ａと話者Ｂの音韻モデルをグループ化して格納することにより，話者Ｃの音響的な特徴と韻律的な特徴が話者Ａの音響的な特徴と韻律的な特徴と近い場合には，話者Ａの音韻モデルを話者Ｃの音韻モデルに代えて利用することが可能となる。

上記課題を解決するために，本発明の別の観点によれば，テキストから音声を合成するに際して，テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択方法であって：入力された音声データを構成する各音素の属性情報を示す第１ラベル情報が存在する音声データの特徴量を抽出する方法と；音声データの特徴量を基に，入力された音声データの各音素に対応する音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する方法と；第１ラベル情報と第２ラベル情報に応じて，予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から音響モデルおよび韻律モデルを選択する方法と；を含むことを特徴とする，音韻モデル選択方法が提供される。

また，上記音韻モデル選択方法により，第１ラベル情報と第２ラベル情報とを比較する方法をさらに含み，ラベル情報の比較結果に応じて，音韻モデル格納部から音響モデルおよび韻律モデルが選択されるようにしてもよい。

上記課題を解決するために，本発明の別の観点によれば，コンピュータに上記の音韻モデル選択装置として機能させるコンピュータプログラムが提供される。上記コンピュータプログラムは，コンピュータが備える記憶部に格納され，コンピュータが備えるＣＰＵに読み込まれて実行されることにより，そのコンピュータを上記の情報処理装置として機能させる。また，コンピュータプログラムが記録された，コンピュータで読み取り可能な記録媒体も提供される。記録媒体は，例えば，磁気ディスク，光ディスクなどである。

以上説明したように本発明によれば，少量の音声データを用いて予め作成された音韻モデルを効率よく選択することにより，大量の音声データを収集して，大量の音声データを解析してモデル化する必要がなく，モデル化するための労力を省力化することができる。

以下に添付図面を参照しながら，本発明の好適な実施の形態について詳細に説明する。なお，本明細書および図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

（第１実施形態）
本発明の第１実施形態にかかる音韻モデル選択装置１００について説明する。音韻モデル選択装置１００は，テキストから音声を合成する音声合成装置に必要な音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを，少量の音声データから構築することが可能な装置である。音声合成装置は，入力されたテキスト文書を解析して，テキスト文書の解析結果から，音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の韻律パラメータの推定を行って，推定された韻律パラメータに最も近い音声を，音素単位に分割可能な自然音声が記録されている音声コーパスから取得して組み合わせることにより音声を合成する装置である。

上記韻律パラメータの推定は，ある話者の声の音響的な特徴をモデル化した音響モデルと，声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとを含む音韻モデルを用いて行われる。音韻モデル選択装置１００は，少量の音声データを用いて，予め作成された音韻モデルのなかから，入力された音声データに最も適合する音韻モデルを選択することができる。音韻モデルを作成するためには，数十時間におよぶ大量の音声データを解析しなければならず，音韻モデル作成処理に長時間を要する。しかし，音韻モデル選択装置１００により，予め音韻モデルが作成されていない話者の音声を用いて合成音声を作成する場合でも，新たにその話者の音韻モデルを作成せずとも，予め作成された音韻モデルを選択することにより，大量の音声データを解析して音韻モデルを作成する時間を省力化することができる。音韻モデル選択装置１００としては，ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等のコンピュータ装置（ノート型，デスクトップ型を問わない）を例示できる。

図１に基づいて，音韻モデル選択装置１００の機能構成について説明する。図１に示したように，音韻モデル選択装置１００は，入力データ１０２と，特徴量抽出部１０４と，第２ラベル情報算出部１０６と，音韻モデル格納部１０８と，ラベル情報比較部１１０と，音韻モデル選択部１１２などを備える。

入力データ１０２は，ユーザにより入力されるデータであって，第１ラベル情報１０２１と，ラベル列１０２２と，音声データ１０２３を含む。予め，ユーザにより音声データ１０２３の読み仮名と音声データの聴取結果等に基づき，音声データ１０２３を構成する各音素にラベルが付与される。また，音声データ１０２３の波形やスペクトルを参照しながら，各音素の境界位置の特定が行われて第１ラベル情報が設定される。

ラベル列１０２２は，上記ラベルを音声データ１０２３の時間的な流れに沿って格納したラベルの集合である。第１ラベル情報１０２１は，ユーザにより特定された各音素の境界位置の情報であって，各ラベルに付与される音素の属性情報である。第１ラベル情報１０２１は，例えば，ラベルが付与された各音素の開始時間，終了時間，継続時間などの時間情報である。

音韻モデル格納部１０８は，予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対を記憶する機能を有し，例えばハードディスクなどを例示することができる。図２に基づいて，モデル格納部１０８に記憶された音韻モデルについて説明する。図２は，モデル格納部１０８に記憶された音韻モデルについて説明する説明図である。

図２に示したように，音声を構成する各音素の音響的な特徴をモデル化した音響モデルと，話者の声の言い回しなどの韻律的な特徴をモデル化した韻律モデルとの対が複数格納されている。各音素にはラベルが付与されており，ラベルごとの音響モデルと韻律モデルの対が格納される。例えば，「あ」という音素には，ラベルａ１２２が付与され，ラベルａ１２２に音響モデルａ１２４および韻律モデルａ１２６が関連付けられて格納されている。音響モデルおよび韻律モデルは，話者の大量の音声データを収集し，大量の音声データを解析して統計的にモデル化されたデータである。音響的な特徴としては，例えば，ケプストラム，デルタケプストラム，パワー，デルタパワー，デルタデルタパワー，またはこれらの組み合わせなどを例示することができる。また，韻律的な特徴としては，例えば，声の高さ（ピッチ），声の大きさ，継続時間などを例示することができる。

また，音韻モデル格納部１０８に記憶された，複数の音響モデルと韻律モデルの対は，所定のグループにグループ化されて格納されている。所定のグループとは，発話者ごとのグループでもよいし，会話文と読み上げ文，標準語と関西弁のように音韻が異なる音声や文ごとのグループであってもよい。例えば，グループ１は話者Ａの音声の音韻モデルであり，グループ２は話者Ｂの音声の音韻モデルとしてもよい。音韻モデル格納部１０８には，複数のグループの音韻モデルが格納されている。音韻モデル格納部１０８に格納された音韻モデルのデータは，グループ化された音韻モデルを変更，追加するようにしてもよいし，新たにグループ化された音韻モデルを追加するようにしてもよい。例えば，グループ３として，話者Ｃの音韻モデルを追加するようにしてもよい。

図１に戻り，特徴量抽出部１０４は，入力された音声データ１０２３の特徴量を抽出する機能を有する。音声データ１０２３の特徴量としては，ケプストラム，デルタケプストラム，デルタデルタケプストラム，パワー，デルタパワー，デルタデルタパワー，またはこれらの組み合わせなどを例示することができる。特徴量抽出部１０４により抽出された特徴量は，上述した音韻モデル格納部１０８に格納された音響モデルを形成する特徴量の一部である。

第２ラベル情報算出部１０６は，特徴量抽出部１０４により抽出された音声データ１０２３の特徴量を基に，音声データ１０２３の音素に対応する音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する機能を有する。具体的には，第２ラベル情報算出部１０６は，特徴量抽出部１０４により抽出された特徴量の時系列である特徴量列と，ラベル列１０２２を用意し，音韻モデル格納部１０８に格納された音響モデルに従って，ラベルと特徴量列の音響的類似性に基づき両者の時間的対応を決定することで，第２ラベル情報を算出する。第２ラベル情報は，例えば，ラベルが付与された各音素の開始時間，終了時間，継続時間などであり，第１ラベル情報と同一の評価尺度に基づく情報である。また，「「波形接続型音声合成のための自動音素セグメンテーションの評価」信学技報SP2002-170 P5-10」に示される自動ラベリング手法によって，第２ラベル情報を求めるようにしてもよい。

ここで，図３に基づいて，ラベル情報について説明する。本実施形態では，ラベル情報を各ラベルの継続時間として説明する。図３は，ラベル情報について説明する説明図である。図３に示したように，音声データ１０２３が「昔」であった場合，ラベル列１０２２は，「Ｍ，Ｕ，Ｋ，Ａ，Ｓ，Ｈ，Ｉ」となる。また，第１ラベル情報１０２１は，各ラベルが表す音響的な特徴が表れている継続時間をミリ秒単位で表す時間情報であって，ラベル「Ｍ」の第１ラベル情報は２００ミリ秒，「Ｕ」の第１ラベル情報は１５０ミリ秒，「Ｋ」の第１ラベル情報は２５ミリ秒，「Ａ」の第１ラベル情報は３００ミリ秒，「ＳＨ」の第１ラベル情報は１１０ミリ秒，「Ｉ」の第１ラベル情報は１３０ミリ秒となっている。

そして，第２ラベル情報算出部１０６により算出された，ラベル列「ＭＵＫＡＳＨＩ」のグループ１に対応した第２ラベル情報は，「Ｍ」が１６０ミリ秒，「Ｕ」が２００ミリ秒，「Ｋ」が３２ミリ秒，「Ａ」が３７０ミリ秒，「ＳＨ」が１３０ミリ秒，「Ｉ」が１５０ミリ秒となる。また，グループ２に対応した第２ラベル情報は，「Ｍ」が１５０ミリ秒，「Ｕ」が１３０ミリ秒，「Ｋ」が２５ミリ秒，「Ａ」が３１０ミリ秒，「ＳＨ」が１１０ミリ秒，「Ｉ」が１３０ミリ秒となる。

図１に戻り，ラベル情報比較部１１０は，第１ラベル情報と第２ラベル情報とを比較する機能を有する。ラベル情報が，図３に示した継続時間であった場合には，ラベルごとの第１ラベル情報と第２ラベル情報との差分の絶対値を算出することにより，第１ラベル情報と第２ラベル情報との比較を行う。例えば，図３に示した第１ラベル情報とグループ１に対応した第２ラベル情報との差分の絶対値ｄ１は，以下のようになる。
d1=|200-160|+|150-200|+|25-32|+|300-370|+|110-130|+|130-150|=207
また，第１ラベル情報とグループ２に対応した第２ラベル情報との差分の絶対値ｄ２は，以下のようになる。
d2=|200-150|+|150-130|+|25-25|+|300-310|+|110-110|+|130-130|=80
上記計算式により，第１ラベル情報とグループ２に対応した第２ラベル情報との差分の絶対値ｄ２は，第１ラベル情報とグループ１に対応した第２ラベル情報との差分の絶対値ｄ１よりも小さいことがわかる。したがって，音声データ１０２３の音響的な特徴および韻律的な特徴は，グループ２の音響モデルの音響的な特徴および韻律モデルの韻律的な特徴に近似していることがわかる。ラベル情報比較部１１０は，第１ラベル情報と第２ラベル情報との比較結果を音韻モデル選択部１１２に提供する。

また，ラベル情報比較部１１０は，ラベル列の種類に応じて，第１ラベル情報と第２ラベル情報との差分に乗じる重み係数を変えるようにしてもよい。例えば，ラベルが子音の場合と母音の場合とで重み係数を変えるようにしてもよい。また，第１ラベル情報に対して，第２ラベル情報が前後のどちらにずれているかにより，第１ラベル情報と第２ラベル情報との差分に乗じる重み係数を変えるようにしてもよい。

音韻モデル選択部１１２は，ラベル情報比較部１１０により提供された比較結果に応じて，音韻モデル格納部１０８から音響モデルおよび韻律モデルを選択する機能を有する。上述したように，グループ１に対応した第２ラベル情報との差分値よりも，グループ２に対応した第２ラベル情報との差分値のほうが小さい場合には，グループ２の音響モデルと韻律モデルとを選択するようにする。

これにより，音韻モデル格納部１０８に格納された音韻モデルのなかから，音声データ１０２３の音響的な特徴および韻律的な特徴に最も近似した音韻モデルを選択することができる。その結果，音声データ１０２３の音韻モデルを作成せずとも，音声データ１０２３の音響的な特徴と韻律的な特徴に最も近似した音韻モデルを音韻モデル格納部１０８から選択して，音韻モデル格納部１０８に格納された音韻モデルに対応する音声以外の音声に対しても，音声を合成する音声合成装置に用いられる音韻モデルを提供することができる。音韻モデルの作成には数十時間におよぶ大量の音声データが必要となるが，音韻モデル選択装置１００によれば，数分程度の少量の音声データにより，音声データの特徴量に近似した音韻モデルを選択して，音声合成を効率よく行うことが可能となる。

従来，話者Ａの音声を用いて合成音声を作成する場合には，話者Ａの音韻モデルが必要であり，話者Ｂの音声を用いて合成音声を作成する場合には，話者Ｂの音韻モデルが必要であった。そして，新たに話者Ｃの音声を用いて合成音声を作成する場合には，話者Ｃの音韻モデルを作成しなければならなかった。しかし，音韻モデル選択装置１００によれば，音韻モデル格納部１０８に話者Ａの音韻モデルと話者Ｂの音韻モデルが格納され，話者Ｃの音響的な特徴と韻律的な特徴が話者Ａの音響的な特徴と韻律的な特徴と近い場合には，話者Ａの音韻モデルを話者Ｃの音韻モデルに代えて利用することが可能となる。

また，話者Ａの東京弁の韻律的な特徴を持つ音韻モデルが音韻モデル格納部１０８に格納されている場合に，話者Ａの大阪弁の韻律的な特徴を持つ音声で合成音声を作成する場合には，従来，新たに話者Ａの大阪弁の音韻モデルを作成する必要があった。しかし，音韻モデル選択装置１００によれば，話者Ａの大阪弁の音響的な特徴は，話者Ａの東京弁の音響的な特徴と近いため，話者Ａの大阪弁の音声で合成音声を作成する場合でも，新たに話者Ａの大阪弁の音韻モデルを作成せずとも，話者Ａの東京弁の音韻モデルを話者Ａの大阪弁の音韻モデルに代えて利用することが可能となる。

以上，音韻モデル選択装置１００の機能構成について説明した。次に，図４に基づいて，音韻モデル選択装置１００における音韻モデル選択方法について説明する。図４は，本実施形態にかかる音韻モデル選択方法について説明するフローチャートである。

まず，入力された音声データ１０２３の特徴量を抽出する（Ｓ１０２）。上述したように，特徴量は，例えば，ケプストラム，デルタケプストラム，デルタデルタケプストラム，パワー，デルタパワー，デルタデルタパワーであり，それらの組み合わせでもよく，例えば以下のように表される。
特徴量＝ｃｅｐｔ＋Δｃｅｐｔ＋ΔΔｃｅｐｔ＋ｐｏｗ＋Δｐｏｗ＋ΔΔｐｏｗ

次に，音声データ１０２３に付与された各ラベルに対応する音響モデルを選択する（Ｓ１０４）。そして，音声データ１０２３のラベルごとの特徴量を基に，ステップＳ１０４において選択された音響モデルから，第２ラベル情報を算出する（Ｓ１０６）。ステップＳ１０６において算出された第２ラベル情報と，予め音声データ１０２３に付与された第１ラベル情報とを比較する（Ｓ１０８）。上述したように，第１ラベル情報と第２ラベル情報が各音素の継続時間であった場合，第１ラベル情報と第２ラベル情報との差分の絶対値を算出することにより，第１ラベル情報と第２ラベル情報との比較を行う。

そして，音声データ１０２３の第１ラベル情報に対応する第２ラベル情報があるか否かを判定する（Ｓ１１０）。ステップＳ１１０では，第１ラベル情報に近い第２ラベル情報があるか否かを判定している。例えば，音韻モデル格納部１０８に，グループ化された複数の音韻モデルが格納されている場合には，第１ラベル情報と，各グループの第２ラベル情報とをそれぞれ比較する。第１ラベル情報に近い第２ラベル情報が音韻モデル格納部１０８に格納されている場合には，その音韻モデルを選択する（Ｓ１１２）。

ステップＳ１１０において，第１ラベル情報に対応する第２ラベル情報がないと判定された場合には，処理を終了する。例えば，第１ラベル情報と第２ラベル情報との差分が所定の差分値以上の場合は，音声データ１０２３の音響的な特徴と韻律的な特徴に最も近似した音韻モデルが音韻モデル格納部１０８に格納されていないと判定するようにしてもよい。第１ラベル情報と第２ラベル情報との差分が所定の差分以上の場合には，第２ラベル情報に対応する音韻モデルを用いて，音声データ１０２３の音声で正しく音声を合成することができないこととなる。

ステップＳ１１２において選択された音韻モデルは，テキスト文書から音声を合成する音声合成装置において，入力テキストの解析結果から音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の韻律パラメータの推定に用いられる音韻モデルとなる。以上，本実施形態にかかる音韻モデル選択装置１００の音韻モデル選択方法について説明した。

上記音韻モデル選択方法により，音声データ１０２３の音韻モデルが音韻モデル格納部１０８に格納されていない場合でも，音声合成装置に用いられる音韻モデルを提供することができる。通常，精度のよい音韻モデルを作成するためには，数十時間におよぶ大量の音声データが必要となり，大量の音声データを解析するために長時間を要する。一方，音韻モデル格納部１０８に格納された音韻モデルを選択するのに必要な音声データ１０２３は，数分程度の音声データでよく，ラベルごとの特徴量を用いて効率よく音韻モデル格納部１０８に格納された音韻モデルを選択することができる。これにより，少量の音声データで音声データの特徴量に近似した音韻モデルを選択して，音声合成を効率よく行うことが可能となる。以上，第１実施形態について説明した。次に，第２実施形態について説明する。

（第２実施形態）
本実施形態は，第１実施形態と比べ，ラベルごとの第１ラベル情報と第２ラベル情報との差分をそれぞれ算出する点は同じである。算出した差分を第１ラベル情報の誤差値とし，誤差値が所定の閾値以上か否かを判定して，誤差値が所定の閾値以上であるラベル以外の第１ラベル情報と第２ラベル情報との差分値を算出することにより，音声データ１０２３の音響的な特徴および韻律敵な特徴に近似している音韻モデルを選択する点で第１実施形態と異なっている。

第１ラベル情報は，ユーザにより手動で特定された各音素の境界位置の情報であるため，手動でラベリングされたラベル列および第１ラベル情報は，正しく設定されていない場合もある。しかし，本実施形態にかかる音韻モデル選択装置１００を用いることにより，手動で設定された精度の悪い第１ラベル情報を除いて第１ラベル情報と第２ラベル情報とを比較することができるため，手動によるラベリングミスを無視できる。

以下では，第１実施形態と異なる機能について主に説明する。図５に基づいて，本実施形態にかかる音韻モデル選択装置１００の機能構成について説明する。図５は，本実施形態にかかる音韻モデル選択装置１００の機能構成を示すブロック図である。図５に示したように，音韻モデル選択装置１００は，入力データ１０２と，特徴量抽出部１０４と，第２ラベル情報算出部１０６と，音韻モデル格納部１０８と，音韻モデル選択部１１２と，ラベル誤差値判定部１１４などを備える。

入力データ１０２と，特徴量抽出部１０４と，第２ラベル情報算出部１０６と，音韻モデル格納部１０８と，音韻モデル選択部１１２については，第１実施形態とほぼ同様の機能を備えるため，説明を省略する。以下では，第１実施形態と異なるラベル誤差値判定部１１４について主に説明する。

ラベル誤差値判定部１１４は，音声を構成する音素ごとに第１ラベル情報と第２ラベル情報との時間情報の差分を算出し，算出された時間情報の差分が所定の閾値以上である音素以外の音素の第１ラベル情報と第２ラベル情報との時間情報の差分により，第１ラベル情報と第２ラベル情報とを比較する機能を有する。本実施形態の音韻モデル選択装置１００に備わるラベル誤差値判定部１１４は，第１実施形態にかかる音韻モデル選択装置１００に備わるラベル情報比較部１１０に代えて，音韻モデル格納部１０８に格納された音韻モデルのうち，どの音韻モデルが音声データ１０２３の音響的な特徴および韻律的な特徴に近似しているかを判定しているが，第１実施形態にかかるラベル情報比較部１１０にラベル誤差値判定部１１４の機能を設けて，音韻モデル選択装置１００を構成するようにしてもよい。

図６および図７に基づいて，ラベル誤差値判定部１１４におけるラベル誤差値の判定について説明する。図６は，入力データ１０２に含まれる５ファイルのラベル列１０２２の例を示す表５００と，入力データ１０２に含まれる５ファイルの第１ラベル情報１０２１の例を示す表５２０である。表５００に示すように，音声データ１０２３の５ファイルには，それぞれラベルが付与されている。

例えば，１ｆｉｌｅには，Ａ１１，Ａ１２，Ａ１３，Ａ１４のラベル５０２が付与され，２ｆｉｌｅには，Ａ２１，Ａ２２，Ａ２３，Ａ２４のラベル５０４が付与され，同様に，３ｆｉｌｅ，４ｆｉｌｅ，５ｆｉｌｅにそれぞれ，ラベル５０６，ラベル５０８，ラベル５１０が付与されている。そして，表５２０に示すように，音声データ１０２３の５ファイルの第１ラベル情報１０２１は，各ファイルのラベル列順に設定されている。例えば，１ｆｉｌｅには第１ラベル情報５２２は，Ｄ１１，Ｄ１２，Ｄ１３，Ｄ１４が設定され，２ｆｉｌｅの第１ラベル情報５２４は，Ｄ２１，Ｄ２２，Ｄ２３，Ｄ２４が設定され，同様に，３ｆｉｌｅ，４ｆｉｌｅ，５ｆｉｌｅにそれぞれ，第１ラベル情報５２６，第１ラベル情報５２８，第１ラベル情報５３０が設定されている。

図７は，第２ラベル情報算出部１０６により音韻モデル格納部１０８に格納された音韻モデルのグループごとに対応した第２ラベル情報を示した表である。表６００は，グループ１の第２ラベル情報を示した表であり，表６２０は，グループ２の第２ラベル情報を示した表である。表６００に示したように，グループ１に対応する１ｆｉｌｅの第２ラベル情報６０２は，Ｅ１１，Ｅ１２，Ｅ１３，Ｅ１４が算出され，２ｆｉｌｅの第２ラベル情報６０４は，Ｅ２１，Ｅ２２，Ｅ２３，Ｅ２４が算出され，同様に，３ｆｉｌｅ，４ｆｉｌｅ，５ｆｉｌｅの，第２ラベル情報６０６，第２ラベル情報６０８，第２ラベル情報６１０がそれぞれ算出される。また，表６２０に示したように，グループ２に対応する１ｆｉｌｅの第２ラベル情報６２２は，Ｆ１１，Ｆ１２，Ｆ１３，Ｆ１４が算出され，２ｆｉｌｅの第２ラベル情報６２４は，Ｆ２１，Ｆ２２，Ｆ２３，Ｆ２４が算出され，同様に，３ｆｉｌｅ，４ｆｉｌｅ，５ｆｉｌｅの，第２ラベル情報６２６，第２ラベル情報６２８，第２ラベル情報６３０がそれぞれ算出される。

上述したように，第１ラベル情報は，ユーザにより手動でラベリングされた各音素の境界位置の情報であるため，正しいラベル位置とはずれてしまう場合がある。例えば，表５２０の５ｆｉｌｅの第１ラベル情報５３０のうち，Ｄ５２〜Ｄ５４のラベル位置がずれてしまったとする。正しい位置よりずれて設定された第１ラベル情報を，Ｄ’５２，Ｄ’５３，Ｄ’５４とする。このとき，各ファイルの第１ラベル情報とグループ１の第２ラベル情報との差分値の絶対値は以下のように表される。
1fileの差分値:d11=|E11-D11|+|E12-D12|+|E13-D13|+|E14-D14|
2fileの差分値:d12=|E21-D21|+|E22-D22|+|E23-D23|+|E24-D24|
3fileの差分値:d13=|E31-D31|+|E32-D32|+|E33-D33|+|E34-D34|
4fileの差分値:d14=|E41-D41|+|E42-D42|+|E43-D43|+|E44-D44|
5fileの差分値:d15=|E51-D51|+|E52-D’52|+|E53-D’53|+|E54-D’54|
上記各ファイルの差分値から，全体の差分値ｄ１が以下のように求められる。
ｄ１＝（ｄ１１＋ｄ１２＋ｄ１３＋ｄ１４＋ｄ１５）／５

また，各ファイルの第１ラベル情報とグループ２の第２ラベル情報との差分値の絶対値は以下のように表される。
1fileの差分値:d21=|F11-D11|+|F12-D12|+|F13-D13|+|F14-D14|
2fileの差分値:d22=|F21-D21|+|F22-D22|+|F23-D23|+|F24-D24|
3fileの差分値:d23=|F31-D31|+|F32-D32|+|F33-D33|+|F34-D34|
4fileの差分値:d24=|F41-D41|+|F42-D42|+|F43-D43|+|F44-D44|
5fileの差分値:d25=|F51-D51|+|F52-D’52|+|F53-D’53|+|F54-D’54|
上記各ファイルの差分値から，全体の差分値ｄ２が以下のように求められる。
ｄ２＝（ｄ２１＋ｄ２２＋ｄ２３＋ｄ２４＋ｄ２５）／５

ラベル誤差値判定部１１４は，各ファイルの差分値が所定の閾値以上であった場合に，その差分値を除いて，全体の差分値を算出する。上述したように，第１ラベル情報Ｄ’５２，Ｄ’５３，Ｄ’５４は，正しいラベル位置とはずれた値である。したがって，グループ１の差分値においては異常値となるｄ１５を除き，グループ２の差分値においては異常値となるｄ２５を除いて全体の差分値を算出するようにする。異常値を除いて算出された差分値ｄ１，ｄ２は以下のように表される。
ｄ１＝（ｄ１１＋ｄ１２＋ｄ１３＋ｄ１４）／４
ｄ２＝（ｄ２１＋ｄ２２＋ｄ２３＋ｄ２４）／４

このように，異常値を除いて全体の差分値を算出することにより，入力データ１０２の手動ラベリングによって，大幅に第１ラベル情報がずれてしまった場合でも，音声データ１０２３の音響的な特徴および韻律的な特徴に近似した音韻モデルを正しく選択することが可能となる。

また，例えば上記の例において，入力データ１０２の５ファイルのうち，４ファイルの第１ラベル情報がずれてしまった場合，つまり，４ファイルの差分値が異常値であった場合には，差分値が異常値ではない１ファイルのみを全体の差分値とする。差分値が異常値である４ファイルも含めて全体の差分値とする場合には，各差分値に対して重みをかけるようにしてもよい。例えば，差分値が異常値ではないファイルにｗ１の重みをかけ，差分値が異常値であるファイルにｗ１より小さい値となるｗ２の重みをかける。ｗ１およびｗ２の重みをかけた差分値ｄ１は，例えば以下のように表される。
ｄ１＝｛ｗ１＊ｄ１１＋ｗ２＊（ｄ１２＋ｄ１３＋ｄ１４＋ｄ１５）｝／５

また，手動ラベリングされた第１ラベル情報のすべてがずれてしまっており，上記５ファイルのすべての差分値が異常値であった場合には，ユーザに対して，選択すべき音韻モデルが音韻モデル格納部１０８に格納されていない旨通知するようにしてもよい。また，ユーザの入力に応じて，差分値が異常値であった場合でも，差分値を計算して，音韻モデル格納部１０８に格納された音韻モデルの第２ラベル情報との差分値が最も小さい音韻モデルを選択するようにしてもよい。

以上，本実施形態にかかる音韻モデル選択装置１００の機能構成について説明した。次に，図８に基づいて，本実施形態にかかる音韻モデル選択装置１００の音韻モデル選択方法について説明する。図８は，本実施形態にかかる音韻モデル選択方法を示すフローチャートである。

まず，入力された音声データ１０２３の特徴量を抽出する（Ｓ２０２）。上述したように，特徴量は，例えば，ケプストラム，デルタケプストラム，デルタデルタケプストラム，パワー，デルタパワー，デルタデルタパワーであり，それらの組み合わせでもよく，例えば以下のように表される。
特徴量＝ｃｅｐｔ＋Δｃｅｐｔ＋ΔΔｃｅｐｔ＋ｐｏｗ＋Δｐｏｗ＋ΔΔｐｏｗ

次に，音声データ１０２３に付与された各ラベルに対応する音響モデルを選択する（Ｓ２０４）。そして，音声データ１０２３のラベルごとの特徴量を基に，ステップＳ２０４において選択された音響モデルから，第２ラベル情報を算出する（Ｓ２０６）。ステップＳ２０６において算出された第２ラベル情報と，予め音声データ１０２３に付与された第１ラベル情報との差分を算出する（Ｓ２０８）。上述したように，第１ラベル情報と第２ラベル情報が各音素の継続時間であった場合，第１ラベル情報と第２ラベル情報との差分の絶対値を算出する。

ステップＳ２０８において算出された差分値が異常値であるか否かを判定する（Ｓ２１０）。ここで，算出された差分値が所定の閾値以上である場合に，その差分値を異常値とする。ステップＳ２１０において，差分値に異常値があると判定された場合には，異常値を除去して第１ラベル情報と第２ラベル情報とを比較する（Ｓ２１２）。具体的には，異常値である差分値以外の差分値を加算する。ステップＳ２１０において，差分値に異常値がないと判定された場合には，ステップＳ２１４の処理を行なう。

そして，音声データ１０２３の第１ラベル情報に対応する第２ラベル情報があるか否かを判定する（Ｓ２１４）。ステップＳ２１４では，第１ラベル情報に近い第２ラベル情報があるか否かを判定している。例えば，音韻モデル格納部１０８に，グループ化された複数の音韻モデルが格納されている場合には，第１ラベル情報と，各グループの第２ラベル情報とをそれぞれ比較する。第１ラベル情報に近い第２ラベル情報が音韻モデル格納部１０８に格納されている場合には，その音韻モデルを選択する（Ｓ２１６）。

ステップＳ２１４において，第１ラベル情報に対応する第２ラベル情報がないと判定された場合には，処理を終了する。例えば，第１ラベル情報と第２ラベル情報との差分が所定の差分値以上の場合は，音声データ１０２３の音響的な特徴と韻律的な特徴に最も近似した音韻モデルが音韻モデル格納部１０８に格納されていないと判定するようにしてもよい。第１ラベル情報と第２ラベル情報との差分が所定の差分以上の場合には，第２ラベル情報に対応する音韻モデルを用いて，音声データ１０２３の音声で正しく音声を合成することができない。

ステップＳ２１６において選択された音韻モデルは，テキスト文書から音声を合成する音声合成装置において，入力テキストの解析結果から音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の韻律パラメータの推定に用いられる音韻モデルとなる。以上，本実施形態にかかる音韻モデル選択装置１００の音韻モデル選択方法について説明した。

上記音韻モデル選択方法により，入力データ１０２の手動ラベリングによって，大幅に第１ラベル情報がずれてしまった場合でも，音声データ１０２３の音響的な特徴および韻律的な特徴に近似した音韻モデルを正しく選択することが可能となる。また，音声データ１０２３の音韻モデルが音韻モデル格納部１０８に格納されていない場合でも，音声合成装置に用いられる音韻モデルを提供することができる。通常，精度のよい音韻モデルを作成するためには，数十時間におよぶ大量の音声データが必要となり，大量の音声データを解析するために長時間を要する。一方，音韻モデル格納部１０８に格納された音韻モデルを選択するのに必要な音声データ１０２３は，数分程度の音声データでよく，ラベルごとの特徴量を用いて効率よく音韻モデル格納部１０８に格納された音韻モデルを選択することができる。これにより，少量の音声データで音声データの特徴量に近似した音韻モデルを選択して，音声合成を効率よく行うことが可能となる。以上，第２実施形態について説明した。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

上記実施形態においては，音韻モデル選択装置１００に音韻モデル格納部１０８が備えられているが，かかる例に限定されず，音韻モデル格納部１０８を音韻モデル選択装置１００とは別の装置に備えてもよい。例えば，音韻モデル格納部１０８を備えた記憶装置と音韻モデル選択装置１００とをネットワークを介して接続することにより，音韻モデル格納部１０８に記憶された音韻モデルを，複数のユーザが利用して，自己のＰＣ等に音韻モデルを有していない場合でも，少量の音声データを用いて音韻モデルを構築して，合成音声を作成することが可能となる。

本発明は，本発明は，音韻モデル選択装置，音韻モデル選択方法およびコンピュータプログラムに適用可能であり，特に少量の音声データから，音声を合成する際に用いられる音韻モデル選択する音韻モデル選択装置に適用可能である。

本発明の第１の実施形態にかかる音韻モデル選択装置の機能構成を示すブロック図である。同実施の形態におけるモデル格納部に記憶された音韻モデルについて説明する説明図である。同実施の形態におけるラベル情報について説明する説明図である。同実施の形態における音韻モデル選択方法を示すフローチャートである。本発明の第２の実施形態にかかる音韻モデル選択装置の機能構成を示すブロック図である。同実施の形態における入力データに含まれる第１ラベル情報の例を示す表である。同実施の形態における音韻モデルに対応した第２ラベル情報の例を示す表である。同実施の形態における音韻モデル選択方法を示すフローチャートである。

符号の説明

１００音韻モデル選択装置
１０２入力データ
１０２１第１ラベル情報
１０２２ラベル列
１０２３音声データ
１０４特徴量抽出部
１０６第２ラベル情報算出部
１０８音韻モデル格納部
１１０ラベル情報比較部
１１２音韻モデル選択部
１１４ラベル誤差値判定部

Claims

テキストから音声を合成するに際して，テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置であって：
入力された音声データを構成する各音素の属性情報を示す第１ラベル情報が存在する前記音声データの特徴量を抽出する特徴量抽出部と；
予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部と；
前記特徴量抽出部により抽出された前記特徴量を基に，前記入力された音声データの各音素に対応する前記音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する第２ラベル情報算出部と；
前記第１ラベル情報と前記第２ラベル情報とを比較するラベル情報比較部と；
前記ラベル情報比較部の比較結果に基づき、前記第２ラベル情報が前記第１ラベル情報に近似している場合に前記第２のラベル情報に対応する音響モデルおよび韻律モデルを前記音韻モデル格納部から選択する音韻モデル選択部と；
を備えることを特徴とする，音韻モデル選択装置。
前記第１ラベル情報および前記第２ラベル情報は，音声を構成する各音素の音響的な特徴が現れている時間の情報であって，
前記ラベル情報比較部は，
前記第１ラベル情報と前記第２ラベル情報の差分値により，前記第１ラベル情報と前記第２ラベル情報とを比較することを特徴とする，請求項１に記載の音韻モデル選択装置。
前記第１ラベル情報および前記第２ラベル情報は，音声を構成する各音素の音響的な特徴が現れている時間の情報であって，
前記ラベル情報比較部は，
音声を構成する音素ごとに前記第１ラベル情報と前記第２ラベル情報の差分値を算出し，前記算出された差分値が所定の閾値以上である音素以外の音素の前記第１ラベル情報と前記第２ラベル情報との差分値により，前記第１ラベル情報と前記第２ラベル情報とを比較することを特徴とする，請求項１に記載の音韻モデル選択装置。
前記音韻モデル格納部には，音声を構成する音素ごとに，前記音響モデルと前記韻律モデルとの対が格納されており，
前記第２ラベル情報算出部は，前記入力された音声データを構成する各音素の特徴量を基に，前記入力された音声データの各音素に対応する前記音響モデルから前記第２ラベル情報を算出することを特徴とする，請求項１に記載の音韻モデル選択装置。
前記音韻モデル格納部には，
複数の前記音韻モデルがグループ化されて記憶されていることを特徴とする，請求項１に記載の音韻モデル選択装置。
前記第２ラベル情報算出部は，前記グループ化された音韻モデルごとの第２ラベル情報を算出し，
前記ラベル情報比較部は，前記第１ラベル情報と前記グループ化された音韻モデルの第２ラベル情報とを比較し，
前記音韻モデル選択部は，前記ラベル情報比較部の比較結果に応じて，前記音韻モデル格納部から前記グループ化された音韻モデルを選択することを特徴とする，請求項５に記載の音韻モデル選択装置。
テキストから音声を合成するに際して，テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択方法であって：
入力された音声データを構成する各音素の属性情報を示す第１ラベル情報が存在する前記音声データの特徴量を抽出する方法と；
前記音声データの特徴量を基に，前記入力された音声データの各音素に対応する前記音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する方法と；
前記第１ラベル情報と前記第２ラベル情報とを比較する方法と；
前記第１ラベル情報と前記第２ラベル情報の比較結果に基づき，前記第２ラベル情報が前記第１ラベル情報に近似している場合に、予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から、前記第２のラベル情報に対応する音響モデルおよび韻律モデルを選択する方法と；
を含むことを特徴とする，音韻モデル選択方法。
テキストから音声を合成するに際して，テキストの解析結果から音響的な特徴と韻律的な特徴とを推定するために用いられる，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとからなる音韻モデルを選択する音韻モデル選択装置をして，
入力された音声データを構成する各音素の属性情報を示す第１ラベル情報が存在する前記音声データの特徴量を抽出する処理と；
前記音声データの特徴量を基に，前記入力された音声データの各音素に対応する前記音響モデルから，各音素の属性情報を示す第２ラベル情報を算出する処理と；
前記第１ラベル情報と前記第２ラベル情報とを比較する処理と；
前記第１ラベル情報と前記第２ラベル情報の比較結果に応じて，前記第２ラベル情報が前記第１ラベル情報に近似している場合に、予め録音された音声を構成する各音素の，音響的な特徴をモデル化した音響モデルと韻律的な特徴をモデル化した韻律モデルとの複数の対が記憶されている音韻モデル格納部から、前記第２のラベル情報に対応する音響モデルおよび韻律モデルを選択する処理と；
を実行せしめることを特徴とする，コンピュータプログラム。