JPH11190997A

JPH11190997A - 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Info

Publication number: JPH11190997A
Application number: JP9369593A
Authority: JP
Inventors: Naoyuki Okazaki; 尚行岡崎; Ryuji Yamazaki; 竜二山崎; Kenji Aoyama; 健治青山; Keisuke Okamoto; 圭介岡本; Masahiro Tsuemura; 正博杖村
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1997-12-25
Filing date: 1997-12-25
Publication date: 1999-07-13

Abstract

(57)【要約】【課題】単語のテキストを入力することにより、その
単語にかかる標準パターンを自動的に作成する。【解決手段】テキスト入力部１より任意の単語のテキ
ストが入力されると、音声片抽出部３は、このテキスト
に含まれる各テキスト片毎に音声データベース２を検索
し、そのテキスト片に対応する音声片を抽出する。特徴
抽出部４は、前記入力テキストに対応する音声データを
生成し得るすべての音声片の組合せを設定し、各組合せ
毎に、その組合せにより生成される合成音声データの特
徴抽出処理を行ってトラジェクトリ長を算出する。組合
せ決定部５は、各組合せの中からトラジェクトリ長の算
出値が最小となる組合せを最適な組合せとして決定す
る。この決定された組合せにかかる各音声片は、正規化
処理部６により個別に正規化され、標準パターンを作成
するための正規化特徴パターンが生成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、人間の発声した音声
データを認識するための技術に関するもので、特に、認
識対象の音声データに含まれる各単語を切り分けて認識
するためのマッチング処理に用いられる標準パターンを
作成するための技術に関する。

【０００２】

【従来の技術】音声認識の分野では、ある単語を発声し
て得られた音声の波形信号のパターンをそのまま比較す
るのではなく、その波形信号を等しい時間間隔のフレー
ム毎に区切って、各フレーム毎の音声波形の特徴を表す
多次元の特徴ベクトル（ケプストラム）を抽出し、この
特徴ベクトルの時系列パターンをあらかじめ得られた標
準パターンと比較する方法を採用している。

【０００３】従来の標準パターンは、各単語毎に、複数
人の話者がそれぞれ複数回の発声を行い、得られた各音
声データの波形信号を取り込んで、各音声データの特徴
パターンを抽出することにより行われる。

【０００４】この標準パターンの代表的な作成方法とし
て、ＮＡＴ（Normalized Along Trajectry）方式と呼ば
れる方法が存在する。この方法では、まず各音声データ
の波形信号から複数フレーム分の特徴ベクトル（ケプス
トラム）を抽出した後、これら特徴ベクトルの軌跡（ト
ラジェクトリ）をあらかじめ定められたフレーム数分だ
け等分割し、各分割点に相当するベクトルの時系列デー
タをもって、音声データの正規化された特徴パターンを
作成する。ついで、各音声データの特徴パターンを対応
するフレーム毎にとりまとめてクラスタリング処理を実
施し、各フレーム毎に所定数のクラスタを特定する。そ
して最終的にフレーム間におけるクラスタの統合処理に
より特徴ベクトルの代表的な時系列データが生成され、
標準パターンとして登録される（特開平７−１４６９３
８号公報）。

【０００５】

【発明が解決しようとする課題】コンピュータによる音
声認識処理を実施するには、多数の単語について、それ
ぞれ上記のような方法により標準パターンを作成してメ
モリ内に蓄積する必要がある。したがって新たな単語の
標準パターンを作成する都度、複数人の音声を採取して
装置内に入力する必要があり、多大な時間と労力とがか
かるという問題がある。

【０００６】この発明は上記の問題点に着目してなされ
たもので、あらかじめ複数の単語の音声データをその単
語のテキストに対応づけた形でデータベース化してお
き、新たに標準パターンを作成すべき単語が出現したと
き、この単語のテキストにより前記データベースを検索
することにより、新たな音声データを採取する必要なし
に、必要な標準パターンを自動的に作成することを技術
課題とする。

【０００７】またこの発明が他に課題とするところは、
前記テキストの音声データを表現し得る複数とおりの音
声片の組合せの中から、自然の発声に最も近い特徴が得
られる組合せを選択することにより、前記テキストの生
の発声データの特徴を的確に捉えた標準パターンを作成
して音声認識の精度を大幅に向上する点にある。

【０００８】

【課題を解決するための手段】請求項１の発明は、複数
の単語について、それぞれその単語を発声して得られる
音声データを前記単語のテキストと対応づけて音声デー
タベースに記憶しておき、任意の単語のテキストを入力
して、この単語の発声データを認識するための標準パタ
ーンを、前記音声データベースに記憶された複数個の音
声データを用いて作成するための方法であって、前記入
力されたテキストに含まれる複数のテキスト片毎に前記
音声データベースを検索して、そのテキスト片を含む単
語の音声データより前記テキスト片に対応する音声片を
抽出する第１のステップと、前記入力されたテキストの
音声データを表現するための複数とおりの音声片の組合
せについて、それぞれその音声片の組合せによる合成音
声データを複数のフレームに分割して、各フレーム毎に
そのフレーム内の音声波形の特徴を表す特徴ベクトルを
抽出した後、この特徴ベクトルの軌跡の長さが最小値を
とる音声片の組合せを最適な組合せとして決定する第２
のステップと、決定された音声片の組合せにかかる各音
声片の特徴ベクトルの時系列データを用いて前記単語の
標準パターンを作成する第３のステップとを一連に実施
することを特徴とする。

【０００９】請求項２の発明では、前記第３のステップ
において、前記決定された組合せの音声片毎に、その特
徴ベクトルの軌跡を前記音声片の各構成音素毎の特徴ベ
クトルの理想値に基づき正規化した後、正規化された各
軌跡の合成結果を用いて標準パターンを作成するように
している。

【００１０】請求項３の発明は、請求項１の方法を実施
するための制御プログラムを記録した記録媒体にかかる
もので、上記各処理を実施するための手順をコンピュー
タに実行させる制御プログラムが記録されて成る。

【００１１】請求項４の発明は、請求項１の方法を実施
するための標準パターン作成装置にかかるもので、標準
パターンを作成すべき単語のテキストを入力するための
入力手段と、複数の単語について、それぞれその単語を
発声して得られる音声データを前記単語のテキストと対
応づけて記憶する音声データベースと、前記入力手段よ
り入力されたテキストに含まれる複数のテキスト片毎に
前記音声データベースを検索して、そのテキスト片を含
む単語の音声データより前記テキスト片に対応する音声
片を抽出する音声片抽出手段と、前記入力されたテキス
トの音声データを表現するための複数とおりの音声片の
組合せについて、それぞれその音声片の組合せによる合
成音声データを複数のフレームに分割して、各フレーム
毎にそのフレーム内の音声波形の特徴を表す特徴ベクト
ルを抽出する特徴抽出手段と、前記音声片の組合せの中
から前記特徴ベクトルの軌跡の長さが最小値をとる音声
片の組合せを最適な組合せとして決定する組合せ決定手
段と、決定された音声片の組合せについて、各音声片の
特徴ベクトルの時系列データを用いて前記単語の標準パ
ターンを作成する標準パターン作成手段とを具備してい
る。

【００１２】さらに請求項５の発明では請求項２の方
法を実施するために、前記標準パターン作成手段を、前
記決定された組合せの音声片毎に、その特徴ベクトルの
軌跡を前記音声片の各構成音素毎の特徴ベクトルの理想
値に基づき正規化した後、正規化された各軌跡を合成処
理結果を用いて標準パターンを作成するように構成して
いる。

【００１３】つぎに上記構成要件に含まれるつぎの用語
について、簡単に定義しておく。（１）テキスト片標準パターンの作成対象として入力されたテキストの一
部またはすべての文字から成るテキストデータを意味す
る。たとえば『みどり』というテキストが入力された場
合、テキスト片として、『み』『ど』『り』『みど』
『どり』『みどり』の各テキスト片が含まれていること
になる。

【００１４】（２）音声片任意の単語を発声して得られる音声データにおいて、こ
の単語のあるテキスト片に対応する部分の音声波形を表
すデータである。

【００１５】

【作用】請求項１，３，４の発明では、入力されたテキ
ストに含まれるテキスト片毎に、音声データベースより
そのテキスト片に対応する音声片を取り出してそれぞれ
の特徴抽出処理を行った後、入力テキストの音声データ
を表現するための複数とおりの音声片の組合せについ
て、それぞれ音声片毎に複数フレーム分の特徴ベクトル
を抽出する。

【００１６】一般に、音声データにおけるフレーム間の
特徴ベクトルの変化量（ベクトル間の距離）は、フレー
ム間の特徴の変化量に比例して大きくなる。一方、複数
の音声片をつなぎ合わせて１つの音声データを作成する
場合、各音声片間で音の高さ，強さ，速度などの特徴の
差が大きくなると、音声片のつなぎ目部分で音の調子が
変化する不連続状態が生じる。したがってこの合成され
た音声データにおける特徴ベクトルの軌跡が短いほど、
自然な発声状態が表されているものと考えることができ
る。

【００１７】請求項１，３，４の発明では、この原理に
基づき、前記複数とおりの音声片の組合せのうち、音声
片毎の組合せにより生成される合成音声データの特徴ベ
クトルの軌跡の長さが最小となるような音声片の組合せ
を選択して、各音声片の特徴ベクトルの時系列データに
より特徴パターンを作成するので、前記入力テキストを
自然に発声して得られる音声データの特徴を反映した標
準パターンを作成することができる。

【００１８】さらに請求項２および５の発明では、決定
された組合せの音声片に対し、それぞれその音声片の構
成音素毎の特徴ベクトルの理想値に基づき、特徴ベクト
ルの軌跡を正規化する。これにより採用された音声片間
において、音の高さ，強さ，速さなどの特徴に話者の違
いなどによる差違が生じていても、各特徴が標準化され
るので、自然の発声状態により近い、精度の高い標準パ
ターンの作成が可能となる。

【００１９】

【実施例】図１は、この発明の一実施例にかかる標準パ
ターン作成装置の構成例を示す。この標準パターン作成
装置は、任意の単語のテキストを入力することにより、
この単語の音声データを認識するための標準パターンを
自動生成するためのもので、テキスト入力部１，音声デ
ータベース２，音声片抽出部３，特徴抽出部４，組合せ
決定部５，正規化処理部６，標準パターン作成部７，標
準パターン辞書ファイル８などを構成として備えてい
る。

【００２０】この標準パターン作成装置は、具体的に
は、図２に示すように、ＣＰＵ１０，ＲＯＭ１１，ＲＡ
Ｍ１２を制御部とするコンピュータにより構成される。
ハードディスク装置１３には、前記音声データベース２
や標準パターン辞書ファイル８のほか、音声片抽出部
３，特徴抽出部４，組合せ決定部５，正規化処理部６，
標準パターン作成部７の各処理を実施するための制御プ
ログラムが記憶されている。ＣＰＵ１０は、これら制御
プログラムを順次読み出して実行することにより、各処
理部として機能することになる。

【００２１】なお図中、入力部１４は、前記テキスト入
力部１の機能を実現するためのもので、単語のテキスト
を入力するためのキーボードや確定操作用のマウスなど
により構成される。また出力部１５は、標準パターンの
生成結果や音声データベースの内容などを出力する際に
用いられるもので、モニタ，プリンタ，スピーカなどの
出力装置により構成される。

【００２２】前記音声データベース２には、複数の単語
について、それぞれ複数人の話者が複数回発声して得ら
れた音声データが格納されている。各音声データは、音
声の生波形信号のディジタル変換データであって、それ
ぞれ該当する単語を表現するテキストとこのテキストの
各構成文字に対応する音素（音声データ中の１音分の音
声波形）の位置を示すデータとが対応づけられる。

【００２３】図３は、『ゆうらくちょう』という単語を
例にとって、この単語にかかる記憶データの構成を示
す。図中、領域１６には、この単語をある話者が発声し
て得られた音声データが記憶され、領域１７には、前記
単語のテキストを構成する各文字とその文字に対応する
音声波の開始時間および終了時間とが、対応づけて記憶
されている。

【００２４】図１に戻って、テキスト入力部１は、キー
ボードなどにより構成されるもので、このテキスト入力
部１より任意のテキストが入力されると、音声片抽出部
３は、このテキストに含まれる各テキスト片毎に前記音
声データベース２を検索する。そしてそのテキスト片が
含まれる単語の音声データが検索されると、前記各音素
位置の記憶データに基づき、この音声データから前記テ
キスト片に対応する音声片を切り出し、特徴抽出部４へ
と出力する。

【００２５】特徴抽出部４は、抽出された各音声片につ
いて、前記入力テキストに対応する音声データを生成す
るための音声片の組合せとして、考えられるすべての組
合せを設定する。この後、特徴抽出部４は、各音声片の
組合せ毎に、該当する音声片をつなぎ合わせて生成され
る合成音声データを、ある一定時間毎の複数のフレーム
に分割し、各フレーム毎に、そのフレーム内の音声波形
にフーリエ変換や線形予測係数などの周波数分析を施す
ことにより、フレーム内の波形の特徴を表す多次元の特
徴ベクトル（ケプストラム）を抽出する。さらに特徴抽
出部４は、各音声片の組合せ毎に、前記特徴ベクトルの
各構成要素を軸とする多次元空間内に各フレームの特徴
ベクトルを仮想配置し、これら特徴ベクトルの軌跡長
（以下「トラジェクトリ長」という）を算出する。

【００２６】前記トラジェクトリ長は、合成音声データ
における特徴の変動状態を表す指標となるもので、つぎ
の組合せ決定部５は、各音声片の組合せの中からトラジ
ェクトリ長が最小値をとる音声片の組合せを、最適な組
合せとして選択する。なおこの選択処理は、所定の誤差
範囲にあるトラジェクトリ長を同値とみなして処理する
もので、この結果、同じ音声片の組合せにかかる複数パ
ターンのデータが選択される。

【００２７】正規化処理部６は、これら選択された組合
せにかかる各音声片を正規化処理し、各組合せ毎に、後
記する正規化特徴パターンを作成する。標準パターン作
成部７は、これら正規化特徴パターンを取り込んで、Ｆ
ＣＭ（Fuzzy C-means 法）などを用いたクラスタリング
処理により前記入力テキストの標準パターンを作成し、
標準パターン辞書ファイル８に格納する。

【００２８】なお以下の文中では、『』付きのテキスト
により入力テキストやテキスト片などのテキストデータ
を表し、［］付きのテキストにより音声データを表すも
のとする。

【００２９】図４は、標準パターンを作成すべき単語と
して、『はままつちょう』という単語のテキストデータ
が入力された場合に、この入力テキストを受け付けて処
理した認識結果を示す。図中の各矩形は、前記入力テキ
ストの各構成要素を示すもので、前記単語を実際に構成
する文字『は』『ま』『ま』『つ』『ちょ』『う』のデ
ータの前後に、無声状態を表すデータ『PAU 』が付加さ
れている。また各矩形上に表された数字ラベル０〜７
は、各データの並び順序を表すものである。

【００３０】この実施例における音声片の抽出処理で
は、同じ音声片であっても、その前後の音素により特徴
が変化することを考慮して、抽出対象のテキスト片をそ
の前後のテキストを含んだ形で取り出して音声データベ
ース２を検索し、検索された音声データの中から抽出対
象の音声片の部分を切り出すようにしている。なお抽出
対象のテキスト片が入力テキストの最前方または最後方
にあれば、その前または後のデータ『PAU 』を含めたテ
キスト片による検索が実施される。例えば、前記入力テ
キスト『はままつちょう』のテキスト片『はま』に対応
する音声片を抽出する場合、前記テキスト片『はま』の
前後の音素を含む『PAU はまま』というテキスト片によ
り音声データベース２が検索され、この検索された音声
データ［PAU はまま］から音声片［はま］が抽出される
のである。

【００３１】図５は、入力テキストに対し、音声片の抽
出処理から最適な音声片の組合せを選択するまでの一連
の処理手順を示すもので、以下、図６〜８を参照しつ
つ、標準パターンの作成対象として『はままつちょう』
というテキストが入力された場合を例にとって、一連の
処理手順を説明する。なお図５中、ＳＴは各ステップを
示し、ＴＮは標準パターンの作成対象とするテキストの
単語数（『はままつちょう』の場合はＴＮ＝６）を示
す。またｎ，ｋは入力テキストよりデータベース検索用
のテキスト片を切り出すためのパラメータであって、ｎ
はテキスト片の切出し開始位置を、ｋはテキスト片の切
出し終了位置を、それぞれ示す。

【００３２】まずステップ１でｎの初期値として「１」
がセットされ、このｎがＴＮ＋２を越えるまでｎを順次
インクリメントしつつ、ｎの各設定値毎にステップ３〜
９の処理を実施する。

【００３３】ステップ３では、ｋの値としてｎ＋１がセ
ットされる。初期状態では、ｎ＝１，ｋ＝２となるから
ステップ４は「ＮＯ」であり、ステップ５で前記入力テ
キストのｎ−１〜ｋ番目に対応するテキスト片『PAU は
ま』が抽出される。

【００３４】つぎのステップ６では、このテキスト片
『PAU はま』により音声データベース２が検索され、前
記テキスト片に対応する音声片［PAU はま］を有する音
声データ（［はままつ］［はましま］など）が抽出され
る。さらにステップ７では、この検索された音声データ
から抽出すべきｎ〜ｋ−１番目のテキスト片に対応する
音声片（初期段階では『は』のみ）が抽出され、図示し
ないメモリ内に格納される。以下、ステップ８でｋをイ
ンクリメントしつつ、ｋがＴＮ＋２を越えるまで、上記
の処理が繰り返し実施される。

【００３５】図６は、前記入力テキスト『はままつちょ
う』について、上記ステップ３〜９の処理を実施した結
果を示す。ｎ＝１の場合には、２〜７の範囲でｋをイン
クリメントすることにより、先頭位置の音素［は］のみ
より成る音声片からすべての構成音素［はままつちょ
う］を具備する音声片までが、順次抽出される。以下同
様に、ｎ，ｋを順次インクリメントしてゆくことによ
り、前記入力テキストから抽出され得るすべてのテキス
ト片について、それぞれ対応する音声片が抽出されるこ
とになる。

【００３６】図７は、上記音声片の抽出結果の記憶テー
ブルの構成を示す。図中の各セルには、前記テキスト片
の抽出開始位置をａ（１≦ａ≦ＴＮ），抽出するテキス
ト片の長さ（テキスト片に含まれる文字数）をｂ（１≦
ｂ≦ＴＮ−ａ＋１）とおいた場合の音声片の抽出結果Ｐ
（ａ，ｂ）が記憶される。この場合、該当する音声片が
複数個ある場合には、各音声片のデータがＰ（ａ，ｂ）
として記憶されることになる。

【００３７】図５に戻って、つぎのステップ１０〜１２
は、特徴抽出部４による処理であって、まずステップ１
０では、前記入力テキスト『はままつちょう』に対応す
る音声データ［はままつちょう］を生成し得る各音声片
の組合せが設定される。ついでステップ１１では、各音
声片の組合せ毎に、その組合せにより生成される合成デ
ータがある一定間隔の複数のフレームに分割され、各フ
レーム毎の特徴ベクトルが抽出される。さらにステップ
１２では、各音声片の組合せ毎に、各特徴ベクトル間の
距離が順次算出され、各算出値の総和によりトラジェク
トリ長が求められる。

【００３８】図８は前記ステップ１２の処理結果をメモ
リに格納した例を示すもので、音声データ［はままつち
ょう］について設定可能なＮとおりの音声片の組合せ毎
に、各音声により生成された合成音声データのトラジェ
クトリ長Ｄi （ｉ＝１〜Ｎ）が対応づけて記憶されてい
る。

【００３９】このようにして各組合せ毎にトラジェクト
リ長が算出されると、つぎのステップ１３では、得られ
たＮとおりの組合せのトラジェクトリ長が相互に比較さ
れて、トラジェクトリ長が最小となる音声片の組合せが
抽出される。この音声片の組合せが、以後の標準パター
ンの作成処理に用いる組合せとして決定され、正規化処
理部６へと与えられる。

【００４０】前記決定された音声片の組合せは、音声デ
ータベース２に格納された任意の話者の音声データを、
複数個、組み合わせて生成されたものであるから、音声
片間において音の高さ，強さ，速さなどの特徴には、な
お差違がある。したがって単に各音声片を組み合わせた
だけでは、前記入力テキストにかかる自然な発声データ
を十分に表現できない場合がある。

【００４１】正規化処理部６は、決定された音声片の組
合せについて、各音声片毎に、特徴の正規化を行うこと
により、各音声片間における特徴のばらつきを解消して
自然な発声データの有する特徴を得るようにしたもの
で、具体的には、各音声片毎に、その特徴ベクトルの軌
跡を所定数だけ等分割するＮＡＴ処理が実施される。

【００４２】各音声片毎の分割数（以下これを「ＮＡＴ
フレーム数」という）は、その音声片の構成音素の配列
により決定される理想的なトラジェクトリ長により決定
される。この理想的なトラジェクトリ長を算出するため
に、正規化処理部６には、各音素毎の標準的なトラジェ
クトリ長（以下これを「音素トラジェクトリ長」とい
う）を記憶した音素トラジェクトリ長テーブルがセット
されている。

【００４３】図９は、前記音素トラジェクトリ長テーブ
ルのデータ構成を示す。図中、Ａ，Ｂ，Ｃ，Ｄの各デー
タにより１音素にかかる音素トラジェクトリ長が表され
るもので、Ｂの「主音素」が着目対象の音素に相当す
る。またＡはこの主音素の直前に位置する音素を、Ｃは
主音素の直後に位置する音素を、それぞれ示す。

【００４４】このテーブルでは、各音素Ａ，Ｂ，Ｃにつ
いて、それぞれ発音され得るすべての音素が順次設定さ
れ、各音素の配列（ＡＢＣ）毎に、その中央の主音素
（Ｂ）が具備する標準的なトラジェクトリ長（Ｄ）が対
応づけられている。なおここでいう標準的なトラジェク
トリ長とは、あらかじめ前記配列ＡＢＣから成る音声片
を有する複数個の音声データから、主音素Ｂにかかるト
ラジェクトリ長を抽出し、これら抽出結果を平均するな
どして得られるものである。

【００４５】正規化処理部６は、処理対象の音声片の各
構成音素について、それぞれ前記音素トラジェクトリ長
テーブルより、着目音素とその前後の音素とによる配列
が一致するデータを検索して、その主音素にかかるトラ
ジェクトリ長を抽出する。これら音素トラジェクトリ長
の総和が前記音声片の理想的なトラジェクトリ長にあた
るもので、各音声片間における理想的なトラジェクトリ
長の比率に基づき、前記ＮＡＴフレーム数が決定され
る。

【００４６】図１０は、前記正規化処理部６における一
連の手順を示す。なお図中、ｍは処理対象の音声片をチ
ェックするためのカウンタを、ｉは処理中の音声片にお
いて処理対象の音素数をチェックするためのカウンタ
を、それぞれ示す。

【００４７】まずステップ１で、カウンタｍに初期値
「１」が設定されると、つぎのステップ２を経て、ステ
ップ３〜８のループが、組み合わせられる音声片の数分
だけ繰り返し実施される。

【００４８】このステップ３〜８のループは、カウンタ
ｉをインクリメントすることにより、処理対象の音声片
の構成音素毎に実施されるもので、ステップ５で、前記
音素トラジェクトリ長テーブルより着目音素（先頭より
ｉ番目の音素）およびその前後の音素による配列と一致
するデータが取り出されて、着目音素のトラジェクトリ
長が抽出される。ついでステップ６では、抽出されたト
ラジェクトリ長が音声片のトラジェクトリ長の理想値
（初期値は「０」）に加算される。

【００４９】図１１は、上記ステップ１〜８の処理の具
体例であって、前記した入力テキスト『はままつちょ
う』に対し、標準パターンを作成するための音声片の組
合せとして、［はま］と［まつちょう］という２つの音
声片の組合せが決定された場合の処理例を示している。

【００５０】この場合、第１の音声片［はま］の第１番
目の音素［は］について、前記音素トラジェクトリ長テ
ーブルより［PAU ］［は］［ま］という音素の組合せに
かかる主音素［は］のトラジェクトリ長が、第２番目の
音素［ま］について［は］［ま］［ま］という音素の組
合せにかかる主音素［ま］のトラジェクトリ長が、それ
ぞれ抽出され、これら音素トラジェクトリ長の加算値Ｈ
１が、音声片［はま］にかかる理想的なトラジェクトリ
長として決定される。

【００５１】第２の音声片［まつちょう］についても同
様に、各音素［ま］［つ］［ちょ］［う］毎に、前記音
素トラジェクトリ長テーブルより該当する音素トラジェ
クトリ長が抽出されて順次加算処理される。この結果、
最終的な加算値Ｈ２が音声片［まつちょう］の理想的な
トラジェクトリ長として決定される。

【００５２】各音声片について理想的なトラジェクトリ
長の算出処理が終了すると、つぎのステップ９では、各
音声片間における理想的なトラジェクトリ長の比率が算
出される。続くステップ１０では、前記特徴パターン抽
出部により抽出された各音声片毎の特徴ベクトルのトラ
ジェクトリに対し、それぞれのトラジェクトリ長の比を
前記理想的なトラジェクトリ長の比率に合致させるため
のＮＡＴフレーム数が決定される。そして最終のステッ
プ１１において、各音声片毎にそのトラジェクトリを決
定されたＮＡＴフレーム数をもって等分割することによ
り、前記音声片の組合せにより生成される合成音声デー
タについて、正規化された特徴ベクトルの軌跡データ
（以下これを「正規化特徴パターン」という）を得るこ
とができる。

【００５３】なお実際の処理においては、前記したよう
に、音声片抽出部３から組合せ決定部５までの処理によ
り、ある音声片の組合せについて、複数個の組合せパタ
ーンが抽出されているので、前記図９の正規化処理によ
り、音声片の組合せについて複数個の正規化特徴パター
ンが生成されることになる。

【００５４】同じ音声片の組合せについて生成された各
正規化特徴パターンは、前記正規化処理部６により同様
のトラジェクトリ長を具備するように正規化されたもの
であるから、各音声片毎のフレーム数はデータ間で一致
するはずである。よって、標準パターン作成部７は、前
記各正規化特徴パターンを、同じ音声片の組合せ毎に集
合化し、各集合毎に、ＦＣＭ（Fuzzy C-means 法）など
によるクラスタリング処理を実施することにより、前記
入力テキストにかかる標準パターンを作成する。

【００５５】ここでＦＣＭを用いた標準パターンの作成
方法について、簡単に説明する。いまある音声片の組合
せについて、前記正規化処理および合成処理により、Ｌ
Ｓ個のフレームより成る正規化特徴パターンがＪ個作成
されたものとする。標準パターン作成部７は、各正規化
特徴パターンｇ_j（１≦ｊ≦Ｊ）について、同じラベル
番号ｒ（１≦ｒ≦ＬＳ）を有するフレームの特徴ベクト
ルｇ_j（ｒ）をとりまとめ、同じ次元における特徴ベク
トルの集合体Ｐ（ｒ）として認識する。さらに標準パタ
ーン作成部７は、各集合体Ｐ（ｒ）毎に、ＦＣＭによる
クラスタリング処理を実施して、あらかじめ定められた
Ｍ個のクラスタを設定するとともに、各クラスタＣ
（ｒ，ｍ）（１≦ｍ≦Ｍ）毎に、そのクラスタに対する
各特徴ベクトルｇ_j（ｒ）の類似度ｑ_j（ｒ，ｍ）を算
出する。

【００５６】なおこの類似度ｑ_j（ｒ，ｍ）は、前記特
徴ベクトルｇ_j（ｒ）のクラスタＣ（ｒ，ｍ）に対する
距離ｄ_j（ｒ，ｍ）（各クラスタセンタに対する距離）
を用いて算出されるもので、ある特定のクラスタＣ
（ｒ，ｍ₀）についての類似度ｑ_j（ｒ，ｍ₀）は、つ
ぎの（１）式により表される。

【００５７】

【数１】

【００５８】こうして、各フレーム毎のクラスタリング
処理が終了すると、標準パターン作成部７は、各クラス
タセンタの位置に基づき、各フレーム間で最も距離が近
い関係にあるクラスタ同士を、同じグループに属すると
みなして対応づけし、フレーム間にわたって、対応づけ
られたクラスタの積集合Ｃ_m（以下これを「類似クラス
タＣ_m」という）を生成する。さらに標準パターン作成
部７は、各類似クラスタＣ_m毎に、各正規化特徴パター
ンｇ_j，および各正規化特徴パターンｇ_jの類似クラス
タＣ_mに対する類似度ｑ_j（ｍ）（前記（１）式に準じ
る）を用いた加重平均演算（（２）式に示す）を実施
し、得られたＭ個の特徴ベクトルの時系列データＲ
_mを、前記入力テキストに対する標準パターンとして出
力する。

【００５９】

【数２】

【００６０】上記構成の標準パターン作成装置によれ
ば、既にデータベース化された複数の音声データを用い
て、新たな音声データにかかる標準パターンを作成する
ので、標準パターンを作成する都度、音声データの採取
を行わずに、認識すべき単語のテキストデータを入力す
るだけで、対応する標準パターンを自動生成することが
できる。よってこの標準パターン作成装置を音声認識装
置に組み込むことにより、適宜、新たな標準パターンを
辞書ファイルに追加することが可能となり、学習機能を
備えた高性能の音声認識処理装置を提供することができ
る。

【００６１】

【発明の効果】請求項１，３，４の発明では、複数個の
単語について、それぞれその単語を発声して得られる音
声データを前記単語のテキストと対応づけて音声データ
ベースに記憶しておき、新たに標準パターンを作成すべ
き単語が出現したとき、その単語のテキストを入力する
だけで標準パターンを自動生成するようにしたから、標
準パターンの作成の都度、音声データを採取する必要が
なくなり、標準パターンの作成にかかる労力と時間とを
大幅に削減できる。また音声認識処理の過程でも、適
宜、新たな標準パターンを作成できるので、学習機能を
備えた高性能の音声認識処理装置を提供することができ
る。

【００６２】また音声データベースから前記入力テキス
トに対応する音声データにかかる複数の音声片を抽出し
た後、この音声データを生成するための複数とおりの音
声片の組合せの中から、その組合せにより生成される合
成音声データの特徴ベクトルの軌跡長さが最小となる組
合せを選択して標準パターンを作成するので、自然の発
声による特徴を反映した標準パターンを作成することが
できる。

【００６３】さらに請求項２および５の発明では、決定
された音声片の組合せに対し、それぞれその組合せにか
かる各音声片の特徴ベクトルの軌跡を、その構成音素毎
の特徴ベクトルの理想値に基づき正規化するので、採用
された音声片間における特徴のばらつきが標準化され、
自然な発声状態により近い、精度の高い標準パターンを
作成することができる。よってこの標準パターンを用い
ることにより、高精度の音声認識処理を実現することが
可能となる。

【図面の簡単な説明】

【図１】この発明の一実施例にかかる標準パターン作成
装置の構成を示すブロック図である。

【図２】図１の標準パターン作成装置を実現させるため
のコンピュータの構成を示すブロック図である。

【図３】音声データベースのデータ構成例を示す説明図
である。

【図４】入力テキストに対する認識処理結果を示す説明
図である。

【図５】音声片の抽出処理から最適な音声片の組合せの
選択までの処理手順を示すフローチャートである。

【図６】音声片の抽出処理方法を示す説明図である。

【図７】音声片の抽出結果の記憶テーブルの構成を示す
説明図である。

【図８】音声片の組合せと各組合せ毎のトラジェクトリ
長とを対応づけて記憶した例を示す説明図である。

【図９】音素トラジェクトリ長テーブルの構成を示す説
明図である。

【図１０】正規化特徴パターンの作成手順を示すフロー
チャートである。

【図１１】音声片毎の理想的なトラジェクトリ長の算出
方法を示す説明図である。

【符号の説明】

１テキスト入力部２音声データベース３音声片抽出部４特徴抽出部５組合せ決定部６正規化処理部７標準パターン作成部

───────────────────────────────────────────────────── フロントページの続き (72)発明者岡本圭介京都府京都市右京区花園土堂町10番地オムロン株式会社内 (72)発明者杖村正博京都府京都市中京区烏丸通四条上ルオムロンソフトウェア株式会社内

Claims

【特許請求の範囲】

【請求項１】複数の単語について、それぞれその単語
を発声して得られる音声データを前記単語のテキストと
対応づけて音声データベースに記憶しておき、任意の単
語のテキストを入力して、この単語の発声データを認識
するための標準パターンを、前記音声データベースに記
憶された複数個の音声データを用いて作成するための方
法であって、前記入力されたテキストに含まれる複数のテキスト片毎
に前記音声データベースを検索して、そのテキスト片を
含む単語の音声データより前記テキスト片に対応する音
声片を抽出する第１のステップと、前記入力されたテキストの音声データを表現するための
複数とおりの音声片の組合せについて、それぞれその音
声片の組合せによる合成音声データを複数のフレームに
分割して、各フレーム毎にそのフレーム内の音声波形の
特徴を表す特徴ベクトルを抽出した後、この特徴ベクト
ルの軌跡の長さが最小値をとる音声片の組合せを最適な
組合せとして決定する第２のステップと、決定された音声片の組合せにかかる各音声片の特徴ベク
トルの時系列データを用いて前記単語の標準パターンを
作成する第３のステップとを一連に実施することを特徴
とする標準パターン作成方法。
【請求項２】前記第３のステップにおいて、前記決定
された組合せの音声片毎に、その特徴ベクトルの軌跡を
前記音声片の各構成音素毎の特徴ベクトルの理想値に基
づき正規化した後、正規化された各軌跡の合成処理結果
を用いて標準パターンを作成する請求項１に記載された
標準パターン作成方法。
【請求項３】複数の単語について、それぞれその単語
を発声して得られる音声データを前記単語のテキストと
対応づけて記憶する音声データベースと、任意の単語の
テキストとを用いて、前記任意の単語の発声データを認
識するための標準パターンを作成する制御プログラムを
記録した記録媒体であって、前記任意の単語のテキストに含まれる複数のテキスト片
毎に前記音声データベースを検索して、そのテキスト片
を含む単語の音声データより前記テキスト片に対応する
音声片を抽出する手順、前記任意の単語のテキストの音声データを表現するため
の複数とおりの音声片の組合せについて、それぞれその
音声片の組合せによる合成音声データを複数のフレーム
に分割して、各フレーム毎にそのフレーム内の音声波形
の特徴を表す特徴ベクトルを抽出する手順、前記複数とおりの音声片の組合せの中から特徴ベクトル
の軌跡の長さが最小値をとる音声片の組合せを最適な組
合せとして決定する手順、決定された音声片の組合せにかかる各音声片の特徴ベク
トルの時系列データを用いて前記単語の標準パターンを
作成する手順、の各手順を、コンピュータに実行させる
ためのプログラムを記録した標準パターン作成用の制御
プログラムの記録媒体。
【請求項４】標準パターンを作成すべき単語のテキス
トを入力するための入力手段と、複数の単語について、それぞれその単語を発声して得ら
れる音声データを前記単語のテキストと対応づけて記憶
する音声データベースと、前記入力手段より入力されたテキストに含まれる複数の
テキスト片毎に前記音声データベースを検索して、その
テキスト片を含む単語の音声データより前記テキスト片
に対応する音声片を抽出する音声片抽出手段と、前記入力されたテキストの音声データを表現するための
複数とおりの音声片の組合せについて、それぞれその音
声片の組合せによる合成音声データを複数のフレームに
分割して、各フレーム毎にそのフレーム内の音声波形の
特徴を表す特徴ベクトルを抽出する特徴抽出手段と、前記音声片の組合せの中から前記特徴ベクトルの軌跡の
長さが最小値をとる音声片の組合せを最適な組合せとし
て決定する組合せ決定手段と、決定された音声片の組合せについて、各音声片の特徴ベ
クトルの時系列データを用いて前記単語の標準パターン
を作成する標準パターン作成手段とを具備して成る標準
パターン作成装置。
【請求項５】前記標準パターン作成手段は、前記決定
された組合せの音声片毎に、その特徴ベクトルの軌跡を
前記音声片の各構成音素毎の特徴ベクトルの理想値に基
づき正規化した後、正規化された各軌跡の合成結果を用
いて標準パターンを作成する請求項４に記載された標準
パターン作成装置。