JPH11190997A - 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置 - Google Patents

音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Info

Publication number
JPH11190997A
JPH11190997A JP9369593A JP36959397A JPH11190997A JP H11190997 A JPH11190997 A JP H11190997A JP 9369593 A JP9369593 A JP 9369593A JP 36959397 A JP36959397 A JP 36959397A JP H11190997 A JPH11190997 A JP H11190997A
Authority
JP
Japan
Prior art keywords
voice
text
standard pattern
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9369593A
Other languages
English (en)
Inventor
Naoyuki Okazaki
尚行 岡崎
Ryuji Yamazaki
竜二 山崎
Kenji Aoyama
健治 青山
Keisuke Okamoto
圭介 岡本
Masahiro Tsuemura
正博 杖村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP9369593A priority Critical patent/JPH11190997A/ja
Publication of JPH11190997A publication Critical patent/JPH11190997A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 単語のテキストを入力することにより、その
単語にかかる標準パターンを自動的に作成する。 【解決手段】 テキスト入力部1より任意の単語のテキ
ストが入力されると、音声片抽出部3は、このテキスト
に含まれる各テキスト片毎に音声データベース2を検索
し、そのテキスト片に対応する音声片を抽出する。特徴
抽出部4は、前記入力テキストに対応する音声データを
生成し得るすべての音声片の組合せを設定し、各組合せ
毎に、その組合せにより生成される合成音声データの特
徴抽出処理を行ってトラジェクトリ長を算出する。組合
せ決定部5は、各組合せの中からトラジェクトリ長の算
出値が最小となる組合せを最適な組合せとして決定す
る。この決定された組合せにかかる各音声片は、正規化
処理部6により個別に正規化され、標準パターンを作成
するための正規化特徴パターンが生成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、人間の発声した音声
データを認識するための技術に関するもので、特に、認
識対象の音声データに含まれる各単語を切り分けて認識
するためのマッチング処理に用いられる標準パターンを
作成するための技術に関する。
【0002】
【従来の技術】音声認識の分野では、ある単語を発声し
て得られた音声の波形信号のパターンをそのまま比較す
るのではなく、その波形信号を等しい時間間隔のフレー
ム毎に区切って、各フレーム毎の音声波形の特徴を表す
多次元の特徴ベクトル(ケプストラム)を抽出し、この
特徴ベクトルの時系列パターンをあらかじめ得られた標
準パターンと比較する方法を採用している。
【0003】従来の標準パターンは、各単語毎に、複数
人の話者がそれぞれ複数回の発声を行い、得られた各音
声データの波形信号を取り込んで、各音声データの特徴
パターンを抽出することにより行われる。
【0004】この標準パターンの代表的な作成方法とし
て、NAT(Normalized Along Trajectry)方式と呼ば
れる方法が存在する。この方法では、まず各音声データ
の波形信号から複数フレーム分の特徴ベクトル(ケプス
トラム)を抽出した後、これら特徴ベクトルの軌跡(ト
ラジェクトリ)をあらかじめ定められたフレーム数分だ
け等分割し、各分割点に相当するベクトルの時系列デー
タをもって、音声データの正規化された特徴パターンを
作成する。ついで、各音声データの特徴パターンを対応
するフレーム毎にとりまとめてクラスタリング処理を実
施し、各フレーム毎に所定数のクラスタを特定する。そ
して最終的にフレーム間におけるクラスタの統合処理に
より特徴ベクトルの代表的な時系列データが生成され、
標準パターンとして登録される(特開平7−14693
8号公報)。
【0005】
【発明が解決しようとする課題】コンピュータによる音
声認識処理を実施するには、多数の単語について、それ
ぞれ上記のような方法により標準パターンを作成してメ
モリ内に蓄積する必要がある。したがって新たな単語の
標準パターンを作成する都度、複数人の音声を採取して
装置内に入力する必要があり、多大な時間と労力とがか
かるという問題がある。
【0006】この発明は上記の問題点に着目してなされ
たもので、あらかじめ複数の単語の音声データをその単
語のテキストに対応づけた形でデータベース化してお
き、新たに標準パターンを作成すべき単語が出現したと
き、この単語のテキストにより前記データベースを検索
することにより、新たな音声データを採取する必要なし
に、必要な標準パターンを自動的に作成することを技術
課題とする。
【0007】またこの発明が他に課題とするところは、
前記テキストの音声データを表現し得る複数とおりの音
声片の組合せの中から、自然の発声に最も近い特徴が得
られる組合せを選択することにより、前記テキストの生
の発声データの特徴を的確に捉えた標準パターンを作成
して音声認識の精度を大幅に向上する点にある。
【0008】
【課題を解決するための手段】請求項1の発明は、複数
の単語について、それぞれその単語を発声して得られる
音声データを前記単語のテキストと対応づけて音声デー
タベースに記憶しておき、任意の単語のテキストを入力
して、この単語の発声データを認識するための標準パタ
ーンを、前記音声データベースに記憶された複数個の音
声データを用いて作成するための方法であって、前記入
力されたテキストに含まれる複数のテキスト片毎に前記
音声データベースを検索して、そのテキスト片を含む単
語の音声データより前記テキスト片に対応する音声片を
抽出する第1のステップと、前記入力されたテキストの
音声データを表現するための複数とおりの音声片の組合
せについて、それぞれその音声片の組合せによる合成音
声データを複数のフレームに分割して、各フレーム毎に
そのフレーム内の音声波形の特徴を表す特徴ベクトルを
抽出した後、この特徴ベクトルの軌跡の長さが最小値を
とる音声片の組合せを最適な組合せとして決定する第2
のステップと、決定された音声片の組合せにかかる各音
声片の特徴ベクトルの時系列データを用いて前記単語の
標準パターンを作成する第3のステップとを一連に実施
することを特徴とする。
【0009】請求項2の発明では、前記第3のステップ
において、前記決定された組合せの音声片毎に、その特
徴ベクトルの軌跡を前記音声片の各構成音素毎の特徴ベ
クトルの理想値に基づき正規化した後、正規化された各
軌跡の合成結果を用いて標準パターンを作成するように
している。
【0010】請求項3の発明は、請求項1の方法を実施
するための制御プログラムを記録した記録媒体にかかる
もので、上記各処理を実施するための手順をコンピュー
タに実行させる制御プログラムが記録されて成る。
【0011】請求項4の発明は、請求項1の方法を実施
するための標準パターン作成装置にかかるもので、標準
パターンを作成すべき単語のテキストを入力するための
入力手段と、複数の単語について、それぞれその単語を
発声して得られる音声データを前記単語のテキストと対
応づけて記憶する音声データベースと、前記入力手段よ
り入力されたテキストに含まれる複数のテキスト片毎に
前記音声データベースを検索して、そのテキスト片を含
む単語の音声データより前記テキスト片に対応する音声
片を抽出する音声片抽出手段と、前記入力されたテキス
トの音声データを表現するための複数とおりの音声片の
組合せについて、それぞれその音声片の組合せによる合
成音声データを複数のフレームに分割して、各フレーム
毎にそのフレーム内の音声波形の特徴を表す特徴ベクト
ルを抽出する特徴抽出手段と、前記音声片の組合せの中
から前記特徴ベクトルの軌跡の長さが最小値をとる音声
片の組合せを最適な組合せとして決定する組合せ決定手
段と、決定された音声片の組合せについて、各音声片の
特徴ベクトルの時系列データを用いて前記単語の標準パ
ターンを作成する標準パターン作成手段とを具備してい
る。
【0012】さらに請求項5の発明では 請求項2の方
法を実施するために、前記標準パターン作成手段を、前
記決定された組合せの音声片毎に、その特徴ベクトルの
軌跡を前記音声片の各構成音素毎の特徴ベクトルの理想
値に基づき正規化した後、正規化された各軌跡を合成処
理結果を用いて標準パターンを作成するように構成して
いる。
【0013】つぎに上記構成要件に含まれるつぎの用語
について、簡単に定義しておく。 (1)テキスト片 標準パターンの作成対象として入力されたテキストの一
部またはすべての文字から成るテキストデータを意味す
る。たとえば『みどり』というテキストが入力された場
合、テキスト片として、『み』『ど』『り』『みど』
『どり』『みどり』の各テキスト片が含まれていること
になる。
【0014】(2)音声片 任意の単語を発声して得られる音声データにおいて、こ
の単語のあるテキスト片に対応する部分の音声波形を表
すデータである。
【0015】
【作用】請求項1,3,4の発明では、入力されたテキ
ストに含まれるテキスト片毎に、音声データベースより
そのテキスト片に対応する音声片を取り出してそれぞれ
の特徴抽出処理を行った後、入力テキストの音声データ
を表現するための複数とおりの音声片の組合せについ
て、それぞれ音声片毎に複数フレーム分の特徴ベクトル
を抽出する。
【0016】一般に、音声データにおけるフレーム間の
特徴ベクトルの変化量(ベクトル間の距離)は、フレー
ム間の特徴の変化量に比例して大きくなる。一方、複数
の音声片をつなぎ合わせて1つの音声データを作成する
場合、各音声片間で音の高さ,強さ,速度などの特徴の
差が大きくなると、音声片のつなぎ目部分で音の調子が
変化する不連続状態が生じる。したがってこの合成され
た音声データにおける特徴ベクトルの軌跡が短いほど、
自然な発声状態が表されているものと考えることができ
る。
【0017】請求項1,3,4の発明では、この原理に
基づき、前記複数とおりの音声片の組合せのうち、音声
片毎の組合せにより生成される合成音声データの特徴ベ
クトルの軌跡の長さが最小となるような音声片の組合せ
を選択して、各音声片の特徴ベクトルの時系列データに
より特徴パターンを作成するので、前記入力テキストを
自然に発声して得られる音声データの特徴を反映した標
準パターンを作成することができる。
【0018】さらに請求項2および5の発明では、決定
された組合せの音声片に対し、それぞれその音声片の構
成音素毎の特徴ベクトルの理想値に基づき、特徴ベクト
ルの軌跡を正規化する。これにより採用された音声片間
において、音の高さ,強さ,速さなどの特徴に話者の違
いなどによる差違が生じていても、各特徴が標準化され
るので、自然の発声状態により近い、精度の高い標準パ
ターンの作成が可能となる。
【0019】
【実施例】図1は、この発明の一実施例にかかる標準パ
ターン作成装置の構成例を示す。この標準パターン作成
装置は、任意の単語のテキストを入力することにより、
この単語の音声データを認識するための標準パターンを
自動生成するためのもので、テキスト入力部1,音声デ
ータベース2,音声片抽出部3,特徴抽出部4,組合せ
決定部5,正規化処理部6,標準パターン作成部7,標
準パターン辞書ファイル8などを構成として備えてい
る。
【0020】この標準パターン作成装置は、具体的に
は、図2に示すように、CPU10,ROM11,RA
M12を制御部とするコンピュータにより構成される。
ハードディスク装置13には、前記音声データベース2
や標準パターン辞書ファイル8のほか、音声片抽出部
3,特徴抽出部4,組合せ決定部5,正規化処理部6,
標準パターン作成部7の各処理を実施するための制御プ
ログラムが記憶されている。CPU10は、これら制御
プログラムを順次読み出して実行することにより、各処
理部として機能することになる。
【0021】なお図中、入力部14は、前記テキスト入
力部1の機能を実現するためのもので、単語のテキスト
を入力するためのキーボードや確定操作用のマウスなど
により構成される。また出力部15は、標準パターンの
生成結果や音声データベースの内容などを出力する際に
用いられるもので、モニタ,プリンタ,スピーカなどの
出力装置により構成される。
【0022】前記音声データベース2には、複数の単語
について、それぞれ複数人の話者が複数回発声して得ら
れた音声データが格納されている。各音声データは、音
声の生波形信号のディジタル変換データであって、それ
ぞれ該当する単語を表現するテキストとこのテキストの
各構成文字に対応する音素(音声データ中の1音分の音
声波形)の位置を示すデータとが対応づけられる。
【0023】図3は、『ゆうらくちょう』という単語を
例にとって、この単語にかかる記憶データの構成を示
す。図中、領域16には、この単語をある話者が発声し
て得られた音声データが記憶され、領域17には、前記
単語のテキストを構成する各文字とその文字に対応する
音声波の開始時間および終了時間とが、対応づけて記憶
されている。
【0024】図1に戻って、テキスト入力部1は、キー
ボードなどにより構成されるもので、このテキスト入力
部1より任意のテキストが入力されると、音声片抽出部
3は、このテキストに含まれる各テキスト片毎に前記音
声データベース2を検索する。そしてそのテキスト片が
含まれる単語の音声データが検索されると、前記各音素
位置の記憶データに基づき、この音声データから前記テ
キスト片に対応する音声片を切り出し、特徴抽出部4へ
と出力する。
【0025】特徴抽出部4は、抽出された各音声片につ
いて、前記入力テキストに対応する音声データを生成す
るための音声片の組合せとして、考えられるすべての組
合せを設定する。この後、特徴抽出部4は、各音声片の
組合せ毎に、該当する音声片をつなぎ合わせて生成され
る合成音声データを、ある一定時間毎の複数のフレーム
に分割し、各フレーム毎に、そのフレーム内の音声波形
にフーリエ変換や線形予測係数などの周波数分析を施す
ことにより、フレーム内の波形の特徴を表す多次元の特
徴ベクトル(ケプストラム)を抽出する。さらに特徴抽
出部4は、各音声片の組合せ毎に、前記特徴ベクトルの
各構成要素を軸とする多次元空間内に各フレームの特徴
ベクトルを仮想配置し、これら特徴ベクトルの軌跡長
(以下「トラジェクトリ長」という)を算出する。
【0026】前記トラジェクトリ長は、合成音声データ
における特徴の変動状態を表す指標となるもので、つぎ
の組合せ決定部5は、各音声片の組合せの中からトラジ
ェクトリ長が最小値をとる音声片の組合せを、最適な組
合せとして選択する。なおこの選択処理は、所定の誤差
範囲にあるトラジェクトリ長を同値とみなして処理する
もので、この結果、同じ音声片の組合せにかかる複数パ
ターンのデータが選択される。
【0027】正規化処理部6は、これら選択された組合
せにかかる各音声片を正規化処理し、各組合せ毎に、後
記する正規化特徴パターンを作成する。標準パターン作
成部7は、これら正規化特徴パターンを取り込んで、F
CM(Fuzzy C-means 法)などを用いたクラスタリング
処理により前記入力テキストの標準パターンを作成し、
標準パターン辞書ファイル8に格納する。
【0028】なお以下の文中では、『』付きのテキスト
により入力テキストやテキスト片などのテキストデータ
を表し、[]付きのテキストにより音声データを表すも
のとする。
【0029】図4は、標準パターンを作成すべき単語と
して、『はままつちょう』という単語のテキストデータ
が入力された場合に、この入力テキストを受け付けて処
理した認識結果を示す。図中の各矩形は、前記入力テキ
ストの各構成要素を示すもので、前記単語を実際に構成
する文字『は』『ま』『ま』『つ』『ちょ』『う』のデ
ータの前後に、無声状態を表すデータ『PAU 』が付加さ
れている。また各矩形上に表された数字ラベル0〜7
は、各データの並び順序を表すものである。
【0030】この実施例における音声片の抽出処理で
は、同じ音声片であっても、その前後の音素により特徴
が変化することを考慮して、抽出対象のテキスト片をそ
の前後のテキストを含んだ形で取り出して音声データベ
ース2を検索し、検索された音声データの中から抽出対
象の音声片の部分を切り出すようにしている。なお抽出
対象のテキスト片が入力テキストの最前方または最後方
にあれば、その前または後のデータ『PAU 』を含めたテ
キスト片による検索が実施される。例えば、前記入力テ
キスト『はままつちょう』のテキスト片『はま』に対応
する音声片を抽出する場合、前記テキスト片『はま』の
前後の音素を含む『PAU はまま』というテキスト片によ
り音声データベース2が検索され、この検索された音声
データ[PAU はまま]から音声片[はま]が抽出される
のである。
【0031】図5は、入力テキストに対し、音声片の抽
出処理から最適な音声片の組合せを選択するまでの一連
の処理手順を示すもので、以下、図6〜8を参照しつ
つ、標準パターンの作成対象として『はままつちょう』
というテキストが入力された場合を例にとって、一連の
処理手順を説明する。なお図5中、STは各ステップを
示し、TNは標準パターンの作成対象とするテキストの
単語数(『はままつちょう』の場合はTN=6)を示
す。またn,kは入力テキストよりデータベース検索用
のテキスト片を切り出すためのパラメータであって、n
はテキスト片の切出し開始位置を、kはテキスト片の切
出し終了位置を、それぞれ示す。
【0032】まずステップ1でnの初期値として「1」
がセットされ、このnがTN+2を越えるまでnを順次
インクリメントしつつ、nの各設定値毎にステップ3〜
9の処理を実施する。
【0033】ステップ3では、kの値としてn+1がセ
ットされる。初期状態では、n=1,k=2となるから
ステップ4は「NO」であり、ステップ5で前記入力テ
キストのn−1〜k番目に対応するテキスト片『PAU は
ま』が抽出される。
【0034】つぎのステップ6では、このテキスト片
『PAU はま』により音声データベース2が検索され、前
記テキスト片に対応する音声片[PAU はま]を有する音
声データ([はままつ][はましま]など)が抽出され
る。さらにステップ7では、この検索された音声データ
から抽出すべきn〜k−1番目のテキスト片に対応する
音声片(初期段階では『は』のみ)が抽出され、図示し
ないメモリ内に格納される。以下、ステップ8でkをイ
ンクリメントしつつ、kがTN+2を越えるまで、上記
の処理が繰り返し実施される。
【0035】図6は、前記入力テキスト『はままつちょ
う』について、上記ステップ3〜9の処理を実施した結
果を示す。n=1の場合には、2〜7の範囲でkをイン
クリメントすることにより、先頭位置の音素[は]のみ
より成る音声片からすべての構成音素[はままつちょ
う]を具備する音声片までが、順次抽出される。以下同
様に、n,kを順次インクリメントしてゆくことによ
り、前記入力テキストから抽出され得るすべてのテキス
ト片について、それぞれ対応する音声片が抽出されるこ
とになる。
【0036】図7は、上記音声片の抽出結果の記憶テー
ブルの構成を示す。図中の各セルには、前記テキスト片
の抽出開始位置をa(1≦a≦TN),抽出するテキス
ト片の長さ(テキスト片に含まれる文字数)をb(1≦
b≦TN−a+1)とおいた場合の音声片の抽出結果P
(a,b)が記憶される。この場合、該当する音声片が
複数個ある場合には、各音声片のデータがP(a,b)
として記憶されることになる。
【0037】図5に戻って、つぎのステップ10〜12
は、特徴抽出部4による処理であって、まずステップ1
0では、前記入力テキスト『はままつちょう』に対応す
る音声データ[はままつちょう]を生成し得る各音声片
の組合せが設定される。ついでステップ11では、各音
声片の組合せ毎に、その組合せにより生成される合成デ
ータがある一定間隔の複数のフレームに分割され、各フ
レーム毎の特徴ベクトルが抽出される。さらにステップ
12では、各音声片の組合せ毎に、各特徴ベクトル間の
距離が順次算出され、各算出値の総和によりトラジェク
トリ長が求められる。
【0038】図8は前記ステップ12の処理結果をメモ
リに格納した例を示すもので、音声データ[はままつち
ょう]について設定可能なNとおりの音声片の組合せ毎
に、各音声により生成された合成音声データのトラジェ
クトリ長Di (i=1〜N)が対応づけて記憶されてい
る。
【0039】このようにして各組合せ毎にトラジェクト
リ長が算出されると、つぎのステップ13では、得られ
たNとおりの組合せのトラジェクトリ長が相互に比較さ
れて、トラジェクトリ長が最小となる音声片の組合せが
抽出される。この音声片の組合せが、以後の標準パター
ンの作成処理に用いる組合せとして決定され、正規化処
理部6へと与えられる。
【0040】前記決定された音声片の組合せは、音声デ
ータベース2に格納された任意の話者の音声データを、
複数個、組み合わせて生成されたものであるから、音声
片間において音の高さ,強さ,速さなどの特徴には、な
お差違がある。したがって単に各音声片を組み合わせた
だけでは、前記入力テキストにかかる自然な発声データ
を十分に表現できない場合がある。
【0041】正規化処理部6は、決定された音声片の組
合せについて、各音声片毎に、特徴の正規化を行うこと
により、各音声片間における特徴のばらつきを解消して
自然な発声データの有する特徴を得るようにしたもの
で、具体的には、各音声片毎に、その特徴ベクトルの軌
跡を所定数だけ等分割するNAT処理が実施される。
【0042】各音声片毎の分割数(以下これを「NAT
フレーム数」という)は、その音声片の構成音素の配列
により決定される理想的なトラジェクトリ長により決定
される。この理想的なトラジェクトリ長を算出するため
に、正規化処理部6には、各音素毎の標準的なトラジェ
クトリ長(以下これを「音素トラジェクトリ長」とい
う)を記憶した音素トラジェクトリ長テーブルがセット
されている。
【0043】図9は、前記音素トラジェクトリ長テーブ
ルのデータ構成を示す。図中、A,B,C,Dの各デー
タにより1音素にかかる音素トラジェクトリ長が表され
るもので、Bの「主音素」が着目対象の音素に相当す
る。またAはこの主音素の直前に位置する音素を、Cは
主音素の直後に位置する音素を、それぞれ示す。
【0044】このテーブルでは、各音素A,B,Cにつ
いて、それぞれ発音され得るすべての音素が順次設定さ
れ、各音素の配列(ABC)毎に、その中央の主音素
(B)が具備する標準的なトラジェクトリ長(D)が対
応づけられている。なおここでいう標準的なトラジェク
トリ長とは、あらかじめ前記配列ABCから成る音声片
を有する複数個の音声データから、主音素Bにかかるト
ラジェクトリ長を抽出し、これら抽出結果を平均するな
どして得られるものである。
【0045】正規化処理部6は、処理対象の音声片の各
構成音素について、それぞれ前記音素トラジェクトリ長
テーブルより、着目音素とその前後の音素とによる配列
が一致するデータを検索して、その主音素にかかるトラ
ジェクトリ長を抽出する。これら音素トラジェクトリ長
の総和が前記音声片の理想的なトラジェクトリ長にあた
るもので、各音声片間における理想的なトラジェクトリ
長の比率に基づき、前記NATフレーム数が決定され
る。
【0046】図10は、前記正規化処理部6における一
連の手順を示す。なお図中、mは処理対象の音声片をチ
ェックするためのカウンタを、iは処理中の音声片にお
いて処理対象の音素数をチェックするためのカウンタ
を、それぞれ示す。
【0047】まずステップ1で、カウンタmに初期値
「1」が設定されると、つぎのステップ2を経て、ステ
ップ3〜8のループが、組み合わせられる音声片の数分
だけ繰り返し実施される。
【0048】このステップ3〜8のループは、カウンタ
iをインクリメントすることにより、処理対象の音声片
の構成音素毎に実施されるもので、ステップ5で、前記
音素トラジェクトリ長テーブルより着目音素(先頭より
i番目の音素)およびその前後の音素による配列と一致
するデータが取り出されて、着目音素のトラジェクトリ
長が抽出される。ついでステップ6では、抽出されたト
ラジェクトリ長が音声片のトラジェクトリ長の理想値
(初期値は「0」)に加算される。
【0049】図11は、上記ステップ1〜8の処理の具
体例であって、前記した入力テキスト『はままつちょ
う』に対し、標準パターンを作成するための音声片の組
合せとして、[はま]と[まつちょう]という2つの音
声片の組合せが決定された場合の処理例を示している。
【0050】この場合、第1の音声片[はま]の第1番
目の音素[は]について、前記音素トラジェクトリ長テ
ーブルより[PAU ][は][ま]という音素の組合せに
かかる主音素[は]のトラジェクトリ長が、第2番目の
音素[ま]について[は][ま][ま]という音素の組
合せにかかる主音素[ま]のトラジェクトリ長が、それ
ぞれ抽出され、これら音素トラジェクトリ長の加算値H
1が、音声片[はま]にかかる理想的なトラジェクトリ
長として決定される。
【0051】第2の音声片[まつちょう]についても同
様に、各音素[ま][つ][ちょ][う]毎に、前記音
素トラジェクトリ長テーブルより該当する音素トラジェ
クトリ長が抽出されて順次加算処理される。この結果、
最終的な加算値H2が音声片[まつちょう]の理想的な
トラジェクトリ長として決定される。
【0052】各音声片について理想的なトラジェクトリ
長の算出処理が終了すると、つぎのステップ9では、各
音声片間における理想的なトラジェクトリ長の比率が算
出される。続くステップ10では、前記特徴パターン抽
出部により抽出された各音声片毎の特徴ベクトルのトラ
ジェクトリに対し、それぞれのトラジェクトリ長の比を
前記理想的なトラジェクトリ長の比率に合致させるため
のNATフレーム数が決定される。そして最終のステッ
プ11において、各音声片毎にそのトラジェクトリを決
定されたNATフレーム数をもって等分割することによ
り、前記音声片の組合せにより生成される合成音声デー
タについて、正規化された特徴ベクトルの軌跡データ
(以下これを「正規化特徴パターン」という)を得るこ
とができる。
【0053】なお実際の処理においては、前記したよう
に、音声片抽出部3から組合せ決定部5までの処理によ
り、ある音声片の組合せについて、複数個の組合せパタ
ーンが抽出されているので、前記図9の正規化処理によ
り、音声片の組合せについて複数個の正規化特徴パター
ンが生成されることになる。
【0054】同じ音声片の組合せについて生成された各
正規化特徴パターンは、前記正規化処理部6により同様
のトラジェクトリ長を具備するように正規化されたもの
であるから、各音声片毎のフレーム数はデータ間で一致
するはずである。よって、標準パターン作成部7は、前
記各正規化特徴パターンを、同じ音声片の組合せ毎に集
合化し、各集合毎に、FCM(Fuzzy C-means 法)など
によるクラスタリング処理を実施することにより、前記
入力テキストにかかる標準パターンを作成する。
【0055】ここでFCMを用いた標準パターンの作成
方法について、簡単に説明する。いまある音声片の組合
せについて、前記正規化処理および合成処理により、L
S個のフレームより成る正規化特徴パターンがJ個作成
されたものとする。標準パターン作成部7は、各正規化
特徴パターンgj (1≦j≦J)について、同じラベル
番号r(1≦r≦LS)を有するフレームの特徴ベクト
ルgj (r)をとりまとめ、同じ次元における特徴ベク
トルの集合体P(r)として認識する。さらに標準パタ
ーン作成部7は、各集合体P(r)毎に、FCMによる
クラスタリング処理を実施して、あらかじめ定められた
M個のクラスタを設定するとともに、各クラスタC
(r,m)(1≦m≦M)毎に、そのクラスタに対する
各特徴ベクトルgj (r)の類似度qj (r,m)を算
出する。
【0056】なおこの類似度qj (r,m)は、前記特
徴ベクトルgj (r)のクラスタC(r,m)に対する
距離dj (r,m)(各クラスタセンタに対する距離)
を用いて算出されるもので、ある特定のクラスタC
(r,m0 )についての類似度qj (r,m0 )は、つ
ぎの(1)式により表される。
【0057】
【数1】
【0058】こうして、各フレーム毎のクラスタリング
処理が終了すると、標準パターン作成部7は、各クラス
タセンタの位置に基づき、各フレーム間で最も距離が近
い関係にあるクラスタ同士を、同じグループに属すると
みなして対応づけし、フレーム間にわたって、対応づけ
られたクラスタの積集合Cm (以下これを「類似クラス
タCm 」という)を生成する。さらに標準パターン作成
部7は、各類似クラスタCm 毎に、各正規化特徴パター
ンgj ,および各正規化特徴パターンgj の類似クラス
タCm に対する類似度qj (m)(前記(1)式に準じ
る)を用いた加重平均演算((2)式に示す)を実施
し、得られたM個の特徴ベクトルの時系列データR
m を、前記入力テキストに対する標準パターンとして出
力する。
【0059】
【数2】
【0060】上記構成の標準パターン作成装置によれ
ば、既にデータベース化された複数の音声データを用い
て、新たな音声データにかかる標準パターンを作成する
ので、標準パターンを作成する都度、音声データの採取
を行わずに、認識すべき単語のテキストデータを入力す
るだけで、対応する標準パターンを自動生成することが
できる。よってこの標準パターン作成装置を音声認識装
置に組み込むことにより、適宜、新たな標準パターンを
辞書ファイルに追加することが可能となり、学習機能を
備えた高性能の音声認識処理装置を提供することができ
る。
【0061】
【発明の効果】請求項1,3,4の発明では、複数個の
単語について、それぞれその単語を発声して得られる音
声データを前記単語のテキストと対応づけて音声データ
ベースに記憶しておき、新たに標準パターンを作成すべ
き単語が出現したとき、その単語のテキストを入力する
だけで標準パターンを自動生成するようにしたから、標
準パターンの作成の都度、音声データを採取する必要が
なくなり、標準パターンの作成にかかる労力と時間とを
大幅に削減できる。また音声認識処理の過程でも、適
宜、新たな標準パターンを作成できるので、学習機能を
備えた高性能の音声認識処理装置を提供することができ
る。
【0062】また音声データベースから前記入力テキス
トに対応する音声データにかかる複数の音声片を抽出し
た後、この音声データを生成するための複数とおりの音
声片の組合せの中から、その組合せにより生成される合
成音声データの特徴ベクトルの軌跡長さが最小となる組
合せを選択して標準パターンを作成するので、自然の発
声による特徴を反映した標準パターンを作成することが
できる。
【0063】さらに請求項2および5の発明では、決定
された音声片の組合せに対し、それぞれその組合せにか
かる各音声片の特徴ベクトルの軌跡を、その構成音素毎
の特徴ベクトルの理想値に基づき正規化するので、採用
された音声片間における特徴のばらつきが標準化され、
自然な発声状態により近い、精度の高い標準パターンを
作成することができる。よってこの標準パターンを用い
ることにより、高精度の音声認識処理を実現することが
可能となる。
【図面の簡単な説明】
【図1】この発明の一実施例にかかる標準パターン作成
装置の構成を示すブロック図である。
【図2】図1の標準パターン作成装置を実現させるため
のコンピュータの構成を示すブロック図である。
【図3】音声データベースのデータ構成例を示す説明図
である。
【図4】入力テキストに対する認識処理結果を示す説明
図である。
【図5】音声片の抽出処理から最適な音声片の組合せの
選択までの処理手順を示すフローチャートである。
【図6】音声片の抽出処理方法を示す説明図である。
【図7】音声片の抽出結果の記憶テーブルの構成を示す
説明図である。
【図8】音声片の組合せと各組合せ毎のトラジェクトリ
長とを対応づけて記憶した例を示す説明図である。
【図9】音素トラジェクトリ長テーブルの構成を示す説
明図である。
【図10】正規化特徴パターンの作成手順を示すフロー
チャートである。
【図11】音声片毎の理想的なトラジェクトリ長の算出
方法を示す説明図である。
【符号の説明】
1 テキスト入力部 2 音声データベース 3 音声片抽出部 4 特徴抽出部 5 組合せ決定部 6 正規化処理部 7 標準パターン作成部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岡本 圭介 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 (72)発明者 杖村 正博 京都府京都市中京区烏丸通四条上ル オム ロンソフトウェア株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語について、それぞれその単語
    を発声して得られる音声データを前記単語のテキストと
    対応づけて音声データベースに記憶しておき、任意の単
    語のテキストを入力して、この単語の発声データを認識
    するための標準パターンを、前記音声データベースに記
    憶された複数個の音声データを用いて作成するための方
    法であって、 前記入力されたテキストに含まれる複数のテキスト片毎
    に前記音声データベースを検索して、そのテキスト片を
    含む単語の音声データより前記テキスト片に対応する音
    声片を抽出する第1のステップと、 前記入力されたテキストの音声データを表現するための
    複数とおりの音声片の組合せについて、それぞれその音
    声片の組合せによる合成音声データを複数のフレームに
    分割して、各フレーム毎にそのフレーム内の音声波形の
    特徴を表す特徴ベクトルを抽出した後、この特徴ベクト
    ルの軌跡の長さが最小値をとる音声片の組合せを最適な
    組合せとして決定する第2のステップと、 決定された音声片の組合せにかかる各音声片の特徴ベク
    トルの時系列データを用いて前記単語の標準パターンを
    作成する第3のステップとを一連に実施することを特徴
    とする標準パターン作成方法。
  2. 【請求項2】 前記第3のステップにおいて、前記決定
    された組合せの音声片毎に、その特徴ベクトルの軌跡を
    前記音声片の各構成音素毎の特徴ベクトルの理想値に基
    づき正規化した後、正規化された各軌跡の合成処理結果
    を用いて標準パターンを作成する請求項1に記載された
    標準パターン作成方法。
  3. 【請求項3】 複数の単語について、それぞれその単語
    を発声して得られる音声データを前記単語のテキストと
    対応づけて記憶する音声データベースと、任意の単語の
    テキストとを用いて、前記任意の単語の発声データを認
    識するための標準パターンを作成する制御プログラムを
    記録した記録媒体であって、 前記任意の単語のテキストに含まれる複数のテキスト片
    毎に前記音声データベースを検索して、そのテキスト片
    を含む単語の音声データより前記テキスト片に対応する
    音声片を抽出する手順、 前記任意の単語のテキストの音声データを表現するため
    の複数とおりの音声片の組合せについて、それぞれその
    音声片の組合せによる合成音声データを複数のフレーム
    に分割して、各フレーム毎にそのフレーム内の音声波形
    の特徴を表す特徴ベクトルを抽出する手順、 前記複数とおりの音声片の組合せの中から特徴ベクトル
    の軌跡の長さが最小値をとる音声片の組合せを最適な組
    合せとして決定する手順、 決定された音声片の組合せにかかる各音声片の特徴ベク
    トルの時系列データを用いて前記単語の標準パターンを
    作成する手順、の各手順を、コンピュータに実行させる
    ためのプログラムを記録した標準パターン作成用の制御
    プログラムの記録媒体。
  4. 【請求項4】 標準パターンを作成すべき単語のテキス
    トを入力するための入力手段と、 複数の単語について、それぞれその単語を発声して得ら
    れる音声データを前記単語のテキストと対応づけて記憶
    する音声データベースと、 前記入力手段より入力されたテキストに含まれる複数の
    テキスト片毎に前記音声データベースを検索して、その
    テキスト片を含む単語の音声データより前記テキスト片
    に対応する音声片を抽出する音声片抽出手段と、 前記入力されたテキストの音声データを表現するための
    複数とおりの音声片の組合せについて、それぞれその音
    声片の組合せによる合成音声データを複数のフレームに
    分割して、各フレーム毎にそのフレーム内の音声波形の
    特徴を表す特徴ベクトルを抽出する特徴抽出手段と、 前記音声片の組合せの中から前記特徴ベクトルの軌跡の
    長さが最小値をとる音声片の組合せを最適な組合せとし
    て決定する組合せ決定手段と、 決定された音声片の組合せについて、各音声片の特徴ベ
    クトルの時系列データを用いて前記単語の標準パターン
    を作成する標準パターン作成手段とを具備して成る標準
    パターン作成装置。
  5. 【請求項5】 前記標準パターン作成手段は、前記決定
    された組合せの音声片毎に、その特徴ベクトルの軌跡を
    前記音声片の各構成音素毎の特徴ベクトルの理想値に基
    づき正規化した後、正規化された各軌跡の合成結果を用
    いて標準パターンを作成する請求項4に記載された標準
    パターン作成装置。
JP9369593A 1997-12-25 1997-12-25 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置 Pending JPH11190997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9369593A JPH11190997A (ja) 1997-12-25 1997-12-25 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9369593A JPH11190997A (ja) 1997-12-25 1997-12-25 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Publications (1)

Publication Number Publication Date
JPH11190997A true JPH11190997A (ja) 1999-07-13

Family

ID=18494831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9369593A Pending JPH11190997A (ja) 1997-12-25 1997-12-25 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Country Status (1)

Country Link
JP (1) JPH11190997A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126649A1 (ja) 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126649A1 (ja) 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム
US8438027B2 (en) 2005-05-27 2013-05-07 Panasonic Corporation Updating standard patterns of words in a voice recognition dictionary

Similar Documents

Publication Publication Date Title
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
US9984677B2 (en) Bettering scores of spoken phrase spotting
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US6535852B2 (en) Training of text-to-speech systems
US8321218B2 (en) Searching in audio speech
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JPS59121100A (ja) 連続音声認識装置
Lounnas et al. CLIASR: a combined automatic speech recognition and language identification system
JP2955297B2 (ja) 音声認識システム
JPH0437996B2 (ja)
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
CN116034421A (zh) 乐曲构造解析装置及乐曲构造解析方法
JPH11190997A (ja) 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置
JP3477751B2 (ja) 連続単語音声認識装置
JP3440840B2 (ja) 音声認識方法及びその装置
JP2753255B2 (ja) 音声による対話型情報検索装置
CN110706689A (zh) 感情推测系统以及计算机可读介质
JP3584002B2 (ja) 音声認識装置および音声認識方法
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3061292B2 (ja) アクセント句境界検出装置
JP2862306B2 (ja) 音声認識装置
JP3277522B2 (ja) 音声認識方法
JP2943473B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 12

FPAY Renewal fee payment

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 13

FPAY Renewal fee payment

Year of fee payment: 14

Free format text: PAYMENT UNTIL: 20100627