JP2001296883A

JP2001296883A - 音声認識方法および装置、音声合成方法および装置、記録媒体

Info

Publication number: JP2001296883A
Application number: JP2000114262A
Authority: JP
Inventors: Yukio Koyanagi; 裕喜生小柳
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-04-14
Filing date: 2000-04-14
Publication date: 2001-10-26
Also published as: CN1195293C; US20030093273A1; WO2001080222A1; TW569180B; KR20030003252A; EP1288912A4; CN1423809A; EP1288912A1

Abstract

(57)【要約】【課題】音声認識度の向上、合成音の高品質化および
処理の簡素化等を図るべく、今までにはない全く新しい
音声認識手法および音声合成手法を提供する。【解決手段】入力音声信号を微分してその微分値が所
定の条件を満たす点を標本点として検出し、検出した各
標本点における離散的な振幅データと各標本点間の時間
間隔を表すタイミングデータとを得るデータ生成部３
と、上記振幅データおよびタイミングデータを用いて相
関データを演算する相関演算部４とを備え、ある入力音
声について相関演算部４により生成した相関データと、
種々の音声についてあらかじめ同様に生成してデータメ
モリ６に蓄積しておいた相関データとの照合により入力
音声を認識するようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識方法および
装置、音声合成方法および装置、更にはこれらの機能を
ソフトウェアにより実現するためのプログラムを格納し
た記録媒体に関し、特に、人間などによる音声を聞き分
ける音声認識技術および、データから音声を作る音声合
成技術に関するものである。

【０００２】

【従来の技術】近年、人間が発生した音声を計算機が認
識して自動的に処理を行うといった、いわゆる音声認識
の音声処理インタフェースが注目されている。音声認識
技術には、数字や単語などを認識する単語音声認識か
ら、意味や内容まで理解する連続音声認識まで、様々な
ものがある。また、発生された音声が誰のものであるか
を識別する話者識別の技術も広義には音声認識技術の中
に含まれる。

【０００３】特に最近では、単語音声認識から、連続音
声認識や自然な会話を対象にした音声認識の技術に注目
の対象が集まってきている。また、特定の語彙を音声コ
マンドとして用いることによって、計算機や携帯端末な
どを音声により操作する方法の研究も進められている。

【０００４】一方、音声認識とは逆に、テキストなどの
データから音声を合成して出力する音声合成技術の開発
も進められている。例えば、テキスト音声合成の技術で
は、漢字や英字等の種々の文字から成る言葉のテキスト
データを解析し、アクセントやイントネーションをあら
かじめ設定した規則に基づき与えることにより、音声を
合成する。

【０００５】

【発明が解決しようとする課題】しかしながら、現在の
音声認識技術では、発せられた音声を何でも認識できる
訳ではなく、認識度には限界がある。すなわち、同じ単
語でも発声者よって音声が異なることがあり、話す人に
よって認識精度に差が生じることがある。また、認識対
象とする語彙数や話者が増加すると、音声認識の難易度
は更に増すことになる。

【０００６】一方、現在の音声合成技術では、生成され
る合成音はまだ機械音の域を脱することができず、より
人間の肉声に近い合成音を得るべくその高品質化が課題
となっている。さらに、現在の音声認識技術、音声合成
技術の何れも複雑な処理が必要であり、処理の高速化な
どを図るために処理の簡素化も望まれている。

【０００７】本発明は、このような実情に鑑みて成され
たものであり、音声認識度の向上、合成音の高品質化、
および処理の簡素化等を図るために、今までにはない全
く新しい音声認識方式および音声合成方式を提供するこ
とを目的とする。

【０００８】

【課題を解決するための手段】本発明の音声認識方法
は、入力音声信号を微分してその微分値が所定の条件を
満たす点を標本点として検出し、検出した各標本点にお
ける離散的な振幅データと各標本点間の時間間隔を表す
タイミングデータとを得て、上記振幅データおよびタイ
ミングデータを用いて相関データを生成し、この生成し
た相関データと、種々の音声についてあらかじめ同様に
生成して蓄積しておいた相関データとの照合により入力
音声を認識するようにしたことを特徴とする。ここで、
相関データの下位数ビットを丸める処理を行うようにし
ても良い。また、入力音声信号をオーバーサンプリング
し、当該オーバーサンプリングされたデータをその微分
値が所定の条件を満たす点の時間間隔で標本化するよう
にしても良い。

【０００９】また、本発明の音声認識装置は、入力音声
信号をＡ／Ｄ変換するＡ／Ｄ変換手段と、上記Ａ／Ｄ変
換手段より出力されるデジタルデータを微分する微分手
段と、上記微分手段により求められた微分値が所定の条
件を満たす点を標本点として検出し、検出した各標本点
における振幅データおよび各標本点間の時間間隔を表す
タイミングデータを生成するデータ生成手段と、上記デ
ータ生成手段により生成された上記振幅データおよびタ
イミングデータを用いて相関データを生成する相関演算
手段と、上記相関演算手段により生成された相関データ
と、種々の音声についてあらかじめ同様に生成して記録
媒体に蓄積しておいた相関データとを照合して入力音声
を認識するデータ照合手段とを備えたことを特徴とす
る。ここで、上記相関演算手段は、上記相関データの下
位数ビットを丸める処理を行うようにしても良い。ま
た、上記Ａ／Ｄ変換手段より出力されたデジタルデータ
に対して偶数倍周波数のクロックを用いてオーバーサン
プリングを行うオーバーサンプリング手段を備え、上記
オーバーサンプリングされたデータをその微分値が所定
の条件を満たす点の時間間隔で標本化するようにしても
良い。

【００１０】本発明の音声合成方法は、音声以外のデー
タと、当該データに対応する音声信号についてあらかじ
め生成された、上記音声信号の微分値が所定の条件を満
たす標本点における振幅データおよび各標本点間の時間
間隔を表すタイミングデータの組とを互いに関連付けて
おき、所望のデータが指定されたときに、その指定され
たデータに関連付けられている上記振幅データおよびタ
イミングデータの組を用いて、上記タイミングデータに
よって示される時間間隔を有する上記振幅データの間を
補間する補間データを求めることによって音声を合成す
るようにしたことを特徴とする。

【００１１】また、本発明の音声合成装置は、音声以外
のデータに対応する音声信号についてあらかじめ生成さ
れた、上記音声信号の微分値が所定の条件を満たす標本
点における振幅データおよび各標本点間の時間間隔を表
すタイミングデータの組を、上記音声以外のデータと互
いに関連付けて記憶した記憶手段と、所望のデータが指
定されたときに、その指定されたデータに関連付けて上
記記憶手段に記憶されている上記振幅データおよびタイ
ミングデータの組を用いて、上記タイミングデータによ
って示される時間間隔を有する上記振幅データの間を補
間する補間データを求める補間処理手段と、上記補間処
理手段により求められた補間データをＤ／Ａ変換するＤ
／Ａ変換手段とを備えることを特徴とする。

【００１２】また、本発明のコンピュータ読み取り可能
な記録媒体は、請求項１〜８の何れか１項に記載の音声
認識方法の処理手順、あるいは請求項１７または１８に
記載の音声合成方法の処理手順をコンピュータに実行さ
せるためのプログラムを記録したことを特徴とする。ま
た、請求項９〜１６、１９〜２１の何れか１項に記載の
各手段としてコンピュータを機能させるためのプログラ
ムを記録したことを特徴とする。

【００１３】本発明は上記技術手段より成るので、所定
の標本点における振幅データとタイミングデータとを用
いた今までには全くない簡単な音声認識手法および音声
合成手法を提供することが可能となる。ここで、振幅デ
ータおよびタイミングデータをそのまま用いるのではな
く、それらの相関データを用いるようにすることで、音
声の認識度を向上させることが可能となる。さらに、相
関データの下位数ビットを丸める処理や、音声信号のオ
ーバーサンプリング処理を行うことで、音声の認識度を
更に向上させることが可能となる。また、実際の音声信
号から生成された振幅データおよびタイミングデータを
用いて音声を合成することにより、少ないデータを記憶
しておくだけで、より生音に近い音声を合成することが
可能となる。さらに、音声信号のオーバーサンプリング
処理を行った上で生成した振幅データおよびタイミング
データを用いて音声の合成を行うことで、合成音の品質
を更に向上させることが可能となる。

【００１４】

【発明の実施の形態】（第１の実施形態）以下、本発明
の一実施形態を図面に基づいて説明する。図１は、本実
施形態による音声認識装置の構成例を示すブロック図で
ある。図１に示すように、本実施形態の音声認識装置
は、ローパスフィルタ（ＬＰＦ）１と、Ａ／Ｄ変換器２
と、データ生成部３と、相関演算部４と、データ登録部
５と、データメモリ６と、データ照合部７と、モード指
定部８とを備えて構成されている。

【００１５】図１において、入力アナログ信号は、人間
などが発声した音声を図示しないマイクロフォン等から
入力したものである。この入力アナログ信号は、後述す
る標本点の検出を行いやすくするために、ＬＰＦ１によ
ってノイズが除去された後、Ａ／Ｄ変換器２によってデ
ジタルデータに変換される。このときＡ／Ｄ変換器２
は、所定周波数（例えば、４４．１ＫＨｚ）の入力クロ
ックＣＫ０に従ってＡ／Ｄ変換処理を実行し、入力アナ
ログ信号を例えば１６ビットのデジタルデータに変換す
る。

【００１６】このＡ／Ｄ変換器２によりデジタル化され
た音声データは、データ生成部３に入力される。データ
生成部３は、Ａ／Ｄ変換器２より供給されるデジタルデ
ータを微分し、その微分結果に応じて後述する標本点を
検出する。そして、各検出点におけるデジタルデータの
振幅を表す振幅データと、各標本点間の時間間隔を表す
タイミングデータ（クロックＣＫ０の数）とを求めて出
力する。

【００１７】図２は、上記データ生成部３によって行わ
れるデータ生成処理の原理を説明するための図である。
なお、データ生成部３に入力されるデータは、入力アナ
ログ信号をＡ／Ｄ変換した後のデジタルデータである
が、図２では説明のために、Ａ／Ｄ変換器２より出力さ
れたデジタルデータの波形をアナログ的に示している。
また、この図２中に示される数値は説明用の数値であっ
て、実際の数値に即したものではない。

【００１８】本実施形態においては、例えば、Ａ／Ｄ変
換器２より出力されたデジタルデータ１０１の中から、
微分絶対値（信号の傾斜）が“０”を含む所定値以下と
なる点（これを標本点と称する）１０２ａ〜１０２ｆを
検出する。そして、これら各標本点１０２ａ〜１０２ｆ
における振幅を表すデジタルデータ値と、各標本点１０
２ａ〜１０２ｆが現れる時間間隔を表すタイミングデー
タ値とを求め、この振幅データ値とタイミングデータ値
との組を出力する。

【００１９】図２の例では、各標本点１０２ａ〜１０２
ｆにおけるデジタルの振幅データ値として、“７，３，
９，１，６，３”が求まり、各標本点１０２ａ〜１０２
ｆが現れる時刻Ｔ１−Ｔ２間、Ｔ２−Ｔ３間、Ｔ３−Ｔ
４間、Ｔ４−Ｔ５間、Ｔ５−Ｔ６間のそれぞれの時間間
隔を表すタイミングデータとして、“５，７，３，３，
３”が求まっている。なお、ここでタイミングデータと
して示される数字は、あるサンプリング周波数に基づく
クロックＣＫ０の数を示している。

【００２０】時刻Ｔ１の時点では、標本点１０２ａの振
幅データ値“７”と、それより前に標本点（図示せず）
が検出された時刻からの時間間隔を表すタイミングデー
タ値（図示せず）とが得られているので、それらデータ
値の組を時刻Ｔ１のデータとして出力する。

【００２１】次に、標本点１０２ｂが検出された時刻Ｔ
２の時点では、それより前に標本点１０２ａが検出され
た時刻Ｔ１からの時間間隔を表すタイミングデータ値
“５”と、標本点１０２ｂの振幅データ値“３”とが得
られているので、これらデータ値の組（５，３）を時刻
Ｔ２のデータとして出力する。

【００２２】さらに、次に標本点１０２ｃが検出された
時刻Ｔ３の時点では、それより前に標本点１０２ｂが検
出された時刻Ｔ２からの時間間隔を表すタイミングデー
タ値“７”と、標本点１０２ｃの振幅データ値“９”と
が得られているので、これらデータ値の組（７，９）を
時刻Ｔ３のデータとして出力する。

【００２３】以下同様にして、時刻Ｔ３−Ｔ４間、Ｔ４
−Ｔ５間、Ｔ５−Ｔ６間の時間間隔を表すタイミングデ
ータ値と、時刻Ｔ４，Ｔ５，Ｔ６で検出された各標本点
１０２ｄ，１０２ｅ，１０２ｆの振幅データ値との組
（３，１）、（３，６）、（３，３）を、それぞれ時刻
Ｔ４，Ｔ５，Ｔ６におけるデータとして出力する。

【００２４】図３は、このデータ生成部３の一構成例を
示すブロック図である。図３において、微分器３０１
は、Ａ／Ｄ変換器２より入力されたデジタルデータを各
サンプリングポイント毎に微分し、その絶対値をとって
標本点検出部３０２に出力する。標本点検出部３０２
は、上記微分器３０１により微分された結果に基づい
て、デジタルデータの微分絶対値が所定値以下となる標
本点を検出する。

【００２５】図４は、上記微分器３０１の一構成例を示
す図である。図４に示すように、本実施形態の微分器３
０１は、連続する２つのサンプリングポイントのデータ
間の差分絶対値を演算する差分絶対値回路により構成さ
れる。

【００２６】図４において、差分器３１，３２は、ノー
ドａ，ｂから入力される連続する２つのサンプリングポ
イントにおけるデータの差分をそれぞれ演算する。すな
わち、差分器３１は差分ａ−ｂ、差分器３２は差分ｂ−
ａをそれぞれ演算し、その結果をそれぞれＯＲ回路３
３，３４に出力する。これらの差分器３１，３２は、演
算された差分値が負の値になるときには、差分値の他に
ボロウとして“１”の値を出力する。

【００２７】上記ＯＲ回路３３は、上記差分器３１で演
算された差分値とボロウ出力との論理和をとり、その結
果をＡＮＤ回路３５に出力する。また、もう１つのＯＲ
回路３４は、上記差分器３２で演算された差分値とボロ
ウ出力との論理和をとり、その結果をＡＮＤ回路３５に
出力する。ＡＮＤ回路３５は、上記２つのＯＲ回路３
３，３４からの出力の論理積をとり、その結果をノード
ｃに出力する。また、上記差分器３１のボロウ出力をノ
ードｄに出力し、上記差分器３２で演算された差分値を
ノードｅに出力する。

【００２８】これにより、ノードｃには、連続する２つ
のサンプリングポイントにおけるデータの差分絶対値｜
ａ−ｂ｜が出力され、ノードｄには、ノードｂのデータ
値の方がノードａのデータ値より大きいときに“１”の
値が出力され、ノードｅには、ノードａ，ｂのデータ間
の差分値ｂ−ａが出力される。なお、図４では説明の都
合上、ノードａ，ｂ，ｃ，ｅのデータ線を１ビット分し
か示していないが、実際にはデータのビット数だけ備え
られている。

【００２９】図３のタイミング生成部３０３は、１つの
標本点が検出されてから次の標本点が検出されるまでに
供給されるクロックＣＫ０の数をカウントし、これをタ
イミングデータとして出力するとともに、各標本点の検
出点のタイミングを表すタイミングクロックを出力す
る。

【００３０】また、振幅生成部３０４は、タイミング生
成部３０３より出力されるタイミングクロックに従っ
て、該当する標本点位置のデジタルデータのみを取り出
して振幅データとして出力する。このようにして振幅生
成部３０４により生成された各標本点の振幅データと、
タイミング生成部３０３により生成された各標本点間の
時間間隔を表すタイミングデータとの組は、図１の相関
演算部４に出力される。

【００３１】相関演算部４は、上記データ生成部３より
出力された各振幅データおよび各タイミングデータの相
関を演算する。この相関演算の方法としては種々のもの
が考えられる。ここでは、データ生成部３より出力され
た各振幅データ同士の比率および各タイミングデータ同
士の比率を演算するものとする。例えば、振幅データと
してｄ１，ｄ２，ｄ３，ｄ４，…が得られ、タイミング
データとしてｔ１，ｔ２，ｔ３，ｔ４，…が得られたと
すると、相関演算部４は、以下の式(1a),(1b)のような
比率を計算する。ｄ２／ｄ１，ｄ３／ｄ２，ｄ４／ｄ３，… (1a) ｔ２／ｔ１，ｔ３／ｔ２，ｔ４／ｔ３，… (1b)

【００３２】モード指定部８は、上記相関演算部４によ
り生成された相関データを、音声認識処理に用いるため
のマッチングデータとしてデータメモリ６に登録するモ
ードか、データメモリ６に登録された各種のマッチング
データを用いて実際に音声認識処理を行うモードかの何
れかを指定するものである。データ登録部５は、上記モ
ード指定部８により登録モードが指定されているとき
に、相関演算部４により生成された相関データをマッチ
ングデータとしてデータメモリ６に登録するものであ
る。

【００３３】データメモリ６は、データを蓄積する記録
媒体であり、相関データ（マッチングデータ）の登録モ
ード時には、相関演算部４により生成された相関データ
を取り込んで記録する。また、音声認識モード時には、
データ照合部７から与えられる要求に応じて、蓄積され
ている相関データ（マッチングデータ）を読み出して出
力する。

【００３４】データ照合部７は、相関演算部４から出力
される相関データと、データメモリ６から読み出される
マッチングデータとを用いてパターンマッチングの処理
を行い、データメモリ６に格納されている複数のマッチ
ングデータの中から、相関演算部４からの相関データと
ある確率以上で一致するマッチングデータを検出する。
これにより、図示しないマイクロフォン等から入力され
た音声が上記検出したマッチングデータに対応する音声
であると認識し、その認識結果を図示しないデータ処理
部などに出力する。これによりデータ処理部では、認識
された音声の内容に応じた処理が実行されることにな
る。

【００３５】以上のように、本実施形態の音声認識装置
では、マッチングデータの登録時には、人間が発声した
音声をアナログ信号として入力し、それをデジタル化し
て演算することにより、デジタルデータの微分絶対値が
所定値以下となる標本点を検出する。そして、その標本
点における振幅データに関する相関データと、標本点間
の時間間隔を表すタイミングデータに関する相関データ
とを生成し、それをマッチングデータとしてデータメモ
リ６などの記録媒体に登録する。

【００３６】また、音声認識の処理時には、人間が発声
した音声を同様に処理して、振幅データの相関データと
タイミングデータの相関データとを生成する。そして、
こうして生成した相関データと、データメモリ６にあら
かじめ登録しておいた複数のマッチングデータとを用い
てパターンマッチングの処理を行うことにより、入力さ
れた音声が何であるか等を認識する。

【００３７】ここで、データ生成部３により生成される
振幅データとタイミングデータは、入力される音声の内
容によって異なるユニークなデータとなる。したがっ
て、この振幅データとタイミングデータとから生成した
相関データを用いてパターンマッチングを行うことによ
り、入力された音声が何であるか等の音声認識を行うこ
とが可能である。

【００３８】しかも、本実施形態では、データ生成部３
で生成された振幅データとタイミングとをそのままマッ
チングデータとして用いるのではなく、これらの比率を
とった相関データをマッチングデータとして用いてい
る。これにより、音声認識率を向上させることが可能で
ある。

【００３９】すなわち、同じ言葉を発声していても、そ
のときの発声の大きさや速さなどによって、振幅データ
の値とタイミングデータの値が異なってくることがあ
る。そのため、振幅データとタイミングデータとをその
ままマッチングデータとして用いると、同じ言葉を発声
していても、そのときの発声の状態によっては間違った
音声として認識してしまうことが考えられる。

【００４０】これに対し、本実施形態のように振幅デー
タやタイミングデータの比率をとってこれをマッチング
データとして用いるようにすることにより、全体として
発声の大きさや速さが異なっていても、同じ言葉を発声
していれば、各標本点における振幅値の変化比率や標本
点間のピッチの変化比率はほぼ同じとなり、正しい音声
を認識することが可能である。これにより、例えば特性
の言葉を音声コマンドとして用い、計算機や携帯端末な
どを音声により操作することも可能となる。

【００４１】なお、上記実施形態の相関演算部４では、
連続する２つの振幅データ間の比率および連続する２つ
のタイミングデータ間の比率をそれぞれ式(1a),(1b) の
ように計算しているが、相関データの計算はこの例に限
定されない。例えば、上記式(1a),(1b) の比率計算にお
いて、分母と分子は逆であっても良い。また、連続する
２つのデータ間の比率ではなく、離れたデータ間の比率
を演算するようにしても良い。

【００４２】また、ここでは２つのデータ間の比率を除
算により演算しているが、加算や減算もしくは乗算、ま
たは加減乗除の任意の組合せ演算によって相関値を求め
るようにしても良い。さらに、２つのデータを用いた相
関演算に限らず、それより多くのデータを用いた相関演
算であっても良い。また、上記実施形態では、振幅デー
タの相関値とタイミングデータの相関値とを別々に演算
しているが、振幅データとタイミングデータとの間の相
関値を演算するようにしても良い。

【００４３】すなわち、相関を演算することによって、
同じ音声ならばどんな発声状態でもほぼ同じ値となるよ
うにすれば、相関演算の手法は特に限定しない。もちろ
ん、相関演算のし方によっては、音声の認識率を更に高
めることも可能である。なお、相関を演算しなくても、
データ照合部７によるパターンマッチング処理の際に同
じ音声か否かを判断するための境界値、つまりマッチン
グデータとの一致度に関するしきい値を調整することに
より、音声の認識率をある程度は高めることが可能であ
る。

【００４４】また、上記相関演算部４により計算された
相関データに対して下位数ビットを丸める処理を更に行
うことにより、例えば、演算された比率データの小数点
以下を切り捨てるようにしても良い。また、この丸め演
算を行う際に、演算された相関データをまず数倍してか
ら下位数ビットを丸めるようにしても良い。

【００４５】このようにすれば、同じ音声でも発声の状
態によってわずかに異なることがある相関データの下位
数ビットを無視してパターンマッチングの処理を行うこ
とができ、相関演算部４より出力される相関データとデ
ータメモリ６より読み出されるマッチングデータとの一
致率を上げて、音声認識率を更に向上させることができ
る。

【００４６】また、相関演算部４により得られた一連の
相関データをそのままパターンマッチング処理に用いる
のではなく、一連の相関データのうち最初と最後の数個
の相関データはパターンマッチング処理に用いないよう
にしても良い。あるいは、データ生成部３により得られ
た一連の振幅データおよびタイミングデータのうち、最
初と最後の数個の振幅データおよびタイミングデータは
用いずに相関データを求めるようにしても良い。

【００４７】人間が発声した音声を処理して各標本点に
おける振幅データとタイミングデータとを検出する場
合、発声の最初の部分と最後の部分で得られる振幅デー
タとタイミングデータは不正確であることも考えられ
る。そこで、このように信頼性の低い発声の最初と最後
の部分で生成された振幅データとタイミングデータ、あ
るいはこれから作られる相関データを除外してパターン
マッチングを行うようにすることにより、音声認識率を
更に向上させることができる。

【００４８】また、上記実施形態のデータ生成部３で
は、入力アナログ信号をデジタル化したデータの中か
ら、デジタルデータの微分絶対値が“０”を含む所定値
以下となる点を標本点として検出しているが、標本点検
出の方法はこれに限定されるものではない。例えば、Ａ
／Ｄ変換器２より供給される一連のデジタルデータの中
から、前後の位置と比べて微分絶対値が小さくなる位
置、つまり微分絶対値の極小値が現れる位置を標本点と
して検出するようにしても良い。

【００４９】この場合、標本点を検出するための処理と
して、Ａ／Ｄ変換器２より供給されるデジタルデータを
１回微分した後、得られた微分絶対値を更に微分するこ
とによって２重微分を実行し、その２重微分値の極性が
マイナスまたはゼロからプラスに変化する直前の点を標
本点として抽出するようにしても良い。さらに、このよ
うに２重微分値の極性に基づき抽出した各点のうち、１
回微分絶対値が一定値より小さくなる点のみを正規の標
本点として検出するような処理を行うようにしても良
い。

【００５０】すなわち、１回微分により得られる微分絶
対値の極小点においては、その１回微分絶対値を更に微
分した２重微分値の極性は、必ずマイナスからプラスに
変化する。したがって、デジタルデータの２重微分値を
求めてその極性がマイナスからプラスに変化する点（２
重微分値がゼロの点を含む）を検出すれば、１回微分絶
対値の極小点を正確に検出することができる。このと
き、同じ値の極小点が連続して２つ生じるような場合に
も、その一方を標本点として確実に検出することができ
る。また、１回微分絶対値が一定値より小さくなる点の
みを正規の標本点として検出するようにすれば、不要な
点を標本点として検出しないようにすることができる。

【００５１】図５は、上記のように２重微分を行うこと
によって標本点を検出するための構成例を示すブロック
図であり、図３中の微分器３０１および標本点検出部３
０２の構成例を示している。図５に示すように、微分器
３０１は、第１の微分部２１と、丸め演算部２２と、第
２の微分部２３とを備えている。また、標本点検出部３
０２は、極性変化点検出部２４と、閾値処理部２５とを
備えている。

【００５２】上記第１の微分部２１は、図４のように構
成され、図１のＡ／Ｄ変換器２より供給されるデジタル
データを各サンプリングポイント毎に微分し、その絶対
値をとって出力する。丸め演算部２２は、第１の微分部
２１で演算された１回微分絶対値の下位数ビットを落と
す処理を行う。この処理は、微分器３０１で算出された
微分絶対値に基づき標本点を検出する際に、標本点かど
うかの判定に裕度を持たせるために行っているものであ
る。

【００５３】例えば、下位１ビットを落とせば、実際に
算出された微分絶対値が０〜１の範囲は全て微分絶対値
が０であるとみなして判定を行うことができる。また、
下位２ビットを落とせば、実際に算出された微分絶対値
が０〜３の範囲は全て微分絶対値が０であるとみなして
判定を行うことができる。ここでは、上記１回微分絶対
値を８で除算することで下位３ビットを落とす処理を行
う。このようにすることにより、雑音などの微小変動に
よる影響を避け、不要な点を標本点として検出しないよ
うにすることができる。

【００５４】上記丸め演算部２２より出力されたデータ
は、第２の微分部２３および標本点検出部３０２内の閾
値処理部２５に供給される。この第２の微分部２３も図
４のように構成され、上記丸め演算部２２により丸め演
算が行われた１回微分絶対値を更に各サンプリングポイ
ント毎に微分する。この第２の微分部２３により求めら
れた２重微分値およびその極性を表すボロウ値は、標本
点検出部３０２内の極性変化点検出部２４に供給され
る。

【００５５】上記極性変化点検出部２４は、微分器３０
１内の第２の微分部２３より供給された２重微分値の極
性がマイナスからプラスに変化する直前の点、例えば、
極性がマイナスの２重微分値が連続して得られている場
合において最後にマイナスとなる点、あるいは２重微分
値がゼロとなる点を標本点の候補として抽出する。極性
がマイナスの２重微分値が連続して得られていない場合
における当該マイナスの点を標本点の候補として更に抽
出しても良い。

【００５６】ところで、標本点の検出に裕度を持たせる
ために丸め演算部２２で微分絶対値の下位数ビットを落
とした場合には、同じ値の極小値が連続して２つ生じる
ケースが増えることが考えられる。この場合でも、２重
微分値を求めてその極性がマイナスからプラスに変化す
る点（２重微分値がゼロの点を含む）を検出すれば、同
じ値の極小点のうちの一方を標本点として確実に検出す
ることができる。

【００５７】なお、同じ値の極小値が連続して２つ生じ
た場合、図４に示すノードｄに出力される差分器３１の
ボロウ値に基づいて微分値の正負の極性を判断し、微分
値の極性が変化する側を標本点として検出するようにし
ても良い。また、微分値の極性が変化しない場合には、
同じ値が連続する２つのサンプリングポイントの前後に
位置するサンプリングポイントの微分絶対値の大小関係
を見て、その値が小さい方に近い点を標本点として検出
するようにしても良い。

【００５８】閾値処理部２５は、上記極性変化点検出部
２４により抽出された標本点の候補について、丸め演算
部２２より供給される１回微分絶対値と、あらかじめ定
められた閾値とを比較し、１回微分絶対値が閾値より小
さくなる点のみを正規の標本点として検出し、図３のタ
イミング生成部３０３に伝える。

【００５９】なお、上記図５の例では、丸め演算部２２
にて丸め演算が施された１回微分絶対値を用いて閾値処
理を行っているが、第１の微分部２１で求められた、丸
め演算が施される前の１回微分絶対値を用いて閾値処理
を行うようにしても良い。また、上記図５では、２重微
分値の極性がマイナスからプラスに変化する直前の点を
標本点として抽出しているが、マイナスからプラスに変
化した直後の点を標本点として抽出するようにしても良
い。

【００６０】また、標本点を検出する他の手法として、
微分絶対値は用いずに、極性を含む微分値に基づいて標
本点を検出するようにしても良い。例えば、Ａ／Ｄ変換
器２より出力されたデジタルデータを１回微分して、そ
の微分値の極性が変化する点を標本点として検出するよ
うにすることが可能である。この場合、図３の微分器３
０１は、Ａ／Ｄ変換器２より入力されたデジタルデータ
を１回微分する。このとき微分器３０１は、所定周波数
の入力クロックＣＫ０が与えられる毎にデジタルデータ
の微分を行う。微分値は、ある入力クロックＣＫ０のタ
イミングで取り込んだ現データから時間的に１つ前のデ
ータを減算することによって求まる。このとき、データ
のないところはデフォルト値とする。

【００６１】また、標本点検出部３０２は、微分器３０
１により算出された微分値の他に、Ａ／Ｄ変換器２より
出力されたデジタルデータも入力する。そして、これら
のデータに基づいて、デジタルデータの微分値の極性が
変化する点を標本点として検出する。

【００６２】例えば、標本点検出部３０２は、まず、微
分値の極性が正から負に変わる点、微分値の極性が負か
ら正に変わる点、および微分値が０となる点を検出す
る。そして、微分値の極性が正から負に変わる点に関し
ては、その正負両側の点のうち、Ａ／Ｄ変換器２からの
デジタルデータ値が大きい方を標本点として検出する。
また、微分値の極性が負から正に変わる点に関しては、
その正負両側の点のうち、Ａ／Ｄ変換器２からのデジタ
ルデータ値が小さい方を標本点として検出する。また、
微分値が０となる点に関しては、その点自体を標本点と
して検出する。また、微分値が０となる点が２つ以上連
続して現れる場合には、例えば、その両端の位置を標本
点として検出する。

【００６３】タイミング生成部３０３は、１つの標本点
が検出されてから次の標本点が検出されるまでに供給さ
れるクロックＣＫ０の数をカウントし、これをタイミン
グデータとして出力するとともに、各標本点の検出点の
タイミングを表すタイミングクロックを出力する。ま
た、上記振幅生成部３０４は、このタイミング生成部３
０３より出力されるタイミングクロックに従って、該当
する標本点位置のデジタルデータのみを取り出して振幅
データとして出力する。

【００６４】次に、本実施形態による音声合成装置につ
いて説明する。本実施形態の音声合成装置では、所定の
単語あるいは文章などを表したテキストデータと、その
単語あるいは文章に対応する音声信号から図１の音声認
識装置におけるデータ生成部３までの処理によって生成
した振幅データおよびタイミングデータの組とを互いに
関連付けておく。

【００６５】そして、指定されたテキストデータから音
声を合成して出力するときに、そのテキストデータに関
連付けられた振幅データとタイミングデータとを用いて
後述するような補間演算を行うことにより、個々の振幅
データの間を補間する補間データを生成し、これをＤ／
Ａ変換して出力する。

【００６６】図６は、本実施形態による音声合成装置の
構成例を示すブロック図である。図６に示すように、本
実施形態の音声合成装置は、テキスト解析部１１と、デ
ータ読出部１２と、データメモリ１３と、タイミングジ
ェネレータ１４と、Ｄ型フリップフロップ１５と、補間
処理部１６と、Ｄ／Ａ変換器１７と、ＬＰＦ１８とを備
えて構成されている。

【００６７】データメモリ１３は、様々な音節、単語あ
るいは文章などを表したテキストデータに対応する音声
から生成された振幅データおよびタイミングデータの組
を、上記テキストデータと関連付けて記憶している。こ
こに記憶される振幅データおよびタイミングデータは、
図１に示した音声認識装置のデータ生成部３までと同様
の処理によって生成されるものである。

【００６８】なお、ここでは、テキストデータに対応す
る音声から生成した振幅データおよびタイミングデータ
をそのテキストデータに関連付けて記憶しているが、ア
イコン、ＣＧデータ、画像データなどのテキスト以外の
形式によるデータに対応する音声（例えば、解説音声な
ど）から生成した振幅データおよびタイミングデータを
当該データに関連付けて記憶するようにしても良い。

【００６９】テキスト解析部１１は、指定された所望の
テキストデータを解析し、その音節、単語あるいは文章
などの内容を認識する。なお、アイコン、ＣＧデータ、
画像データなどが指定されたときは、それらを解析して
何が指定されているかを認識することになる。データ読
出部１２は、テキスト解析部１１による解析結果に基づ
いて、指定されたテキストデータ等の内容に対応する振
幅データとタイミングデータとをデータメモリ１３内か
ら読み出す。

【００７０】タイミングジェネレータ１４は、データメ
モリ１３から読み出されるタイミングデータを受けて、
そのタイミングデータで示される不定の時間間隔を表す
読み出しクロックを所定周波数の入力クロックＣＫ０か
ら生成する。Ｄ型フリップフロップ１５は、データメモ
リ１３に上記タイミングデータとの組で記憶されている
振幅データを、上記タイミングジェネレータ１４により
生成された読み出しクロックに従ったタイミングで順次
取り込んで保持し、それを補間処理部１６に出力する。

【００７１】この補間処理部１６には、上記Ｄ型フリッ
プフロップ１５の入出力段の振幅データ、つまりある読
み出しクロックのタイミングでＤ型フリップフロップ１
５に保持されている振幅データと、次の読み出しクロッ
クのタイミングでＤ型フリップフロップ１５に保持され
るべき振幅データ（連続する２つの標本点における２つ
の振幅データ）が入力されている。

【００７２】補間処理部１６は、このように入力される
２つの振幅データと、タイミングジェネレータ１４より
入力されるタイミングデータとを用いて、後述する補間
演算もしくはコンボリューション演算等によって各標本
点間のデジタル補間データを生成する。そして、このよ
うにして生成したデジタル補間データをＤ／Ａ変換器１
７によってアナログ信号に変換した後、ＬＰＦ１８を介
してアナログの合成音声信号として出力する。

【００７３】次に、図７を用いて、上記補間処理部１６
におけるデータ補間処理の原理を説明する。図１のデー
タ生成部３と同様の処理を図２に示した音声信号に施す
ことで生成される振幅データとタイミングデータとの組
がデータメモリ１３の中に記憶されている場合、そのデ
ータは、（※，７）（５，３）（７，９）（３，１）
（３，６）（３，３）の数値列となる。なお、※は図２
中には値が図示されていないことを示すものである。デ
ータメモリ１３からは、ここに示した順序に従ってデー
タが読み出される。

【００７４】すなわち、まず最初にデータメモリ１３か
ら読み出される振幅データ値“７”とタイミングデータ
値“５”との２つのデータ値から、補間演算によって波
形ａ１のデータを生成する。次に、上述のタイミングデ
ータ値“５”と、続いて読み出される振幅データ値
“３”との２つのデータ値から、補間演算によって波形
ａ２のデータを生成する。

【００７５】次に、上述の振幅データ値“３”と、続い
て読み出されるタイミングデータ値“７”との２つのデ
ータ値から、補間演算によって波形ｂ２のデータを生成
する。さらに、上述のタイミングデータ値“７”と、更
に続いて読み出される振幅データ値“９”とから、補間
演算によって波形ｂ１のデータを生成する。以下同様に
して、順に読み出される振幅データ値とタイミングデー
タ値の組合せから、波形ｃ１，ｃ２，ｄ２，ｄ１，ｅ
１，ｅ２のデータを順次生成する。

【００７６】以上のような処理により、波形ａ１，ｂ
１，ｃ１，ｄ１，ｅ１が連続化されたデジタル信号（図
７の上段）と、波形ａ２，ｂ２，ｃ２，ｄ２，ｅ２が連
続化されたデジタル信号（図７の下段）とが生成され
る。そして、このようにして生成した２つのデジタル信
号を互いに加算してデジタル−アナログ変換することに
より、図２に示したような波形を有するアナログ音声信
号を合成する。

【００７７】図８は、図７に示した時刻Ｔ１−Ｔ２の区
間を取り出して示したものであり、図８（ａ）は加算前
の２つの波形ａ１，ａ２を示し、図８（ｂ）は加算によ
り生成した合成波形ａ１＋ａ２を示している。図８
（ａ）において、Ｄ１は時刻Ｔ１における振幅データ値
（図７の例では“７”）、Ｄ２は時刻Ｔ２における振幅
データ値（図７の例では“３”）、Ｔは時刻Ｔ１−Ｔ２
間の時間間隔を表すタイミングデータ値（図７の例では
“５”）、ｔは時刻Ｔ１−Ｔ２間の任意のタイミングを
示している。

【００７８】図８（ａ）に示すように、時刻Ｔ１におけ
る振幅データ値Ｄ１と時刻Ｔ１−Ｔ２間の時間間隔を表
すタイミングデータ値Ｔとを用いて、時刻Ｔ１−Ｔ２間
の任意のタイミングｔを変数として、つまりあるサンプ
リング周波数に基づくクロックＣＫ０に従ってタイミン
グｔの値を１つずつインクリメントしながら、波形ａ１
のデータを補間演算によって生成する。

【００７９】また、時刻Ｔ２における振幅データ値Ｄ２
と時刻Ｔ１−Ｔ２間の時間間隔を表すタイミングデータ
値Ｔとを用いて、同様にタイミングｔを変数として波形
ａ２のデータを補間演算によって生成する。そして、こ
のようにして生成した波形ａ１，ａ２のデータを上記タ
イミングｔを変数として加算することにより、図８
（ｂ）のような波形を合成する。

【００８０】以下に、上述のような補間処理によって音
声信号を合成できる原理について説明する。一般に、離
散的なデジタルデータから連続的なアナログ信号を得る
ために、離散的に入力されるデジタルデータの間を補間
して擬似的にサンプリング周波数を上げることが行われ
ている。通常、このようなデータ補間は、ｔ＝０の標本
点のみで値が“１”になり、他の全ての標本点では値が
“０”となる標本化関数を用いて行われる。なお、関数
の値が局所的な領域で“０”以外の有限の値を有し、そ
れ以外の領域で“０”となる場合を「有限台」と称す
る。

【００８１】図９に、このような有限台の標本化関数の
一例としてｓｉｎｃ関数を示す。図９に示すｓｉｎｃ関
数の例では、ｔ＝０の標本点のみで値が“１”になり、
等間隔の他の全ての標本点（ｔ＝±１，±２，±３，±
４，…）では値が全て“０”となっている。

【００８２】図１０は、このような標本化関数を用いた
一般的なデータ補間の動作を説明するための図である。
図１０において、等間隔の標本点ｔ１，ｔ２，ｔ３，ｔ
４のそれぞれにおける離散データの値をＹ（ｔ１），Ｙ
（ｔ２），Ｙ（ｔ３），Ｙ（ｔ４）とし、例えば標本点
ｔ２とｔ３の間の所定位置ｔ０（ｔ２から距離ａ）に対
応した補間値ｙを求める場合を考える。

【００８３】一般に、補間値ｙを標本化関数を用いて求
めるには、与えられた各離散データのそれぞれについて
補間位置ｔ０における標本化関数の値を求め、これを用
いて畳み込み演算を行えばよい。具体的には、ｔ１〜ｔ
４の各標本点毎に、標本化関数の中心位置におけるピー
ク高さを一致させ、このときのそれぞれの補間位置ｔ０
における標本化関数の値（×印で示す）を求めて、それ
らを全て加算する。

【００８４】このような補間処理を、時間経過と共に
（サンプリングクロックのインクリメントと共に）補間
位置ｔ０を順次移動させながら行うことにより、連続的
に変化する補間値ｙ（ｔ０）を順次求めていく。これに
より、各離散データ間をより滑らかにつなぐデジタル波
形を得ることができ、これをＤ／Ａ変換することによっ
て、連続したアナログ信号を得ることができる。

【００８５】本実施形態は、このようなデータ補間処理
を応用したものである。すなわち、図８（ａ）に示した
ように、時刻Ｔ２において既に入力されている振幅デー
タ値Ｄ１（＝７）とタイミングデータ値Ｔ（＝５）とか
ら、第１の標本点（時刻Ｔ１）において“０”以外の値
をとる有限台の標本化関数の一部を形成する波形ａ１を
求めるとともに、振幅データ値Ｄ２（＝３）とタイミン
グデータ値Ｔ（＝５）とから、第２の標本点（時刻Ｔ
２）において“０”以外の値をとる有限台の標本化関数
の一部を形成する波形ａ２を求める。

【００８６】そして、これらの波形ａ１，ａ２の値を時
間経過と共に順次移動する補間位置ｔごとに加算するこ
とにより、離散データＤ１，Ｄ２間をより滑らかにつな
ぐデジタル波形を得て、これをＤ／Ａ変換することによ
って、連続したアナログ信号を得る。

【００８７】ところで、本実施形態では図２に示したよ
うに、デジタルデータをその微分絶対値が所定値以下と
なる点の時間間隔で標本化することなどによって離散的
なデータを得ている。そのため、離散データが得られた
それぞれの標本点の間隔は常に等間隔になるとは限ら
ず、多くの場合は不定の間隔となる（図２の例でも、各
標本点の間隔が“５，７，３，３，３”と不定になって
いる）。

【００８８】そこで、音声合成装置において、例えば時
刻Ｔ１−Ｔ２間の補間値を求める際には、図８のよう
に、その時刻Ｔ１，Ｔ２の標本点間の時間間隔で有限台
となる標本化関数ａ１，ａ２のみを用いて上述のような
畳み込み演算を行い、標本点間の時間間隔がこれとは異
なる他の標本化関数ｂ１，ｂ２，ｃ１，ｃ２，ｄ１，ｄ
２，ｅ１，ｅ２についてはこの畳み込み演算の際に考慮
しないようにする。

【００８９】また、例えば時刻Ｔ２−Ｔ３間の補間値を
求める際には、その時刻Ｔ２，Ｔ３の標本点間の時間間
隔（＝７）で有限台となる標本化関数ｂ１，ｂ２のみを
用いて畳み込み演算を行い、標本点間の時間間隔がこれ
とは異なる他の標本化関数ａ１，ａ２，ｃ１，ｃ２，ｄ
１，ｄ２，ｅ１，ｅ２についてはこの畳み込み演算の際
に考慮しないようにする。他の標本点間の補間値を求め
る際も同様である。

【００９０】次に、上記データ補間の具体的な処理例に
ついて以下に説明する。上述したように、例えば時刻Ｔ
１−Ｔ２間の補間値を求める際には、時刻Ｔ１，Ｔ２に
おける各振幅データ値と、時刻Ｔ１−Ｔ２間の時間間隔
を表すタイミングデータ値とから求められる標本化関数
ａ１，ａ２のみを用いる。つまり、時刻Ｔ１−Ｔ２間に
おける各補間位置ｔにおける補間値を求めるために必要
なデータは、全て時刻Ｔ２の時点で得られており、この
時点で図８（ｂ）に示すような信号を合成することが可
能である。

【００９１】そこで、本実施形態では、Ｔ１〜Ｔ６の各
離散時刻ごとに２つの振幅データ値Ｄ１，Ｄ２とその時
間間隔を表すタイミングデータ値Ｔとが得られるごと
に、それらのデータ値を用いて以下に説明するような補
間演算式に従って補間値を算出することにより、デジタ
ル波形を順次合成する。図１１は、この補間演算式につ
いて説明するための図である。

【００９２】図１１に示すように、振幅データ値Ｄ１，
Ｄ２を有する２つの標本点間の補間値は、補間位置ｔに
関する２つの２次関数ｘ１，ｘ２がちょうど中間時点で
連続化した関数によって表すことができる。すなわち、
本実施形態では、２つの標本点間を前半部と後半部とに
分けて、それぞれ２次関数ｘ１，ｘ２を用いて補間値を
計算する。

【００９３】ここで、標本点間の時間間隔であるタイミ
ングデータ値Ｔは、奇数の場合もあれば偶数の場合もあ
り、奇数の場合にはちょうど中間時点に補間位置ｔがこ
ない状態が生じる。そのため、振幅データとタイミング
データの生成時に２倍のオーバーサンプリングを実行す
ることにより、得られるタイミングデータ値が常に偶数
となるようにしても良い。この場合、図２に示した５つ
のタイミングデータ値“５，７，３，３，３”は、実際
には２倍のオーバーサンプリングによって“１０，１
４，６，６，６”という値としてデータメモリ１３に蓄
積される。図１１では、標本点間の時間間隔をオーバー
サンプリングされた後の２Ｔによって表している。

【００９４】図１１において、２つの２次関数ｘ１，ｘ
２はそれぞれ、ｘ１＝Ｄ１＋ａｔ² …(1) ｘ２＝Ｄ２−ａ(ｔ−２Ｔ)² …(2) で表される。また、これらの関数ｘ１，ｘ２は、連続す
る標本点のちょうど中間時点Ｔにおいて連続であるた
め、ｘ１＝ｘ２（ｔ＝Ｔ） …(3) である。

【００９５】ここで、式(3) に式(1)(2)を代入すると、Ｄ１＋ａＴ＝Ｄ２−ａＴ² …(4) となり、これをａについて解くと、ａ＝−(Ｄ１−Ｄ２)／２Ｔ² …(5) となる。したがって、この式(5) を式(1)(2)を代入する
ことにより、ｘ１＝Ｄ１−｛(Ｄ１−Ｄ２)／２Ｔ²｝ｔ² …(6) ｘ２＝Ｄ２＋｛(Ｄ１−Ｄ２)／２Ｔ²｝(２Ｔ−ｔ)² …(7) を得る。

【００９６】つまり、元の２倍のサンプリング周波数の
クロックに従って順次インクリメントされる補間位置ｔ
を変数として上記式(6)(7)の演算を行うことにより、元
の離散データ間をより滑らかにつなぐデジタル波形を合
成することができる。本実施形態では、このような補間
演算処理を振幅データ値とタイミングデータ値とから成
る信号列が各離散時刻Ｔ１〜Ｔ６ごとに入力されるに従
って順次行う。

【００９７】すなわち、図７の例において、時刻Ｔ１，
Ｔ２における標本点の振幅データ値とその間のタイミン
グデータ値とが入力された時点で、その標本点間の補間
演算を行って滑らかなデジタル波形を直ちに合成する。
更に時刻Ｔ３における標本点の振幅データ値と標本点Ｔ
２−Ｔ３間のタイミングデータ値とが入力された時点
で、その間の補間演算を行って滑らかなデジタル波形を
直ちに合成する。以下同様にして順次処理を行ってい
く。

【００９８】以上説明したように、本実施形態において
は、実際の音声から生成された各標本点における振幅デ
ータと各標本点間の間隔を表すタイミングデータとをテ
キストデータと関連付けておき、所望のテキストデータ
が指定されたときに、それに対応する振幅データとタイ
ミングデータとから、補間演算によってアナログ音声信
号を合成して出力するようにしている。これにより、あ
らかじめ録音した音声信号を利用して音声を合成（再
生）する方式と比べて、極めて少ない量のデータ（振幅
データおよびタイミングデータ）を記憶しておくだけ
で、人間の肉声に近い高品質の音声をテキストデータ等
から合成することができる。また、読み出されるデータ
を簡単な補間演算によって順次に処理して音声を合成す
ることができるので、リアルタイム動作を実現すること
ができる。

【００９９】なお、上記式(6)(7)に示す補間演算処理
は、ロジック回路などのハードウェア構成によっても実
現可能であるし、ＤＳＰ（Digital Signal Processor）
あるいはソフトウェア（ＲＯＭやＲＡＭなどに格納され
たプログラム）によっても実現可能である。

【０１００】（第２の実施形態）次に、本発明の第２の
実施形態について説明する。第２の実施形態において、
音声認識装置では、少なくともデータ生成部３により振
幅データとタイミングデータとを生成する前の段階で、
与えられたデジタルデータに対してｎ倍オーバーサンプ
リングと移動平均演算または畳み込み演算（以下では、
コンボリューション演算と称する）とを行うことによ
り、離散的なデータの間を補間によってつないだ、より
滑らかなデータを得るようにする。

【０１０１】図１２は、第２の実施形態による音声認識
装置の全体構成例を示すブロック図である。図１２に示
すように、第２の実施形態による音声認識装置は、図１
に示した第１の実施形態による音声認識装置に対して、
オーバーサンプル回路９とＰＬＬ（Phase Locked Loop
）回路１０とが追加されている。

【０１０２】上記オーバーサンプル回路９は、Ａ／Ｄ変
換器２とデータ生成部３との間にあり、Ａ／Ｄ変換器２
より入力されるデジタルデータに対してｎ倍のオーバー
サンプリングとコンボリューション演算とを行うことに
より、離散データの間を埋めるデジタルの補間値を求め
る。例えば、オーバーサンプル回路９は、４４．１ＫＨ
ｚの周波数でサンプリングされた音声データを入力し、
これを８倍の周波数（３５２．８ＫＨｚ）でオーバーサ
ンプリングするとともに、コンボリューション演算を実
行する。そして、これによって得られた一連のオーバー
サンプルデータをデータ生成部３に出力する。

【０１０３】データ生成部３は、上記オーバーサンプル
回路９より供給される一連のオーバーサンプルデータの
中から、上述した何れかの方法によって標本点を検出す
る。そして、検出した各標本点における振幅データ値
と、各標本点が現れる時間間隔を表すタイミングデータ
値との組を、モード指定部８により指定されているその
ときのモードに応じて、データ登録部５あるいはデータ
照合部７に出力する。

【０１０４】また、ＰＬＬ回路１０は、基準周波数（例
えば４４．１ＫＨｚ）の入力クロックＣＫ０から８倍周
波数（３５２．８ＫＨｚ）のクロックＣＫ１を生成し、
それを上述のオーバーサンプル回路９およびデータ生成
部３に供給する。オーバーサンプル回路９およびデータ
生成部３では、この８倍周波数のクロックＣＫ１に同期
して動作することになる。

【０１０５】一方、音声合成装置において、８倍周波数
のクロックＣＫ１に従って生成された振幅データとタイ
ミングデータとをデータメモリ１３に記憶する場合に
は、図６に示した第１の実施形態による音声合成装置に
対して、図示しないクロックジェネレータを追加する必
要がある。このクロックジェネレータは、基準周波数の
入力クロックＣＫ０から８倍周波数のクロックＣＫ１を
生成し、それをタイミングジェネレータ１４、補間処理
部１６およびＤ／Ａ変換部１７に供給する。

【０１０６】次に、上記図１２に示した音声認識装置内
のオーバーサンプル回路９の構成および動作について、
以下に詳細に説明する。本実施形態のオーバーサンプル
回路９では、２つの離散データ間の補間値を求める際
に、この２つの離散データを含むｎ個の離散データの値
に応じた振幅を有する基本波形のデジタルデータを夫々
オーバーサンプリングするとともに、得られたｎ個のデ
ータどうしをコンボリューション演算により合成するこ
とによって、上記２つの離散データ間を埋める補間値を
デジタル的に求める。

【０１０７】図１３は、本実施形態で用いるデジタル基
本波形の説明図である。図１３に示すデジタル基本波形
は、オーバーサンプリングによるデータ補間を行う際に
使用する標本化関数の基本となるものである。このデジ
タル基本波形は、基準周波数の１クロック（ＣＫ０）毎
にデータ値を−１，１，８，８，１，−１と変化させて
作成したものである。

【０１０８】以下に、図１４を用いて、図１３のように
正規化されたデジタル基本波形に応じた離散的なデータ
値（−１，１，８，８，１，−１）／８から、ｎ倍のオ
ーバーサンプリングとコンボリューション演算によって
補間値を生成する場合を例にとって、本実施形態による
データ補間の原理を説明する。なお、図１４では、図面
の都合上４倍のオーバーサンプリングを行う例について
示しているが、図１２のオーバーサンプル回路９では、
実際には８倍のオーバーサンプリングを行っている。

【０１０９】図１４において、一番左の列に示される一
連の数値列は、元の離散データ値（−１，１，８，８，
１，−１）／８に対して４倍のオーバーサンプリングを
行った値である。また、一番左から右に向かって４列分
の数値列は、一番左の列に示される数値列を１つずつ下
方向にシフトしていったものである。図１４の列方向は
時間軸を示しており、数値列を下方向にシフトするとい
うことは、一番左の列に示される数値列を徐々に遅延さ
せていくことに対応する。

【０１１０】すなわち、左から２列目の数値列は、一番
左の列に示される数値列を４倍周波数のクロック４ＣＬ
Ｋの１／４位相分だけずらした数値列であることを示
す。また、左から３列目の数値列は、左から２列目に示
される数値列を４倍周波数のクロック４ＣＬＫの１／４
位相分だけずらした数値列、左から４列目の数値列は、
左から３列目に示される数値列を４倍周波数のクロック
４ＣＬＫの１／４位相分だけ更にずらした数値列である
ことを示す。

【０１１１】また、左から５列目の数値列は、１〜４列
目の各数値列を対応する行どうしで加算して４で割った
値である。この左から５列目までの処理により、４相の
コンボリューション演算を伴う４倍のオーバーサンプリ
ングがデジタル的に実行されることになる。

【０１１２】上記５列目から右に向かって４列分の数値
列（左から５〜８列の数値列）は、５列目に示される数
値列を１つずつ下方向にシフトしていったものである。
また、左から９列目の数値列は、５〜８列目の各数値列
を対応する行どうしで加算して４で割った値である。こ
の左から９列目までの処理により、４相のコンボリュー
ション演算を伴う４倍のオーバーサンプリングがデジタ
ル的に２回実行されることになる。

【０１１３】また、左から１０列目の数値列は、９列目
に示される数値列を１つ下方向にシフトしたものであ
る。また、左から１１列目（一番右の列）の数値列は、
９列目の数値列と１０列目の数値列とを対応する行どう
しで加算して２で割った値である。この一番右の数値列
が、目的の補間値ということになる。

【０１１４】この図１４の一番右の列に示される最終的
に得られた数値列をグラフ化したのが、図１５である。
図１５に示すような波形を有する関数は、全域において
１回微分可能であって、横軸に沿った標本位置ｔが１か
ら３３の間にあるときに０以外の有限な値を有し、それ
以外の領域では値が全て０となる有限台の関数である。
また、図１５の関数は、ｔ＝１７の標本点でのみ極大値
をとり、ｔ＝１，９，２５，３３の４つの標本点におい
て値が０になるという特徴を有する標本化関数であり、
滑らかな波形のデータを得るために必要なサンプル点は
全て通る。

【０１１５】このように、図１５に示す関数は、標本化
関数であって、全域において１回微分可能であり、しか
も標本位置ｔ＝１，３３において０に収束する有限台の
関数である。したがって、図１５の標本化関数を用いて
各離散データに基づく重ね合わせを行うことにより、離
散データ間の値を１回微分可能な関数を用いて補間する
ことが可能である。

【０１１６】データ補間処理に一般的に用いられる図９
のようなｓｉｎｃ関数は、ｔ＝±∞の標本点で０に収束
する関数であるため、補間値を正確に求めようとする
と、ｔ＝±∞までの各離散データに対応して補間位置で
のｓｉｎｃ関数の値を計算し、これを用いて畳み込み演
算を行う必要がある。これに対して、本実施形態で用い
る図１５の標本化関数は、ｔ＝１，３３の標本点で０に
収束するため、ｔ＝１〜３３の範囲内での離散データだ
けを考慮に入れればよい。

【０１１７】したがって、ある１つの補間値を求める場
合には、限られたｎ個の離散データの値のみを考慮すれ
ばよいことになり、処理量を大幅に削減することができ
る。しかも、ｔ＝１〜３３の範囲外の各離散データにつ
いては、本来考慮すべきであるが処理量や精度等を考慮
して無視しているというわけではなく、理論的に考慮す
る必要がないため、打ち切り誤差は発生しない。したが
って、本実施形態のデータ補間手法を用いれば、正確な
補間値を得ることができ、この正確な補間値を用いて音
声認識処理をすることで、認識率を向上させることがで
きる。

【０１１８】図１６は、図１２に示したオーバーサンプ
ル回路９の構成例を示すブロック図である。図１６に示
すように、本実施形態のオーバーサンプル回路９は、正
規化データ記憶部４１と、位相シフト部４２と、複数の
デジタル乗算器４３ａ〜４３ｄと、複数のデジタル加算
器４４ａ〜４４ｃとを備えて構成される。なお、図１６
中に示されるＰＬＬ回路１０は、図１２に示したのと同
じものである。

【０１１９】上記正規化データ記憶部４１は、図１４の
一番右の列に示したように正規化されたデータ列を４相
にずらして記憶している。なお、図１４では、図１３に
示したデジタル基本波形に対して４倍のオーバーサンプ
リングを行う例を示しているが、図１２のオーバーサン
プル回路９では８倍のオーバーサンプリングを実施して
いるので、この正規化データ記憶部４１には、デジタル
基本波形が８倍にオーバーサンプリングされてコンボリ
ューション演算により正規化されたデータ列が記憶され
る。この正規化データ記憶部４１に記憶された４相の正
規化データは、ＰＬＬ回路１０より供給されるクロック
ＣＫ０，ＣＫ１に従って読み出され、それぞれ４つのデ
ジタル乗算器４３ａ〜４３ｄの一方の入力端子に供給さ
れる。

【０１２０】また、位相シフト部４２は、Ａ／Ｄ変換器
２より入力される離散データの位相を４相にずらす位相
シフト処理を行う。この位相シフト部４２により生成さ
れた４相の離散データは、ＰＬＬ回路１０より供給され
るクロックＣＫ０，ＣＫ１に従って出力され、それぞれ
４つのデジタル乗算器４３ａ〜４３ｄの他方の入力端子
に供給される。

【０１２１】上記４つのデジタル乗算器４３ａ〜４３ｄ
は、上記正規化データ記憶部４１より出力される４相の
正規化データと、上記位相シフト部４２より出力される
４相の離散データとをそれぞれ乗算する。これらの後段
に接続された３つのデジタル加算器４４ａ〜４４ｃは、
上記４つのデジタル乗算器４３ａ〜４３ｄでの乗算結果
を全て加算し、その加算結果を図１２のデータ生成部３
に出力する。

【０１２２】この図１６に示す構成から明らかなよう
に、本実施形態では、図１４に示したようなコンボリュ
ーション演算により得られる一番右の列の正規化データ
をあらかじめＲＯＭ等の正規化データ記憶部４１に記憶
しておく。そして、この正規化データを入力される離散
データの値に応じた振幅に変調し、これにより得られた
データを４相のコンボリューション演算により合成して
出力するようにしている。

【０１２３】入力される離散データの振幅値を図１３に
示したデジタル基本波形に対して乗算し、それにより得
られたデータ値に対して図１４に示したようなコンボリ
ューション演算を音声認識時に行うようにしても良い
が、オーバーサンプル回路９を図１６のように構成した
場合には、実際の音声認識時に図１４のコンボリューシ
ョン演算そのものを行う必要がなく、認識処理を高速化
することができるというメリットを有する。なお、オー
バーサンプル回路９では８倍のオーバーサンプリングを
実施しているが、８倍には限定されない。例えば、２
倍、４倍などであっても良い。

【０１２４】以上詳しく説明したように、第２の実施形
態においては、音声認識装置において、入力される離散
的なデジタルデータに対してオーバーサンプリングとコ
ンボリューション演算とを行って滑らかに変化する連続
的なデータを生成し、得られたオーバーサンプルデータ
から離散的な振幅データ値とそれらの不定の時間間隔を
表すタイミングデータ値とを得るようにしている。

【０１２５】ここで、オーバーサンプリングとコンボリ
ューション演算を実行する際にデジタル基本波形から生
成される関数は、有限の標本位置で値が０に収束する有
限台の標本化関数であり、１回微分可能な関数である。
そのため、ある１つの補間値を求める場合には、限られ
た数の離散データの値のみを考慮すればよいことにな
り、処理量を大幅に削減することができる。しかも、打
ち切り誤差が生じないため、正確な補間値を得ることが
でき、この補間値を用いて音声認識処理をした場合に、
音声の認識率を向上させることができる。

【０１２６】なお、以上に説明した第１、第２の実施形
態による音声認識・音声合成の手法は、ハードウェア構
成、ＤＳＰ、ソフトウェアの何れによっても実現するこ
とが可能である。例えばソフトウェアによって実現する
場合、本実施形態の音声認識装置および音声合成装置
は、実際にはコンピュータのＣＰＵあるいはＭＰＵ、Ｒ
ＡＭ、ＲＯＭなどで構成されるものであり、ＲＡＭやＲ
ＯＭに記憶されたプログラムが動作することによって実
現できる。

【０１２７】したがって、コンピュータが上記本実施形
態の機能を果たすように動作させるプログラムを例えば
ＣＤ−ＲＯＭのような記録媒体に記録し、コンピュータ
に読み込ませることによって実現できるものである。上
記プログラムを記録する記録媒体としては、ＣＤ−ＲＯ
Ｍ以外に、フロッピー（登録商標）ディスク、ハードデ
ィスク、磁気テープ、光磁気ディスク、不揮発性メモリ
カード等を用いることができる。

【０１２８】また、コンピュータが供給されたプログラ
ムを実行することにより上述の実施形態の機能が実現さ
れるだけでなく、そのプログラムがコンピュータにおい
て稼働しているＯＳ（オペレーティングシステム）ある
いは他のアプリケーションソフト等と共同して上述の実
施形態の機能が実現される場合や、供給されたプログラ
ムの処理の全てあるいは一部がコンピュータの機能拡張
ボードや機能拡張ユニットにより行われて上述の実施形
態の機能が実現される場合も、かかるプログラムは本発
明の実施形態に含まれる。

【０１２９】なお、上記に説明した各実施形態は、何れ
も本発明を実施するにあたっての具体化の一例を示した
ものに過ぎず、これらによって本発明の技術的範囲が限
定的に解釈されてはならないものである。すなわち、本
発明はその精神、またはその主要な特徴から逸脱するこ
となく、様々な形で実施することができる。

【０１３０】

【発明の効果】以上詳しく説明したように、本発明によ
れば、音声信号上の所定の標本点における振幅データと
タイミングデータとを用いた今までにはない全く新しい
音声認識手法および音声合成手法を提供することがで
き、音声認識度の向上、合成音の高品質化および処理の
簡素化を図ることができる。

【図面の簡単な説明】

【図１】第１の実施形態による音声認識装置の構成例を
示すブロック図である。

【図２】本実施形態による音声認識の原理を説明するた
めの図である。

【図３】データ生成部の構成例を示すブロック図であ
る。

【図４】図３に示した微分器の構成例を示す図である。

【図５】２重微分を行うことによって標本点を検出する
ための構成例を示すブロック図である。

【図６】第１の実施形態による音声合成装置の構成例を
示すブロック図である。

【図７】本実施形態による音声合成の原理を説明するた
めの図である。

【図８】図７に示した時刻Ｔ１−Ｔ２の区間を取り出し
て本実施形態の補間原理を示した図である。

【図９】有限台の標本化関数の例を示す図である。

【図１０】音声合成のための補間動作の説明図である。

【図１１】データ補間処理の具体例である補間演算式に
ついて説明するための図である。

【図１２】第２の実施形態による音声認識装置の構成例
を示すブロック図である。

【図１３】第２の実施形態で用いるデジタル基本波形を
示す図である。

【図１４】第２の実施形態のオーバーサンプリングおよ
びコンボリューション演算の動作例を説明するための図
である。

【図１５】第２の実施形態のデジタル基本波形から生成
される関数を示す図である。

【図１６】図１２に示したオーバーサンプル回路の構成
例を示す図である。

【符号の説明】

１ＬＰＦ２Ａ／Ｄ変換器３データ生成部４相関演算部５データ登録部６データメモリ７データ照合部８モード指定部９オーバーサンプル回路１０ＰＬＬ回路１１テキスト解析部１２データ読出部１３データメモリ１４タイミングジェネレータ１５Ｄ型フリップフロップ１６補間処理部１７Ｄ／Ａ変換部１８ＬＰＦ１０１デジタルデータ波形１０２ａ〜１０２ｆ標本点３０１微分器３０２標本点検出部３０３タイミング生成部３０４振幅生成部

Claims

【特許請求の範囲】

【請求項１】入力音声信号を微分してその微分値が所
定の条件を満たす点を標本点として検出し、検出した各
標本点における離散的な振幅データと各標本点間の時間
間隔を表すタイミングデータとを得て、上記振幅データ
およびタイミングデータを用いて相関データを生成し、
この生成した相関データと、種々の音声についてあらか
じめ同様に生成して蓄積しておいた相関データとの照合
により入力音声を認識するようにしたことを特徴とする
音声認識方法。
【請求項２】上記入力音声信号をその微分絶対値が所
定値以下となる点の時間間隔で標本化するようにしたこ
とを特徴とする請求項１に記載の音声認識方法。
【請求項３】上記入力音声信号をその微分絶対値が極
小となる点の時間間隔で標本化するようにしたことを特
徴とする請求項１に記載の音声認識方法。
【請求項４】上記入力音声信号をその微分値の極性が
変化する点の時間間隔で標本化するようにしたことを特
徴とする請求項１に記載の音声認識方法。
【請求項５】上記相関データは、連続する標本点の振
幅データ同士の比率および連続する標本点間のタイミン
グデータ同士の比率であることを特徴とする請求項１〜
４の何れか１項に記載の音声認識方法。
【請求項６】上記相関データの下位数ビットを丸める
処理を行うことを特徴とする請求項１〜５の何れか１項
に記載の音声認識方法。
【請求項７】上記入力音声信号をオーバーサンプリン
グし、当該オーバーサンプリングされたデータをその微
分値が所定の条件を満たす点の時間間隔で標本化するよ
うにしたことを特徴とする請求項１〜６の何れか１項に
記載の音声認識方法。
【請求項８】上記入力音声信号をデジタル化して得ら
れるｎ個の離散データの値に応じた基本波形のデジタル
データをオーバーサンプリングと移動平均演算または畳
み込み演算とにより合成することによって上記離散デー
タに対するデジタルの補間値を求めた後、上記求めたデ
ジタルの補間値をその微分値が所定の条件を満たす点の
時間間隔で標本化するようにしたことを特徴とする請求
項７に記載の音声認識方法。
【請求項９】入力音声信号をＡ／Ｄ変換するＡ／Ｄ変
換手段と、上記Ａ／Ｄ変換手段より出力されるデジタルデータを微
分する微分手段と、上記微分手段により求められた微分値が所定の条件を満
たす点を標本点として検出し、検出した各標本点におけ
る振幅データおよび各標本点間の時間間隔を表すタイミ
ングデータを生成するデータ生成手段と、上記データ生成手段により生成された上記振幅データお
よびタイミングデータを用いて相関データを生成する相
関演算手段と、上記相関演算手段により生成された相関データと、種々
の音声についてあらかじめ同様に生成して記録媒体に蓄
積しておいた相関データとを照合して入力音声を認識す
るデータ照合手段とを備えたことを特徴とする音声認識
装置。
【請求項１０】上記データ生成手段は、上記Ａ／Ｄ変
換手段より出力されたデジタルデータをその微分絶対値
が所定値以下となる点の時間間隔で標本化することを特
徴とする請求項９に記載の音声認識装置。
【請求項１１】上記データ生成手段は、上記Ａ／Ｄ変
換手段より出力されたデジタルデータをその微分絶対値
が極小となる点の時間間隔で標本化することを特徴とす
る請求項９に記載の音声認識装置。
【請求項１２】上記データ生成手段は、上記Ａ／Ｄ変
換手段より出力されたデジタルデータをその微分値の極
性が変化する点の時間間隔で標本化することを特徴とす
る請求項９に記載の音声認識装置。
【請求項１３】上記相関演算手段は、上記相関データ
として、連続する標本点の振幅データ同士の比率および
連続する標本点間のタイミングデータ同士の比率を求め
ることを特徴とする請求項９〜１２の何れか１項に記載
の音声認識装置。
【請求項１４】上記相関演算手段は、上記相関データ
の下位数ビットを丸める処理を行うことを特徴とする請
求項９〜１３の何れか１項に記載の音声認識装置。
【請求項１５】上記Ａ／Ｄ変換手段より出力されたデ
ジタルデータに対して偶数倍周波数のクロックを用いて
オーバーサンプリングを行うオーバーサンプリング手段
を備え、上記データ生成手段は、上記オーバーサンプリングされ
たデータをその微分値が所定の条件を満たす点の時間間
隔で標本化することを特徴とする請求項９〜１４の何れ
か１項に記載の音声認識装置。
【請求項１６】上記オーバーサンプリング手段は、上
記Ａ／Ｄ変換手段より入力されるｎ個の離散データの値
に応じた基本波形のデジタルデータをオーバーサンプリ
ングと移動平均演算または畳み込み演算とにより合成す
ることによって上記離散データに対するデジタルの補間
値を求めることを特徴とする請求項１５に記載の音声認
識装置。
【請求項１７】音声以外のデータと、当該データに対
応する音声信号についてあらかじめ生成された、上記音
声信号の微分値が所定の条件を満たす標本点における振
幅データおよび各標本点間の時間間隔を表すタイミング
データの組とを互いに関連付けておき、所望のデータが
指定されたときに、その指定されたデータに関連付けら
れている上記振幅データおよびタイミングデータの組を
用いて、上記タイミングデータによって示される時間間
隔を有する上記振幅データの間を補間する補間データを
求めることによって音声を合成するようにしたことを特
徴とする音声合成方法。
【請求項１８】連続する２つの標本点における２つの
振幅データとその間のタイミングデータとから得られる
有限台の標本化関数を用いて、上記２つの振幅データ間
を補間する補間データを求めることを特徴とする請求項
１７に記載の音声合成方法。
【請求項１９】音声以外のデータに対応する音声信号
についてあらかじめ生成された、上記音声信号の微分値
が所定の条件を満たす標本点における振幅データおよび
各標本点間の時間間隔を表すタイミングデータの組を、
上記音声以外のデータと互いに関連付けて記憶した記憶
手段と、所望のデータが指定されたときに、その指定されたデー
タに関連付けて上記記憶手段に記憶されている上記振幅
データおよびタイミングデータの組を用いて、上記タイ
ミングデータによって示される時間間隔を有する上記振
幅データの間を補間する補間データを求める補間処理手
段と、上記補間処理手段により求められた補間データをＤ／Ａ
変換するＤ／Ａ変換手段とを備えることを特徴とする音
声合成装置。
【請求項２０】上記記憶手段から読み出された各標本
点間の時間間隔を表すタイミングデータに従って、各標
本点における振幅データを上記各標本点間の時間間隔ご
とに順次読み出すようにタイミングを制御するタイミン
グ制御手段を備え、上記補間処理手段は、上記タイミング制御手段の制御に
従って読み出された連続する２つの標本点における２つ
の振幅データおよびその間のタイミングデータを用い
て、上記２つの振幅データの間を補間する補間データを
求めることを特徴とする請求項１９に記載の音声合成装
置。
【請求項２１】上記補間処理手段は、上記連続する２
つの標本点における２つの振幅データとその間のタイミ
ングデータとから得られる有限台の標本化関数を用い
て、上記２つの振幅データ間を補間する補間データを求
めることを特徴とする請求項２０に記載の音声合成装
置。
【請求項２２】請求項１〜８の何れか１項に記載の音
声認識方法の処理手順をコンピュータに実行させるため
のプログラムを記録したことを特徴とするコンピュータ
読み取り可能な記録媒体。
【請求項２３】請求項９〜１６、１９〜２１の何れか
１項に記載の各手段としてコンピュータを機能させるた
めのプログラムを記録したことを特徴とするコンピュー
タ読み取り可能な記録媒体。
【請求項２４】請求項１７または１８に記載の音声合
成方法の処理手順をコンピュータに実行させるためのプ
ログラムを記録したことを特徴とするコンピュータ読み
取り可能な記録媒体。