JP2001042889A

JP2001042889A - 音声認識入力音声の音程正規化装置

Info

Publication number: JP2001042889A
Application number: JP2000146420A
Authority: JP
Inventors: Mikio Oda; 幹夫小田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-05-21
Filing date: 2000-05-18
Publication date: 2001-02-16

Abstract

(57)【要約】【課題】認識対象音声の音程を音声認識装置の標準音
声の音程に合わせて正規化する入力音声音程正規化装置
を提供することを目的とする。【解決手段】不特定話者が発声した入力音声（Ｓｖ
ｃ）を認識する音声認識装置（ＶＲＡｐ）に用いられて
当該入力音声（Ｓｖｕ）の音程を音声認識標準データ
（Ｐｓｆ）の音程と所定の関係（ＣＲ）に変換する入力
音声音程正規化装置（Ｔｒ）において、音程差判断器
（３、５、７、９；＃１００、＃２００、＃３００、＃
４００）は前記入力音声（Ｓｖｕ）と前記音声認識標準
データ（Ｐｓｆ）との音程差（ＣＲ）を判断し、音程
変換器（１１、３；＃５００）は前記音程差判断器
（３、５、７、９；＃１００、＃２００、＃３００、＃
４００）によって判断された音程差（ＣＲ）に基づい
て、前記入力音声（Ｓｖｃ）の音程が前記音声認識標準
データ（Ｐｓｆ）の音程と所定の関係（ＣＲ＝１）にな
るように、当該入力音声（Ｓｖｕ）の周波数を変換す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者の音声
を認識する音声認識装置において、低音の男性の声や、
高音の女性および子供の声にも幅広く音声認識処理が可
能な音声認識装置に関するものであり、さらに詳述すれ
ば、認識対象音声の音程を音声認識装置の標準音声の音
程に合わせて正規化する入力音声音程正規化装置に関す
る。

【０００２】

【従来の技術】音声認識技術は近年、デジタル信号処理
技術の向上、および処理に用いられるＬＳＩの高性能化
かつ低価格化などにより、民生機器に数多く導入されて
同機器の操作性向上に役立っている。音声認識装置の基
本原理は、入力された音声をデジタル音声信号に変換
し、そのデジタル音声信号をあらかじめ用意された音声
辞書に登録された標準音声データと照合して、入力され
た音声を認識するものである。そのため、標準音声デー
タと比較しやすいように音声認識対象である特定話者に
対して、特別な発声方法を要求したり、それら特定話者
の音声をあらかじめ音声認識装置に登録しておくなどの
対策がとられている。

【０００３】しかしながら、民生機器として音声認識装
置を用いる場合に、話者を特定すれば利便性が著しく殺
がれ、その商品価値が損なわれる。そのために、不特定
話者により発生された音声を音声入力として認識しなけ
ればならない。言うまでもなく、不特定話者による発声
は様々である。このように不特定話者による変化に富ん
だ発声に関して、音声認識精度を損なわせる音声認識阻
害要因は大きく分けて、発声速度と音声音程との二つで
ある。

【０００４】第１の音声認識阻害要因である発声速度に
関しては、例えば、早口の人など、話者によって話す速
度に差があることである。つまり、音声認識は入力され
る音声を、あらかじめ用意された音声辞書に登録された
標準速度の音声と比較することによって実現される。そ
のため、両者の発声速度の差が一定以上になると、正し
く比較できずに、音声認識も不可能になる。

【０００５】第２の音声認識要因である音声音程に関し
ては、男性の低音の音声、女性や子供による高音の音声
など、話者によってその音声の音程に差があることであ
る。この場合にも、あらかじめ用意された音声辞書に登
録された音声の音程と、不特定話者により発声された音
声の音程との差が一定以上になると、両音声を正しく比
較できずに、音声認識も不可能になる。

【０００６】図５に、上述の問題を解決するものとして
特開平９−３２５７９８号公報に提案されている音声認
識装置を示す。同図に示すように、音声認識装置ＶＲＡ
ｃは、音声入力部１１１、発声速度算出部１１２、発声
速度変換率決定部１１３、発声速度変換部１１４、およ
び音声認識部１１５を含む。音声入力部１１１は、不特
定話者によって発声された音声を取り込んだアナログ音
声信号をデジタル信号に変換Ａ／Ｄ変換して音声信号を
生成する。発声速度算出部１１２は、音声信号に基づい
て入力された不特定話者の音声の発声速度を算出する。
発声速度変換率決定部１１３は、発声速度算出部１１２
で算出された発声速度を基準速度と比較して、速度変換
率の決定を行なう。発声速度変換部１１４はその速度変
換率に基づいて発声速度を変換する。音声認識部１１５
は、声速度変換部１１４によって速度変換された入力音
声信号の音声認識を行う。

【０００７】次に、音声認識装置ＶＲＡｃの動作につい
て説明する。不特定話者により発声された音声は、音声
入力部１１１のマイクおよび増幅器を経由して取り込ま
れ、さらにＡ／Ｄコンバータにより、アナログ信号から
デジタル信号に変換される。発声速度算出部１１２は、
変換されたデジタルの音声信号から入力音声の一音を切
り出す。そして、発声速度算出部１１２は切り出された
一音の切り出し時間より、一音の発声速度を算出する。

【０００８】そこで、発声速度算出部１１２が一音の切
り出しに要する所要時間（以降、「１音切出時間」と称
す）をＴｓとし、不特定話者が一音の発声に要する基準
時間（以降、「１音発声基準時間」と称す）をＴｈとす
る。そして、発声速度変換率決定部１１３において、１
音切出時間Ｔｓおよび一音発声基準時間Ｔｈに基づい
て、１音発声速度１／Ｔｓと基準一音発声速度１／Ｔｈ
とを比較し、速度変換率αを決定する。速度変換率αは
次式（１）によって算出できる。 α＝Ｔｓ／Ｔｈ・・・・（１）

【０００９】上記１式から明らかなように、１音切出時
間Ｔｓが１音発声基準時間Ｔｈより短い、つまり入力音
声の発声速度が音声認識装置ＶＲＡｃによって正確に認
識できる発声速度に比べて早い場合には、速度変換率α
は１より小さくなる。この場合、入力音声の発声速度を
遅くしてやる必要がある。逆に１音切出時間Ｔｓが１音
発声基準時間Ｔｈより長い、つまり入力音声の発声速度
が音声認識装置ＶＲＡｃによって正確に認識できる発声
速度に比べて遅い場合には、速度変換率αは１より大き
い。この場合、入力音声の発声速度を早くしてやる必要
がある。

【００１０】音声認識装置ＶＲＡｃにおいては、速度変
換率αに基づいて発声速度変換部１１４が発声速度が一
定になるように入力音声信号の速度変換して速度変換入
力音声信号を生成する。音声認識部１１５は、速度変換
入力音声信号に対して音声認識処理を施して得られた認
識結果を出力する。

【００１１】上述の速度変換は最近のデジタル技術を使
用することで容易に実現できる。例えば、入力音声の発
声速度を遅くする場合は、入力音声の一音と相関性を有
する母音波形を音声信号に複数個追加して音声信号の発
声時間を延ばせば良い。また、入力音声の発声速度を速
くする場合は、入力音声の一音の母音波形を複数回に渡
って音声信号から間引けば良い。

【００１２】この処理は、話速変換と呼ばれる入力音声
の音程を変化させることなく話速を変換させる技術であ
る。すなわち、音声認識において、発声速度に個人差が
ある不特定話者のうち、特に早口でしゃべる話者による
発声された音声に対して話速変換技術を利用して、早口
の話者により発声された音声の認識率向上を図るもので
ある。

【００１３】

【発明が解決しようとする課題】上述の従来の音声認識
装置ＶＲＡｃにおいては、基準一音発声速度１／Ｔｈに
比べて、発声速度の異なる不特定話者による音声に対す
る認識率を向上させること、つまり第１の音声認識阻害
要因に対して効果的である。しかしながら、基準音声に
対して高低差のある発声音声、つまり第２の音声認識阻
害要因である高低差のある発声音声に対しては、認識率
の向上は期待できない。

【００１４】詳述すれば、音声認識装置ＶＲＡｃは、男
性の低い声、女性、および子供の高い声などの幅広い周
波数レンジに対応できるが、高い音声認識率は実現でき
ない。また、早口の場合は、ゆっくり話してもらうなど
注意をうながせば済む問題であるが、話者に音色を変え
て発声することを望むのは困難である。これは、話者の
喉の形状および大きさによって、話者の基準発声周波数
が決定される。つまり、話者の喉の形状を変えることは
できないので、その発声音色も変えることはできない。

【００１５】そのため、音声認識装置ＶＲＡｃにおいて
は、不特定話者間の発声における音色差に対しても音声
認識率の向上を図るには、男性の声、女性、および子供
の声など音声認識に必要な異なる音程の標準音声データ
を複数持ち、話者の音色に応じて、参照する標準音声デ
ータを切り換えなければならないという課題を有してい
る。

【００１６】

【課題を解決するための手段および発明の効果】第１の
発明は、音声認識標準データに基づいて、不特定話者が
発声した入力音声を認識する音声認識装置に用いられ、
入力音声の音程を音声認識標準データの音程と所定の関
係に変換する入力音声音程正規化装置であって、入力音
声と音声認識標準データとの音程差を判断する音程差判
断器と、音程差判断器によって判断された音程差に基づ
いて、入力音声の音程が音声認識標準データの音程と所
定の関係になるように、入力音声の周波数を変換する音
程変換器とを備える。

【００１７】上述のように、第１の発明においては、入
力音声の音程が音声認識標準データの音程に合わせて調
整されるので、音声認識率を向上できる。

【００１８】第２の発明は、第１の発明において、入力
音声を一時記憶するメモリと、入力音声の一繋がりをメ
モリから読み出して認識対象音声信号を生成する読出制
御器とをさらに備え、音程差判断器は、認識対象音声信
号の周波数成分を分析して周波数成分信号を生成する周
波数成分分析器と、周波数成分信号に基づいて、認識対
象音声信号の基本周波数を求めるとともに、音声認識標
準データと基本周波数の音程差を判定して音程差信号を
生成する音程判定器とを備える。

【００１９】上述のように、第２の発明においては、入
力音声が１音であっても良いし、数音から成る単語であ
っても良い。

【００２０】第３の発明は、第２の発明において、音程
判定器は認識対象音声信号の第１ホルマントを基本周波
数として求め、認識対象音声信号の第１ホルマントを音
声認識標準データの第１ホルマントと比較して、音程差
を判定することにより、認識対象音声が１音および複数
音の何れであっても、音程差を安定して判定できること
を特徴とする。

【００２１】上述のように、第３の発明においては、入
力音声が１音あるいは数音から成る単語であっても、入
力音声単位で周波数特性の安定した第１ホルマントで認
識標準特性データとの音程比較を行うので、入力される
音声の一音切り出し等の処理が不要となり処理が迅速か
つ装置構成を簡略にできる。

【００２２】第４の発明は、第３の発明において、音程
変換器は、音程差信号に基づいて認識対象音声信号の周
波数が変換されるように、メモリの読み出すタイミング
クロックの周波数を決定して読出クロック信号を生成す
る読出クロック制御器とを備え、メモリは読出クロック
信号に基づいて、音声認識標準データの音程と所定の関
係の音程を有するように認識対象音声信号を出力するこ
とを特徴とする。

【００２３】上述のように、第４の発明においては、メ
モリの読み出しタイミングを変えることによって認識対
象音声信号の波形特徴を損なうことなくその音程を変え
ることができるので、補間や間引き処理が不要である。

【００２４】第５の発明は、第４の発明における入力音
声音程正規化装置を備える音声認識装置。

【００２５】第６の発明は、音声認識標準データに基づ
いて、不特定話者が発声した入力音声を認識する音声認
識装置であって、入力音声の音程を音声認識標準データ
の音程と所定の関係に変換する入力音声音程正規化装置
と、音程を変換された入力音声を音声認識標準データと
比較して、入力音声と合致する音声認識標準データを示
す認識信号を生成する音声分析器とを備える。

【００２６】上述のように、第６の発明においては、入
力音声の音程が音声認識標準データの音程に合わせて調
整されるので、音声認識率を向上できる。

【００２７】第７の発明は、第６の発明において、入力
音声を一時記憶するメモリと、入力音声の一繋がりをメ
モリから読み出して認識対象音声信号を生成する読出制
御器とをさらに備え、音程差判断器は、認識対象音声信
号の周波数成分を分析して周波数成分信号を生成する周
波数成分分析器と、周波数成分信号に基づいて、認識対
象音声信号の基本周波数を求めるとともに、音声認識標
準データと基本周波数の音程差を判定して音程差信号を
生成する音程判定器とを備える。

【００２８】上述のように、第７の発明においては、入
力音声が１音であっても良いし、数音から成る単語であ
っても良い。

【００２９】第８の発明は、第７の発明において、音程
判定器は認識対象音声信号の第１ホルマントを基本周波
数として求め、認識対象音声信号の第１ホルマントを音
声認識標準データの第１ホルマントと比較して、音程差
を判定することにより、認識対象音声が１音および複数
音の何れであっても、音程差を安定して判定できること
を特徴とする。

【００３０】上述のように、第８の発明においては、入
力音声が１音あるいは数音から成る単語であっても、入
力音声単位で周波数特性の安定した第１ホルマントで認
識標準特性データとの音程比較を行うので、入力される
音声の一音切り出し等の処理が不要となり処理が迅速か
つ装置構成を簡略にできる。

【００３１】第９の発明は、第８の発明において、音程
変換器は、音程差信号に基づいて認識対象音声信号の周
波数が変換されるように、メモリの読み出すタイミング
クロックの周波数を決定して読出クロック信号を生成す
る読出クロック制御器とを備え、メモリは読出クロック
信号に基づいて、音声認識標準データの音程と所定の関
係の音程を有するように認識対象音声信号を出力するこ
とを特徴とする。上述のように、第４の発明において
は、メモリの読み出しタイミングを変えることによって
認識対象音声信号の波形特徴を損なうことなくその音程
を変えることができるので、補間や間引き処理が不要で
ある。

【００３２】

【発明の実施の形態】図１を参照して、本発明の実施形
態にかかる入力音声音程正規化装置を組み込んだ音声認
識装置について説明する。音声認識装置ＶＲＡｐは、Ａ
／Ｄコンバータ１、入力音声正規化装置Ｔｒ、標準音声
データ格納器１３、音声分析器１５、および制御器１７
を含む。標準音声データ格納器１３は、音声認識の基準
となる音声周波数成分パターンＰｓｆを格納し、所定の
タイミングで格納している音声周波数パターンＰｓｆを
出力する。なお、不特定話者によって発声された音声は
マイクおよび増幅器（図示せず）を経由してアナログ音
声信号Ｓｖａとして音声認識装置ＶＲＡｐに入力され
る。

【００３３】制御器１７は、音声認識装置ＶＲＡｐの他
の構成要素１、Ｔｒ、１３、および１５から出力され
る、それらの動作状態を示す動作状態信号Ｓｓに基づい
てそれらの構成要素１、Ｔｒ、１３、および１５の動作
を制御する制御信号Ｓｃを生成して、音声認識装置ＶＲ
Ａｐ全体の動作を制御する。なお、動作状態信号Ｓｓ、
動作状態信号Ｓｃ、および制御器１７について公知の技
術であるので、説明の簡便化のために特に必要のない限
りは言及しない。

【００３４】Ａ／Ｄコンバータ１は、入力されたアナロ
グ音声信号ＳｖａにＡ／Ｄ変換処理を施してデジタル音
声信号Ｓｖｄを生成して、入力音声正規化装置Ｔｒに入
力する。入力音声正規化装置Ｔｒは、入力されたデジタ
ル音声信号Ｓｖｄに基づいて、音声認識装置ＶＲＡｐの
標準音程に合わせて音程変換された音程正規化デジタル
音声信号Ｓｖｃを生成して、音声分析器１５に出力す
る。音声分析器１５は、標準音声データ格納器１３から
読み出された音声周波数パターンＰｓｆに基づいて、入
力音声正規化装置Ｔｒから音程正規化デジタル音声信号
Ｓｖｃを分析して、入力音声と合致する音声認識標準デ
ータを示す認識信号Ｓｒｃを出力する。

【００３５】なお、図１に示すように、入力音声正規化
装置Ｔｒは、メモリ３、読出制御器５、周波数成分分析
器７、音程判定器９、および読出クロック制御器１１を
含む。メモリ３は、Ａ／Ｄコンバータ１から出力される
デジタル音声信号Ｓｖｄを一時的に保存する。読出制御
器５は、メモリ３によるデジタル音声信号Ｓｖｄの保存
を監視するとともに読出制御信号Ｓｒｃを生成して、保
存されたデジタル音声信号Ｓｖｄのうちで独立した発声
に対応するものをデジタル音声信号ユニットＳｖｕとし
て読み出すようにメモリ３を制御する。

【００３６】周波数成分分析器７は、メモリ３から出力
されるデジタル音声信号ユニットＳｖｕに高速フーリエ
変換処理を施して、周波数スペクトル分析を行う。周波
数成分分析器７は、デジタル音声信号ユニットＳｖｕの
周波数スペクトル分析結果に基づいて、周波数成分信号
Ｓｆｃを生成する。音程判定器９は、周波数成分分析器
７から出力される周波数成分信号Ｓｆｃの第１ホルマン
トを抽出し、あらかじめ音程判定器９内に格納されてい
る標準音声（標準音声データ格納器１３）の第１ホルマ
ントに基づいて、入力音声（Ｓｖａ、Ｓｖｄ、Ｓｖｕ）
の音程と該標準音声の音程差を求める。求められた音程
差に基づいて、音程判定器９はさらに入力音声（Ｓｖ
ｄ、Ｓｖａ、Ｓｖｕ）の音程をどの程度変換すれば標準
音程に合わせることができるかを示す音程変換率信号Ｓ
ｃｒを生成する。

【００３７】読出クロック制御器１１は、音程判定器９
から出力される音程変換率信号Ｓｃｒに基づいて、メモ
リ３に対する読み出しクロック周波数を制御して読出ク
ロックＳｃｃを生成する。メモリ３は、読出クロックＳ
ｃｃに規定されるタイミングで、保存されているデジタ
ル音声信号Ｓｖｄを読み出すことによって、デジタル音
声信号Ｓｖｄの音程が標準音声の音程に合わせて調整さ
れた音程正規化デジタル音声信号Ｓｖｃを出力する。つ
まり、音程正規化デジタル音声信号Ｓｖｃは基準音声周
波数成分パターンＰｓｆと所定の音程関係を有する。こ
の所定の音程関係とは、必ずしも同一を意味するもので
なく、音声認識装置ＶＲＡｐ（特に音声分析器１５）の
性能によって自ずと決まる許容範囲が認められることは
言うまでもない。

【００３８】音声分析器１５は、メモリ３から入力され
る音程正規化デジタル音声信号Ｓｖｃを分析して、標準
音声データ格納器１３から読み出された基準音声周波数
成分パターンＰｓｆで合致するものを示す認識信号Ｓｒ
ｃを出力する。

【００３９】次に、図２および図３を参照して、音声認
識装置ＶＲＡｐの動作の基本原理について説明する。図
２に、周波数成分分析器７によるデジタル音声信号Ｓｖ
ｄに高速フーリエ変換を施した結果得られる、周波数ス
ペクトルの例を示す。同図において、横軸は周波数ｆを
示し、縦軸は強度Ａを示している。なお、一点鎖線Ｌ１
はデジタル音声信号Ｓｖｄが男性により発声された音声
の代表的な音声周波数スペクトル例を示し、破線Ｌ２は
デジタル音声信号Ｓｖｄが女性あるいは子供により発声
された音声の代表的な音声周波数スペクトル例を示して
いる。

【００４０】そして実線Ｌｓは音声認識用の標準音声デ
ータとして標準音声データ格納器１３に格納されてい
る、音声周波数スペクトル例を示している。一般的に、
同じ音声（言葉）でも、男性の場合は一点鎖線Ｌ１に示
すように標準音声に比べて低周波数領域側に周波数スペ
クトルが現れ、女性あるいは子供の場合は破線Ｌ２に示
すように、標準音声に比べて高周波数領域側に周波数ス
ペクトルが現れる。

【００４１】このような周波数成分のそれぞれの基本周
波数である第１ホルマント周波数をｆ１、ｆ２、および
ｆｓとすると、これらの基本周波数は話者に対して概ね
一定である。ここで述べる第１ホルマント周波数につい
て簡単に説明する。音声波形を時間領域から周波数領域
に変換すると、通常５ｋＨｚ以下に母音の識別に大きな
役割を占めるホルマントと呼ばれる４〜５個程度のピー
クが観測される。ホルマントは周波数の低い方から第
１、第２、第３、・・・ホルマントと名付けられる。そ
して、同一の話者により発声された音声の第１ホルマン
トは、一音であっても、複数の音から構成される句であ
っても概ね一定である。

【００４２】これは、上述の如く話者の喉の形状および
大きさによって、話者の声の基準の発声周波数が決定さ
れることと同じ理由による。つまり、上述のような不特
定話者により発声された音声の第１ホルマント周波数と
標準音声データの第１ホルマント周波数スペクトルの差
は、上述の性差や年齢差、さらに発声した言葉の内容に
限らず話者個人に対して実質上一定である。つまり、発
声した音声が１音だけであっても、数音から成る単語や
句のような音声列であっても、その音声列の第１ホルマ
ントは話者個人に対して一定である。

【００４３】この事実に基づいて、本発明においては周
波数成分信号Ｓｆｃに基づいて、音程判定器９は不特定
話者により発声された音声の第１ホルマント周波数を求
めて不特定話者音声の基本周波数ｆｉ（以降、「入力音
声基本周波数ｆｉ」と称す）を求める。そして、音程判
定器９において、入力音声基本周波数ｆｉを標準音声デ
ータの基本周波数ｆｓ（以降、「標準音声基本周波数ｆ
ｓ」と称す）と比較して、入力音声基本周波数ｆｉの標
準音声基本周波数ｆｓに対する音程比ＣＲを、以下に示
す式（２）に従って算出される。ＣＲ＝ｆｓ／ｆｉ・・・・（２）

【００４４】上述の如く、第１ホルマント周波数は、音
響的には、話者の喉の形状（長さ、太さ）によって一義
的に決まる。つまり、男性は喉が長く太いので、その音
声の基本周波数ｆｍは標準音声の基本周波数ｆｓより低
い。結果、音程比ＣＲは１より大きくなる。一方、高い
女性や子供は喉が短く細いので、その基本周波数ｆｃは
標準の音声の基本周波数ｆｓより高い。結果、音程比Ｃ
Ｒは１より小さくなる。このような一般的な傾向ととも
に、話者毎に音程比ＣＲは固有である。さらに、周波数
成分分析器７は音程比ＣＲの値を示す音程変換率信号Ｓ
ｃｒを生成する。

【００４５】読出クロック制御器１１は、音程判定器９
から出力される音程変換率信号Ｓｃｒに基づいて、デジ
タル音声信号ＳｖｄのサンプリングタイミングのＣＲ倍
のタイミングでメモリ３からデジタル音声信号Ｓｖｄを
読み出すことで、音程正規化デジタル音声信号Ｓｖｃを
生成している。このような目的のために、メモリ３は一
般にリングメモリと呼ばれる循環メモリで構成される。

【００４６】音程比ＣＲが１より大きい、つまり入力音
声（Ｓｖｄ）の音程が低い場合は、サンプリングクロッ
クより早いタイミングで、メモリ３からデジタル音声信
号Ｓｖｄを読み出して音程正規化デジタル音声信号Ｓｖ
ｃを生成する。一方、音程比ＣＲが１より小さい、つま
り入力音声（Ｓｖｄ）の音程が高い場合は、サンプリン
グクロックより遅いタイミングで、デジタル音声信号Ｓ
ｖｄを読み出して音程正規化デジタル音声信号Ｓｖｃを
生成する。

【００４７】図３を参照して、音程変換器９における音
程変換処理について、さらに説明する。同図において横
軸は時間ｔを示し、縦軸は音声の強度Ａを示す。波形Ｗ
Ｓは標準音声データ格納器１３に格納されている音声波
形の時間変化例を示す。波形ＷＬは標準音声データに比
べて音程の低い音声波形（例えば男性の音声）を示し、
波形ＷＨは標準音声データに比べて音程の高い音声波形
（例えば女性や子供の音声）を示す。同図において、波
形ＷＳ、波形ＷＬ、および波形ＷＨの１周期を、それぞ
れＰＬ、ＰＳ、およびＰＨと表している。周期ＰＬおよ
びＰＨは上述の入力音声基本周波数ｆｉの逆数に相当
し、周期ＰＳは標準音声基本周波数ｆｓの逆数に相当す
る。

【００４８】波形ＷＬを波形ＷＳに合わせて音程変換す
るには、入力音声波形をＡ／Ｄ変換する時のサンプリン
グクロックより、速い（ＰＬ／ＰＳ倍）読み出しクロッ
クで読み出せば実現できる。また、波形ＷＨを波形ＷＳ
に合わせて音程変換するには、入力音声波形をＡ／Ｄ変
換する時のサンプリングクロックより、遅い（ＰＨ／Ｐ
Ｓ倍）読み出しクロックで読み出せば実現できる。つま
り、読み出しクロックは、上式（２）で規定された音程
比ＣＲに基づいて、サンプリングクロックを変換するこ
とで得られる。

【００４９】このようにして、デジタル音声信号Ｓｖｄ
の音程を標準音声の音程に合わせて変換した音程正規化
デジタル音声信号Ｓｖｃが得られる。しかしながら、音
程を上げる場合は音声波形の時間軸が短くなり、音程を
下がる場合は音声波形の時間軸が長くなるので、話速度
が変化してしまう。これを解決するために、音程を上げ
る場合には母音波形を追加し、音程を下げる場合には母
音波形を間引くことにより話速度を調整できるが、この
技術は公知であるとともに、本発明の目的とするところ
ではないので、その説明および図示を省く。さらに、読
み出しクロックの周波数変換も、従来から知られている
マスタークロックの分周クロックを用いて容易に作成で
きる。

【００５０】次に、図４に示すフローチャートを参照し
て、音声認識装置ＶＲＡｐに組み込まれた入力音声正規
化装置Ｔｒの動作について説明する。音声認識装置ＶＲ
Ａｐが駆動されて、その音声認識動作が開始される。ス
テップＳ２において、マイク等の装置を通して不特定話
者により発声された音声がアナログ音声信号Ｓｖａとし
てＡ／Ｄコンバータ１に入力される。そして、処理は次
のステップＳ４に進む。

【００５１】ステップＳ４において、Ａ／Ｄコンバータ
１は入力されたアナログ音声信号Ｓｖａを順次Ａ／Ｄ変
換して、デジタル音声信号Ｓｖｄを生成してメモリ３に
出力する。なお、上述のステップＳ２およびＳ４は、話
者により発声された音声の入力受付サブルーチン＃１０
０を形成する。

【００５２】ステップＳ６において、読出制御器５はメ
モリ３の入力状態を監視して、話者による音声入力（ア
ナログ音声信号Ｓｖａ）が終了したか否かを判断する。
この判断は、一例として、アナログ音声信号Ｓｖａの入
力中断時間が所定の閾値に達しているか否かをもってな
される。その他、話者が入力終了の旨を適当な手段を用
いて音声認識装置ＶＲＡｐまたは入力音声正規化装置Ｔ
ｒに指示するように構成しても良い。

【００５３】話者の発声が継続している場合はＮｏと判
断されて、処理は上述のステップＳ４に戻り、デジタル
音声信号Ｓｖｄの生成およびメモリ３への入力が継続さ
れる。そして、話者による一音または数音から成る独立
した音声列のアナログ音声信号Ｓｖａの入力が終了した
時点でＹｅｓと判断されて、処理は次のステップＳ８に
進む。

【００５４】ステップＳ８において、読出制御器５は、
メモリ３に記憶されているデジタル音声信号Ｓｖｄから
独立した音声列に対応するデジタル音声信号ユニットＳ
ｖｕを読み出して周波数成分分析器７に出力させる。デ
ジタル音声信号ユニットＳｖｕは、音声認識装置ＶＲＡ
ｐによる音声認識対象である。そして、処理は次のステ
ップＳ１０に進む。なお、上述のステップＳ６およびＳ
８は、話者により発声された音声のうち、認識対象とな
る音声を取り出す認識対象音声抽出サブルーチン＃２０
０を形成する。

【００５５】ステップＳ１０において、周波数成分分析
器７はメモリ３から入力されるデジタル音声信号ユニッ
トＳｖｕに高速フーリエ変換処理を施して、デジタル音
声信号ユニットＳｖｕの周波数スペクトル（図２）の分
析を行う。そして、処理は次のステップＳ１２に進む。

【００５６】ステップＳ１２において、周波数成分分析
器７は、図２を参照して説明したように、周波数成分信
号Ｓｆｃを生成する。そして、処理は次のステップＳ１
４に進む。

【００５７】ステップＳ１４において、周波数成分分析
器７は生成した周波数成分信号Ｓｆｃを音程判定器９に
出力する。そして、処理は次のステップＳ１６に進む。
なお、上述のステップＳ１０、Ｓ１２、およびＳ１４
は、デジタル音声信号ユニットＳｖｕの周波数スペクト
ル分析サブルーチン＃３００を形成する。

【００５８】ステップＳ１６において、音程判定器９は
周波数成分分析器７から入力される周波数成分信号Ｓｆ
ｃに基づいて、入力された音声（デジタル音声信号ユニ
ットＳｖｕ）の基本周波数である第１ホルマントを抽出
する。そして、処理は次のステップＳ１８に進む。

【００５９】ステップＳ１８において、音程判定器９は
ステップＳ１６で求められた第１ホルマントを、標準音
声データ格納器１３に格納されている標準音声データの
第１ホルマントと比較して、上記（２）式に従って、音
程比ＣＲを算出する。そして、処理は次のステップＳ２
０に進む。

【００６０】ステップＳ２０においては、音程判定器９
は音程比ＣＲを表す音程変換率信号Ｓｃｒを生成して、
読出クロック制御器１１に出力する。そして、処理は次
のステップＳ２２に進む。なお、上述のステップＳ１
６、Ｓ１８、およびＳ２０は、標準音声に対する入力音
声の音程の高低を判定する音程判定サブルーチン＃４０
０を形成する。

【００６１】ステップＳ２２において、読出クロック制
御器１１は音程判定器９から出力される音程変換率信号
Ｓｃｒに基づいて、メモリ３の読み出しタイミングを決
める読出クロックＳｃｃを生成する。そして、処理は次
のステップＳ２４に進む。

【００６２】ステップＳ２４において、読出クロックＳ
ｃｃに基づいて、メモリ３から音程正規化デジタル音声
信号Ｓｖｃが読み出される。なお、上述のステップＳ２
２およびＳ２４は、入力音声の音程正規化サブルーチン
＃５００を形成する。

【００６３】上述の如くサブルーチン＃１００、＃２０
０、＃３００、＃４００、および＃５００の処理を経て
生成された音程正規化デジタル音声信号Ｓｖｃは、音声
分析器１５によって、標準音声データ格納器１３に格納
されている標準音声データと照合されて認識処理を受け
る。音声分析器１５はさらに、認識結果を示す認識信号
Ｓｒｃを生成して出力する。

【００６４】音程判定サブルーチン＃４００（Ｓ１６）
における基本周波数（第１ホルマント）検出は、一音だ
けでも求まるが、発声単語全体の平均値をとっても良
い。これは、上述したように、話者により発声された音
声は１音であっても、複数音から成る音声であってもそ
の第１ホルマントは話者毎に概ね一定であるからであ
る。

【００６５】さらに、音程比ＣＲは厳しく求める必要は
なく、音程変換で通常使用される１００¢（セント）単
位で近似しても十分に音程変換の効果がある。音声分析
器１５は、このようにして音程変換された音声デジタル
信号（音程正規化デジタル音声信号Ｓｖｃ）を参照する
標準音声データ格納器１３に格納されている音声認識の
音声周波数成分パターンと入力音声周波数成分パターン
との一致度を算出し、音声認識分析する。

【００６６】このように不特定話者により発声された入
力音声を、あらかじめ、格納された標準音声データの音
程に音程変換することにより、標準音声データを複数持
つ必要がなく、不特定話者の幅広い周波数レンジにも対
応でき、音声認識率の向上ができる。なお、入力音声
（デジタル音声信号Ｓｖｄ）の音程を標準音声データの
音程に合わせて音程変換する代わりに、標準音声データ
の音程を入力音声（デジタル音声信号Ｓｖｄ）の音程に
合わせて音程変換しても良い。

【００６７】以上のように、本発明の音声認識装置は、
入力された音声信号の周波数成分を分析し、入力音声を
音声認識用の標準音声データに音程変換することで、話
者の音色差による音声認識率の向上を図り、しかも標準
音声データを複数持つ必要がなく、メモリ容量を低減で
きる。

【図面の簡単な説明】

【図１】本発明の実施の形態にかかる入力音声正規化装
置を組み込んだ音声認識装置の構成を示すブロック図で
ある。

【図２】異なる音程を有する音声の周波数スペクトルを
示す図である。

【図３】音声波形の時間変化例およびそれらの間で行わ
れる音程変換方法の説明図である。

【図４】図１に示した入力音声正規化装置の動作を示す
フローチャートである。

【図５】従来の音声認識装置の構成を示すブロック図で
ある。

【符号の説明】

ＶＲＡｐ音声認識装置１Ａ／Ｄコンバータ１３標準音声データ格納器１５音声分析器Ｔｒ入力音声正規化装置３メモリ５読出制御器７周波数成分分析器９音程判定器１１読出クロック制御器ＶＲＡｃ音声認識装置１１１音声入力部１１２発声速度算出部１１３発声速度変換率決定部１１４発声速度変換部１１５音声認識部

Claims

【特許請求の範囲】

【請求項１】音声認識標準データに基づいて、不特定
話者が発声した入力音声を認識する音声認識装置に用い
られ、当該入力音声の音程を当該音声認識標準データの
音程と所定の関係に変換する入力音声音程正規化装置で
あって、前記入力音声と前記音声認識標準データとの音程差を判
断する音程差判断手段と、前記音程差判断手段によって判断された音程差に基づい
て、前記入力音声の音程が前記音声認識標準データの音
程と所定の関係になるように、当該入力音声の周波数を
変換する音程変換手段とを備える入力音声音程正規化装
置。
【請求項２】前記入力音声を一時記憶するメモリ手段
と、前記入力音声の一繋がりを前記メモリ手段から読み出し
て認識対象音声信号を生成する読出制御手段とをさらに
備え、前記音程差判断手段は、前記認識対象音声信号の周波数成分を分析して周波数成
分信号を生成する周波数成分分析手段と、前記周波数成分信号に基づいて、前記認識対象音声信号
の基本周波数を求めるとともに、前記音声認識標準デー
タと当該基本周波数の音程差を判定して音程差信号を生
成する音程判定手段とを備える請求項１に記載の入力音
声音程正規化装置。
【請求項３】前記音程判定手段は前記認識対象音声信
号の第１ホルマントを基本周波数として求め、当該認識
対象音声信号の第１ホルマントを前記音声認識標準デー
タの第１ホルマントと比較して、前記音程差を判定する
ことにより、前記認識対象音声が１音および複数音の何
れであっても、音程差を安定して判定できることを特徴
とする請求項２に記載の入力音声音程正規化装置。
【請求項４】前記音程変換手段は、前記音程差信号に基づいて前記認識対象音声信号の周波
数が変換されるように、前記メモリの読み出すタイミン
グクロックの周波数を決定して読出クロック信号を生成
する読出クロック制御手段とを備え、前記メモリは前記読出クロック信号に基づいて、前記音
声認識標準データの音程と所定の関係の音程を有するよ
うに前記認識対象音声信号を出力することを特徴とする
請求項３に記載の入力音声音程正規化装置。
【請求項５】請求項４に記載の入力音声音程正規化装
置を備える音声認識装置。
【請求項６】音声認識標準データに基づいて、不特定
話者が発声した入力音声を認識する音声認識装置であっ
て、当該入力音声の音程を当該音声認識標準データの音程と
所定の関係に変換する入力音声音程正規化装置と、前記音程を変換された入力音声を前記音声認識標準デー
タと比較して、当該入力音声と合致する当該音声認識標
準データを示す認識信号を生成する音声分析手段とを備
える音声認識装置。
【請求項７】前記入力音声を一時記憶するメモリ手段
と、前記入力音声の一繋がりを前記メモリ手段から読み出し
て認識対象音声信号を生成する読出制御手段とをさらに
備え、前記音程差判断手段は、前記認識対象音声信号の周波数成分を分析して周波数成
分信号を生成する周波数成分分析手段と、前記周波数成分信号に基づいて、前記認識対象音声信号
の基本周波数を求めるとともに、前記音声認識標準デー
タと当該基本周波数の音程差を判定して音程差信号を生
成する音程判定手段とを備える請求項６に記載の音声認
識装置。
【請求項８】前記音程判定手段は前記認識対象音声信
号の第１ホルマントを基本周波数として求め、当該認識
対象音声信号の第１ホルマントを前記音声認識標準デー
タの第１ホルマントと比較して、前記音程差を判定する
ことにより、前記認識対象音声が１音および複数音の何
れであっても、音程差を安定して判定できることを特徴
とする請求項７に記載の音声認識装置。
【請求項９】前記音程変換手段は、前記音程差信号に基づいて前記認識対象音声信号の周波
数が変換されるように、前記メモリの読み出すタイミン
グクロックの周波数を決定して読出クロック信号を生成
する読出クロック制御手段とを備え、前記メモリは前記読出クロック信号に基づいて、前記音
声認識標準データの音程と所定の関係の音程を有するよ
うに前記認識対象音声信号を出力することを特徴とする
請求項８に記載の音声認識装置。