JPH0215080B2

JPH0215080B2 -

Info

Publication number: JPH0215080B2
Application number: JP56073840A
Authority: JP
Inventors: Noboru Sugamura
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1981-05-15
Filing date: 1981-05-15
Publication date: 1990-04-10
Also published as: JPS57188100A

Description

【発明の詳細な説明】この発明は音声入力を認識すると共に、音声を
合成する音声認識合成方式に関する。

音声入力装置において、音声入力を認識しその
認識された音声を合成して出力し、正しく認識さ
れたか否かを確認することが考えられる。またそ
のような装置において操作の手順などを音声合成
により操作者に伝えることが考えられる。従来の
音声認識方式は音声入力を帯域フイルタ群で分割
し、その各出力のレベルと標準パタンとのマツチ
ングをとつて認識するものが多かつた。一方音声
合成方式はPCMなどの波形符号化やPARCOR係
数が用いられていた。従つて音声認識と音声合成
とを一つの装置に設け、一つの単語を認識したり
その認識結果を音声で知らせるためには、異なつ
た次元の２種類のパラメータを用意する必要があ
り、認識対象語い数が増加するとメモリ量が膨大
なものになり、またこれらパラメータの標準を用
意するためのパラメータ作成手段も全く異質のも
のを二組設ける必要があり、高価なものになる欠
点があつた。なお従来認識用に用いられたパラメ
ータのみを用いて音声を出力しようとすると明り
よう性の高い音声は得られなかつた。

この発明はこれらの欠点を解決するために音声
のスペクトルを表現するパラメータを音声認識と
音声合成とに共用し、かつ音源パラメータを音声
合成の場合に用いて、少ないメモリ量及び簡単な
構成で音声を認識でき、かつ高品質な合成音声を
出力することができるようにする。

図はこの発明による音声認識合成方式の基本的
な構成図であつて、音声入力端子１は特徴パラメ
ータ抽出部２に接続され、特徴パラメータ抽出部
２の出力側は標準パタン蓄積部３及び時間正規化
スペクトルマツチング部４にスイツチ５により切
替え接続される。標準パタン蓄積部３は認識用パ
ラメータ変換部６及び合成用パラメータ変換部７
に接続される。認識用パラメータ変換部６の出力
側は時間正規化スペクトルマツチング部４に接続
される。時間正規化スペクトルマツチング部４の
出力側は最小スペクトル距離パタン選択部８に接
続され、その出力は認識結果出力端子９に接続さ
れる。合成用パラメータ変換部７は合成用パラメ
ータ蓄積部１０に接続され、スイツチ１１により
合成パラメータ変換部７及び合成パラメータ蓄積
部１０は音声合成部１２に切替え接続される。そ
の合成音声は出力端子１３へ出力される。

この音声認識合成方式は使用に際してつぎの二
つの段階に分けられる。

(1) 標準パタンの作成と蓄積（単語辞書の作成） (2) 音声認識及び合成音声 (1)は(2)のための準備段階である。まず(1)の段階
ではスイツチ５がａ、即ち標準パタン蓄積部３に
接続され発声され、端子より入力された音声入力
（認識対象語い）を特徴パラメータ抽出部２で短
時間スペクトル分析し、短時間ごとにスペクトル
パラメータのセツト｛P_i｝ｉ＝１，２……ｎを抽
出する。抽出するパラメータは例えば自己相関係
数であり、その他に音源パラメータ（ピツチ、振
幅、有声音、無声音の区別）も抽出され、各単語
ごとに標準パタン蓄積部３に記憶される。ｎはパ
ラメータの個数で通常10〜16である。

以上のような準備をした後スイツチ５をｂ、即
ち時間正規化スペクトルマツチング部４に切替え
端子１からの未知入力音声の認識を行う。即ち端
子１からの入力音声を特徴パラメータ抽出部２で
スペクトル分析し、標準パタン蓄積部３の標準パ
タンを用いてマツチング部４で時間正規化スペク
トルマツチングを行う。その際標準パタン蓄積部
３の標準パタン例えば自己相関係数は認識用パラ
メータとして例えばケプストラム係数に変換部６
で変換される。マツチング部４で行われたマツチ
ング中の最小距離でマツチングされたものが選択
部８で選択され、それが認識結果として端子９に
出力される。

この認識された語に対する特徴パラメータを標
準パタン蓄積部３の単語辞書を参照して求め、こ
の標準パタンを変換部７で線形予測係数、
PARCOR係数、LSPパラメータなどの合成用パ
ラメータに変換し、これと標準パタン蓄積部３に
記憶した音源パラメータとを音声合成部１２へ送
る。スイツチ１１を合成用パラメータ７側に接続
しておくことにより入力した音声を認識し、これ
を逐次合成音声によつて確認することもできる
し、合成用パラメータ及び対応する音源パラメー
タをパラメータ蓄積部１０で蓄積しておいて必要
なとき、例えばすべてのテキストを入力後にスイ
ツチ１１を蓄積部１０に切替えて一括して合成音
声で確認することもできる。

合成音声について認識内容を確認するという機
能だけをもたせるなら音源パラメータ中のピツチ
情報は必ずしも必要ではなく一定値でもよい。自
己相関係数と、認識用パラメータと、合成用パラ
メータとは演算により相互に変換することができ
るから、標準パタン蓄積部３に認識用パラメータ
を記憶しておき変換部６を省略してもよく、或は
逆に標準パタン蓄積部３に合成用パラメータを記
憶しておき変換部７を省略してもよい。更にこれ
ら認識用パラメータ及び合成用パラメータの両者
を標準パタン蓄積部３に記憶し変換部６及び７を
省略してもよい。

以上説明したようにこの発明の音声認識合成方
式によれば音声の短時間スペクトルの特徴を表す
自己相関係数パラメータを音声認識、音声合成の
両方に共通に利用してそれぞれの変換パラメータ
を得ることができるから個別にパラメータを蓄積
しておく方式に比べ、メモリ容量は少なくてよ
く、このため認識対象語い数がきわめて多いワー
ドプロセツサなどの入力及び確認などに利用すれ
ば入力のための「手」や「目」、確認のための
「目」の動作を大幅に軽減でき入力を効率よく行
える利点がある。また標準パタン蓄積部３に蓄積
するパタン（パラメータ）として認識用と、合成
用とは従来は全く異質のものであつたのに対し、
この発明では同一又は同一系統のものであるため
その標準パタン（パラメータ）を作成する構成
も、従来では異質のものを認識用と合成用とに設
けたが、この発明では同一種類のものを一つ設け
ればよく構成が簡単になる。更に従来の認識用パ
ラメータは帯域波器群を設けて作成したが、こ
のようにして得られたものは情報圧縮率が小さい
ためこの発明において認識用と合成用とに対しそ
れぞれ標準パラメータを記憶する場合でも同一系
統のパラメータであり、かつ共に情報圧縮率が著
しく大きいため蓄積部３のメモリ容器は小さいも
ので済む。

この発明は例えばワードプロセツサに適用する
場合に入力音声の認識に対する確認のみならず、
操作手順や誤りなどを音声合成で操作者へ伝える
ようにしてもよい。つまり図においてCPU１４
から合成したい音声の単語を順次標準パタン蓄積
部３へ与えて音声合成すればよい。更に図におけ
る各抽出部２、マツチング部４、変換部６，７な
どの一部又は全部を電子計算器で兼用して行わせ
てもよい。

【図面の簡単な説明】

図はこの発明による音声認識合成方式の基本的
な構成を示すブロツク図である。１：音声入力端子、２：特徴パラメータ抽出
部、３：標準パタン蓄積部、４：時間正規化スペ
クトルマツチング部、６：認識用パラメータ変換
部、７：合成用パラメータ変換部、８：最小スペ
クトル距離パタン選択部、９：認識結果出力端
子、１２：音声合成部、１３：合成音声出力端
子。

Claims

【特許請求の範囲】

１認識対象単語の各音声の短時間スペクトルの
特徴を表す自己相関係数パラメータと音源パラメ
ータとを記憶しておき、音声入力を上記記憶され
た自己相関係数パラメータから変換されるパラメ
ータを用いて各認識対象単語との距離を求め、そ
の距離が最小の単語を音声認識結果とし、その音
声認識結果に対応する上記記憶された自己相関係
数パラメータから変換されるパラメータと上記記
憶された音源パラメータとを用いて音声入力に対
応する音声を合成することを特徴とする音声認識
合成方式。