JPH0215080B2 - - Google Patents
Info
- Publication number
- JPH0215080B2 JPH0215080B2 JP56073840A JP7384081A JPH0215080B2 JP H0215080 B2 JPH0215080 B2 JP H0215080B2 JP 56073840 A JP56073840 A JP 56073840A JP 7384081 A JP7384081 A JP 7384081A JP H0215080 B2 JPH0215080 B2 JP H0215080B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- parameters
- section
- synthesis
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000001308 synthesis method Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 25
- 238000003786 synthesis reaction Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Description
【発明の詳細な説明】
この発明は音声入力を認識すると共に、音声を
合成する音声認識合成方式に関する。
合成する音声認識合成方式に関する。
音声入力装置において、音声入力を認識しその
認識された音声を合成して出力し、正しく認識さ
れたか否かを確認することが考えられる。またそ
のような装置において操作の手順などを音声合成
により操作者に伝えることが考えられる。従来の
音声認識方式は音声入力を帯域フイルタ群で分割
し、その各出力のレベルと標準パタンとのマツチ
ングをとつて認識するものが多かつた。一方音声
合成方式はPCMなどの波形符号化やPARCOR係
数が用いられていた。従つて音声認識と音声合成
とを一つの装置に設け、一つの単語を認識したり
その認識結果を音声で知らせるためには、異なつ
た次元の2種類のパラメータを用意する必要があ
り、認識対象語い数が増加するとメモリ量が膨大
なものになり、またこれらパラメータの標準を用
意するためのパラメータ作成手段も全く異質のも
のを二組設ける必要があり、高価なものになる欠
点があつた。なお従来認識用に用いられたパラメ
ータのみを用いて音声を出力しようとすると明り
よう性の高い音声は得られなかつた。
認識された音声を合成して出力し、正しく認識さ
れたか否かを確認することが考えられる。またそ
のような装置において操作の手順などを音声合成
により操作者に伝えることが考えられる。従来の
音声認識方式は音声入力を帯域フイルタ群で分割
し、その各出力のレベルと標準パタンとのマツチ
ングをとつて認識するものが多かつた。一方音声
合成方式はPCMなどの波形符号化やPARCOR係
数が用いられていた。従つて音声認識と音声合成
とを一つの装置に設け、一つの単語を認識したり
その認識結果を音声で知らせるためには、異なつ
た次元の2種類のパラメータを用意する必要があ
り、認識対象語い数が増加するとメモリ量が膨大
なものになり、またこれらパラメータの標準を用
意するためのパラメータ作成手段も全く異質のも
のを二組設ける必要があり、高価なものになる欠
点があつた。なお従来認識用に用いられたパラメ
ータのみを用いて音声を出力しようとすると明り
よう性の高い音声は得られなかつた。
この発明はこれらの欠点を解決するために音声
のスペクトルを表現するパラメータを音声認識と
音声合成とに共用し、かつ音源パラメータを音声
合成の場合に用いて、少ないメモリ量及び簡単な
構成で音声を認識でき、かつ高品質な合成音声を
出力することができるようにする。
のスペクトルを表現するパラメータを音声認識と
音声合成とに共用し、かつ音源パラメータを音声
合成の場合に用いて、少ないメモリ量及び簡単な
構成で音声を認識でき、かつ高品質な合成音声を
出力することができるようにする。
図はこの発明による音声認識合成方式の基本的
な構成図であつて、音声入力端子1は特徴パラメ
ータ抽出部2に接続され、特徴パラメータ抽出部
2の出力側は標準パタン蓄積部3及び時間正規化
スペクトルマツチング部4にスイツチ5により切
替え接続される。標準パタン蓄積部3は認識用パ
ラメータ変換部6及び合成用パラメータ変換部7
に接続される。認識用パラメータ変換部6の出力
側は時間正規化スペクトルマツチング部4に接続
される。時間正規化スペクトルマツチング部4の
出力側は最小スペクトル距離パタン選択部8に接
続され、その出力は認識結果出力端子9に接続さ
れる。合成用パラメータ変換部7は合成用パラメ
ータ蓄積部10に接続され、スイツチ11により
合成パラメータ変換部7及び合成パラメータ蓄積
部10は音声合成部12に切替え接続される。そ
の合成音声は出力端子13へ出力される。
な構成図であつて、音声入力端子1は特徴パラメ
ータ抽出部2に接続され、特徴パラメータ抽出部
2の出力側は標準パタン蓄積部3及び時間正規化
スペクトルマツチング部4にスイツチ5により切
替え接続される。標準パタン蓄積部3は認識用パ
ラメータ変換部6及び合成用パラメータ変換部7
に接続される。認識用パラメータ変換部6の出力
側は時間正規化スペクトルマツチング部4に接続
される。時間正規化スペクトルマツチング部4の
出力側は最小スペクトル距離パタン選択部8に接
続され、その出力は認識結果出力端子9に接続さ
れる。合成用パラメータ変換部7は合成用パラメ
ータ蓄積部10に接続され、スイツチ11により
合成パラメータ変換部7及び合成パラメータ蓄積
部10は音声合成部12に切替え接続される。そ
の合成音声は出力端子13へ出力される。
この音声認識合成方式は使用に際してつぎの二
つの段階に分けられる。
つの段階に分けられる。
(1) 標準パタンの作成と蓄積(単語辞書の作成)
(2) 音声認識及び合成音声
(1)は(2)のための準備段階である。まず(1)の段階
ではスイツチ5がa、即ち標準パタン蓄積部3に
接続され発声され、端子より入力された音声入力
(認識対象語い)を特徴パラメータ抽出部2で短
時間スペクトル分析し、短時間ごとにスペクトル
パラメータのセツト{Pi}i=1,2……nを抽
出する。抽出するパラメータは例えば自己相関係
数であり、その他に音源パラメータ(ピツチ、振
幅、有声音、無声音の区別)も抽出され、各単語
ごとに標準パタン蓄積部3に記憶される。nはパ
ラメータの個数で通常10〜16である。
ではスイツチ5がa、即ち標準パタン蓄積部3に
接続され発声され、端子より入力された音声入力
(認識対象語い)を特徴パラメータ抽出部2で短
時間スペクトル分析し、短時間ごとにスペクトル
パラメータのセツト{Pi}i=1,2……nを抽
出する。抽出するパラメータは例えば自己相関係
数であり、その他に音源パラメータ(ピツチ、振
幅、有声音、無声音の区別)も抽出され、各単語
ごとに標準パタン蓄積部3に記憶される。nはパ
ラメータの個数で通常10〜16である。
以上のような準備をした後スイツチ5をb、即
ち時間正規化スペクトルマツチング部4に切替え
端子1からの未知入力音声の認識を行う。即ち端
子1からの入力音声を特徴パラメータ抽出部2で
スペクトル分析し、標準パタン蓄積部3の標準パ
タンを用いてマツチング部4で時間正規化スペク
トルマツチングを行う。その際標準パタン蓄積部
3の標準パタン例えば自己相関係数は認識用パラ
メータとして例えばケプストラム係数に変換部6
で変換される。マツチング部4で行われたマツチ
ング中の最小距離でマツチングされたものが選択
部8で選択され、それが認識結果として端子9に
出力される。
ち時間正規化スペクトルマツチング部4に切替え
端子1からの未知入力音声の認識を行う。即ち端
子1からの入力音声を特徴パラメータ抽出部2で
スペクトル分析し、標準パタン蓄積部3の標準パ
タンを用いてマツチング部4で時間正規化スペク
トルマツチングを行う。その際標準パタン蓄積部
3の標準パタン例えば自己相関係数は認識用パラ
メータとして例えばケプストラム係数に変換部6
で変換される。マツチング部4で行われたマツチ
ング中の最小距離でマツチングされたものが選択
部8で選択され、それが認識結果として端子9に
出力される。
この認識された語に対する特徴パラメータを標
準パタン蓄積部3の単語辞書を参照して求め、こ
の標準パタンを変換部7で線形予測係数、
PARCOR係数、LSPパラメータなどの合成用パ
ラメータに変換し、これと標準パタン蓄積部3に
記憶した音源パラメータとを音声合成部12へ送
る。スイツチ11を合成用パラメータ7側に接続
しておくことにより入力した音声を認識し、これ
を逐次合成音声によつて確認することもできる
し、合成用パラメータ及び対応する音源パラメー
タをパラメータ蓄積部10で蓄積しておいて必要
なとき、例えばすべてのテキストを入力後にスイ
ツチ11を蓄積部10に切替えて一括して合成音
声で確認することもできる。
準パタン蓄積部3の単語辞書を参照して求め、こ
の標準パタンを変換部7で線形予測係数、
PARCOR係数、LSPパラメータなどの合成用パ
ラメータに変換し、これと標準パタン蓄積部3に
記憶した音源パラメータとを音声合成部12へ送
る。スイツチ11を合成用パラメータ7側に接続
しておくことにより入力した音声を認識し、これ
を逐次合成音声によつて確認することもできる
し、合成用パラメータ及び対応する音源パラメー
タをパラメータ蓄積部10で蓄積しておいて必要
なとき、例えばすべてのテキストを入力後にスイ
ツチ11を蓄積部10に切替えて一括して合成音
声で確認することもできる。
合成音声について認識内容を確認するという機
能だけをもたせるなら音源パラメータ中のピツチ
情報は必ずしも必要ではなく一定値でもよい。自
己相関係数と、認識用パラメータと、合成用パラ
メータとは演算により相互に変換することができ
るから、標準パタン蓄積部3に認識用パラメータ
を記憶しておき変換部6を省略してもよく、或は
逆に標準パタン蓄積部3に合成用パラメータを記
憶しておき変換部7を省略してもよい。更にこれ
ら認識用パラメータ及び合成用パラメータの両者
を標準パタン蓄積部3に記憶し変換部6及び7を
省略してもよい。
能だけをもたせるなら音源パラメータ中のピツチ
情報は必ずしも必要ではなく一定値でもよい。自
己相関係数と、認識用パラメータと、合成用パラ
メータとは演算により相互に変換することができ
るから、標準パタン蓄積部3に認識用パラメータ
を記憶しておき変換部6を省略してもよく、或は
逆に標準パタン蓄積部3に合成用パラメータを記
憶しておき変換部7を省略してもよい。更にこれ
ら認識用パラメータ及び合成用パラメータの両者
を標準パタン蓄積部3に記憶し変換部6及び7を
省略してもよい。
以上説明したようにこの発明の音声認識合成方
式によれば音声の短時間スペクトルの特徴を表す
自己相関係数パラメータを音声認識、音声合成の
両方に共通に利用してそれぞれの変換パラメータ
を得ることができるから個別にパラメータを蓄積
しておく方式に比べ、メモリ容量は少なくてよ
く、このため認識対象語い数がきわめて多いワー
ドプロセツサなどの入力及び確認などに利用すれ
ば入力のための「手」や「目」、確認のための
「目」の動作を大幅に軽減でき入力を効率よく行
える利点がある。また標準パタン蓄積部3に蓄積
するパタン(パラメータ)として認識用と、合成
用とは従来は全く異質のものであつたのに対し、
この発明では同一又は同一系統のものであるため
その標準パタン(パラメータ)を作成する構成
も、従来では異質のものを認識用と合成用とに設
けたが、この発明では同一種類のものを一つ設け
ればよく構成が簡単になる。更に従来の認識用パ
ラメータは帯域波器群を設けて作成したが、こ
のようにして得られたものは情報圧縮率が小さい
ためこの発明において認識用と合成用とに対しそ
れぞれ標準パラメータを記憶する場合でも同一系
統のパラメータであり、かつ共に情報圧縮率が著
しく大きいため蓄積部3のメモリ容器は小さいも
ので済む。
式によれば音声の短時間スペクトルの特徴を表す
自己相関係数パラメータを音声認識、音声合成の
両方に共通に利用してそれぞれの変換パラメータ
を得ることができるから個別にパラメータを蓄積
しておく方式に比べ、メモリ容量は少なくてよ
く、このため認識対象語い数がきわめて多いワー
ドプロセツサなどの入力及び確認などに利用すれ
ば入力のための「手」や「目」、確認のための
「目」の動作を大幅に軽減でき入力を効率よく行
える利点がある。また標準パタン蓄積部3に蓄積
するパタン(パラメータ)として認識用と、合成
用とは従来は全く異質のものであつたのに対し、
この発明では同一又は同一系統のものであるため
その標準パタン(パラメータ)を作成する構成
も、従来では異質のものを認識用と合成用とに設
けたが、この発明では同一種類のものを一つ設け
ればよく構成が簡単になる。更に従来の認識用パ
ラメータは帯域波器群を設けて作成したが、こ
のようにして得られたものは情報圧縮率が小さい
ためこの発明において認識用と合成用とに対しそ
れぞれ標準パラメータを記憶する場合でも同一系
統のパラメータであり、かつ共に情報圧縮率が著
しく大きいため蓄積部3のメモリ容器は小さいも
ので済む。
この発明は例えばワードプロセツサに適用する
場合に入力音声の認識に対する確認のみならず、
操作手順や誤りなどを音声合成で操作者へ伝える
ようにしてもよい。つまり図においてCPU14
から合成したい音声の単語を順次標準パタン蓄積
部3へ与えて音声合成すればよい。更に図におけ
る各抽出部2、マツチング部4、変換部6,7な
どの一部又は全部を電子計算器で兼用して行わせ
てもよい。
場合に入力音声の認識に対する確認のみならず、
操作手順や誤りなどを音声合成で操作者へ伝える
ようにしてもよい。つまり図においてCPU14
から合成したい音声の単語を順次標準パタン蓄積
部3へ与えて音声合成すればよい。更に図におけ
る各抽出部2、マツチング部4、変換部6,7な
どの一部又は全部を電子計算器で兼用して行わせ
てもよい。
図はこの発明による音声認識合成方式の基本的
な構成を示すブロツク図である。 1:音声入力端子、2:特徴パラメータ抽出
部、3:標準パタン蓄積部、4:時間正規化スペ
クトルマツチング部、6:認識用パラメータ変換
部、7:合成用パラメータ変換部、8:最小スペ
クトル距離パタン選択部、9:認識結果出力端
子、12:音声合成部、13:合成音声出力端
子。
な構成を示すブロツク図である。 1:音声入力端子、2:特徴パラメータ抽出
部、3:標準パタン蓄積部、4:時間正規化スペ
クトルマツチング部、6:認識用パラメータ変換
部、7:合成用パラメータ変換部、8:最小スペ
クトル距離パタン選択部、9:認識結果出力端
子、12:音声合成部、13:合成音声出力端
子。
Claims (1)
- 1 認識対象単語の各音声の短時間スペクトルの
特徴を表す自己相関係数パラメータと音源パラメ
ータとを記憶しておき、音声入力を上記記憶され
た自己相関係数パラメータから変換されるパラメ
ータを用いて各認識対象単語との距離を求め、そ
の距離が最小の単語を音声認識結果とし、その音
声認識結果に対応する上記記憶された自己相関係
数パラメータから変換されるパラメータと上記記
憶された音源パラメータとを用いて音声入力に対
応する音声を合成することを特徴とする音声認識
合成方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56073840A JPS57188100A (en) | 1981-05-15 | 1981-05-15 | Voice recognition/synthesization system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56073840A JPS57188100A (en) | 1981-05-15 | 1981-05-15 | Voice recognition/synthesization system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS57188100A JPS57188100A (en) | 1982-11-18 |
JPH0215080B2 true JPH0215080B2 (ja) | 1990-04-10 |
Family
ID=13529734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56073840A Granted JPS57188100A (en) | 1981-05-15 | 1981-05-15 | Voice recognition/synthesization system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS57188100A (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5955499A (ja) * | 1982-09-25 | 1984-03-30 | 株式会社東芝 | 音声入力装置 |
JPS6060698A (ja) * | 1983-09-13 | 1985-04-08 | 富士通株式会社 | 音声標準特徴パターン作成処理装置 |
JPS60107100A (ja) * | 1983-11-15 | 1985-06-12 | 日本電気株式会社 | 音声認識応答方式 |
JPS613241A (ja) * | 1984-06-15 | 1986-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声確認方式 |
JPS6120094A (ja) * | 1984-07-06 | 1986-01-28 | 松下電器産業株式会社 | 音声認識合成装置 |
JPS61163395A (ja) * | 1985-01-14 | 1986-07-24 | 日本電気株式会社 | 規則型音声認識合成装置 |
JPS62267799A (ja) * | 1986-05-16 | 1987-11-20 | 株式会社日立製作所 | 音声認識制御方式 |
JPS62267800A (ja) * | 1986-05-16 | 1987-11-20 | 株式会社日立製作所 | 音声認識制御方式 |
JPH03179499A (ja) * | 1989-12-08 | 1991-08-05 | Matsushita Electric Ind Co Ltd | 単語音声認識装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56144477A (en) * | 1980-04-11 | 1981-11-10 | Matsushita Electric Ind Co Ltd | Language traning machine |
-
1981
- 1981-05-15 JP JP56073840A patent/JPS57188100A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56144477A (en) * | 1980-04-11 | 1981-11-10 | Matsushita Electric Ind Co Ltd | Language traning machine |
Also Published As
Publication number | Publication date |
---|---|
JPS57188100A (en) | 1982-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10535336B1 (en) | Voice conversion using deep neural network with intermediate voice training | |
US4661915A (en) | Allophone vocoder | |
US4424415A (en) | Formant tracker | |
US5204905A (en) | Text-to-speech synthesizer having formant-rule and speech-parameter synthesis modes | |
EP0059880A2 (en) | Text-to-speech synthesis system | |
EP0140777A1 (en) | Process for encoding speech and an apparatus for carrying out the process | |
US3995116A (en) | Emphasis controlled speech synthesizer | |
JPS58100199A (ja) | 音声認識及び再生方法とその装置 | |
EP0232456A1 (en) | Digital speech processor using arbitrary excitation coding | |
JPH0215080B2 (ja) | ||
JPS5827200A (ja) | 音声認識装置 | |
JPS61186998A (ja) | 音声の区分化方法 | |
Veldhuis et al. | On the computation of the Kullback-Leibler measure for spectral distances | |
Buzo et al. | Discrete utterance recognition based upon source coding techniques | |
JP2709926B2 (ja) | 声質変換方法 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPS59131999A (ja) | 音声認識装置 | |
JPH05127697A (ja) | ホルマントの線形転移区間の分割による音声の合成方法 | |
JPH01211799A (ja) | 多言語を扱う音声の規則合成装置 | |
CN1629933B (zh) | 用于语音合成的设备、方法和转换器 | |
JPH0258640B2 (ja) | ||
JPH0358100A (ja) | 規則型音声合成装置 | |
KR920009961B1 (ko) | 무제한 단어 한국어 합성 방법 및 회로 | |
Atal | Speech technology in 2001: New research directions | |
JPS60144799A (ja) | 自動通訳装置 |