JPH06100918B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06100918B2
JPH06100918B2 JP58085340A JP8534083A JPH06100918B2 JP H06100918 B2 JPH06100918 B2 JP H06100918B2 JP 58085340 A JP58085340 A JP 58085340A JP 8534083 A JP8534083 A JP 8534083A JP H06100918 B2 JPH06100918 B2 JP H06100918B2
Authority
JP
Japan
Prior art keywords
time series
parameter time
voice
input
feature parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58085340A
Other languages
English (en)
Other versions
JPS59211098A (ja
Inventor
敏恵 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58085340A priority Critical patent/JPH06100918B2/ja
Publication of JPS59211098A publication Critical patent/JPS59211098A/ja
Publication of JPH06100918B2 publication Critical patent/JPH06100918B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (a)発明の技術分野 本発明は、話者の入力音声の入力特徴パラメータ時系列
を、予め登録してある複数個の登録特徴パラメータ時系
列と比較して認識する音声認識装置に関する。
(b)技術の背景 近年、音声認識装置として、限定された複数の登録話者
の入力音声を、適当な入力特徴パラメータ時系列に変換
して登録音声辞書に登録し、未知話者の入力音声なの
か、或る特定話者の入力音声なのかを、登録音声辞書と
照合して識別判定する話者音声認識装置とか、特定話者
の単語の入力音声を、適当な入力特徴パラメータ時系列
に変換して登録音声辞書に登録し、認識したい特定話者
の発声した入力音声を登録音声辞書を照合し、認識結果
を文字として表示する特定話者音声認識装置等、音声認
識技術の進歩と共に、音声による機械との対話分野にま
で拡大してきた。
音声認識方法として、未知入力音声を周波数分析し、そ
の分析した結果のアナログ信号をデジタル信号に変換
し、変換されたデジタル信号を時系列化し、音声区間を
決める閾値により音声区間を決め、各音素の特徴を表す
入力特徴パラメータ時系列として抽出し、前記抽出され
た入力特徴パラメータ時系列と、予め登録されている複
数個の登録特徴パラメータ時系列とを照合して、照合結
果の最も近い距離を選択して未知入力音声の認識結果を
得るよう構成されている。前記特徴パラメータ時系列を
どのような形式とするか、登録方法と照合選択方法をど
のようにするか等が、入力音声認識の難易性と認識率に
影響を与える為、各種の方式について検討されている。
(c)従来技術と問題点 従来の、音声認識方式は、特定話者の発声した入力音声
の入力特徴パラメータ時系列を複数個登録した登録音声
辞書を持ち、認識したい入力音声の語頭・語尾を決めた
音声区間の入力特徴パラメータ時系列と、登録音声辞書
の複数個の登録特徴パラメータ時系列とは比較して、認
識結果を出力するものである。従来は、一回の入力音声
から一個以上の音声区間を切り出した後に、各々の音声
区間の入力特徴パラメータ時系列全てを用いて、予め登
録されている複数個の登録特徴パラメータ時系列毎に距
離計算を行っていた。
この種の音声認識方式の構成について説明する。第1図
に従来の音声認識装置の回路構成ブロック図を示す。予
め、話者の音声を登録処理する手順は、話者の発声した
一個の入力音声を、マイク1より入力させ、入力した入
力音声を帯域フイルタ−群2で、音声帯域200Hz〜5KHz
程度を10〜20のチャンネルフイルタ−群に分けて、5〜
30ms周期で各チャンネルフイルタ−出力を取り出し、特
徴パラメータ時系列抽出部3で、デジタル情報の入力特
徴パラメータ時系列に変換し、入力特徴パラメータ時系
列バッファ4に格納する。入力特徴パラメータ時系列バ
ッファ4に格納された入力特徴パラメータ時系列は、音
声区間切り出し回路5により、語頭と語尾の音声区間を
決める閾値により音声区間を切り出し、入力音声の音素
の特徴を表す登録特徴パラメータ時系列として、登録特
徴パラメータ時系列辞書部6に登録される。以上の手順
を登録したい入力音声の数だけ繰り返し、複数個の登録
特徴パラメータ時系列を登録特徴パラメータ時系列辞書
部6に登録する。
次ぎに、話者の音声を認識処理する手順は、話者の発声
した入力音声を、マイク1より入力させ、上記述同様の
手順に従って、入力音声を入力特徴パラメータ時系列バ
ッファ4に格納する。入力特徴パラメータ時系列バッフ
ァ4に格納された入力特徴パラメータ時系列は、音声区
間切り出し回路5により、音声区間を決める閾値によ
り、複数個の音声区間毎に区分して切り出される。この
音声区間切り出し回路5は、同一アルゴリズムにより動
作する閾値のみが変えられた形式でも、アルゴリズム自
体が異なっている回路の組合せ形式でもよい。
第4図は音声区間切り出し回路5で音声区間を決める閾
値により、複数個の音声区間を決める例であり、仮に、
3レベルの閾値をTL,TM,THとし、一回の音声、例えば、
「アオモリ」が入力されると、閾値により、閾値TLレベ
ルで「アオモリ」、閾値TMレベルで「オモリ」、閾値TH
レベルで「オモ」の3個の音声区間が決められる。従っ
て、第1図においてn個の閾値が設定された場合は、該
音声区間の入力特徴パラメータ時系列はn個出力し、予
め登録されている登録特徴パラメータ時系列辞書部6の
複数個の登録特徴パラメータ時系列m個と、該音声区間
毎の入力特徴パラメータ時系列n個とを、照合選択回路
7で順次n×m回照合して、照合距離をn×m回計算
し、n×m回の照合距離のうち最も近い照合距離を選択
して認識結果として認識端子8に出力する。
以上が従来の音声認識の処理手順である。この方式で
は、音声区間n個の入力特徴パラメータ時系列と、m個
の登録特徴パラメータ時系列の照合距離計算量は、n×
m回であり、認識カテゴリ数が多くなればなる程計算量
が増加し、照合処理に要する時間が多くなり、かつ誤認
識率が大きく欠点を有していた。
(d)発明の目的 本発明は、上記従来の欠点を解決することを目的として
いる。
(e)発明の構成 上記目的は本発明により、帯域フイルタによってi個の
チャンネルに分けられた入力音声のそれぞれのチャンネ
ルをディジタル化されたi個の入力特徴パラメータ時系
列に変換する特徴パラメータ時系列抽出部、i個のチャ
ンネルのそれぞれの入力特徴パラメータ時系列をn個の
閾値を用いてn個の音声区間に切り出す音声区間切り出
し回路、該回路よりの出力を登録する登録特徴パラメー
タ時系列辞書部を備える構成において、第一選択回路、
第二選択回路が設けられ、i個のチャンネルに分けられ
た未知入力音声が特徴パラメータ時系列抽出部でディジ
タル化されたi個の入力特徴パラメータ時系列に変換さ
れ、それぞれは音声区間切り出し回路でn個の閾値でn
個の音声区間に切り出されたi個のチャンネルとされ、
かかるi個のチャンネルについて、第一選択回路は粗入
力特徴パラメータ時系列としてそれぞれn個の音声区間
を有するj個(j<i)のチャンネルを選出し、これを
登録特徴パラメータ時系列辞書部に予め登録されている
登録特徴パラメータ時系列m個の中の1個宛と照合し、
照合毎に照合距離の最も近い音声区間をn個から1個選
択しm個の選択結果を出力する機能を有し、第二選択回
路は粗入力特徴パラメータ時系列よりなる音声区間につ
いての第一選択回路からのm個の出力から変換された、
全ての入力特徴パラメータ時系列を含む音声区間よりな
るm個またはr個(r<m)の出力と、第一選択回路で
のm個の出力に対応した登録特徴パラメータ時系列辞書
部の登録特徴パラメータ時系列とを、m回またはr回対
応して照合選択する機能を有することを特徴とする音声
認識装置によって達成される。
本発明による複数個の音声区間切り出し回路と二段階の
選択回路を設けることにより、従来の方式に対し、照合
距離計算量を少なくすることができると同時に、入力特
徴パラメータ時系列と登録特徴パラメータ時系列を、2
回照合することに近似し、入力音声の強弱や時間長並び
にアクセント等様々な変動に対応して認識し、特に、話
者のその日の体調により声がかすれたりしても、高い認
識率で認識することができる利点がある。
(f)発明の実施例 以下本発明の一実施例について説明する。第2図は本発
明による音声認識装置の回路構成ブロック図であり、全
図を通し、同一対象物は第1図と同一符号で示す。9は
第一選択回路、10は登録特徴パラメータ時系列辞書部、
11はアンドゲート回路、12は第二選択回路、である。
本回路構成において、音声の登録処理手順は、従来の第
1図に示す方法と同様なので省略する。本発明による音
声認識処理手順は、マイク1から認識させる話者の入力
音声を入力し、入力特徴パラメータ時系列を入力特徴パ
ラメータ時系列バッファ4に格納する所までは第1図と
同様である。この入力特徴パラメータ時系列を音声区間
切り出し回路5で、n個の閾値を設定してn個の音声区
間の入力特徴パラメータ時系列として切り出し、第一選
択回路9において、帯域フイルタ群2のチャンネルi個
中夫々n個の音声区間を有するj個のチャンネル(但し
j<iとする)の粗入力特徴パラメータ時系列に変換し
て、予め登録特徴パラメータ時系列辞書部10に登録され
ているm個の登録特徴パラメータ時系列中の1個を、第
一選択回路9に送ってn個の粗入力特徴パラメータ時系
列と照合し、照合距離の最も近い音声区間をn個中から
1個選択する。このn個中より選択された1個の音声区
間のみがアンドゲート回路11のa側に入力される。ま
た、同時に、同一閾値で切り出された音声区間のiチャ
ンネル全て持った入力特徴パラメータ時系列は、同系の
アンドゲート回路11のb側に入力される。このアンドゲ
ート回路11のa,b両側に入力された系統のみアンドゲー
ト回路11のc側より入力特徴パラメータ時系列を出力す
る。続いて、m個中の他の1個の登録特徴パラメータ時
系列を、n個の音声区間の粗入力特徴パラメータ時系列
と照合し、上述同様にして音声区間を選択し、アンドゲ
ート回路11のc側に選択された音声区間の入力特徴パラ
メータ時系列が出力される。かくして、n個の音声区間
の粗入力特徴パラメータ時系列をm個の登録特徴パラメ
ータ時系列とm回照合し、合計m個の音声区間が選択さ
れ、順次アンドゲート回路11のc側に、選択された音声
区間のiチャンネルの入力特徴パラメータ時系列のみが
出力され、第二選択回路12に入力される。このm個の選
択された音声区間のiチャンネルの入力特徴パラメータ
時系列と、登録特徴パラメータ時系列辞書部10に登録さ
れているm個の登録特徴パラメータ時系列とを、順次第
二選択回路12でm回照合距離を計算し、最も近い照合距
離を選択して、認識結果として選択された登録特徴パラ
メータ時系列を認識端子8に出力する。本発明の方式に
おいて、第一選択回路と第二選択回路で計算する照合距
離の計算量は、 (j/i)<(1−1/n)、j<i となるようにiとjを設定することで (nj/i+1)m<(n×m) となり、計算量は少なくなる。
第3図は本発明の他の実施例であって、13は第一選択回
路、14は選択入力特徴パラメータ時系列バッファ、15は
第二選択回路である。第一選択回路13では、第2図で記
述したiチャンネル中jチャンネルについての粗入力特
徴パラメータ時系列n個を、登録特徴パラメータ時系列
m個と照合し、照合距離のうち最も近い音声区間r個
(但しr≦m)選択し、選択入力特徴パラメータ時系列
バッファ14に格納する。この選択格納されたiチャンネ
ル全部の夫々のr個の音声区間の間を第二選択回路15で
照合距離を計算し、最も近い照合距離を選択して認識結
果として認識端子8に出力する。第一選択回路と第二選
択回路で計算する照合距離の計算量は、 (j/i)<(1−r/nm)、r≦m、j<iとなるように
i,j,rを選ぶことによって (j/i)×nm+r<(n×m) が得られる。
以上、本発明の実施例として、帯域フイルターによる周
波数分析方式で説明したが、LPC分析方式等を採用して
いる音声認識装置にも利用できる。
(g)発明の効果 以上説明したように、本発明による複数個の音声区間切
り出し回路と、二段階の選択回路を設けることにより、
話者の入力音声を認識する音声認識において、入力音声
の強弱や時間長並びにアクセント等様々な変動に対応し
て認識できるので、認識率を改善できると共に、照合距
離の計算量を減少できる効果がある。
【図面の簡単な説明】
第1図は、従来の音声認識装置の回路構成ブロック図、
第2図、第3図は本発明による音声認識装置の回路構成
ブロック図、第4図は入力音声の音声区間を決める関係
図である。 図面において、1はマイク、2は帯域フイルタ−群、3
は特徴パラメータ時系列抽出部、4は入力特徴パラメー
タ時系列バッファ、5は音声区間切り出し回路、7は照
合選択回路、8は認識端子、9は第一選択回路、10は登
録特徴パラメータ時系列辞書部、12は第二選択回路、13
は第一選択回路、14は選択入力特徴パラメータ時系列バ
ッファ、15は第二選択回路をそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】帯域フイルタによってi個のチャンネルに
    分けられた入力音声のそれぞれのチャンネルをディジタ
    ル化されたi個の入力特徴パラメータ時系列に変換する
    特徴パラメータ時系列抽出部、i個のチャンネルのそれ
    ぞれの入力特徴パラメータ時系列をn個の閾値を用いて
    n個の音声区間に切り出す音声区間切り出し回路、該回
    路よりの出力を登録する登録特徴パラメータ時系列辞書
    部を備える構成において、第一選択回路、第二選択回路
    が設けられ、i個のチャンネルに分けられた未知入力音
    声が特徴パラメータ時系列抽出部でディジタル化された
    i個の入力特徴パラメータ時系列に変換され、それぞれ
    は音声区間切り出し回路でn個の閾値でn個の音声区間
    に切り出されたi個のチャンネルとされ、かかるi個の
    チャンネルについて、第一選択回路は粗入力特徴パラメ
    ータ時系列としてそれぞれn個の音声区間を有するj個
    (j<i)のチャンネルを選出し、これを登録特徴パラ
    メータ時系列辞書部に予め登録されている登録特徴パラ
    メータ時系列m個の中の1個宛と照合し、照合毎に照合
    距離の最も近い音声区間をn個から1個選択しm個の選
    択結果を出力する機能を有し、第二選択回路は粗入力特
    徴パラメータ時系列よりなる音声区間についての第一選
    択回路からのm個の出力から変換された、全ての入力特
    徴パラメータ時系列を含む音声区間よりなるm個または
    r個(r<m)の出力と、第一選択回路でのm個の出力
    に対応した登録特徴パラメータ時系列辞書部の登録特徴
    パラメータ時系列とを、m回またはr回対応して照合選
    択する機能を有することを特徴とする音声認識装置。
JP58085340A 1983-05-16 1983-05-16 音声認識装置 Expired - Lifetime JPH06100918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58085340A JPH06100918B2 (ja) 1983-05-16 1983-05-16 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58085340A JPH06100918B2 (ja) 1983-05-16 1983-05-16 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59211098A JPS59211098A (ja) 1984-11-29
JPH06100918B2 true JPH06100918B2 (ja) 1994-12-12

Family

ID=13855917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58085340A Expired - Lifetime JPH06100918B2 (ja) 1983-05-16 1983-05-16 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06100918B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6199194A (ja) * 1984-10-02 1986-05-17 富士通株式会社 候補を抽出する音声認識処理方式
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54145408A (en) * 1978-05-06 1979-11-13 Hiroya Fujisaki Speech recognition system
JPS56101199A (en) * 1980-01-16 1981-08-13 Matsushita Electric Ind Co Ltd Voice identifier
JPS57202599A (en) * 1981-06-05 1982-12-11 Matsushita Electric Ind Co Ltd Voice recognizer
JPS5852698A (ja) * 1981-09-24 1983-03-28 富士通株式会社 音声認識処理システム

Also Published As

Publication number Publication date
JPS59211098A (ja) 1984-11-29

Similar Documents

Publication Publication Date Title
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
EP0109190B1 (en) Monosyllable recognition apparatus
JP3428058B2 (ja) 音声認識装置
JPH06100918B2 (ja) 音声認識装置
JPH07230293A (ja) 音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
JPH04324499A (ja) 音声認識装置
JPH071438B2 (ja) 音声中の複数話者の発話区間自動検出同定装置
JP2757356B2 (ja) 単語音声認識方法および装置
JPS61180297A (ja) 話者照合装置
JPH05210397A (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JPH0756597B2 (ja) 音声認識装置
JPS6336678B2 (ja)
JPS62113197A (ja) 音声認識装置
JPH11249684A (ja) 話者照合における閾値決定方法及び装置
JPS63306499A (ja) 不特定話者音声認識装置
JPH0316038B2 (ja)
JPS6053997A (ja) 音素判別法
JPH0314360B2 (ja)
JPS6193499A (ja) 音声パタ−ン照合方式
JPH0752355B2 (ja) 音声認識装置
JPS62111292A (ja) 音声認識装置
JPS59189398A (ja) 連続音声認識方式
JPH0217039B2 (ja)