JPH0582599B2 - - Google Patents

Info

Publication number
JPH0582599B2
JPH0582599B2 JP59014112A JP1411284A JPH0582599B2 JP H0582599 B2 JPH0582599 B2 JP H0582599B2 JP 59014112 A JP59014112 A JP 59014112A JP 1411284 A JP1411284 A JP 1411284A JP H0582599 B2 JPH0582599 B2 JP H0582599B2
Authority
JP
Japan
Prior art keywords
compressed information
pattern
information string
frequency
matching device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59014112A
Other languages
English (en)
Other versions
JPS60158498A (ja
Inventor
Junichiro Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59014112A priority Critical patent/JPS60158498A/ja
Publication of JPS60158498A publication Critical patent/JPS60158498A/ja
Priority to US07/511,979 priority patent/US5095508A/en
Publication of JPH0582599B2 publication Critical patent/JPH0582599B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、音声パターンの照合装置に関する。
従来技術 音声認識において、単語等の音声を時間−周波
数のパターンに変換することは広く行われている
手段である。又、同じ単語を発声しても発声毎に
非線形な時間伸縮があり、この時間変動を吸収し
てパターン照合をするために動的計画法による方
法やパターンに幅を持たせたいわゆるFuzzy集合
におけるMembership関数の性質を利用する方法
などが知られている。この中で特に後者の場合
は、照合すべき2つのパターンの時間長を適当な
手段によつて一致させてから重ね合わせ、その重
なり具合から類似度を求めなければならない。
又、メモリー容量を減少させるために一方のパタ
ーンの情報圧縮をすることが行われる。例えば周
波数成分の大きさを表わす数字を並べた時間−周
波数パターンを記入したレジスタを持つようなも
のがある。これは第1フレームのパターンは1フ
レーム分だけ、又、次のフレームのパターンは3
フレーム分続くことを示している。このようなパ
ターンと圧縮していないパターンを照合する場
合、圧縮されたパターンを一度元へ戻してから非
圧縮パターンと対応ぶけられるのが一般である
が、元の状態へ戻すという無駄な作業が必要とな
る。或いは非圧縮パターンも一度圧縮演算をして
から対応づけても良いが、この場合にも不必要な
演算をすることになる。
目 的 本発明は、上述のごとき従来技術の欠点を解決
するためになされたもので、特に、無駄な演算を
除いて効率良くパターンの照合を行うことのでき
るパターン照合装置を提供することを目的として
なされたものである。
構 成 (1)、入力された音声をn個の周波数帯域に分
け、各周波数帯域ごとの音声パワーから抽出され
る1フレームの周波数パターンを、時系列にmフ
レームサンプリングしてできる周波数−時間マト
リツクス・パターンを用いたパターン照合装置に
おいて、予め複数の音声について、前記周波数パ
ターンに、その周波数パターンが何フレーム連続
するかを示す圧縮情報を付加することにより、前
記周波数−時間マトリツクス・パターンを圧縮し
て保持する辞書と、入力された認識対象の音声か
ら前記周波数−時間マトリツクス・パターンを抽
出して保持するとともに、時系列上の各周波数パ
ターンに対する圧縮情報も保持する入力パターン
保持手段と、前記辞書に保持された圧縮情報の列
である第1圧縮情報列の繰り返し数の総計と前記
入力パターン保持手段に保持された圧縮情報の列
である第2圧縮情報列の繰り返し数の総計を比較
し、両者が一致するように、何れか一方、又は、
両方の圧縮情報列を補正する圧縮情報列補正手段
と、該圧縮情報列補正手段によつて補正された第
1、第2の圧縮情報列にしたがつて、前記辞書及
び入力パターン保持手段から周波数パターンを読
み出し、両者を比較する照合手段とを有するこ
と、更には、(2)、前記圧縮情報列補正手段は、前
記第1圧縮情報列の繰り返し数の総計と前記第2
圧縮情報列の繰り返し数の総計を比較し、総計の
小さい方の圧縮情報列の伸長を行なつて両者が一
致するように補正するものであること、更には、
(3)、前記伸長は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値増加されるものであるこ
と、更には、(4)、前記圧縮情報列補正手段は、前
記第1圧縮情報列の繰り返し数の総計と前記第2
圧縮情報列の繰り返し数の総計を比較し、総計の
大きい方の圧縮情報列の短縮を行なつて両者が一
致するように補正するものであること、更には、
(5)、前記短縮は、その圧縮情報列に含まれる何れ
かの圧縮情報を所定値減少させるものであること
を特徴としたものである。以下、一実施例に基づ
いて説明する。
第1図は、本発明のパターン照合装置における
時間−周波数パターンを示す図で、周波数成分の
大きさを表わす数字を並べた時間−周波数パター
ン以外に圧縮情報Aを記入したものである。第2
図は、本発明によるパターン照合装置の一実施例
を説明するための電気的ブロツク線図で、図中、
1はマイク、2はフイルタ群、3は区間検出部、
4はレジスタ、4aは時間長レジスタ、5は照合
部、6は辞書部、7はパターン伸縮部、8は重ね
合せ類似度判定部、9はリセツト部、10は結果
表示部で、特に、本発明においては、上記目的を
達成するため、第1図に示すような時間−周波数
で表わされたパターンの時間軸に対応するレジス
タ4aを有し、パターンの照合に際し、このレジ
スタ内にパターンの伸縮情報を記入した後にこの
情報に基づいて一方のパターンを他方のパターン
に対応づけるようにしている。第2図において、
あらかじめ認識すべき全ての単語について使用者
が発声し、各単語音声は特徴量が変換されて辞書
に納められているものとする。すなわち、辞書部
6は予め複数の音声について、前記周波数パター
ンに、その周波数パターンが何フレーム連続する
かを示す圧縮情報を付加することにより、前記周
波数−時間マトリツクス・パターンを圧縮して保
持する。認識に際し、入力された音声はマイク1
からフイルタ群2を通過して時間−周波数パター
ンに変換される。フイルタ群2は通過帯域の異な
るいくつかのバンドパスフイルタにより構成され
ている。次に区間検出部3によつて単語音声に係
るパターンのみを抽出し、レジスタ4に格納す
る。すなわち、該レジスタ4は、入力された認識
対象の音声から前記周波数−時間マトリツクス・
パターンを抽出して保持するとともに、時系列上
の各周波数パターンに対する圧縮情報も保持す
る。この時にパターンは一般に10m秒毎にサンプ
ルされ、バンドパスフイルタの数は8〜30程度の
ものが用いられる。仮にバンドパスフイルタ数を
8とすると、10m秒毎に8コのデータがレジスタ
4に格納される。単語長が600m秒であるなら480
コのデータとなる。この時、レジスタ内に単語長
600m秒と一致するデータ数60コの時間長レジス
タ4aを設けておく。この時間長レジスタ4aは
リセツト状態で全て1になつている。このように
入力パターンとすでに登録されている辞書中の各
単語パターンとを照合する。辞書中のパターンは
第1図に示すごとく圧縮されており、通常のパタ
ーン部以外に同じフレームがいくつ続くかを示す
圧縮情報Aと、更に圧縮前の単語長つまりフレー
ム数を記録してある。そこで入力パターンを照合
すべき単語パターンの長さを線形挿入によつて一
致させる。ここでは仮に線形挿入による方法を述
べるがこれはどのような方法をもつてしても良く
本発明の範囲外である。まず、単語パターンの時
間長と入力パターンの時間長を比較しどちらをど
れだけ伸縮すれば良いかを決め、単語パターンの
圧縮情報をレジスタ4に入れてパターン伸縮部7
へ送る。ここでは実際のパターンは不要で入力の
時間長レジスタと単語パターンの圧縮情報のみに
よりパターンの伸縮を行なう。すなわち、該パタ
ーン伸縮部7は、前記辞書に保持された圧縮情報
の列である第1圧縮情報列の総計と前記入力パタ
ーン保持手段に保持された圧縮情報の列である第
2圧縮情報列の総計を比較し、両者が一致するよ
うに、何れか一方、又は両方の圧縮情報列を補正
する圧縮情報列補正手段を有している。仮に単語
パターンの時間長が620m秒、62サンプル(62フ
レーム)あり、短いパターンを伸ばして長いパタ
ーンに一致させるものとする入力パターンを2サ
ンプル増やさなければならない。そこで入力パタ
ーンの時間長60フレームに均一に2サンプル増す
ようにする。つまり60フレームの21フレーム目と
41フレーム目に各々20フレーム目、40フレーム目
と同じ情報を加えて均一に全体を62フレームに伸
ばす。挿入する部分は全体のフレーム数を挿入す
べきフレーム数+1で割ることにより容易に求め
られる。これが求められると20番目、40番目の時
間長レジスタ4aに1を加える。すなわち、照合
部5は、前記圧縮情報列補正手段によつて補正さ
れた第1、第2の圧縮情報列にしたがつて、前記
辞書及び入力パターン保持手段から周波数パター
ンを読み出し、両者を比較する。こうして二つの
パターンの重ね合わせ操作つまり2つのパターン
の積を取る時には両パターンの時間長レジスタと
圧縮情報を参照しながら積を取るようにする。例
えば第1図のパターンでは第1フレームのパター
ンは入力の第1フレームと積がとられ、第2フレ
ームのパターンは入力の第2、第3、第4フレー
ムと積がとられることになる。なお、ここでは入
力音声長を伸ばすことを述べたが辞書の単語パタ
ーンを伸ばす場合には圧縮情報に1を加えれば良
く縮める場合は1を引けば良い。第2図の例では
こうして一つの単語パターンとの類似を求めれば
時間長レジスタをリセツトして次の単語パターン
の照合へ移る。
以下に、重ね合わせて類似度を算出する部分を
FORTRANでサブル−チンプログラムにして示
すが、DICTは辞書の単語パターン、INPは入力
パターン、NFは時間長を一致させた後のフレー
ム数、IDは類似度である。
SUBROUTINE SUPER(DICT,INP,
NF,IDINTEGER DICT(9100),INP(9100) ID=0 J3=1 D 10 J=1,NF J1=INP(9,J) D 10 J2=1,J1 JD=DICT(9,J3)−1 IF(JD.LT.0) G T 5 D 10 I=1,8 ID=DICT(I,J3)*INP(I,J2)+ID G T 10 5 J3=J3+1 10 CONTINUE RETURN END 効 果 以上の説明から明らかなように、本発明による
と、無駄な演算がなくなり、効率の良いパターン
照合が実現できる。また、照合の際にパターンの
フレーム数を一致させる時間軸方向の伸縮処理
が、圧縮情報列を補正するだけで済むことにな
り、計算量が激減し、照合速度を飛躍的に向上さ
せることができる。
【図面の簡単な説明】
第1図は、本発明のパターン照合装置における
時間−周波数パターンを説明するための図、第2
図は、本発明によるパターン照合装置の一例を説
明するための電気的ブロツク線図である。 1…マイク、2…フイルタ群、3…区間検出
部、4…レジスタ、4a…時間長レジスタ、5…
照合部、6…辞書部、7…パターン伸縮部、8…
重ね合せ類似度判定部、9…リセツト部、10…
結果表示部。

Claims (1)

  1. 【特許請求の範囲】 1 入力された音声をn個の周波数帯域に分け、
    各周波数帯域ごとの音声パワーから抽出される1
    フレームの周波数パターンを、時系列にmフレー
    ムサンプリングしてできる周波数−時間マトリツ
    クス・パターンを用いたパターン照合装置におい
    て、予め複数の音声について、前記周波数パター
    ンに、その周波数パターンが何フレーム連続する
    かを示す圧縮情報を付加することにより、前記周
    波数−時間マトリツクス・パターンを圧縮して保
    持する辞書と、入力された認識対象の音声から前
    記周波数−時間マトリツクス・パターンを抽出し
    て保持するとともに、時系列上の各周波数パター
    ンに対する圧縮情報も保持する入力パターン保持
    手段と、前記辞書に保持された圧縮情報の列であ
    る第1圧縮情報列の繰り返し数の総計と前記入力
    パターン保持手段に保持された圧縮情報の列であ
    る第2圧縮情報列の繰り返し数の総計を比較し、
    両者が一致するように、何れか一方、又は、両方
    の圧縮情報列を補正する圧縮情報列補正手段と、
    該圧縮情報列補正手段によつて補正された第1、
    第2の圧縮情報列にしたがつて、前記辞書及び入
    力パターン保持手段から周波数パターンを読み出
    し、両者を比較する照合手段とを有することを特
    徴とするパターン照合装置。 2 前記圧縮情報列補正手段は、前記第1圧縮情
    報列の繰り返し数の総計と前記第2圧縮情報列の
    繰り返し数の総計を比較し、総計の小さい方の圧
    縮情報列の伸長を行なつて両者が一致するように
    補正するものであることを特徴とする特許請求の
    範囲第1項記載のパターン照合装置。 3 前記伸長は、その圧縮情報列に含まれる何れ
    かの圧縮情報を所定値増加されるものであること
    を特徴とする特許請求の範囲第2項記載のパター
    ン照合装置。 4 前記圧縮情報列補正手段は、前記第1圧縮情
    報列の繰り返し数の総計と前記第2圧縮情報列の
    繰り返し数の総計を比較し、総計の大きい方の圧
    縮情報列の短縮を行なつて両者が一致するように
    補正するものであることを特徴とする特許請求の
    範囲第1項記載のパターン照合装置。 5 前記短縮は、その圧縮情報列に含まれる何れ
    かの圧縮情報を所定値減少させるものであること
    を特徴とする特許請求の範囲第4項記載のパター
    ン照合装置。
JP59014112A 1984-01-27 1984-01-27 パターン照合装置 Granted JPS60158498A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59014112A JPS60158498A (ja) 1984-01-27 1984-01-27 パターン照合装置
US07/511,979 US5095508A (en) 1984-01-27 1990-04-16 Identification of voice pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59014112A JPS60158498A (ja) 1984-01-27 1984-01-27 パターン照合装置

Publications (2)

Publication Number Publication Date
JPS60158498A JPS60158498A (ja) 1985-08-19
JPH0582599B2 true JPH0582599B2 (ja) 1993-11-19

Family

ID=11852029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59014112A Granted JPS60158498A (ja) 1984-01-27 1984-01-27 パターン照合装置

Country Status (2)

Country Link
US (1) US5095508A (ja)
JP (1) JPS60158498A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163623A (ja) * 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
US5835894A (en) * 1995-01-19 1998-11-10 Ann Adcock Corporation Speaker and command verification method
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
CN100552664C (zh) * 2006-10-20 2009-10-21 东芝泰格有限公司 模式匹配装置以及方法
JP4305509B2 (ja) * 2006-12-26 2009-07-29 ヤマハ株式会社 音声処理装置およびプログラム
JP2013184603A (ja) 2012-03-08 2013-09-19 Ts Tech Co Ltd 内装材

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5882300A (ja) * 1981-11-11 1983-05-17 住友電気工業株式会社 音声認識方式
JPS59195699A (ja) * 1983-04-21 1984-11-06 三菱電機株式会社 単語音声認識装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3641496A (en) * 1969-06-23 1972-02-08 Phonplex Corp Electronic voice annunciating system having binary data converted into audio representations
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
JPS57125999A (en) * 1981-01-29 1982-08-05 Seiko Instr & Electronics Voice synthesizer
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
US4608708A (en) * 1981-12-24 1986-08-26 Nippon Electric Co., Ltd. Pattern matching system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5882300A (ja) * 1981-11-11 1983-05-17 住友電気工業株式会社 音声認識方式
JPS59195699A (ja) * 1983-04-21 1984-11-06 三菱電機株式会社 単語音声認識装置

Also Published As

Publication number Publication date
US5095508A (en) 1992-03-10
JPS60158498A (ja) 1985-08-19

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
JPH0582599B2 (ja)
JP4408490B2 (ja) データベース照会を実行する方法及びその装置
JP2989211B2 (ja) 音声認識装置における辞書制御方式
JP2980026B2 (ja) 音声認識装置
JPH02210500A (ja) 標準パターン登録方式
JP2997007B2 (ja) 音声パターンマッチング方法
AU713371B2 (en) Pattern recognition
JP3004749B2 (ja) 標準パターン登録方法
JP2760096B2 (ja) 音声認識方式
JPH0679232B2 (ja) 音声認識装置
JP2712586B2 (ja) 単語音声認識装置用パターンマッチング方式
JP3011984B2 (ja) パターン照合方法
JPH0115079B2 (ja)
JPS5882300A (ja) 音声認識方式
JPS6195399A (ja) 音声パターン照合方法
JPS63798B2 (ja)
JPS5995597A (ja) 音声特徴パラメ−タ作成方式
JPS63303395A (ja) マルチ増幅機能を備えた音声認識装置
JPS63125998A (ja) 音声入出力装置
JPS63306498A (ja) 音声区間検出方式
KR19980037321A (ko) 텍스트 음성합성 장치 및 방법
JPH01193800A (ja) 連続音声認識装置
JPH0567036B2 (ja)
JPS59165099A (ja) 連続音声認識装置