JPH03116100A - 大語彙音声認識装置 - Google Patents

大語彙音声認識装置

Info

Publication number
JPH03116100A
JPH03116100A JP1251812A JP25181289A JPH03116100A JP H03116100 A JPH03116100 A JP H03116100A JP 1251812 A JP1251812 A JP 1251812A JP 25181289 A JP25181289 A JP 25181289A JP H03116100 A JPH03116100 A JP H03116100A
Authority
JP
Japan
Prior art keywords
time series
feature
distance
unit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1251812A
Other languages
English (en)
Other versions
JP2813209B2 (ja
Inventor
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1251812A priority Critical patent/JP2813209B2/ja
Publication of JPH03116100A publication Critical patent/JPH03116100A/ja
Application granted granted Critical
Publication of JP2813209B2 publication Critical patent/JP2813209B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [4!  要] 人語嘗の音声を認識する装置であって、入力音声に対す
る候補単語を高速に選び出す予備選択装置を有する音声
認識装置に関し、 入力音声の各フレームと音声の各基本単位(子音、母音
など)との距離の系列である特徴距離時系列の圧縮を行
うことにより、認識処理量を大幅に削減する予備選択方
式において、高い予備選択性能を得ることを目的とし、
特徴距離時系列の圧縮方式として、 「圧縮対象区間の予め決められた点で区間を代表させる
ことにより圧縮を行う」か「圧縮区間の平均値で区間を
代表させることにより圧縮を行う」か、または「圧縮区
間の各基本単位の最小距離で区間を代表させることによ
り圧縮を行う」手段を設けることにより構成する。
[産業上の利用分野〕 本発明は音声認識、特に非常に多くの認識対象を必要き
する音声文書作成、あるいは、音声による商品名入力等
に用いられる大IH音声認識装置に関し、特に、照合に
際する処理量を減少せしめて処理の高速化を図るための
予備選択方式に係る。
C従来の技術] 第6図は、従来の音声認識装置の構成の例を示す図であ
る。
同図にふいて、51はマイクロホン、52は特徴抽出部
、53は特徴記憶部、54は特徴距離時系列計算部、5
5はネットワーク記憶部、56は照合部57は認識結果
決定部を表わしている。
以下、各部の動作等について説明する。
マイクロホン1は入力された音響音声信号を電気音声信
号に変換する。
特徴抽出部52は電気音声信号をデジタル化するととも
に、電気音声信号を数ミリ秒〜十数ミリ秒の間隔でFF
T(高速フーリエ変換)などを用いて周波数分析する。
特徴記憶部53には音声の基本単位である各母音や各子
音を予め分析した特徴を格納しである。
特徴距離時系列計算部54は特徴抽出部52で計算され
た分析結果と特徴記憶部53から読み出した各母音及び
各子音の特徴との距離計算を行い、第7図で示されるよ
うなフレーム58を生成し、入力音声の全体にわたって
第8図に示されるようなLフレームから構成される特徴
距離時系列(フレーム列)を生成する。同図において、
59−1〜59−Lはそれぞれフレームを表わしており
、Lは発声長に相当する。
ネットワーク記憶部55には第9図に示されるようなネ
ットワークが記憶されている。ネットワークは各車二吾
の可能な複数種類の発音を表わしたものであり、単XN
の端を表す#間の一つのパスが一種類の発音に対応して
いる。第9図のネットワークは「愛知(アイチ)」とい
う単語のネットワークであり、aが母音の「ア」、iが
母音の「イJ、Qが「チ」の前の閉鎖、Chが「チ」の
子音部分、その後ろの1が「チ」の母音部分、またci
は無声化した(母音部分が発声されない)「チJを表わ
している。
照合部56はネットワーク記憶部55に記憶されている
各講堂のネットワークと特徴距離計算部で得られた特徴
距離時系列の照合を行い、各ネットワークと特徴距離時
系列の距離を計算する。
この照合は動的計画法(DP)を用いて行われる。照合
部56は各ネットワークごとに入力(特徴距離時系列)
との距離を計算し出力する。
認識結果決定部57は照合部56で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順にネットワークの語常名を認識結果として出
力する。
[発明が解決しようとする課題] 上述したような従来の方式においては、ネットワーク記
憶部に記憶されているネットワーク数が数百程度までは
実時間認識を行うことが可能であるが、それを越えると
実時間PSRができなくなり、大講堂(数百〜十万培)
を認識する場合は実用上の問題点があった。
すなわち、この方式では、特徴距離系列計算部54は、
特徴抽出部52が、入力された電気音声信号を数ミリ秒
〜士数ミリ秒の間隔で周波数分析して出力する全部のデ
ータについて、これと特徴記憶部53に記憶されている
各母音や子音の特徴との距離計算を行なった結果の膨大
なデータを出力し、照合部56は、これとネットワーク
記憶部55に記憶されているネットワークデータとを照
合するので、その処理に多大の時間を必要とするのであ
る。
そのため、従来から予備選択方式を導入して、この問題
点を解決する方式が促案されているが、予備選択用の特
別の辞書を用意する必要とする場合が多く、特に大講堂
の場合にはあらたに予備選択用の辞書を用意するのは非
常に難しい。
本発明はこのような従来の問題点を鑑み、第6図に示し
たような従来の音声認識装置の構成を改良し、特別な予
備選択用の辞書を必要としない予備選択方式を実現する
ことにより、大梧量の場合にも簡単に実時間認識を行な
うことのできる音声認識装置を促供することを目的とし
ている。
[課題を解決するための手段] 本発明によれば、上述の目的は、前記特許請求の範囲に
記載された手段により達成される。
すなわち、本発明は、入力音声区間の一定微小時間毎の
特徴時系列を得る特徴抽出部と、音声の各基本単位の特
徴を記憶した特徴記憶部と、各基本単位の特徴と入力音
声の特徴時系列の距離を計算することにより各基本単位
の特徴距離時系列を得る特徴距離時系列計算部と、音節
、単語、文節、または文章などの認識対象のテンプレー
トとして音声の基本単位のネットワークを予め記憶する
ネットワーク記憶部と、入力音声区間の特徴距離時系列
を予め用意した複数のネットワークと照合することによ
り各ネットワークと入力音声の距離を計算する照合部と
、計算された距離の最も小さいネットワークに対応する
単語名等を認識結果として出力する認識結果決定部を有
する音声認識装置において、前記特徴距離時系列計算部
の出力である入力音声区間の一定微小時間毎の特徴距離
時系列を圧縮する特徴距離時系列圧縮部と、入力音声の
圧縮された特徴距離時系列を予めネットワーク記憶部に
記憶されたネットワークと照合することにより各ネット
ワークと入力音声の概略距離を計算する第2の照合部と
、計算された概略距離の小さいものから予め決められた
個数の単語等を選び出す候補選択部と、候補選択部の結
果に存在するネットワークのみをネット7−り記憶部か
ら読み出し照合部に転送するネットワーク選択耶を有す
る予備選択装置を設けた音声認識装置である。
[作 用コ 第1図は本発明の原理的構成を示す図であって、1はマ
イクロホン、2は特徴抽出部、3は特徴記憶部、4は特
徴距離時系列計算部、5はネットワーク記憶部、6は照
合部、7は認識結果決定部を表わしており、これらによ
って構成される音声認識の原理は第6図に基づいて説明
した従来のものと概ね同様である。一方、特徴距離時系
列圧縮部8、第2の照合部9、候補選択部10、ネット
ワーク選択部11によって構成される点線で囲んだ部分
が本発明の特徴を成す予備選択装置12を示している。
同図において、特徴距離時系列圧縮部8は特徴距離時系
列計算部4で計算された特徴距離時系列を圧縮する。圧
縮の様子を第2図に示す。
同図において13は特徴距離時系列計算部4で計算され
た特徴距離時系列を示しており、Lフレームからなる。
また14は4フレ一ム区間毎に圧縮された特徴時系列の
例を示している。
第2の照合部9は、照合部6(第6図における照合部5
6と同様)と同じ動作を行う。すなわち、ネットワーク
記憶部から読み出されたネットワークと圧縮された特徴
時系列の照合を行い、各ネットワークと圧縮された特徴
距離時系列の距離を計算する。この照合は例えば動的計
画法(DP>を用いて行われる。第2の照合部9は各ネ
ットワークと圧縮された特徴時系列との距離を計算し出
力する。
候補選択部10は第2の照合部9で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順に予め決められた個数(例えば500個)の
ネットワークの語会名を予備選択結果として出力する。
ネットワーク選択aB11は、候補選択部lOで得られ
た語霊名のネットワークのみをネットワーク記憶部5よ
り読み出し、照合部6に転送する。
このように構成することにより、例えばネットワーク記
憶部に1万語のネットワークがある場合に従来の方法で
は2秒の処理時間(一般に処理時間が0.3秒以下であ
れば実時間ui識と呼ぶ)がかかるとすると、10フレ
ームを1フレームに圧縮する特徴距離系列圧縮部を用い
れば第2の照合部9の処理量が従来の照合部のl/10
(0,2秒)となり、候補選択部で500個の候補を出
力することにすると、照合部6では、その500個のネ
ットワークの照合を行うだけでよいので照合処理時間は
500/10000 x 2秒=0.1秒であり、合計
OJ秒の照合処理時間で認識を行うことができるから、
実時間認識が容易に実現できることになる。
[実施例コ 本発明による音声認識装置の原理的構成は第1図に示し
たとおりであり、各部が上述したような動作を行なうこ
とにより特徴距離時系列の圧縮を行なって候補の数を削
減して、人語霊音声の認識を高速で行なうものであるが
、本発明においては、その特徴距離時系列の圧縮方法に
ついての特徴がある。以下、これについて実施例に基づ
いて説明する。
第3図は第1の実施例を説明する図であって、(a)は
特徴距離時系列圧縮部の構成の例を、(b)は標本化の
例を示しており、15は区間バッファ、16は標本化部
、17は特徴距離時系列計算部から出力された一区間の
特徴距離時系列のフレーム群、18は圧縮された特徴距
離時系列のフレームを表わしている。
本実施例は、圧縮区間内の予め決められた場所を標本化
することにより圧縮を実現するもので、区間バッファ1
5は、圧縮すべき区間を一時的に記憶する。標本化部1
6は区間バッファ15の予め決められたアドレスの内容
のみを読み出し出力する。本例においてはい)に示すよ
うに、区間の特徴距離時系列のフレーム群17から、そ
の先頭のフレームを圧縮データ18として抽出して、こ
れによって一区間の特徴距離時系列17を代表するフレ
ームとする場合を示している。
圧縮されたフレームとして抽出するのは先頭フレームに
限るものではなく、予め定めた任意の一定の位置のフレ
ームでも良く、また、その都度何らかの要因に基づいて
決定した任意のフレームであっても良い。
第4図は第2の実施例を説明する図であって、(a)は
特徴距離時系列圧縮部の構成の例を、(b)は平均計算
についての説明を示しており、19は区間バッファ、2
0は平均計算部、21は一区間の特徴距離時系列のフレ
ーム群、22は上記一区間の特徴距離時系列のフレーム
の各値の平均値を採ることにより圧縮されたフレームを
表わしている。すなわち、本実施例は、圧縮区間内の各
音声単位の特徴距離の平均で区間を代表させることによ
り圧縮を実現するもので区間バッファ19に格納された
一区間の各フレームについて平均計算部20で各音声単
位の特徴距離毎に平均値を計算し出力することにより、
これらの平均値を存する圧縮フレーム22を生成するも
のである。
第5図は第3の実施例を説明する図であって、(a)は
特徴距離時系列圧縮部の構成の例を、ら)は最小距離検
索による圧縮の例を示しており、23は区間バッファ、
24は最小距離検索部、25は一区間の特徴距離時系列
のフレーム群、26は圧縮されたフレームを表わしてい
る。また、英字群A−Dで示す黒丸印は区間中で音声の
各基本単位との最小の距離の値を持つフレーム位置を示
している。
本実施例は、圧縮区間内の各音声単位の特徴距離の最小
距離で区間を代表させることにより圧縮を実現するもの
で区間バッファ23に格納された一区間の各フレームか
ら最小距離検出B24が各音声単位の特徴距離毎に最小
距離を検出して出力することにより、各要素がそれぞれ
最小距離を有する圧縮フレーム26を生成するものであ
る。
なお、以上の説明では総て、未知の音声に係る特徴時系
列と、既知の音声の各基本単位の特徴とを比較してその
距離を求め、あるいはその距離の値の最も小なるものを
採択するものとして説明しているが、これらは、距離に
限るものではな(、両者間の類似度または確率を求め、
その値の最大なるものを採択する方法を採る場合であっ
ても全く同様な効果が得られることは明らかである。
[発明の効果] 以上説明したように本発明によれば、予備選択用の辞書
等を用意することなく、簡潔な構成の音声認識装置によ
って大培堂の音声認識を迅速に行なうことができる利点
がある。そして、データを圧縮したことによる認識率の
低下も少なく、例えば、前述の第3の実施例の方法(特
徴時系列の一区間内の各フレームの内の各音声単位の特
徴距離ごとの最小距離を求める方法)を用いて、実験し
た結果の例では、1000単語(地名)を用い、男女各
5名の話者で、音声の基本単位の特徴を学習するための
学習単語数を200としたとき、特徴時系列圧縮部での
圧縮率が3(1/1000 (候?il!30個)の場
合の誤り率が0.2%以下と言うデータが得られている
【図面の簡単な説明】
第1図は本発明の原理的構成を示す図、第2図は特徴時
系列の圧縮について説明する図、第3図は第1の実施例
を説明する図、第4図は第2の実施例を説明する図、第
5図は第3の実施例を説明する図、第6図は従来の音声
認識装置の構成の例を示す図、第7図はフレームの構成
の例を示す図、第8図は特徴距離時系列(フレーム列)
の例を示す図、第9図はネットワークの例を示す図であ
る。

Claims (1)

  1. 【特許請求の範囲】 1、入力音声区間の一定微小時間毎の特徴時系列を得る
    特徴抽出部(2)と、音声の各基本単位の特徴を記憶し
    た特徴記憶部(3)と、各基本単位の特徴と入力音声の
    特徴時系列の距離を計算することにより各基本単位の特
    徴距離時系列を得る特徴距離時系列計算部(4)と、音
    節、単語、文節、または文章などの認識対象のテンプレ
    ートとして音声の基本単位のネットワークを予め記憶す
    るネットワーク記憶部(5)と、入力音声区間の特徴距
    離時系列を予め用意した複数のネットワークと照合する
    ことにより各ネットワークと入力音声の距離を計算する
    照合部(6)と、計算された距離の最も小さいネットワ
    ークに対応する単語名等を認識結果として出力する認識
    結果決定部(7)を有する音声認識装置において、 前記、特徴距離時系列計算部(4)の出力である入力音
    声区間の一定微小時間毎の特徴距離時系列を圧縮する特
    徴距離時系列圧縮部(8)と、入力音声の圧縮された特
    徴距離時系列を予めネットワーク記憶部(5)に記憶さ
    れたネットワークと照合することにより各ネットワーク
    と入力音声の概略距離を計算する第2の照合部(9)と
    、計算された概略距離の小さいものから予め決められた
    個数の単語等を選び出す候補選択部(10)と、候補選
    択部の結果に存在するネットワークのみをネットワーク
    記憶部(5)から読み出し照合部(6)に転送するネッ
    トワーク選択部(11)から成る予備選択装置を設けた
    ことを特徴とする大語彙音声認識装置。 2、特徴距離時系列圧縮部は、特徴距離時系列の一定時
    間ごとの区間内の予め決められた位置から系列要素を標
    本化し、その標本値に区間を代表させることにより、特
    徴距離時系列を圧縮する構成である請求項1記載の大語
    彙音声認識装置。 3、特徴距離時系列圧縮部は、特徴距離時系列の一定時
    間ごとの区間内の各音声単位の特徴距離の平均値を計算
    し、その平均値に区間を代表させることにより、特徴距
    離時系列を圧縮する構成である請求項1記載の大語彙音
    声認識装置。 4、特徴距離時系列圧縮部は、特徴距離時系列の一定時
    間ごとの区間内の各音声単位の特徴距離毎の最小距離を
    求め、その最小距離に区間を代表させることにより、特
    徴距離時系列を圧縮する構成である請求項1記載の大語
    彙音声認識装置。 5、入力音声の圧縮された特徴距離時系列と既知のネッ
    トワークとの照合に際して距離の代りに類似度を用い、
    類似度の大なるものを候補として選出する請求項1〜4
    記載の大語彙音声認識装置。 6、入力音声の圧縮された特徴距離時系列と既知のネッ
    トワークとの照合に際して距離の代りに確率を用い、確
    率の大なるものを候補として選出する請求項1〜4記載
    の大語彙音声認識装置。
JP1251812A 1989-09-29 1989-09-29 大語彙音声認識装置 Expired - Fee Related JP2813209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1251812A JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1251812A JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Publications (2)

Publication Number Publication Date
JPH03116100A true JPH03116100A (ja) 1991-05-17
JP2813209B2 JP2813209B2 (ja) 1998-10-22

Family

ID=17228289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1251812A Expired - Fee Related JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Country Status (1)

Country Link
JP (1) JP2813209B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
JP2007118783A (ja) * 2005-10-28 2007-05-17 Kasatani:Kk 機器取付けスタンド
JP2010079521A (ja) * 2008-09-25 2010-04-08 Mitsubishi Electric Corp 交通統計情報生成装置、車載交通情報処理装置、および、交通情報処理システム
US7797160B2 (en) 2002-12-06 2010-09-14 Nippon Telegraph And Telephone Corporation Signal compression method, device, program, and recording medium; and signal retrieval method, device, program, and recording medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
US7797160B2 (en) 2002-12-06 2010-09-14 Nippon Telegraph And Telephone Corporation Signal compression method, device, program, and recording medium; and signal retrieval method, device, program, and recording medium
JP2007118783A (ja) * 2005-10-28 2007-05-17 Kasatani:Kk 機器取付けスタンド
JP4708160B2 (ja) * 2005-10-28 2011-06-22 株式会社カサタニ 機器取付けスタンド
JP2010079521A (ja) * 2008-09-25 2010-04-08 Mitsubishi Electric Corp 交通統計情報生成装置、車載交通情報処理装置、および、交通情報処理システム

Also Published As

Publication number Publication date
JP2813209B2 (ja) 1998-10-22

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
EP2048655B1 (en) Context sensitive multi-stage speech recognition
CN111696557A (zh) 语音识别结果的校准方法、装置、设备及存储介质
Shaikh Naziya et al. Speech recognition system—a review
Kurzekar et al. Continuous speech recognition system: A review
JP3444108B2 (ja) 音声認識装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
JP2813209B2 (ja) 大語彙音声認識装置
Davis et al. Evaluation of acoustic parameters for monosyllabic word identification
Hase et al. Speech Recognition: A Concise Significance
JP3039453B2 (ja) 音声認識装置
JP4236502B2 (ja) 音声認識装置
Jalalvand et al. A classifier combination approach for Farsi accents recognition
Kaur et al. Speech based retrieval system for Punjabi language
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3110025B2 (ja) 発声変形検出装置
Yoong et al. Development Of Malaysian English Large Vocabulary Continuous Speech Recognizer Using Acoustic Model Adaptation
JP2943473B2 (ja) 音声認識方法
Forgie et al. An overview of the Lincoln Laboratory speech recognition system
Hong Malaysian English Large Vocabulary Continuous Speech Recognizer: An Improvement Using Acoustic Model Adapation
Mantri et al. Performance Evaluation of Human Voice Recognition System based on MFCC feature and HMM classifier
Dav et al. Speech recognition: A Review
JP3033132B2 (ja) 言語処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees