JP2813209B2

JP2813209B2 - 大語彙音声認識装置

Info

Publication number: JP2813209B2
Application number: JP1251812A
Authority: JP
Inventors: 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-09-29
Filing date: 1989-09-29
Publication date: 1998-10-22
Anticipated expiration: 2013-10-22
Also published as: JPH03116100A

Description

【発明の詳細な説明】［概要］大語彙の音声を認識する装置であって、入力音声に対
する候補単語を高速に選び出す予備選択装置を有する音
声認識装置に関し、入力音声の各フレームと音声の各基本単位（子音、母
音など）との距離の系列である特徴距離時系列の圧縮を
行うことにより、認識処理量を大幅に削減する予備選択
方式において、高い予備選択性能を得ることを目的と
し、特徴距離時系列の圧縮方式として、「圧縮対象区間の予め決められた点で区間を代表させ
ることにより圧縮を行う」か「圧縮区間の平均値で区間
を代表させることにより圧縮を行う」か、または「圧縮
区間の各基本単位の最小距離で区間を代表させることに
より圧縮を行う」手段を設けることにより構成する。

［産業上の利用分野］本発明は音声認識、特に非常に多くの認識対象を必要
とする音声文書作成、あるいは、音声による商品名入力
等に用いられる大語彙音声認識装置に関し、特に、照合
に際する処理量を減少せしめて処理の高速化を図るため
の予備選択方式に係る。

［従来の技術］第６図は、従来の音声認識装置の構成の例を示す図で
ある。

同図において、51はマイクロホン、52は特徴抽出部、
53は特徴記憶部、54は特徴距離時系列計算部、55はネッ
トワーク記憶部、56は照合部、57は認識結果決定部を表
わしている。

以下、各部の動作等について説明する。

マイクロホン１は入力された音響音声信号を電気音声
信号に変換する。

特徴抽出部52は電気音声信号をデジタル化するととも
に、電気音声信号を数ミリ秒〜十数ミリ秒の間隔でFFT
（高速フーリェ変換）などを用いて周波数分析する。

特徴記憶部53には音声の基本単位である各母音や各子
音を予め分析した特徴を格納してある。

特徴距離時系列計算部54は特徴抽出部52で計算された
分析結果と特徴記憶部53から読み出した各母音及び各子
音の特徴との距離計算を行い、第７図で示されるような
フレーム58を生成し、入力音声の全体にわたって第８図
に示されるようなＬフレームから構成される特徴距離時
系列（フレーム列）を生成する。同図において、59−１
〜59−Ｌはそれぞれフレームを表わしており、Ｌは発声
長に相当する。

ネットワーク記憶部55には第９図に示されるようなネ
ットワークが記憶されている。ネットワークは各単語の
可能な複数種類の発音を表わしたものであり、単語の端
を表す＃間の一つのパスが一種類の発音に対応してい
る。第９図のネットワークは「愛知（アイチ）」という
単語のネットワークであり、ａが母音の「ア」、ｉが母
音の「イ」、ｑが「チ」の前の閉鎖、chが「チ」の子音
部分、その後ろのｉが「チ」の母音部分、またciは無声
化した（母音部分が発声されない）「チ」を表わしてい
る。

照合部56はネットワーク記憶部55に記憶されている各
語彙のネットワークと特徴距離計算部で得られた特徴距
離時系列の照合を行い、各ネットワークと特徴距離時系
列の距離を計算する。この照合は動的計画法（DP）を用
いて行われる。照合部56は各ネットワークごとに入力
（特徴距離時系列）との距離を計算し出力する。

認識結果決定部57は照合部56で得られた各ネットワー
クの入力との距離を小さい順にソーティングし、距離の
小さい順にネットワークの語彙名を認識結果として出力
する。

［発明が解決しようとする課題］上述したような従来の方式においては、ネットワーク
記憶部に記憶されているネットワーク数が数百程度まで
は実時間認識を行うことが可能であるが、それを越える
と実時間認識ができなくなり、大語彙（数万〜十万語）
を認識する場合は実用上の問題点があった。

すなわち、この方式では、特徴距離系列計算部54は、
特徴抽出部52が、入力された電気音声信号を数ミリ秒〜
十数ミリ秒の間隔で周波数分析して出力する全部のデー
タについて、これと特徴記憶部53に記憶されている各母
音や子音の特徴との距離計算を行なった結果の膨大なデ
ータを出力し、照合部56は、これとネットワーク記憶部
55に記憶されているネットワークデータとを照合するの
で、その処理に多大の時間を必要とするのである。

そのため、従来から予備選択方式を導入して、この問
題点を解決する方式が提案されているが、予備選択用の
特別の辞書を用意する必要とする場合が多く、特に大語
彙の場合にはあらたに予備選択用の辞書を用意するのは
非常に難しい。

本発明はこのような従来の問題点を鑑み、第６図に示
したような従来の音声認識装置の構成を改良し、特別な
予備選択用の辞書を必要としない予備選択方式を実現す
ることにより、大語彙の場合にも簡単に実時間認識を行
なうことのできる音声認識装置を提供することを目的と
している。

［課題を解決するための手段］本発明によれば、上述の目的は、前記特許請求の範囲
に記載された手段により達成される。すなわち、本発明
は、入力音声区間の一定微小時間毎の特徴時系列を得る
特徴抽出部と、音声の各基本単位の特徴を記憶した特徴
記憶部と、各基本単位の特徴と入力音声の特徴時系列の
距離を計算することにより各基本単位の特徴距離時系列
を得る特徴距離時系列計算部と、音節、単語、文節、ま
たは文章などの認識対象のテンプレートとして音声の基
本単位のネットワークを予め記憶するネットワーク記憶
部と、入力音声区間の特徴距離時系列を予め用意した複
数のネットワークと照合することにより各ネットワーク
と入力音声の距離を計算する照合部と、計算された距離
の最も小さいネットワークに対応する単語名等を認識結
果として出力する認識結果決定部を有する音声認識装置
において、前記特徴距離時系列計算部の出力である入力
音声区間の一定微小時間毎の特徴距離時系列を圧縮する
特徴距離時系列圧縮部と、入力音声の圧縮された特徴距
離時系列を予めネットワーク記憶部に記憶されたネット
ワークと照合することにより各ネットワークと入力音声
の概略距離を計算する第２の照合部と、計算された概略
距離の小さいものから予め決められた個数の単語等を選
び出す候補選択部と、候補選択部の結果に存在するネッ
トワークのみをネットワーク記憶部から読み出し照合部
に転送するネットワーク選択部を有する予備選択装置を
設けた音声認識装置である。

［作用］第１図は本発明の原理的構成を示す図であって、１は
マイクロホン、２は特徴抽出部、３は特徴記憶部、４は
特徴距離時系列計算部、５はネットワーク記憶部、６は
照合部、７は認識結果決定部を表わしており、これらに
よって構成される音声認識の原理は第６図に基づいて説
明した従来のものと概ね同様である。一方、特徴距離時
系列圧縮部８、第２の照合部９、候補選択部10、ネット
ワーク選択部11によって構成される点線で囲んだ部分が
本発明の特徴を成す予備選択装置12を示している。

同図において、特徴距離時系列圧縮部８は特徴距離時
系列計算部４で計算された特徴距離時系列を圧縮する。
圧縮の様子を第２図に示す。同図において13は特徴距離
時系列計算部４で計算された特徴距離時系列を示してお
り、Ｌフレームからなる。また14は４フレーム区間毎に
圧縮された特徴時系列の例を示している。

第２の照合部９は、照合部６（第６図における照合部
56と同様）と同じ動作を行う。すなわち、ネットワーク
記憶部から読み出されたネットワークと圧縮された特徴
時系列の照合を行い、各ネットワークと圧縮された特徴
距離時系列の距離を計算する。この照合は例えば動的計
画法（DP）を用いて行われる。第２の照合部９は各ネッ
トワークと圧縮された特徴時系列との距離を計算し出力
する。

候補選択部10は第２の照合部９で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順に予め決められた個数（例えば500個）のネ
ットワークの語彙名を予備選択結果として出力する。

ネットワーク選択部11は、候補選択部10で得られた語
彙名のネットワークのみをネットワーク記憶部５より読
み出し、照合部６に転送する。

このように構成することにより、例えばネットワーク
記憶部に１万語のネットワークがある場合に従来の方法
では２秒の処理時間（一般に処理時間が0.3秒以下であ
れば実時間認識と呼ぶ）がかかるとすると、10フレーム
を１フレームに圧縮する特徴距離時系列圧縮部を用いれ
ば第２の照合部９の処理量が従来の照合部の1/10（0.2
秒）となり、候補選択部で500個の候補を出力すること
にすると、照合部６では、その500個のネットワークの
照合を行うだけでよいので照合処理時間は500/10000×
２秒＝0.1秒であり、合計0.3秒の照合処理時間で認識を
行うことができるから、実時間認識が容易に実現できる
ことになる。

［実施例］本発明による音声認識装置の原理的構成は第１図に示
したとおりであり、各部が上述したような動作を行なう
ことにより特徴距離時系列の圧縮を行なって候補の数を
削減して、大語彙音声の認識を高速で行なうものである
が、本発明においては、その特徴距離時系列の圧縮方法
についての特徴がある。以下、これについて実施例に基
づいて説明する。

第３図は第１の実施例を説明する図であって、（ａ）
は特徴距離時系列圧縮部の構成の例を、（ｂ）は標本化
の例を示しており、15は区間バッファ、16は標本化部、
17は特徴距離時系列計算部から出力された一区間の特徴
距離時系列のフレーム群、18は圧縮された特徴距離時系
列のフレームを表わしている。

本実施例は、圧縮区間内の予め決められた場所を標本
化することにより圧縮を実現するもので、区間バッファ
15は、圧縮すべき区間を一時的に記憶する。標本化部16
は区間バッファ15の予め決められたアドレスの内容のみ
を読み出し出力する。本例においては（ｂ）に示すよう
に、一区間の特徴距離時系列のフレーム群17から、その
先頭のフレームを圧縮データ18として抽出して、これに
よって一区間の特徴距離時系列17を代表するフレームと
する場合を示している。

圧縮されたフレームとして抽出するのは先頭フレーム
に限るものではなく、予め定めた任意の一定の位置のフ
レームでも良く、また、その都度何らかの要因に基づい
て決定した任意のフレームであっても良い。

第４図は第２の実施例を説明する図であって、（ａ）
は特徴距離時系列圧縮部の構成の例を、（ｂ）は平均計
算についての説明を示しており、19は区間バッファ、20
は平均計算部、21は一区間の特徴距離時系列のフレーム
群、22は上記一区間の特徴距離時系列のフレームの各値
の平均値を採ることにより圧縮されたフレームを表わし
ている。すなわち、本実施例は、圧縮区間内の各音声単
位の特徴距離の平均で区間を代表させることにより圧縮
を実現するもので区間バッファ19に格納された一区間の
各フレームについて平均計算部20で各音声単位の特徴距
離毎に平均値を計算し出力することにより、これらの平
均値を有する圧縮フレーム22を生成するものである。

第５図は第３の実施例を説明する図であって、（ａ）
は特徴距離時系列圧縮部の構成の例を、（ｂ）は最小距
離検索による圧縮の例を示しており、23は区間バッフ
ァ、24は最小距離検索部、25は一区間の特徴距離時系列
のフレーム群、26は圧縮されたフレームを表わしてい
る。また、英字符Ａ〜Ｄで示す黒丸印は区間中で音声の
各基本単位との最小の距離の値を持つフレーム位置を示
している。

本実施例は、圧縮区間内の各音声単位の特徴距離の最
小距離で区間を代表させることにより圧縮を実現するも
ので区間バッファ23に格納された一区間の各フレームか
ら最小距離検出部24が各音声単位の特徴距離毎に最小距
離を検出して出力することにより、各要素がそれぞれ最
小距離を有する圧縮フレーム26を生成するものである。

なお、以上の説明では総て、未知の音声に係る特徴時
系列と、既知の音声の各基本単位の特徴とを比較してそ
の距離を求め、あるいはその距離の値の最も小なるもの
を採択するものとして説明しているが、これらは、距離
に限るものではなく、両者間の類似度または確率を求
め、その値の最大なるものを採択する方法を採る場合で
あっても全く同様な効果が得られることは明らかであ
る。

［発明の効果］以上説明したように本発明によれば、予備選択用の辞
書等を用意することなく、簡潔な構成の音声認識装置に
よって大語彙の音声認識を迅速に行なうことができる利
点がある。そして、データを圧縮したことによる認識率
の低下も少なく、例えば、前述の第３の実施例の方法
（特徴時系列の一区間内の各フレームの内の各音声単位
の特徴距離ごとの最小距離を求める方法）を用いて、実
験した結果の例では、1000単語（地名）を用い、男女各
５名の話者で、音声の基本単位の特徴を学習するための
学習単語数を200としたとき、特徴時系列圧縮部での圧
縮率が30/1000（候補30個）の場合の誤り率が0.2％以下
と言うデータが得られている。

【図面の簡単な説明】

第１図は本発明の原理的構成を示す図、第２図は特徴時
系列の圧縮について説明する図、第３図は第１の実施例
を説明する図、第４図は第２の実施例を説明する図、第
５図は第３の実施例を説明する図、第６図は従来の音声
認識装置の構成の例を示す図、第７図はフレームの構成
の例を示す図、第８図は特徴距離時系列（フレーム列）
の例を示す図、第９図はネットワークの例を示す図であ
る。１……マイクロホン、２……特徴抽出部、３……特徴記
憶部、４……特徴距離時系列計算部、５……ネットワー
ク記憶部、６……照合部、７……認識結果決定部、８…
…特徴距離時系列圧縮部、９……第２の照合部、10……
候補選択部、11……ネットワーク選択部、12……予備選
択装置、13……特徴距離時系列、14……圧縮された特徴
距離時系列、15,19,23……区間バッファ、16……標本化
部、17,21,25……１区間の特徴距離時系列データのフレ
ーム群、18,22,26……圧縮された特徴距離時系列のフレ
ーム、20……平均計算部、24……最小距離検索部

フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 5/06 G10L 3/00 531 G10L 3/00 561 G10L 3/00 515 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声区間の一定微小時間毎の特徴時系
列を得る特徴抽出部（２）と、音声の各基本単位の特徴
を記憶した特徴記憶部（３）と、各基本単位の特徴と入
力音声の特徴時系列の距離を計算することにより各基本
単位の特徴距離時系列を得る特徴距離時系列計算部
（４）と、音節、単語、文節、または文章などの認識対
象のテンプレートとして音声の基本単位のネットワーク
を予め記憶するネットワーク記憶部（５）と、入力音声
区間の特徴距離時系列を予め用意した複数のネットワー
クと照合することにより各ネットワークと入力音声の距
離を計算する照合部（６）と、計算された距離の最も小
さいネットワークに対応する単語名等を認識結果として
出力する認識結果決定部（７）を有する音声認識装置に
おいて、前記、特徴距離時系列計算部（４）の出力である入力音
声区間の一定微小時間毎の特徴距離時系列を圧縮する特
徴距離時系列圧縮部（８）と、入力音声の圧縮された特
徴距離時系列を予めネットワーク記憶部（５）に記憶さ
れたネットワークと照合することにより各ネットワーク
と入力音声の概略距離を計算する第２の照合部（９）
と、計算された概略距離の小さいものから予め決められ
た個数の単語等を選び出す候補選択部（10）と、候補選
択部の結果に存在するネットワークのみをネットワーク
記憶部（５）から読み出し照合部（６）に転送するネッ
トワーク選択部（11）から成る予備選択装置を設けたこ
とを特徴とする大語彙音声認識装置。
【請求項２】特徴距離時系列圧縮部は、特徴距離時系列
の一定時間ごとの区間内の予め決められた位置から系列
要素を標本化し、その標本値に区間を代表させることに
より、特徴距離時系列を圧縮する構成である請求項１記
載の大語彙音声認識装置。
【請求項３】特徴距離時系列圧縮部は、特徴距離時系列
の一定時間ごとの区間内の各音声単位の特徴距離の平均
値を計算し、その平均値に区間を代表させることによ
り、特徴距離時系列を圧縮する構成である請求項１記載
の大語彙音声認識装置。
【請求項４】特徴距離時系列圧縮部は、特徴距離時系列
の一定時間ごとの区間内の各音声単位の特徴距離毎の最
小距離を求め、その最小距離に区間を代表させることに
より、特徴距離時系列を圧縮する構成である請求項１記
載の大語彙音声認識装置。
【請求項５】入力音声の圧縮された特徴距離時系列と既
知のネットワークとの照合に際して距離の代りに類似度
を用い、類似度の大なるものを候補として選出する請求
項１〜４記載の大語彙音声認識装置。
【請求項６】入力音声の圧縮された特徴距離時系列と既
知のネットワークとの照合に際して距離の代りに確率を
用い、確率の大なるものを候補として選出する請求項１
〜４記載の大語彙音声認識装置。