JPH03116100A

JPH03116100A - 大語彙音声認識装置

Info

Publication number: JPH03116100A
Application number: JP1251812A
Authority: JP
Inventors: Akihiro Kimura; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-09-29
Filing date: 1989-09-29
Publication date: 1991-05-17
Anticipated expiration: 2013-10-22
Also published as: JP2813209B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［４！　　要］人語嘗の音声を認識する装置であって、入力音声に対す
る候補単語を高速に選び出す予備選択装置を有する音声
認識装置に関し、入力音声の各フレームと音声の各基本単位（子音、母音
など）との距離の系列である特徴距離時系列の圧縮を行
うことにより、認識処理量を大幅に削減する予備選択方
式において、高い予備選択性能を得ることを目的とし、
特徴距離時系列の圧縮方式として、「圧縮対象区間の予め決められた点で区間を代表させる
ことにより圧縮を行う」か「圧縮区間の平均値で区間を
代表させることにより圧縮を行う」か、または「圧縮区
間の各基本単位の最小距離で区間を代表させることによ
り圧縮を行う」手段を設けることにより構成する。

［産業上の利用分野〕本発明は音声認識、特に非常に多くの認識対象を必要き
する音声文書作成、あるいは、音声による商品名入力等
に用いられる大ＩＨ音声認識装置に関し、特に、照合に
際する処理量を減少せしめて処理の高速化を図るための
予備選択方式に係る。

Ｃ従来の技術］第６図は、従来の音声認識装置の構成の例を示す図であ
る。

同図にふいて、５１はマイクロホン、５２は特徴抽出部
、５３は特徴記憶部、５４は特徴距離時系列計算部、５
５はネットワーク記憶部、５６は照合部５７は認識結果
決定部を表わしている。

以下、各部の動作等について説明する。

マイクロホン１は入力された音響音声信号を電気音声信
号に変換する。

特徴抽出部５２は電気音声信号をデジタル化するととも
に、電気音声信号を数ミリ秒〜十数ミリ秒の間隔でＦＦ
Ｔ（高速フーリエ変換）などを用いて周波数分析する。

特徴記憶部５３には音声の基本単位である各母音や各子
音を予め分析した特徴を格納しである。

特徴距離時系列計算部５４は特徴抽出部５２で計算され
た分析結果と特徴記憶部５３から読み出した各母音及び
各子音の特徴との距離計算を行い、第７図で示されるよ
うなフレーム５８を生成し、入力音声の全体にわたって
第８図に示されるようなＬフレームから構成される特徴
距離時系列（フレーム列）を生成する。同図において、
５９−１〜５９−Ｌはそれぞれフレームを表わしており
、Ｌは発声長に相当する。

ネットワーク記憶部５５には第９図に示されるようなネ
ットワークが記憶されている。ネットワークは各車二吾
の可能な複数種類の発音を表わしたものであり、単ＸＮ
の端を表す＃間の一つのパスが一種類の発音に対応して
いる。第９図のネットワークは「愛知（アイチ）」とい
う単語のネットワークであり、ａが母音の「ア」、ｉが
母音の「イＪ、Ｑが「チ」の前の閉鎖、Ｃｈが「チ」の
子音部分、その後ろの１が「チ」の母音部分、またｃｉ
は無声化した（母音部分が発声されない）「チＪを表わ
している。

照合部５６はネットワーク記憶部５５に記憶されている
各講堂のネットワークと特徴距離計算部で得られた特徴
距離時系列の照合を行い、各ネットワークと特徴距離時
系列の距離を計算する。

この照合は動的計画法（ＤＰ）を用いて行われる。照合
部５６は各ネットワークごとに入力（特徴距離時系列）
との距離を計算し出力する。

認識結果決定部５７は照合部５６で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順にネットワークの語常名を認識結果として出
力する。

［発明が解決しようとする課題］上述したような従来の方式においては、ネットワーク記
憶部に記憶されているネットワーク数が数百程度までは
実時間認識を行うことが可能であるが、それを越えると
実時間ＰＳＲができなくなり、大講堂（数百〜十万培）
を認識する場合は実用上の問題点があった。

すなわち、この方式では、特徴距離系列計算部５４は、
特徴抽出部５２が、入力された電気音声信号を数ミリ秒
〜士数ミリ秒の間隔で周波数分析して出力する全部のデ
ータについて、これと特徴記憶部５３に記憶されている
各母音や子音の特徴との距離計算を行なった結果の膨大
なデータを出力し、照合部５６は、これとネットワーク
記憶部５５に記憶されているネットワークデータとを照
合するので、その処理に多大の時間を必要とするのであ
る。

そのため、従来から予備選択方式を導入して、この問題
点を解決する方式が促案されているが、予備選択用の特
別の辞書を用意する必要とする場合が多く、特に大講堂
の場合にはあらたに予備選択用の辞書を用意するのは非
常に難しい。

本発明はこのような従来の問題点を鑑み、第６図に示し
たような従来の音声認識装置の構成を改良し、特別な予
備選択用の辞書を必要としない予備選択方式を実現する
ことにより、大梧量の場合にも簡単に実時間認識を行な
うことのできる音声認識装置を促供することを目的とし
ている。

［課題を解決するための手段］本発明によれば、上述の目的は、前記特許請求の範囲に
記載された手段により達成される。

すなわち、本発明は、入力音声区間の一定微小時間毎の
特徴時系列を得る特徴抽出部と、音声の各基本単位の特
徴を記憶した特徴記憶部と、各基本単位の特徴と入力音
声の特徴時系列の距離を計算することにより各基本単位
の特徴距離時系列を得る特徴距離時系列計算部と、音節
、単語、文節、または文章などの認識対象のテンプレー
トとして音声の基本単位のネットワークを予め記憶する
ネットワーク記憶部と、入力音声区間の特徴距離時系列
を予め用意した複数のネットワークと照合することによ
り各ネットワークと入力音声の距離を計算する照合部と
、計算された距離の最も小さいネットワークに対応する
単語名等を認識結果として出力する認識結果決定部を有
する音声認識装置において、前記特徴距離時系列計算部
の出力である入力音声区間の一定微小時間毎の特徴距離
時系列を圧縮する特徴距離時系列圧縮部と、入力音声の
圧縮された特徴距離時系列を予めネットワーク記憶部に
記憶されたネットワークと照合することにより各ネット
ワークと入力音声の概略距離を計算する第２の照合部と
、計算された概略距離の小さいものから予め決められた
個数の単語等を選び出す候補選択部と、候補選択部の結
果に存在するネットワークのみをネット７−り記憶部か
ら読み出し照合部に転送するネットワーク選択耶を有す
る予備選択装置を設けた音声認識装置である。

［作　用コ第１図は本発明の原理的構成を示す図であって、１はマ
イクロホン、２は特徴抽出部、３は特徴記憶部、４は特
徴距離時系列計算部、５はネットワーク記憶部、６は照
合部、７は認識結果決定部を表わしており、これらによ
って構成される音声認識の原理は第６図に基づいて説明
した従来のものと概ね同様である。一方、特徴距離時系
列圧縮部８、第２の照合部９、候補選択部１０、ネット
ワーク選択部１１によって構成される点線で囲んだ部分
が本発明の特徴を成す予備選択装置１２を示している。

同図において、特徴距離時系列圧縮部８は特徴距離時系
列計算部４で計算された特徴距離時系列を圧縮する。圧
縮の様子を第２図に示す。

同図において１３は特徴距離時系列計算部４で計算され
た特徴距離時系列を示しており、Ｌフレームからなる。

また１４は４フレ一ム区間毎に圧縮された特徴時系列の
例を示している。

第２の照合部９は、照合部６（第６図における照合部５
６と同様）と同じ動作を行う。すなわち、ネットワーク
記憶部から読み出されたネットワークと圧縮された特徴
時系列の照合を行い、各ネットワークと圧縮された特徴
距離時系列の距離を計算する。この照合は例えば動的計
画法（ＤＰ＞を用いて行われる。第２の照合部９は各ネ
ットワークと圧縮された特徴時系列との距離を計算し出
力する。

候補選択部１０は第２の照合部９で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順に予め決められた個数（例えば５００個）の
ネットワークの語会名を予備選択結果として出力する。

ネットワーク選択ａＢ１１は、候補選択部ｌＯで得られ
た語霊名のネットワークのみをネットワーク記憶部５よ
り読み出し、照合部６に転送する。

このように構成することにより、例えばネットワーク記
憶部に１万語のネットワークがある場合に従来の方法で
は２秒の処理時間（一般に処理時間が０．３秒以下であ
れば実時間ｕｉ識と呼ぶ）がかかるとすると、１０フレ
ームを１フレームに圧縮する特徴距離系列圧縮部を用い
れば第２の照合部９の処理量が従来の照合部のｌ／１０
（０，２秒）となり、候補選択部で５００個の候補を出
力することにすると、照合部６では、その５００個のネ
ットワークの照合を行うだけでよいので照合処理時間は
５００／１００００　ｘ　２秒＝０．１秒であり、合計
ＯＪ秒の照合処理時間で認識を行うことができるから、
実時間認識が容易に実現できることになる。

［実施例コ本発明による音声認識装置の原理的構成は第１図に示し
たとおりであり、各部が上述したような動作を行なうこ
とにより特徴距離時系列の圧縮を行なって候補の数を削
減して、人語霊音声の認識を高速で行なうものであるが
、本発明においては、その特徴距離時系列の圧縮方法に
ついての特徴がある。以下、これについて実施例に基づ
いて説明する。

第３図は第１の実施例を説明する図であって、（ａ）は
特徴距離時系列圧縮部の構成の例を、（ｂ）は標本化の
例を示しており、１５は区間バッファ、１６は標本化部
、１７は特徴距離時系列計算部から出力された一区間の
特徴距離時系列のフレーム群、１８は圧縮された特徴距
離時系列のフレームを表わしている。

本実施例は、圧縮区間内の予め決められた場所を標本化
することにより圧縮を実現するもので、区間バッファ１
５は、圧縮すべき区間を一時的に記憶する。標本化部１
６は区間バッファ１５の予め決められたアドレスの内容
のみを読み出し出力する。本例においてはい）に示すよ
うに、区間の特徴距離時系列のフレーム群１７から、そ
の先頭のフレームを圧縮データ１８として抽出して、こ
れによって一区間の特徴距離時系列１７を代表するフレ
ームとする場合を示している。

圧縮されたフレームとして抽出するのは先頭フレームに
限るものではなく、予め定めた任意の一定の位置のフレ
ームでも良く、また、その都度何らかの要因に基づいて
決定した任意のフレームであっても良い。

第４図は第２の実施例を説明する図であって、（ａ）は
特徴距離時系列圧縮部の構成の例を、（ｂ）は平均計算
についての説明を示しており、１９は区間バッファ、２
０は平均計算部、２１は一区間の特徴距離時系列のフレ
ーム群、２２は上記一区間の特徴距離時系列のフレーム
の各値の平均値を採ることにより圧縮されたフレームを
表わしている。すなわち、本実施例は、圧縮区間内の各
音声単位の特徴距離の平均で区間を代表させることによ
り圧縮を実現するもので区間バッファ１９に格納された
一区間の各フレームについて平均計算部２０で各音声単
位の特徴距離毎に平均値を計算し出力することにより、
これらの平均値を存する圧縮フレーム２２を生成するも
のである。

第５図は第３の実施例を説明する図であって、（ａ）は
特徴距離時系列圧縮部の構成の例を、ら）は最小距離検
索による圧縮の例を示しており、２３は区間バッファ、
２４は最小距離検索部、２５は一区間の特徴距離時系列
のフレーム群、２６は圧縮されたフレームを表わしてい
る。また、英字群Ａ−Ｄで示す黒丸印は区間中で音声の
各基本単位との最小の距離の値を持つフレーム位置を示
している。

本実施例は、圧縮区間内の各音声単位の特徴距離の最小
距離で区間を代表させることにより圧縮を実現するもの
で区間バッファ２３に格納された一区間の各フレームか
ら最小距離検出Ｂ２４が各音声単位の特徴距離毎に最小
距離を検出して出力することにより、各要素がそれぞれ
最小距離を有する圧縮フレーム２６を生成するものであ
る。

なお、以上の説明では総て、未知の音声に係る特徴時系
列と、既知の音声の各基本単位の特徴とを比較してその
距離を求め、あるいはその距離の値の最も小なるものを
採択するものとして説明しているが、これらは、距離に
限るものではな（、両者間の類似度または確率を求め、
その値の最大なるものを採択する方法を採る場合であっ
ても全く同様な効果が得られることは明らかである。

［発明の効果］以上説明したように本発明によれば、予備選択用の辞書
等を用意することなく、簡潔な構成の音声認識装置によ
って大培堂の音声認識を迅速に行なうことができる利点
がある。そして、データを圧縮したことによる認識率の
低下も少なく、例えば、前述の第３の実施例の方法（特
徴時系列の一区間内の各フレームの内の各音声単位の特
徴距離ごとの最小距離を求める方法）を用いて、実験し
た結果の例では、１０００単語（地名）を用い、男女各
５名の話者で、音声の基本単位の特徴を学習するための
学習単語数を２００としたとき、特徴時系列圧縮部での
圧縮率が３（１／１０００　（候？ｉｌ！３０個）の場
合の誤り率が０．２％以下と言うデータが得られている
。

【図面の簡単な説明】

第１図は本発明の原理的構成を示す図、第２図は特徴時
系列の圧縮について説明する図、第３図は第１の実施例
を説明する図、第４図は第２の実施例を説明する図、第
５図は第３の実施例を説明する図、第６図は従来の音声
認識装置の構成の例を示す図、第７図はフレームの構成
の例を示す図、第８図は特徴距離時系列（フレーム列）
の例を示す図、第９図はネットワークの例を示す図であ
る。

Claims

【特許請求の範囲】１、入力音声区間の一定微小時間毎の特徴時系列を得る
特徴抽出部（２）と、音声の各基本単位の特徴を記憶し
た特徴記憶部（３）と、各基本単位の特徴と入力音声の
特徴時系列の距離を計算することにより各基本単位の特
徴距離時系列を得る特徴距離時系列計算部（４）と、音
節、単語、文節、または文章などの認識対象のテンプレ
ートとして音声の基本単位のネットワークを予め記憶す
るネットワーク記憶部（５）と、入力音声区間の特徴距
離時系列を予め用意した複数のネットワークと照合する
ことにより各ネットワークと入力音声の距離を計算する
照合部（６）と、計算された距離の最も小さいネットワ
ークに対応する単語名等を認識結果として出力する認識
結果決定部（７）を有する音声認識装置において、前記、特徴距離時系列計算部（４）の出力である入力音
声区間の一定微小時間毎の特徴距離時系列を圧縮する特
徴距離時系列圧縮部（８）と、入力音声の圧縮された特
徴距離時系列を予めネットワーク記憶部（５）に記憶さ
れたネットワークと照合することにより各ネットワーク
と入力音声の概略距離を計算する第２の照合部（９）と
、計算された概略距離の小さいものから予め決められた
個数の単語等を選び出す候補選択部（１０）と、候補選
択部の結果に存在するネットワークのみをネットワーク
記憶部（５）から読み出し照合部（６）に転送するネッ
トワーク選択部（１１）から成る予備選択装置を設けた
ことを特徴とする大語彙音声認識装置。２、特徴距離時系列圧縮部は、特徴距離時系列の一定時
間ごとの区間内の予め決められた位置から系列要素を標
本化し、その標本値に区間を代表させることにより、特
徴距離時系列を圧縮する構成である請求項１記載の大語
彙音声認識装置。３、特徴距離時系列圧縮部は、特徴距離時系列の一定時
間ごとの区間内の各音声単位の特徴距離の平均値を計算
し、その平均値に区間を代表させることにより、特徴距
離時系列を圧縮する構成である請求項１記載の大語彙音
声認識装置。４、特徴距離時系列圧縮部は、特徴距離時系列の一定時
間ごとの区間内の各音声単位の特徴距離毎の最小距離を
求め、その最小距離に区間を代表させることにより、特
徴距離時系列を圧縮する構成である請求項１記載の大語
彙音声認識装置。５、入力音声の圧縮された特徴距離時系列と既知のネッ
トワークとの照合に際して距離の代りに類似度を用い、
類似度の大なるものを候補として選出する請求項１〜４
記載の大語彙音声認識装置。６、入力音声の圧縮された特徴距離時系列と既知のネッ
トワークとの照合に際して距離の代りに確率を用い、確
率の大なるものを候補として選出する請求項１〜４記載
の大語彙音声認識装置。