JP2813209B2 - 大語彙音声認識装置 - Google Patents

大語彙音声認識装置

Info

Publication number
JP2813209B2
JP2813209B2 JP1251812A JP25181289A JP2813209B2 JP 2813209 B2 JP2813209 B2 JP 2813209B2 JP 1251812 A JP1251812 A JP 1251812A JP 25181289 A JP25181289 A JP 25181289A JP 2813209 B2 JP2813209 B2 JP 2813209B2
Authority
JP
Japan
Prior art keywords
time series
unit
feature
distance
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1251812A
Other languages
English (en)
Other versions
JPH03116100A (ja
Inventor
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1251812A priority Critical patent/JP2813209B2/ja
Publication of JPH03116100A publication Critical patent/JPH03116100A/ja
Application granted granted Critical
Publication of JP2813209B2 publication Critical patent/JP2813209B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [概 要] 大語彙の音声を認識する装置であって、入力音声に対
する候補単語を高速に選び出す予備選択装置を有する音
声認識装置に関し、 入力音声の各フレームと音声の各基本単位(子音、母
音など)との距離の系列である特徴距離時系列の圧縮を
行うことにより、認識処理量を大幅に削減する予備選択
方式において、高い予備選択性能を得ることを目的と
し、 特徴距離時系列の圧縮方式として、 「圧縮対象区間の予め決められた点で区間を代表させ
ることにより圧縮を行う」か「圧縮区間の平均値で区間
を代表させることにより圧縮を行う」か、または「圧縮
区間の各基本単位の最小距離で区間を代表させることに
より圧縮を行う」手段を設けることにより構成する。
[産業上の利用分野] 本発明は音声認識、特に非常に多くの認識対象を必要
とする音声文書作成、あるいは、音声による商品名入力
等に用いられる大語彙音声認識装置に関し、特に、照合
に際する処理量を減少せしめて処理の高速化を図るため
の予備選択方式に係る。
[従来の技術] 第6図は、従来の音声認識装置の構成の例を示す図で
ある。
同図において、51はマイクロホン、52は特徴抽出部、
53は特徴記憶部、54は特徴距離時系列計算部、55はネッ
トワーク記憶部、56は照合部、57は認識結果決定部を表
わしている。
以下、各部の動作等について説明する。
マイクロホン1は入力された音響音声信号を電気音声
信号に変換する。
特徴抽出部52は電気音声信号をデジタル化するととも
に、電気音声信号を数ミリ秒〜十数ミリ秒の間隔でFFT
(高速フーリェ変換)などを用いて周波数分析する。
特徴記憶部53には音声の基本単位である各母音や各子
音を予め分析した特徴を格納してある。
特徴距離時系列計算部54は特徴抽出部52で計算された
分析結果と特徴記憶部53から読み出した各母音及び各子
音の特徴との距離計算を行い、第7図で示されるような
フレーム58を生成し、入力音声の全体にわたって第8図
に示されるようなLフレームから構成される特徴距離時
系列(フレーム列)を生成する。同図において、59−1
〜59−Lはそれぞれフレームを表わしており、Lは発声
長に相当する。
ネットワーク記憶部55には第9図に示されるようなネ
ットワークが記憶されている。ネットワークは各単語の
可能な複数種類の発音を表わしたものであり、単語の端
を表す#間の一つのパスが一種類の発音に対応してい
る。第9図のネットワークは「愛知(アイチ)」という
単語のネットワークであり、aが母音の「ア」、iが母
音の「イ」、qが「チ」の前の閉鎖、chが「チ」の子音
部分、その後ろのiが「チ」の母音部分、またciは無声
化した(母音部分が発声されない)「チ」を表わしてい
る。
照合部56はネットワーク記憶部55に記憶されている各
語彙のネットワークと特徴距離計算部で得られた特徴距
離時系列の照合を行い、各ネットワークと特徴距離時系
列の距離を計算する。この照合は動的計画法(DP)を用
いて行われる。照合部56は各ネットワークごとに入力
(特徴距離時系列)との距離を計算し出力する。
認識結果決定部57は照合部56で得られた各ネットワー
クの入力との距離を小さい順にソーティングし、距離の
小さい順にネットワークの語彙名を認識結果として出力
する。
[発明が解決しようとする課題] 上述したような従来の方式においては、ネットワーク
記憶部に記憶されているネットワーク数が数百程度まで
は実時間認識を行うことが可能であるが、それを越える
と実時間認識ができなくなり、大語彙(数万〜十万語)
を認識する場合は実用上の問題点があった。
すなわち、この方式では、特徴距離系列計算部54は、
特徴抽出部52が、入力された電気音声信号を数ミリ秒〜
十数ミリ秒の間隔で周波数分析して出力する全部のデー
タについて、これと特徴記憶部53に記憶されている各母
音や子音の特徴との距離計算を行なった結果の膨大なデ
ータを出力し、照合部56は、これとネットワーク記憶部
55に記憶されているネットワークデータとを照合するの
で、その処理に多大の時間を必要とするのである。
そのため、従来から予備選択方式を導入して、この問
題点を解決する方式が提案されているが、予備選択用の
特別の辞書を用意する必要とする場合が多く、特に大語
彙の場合にはあらたに予備選択用の辞書を用意するのは
非常に難しい。
本発明はこのような従来の問題点を鑑み、第6図に示
したような従来の音声認識装置の構成を改良し、特別な
予備選択用の辞書を必要としない予備選択方式を実現す
ることにより、大語彙の場合にも簡単に実時間認識を行
なうことのできる音声認識装置を提供することを目的と
している。
[課題を解決するための手段] 本発明によれば、上述の目的は、前記特許請求の範囲
に記載された手段により達成される。すなわち、本発明
は、入力音声区間の一定微小時間毎の特徴時系列を得る
特徴抽出部と、音声の各基本単位の特徴を記憶した特徴
記憶部と、各基本単位の特徴と入力音声の特徴時系列の
距離を計算することにより各基本単位の特徴距離時系列
を得る特徴距離時系列計算部と、音節、単語、文節、ま
たは文章などの認識対象のテンプレートとして音声の基
本単位のネットワークを予め記憶するネットワーク記憶
部と、入力音声区間の特徴距離時系列を予め用意した複
数のネットワークと照合することにより各ネットワーク
と入力音声の距離を計算する照合部と、計算された距離
の最も小さいネットワークに対応する単語名等を認識結
果として出力する認識結果決定部を有する音声認識装置
において、前記特徴距離時系列計算部の出力である入力
音声区間の一定微小時間毎の特徴距離時系列を圧縮する
特徴距離時系列圧縮部と、入力音声の圧縮された特徴距
離時系列を予めネットワーク記憶部に記憶されたネット
ワークと照合することにより各ネットワークと入力音声
の概略距離を計算する第2の照合部と、計算された概略
距離の小さいものから予め決められた個数の単語等を選
び出す候補選択部と、候補選択部の結果に存在するネッ
トワークのみをネットワーク記憶部から読み出し照合部
に転送するネットワーク選択部を有する予備選択装置を
設けた音声認識装置である。
[作 用] 第1図は本発明の原理的構成を示す図であって、1は
マイクロホン、2は特徴抽出部、3は特徴記憶部、4は
特徴距離時系列計算部、5はネットワーク記憶部、6は
照合部、7は認識結果決定部を表わしており、これらに
よって構成される音声認識の原理は第6図に基づいて説
明した従来のものと概ね同様である。一方、特徴距離時
系列圧縮部8、第2の照合部9、候補選択部10、ネット
ワーク選択部11によって構成される点線で囲んだ部分が
本発明の特徴を成す予備選択装置12を示している。
同図において、特徴距離時系列圧縮部8は特徴距離時
系列計算部4で計算された特徴距離時系列を圧縮する。
圧縮の様子を第2図に示す。同図において13は特徴距離
時系列計算部4で計算された特徴距離時系列を示してお
り、Lフレームからなる。また14は4フレーム区間毎に
圧縮された特徴時系列の例を示している。
第2の照合部9は、照合部6(第6図における照合部
56と同様)と同じ動作を行う。すなわち、ネットワーク
記憶部から読み出されたネットワークと圧縮された特徴
時系列の照合を行い、各ネットワークと圧縮された特徴
距離時系列の距離を計算する。この照合は例えば動的計
画法(DP)を用いて行われる。第2の照合部9は各ネッ
トワークと圧縮された特徴時系列との距離を計算し出力
する。
候補選択部10は第2の照合部9で得られた各ネットワ
ークの入力との距離を小さい順にソーティングし、距離
の小さい順に予め決められた個数(例えば500個)のネ
ットワークの語彙名を予備選択結果として出力する。
ネットワーク選択部11は、候補選択部10で得られた語
彙名のネットワークのみをネットワーク記憶部5より読
み出し、照合部6に転送する。
このように構成することにより、例えばネットワーク
記憶部に1万語のネットワークがある場合に従来の方法
では2秒の処理時間(一般に処理時間が0.3秒以下であ
れば実時間認識と呼ぶ)がかかるとすると、10フレーム
を1フレームに圧縮する特徴距離時系列圧縮部を用いれ
ば第2の照合部9の処理量が従来の照合部の1/10(0.2
秒)となり、候補選択部で500個の候補を出力すること
にすると、照合部6では、その500個のネットワークの
照合を行うだけでよいので照合処理時間は500/10000×
2秒=0.1秒であり、合計0.3秒の照合処理時間で認識を
行うことができるから、実時間認識が容易に実現できる
ことになる。
[実施例] 本発明による音声認識装置の原理的構成は第1図に示
したとおりであり、各部が上述したような動作を行なう
ことにより特徴距離時系列の圧縮を行なって候補の数を
削減して、大語彙音声の認識を高速で行なうものである
が、本発明においては、その特徴距離時系列の圧縮方法
についての特徴がある。以下、これについて実施例に基
づいて説明する。
第3図は第1の実施例を説明する図であって、(a)
は特徴距離時系列圧縮部の構成の例を、(b)は標本化
の例を示しており、15は区間バッファ、16は標本化部、
17は特徴距離時系列計算部から出力された一区間の特徴
距離時系列のフレーム群、18は圧縮された特徴距離時系
列のフレームを表わしている。
本実施例は、圧縮区間内の予め決められた場所を標本
化することにより圧縮を実現するもので、区間バッファ
15は、圧縮すべき区間を一時的に記憶する。標本化部16
は区間バッファ15の予め決められたアドレスの内容のみ
を読み出し出力する。本例においては(b)に示すよう
に、一区間の特徴距離時系列のフレーム群17から、その
先頭のフレームを圧縮データ18として抽出して、これに
よって一区間の特徴距離時系列17を代表するフレームと
する場合を示している。
圧縮されたフレームとして抽出するのは先頭フレーム
に限るものではなく、予め定めた任意の一定の位置のフ
レームでも良く、また、その都度何らかの要因に基づい
て決定した任意のフレームであっても良い。
第4図は第2の実施例を説明する図であって、(a)
は特徴距離時系列圧縮部の構成の例を、(b)は平均計
算についての説明を示しており、19は区間バッファ、20
は平均計算部、21は一区間の特徴距離時系列のフレーム
群、22は上記一区間の特徴距離時系列のフレームの各値
の平均値を採ることにより圧縮されたフレームを表わし
ている。すなわち、本実施例は、圧縮区間内の各音声単
位の特徴距離の平均で区間を代表させることにより圧縮
を実現するもので区間バッファ19に格納された一区間の
各フレームについて平均計算部20で各音声単位の特徴距
離毎に平均値を計算し出力することにより、これらの平
均値を有する圧縮フレーム22を生成するものである。
第5図は第3の実施例を説明する図であって、(a)
は特徴距離時系列圧縮部の構成の例を、(b)は最小距
離検索による圧縮の例を示しており、23は区間バッフ
ァ、24は最小距離検索部、25は一区間の特徴距離時系列
のフレーム群、26は圧縮されたフレームを表わしてい
る。また、英字符A〜Dで示す黒丸印は区間中で音声の
各基本単位との最小の距離の値を持つフレーム位置を示
している。
本実施例は、圧縮区間内の各音声単位の特徴距離の最
小距離で区間を代表させることにより圧縮を実現するも
ので区間バッファ23に格納された一区間の各フレームか
ら最小距離検出部24が各音声単位の特徴距離毎に最小距
離を検出して出力することにより、各要素がそれぞれ最
小距離を有する圧縮フレーム26を生成するものである。
なお、以上の説明では総て、未知の音声に係る特徴時
系列と、既知の音声の各基本単位の特徴とを比較してそ
の距離を求め、あるいはその距離の値の最も小なるもの
を採択するものとして説明しているが、これらは、距離
に限るものではなく、両者間の類似度または確率を求
め、その値の最大なるものを採択する方法を採る場合で
あっても全く同様な効果が得られることは明らかであ
る。
[発明の効果] 以上説明したように本発明によれば、予備選択用の辞
書等を用意することなく、簡潔な構成の音声認識装置に
よって大語彙の音声認識を迅速に行なうことができる利
点がある。そして、データを圧縮したことによる認識率
の低下も少なく、例えば、前述の第3の実施例の方法
(特徴時系列の一区間内の各フレームの内の各音声単位
の特徴距離ごとの最小距離を求める方法)を用いて、実
験した結果の例では、1000単語(地名)を用い、男女各
5名の話者で、音声の基本単位の特徴を学習するための
学習単語数を200としたとき、特徴時系列圧縮部での圧
縮率が30/1000(候補30個)の場合の誤り率が0.2%以下
と言うデータが得られている。
【図面の簡単な説明】
第1図は本発明の原理的構成を示す図、第2図は特徴時
系列の圧縮について説明する図、第3図は第1の実施例
を説明する図、第4図は第2の実施例を説明する図、第
5図は第3の実施例を説明する図、第6図は従来の音声
認識装置の構成の例を示す図、第7図はフレームの構成
の例を示す図、第8図は特徴距離時系列(フレーム列)
の例を示す図、第9図はネットワークの例を示す図であ
る。 1……マイクロホン、2……特徴抽出部、3……特徴記
憶部、4……特徴距離時系列計算部、5……ネットワー
ク記憶部、6……照合部、7……認識結果決定部、8…
…特徴距離時系列圧縮部、9……第2の照合部、10……
候補選択部、11……ネットワーク選択部、12……予備選
択装置、13……特徴距離時系列、14……圧縮された特徴
距離時系列、15,19,23……区間バッファ、16……標本化
部、17,21,25……1区間の特徴距離時系列データのフレ
ーム群、18,22,26……圧縮された特徴距離時系列のフレ
ーム、20……平均計算部、24……最小距離検索部
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 5/06 G10L 3/00 531 G10L 3/00 561 G10L 3/00 515 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声区間の一定微小時間毎の特徴時系
    列を得る特徴抽出部(2)と、音声の各基本単位の特徴
    を記憶した特徴記憶部(3)と、各基本単位の特徴と入
    力音声の特徴時系列の距離を計算することにより各基本
    単位の特徴距離時系列を得る特徴距離時系列計算部
    (4)と、音節、単語、文節、または文章などの認識対
    象のテンプレートとして音声の基本単位のネットワーク
    を予め記憶するネットワーク記憶部(5)と、入力音声
    区間の特徴距離時系列を予め用意した複数のネットワー
    クと照合することにより各ネットワークと入力音声の距
    離を計算する照合部(6)と、計算された距離の最も小
    さいネットワークに対応する単語名等を認識結果として
    出力する認識結果決定部(7)を有する音声認識装置に
    おいて、 前記、特徴距離時系列計算部(4)の出力である入力音
    声区間の一定微小時間毎の特徴距離時系列を圧縮する特
    徴距離時系列圧縮部(8)と、入力音声の圧縮された特
    徴距離時系列を予めネットワーク記憶部(5)に記憶さ
    れたネットワークと照合することにより各ネットワーク
    と入力音声の概略距離を計算する第2の照合部(9)
    と、計算された概略距離の小さいものから予め決められ
    た個数の単語等を選び出す候補選択部(10)と、候補選
    択部の結果に存在するネットワークのみをネットワーク
    記憶部(5)から読み出し照合部(6)に転送するネッ
    トワーク選択部(11)から成る予備選択装置を設けたこ
    とを特徴とする大語彙音声認識装置。
  2. 【請求項2】特徴距離時系列圧縮部は、特徴距離時系列
    の一定時間ごとの区間内の予め決められた位置から系列
    要素を標本化し、その標本値に区間を代表させることに
    より、特徴距離時系列を圧縮する構成である請求項1記
    載の大語彙音声認識装置。
  3. 【請求項3】特徴距離時系列圧縮部は、特徴距離時系列
    の一定時間ごとの区間内の各音声単位の特徴距離の平均
    値を計算し、その平均値に区間を代表させることによ
    り、特徴距離時系列を圧縮する構成である請求項1記載
    の大語彙音声認識装置。
  4. 【請求項4】特徴距離時系列圧縮部は、特徴距離時系列
    の一定時間ごとの区間内の各音声単位の特徴距離毎の最
    小距離を求め、その最小距離に区間を代表させることに
    より、特徴距離時系列を圧縮する構成である請求項1記
    載の大語彙音声認識装置。
  5. 【請求項5】入力音声の圧縮された特徴距離時系列と既
    知のネットワークとの照合に際して距離の代りに類似度
    を用い、類似度の大なるものを候補として選出する請求
    項1〜4記載の大語彙音声認識装置。
  6. 【請求項6】入力音声の圧縮された特徴距離時系列と既
    知のネットワークとの照合に際して距離の代りに確率を
    用い、確率の大なるものを候補として選出する請求項1
    〜4記載の大語彙音声認識装置。
JP1251812A 1989-09-29 1989-09-29 大語彙音声認識装置 Expired - Fee Related JP2813209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1251812A JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1251812A JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Publications (2)

Publication Number Publication Date
JPH03116100A JPH03116100A (ja) 1991-05-17
JP2813209B2 true JP2813209B2 (ja) 1998-10-22

Family

ID=17228289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1251812A Expired - Fee Related JP2813209B2 (ja) 1989-09-29 1989-09-29 大語彙音声認識装置

Country Status (1)

Country Link
JP (1) JP2813209B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782357B2 (ja) * 1993-03-29 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 適応的探索方法
JP3884006B2 (ja) 2002-12-06 2007-02-21 日本電信電話株式会社 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体
JP4708160B2 (ja) * 2005-10-28 2011-06-22 株式会社カサタニ 機器取付けスタンド
JP5072790B2 (ja) * 2008-09-25 2012-11-14 三菱電機株式会社 交通統計情報生成装置、車載交通情報処理装置、および、交通情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(平成元年10月)2−P−▲○7▼,p143−144

Also Published As

Publication number Publication date
JPH03116100A (ja) 1991-05-17

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US6845357B2 (en) Pattern recognition using an observable operator model
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
US6553342B1 (en) Tone based speech recognition
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Wilpon et al. An investigation on the use of acoustic sub-word units for automatic speech recognition
CN113744722B (zh) 一种用于有限句库的离线语音识别匹配装置与方法
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
JP2955297B2 (ja) 音声認識システム
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3444108B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
JPS6138479B2 (ja)
JP3039453B2 (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP2905686B2 (ja) 音声認識装置
JP2757356B2 (ja) 単語音声認識方法および装置
JP3033132B2 (ja) 言語処理装置
JP2760096B2 (ja) 音声認識方式
JP2943473B2 (ja) 音声認識方法
JP2943445B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees