JP2813207B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2813207B2
JP2813207B2 JP1224133A JP22413389A JP2813207B2 JP 2813207 B2 JP2813207 B2 JP 2813207B2 JP 1224133 A JP1224133 A JP 1224133A JP 22413389 A JP22413389 A JP 22413389A JP 2813207 B2 JP2813207 B2 JP 2813207B2
Authority
JP
Japan
Prior art keywords
voice
speech
recognition
unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1224133A
Other languages
English (en)
Other versions
JPH0387800A (ja
Inventor
泰弘 奈良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1224133A priority Critical patent/JP2813207B2/ja
Publication of JPH0387800A publication Critical patent/JPH0387800A/ja
Application granted granted Critical
Publication of JP2813207B2 publication Critical patent/JP2813207B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔目 次〕 概要 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段 作用 実施例 I.実施例と第1図との対応関係 II.実施例の構成 III.実施例の動作 IV.実施例のまとめ V.発明の変形態様 発明の効果 〔概 要〕 一連の音声の特徴に基づいて単語を認識するようにし
た音声認識装置に関し、 利用者の要求に柔軟に対応することを目的とし、音声
の特徴を表している複数の音声認識情報のそれぞれに対
応して、少なくとも1つの認識候補を登録している音声
辞書と、入力された音声の特徴を抽出する特徴抽出手段
と、特徴抽出手段の出力に基づいて音声辞書を検索する
とともに、該当する音声識別情報に対応して複数の認識
候補が登録されている場合は、前の認識結果に基づいて
複数の認識候補の何れか1つを認識結果として出力する
検索手段とを備えて構成する。
〔産業上の利用分野〕
本発明は、一連の音声の特徴に基づいて単語を認識す
るようにした音声認識装置に関するものである。
例えば、荷物の仕分けや部品の検査などの業務におい
ては、両手を使って作業を行ないながら目的地の地名や
検査項目などの入力を行ないたいという要望がある。ま
た、医療検査などのように、血液中の血球数などの検査
などの際に、顕微鏡の接眼レンズから目を離さないで検
査結果を入力したい場合もある。
このような要望に応じて、一連の音声の特徴に基づい
て、地名や検査項目などの単語を認識し、これらの入力
を行なうような音声認識装置が実現されている。また、
このような音声認識装置をコンピュータ支援学習などに
適用すれば、より人間的なマン・マシン・インタフェー
スを実現することが可能となる。
〔従来の技術〕
第7図に、荷物の仕分けなどのために地名を認識する
ようにした従来の音声認識装置の構成を示す。
図において、711は特徴抽出部であり、単語を構成す
る一連の音声から特徴量(例えば周波数スペクトルな
ど)を抽出するものである。
また、721は音声辞書であり、認識すべき地名などの
単語を示すラベルに対応して、話者がこの単語を発生し
たときの音声から特徴抽出部711により抽出した特徴量
を予め格納しておくようになっている。以下、このラベ
ルに対応して格納されている特徴量を音声テンプレート
と称する。
一連の音声が入力されると、特徴抽出部711により特
徴量が抽出され、照合部731において音声辞書721に登録
されている音声テンプレートのそれぞれについて、この
特徴量と各音声テンプレートとの間の類似の程度を示す
類似度が計算される。この結果、最も類似度の高い音声
テンプレートに対応するラベルが認識結果とされる。
このように、入力された音声の特徴量と音声辞書721
に登録された全ての音声テンプレートとを照合して認識
結果を得る方式を、以下、の方式と称する。
ところで、上述した音声辞書721にラベルとして格納
されている地名などにおいては、宛先の都道府県名が決
まれば、次に入力される市名はその都道府県内にある市
の名前に限定される。このような単語の間の関連を利用
して、いくつかの認識候補の中から何れかを選択して認
識結果とする方式(の方式)を適用した音声認識装置
の構成を第8図に示す。
この場合は、照合部731により、入力された音声の特
徴量との類似度が所定の閾値以上である音声テンプレー
トに対応するラベルが、認識候補として出力される。次
に、単語の間の関連を示す情報として各都道府県名に対
応してその都道府県内にある市名を格納している階層辞
書841(第1表参照)に基づいて、階層検査部842によ
り、認識候補の中から何れか一つが選択される。
例えば、都道府県名として既に『滋賀県』が認識され
ているときに、市名に対応する認識候補として『魚津
市』,『大津市』が出力された場合に、階層検査部842
は、上述した階層辞書841を参照することにより、滋賀
県には『大津市』は存在するが『魚津市』は存在しない
旨の情報を得る。この情報に基づいて、階層検査部842
は2つの認識候補のうち『大津市』を認識結果として出
力する。
上述したの方式を適用した場合は、階層辞書841を
用いることにより、の方式の場合に比べて、正しい認
識結果を得ることができる確率(認識率)をより高くす
ることができる。
ところで、上述したように、宛先の地名の都道府県名
に続いて市名が発声されるものとすれば、最初の一連の
音声(以下、第1発声と称する)に対応して認識するべ
き単語は都道府県名に限定され、次の一連の音声(以
下、第2発声と称する)に対応して認識するべき単語
は、第1発声に対応する認識結果の都道府県内の市名に
限定される。
上述したような限定規則に基づいて、音声辞書721内
の領域を指定して、音声と比較される音声テンプレート
を動的に制限するようにした方式(の方式)を適用し
た場合の音声認識装置の構成を第9図に示す。
第9図において、音声辞書721は第2表に示すよう
に、都道府県名からなるブロック(B0)と、各都道府県
内に存在する市名からなるブロック(B1,B2,…)に分割
されている。
また、941は範囲指定部であり、入力された音声の特
徴量と照合する音声辞書721の範囲を照合部731に対して
指定するものである。この範囲指定部941は、第1発声
の認識の際に照合部731に対して音声辞書721のブロック
B0を指定し、第2発声の認識の際に、第1発声に対応す
る認識結果で示されるブロックを指定する。例えば、第
1発声に対応する認識結果が『滋賀県』であった場合
は、滋賀県内の市名からなるブロックB1を指定し、最初
の認識結果が『富山県』であった場合は、富山県内の市
名からなるブロックB2が指定される。
このように、認識の際に音声と照合する音声辞書721
の範囲を動的に制限することにより、照合部731におい
て音声と音声テンプレートとを照合する回数を減らすこ
とができ、認識に要する時間を短縮することができる。
ところで、同一人物が同じ単語を発声した場合であっ
ても、発声された音声から抽出された特徴量が変化して
いる場合があり、このために誤った認識結果を得る場合
がある。
上述したような音声の変化に対応するために、1つの
単語に対して複数の音声テンプレートを格納しているよ
うな音声辞書(第3表参照)を用いる方式(の方式)
がある。
この場合は、第3表の『神奈川県』に対応して示した
2つの音声テンプレートV0a,V0bの何れかと、発声され
た一連の音声から抽出された特徴量とが類似していれ
ば、認識結果として『神奈川県』が得られ、の方式に
比べて認識率を向上させることができる。
〔発明が解決しようとする課題〕
ところで、上述した従来の,,,の方式にあ
っては、認識すべき単語のそれぞれに対応して少なくと
も1つの音声テンプレートが音声辞書に格納されている
必要がある。従って、音声認識装置で認識できる単語の
数は、音声辞書に割り当てられているメモリの量で決定
され、また、各音声テンプレートのデータ量が多い(例
えば256バイト)ため、このメモリの量で決定された数
以上に認識したい単語数を増加させることはできず、利
用者の要望に柔軟に対応することができないという問題
点があった。
例えば、従来の64単語分の音声辞書を有する音声認識
装置では、認識したい単語数が65個になった場合に対応
することは不可能である。このため、利用者は単語数を
1つだけ増やしたいにもかかわらず、認識できる単語数
が128個であるような高価な音声認識装置を購入しなけ
ればならず、利用者の不満を招いていた。
ここで、の方式を適用した音声認識装置に、ディス
ク装置などの外部記憶装置を接続し、この外部記憶装置
に予め全ての音声テンプレートを記録しておき、上述し
た制限規則に応じて、例えば、最初に発声された音声の
認識の際には、第2表に示したブロックB0をメモリにロ
ードするようにする場合が考えられる。この場合は、最
大のブロック(例えばブロックB0)に対応するメモリの
量が、音声辞書用に割り当てられていればよいので、音
声辞書用のメモリの量で決定された数以上の単語の認識
を行なうことができる。
しかしながら、この方式においては、異なるブロック
に属する単語の照合を行なう度に、ディスク装置から該
当する音声辞書の領域をメモリにロードする必要がある
ので、単語の認識に要する時間が長くなるという欠点を
有している。
本発明は、このような点にかんがみて創作されたもの
であり、利用者の要求に柔軟に対応するようにした音声
認識装置を提供することを目的としている。
〔課題を解決するための手段〕
第1図は、本発明の音声認識装置の原理ブロック図で
ある。
図において、音声辞書111は、音声の特徴を表してい
る複数の音声識別情報のそれぞれに対応して、少なくと
も1つの認識候補を登録している。
特徴抽出手段131は、入力された音声の特徴を抽出す
る。
検索手段141は、特徴抽出手段131の出力に基づいて音
声辞書111を検索するとともに、該当する音声識別情報
に対応して複数の認識候補が登録されている場合は、前
の認識結果に基づいて複数の認識候補の何れか1つを認
識結果として出力する。
〔作 用〕
音声の特徴を表している複数の音声識別情報のそれぞ
れに対応して、少なくとも1つの認識候補が音声辞書11
1に登録されている。
例えば、音声の特徴が類似している複数の単語が発声
されたときの音声の平均的な特徴を表す音声識別情報に
対応して、認識候補としてこれらの単語を音声辞書111
に登録するようにする。
特徴抽出手段131により、入力された音声の特徴が抽
出され、この特徴抽出手段131の出力に基づいて、検索
手段141により、音声辞書111が検索される。
このとき、特徴抽出手段131の出力に該当する音声識
別情報に対応して複数の認識候補が登録されている場合
は、検索手段141により前の認識結果に基づいて何れか
1つが選択され、認識結果として出力される。
本発明にあっては、複数の音声識別情報のそれぞれに
対応して、少なくとも1つの認識候補が音声辞書111に
登録されており、検索手段141により複数の認識候補が
検索された場合は、前の認識結果に基づいて認識結果が
選択される。従って、音声辞書111に登録されている音
声識別情報の総数よりも多くの認識候補を登録し、入力
された音声に対応する認識結果を得ることができる。
〔実施例〕
以下、図面に基づいて本発明の実施例について詳細に
説明する。
第2図は、本発明の第1実施例における音声認識装置
の構成を示す。
I.実施例と第1図との対応関係 ここで、本発明の実施例と第1図との対応関係を示し
ておく。
音声辞書111は、音声辞書221に相当する。
特徴抽出手段131は、特徴抽出部211に相当する。
検索手段141は、照合部231,階層辞書251,階層検査部2
52,範囲指定部460に相当する。
以上のような対応関係があるものとして、以下本発明
の実施例について説明する。
II.第1実施例の構成および動作 第2図において、利用者によって発声された音声が入
力され、この音声の特徴を表す特徴量(例えば周波数ス
ペクトルなど)を抽出する特徴抽出部211と、それぞれ
音声の特徴を表している音声テンプレートのそれぞれに
対応して少なくとも1つの単語を示すラベルを登録して
いる音声辞書221と、特徴抽出部211から供給された特徴
量と音声辞書221とに基づいて、入力された音声に対応
する認識候補を出力する照合部231と、単語間の関連を
示す情報(後述する)を格納している階層辞書251と、
階層辞書251に基づいて、照合部231から供給された認識
候補の中の何れか1つを認識結果として選択する階層検
査部252と、音声辞書221に予め音声テンプレートを登録
する登録部240とを備えて構成されている。
ここで、第2図に示した音声認識装置は、荷物の仕分
け作業の際に、利用者によって入力された一連の音声に
基づいて、宛先の都道府県名と市名とを単語として認識
するようになっている。
このとき、利用者により、最初に都道府県名,次に市
名が入力されるものとすれば、最初に入力された一連の
音声(以下、第1発声と称する)に対応する認識結果は
都道府県名に限定され(第1発声についての制限条
件)、次に入力される一連の音声(以下、第2発声と称
する)に対応する認識結果は、第1発声に対応する認識
結果とされた都道府県内に存在する市名に限定される
(第2発声についての制限条件)。
従って、階層検査部252においては、第1発声に対応
する認識候補の中から都道府県名を選択し、第2発声に
対応する認識結果の中から該当する市名を選択するよう
にすればよい。このため、階層辞書251に、単語間の関
連を示す情報として、各都道府県名に対応して、その都
道府県内に存在する市名を格納するようにする。このよ
うな階層辞書251の例は、上述した従来のの方式の説
明の中で第1表として示した。
上述したような第1発声についての制限条件および第
2発声についての制限条件を利用すれば、認識候補に複
数の都道府県名あるいは同じ都道府県に属する複数の市
名が含まれていない場合は、認識候補の何れか1つを認
識結果として選択することができる。
一方、照合部231においては、特徴抽出部211から供給
された特徴量と音声辞書221に登録されている各音声テ
ンプレートとの間の類似の程度を示す類似度が計算さ
れ、この類似度が所定の閾値Th以上である音声テンプレ
ートに対応するラベルによって示される単語が、認識候
補として出力されるようになっている。
ここで、照合部231において認識候補とされるような
音声の特徴量が類似している(つまり、類似度が閾値Th
以上である)複数の単語であって、上述したようにし
て、階層検査部252によりその中の何れか1つが選択で
きるものを、類似単語群と称する。
登録部240は、この類似単語群に含まれる各単語を示
すラベルに対応してそれぞれの特徴量を音声テンプレー
トとして音声辞書221に登録する代わりに、この類似単
語群を示す1つのラベルに対応して1つの音声テンプレ
ートを登録するようになっている。
以下、登録部240の詳細構成および音声辞書221への登
録動作を説明する。
登録部240において、241は類似度計算部、242は平均
化部、243は登録制御部を示している。
また、第3図に、登録部240の動作を表す流れ図を示
す。
ここで、登録を行なう際には、利用者により順次に単
語が発声されて音声が入力されるとともに該当する単語
を示すラベルが、登録部240に入力されるものとする。
入力された音声は、特徴抽出部211に供給され、特徴
抽出部211によって各単語に対応する音声から抽出され
た特徴量が、登録部240の類似度計算部241に供給される
(ステップ301)。
類似度計算部241により、上述したステップ301におい
て供給された特徴量と、それまでに音声辞書221に登録
されている各音声テンプレートとの間の類似度が求めら
れ、登録制御部243に供給される(ステップ302)。
登録制御部243は、供給された類似度に基づいて、ス
テップ301において入力され音声の特徴量に類似してい
る音声テンプレートを検出し、この音声テンプレートに
対応して音声辞書221に登録されている単語を、入力さ
れたラベルで示される単語に類似した単語として検出す
る(ステップ303)。
ステップ303において該当する単語があった場合は、
ステップ304の肯定判定となり、この場合は、上述した
2つの制限条件に基づいて、登録制御部243は、ステッ
プ303において検出された単語と入力された音声とが上
述した類似単語群となるか否かを判定する(ステップ30
5)。
例えば、利用者によって単語『いわき市』を示すラベ
ルとともにこの単語に対応する音声が入力され、ステッ
プ303において該当する単語として『茨城県』が検出さ
れたものとする。ここで、『茨城県』と『いわき市』と
は、上述した2つの制限条件を満たしているので、ステ
ップ305において、『茨城県』と『いわき市』とは類似
単語群であると判定される。
ステップ305における肯定判定の場合は、登録制御部2
43は、入力された音声の特徴量とともにステップ303に
おいて検出された音声テンプレートを平均化部242に供
給し、平均化部242を起動する。これに応じて、平均化
部242により、入力された音声の特徴量とステップ303に
おいて検出された音声テンプレートとの平均の特徴量が
求められる(ステップ306)。
登録制御部243は、上述したステップ305において類似
単語群とされた複数の単語を示すラベルに対応する音声
テンプレートとして、平均化部242で求められた平均の
特徴量を音声辞書221に格納する(ステップ307)。
例えば、上述したステップ306において、平均化部242
により『茨城県』に対応する音声テンプレートVaと『い
わき市』に対応する特徴量Vbとの平均が求められ、この
平均の特徴量が、『茨城県』および『いわき市』の2つ
の単語からなる類似単語群を示すラベルに対応する音声
テンプレートVa1として、音声辞書221に格納される。
また、単語『岩槻市』を示すラベルと該当する音声が
入力され、ステップ303においてこの単語に対応する特
徴量Vcに類似した音声テンプレートとして、上述した音
声テンプレートVa1が検出される場合が考えられる。こ
の場合は、『茨城県』,『いわき市』,『岩槻市』は、
上述した2つの制限条件を満たしているので、同様にし
て、音声テンプレートVa1と特徴量Vcとの平均の特徴量
が求められ、この平均の特徴量が、これらの3つの単語
(『茨城県』,『いわき市』,『岩槻市』)を含む類似
単語群を示すラベルに対応する音声テンプレートVa2
して音声辞書221に格納される。
一方、ステップ304あるいはステップ305における否定
判定の場合は、音声とともに入力されたラベルに対応す
る音声テンプレートとして、特徴抽出部211により抽出
された特徴量が音声辞書221に登録される(ステップ30
8)。
例えば、単語『福島県』を示すラベルとこれに対応す
る音声が入力され、ステップ303において単語『徳島
県』が該当するとして検出された場合は、これらの単語
は両方とも県名であり、上述した第1発声についての制
限条件を満たしていないので、ステップ305における否
定判定となる。この場合は、『福島県』および『徳島
県』のそれぞれを示すラベルに対応して、それぞれ音声
テンプレートが音声辞書221に登録される。
同様に、『横浜市』と『横須賀市』とはともに神奈川
県に属しているので、これらをしめすラベルには、それ
ぞれに対応する音声テンプレートが音声辞書221に格納
される。
上述したような登録動作により、音声辞書221は第4
表のようになる。
第4表において、V0,V1,V2はそれぞれ『神奈川県』,
『滋賀県』,『富山県』に対応する音声テンプレートで
ある。また、この第4表によって、『大津市』と『魚津
市』とは類似単語群となっており、この類似単語群を示
すラベルに対応して音声テンプレートVk1が音声辞書221
に格納されていることが示されている。
以下、上述したようにして作成された音声辞書221を
用いて、音声認識を行なう際の照合部231および階層検
査部252の動作を説明する。
利用者によって宛先の都道府県名が発声され、この音
声が第1発声として入力され、続いて宛先の市名に対応
する音声が第2発声として入力される。
これらの音声は特徴抽出部211に供給され、第1発
声,第2発声のそれぞれに対応する特徴量V(1),V
(2)が抽出され、照合部231に供給される。
照合部231は、供給された特徴量V(1)および特徴
量V(2)のそれぞれと上述した音声辞書221に格納さ
れている全ての音声テンプレートとの類似度を計算し、
所定の閾値Thよりも大きい類似度を与えるような音声テ
ンプレートを検出する。この音声テンプレートに対応す
るラベルで示された単語が、認識候補として階層検査部
252に供給される。
例えば、照合部231において、上述した特徴量V
(1)に基づいて、単語『滋賀県』を示すラベルに対応
して音声辞書221に格納されている音声テンプレートV1
と、単語『千葉市』を示すラベルに対応する音声テンプ
レートVmとが検出されると、これらのラベルによって示
される単語『滋賀県』および単語『千葉市』が認識候補
として階層検査部252に供給される。
また、同様にして、特徴量V(2)に基づいて類似度
が計算され、照合部231により、単語『大津市』および
『魚津市』を含む類似単語群を示すラベル『大津市,魚
津市』に対応する音声テンプレートVk1が検出される
と、この類似単語群に含まれる2つの単語『大津市』,
『魚津市』が認識候補として階層検査部252に供給され
る。
ここで、上述したように、第1発声は都道府県名であ
るから、階層検査部252は階層辞書251を参照して、第1
発声に対応する認識候補として供給された単語の中から
都道府県名を示す単語(例えば『滋賀県』)を選択し、
これを第1発声に対応する認識結果として出力する。
また、第2発声は第1発声の認識結果とされた都道府
県内の市名であるから、階層検査部252は、第1発声の
認識結果(例えば『滋賀県』)に基づいて階層辞書251
を参照し、第2発声に対応する認識候補として供給され
た単語の中から該当する単語(例えば『大津市』)を選
択して認識結果として出力する。
このように、類似単語群について1つの音声テンプレ
ートを登録するようにした場合であっても、階層検査部
252により上述したような階層検査を行なうことによ
り、従来のの方式と同等のを得ることができる。
一方、上述したようにして、1つの音声テンプレート
を複数の単語を含む類似単語群に対応させて登録するこ
とにより、音声辞書221に割り当てられたメモリの量で
定められる音声テンプレートの数よりも、認識すること
ができる単語数を多くすることができる。
例えば、音声テンプレートVa2は、3つの単語『茨城
県』,『いわき市』,『岩槻市』を含む類似単語群が対
応しており、音声テンプレートVk1は、2つの単語『大
津市』,『魚津市』を含む類似単語群が対応している
(第4表参照)。このように、2つの音声テンプレート
に、5つの単語が対応しており、上述した階層検査を組
み合わせることにより、この2つの音声テンプレートを
用いて、5つの単語の認識を行なることができる。
これにより、音声辞書221に格納されている音声テン
プレートの数が64個であっても、幾つかの音声テンプレ
ートを上述した類似単語群に対応させることにより、利
用者の仕様に変更などによって認識したい単語数が増え
た場合(例えば、認識したい単語数が67個に増えた場
合)にも、柔軟に対応することができる。
III.第2実施例の構成および動作 上述した第1実施例においては、入力された音声の特
徴量は、照合部231により音声辞書221に登録された全て
の音声テンプレートと照合されるようになっている。こ
のため、第1発声および第2発声のそれぞれに対応する
認識結果を得るために要する照合回数は、音声辞書221
に登録されている音声テンプレートの総数mの2倍とな
る。
ここで、上述したように、第1発声および第2発声に
対応する認識結果は、それぞれ上述した制御条件を満た
している必要がある。
以下、本発明の第2実施例として、このような制限条
件を利用して照合部による照合動作の対象となる音声テ
ンプレートを動的に制限し、認識結果を得るために要す
る照合回数を減らすようにした音声認識装置の構成およ
び動作を説明する。
第4図は、第2実施例による音声認識装置の構成図で
ある。
第2実施例による音声認識装置は、第2図に示した第
1実施例による音声認識装置と同様の特徴抽出部211,照
合部231,登録部240,階層辞書251と、音声テンプレート
を格納している音声テンプレート部421,単語を示すラベ
ルのそれぞれに対応して音声テンプレート部421内の対
応する音声テンプレートの格納場所の先頭アドレス(以
下、ポインタと称する)を格納している索引テーブル42
2とからなる音声辞書420と、上述した制限条件に基づい
て、照合部231に対して照合すべき音声テンプレートを
指定する範囲指定部460を備えて構成されている。
上述した索引テーブル422は、都道府県名を示すラベ
ルおよび対応するポインタを要素とするブロック(B0
と、各都道府県名に存在する市名を示すラベルおよび対
応するポインタを要素とするブロック(B1,B2,…)に分
割されている。
また、音声テンプレート部421は、64個の音声テンプ
レートを格納する容量を有している。
以下、第2実施例による音声認識装置の登録部240に
よる登録動作を説明する。
上述した第1実施例と同様にして、認識しようとする
単語の登録のために、利用者によって単語を示すラベル
と該当する音声が入力される(ステップ501)。
このとき、登録制御部243は、入力されたラベルに基
づいて階層辞書251を参照し、入力されたラベルが都道
府県名を示すものであった場合は、このラベルを上述し
た索引テーブル422のブロックB0に登録する。一方、ラ
ベルが市名を示すものであった場合は、該当する都道府
県内に存在する市名からなるブロック(例えば、滋賀県
の場合はブロックB1)にこのラベルを登録する(ステッ
プ502)。
次に、類似度計算部241により、上述した第1実施例
のステップ302と同様にして類似度の計算が行なわれ
(ステップ503)、この類似度に基づいて、入力された
音声の特徴量に類似している音声テンプレートが検出さ
れる。登録制御部243は索引テーブル422を検索し、この
音声テンプレートの格納場所を示すポインタに対応する
ラベルで示された単語を、入力された単語に類似してい
る単語として検出する(ステップ504)。
ステップ505において該当する単語があると判定(肯
定判定)された場合は、入力された単語とステップ504
において検出された単語とに基づいて階層辞書251を参
照し、これらの単語が類似単語群であるか否かを判定す
る(ステップ506)。
ステップ506における肯定判定の場合は、平均化部242
により、入力された音声の特徴量とステップ504で検出
された音声テンプレートとの平均の特徴量が求められ
(ステップ507)、この平均の特徴量がステップ504で検
出された音声テンプレートの代わりに、音声テンプレー
ト部421に格納される(ステップ508)。
例えば、ステップ501において、ラベル『大津市』と
これに対応する音声とがあ入力され、ステップ506にお
いて、単語『大津市』と単語『魚津市』とが類似単語で
あるとされた場合は、平均化部242によって算出された
平均の特徴量が音声テンプレートVk1として音声テンプ
レート部421に格納される。
また、このとき、登録制御部243は、ステップ506にお
いて類似単語群に属するとされた単語を示すラベルのそ
れぞれに対応して、この音声テンプレートの格納場所の
先頭アドレスを索引テーブル422に登録する。例えば、
上述した音声テンプレートVk1が格納された格納場所の
先頭アドレスAkが、ブロックB1に属するラベル『大津
市』およびブロックB2に属するラベル『魚津市』に対応
するポインタとして、索引テーブル422に登録される
(ステップ509)。
一方、ステップ505あるいはステップ506における否定
判定の場合は、入力された音声の特徴量が、新しい音声
テンプレートとして音声テンプレート部421に格納され
(ステップ510)、この音声テンプレートの格納場所の
先頭アドレスが、入力されたラベルに対応するポインタ
として索引テーブル422に登録される(ステップ511)。
このような登録動作を行なうことにより、第5表に示
すような索引テーブル422が生成される。
以下、第2実施例による音声認識動作を説明する。
まず、第1発声に対応する特徴量V(1)が照合部23
1に供給されたときに、範囲指定部460は、照合部231に
対して索引テーブル422のブロックB0を指定する。
これに応じて、照合部231は索引テーブル422を参照
し、指定されたブロックB0に含まれるポインタ(先頭ア
ドレスA0,A1,A2,…)で示される音声テンプレートのそ
れぞれと供給された特徴量V(1)との間の類似度を求
める。
このようにして求められた類似度が最も高い音声テン
プレートの格納場所を示すポインタに対応するラベル
が、照合部231により第1発声に対応する認識結果とし
て出力されるとともに、範囲指定部460に供給される。
第2発声を認識する際に、範囲指定部460は、上述し
た第1発声に対応する認識結果に基づいて階層辞書251
を参照し、該当する都道府県に存在する市名を示すラベ
ルを含むブロックを照合部231に指定する。例えば、第
1発声に対応する認識結果がラベル『滋賀県』であった
場合は、滋賀県内に存在する市名を示すラベルが含まれ
ているブロックB1が指定される。
第1発声の場合と同様にして、範囲指定部460によっ
て指定されたブロック(例えばブロックB1)に含まれる
ポインタで示される音声テンプレートと第2発声の特徴
量V(2)との類似度が求められ、この類似度が最も高
い音声テンプレートに対応するラベル(例えば『大津
市』)が認識結果として出力される。
上述したように、類似単語群に属している複数の単語
の音声の平均の特徴量を音声テンプレートとして音声テ
ンプレート部421に格納し、索引テーブル422によって、
この音声テンプレートの格納場所を示すポインタとこれ
ら単語を示すラベルとを対応付けるようにする。
これにより、範囲指定部460によって、索引テーブル2
33のブロックの1つを指定することにより、照合部231
によって照合する音声辞書の範囲を動的に制限すること
が可能となる。
この場合は、第1発声および第2発声に対応する認識
結果を得るために、照合部231において必要な照合回数
の平均値n2は下式のようになり、上述した第1実施例に
おける照合回数2mよりも少なくすることができる。
n2=NP+NC/NP …(1) ここで、NPはブロックB0に都道府県名として含まれて
いるラベルの総数であり、NCは各都道府県に対応するブ
ロックB1,B2,…に市名として含まれているラベルの総数
である。
また、上述した第1実施例と同様に、音声辞書420に
割り当てられたメモリの量によって定められる音声テン
プレートの数よりも多くの単語の認識を行なうことがで
き、認識に要する時間の短縮を計るとともに、認識でき
る単語の数の増加を計ることができる。
V.発明の変形態様 なお、上述した本発明の実施例にあっては、荷物の宛
先の市名は宛先の都道府県内に存在する市名に限られる
というような制限条件に基づいて、認識候補の何れか1
つを選択する場合について説明したが、例えば英語の文
法に関する情報に基づいて認識候補の何れかを選択する
ようにして、英語の文章の音声入力を行なうようにした
コンピュータ支援学習システムなどに適用できる。
第6図に、第3実施例としてコンピュータ支援学習シ
ステムに適用した音声認識装置の構成を示す。
図において、第3実施例による音声認識装置は、第2
図に示した第1実施例による音声認識装置の階層辞書25
1に代えて、英語の文法に関する情報を格納している文
法情報格納部451を備え、また、第1実施例の階層検査
部251に代えて、文法情報格納部451に格納された英語の
文法に関する情報に基づいて、認識候補の何れか1つを
選択する文法検査部452を備えて構成されている。
この文法情報格納部451には、例えば、『主語が三人
称単数で時制が現在である場合は、動詞の基本形の語尾
に“s"が付加される』などのような文法的な制限条件を
格納するようにすればよい。
上述したような文法的な制限条件を考慮して、上述し
た第1実施例と同様に音声的に類似している複数の単語
を類似単語群とし、この類似単語群に対応して1つの音
声テンプレートを音声辞書221に登録するようにする。
例えば、英単語“WALK"および“WALKS"は、互いに音声
的に類似しており、かつ、上述した文法的な制限条件に
よりどちらを選択すべきかが一意に定まる。このような
英単語を類似単語群とすれば、第1実施例と同様に、認
識できる単語数を増加させる効果が期待できる。
また、検査される製品や部品を示す単語が認識された
場合に、この認識結果に基づいて、その製品および部品
に関する検査項目を示す複数の認識候補の何れか1つを
選択するようにして、製品や部品などの検査業務に適用
することもできる。
更に、「I.実施例と第1図との対応関係」において、
本発明と実施例との対応関係を説明しておいたが、これ
に限られることはなく、本発明には各種の変形態様があ
ることは当業者であれば容易に推考できるであろう。
〔発明の効果〕
上述したように、本発明によれば、複数の音声識別情
報のそれぞれに対応して少なくとも1つの認識候補を音
声辞書に登録し、音声識別情報の数よりも認識候補の数
を多くして、前の認識結果に基づいて複数の認識候補の
中から何れか1つを選択することにより、認識できる単
語の数を音声辞書の記憶容量で制限される数よりも多く
することが可能となり、利用者の要求に柔軟に対応する
ことができるので、実用的には極めて有用である。
【図面の簡単な説明】
第1図は本発明の音声認識装置の原理ブロック図、 第2図は本発明の第1実施例による音声認識装置の構成
図、 第3図は第1実施例の登録動作を表す流れ図、 第4図は第2実施例による音声認識装置の構成図、 第5図は第2実施例の登録動作を表す流れ図、 第6図は第3実施例による音声認識装置の構成図、 第7図,第8図,第9図は従来の音声認識装置の構成を
示す図である。 図において、 111は音声辞書、 131は特徴抽出手段、 141は検索手段、 211,711は特徴抽出部、 221,420,721は音声辞書、 231,731は照合部、 240は登録部、 241は類似度計算部、 242は平均化部、 243は登録制御部、 251,841は階層辞書、 252,842は階層検査部、 421は音声テンプレート部、 422は索引テーブル、 460,941は範囲指定部、 651は文法情報格納部、 652は文法検査部である。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 521 G10L 3/00 561 G10L 3/00 531 G06F 15/20 526

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声の特徴を表している複数の音声識別情
    報のそれぞれに対応して、少なくとも1つの認識候補を
    登録している音声辞書(111)と、 入力された音声の特徴を抽出する特徴抽出手段(131)
    と、 前記特徴抽出手段(131)の出力に基づいて前記音声辞
    書(111)を検索するとともに、該当する音声識別情報
    に対応して複数の認識候補が登録されている場合は、前
    の認識結果に基づいて前記複数の認識候補の何れか1つ
    を認識結果として出力する検索手段(141)と、 を備えるように構成したことを特徴とする音声認識装
    置。
JP1224133A 1989-08-30 1989-08-30 音声認識装置 Expired - Fee Related JP2813207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1224133A JP2813207B2 (ja) 1989-08-30 1989-08-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1224133A JP2813207B2 (ja) 1989-08-30 1989-08-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0387800A JPH0387800A (ja) 1991-04-12
JP2813207B2 true JP2813207B2 (ja) 1998-10-22

Family

ID=16809063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1224133A Expired - Fee Related JP2813207B2 (ja) 1989-08-30 1989-08-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP2813207B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
JPH0387800A (ja) 1991-04-12

Similar Documents

Publication Publication Date Title
US7542966B2 (en) Method and system for retrieving documents with spoken queries
US5982929A (en) Pattern recognition method and system
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
JP2991473B2 (ja) 文字の認識方法及び音素の認識方法
US11016968B1 (en) Mutation architecture for contextual data aggregator
US20080162137A1 (en) Speech recognition apparatus and method
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
JPH03172966A (ja) 類似文書検索装置
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
Li et al. A two-phase bio-NER system based on integrated classifiers and multiagent strategy
JPH1049543A (ja) 文書検索装置
JP7098502B2 (ja) 報告書作成装置、方法、およびプログラム
JP2813207B2 (ja) 音声認識装置
Tur et al. Semi-supervised learning for spoken language understanding semantic role labeling
JP4511274B2 (ja) 音声データ検索装置
JP2732661B2 (ja) テキスト型データベース装置
CN113793191B (zh) 商品的匹配方法、装置及电子设备
CN111488757A (zh) 用于对图像的识别结果进行分割的方法和设备及存储介质
JPH0441388B2 (ja)
JPH08137668A (ja) 類似単語検索のための有限オートマトン作成方法
JP2000036008A (ja) 文字認識装置及び記憶媒体
JPH042198B2 (ja)
JPH02148174A (ja) Ocrによる住所データベース検索装置
JPS61243531A (ja) 情報検索方式
JP2001325292A (ja) 複合語の類似度判定システム、類似度判定方法及び記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees