JPH0968998A

JPH0968998A - 音声認識方法及び音声認識装置

Info

Publication number: JPH0968998A
Application number: JP7223281A
Authority: JP
Inventors: Tomohiro Konuma; 知浩小沼; Masakatsu Hoshimi; 昌克星見; Seiji Hiraoka; 省二平岡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-08-31
Filing date: 1995-08-31
Publication date: 1997-03-11
Anticipated expiration: 2015-08-31
Also published as: JP3254977B2

Abstract

(57)【要約】【目的】本発明は、大語彙単語の認識を行う音声認識
方法及び音声認識装置を提供することを目的とする。【構成】あらかじめ発声されるであろう最大語彙数の
単語を大語彙単語辞書部１１に登録しておく。一文字キ
ー入力部１４から認識させたい単語の音節を入力し、そ
の音節を用いてしぼり込み部１３によって大語彙単語辞
書部１１を逐次しぼり込み選択していく。しぼり込みの
途中、一度に認識可能な認識語彙数に達したかどうかを
現状表示部１５によって外部に表示する。辞書が充分に
しぼり込まれたら、ユーザは認識させたい目的の言葉を
発声し、単語認識部１２により認識され結果が出力され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ検索などの大語
彙検索に利用する音声認識方法に関するものである。

【０００２】

【従来の技術】従来の音声認識システムでは、音声認識
方法の性能として一度に認識可能な語彙数に限界があ
る。そのためユーザが音声認識システムに対して発声可
能な語彙数は、音声認識方法が認識可能な語彙数と同じ
かそれよりも少なくなるように、システム製作者が音声
認識システムを使用する目的により、語彙と語彙数をシ
ステム作成の際に決めている。そこで、ユーザが音声認
識システムに対して発声可能な語彙数を増やすための方
法として、ユーザが発声可能な語彙をいくつかの意味の
ある単語のカテゴリに分割した単語辞書を作成し、その
単語辞書を階層構造にする。ユーザの発声に従い上位の
階層から階層構造をたどり、階層が代るごとに認識辞書
を切り換えることにより従来の音声認識方法の語彙数以
上の語彙を扱ってきた。

【０００３】

【発明が解決しようとする課題】従来の音声認識システ
ムで音声認識方法の限界語彙数を越えた大語彙を扱う技
術で、音声認識システムに対してユーザが発声可能な語
彙を、意味のある単語カテゴリに分割し階層構造を構築
するということは、音声認識システムを用いる目的によ
り、システム製作者が、語彙を予測し、全体の語彙を適
当に単語カテゴリに分割し、単語カテゴリ間の繋がりを
考え、階層構造を構築する作業である。しかし、ユーザ
の発声を完全に予想することができないので、システム
製作者にとって、語彙を最適に単語カテゴリに分け、そ
れを階層構造として構築するのは非常に困難であるとい
う課題を有しているまた、音声認識システムの語彙の単語カテゴリ分けやそ
の階層構造などは、システムを使用するユーザにとって
はわからないので、ユーザは、システムを使用中のある
時点で、階層構造のどこにいるのかそしてどの単語カテ
ゴリの語彙が発声可能なのかということがわからず、発
声すべき単語が何か予想がつかないので、ユーザが語彙
にある発声をしたとしても、単語カテゴリと階層構造を
持つ音声認識システムにとっては適切な発声にならず誤
認識になってしまうという課題を有する。

【０００４】本発明は、この２つの課題を同時に解決す
るもので、システム製作者には、語彙の単語カテゴリ分
けもその階層構造も必要のない単語辞書による音声認識
方法及び音声認識装置を提供し、また、ユーザに対して
は、発声可能な全ての語彙を常時発声することができ、
音声認識システムで従来の音声認識方法の語彙数の限界
を越えた大語彙を扱う音声認識方法及び音声認識装置を
提供ことを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声認識方法及び音声認識装置は、ユーザが
音声認識装置に対して発声する語彙を、従来のように単
語カテゴリ分けしてそれを階層構造にするのではなく、
語頭から一音節ごとに順番に五十音順に並べた構造を持
つ大語彙単語辞書部を、一文字キー入力部に入力される
一文字入力を用いて、しぼり込み部が、単語認識部で認
識可能な語彙数に逐次しぼり込み、現状表示部によって
現在しぼり込まれている大語彙単語辞書の状態をユーザ
に知らせるという構成を有している。

【０００６】

【作用】本発明は上記構成により、音声認識装置で従来
の音声認識方法の語彙数の限界を越えた大語彙を扱うと
きに、音声認識装置のシステム製作者は、ユーザが発声
すると予想される語彙を最大限用意し、語頭から一音節
ごとに順番に五十音順に並べた単語辞書を作成すること
により、単語カテゴリ分けとその階層構造を作る必要が
なくなる。

【０００７】また、音声認識装置のユーザは、五十音順
に並べた構造を持つ大語彙単語辞書部を、一文字キー入
力部に認識させたい単語の語頭から一文字ずつ入力して
いき、現状表示部により、単語辞書が一度に認識可能な
語彙数までしぼり込まれたか確認して、単語を発声する
ことで、発声単語がどの単語カテゴリに所属しているか
ということにとらわれずに、従来の音声認識方法の語彙
数の限界を越えた大語彙を扱う音声認識装置を使用する
ことができる。

【０００８】

【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。

【０００９】図１は、本実施例の構成図である。図１に
おいて、１１はユーザが発声すると予想される最大の語
彙が記憶されている大語彙単語辞書部、１２は単語認識
を行う単語認識部、１３は大語彙単語辞書部１１を単語
認識部１２で認識可能な語彙数にしぼり込むしぼり込み
部、１４は認識させたい単語の語頭から一文字ずつ入力
してしぼり込み部におくる一文字キー入力部、１５は大
語彙単語辞書１１の現在の状況をユーザに知らせる現状
表示部である。

【００１０】以上のような図１の構成において、以下そ
の動作について図２を用いて説明する。

【００１１】ユーザは、一文字キー入力部１４から認識
させたい単語の音節を語頭から入力し（図２のステップ
（イ））、しぼり込み部１３によって大語彙単語辞書１
１の単語の中から入力された音節と語頭が同一のものだ
けを選択することにより大語彙単語辞書１１をしぼり込
む（ステップ（ロ））。現状表示部１５でしぼり込まれ
ている辞書の現状、つまり単語認識部１２で認識可能な
語彙数までしぼり込まれているか否かを確認し、認識可
能語彙数までしぼり込まれきれなかった場合は一文字キ
ー入力部１４からさらに次の一文字を入力する（ステッ
プ（ハ））。これを単語認識部１２により認識可能な語
彙数までしぼり込まれるまで続け、しぼり込まれた時点
で、ユーザが単語認識部１２に対して単語を発声し（ス
テップ（ニ））、その発声が単語認識部１２により認識
され（ステップ（ホ））、結果が出力される（ステップ
（ヘ））。こうのような動作により従来の音声認識方法
で認識可能な語彙数以上の大語彙単語の認識が可能とな
る。

【００１２】次に各構成要素について詳細に説明する。
大語彙単語辞書部１１には、あらかじめユーザが発声す
ると予想される最大の語彙を登録しておく。この大語彙
単語辞書部１１の構造の一例を図３に示す。図３に示す
ように、漢字表記、ひらがな表記及び単語認識部で用い
るその単語の標準パターンの組みなどを五十音順に並べ
る。この構造により、しぼり込み部１３において一文字
入力のつど大語彙単語辞書部をしぼり込む。

【００１３】単語認識部１２の構成の一例を図４に示
す。図４において、マイクへのユーザの発声単語の入力
をＡＤ変換部３１でデジタル信号へ変換し、その信号に
対して音響分析部３２において音響分析を行なう。その
分析結果から特徴パラメータ抽出部３３によって音声を
特徴づける特徴パラメータへ変換する。照合部３４にお
いてその入力音声の標準パターンと、あらかじめ図１の
しぼり込み部１３によってしぼり込まれた大語彙単語辞
書部１１の標準パターンを照合し、最も近い単語を認識
結果出力部３５で認識結果として出力するものである。

【００１４】しぼり込み部１３の構成の一例を図５に示
す。図１の一文字キー入力部１４から受け取る一文字に
より、図５の一文字入力によるしぼり込み部４１が図１
の大語彙単語辞書部１１の単語を順次しぼり込み選択し
ていく。また、図１の大語彙単語辞書部から選択された
のが選択辞書部４２である。しぼり込み動作の結果、図
１の単語認識部１２の認識可能語彙数に達したかどうか
という現在の状態を図１の現状表示部１５に送る。

【００１５】一文字キー入力部１４の構成の一例を図６
に示す。キーボード５１による入力を、一文字入力とし
て図１のしぼり込み部１３に送る。

【００１６】現状表示部１５の構成の一例を図７に示
す。図１のしぼり込み部１３から受け取った図５の選択
辞書部４２の現状を、図７の外部表示部６１によりユー
ザに知らせる。図７に外部表示部の一例を示す。この外
部表示部６１では、一度に認識可能な語彙数までしぼり
込みできたならば青を、さらにしぼり込みが必要なこと
をユーザに知らせる時には赤を点灯させるインタフェー
スを示している。

【００１７】これらの構成により従来の音声認識方法で
認識可能な語彙数以上の大語彙単語の認識が可能とな
る。

【００１８】なお、本実施例の構成において一文字キー
入力部１４を図８に示す音節認識部に変更しても同様の
効果が得られる。

【００１９】図８において、マイクへのユーザの発声単
語の入力をＡＤ変換部８１でデジタル信号へ変換し、そ
の信号に対して音響分析部８２において音響分析を行な
う。その分析結果から特徴パラメータ抽出部８３によっ
て音声を特徴づける特徴パラメータへ変換する。照合部
８４においてその入力音節の標準パターンと、あらかじ
め音節辞書部８５に蓄えられている音節の特徴パラメー
タを照合し、最も近い音節を図１のしぼり込み部１３に
おくるものである。

【００２０】

【発明の効果】以上のように本発明は、ユーザが音声認
識装置に対して発声する単語を蓄え、また、従来の音声
認識方法で認識可能な語彙数にしぼり込むための構造を
持つ大語彙単語辞書部と、その大語彙単語辞書を一文字
入力によって逐次しぼり込むしぼり込み部と、発声単語
の語頭から音節をキーボードにより入力する一文字キー
入力部もしくは発声単語の語頭から順次発声された音節
を認識する音節認識部と、現在しぼり込まれている大語
彙単語辞書の状態をユーザに知らせる現状表示部と、従
来の音声認識方法で単語を認識する認単語認識部を構成
として、持つことにより、音声認識装置のシステム製作
者は、従来行われてきた単語カテゴリ分けとその階層構
造を作る必要がなくなり、また、音声認識装置のユーザ
は、発声単語がどの単語カテゴリに所属しているか予想
できないという従来の課題を解決し、優れた大語彙単語
の認識を行う音声認識方法及び音声認識装置を実現でき
るものである。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置の構成
図

【図２】同実施例におけるの処理の流れ図

【図３】同実施例における大語彙単語辞書部の構造図

【図４】同実施例における単語認識部の構成図

【図５】同実施例におけるしぼり込み部の構成図

【図６】同実施例における一文字キー入力部の構成図

【図７】同実施例における現状表示部の構成図

【図８】同実施例における音節認識部の構成図

【符号の説明】

１１大語彙単語辞書部１２単語認識部１３しぼり込み部１４一文字キー入力部１５現状表示部

Claims

【特許請求の範囲】

【請求項１】認識させたい単語の音節を語頭から１音
節ずつ入力し、１音節入力される毎に、入力された音節
を用いて複数の単語が記憶されている単語辞書の一部を
選択し、前記単語辞書の単語数を予め決められた認識可
能語彙数以下にしぼり込んだ後、前記認識させたい単語
を音声入力して単語認識を行う音声認識方法。
【請求項２】キーボードを用いて、認識させたい単語
の音節を語頭から１音節ずつ入力する請求項１記載の音
声認識方法。
【請求項３】音声により、認識させたい単語の音節を
語頭から１音節ずつ入力する請求項１記載の音声認識方
法。
【請求項４】複数の単語が記憶されている大語彙単語
辞書部と、認識させたい単語の音節を語頭から１音節ず
つ入力する一文字入力部と、１音節入力される毎に前記
音節を用いて大語彙単語辞書部の一部を選択するしぼり
込み部と、前記しぼり込み部により選択された大語彙単
語辞書部の単語数が予め決められた認識可能語彙数以下
か否かを表示する現状表示部と、しぼり込まれた大語彙
単語辞書部の単語数が予め決められた認識可能語彙数以
下になることにより、前記認識させたい単語を音声入力
して認識する単語認識部を具備する音声認識装置。
【請求項５】一文字入力部が、キーボードにより音節
を入力するものである請求項４記載の音声認識装置。
【請求項６】一文字入力部が、音声により音節を入力
するものである請求項４記載の音声認識装置。