JPH11175094A

JPH11175094A - 音声認識装置

Info

Publication number: JPH11175094A
Application number: JP9338448A
Authority: JP
Inventors: Nobuo Hataoka; 信夫畑岡; Hiroaki Kokubo; 浩明小窪; Yasunari Obuchi; 康成大淵; Akio Amano; 明雄天野; Shinya Oba; 信弥大場; Kazuo Kondo; 和夫近藤; Shinji Wakizaka; 新路脇坂
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-12-09
Filing date: 1997-12-09
Publication date: 1999-07-02
Anticipated expiration: 2017-12-09
Also published as: JP3671636B2

Abstract

(57)【要約】【課題】入力したい語彙や文章が誤認識で入力できな
い場合、上記語彙等を効率良く入力することができる音
声認識装置を提供することにある。【解決手段】入力したい語彙等が誤認識で入力できな
い場合は、入力したい語彙等の上位概念や、それを補足
説明する語彙や文章を入力、あるいは付加して入力する
手段を設ける。例えば、地名入力等で誤認識のために入
力できない場合は、その地名の上位概念である都道府県
名を入力、あるいは付加して入力する手段を設け、人名
入力では、姓の入力ができないときには、名前も付加し
て入力する手段を設ける。また、複合語の入力では、構
成している単語などを個別に順次音声入力する手段を設
ける。【効果】入力したい語彙や文章が誤認識で入力できな
い場合、上記語彙等を効率良く入力することができる音
声認識装置を提供することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に係
り、入力したい語彙や文章が誤認識で入力できない場
合、上記語彙等を効率良く入力することができる音声認
識装置に関する。

【０００２】

【従来の技術】図１は、従来の音声認識システムにおけ
る音声入力フローの概念を示す図である。本図では、地
名入力のタスクにおける音声入力の手順を、ユーザの入
力とシステムからの応答の形態で表現している。ユーザ
からの入力が「東仙台（ひがしせんだい）」であり、認
識結果のシステムの応答が「東千住」と誤認識であった
場合を想定している。従来の方法では、誤認識の場合
は、ユーザの「いいえ」等の応答に対応して、例えば第
２位の認識結果を出力したり（対応１）、再度入力を促
し、再度音声認識を実行して、正解を求め直す（対応
２）などの手順が実行されていた。

【０００３】

【発明が解決しようとする課題】しかし、本願発明者が
従来の音声認識システムを検討したところ、入力したい
語彙や文章が誤認識で入力できない場合、上記語彙等を
効率良く入力することが困難な場合があることを発見し
た。

【０００４】そこで、本願発明の目的は、入力したい語
彙や文章が誤認識で入力できない場合、上記語彙等を効
率良く入力することができる音声認識装置を提供するこ
とにある。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、本願発明では、入力したい語彙や文章が誤認識で入
力できない場合は、入力したい語彙や文章の上位概念
や、それを補足説明する語彙や文章を入力、あるいは付
加して入力する手段を設ける。例えば、地名入力等で誤
認識のために入力できない場合は、その地名の上位概念
である都道府県名を入力、あるいは付加して入力する手
段を設け、人名入力では、姓の入力ができないときに
は、名前も付加して入力する手段を設ける。入力したい
語彙や文章の上位概念や、それを補足説明する語彙や文
章を入力、あるいは付加して入力する手段を設けること
により、入力したい語彙の上位概念や補足説明を付加す
ることで、入力すべき内容の候補を絞り込み、認識率の
向上を図ることができる。

【０００６】また、本願の他の発明では、複合語の入力
では、構成している単語などを個別に順次音声入力する
手段を設ける。構成している単語などを個別に順次音声
入力する手段を設けることにより、認識候補を絞り込
み、又は複合語を構成しているサブセットの単語等に分
解して入力することで、複合語を構成している単語間の
リエゾン（発音上の結合）をなくし、認識率の向上を図
ることができる。

【０００７】

【発明の実施の形態】以下、本願発明の実施例を詳細に
説明する。

【０００８】図２は、本発明の音声認識システムの音声
入力フローの概念を示す図である。例１は地名入力をタ
スクにした場合であって、誤認識を起こしたときには、
従来ように再度同じ内容の発声をするのではなく、例え
ば、「仙台市東仙台」のように東仙台の上位概念である
仙台市を付加してに入力すること（方式１）や、「東」
「仙台」のように入力内容が複合語から構成されている
場合は、複合語を構成している単語等を区切って発声す
ること（方式２）、または「仙台市」あるいは「仙台市
の」と発声してから「東仙台」と再度入力すること（方
式３）などが考えられる。この結果、方式１では、仙台
市の中に属している地名や駅名へと認識候補を絞り込む
ことが可能となり、等価的に認識率を向上させることに
なる。方式２では、複合語を構成しているサブセットの
単語等に分解して入力することで、複合語を構成してい
る単語間のリエゾン（発音上の結合）をなくし、認識率
を向上させることになる。次に、例２として、人名入力
のタスクを考える。ユーザからの入力発声が「長島（な
がしま）」であって、認識結果のシステムからの出力が
「中島」であったと想定している。この場合、本発明で
は、「長島茂雄」のように姓と名を連結して入力するこ
と（方式１）や、「巨人（の）長島」のように所属名を
付加して入力すること（方式２）、または「巨人
（の）」と発声してから「長島」と区切って発声するこ
と（方式３）などを提案している。

【０００９】尚、入力したい語彙等の音声と該入力した
い語彙の上位概念や補足説明等の音声とを識別するボタ
ンを設け、該識別ボタンを一時的に、又は継続的に押し
ながら、該入力したい語彙の上位概念や補足説明等の音
声を入力することも考えられる。該識別ボタンを設ける
ことにより、入力したい語彙等のみを入力する場合と、
該入力したい語彙の上位概念や補足説明等を付加して入
力する場合とを選択することが可能となり、音声認識シ
ステムに柔軟性を持たせることが可能となる。

【００１０】また、本実施例では、誤認識を起こしたと
きには、従来ように再度同じ内容の発声をするのではな
く、例えば、「仙台市東仙台」のように東仙台の上位概
念である仙台市を付加してに入力すること（方式１）
や、「東」「仙台」のように入力内容が複合語から構成
されている場合は、複合語を構成している単語等を区切
って発声すること（方式２）、または「仙台市」あるい
は「仙台市の」と発声してから「東仙台」と再度入力す
ること（方式３）こと等を取り上げたが、最初の入力か
ら、上記方式１乃至方式３の方式で音声入力を行って
も、上述と同様の効果を得ることができる。以下の実施
例においても同様である。

【００１１】図３は、本発明が創生されるに至った、地
名の階層的な関係を示す図である。図で示すように、一
般的には「都道府県名」があって、その下位の概念とし
て「市区町村名」があり、さらにその下位の概念として
「地区名」がある。具体的には、「宮城県」「仙台市」
「東仙台」のような階層的な関係がある。従って、地名
の場合は、「地区名」の上位概念は、「市区町村名」で
あり、さらに「市区町村名」の上位概念は「都道府県
名」となっている。

【００１２】図４は、同様に本発明が創生されるに至っ
た、人名の階層的な構成を示す図である。一般的には
「所属」があって、その下位の概念として「苗字名」が
あり、さらにその下位の概念として「名前」がある。具
体的には、「巨人軍」「長島」「茂雄」のような階層的
な関係がある。従って、人名の場合は、「名前」の上位
概念は、「苗字名」であり、さらに「苗字名」の上位概
念は「所属」となっている。所属としては、「どこそこ
の誰さん」のように、地名等になる場合も考えられる。

【００１３】図５は、本発明の音声認識システムの構成
の一実施例を詳細に示すブロック図である。使用者１０
０によって発声された音声信号１０を入力として、音声
認識部２００にて音声認識が実行される。音声認識部２
００の具体的な構成の一実施例としては、音声入力部２
１０にてアナログの音声情報がデジタルの音声波形情報
へと変換される。その後、音声分析部２２０にて、音声
の特徴パラメータが抽出される。音声パラメータに関し
ては、文献「音声情報処理の基礎」（斉藤収三、中田和
男共著、オーム社）に示されているように、例えば線形
予測分析により求まるＬＰＣケプストラムなどがある。
その後、照合・判定部２３０にて、入力音声の照合が実
行され、認識結果３０が出力される。出力結果３０は、
例えば表示応答部３００にて、使用者（ユーザ）に提示
され、認識結果の良否が使用者から音声やキーボードな
どにより入力される。表示応答部３００は、例えば通常
のモニターやスピーカなどである。使用者からの良否の
応答は３５０にて入力され、応答判定部４００にて、本
発明で提案する上位概念を付加した入力発声等の手順が
実行される，その結果、４５０にて再度使用者１００に
提示され、本は爪にの手順にて、正解が得られるまで発
声と認識実行が行われ、認識結果９９９を得ることにな
る。

【００１４】図６は、音声入力部２１０の一実施例を詳
細に示すブロック図である。入力音声１０はＬＰＦ（Lo
w Pass Filter）２１０１とＡ／Ｄコンバータ２１０２
にて、例えば12kHz、16bitでサンプリングでされて、音
声のアナログ信号１０が、デジタル信号２０へと変換さ
れる。ＬＰＦは、サンプリングでの折り返し雑音が入る
のを防ぐために用いられ、通常はサンプリング周波数の
半分以下のカットオフ周波数を持つ。例えば、12kHzサ
ンプリングの場合は、ＬＰＦのカットオフ周波数は6kHz
以下となる。

【００１５】図７は、音声分析部２２０の一実施例を詳
細に示すブロック図である。音声のデジタル信号２０を
入力として、まず相関関数算出部２２１０にて、ＬＰＣ
分析の入力情報である音声信号の自己相関関数が算出さ
れる。この際、ＬＰＣ分析の次数nであれば、少なくと
も相関関数の次数は n 以上が必要となる。 n は、音声
信号サンプルの n 点の違いである。音声信号をｘt ( t
サンプル点)とすれば、i 次の自己相関関数 Ri は、次
のように求められる。

【００１６】

【数１】

【００１７】次にＬＰＣ分析部２２２０にて、文献「音
声情報処理の基礎」（斉藤収三、中田和男共著、オーム
社）に詳細に記述されているように、音声のスペクトラ
ム情報を表現するＬＰＣパラメータであるＬＰＣ係数
（αパラメータ）が求められる。さらに、ケプストラム
係数変換部２２３０にて、音声認識のパラメータとして
優れているＬＰＣケプストラムがαパラメータから変換
して求められる。さらに、音声認識では、ケプストラム
の差分情報である回帰係数が回帰係数算出部２２４０に
て算出され、音声認識に使う音声パラメータ３０が出力
される。従って、音声パラメータ３０の実施例として
は、例えば、次のようになっている。また、パワー情報
とパワー情報の回帰係数も音声パラメータとして使用さ
れることもある。

【００１８】

【数２】

【００１９】図８は、音声照合・判定部２３０の一実施
例を詳細に示すブロック図である。本発明では、音声照
合方式の例としては、連続型ヒドン・マルコフ・モデル
（HMMs: Hidden Markov Models）を使用した場合を考え
る。連続型ヒドン・マルコフ・モデルに関しては、文献
「確率モデルによる音声認識」（中川聖一著、（社）電
子情報通信学会編）に詳細に説明されている。図４にて
詳細に説明したように、入力音声信号をサンプリング
し、音声分析にて得られた音声パラメータを時間軸に並
べて表現した音声の特徴パターンを入力として、音響モ
デル２３４０を参照しながら、確率分布計算部２３１０
にて、入力音声の短時間分析の結果の特徴パターンに対
して音響モデルの分布確率が計算される。更に、確率累
積部２３２０にて、単語辞書２３５０に記述された単語
の系列に対応した音響モデルの確率分布が累積されて、
単語辞書の各エントリィの累積確率が求まる。その後、
判定部２３３０にて、確率がもっとも高い単語エントリ
ィが第１次の認識結果４０として出力される。本発明で
は、単語認識を例にして説明したが、例えば文節認識や
文章認識も、単語辞書を文節や文章の文字系列とするこ
とで、単語認識と同様にして容易に実現される。

【００２０】図９は、本発明を具体的に実現する場合の
辞書構成の一実施例の詳細を示す図である。本実施例で
は、地名を表現する辞書の構成に関してであり、都道府
県名と市区町村名とともに、地区名が単語番号の順に記
述されている。本発明を用いた音声認識実行にあたって
は、まず地区名だけの単語辞書による認識が実行され、
誤認識された場合は、システムからの指示により市区町
村名や都道府県名を付加した形での音声入力がなされ、
システムではまず都道府県名や市区町村名の認識が実行
され、その認識結果の都道府県名や市区町村名に属して
いる地区名だけでの認識が実行される。図９での例で
は、宮城県と仙台市が特定されれば、単語辞書番号が１
１ではじまる地区名だけでの認識が実行されることにな
る。この結果、最初の認識での対象である全地区名の一
部が認識対象として絞り込まれ、結果として認識率の向
上に寄与することになる。例えば、関東地方の１都６県
の例では、７都道府県には約６５０市区町村名があり、
各市区町村名に平均として５０の地区名があるとすれ
ば、地区名だけの総数は約３万となり、３万語彙の認識
システムが必要となる。しかし、本発明の結果、都道府
県名と市区町村名が入力されれば、まず７語の認識、そ
の後、その都道府県名に属している約１００語以下の市
区町村名の認識、最終として認識された市区町村名に属
する約５０地区名の認識で済むことになり、結果として
は１００語の認識システムで地区名の認識が可能とな
る。また、本発明のように、最初はトータルの３万語の
認識から始まって、単語を最終的に約５０語に絞り込ま
れることが可能となり、認識率の向上が図られる。

【００２１】図１０は、本発明をカーナビゲーションへ
応用した時のインタフェースの一概念図を示す図であ
る。カーナビゲーション装置５００は、表示部５１０、
スピーカ５２０、イァフォンジャク５３０、セレクタ５
４０、及びマイクロフォン５５０で少なくとも構成され
ている。マイクロフォン５５０から入力された音声は認
識実行され、結果が表示部５１０や、スピーカ５２０に
て出力される。この結果、誤認識の場合は、本発明の応
答手順を経て、正解認識が得られるように進行される。
スピーカ５２０とイァフォンジャク５３０は、システム
からの応答音声を出力する装置として働く。

【００２２】図１１は、本発明の音声入力機能を持った
カーナビゲーションの構成の一実施例を示す図である。
少なくとも、カーナビゲーションシステムのおいては、
自車位置検出部５００、画面情報描画・表示部６００、
音声処理・出力部７００にて構成される。自車位置検出
部５００はＧＰＳ(Geographic Positioning System)信
号５０を入力として、ＧＰＳ受信部５１０にてＧＰＳ信
号が受信され、さらに位置補正がＧＰＳ位置補正部５２
０にて行われる。また、タイヤ回転情報６０から、タイ
ヤ回転算出部５３０、走行距離算出部５４０にて、タイ
ヤ回転と走行距離都の関係が算出され、位置変換部５５
０にて、走行距離から換算した位置情報が求められる。
さらに、ジャイロ情報７０から、ジャイロ情報受信部５
６０、ジャイロ位置変換部５７０を経て、自車位置が求
められる。以上の位置情報が位置補正・統合部５８０に
て統合され、最終的に精度の高い自車位置が求められ
る。その結果、画面情報描画・表示部６００において、
自車位置が画面上の地図の中に対応した形で表示され
る。この際、地図画面などの画面を作成する画面作成部
６１０、画面描画部６２０にて、画面が描画される。一
方、音声処理・出力部７００では、音声信号１０を入力
として、音声入力制御部７１０、音声認識部７２０、結
果出力部７３０にて、入力された音声の認識が実行さ
れ、認識結果９０が出力される。音声人認識部７２０
は、図５の音声認識部２００と同等である。また、認識
結果の確認や、交通情報の読み上げなどの合成音声は、
制御信号１５をもとに、音声出力制御部７４０、音声合
成部７５０、合成音出力部７６０にて、音声信号９５が
生成されて出力される。

【００２３】図１２は、本発明の音声入力機能を持った
メールの宛名入力システムのインタフェースの一概念を
示す図である。本実施例では、音声機能としては、メー
ルの読み上げと、メール送信時の宛名を音声で入力する
機能を持っている。本発明は後者の音声による宛名入力
に関してであり、宛名名を辞書として登録する宛名選択
と、送信時に宛名を音声で入力するメールアドレス入力
の２つが機能的にはある。宛名選択の処理のフローは、
アドレス帳の検索、宛名指定、認識用単語辞書書式への
変換、単語辞書とメールアドレス対応表の作成となって
いる。この結果、認識時に使用する単語辞書が構成され
る。メールアドレス入力の処理のフローは、認識処理そ
のものであり、まずＡ／Ｄ変換により入力音声をデジタ
ル音声に変換し、その後音声分析、連続ＨＭＭによる照
合、判定、最後に認識結果の表示となっている。その
際、音響モデルコードブックと音響モデルパラメータと
が用いられる。認識結果は、本実施例では、５候補出力
され、１位の場合は指示なしで、２位以下の場合は正解
の指示をもって、送信すべき相手のメールアドレスが入
力される。

【００２４】図１３は、本発明の音声入力機能を持った
メールの宛名入力システムの構成の一実施例を示すブロ
ック図である。まず、全体の構成として、ＰＣ／ＷＳと
ソフト８００で構成されている。具体的には、ソフトウ
ェアから使用者側に存在するアプリケーションＡＰ８１
０、その下のＰＣ／ＷＳのハード側に存在するソフトウ
ェアとして、例えばGraphics８２０、電話とのインタフ
ェースTel I/F８３０、音声認識部８４０、音声合成部
８５０、Audio I/F８６０、さらに、これらのソフトウ
ェアを実行するマルチメディア対応ＯＳ８７０、そして
マルチメディア対応ハードウェア８８０で構成されてい
る。音声認識ブロック８４０は、音声２０を入力とし
て、例えばＰＣに標準的に装備されているSoundBoard８
４１０で音声がＡ／Ｄ変換され、ＰＣソフトウェアにて
SoundBoardの品質の違いを補正するAudio Calibration
とNoise Canceller８４２０、音声認識のエンジンであ
る音声認識部８４３０、そして音響モデルとご単語辞書
が格納されているメモリ８４５０にて構成されている。
この結果、認識結果９０が出力される。

【００２５】図１４は、本発明を用いた方式の効果を示
す認識率評価の一結果を示す概念図である。認識単語の
語彙数を２０００まで想定し、従来の方式と本発明によ
る認識率の改善を示している。例えば、関東地方の１都
６県に存在する約６５０市町村名を認識語彙とした場
合、市町村名だけで入力すると、認識語彙数が計６５０
単語の認識となり、現状では、約９２％の認識率とな
る。しかし、東京都や県名を付加して入力した場合は、
１都６県計７単語認識のあとに付随する地名の語彙数約
１００語認識となる。この結果、認識率は約９９％とな
り、約７％の認識率の向上が見込まれる。

【００２６】

【発明の効果】本発明により、入力したい語彙や文章が
誤認識で入力できない場合、上記語彙等を効率良く入力
することができる音声認識装置を提供することができ
る。従来の音声認識システムでは、音声入力だけでは入
力完了ができなかったような場合でも、音声入力の機能
だけで入力したい内容を入力できるので、効率の良い音
声認識利用のシステム及び装置の提供が可能となる。

【図面の簡単な説明】

【図１】従来の音声認識システムにおける音声入力フロ
ーの概念を示す図。

【図２】本発明のユーザインタフェース方法、及び装置
を持ったシステムの音声入力フローの概念を示す図。

【図３】地名の階層的な構成を示す図。

【図４】人名の階層的な構成を示す図。

【図５】本発明を持った音声認識システムの構成の一実
施例を詳細に示すブロック図。

【図６】音声入力部２１０の一実施例を詳細に示すブロ
ック図。

【図７】音声分析部２２０の一実施例を詳細に示すブロ
ック図。

【図８】音響照合・判定部２３０の一実施例を詳細示す
ブロック図。

【図９】本発明を使った辞書構成の一実施例を詳細に示
す図。

【図１０】本発明の機能を持ったカーナビゲのインタフ
ェースの一概念図を示す図。

【図１１】カーナビゲーションの構成の一実施例を示す
ブロック図。

【図１２】本発明の機能を持ったメール宛名入力システ
ムのインタフェースの一概念を示す図。

【図１３】メール宛名入力システムの構成の一実施例を
示すブロック図。

【図１４】本発明の効果を示す一認識率評価を示す図。

【符号の説明】

入力音声１０、使用者（ユーザ）１００、音声認識部２
００、音声入力部２１０、ＬＰＦ２１１０、Ａ／Ｄ２１
２０、音声信号（デジタル）２０、音声分析部２２０、
相関関数算出部２２１０、ＬＰＣ分析部２２２０、ケプ
ストラム係数変換部２２３０、回帰係数算出部２２４
０、音声パラメータ３０、照合・判定部２３０、確率分
布計算部２３１０、確率累積部２３２０、判定部２３３
０、音響モデル２３４０、単語辞書２３５０、認識候補
４０、表示応答部３００、良否入力部３５０、応答判定
部４００、定時部４５０、認識結果９０、カーナビゲー
ション装置５０００、表示部５１００、スピーカ５２０
０、イアホンジャック５３００、セレクタ５４０、マイ
クロホン５５００、さらにカーナビゲーションにおける
ＧＰＳ信号５０、ＧＰＳ受信部５１０、ＧＰＳ位置補正
部５２０、タイヤ回転情報６０、タイヤ回転算出部５３
０、走行距離算出部５４０、位置変換部５５０、ジャイ
ロ情報７０、ジャイロ情報受信部５６０、ジャイロ位置
変換部５７０、位置補正・統合部５８０、画面情報描画
・表示部６００、画面作成部６１０、画面描画部６２
０、音声処理・出力部７００、音声入力制御部７１０、
音声認識部７２０、結果出力部７３０、制御信号１５、
音声出力制御部７４０、音声合成部７５０、做静穏出力
部７６０、音声信号９５、最後にメール宛名入力システ
ムにおける、ＰＣ／ＷＳとソフト８００、アプリケーシ
ョンＡＰ８１０、Graphics８２０、電話インタフェース
(Tel I/F)８３０、音声認識部８４０、音声合成部８５
０、Audio I/F８６０、マルチメディア対応ＯＳ８７
０、マルチメディア対応ハードウェア８８０、音声認識
ブロック８４０、SoundBoard８４１０、ＰＣソフトウェ
ア内のAudio Calibration、Noise Cancellaer８４２
０、音声認識エンジン８４３０、メモリ８４４０。

───────────────────────────────────────────────────── フロントページの続き (72)発明者天野明雄東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者大場信弥東京都小平市上水本町五丁目20番１号株式会社日立製作所半導体事業部内 (72)発明者近藤和夫東京都小平市上水本町五丁目20番１号株式会社日立製作所半導体事業部内 (72)発明者脇坂新路東京都小平市上水本町五丁目20番１号株式会社日立製作所半導体事業部内

Claims

【特許請求の範囲】

【請求項１】入力音声を認識する手段を有する音声認識
装置において、認識対象の音声の内容の上位概念を入力させる手段を有
すること特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置において、
入力された上記認識の音声の内容の上位概念を用いて、
上記認識対象の音声に対する認識候補を絞り込む手段を
有することを特徴とする音声認識装置。
【請求項３】請求項１又は請求項２の何れかに記載の音
声認識装置において、上記認識対象の音声の内容の上位
概念は音声により入力させることを特徴とする音声認識
装置。
【請求項４】請求項１又は請求項２記載の音声認識装置
において、上記認識対象の音声の内容が土地名、又は地
名である場合に、上記認識対象の音声の内容の上位概念
は市町村名、又は都道府県名であることを特徴とする音
声認識装置。
【請求項５】請求項１又は請求項２記載の音声認識装置
において、上記認識対象の音声の内容が人名である場合
に、上記認識対象の音声の内容の上位概念は上記人名の
所属部署、又は居住地名であることを特徴とする音声認
識装置。
【請求項６】請求項３記載の音声認識装置において、上
記認識対象の音声の内容の上位概念の音声と上記認識対
象の音声とを連続的に入力させることを特徴とする音声
入力方法。
【請求項７】請求項３記載の音声認識装置において、上
記認識対象の音声の内容の上位概念の音声と、上記認識
対象の音声とを一定の間隔を設けて入力させることを特
徴とする音声認識装置。
【請求項８】請求項３、請求項６、又は請求項７の何れ
かに記載の音声認識装置において、上記認識対象の音声
の内容の上位概念の音声と、上記認識対象の音声とを識
別するボタンを有し、該識別ボタンを一時的に、又は継
続的に押しながら、上記認識対象の音声の内容の上位概
念の音声を入力させることを特徴とする音声認識装置。
【請求項９】入力音声を認識する手段を有する音声認識
装置において、認識対象の音声の内容を含んだ語彙、または文章を入力
させる手段を有することを特徴とする音声認識装置。
【請求項１０】請求項９記載の音声認識装置において、
上記認識対象の音声の内容が姓である場合に、上記認識
対象の音声の内容を含んだ語彙は上記姓と名とからなる
ことを特徴とした音声認識装置。
【請求項１１】入力音声を認識する手段を有する音声認
識装置において、認識対象の音声の内容を構成する語彙に分解して、上記
分解した語彙ごとに入力させることを特徴とする音声認
識装置。