JPH09274497A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09274497A
JPH09274497A JP11052596A JP11052596A JPH09274497A JP H09274497 A JPH09274497 A JP H09274497A JP 11052596 A JP11052596 A JP 11052596A JP 11052596 A JP11052596 A JP 11052596A JP H09274497 A JPH09274497 A JP H09274497A
Authority
JP
Japan
Prior art keywords
voice
input
candidates
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11052596A
Other languages
English (en)
Inventor
Takeshi Ono
健 大野
Yasuhide Yamamoto
泰秀 山本
Norimasa Kishi
則政 岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP11052596A priority Critical patent/JPH09274497A/ja
Publication of JPH09274497A publication Critical patent/JPH09274497A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声認識が困難な状況でも認識ヒット率を高め
る。 【解決手段】 音声を入力するマイク10と、複数の音
声と当該音声に関連する情報が格納されている音声辞書
メモリ20と、マイクから入力された音声と音声辞書に
格納されている音声との距離を演算し、当該距離の小さ
い順に所定数の音声候補を出力する音声認識手段30
と、音声候補を表示するディスプレイ40とを有する音
声認識装置であり、音声を再入力するための再入力スイ
ッチ50と、音声の再入力回数を計測するカウンタ60
とをさらに有し、再入力回数の増加に応じて、ディスプ
レイ上へ表示する音声候補数を増加させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に音声の認識が難しい場合でも認識ヒット率を高
め不満なく使用できる音声認識装置に関する。
【0002】
【従来の技術】従来この種の音声認識装置としては、例
えば特開平1−189,699号公報に開示されたもの
が知られている。この音声認識装置は、認識処理におい
てピックアップされた所定数の音声候補をタッチパネル
形ディスプレイ上に表示し、このディスプレイに表示さ
れた複数の音声候補から、使用者が目的とする音声を選
択するものである。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声認識装置でも、使用者の周囲の雑音が大
きい場合など、表示された複数の音声候補の中に目的と
する音声が含まれないことが少なくない。このようなと
きは、音声を再入力する他ないが、周囲の雑音が大きい
中で同様の発話を繰り返すこととなるので、やはり目的
とする音声が含まれない結果となってしまう。このよう
に従来の音声認識装置では、初期認識又は再認識時の認
識ヒット率について、何ら考慮がなされていなかった。
【0004】本発明は、このような従来技術の問題点に
鑑みてなされたものであり、音声認識が困難な状況であ
っても認識ヒット率が高い音声認識装置を提供すること
を目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の本発明の音声認識装置は、不特定話
者の音声を入力する音声入力手段と、複数の音声と当該
音声に関連する情報が格納されている音声辞書記憶手段
と、前記音声入力手段から入力された音声と前記音声辞
書記憶手段に格納されている音声との距離を演算し、当
該距離の小さい順に所定数の音声候補を出力する音声認
識手段と、前記音声認識手段からの音声候補を表示する
表示手段とを有する音声認識装置において、前記音声を
再入力する旨を入力する音声再入力指示手段と、前記音
声再入力指示手段による音声の再入力回数を計測して前
記音声認識手段へ出力する再入力回数計測手段とをさら
に有し、前記音声認識手段は、前記再入力回数計測手段
からの再入力回数の増加に応じて、前記表示手段へ出力
する音声候補数を増加させることを特徴とする(図1参
照)。
【0006】この請求項1記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。
【0007】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、かかる音声の再入力
回数を再入力回数計測手段で計測し、音声認識手段で、
再入力回数の増加に応じて表示手段へ出力する音声候補
数を増加させる。
【0008】したがって、音声認識が困難な状況になれ
ばなる程、表示手段に表示される音声候補数が増加する
ので、認識ヒット率が高くなる。しかも、この音声認識
装置では、認識環境が良好な場合などの常態時において
は、表示手段への音声候補数を最小限とでき、不必要な
音声候補が表示されないので、目的とする音声の発見も
容易である。
【0009】上記目的を達成するために、請求項2記載
の本発明の音声認識装置は、不特定話者の音声を入力す
る音声入力手段と、複数の音声と当該音声に関連する情
報が格納されている音声辞書記憶手段と、前記音声入力
手段から入力された音声と前記音声辞書記憶手段に格納
されている音声との距離を演算し、当該距離の小さい順
に所定数の音声候補を出力する音声認識手段と、前記音
声認識手段からの音声候補を表示する表示手段とを有す
る音声認識装置において、前記音声を再入力する旨を入
力する音声再入力指示手段と、前記表示手段にこれまで
表示された音声候補を記憶する音声候補記憶手段とをさ
らに有し、前記音声認識手段は、前記音声再入力指示手
段による音声の再入力が行われたとき、前記音声辞書記
憶手段に格納されている音声から前記音声候補記憶手段
に記憶された音声候補を除外した上で、前記音声入力手
段から入力された音声の距離を演算し、当該距離の小さ
い順に所定数の音声候補を出力することを特徴とする
(図2参照)。
【0010】この請求項2記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。
【0011】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、これまで表示された
音声候補、すなわち目的とする音声ではなかった音声候
補を音声候補記憶手段に記憶しておき、音声認識手段に
おける距離演算の際に、音声辞書から、これら音声候補
を除外した上で、距離を演算し当該距離の小さい順に所
定数の音声候補を出力する。
【0012】したがって、音声認識が困難な状況であっ
ても、一度表示されてヒットしなかった音声候補は再表
示されることがなくなるので、認識ヒット率が高くな
る。しかも、この音声認識装置では、表示手段へ表示す
る音声候補数は一定とできるので、表示手段が大型化し
たり、コストアップしたりすることを抑制できる。ま
た、表示手段への音声候補数を最小限とすることで、不
必要な音声候補が表示されることがなくなり、目的とす
る音声の発見も容易となる。
【0013】上記請求項1記載の音声認識装置と請求項
2記載の音声認識装置とを合わせて一つの音声認識装置
とすることもできる。すなわち、上記目的を達成するた
めに、請求項3記載の音声認識装置は、不特定話者の音
声を入力する音声入力手段と、複数の音声と当該音声に
関連する情報が格納されている音声辞書記憶手段と、前
記音声入力手段から入力された音声と前記音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を出力する音声認識手段
と、前記音声認識手段からの音声候補を表示する表示手
段とを有する音声認識装置において、前記音声を再入力
する旨を入力する音声再入力指示手段と、前記音声再入
力指示手段による音声の再入力回数を計測して前記音声
認識手段へ出力する再入力回数計測手段と、前記表示手
段にこれまで表示された音声候補を記憶する音声候補記
憶手段とをさらに有し、前記音声認識手段は、前記音声
再入力指示手段による音声の再入力が行われたとき、前
記音声辞書記憶手段に格納されている音声から前記音声
候補記憶手段に記憶された音声候補を除外した上で、前
記音声入力手段から入力された音声の距離を演算すると
共に、前記再入力回数計測手段からの再入力回数の増加
に応じて、前記表示手段へ出力する音声候補数を増加さ
せることを特徴とする(図3参照)。
【0014】この請求項3記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
このとき、表示手段に目的とする音声が表示されなかっ
た場合には、使用者は、音声再入力指示手段から音声を
再入力する旨を入力する。
【0015】これにより再度の音声入力を行うことにな
るが、本発明の音声認識装置では、これまで表示された
音声候補、すなわち目的とする音声ではなかった音声候
補を音声候補記憶手段に記憶しておき、音声認識手段に
おける距離演算の際に、音声辞書から、これら音声候補
を除外した上で、距離を演算し当該距離の小さい順に所
定数の音声候補を決定する。そして、音声の再入力回数
を再入力回数計測手段で計測し、再入力回数の増加に応
じて表示手段へ出力する音声候補数を増加させる。
【0016】したがって、音声認識が困難な状況であっ
ても、一度表示されてヒットしなかった音声候補は再表
示されることがなくなり、しかも音声認識が困難な状況
になればなる程、表示手段に表示される音声候補数が増
加するので、相乗的に認識ヒット率が高くなる。さら
に、この音声認識装置では、認識環境が良好な場合など
の常態時においては、表示手段への音声候補数を最小限
とでき、不必要な音声候補が表示されないので、目的と
する音声の発見も容易である。
【0017】上述した請求項1乃至3記載の音声認識装
置は、再入力時における認識ヒット率を高める機能を有
しているが、本発明は初期入力時の認識ヒット率を高め
る機能を付与することもできる。すなわち、上記目的を
達成するために、請求項4記載の本発明の音声認識装置
は、不特定話者の音声を入力する音声入力手段と、複数
の音声と当該音声に関連する情報が格納されている音声
辞書記憶手段と、前記音声入力手段から入力された音声
と前記音声辞書記憶手段に格納されている音声との距離
を演算し、当該距離の小さい順に所定数の音声候補を出
力する音声認識手段と、前記音声認識手段からの音声候
補を表示する表示手段とを有する音声認識装置におい
て、入力される音声の不明瞭度を検出する音声不明瞭度
検出手段をさらに有し、前記音声認識手段は、前記音声
不明瞭度検出手段による音声の不明瞭度の増加に応じて
前記表示手段へ出力する音声候補数を増加させることを
特徴とする(図4参照)。
【0018】この請求項4記載の音声認識装置では、不
特定話者の音声を音声入力手段から入力し、音声認識手
段で、音声入力手段から入力された音声と音声辞書記憶
手段に格納されている音声との距離を演算し、当該距離
の小さい順に所定数の音声候補を表示手段へ出力する。
【0019】このとき、音声不明瞭度検出手段で入力さ
れる音声の不明瞭度を検出し、音声認識手段で、この音
声の不明瞭度の増加に応じて表示手段へ出力する音声候
補数を増加させる。
【0020】したがって、雑音環境などのように音声認
識が困難な状況になればなる程、表示手段に表示される
音声候補数が増加するので、認識ヒット率が高くなる。
しかも、この音声認識装置では、初期入力時に音声の不
明瞭度に応じた音声候補数の変更を行うので、再入力の
必要がなく、短時間で目的とする音声が得られる。ま
た、認識環境が良好な場合などの常態時においては、表
示手段への音声候補数を最小限とでき、不必要な音声候
補が表示されないので、目的とする音声の発見も容易で
ある。
【0021】なお、本発明において、請求項4記載の音
声認識装置が有する初期入力時の認識ヒット率の向上機
能と、請求項1乃至3の何れかに記載の音声認識装置が
有する再入力時の認識ヒット率の向上機能とを合わせて
構成することも可能である。このようにすれば、総合的
に認識ヒット率がより高くなる。
【0022】
【発明の効果】請求項1記載の本発明の音声認識装置に
よれば、音声認識が困難な状況になればなる程、表示手
段に表示される音声候補数が増加するので、認識ヒット
率が高くなる。しかも、この音声認識装置では、認識環
境が良好な場合などの常態時においては、表示手段への
音声候補数を最小限とでき、不必要な音声候補が表示さ
れないので、目的とする音声の発見も容易である。
【0023】請求項2記載の本発明の音声認識装置によ
れば、音声認識が困難な状況であっても、一度表示され
てヒットしなかった音声候補は再表示されることがなく
なるので、認識ヒット率が高くなる。しかも、この音声
認識装置では、表示手段へ表示する音声候補数は一定と
できるので、表示手段が大型化したり、コストアップし
たりすることを抑制できる。また、表示手段への音声候
補数を最小限とすることで、不必要な音声候補が表示さ
れることがなくなり、目的とする音声の発見も容易とな
る。
【0024】請求項3記載の本発明の音声認識装置によ
れば、音声認識が困難な状況であっても、一度表示され
てヒットしなかった音声候補は再表示されることがなく
なり、しかも音声認識が困難な状況になればなる程、表
示手段に表示される音声候補数が増加するので、相乗的
に認識ヒット率が高くなる。さらに、この音声認識装置
では、認識環境が良好な場合などの常態時においては、
表示手段への音声候補数を最小限とでき、不必要な音声
候補が表示されないので、目的とする音声の発見も容易
である。
【0025】請求項4記載の本発明の音声認識装置によ
れば、雑音環境などのように音声認識が困難な状況にな
ればなる程、表示手段に表示される音声候補数が増加す
るので、認識ヒット率が高くなる。しかも、この音声認
識装置では、初期入力時に音声の不明瞭度に応じた音声
候補数の変更を行うので、再入力の必要がなく、短時間
で目的とする音声が得られる。また、認識環境が良好な
場合などの常態時においては、表示手段への音声候補数
を最小限とでき、不必要な音声候補が表示されないの
で、目的とする音声の発見も容易である。
【0026】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。 第1実施形態 図3は本発明の音声認識装置の第1実施形態を示すブロ
ック図、図5は当該音声認識装置のハードウェア構成を
示す図、図7は同実施形態に係る音声辞書を示すフォー
マット図、図9は同実施形態に係る表示手段を示す概念
図である。
【0027】本実施形態は、駅名を音声で探索する音声
認識装置に本発明を適用した例であり、図3に示すよう
に、機能的構成として、音声入力手段10、音声辞書記
憶手段20、音声認識手段30、表示手段40、音声再
入力指示手段50、再入力回数計測手段60及び音声候
補記憶手段70を有している。
【0028】音声入力手段10は、不特定話者の音声を
入力するもので、出力信号は音声認識手段30に送出さ
れる。具体的なハードウェアとしては、図5に示される
ように、マイク12と、帯域フィルタ14と、マイク1
2に入力されたアナログ信号をディジタル信号に変換す
るA/Dコンバータ16から構成されており、変換され
たディジタル信号は入力部32を介して音声認識手段3
0であるCPU34に送出される。フィルタ14の帯域
は、例えば100Hz〜7kHzに設定されている。
【0029】音声辞書記憶手段20は、複数の音声と当
該音声に関連する情報を格納したもので、CPU34と
接続されて音声情報の交換が行われる。この音声辞書記
憶手段20は、ROM或いはRAMなどの各種メモリ
や、CD,FDなどの記録媒体等、記憶形態や書き込み
の可否に拘わらず各種の記憶手段を適用できるが、本実
施形態では、後述する制限フラグ204を設ける必要が
あるため、図5に示すように書き込み可能なメモリ22
を使用している。音声に関連する情報としては、表示手
段40に表示する際の漢字や、その文字に関連するデー
タ、或いは制限フラグなどの制御情報などが挙げられ
る。本実施形態の音声辞書記憶手段20は、図7に示す
ように、駅名に関連する情報のうち、音声の読み20
1、漢字202、駅名のデータ203及び制限フラグ2
04が図示する如くフォーマットされて、記憶されてい
る。
【0030】音声認識手段30は、音声入力手段10か
ら入力された音声と、音声辞書記憶手段20に格納され
ている音声との距離を演算し、当該距離の小さい順に所
定数の音声候補を出力するもので、演算を実行するCP
U34(中央演算処理装置)と当該演算のプログラムが
格納されたメモリ22から構成されている。ただし、演
算中のデータを一時的に記憶するためにメモリ22を使
用する場合もある。
【0031】この音声認識手段30では、上述した距離
演算の他、音声の再入力が行われたときに、比較すべき
音声辞書記憶手段20内の音声情報から、音声候補記憶
手段70に記憶された音声候補を除外する処理と、再入
力回数計測手段60からの再入力回数の増加に応じて、
表示手段40へ出力する音声候補数を増加させる処理も
行われる。なお、音声入力手段10から入力された音声
と、音声辞書記憶手段20に格納されている音声との距
離演算法には、例えばHMM(HiddenMarko
v Models)を用いることができる。
【0032】表示手段40は、音声認識手段30からの
音声候補を表示するもので、例えば図9に示すような液
晶タッチパネル形ディスプレイ42を用いることができ
る。この表示手段40では、音声認識手段30から出力
された音声候補数に応じて、表示される漢字数が可変と
なっており、例えば図9(A)に示すように4つの音声
候補が音声認識手段30から出力された場合には、当該
4つの音声候補を、また図9(B)に示すように6つの
音声候補が出力された場合には、当該6つの音声候補を
表示できるように構成されている。
【0033】本実施形態の音声認識装置では、音声を再
入力する旨を入力する音声再入力指示手段50と、音声
再入力指示手段50による音声の再入力回数を計測して
音声認識手段30へ出力する再入力回数計測手段60
と、表示手段40にこれまで表示された音声候補を記憶
する音声候補記憶手段70とをさらに有している。
【0034】音声再入力指示手段50は、図9に示され
るように、タッチパネル形ディスプレイ42の一部に設
けられたスイッチ52であって、使用者がディスプレイ
42上に表示された駅名中に目的とする駅名が含まれて
いなかった場合に、この細流力スイッチ52を押し、マ
イク12から音声を再入力する。なお、本実施形態では
表示手段40内に音声再入力指示手段50を設けたが、
本発明では別に音声再入力指示手段50を設けても良
い。
【0035】再入力回数計測手段60は、音声再入力指
示手段50による音声の再入力回数を計測して音声認識
手段30へ出力するものであり、再入力スイッチ52の
ON回数を計測するカウンタから構成することができ
る。
【0036】音声候補記憶手段70は、表示手段40に
これまで表示された音声候補を記憶するもので、図5に
示すメモリ22の一部を用いることができる。本実施形
態では、メモリ22内に格納された音声辞書フォーマッ
トの制限フラグ204を用い、一度表示された駅名につ
いてはフラグ「1」をたて、未表示の駅名についてはフ
ラグ「0」をたてる。
【0037】一度音声認識が行われて、その音声候補が
表示手段40に表示されたのち、音声の再入力が行われ
る場合は、今まで表示された駅名が全て誤認識であった
ことであるので、この音声候補記憶手段70は、今まで
誤認識された音声候補を一時的に記憶しておき、これを
音声認識手段30へ出力することにより、音声認識手段
30では、これら誤認識された音声候補を除外して次の
再認識処理を行う。これにより、再度表示される駅名中
には、誤認識された駅名が含まれないこととなる。
【0038】次に、認識処理動作を説明する。図8は本
発明の音声認識装置の第1実施形態の動作を示すフロー
チャートであり、まずステップ501にて音声認識手段
30の初期化が行われる。初期化状態では、再入力回数
kを0、表示手段40へ表示する音声候補数nを4、音
声辞書フォーマット内の制限フラグ204を0とする。
ただし、この音声候補数は具体例であって、ディスプレ
イ42の大きさや認識対象などの諸条件に応じて適宜変
更することができる。
【0039】初期化終了後、ステップ502にて、マイ
ク12、帯域フィルタ14及びA/Dコンバータ16を
通して、使用者の音声を音声認識手段30に入力する。
フィルタ14の帯域は既述したように100Hz〜7k
Hzである。
【0040】ステップ503にて、音声認識手段30
は、入力された音声信号に対し単語認識処理を行う。す
なわち、CPU34にて、入力された音声と、制限フラ
グが0である音声辞書の各読みとの距離をHMM距離演
算法で演算し、距離の小さいものから所定数n(=4)
の音声候補を、読み部201、漢字部202、データ部
203を1セットとして表示手段40へ出力する。
【0041】ステップ504にて、表示手段40上に、
4個の音声候補の漢字部202と、再入力スイッチ52
が表示される。この表示画面42には、図9(A)に示
すように、入力音声「しぶや(渋谷)」に対して、「日
比谷」「四谷」「千葉」「新橋」の4つの音声候補42
1〜424が表示されている。この場合、もし表示画面
中に目的とする「渋谷」が表示されていれば、ステップ
505にてタッチパネルディスプレイ42上の「渋谷」
の部分を押し、ステップ506にて再入力の必要もない
ので、ステップ507へ進んで結果をディスプレイ42
上に表示し、さらにステップ508にて出力部36から
外部装置などへ、この音声認識結果を読み部201、漢
字部202及びデータ部203を1セットとして出力す
る。
【0042】また、図9(A)に示すように、「しぶや
(渋谷)」と発話したにも拘わらず、目的とする「渋
谷」が表示されていない場合には、ディスプレイ42上
の再入力スイッチ52を押し、ステップ509へ進む。
このステップ509では、再入力スイッチ52のON回
数を計測し、1回押される度にkに1を加算する。
【0043】また、ステップ510では、ディスプレイ
42上へ表示する音声候補数を再入力回数に応じて増加
させるために、ステップ509で再入力回数kに係数a
を乗じ、それまでの音声候補数にこのa×kを加算す
る。本実施形態では係数aを2とし、初回の認識時の音
声候補数が4であるので、次に表示される音声候補数は
n=4+2×1で、6つの駅名となる(図9(B)参
照)。
【0044】ただし、タッチパネルディスプレイ42の
表示面積には限りがあるので、ステップ511にて、表
示可能な最大数nmax でnを制限する。nがnmax を越
えない場合には、後述するステップ512を経てステッ
プ502に戻り、音声の再入力を行う。本実施形態にお
けるnmax は8である。ステップ511にて、nがn
max を越える場合には、音声認識手段30は、認識不能
である旨の表示をディスプレイ42に出力し、認識不能
であることが使用者に喚起される。
【0045】nがnmax を越えない場合には、ステップ
512にて、現在表示されている音声候補、すなわち図
9(A)に示す「日比谷」「四谷」「千葉」「新橋」の
4つの音声候補421〜424について、その音声辞書
フォーマット内の制限フラグ204に「1」をたてる。
すなわち、目的とする「渋谷」が表示されなかったの
で、表示された4候補421〜424については、次回
の距離演算に用いないこととする。
【0046】ステップ502に戻り、音声の再入力が行
われると、ステップ504にてディスプレイ42上に表
示される音声候補数は、図9(B)に示すように前回よ
りも増加することになる。この場合にも、再入力スイッ
チ52は表示しておく。
【0047】このように、本実施形態の音声認識装置で
は、これまで表示された音声候補、すなわち目的とする
音声ではなく、誤認識された音声候補を音声候補記憶手
段70に記憶しておき、再入力の距離演算の際に、音声
辞書から、これらの音声候補を除外した上で再度音声候
補を決定し、しかも、再入力回数に応じて表示手段40
へ出力する音声候補数を増加させる。したがって、音声
認識が困難な状況であっても、一度表示されてヒットし
なかった音声候補は再表示されることがなくなり、しか
も音声認識が困難な状況になればなる程、表示手段40
に表示される音声候補数が初期状態の4から、6,1
0,…と増加するので、相乗的に認識ヒット率が高くな
る。なお、この音声認識装置では、認識環境が良好な場
合などの常態時においては、表示手段40への音声候補
数を4つに限定するなど最小限とすることができ、不必
要な音声候補が表示されないので、目的とする音声の発
見も容易である。
【0048】第2実施形態 本発明の音声認識装置は、上述した第1実施形態にのみ
限定されず、種々に改変することができる。図4は本発
明の音声認識装置の第2実施形態を示すブロック図、図
6は当該音声認識装置のハードウェア構成を示す図であ
り、同実施形態に係る音声辞書のフォーマット及び同実
施形態に係る表示手段は、第1実施形態とそれぞれ同じ
であるため図7及び図9を用いて説明する。
【0049】本実施形態も、第1実施形態と同様、駅名
を音声で探索する音声認識装置に本発明を適用した例で
あり、図4に示すように、機能的構成として、音声入力
手段10、音声辞書記憶手段20、音声認識手段30、
表示手段40及び音声不明瞭度検出手段80を有してい
る。
【0050】音声入力手段10は、不特定話者の音声を
入力するもので、出力信号は音声認識手段30に送出さ
れる。具体的なハードウェアとしては、図6に示される
ように、マイク12と、帯域フィルタ14と、マイク1
2に入力されたアナログ信号をディジタル信号に変換す
るA/Dコンバータ16から構成されており、変換され
たディジタル信号は入力部32を介して音声認識手段3
0であるCPU34に送出される。フィルタ14の帯域
は、例えば100Hz〜7kHzに設定されている。
【0051】音声辞書記憶手段20は、複数の音声と当
該音声に関連する情報を格納したもので、CPU34と
接続されて音声情報の交換が行われる。この音声辞書記
憶手段20は、ROM或いはRAMなどの各種メモリ
や、CD,FDなどの記録媒体等、記憶形態や書き込み
の可否に拘わらず各種の記憶手段を適用できるが、本実
施形態では、後述する制限フラグ204を設ける必要が
あるため、図6に示すように書き込み可能なメモリ22
を使用している。音声に関連する情報としては、表示手
段40に表示する際の漢字や、その文字に関連するデー
タ、或いは制限フラグなどの制御情報などが挙げられ
る。本実施形態の音声辞書記憶手段20は、図7に示す
ように、駅名に関連する情報のうち、音声の読み20
1、漢字202、駅名のデータ203及び制限フラグ2
04が図示する如くフォーマットされて、記憶されてい
る。
【0052】音声認識手段30は、音声入力手段10か
ら入力された音声と、音声辞書記憶手段20に格納され
ている音声との距離を演算し、当該距離の小さい順に所
定数の音声候補を出力するもので、演算を実行するCP
U34(中央演算処理装置)と当該演算のプログラムが
格納されたメモリ22から構成されている。ただし、演
算中のデータを一時的に記憶するためにメモリ22を使
用する場合もある。
【0053】この音声認識手段30では、上述した距離
演算の他、音声不明瞭度検出手段80による音声の不明
瞭度の増加に応じて、表示手段40へ出力する音声候補
数を増加させる処理も行われる。なお、音声入力手段1
0から入力された音声と、音声辞書記憶手段20に格納
されている音声との距離演算法には、例えばHMM(H
idden Markov Models)を用いるこ
とができる。
【0054】表示手段40は、音声認識手段30からの
音声候補を表示するもので、例えば図9に示すような液
晶タッチパネル形ディスプレイ42を用いることができ
る。この表示手段40では、音声認識手段30から出力
された音声候補数に応じて、表示される漢字数が可変と
なっており、例えば図9(A)に示すように4つの音声
候補が音声認識手段30から出力された場合には、当該
4つの音声候補を、また図9(B)に示すように6つの
音声候補が出力された場合には、当該6つの音声候補を
表示できるように構成されている。
【0055】本実施形態の音声認識装置では、入力され
る音声の不明瞭度を検出する音声不明瞭度検出手段80
をさらに有しており、図4には示さないが、音声を再入
力する旨を入力する音声再入力指示手段50も設けられ
ている。
【0056】音声再入力指示手段50は、図9に示され
るように、タッチパネル形ディスプレイ42の一部に設
けられたスイッチ52であって、使用者がディスプレイ
42上に表示された駅名中に目的とする駅名が含まれて
いなかった場合に、この細流力スイッチ52を押し、マ
イク12から音声を再入力する。なお、本実施形態では
表示手段40内に音声再入力指示手段50を設けたが、
本発明では別に音声再入力指示手段50を設けても良
い。
【0057】音声不明瞭度検出手段80は、音声入力時
における音声の不明瞭度をある擬制値を用いて評価し、
音声認識手段における認識ヒット率が低下する場合には
表示手段40への音声候補数を増加させるものである。
本実施形態では、音声の不明瞭度を雑音で擬制し、雑音
が大きい場合には認識ヒット率も低くなることに鑑み、
音声候補数を増加させる。音声不明瞭度検出手段80
は、具体的には、図6に示すように、ノイズを入力する
マイク82と、帯域フィルタ84と、ノイズの入力アナ
ログ信号をディジタル信号に変換するA/Dコンバータ
86とからなり、ノイズを入力するマイク82は、極力
ノイズのみを拾う位置に置かれている。
【0058】次に、認識処理動作を説明する。図10は
本発明の音声認識装置の第2実施形態の動作を示すフロ
ーチャートであり、初期化状態では、表示手段40へ表
示する音声候補数n0 を4とする。ただし、この音声候
補数は具体例であって、ディスプレイ42の大きさや認
識対象などの諸条件に応じて適宜変更することができ
る。
【0059】初期化終了後、ステップ601にて、マイ
ク12、帯域フィルタ14及びA/Dコンバータ16を
通して、使用者の音声を音声認識手段30に入力する。
フィルタ14の帯域は既述したように100Hz〜7k
Hzである。
【0060】ステップ602にて、マイク82、フィル
タ84及びA/Dコンバータ86を通してノイズを入力
する。フィルタ84の帯域は、100kHz〜7kHz
である。そして、ステップ703にて、マイク82から
入力されたノイズのパワーPnをCPU34で計測す
る。ここで計測されたノイズパワーPnは、ステップ7
04にて、次式に代入され、これにより表示手段40へ
表示する音声候補数nが決定される。
【0061】
【数1】 n=max(n0 +int(b×Pn),nmax ) …(1) (1)式においてbは定数、nmax は表示手段40への
最大表示可能数であり、int(f)はfの整数化、m
ax(a,b)はaとbのうちの大きい数を表す。すな
わち、(1)式は、ノイズパワーPnに定数bを乗じた
ものにn0 を加算し、これとnmax の大きい方をnとす
る意味である。これにより、nはノイズの大きさに応じ
てその値が増加することになる。またnは、表示可能な
最大数nmax で制限されることになる。
【0062】表示手段40へ表示する音声候補数nが決
定されると、次にステップ605にて、音声認識手段3
0は、入力された音声信号に対し単語認識処理を行う。
すなわち、CPU34にて、入力された音声と音声辞書
の各読みとの距離をHMM距離演算法で演算し、距離の
小さいものから所定数nの音声候補を、読み部201、
漢字部202、データ部203を1セットとして表示手
段40へ出力する。
【0063】ステップ606にて、表示手段40上に、
n個の音声候補の漢字部202と、再入力スイッチ52
が表示されるが、本実施形態では、ノイズパワーPnが
大きい場合には音声候補数が多くなるので、認識ヒット
率も増加することになる。
【0064】この表示画面42には、図9(A)に示す
ように、入力音声「しぶや(渋谷)」に対して、「日比
谷」「四谷」「千葉」「新橋」の4つの音声候補421
〜424が表示されている。この場合、もし表示画面中
に目的とする「渋谷」が表示されていれば、ステップ6
07にてタッチパネルディスプレイ42上の「渋谷」の
部分を押し、ステップ608にて再入力の必要もないの
で、ステップ609へ進んで結果をディスプレイ42上
に表示し、さらにステップ610にて出力部36から外
部装置などへ、この音声認識結果を読み部201、漢字
部202及びデータ部203を1セットとして出力す
る。
【0065】また、図9(A)に示すように、「しぶや
(渋谷)」と発話したにも拘わらず、目的とする「渋
谷」が表示されていない場合には、ディスプレイ42上
の再入力スイッチ52を押し、ステップ601へ戻り、
音声の再入力を行う。
【0066】このように、本実施形態の音声認識装置で
は、音声不明瞭度検出手段80で入力される音声の不明
瞭度を検出し、音声認識手段30で、この音声の不明瞭
度の増加に応じて表示手段40へ出力する音声候補数を
増加させる。したがって、雑音環境などのように音声認
識が困難な状況になればなる程、表示手段40に表示さ
れる音声候補数nが増加するので、認識ヒット率が高く
なる。しかも、この音声認識装置では、初期入力時に音
声の不明瞭度に応じた音声候補数の変更を行うので、再
入力の必要がなく、短時間で目的とする音声が得られ
る。また、認識環境が良好な場合などの常態時において
は、表示手段40への音声候補数nを最小限とでき、不
必要な音声候補が表示されないので、目的とする音声の
発見も容易である。
【0067】なお、以上説明した実施形態は、本発明の
理解を容易にするために記載されたものであって、本発
明を限定するために記載されたものではない。したがっ
て、上記の実施形態に開示された各要素は、本発明の技
術的範囲に属する全ての設計変更や均等物をも含む趣旨
である。
【図面の簡単な説明】
【図1】請求項1記載の音声認識装置を示すブロック図
である。
【図2】請求項2記載の音声認識装置を示すブロック図
である。
【図3】請求項3記載の音声認識装置を示すブロック図
である。
【図4】請求項4記載の音声認識装置を示すブロック図
である。
【図5】本発明の音声認識装置の第1実施形態を示すハ
ードウェア構成図である。
【図6】本発明の音声認識装置の第2実施形態を示すハ
ードウェア構成図である。
【図7】本発明に係る音声辞書の実施形態を示すフォー
マット図である。
【図8】本発明の音声認識装置の第1実施形態の動作を
示すフローチャートである。
【図9】本発明に係る表示手段の実施形態を示す概念図
である。
【図10】本発明の音声認識装置の第2実施形態の動作
を示すフローチャートである。
【符号の説明】
10…音声入力手段 12…マイク 14…帯域フィルタ 16…A/Dコンバータ 20…音声辞書記憶手段 22…メモリ 24…音声辞書フォーマット 30…音声認識手段 32…入力部 34…CPU 36…出力部 40…表示手段 42…タッチパネル形ディスプレイ 50…音声再入力指示手段 52…再入力タッチスイッチ 60…再入力回数計測手段 70…音声候補記憶手段 80…音声不明瞭度検出手段 82…マイク 84…帯域フィルタ 86…A/Dコンバータ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】不特定話者の音声を入力する音声入力手段
    と、複数の音声と当該音声に関連する情報が格納されて
    いる音声辞書記憶手段と、前記音声入力手段から入力さ
    れた音声と前記音声辞書記憶手段に格納されている音声
    との距離を演算し、当該距離の小さい順に所定数の音声
    候補を出力する音声認識手段と、前記音声認識手段から
    の音声候補を表示する表示手段とを有する音声認識装置
    において、 前記音声を再入力する旨を入力する音声再入力指示手段
    と、前記音声再入力指示手段による音声の再入力回数を
    計測して前記音声認識手段へ出力する再入力回数計測手
    段とをさらに有し、 前記音声認識手段は、前記再入力回数計測手段からの再
    入力回数の増加に応じて、前記表示手段へ出力する音声
    候補数を増加させることを特徴とする音声認識装置。
  2. 【請求項2】不特定話者の音声を入力する音声入力手段
    と、複数の音声と当該音声に関連する情報が格納されて
    いる音声辞書記憶手段と、前記音声入力手段から入力さ
    れた音声と前記音声辞書記憶手段に格納されている音声
    との距離を演算し、当該距離の小さい順に所定数の音声
    候補を出力する音声認識手段と、前記音声認識手段から
    の音声候補を表示する表示手段とを有する音声認識装置
    において、 前記音声を再入力する旨を入力する音声再入力指示手段
    と、前記表示手段にこれまで表示された音声候補を記憶
    する音声候補記憶手段とをさらに有し、 前記音声認識手段は、前記音声再入力指示手段による音
    声の再入力が行われたとき、前記音声辞書記憶手段に格
    納されている音声から前記音声候補記憶手段に記憶され
    た音声候補を除外した上で、前記音声入力手段から入力
    された音声の距離を演算し、当該距離の小さい順に所定
    数の音声候補を出力することを特徴とする音声認識装
    置。
  3. 【請求項3】不特定話者の音声を入力する音声入力手段
    と、複数の音声と当該音声に関連する情報が格納されて
    いる音声辞書記憶手段と、前記音声入力手段から入力さ
    れた音声と前記音声辞書記憶手段に格納されている音声
    との距離を演算し、当該距離の小さい順に所定数の音声
    候補を出力する音声認識手段と、前記音声認識手段から
    の音声候補を表示する表示手段とを有する音声認識装置
    において、 前記音声を再入力する旨を入力する音声再入力指示手段
    と、前記音声再入力指示手段による音声の再入力回数を
    計測して前記音声認識手段へ出力する再入力回数計測手
    段と、前記表示手段にこれまで表示された音声候補を記
    憶する音声候補記憶手段とをさらに有し、 前記音声認識手段は、前記音声再入力指示手段による音
    声の再入力が行われたとき、前記音声辞書記憶手段に格
    納されている音声から前記音声候補記憶手段に記憶され
    た音声候補を除外した上で、前記音声入力手段から入力
    された音声の距離を演算すると共に、前記再入力回数計
    測手段からの再入力回数の増加に応じて、前記表示手段
    へ出力する音声候補数を増加させることを特徴とする音
    声認識装置。
  4. 【請求項4】不特定話者の音声を入力する音声入力手段
    と、複数の音声と当該音声に関連する情報が格納されて
    いる音声辞書記憶手段と、前記音声入力手段から入力さ
    れた音声と前記音声辞書記憶手段に格納されている音声
    との距離を演算し、当該距離の小さい順に所定数の音声
    候補を出力する音声認識手段と、前記音声認識手段から
    の音声候補を表示する表示手段とを有する音声認識装置
    において、 入力される音声の不明瞭度を検出する音声不明瞭度検出
    手段をさらに有し、 前記音声認識手段は、前記音声不明瞭度検出手段による
    音声の不明瞭度の増加に応じて前記表示手段へ出力する
    音声候補数を増加させることを特徴とする音声認識装
    置。
JP11052596A 1996-04-05 1996-04-05 音声認識装置 Pending JPH09274497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11052596A JPH09274497A (ja) 1996-04-05 1996-04-05 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11052596A JPH09274497A (ja) 1996-04-05 1996-04-05 音声認識装置

Publications (1)

Publication Number Publication Date
JPH09274497A true JPH09274497A (ja) 1997-10-21

Family

ID=14538023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11052596A Pending JPH09274497A (ja) 1996-04-05 1996-04-05 音声認識装置

Country Status (1)

Country Link
JP (1) JPH09274497A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
WO2011145169A1 (ja) * 2010-05-18 2011-11-24 三菱電機株式会社 エレベーターの呼び登録装置
JP4876198B1 (ja) * 2010-11-12 2012-02-15 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
WO2017217046A1 (ja) * 2016-06-15 2017-12-21 ソニー株式会社 情報処理装置及び情報処理方法
WO2017221501A1 (ja) * 2016-06-23 2017-12-28 ソニー株式会社 情報処理装置及び情報処理方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
JP4512417B2 (ja) * 2004-05-12 2010-07-28 株式会社エヌ・ティ・ティ・ドコモ 認識システム及び認識方法
WO2011145169A1 (ja) * 2010-05-18 2011-11-24 三菱電機株式会社 エレベーターの呼び登録装置
CN102892697A (zh) * 2010-05-18 2013-01-23 三菱电机株式会社 电梯呼梯登记装置
JP5423884B2 (ja) * 2010-05-18 2014-02-19 三菱電機株式会社 エレベーターの呼び登録装置
JP4876198B1 (ja) * 2010-11-12 2012-02-15 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
WO2012063360A1 (ja) * 2010-11-12 2012-05-18 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
WO2017217046A1 (ja) * 2016-06-15 2017-12-21 ソニー株式会社 情報処理装置及び情報処理方法
JPWO2017217046A1 (ja) * 2016-06-15 2019-04-18 ソニー株式会社 情報処理装置及び情報処理方法
WO2017221501A1 (ja) * 2016-06-23 2017-12-28 ソニー株式会社 情報処理装置及び情報処理方法
JPWO2017221501A1 (ja) * 2016-06-23 2019-04-18 ソニー株式会社 情報処理装置及び情報処理方法

Similar Documents

Publication Publication Date Title
US10884701B2 (en) Voice enabling applications
US11182122B2 (en) Voice control of computing devices
EP3504709B1 (en) Determining phonetic relationships
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5524169A (en) Method and system for location-specific speech recognition
EP1139332A2 (en) Spelling speech recognition apparatus
JPS62231997A (ja) 音声認識システム及びその方法
JPH0876788A (ja) 音声認識における混同しやすい語の検出方法
KR20100019596A (ko) 음성인식을 이용한 언어 번역 방법 및 장치
CN108346426B (zh) 语音识别装置以及语音识别方法
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US11495245B2 (en) Urgency level estimation apparatus, urgency level estimation method, and program
JP2662112B2 (ja) 発声された単語のモデル化方法および装置
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
JPH09274497A (ja) 音声認識装置
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2000029486A (ja) 音声認識システムおよび方法
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2002189487A (ja) 音声認識装置および音声認識方法
EP3704569A1 (en) Voice control of computing devices
JP2004053620A (ja) 音声認識装置
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법