JP2002123284A - 音声認識装置ならびに方法 - Google Patents

音声認識装置ならびに方法

Info

Publication number
JP2002123284A
JP2002123284A JP2000312476A JP2000312476A JP2002123284A JP 2002123284 A JP2002123284 A JP 2002123284A JP 2000312476 A JP2000312476 A JP 2000312476A JP 2000312476 A JP2000312476 A JP 2000312476A JP 2002123284 A JP2002123284 A JP 2002123284A
Authority
JP
Japan
Prior art keywords
dictionary
voice
recognition
speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000312476A
Other languages
English (en)
Other versions
JP4283984B2 (ja
Inventor
Hiroshi Saito
宏 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2000312476A priority Critical patent/JP4283984B2/ja
Priority to DE60109105T priority patent/DE60109105T2/de
Priority to EP01308594A priority patent/EP1197950B1/en
Priority to US09/973,774 priority patent/US6961706B2/en
Publication of JP2002123284A publication Critical patent/JP2002123284A/ja
Application granted granted Critical
Publication of JP4283984B2 publication Critical patent/JP4283984B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

(57)【要約】 【課題】 階層的に絞込条件を入力して地点指定を行う
際に、システムにユーザが知らない絞込条件の入力が要
求された場合でも、地点指定を行うための以降の継続す
るステップに進むことのできる仕組みを構築し、操作
性、ならびに応答性の改善をはかる。 【解決手段】 階層構造をなす複数の音声認識辞書の中
から基準音声情報を抽出し、抽出された基準音声情報と
入力された音声とを比較することにより音声を認識する
音声認識に関し、所定の音声認識辞書に階層飛ばしを示
す基準音声情報を用意し、階層飛ばしを示す基準音声情
報に相当する入力を認識した際に、比較対対象となって
いた基準音声情報の下位階層に属する音声認識辞書の一
部を抽出して音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザにより入力
された音声を認識して機器の制御を行う音声認識装置な
らびに音声認識方法に関するもので、特に音声入力操作
の改善をはかるものである。
【0002】
【従来の技術】所望の地点を指定して目的地として設定
し、車両の現在位置から目的地までの経路を探索し、こ
れをその現在位置を含む地図と共にディスプレイ上に表
示させることにより、目的地までの誘導を行うカーナビ
ゲーションとして、近年、マイクを用いて、入力された
ユーザの音声を認識し、認識された音声によって各種操
作を行えるようにした音声操作機能付きのものが登場し
てきた。
【0003】カーナビゲーションにおける音声操作によ
る地点の指定は、学校、病院、駅といった対照地点に存
在する施設の種別や、地点の住所などを、ガイダンスメ
ッセージに応じて順次音声を発話して入力し、最終的に
地点の固有名称を発話することにより行われている。こ
のように、発話毎の認識対象語句を設定し、続く認識対
象語句の絞込みを行うことにより、認識率の確保を図っ
ている。
【0004】目的地設定手順の一例を説明する。初期の
段階では、音声認識システム側では、カーナビゲーショ
ンを操作するための制御コマンド認識対象語句とした”
制御コマンド辞書”が設定されており、ユーザが「目的
地設定」とコマンドを発話することでシステムに目的地
までの経路設定を行う意思を伝える。続いて目的地とな
る具体的な地点を指定する必要があるが、カーナビゲー
ションに用意されている地点が膨大であるため、一度の
音声操作で指定することは認識率やメモリサイズの制約
から実用的でない。そこで、指定対象となる地点の数の
絞込みを行う。
【0005】はじめに対象地点に存在する施設の種別
(以下ジャンルと称する)での絞込みを行う。音声認識
辞書を”制御コマンド辞書”から”ジャンル名称辞書”
に入れ替え、(1)「ジャンルの名称をどうぞ」とガイダ
ンスメッセージを出力し、ユーザに対してジャンルの発
話を促す。これに対してユーザがジャンルとして例えば
(2)「教育施設」と発話すると音声認識システムが発話
を認識する。更なる絞込みを行うため教育施設に属する
更に詳細なサブジャンルを指定するように、音声認識辞
書を”ジャンル名称辞書”から”教育施設に属するサブ
ジャンル名称辞書”に入れ替え、(3)「次のジャンルの
名称をどうぞ」とガイダンスメッセージを出力し、ユー
ザに対してサブジャンル名称の発話を促す。これに対し
てユーザがサブジャンルとして例えば(4)「大学」と発
話すると音声認識システムが発話を認識する。
【0006】サブジャンルが確定すると、更に、地域で
の絞込みを行う。音声認識辞書を”サブジャンル名称辞
書”から”都道府県名称辞書”に入れ替え、(5)「都道
府県名をどうぞ」とガイダンスメッセージを出力し、ユ
ーザに対して都道府県名の発話を促す。これに対してユ
ーザが、例えば(6)「東京都」と発話すると音声認識シ
ステムが発話を「東京都」と認識する。サブジャンルが
「大学」でかつ都道府県名が「東京都」だった場合、更に詳
細に市区町村名を指定するように、あらかじめシステム
側で決められている。そのため、音声認識辞書を”都道
府県名称辞書”から”東京都の市区町村名辞書”に入れ
替え、(7)「市区町村名をどうぞ」とガイダンスメッセ
ージを出力し、ユーザに対して市区町村名の発話を促
す。これに対してユーザが例えば(8)「新宿区」と発話
すると音声認識システムが発話を認識する。
【0007】システム側は音声認識辞書を”東京都の市
区町村名辞書から”東京都新宿区に存在しかつ大学に属
する施設名称を認識対象語句とした”大学名称辞書”に
入れ替え、(9)「名称をどうぞ」とガイダンスメッセー
ジを出力し、指定地点の具体的名称の発話を促す。ここ
で、ユーザが「○○大学」と発話すると音声認識システム
が認識しナビゲーションが○○大学を目的地として設定
する。このように対象地点の条件を入力して、対象地点
の数を減らして、絞込まれた対象地点の固有名称の入力
が行われる。
【0008】
【発明が解決しようとする課題】ところで、上述した絞
込条件や条件の入力の順序は予決められているため、ユ
ーザが知らない条件の入力が催促されるという事態が発
生する。その際にユーザがその催促に応答できなかった
場合、以降継続する絞込条件の入力を行うステップへ進
むことができなくなってしまう。そのため、目的とする
対象地点の具体的名称を発話することなく、地点の指定
を断念しなければならないことになり、操作性や応答性
の面で難があった。
【0009】本発明は上記事情に鑑みてなされたもので
あり、システムから求められた条件の入力を飛ばして、
続く条件の入力へ進むための基準音声情報(以下階層飛
ばし語句と称する)として「わからない」、「バス」などを
用意しておき、ユーザの階層飛ばし語句の入力を受け
て、地点の指定を行うための以降の継続するステップに
進むことのできる仕組みを構築し、操作性や応答性の改
善をはかった音声認識装置ならびに音声認識方法を提供
することを目的とする。
【0010】
【課題を解決するための手段】上述した課題を解決する
ために請求項1に記載の発明は、複数の基準音声信号を
有する複数の音声認識辞書を互いに階層的に関連付けて
記憶した階層辞書部と、前記階層辞書部から適切な音声
認識辞書を抽出する抽出手段と、前記抽出された音声認
識辞書を記憶する一覧記憶手段と、音声を入力する音声
入力手段と、入力された音声と前記一覧記憶手段に記憶
されている音声認識辞書内の基準音声情報とを比較する
ことによって入力された前記音声を認識する認識手段
と、認識された前記音声に相当する基準音声情報の下位
階層に属する音声認識辞書を抽出手段が抽出し、抽出さ
れた音声認識辞書を前記一覧記憶手段が更新記憶する音
声認識装置であって、所定の音声認識辞書に階層飛ばし
を示す基準音声情報が用意されており、前記認識手段が
階層飛ばしを示す基準音声情報に相当する音声の入力を
認識した際に、前記一覧記憶手段に記憶されていた基準
音声情報の下位階層に属する音声認識辞書を前記抽出手
段が抽出し、前記一覧記憶手段に更新記憶することを特
徴する。
【0011】請求項2に記載の発明は、請求項1に記載
の音声認識装置において、前記音声認識辞書として、施
設の種別名を記憶した種別辞書と、前記施設の種別に属
する施設名を記憶した地点辞書とを備えることを特徴と
する。
【0012】請求項3に記載の発明は、請求項1に記載
の音声認識装置において、前記音声認識辞書として、地
域名を記憶した地域辞書と、いずれかの地域に存在する
施設の施設名を記憶した地点辞書とを備えることを特徴
とする。
【0013】請求項4に記載の発明は、請求項1に記載
の音声認識装置において、前記音声認識辞書として、地
域名を記憶した地域辞書と、前記施設の種別名を記憶し
た種別辞書と、いずれかの地域に存在するとともにいず
れかの種別に属する施設の施設名を記憶した地点辞書と
を備え、前記種別名選択階層にて階層飛ばしを示す基準
音声情報が認識された後、前記抽出手段が前記地域辞書
を抽出することを特徴とする。
【0014】請求項5に記載の発明は、請求項1に記載
の音声認識装置において、前記認識手段によって認識さ
れた前記基準音声情報の下位階層に属する音声認識辞書
の中の基準音声情報の数を判定する数判断手段と、入力
された音声を記憶する入力音声記憶手段と、前記入力音
声記憶手段に記憶されている音声と一覧記憶手段に記憶
されている基準音声情報とを前記認識手段が順次比較す
ることにより、類似する基準音声情報を認識し、類似す
る基準音声情報を記憶する類似ワード記憶手段とを備え
た音声認識装置であって、前記数判断手段において、認
識された音声に相当する基準音声情報の下位階層に属す
る音声認識辞書内の基準音声情報の語句の数が基準値を
超えているか判断する判断手段を備え、前記所定数以上
と判断されたとき、前記抽出手段が下位階層に属する前
記音声認識辞書の一部の音声認識辞書を抽出して前記一
覧記憶手段に記憶し、前記認識手段が前記一覧記憶手段
に記憶されている基準音声情報との比較を終了した後、
前記抽出手段が下位階層に属する前記音声認識辞書のう
ち未抽出の辞書を抽出し、前記一覧記憶手段が更新記憶
するとともに、前記認識手段が前記一覧記憶手段内に更
新記憶された辞書に属する基準音声情報と前記入力音声
記憶手段に記憶されている音声とを順次比較し、類似す
る基準音声情報を認識し、類似ワード記憶手段が新たに
認識された類似する前記基準音声情報を追加記憶するこ
とを特徴とする。
【0015】請求項6に記載の発明は、請求項5に記載
の音声認識装置において、前記類似ワード記憶手段に記
憶された全ての類似ワードにおける一つを前記認識手段
が認識し、認識結果とすることを特徴とする。
【0016】請求項7に記載の発明は、請求項5に記載
の音声認識装置において、前記一覧記憶手段に記憶され
ている基準音声情報の内、複数の類似する基準音声情報
を前記類似ワード記憶手段に記憶し、前記類似ワード記
憶手段に記憶された全ての類似する基準音声情報のなか
から更に認識結果を選出する選出手段を備えることを特
徴とする。
【0017】上述した課題を解決するために、請求項8
に記載の発明は、複数の基準音声情報を有する複数の音
声認識辞書を記憶した階層辞書部と、前記複数の音声認
識辞書のうち1の辞書を抽出する抽出手段と、抽出され
た前記辞書を記憶する一覧記憶手段と、音声を入力する
音声入力手段と、入力された音声を記憶する入力音声記
憶手段と、前記入力音声記憶手段に記憶されている音声
と前記一覧記憶手段に記憶されている基準音声情報と順
次比較し、類似する基準音声情報を認識する認識手段
と、類似する前記基準音声情報を記憶する類似ワード記
憶手段とを備えた音声認識装置であって、前記一覧記憶
手段に記憶されている辞書に属する全ての基準音声情報
と前記入力音声記憶手段に記憶されている音声との比較
を前記認識手段が終了した後、前記抽出手段が音声認識
辞書から未抽出の辞書を抽出し、前記一覧記憶手段が更
新記憶するとともに、前記認識手段が前記一覧記憶手段
に更新記憶された辞書に属する基準音声情報と前記入力
音声記憶手段に記憶されている音声との比較をして類似
する基準音声情報を認識し、前記類似ワード記憶手段が
新たに認識した類似する基準音声情報を追加記憶するこ
とを特徴とする。
【0018】請求項9に記載の発明は、請求項8に記載
の音声認識装置において、前記類似ワード記憶手段に記
憶されている複数の基準音声情報の中から、更に認識結
果を選出する選出手段を備えたことを特徴とする。
【0019】上記構成により、指定地点の絞込みをおこ
なう際に、ユーザが知らない条件の入力をシステムから
求められた場合に、階層飛ばしを示す基準音声情報
(「わからない」と発話)を入力ことにより、検索を継
続することができ、操作性ならびに応答性の改善がはか
れる。なお、この場合、絞込条件は予めシステムによっ
て設定されていた数より少なくなってしまうため、最終
的に名称を発話する際の認識対照語句の数が大きくな
り、認識率が低下する可能性はあるが、検索を継続する
ことが可能となり、操作性、応答性の面での効果が大き
い。また、認識対象語句の増加により、メモリの容量が
問題となるが、複数に分けて認識処理を行うことでこれ
を回避することができる。
【0020】上述した課題を解決するために、請求項1
0に記載の発明は、階層構造をなす複数の音声認識辞書
の中から基準音声情報を抽出し、抽出された基準音声情
報と入力された音声とを比較することにより音声を認識
する音声認識方法であって、所定の音声認識辞書に階層
飛ばしを示す基準音声情報が用意されており、前記階層
飛ばしを示す基準音声情報に相当する音声の入力を認識
した際に、比較対象となっていた基準音声情報の下位階
層に属する音声認識辞書の一部を抽出して音声認識を行
うことを特徴とする。
【0021】請求項11に記載の発明は、請求項10に
記載の音声認識方法において、認識された基準音声情報
の下位階層に属する音声認識辞書の中の基準音声情報の
数を判断し、その数が基準値を超えていると判断された
とき、下位階層に属する前記音声認識辞書の一部を抽出
して、比較することにより類似する基準音声情報を認識
し、抽出された基準音声情報との比較が終了した後、下
位階層に属する前記音声認識辞書の中から未抽出の音声
認識辞書を抽出し、比較することにより類似する基準音
声情報を認識し、複数の類似する前記基準音声情報の中
から、入力された音声に相当する基準音声情報をさらに
選出することを特徴とする。
【0022】上述した課題を解決するために、請求項1
2に記載の発明は、複数の基準音声情報を有する複数の
音声認識辞書の中から1つの音声認識辞書を抽出し、抽
出された音声認識辞書内の基準音声情報と入力された音
声を比較し、抽出された前記音声認識辞書による基準音
声情報との比較が終了した後、前記1つの音声認識辞書
と異なる他の音声認識辞書を抽出し、抽出された音声認
識辞書内の基準音声情報を、比較対象の基準音声情報と
して更新すると共に、更新された基準音声情報と前記入
力された音声とを比較することにより、入力された前記
音声を認識することを特徴とする。
【0023】
【発明の実施の形態】以下、本発明の実施例を示す図面
を参照しつつ詳細に説明する。
【0024】カーナビゲーション装置に設けられた音声
認識装置の一実施形態を示すブロック図を図1に示す。
本発明の音声認識装置は、マイク100と、特徴量計算
部101と、認識部102と、RAM103と、認識辞
書記憶部104と、認識辞書選択部105と、特徴量記
憶部106と、認識結果記憶部107と、認識結果統合
部108と、音声合成部109と、制御部110と、ス
ピーカ111と、結果表示部112と、検索部113で
構成される。
【0025】マイク100はユーザが発話した音声を入
力し、特徴量計算機101に出力する。
【0026】特徴量計算部101は、マイク100によ
って取り込まれた音声信号をPCM(Pulse Code Mod
ulation)データに変換し、当該PCMデータを音声認
識に適した特徴量に変換し、認識部102と特徴利用記
憶部106へ出力する。特徴量記憶部106は、計算さ
れた特徴量を記憶するとともに認識部102へ供給す
る。
【0027】認識辞書記憶部104は、認識対象語句と
なる複数の基準音声情報を有する複数の音声認識辞書を
互いに階層的に関連付けて記憶しているものである。辞
書の種類として、複数の絞込条件毎に設けられた絞込条
件辞書と、絞込条件の組み合わせによって分類される最
終的な地点名称辞書とがある。地点名称辞書とは、例え
ば、”○○県××市に存在する教育施設に属する大学の
全ての大学名称を示す基準音声情報を有する辞書”や”
○○県××市に存在する病院に属する診療所の全ての診
療所名称を示す基準音声情報を有する辞書”等、各地点
に存在する具体的な各々の施設の名称を示す基準音声情
報を記憶したものである。また、絞込条件辞書として
は、地点検索を行うための都道府県名称等広い地域を示
す地域名称を示す基準音声情報を記憶した都道府県名称
辞書や、各都道府県毎に設けられ、各都道府県に属する
市区町村名等狭い地域を示す地域名称を示す基準音声情
報を記憶した市区町村名所辞書や、指定地点に存在する
施設の種類等の大分類ジャンル名称を示す基準音声情報
を記憶したジャンル名称辞書、及び、それぞれの大分類
ジャンル毎に設けられ、各大分類ジャンルに属するサブ
ジャンル名称を示す基準音声情報を記憶したサブジャン
ル名称辞書等がある。
【0028】なお、一般的に最下層の地点名称の総数は
極めて多く、音声認識辞書用のRAMの容量及び認識率
の点から、一度に認識する数としては実用的でないた
め、各地点名称辞書の地点名称の数(サイズ)がそれぞ
れ利用可能なRAM103の容量によって決定される基
準数未満となるように、上述のように音声認識辞書が階
層構造をなすとともに、複数の絞込条件の組合わせ毎に
地点名称を分類し、分類毎に地点名称辞書が設けられて
いる。
【0029】認識辞書選択部105は、制御部110か
らの認識対象とする音声認識辞書の抽出等の指令に応じ
て、認識辞書記憶部104の中から認識対象とする音声
認識辞書を選択して抽出し、RAM103に供給する。
RAM103は、音声認識辞書が供給される毎に、認識
対象となる基準音声情報を供給された音声認識辞書のも
のに更新記憶する。
【0030】認識部102は、入力音声が変換された特
徴量もしくは特徴量記憶部106に記憶された入力音声
が変換された特徴量と、RAM103にロードされた音
声認識辞書中の基準音声情報との類似度を計算し、類似
度の高い基準音声情報及びその類似度(スコア)を認識
結果として、認識結果記憶部107及び制御部110に
出力する。認識結果記憶部107には、認識部102に
より認識された認識結果(絞込条件または地点名称)も
しくは制御部110から供給された認識結果を記憶する
とともに、認識結果統合部108及び制御部110に出
力する。認識結果統合部108は、認識結果記憶部10
7に複数の地点名称が認識結果として記憶されている場
合に、類似度の高い方からK個を決定し新たな認識結果
として、制御部110へ供給する。そして、制御部11
0は、認識結果統合部108から供給された新たな認識
結果を、第2認識結果として記憶更新すべく認識結果記
憶部107に出力する。
【0031】音声合成部109は、制御部110からの
指令によって、ガイダンスメッセージやエコーバック用
の合成音声を作成し、スピーカ111に供給する。スピ
ーカ111は音声合成部109から供給された音声を出
力する。
【0032】検索部111は、図示せぬ地図データ等の
データベースを備えており、制御部110からの指令に
よって、音声認識によって最終的に指定された地点の所
在地図や住所や電話番号やサービス内容等の詳細な施設
情報をデータベースから検索する。結果表示部112
は、音声操作を行う際の認識結果、認識対象語句、ガイ
ダンスメッセージ、エコーバック等とともに、検索部1
11によって検索された詳細な施設情報を表示するディ
スプレイである。
【0033】制御部110は、上述した各構成から出力
される出力結果に応じて各構成を制御するものである。
即ち、制御部110は、音声操作による地点の指定がな
される際に、まず、ジャンル名称辞書を認識辞書選択部
105が認識辞書記憶部104から取り出し、RAM1
03に認識対象となる基準音声情報として設定するよう
に制御する。更に、認識部102から得られる認識結果
や認識結果記憶部107に記憶された認識結果(絞込条
件)を基に、適切な音声認識辞書を抽出すべく認識辞書
選択部105への指示を行うとともに、音声合成部10
9へガイダンスメッセージの作成を指示する。
【0034】また、認識結果統合部108から供給され
た新たな認識結果を、現在の認識結果として記憶更新す
べく認識結果記憶部107に出力する。更に、最終的な
認識結果(地点名称)を受けて、合成音声による認識結
果のエコーバック、結果表示部112への結果表示、検
索部113への検索指示等を行う。制御部110の動作
の詳細についてはフローチャートを用いて後述する。
【0035】ここで、認識辞書記憶部104に記憶され
ている複数の音声認識辞書が、互いに関連付けられて階
層構造を形成している様を図2乃至図4を用いて説明す
る。
【0036】なお、図2乃至図4は音声認識辞書の具体
例の一部のみが示されている。まず、最上位の第1階層
の辞書として、階層飛ばし語句としての「わからない」及
び「駅名」、「病院」、「宿泊施設」などのジャンル名称を示
す基準音声情報を有するジャンル名称辞書(図2の20
0、図3の300、図4の400)が設けられている。
【0037】第1階層に続く第2階層の辞書として、駅
名、病院、宿泊施設などの各ジャンル名称に属するサブ
ジャンル名称を示す基準音声情報を有する、サブジャン
ル名称辞書(図2の201、図3の302乃至305、
図4の402乃至405)が、ジャンル名称毎に設けら
れている。また、サブジャンル名称を示す基準音声情報
としては、例えば、病院のサブジャンル名称辞書では、
診療所、内科、外科等に相当するサブジャンル名称を示
す基準音声情報、及び階層飛ばし語句としての「わから
ない」を示す基準音声情報がある。
【0038】更に、第2階層のサブジャンル名称辞書に
続く第3階層の辞書として、日本全国の都道府県名称を
示す基準音声情報及び階層飛ばし語句としての「わから
ない」を示す基準音声情報を有する都道府県名称辞書
(図2の202、図3の306、図4の406)が設け
られている。
【0039】また、第3階層の都道府県名称辞書に続く
第4階層の辞書として、各都道府県に存在する市区町村
名称を示す基準音声情報及び階層飛ばし語句としての
「わからない」を示す基準音声情報を有する市区町村名称
辞書(図2の203、図3の308乃至311、図4の
408乃至411)が、各都道府県名称毎に設けられて
いる。
【0040】そして、最下位の第5階層の辞書として、
具体的な地点を示す該地点に存在する施設の固有名称な
どの地点名称(目的語)を示す基準音声情報を有する地
点名称辞書(図2の204乃至210、図3の312乃
至319、図413乃至420)が、第1階層から第4
階層の絞込条件の組合わせ毎に設けられている。
【0041】以下に順次条件の絞込みを行い、地点の指
定を行う検索手順の例について説明する。〔例1〕本例
は、システムから催促それる絞込条件をユーザが全て把
握している場合の検索手順の例であり、ここでは埼玉県
川越市の病院(診療所)の栗田医院を指定する例を、図
2を用いて説明する。なお、図2における太線の矢印に
て検索手順を示す。
【0042】はじめに対象地点に存在する施設の種別
(以下ジャンルと称する)での絞り込みを行う。”ジャ
ンル名称辞書”200を用意するとともに、(1)「ジャ
ンルの名称をどうぞ」とガイダンスメッセージを出力
し、ユーザに対してジャンル名称の発話を促す。これに
対してユーザがジャンル名称として例えば(2)「病院」
と発話すると、音声認識システムが”ジャンル名称辞
書”200を認識対象として発話を認識する。
【0043】更なる絞込みを行うため、認識対象の”ジ
ャンル名称辞書”200を”病院のサブジャンル名称辞
書”201に入れ替えるとともに、(3)「次のジャンル
の名称をどうぞ」とガイダンスメッセージを出力し、ユ
ーザに対してサブジャンル名称の発話を促す。これに対
してユーザがサブジャンル名称として例えば(4)「診療
所」と発話すると、音声認識システムが”病院のサブジ
ャンル名称辞書”201を認識対象として発話を認識す
る。
【0044】サブジャンルが確定すると、更に地域での
絞込みを行う。認識対象の”病院のサブジャンル名称辞
書”201を”都道府県名称辞書”202に入れ替える
とともに、(5)「都道府県名をどうぞ」とガイダンスメ
ッセージを出力し、ユーザに対して都道府県名称の発話
を促す。これに対してユーザが都道府県名称として例え
ば(6)「埼玉県」と発話すると、音声認識システムが”
都道府県名称辞書”202を認識対象として発話を認識
する。
【0045】都道府県が確定すると、更に詳細な地域で
の絞込みを行う。認識対象の”都道府県名称辞書”20
2を”埼玉県の市町村名称辞書”203に入れ替えると
ともに、(7)「市区町村名をどうぞ」とガイダンスメッ
セージを出力し、ユーザに対して市区町村名称の発話を
促す。これに対してユーザが市区町村名称として例えば
(8)「川越市」と発話すると、音声認識システムが”埼
玉県の市町村名称辞書”203を認識対象として発話を
認識する。
【0046】ここで、システム側は認識対象の”埼玉県
の市町村名称辞書”203を”埼玉県の川越市の診療所
の地点名称辞書”204に入れ替えるとともに、(9)
「名称をどうぞ」とガイダンスメッセージを出力し、指定
地点の具体的名称の発話を促す。これに対してユーザが
地点名称として(10)「栗田医院」と発話すると、音声認
識システムが”埼玉県の川越市の病院の診療所の地点名
称辞書”204を認識対象として発話を認識する。
【0047】〔例2〕本例は、システムから催促される
絞込条件のうち対象地点が存在する市区町村名称をユー
ザが把握していない場合の検策手順の例であり、ここで
は埼玉県の病院(診療所)の小林医院を指定する例を示
す。なお、本例の検索手順を図3(a)における太線の
矢印にて示す。
【0048】はじめに、対象地点に存在する施設の種別
(以下ジャンルと称する)での絞込みを行う。”ジャン
ル名称辞書”300を用意するとともに、(1)「ジャン
ルの名称をどうぞ」とガイダンスメッセージを出力し、
ユーザに対してジャンル名称の発話を促す。これに対し
てユーザがジャンル名称として例えば(2)「病院」と発
話すると、音声認識が”ジャンル名称辞書”300を認
識対象として発話を認識する。
【0049】更なる絞込みを行うため、認識対象の”ジ
ャンル名称辞書”300を”病院のサブジャンル名称辞
書”303に入れ替えるとともに、(3)「次のジャンル
の名称をどうぞ」とガイダンスメッセージを出力し、ユ
ーザに対してサブジャンル名称の発話を促す。これに対
してユーザがサブジャンル名称として例えば(4)「診療
所」と発話すると、音声認識システムが”病院のサブジ
ャンル名称辞書”303を認識対象として発話を認識す
る。
【0050】サブジャンルが確定すると、更に地域での
絞込みを行う。認識対象の”病院のサブジャンル名称辞
書”303を”都道府県名称辞書”306に入れ替える
とともに、(5)「都道府県名をどうぞ」とガイダンスメ
ッセージを出力し、ユーザに対して都道府県名称の発話
を促す。これに対してユーザが都道府県名称として例え
ば(6)「埼玉県」と発話すると、音声認識システムが”
都道府県名称辞書”306を認識対象として発話を認識
する。
【0051】都道府県が確定すると、更に詳細な地域で
の絞込みを行う。認識対象の”都道府県名称辞書”30
6を”埼玉県の市町村名称辞書”309に入れ替えると
ともに、(7)「市区町村名をどうぞ」とガイダンスメッ
セージを出力し、ユーザに対して市区町村名称の発話を
促す。これに対してユーザが市区町村名称を把握してお
らず(8)「わからない」と階層飛ばし語句を発話する
と、”埼玉県の市町村名称辞書”309を認識対象とし
て発話を認識する。
【0052】第4階層にて階層飛ばし語句が発話された
場合は、システム側は、第4階層の”埼玉県の市町村名
称辞書”309内の市町村名称の入力を催促せずに第4
階層の辞書の絞込条件の入力を飛ばし、第4階層にて”
埼玉県の市町村名称辞書”309内の全ての市町村名称
を絞込条件として入力されたものとし、第5階層の辞書
として”埼玉県の全ての市町村の病院の診療所の辞書”
313乃至316を抽出してまとめて”埼玉県の病院の
診療所の辞書”312を作成し、認識対象の”埼玉県の
市町村名称辞書”309を”埼玉県の病院の診療所の辞
書”312に入れ替えるとともに、(9)「名称をどう
ぞ」とガイダンスメーセージを出力し、指定地点の具体
名称の発話を促す。これに対してユーザが地点名称とし
て(10)「小林医院」と発話すると、音声認識システム
が”埼玉県の病院の診療所の辞書”312を認識対象と
して発話を認識する。
【0053】尚、上述の図3(a)は、ある階層での絞
込条件の入力の際に飛ばし語句を発話すると、その階層
での絞込条件の入力を飛ばして、すぐ下位の階層に進み
絞込条件の入力を催促する例である。しかしながら、ジ
ャンル名称が不明な時はサブジャンル名称も不明である
可能性が高く、また、都道府県名称が不明な時は市区町
村名称も不明な可能性が高いため、図3(b)に示すよ
うに、所定の階層にて飛ばし語句を発話した場合すぐ下
位の階層へ進むのではなく、階層飛ばし語句の階層に応
じて、2つ下の階層へ進むなどするように飛ばし先を設
定することも考えられる。
【0054】〔例3〕本例は、システムから催促される
絞込条件のうち対象地点に存在する施設のサブジャンル
をユーザが把握していない場合の検索手順の例であり、
ここでは埼玉県川越市の病院の斉藤医院を指定する例を
示す。なお、本例の検索手順を図4における太線の矢印
にて示す。
【0055】はじめに対象地点に存在する施設の種別
(以下ジャンルと称する)での絞込みを行う。”ジャン
ル名称辞書”400を用意するとともに、(1)「ジャン
ルの名称をどうぞ」とガイダンスメッセージを出力し、
ユーザに対してジャンル名称の発話を促す。これに対し
てユーザがジャンル名称として例えば(2)「病院」と発
話すると、音声認識システムが”ジャンル名称辞書”4
00を認識対象として発話を認識する。
【0056】更なる絞込みを行うため、認識対象の”ジ
ャンル名称辞書”400を”病院のサブジャンル名称辞
書”403に入れ替えるとともに、(3)「次のジャンル
の名称をどうぞ」とガイダンスメッセージを出力し、ユ
ーザに対してサブジャンル名称の発話を促す。これに対
してユーザがサブジャンル名称を把握しておらず(4)
「わからない」と階層飛ばし語句を発話すると、音声認識
システムが”病院のサブジャンル名称辞書”403を認
識対象として発話を認識する。
【0057】第2階層にて階層飛ばし語句が発話された
場合は、システム側は、第2階層の”病院のサブジャン
ル名称辞書”403内のサブジャンル名称の入力を催促
せずに第2階層の辞書の絞込条件の入力を飛ばし、第2
階層にて”病院のサブジャンル名称辞書”403内の全
てのサブジャンル名称を絞込条件として入力されたもの
として、第3階層の認識対象の辞書として”病院のサブ
ジャンル名称辞書”403を”都道府県名称辞書”40
6に入れ替えるとともに、(5)「都道府県名をどうぞ」
とガイダンスメッセージを出力し、ユーザに対して都道
府県名称の発話を促す。これに対してユーザが都道府県
名称として例えば(6)「埼玉県」と発話すると、音声認
識システムが”都道府県名称辞書”406を認識対象と
して発話を認識する。
【0058】都道府県が確定すると、更に詳細な地域で
の絞込みを行う。認識対象の”都道府県名称辞書”40
6を”埼玉県の市町村名称辞書”409に入れ替えると
ともに、(7)「市区町村名をどうぞ」とガイダンスメッ
セージを出力し、ユーザに対して市区町村名称の発話を
促す。これに対してユーザが市区町村名称として例えば
(8)「川越市」と発話すると、音声認識システムが”埼
玉県の市町村名称辞書”409を認識対象として発話を
認識する。
【0059】ここで、システム側は、”埼玉県の川越市
の病院の辞書全て”417乃至420を抽出しまとめ
て”埼玉県川越市の病院の辞書”413を作成し、認識
対象の”埼玉県の市町村名称辞書”309を”埼玉県川
越市の病院の辞書”413に入れ替えるとともに、
(9)「名称をどうぞ」とガイダンスメッセージを出力
し、指定地点の具体的名称の発話を促す。これに対して
ユーザが地点名称として(10)「斉藤医院」と発話する
と、音声認識システムが”埼玉県川越市の病院の辞書”
413を認識対象として発話を認識する。
【0060】図5乃至図7は、本発明実施形態の動作を
説明するために引用したフローチャートである。
【0061】以下、図5乃至図7に示すフローチャート
を参照しながら、図1乃至図3に示す本発明実施形態の
動作について詳細に説明する。
【0062】図5において、まず制御部110は、図示
せぬ発話ボタン等によりユーザからの音声入力による地
点検索の検索開始要求がなされることを検出する。(ス
テップS500)。検出されなければ(ステップS50
0 NO)待機する。検出されたら(ステップS500
YES)認識結果記憶部107に記憶されている前回
の絞込条件、すなわちジャンル名称、サブジャンル名
称、都道府県名称、市区町村名称、及び指定地点の固有
名称を全てクリアする(ステップS501)。認識辞書
記憶部104に記憶された音声認識辞書の中からジャン
ル名称辞書を認識辞書選択部105に抽出させ、ジャン
ル名称辞書内の各ジャンル名称を認識対象語句とすべく
各ジャンル名称を示す基準音声情報をRAM103にロ
ードする(ステップS502)。
【0063】制御部110は、ユーザにより発話された
入力音声(ジャンル名または「わからない」)に対し、R
AM103にロードされた音声認識辞書を対象として認
識部102に認識処理を行わせ、認識結果を制御部11
0へ出力させる(ステップS503)。ステップS50
3で得られた認識結果が「わからない」等の階層飛ばし語
句の場合、(ステップS504 YES)、ステップS
505のジャンル名称による絞込条件の設定処理を飛ば
して、ステップS506の処理へ進む。一方、ステップ
S503で得られた認識結果が、いずれのジャンル名称
であつた場合、(ステップS504 NO)、認識され
たジャンル名称を絞込条件として認識結果記憶部107
に記憶する(ステップS505)。
【0064】続いて、制御部110は、認識辞書記憶部
104に記憶されている音声認識辞書の中から、認識辞
書選択部105に現在RAM103に認識対象語句とし
て記憶されているジャンル名称辞書に続く下位階層に属
するサブジャンル名称辞書を抽出させ、抽出されたサブ
ジャンル名称辞書内のサブジャンル名称を認識対象語句
とすべく各サブジャンル名称を示す基準音声情報をRA
M103にロードする(ステップS506)。なお、こ
こでロードされるサブジャンル名称は、ステップS50
3での認識結果が「わからない」等の階層飛ばし語句で
あった場合、ステップS502にてRAM103に認識
対象語句としてセットされていたジャンル名辞書内の基
準音声情報に属する下位階層に相当する全てのサブジャ
ンル名辞書を選択するため、すべてのサブジャンル名称
を認識対象語句としてRAM103にロードする。一
方、ステップS503での認識結果が何らかのジャンル
名称であった場合、認識されたジャンル名称に属するサ
ブジャンル名称の音声認識辞書を選択して、選択された
サブジャンル名称辞書内のサブジャンル名称を対象語句
としてRAM103にロードする。
【0065】ユーザにより発話された入力音声(サブジ
ャンル名または「わからない」)に対し、RAM103
にロードされた音声認識辞書を対象として認識部102
に認識処理を行わせ、認識結果を制御部110へ出力さ
せる(ステップS507)。
【0066】ステップS507にて得られた認識結果が
「わからない」等の階層飛ばし語句の場合は、(ステッ
プS508 YES)、ステップS509のサブジャン
ル名称による絞込条件の設定処理を飛ばして、ステップ
S510に進む。一方、ステップS507にて得られた
認識結果が、いずれかのサブジャンル名称であった場
合、(ステップS508 NO)、認識されたサブジャ
ンル名称を絞込条件として認識結果記憶部107に設定
する(ステップS509)。
【0067】認識辞書記憶部104に記憶された音声認
識辞書の中から、都道府県名称辞書を認識辞書選択部1
05に抽出させ、抽出させた都道府県名称辞書内の都道
府県名称を認識対象語句とすべく各都道府県名称を示す
基準音声情報をRAM103にロードする(ステップS
510)。なお、ここでロードされる都道府県名称は、
ステップS507での認識結果が「わからない」等の階
層飛ばし語句あった場合も、何らかのサブジャンル名で
あった場合も、都道府県名称辞書を選択して、選択され
た都道府県名称辞書内の都道府県名称を認識対象語句と
してRAM103にロードする。
【0068】ユーザにより発話された入力音声(都道府
県名称または「わからない」)に対し、RAM103に
ロードされた音声認識辞書を対象として認識部102に
認識処理を行わせ、認識結果を制御部110へ出力させ
る(ステップS511)。ステップS511で得られた
認識結果が「わからない」等の階層飛ばし語句の場合は
(ステップS512 YES)、ステップS513の都
道府県名称による絞込条件の設定処理を飛ばして、ステ
ップS514に進む。一方、ステップS511で得られ
た認識結果がいずれかの都道府県名称であった場合(ス
テップS512NO)、認識された都道府県を絞込条件
として認識結果記憶部107に設定する(ステップS5
13)。
【0069】認識辞書記憶部104に記憶された音声認
識辞書の中から、認識辞書選択部105に市区町村名称
辞書を抽出させ、市区町村名称を認識対象語句とすべく
各市区町村名称を示す基準音声情報をRAM103にロ
ードする(ステップS514)。
【0070】なお、ここでロードされる市区町村名称
は、ステップS511での認識結果が「わからない」等
の階層飛ばし語句あった場合、ステップS510にてセ
ットされていた全国全ての都道府県名称辞書内の基準音
声情報に属する下位階層に相当する全国全ての市区町村
名称辞書を選択して、すべての市区町村名称を認識対象
語句としてRAM103にロードする。一方、ステップ
S511での認識結果が何らかの都道府県名であった場
合、認識された都道府県に存在する市区町村の音声認識
辞書を抽出させ、抽出された市区町村名称辞書内の市区
町村名称を認識対象語句としてRAM103にロードす
る。
【0071】ユーザにより発話された入力音声(市区町
村名称または「わからない」)に対し、RAM103に
ロードされた音声認識辞書を対象として認識部102に
認識処理を行わせ、認識結果を制御部110へ出力させ
る。(ステップS515)。ステップS515で得られ
た認識結果が「わからない」等の階層飛ばし語句の場合
は(ステップS516 YES)、ステップS517の
市区町村名称による絞込条件の設定処理を飛ばしてステ
ップS518へ進む。一方、ステップS515で得られ
た認識結果がいずれかの市区町村名であった場合(ステ
ップS516NO)、認識された市区町村を絞込条件と
して認識結果記憶部107に設定する(ステップS51
7)。
【0072】認識辞書記憶部104に記憶された音声認
識辞書でステップS505、S509、S513、S5
17の処理で認識結果記憶部107に記憶された絞込条
件を満たす地点名称辞書内の基準音声情報の数(サイ
ズ)の総和を計算する(ステップS518)。地点名称
辞書のサイズの総和が、RAM103の容量に応じて設
定された基準数を越える場合は(ステップS519 N
O)、認識対象となる全ての地点名称辞書に対して複数
回認識処理を行う(ステップS520)。地点名称辞書
のサイズの総和がRAM103の容量以下の場合は(ス
テップS519YES)、記憶された絞込条件を満たす
全ての地点名称辞書内の地点名称を認識対象語句とすべ
く各地点名称を示す基準音声情報をRAM103にロー
ドし(ステップS521)、通常の認識処理を行う(ス
テップS522)。そして、ステップS520またはス
テップS522で得られた認識結果である地点名称を出
力させる(ステップS523)。
【0073】尚、上述のフローチャートでは、絞込条件
としてジャンル名称の入力を飛ばした場合、即ちステッ
プS503で得られた認識結果が「わからない」等の階層
飛ばし語句であった場合(ステップS504 YE
S)、ステップS505のジャンる名称による絞込条件
の設定処理のみを飛ばして、ステップS506の処理へ
進むようになっているが、上述の例に限らず、ジャンル
名称がわからない場合サブジャンル名称もわからない可
能性が高いため、サブジャンル名称の入力も飛ばして、
ステップS510の処理へ進むようにしてもよい。
【0074】図5の示すステップS503、S507、
S511、S515、S522におけるユーザにより入
力された音声に対する認識部102の各認識処理の詳細
手順について、図6のフローチャートを用いて説明す
る。
【0075】図6において、マイク100からの音声の
入力が開始されたか否かを判断する(ステップS60
0)。音声の入力の検出方法としては、特微量計算部1
01にて、予め音圧レベルに関する閾値と基準時間とを
記憶しておき、マイク100からの入力信号の音圧レベ
ルと閾値とを比較し、入力信号が所定の閾値を越えた状
態が、基準時間以上継続した場合に、音声の入力が開始
されたとみなす等の方法が考えられる。
【0076】音声開始が検出されると、特徴量計算部1
01にて入力音声を音声認識に適した特徴量に変換させ
(ステップS601)、特徴量記憶部106に記憶させ
るとともに、特徴量計算部101から認識部102に供
給させる。認識部102にて、供給された特徴量とRA
M103にロードされている各基準音声情報との類似度
を計算する(ステップS602)。そして、音声の入力
が終了されたか否かを判断する(ステップS603)。
尚、音声の終了の検出方法としては、特微量計算部10
1にて、予め音圧レベルに関する閾値と基準時間とを記
憶しておき、マイク100からの入力信号の音圧レベル
と閾値をそれぞれ比較し、入力信号が閾値以下の状態が
所定時間以上続いた場合に、音声の入力が終了したとみ
なす等の方法が考えられる。
【0077】音声が終了していないと判断された場合
(ステップS603 NO)、ステップS601の処理
へ戻る。一方、音声が終了したと判断された場合(ステ
ップS603 YES)、ステップS602にて求めら
れた類似度の高い基準音声情報とその類似度とを対応づ
けて認識結果として、制御部110及び認識結果記憶部
107に出力し、認識結果記憶部107に記憶させる
(ステップS604)。
【0078】図5のフローチャートにて述べた、ステッ
プS518にて求められた地点名称辞書のサイズの総和
が、RAM103の容量に入りきらない場合(ステップ
S519 NO)に、ステップS520にて行われる複
数回認識処理について、図7のフローチャートを用いて
説明する。複数回認識処理とは、1回の入力音声に対し
て認識対象とする辞書(N個)を切り替えながら認識処
理を繰り返し、それぞれの辞書に対する認識結果を統合
し、最終的に全体としての認識結果を決定することであ
る。
【0079】図7において、認識辞書記憶部104に記
憶された辞書でステップS505、S509、S51
3、S517の処理において認識結果記憶部107に記
憶された絞込条件を満たす地点名称辞書の数(N)をカ
ウントする(ステップS700)。続いて辞書番号n=
1とする。(ステップS701)。ここで、絞込条件を
満たす地点名称辞書のうち、管理番号が一番若い地点名
称辞書を辞書番号1の地点名称辞書とし、認識辞書選択
部105に辞書番号n(=1)番目の地点名称辞書を認
識辞書記憶部104から抽出させ、抽出した地点名称辞
書の地点名称を認識対象語句とすべく各地点名称を示す
基準音声情報をRAM103にロードする(ステップS
702)。ここで、管理番号とは、認識辞書記憶部10
4に記憶された音声認識辞書各々に順番につけられた番
号のことである。
【0080】次に、マイク100から音声の入力が開始
されたか否かを判断する(ステップS703)。音声の
入力の検出方法としては、特徴量計算部101にて、予
め音圧レベルに関する閾値と基準時間とを記憶してお
き、マイク100からの入力信号の音圧レベルと閾値を
それぞれ比較し、入力信号が所定の閾値を越えた状態
が、基準時間以上継続した場合に、音声の入力が開始さ
れたとみなす等の方法が考えられる。
【0081】音声開始が検出されると、特徴量計算部1
01にて入力音声を音声認識に適した特徴量に変換させ
(ステップS704)、特徴量記憶部106に記憶させ
(ステッフ゜S705)、特徴量記憶部106から認識
部102に供給させる。認識部102にて、供給された
特徴量とRAM103にロードされている全ての基準音
声情報との類似度を計算させる(ステップS706)。
そして、音声の入力が終了したか否かを判断する(ステ
ップS707)。
【0082】尚、音声の終了の検出方法としては、特徴
量抽出部101にて、予め音圧レベルに関する閾値と基
準時間とを記憶しておき、マイク100からの入力信号
の音圧レベルと閾値をそれぞれ比較し、入力信号が所定
の閾値以下の状態が所定時間続いた場合に、音声の入力
が終了したとみなす等の方法が考えられる。
【0083】音声が終了していないと判断された場合
(ステップS707 NO)、ステップS704の処理
へ戻る。一方、音声の終了したと判断された場合(ステ
ップS707 YES)、ステップS706にて求めら
れた類似度の高い順にK個の基準音声情報を、その類似
度とを対応づけて辞書番号n=1の地点名称辞書の認識
結果として、認識結果記憶部107に出力し、認識結果
記憶部107に記憶させる(ステップS708)。な
お、Kは1以上の整数であり、適宜システム設計者によ
って設定される値である。
【0084】続いて辞書番号n=2とする(ステップS
709)。辞書番号nが、ステップS700にてカウン
トした認識対象辞書数(N)より大きいか否かが判断さ
れる(ステップS710)。辞書番号nが認識対象辞書
数(N)以下であれば(ステップS710 NO)、ス
テップS711の処理へ進む。絞込条件を満たす地点名
称辞書のうち、管理番号がn番目に若い地点名称辞書を
辞書番号=nの地点名称辞書とし、認識辞書選択部10
5に辞書番号(n)の地点名称辞書を認識辞書記憶部1
04から抽出させ、抽出した地点名称辞書の地点名称を
認識対照語句とすべく各地点名称を示す基準音声情報を
RAM103にロードする(ステップS711)。
【0085】入力音声の特徴量は既に特徴量記憶部10
6に記憶されているので、そこから認識部102へ供給
し認識部102にて、供給された特徴量とRAM103
にロードされている全ての基準音声情報との類似度を計
算させる(ステップS712)。ステップS712にて
求められた類似度の高い順にK個の基準音声情報を、そ
の類似度とを対応づけて辞書番号nの地点名称辞書の認
識結果として、認識結果記憶部107に出力し、認識結
果記憶部107に記憶させる(ステップS713)。そ
して、辞書番号nを=n+1にインクリメントとする
(ステップS714)。以下、ステップS710にて辞
書番号nが認識対象辞書数(N)を越えると判断される
まで、ステップS711〜ステップS714の処理を繰
り返す。
【0086】一方、辞書番号nが認識対象辞書数(N)
より大きければ(ステップS710YES)、ステップ
S715の処理へ進む。ステップS715では認識結果
統合部108によって認識結果記憶部107に記憶され
たK×N個の認識結果の中から類似度の高い順に第K個
を第2認識結果として選択して、制御部110に出力さ
せ、認識結果記憶手段107に更新記憶させる。尚、K
が1の場合は、ステップS715にて認識結果が1つ特
定されるが、Kが2以上の場合は、K個の第2認識結果
の中から、さらに1つを選択させるため、K個の第2認
識結果を制御部110に出力し、結果表示部112にK
個の地点名称を表示させ、図示せぬ操作釦にて選択させ
るようにする。もしくは、類似度が一番高いものを認識
結果としてスピーカ111及び結果表示部112を用い
てユーザに提示し、ユーザのNO等の発話に応じて、続
いて高い類似度のものを同様に提示し、ユーザが操作も
しくはYES等と発話されるまで順次提示して、認識結
果から一つを決定するようにしてもよい。
【0087】なお、階層飛ばし語句としては、「わから
ない」という言葉は一例であり、システムが要求してい
る情報をユーザが有していないことを表現する言葉であ
れば良く、例えば「パス」「次」等複数であっても良い。ま
た、絞込の条件も「ジャンル名称」「サブジャンル名称」
「都道府県名称」「市区町村名称」に限定されるものではな
く、「地名名称」や「郵便番号」などでもよい。
【0088】
【発明の効果】以上説明のように本発明によれば、指定
地点の絞込みをおこなう際に、ユーザが知らない条件の
入力をシステムから求められた場合に、階層飛ばしを示
す基準音声情報(「わからない」と発話)を入力ことに
より、検索を継続することができ、操作性ならびに応答
性の改善がはかれる。
【0089】なお、この場合、絞込条件は予めシステム
によって設定されていた数より少なくなってしまうた
め、最終的に名称を発話する際の認識対照語句の数が大
きくなり、認識率が低下する可能性はあるが、検索を継
続することが可能となり、操作性、応答性の面での効果
が大きい。また、認識対象語句の増加により、メモリの
容量が問題となるが、複数に分けて認識処理を行うこと
でこれを回避することができる。
【図面の簡単な説明】
【図1】 本発明における音声認識装置の実施形態を示
すブロック図である。
【図2】 本発明において使用される階層構造を持つ音
声認識辞書の階層辞書ツリーの一例を示す図である。
【図3】 本発明において使用される階層構造を持つ音
声認識辞書の階層辞書ツリーの一例を示す図である。
【図4】 本発明において使用される階層構造を持つ音
声認識辞書の階層辞書ツリーの一例を示す図である。
【図5】 本発明実施形態の音声認識処理による地点検
索の動作を説明するために引用したフローチャートであ
る。
【図6】 本発明実施形態の音声認識処理動作を説明す
るために引用したフローチャートである。
【図7】 本発明実施形態の複数回認識処理動作を説明
するために引用したフローチャートである。
【符号の説明】
100…マイク、101…特徴量計算部、102…認識
部、103…RAM、104…認識辞書記憶部、105
…認識辞書選択部、106…特徴量記憶部、107…認
識結果記憶部、108…認識結果統合部、109…音声
合成部、110…制御部、111…スピーカ、112…
結果表示部、113…検索部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G08G 1/0969

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の基準音声信号を有する複数の音声
    認識辞書を互いに階層的に関連付けて記憶した階層辞書
    部と、前記階層辞書部から適切な音声認識辞書を抽出す
    る抽出手段と、前記抽出された音声認識辞書を記憶する
    一覧記憶手段と、音声を入力する音声入力手段と、入力
    された音声と前記一覧記憶手段に記憶されている音声認
    識辞書内の基準音声情報とを比較することによって入力
    された前記音声を認識する認識手段と、認識された前記
    音声に相当する基準音声情報の下位階層に属する音声認
    識辞書を抽出手段が抽出し、抽出された音声認識辞書を
    前記一覧記憶手段が更新記憶する音声認識装置であっ
    て、 所定の音声認識辞書に階層飛ばしを示す基準音声情報が
    用意されており、前記認識手段が階層飛ばしを示す基準
    音声情報に相当する音声の入力を認識した際に、前記一
    覧記憶手段に記憶されていた基準音声情報の下位階層に
    属する音声認識辞書を前記抽出手段が抽出し、前記一覧
    記憶手段に更新記憶することを特徴する音声認識装置。
  2. 【請求項2】 前記音声認識辞書として、施設の種別名
    を記憶した種別辞書と、前記施設の種別に属する施設名
    を記憶した地点辞書とを備えることを特徴とする請求項
    1に記載の音声認識装置。
  3. 【請求項3】 前記音声認識辞書として、地域名を記憶
    した地域辞書と、いずれかの地域に存在する施設の施設
    名を記憶した地点辞書とを備えることを特徴とする請求
    項1に記載の音声認識装置。
  4. 【請求項4】 前記音声認識辞書として、地域名を記憶
    した地域辞書と、前記施設の種別名を記憶した種別辞書
    と、いずれかの地域に存在するとともにいずれかの種別
    に属する施設の施設名を記憶した地点辞書とを備え、 前記種別名選択階層にて階層飛ばしを示す基準音声情報
    が認識された後、前記抽出手段が前記地域辞書を抽出す
    ることを特徴とする請求項1に記載の音声認識装置。
  5. 【請求項5】 前記認識手段によって認識された前記基
    準音声情報の下位階層に属する音声認識辞書の中の基準
    音声情報の数を判定する数判断手段と、入力された音声
    を記憶する入力音声記憶手段と、前記入力音声記憶手段
    に記憶されている音声と一覧記憶手段に記憶されている
    基準音声情報とを前記認識手段が順次比較することによ
    り、類似する基準音声情報を認識し、類似する基準音声
    情報を記憶する類似ワード記憶手段とを備えた音声認識
    装置であって、 前記数判断手段において、認識された音声に相当する基
    準音声情報の下位階層に属する音声認識辞書内の基準音
    声情報の語句の数が基準値を超えているか判断する判断
    手段を備え、 前記所定数以上と判断されたとき、前記抽出手段が下位
    階層に属する前記音声認識辞書の一部の音声認識辞書を
    抽出して前記一覧記憶手段に記憶し、 前記認識手段が前記一覧記憶手段に記憶されている基準
    音声情報との比較を終了した後、前記抽出手段が下位階
    層に属する前記音声認識辞書のうち未抽出の辞書を抽出
    し、前記一覧記憶手段が更新記憶するとともに、 前記認識手段が前記一覧記憶手段内に更新記憶された辞
    書に属する基準音声情報と前記入力音声記憶手段に記憶
    されている音声とを順次比較し、類似する基準音声情報
    を認識し、 類似ワード記憶手段が新たに認識された類似する前記基
    準音声情報を追加記憶することを特徴とする請求項1に
    記載の音声認識装置。
  6. 【請求項6】 前記類似ワード記憶手段に記憶された全
    ての類似ワードにおける一つを前記認識手段が認識し、
    認識結果とすることを特徴とする請求項5に記載の音声
    認識装置。
  7. 【請求項7】 前記一覧記憶手段に記憶されている基準
    音声情報の内、複数の類似する基準音声情報を前記類似
    ワード記憶手段に記憶し、前記類似ワード記憶手段に記
    憶された全ての類似する基準音声情報のなかから更に認
    識結果を選出する選出手段を備えることを特徴とする請
    求項5に記載の音声認識装置。
  8. 【請求項8】 複数の基準音声情報を有する複数の音声
    認識辞書を記憶した階層辞書部と、前記複数の音声認識
    辞書のうち1の辞書を抽出する抽出手段と、抽出された
    前記辞書を記憶する一覧記憶手段と、音声を入力する音
    声入力手段と、入力された音声を記憶する入力音声記憶
    手段と、前記入力音声記憶手段に記憶されている音声と
    前記一覧記憶手段に記憶されている基準音声情報と順次
    比較し、類似する基準音声情報を認識する認識手段と、
    類似する前記基準音声情報を記憶する類似ワード記憶手
    段とを備えた音声認識装置であって、 前記一覧記憶手段に記憶されている辞書に属する全ての
    基準音声情報と前記入力音声記憶手段に記憶されている
    音声との比較を前記認識手段が終了した後、前記抽出手
    段が音声認識辞書から未抽出の辞書を抽出し、前記一覧
    記憶手段が更新記憶するとともに、 前記認識手段が前記一覧記憶手段に更新記憶された辞書
    に属する基準音声情報と前記入力音声記憶手段に記憶さ
    れている音声との比較をして類似する基準音声情報を認
    識し、 前記類似ワード記憶手段が新たに認識した類似する基準
    音声情報を追加記憶することを特徴とする音声認識装
    置。
  9. 【請求項9】 前記類似ワード記憶手段に記憶されてい
    る複数の基準音声情報の中から、更に認識結果を選出す
    る選出手段を備えたことを特徴とする請求項8に記載の
    音声認識装置。
  10. 【請求項10】 階層構造をなす複数の音声認識辞書の
    中から基準音声情報を抽出し、抽出された基準音声情報
    と入力された音声とを比較することにより音声を認識す
    る音声認識方法であって、 所定の音声認識辞書に階層飛ばしを示す基準音声情報が
    用意されており、前記階層飛ばしを示す基準音声情報に
    相当する音声の入力を認識した際に、比較対象となって
    いた基準音声情報の下位階層に属する音声認識辞書の一
    部を抽出して音声認識を行うことを特徴とする音声認識
    方法。
  11. 【請求項11】 認識された基準音声情報の下位階層に
    属する音声認識辞書の中の基準音声情報の数を判断し、
    その数が基準値を超えていると判断されたとき、下位階
    層に属する前記音声認識辞書の一部を抽出して、比較す
    ることにより類似する基準音声情報を認識し、抽出され
    た基準音声情報との比較が終了した後、 下位階層に属する前記音声認識辞書の中から未抽出の音
    声認識辞書を抽出し、比較することにより類似する基準
    音声情報を認識し、 複数の類似する前記基準音声情報の中から、入力された
    音声に相当する基準音声情報をさらに選出することを特
    徴とする請求項10に記載の音声認識方法。
  12. 【請求項12】 複数の基準音声情報を有する複数の音
    声認識辞書の中から1つの音声認識辞書を抽出し、抽出
    された音声認識辞書内の基準音声情報と入力された音声
    を比較し、抽出された前記音声認識辞書による基準音声
    情報との比較が終了した後、前記1つの音声認識辞書と
    異なる他の音声認識辞書を抽出し、抽出された音声認識
    辞書内の基準音声情報を、比較対象の基準音声情報とし
    て更新すると共に、更新された基準音声情報と前記入力
    された音声とを比較することにより、入力された前記音
    声を認識することを特徴とする音声認識方法。
JP2000312476A 2000-10-12 2000-10-12 音声認識装置ならびに方法 Expired - Fee Related JP4283984B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000312476A JP4283984B2 (ja) 2000-10-12 2000-10-12 音声認識装置ならびに方法
DE60109105T DE60109105T2 (de) 2000-10-12 2001-10-08 Hierarchisierte Wörterbücher für die Spracherkennung
EP01308594A EP1197950B1 (en) 2000-10-12 2001-10-08 Hierarchized dictionaries for speech recognition
US09/973,774 US6961706B2 (en) 2000-10-12 2001-10-11 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000312476A JP4283984B2 (ja) 2000-10-12 2000-10-12 音声認識装置ならびに方法

Publications (2)

Publication Number Publication Date
JP2002123284A true JP2002123284A (ja) 2002-04-26
JP4283984B2 JP4283984B2 (ja) 2009-06-24

Family

ID=18792059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000312476A Expired - Fee Related JP4283984B2 (ja) 2000-10-12 2000-10-12 音声認識装置ならびに方法

Country Status (4)

Country Link
US (1) US6961706B2 (ja)
EP (1) EP1197950B1 (ja)
JP (1) JP4283984B2 (ja)
DE (1) DE60109105T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置
JP2003091297A (ja) * 2001-09-19 2003-03-28 Matsushita Electric Ind Co Ltd 音声対話装置
JP2008134503A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2008197338A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置
WO2009153862A1 (ja) * 2008-06-17 2009-12-23 パイオニア株式会社 データ作成装置、情報処理装置、データ作成方法、情報処理方法、データ作成プログラム、情報処理プログラム、および記録媒体

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10012572C2 (de) * 2000-03-15 2003-03-27 Bayerische Motoren Werke Ag Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
US7970648B2 (en) 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US6848542B2 (en) 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
DE60323362D1 (de) * 2002-05-10 2008-10-16 Asahi Chemical Ind Spracherkennungseinrichtung
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US20040102201A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for language translation via remote devices
JP2006309446A (ja) * 2005-04-27 2006-11-09 Toshiba Corp 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
US8036346B2 (en) * 2005-12-13 2011-10-11 Cisco Technology, Inc. Method and system for testing audio server
US9355092B2 (en) * 2006-02-01 2016-05-31 i-COMMAND LTD Human-like response emulator
EP1939860B1 (en) * 2006-11-30 2009-03-18 Harman Becker Automotive Systems GmbH Interactive speech recognition system
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US8650030B2 (en) * 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
DE102008027958A1 (de) * 2008-03-03 2009-10-08 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
US9135809B2 (en) 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
JP7441602B2 (ja) * 2018-09-27 2024-03-01 株式会社ジェイテクト 機械加工支援システム及び切削装置
CN109767770A (zh) * 2019-02-26 2019-05-17 吴鑫 一种车载语音导航和语音聊天系统
CN114255749A (zh) * 2021-04-06 2022-03-29 北京安声科技有限公司 扫地机器人

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4742481A (en) * 1984-04-13 1988-05-03 Brother Kogyo Kabushiki Kaisha Electronic dictionary having means for linking two or more different groups of vocabulary entries in a closed loop
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
JP3556425B2 (ja) * 1997-03-18 2004-08-18 株式会社東芝 共有辞書更新方法および辞書サーバ
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
JPH11224265A (ja) * 1998-02-06 1999-08-17 Pioneer Electron Corp 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体
JP2000089782A (ja) * 1998-09-17 2000-03-31 Kenwood Corp 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP3645104B2 (ja) * 1998-11-02 2005-05-11 富士通株式会社 辞書検索装置及び辞書検索プログラムを記録した記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置
JP2003091297A (ja) * 2001-09-19 2003-03-28 Matsushita Electric Ind Co Ltd 音声対話装置
JP2008134503A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2008197338A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置
WO2009153862A1 (ja) * 2008-06-17 2009-12-23 パイオニア株式会社 データ作成装置、情報処理装置、データ作成方法、情報処理方法、データ作成プログラム、情報処理プログラム、および記録媒体
JP5059191B2 (ja) * 2008-06-17 2012-10-24 パイオニア株式会社 データ作成装置、情報処理装置、データ作成方法、情報処理方法、データ作成プログラム、情報処理プログラム、および記録媒体

Also Published As

Publication number Publication date
US20020046028A1 (en) 2002-04-18
DE60109105T2 (de) 2005-07-21
DE60109105D1 (de) 2005-04-07
EP1197950A2 (en) 2002-04-17
EP1197950A3 (en) 2003-02-12
JP4283984B2 (ja) 2009-06-24
US6961706B2 (en) 2005-11-01
EP1197950B1 (en) 2005-03-02

Similar Documents

Publication Publication Date Title
JP4283984B2 (ja) 音声認識装置ならびに方法
JP4116233B2 (ja) 音声認識装置ならびにその方法
US6385582B1 (en) Man-machine system equipped with speech recognition device
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
US10037758B2 (en) Device and method for understanding user intent
US8527271B2 (en) Method for speech recognition
JP4790024B2 (ja) 音声認識装置
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US6718304B1 (en) Speech recognition support method and apparatus
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
JP3530109B2 (ja) 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
WO2021025900A1 (en) Automated speech recognition system
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
KR101063159B1 (ko) 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2006139203A (ja) 施設検索装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JPH11325946A (ja) 車載用ナビゲーション装置
JP2008134503A (ja) 音声認識装置、および音声認識方法
JPH11250078A (ja) 音声認識機能付案内装置
JP2005070330A (ja) 音声認識装置及びプログラム
JPH10124087A (ja) 音声対話装置及び対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090323

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4283984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees