JP4283984B2 - 音声認識装置ならびに方法 - Google Patents
音声認識装置ならびに方法 Download PDFInfo
- Publication number
- JP4283984B2 JP4283984B2 JP2000312476A JP2000312476A JP4283984B2 JP 4283984 B2 JP4283984 B2 JP 4283984B2 JP 2000312476 A JP2000312476 A JP 2000312476A JP 2000312476 A JP2000312476 A JP 2000312476A JP 4283984 B2 JP4283984 B2 JP 4283984B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognition
- dictionary
- name
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 45
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 description 7
- 230000004043 responsiveness Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Traffic Control Systems (AREA)
Description
【発明の属する技術分野】
本発明は、ユーザにより入力された音声を認識して機器の制御を行う音声認識装置ならびに音声認識方法に関するもので、特に音声入力操作の改善をはかるものである。
【0002】
【従来の技術】
所望の地点を指定して目的地として設定し、車両の現在位置から目的地までの経路を探索し、これをその現在位置を含む地図と共にディスプレイ上に表示させることにより、目的地までの誘導を行うカーナビゲーションとして、近年、マイクを用いて、入力されたユーザの音声を認識し、認識された音声によって各種操作を行えるようにした音声操作機能付きのものが登場してきた。
【0003】
カーナビゲーションにおける音声操作による地点の指定は、学校、病院、駅といった対照地点に存在する施設の種別や、地点の住所などを、ガイダンスメッセージに応じて順次音声を発話して入力し、最終的に地点の固有名称を発話することにより行われている。このように、発話毎の認識対象語句を設定し、続く認識対象語句の絞込みを行うことにより、認識率の確保を図っている。
【0004】
目的地設定手順の一例を説明する。初期の段階では、音声認識システム側では、カーナビゲーションを操作するための制御コマンド認識対象語句とした”制御コマンド辞書”が設定されており、ユーザが「目的地設定」とコマンドを発話することでシステムに目的地までの経路設定を行う意思を伝える。
続いて目的地となる具体的な地点を指定する必要があるが、カーナビゲーションに用意されている地点が膨大であるため、一度の音声操作で指定することは認識率やメモリサイズの制約から実用的でない。そこで、指定対象となる地点の数の絞込みを行う。
【0005】
はじめに対象地点に存在する施設の種別(以下ジャンルと称する)での絞込みを行う。音声認識辞書を”制御コマンド辞書”から”ジャンル名称辞書”に入れ替え、(1)「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンルの発話を促す。これに対してユーザがジャンルとして例えば(2)「教育施設」と発話すると音声認識システムが発話を認識する。更なる絞込みを行うため教育施設に属する更に詳細なサブジャンルを指定するように、音声認識辞書を”ジャンル名称辞書”から”教育施設に属するサブジャンル名称辞書”に入れ替え、(3)「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンルとして例えば(4)「大学」と発話すると音声認識システムが発話を認識する。
【0006】
サブジャンルが確定すると、更に、地域での絞込みを行う。音声認識辞書を”サブジャンル名称辞書”から”都道府県名称辞書”に入れ替え、(5)「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名の発話を促す。これに対してユーザが、例えば(6)「東京都」と発話すると音声認識システムが発話を「東京都」と認識する。サブジャンルが「大学」でかつ都道府県名が「東京都」だった場合、更に詳細に市区町村名を指定するように、あらかじめシステム側で決められている。そのため、音声認識辞書を”都道府県名称辞書”から”東京都の市区町村名辞書”に入れ替え、(7)「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名の発話を促す。これに対してユーザが例えば(8)「新宿区」と発話すると音声認識システムが発話を認識する。
【0007】
システム側は音声認識辞書を”東京都の市区町村名辞書から”東京都新宿区に存在しかつ大学に属する施設名称を認識対象語句とした”大学名称辞書”に入れ替え、(9)「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。ここで、ユーザが「○○大学」と発話すると音声認識システムが認識しナビゲーションが○○大学を目的地として設定する。このように対象地点の条件を入力して、対象地点の数を減らして、絞込まれた対象地点の固有名称の入力が行われる。
【0008】
【発明が解決しようとする課題】
ところで、上述した絞込条件や条件の入力の順序は予決められているため、ユーザが知らない条件の入力が催促されるという事態が発生する。その際にユーザがその催促に応答できなかった場合、以降継続する絞込条件の入力を行うステップへ進むことができなくなってしまう。そのため、目的とする対象地点の具体的名称を発話することなく、地点の指定を断念しなければならないことになり、操作性や応答性の面で難があった。
【0009】
本発明は上記事情に鑑みてなされたものであり、システムから求められた条件の入力を飛ばして、続く条件の入力へ進むための基準音声情報(以下階層飛ばし語句と称する)として「わからない」、「バス」などを用意しておき、ユーザの階層飛ばし語句の入力を受けて、地点の指定を行うための以降の継続するステップに進むことのできる仕組みを構築し、操作性や応答性の改善をはかった音声認識装置ならびに音声認識方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
上述した課題を解決するために請求項1に記載の発明は、階層構造をなし、複数の基準音声情報を有する複数の音声認識辞書と、前記複数の音声認識辞書から適切な音声認識辞書を抽出する抽出手段と、入力された音声と、前記複数の音声認識辞書から抽出された音声認識辞書内の基準音声情報とを比較することによって入力された前記音声を認識する認識手段とを備え、所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記認識手段が階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を前記抽出手段が抽出し、前記認識手段が前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴する。
【0011】
請求項2に記載の発明は、請求項1に記載の音声認識装置において、前記認識手段によって認識された音声に相当する基準音声情報の下位階層に属する音声認識辞書内の基準音声情報の語句の数を判定し、この数が基準値を超えているか判断する判断手段を備え、前記判断手段が前記語句の数が前記基準値を超えていると判断したとき、前記抽出手段が下位階層に属する前記音声認識辞書の一部の音声認識辞書を抽出し、前記認識手段が入力された音声と抽出された基準音声情報とを順次比較することにより、類似する基準音声情報を認識し、前記比較を終了した後、前記抽出手段が下位階層に属する前記音声認識辞書のうち未抽出の辞書を抽出し、前記認識手段が新たに抽出された辞書に属する基準音声情報と入力された音声とを順次比較し、類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする。
【0012】
請求項3に記載の発明は、請求項2に記載の音声認識装置において、全ての類似する基準音声情報における一つを前記認識手段が認識し、認識結果とすることを特徴とする。
【0013】
請求項4に記載の発明は、請求項2に記載の音声認識装置において、抽出された基準音声情報の内、複数の類似する基準音声情報を含む全ての類似する基準音声情報のなかから更に認識結果を選出する選出手段を備えることを特徴とする。
【0014】
請求項5に記載の発明は、階層構造をなす複数の音声認識辞書の中から基準音声情報を抽出し、抽出された基準音声情報と入力された音声とを比較することにより音声を認識する音声認識方法であって、所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を抽出して前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴とする。
【0015】
請求項6に記載の発明は、請求項5に記載の音声認識方法において、認識された基準音声情報の下位階層に属する音声認識辞書の中の基準音声情報の数を判断し、その数が基準値を超えていると判断されたとき、下位階層に属する前記音声認識辞書の一部を抽出して、比較することにより類似する基準音声情報を認識し、抽出された基準音声情報との比較が終了した後、下位階層に属する前記音声認識辞書の中から未抽出の音声認識辞書を抽出し、比較することにより類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする。
【0019】
上記構成により、指定地点の絞込みをおこなう際に、ユーザが知らない条件の入力をシステムから求められた場合に、階層飛ばしを示す基準音声情報(「わからない」と発話)を入力ことにより、検索を継続することができ、操作性ならびに応答性の改善がはかれる。なお、この場合、絞込条件は予めシステムによって設定されていた数より少なくなってしまうため、最終的に名称を発話する際の認識対照語句の数が大きくなり、認識率が低下する可能性はあるが、検索を継続することが可能となり、操作性、応答性の面での効果が大きい。また、認識対象語句の増加により、メモリの容量が問題となるが、複数に分けて認識処理を行うことでこれを回避することができる。
【0023】
【発明の実施の形態】
以下、本発明の実施例を示す図面を参照しつつ詳細に説明する。
【0024】
カーナビゲーション装置に設けられた音声認識装置の一実施形態を示すブロック図を図1に示す。本発明の音声認識装置は、マイク100と、特徴量計算部101と、認識部102と、RAM103と、認識辞書記憶部104と、認識辞書選択部105と、特徴量記憶部106と、認識結果記憶部107と、認識結果統合部108と、音声合成部109と、制御部110と、スピーカ111と、結果表示部112と、検索部113で構成される。
【0025】
マイク100はユーザが発話した音声を入力し、特徴量計算部101に出力する。
【0026】
特徴量計算部101は、マイク100によって取り込まれた音声信号をPCM(Pulse Code Modulation)データに変換し、当該PCMデータを音声認識に適した特徴量に変換し、認識部102と特徴利用記憶部106へ出力する。特徴量記憶部106は、計算された特徴量を記憶するとともに認識部102へ供給する。
【0027】
認識辞書記憶部104は、認識対象語句となる複数の基準音声情報を有する複数の音声認識辞書を互いに階層的に関連付けて記憶しているものである。辞書の種類として、複数の絞込条件毎に設けられた絞込条件辞書と、絞込条件の組み合わせによって分類される最終的な地点名称辞書とがある。地点名称辞書とは、例えば、”○○県××市に存在する教育施設に属する大学の全ての大学名称を示す基準音声情報を有する辞書”や”○○県××市に存在する病院に属する診療所の全ての診療所名称を示す基準音声情報を有する辞書”等、各地点に存在する具体的な各々の施設の名称を示す基準音声情報を記憶したものである。また、絞込条件辞書としては、地点検索を行うための都道府県名称等広い地域を示す地域名称を示す基準音声情報を記憶した都道府県名称辞書や、各都道府県毎に設けられ、各都道府県に属する市区町村名等狭い地域を示す地域名称を示す基準音声情報を記憶した市区町村名所辞書や、指定地点に存在する施設の種類等の大分類ジャンル名称を示す基準音声情報を記憶したジャンル名称辞書、及び、それぞれの大分類ジャンル毎に設けられ、各大分類ジャンルに属するサブジャンル名称を示す基準音声情報を記憶したサブジャンル名称辞書等がある。
【0028】
なお、一般的に最下層の地点名称の総数は極めて多く、音声認識辞書用のRAMの容量及び認識率の点から、一度に認識する数としては実用的でないため、各地点名称辞書の地点名称の数(サイズ)がそれぞれ利用可能なRAM103の容量によって決定される基準数未満となるように、上述のように音声認識辞書が階層構造をなすとともに、複数の絞込条件の組合わせ毎に地点名称を分類し、分類毎に地点名称辞書が設けられている。
【0029】
認識辞書選択部105は、制御部110からの認識対象とする音声認識辞書の抽出等の指令に応じて、認識辞書記憶部104の中から認識対象とする音声認識辞書を選択して抽出し、RAM103に供給する。RAM103は、音声認識辞書が供給される毎に、認識対象となる基準音声情報を供給された音声認識辞書のものに更新記憶する。
【0030】
認識部102は、入力音声が変換された特徴量もしくは特徴量記憶部106に記憶された入力音声が変換された特徴量と、RAM103にロードされた音声認識辞書中の基準音声情報との類似度を計算し、類似度の高い基準音声情報及びその類似度(スコア)を認識結果として、認識結果記憶部107及び制御部110に出力する。
認識結果記憶部107には、認識部102により認識された認識結果(絞込条件または地点名称)もしくは制御部110から供給された認識結果を記憶するとともに、認識結果統合部108及び制御部110に出力する。認識結果統合部108は、認識結果記憶部107に複数の地点名称が認識結果として記憶されている場合に、類似度の高い方からK個を決定し新たな認識結果として、制御部110へ供給する。そして、制御部110は、認識結果統合部108から供給された新たな認識結果を、第2認識結果として記憶更新すべく認識結果記憶部107に出力する。
【0031】
音声合成部109は、制御部110からの指令によって、ガイダンスメッセージやエコーバック用の合成音声を作成し、スピーカ111に供給する。スピーカ111は音声合成部109から供給された音声を出力する。
【0032】
検索部111は、図示せぬ地図データ等のデータベースを備えており、制御部110からの指令によって、音声認識によって最終的に指定された地点の所在地図や住所や電話番号やサービス内容等の詳細な施設情報をデータベースから検索する。結果表示部112は、音声操作を行う際の認識結果、認識対象語句、ガイダンスメッセージ、エコーバック等とともに、検索部111によって検索された詳細な施設情報を表示するディスプレイである。
【0033】
制御部110は、上述した各構成から出力される出力結果に応じて各構成を制御するものである。即ち、制御部110は、音声操作による地点の指定がなされる際に、まず、ジャンル名称辞書を認識辞書選択部105が認識辞書記憶部104から取り出し、RAM103に認識対象となる基準音声情報として設定するように制御する。更に、認識部102から得られる認識結果や認識結果記憶部107に記憶された認識結果(絞込条件)を基に、適切な音声認識辞書を抽出すべく認識辞書選択部105への指示を行うとともに、音声合成部109へガイダンスメッセージの作成を指示する。
【0034】
また、認識結果統合部108から供給された新たな認識結果を、現在の認識結果として記憶更新すべく認識結果記憶部107に出力する。更に、最終的な認識結果(地点名称)を受けて、合成音声による認識結果のエコーバック、結果表示部112への結果表示、検索部113への検索指示等を行う。制御部110の動作の詳細についてはフローチャートを用いて後述する。
【0035】
ここで、認識辞書記憶部104に記憶されている複数の音声認識辞書が、互いに関連付けられて階層構造を形成している様を図2乃至図4を用いて説明する。
【0036】
なお、図2乃至図4は音声認識辞書の具体例の一部のみが示されている。まず、最上位の第1階層の辞書として、階層飛ばし語句としての「わからない」及び「駅名」、「病院」、「宿泊施設」などのジャンル名称を示す基準音声情報を有するジャンル名称辞書(図2の200、図3の300、図4の400)が設けられている。
【0037】
第1階層に続く第2階層の辞書として、駅名、病院、宿泊施設などの各ジャンル名称に属するサブジャンル名称を示す基準音声情報を有する、サブジャンル名称辞書(図2の201、図3の302乃至305、図4の402乃至405)が、ジャンル名称毎に設けられている。また、サブジャンル名称を示す基準音声情報としては、例えば、病院のサブジャンル名称辞書では、診療所、内科、外科等に相当するサブジャンル名称を示す基準音声情報、及び階層飛ばし語句としての「わからない」を示す基準音声情報がある。
【0038】
更に、第2階層のサブジャンル名称辞書に続く第3階層の辞書として、日本全国の都道府県名称を示す基準音声情報及び階層飛ばし語句としての「わからない」を示す基準音声情報を有する都道府県名称辞書(図2の202、図3の306、図4の406)が設けられている。
【0039】
また、第3階層の都道府県名称辞書に続く第4階層の辞書として、各都道府県に存在する市区町村名称を示す基準音声情報及び階層飛ばし語句としての「わからない」を示す基準音声情報を有する市区町村名称辞書(図2の203、図3の308乃至311、図4の408乃至411)が、各都道府県名称毎に設けられている。
【0040】
そして、最下位の第5階層の辞書として、具体的な地点を示す該地点に存在する施設の固有名称などの地点名称(目的語)を示す基準音声情報を有する地点名称辞書(図2の204乃至210、図3の312乃至319、図4の413乃至420)が、第1階層から第4階層の絞込条件の組合わせ毎に設けられている。
【0041】
以下に順次条件の絞込みを行い、地点の指定を行う検索手順の例について説明する。
〔例1〕
本例は、システムから催促それる絞込条件をユーザが全て把握している場合の検索手順の例であり、ここでは埼玉県川越市の病院(診療所)の栗田医院を指定する例を、図2を用いて説明する。なお、図2における太線の矢印にて検索手順を示す。
【0042】
はじめに対象地点に存在する施設の種別(以下ジャンルと称する)での絞り込みを行う。”
ジャンル名称辞書”200を用意するとともに、(1)「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば(2)「病院」と発話すると、音声認識システムが”ジャンル名称辞書”200を認識対象として発話を認識する。
【0043】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”200を”病院のサブジャンル名称辞書”201に入れ替えるとともに、(3)「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称として例えば(4)「診療所」と発話すると、音声認識システムが”病院のサブジャンル名称辞書”201を認識対象として発話を認識する。
【0044】
サブジャンルが確定すると、更に地域での絞込みを行う。認識対象の”病院のサブジャンル名称辞書”201を”都道府県名称辞書”202に入れ替えるとともに、(5)「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば(6)「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”202を認識対象として発話を認識する。
【0045】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”202を”埼玉県の市町村名称辞書”203に入れ替えるとともに、(7)「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称として例えば(8)「川越市」と発話すると、音声認識システムが”埼玉県の市町村名称辞書”203を認識対象として発話を認識する。
【0046】
ここで、システム側は認識対象の”埼玉県の市町村名称辞書”203を”埼玉県の川越市の診療所の地点名称辞書”204に入れ替えるとともに、(9)「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。これに対してユーザが地点名称として(10)「栗田医院」と発話すると、音声認識システムが”埼玉県の川越市の病院の診療所の地点名称辞書”204を認識対象として発話を認識する。
【0047】
〔例2〕
本例は、システムから催促される絞込条件のうち対象地点が存在する市区町村名称をユーザが把握していない場合の検策手順の例であり、ここでは埼玉県の病院(診療所)の小林医院を指定する例を示す。なお、本例の検索手順を図3(a)における太線の矢印にて示す。
【0048】
はじめに、対象地点に存在する施設の種別(以下ジャンルと称する)での絞込みを行う。”ジャンル名称辞書”300を用意するとともに、(1)「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば(2)「病院」と発話すると、音声認識が”ジャンル名称辞書”300を認識対象として発話を認識する。
【0049】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”300を”病院のサブジャンル名称辞書”303に入れ替えるとともに、(3)「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称として例えば(4)「診療所」と発話すると、音声認識システムが”病院のサブジャンル名称辞書”303を認識対象として発話を認識する。
【0050】
サブジャンルが確定すると、更に地域での絞込みを行う。認識対象の”病院のサブジャンル名称辞書”303を”都道府県名称辞書”306に入れ替えるとともに、(5)「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば(6)「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”306を認識対象として発話を認識する。
【0051】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”306を”埼玉県の市町村名称辞書”309に入れ替えるとともに、(7)「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称を把握しておらず(8)「わからない」と階層飛ばし語句を発話すると、”埼玉県の市町村名称辞書”309を認識対象として発話を認識する。
【0052】
第4階層にて階層飛ばし語句が発話された場合は、システム側は、第4階層の”埼玉県の市町村名称辞書”309内の市町村名称の入力を催促せずに第4階層の辞書の絞込条件の入力を飛ばし、第4階層にて”埼玉県の市町村名称辞書”309内の全ての市町村名称を絞込条件として入力されたものとし、第5階層の辞書として”埼玉県の全ての市町村の病院の診療所の辞書”313乃至316を抽出してまとめて”埼玉県の病院の診療所の辞書”312を作成し、認識対象の”埼玉県の市町村名称辞書”309を”埼玉県の病院の診療所の辞書”312に入れ替えるとともに、(9)「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体名称の発話を促す。これに対してユーザが地点名称として(10)「小林医院」と発話すると、音声認識システムが”埼玉県の病院の診療所の辞書”312を認識対象として発話を認識する。
【0053】
尚、上述の図3(a)は、ある階層での絞込条件の入力の際に飛ばし語句を発話すると、その階層での絞込条件の入力を飛ばして、すぐ下位の階層に進み絞込条件の入力を催促する例である。しかしながら、ジャンル名称が不明な時はサブジャンル名称も不明である可能性が高く、また、都道府県名称が不明な時は市区町村名称も不明な可能性が高いため、図3(b)に示すように、所定の階層にて飛ばし語句を発話した場合すぐ下位の階層へ進むのではなく、階層飛ばし語句の階層に応じて、2つ下の階層へ進むなどするように飛ばし先を設定することも考えられる。
【0054】
〔例3〕
本例は、システムから催促される絞込条件のうち対象地点に存在する施設のサブジャンルをユーザが把握していない場合の検索手順の例であり、ここでは埼玉県川越市の病院の斉藤医院を指定する例を示す。なお、本例の検索手順を図4における太線の矢印にて示す。
【0055】
はじめに対象地点に存在する施設の種別(以下ジャンルと称する)での絞込みを行う。”ジャンル名称辞書”400を用意するとともに、(1)「ジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してジャンル名称の発話を促す。これに対してユーザがジャンル名称として例えば(2)「病院」と発話すると、音声認識システムが”ジャンル名称辞書”400を認識対象として発話を認識する。
【0056】
更なる絞込みを行うため、認識対象の”ジャンル名称辞書”400を”病院のサブジャンル名称辞書”403に入れ替えるとともに、(3)「次のジャンルの名称をどうぞ」とガイダンスメッセージを出力し、ユーザに対してサブジャンル名称の発話を促す。これに対してユーザがサブジャンル名称を把握しておらず(4)「わからない」と階層飛ばし語句を発話すると、音声認識システムが”病院のサブジャンル名称辞書”403を認識対象として発話を認識する。
【0057】
第2階層にて階層飛ばし語句が発話された場合は、システム側は、第2階層の”病院のサブジャンル名称辞書”403内のサブジャンル名称の入力を催促せずに第2階層の辞書の絞込条件の入力を飛ばし、第2階層にて”病院のサブジャンル名称辞書”403内の全てのサブジャンル名称を絞込条件として入力されたものとして、第3階層の認識対象の辞書として”病院のサブジャンル名称辞書”403を”都道府県名称辞書”406に入れ替えるとともに、(5)「都道府県名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して都道府県名称の発話を促す。これに対してユーザが都道府県名称として例えば(6)「埼玉県」と発話すると、音声認識システムが”都道府県名称辞書”406を認識対象として発話を認識する。
【0058】
都道府県が確定すると、更に詳細な地域での絞込みを行う。認識対象の”都道府県名称辞書”406を”埼玉県の市町村名称辞書”409に入れ替えるとともに、(7)「市区町村名をどうぞ」とガイダンスメッセージを出力し、ユーザに対して市区町村名称の発話を促す。これに対してユーザが市区町村名称として例えば(8)「川越市」と発話すると、音声認識システムが”埼玉県の市町村名称辞書”409を認識対象として発話を認識する。
【0059】
ここで、システム側は、”埼玉県の川越市の病院の辞書全て”417乃至420を抽出しまとめて”埼玉県川越市の病院の辞書”413を作成し、認識対象の”埼玉県の市町村名称辞書”309を”埼玉県川越市の病院の辞書”413に入れ替えるとともに、(9)「名称をどうぞ」とガイダンスメッセージを出力し、指定地点の具体的名称の発話を促す。これに対してユーザが地点名称として(10)「斉藤医院」と発話すると、音声認識システムが”埼玉県川越市の病院の辞書”413を認識対象として発話を認識する。
【0060】
図5乃至図7は、本発明実施形態の動作を説明するために引用したフローチャートである。
【0061】
以下、図5乃至図7に示すフローチャートを参照しながら、図1乃至図3に示す本発明実施形態の動作について詳細に説明する。
【0062】
図5において、まず制御部110は、図示せぬ発話ボタン等によりユーザからの音声入力による地点検索の検索開始要求がなされることを検出する。(ステップS500)。検出されなければ(ステップS500 NO)待機する。検出されたら(ステップS500 YES)認識結果記憶部107に記憶されている前回の絞込条件、すなわちジャンル名称、サブジャンル名称、都道府県名称、市区町村名称、及び指定地点の固有名称を全てクリアする(ステップS501)。認識辞書記憶部104に記憶された音声認識辞書の中からジャンル名称辞書を認識辞書選択部105に抽出させ、ジャンル名称辞書内の各ジャンル名称を認識対象語句とすべく各ジャンル名称を示す基準音声情報をRAM103にロードする(ステップS502)。
【0063】
制御部110は、ユーザにより発話された入力音声(ジャンル名または「わからない」)に対し、RAM103にロードされた音声認識辞書を対象として認識部102に認識処理を行わせ、認識結果を制御部110へ出力させる(ステップS503)。ステップS503で得られた認識結果が「わからない」等の階層飛ばし語句の場合、(ステップS504 YES)、ステップS505のジャンル名称による絞込条件の設定処理を飛ばして、ステップS506の処理へ進む。一方、ステップS503で得られた認識結果が、いずれのジャンル名称であつた場合、(ステップS504 NO)、認識されたジャンル名称を絞込条件として認識結果記憶部107に記憶する(ステップS505)。
【0064】
続いて、制御部110は、認識辞書記憶部104に記憶されている音声認識辞書の中から、認識辞書選択部105に現在RAM103に認識対象語句として記憶されているジャンル名称辞書に続く下位階層に属するサブジャンル名称辞書を抽出させ、抽出されたサブジャンル名称辞書内のサブジャンル名称を認識対象語句とすべく各サブジャンル名称を示す基準音声情報をRAM103にロードする(ステップS506)。なお、ここでロードされるサブジャンル名称は、ステップS503での認識結果が「わからない」等の階層飛ばし語句であった場合、ステップS502にてRAM103に認識対象語句としてセットされていたジャンル名辞書内の基準音声情報に属する下位階層に相当する全てのサブジャンル名辞書を選択するため、すべてのサブジャンル名称を認識対象語句としてRAM103にロードする。一方、ステップS503での認識結果が何らかのジャンル名称であった場合、認識されたジャンル名称に属するサブジャンル名称の音声認識辞書を選択して、選択されたサブジャンル名称辞書内のサブジャンル名称を対象語句としてRAM103にロードする。
【0065】
ユーザにより発話された入力音声(サブジャンル名または「わからない」)に対し、RAM103にロードされた音声認識辞書を対象として認識部102に認識処理を行わせ、認識結果を制御部110へ出力させる(ステップS507)。
【0066】
ステップS507にて得られた認識結果が「わからない」等の階層飛ばし語句の場合は、(ステップS508 YES)、ステップS509のサブジャンル名称による絞込条件の設定処理を飛ばして、ステップS510に進む。一方、ステップS507にて得られた認識結果が、いずれかのサブジャンル名称であった場合、(ステップS508 NO)、認識されたサブジャンル名称を絞込条件として認識結果記憶部107に設定する(ステップS509)。
【0067】
認識辞書記憶部104に記憶された音声認識辞書の中から、都道府県名称辞書を認識辞書選択部105に抽出させ、抽出させた都道府県名称辞書内の都道府県名称を認識対象語句とすべく各都道府県名称を示す基準音声情報をRAM103にロードする(ステップS510)。なお、ここでロードされる都道府県名称は、ステップS507での認識結果が「わからない」等の階層飛ばし語句あった場合も、何らかのサブジャンル名であった場合も、都道府県名称辞書を選択して、選択された都道府県名称辞書内の都道府県名称を認識対象語句としてRAM103にロードする。
【0068】
ユーザにより発話された入力音声(都道府県名称または「わからない」)に対し、RAM103にロードされた音声認識辞書を対象として認識部102に認識処理を行わせ、認識結果を制御部110へ出力させる(ステップS511)。ステップS511で得られた認識結果が「わからない」等の階層飛ばし語句の場合は(ステップS512 YES)、ステップS513の都道府県名称による絞込条件の設定処理を飛ばして、ステップS514に進む。一方、ステップS511で得られた認識結果がいずれかの都道府県名称であった場合(ステップS512NO)、認識された都道府県を絞込条件として認識結果記憶部107に設定する(ステップS513)。
【0069】
認識辞書記憶部104に記憶された音声認識辞書の中から、認識辞書選択部105に市区町村名称辞書を抽出させ、市区町村名称を認識対象語句とすべく各市区町村名称を示す基準音声情報をRAM103にロードする(ステップS514)。
【0070】
なお、ここでロードされる市区町村名称は、ステップS511での認識結果が「わからない」等の階層飛ばし語句あった場合、ステップS510にてセットされていた全国全ての都道府県名称辞書内の基準音声情報に属する下位階層に相当する全国全ての市区町村名称辞書を選択して、すべての市区町村名称を認識対象語句としてRAM103にロードする。一方、ステップS511での認識結果が何らかの都道府県名であった場合、認識された都道府県に存在する市区町村の音声認識辞書を抽出させ、抽出された市区町村名称辞書内の市区町村名称を認識対象語句としてRAM103にロードする。
【0071】
ユーザにより発話された入力音声(市区町村名称または「わからない」)に対し、RAM103にロードされた音声認識辞書を対象として認識部102に認識処理を行わせ、認識結果を制御部110へ出力させる。(ステップS515)。ステップS515で得られた認識結果が「わからない」等の階層飛ばし語句の場合は(ステップS516 YES)、ステップS517の市区町村名称による絞込条件の設定処理を飛ばしてステップS518へ進む。一方、ステップS515で得られた認識結果がいずれかの市区町村名であった場合(ステップS516NO)、認識された市区町村を絞込条件として認識結果記憶部107に設定する(ステップS517)。
【0072】
認識辞書記憶部104に記憶された音声認識辞書でステップS505、S509、S513、S517の処理で認識結果記憶部107に記憶された絞込条件を満たす地点名称辞書内の基準音声情報の数(サイズ)の総和を計算する(ステップS518)。地点名称辞書のサイズの総和が、RAM103の容量に応じて設定された基準数を越える場合は(ステップS519 NO)、認識対象となる全ての地点名称辞書に対して複数回認識処理を行う(ステップS520)。地点名称辞書のサイズの総和がRAM103の容量以下の場合は(ステップS519 YES)、記憶された絞込条件を満たす全ての地点名称辞書内の地点名称を認識対象語句とすべく各地点名称を示す基準音声情報をRAM103にロードし(ステップS521)、通常の認識処理を行う(ステップS522)。そして、ステップS520またはステップS522で得られた認識結果である地点名称を出力させる(ステップS523)。
【0073】
尚、上述のフローチャートでは、絞込条件としてジャンル名称の入力を飛ばした場合、即ちステップS503で得られた認識結果が「わからない」等の階層飛ばし語句であった場合(ステップS504 YES)、ステップS505のジャンる名称による絞込条件の設定処理のみを飛ばして、ステップS506の処理へ進むようになっているが、上述の例に限らず、ジャンル名称がわからない場合サブジャンル名称もわからない可能性が高いため、サブジャンル名称の入力も飛ばして、ステップS510の処理へ進むようにしてもよい。
【0074】
図5の示すステップS503、S507、S511、S515、S522におけるユーザにより入力された音声に対する認識部102の各認識処理の詳細手順について、図6のフローチャートを用いて説明する。
【0075】
図6において、マイク100からの音声の入力が開始されたか否かを判断する(ステップS600)。音声の入力の検出方法としては、特微量計算部101にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク100からの入力信号の音圧レベルと閾値とを比較し、入力信号が所定の閾値を越えた状態が、基準時間以上継続した場合に、音声の入力が開始されたとみなす等の方法が考えられる。
【0076】
音声開始が検出されると、特徴量計算部101にて入力音声を音声認識に適した特徴量に変換させ(ステップS601)、特徴量記憶部106に記憶させるとともに、特徴量計算部101から認識部102に供給させる。認識部102にて、供給された特徴量とRAM103にロードされている各基準音声情報との類似度を計算する(ステップS602)。そして、音声の入力が終了されたか否かを判断する(ステップS603)。尚、音声の終了の検出方法としては、特微量計算部101にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク100からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が閾値以下の状態が所定時間以上続いた場合に、音声の入力が終了したとみなす等の方法が考えられる。
【0077】
音声が終了していないと判断された場合(ステップS603 NO)、ステップS601の処理へ戻る。一方、音声が終了したと判断された場合(ステップS603 YES)、ステップS602にて求められた類似度の高い基準音声情報とその類似度とを対応づけて認識結果として、制御部110及び認識結果記憶部107に出力し、認識結果記憶部107に記憶させる(ステップS604)。
【0078】
図5のフローチャートにて述べた、ステップS518にて求められた地点名称辞書のサイズの総和が、RAM103の容量に入りきらない場合(ステップS519 NO)に、ステップS520にて行われる複数回認識処理について、図7のフローチャートを用いて説明する。複数回認識処理とは、1回の入力音声に対して認識対象とする辞書(N個)を切り替えながら認識処理を繰り返し、それぞれの辞書に対する認識結果を統合し、最終的に全体としての認識結果を決定することである。
【0079】
図7において、認識辞書記憶部104に記憶された辞書でステップS505、S509、S513、S517の処理において認識結果記憶部107に記憶された絞込条件を満たす地点名称辞書の数(N)をカウントする(ステップS700)。続いて辞書番号n=1とする。(ステップS701)。ここで、絞込条件を満たす地点名称辞書のうち、管理番号が一番若い地点名称辞書を辞書番号1の地点名称辞書とし、認識辞書選択部105に辞書番号n(=1)番目の地点名称辞書を認識辞書記憶部104から抽出させ、抽出した地点名称辞書の地点名称を認識対象語句とすべく各地点名称を示す基準音声情報をRAM103にロードする(ステップS702)。ここで、管理番号とは、認識辞書記憶部104に記憶された音声認識辞書各々に順番につけられた番号のことである。
【0080】
次に、マイク100から音声の入力が開始されたか否かを判断する(ステップS703)。音声の入力の検出方法としては、特徴量計算部101にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク100からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が所定の閾値を越えた状態が、基準時間以上継続した場合に、音声の入力が開始されたとみなす等の方法が考えられる。
【0081】
音声開始が検出されると、特徴量計算部101にて入力音声を音声認識に適した特徴量に変換させ(ステップS704)、特徴量記憶部106に記憶させ(ステッフ゜S705)、特徴量記憶部106から認識部102に供給させる。認識部102にて、供給された特徴量とRAM103にロードされている全ての基準音声情報との類似度を計算させる(ステップS706)。そして、音声の入力が終了したか否かを判断する(ステップS707)。
【0082】
尚、音声の終了の検出方法としては、特徴量抽出部101にて、予め音圧レベルに関する閾値と基準時間とを記憶しておき、マイク100からの入力信号の音圧レベルと閾値をそれぞれ比較し、入力信号が所定の閾値以下の状態が所定時間続いた場合に、音声の入力が終了したとみなす等の方法が考えられる。
【0083】
音声が終了していないと判断された場合(ステップS707 NO)、ステップS704の処理へ戻る。一方、音声の終了したと判断された場合(ステップS707 YES)、ステップS706にて求められた類似度の高い順にK個の基準音声情報を、その類似度とを対応づけて辞書番号n=1の地点名称辞書の認識結果として、認識結果記憶部107に出力し、認識結果記憶部107に記憶させる(ステップS708)。なお、Kは1以上の整数であり、適宜システム設計者によって設定される値である。
【0084】
続いて辞書番号n=2とする(ステップS709)。辞書番号nが、ステップS700にてカウントした認識対象辞書数(N)より大きいか否かが判断される(ステップS710)。辞書番号nが認識対象辞書数(N)以下であれば(ステップS710 NO)、ステップS711の処理へ進む。絞込条件を満たす地点名称辞書のうち、管理番号がn番目に若い地点名称辞書を辞書番号=nの地点名称辞書とし、認識辞書選択部105に辞書番号(n)の地点名称辞書を認識辞書記憶部104から抽出させ、抽出した地点名称辞書の地点名称を認識対照語句とすべく各地点名称を示す基準音声情報をRAM103にロードする(ステップS711)。
【0085】
入力音声の特徴量は既に特徴量記憶部106に記憶されているので、そこから認識部102へ供給し認識部102にて、供給された特徴量とRAM103にロードされている全ての基準音声情報との類似度を計算させる(ステップS712)。ステップS712にて求められた類似度の高い順にK個の基準音声情報を、その類似度とを対応づけて辞書番号nの地点名称辞書の認識結果として、認識結果記憶部107に出力し、認識結果記憶部107に記憶させる(ステップS713)。そして、辞書番号nを=n+1にインクリメントとする(ステップS714)。以下、ステップS710にて辞書番号nが認識対象辞書数(N)を越えると判断されるまで、ステップS711〜ステップS714の処理を繰り返す。
【0086】
一方、辞書番号nが認識対象辞書数(N)より大きければ(ステップS710YES)、ステップS715の処理へ進む。ステップS715では認識結果統合部108によって認識結果記憶部107に記憶されたK×N個の認識結果の中から類似度の高い順に第K個を第2認識結果として選択して、制御部110に出力させ、認識結果記憶手段107に更新記憶させる。尚、Kが1の場合は、ステップS715にて認識結果が1つ特定されるが、Kが2以上の場合は、K個の第2認識結果の中から、さらに1つを選択させるため、K個の第2認識結果を制御部110に出力し、結果表示部112にK個の地点名称を表示させ、図示せぬ操作釦にて選択させるようにする。もしくは、類似度が一番高いものを認識結果としてスピーカ111及び結果表示部112を用いてユーザに提示し、ユーザのNO等の発話に応じて、続いて高い類似度のものを同様に提示し、ユーザが操作もしくはYES等と発話されるまで順次提示して、認識結果から一つを決定するようにしてもよい。
【0087】
なお、階層飛ばし語句としては、「わからない」という言葉は一例であり、システムが要求している情報をユーザが有していないことを表現する言葉であれば良く、例えば「パス」「次」等複数であっても良い。また、絞込の条件も「ジャンル名称」「サブジャンル名称」「都道府県名称」「市区町村名称」に限定されるものではなく、「地名名称」や「郵便番号」などでもよい。
【0088】
【発明の効果】
以上説明のように本発明によれば、指定地点の絞込みをおこなう際に、ユーザが知らない条件の入力をシステムから求められた場合に、階層飛ばしを示す基準音声情報(「わからない」と発話)を入力ことにより、検索を継続することができ、操作性ならびに応答性の改善がはかれる。
【0089】
なお、この場合、絞込条件は予めシステムによって設定されていた数より少なくなってしまうため、最終的に名称を発話する際の認識対照語句の数が大きくなり、認識率が低下する可能性はあるが、検索を継続することが可能となり、操作性、応答性の面での効果が大きい。また、認識対象語句の増加により、メモリの容量が問題となるが、複数に分けて認識処理を行うことでこれを回避することができる。
【図面の簡単な説明】
【図1】 本発明における音声認識装置の実施形態を示すブロック図である。
【図2】 本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図3】 本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図4】 本発明において使用される階層構造を持つ音声認識辞書の階層辞書ツリーの一例を示す図である。
【図5】 本発明実施形態の音声認識処理による地点検索の動作を説明するために引用したフローチャートである。
【図6】 本発明実施形態の音声認識処理動作を説明するために引用したフローチャートである。
【図7】 本発明実施形態の複数回認識処理動作を説明するために引用したフローチャートである。
【符号の説明】
100…マイク、101…特徴量計算部、102…認識部、103…RAM、104…認識辞書記憶部、105…認識辞書選択部、106…特徴量記憶部、107…認識結果記憶部、108…認識結果統合部、109…音声合成部、110…制御部、111…スピーカ、112…結果表示部、113…検索部
Claims (6)
- 階層構造をなし、複数の基準音声情報を有する複数の音声認識辞書と、
前記複数の音声認識辞書から適切な音声認識辞書を抽出する抽出手段と、
入力された音声と、前記複数の音声認識辞書から抽出された音声認識辞書内の基準音声情報とを比較することによって入力された前記音声を認識する認識手段とを備え、
所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記認識手段が階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を前記抽出手段が抽出し、前記認識手段が前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識する
ことを特徴する音声認識装置。 - 前記認識手段によって認識された音声に相当する基準音声情報の下位階層に属する音声認識辞書内の基準音声情報の語句の数を判定し、この数が基準値を超えているか判断する判断手段を備え、
前記判断手段が前記語句の数が前記基準値を超えていると判断したとき、前記抽出手段が下位階層に属する前記音声認識辞書の一部の音声認識辞書を抽出し、
前記認識手段が入力された音声と抽出された基準音声情報とを順次比較することにより、類似する基準音声情報を認識し、
前記比較を終了した後、前記抽出手段が下位階層に属する前記音声認識辞書のうち未抽出の辞書を抽出し、
前記認識手段が新たに抽出された辞書に属する基準音声情報と入力された音声とを順次比較し、類似する基準音声情報を認識し、複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出する
ことを特徴とする請求項1に記載の音声認識装置。 - 全ての類似する基準音声情報における一つを前記認識手段が認識し、認識結果とすることを特徴とする請求項2に記載の音声認識装置。
- 抽出された基準音声情報の内、複数の類似する基準音声情報を含む全ての類似する基準音声情報のなかから更に認識結果を選出する選出手段を備えることを特徴とする請求項2に記載の音声認識装置。
- 階層構造をなす複数の音声認識辞書の中から基準音声情報を抽出し、抽出された基準音声情報と入力された音声とを比較することにより音声を認識する音声認識方法であって、
所定の音声認識辞書に階層飛ばしを示す基準音声情報が用意されており、前記階層飛ばしを示す基準音声情報に相当する音声の入力を認識した際に、比較対象となっていた基準音声情報の下位階層に属する音声認識辞書を抽出して前記階層飛ばしを示す基準音声情報に相当する音声の入力後に新たに入力された音声を認識することを特徴とする音声認識方法。 - 認識された基準音声情報の下位階層に属する音声認識辞書の中の基準音声情報の数を判断し、その数が基準値を超えていると判断されたとき、下位階層に属する前記音声認識辞書の一部を抽出して、比較することにより類似する基準音声情報を認識し、抽出された基準音声情報との比較が終了した後、
下位階層に属する前記音声認識辞書の中から未抽出の音声認識辞書を抽出し、比較することにより類似する基準音声情報を認識し、
複数の類似する前記基準音声情報の中から、入力された音声に相当する基準音声情報をさらに選出することを特徴とする請求項5に記載の音声認識方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000312476A JP4283984B2 (ja) | 2000-10-12 | 2000-10-12 | 音声認識装置ならびに方法 |
DE60109105T DE60109105T2 (de) | 2000-10-12 | 2001-10-08 | Hierarchisierte Wörterbücher für die Spracherkennung |
EP01308594A EP1197950B1 (en) | 2000-10-12 | 2001-10-08 | Hierarchized dictionaries for speech recognition |
US09/973,774 US6961706B2 (en) | 2000-10-12 | 2001-10-11 | Speech recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000312476A JP4283984B2 (ja) | 2000-10-12 | 2000-10-12 | 音声認識装置ならびに方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002123284A JP2002123284A (ja) | 2002-04-26 |
JP4283984B2 true JP4283984B2 (ja) | 2009-06-24 |
Family
ID=18792059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000312476A Expired - Fee Related JP4283984B2 (ja) | 2000-10-12 | 2000-10-12 | 音声認識装置ならびに方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6961706B2 (ja) |
EP (1) | EP1197950B1 (ja) |
JP (1) | JP4283984B2 (ja) |
DE (1) | DE60109105T2 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10012572C2 (de) * | 2000-03-15 | 2003-03-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
US20060143007A1 (en) * | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US7698228B2 (en) | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7970648B2 (en) | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6848542B2 (en) | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
JP3423296B2 (ja) * | 2001-06-18 | 2003-07-07 | 沖電気工業株式会社 | 音声対話インターフェース装置 |
GB2376335B (en) * | 2001-06-28 | 2003-07-23 | Vox Generation Ltd | Address recognition using an automatic speech recogniser |
JP3576511B2 (ja) * | 2001-09-19 | 2004-10-13 | 松下電器産業株式会社 | 音声対話装置 |
JP4017887B2 (ja) * | 2002-02-28 | 2007-12-05 | 富士通株式会社 | 音声認識システムおよび音声ファイル記録システム |
EP1505573B1 (en) * | 2002-05-10 | 2008-09-03 | Asahi Kasei Kabushiki Kaisha | Speech recognition device |
US7224981B2 (en) * | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
EP1576586A4 (en) * | 2002-11-22 | 2006-02-15 | Transclick Inc | LANGUAGE TRANSLATION SYSTEM AND METHOD |
JP2006309446A (ja) * | 2005-04-27 | 2006-11-09 | Toshiba Corp | 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法 |
US8036346B2 (en) * | 2005-12-13 | 2011-10-11 | Cisco Technology, Inc. | Method and system for testing audio server |
AU2007211838A1 (en) * | 2006-02-01 | 2007-08-09 | Icommand Ltd | Human-like response emulator |
JP4930014B2 (ja) * | 2006-11-29 | 2012-05-09 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
EP1939860B1 (en) * | 2006-11-30 | 2009-03-18 | Harman Becker Automotive Systems GmbH | Interactive speech recognition system |
CN101558443B (zh) * | 2006-12-15 | 2012-01-04 | 三菱电机株式会社 | 声音识别装置 |
JP2008197338A (ja) * | 2007-02-13 | 2008-08-28 | Denso Corp | 音声認識装置 |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
DE102008027958A1 (de) * | 2008-03-03 | 2009-10-08 | Navigon Ag | Verfahren zum Betrieb eines Navigationssystems |
JP5059191B2 (ja) * | 2008-06-17 | 2012-10-24 | パイオニア株式会社 | データ作成装置、情報処理装置、データ作成方法、情報処理方法、データ作成プログラム、情報処理プログラム、および記録媒体 |
US9135809B2 (en) * | 2008-06-20 | 2015-09-15 | At&T Intellectual Property I, Lp | Voice enabled remote control for a set-top box |
JP7441602B2 (ja) * | 2018-09-27 | 2024-03-01 | 株式会社ジェイテクト | 機械加工支援システム及び切削装置 |
CN109767770A (zh) * | 2019-02-26 | 2019-05-17 | 吴鑫 | 一种车载语音导航和语音聊天系统 |
CN114255749A (zh) * | 2021-04-06 | 2022-03-29 | 北京安声科技有限公司 | 扫地机器人 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4742481A (en) * | 1984-04-13 | 1988-05-03 | Brother Kogyo Kabushiki Kaisha | Electronic dictionary having means for linking two or more different groups of vocabulary entries in a closed loop |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
JP3556425B2 (ja) * | 1997-03-18 | 2004-08-18 | 株式会社東芝 | 共有辞書更新方法および辞書サーバ |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
JPH11224265A (ja) * | 1998-02-06 | 1999-08-17 | Pioneer Electron Corp | 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体 |
JP2000089782A (ja) * | 1998-09-17 | 2000-03-31 | Kenwood Corp | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 |
JP3645104B2 (ja) * | 1998-11-02 | 2005-05-11 | 富士通株式会社 | 辞書検索装置及び辞書検索プログラムを記録した記録媒体 |
-
2000
- 2000-10-12 JP JP2000312476A patent/JP4283984B2/ja not_active Expired - Fee Related
-
2001
- 2001-10-08 DE DE60109105T patent/DE60109105T2/de not_active Expired - Lifetime
- 2001-10-08 EP EP01308594A patent/EP1197950B1/en not_active Expired - Lifetime
- 2001-10-11 US US09/973,774 patent/US6961706B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002123284A (ja) | 2002-04-26 |
US6961706B2 (en) | 2005-11-01 |
EP1197950A2 (en) | 2002-04-17 |
EP1197950B1 (en) | 2005-03-02 |
DE60109105D1 (de) | 2005-04-07 |
DE60109105T2 (de) | 2005-07-21 |
EP1197950A3 (en) | 2003-02-12 |
US20020046028A1 (en) | 2002-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4283984B2 (ja) | 音声認識装置ならびに方法 | |
JP4116233B2 (ja) | 音声認識装置ならびにその方法 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US6385582B1 (en) | Man-machine system equipped with speech recognition device | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
JP4790024B2 (ja) | 音声認識装置 | |
JP4709887B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム | |
EP1975923B1 (en) | Multilingual non-native speech recognition | |
EP2259252A1 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
WO2007088877A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP2002123290A (ja) | 音声認識装置ならびに音声認識方法 | |
JP2002123279A (ja) | 施設検索装置ならびにその方法 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
KR20100126992A (ko) | 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법 | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
KR20060098673A (ko) | 음성 인식 방법 및 장치 | |
JP2009282835A (ja) | 音声検索装置及びその方法 | |
JP2007327913A (ja) | 施設検索装置 | |
JP4661216B2 (ja) | 音声認識装置、方法、およびシステム | |
JP2006139203A (ja) | 施設検索装置 | |
JP2005070330A (ja) | 音声認識装置及びプログラム | |
JP2006184421A (ja) | 音声認識装置及び音声認識方法 | |
JP2006184669A (ja) | 音声認識装置、方法、およびシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090323 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4283984 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140327 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |