JP5199391B2 - 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム - Google Patents
重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム Download PDFInfo
- Publication number
- JP5199391B2 JP5199391B2 JP2010540451A JP2010540451A JP5199391B2 JP 5199391 B2 JP5199391 B2 JP 5199391B2 JP 2010540451 A JP2010540451 A JP 2010540451A JP 2010540451 A JP2010540451 A JP 2010540451A JP 5199391 B2 JP5199391 B2 JP 5199391B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- lower hierarchy
- likelihood
- belonging
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 101150034459 Parpbp gene Proteins 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、地名の音声認識性能を向上させるための重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラムに関するものである。
従来、カーナビゲーションシステムにおいて、ドライバーが発話した目的地を音声認識して、目的地周辺の地図を表示することが行われている。例えば、欧州においては、目的地は一般的に、国と、都市と、ストリートと、ハウスナンバーとで特定可能である。カーナビゲーションシステムで欧州の目的地設定を音声認識技術で行う際には、まず国を特定し、その後、都市名の音声認識を行うことにより都市を特定する。次に、その都市に属するストリートに語彙を限定してストリート名の音声認識を行い、ストリートを特定する。この後、必要であれば、ハウスナンバーの音声認識を行って、目的地の地点情報を特定する。ハウスナンバーの認識を行わない場合は、当該ストリートの代表地点を目的地の地点とすることが一般的である。
このような方法でフランスの都市を音声認識する場合には、認識対象語彙である都市名が約5万都市と多いため、結果的に認識対象語彙数が多くなる。さらに、発音が類似している都市名も存在するなどの理由から、一般的には音声認識の尤度の値が上位に順位付けられる複数の認識候補(「N−Best」ともいう)を画面に出力し、ユーザが複数の認識候補の中から所望の都市を選択することが多い。ここで、尤度とは、発話した音声に対する認識対象語彙の確からしさを示す値である。ユーザが都市を選択する場合、1画面に表示する認識候補の数としては、5つ程度が好ましいとされる。したがって、第5候補までの認識率が高いことが好ましいとされる。しかしながら、現在の音声認識技術では、認識対象とする都市名の発音が類似するものが多い場合や、認識対象語彙数が5万語近いあるいはそれ以上あるような場合は、ユーザが発話した都市名が第5候補までに登場せず、次の認識候補を別の画面(ページ)で探さなければならなく、著しく利便性に欠けることがある。
具体的に説明すると、たとえば、パリ(PARIS)の発音表記は/paRi/と表すことができるが、類似した発音記号を持つ都市として、図12に示すものがある。
また別の例として、リヨン(LYON)の発音表記は/ljo〜/と表すことができるが、類似した発音記号を持つ都市として、図13に示すものがある。
このような発音記号が類似した都市名が多数存在する場合は、話者の発話によっては音声認識の尤度差がつきづらく、第5候補までの認識結果をリスト表示しても、そのリストの中に発話された語が存在する確率が低くなる。特に、自動車が100km/h程度の高速で走行している場合には、走行雑音が発話音声に重畳され、リストに存在する確率はますます低下する。この結果として、ユーザは所望の都市名をリストから探索するためにページめくりを行う必要があり、利便性の悪化を招くことになる。
また別の例として、リヨン(LYON)の発音表記は/ljo〜/と表すことができるが、類似した発音記号を持つ都市として、図13に示すものがある。
このような発音記号が類似した都市名が多数存在する場合は、話者の発話によっては音声認識の尤度差がつきづらく、第5候補までの認識結果をリスト表示しても、そのリストの中に発話された語が存在する確率が低くなる。特に、自動車が100km/h程度の高速で走行している場合には、走行雑音が発話音声に重畳され、リストに存在する確率はますます低下する。この結果として、ユーザは所望の都市名をリストから探索するためにページめくりを行う必要があり、利便性の悪化を招くことになる。
このような問題を解決するため、音声認識の尤度以外の情報を用いて、認識結果の重み付けを行うことが知られている。たとえば、特許文献1では、目的地名を音声入力させる際に現在位置と目的地との間の距離に基づいて尤度の重み付けを行い、目的地が自車位置から近いほど尤度の重み付け(以下「尤度操作」ともいう)を高くする技術が開示されている。
ところが、目的地が遠い場合には、この特許文献1に記載の技術を適用すると、逆に認識率の劣化を招く場合がある。
したがって、カーナビゲーションで目的地の音声認識をさせる場合に、自車位置と目的地との間の距離に基づく重み付けではない手法を用いて、N−Bestにおける認識率を向上させる方法が求められている。
本発明は、上述した従来の問題点に鑑みてなされたものであり、地名の音声認識性能を向上させるための重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラムを提供することを目的とする。
したがって、カーナビゲーションで目的地の音声認識をさせる場合に、自車位置と目的地との間の距離に基づく重み付けではない手法を用いて、N−Bestにおける認識率を向上させる方法が求められている。
本発明は、上述した従来の問題点に鑑みてなされたものであり、地名の音声認識性能を向上させるための重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラムを提供することを目的とする。
上記問題を解決するために、本発明の一態様に係る音声認識装置は、広域から狭域に至る階層構造を有する住所に使用される地名が認識対象語彙として登録された音声認識辞書と、音声から特徴量を抽出し、該特徴量に基づき前記音声認識辞書に登録された各認識対象語彙に対する前記音声の尤度を算出する認識尤度算出手段と、前記認識対象語彙の地名の階層関係を示すツリー構造が記憶された住所データベースと、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量に基づいて、該認識対象語彙の尤度の重み係数を算出する重み係数算出手段と、前記認識尤度算出手段が算出した前記音声の尤度に前記重み係数算出手段が算出した前記認識対象語彙の尤度の重み係数を乗算した重み付き尤度に基づき、前記音声の認識結果を出力する認識結果出力手段と、を備える。
また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属するストリート名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属するストリート名の数であることを特徴とする。
また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属する施設名の数であることを特徴とする。 また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属する施設の電話番号の数であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識対象語彙とし、ユーザが発話した音声に対する前記認識対象語彙の尤度の重み係数を生成する重み係数生成装置であって、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量に基づいて、前記認識対象語彙の尤度の重み係数を算出する重み係数算出手段を備えたことを特徴とする。
また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属するストリート名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属するストリート名の数であることを特徴とする。
また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属する施設名の数であることを特徴とする。 また、本発明の他の態様に係る音声認識装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記都市名の下位階層に属する施設の電話番号の数であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識対象語彙とし、ユーザが発話した音声に対する前記認識対象語彙の尤度の重み係数を生成する重み係数生成装置であって、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量に基づいて、前記認識対象語彙の尤度の重み係数を算出する重み係数算出手段を備えたことを特徴とする。
本発明によれば、重み係数生成装置は、住所データベースに記憶された認識候補の地名の下位階層に属する前記住所データベースにおける情報量に基づいて、該認識候補の尤度の重み係数を算出するため、使用頻度が高いと想定される地名の尤度に対する重み付けを大きくすることができるため、音声認識性能を向上させるように地名の尤度の重み係数を生成することが可能となる。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する地名の数であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名と、該都市名の下位階層に属するストリート名とを記憶し、前記重み係数算出手段は、前記都市名の下位階層に属するストリート名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名と、該都市名の下位階層に属するストリート名とを記憶し、前記重み係数算出手段は、前記都市名の下位階層に属するストリート名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する施設の数であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記重み係数算出手段は、前記都市名の下位階層に属する施設名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名と、該都市名の下位階層に属する施設名とを記憶し、前記重み係数算出手段は、前記都市名の下位階層に属する施設名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する施設の電話番号の数であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名又は施設名と、該都市名又は施設名の下位階層に属する電話番号とを記憶し、前記重み係数算出手段は、前記都市名又は施設名の下位階層に属する電話番号の数に基づいて、前記都市名又は施設名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記住所データベースは、都市名又は施設名と、該都市名又は施設名の下位階層に属する電話番号とを記憶し、前記重み係数算出手段は、前記都市名又は施設名の下位階層に属する電話番号の数に基づいて、前記都市名又は施設名の尤度の重み係数を算出することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層の使用記憶容量であることを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量を算出する情報量算出手段をさらに有することを特徴とする。
また、本発明の他の態様に係る重み係数生成装置は、前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量を算出する情報量算出手段をさらに有することを特徴とする。
本発明によれば、都市名の音声認識の性能を向上させることができる。
また、本発明の他の態様に係る音声認識装置は、ユーザが音声入力を行うための音声入力手段と、広域から狭域に至る階層構造を有する住所に使用される地名が認識対象語彙として登録された音声認識辞書と、前記音声認識辞書に登録された各認識対象語彙に対する前記音声入力の尤度を算出する認識結果出力手段とを備え、前記音声認識辞書において、前記認識対象語彙に対する上記の重み係数生成装置により生成された重み係数がさらに登録され、前記認識結果出力手段は、前記算出された尤度に前記重み係数を乗算した重み付き尤度に基づいて、音声認識結果を出力することを特徴とする。
本発明によれば、音声認識装置は、地名の数による重み付き尤度に基づいて音声認識結果を出力するため、音声認識性能を向上させることができる。
また、本発明の他の態様に係る音声認識装置は、ユーザが音声入力を行うための音声入力手段と、広域から狭域に至る階層構造を有する住所に使用される地名が認識対象語彙として登録された音声認識辞書と、前記音声認識辞書に登録された各認識対象語彙に対する前記音声入力の尤度を算出する認識結果出力手段とを備え、前記音声認識辞書において、前記認識対象語彙に対する上記の重み係数生成装置により生成された重み係数がさらに登録され、前記認識結果出力手段は、前記算出された尤度に前記重み係数を乗算した重み付き尤度に基づいて、音声認識結果を出力することを特徴とする。
本発明によれば、音声認識装置は、地名の数による重み付き尤度に基づいて音声認識結果を出力するため、音声認識性能を向上させることができる。
また、本発明の他の態様に係る音声認識装置は、前記認識結果出力手段は、前記重み付き尤度の中から、値が高い上位複数の重み付き尤度を選択し、ユーザの選択入力により認識対象語彙を1つに決定するために、前記選択した複数の重み付き尤度各々に対応する複数の認識対象語彙を認識候補として表示することを特徴とする。
本発明によれば、地名の数による重み付き尤度に基づいて複数の認識対象語彙を認識候補として表示するため、複数の認識候補の中にユーザが発声した地名が含まれている確率を高めることができ、ユーザの利便性を向上させることができる。
本発明によれば、地名の数による重み付き尤度に基づいて複数の認識対象語彙を認識候補として表示するため、複数の認識候補の中にユーザが発声した地名が含まれている確率を高めることができ、ユーザの利便性を向上させることができる。
また、本発明の他の態様に係るナビゲーション装置は、上記の音声認識装置から出力された音声認識結果に基づいて特定される地域の地図情報を表示することを特徴とする。
本発明によれば、ナビゲーション装置は、ユーザが所望する地域の地図情報を表示することができる。
また、本発明の他の態様に係る車両は、上記の音声認識装置及び上記のナビゲーション装置を搭載したことを特徴とする。
本発明によれば、ユーザは車両内で音声認識を行い、所望の地域の地図情報を見ることができる。
本発明によれば、ナビゲーション装置は、ユーザが所望する地域の地図情報を表示することができる。
また、本発明の他の態様に係る車両は、上記の音声認識装置及び上記のナビゲーション装置を搭載したことを特徴とする。
本発明によれば、ユーザは車両内で音声認識を行い、所望の地域の地図情報を見ることができる。
また、本発明の他の態様に係る重み係数生成方法は、広域から狭域に至る地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識候補とし、ユーザが発話した音声に対する前記認識候補の尤度の重み係数を生成する重み係数生成装置が実行する重み係数生成方法であって、前記認識候補の下位階層に属する地名の数に基づいて、前記認識候補の尤度の重み係数を算出する重み係数算出ステップを備えたことを特徴とする。
また、本発明の他の態様に係る重み係数生成プログラムは、広域から狭域に至る地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識候補とし、ユーザが発話した音声に対する前記認識候補の尤度の重み係数を生成する重み係数生成プログラムであって、コンピュータに、前記認識候補の下位階層に属する地名の数に基づいて、前記認識候補の尤度の重み係数を算出する重み係数算出ステップを実行させるためのプログラムである。
本発明によれば、コンピュータに重み係数生成プログラムを記憶させて実行させることで、尤度の重み係数を算出することができる。
本発明によれば、コンピュータに重み係数生成プログラムを記憶させて実行させることで、尤度の重み係数を算出することができる。
本発明によれば、重み係数生成装置は、住所データベースに記憶された認識対象語彙の地名の下位階層に属する前記住所データベースにおける情報量に基づいて、該認識候補の尤度の重み係数を算出するため、使用頻度が高いと想定される地名の尤度に対する重み付けを大きくすることができるため、音声認識性能を向上させるように地名の尤度の重み係数を生成することが可能となる。
以下、本発明の実施形態について、図面を参照しつつ説明する。本実施形態では、車両に搭載されているカーナビゲーションシステムに対して、ドライバーの音声を音声認識した結果としての目的地を設定し、目的地周辺の地図情報を表示する場合について説明する。
図1は、本発明の実施形態に係るカーナビゲーションシステムの全体構成を示すブロック図である。同図に示すように、カーナビゲーションシステムは、重み係数生成装置10と、音声認識装置20と、ナビゲーション装置30とで構成されている。
図1は、本発明の実施形態に係るカーナビゲーションシステムの全体構成を示すブロック図である。同図に示すように、カーナビゲーションシステムは、重み係数生成装置10と、音声認識装置20と、ナビゲーション装置30とで構成されている。
(重み係数生成装置の構成)
重み係数生成装置10は、機能構成として、重み係数算出部11を備えている。この機能は、重み係数生成装置10が備える図示せぬCPU(Central Processing Unit)が、ハードディスク、ROM(Read Only Memory)等の記憶装置に記憶された重み係数生成プログラムを読み出して実行することにより実現される機能である。
重み係数算出部11は、認識候補の地名の下位階層に属する地名の数に基づいて、当該認識対象語彙の尤度の重み係数を算出する。尤度とは、音声に対する認識対象語彙の確からしさを示す値である。ここで、認識対象語彙である地名やその地名の下位階層に属する地名の数は、住所データベース12で管理されている住所情報から取得される。
重み係数生成装置10は、機能構成として、重み係数算出部11を備えている。この機能は、重み係数生成装置10が備える図示せぬCPU(Central Processing Unit)が、ハードディスク、ROM(Read Only Memory)等の記憶装置に記憶された重み係数生成プログラムを読み出して実行することにより実現される機能である。
重み係数算出部11は、認識候補の地名の下位階層に属する地名の数に基づいて、当該認識対象語彙の尤度の重み係数を算出する。尤度とは、音声に対する認識対象語彙の確からしさを示す値である。ここで、認識対象語彙である地名やその地名の下位階層に属する地名の数は、住所データベース12で管理されている住所情報から取得される。
もっとも、認識対象語彙の尤度の重み係数は、認識候補の地名の下位階層に属する住所データベース12における情報量に基づいて算出されればよい。ここで、「認識候補の地名の下位階層に属する住所データベース12における情報量」とは、具体的には、上述した認識候補の地名の下位階層に属する地名の数以外に、例えば、認識候補の地名の下位階層に属する施設の数や、施設にリンクされている電話番号の数などが挙げられる。また、地名の数等と、住所データベース12においてこれらが占める記憶容量とは比例すると考えられるので、「認識候補の地名の下位階層に属する住所データベース12における情報量」は、地名、施設、又は施設の電話番号などの住所データベース12における使用記憶容量であってもよい。すなわち、「住所データベース12における情報量」とは、住所データベース12上の住所情報に含まれる、認識候補の地名の下位階層に属する情報の多さを示すものであればよい。
さらに、「住所データベース12における情報量」は、認識候補の地名の下位階層に属する情報の多さを、ある程度の正確さを持って示すものであってもよい。例えば、地名、施設、又は施設の電話番号などの数を所定の数(例えば‘10’)で割って得られる数や、地名、施設、又は施設の電話番号などの住所データベース12における使用記憶容量を所定の記憶容量(例えば‘100Kバイト’)で割って得られる数、などであってもよい。また、認識候補の地名の下位階層に属する情報量を、情報の多さを示す「レベル」のような指標で示したものであってもよい。
図3は、住所データベース12で管理されている住所情報のデータ構成の一例を示す図である。同図に示すように、住所データベース12は、上位階層となる国、都市等の広域の地名から下位階層となるハウスナンバー等の狭域の地名に至るまでの地名の階層関係を示すツリー構造を有している。図3に示す例では、住所データベース12は、フランスの住所情報を管理しており、国名と、都市名と、ストリート名と、ハウスナンバーとを、階層状の構造として記憶している。
また、図4は、住所データベース12で管理されている住所情報のデータ構成の別の例を示す図である。同図においては、住所データベース12は、上位階層となる国、都市等の広域の地名から下位階層となる施設名等の狭域の地名に至るまでの地名の階層関係を示すツリー構造を有している。図4に示す例では、住所データベース12は、日本の住所情報を管理しており、国名と、都市名と、施設ジャンルと、施設名とを、階層状の構造として記憶している。
本実施形態では、都市名認識の際に都市のストリート名の数に基づく重み付けを行った尤度を利用する。このために、重み係数算出部11は、住所データベース12で管理されている各都市の下位階層に属するストリート名の数を数えて、当該ストリート名の数が多いほど重み付けが大きくなるように、前記都市名の尤度の重み係数を算出する。図3に示す例では、実際のストリート名の数とは異なるが、「Paris」の下位階層に属するストリート名の数は4つであり、「Marseille」の下位階層に属するストリート名の数は3つであるため、「Paris」の尤度の重み付けの度合いを「Marseille」の尤度の重み付けの度合いよりも大きくするように、重み係数を算出する。また、本実施形態では、全ての都市名の尤度に対して重み付けを行わずに、下位階層に属するストリート名の数が多い順に第1位から第N位(Nは自然数)までの都市の尤度に対して重み付けを行う。この場合、重み付けの度合いが第1位から第N位まで減少するように、重み係数を定める。
都市名認識の際に当該都市のストリート名の数に基づく重み付けを行った尤度を利用する意味は、不特定多数のドライバーの目的地の設定頻度を考えた場合、目的地の設定頻度は、大都市ほど多くなり、一般に大都市ほどストリート名の数は多くなる。したがって、ストリート名の数は使用頻度に対応することになるためである。
なお、都市名の下位階層に属するストリート名の数の取得方法としては、重み係数算出部11が住所データベース12に記憶されている各都市名の下位階層に属するストリート名の数を数える他に、住所データベース12に都市名の下位階層に属するストリート名の数を記憶しておき、当該ストリート名の数を取得するようにしてもよい。
なお、都市名の下位階層に属するストリート名の数の取得方法としては、重み係数算出部11が住所データベース12に記憶されている各都市名の下位階層に属するストリート名の数を数える他に、住所データベース12に都市名の下位階層に属するストリート名の数を記憶しておき、当該ストリート名の数を取得するようにしてもよい。
さらに、図2に示すように、重み係数生成装置10は、情報量算出部13を有していてもよい。情報量算出部13は、認識候補の地名の下位階層に属する地名の数を算出する。地名数の具体的な算出方法としては、以下のような方法が挙げられる。例えば、あらかじめ認識候補の地名の下位階層に属する地名が階層構造をなしてデータベースとしてハードディスク等の記憶装置に記憶して保持されている場合には、一般的なデータベースの機能を用いて下位階層に属する地名の数を簡単に取得することができる。また、データベースとして保持されていない場合でも、階層構造を読み取ることが可能なデータファイル形式でハードディスク等の記憶装置に記憶して保持されている場合には、データファイルを読み出して階層構造化すれば、下位階層に属する地名の数を取得することができる。なお、重み係数生成装置10が情報量算出部13を有する場合、重み係数算出部11は、情報量算出部13から認識候補の地名の下位階層に属する地名の数を取得する。
(音声認識装置の構成)
次に、音声認識装置20の構成について説明する。音声認識装置20は、音声認識辞書21と、認識尤度算出部22と、認識結果出力部23とを備えている。
音声認識辞書21は、音声認識装置20が備える図示せぬハードディスクに設けられたデータベースである。認識尤度算出部22と認識結果出力部23とは、音声認識装置20が備える図示せぬCPUがハードディスク、ROM等の記憶装置に記憶されたプログラム等のソフトウェアを読み出して実行することにより実現される機能である。
音声認識辞書21は、都市名認識辞書21Aと、ストリート名認識辞書21Bと、ハウスナンバー認識辞書21Cとで構成される。
次に、音声認識装置20の構成について説明する。音声認識装置20は、音声認識辞書21と、認識尤度算出部22と、認識結果出力部23とを備えている。
音声認識辞書21は、音声認識装置20が備える図示せぬハードディスクに設けられたデータベースである。認識尤度算出部22と認識結果出力部23とは、音声認識装置20が備える図示せぬCPUがハードディスク、ROM等の記憶装置に記憶されたプログラム等のソフトウェアを読み出して実行することにより実現される機能である。
音声認識辞書21は、都市名認識辞書21Aと、ストリート名認識辞書21Bと、ハウスナンバー認識辞書21Cとで構成される。
図5は、都市名認識辞書21Aのデータ構成の一例を示す図である。都市名認識辞書21Aには、住所データベース12で管理されている都市名毎に、表示用の文字データと、地名IDと、発音記号と、音声認識用の音素モデルと、重み係数生成装置10で生成された重み係数と、が対応付けられて記憶されている。音素モデルとしては、例えば、音素HMM(Hidden Markov Model)を用いることができる。
ストリート名認識辞書21B及びハウスナンバー認識辞書21Cには、住所データベース12で管理されているストリート名やハウスナンバー毎に、地名IDと、表示用の文字データと、発音記号と、音声認識用の音素モデルとが対応付けられて記憶されている。本実施形態では、ストリート名及びハウスナンバーの尤度に対する重み付けは行われないため、ストリート名認識辞書21B及びハウスナンバー認識辞書21Cには、重み係数は記憶されていない。
認識尤度算出部22は、図示せぬマイクロホンから入力された、ドライバーが発話した地名の音声入力から特徴量を抽出し、当該抽出した特徴量と、該当する音声認識辞書21に記憶されている各認識対象語彙である地名の音素モデルの特徴量とを比較照合することにより、音声認識辞書21に記憶されている各認識対象語彙である地名の尤度を算出する。
なお、認識対象語彙である地名が都市名である場合には、認識尤度算出部22は、重み係数生成装置10で算出され都市名認識辞書21Aに記憶されている重み係数を用いて、上記で算出された都市名の尤度に対して重み付けを行う。
なお、認識対象語彙である地名が都市名である場合には、認識尤度算出部22は、重み係数生成装置10で算出され都市名認識辞書21Aに記憶されている重み係数を用いて、上記で算出された都市名の尤度に対して重み付けを行う。
認識結果出力部23は、認識尤度算出部22により算出された重み付き尤度に基づいて、音声認識結果を出力する。本実施形態では、音声認識結果として、N−Bestを画面表示する。すなわち、認識尤度算出部22により算出された複数の認識対象語彙の重み付き尤度の中から、値が高い上位複数の重み付き尤度を選択し、当該選択した複数の重み付き尤度各々に対応する複数の認識対象語彙を認識候補として画面表示する。そして、N−Bestの中から何れか1つの地名をドライバーに選択入力させることにより、音声認識結果を1つの地名に絞り込む。このようにして、都市名、ストリート名、ハウスナンバーの音声認識が順次行われ、それぞれの地名が1つに絞り込まれた時に、認識結果出力部23は、これらの地名の地名IDをナビゲーション装置30に出力する。なお、音声認識結果としてN−Bestを画面表示する以外に、尤度が最も高い認識候補の地名のみを出力することも考えられる。
(ナビゲーション装置の構成)
次に、ナビゲーション装置30の構成について説明する。ナビゲーション装置30は、地図データベース31と、地図表示部32とを備えている。地図データベース31は、ナビゲーション装置30が備える図示せぬハードディスクに設けられたデータベースである。地図表示部32は、ナビゲーション装置30が備える図示せぬCPUがハードディスク、ROM等の記憶装置に記憶されたプログラムを読み出して実行することにより実現される機能である。
次に、ナビゲーション装置30の構成について説明する。ナビゲーション装置30は、地図データベース31と、地図表示部32とを備えている。地図データベース31は、ナビゲーション装置30が備える図示せぬハードディスクに設けられたデータベースである。地図表示部32は、ナビゲーション装置30が備える図示せぬCPUがハードディスク、ROM等の記憶装置に記憶されたプログラムを読み出して実行することにより実現される機能である。
地図データベース31には、地図を表示するための画像データと、表示文字データと、地名IDとが関連付けられて記憶されている。
地図表示部32は、音声認識装置20から、都市名、ストリート名、ハウスナンバーをそれぞれ示す地名IDを受信すると、当該地名IDで特定される地域の地図を表示するための画像データ、表示文字データを地図データベース31から取得して、ナビゲーション画面に地図情報を表示する。
地図表示部32は、音声認識装置20から、都市名、ストリート名、ハウスナンバーをそれぞれ示す地名IDを受信すると、当該地名IDで特定される地域の地図を表示するための画像データ、表示文字データを地図データベース31から取得して、ナビゲーション画面に地図情報を表示する。
(実施例)
次に、上述した本発明に係る尤度操作を行った場合と、行わない場合との音声認識性能について説明する。まず、尤度操作を行わない場合の音声認識結果について説明する。
フランスの都市名を都市の人口順にソートして、人口の多い上位300位以内に属する全ての都市名を発話する。当該発話されたクリーンな(雑音の無い)音声に車両が100km/hで走行している時の走行雑音を重畳し、当該雑音が重畳された音声の音声認識を行う。この場合の平均認識率を図6に示す。同図に示すように、第1候補での認識率は68.9%、第2候補までに含まれる認識率は76.59%、第3候補までに含まれる認識率は80.94%、第4候補までに含まれる認識率は84.28%、第5候補までに含まれる認識率は86.62%となった。なお、ここでは、高い尤度を有する認識候補から順に、第1候補、第2候補、第3候補、第4候補、第5候補と呼んでいる。
したがって、認識結果として1画面に表示できる都市名を5候補までとした場合、ユーザが発話した都市を1画面で確認できる確率は約87%となり、90%を下回る結果となる。
次に、上述した本発明に係る尤度操作を行った場合と、行わない場合との音声認識性能について説明する。まず、尤度操作を行わない場合の音声認識結果について説明する。
フランスの都市名を都市の人口順にソートして、人口の多い上位300位以内に属する全ての都市名を発話する。当該発話されたクリーンな(雑音の無い)音声に車両が100km/hで走行している時の走行雑音を重畳し、当該雑音が重畳された音声の音声認識を行う。この場合の平均認識率を図6に示す。同図に示すように、第1候補での認識率は68.9%、第2候補までに含まれる認識率は76.59%、第3候補までに含まれる認識率は80.94%、第4候補までに含まれる認識率は84.28%、第5候補までに含まれる認識率は86.62%となった。なお、ここでは、高い尤度を有する認識候補から順に、第1候補、第2候補、第3候補、第4候補、第5候補と呼んでいる。
したがって、認識結果として1画面に表示できる都市名を5候補までとした場合、ユーザが発話した都市を1画面で確認できる確率は約87%となり、90%を下回る結果となる。
図7には、尤度操作を行わない場合の上位300位以外の都市名の平均認識率を示す。発話した都市名数は1023である。同図に示すように、第1候補での認識率は76.25%、第2候補までに含まれる認識率は84.07%、第3候補までに含まれる認識率は87.59%、第4候補までに含まれる認識率は90.03%、第5候補までに含まれる認識率は91.01%となった。
次に、尤度操作を行った場合の認識率について説明する。認識対象とするフランスの都市名をストリート名の数でソートし、ある都市iに対する音声認識の累積尤度Piに対して、ストリート名の数に基づいて、重み係数wsにより重み付けした音声認識を行う。音声認識では、各認識対象語彙に対する音声入力の尤度を算出する際に、フレーム毎に尤度を求め、音声開始から音声終了までの間で求めた尤度の累積を行う。そして、累積された尤度の値が高い上位の認識対象語彙を認識結果の候補とするが、ここでは、組み込み用途を考慮して、乗算をさけるために尤度の対数(対数尤度)を累積する。この場合、重み係数wsはPiに加算することになる。wsの決め方については、利用する音声認識装置20に合わせて調整する必要があるが、本実施例では、n(i)を都市iのストリート名の数の多い順にソートした時の1から始まる順位とすると、例えば、以下のように、都市iの重み係数wn(i)sが、ストリート名の数が多い都市ほど線形に値が大きくなるように定義する。wn(i)sの値が大きいほど確率的に優遇されることになる。本実施例では、ストリート名の数が大きい順の第1位から第N(Nは自然数)位までを優遇し、優遇される確率は第1位から緩やかにN位まで単調減少するようにしたモデルを考える。図8は、本実施例における重み係数のグラフを示す図である。
wn(i)s=Ω1−(Ω1−ΩN)×(n(i)−1)/(N−1) 条件:n(i)<N
wn(i)s=0 条件:n(i)>=N
wn(i)s=Ω1−(Ω1−ΩN)×(n(i)−1)/(N−1) 条件:n(i)<N
wn(i)s=0 条件:n(i)>=N
ここで、Ω1は第1位に対して与える優遇値、ΩNは第N位に対して与える優遇値である。w1およびwNは、利用する音声認識の対数尤度の取りうる値域によってことなるが、本実施例では、図8に示すように、Ω1=50、ΩN=30、N=300として、ストリート名の数によって順位付けされた都市の確率優遇値が第1位から緩やかに300位まで単調減少するようにして、上記尤度操作を行わない場合と同様の音声データを用いて認識実験を行った。その結果を図9に示す。同図に示すように、第1候補での認識率は83.61%、第2候補までに含まれる認識率は87.63%、第3候補までに含まれる認識率は90.97%、第4候補までに含まれる認識率は92.64%、第5候補までに含まれる認識率は92.98%となった。
また、対比する認識結果として、300位を超える都市の認識率を図10に示す。同図に示すように、第1候補での認識率は73.7%、第2候補までに含まれる認識率は82.7%、第3候補までに含まれる認識率は86.22%、第4候補までに含まれる認識率は88.07%、第5候補までに含まれる認識率は89.93%となった。
以上の結果、上記モデルのwn(i)sを音声認識の対数尤度に適応した場合は、第1候補での認識率が68.9%から83.61%まで約14.7%向上し、第5候補までに含まれる認識率は86.62%から92.98%まで約6.4%向上しているのが確認された。
以上の結果、上記モデルのwn(i)sを音声認識の対数尤度に適応した場合は、第1候補での認識率が68.9%から83.61%まで約14.7%向上し、第5候補までに含まれる認識率は86.62%から92.98%まで約6.4%向上しているのが確認された。
一方、300位を超える都市の認識率は第1候補での認識率が76.25%から73.7%まで約2.5%劣化しているが、第5候補までに含まれる認識率では91.01%から89.93%と約1.1%の劣化でとどまっている。これは、音声認識のN−Bestの認識率は、一般に候補数に対し上記のように緩やかに向上するため、300位を超える都市の尤度が本発明によって優遇され、その都市の尤度が向上して、本来第5候補外にあった都市が第5候補内に入ってきたことによって、第5候補内に存在していた認識結果が第5候補外に出され、認識率が劣化したものと考えられる。すなわち、上の例では第4候補と第5候補の認識率の差程度が劣化したと考えられる。
本発明の実施例により、1画面中に収まる認識候補を第5候補までとすると、目的地として設定する頻度の高い大都市が第5候補までに含まれる認識率は約6.4%向上し、目的地として設定する頻度が低い都市に関しても、第5候補までに含まれる認識率の劣化は約1.1%と抑えられ、カーナビゲーションシステムにおける目的地の設定方法として、音声認識を用いて都市を設定する場合に非常に有効であることが示された。
以上説明したように、重み係数生成装置10は、認識候補の都市名の下位階層に属するストリート名の数に基づいて、当該認識候補の都市名の尤度の重み係数を算出するため、使用頻度が高いと想定される都市名の尤度に対する重み付けを大きくすることができ、音声認識性能を向上させるように都市名の尤度の重み係数を生成することが可能となる。したがって、カーナビゲーションシステムで都市名の設定を行う際に、重み付けを行った尤度に基づいて1画面内にN−Bestを表示することで、1画面内にドライバーが発声した都市名が表示される確率を高めることができる。
なお、ストリート名の数に基づいて都市の重み係数を計算する他に、都市の人口に基づいて重み係数を計算することも考えられるが、ストリート名の数は人口のように頻繁に増減するものではないため、ストリート名の数に基づいて重み係数を算出した方が、重み係数の再計算を頻繁に行う必要がなく、利便性が高い。
なお、上述した実施形態では、都市の下位階層に属するストリート名の数に基づいて重み係数を算出したが、都市の下位階層に属するハウスナンバーの数をもさらに考慮して重み係数を算出してもよい。
なお、上述した実施形態では、都市の下位階層に属するストリート名の数に基づいて重み係数を算出したが、都市の下位階層に属するハウスナンバーの数をもさらに考慮して重み係数を算出してもよい。
また、ストリート名が住所の構成要素となるフランスに限らず、広域から狭域に至る地名の階層関係を示すツリー構造を有する住所体系であれば、例えば、都道府県、郡、区、市、町、字等の地名で構成される日本の住所についても、本発明を適用可能である。図11には、日本の住所が記憶された住所データベースの一例を示す。日本の住所体系のような各階層の地名の種類が統一されていない住所体系であっても、認識候補の地名の下位階層に属する末端までの地名の数に基づいて、当該認識候補の尤度に対する重み係数を算出することで、高い認識性能を得ることができる。例えば、図11に示す第2の階層の地名については、当該地名の第3〜第6階層に属する地名の数に基づいて、該認識候補の尤度に対する重み係数を算出するとよい。
また、重み係数生成装置10により予め生成された各都市に対応する重み係数を都市名認識辞書21Aに記憶させておくことで、音声認識装置20及びナビゲーション装置30を車両に搭載すれば、重み係数生成装置10や住所データベース12を車両に搭載しなくても、尤度操作に基づく性能のよい音声認識を行うことができる。
10 重み係数生成装置
11 重み係数算出部
12 住所データベース
13 情報量算出部
20 音声認識装置
21 音声認識辞書
21A 都市名認識辞書
21B ストリート名認識辞書
21C ハウスナンバー認識辞書
22 認識尤度算出部
23 認識結果出力部
30 ナビゲーション装置
31 地図データベース
32 地図表示部
11 重み係数算出部
12 住所データベース
13 情報量算出部
20 音声認識装置
21 音声認識辞書
21A 都市名認識辞書
21B ストリート名認識辞書
21C ハウスナンバー認識辞書
22 認識尤度算出部
23 認識結果出力部
30 ナビゲーション装置
31 地図データベース
32 地図表示部
Claims (19)
- 広域から狭域に至る階層構造を有する住所に使用される地名が認識対象語彙として登録された音声認識辞書と、
音声から特徴量を抽出し、該特徴量に基づき前記音声認識辞書に登録された各認識対象語彙に対する前記音声の尤度を算出する認識尤度算出手段と、
前記認識対象語彙の地名の階層関係を示すツリー構造が記憶された住所データベースと、
前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量に基づいて、該認識対象語彙の尤度の重み係数を算出する重み係数算出手段と、
前記認識尤度算出手段が算出した前記音声の尤度に前記重み係数算出手段が算出した前記認識対象語彙の尤度の重み係数を乗算した重み付き尤度に基づき、前記音声の認識結果を出力する認識結果出力手段と、
を備える音声認識装置。 - 前記住所データベースは、
都市名と、該都市名の下位階層に属するストリート名とを記憶し、
前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、
前記都市名の下位階層に属するストリート名の数であることを特徴とする請求項1に記載の音声認識装置。 - 前記住所データベースは、
都市名と、該都市名の下位階層に属する施設名とを記憶し、
前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、
前記都市名の下位階層に属する施設名の数であることを特徴とする請求項1に記載の音声認識装置。 - 前記住所データベースは、
都市名と、該都市名の下位階層に属する施設名とを記憶し、
前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、
前記都市名の下位階層に属する施設の電話番号の数であることを特徴とする請求項1に記載の音声認識装置。 - 地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識対象語彙とし、ユーザが発話した音声に対する前記認識対象語彙の尤度の重み係数を生成する重み係数生成装置であって、
前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量に基づいて、前記認識対象語彙の尤度の重み係数を算出する重み係数算出手段を備えたことを特徴とする重み係数生成装置。 - 前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する地名の数であることを特徴とする請求項5に記載の重み係数生成装置。
- 前記住所データベースは、
都市名と、該都市名の下位階層に属するストリート名とを記憶し、
前記重み係数算出手段は、
前記都市名の下位階層に属するストリート名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする請求項6に記載の重み係数生成装置。 - 前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する施設の数であることを特徴とする請求項5に記載の重み係数生成装置。
- 前記住所データベースは、
都市名と、該都市名の下位階層に属する施設名とを記憶し、
前記重み係数算出手段は、
前記都市名の下位階層に属する施設名の数に基づいて、前記都市名の尤度の重み係数を算出することを特徴とする請求項8に記載の重み係数生成装置。 - 前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層に属する施設の電話番号の数であることを特徴とする請求項5に記載の重み係数生成装置。
- 前記住所データベースは、
都市名又は施設名と、該都市名又は施設名の下位階層に属する電話番号とを記憶し、
前記重み係数算出手段は、
前記都市名又は施設名の下位階層に属する電話番号の数に基づいて、前記都市名又は施設名の尤度の重み係数を算出することを特徴とする請求項10に記載の重み係数生成装置。 - 前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量とは、前記認識対象語彙の下位階層の使用記憶容量であることを特徴とする請求項5に記載の重み係数生成装置。
- 前記認識対象語彙の下位階層に属する前記住所データベースにおける情報量を算出する情報量算出手段をさらに有することを特徴とする請求項5から12のいずれか1項に記載の重み係数生成装置。
- ユーザが発話した地名を認識する音声認識装置であって、
ユーザが音声入力を行うための音声入力手段と、
広域から狭域に至る階層構造を有する住所に使用される地名が認識対象語彙として登録された音声認識辞書と、
前記音声認識辞書に登録された各認識対象語彙に対する前記音声入力の尤度を算出する認識結果出力手段とを備え、
前記音声認識辞書において、前記認識対象語彙に対する請求項5から13のいずれか1項に記載された重み係数生成装置により生成された重み係数がさらに登録され、
前記認識結果出力手段は、前記算出された尤度に前記重み係数を乗算した重み付き尤度に基づいて、音声認識結果を出力することを特徴とする音声認識装置。 - 前記認識結果出力手段は、前記重み付き尤度の中から、値が高い上位複数の重み付き尤度を選択し、ユーザの選択入力により認識対象語彙を1つに決定するために、前記選択した複数の重み付き尤度各々に対応する複数の認識対象語彙を認識候補として表示することを特徴とする請求項14に記載の音声認識装置。
- 請求項14又は15に記載された音声認識装置から出力された音声認識結果に基づいて特定される地域の地図情報を表示することを特徴とするナビゲーション装置。
- 請求項14又は15に記載の音声認識装置及び請求項16に記載のナビゲーション装置を搭載した車両。
- 広域から狭域に至る地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識対象語彙とし、ユーザが発話した音声に対する前記認識対象語彙の尤度の重み係数を生成する重み係数生成装置が実行する重み係数生成方法であって、
前記認識対象語彙の下位階層に属する地名の数に基づいて、前記認識対象語彙の尤度の重み係数を算出する重み係数算出ステップを備えたことを特徴とする重み係数生成方法。 - 広域から狭域に至る地名の階層関係を示すツリー構造を有する住所情報を管理する住所データベースに記憶された各地名を音声の認識対象語彙とし、ユーザが発話した音声に対する前記認識対象語彙の尤度の重み係数を生成する重み係数生成プログラムであって、
コンピュータに、
前記認識対象語彙の下位階層に属する地名の数に基づいて、前記認識対象語彙の尤度の重み係数を算出する重み係数算出ステップを実行させるための重み係数生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010540451A JP5199391B2 (ja) | 2008-11-25 | 2009-11-17 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008299220 | 2008-11-25 | ||
JP2008299220 | 2008-11-25 | ||
PCT/JP2009/069476 WO2010061751A1 (ja) | 2008-11-25 | 2009-11-17 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
JP2010540451A JP5199391B2 (ja) | 2008-11-25 | 2009-11-17 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010061751A1 JPWO2010061751A1 (ja) | 2012-04-26 |
JP5199391B2 true JP5199391B2 (ja) | 2013-05-15 |
Family
ID=42225629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010540451A Expired - Fee Related JP5199391B2 (ja) | 2008-11-25 | 2009-11-17 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8688449B2 (ja) |
EP (1) | EP2352144B1 (ja) |
JP (1) | JP5199391B2 (ja) |
CN (1) | CN102224542B (ja) |
WO (1) | WO2010061751A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
WO2014109017A1 (ja) * | 2013-01-09 | 2014-07-17 | 三菱電機株式会社 | 音声認識装置および表示方法 |
CN103116571B (zh) * | 2013-03-14 | 2016-03-02 | 米新江 | 一种确定多个对象权重的方法 |
JP6100101B2 (ja) * | 2013-06-04 | 2017-03-22 | アルパイン株式会社 | 音声認識を利用した候補選択装置および候補選択方法 |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
DE102014210716A1 (de) * | 2014-06-05 | 2015-12-17 | Continental Automotive Gmbh | Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen |
US10529324B1 (en) * | 2016-12-27 | 2020-01-07 | Cognistic, LLC | Geographical based voice transcription |
US11276395B1 (en) * | 2017-03-10 | 2022-03-15 | Amazon Technologies, Inc. | Voice-based parameter assignment for voice-capturing devices |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
KR20190113693A (ko) * | 2019-09-18 | 2019-10-08 | 엘지전자 주식회사 | 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
CN113469741B (zh) * | 2021-06-30 | 2024-08-02 | 杭州云深科技有限公司 | App地域分布等级确定方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2907728B2 (ja) * | 1994-08-10 | 1999-06-21 | 富士通テン株式会社 | 音声処理装置 |
JP4040573B2 (ja) * | 2003-12-12 | 2008-01-30 | キヤノン株式会社 | 音声認識装置および方法 |
JP4665459B2 (ja) * | 2004-08-25 | 2011-04-06 | 日産自動車株式会社 | ナビゲーション装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3042585B2 (ja) * | 1995-01-30 | 2000-05-15 | 富士通テン株式会社 | 音声認識装置 |
JP3627299B2 (ja) * | 1995-07-19 | 2005-03-09 | ソニー株式会社 | 音声認識方法及び装置 |
JPH1124695A (ja) * | 1997-06-27 | 1999-01-29 | Sony Corp | 音声認識処理装置および音声認識処理方法 |
JP3500948B2 (ja) | 1998-02-18 | 2004-02-23 | 株式会社デンソー | 音声認識装置 |
JP3990075B2 (ja) * | 1999-06-30 | 2007-10-10 | 株式会社東芝 | 音声認識支援方法及び音声認識システム |
CN1151489C (zh) * | 2000-11-15 | 2004-05-26 | 中国科学院自动化研究所 | 中国人名、地名和单位名的语音识别方法 |
JP3868798B2 (ja) * | 2001-11-14 | 2007-01-17 | 三菱電機株式会社 | 音声認識装置 |
JP2004117063A (ja) * | 2002-09-24 | 2004-04-15 | Seiko Epson Corp | ナビゲーション装置 |
JP4281369B2 (ja) * | 2003-02-07 | 2009-06-17 | 日産自動車株式会社 | 音声認識装置 |
JP2006163285A (ja) | 2004-12-10 | 2006-06-22 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
JP2007271876A (ja) * | 2006-03-31 | 2007-10-18 | Denso Corp | 音声認識装置および音声認識用のプログラム |
WO2007114226A1 (ja) * | 2006-03-31 | 2007-10-11 | Pioneer Corporation | 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置 |
CN101162153A (zh) * | 2006-10-11 | 2008-04-16 | 丁玉国 | 一种语音控制的车载gps导航系统及其实现方法 |
US7840407B2 (en) * | 2006-10-13 | 2010-11-23 | Google Inc. | Business listing search |
CN101158584B (zh) * | 2007-11-15 | 2011-01-26 | 熊猫电子集团有限公司 | 车载gps的语音目的地导航实现方法 |
EP2259252B1 (en) * | 2009-06-02 | 2012-08-01 | Nuance Communications, Inc. | Speech recognition method for selecting a combination of list elements via a speech input |
-
2009
- 2009-11-17 WO PCT/JP2009/069476 patent/WO2010061751A1/ja active Application Filing
- 2009-11-17 EP EP09828999.4A patent/EP2352144B1/en not_active Not-in-force
- 2009-11-17 CN CN2009801476794A patent/CN102224542B/zh not_active Expired - Fee Related
- 2009-11-17 US US13/129,169 patent/US8688449B2/en not_active Expired - Fee Related
- 2009-11-17 JP JP2010540451A patent/JP5199391B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2907728B2 (ja) * | 1994-08-10 | 1999-06-21 | 富士通テン株式会社 | 音声処理装置 |
JP4040573B2 (ja) * | 2003-12-12 | 2008-01-30 | キヤノン株式会社 | 音声認識装置および方法 |
JP4665459B2 (ja) * | 2004-08-25 | 2011-04-06 | 日産自動車株式会社 | ナビゲーション装置 |
Also Published As
Publication number | Publication date |
---|---|
US8688449B2 (en) | 2014-04-01 |
US20110231191A1 (en) | 2011-09-22 |
EP2352144A1 (en) | 2011-08-03 |
EP2352144B1 (en) | 2015-08-19 |
CN102224542A (zh) | 2011-10-19 |
CN102224542B (zh) | 2012-12-19 |
JPWO2010061751A1 (ja) | 2012-04-26 |
WO2010061751A1 (ja) | 2010-06-03 |
EP2352144A4 (en) | 2012-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5199391B2 (ja) | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム | |
EP2259252B1 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US8949133B2 (en) | Information retrieving apparatus | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
WO2010018796A1 (ja) | 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 | |
JP4188989B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP3955880B2 (ja) | 音声認識装置 | |
US20060100871A1 (en) | Speech recognition method, apparatus and navigation system | |
JP2008532099A (ja) | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム | |
JP5274711B2 (ja) | 音声認識装置 | |
US6549883B2 (en) | Method and apparatus for generating multilingual transcription groups | |
US20080126090A1 (en) | Method For Speech Recognition From a Partitioned Vocabulary | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
US20140067400A1 (en) | Phonetic information generating device, vehicle-mounted information device, and database generation method | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP4611823B2 (ja) | 音声認識候補文字列選択装置 | |
JP5522679B2 (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
LAPS | Cancellation because of no payment of annual fees |