JP2005173390A - 音声認識装置および方法 - Google Patents

音声認識装置および方法 Download PDF

Info

Publication number
JP2005173390A
JP2005173390A JP2003415425A JP2003415425A JP2005173390A JP 2005173390 A JP2005173390 A JP 2005173390A JP 2003415425 A JP2003415425 A JP 2003415425A JP 2003415425 A JP2003415425 A JP 2003415425A JP 2005173390 A JP2005173390 A JP 2005173390A
Authority
JP
Japan
Prior art keywords
geographical name
recognition
name
recognition target
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003415425A
Other languages
English (en)
Other versions
JP4040573B2 (ja
JP2005173390A5 (ja
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003415425A priority Critical patent/JP4040573B2/ja
Priority to US11/006,628 priority patent/US7624011B2/en
Priority to EP04257699A priority patent/EP1542207B1/en
Priority to DE602004023364T priority patent/DE602004023364D1/de
Publication of JP2005173390A publication Critical patent/JP2005173390A/ja
Publication of JP2005173390A5 publication Critical patent/JP2005173390A5/ja
Application granted granted Critical
Publication of JP4040573B2 publication Critical patent/JP4040573B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 認識履歴等の情報を用いて音声認識の性能をさらに向上させること。
【解決手段】 認識対象の地理的名称とその位置との対応関係を記述したテーブルを記憶し(114)、認識対象の地理的名称毎に、過去に入力された頻度を管理し(202)、上記テーブル(114)に基づいて、注目する認識対象の地理的名称の生起確率を、当該地理的名称の前記頻度と、当該地理的名称の位置を含む所定領域内に位置する認識対象の地理的名称の前記頻度とに基づいて更新し、この更新を認識対象の地理的名称毎に行う(203)。
【選択図】 図2

Description

本発明は音声認識技術に関する。
インターネット、カーナビゲーション、携帯電話などの情報機器における検索アプリケーションを利用する際に、駅名、ランドマーク、住所など場所に関する情報を入力することがある。このような情報の入力に音声認識を使用することが考えられる。いま、電車の経路案内に関し、出発駅と到着駅を入力する際にこれらの駅名を音声によって入力し、それを音声認識するアプリケーションを考える。この場合、アプリケーションが想定している全ての駅名が入力対象となるため、例えば、日本全国の駅名を対象にした場合、1万件近い駅名が音声認識の対象語彙となる。このように数千語以上の語彙を認識対象とした場合の孤立単語の音声認識性能は、現在の音声認識技術では十分とは言えない。
ところで、このようなアプリケーションを個々の利用者が用いる際には、たとえ認識対象語が全国であったとしても、利用者が頻繁に入力する駅名は、自宅や勤務先の周辺など地域が比較的限られていることが多いと考えられる。例えば、普段、横浜や東京周辺の駅名を頻繁に入力する利用者の発声が、「たにまち」もしくは「たんまち」と同じ確からしさで音声認識された場合、大阪の「谷町(たにまち)」よりも横浜の「反町(たんまち)」の方が確からしいと考えられる。すなわち、利用者の過去の入力履歴から得られる情報を現在の音声認識に利用することによって、音声認識の性能が改善できると考えられる。
これに対し、特開平11−231889号公報(特許文献1)には、地名、ランドマークなどの認識において、音声認識を用いている現在位置からの距離やランドマークの知名度などに応じて、音声認識器が出力する類似度を修正する方法が開示されている。
また、特許第2907728号公報(特許文献2)には、自動車が過去に走行した領域や目的地の領域の頻度を求め、この頻度を考慮して認識結果を求める方法が開示されている。
特開平11−231889号公報 特許第2907728号公報
上記した特開平11−231889号公報(特許文献1)には、認識履歴を直接利用する方法も開示されているが、認識履歴の周辺の類似度を修正することについては何ら触れられていない。よって、過去に入力された地名の周辺の地名や、過去に全く入力されていない地域の地名の類似度に関しては修正を行うことができない。
また、上記した特許第2907728号公報(特許文献2)に開示された方法では、目的地を重なりのない領域に分けているため、頻繁に走行する領域の周辺で、頻度が0の領域と全く走行したことがない地域(複数の領域)の領域が同等に扱われてしまうという問題がある。
本発明は上述の問題に鑑みてなされたもので、認識履歴等の情報を用いて音声認識の性能をさらに向上させることを目的とする。
上記目的を達成するために、例えば本発明の音声認識方法は以下のような構成を備える。すなわち、地理的名称を認識対象とし、認識対象の地理的名称毎にその表記、読み、および生起確率を記述した音声認識辞書に基づいて音声認識を行う方法であって、認識対象の地理的名称毎に、過去に入力された頻度を管理する頻度管理ステップと、認識対象の地理的名称とその位置との対応関係を記述したテーブルに基づいて、注目する認識対象の地理的名称の位置を含む所定領域内に位置する認識対象の地理的名称を抽出し、抽出された各地理的名称の前記頻度に基づいて当該注目する認識対象の地理的名称の前記音声認識辞書に記述された生起確率を更新し、この更新を認識対象の地理的名称毎に行う生起確率更新ステップとを有する。
本発明によれば、音声認識の性能をさらに向上させることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
本発明は上記したような技術的背景に基づいてさらに音声認識の性能向上を図るものであるが、本発明の実施形態では例えば、入力音声の認識を行う際に、過去の履歴として入力された語句(例えば地名)の座標情報(位置)とそれが入力された頻度を考慮して、入力履歴の語句や領域内の語句のみならず、認識対象語全てに対してより適切な単語生起確率(孤立単語認識の場合はユニグラム)を生成する手法を説明する。
(第1の実施形態)
本実施形態の音声認識装置は地理的名称を認識対象とするものに関する。例えば、電車の経路案内アプリケーションに関し、出発駅と到着駅を入力する際にこれらの駅名を音声によって入力しそれを音声認識する、というものである。
図1は、本実施形態に係る音声認識装置の構成を示すブロック図である。図示のようにこの音声認識装置はCPU101、ROM102、RAM103等を備えており、かかる構成は典型的にはパーソナルコンピュータ等のコンピュータ装置で実現できるものである。もっとも、このような汎用コンピュータではなく、専用のハードウェアロジックにより構成してもよいことは言うまでもない。
101はCPUで、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた各種プログラムに従って、本装置全体の制御を司る。ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は主記憶装置として機能するもので、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行されるプログラムを記憶する。
104はハードディスクドライブ等の外部記憶装置で、図示のように、ここにOS110をはじめ、後述する音声認識プログラム111、音響モデル112、音声認識辞書113、位置・頻度テーブル114を記憶している。105はマイクロフォンなどの音声入力装置であり、取り込まれた音声に対して音声認識が実行されることになる。106はCRT、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。107はボタン、テンキー、キーボード、マウス、ペンなどの補助入出力装置である。108は上記各部を接続するバスである。なお、音声認識の対象となる音声は、音声入力装置105によって入力してもよいし、別の装置によって獲得した音声データをネットワーク(図示せず)を介してRAM103や外部記憶装置104に記憶し、これを音声認識の対象としてもよい。
図2は、外部記憶装置104にインストールされている音声認識プログラム111のモジュール構成を示すブロック図である。
201は音声入力装置105などで入力された音声を認識する音声認識部であり、具体的には入力音声の分析、参照パターンとの距離計算、探索処理、認識結果出力などを行う。音声認識辞書113は、 音声認識の対象となる単語に関する単語ID、表記、読み、単語の重みに関する情報を保持する。音響モデル112は、音素、音節、単語などのモデルを保持するもので、例えば隠れマルコフモデル(Hidden Markov Model:HMM)によって構成される。そして、音声認識辞書113における単語や読みの情報に従って認識対象単語の参照パターンが音響モデル112を用いて構成される。202は頻度更新部であり、音声認識部201による音声認識結果を用いて認識対象単語の頻度情報を更新する。位置・頻度テーブル114は、認識対象単語の位置および頻度に関する情報を保持する。203は重み更新部で、位置・頻度テーブル114から認識対象単語の重みを計算し、音声認識辞書113における重みに関する情報を変更する。
図3は、本実施形態における音声認識プログラム111による処理概要を示すフローチャートである。
まず、ステップS301では、音声入力装置105などから入力された音声を認識する。具体的には、入力音声の特徴量分析、参照パターンとの距離計算、探索処理、認識結果出力などを行う。この音声認識の処理は例えばHMMで構成された音響モデル112に基づいて行われる。ここで、孤立単語音声認識を行う場合には、各単語の生起確率(重み)は全て同じであるとすることが一般的であるが、本実施形態では各単語に言語確率Pを適用して、すなわち各単語に異なる生起確率を適用して音声認識を行う。すなわち、入力音声に対する単語kの音響尤度(入力音声の特徴量ベクトルxと参照パターンとの距離計算として求まるスコア)をL(x|k)とすると、入力音声に対する単語kに対する尤度L(k|x)は、L(k|x)=L(x|k)+αL(k)として求める。ここで、L(k)は、単語kに対する言語確率P(k)からL(k)=logP(k)として計算される言語尤度であり、αは音響尤度と言語尤度のバランスをとるための係数である。
音声認識辞書113の構造例を図4に示す。この例では、各単語に対して、単語ID、表記、音素列表現による読み、単語の生起確率(以下、単に「重み」ともいう。)として言語尤度に関する情報が保持されている。
音響モデル112は前述のとおり、音素、音節、単語などのモデルを保持している。この音響モデルが音素HMMとして保持されているとすると、音声認識辞書113の音素列表現された読みの情報に従って音素HMMを連結することによって各単語の参照パターンが作成される。この参照パターンに対する入力音声の音響尤度および言語尤度を認識対象語全てに対して計算し、次式のように尤度が最大となる単語k^を1位の認識結果とする。
Figure 2005173390
ただし、argmaxはL(k|x)が最大となるkを求める処理であり、Kは認識対象単語の集合を表す。
次に、ステップS302で、頻度更新部202による頻度更新処理を行うかどうかの判断を行う。判断基準としては、例えば、ステップS301で得られた1位の認識結果が利用者によって確定された場合には頻度更新処理を行うと判断してステップS303に進み、確定されなかった場合には頻度更新しないと判断してステップS303をスキップしてステップS304に進む。
ステップS303では、位置・頻度テーブル114に保持されている頻度情報を更新する。図5に、位置・頻度テーブル114の構造例を示す。この例では、認識対象単語である地理的名称に対して、単語ID、経度、緯度等の位置(地理的位置情報)、その単語が過去に認識出力された回数を表す頻度情報が保持されている。ここで、経度及び緯度は各単語の位置に関する情報として予め求めておく。例えば、横浜駅は北緯35度27分58秒、東経139度37分21秒、渋谷駅は北緯35度39分32秒、東経139度42分4秒などとなる。また、頻度の初期値は全ての単語で1とする。いま、単語ID=1の「横浜」が確定されたとすると、ステップS303の処理として、位置・頻度テーブル114内のN1の値を1つインクリメントする。
このように、この位置・頻度テーブル114によって、認識対象の地理的名称とその位置との対応関係が定義されると共に、各単語が過去に認識出力された頻度が管理される。もっとも、このテーブルは、位置と頻度について別々のテーブルを持つようにしても構わない。
次に、ステップS304で、重みを更新するかどうかの判断を行う。判断基準としては、例えば、ステップS301で得られた1位の認識結果が利用者によって確定されたことによりステップS303が実行され、それにより位置・頻度テーブル114における頻度が更新された場合にはステップS305に進み、位置・頻度テーブル114における頻度が更新されなかった場合にはステップS305は実行せずに処理を終了する。
ステップS305では、位置・頻度テーブル114の情報を用いて各単語の重みを計算して、音声認識辞書113の言語尤度を更新する。これにより、次回の音声認識時にはこの言語尤度が用いられることになる。以下に言語尤度を計算する際の手順を詳細に説明する。
図6は、図5に示したような構造の位置・頻度テーブル114に対して、単語ごとに重みを計算する際の計算方法を説明する概念図である。
図6において、横軸は経度、縦軸は緯度であり、図5の経度、緯度から各単語IDの座標が一意に決まる。また、白丸は図5の頻度が少ないもの(例えば3回以下)、黒丸は頻度が多いもの(例えば4回以上)を示している。
ここで、単語i(経度Xi,緯度Yi)とj(経度Xj,緯度Yj)の2つの単語の重みを計算する方法を図7〜9を用いて説明する。
まず、注目する認識対象の地理的名称である単語iについて、その単語iの位置を含む所定領域内を位置とする認識対象の地理的名称を抽出する。その後、抽出された地理的名称の単語群の頻度を利用して重みを更新する。例えば、単語i(経度Xi,緯度Yi)に対する重みWiを更新する場合、まず、経度方向に2RX(Xi±Rx)、緯度方向に2RY(Yi±RY)の矩形領域に含まれる単語群ui={u1、u2, ... , uMi}(Miはこの矩形領域に含まれる単語数)を抽出し、抽出した各単語の頻度と単語iの頻度とを用いて、以下のいずれかの式により主にWiを更新する。
Figure 2005173390
ただし、Nutは、単語utの頻度、Niは、単語iの頻度、βは重みで、その範囲は0<β<1である。
図7に単語iに対する矩形領域およびその矩形領域に含まれる単語群uiの例を示す。この図ではMi=5である。いま、Nutが図8に示されるような頻度であったとする(すなわち、Nu1=6,Nu2=8,Nu3=5,Nu4=3,Nu5=1,Ni=1とする)と、単語iの重みWiは、β=0.5とすると、上式から、Wi=3.0と求められる。同様に、単語jに対する矩形領域およびその矩形領域に含まれる単語群ujが図9に示されるような場合、Mj=5であり、単語jの重みWjは、k=0.5のとき、Wj=0.6と求められる。
図8および図9の例から分かるように、単語iおよび単語jは共に頻度は1であるが、矩形領域に含まれる単語群の頻度は単語iの方が単語jよりも多いため、単語iの重みWiの方が単語jの重みWjよりも大きな値として求められる。以上の計算を全ての単語に対して行い全単語の重みを決定する。更に、全単語の重みの平均が1になるように、以下のように、全単語の重みを用いて正規化した重みW ̄k(k=1, ... , Lw)を
Figure 2005173390
として求め、これを言語確率P(k)=W ̄kとし、これから言語尤度をL(k)=logP(k)として求める。また式(3)において、Lwは認識対象単語の総単語数である。
以上の説明から明らかなように、本実施形態によれば、過去に入力された各認識対象語の頻度情報と各認識対象語に関する位置情報を用いて各認識対象単語の重みを計算することができるようになる。この結果、この重みを利用した音声認識を行うことによって、利用者が頻繁に入力する地域の名称がほとんど入力しない地域の名称よりも認識されやすくなり、利用者の入力する地域に偏りがある場合には高性能な認識性能を提供することが可能となる。
なお、上述の実施形態では、周辺の単語群を決定する際に、矩形領域を用いた例について説明したが、本発明はこれに限らず、他にも円など他の形状の領域を用いてもよい。
また、上述の実施形態では、各単語について同じ大きさの領域(経度方向に2RX、緯度方向に2RY)を適用した例について説明したが、本発明はこれに限らず、単語ごとに異なる大きさの領域を用いてもよい。
また、上述した実施形態では、式(1)のように領域内の単語群の頻度は全て均等に扱って当該単語の重みを計算した例について説明したが、本発明はこれに限らず、次式のように当該単語からの距離に応じた重み を用いて以下のように計算してもよい。
Figure 2005173390
ただし、D(i,ui)は、単語iの位置と単語uiの位置との距離d(i,ui)に応じて、予め決められた関数F(d)にしたがって決定される。F(d)はいかなる関数を用いてもよいが、dが小さい場合にはDは大きく、dが大きい場合にはDは小さくなるような関数が好ましい。図10にこの関数の一例を示す。
また、上述の実施形態では、当該単語と周辺単語群の頻度の重みをそれぞれβ、(1−β)として計算していたが、本発明はこれに限らず、別の重みを用いてもよい。
また、上述の実施形態では、1位の認識結果を用いて頻度を更新していたが、音声認識装置が複数の認識結果を出力し得る場合には、これら複数の認識結果を用いて頻度を更新してもよい。
また、上述の実施形態では、位置情報として経度と緯度を用いていたが、本発明はこれに限らず、位置情報が特定できるものであれば別の座標系を用いてもよい。
また、上述の実施形態では、音声認識の履歴から頻度情報を更新していたが、本発明はこれに限らず、キーボード、マウス、ペンなどで構成される補助入出力装置107によって入力された履歴を用いて頻度や重み情報を更新してもよい。このような処理を実現する音声認識プログラムのモジュール構成を図11に示す。図11において、401が補助入出力装置107を用いて入力を行う補助入力部である。その他のモジュールは図2と同様であるが、頻度更新部202に入力されるのは音声認識部201の出力ではなく補助入力部401の出力である。本発明は、さらに音声認識の履歴と補助入力の履歴を併用して頻度や重み情報を更新してもよい。
また、上述した実施形態では、言語尤度および頻度情報は、図4および図5に示したように、1つの単語IDに対してそれぞれ一つであったが、本発明はこれに限らず、1つの単語IDに対して複数の言語尤度および頻度情報を保持してもよい。図12および図13にそれぞれ、2種類の言語尤度および頻度情報を保持する場合の音声認識辞書113および位置・頻度テーブル114の例を示す。これにより、例えば、出発駅と到着駅の駅名を入力するアプリケーションにおいて、出発駅と到着駅のいずれの入力を行っているかという情報が得られる場合には、出発駅と到着駅のそれぞれに対して言語尤度と頻度情報を別々に保持することによって、出発駅を入力する際に頻繁に発声される地域と、到着駅を入力する際に頻繁に発声される地域を考慮することが可能となる。
(第2の実施形態)
上述した第1の実施形態では、頻度情報のみを用いて重みを決定していたが、一般に知名度の高い単語は、知名度の低い単語よりも高い確率で発声されると考えられる。そこで本実施形態では、重みを更新する際に、各認識対象語の知名度を事前生起確率として、この確率と頻度情報から各認識対象単語の重みを決定する方法について説明する。
本実施形態の場合にも第1の実施形態で説明した式(3)までの処理は同じであるためその説明は省略する。いま、単語kの事前生起確率をP0(k)とすると、これと上記した式(3)によって得られる正規化重みW ̄kとから、言語確率はP(k)=(1−γ)W ̄k−γP0(k)として求めることができる。ここで、重みγの範囲は0<γ<1である。なお、事前生起確率は、多数の利用者の入力頻度、人口などの情報に基づいて予め各単語ごとに決定しておく。
以上の説明から明らかなように、本実施形態によれば、過去に入力された各認識対象語の頻度情報と各認識対象語に関する位置情報を用いて計算された各認識対象単語の重みに、各認識対象単語の事前生起確率が考慮される。こにより、利用者がほとんど入力しない地域の名称であっても知名度の高いものについては認識されにくくならないようにすることができる。
(第3の実施形態)
第1の実施形態では、各認識対象語に関する位置情報を用いて重みを更新していた。すなわち、重み更新のための周辺の単語群を当該単語ごとに決定する必要があり、更に当該単語と周辺の単語群との距離に応じた重みを適用する場合には、単語間の距離を計算する必要があった。本実施形態では、単語間の距離を予め計算しておくことによって、重み更新時に周辺の単語群もしくは単語間の距離を求める処理を行わなくて済む方法を説明する。
各認識対象単語の位置情報が分かれば、前述の矩形領域、円領域など任意の領域において当該単語に対する周辺単語の単語セットを周辺単語群テーブルとして予め求めることが可能である。図14は、周辺単語群テーブルの例を示しており、この例では、各単語IDに対して、周辺領域に存在する単語数およびその単語IDが保持されている。このテーブルの情報を図5の経度および緯度情報の代わりに保持したものを位置・頻度テーブル114とすれば、式(1)の計算で必要な領域内の単語群の決定処理は、単純なテーブル参照によって行うことが可能となる。
図15は、図14の周辺単語群テーブルにおいて、当該単語と周辺単語の距離情報も合わせて保持した場合の周辺単語群テーブルの例である。このテーブルの情報を図5の経度および緯度情報の代わりに保持したものを位置、頻度テーブル114とすれば、周辺領域が円領域の場合には、式(4)の計算で必要な領域内の単語群の決定および単語間距離の計算処理は、単純なテーブル参照によって行うことが可能となる。
上記の図14もしくは図15のテーブルを用いた処理は、周辺単語を求める領域が予め決まっている場合にのみ適用可能である。すなわち、矩形領域における2RXおよび2RY、円領域における半径が頻度や重みの更新によらず一定の場合である。これらの領域が変化する場合には、領域の変化に応じて領域内に含まれる周辺単語群が変化する。このような場合には、図16に示されるような全単語間の距離テーブルを用いればよい。なお、周辺領域が矩形領域で、かつ式(4)を用いて重みを計算する場合には、単語間の距離のみでは領域内に含まれるか否かを決定することができないため、図16の情報に加えて、経度、緯度情報を保持しておく必要がある。
ところで、図16のように全単語間の距離をテーブルとして保持する場合には、テーブルのサイズが膨大になるという問題が生じ得る。これを解決する方法として、図17に示すように、単語をノードとみなし、近傍の単語間をリンクでつなぎ、このリンクに単語間の距離を保持するようなグラフ表現を用いることが考えられる。図17(a)はグラフ表現の概念図であり、同図(b)は内部データ表現の例である。(b)において、Wはノードの情報を表し、単語IDが割り当てられている。また、Lはリンクのインデックスであり、SとEはリンクがつながっているノード番号を表している。この例では、ノード番号が小さい方をSに、大きい方をEに割り当てている。また、dはリンクの長さ、すなわち単語間距離である。このグラフデータを用いれば、近傍でない単語間の距離、例えば、単語1と単語3の距離は、リンクの総距離、すなわち、L=3とL=4の距離の総和として、d=25.0+20.0=45.0と近似的に求めることができる。このように、近似的な距離を用いることによって、図16のような構造のテーブルに比べてデータサイズを大幅に低減し、かつ全ての単語間距離を考慮することが可能となる。なお、単語間距離を求める際に、複数のパスが存在する場合には、最も距離の小さいパスから得られる総距離を単語間距離とする。
(第4の実施形態)
これまで説明した実施形態では、距離は、経度、緯度など空間的な2点間の直線距離として説明を行っていたが、本発明はこれに限らず、任意の物理量を距離として定義することが可能である。例えば、駅間の線路の長さ、都市間の幹線道路の距離、2点間を移動する際に要する時間などを距離として定義してもよい。
(その他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態における音声認識装置の構成を示すブロック図である。 本発明の実施形態における音声認識プログラムのモジュール構成を示すブロック図である。 本発明の実施形態における音声認識処理を示すフローチャートである。 音声認識辞書の構造例を示す図である。 位置・頻度テーブルの構造例を示す図である。 単語ごとに重みを計算する際の計算方法を説明する概念図である 単語iに対する矩形領域およびその矩形領域に含まれる単語群uiの例を示す図である。 単語iに対する矩形領域内の単語群uiの頻度の例を示す図である。 単語jに対する矩形領域内の単語群ujの頻度の例を示す図である。 単語間距離dに対する重みDを決定する関数の例を示す図である。 キーボード、マウス、ペンなど他の入力手段を用いて頻度と重み情報を更新する場合の音声認識プログラムのモジュール構成を示すブロック図である。 2種類の言語尤度を保持する音声認識辞書の構造例を示す図である。 2種類の頻度情報を保持する位置・頻度テーブルの構造例を示す図である。 周辺単語群テーブルの例を示す図である。 距離情報付きの周辺単語群テーブルの例を示す図である。 単語間の距離テーブルの例を示す図である。 単語間の距離をグラフ表現した例を示す図である。

Claims (6)

  1. 地理的名称を認識対象とし、認識対象の地理的名称毎にその表記、読み、および生起確率を記述した音声認識辞書に基づいて音声認識を行う方法であって、
    認識対象の地理的名称毎に、過去に入力された頻度を管理する頻度管理ステップと、
    認識対象の地理的名称とその位置との対応関係を記述したテーブルに基づいて、注目する認識対象の地理的名称の位置を含む所定領域内に位置する認識対象の地理的名称を抽出し、抽出された各地理的名称の前記頻度に基づいて当該注目する認識対象の地理的名称の前記音声認識辞書に記述された生起確率を更新し、この更新を認識対象の地理的名称毎に行う生起確率更新ステップと、
    を有することを特徴とする音声認識方法。
  2. 前記生起確率更新ステップは、前記所定領域内に位置する認識対象の地理的名称の位置毎に、当該注目する認識対象の地理的名称の位置からの距離を更に考慮して前記生起確率を更新することを特徴とする請求項1に記載の音声認識方法。
  3. 前記生起確率更新ステップは、認識対象の地理的名称の各々に設定された事前生起確率を更に考慮して前記生起確率を更新することを特徴とする請求項1または2に記載の音声認識方法。
  4. コンピュータが実行可能なプログラムであって、地理的名称を認識対象とし、認識対象の地理的名称毎にその表記、読み、および生起確率を記述した音声認識辞書を用いた音声認識を行うために、
    認識対象の地理的名称毎に、過去に入力された頻度を管理する頻度管理ステップと、のコードと、
    認識対象の地理的名称とその位置との対応関係を記述したテーブルに基づいて、注目する認識対象の地理的名称の位置を含む所定領域内に位置する認識対象の地理的名称を抽出し、抽出された各地理的名称の前記頻度に基づいて当該注目する認識対象の地理的名称の前記音声認識辞書に記述された生起確率を更新し、この更新を認識対象の地理的名称毎に行う生起確率更新ステップのコードと、
    を含むことを特徴とするプログラム。
  5. 請求項4に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
  6. 地理的名称を認識対象とし、認識対象の地理的名称毎にその表記、読み、および生起確率を記述した音声認識辞書に基づいて音声認識を行う音声認識装置であって、
    認識対象の地理的名称とその位置との対応関係を記述したテーブルを記憶する記憶手段と、
    認識対象の地理的名称毎に、過去に入力された頻度を管理する頻度管理手段と、
    前記テーブルに基づいて、注目する認識対象の地理的名称の位置を含む所定領域内に位置する認識対象の地理的名称を抽出し、抽出された各地理的名称の前記頻度に基づいて当該注目する認識対象の地理的名称の前記音声認識辞書に記述された生起確率を更新し、この更新を認識対象の地理的名称毎に行う生起確率更新手段と、
    を有することを特徴とする音声認識装置。
JP2003415425A 2003-12-12 2003-12-12 音声認識装置および方法 Expired - Fee Related JP4040573B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003415425A JP4040573B2 (ja) 2003-12-12 2003-12-12 音声認識装置および方法
US11/006,628 US7624011B2 (en) 2003-12-12 2004-12-08 Speech recognition method computer readable medium and apparatus for recognizing geographical names using weight information
EP04257699A EP1542207B1 (en) 2003-12-12 2004-12-10 Speech recognition method and apparatus
DE602004023364T DE602004023364D1 (de) 2003-12-12 2004-12-10 Vorrichtung und Verfahren zur Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003415425A JP4040573B2 (ja) 2003-12-12 2003-12-12 音声認識装置および方法

Publications (3)

Publication Number Publication Date
JP2005173390A true JP2005173390A (ja) 2005-06-30
JP2005173390A5 JP2005173390A5 (ja) 2005-09-22
JP4040573B2 JP4040573B2 (ja) 2008-01-30

Family

ID=34510574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003415425A Expired - Fee Related JP4040573B2 (ja) 2003-12-12 2003-12-12 音声認識装置および方法

Country Status (4)

Country Link
US (1) US7624011B2 (ja)
EP (1) EP1542207B1 (ja)
JP (1) JP4040573B2 (ja)
DE (1) DE602004023364D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097003A (ja) * 2006-10-12 2008-04-24 Qnx Software Systems (Wavemakers) Inc 自動音声認識システムに対する適応コンテキスト
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2017058534A (ja) * 2015-09-17 2017-03-23 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、およびプログラム
JP2019086599A (ja) * 2017-11-03 2019-06-06 アルパイン株式会社 音声認識装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
JPWO2005064592A1 (ja) * 2003-12-26 2007-12-20 株式会社ケンウッド 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN101377924A (zh) * 2007-08-31 2009-03-04 鹏智科技(深圳)有限公司 可会话的类生物装置及其会话方法
US8401780B2 (en) * 2008-01-17 2013-03-19 Navteq B.V. Method of prioritizing similar names of locations for use by a navigation system
DE102008028090A1 (de) * 2008-02-29 2009-09-10 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
JP5199391B2 (ja) * 2008-11-25 2013-05-15 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9097548B2 (en) * 2013-01-07 2015-08-04 Televav, Inc. Content delivery system with natural language mechanism and method of operation thereof
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
US10089765B2 (en) * 2014-10-20 2018-10-02 Bernardo Jose Martinez-Avalos Methods and computer programs to create images and information based in texts
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN105975099B (zh) * 2016-04-28 2020-02-04 百度在线网络技术(北京)有限公司 输入法的实现方法和装置
US20180196798A1 (en) * 2017-01-06 2018-07-12 Wipro Limited Systems and methods for creating concept maps using concept gravity matrix
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN114491279A (zh) * 2022-02-22 2022-05-13 车主邦(北京)科技有限公司 油站的选址方法、装置及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JP2907728B2 (ja) 1994-08-10 1999-06-21 富士通テン株式会社 音声処理装置
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US5995894A (en) * 1997-05-27 1999-11-30 Case Corporation System for analyzing spatially-variable harvest data by pass
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
US6483896B1 (en) * 1998-02-05 2002-11-19 At&T Corp. Speech recognition using telephone call parameters
JP3500948B2 (ja) 1998-02-18 2004-02-23 株式会社デンソー 音声認識装置
JP3990075B2 (ja) 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
JP2001328451A (ja) * 2000-05-18 2001-11-27 Denso Corp 進行路推定装置、先行車認識装置、及び記録媒体
US6907436B2 (en) * 2000-10-27 2005-06-14 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University Method for classifying data using clustering and classification algorithm supervised
US20020072917A1 (en) * 2000-12-11 2002-06-13 Irvin David Rand Method and apparatus for speech recognition incorporating location information
US20020111810A1 (en) 2001-02-15 2002-08-15 Khan M. Salahuddin Spatially built word list for automatic speech recognition program and method for formation thereof
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US20040193603A1 (en) * 2003-03-28 2004-09-30 Ljubicich Philip A. Technique for effectively searching for information in response to requests in information assistance service

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097003A (ja) * 2006-10-12 2008-04-24 Qnx Software Systems (Wavemakers) Inc 自動音声認識システムに対する適応コンテキスト
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2017058534A (ja) * 2015-09-17 2017-03-23 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、およびプログラム
JP2019086599A (ja) * 2017-11-03 2019-06-06 アルパイン株式会社 音声認識装置

Also Published As

Publication number Publication date
DE602004023364D1 (de) 2009-11-12
US20050131699A1 (en) 2005-06-16
US7624011B2 (en) 2009-11-24
JP4040573B2 (ja) 2008-01-30
EP1542207A1 (en) 2005-06-15
EP1542207B1 (en) 2009-09-30

Similar Documents

Publication Publication Date Title
JP4040573B2 (ja) 音声認識装置および方法
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US6718304B1 (en) Speech recognition support method and apparatus
US8521539B1 (en) Method for chinese point-of-interest search
US9594744B2 (en) Speech transcription including written text
JP2004325979A (ja) 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
KR20070113665A (ko) 네비게이션 단말의 목적지 설정 방법 및 장치
JPH10253381A (ja) 音声合成装置
JP2015230384A (ja) 意図推定装置、及び、モデルの学習方法
JP4064748B2 (ja) 音声発生装置、音声発生方法及びナビゲーション装置
US7809563B2 (en) Speech recognition based on initial sound extraction for navigation and name search
JP2007505365A (ja) 音声制御ナビゲーションシステムの操作方法
JP5326549B2 (ja) 音声認識装置及び方法
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
US10670415B2 (en) Method and apparatus for providing mobility-based language model adaptation for navigational speech interfaces
JP2009244639A (ja) 発話装置、発話制御プログラムおよび発話制御方法
JP2007187687A (ja) 音声変換処理装置
JP2001092493A (ja) 音声認識修正方式
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2017181631A (ja) 情報制御装置
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2020148583A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2009175233A (ja) 音声認識装置、ナビゲーション装置、及び目的地設定プログラム
JP2019109657A (ja) ナビゲーション装置およびナビゲーション方法、ならびにプログラム
JP2001242887A (ja) 音声認識装置および音声認識ナビゲーション装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050610

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees