JP4275357B2 - 音声認識装置、辞書管理方法およびプログラム - Google Patents
音声認識装置、辞書管理方法およびプログラム Download PDFInfo
- Publication number
- JP4275357B2 JP4275357B2 JP2002170457A JP2002170457A JP4275357B2 JP 4275357 B2 JP4275357 B2 JP 4275357B2 JP 2002170457 A JP2002170457 A JP 2002170457A JP 2002170457 A JP2002170457 A JP 2002170457A JP 4275357 B2 JP4275357 B2 JP 4275357B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- information
- phrase
- partial
- syntax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音声入力から一連の語句を認識する音声認識装置、辞書管理方法およびプログラムに関するものである。
【0002】
【従来の技術】
カーナビゲーションシステム等では、音声入力から住所を表す語句を認識する音声認識装置が使用されており、例えば、特開平10−254479号公報にはそのような音声認識装置が開示されている。ここでは、この公報に記載された音声認識装置に類似した、音声入力から住所を表す単語列を認識する音声認識装置の説明を行う。
【0003】
図16は従来の音声認識装置の構成を示すブロック図である。図において、1は入力された音声信号の音響分析を行い、特徴ベクトルの時系列に変換する音響分析部であり、2は認識対象の音声の標準モデルを記憶する標準モデル記憶部、9は住所を表現する辞書を記憶する辞書記憶部、4は照合処理に使用する照合データを記憶する作業領域である照合データ記憶部、5はモデル照合部である。モデル照合部5は、音響分析部1から出力された特徴ベクトルに対し、標準モデルと辞書を照合することによって発音された単語列の候補を推定し、推定された単語列の候補のうち最も可能性が高いものを選択することによって、発音された文節を最終的に特定し、そのように特定された単語列を認識結果として出力する。
【0004】
辞書記憶部9に保持される辞書の構成について説明する。
ここで説明する辞書は、図17に示す住所を認識対象として保持するものとする。図18は図17に示す住所を認識対象として保持する辞書の構造を示す図である。図において、角の丸い四角で表されているのは部分辞書であり、各部分辞書内の四角で囲まれた地名は、認識対象のノードを表している。各部分辞書の左側の三角は各部分辞書内のノードへのエントリーポイントを表し、各エントリーポイントおよび各ノードから出る矢印は、エントリーポイントを介したノードからノードへの接続関係を表している。例えば部分辞書net5のノード「江ノ島」は部分辞書net9のノード「1丁目」に接続され、部分辞書net5のノード「辻堂」は部分辞書net9のノード「1丁目」とノード「2丁目」に接続されていることを示す。辞書のこれらの部分辞書は、このような接続関係を表す情報を有したまま、モデル照合部5に取り込まれ照合演算に用いられる。以下、部分辞書net2、net5、net9を例にとり、辞書の構造をさらに詳しく説明する。
【0005】
図19は、図18中の部分辞書net2の構造を示す図である。net2はひとつのエントリーポイント(entry0)を有し、内部に「神奈川県」(node1)と「香川県」(node2)の2つのノードを有する。node1「神奈川県」は部分辞書net3のエントリーポイントentry0に接続され、node2「香川県」は部分辞書net4のエントリーポイントentry0に接続される。
【0006】
図20は、図18中の部分辞書net9の構造を示す図である。net9は2つのエントリーポイントを有し、図においてentry1は「1丁目」に、entry2は「1丁目」および「2丁目」に接続される。
【0007】
さらに、各部分辞書は単語情報と構文情報から構成される。部分辞書net5を例に説明する。図21は図18中の部分辞書net5の構造を示す図である。図から明らかなように、部分辞書net5はひとつのエントリーポイント(entry0)を有し、内部に「江ノ島」(node1)と「辻堂」(node2)の2つのノードを有する。node1「江ノ島」は部分辞書net9のエントリーポイントentry1に接続され、node2「辻堂」は部分辞書net9のエントリーポイントentry2に接続される。図22は部分辞書net5の単語情報の内容を示す図であり、図23は部分辞書net5の構文情報の内容を示す図である。単語情報はそれぞれのノードに属する単語の読みの情報を示すものである。構文情報はノードの接続関係あるいは言語情報を示すものであるが、ここでは接続関係を示すものとして説明する。図23においてそれぞれのノードの接続元(source)、接続先(destination)が記述されている。
【0008】
次に、照合データ記憶部4への、部分辞書の読込み動作について図24、図25を用いて説明する。音声認識処理が開始されるとまず、最初のノードである無音を表す部分辞書net1が辞書記憶部9より読み出され、照合データ記憶部4の作業領域に保持される。この時点での照合データ記憶部4の作業領域の内容を図24に示す。音声認識処理が進められ、次のノードの照合処理が必要になると、図25に示すように部分辞書net1に続く部分辞書net2が辞書記憶部9より読み込まれ、照合データ記憶部4の作業領域に保持される。この時点での照合データ記憶部4の作業領域の内容を図25に示す。このように音声認識処理が進むにつれ、辞書記憶部9より必要な部分辞書が次々に読み込まれ、照合データ記憶部4の作業領域に保持されてゆく。
【0009】
次に、標準モデル記憶部2の記憶内容について説明する。
図26は標準モデル記憶部2の記憶内容を示す図である。ここでは音声認識方式としてHMM(Hidden Markov Model)が用いられており、それぞれのノードに対応するHMMのパラメータが記憶されている。ここでいうHMMのパラメータとは、状態数、状態間の遷移確率などHMMの照合演算に必要なパラメータを意味する。例えば、net2のnode1「神奈川県」に対してモデル照合する場合には、標準モデル記憶部のノード番号net2:node1のHMMパラメータを使用することを意味する。
【0010】
次に、モデル照合の動作について説明する。図16の音響分析部1に音声信号が入力されると一定時間間隔で音響分析が行われ、特徴ベクトルに変換され出力される。音声信号が入力されている間、音響分析部1からモデル照合部5へは繰り返し特徴ベクトルが送られる。
【0011】
図27はモデル照合部の動作のフローチャートである。モデル照合部5では図に示される処理が特徴ベクトルが入力されるたびに繰り返し行われる。まずステップST11で、ノード内の状態に対する照合演算を行うノード内演算処理が行われ、次にステップST12で、ビームサーチの評価値を決定する評価値決定処理が行われ、ステップST13で、ビームサーチ処理を行うビームサーチ演算処理が行われ、ステップST14で、ノード間の演算を行うノード間演算処理が行われる。これらの各処理については後述する。
【0012】
図28はノード(n)に対する照合データ記憶部4に保持されるデータの詳細な内容を示す図である。図24と図25では照合データ記憶部4に保持された各ノードを示していたが、図28はノードを表すHMMのパラメータを示したものである。ノード(n)の基本部は3つの状態から構成されており、それぞれのスコアをSn(1)、Sn(2)、Sn(3)とする。スコアは入力された音声信号とモデルの類似度を表す尺度であり、値が高いほど類似度が高いことを意味する。ノード(n)の左端の状態はノード間演算(他のノードとの整合性のよいノードを選択するための演算)のために用いられる疑似状態であり、スコアをSn(0)とする。an(i,j)は状態iからjへの遷移確率に基づくペナルティー、bn(i)は状態iの出力確率に基づくペナルティーを表す。ペナルティーは遷移確率が小さいほど大きな値となる。これらの遷移確率に基づくペナルティー、出力確率に基づくペナルティーはHMMを用いる音声認識では標準的に用いられるパラメータであり、ここでは詳細な説明は省略する。これらのパラメータはあらかじめ図26に示すように標準モデル記憶部2に記憶されており、特徴ベクトルに基づいて辞書記憶部9からノード(n)を含む部分辞書が読み込まれると、標準モデル記憶部2から読み出され、照合データ記憶部4の中に図28に示すように作業領域が作られる。
【0013】
ステップST11のノード内演算処理では、特徴ベクトルが入力されるたびに出力確率、遷移確率を用いて式(1)に示すモデル照合演算が行われ、Sn(i)の更新が行われる。ここでInはノードnの状態数を表す。
Sn(i)=max((Sn(i)-an(i,i)),(Sn(i-1)-an(i-1,i))-bn(i)
i=1,In (1)
【0014】
次に、ステップST12の評価値決定処理では、式(2)により、ビームサーチのための評価値Enode(n)と、ノード間遷移を行うための評価値Eaec(n)と、ビームサーチの基準値Ebestnodeを求める。Ebestnodeはノードの中で最も良いビームサーチの評価値で代表するものとする。
Enode(n)=max(Sn(i))1<i<In
Earc(n)=Sn(In)
Ebestnode=max(Enode(n))1<n<N (2)
【0015】
次に、ステップST13のビームサーチ演算処理では、式(3)の条件を満たさない場合、そのノードの照合演算を非活性化することにより、演算量を下げる。非活性化されたノードに対するノード内演算処理は行われない。式(3)でTnodeはビームサーチのための閾値であり、予め定められた規定値を用いる。
Enode(n)>Ebestnode-Tnode (3)
【0016】
次に、ステップST14のノード間演算処理では、式(4)の条件が満たされ、照合データ記憶部4に作業領域が無い場合、辞書記憶部9より新たなノードを含む部分辞書が読み込まれ、新たなノードの作業領域を確保し、新たに読み込んだノードを活性化してノード間照合演算を行う。
Earc(n)>Ebestnode-Tarc (4)
【0017】
続くノードをn+1とした場合にノードn+1の作業領域が取られた様子を図29に示す。読み込まれた直後、ノードn+1の各状態のスコアは最も低い値に初期化される。続いてノードnとノードn+1の間で式(5)で示すノード間の照合処理を行う。ノード間の照合処理は以下の式に従って行われる。
Sn+1(0)=Sn(In) (5)
【0018】
続くノードn+1が照合データ記憶部4に作業領域が取られており非活性化されていた場合には、再度活性化させて式(5)に示すノード間の照合演算を行う。
【0019】
モデル照合部5では特徴ベクトルが入力されるたび繰り返し上記のように照合処理を進め、音声信号のすべての特徴ベクトルに対する処理が終了したら、最終的に最もスコアの高かったノード列を認識結果として出力する。
【0020】
以上のように、従来の音声認識装置における辞書は、連続的に単語を認識するために階層的な複数の部分辞書から構成され、各部分辞書は、そこに表されたノードについての単語情報および構文情報を含んでいる。
【0021】
ところで住所名は、市町村の合併、市町村の新設、番地の整理および新設などの理由のために変更されることがある。住所名が変更された場合には、これに応じて辞書の内容を更新する必要がある。しかし、上記の従来の音声認識装置では辞書記憶部9を入れ替えていた。
【0022】
他方、特開平11−144322号公報においては、DVD上の辞書更新時、追加・更新・削除に必要な情報だけをDVDに書き込むというアイディアが記載されている。しかし、この辞書は、上述した音声認識装置の辞書のように階層的な構造にはなっていないため、単語と単語との接続関係を表す構文情報の概念は開示されていない。
【0023】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、住所検索などに適した階層的な構造の辞書の一部を変更する必要が生じた場合、変更すべき情報のみを更新することが出来ないという課題があった。
【0024】
この発明は上記のような課題を解決するためになされたもので、音声認識装置の階層的な構造の辞書の更新時のデータ転送量を出来るだけ削減した音声認識装置、辞書管理方法およびプログラムを得ることを目的とする。
【0025】
【課題を解決するための手段】
この発明に係る音声認識装置は、音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第1の辞書を保持する第1辞書記憶手段と、第1の辞書を更新する辞書管理手段とを備え、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段は、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するものである。
【0026】
この発明に係る音声認識装置は、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、バージョン情報によって語句情報または構文情報の第1の辞書への更新の必要性を判断するものである。
【0027】
この発明に係る音声認識装置の辞書管理方法は、音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第1の辞書を有しており、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段が、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを備えたものである。
【0028】
この発明に係る音声認識装置の辞書管理方法は、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段はバージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断するものである。
【0029】
この発明に係る音声認識装置の辞書管理方法を実行させるためのプログラムは、音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第1の辞書を有しており、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、コンピュータに、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるものである。
【0030】
この発明に係る音声認識装置の辞書管理方法を実行させるためのプログラムは、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、バージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断するものである。
【0031】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
実施の形態1の音声認識装置では、上述した従来の音声認識装置と同様に音声認識方式としてHMMを用い、認識対象を住所とし、認識する単位であるノードを地名とする。
【0032】
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において1は入力された音声信号の音響分析を行い、特徴ベクトルの時系列に変換する音響分析部であり、2は認識対象の標準モデルを記憶する標準モデル記憶部、3は住所を表現する第1の辞書を記憶する第1辞書記憶部(第1辞書記憶手段)、4は照合処理に使用する照合データを記憶する作業領域である照合データ記憶部、5はモデル照合部、6は第1の辞書に記憶された情報に対応する最新状態の情報を記述した第2の辞書を記憶する第2辞書記憶部、7は第1辞書記憶部3と第2辞書記憶部6の内容を比較して、第1辞書記憶部3の内容を更新する辞書管理部(辞書管理手段)である。
モデル照合部5は、音響分析部1から出力された特徴ベクトルに対し、標準モデルと辞書を照合することによって発音された単語列の候補を推定し、推定された単語列の候補のうち最も可能性が高いものを選択することによって、発音された単語列を最終的に特定し、そのように特定された単語列を認識結果として出力する。
【0033】
第1の辞書は、図15に示すように、階層的な複数の部分辞書から構成されている。図において、角の丸い四角で表されているのは部分辞書であり、各部分辞書内の四角で囲まれた地名はノードを表している。住所全体は地名(単語)に分割されて、各地名は各階層に割り当てられている。各部分辞書は、部分辞書に含まれる複数の単語の読みを表す単語情報を保持する単語情報保持部と各単語と他の単語との構文上の接続関係を表す構文情報を保持する構文情報保持部とに区分されている。但し、図15では、単語情報保持部および構文情報保持部は図示しない。
第2の辞書も同様に、複数の部分辞書を有しており、各部分辞書は語句情報保持部および構文情報保持部に区分されている。第2の辞書は、第1の辞書を更新するための基準となる辞書であって、第1の辞書に記憶された情報に対応する最新状態の情報を記述している。
第1の辞書記憶部3および第2の辞書記憶部6は、例えばディスクのような情報記憶装置である。第2の辞書記憶部6は、好ましくは携帯可能な情報記憶装置であって音声認識装置に着脱可能にセットされる。あるいは、第2の辞書記憶部6は、音声認識装置に接続された外部サーバに置かれていてもよい。
【0034】
次に動作について説明する。
音声認識装置のモデル照合処理は、上述した従来の音声認識装置と同様のため、ここでは説明を省略し、辞書の更新を行う辞書管理部7の処理を主に説明する。ここで、辞書が認識対象とする住所は従来例と同様に図17に示す住所とし、更新前の第1の辞書は図18に示す状態であるものとする。
【0035】
ここで、図2に示すように、新たな住所である「神奈川県藤沢市湘南台1丁目」が音声認識装置の認識対象として追加されべきであると仮定する。図3は新たな住所を加えたと仮定した辞書の構造を示す説明図である。図18に示す元の辞書と異なっているのは部分辞書net5であり、他の部分辞書には変更はない。このため、変更された部分辞書net5のみを更新すれば、辞書を最新の状態に出来る。この計画に沿って更新された部分辞書net5の単語情報保持部内の語句情報を図4に示し、部分辞書net5の構文情報保持部内の構文情報を図5に示す。
【0036】
図4において、更新前の単語情報(図22)と比較すると明らかなように、単語情報として新たなノードである「湘南台」(node3)が追加されている。また、元の構文情報(図23)と比較すると明らかなように、図5においてこの新たなnode3と既存のノードの接続情報が構文情報に追加されている。この結果、新たな認識対象である「神奈川県藤沢市湘南台1丁目」が認識可能となる。
【0037】
次に図7を用いて第1の辞書についての更新処理の手順について説明する。
図6は、実施の形態1における第1辞書記憶部3と第2辞書記憶部6の記憶内容を示す図である。図示のように、各辞書記憶部の辞書は、部分辞書net1,net2,・・・を有しており、各部分辞書は単語情報を保持する単語情報保持部と構文情報を保持する構文情報保持部とに区分されている。図において各辞書記憶部の内容を示す表の右列は、単語情報と構文情報に付与されたバージョン番号(バージョン情報)を表している。バージョン番号が大きいほど、情報が新しいことを意味する。
【0038】
図7は、辞書管理部7による辞書更新処理のフローチャートである。まずステップST1において、辞書管理部7は第1辞書記憶部3と第2辞書記憶部6の単語情報および構文情報を比較する。
【0039】
次にステップST2において、辞書管理部7は、比較の結果、第2の辞書の単語情報または構文情報のバージョン番号が、第1の辞書のそれらよりも大きくなっているものを選択して、第1の辞書の対応する単語情報または構文情報を選択された情報で上書きする。
【0040】
次にステップST3において、辞書管理部7は第1の辞書に含まれているが、第2の辞書に含まれない単語情報および構文情報を第1の辞書より削除する。
【0041】
次にステップST4において、辞書管理部7は第1の辞書に含まれていないが、第2の辞書に含まれる単語情報および構文情報を第1の辞書に追加する。
【0042】
図6の例では、ステップST2において、部分辞書net5の単語情報と部分辞書net5の構文情報が更新の条件にあてはまるため、これらの情報を第2辞書記憶部6から転送し、第1の辞書に上書きする。また図6の例ではステップST3およびステップST4の条件に合うものはないので、第1の辞書から情報を削除することも、第1の辞書に情報を追加することもなく更新処理は終了する。このようにして、住所名の変更に関連する部分辞書の単語情報および構文情報のみの更新が可能である。
【0043】
実施の形態1において、第2辞書記憶部6はインターネットなどの通信手段によりこの音声認識装置に接続された外部サーバに置かれていてもよい。その場合、更新のためのデータ転送量を小さく抑えることは、インターネットからのダウンロードによる更新処理時間を短縮する上で重要な要因である。
【0044】
以上のように、この実施の形態1によれば、各部分辞書を構成する単語情報および構文情報を分割して、それぞれ単語情報保持部と構文情報保持部に保持するようにしたので、辞書更新時には、辞書管理部7は、変更があった部分辞書の語句情報または構文情報のみを更新すればよく、辞書更新時のデータ転送量を出来るだけ削減するという効果が得られる。
【0045】
また、この実施の形態1によれば、第1の辞書および第2の辞書が有する語句情報および構文情報には、バージョン番号を付与したので、辞書管理部7は、語句情報および構文情報のバージョン番号によって、更新の必要性の有無を容易に確認できるという効果が得られる。
【0046】
実施の形態2.
ここでは、音声認識装置の認識できる単語列を図8に示す住所に更新すべき場合について説明する。更新前に認識できる住所は実施の形態1と同様に図17に示すものであったとする。新たな住所としては、「神奈川県藤沢市江ノ島2丁目」が追加されている。図9は新たな住所を加えた辞書の構造を示す図である。
【0047】
図9から明らかなように、実施の形態2では、単語情報には更新する必要性がないが、「江ノ島」の下位には「1丁目」だけでなく「2丁目」もありうるので、部分辞書net5の「江ノ島」のnode1は「1丁目」および「2丁目」に接続するためのnet9のentry2に接続すべきである。従って、構文情報のみ「江ノ島」のnode1の接続先をnet9のentry1からnet9のentry2に変更すべきである。このため、図10に示すように部分辞書net5の構文情報を更新すべきである。
【0048】
次に動作について説明する。
図11は、実施の形態2における第1辞書記憶部3と第2辞書記憶部6の記憶内容を示す図である。図に示すように第2の辞書の部分辞書net5の構文情報のみバージョン番号が2に更新されている。
辞書更新処理は、実施の形態1と同様に、辞書管理部7が図7のフローチャートに従って行う。図11の例では、ステップST2において、net5の構文情報のみが条件にあてはまり、第1の辞書に上書きされる。また図11の例ではステップST3、およびステップST4の条件にあてはまるものはないので、第1の辞書から情報を削除することも、第1の辞書に情報を追加することもなく更新処理は終了する。
【0049】
以上のように、この実施の形態2によれば、住所名の変更が番地等のみの場合には、変更された住所名に関連する構文情報のみを更新すればよいため、辞書更新時のデータ転送量をさらに抑えられるという効果が得られる。
【0050】
実施の形態3.
実施の形態3では、さらに別の形式で更新する。実施の形態3における更新後に音声認識装置が認識できる住所を図12に示す。更新前に認識できる住所は図17に示すものとする。図12より明らかなように、ここでは新たに「神奈川県平塚市山田町1丁目」が追加され、「香川県大川郡長尾町西」と「香川県大川郡長尾町東」が削除されている。図13に更新された語句辞書の構成を示す。
【0051】
次に動作について説明する。
図14は実施の形態3における第1辞書記憶部3および第2辞書記憶部6の記憶内容を示す図である。辞書更新処理は、辞書管理部7により、図7に示すフローチャートに従って行われる。実施の形態3では、ステップST2において、バージョンの異なるnet3の語句情報、net3の構文情報、net8の語句情報、net8の構文情報が第2辞書記憶部6から第1辞書記憶部3に転送され、これらによって第1の辞書が上書きされる。次にステップST3において、第1辞書記憶部3にあって第2辞書記憶部6にないnet11の語句情報、net11の構文情報が第1辞書記憶部3から消去される。次にステップST4において、第1辞書記憶部3に含まれず、第2辞書記憶部6に含まれるnet13の語句情報、net13の構文情報が第1辞書記憶部3に新規に追加される。
【0052】
以上のように、この実施の形態3によれば、新たに市が加わるような変更の場合でも、辞書の更新に伴う第2辞書記憶部6から第1辞書記憶部3へのデータ転送量を抑えることが可能である。
【0053】
【発明の効果】
以上のように、この発明によれば、音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第1の辞書を保持する第1辞書記憶手段と、第1の辞書を更新する辞書管理手段とを備え、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段は、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置を得られるという効果がある。
【0054】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、バージョン情報によって語句情報または構文情報の第1の辞書への更新の必要性を判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置を得られるという効果がある。
【0055】
この発明によれば、音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第1の辞書を有しており、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段が、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置の辞書管理方法を得られるという効果がある。
【0056】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段はバージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置の辞書管理方法を得られるという効果がある。
【0057】
この発明によれば、音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第1の辞書を有しており、第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、コンピュータに、第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、第1の辞書の各語句情報および各構文情報を、第2の辞書のそれらと比較することにより、第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置の辞書管理方法を実行させるためのプログラムを得られるという効果がある。
【0058】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、バージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置の辞書管理方法を実行させるためのプログラムを得られるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による更新後の住所一覧である。
【図3】 図2に示す住所を表す辞書の構造を示す図である。
【図4】 この発明の実施の形態1による、更新された部分辞書の語句情報保持部の内容を示す図である。
【図5】 この発明の実施の形態1による、更新された部分辞書の構文情報保持部の内容を示す図である。
【図6】 この発明の実施の形態1による、第1辞書記憶部と第2辞書記憶部の記憶内容を示す図である。
【図7】 この発明の実施の形態1による、辞書更新処理のフローチャートである。
【図8】 この発明の実施の形態2による更新後の住所一覧である。
【図9】 図8に示す住所を表す辞書の構造を示す図である。
【図10】 この発明の実施の形態2による、更新された部分辞書の構文情報の内容を示す図である。
【図11】 この発明の実施の形態2による、第1辞書記憶部と第2辞書記憶部の内容を示す図である。
【図12】 この発明の実施の形態3による更新後の住所一覧である。
【図13】 図12に示す住所を表す辞書の構造を示す図である。
【図14】 この発明の実施の形態3による、第1辞書記憶部と第2辞書記憶部の内容を示す図である。
【図15】 この発明の実施の形態3による、住所検索用辞書の階層化の概念を示す図である。
【図16】 従来の音声認識装置の構成を示すブロック図である。
【図17】 認識対象の住所一覧である。
【図18】 図17に示す住所を表す辞書の構造を示す図である。
【図19】 図18に示す辞書中の部分辞書の構造を示す図である。
【図20】 図18に示す辞書中の他の部分辞書の構造を示す図である。
【図21】 図18に示す辞書中の他の部分辞書の構造を示す図である。
【図22】 図21に示す部分辞書の語句情報の内容を示す図である。
【図23】 図21に示す部分辞書の構文情報の内容を示す図である。
【図24】 使用中の一段階の照合データ記憶部の作業領域の内容を示す図である。
【図25】 使用中の他の段階の照合データ記憶部の作業領域の内容を示す図である。
【図26】 標準モデル記憶部の内容を示す図である。
【図27】 モデル照合部の動作のフローチャートである。
【図28】 照合データ記憶部のHMMの処理内容の一段階を示す図である。
【図29】 照合データ記憶部のHMMの処理内容の他の段階を示す図である。
【符号の説明】
1 音響分析部、2 標準モデル記憶部、3 第1辞書記憶部(第1辞書記憶手段)、4 照合データ記憶部、5 モデル照合部、6 第2辞書記憶部、7 辞書管理部(辞書管理手段)。
Claims (6)
- 音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第1の辞書を保持する第1辞書記憶手段と、上記第1の辞書を更新する辞書管理手段とを備え、
上記第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
上記辞書管理手段は、上記第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、上記第1の辞書の各語句情報および各構文情報を、上記第2の辞書のそれらと比較することにより、上記第2の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映することを特徴とする音声認識装置。 - 各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、上記バージョン情報によって上記語句情報または上記構文情報の第1の辞書への更新の必要性を判断することを特徴とする請求項1記載の音声認識装置。
- 音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第1の辞書を有しており、上記第1の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
辞書管理手段が、上記第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、上記第1の辞書の各語句情報および各構文情報を、上記第2の辞書のそれらと比較することにより、上記第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、
更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを備えた音声認識装置の辞書管理方法。 - 各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は上記バージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断することを特徴とする請求項3記載の音声認識装置の辞書管理方法。
- 音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第1の辞書を有しており、上記第1の辞書は複数の部分辞書を有しており、各部分辞書は階層構造をなす複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
コンピュータに、上記第1の辞書に記憶された情報に対応する最新の状態を保持する第2の辞書を参照し、上記第1の辞書の各語句情報および各構文情報を、上記第2の辞書のそれらと比較することにより、上記第2の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、
更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるためのプログラム。 - 各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、上記バージョン情報によって第2の辞書で各語句情報または各構文情報が更新されているか否か判断することを特徴とする請求項5記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002170457A JP4275357B2 (ja) | 2002-06-11 | 2002-06-11 | 音声認識装置、辞書管理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002170457A JP4275357B2 (ja) | 2002-06-11 | 2002-06-11 | 音声認識装置、辞書管理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004013108A JP2004013108A (ja) | 2004-01-15 |
JP4275357B2 true JP4275357B2 (ja) | 2009-06-10 |
Family
ID=30436708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002170457A Expired - Fee Related JP4275357B2 (ja) | 2002-06-11 | 2002-06-11 | 音声認識装置、辞書管理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4275357B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292476A (ja) * | 2004-03-31 | 2005-10-20 | Jfe Systems Inc | 顧客応対方法及び装置 |
DE112007002665B4 (de) | 2006-12-15 | 2017-12-28 | Mitsubishi Electric Corp. | Spracherkennungssystem |
JP4930486B2 (ja) * | 2008-10-10 | 2012-05-16 | 株式会社デンソー | 音声認識システム及びナビゲーション装置 |
-
2002
- 2002-06-11 JP JP2002170457A patent/JP4275357B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004013108A (ja) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8538759B2 (en) | Speech recognition system and data updating method | |
US7403941B2 (en) | System, method and technique for searching structured databases | |
JP4322815B2 (ja) | 音声認識システム及び方法 | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
JP5331801B2 (ja) | 言語モデル先読み確率を計算する方法および装置 | |
US11016968B1 (en) | Mutation architecture for contextual data aggregator | |
US9715874B2 (en) | Techniques for updating an automatic speech recognition system using finite-state transducers | |
JP4040573B2 (ja) | 音声認識装置および方法 | |
JP2003523559A (ja) | 辞典、セグメンテーションおよび言語モデルを同時最適化するためのシステムおよび反復的方法 | |
JP2005258439A (ja) | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 | |
JP5868544B2 (ja) | 音声認識装置および音声認識方法 | |
US20120239399A1 (en) | Voice recognition device | |
US6507815B1 (en) | Speech recognition apparatus and method | |
JPH06332493A (ja) | 音声対話型情報検索装置及び方法 | |
JP3634863B2 (ja) | 音声認識システム | |
JP4275357B2 (ja) | 音声認識装置、辞書管理方法およびプログラム | |
CN103918027B (zh) | 用于语音应用中的最优有限状态转换机(fst)的有效渐进修改 | |
JP4521631B2 (ja) | 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP2015118354A (ja) | 音声認識装置および音声認識方法 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP4486413B2 (ja) | 音声対話方法、音声対話装置、音声対話プログラム、これを記録した記録媒体 | |
JP3484077B2 (ja) | 音声認識装置 | |
WO2023181223A1 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP2002268673A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071030 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071030 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071030 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090304 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120313 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120313 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130313 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130313 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140313 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |