JP4275357B2

JP4275357B2 - 音声認識装置、辞書管理方法およびプログラム

Info

Publication number: JP4275357B2
Application number: JP2002170457A
Authority: JP
Inventors: 知弘岩▲さき▼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-06-11
Filing date: 2002-06-11
Publication date: 2009-06-10
Anticipated expiration: 2022-06-11
Also published as: JP2004013108A

Description

【０００１】
【発明の属する技術分野】
この発明は、音声入力から一連の語句を認識する音声認識装置、辞書管理方法およびプログラムに関するものである。
【０００２】
【従来の技術】
カーナビゲーションシステム等では、音声入力から住所を表す語句を認識する音声認識装置が使用されており、例えば、特開平１０−２５４４７９号公報にはそのような音声認識装置が開示されている。ここでは、この公報に記載された音声認識装置に類似した、音声入力から住所を表す単語列を認識する音声認識装置の説明を行う。
【０００３】
図１６は従来の音声認識装置の構成を示すブロック図である。図において、１は入力された音声信号の音響分析を行い、特徴ベクトルの時系列に変換する音響分析部であり、２は認識対象の音声の標準モデルを記憶する標準モデル記憶部、９は住所を表現する辞書を記憶する辞書記憶部、４は照合処理に使用する照合データを記憶する作業領域である照合データ記憶部、５はモデル照合部である。モデル照合部５は、音響分析部１から出力された特徴ベクトルに対し、標準モデルと辞書を照合することによって発音された単語列の候補を推定し、推定された単語列の候補のうち最も可能性が高いものを選択することによって、発音された文節を最終的に特定し、そのように特定された単語列を認識結果として出力する。
【０００４】
辞書記憶部９に保持される辞書の構成について説明する。
ここで説明する辞書は、図１７に示す住所を認識対象として保持するものとする。図１８は図１７に示す住所を認識対象として保持する辞書の構造を示す図である。図において、角の丸い四角で表されているのは部分辞書であり、各部分辞書内の四角で囲まれた地名は、認識対象のノードを表している。各部分辞書の左側の三角は各部分辞書内のノードへのエントリーポイントを表し、各エントリーポイントおよび各ノードから出る矢印は、エントリーポイントを介したノードからノードへの接続関係を表している。例えば部分辞書ｎｅｔ５のノード「江ノ島」は部分辞書ｎｅｔ９のノード「１丁目」に接続され、部分辞書ｎｅｔ５のノード「辻堂」は部分辞書ｎｅｔ９のノード「１丁目」とノード「２丁目」に接続されていることを示す。辞書のこれらの部分辞書は、このような接続関係を表す情報を有したまま、モデル照合部５に取り込まれ照合演算に用いられる。以下、部分辞書ｎｅｔ２、ｎｅｔ５、ｎｅｔ９を例にとり、辞書の構造をさらに詳しく説明する。
【０００５】
図１９は、図１８中の部分辞書ｎｅｔ２の構造を示す図である。ｎｅｔ２はひとつのエントリーポイント（ｅｎｔｒｙ０）を有し、内部に「神奈川県」（ｎｏｄｅ１）と「香川県」（ｎｏｄｅ２）の２つのノードを有する。ｎｏｄｅ１「神奈川県」は部分辞書ｎｅｔ３のエントリーポイントｅｎｔｒｙ０に接続され、ｎｏｄｅ２「香川県」は部分辞書ｎｅｔ４のエントリーポイントｅｎｔｒｙ０に接続される。
【０００６】
図２０は、図１８中の部分辞書ｎｅｔ９の構造を示す図である。ｎｅｔ９は２つのエントリーポイントを有し、図においてｅｎｔｒｙ１は「１丁目」に、ｅｎｔｒｙ２は「１丁目」および「２丁目」に接続される。
【０００７】
さらに、各部分辞書は単語情報と構文情報から構成される。部分辞書ｎｅｔ５を例に説明する。図２１は図１８中の部分辞書ｎｅｔ５の構造を示す図である。図から明らかなように、部分辞書ｎｅｔ５はひとつのエントリーポイント（ｅｎｔｒｙ０）を有し、内部に「江ノ島」（ｎｏｄｅ１）と「辻堂」（ｎｏｄｅ２）の２つのノードを有する。ｎｏｄｅ１「江ノ島」は部分辞書ｎｅｔ９のエントリーポイントｅｎｔｒｙ１に接続され、ｎｏｄｅ２「辻堂」は部分辞書ｎｅｔ９のエントリーポイントｅｎｔｒｙ２に接続される。図２２は部分辞書ｎｅｔ５の単語情報の内容を示す図であり、図２３は部分辞書ｎｅｔ５の構文情報の内容を示す図である。単語情報はそれぞれのノードに属する単語の読みの情報を示すものである。構文情報はノードの接続関係あるいは言語情報を示すものであるが、ここでは接続関係を示すものとして説明する。図２３においてそれぞれのノードの接続元（ｓｏｕｒｃｅ）、接続先（ｄｅｓｔｉｎａｔｉｏｎ）が記述されている。
【０００８】
次に、照合データ記憶部４への、部分辞書の読込み動作について図２４、図２５を用いて説明する。音声認識処理が開始されるとまず、最初のノードである無音を表す部分辞書ｎｅｔ１が辞書記憶部９より読み出され、照合データ記憶部４の作業領域に保持される。この時点での照合データ記憶部４の作業領域の内容を図２４に示す。音声認識処理が進められ、次のノードの照合処理が必要になると、図２５に示すように部分辞書ｎｅｔ１に続く部分辞書ｎｅｔ２が辞書記憶部９より読み込まれ、照合データ記憶部４の作業領域に保持される。この時点での照合データ記憶部４の作業領域の内容を図２５に示す。このように音声認識処理が進むにつれ、辞書記憶部９より必要な部分辞書が次々に読み込まれ、照合データ記憶部４の作業領域に保持されてゆく。
【０００９】
次に、標準モデル記憶部２の記憶内容について説明する。
図２６は標準モデル記憶部２の記憶内容を示す図である。ここでは音声認識方式としてＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が用いられており、それぞれのノードに対応するＨＭＭのパラメータが記憶されている。ここでいうＨＭＭのパラメータとは、状態数、状態間の遷移確率などＨＭＭの照合演算に必要なパラメータを意味する。例えば、ｎｅｔ２のｎｏｄｅ１「神奈川県」に対してモデル照合する場合には、標準モデル記憶部のノード番号ｎｅｔ２：ｎｏｄｅ１のＨＭＭパラメータを使用することを意味する。
【００１０】
次に、モデル照合の動作について説明する。図１６の音響分析部１に音声信号が入力されると一定時間間隔で音響分析が行われ、特徴ベクトルに変換され出力される。音声信号が入力されている間、音響分析部１からモデル照合部５へは繰り返し特徴ベクトルが送られる。
【００１１】
図２７はモデル照合部の動作のフローチャートである。モデル照合部５では図に示される処理が特徴ベクトルが入力されるたびに繰り返し行われる。まずステップＳＴ１１で、ノード内の状態に対する照合演算を行うノード内演算処理が行われ、次にステップＳＴ１２で、ビームサーチの評価値を決定する評価値決定処理が行われ、ステップＳＴ１３で、ビームサーチ処理を行うビームサーチ演算処理が行われ、ステップＳＴ１４で、ノード間の演算を行うノード間演算処理が行われる。これらの各処理については後述する。
【００１２】
図２８はノード（ｎ）に対する照合データ記憶部４に保持されるデータの詳細な内容を示す図である。図２４と図２５では照合データ記憶部４に保持された各ノードを示していたが、図２８はノードを表すＨＭＭのパラメータを示したものである。ノード（ｎ）の基本部は３つの状態から構成されており、それぞれのスコアをＳｎ（１）、Ｓｎ（２）、Ｓｎ（３）とする。スコアは入力された音声信号とモデルの類似度を表す尺度であり、値が高いほど類似度が高いことを意味する。ノード（ｎ）の左端の状態はノード間演算（他のノードとの整合性のよいノードを選択するための演算）のために用いられる疑似状態であり、スコアをＳｎ（０）とする。ａｎ（ｉ，ｊ）は状態ｉからｊへの遷移確率に基づくペナルティー、ｂｎ（ｉ）は状態ｉの出力確率に基づくペナルティーを表す。ペナルティーは遷移確率が小さいほど大きな値となる。これらの遷移確率に基づくペナルティー、出力確率に基づくペナルティーはＨＭＭを用いる音声認識では標準的に用いられるパラメータであり、ここでは詳細な説明は省略する。これらのパラメータはあらかじめ図２６に示すように標準モデル記憶部２に記憶されており、特徴ベクトルに基づいて辞書記憶部９からノード（ｎ）を含む部分辞書が読み込まれると、標準モデル記憶部２から読み出され、照合データ記憶部４の中に図２８に示すように作業領域が作られる。
【００１３】
ステップＳＴ１１のノード内演算処理では、特徴ベクトルが入力されるたびに出力確率、遷移確率を用いて式（１）に示すモデル照合演算が行われ、Ｓｎ（ｉ）の更新が行われる。ここでＩｎはノードｎの状態数を表す。
Sn(i)=max((Sn(i)-an(i,i)),(Sn(i-1)-an(i-1,i))-bn(i)
i=1,In （１）
【００１４】
次に、ステップＳＴ１２の評価値決定処理では、式（２）により、ビームサーチのための評価値Eｎｏｄｅ（ｎ）と、ノード間遷移を行うための評価値Ｅａｅｃ（ｎ）と、ビームサーチの基準値Ｅｂｅｓｔｎｏｄｅを求める。Ｅｂｅｓｔｎｏｄｅはノードの中で最も良いビームサーチの評価値で代表するものとする。
Enode(n)=max(Sn(i))_1<i<In
Earc(n)=Sn(In)
Ebestnode=max(Enode(n))_1<n<N （２）
【００１５】
次に、ステップＳＴ１３のビームサーチ演算処理では、式（３）の条件を満たさない場合、そのノードの照合演算を非活性化することにより、演算量を下げる。非活性化されたノードに対するノード内演算処理は行われない。式（３）でＴｎｏｄｅはビームサーチのための閾値であり、予め定められた規定値を用いる。
Enode(n)>Ebestnode-Tnode （３）
【００１６】
次に、ステップＳＴ１４のノード間演算処理では、式（４）の条件が満たされ、照合データ記憶部４に作業領域が無い場合、辞書記憶部９より新たなノードを含む部分辞書が読み込まれ、新たなノードの作業領域を確保し、新たに読み込んだノードを活性化してノード間照合演算を行う。
Earc(n)>Ebestnode-Tarc （４）
【００１７】
続くノードをｎ＋１とした場合にノードｎ＋１の作業領域が取られた様子を図２９に示す。読み込まれた直後、ノードｎ＋１の各状態のスコアは最も低い値に初期化される。続いてノードｎとノードｎ＋１の間で式（５）で示すノード間の照合処理を行う。ノード間の照合処理は以下の式に従って行われる。
Sn+1(0)=Sn(In) （５）
【００１８】
続くノードｎ＋１が照合データ記憶部４に作業領域が取られており非活性化されていた場合には、再度活性化させて式（５）に示すノード間の照合演算を行う。
【００１９】
モデル照合部５では特徴ベクトルが入力されるたび繰り返し上記のように照合処理を進め、音声信号のすべての特徴ベクトルに対する処理が終了したら、最終的に最もスコアの高かったノード列を認識結果として出力する。
【００２０】
以上のように、従来の音声認識装置における辞書は、連続的に単語を認識するために階層的な複数の部分辞書から構成され、各部分辞書は、そこに表されたノードについての単語情報および構文情報を含んでいる。
【００２１】
ところで住所名は、市町村の合併、市町村の新設、番地の整理および新設などの理由のために変更されることがある。住所名が変更された場合には、これに応じて辞書の内容を更新する必要がある。しかし、上記の従来の音声認識装置では辞書記憶部９を入れ替えていた。
【００２２】
他方、特開平１１−１４４３２２号公報においては、ＤＶＤ上の辞書更新時、追加・更新・削除に必要な情報だけをＤＶＤに書き込むというアイディアが記載されている。しかし、この辞書は、上述した音声認識装置の辞書のように階層的な構造にはなっていないため、単語と単語との接続関係を表す構文情報の概念は開示されていない。
【００２３】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、住所検索などに適した階層的な構造の辞書の一部を変更する必要が生じた場合、変更すべき情報のみを更新することが出来ないという課題があった。
【００２４】
この発明は上記のような課題を解決するためになされたもので、音声認識装置の階層的な構造の辞書の更新時のデータ転送量を出来るだけ削減した音声認識装置、辞書管理方法およびプログラムを得ることを目的とする。
【００２５】
【課題を解決するための手段】
この発明に係る音声認識装置は、音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第１の辞書を保持する第１辞書記憶手段と、第１の辞書を更新する辞書管理手段とを備え、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段は、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するものである。
【００２６】
この発明に係る音声認識装置は、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、バージョン情報によって語句情報または構文情報の第１の辞書への更新の必要性を判断するものである。
【００２７】
この発明に係る音声認識装置の辞書管理方法は、音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第１の辞書を有しており、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段が、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを備えたものである。
【００２８】
この発明に係る音声認識装置の辞書管理方法は、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段はバージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断するものである。
【００２９】
この発明に係る音声認識装置の辞書管理方法を実行させるためのプログラムは、音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第１の辞書を有しており、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、コンピュータに、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるものである。
【００３０】
この発明に係る音声認識装置の辞書管理方法を実行させるためのプログラムは、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、バージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断するものである。
【００３１】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
実施の形態１の音声認識装置では、上述した従来の音声認識装置と同様に音声認識方式としてＨＭＭを用い、認識対象を住所とし、認識する単位であるノードを地名とする。
【００３２】
図１はこの発明の実施の形態１による音声認識装置の構成を示すブロック図である。図において１は入力された音声信号の音響分析を行い、特徴ベクトルの時系列に変換する音響分析部であり、２は認識対象の標準モデルを記憶する標準モデル記憶部、３は住所を表現する第１の辞書を記憶する第１辞書記憶部（第１辞書記憶手段）、４は照合処理に使用する照合データを記憶する作業領域である照合データ記憶部、５はモデル照合部、６は第１の辞書に記憶された情報に対応する最新状態の情報を記述した第２の辞書を記憶する第２辞書記憶部、７は第１辞書記憶部３と第２辞書記憶部６の内容を比較して、第１辞書記憶部３の内容を更新する辞書管理部（辞書管理手段）である。
モデル照合部５は、音響分析部１から出力された特徴ベクトルに対し、標準モデルと辞書を照合することによって発音された単語列の候補を推定し、推定された単語列の候補のうち最も可能性が高いものを選択することによって、発音された単語列を最終的に特定し、そのように特定された単語列を認識結果として出力する。
【００３３】
第１の辞書は、図１５に示すように、階層的な複数の部分辞書から構成されている。図において、角の丸い四角で表されているのは部分辞書であり、各部分辞書内の四角で囲まれた地名はノードを表している。住所全体は地名（単語）に分割されて、各地名は各階層に割り当てられている。各部分辞書は、部分辞書に含まれる複数の単語の読みを表す単語情報を保持する単語情報保持部と各単語と他の単語との構文上の接続関係を表す構文情報を保持する構文情報保持部とに区分されている。但し、図１５では、単語情報保持部および構文情報保持部は図示しない。
第２の辞書も同様に、複数の部分辞書を有しており、各部分辞書は語句情報保持部および構文情報保持部に区分されている。第２の辞書は、第１の辞書を更新するための基準となる辞書であって、第１の辞書に記憶された情報に対応する最新状態の情報を記述している。
第１の辞書記憶部３および第２の辞書記憶部６は、例えばディスクのような情報記憶装置である。第２の辞書記憶部６は、好ましくは携帯可能な情報記憶装置であって音声認識装置に着脱可能にセットされる。あるいは、第２の辞書記憶部６は、音声認識装置に接続された外部サーバに置かれていてもよい。
【００３４】
次に動作について説明する。
音声認識装置のモデル照合処理は、上述した従来の音声認識装置と同様のため、ここでは説明を省略し、辞書の更新を行う辞書管理部７の処理を主に説明する。ここで、辞書が認識対象とする住所は従来例と同様に図１７に示す住所とし、更新前の第１の辞書は図１８に示す状態であるものとする。
【００３５】
ここで、図２に示すように、新たな住所である「神奈川県藤沢市湘南台１丁目」が音声認識装置の認識対象として追加されべきであると仮定する。図３は新たな住所を加えたと仮定した辞書の構造を示す説明図である。図１８に示す元の辞書と異なっているのは部分辞書ｎｅｔ５であり、他の部分辞書には変更はない。このため、変更された部分辞書ｎｅｔ５のみを更新すれば、辞書を最新の状態に出来る。この計画に沿って更新された部分辞書ｎｅｔ５の単語情報保持部内の語句情報を図４に示し、部分辞書ｎｅｔ５の構文情報保持部内の構文情報を図５に示す。
【００３６】
図４において、更新前の単語情報（図２２）と比較すると明らかなように、単語情報として新たなノードである「湘南台」（ｎｏｄｅ３）が追加されている。また、元の構文情報（図２３）と比較すると明らかなように、図５においてこの新たなｎｏｄｅ３と既存のノードの接続情報が構文情報に追加されている。この結果、新たな認識対象である「神奈川県藤沢市湘南台１丁目」が認識可能となる。
【００３７】
次に図７を用いて第１の辞書についての更新処理の手順について説明する。
図６は、実施の形態１における第１辞書記憶部３と第２辞書記憶部６の記憶内容を示す図である。図示のように、各辞書記憶部の辞書は、部分辞書ｎｅｔ１，ｎｅｔ２，・・・を有しており、各部分辞書は単語情報を保持する単語情報保持部と構文情報を保持する構文情報保持部とに区分されている。図において各辞書記憶部の内容を示す表の右列は、単語情報と構文情報に付与されたバージョン番号（バージョン情報）を表している。バージョン番号が大きいほど、情報が新しいことを意味する。
【００３８】
図７は、辞書管理部７による辞書更新処理のフローチャートである。まずステップＳＴ１において、辞書管理部７は第１辞書記憶部３と第２辞書記憶部６の単語情報および構文情報を比較する。
【００３９】
次にステップＳＴ２において、辞書管理部７は、比較の結果、第２の辞書の単語情報または構文情報のバージョン番号が、第１の辞書のそれらよりも大きくなっているものを選択して、第１の辞書の対応する単語情報または構文情報を選択された情報で上書きする。
【００４０】
次にステップＳＴ３において、辞書管理部７は第１の辞書に含まれているが、第２の辞書に含まれない単語情報および構文情報を第１の辞書より削除する。
【００４１】
次にステップＳＴ４において、辞書管理部７は第１の辞書に含まれていないが、第２の辞書に含まれる単語情報および構文情報を第１の辞書に追加する。
【００４２】
図６の例では、ステップＳＴ２において、部分辞書ｎｅｔ５の単語情報と部分辞書ｎｅｔ５の構文情報が更新の条件にあてはまるため、これらの情報を第２辞書記憶部６から転送し、第１の辞書に上書きする。また図６の例ではステップＳＴ３およびステップＳＴ４の条件に合うものはないので、第１の辞書から情報を削除することも、第１の辞書に情報を追加することもなく更新処理は終了する。このようにして、住所名の変更に関連する部分辞書の単語情報および構文情報のみの更新が可能である。
【００４３】
実施の形態１において、第２辞書記憶部６はインターネットなどの通信手段によりこの音声認識装置に接続された外部サーバに置かれていてもよい。その場合、更新のためのデータ転送量を小さく抑えることは、インターネットからのダウンロードによる更新処理時間を短縮する上で重要な要因である。
【００４４】
以上のように、この実施の形態１によれば、各部分辞書を構成する単語情報および構文情報を分割して、それぞれ単語情報保持部と構文情報保持部に保持するようにしたので、辞書更新時には、辞書管理部７は、変更があった部分辞書の語句情報または構文情報のみを更新すればよく、辞書更新時のデータ転送量を出来るだけ削減するという効果が得られる。
【００４５】
また、この実施の形態１によれば、第１の辞書および第２の辞書が有する語句情報および構文情報には、バージョン番号を付与したので、辞書管理部７は、語句情報および構文情報のバージョン番号によって、更新の必要性の有無を容易に確認できるという効果が得られる。
【００４６】
実施の形態２．
ここでは、音声認識装置の認識できる単語列を図８に示す住所に更新すべき場合について説明する。更新前に認識できる住所は実施の形態１と同様に図１７に示すものであったとする。新たな住所としては、「神奈川県藤沢市江ノ島２丁目」が追加されている。図９は新たな住所を加えた辞書の構造を示す図である。
【００４７】
図９から明らかなように、実施の形態２では、単語情報には更新する必要性がないが、「江ノ島」の下位には「１丁目」だけでなく「２丁目」もありうるので、部分辞書ｎｅｔ５の「江ノ島」のｎｏｄｅ１は「１丁目」および「２丁目」に接続するためのｎｅｔ９のｅｎｔｒｙ２に接続すべきである。従って、構文情報のみ「江ノ島」のｎｏｄｅ１の接続先をｎｅｔ９のｅｎｔｒｙ１からｎｅｔ９のｅｎｔｒｙ２に変更すべきである。このため、図１０に示すように部分辞書ｎｅｔ５の構文情報を更新すべきである。
【００４８】
次に動作について説明する。
図１１は、実施の形態２における第１辞書記憶部３と第２辞書記憶部６の記憶内容を示す図である。図に示すように第２の辞書の部分辞書ｎｅｔ５の構文情報のみバージョン番号が２に更新されている。
辞書更新処理は、実施の形態１と同様に、辞書管理部７が図７のフローチャートに従って行う。図１１の例では、ステップＳＴ２において、ｎｅｔ５の構文情報のみが条件にあてはまり、第１の辞書に上書きされる。また図１１の例ではステップＳＴ３、およびステップＳＴ４の条件にあてはまるものはないので、第１の辞書から情報を削除することも、第１の辞書に情報を追加することもなく更新処理は終了する。
【００４９】
以上のように、この実施の形態２によれば、住所名の変更が番地等のみの場合には、変更された住所名に関連する構文情報のみを更新すればよいため、辞書更新時のデータ転送量をさらに抑えられるという効果が得られる。
【００５０】
実施の形態３．
実施の形態３では、さらに別の形式で更新する。実施の形態３における更新後に音声認識装置が認識できる住所を図１２に示す。更新前に認識できる住所は図１７に示すものとする。図１２より明らかなように、ここでは新たに「神奈川県平塚市山田町１丁目」が追加され、「香川県大川郡長尾町西」と「香川県大川郡長尾町東」が削除されている。図１３に更新された語句辞書の構成を示す。
【００５１】
次に動作について説明する。
図１４は実施の形態３における第１辞書記憶部３および第２辞書記憶部６の記憶内容を示す図である。辞書更新処理は、辞書管理部７により、図７に示すフローチャートに従って行われる。実施の形態３では、ステップＳＴ２において、バージョンの異なるｎｅｔ３の語句情報、ｎｅｔ３の構文情報、ｎｅｔ８の語句情報、ｎｅｔ８の構文情報が第２辞書記憶部６から第１辞書記憶部３に転送され、これらによって第１の辞書が上書きされる。次にステップＳＴ３において、第１辞書記憶部３にあって第２辞書記憶部６にないｎｅｔ１１の語句情報、ｎｅｔ１１の構文情報が第１辞書記憶部３から消去される。次にステップＳＴ４において、第１辞書記憶部３に含まれず、第２辞書記憶部６に含まれるｎｅｔ１３の語句情報、ｎｅｔ１３の構文情報が第１辞書記憶部３に新規に追加される。
【００５２】
以上のように、この実施の形態３によれば、新たに市が加わるような変更の場合でも、辞書の更新に伴う第２辞書記憶部６から第１辞書記憶部３へのデータ転送量を抑えることが可能である。
【００５３】
【発明の効果】
以上のように、この発明によれば、音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第１の辞書を保持する第１辞書記憶手段と、第１の辞書を更新する辞書管理手段とを備え、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段は、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置を得られるという効果がある。
【００５４】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、バージョン情報によって語句情報または構文情報の第１の辞書への更新の必要性を判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置を得られるという効果がある。
【００５５】
この発明によれば、音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第１の辞書を有しており、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、辞書管理手段が、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映するようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置の辞書管理方法を得られるという効果がある。
【００５６】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段はバージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置の辞書管理方法を得られるという効果がある。
【００５７】
この発明によれば、音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第１の辞書を有しており、第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、コンピュータに、第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、第１の辞書の各語句情報および各構文情報を、第２の辞書のそれらと比較することにより、第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるようにしたので、音声認識装置の階層的な構造の辞書において、辞書更新時のデータ転送量を出来るだけ削減した音声認識装置の辞書管理方法を実行させるためのプログラムを得られるという効果がある。
【００５８】
この発明によれば、各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、バージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断するようにしたので、辞書更新時に更新部分の判断処理が効率よく行える音声認識装置の辞書管理方法を実行させるためのプログラムを得られるという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示すブロック図である。
【図２】この発明の実施の形態１による更新後の住所一覧である。
【図３】図２に示す住所を表す辞書の構造を示す図である。
【図４】この発明の実施の形態１による、更新された部分辞書の語句情報保持部の内容を示す図である。
【図５】この発明の実施の形態１による、更新された部分辞書の構文情報保持部の内容を示す図である。
【図６】この発明の実施の形態１による、第１辞書記憶部と第２辞書記憶部の記憶内容を示す図である。
【図７】この発明の実施の形態１による、辞書更新処理のフローチャートである。
【図８】この発明の実施の形態２による更新後の住所一覧である。
【図９】図８に示す住所を表す辞書の構造を示す図である。
【図１０】この発明の実施の形態２による、更新された部分辞書の構文情報の内容を示す図である。
【図１１】この発明の実施の形態２による、第１辞書記憶部と第２辞書記憶部の内容を示す図である。
【図１２】この発明の実施の形態３による更新後の住所一覧である。
【図１３】図１２に示す住所を表す辞書の構造を示す図である。
【図１４】この発明の実施の形態３による、第１辞書記憶部と第２辞書記憶部の内容を示す図である。
【図１５】この発明の実施の形態３による、住所検索用辞書の階層化の概念を示す図である。
【図１６】従来の音声認識装置の構成を示すブロック図である。
【図１７】認識対象の住所一覧である。
【図１８】図１７に示す住所を表す辞書の構造を示す図である。
【図１９】図１８に示す辞書中の部分辞書の構造を示す図である。
【図２０】図１８に示す辞書中の他の部分辞書の構造を示す図である。
【図２１】図１８に示す辞書中の他の部分辞書の構造を示す図である。
【図２２】図２１に示す部分辞書の語句情報の内容を示す図である。
【図２３】図２１に示す部分辞書の構文情報の内容を示す図である。
【図２４】使用中の一段階の照合データ記憶部の作業領域の内容を示す図である。
【図２５】使用中の他の段階の照合データ記憶部の作業領域の内容を示す図である。
【図２６】標準モデル記憶部の内容を示す図である。
【図２７】モデル照合部の動作のフローチャートである。
【図２８】照合データ記憶部のＨＭＭの処理内容の一段階を示す図である。
【図２９】照合データ記憶部のＨＭＭの処理内容の他の段階を示す図である。
【符号の説明】
１音響分析部、２標準モデル記憶部、３第１辞書記憶部（第１辞書記憶手段）、４照合データ記憶部、５モデル照合部、６第２辞書記憶部、７辞書管理部（辞書管理手段）。

Claims

音声入力から一連の語句を認識する音声認識装置において、認識処理に使用する第１の辞書を保持する第１辞書記憶手段と、上記第１の辞書を更新する辞書管理手段とを備え、
上記第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
上記辞書管理手段は、上記第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、上記第１の辞書の各語句情報および各構文情報を、上記第２の辞書のそれらと比較することにより、上記第２の辞書で各語句情報または各構文情報が更新されているか否か判断し、更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映することを特徴とする音声認識装置。
各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は、上記バージョン情報によって上記語句情報または上記構文情報の第１の辞書への更新の必要性を判断することを特徴とする請求項１記載の音声認識装置。
音声入力から一連の語句を認識する音声認識装置の辞書管理方法において、音声認識装置は第１の辞書を有しており、上記第１の辞書は階層構造をなす複数の部分辞書を有しており、各部分辞書は複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
辞書管理手段が、上記第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、上記第１の辞書の各語句情報および各構文情報を、上記第２の辞書のそれらと比較することにより、上記第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、
更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを備えた音声認識装置の辞書管理方法。
各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、辞書管理手段は上記バージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断することを特徴とする請求項３記載の音声認識装置の辞書管理方法。
音声入力から一連の語句を認識する音声認識装置の辞書管理方法を実行させるためのプログラムにおいて、音声認識装置は第１の辞書を有しており、上記第１の辞書は複数の部分辞書を有しており、各部分辞書は階層構造をなす複数の語句の読みを示す語句情報を保持する語句情報保持部と、各語句と他の語句との構文上の接続関係を示す構文情報を保持する構文情報保持部とに区分されており、
コンピュータに、上記第１の辞書に記憶された情報に対応する最新の状態を保持する第２の辞書を参照し、上記第１の辞書の各語句情報および各構文情報を、上記第２の辞書のそれらと比較することにより、上記第２の辞書で各語句情報または各構文情報が更新されているか否か判断する工程と、
更新されている語句情報を当該語句情報を保持する部分辞書の語句情報保持部に反映し、更新されている構文情報を当該構文情報を保持する部分辞書の構文情報保持部に反映する工程とを実行させるためのプログラム。
各部分辞書の語句情報および構文情報にはそれぞれのバージョン情報が付与されており、上記バージョン情報によって第２の辞書で各語句情報または各構文情報が更新されているか否か判断することを特徴とする請求項５記載のプログラム。