JP3790038B2

JP3790038B2 - サブワード型不特定話者音声認識装置

Info

Publication number: JP3790038B2
Application number: JP08706998A
Authority: JP
Inventors: 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-03-31
Filing date: 1998-03-31
Publication date: 2006-06-28
Anticipated expiration: 2018-03-31
Also published as: JPH11282486A

Description

【０００１】
【発明の属する技術分野】
本発明は、使用者が容易かつ適切に単語を追加登録することの可能なサブワード型不特定話者音声認識装置に関する。
【０００２】
【従来の技術】
音声認識の技術は、優れたマン・マシン・インタフェースを実現する上での重要な役割を担っている。
【０００３】
初期には、特定話者音声認識装置を用いていた。特定話者音声認識装置は、使用前に使用者が音声入力をしたい単語を数回ずつ発声し、使用者の単語音声をもとに照合用の単語音声モデルを音声装置内部に登録する。実際に音声入力を行う際は、使用者が発した入力音声を、装置内部に登録された単語音声モデルと照合し、照合の度合が最も良かった単語を認識結果とする（文献：正井、新田、上原，“微分−直交化フィルタ法を用いた特定話者単語音声認識装置の開発”，日本音響学会昭和63年度秋季研究発表会講演論文集，pp.65-66，昭和63年10月）。
【０００４】
このような装置では、装置内部に持つ単語音声モデルは、登録時の使用者の声に特化しているため、登録した使用者以外の音声は認識できないか、認識性能が著しく低下する。異なる使用者が装置を使うためには、繁雑な音声登録の作業を再度行う必要があった。
【０００５】
特定話者音声認識装置では、複数の使用者が交代して利用する場合、非常に不便である。更に、街頭に設置される自動販売機等の装置では、使用者の音声を登録することができないため、このような音声認識装置では対応できない。
【０００６】
そのため、不特定話者認識装置が用いられるようになった。初期の不特定話者音声認識装置では、まず装置に音声入力したい単語について多数の話者（典型的な例では１００人以上）が発声した単語音声を収集する。これらの単語音声から、単語音声モデルを生成し、それを装置内部に登録する。音声入力を行う際は、使用者が発した入力音声を、装置内部に登録された単語音声モデルと照合し、照合の度合が最も良かった単語を認識結果とする（文献：松浦、新田，“ＳＭＱ／ＨＭＭ方式に基づく不特定話者大語い単語認識：松浦、新田，電子情報通信学会論文誌 D-II vol.J76-D-II No.12，pp.2486-2494，1993年12月）。
【０００７】
このような装置が内部に持つ単語音声モデルは多数の話者が共通して持つ特徴を持っており、特定の話者の音声には依存していない。したがって、不特定の話者が発声した音声を認識することができる。
【０００８】
しかし、初期の不特定話者音声認識装置では、単語毎に多数の話者が発声した音声データを収集することが必要となるため、数単語の追加・変更でさえ、必要となる労力は非常に大きくなるという問題があった。
【０００９】
単語音声モデルの学習用話者数が比較的少数の場合、その小集団が持つ固有の特徴（ある特定地域・世代でのみ通用する抑揚や音の変形など）も含んだ単語音声モデルが生成されてしまうことがある。このように学習されてしまった音声モデルでは、不特定話者に対する認識性能は劣化する。
【００１０】
初期の不特定話者音声認識装置では、単語毎に音声を収集・処理しなければならず、１単語あたりの学習用話者数をあまり大きくできないために、不特定話者が発した音声と十分に照合し得る単語音声モデルが生成できないことがあるという問題もあった。
【００１１】
そこで近年では、単語音声モデルを音響的に意味を持つ部分単語音声モデル（部分単語として主に音韻や音節などが用いられる）を単位として認識装置内部に保持し、認識しようとする単語の単語音声モデルは、部分単語音声モデルを連結して生成し、それと入力音声とを照合する方法（以下、サブワード型不特定話者音声認識方法と呼ぶ）がとられるようになった（文献：マーク・プンサック、新田，“Comparison of Context Dependent Sub-word HMMs for Japanese”，電子情報通信学会技術研究報告 vol.93 No.364，pp.63-70，1993年12月）。
【００１２】
以下にサブワード型不特定話者音声認識装置の構成を図４４を参照して説明する。
【００１３】
まず、主音声認識部４４０は、音響分析部４４１、量子化部４４２、ＨＭＭ認識部４４３から構成される。
【００１４】
音響分析部４４１は、入力される音声信号を、例えばＬＰＣ（Linear Predictive Coding）分析して、入力音声の特徴パラメータを求める。
【００１５】
量子化部４４２は、音響分析部４４１で入力音声を音響分析して得られた特徴パラメータを、統計的量子化により音声セグメントを表すラベル系列に変換する。
【００１６】
ＨＭＭ認識部（ＨＭＭ照合部）４４３は、単語ＨＭＭ辞書４５０に格納されている単語ＨＭＭのそれぞれが入力音声に対応したラベル系列を生成する確率を計算し、最大の確率でラベル系列を出力する単語を認識結果として出力する。
【００１７】
ここで、本実施例で用いる離散ＨＭＭ（Hidden Markov Model ；隠れマルコフモデル）について説明する。
【００１８】
ＨＭＭは状態と遷移からなり、ある状態からある状態へと遷移する際に１つのラベルが出力される。ある状態から他の状態に遷移する確率が状態毎に定義されており、更に遷移毎に各ラベルが出力される確率が定義されている。
【００１９】
実際には、ＨＭＭは次の６つのパラメータから定義される。
【００２０】
Ｎ^x ：部分単語ｘを表すＨＭＭの状態数（状態Ｓ(1) ，Ｓ(2) ，…，Ｓ(N) ）
Κ ：ラベル数（ラベルＲ＝１，２，…，Κ）
ｐ^x(i,j) ：部分単語ｘを表すＨＭＭの遷移確率（Ｓ(i) からＳ(j) に遷移する確率）
ｑ^x(i,j,k) ：部分単語ｘを表すＨＭＭのＳ(i) からＳ(j) への遷移の際にラベルｋを出力する確率
ｍ^x(i) ：部分単語ｘを表すＨＭＭの初期状態確率（Ｓ(i) が初期状態になる確率）
Ｆ^x ：部分単語ｘを表すＨＭＭの最終状態になり得る状態の集合
上記ＨＭＭには、音声の特徴を反映した遷移上の制限がある。音声では、一般的に状態Ｓ(i) から以前通過した状態Ｓ(i-1) ，Ｓ(i-2) に戻るようなループの遷移は時間的前後関係を乱すため許されない。図４５に３状態２ループの離散ＨＭＭを示す。ここで、最終状態Ｓ(N) 、すなわちＳ(3) は照合に寄与しない。
【００２１】
上述したように、ＨＭＭとラベル系列との照合は、ＨＭＭがラベル系列を出力する確率もしくは確率の対数値を計算することで行われるが、実際の装置ではより高速に実行できるビタビ（viterbi ）アルゴリズムによって計算される値（ビタビスコア）で代用することが多い。
【００２２】
ビタビスコアは、入力ラベル系列を最も高い確率で出力するように状態遷移が起きたときに、ラベル系列が出力される確率の対数値である。
【００２３】
入力ラベル系列をＹ＝ｙ(1) ，ｙ(2) ，…，ｙ(L) とした場合、ビタビスコアは次のように計算できる。
【００２４】
ビタビスコアを計算するために、配列Ｄ(T,M) を使用する。
【００２５】
（１）Ｄ(0,1〜N)、つまりＤ(0,1 )〜Ｄ(0,N) を初期状態確率の対数値で初期化する。即ち、Ｄ(0,1) ＝ ln ｍ₁〜Ｄ(0,N) ＝ ln ｍ_Nとする。図のような構成のＨＭＭの場合、Ｄ(0,1) ＝０，Ｄ(0,2〜N)＝−∞となる。さらにＤ(0〜T,0)＝−∞に初期化する。
【００２６】
（２）ｔを１からＴまで１ずつ増加させながら、（３）〜（４）を繰り返す。
【００２７】
（３）ｎを１からＮまで１ずつ増加させながら、（４）を繰り返す。
【００２８】
（４）ｄ₁＝Ｄ(t-1,n-1) ＋ ln ｐ(n-1,n) ＋ ln ｑ(n-1,n,y(t))と、ｄ₂＝Ｄ（t-1,n) + ln ｐ(n,n) ＋ ln ｑ(n,n,y(t))とを計算し、Ｄ(t,n) に大きい方の値を代入する。
【００２９】
（５）Ｄ(T,N) に求めたいビタビスコアが得られる。
【００３０】
部分単語ＨＭＭは、部分単語毎に作成した離散ＨＭＭである。ここでは部分単語の単位として音韻を用い、２ループ３状態の離散ＨＭＭでモデル化したものとする。
【００３１】
部分単語ＨＭＭは部分単語ＨＭＭ辞書４６０に登録されている。部分単語ＨＭＭ辞書４６０に登録される部分単語ＨＭＭの記憶形式（登録形式）の一例を図４６に示す。この例では、部分単語ＨＭＭ（のパラメータ）は、部分単語モデル名と対をなして登録されている。
【００３２】
単語ＨＭＭは、部分単語ＨＭＭ辞書４６０に登録されている部分単語ＨＭＭを単語の読みに従って連結することで作成することができる。この際、各部分単語ＨＭＭの最終状態Ｓ(N) は直後に連結する後続の部分単語ＨＭＭのＳ(1) と重ね合わされる。例えば、単語「おとな」を部分単語で表すと「ｏ，ｔ，ｏ，ｎ，ａ」になるので、相当する単語ＨＭＭは図４７のようになる。
【００３３】
単語ＨＭＭは単語ＨＭＭ辞書４５０に登録される。この単語ＨＭＭ辞書４５０に登録される単語ＨＭＭの記憶形式の一例を図４８に示す。この例では、上述のようにして構成された単語ＨＭＭのパラメータが、単語名と対をなして記憶されている。
【００３４】
なお、単語ＨＭＭを単語毎に構成し、そのパラメータを記憶するのではなく、単語を構成する部分単語ＨＭＭ名を記憶しておき、照合時に部分単語ＨＭＭ辞書４６０を参照して単語ＨＭＭを構成し、それから照合を行う装置構成もある。更に、ひらがな等で記述される読みを記憶しておき、照合時に部分単語名に変換後、部分単語ＨＭＭ辞書４６０を参照して単語ＨＭＭを構成し、それから照合を行う装置構成もある。
【００３５】
ＨＭＭ認識部４４３は単語ＨＭＭ辞書４５０に登録されている単語ＨＭＭのそれぞれのパラメータを用いて、入力ラベル系列に対するビタビスコアを単語毎に計算する。そして、最大のビタビスコアを持つ単語を認識結果として出力する。
【００３６】
本方式では、単語の読みを入力することによって、音声入力可能な単語を追加・変更することができるため、初期の不特定話者音声認識方法と比較して、その手間は大きく軽減される。
【００３７】
また、必要となる部分単語音声モデルは認識語彙の異なる装置間で共通に用いることができるため、非常に多くの学習用話者が発声した音声データから生成することが可能となる。したがって、不特定話者が発声した音声を認識するのにより適した単語音声モデルが生成できる。
【００３８】
【発明が解決しようとする課題】
上記したサブワード型不特定話者音声認識方式では、認識単語を使って登録、変更する場合、使用者が単語の読みを表す音韻系列もしくは平仮名列を入力しなければならないが、文字入力手段と音声に対する専門知識がない場合、これが困難であるという問題点がある。
【００３９】
つまり、音声認識装置に登録したい読み方（発声の仕方）と、それを表現する記号との対応を登録作業者が熟知している必要がある。単語の読みを平仮名で行う場合は、比較的対応が分かりやすいが、この場合でも長音化の有無（「とけい」という平仮名列は／ｔｏｋｅｉ／という発声に対応するのか、それとも／ｔｏｋｅ：／に対応するのか）などを装置がどのように解釈するのかに関する知識は依然として必要である。
【００４０】
また、携帯機器や車載用機器などの場合、文字入力装置を取り付けることが困難な場合がある。このような場合でも、画面上に全音韻（或いは平仮名）を表示し１文字ずつ選択する方法、文字認識技術を利用する方法などを用いることで読み方を入力することは可能となるが、使用者は繁雑な操作を要求され、必ずしも使い勝手が良いとは言えない。
【００４１】
一方、特定話者認識方式では、登録したい単語を数回発声するだけで、使用者独自の単語を登録することが可能である。つまり、音韻記号、平仮名と発音との対応に熟知している必要はなく、文字入力手段も必要としない。したがって、認識単語の追加、変更は容易に行うことができた。しかし、使用者は装置を入手後に、まず認識すべき単語を全て自分で登録しなければならない欠点があった。それに対して、不特定話者認識方式を用いた装置では、入力に用いられることが多いと考えられる単語を装置に予め組み込んでおくことが可能なため、使用者は自分で特殊な呼称をしたい単語についてのみ単語登録をするだけで装置を使用し始めることができる。
【００４２】
そこで、上記両方式の欠点を解消するために、入力音声に対して不特定話者認識と特定話者認識を同時に用いて照合を行い、両者の認識結果のうち、より尤度（認識の確からしさ）の大きい方を最終的な認識結果とする方式が考えられる。この方式では、入力に用いられることが多いと考えられる単語は、装置を設計・製造する段階で予め不特定話者認識部に登録しておき、使用者が追加・変更する単語は特定話者認識部に登録する。このような構成にすることによって、使用者は自分が追加・変更したい単語のみを登録すればよく、しかも登録時に記号入力を必要としない。
【００４３】
しかし、不特定話者認識方式と特定話者認識方式の両者を装置に組み込まなければならないため、装置が複雑になってしまう。また、異なる方式を併用することから、それぞれの尤度の尺度も異なっており、両者を比較するには補正が必要となる。しかし、常に使うことのできる補正方法を決定することが困難である。更に、特定話者認識用に登録した単語は登録者の音声に強く依存しており、登録者以外の人間が同じ単語を発声した場合に正しく照合できないという特定話者認識方式の欠点は依然として克服できない。
【００４４】
また、サブワード型不特定話者音声認識装置で用いる辞書は、音素、音韻等で表される読み情報に従って一般的な部分単語モデルを連結して単語を生成しているため、使用者になまりがある等して一部の部分単語の発音が一般的ではない場合、音声認識の精度が低下する。したがって、なまり等のある使用者は、常に（その話者に対する）認識精度の低い音声認識装置を使用し続けることを余儀なくされる問題がある。
【００４５】
本発明は、上記のような実情を考慮してなされたもので、その目的は、特定話者音声認識方式と同程度の容易さで単語登録を行うことができるサブワード型不特定話者音声認識装置を提供することにある。
【００４６】
本発明の他の目的は、使用者の発音に応じて単語辞書を更新することができるサブワード型不特定話者音声認識装置を提供することにある。
【００４７】
本発明の更に他の目的は、使用者の発音に応じた単語辞書の登録において誤った登録が行われるのを防止できるサブワード型不特定話者音声認識装置を提供することにある。
【００４８】
本発明の更に他の目的は、構成の簡略化が図れるサブワード型不特定話者音声認識装置を提供することにある。
【００４９】
本発明の更に他の目的は、使用者の音声に逐次適応して認識精度の向上が図れるサブワード型不特定話者音声認識装置を提供することにある。
【００５０】
【課題を解決するための手段】
本発明の第１の観点に係る構成は、入力された音声を少なくとも１個の部分単語の系列に変換する部分単語系列生成手段と、この部分単語系列生成手段によって変換された部分単語系列に対応する情報が登録される使用者登録単語辞書と、この使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、使用者が発声した音声を、上記使用者登録単語辞書から取得された単語音声モデルを用いて認識する主音声認識手段とを備えたことを特徴とする。
【００５１】
このような構成においては、単語登録時に文字情報による入力を用いずに、音声により入力を用いていながら、その入力音声を直接単語音声モデルに変換して登録するのではなく、一旦音素、音韻などの部分単語系列に変換して、その部分単語系列に対応する情報を辞書登録（使用者登録単語辞書に登録）することにより、（音声認識モード時に）使用者が発声した音声を認識する際に、辞書内の部分単語系列に対応する情報から不特定話者認識用の部分単語音声モデルがつなぎ合わされた単語音声モデルを取得して、その単語音声モデルを用いて音声認識を行うことができるため、音声で登録したにも拘らず、その登録単語は不特定話者が使用し得るものとなる。これに対して、従来技術では、音声による単語登録を適用する場合には、登録された単語は登録をした話者専用になってしまい、他の話者が使用したときの認識性能は非常に悪い。また、文字情報による単語登録を適用する場合には、文字情報の入力手段を必要とすると共に操作が繁雑である。
【００５２】
ここで、使用者登録単語辞書に登録される部分単語系列に対応する情報としては、部分単語系列それ自体、或いは部分単語系列を構成する各部分単語に対応する部分単語音声モデルを予めつなぎ合わせて作成された単語音声モデルのいずれであっても構わない。
【００５３】
前者の場合には、単語音声モデルを取得する手段（単語音声モデル取得手段）には、部分単語系列に対応する情報（部分単語系列それ自体）から対応する部分単語音声モデルを連結して単語音声モデルを作成することで、当該単語音声モデルを取得する機能を持たせる必要がある。これに対して後者の場合には、単語音声モデル取得手段には、使用者登録単語辞書から部分単語系列に対応する情報を取り出す機能を持たせるだけで、単語音声モデルを取得することが可能となる。但し、入力音声から変換された部分単語系列から、当該部分単語系列に対応する情報を生成する際に、部分単語系列から対応する部分単語音声モデルを連結して単語音声モデルを作成する必要がある。
【００５４】
本発明の第２の観点に係る構成は、上記第１の観点に係る構成に、部分単語系列生成手段によって変換された部分単語系列が予め定められた登録条件を満たしているか否かを判定する登録条件判定手段を追加し、登録条件を満たしていると判定された部分単語系列だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【００５５】
このような構成においては、登録条件を適切に設定することにより、部分単語系列生成手段での認識誤りの結果変換出力される部分単語系列、つまり明らかに入力音声とは対応しない部分単語系列が使用者登録単語辞書に登録されて、主音声認識手段の認識性能の低下を招くのを防止することが可能となる。
【００５６】
ここで登録条件としては、例えば部分単語系列生成手段によって変換（生成）された部分単語系列の尤度（認識の確からしさ）との比較により条件成立の有無が判定されるものが適用可能である。このように、部分単語系列の尤度を調べて、基準値以下の場合は登録しないようにすることによって、部分単語系列生成手段がもっともらしい部分単語系列を出力できなかった（誤認識した）ときに生成される系列が登録される問題を減らすことができる。
【００５７】
この他に、１単語当たりの登録可能な部分単語系列の数に上限値Ｎを設けて、その上限値Ｎを登録条件の１つに用い、部分単語系列の個数がＮ以下の場合には、尤度に無関係に全て使用者登録単語辞書に登録し、Ｎを越えている場合には、尤度の大きい順に上位Ｎ個を使用者登録単語辞書に登録することも可能である。このようにすると、メモリ（記憶領域）の制約の大きい装置では、登録される部分単語系列の個数を制限することが可能となる。
【００５８】
本発明の第３の観点に係る構成は、上記第１の観点に係る構成に、部分単語系列生成手段によって変換された全ての部分単語系列について、その部分単語系列を表す情報を使用者に提示して、その登録の可否について使用者からの指定を受け付け、その受け付けた指定内容に応じて対応する部分単語系列の登録の可否を確認する登録確認手段を追加し、使用者から登録指示がなされた部分単語系列に対応する情報だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【００５９】
このような構成においては、雑音等の影響により部分単語系列生成手段で認識誤りが発生したにも拘らず、雑音の種類によって偶然大きな値の尤度が得られるような場合でも、得られた部分単語系列を表す情報を使用者に提示することで、使用者は部分単語系列生成手段での認識誤りを確認して、登録の可否を指示できるため、誤った部分単語系列の情報が使用者登録単語辞書に登録されるのを防止できる。
【００６０】
本発明の第４の観点に係る構成は、上記第１の観点に係る構成に、部分単語系列生成手段によって変換された全ての部分単語系列について、その部分単語系列を表す情報を使用者に提示し、当該情報を対象とする使用者の編集操作を受け付けて、当該情報に対する編集処理を行い、その編集処理の結果を対応する部分単語系列に反映させると共に、当該情報に対する登録の可否について使用者からの指定を受け付けて、その受け付けた指定内容に応じて対応する部分単語系列の登録の可否を確認する登録編集手段を追加し、部分単語系列生成手段により入力音声から生成された部分単語系列の修正等を可能とすると共に、使用者から登録指示がなされた部分単語系列に対応する情報だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【００６１】
このような構成においては、部分単語系列生成手段で認識誤りがあった場合に、それを確認、修正した上で登録できるため、再発声することなく登録可能となる。
【００６４】
本発明の第５の観点に係る構成は、上記第１の観点に係る構成に、使用者登録単語辞書に登録されている部分単語系列に対応する情報を文字情報に変換して使用者に提示し、当該情報を対象とする使用者の編集操作を受け付けて、当該情報に対する編集処理を行い、その編集処理の結果を使用者登録単語辞書に反映させる使用者単語登録辞書編集手段を追加したことを特徴とする。
【００６５】
このような構成においては、使用者登録単語辞書に登録された情報を使用者が確認することができ、しかも不具合があった場合に訂正することもできる。
【００６６】
本発明の第６の観点に係る構成は、上記第１乃至第４の観点に係る構成のいずれかに、単語の読みを表す文字列情報から生成された部分単語系列に対応する情報が、使用者登録単語辞書と同一の表現形式で登録された文字登録単語辞書を追加し、主音声認識手段による認識処理に際しては、使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得すると共に、文字登録単語辞書に登録されている各部分単語系列に対応する情報からも部分単語音声モデルがつなぎ合わされた単語音声モデルを取得し、これらの各単語音声モデルを用いて、使用者が発声した音声を認識するようにしたことを特徴とする。
【００６７】
このような構成においては、使用者登録単語辞書、及び文字登録単語辞書がそれぞれ異なる方法で単語登録がなされるにも拘らず、部分単語系列に対応する情報の表現形式（登録形式）を一致させたことで、１つの認識方式のみで両者を同時に用いて音声認識を行うことが可能となり、装置の構成の簡略化が図れる。ここで、文字登録単語辞書は予め認識単語が登録された状態で装置に予め組み込まれているものであっても、着脱可能な記録媒体に記憶された状態で提供されるものであっても構わない。また、同じ装置内で、キーボード等の文字入力手段から入力される単語の読み情報をもとに登録されるものであっても構わない。
【００６８】
本発明の第７の観点に係る構成は、上記第１乃至第４の観点に係る構成のいずれかにおける部分単語系列生成手段が、単語登録モード時だけでなく、音声認識モード時にも、使用者が発声した音声を認識して少なくとも１個の部分単語の系列を生成する構成とすると共に、次のような使用時単語登録判定手段、即ち音声認識モード時に、部分単語系列生成手段により生成された部分単語系列の尤度、主音声認識手段の認識結果、及び当該認識結果の尤度の少なくとも１つをもとに、部分単語系列生成手段により生成された部分単語系列の登録の可否を判定し、その判定結果に応じて当該部分単語系列の情報を使用者登録単語辞書に追加登録する使用時単語登録判定手段を新たに設けたことを特徴とする。
【００６９】
このような構成においては、使用者が特殊な発声をしたために（例：なまりが強い）、主音声認識手段の認識精度が低下して認識結果の尤度も低下する傾向にある場合でも、主音声認識手段による認識処理と並行して行われる部分単語系列生成手段での認識処理で生成される部分単語系列の情報を、使用時単語登録判定手段の判定によって使用者登録単語辞書に登録し、次回からはそれも用いて認識が行えるようにすることで、主音声認識手段の認識精度を高めることができる。
【００７０】
ここで、部分単語系列の登録の可否を判定するのに、部分単語系列の尤度が基準値より大きいものだけを登録可とする第１の方式、部分単語系列の尤度を認識結果の尤度と比較し、認識結果の尤度より基準値以上大きい尤度の部分単語系列だけを登録可とする第２の方式、認識結果の尤度が基準値より小さい場合に、全ての部分単語系列、或いは尤度が上位の一定個数を上限とする部分単語系列を登録可とする第３の方式、使用者が発声した単語が既知であり、その単語と認識結果とが一致しない場合に、部分単語系列生成手段での認識処理で生成される部分単語系列を登録可とする第４の方式、この第４の方式に対象となる部分単語系列の尤度を判定条件に加え、例えば使用者が発声した単語と認識結果とが一致せず、且つ部分単語系列の尤度が基準値より大きい場合に登録可とする第５の方式などが適用可能である。なお、上記第４または第５の方式を適用可能とするためには、特別のモード（適応モード）を用意すると共に、そのモードでは、装置から使用者に単語を提示して（提示する単語は、使用者が指定するものであっても構わない）、その単語を使用者に発声させるインタフェース機能を設ければよい。
【００７１】
これにより、使用者の音声に逐次適応する音声認識装置を実現することができる。
【００７２】
本発明の第８の観点に係る構成は、上記第１乃至第４の観点に係る構成のいずれかにおける部分単語系列生成手段が、単語登録モード時だけでなく、音声認識モード時にも、使用者が発声した音声を認識して少なくとも１個の部分単語の系列を生成する構成とすると共に、次のような使用時単語登録確認手段、即ち主音声認識手段による認識結果出力時に使用者からの部分単語系列登録指示の受け付けを行い、当該登録指示を受け付けた際には、部分単語系列生成手段によって生成され且つ登録指示された部分単語系列に対応する情報を使用者登録単語辞書に追加登録する使用時単語登録確認手段を新たに設けたことを特徴とする。
【００７３】
このような構成においては、使用者が特殊な発声をしたために（例：なまりが強い）、主音声認識手段の認識精度が低下して認識結果の尤度も低下し、認識結果が誤っている場合でも、主音声認識手段による認識処理と並行して行われる部分単語系列生成手段での認識処理で生成される部分単語系列の情報を、使用者からの主音声認識手段の認識結果を考慮した登録指示に従って使用者登録単語辞書に登録し、次回からはそれも用いて認識が行えるようにすることで、主音声認識手段の認識精度を高めることが可能となる。これにより、使用者の音声に逐次適応する音声認識装置を実現することができる。
【００７４】
なお、上記第７または第８の観点に係る構成における部分単語系列生成手段に代えて、音声認識モード時には、予め定められた条件が成立した場合だけ、入力音声に対する認識処理を行って部分単語系列を生成する部分単語系列を用いると共に、音声認識モード時に使用者が発声した音声を一時記憶するための入力音声記憶手段を新たに設け、更に上記使用時単語登録判定手段に代えて、音声認識モード時に、主音声認識手段の認識結果の尤度をもとに上記条件の成立の有無を判定し、条件成立を判定した場合には入力音声記憶手段に記憶されている音声を部分単語系列生成手段に入力させて当該部分単語系列生成手段を動作させ、当該部分単語系列生成手段により生成される部分単語系列の尤度、主音声認識手段の認識結果、及び当該認識結果の尤度の少なくとも１つをもとに、部分単語系列生成手段により生成された部分単語系列の登録の可否を判定して、その判定結果に応じて当該部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段を設けた構成とすることも可能である。
【００７５】
このような構成においては、主音声認識手段の認識結果の尤度が上記条件を満たさない場合、例えば認識結果の尤度が大きい場合には、部分単語系列生成手段による認識処理は行われないため、つまり使用者による平均的な発声に対しては部分単語系列生成手段は起動されないため、高速でないコンピュータで、部分単語系列生成手段の機能等を実現するのに適している。
【００７６】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【００７７】
［第１の実施形態］
図１は本発明の第１の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図である。
【００７８】
図１の装置では、単語登録と音声認識（認識処理）の２つのモードが使用者から選択指定可能なようになっている。単語登録時には、モード切替部１１の切り替えにより、入力音声が部分単語系列生成部１２に入力されて、その入力音声が音素、音韻などに相当する少なくとも１個の部分単語の系列に変換され、その部分単語系列に対応する情報が使用者登録単語辞書１３に登録される。一方、認識処理時には、入力音声はモード切替部１１により主音声認識部１４に入力され、使用者登録単語辞書１３の登録内容から取得される、部分単語音声モデルがつなぎ合わされた単語音声モデル、例えば部分単語ＨＭＭのパラメータがつなぎ合わされた単語音声ＨＭＭのパラメータを用いて、入力音声が認識される。
【００７９】
上記のように、単語登録時には、入力音声はまず部分単語系列生成部１２に入力される。部分単語系列生成部１２は、入力音声を部分単語の系列に変換する。
【００８０】
部分単語系列生成部１２の内部構成例を図２に示す。
【００８１】
ここでは、部分単語系列生成部１２は、音響分析部１２１、量子化部１２２、部分単語接続表１２３、部分単語ＨＭＭ認識部１２４、部分単語ＨＭＭ辞書１２５、及び単語ＨＭＭ生成部１２６から構成される。音響分析部１２１及び量子化部１２２は、図４４に示した従来のサブワード型不特定話者音声認識装置の主音声認識部４４０に用いられる音響分析部４４１及び量子化部４４２と同様である。また部分単語ＨＭＭ辞書１２５は、図４４中の部分単語ＨＭＭ辞書４６０に相当する。
【００８２】
部分単語接続表１２３には、直接連結可能な音韻の組み合わせが登録されている。この表（テーブル）１２３は、「子音と子音は連接しない」、「促音、撥音は語頭には存在しない」などの日本語音声の制約を用いてより高精度に認識するために用いる。部分単語接続表１２３の一例を図３に示す。この例では、先行部分単語毎に後続し得る音韻が登録されている。図３において、部分単語「＃」は語頭を表す仮想的な音韻に対する記号、「＆」は語尾を表す仮想的な音韻に対する記号である。
【００８３】
部分単語ＨＭＭ認識部１２４は部分単語ＨＭＭ辞書１２５を用いて入力音声の部分単語単位（ここでは音韻単位）での認識を行い、その認識結果として部分単語接続表１２３に従って部分単語が接続された少なくとも１個の部分単語系列を出力する。この部分単語ＨＭＭ認識部１２４の詳細について、図４乃至図６のフローチャートを参照して以下に述べる。
【００８４】
部分単語接続表１２３に従って部分単語を接続してできる系列は無数にある。部分単語ＨＭＭ認識部１２４は、その系列を動的に生成しながら、入力音声に対応するラベル系列を出力する部分単語モデル系列とそのビタビ（ｖｉｔｅｒｂｉ）スコアを探索する。
【００８５】
これは以下のようにして計算する。
【００８６】
部分単語の系列をΧ＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X))］と表す。J(X)は部分単語系列の長さである。ビタビアルゴリズムで用いた配列Ｄを照合に用いた部分単語の系列毎に保持し、それらをＤ^Xと表すことにする。また、配列Ｄ^Xの状態数方向の大きさをΗ^Xに保持する。Η^Xは、部分単語系列Ｘの末尾の部分単語ｘ(J(X))に対応する部分単語ＨＭＭの状態数Ｎ^x(J(X))に等しい。但し仮想的な音韻「＃」に対する状態数は１とする。つまりΗ^[#]＝１である。配列Ｚは、Ｄ^Xを保持している。
【００８７】
まず、配列Ｄ^[#]を生成して、Ｄ^[#](1,1) ＝０に初期化し、Ｄ^[#]をＺに追加する（ステップＳ１〜Ｓ３）。
【００８８】
次に、ｔを１からＴまで１ずつ増加させながら（ステップＳ４，Ｓ５，Ｓ２１）、ステップＳ６〜Ｓ２０を繰り返す。
【００８９】
ステップＳ６〜Ｓ２０では、ＺからＤ^Xを１つずつ系列長J(X)の小さい順に取り出しながら（ステップＳ６，Ｓ７）、ステップＳ８〜Ｓ２０が繰り返される。
【００９０】
ステップＳ８では、Ｘが［＃］であるか否かが調べられ、Ｘ＝［＃］の場合には、ｔ＝１であればＤ^X(t,1) に０が代入され、ｔ≠１であればＤ^X(t,1) に−∞が代入され（ステップＳ９）、ステップＳ１８からの処理に進む。
【００９１】
これに対し、Ｘ≠［＃］の場合には、以下に述べる部分単語の第１状態の処理（ステップＳ１０，Ｓ１１，Ｓ１２またはＳ１０，Ｓ１１，Ｓ１３）を行う。
【００９２】
まず、現在着目しているＤ^Xの履歴Ｘ＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X))］の最後の部分単語を取り除いた履歴がＸ１＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X)-1)］とされる（ステップＳ１０）。
【００９３】
次に、ＺにＤ^X1，Ｈ^X1が存在するか否かが調べられ（ステップＳ１１）、存在する場合はそれを取り出し、ステップＳ１２を行う。存在しない場合はステップＳ１３を行う。
【００９４】
ステップＳ１２では、ｄ₁＝Ｄ^X1（t,Η^X1）と、ｄ₂＝Ｄ^X(t-1,1) ＋ ln ｐ(1,1) ＋ ln ｑ(1,1,y(t))の大きいほうの値を、Ｄ^X(t,1) に代入する。
【００９５】
これに対してステップＳ１３では、ｄ＝Ｄ^X(t-1,1) ＋ ln ｐ(1,1) ＋ ln ｑ(1,1,y(t))を計算し、Ｄ^X(t,1) に代入する。
【００９６】
ステップＳ１２またはＳ１３を実行すると、以下に述べる部分単語の第２状態以降（第２状態〜第Ｎ^J(X)状態）の処理（ステップＳ１４〜Ｓ１７）を行う。
【００９７】
ここでは、ｎを２からＮ^J(X)まで１ずつ増加させながら（ステップＳ１５，Ｓ１７）、ステップＳ１６を繰り返す。このステップＳ１６では、ｄ₁＝Ｄ^X(t-1,n-1) ＋ ln ｐ(n-1,n) ＋ ln ｑ(n-1,n,y(t))と、ｄ₂＝Ｄ^X(t-1,n) ＋ ln ｐ(n,n) ＋ ln ｑ(n,n,y(t))とを計算し、そのｄ₁とｄ₂のうちの大きいほうの値をＤ^X(t,n) に代入する。
【００９８】
次に、Ｄ^X（t,Η^X）が−∞であるか否かが調べられ、Ｄ^X（t,Η^X）が−∞の場合には何もせずにステップＳ６に戻る。これに対してＤ^X（t,Η^X）が−∞でない場合には、以下に述べる新しいＤの生成処理（ステップＳ１９，Ｓ２０）を実行する。
【００９９】
ここでは、Ｘの末尾の部分単語ｘ(J(X))に後続することのできる部分単語ｘ′₁，ｘ′₂，…を部分単語接続表１２３から全て探し、それらをＸに接続して新たな系列Ｘ′₁，Ｘ′₂，…を作る（ステップＳ１９）。
【０１００】
つまり、Ｘ′₁＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X))，ｘ′₁］，Ｘ′₂＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X))，ｘ′₂］，…となる。
【０１０１】
次に、ステップＳ１９で生成した系列Ｘ′₁，Ｘ′₂，…のそれぞれについて、それに対応するＤがＺ内に既に存在するか否かを調べ、存在しなかった場合には新たにＤ，Ηを生成してＺに追加する（ステップＳ２０）。ここで、新たに作成したＤは、全てＤ(0〜T, 1〜N)＝−∞に初期化しておく。
【０１０２】
このステップＳ２０の実行により、現在注目しているＤ^Xの処理は終了となり、ステップＳ６に戻る。
【０１０３】
以上の動作が、ｔを１からＴまで１ずつ増加させながら、また各ｔについてＺからＤ^Xを１つずつ系列長J(X)の小さい順に取り出しながら繰り返された結果、ｔの値がＴを越えた時点で、Ｚ内に含まれるＤ^X（Ｔ，Η^X）にそれぞれの系列Χに対するビタビスコアが求まっていることになる。そこで、部分単語接続表１２３を参照して、系列Ｘの末尾の部分単語が「＆」に接続可能な部分単語系列を選択し、これを降順に並び替えることで、ビタビスコアの大きい順に系列（部分単語系列）Ｘとそのビタビスコアの組を求めることができる。
【０１０４】
実際にはＴが大きくなると、Ｚ内に保持するＤの個数が爆発的に増加するため、Ｄの生成、計算を一定の条件下でしか行わないように制限して、高速化を図る場合が多い。
【０１０５】
簡単には、ステップＳ１８の段階で−∞と比較するのではなく、ｆ（ｔ）＝αｔ（但しαは定数）と比較するように変更して、新たなＤの生成を制限し、Ｚ内のＤの個数を抑制することで高速化を図る。更には、ステップＳ６に戻る際に、注目しているＤ^X(t,1〜Ｎ) が、ｇ（ｔ）＝βｔ（但しβは定数）よりも全て小さい場合に、そのＤ^XをＺから削除することで、Ｚに含まれるＤを減らすことも行われる。
【０１０６】
高速化の手法を一切行わなければステップＳ１３の処理は必要ないが、例えばｇ（ｔ）を用いた高速化を行う場合には、ステップＳ１１で参照するＤ^X1が削除されることがあるため、ステップＳ１３が必要となる。
【０１０７】
部分単語系列を求める計算法及び高速化法はこの他にも様々なものが存在するが、本発明ではこの部分の認識方式は問わない。
【０１０８】
さて、部分単語ＨＭＭ認識部１２４は、以上のようにして入力されたラベル系列に対するビタビスコアが入力ラベル列長Ｔの関数ｇ（Ｔ）＝γＴよりも大きい部分単語系列が存在すればそれらを全て選択し、存在しないときは最大のビタビスコアを持つ部分単語系列を出力する。
【０１０９】
なお、出力する部分単語系列を選沢する方法として、最大のビタビスコアを持つ系列のみを出力するとか、上位の予め定められた個数の系列を出力する、などの方法もある。
【０１１０】
部分単語ＨＭＭ認識部１２４により出力される１つまたは複数の部分単語系列は単語ＨＭＭ生成部１２６に渡される。単語ＨＭＭ生成部１２６は、部分単語ＨＭＭ認識部１２４から出力された部分単語系列を構成する部分単語によって部分単語ＨＭＭ辞書１２５を参照する。この部分単語ＨＭＭ辞書１２５の登録内容は、図４４に示した従来のサブワード型不特定話者音声認識装置の部分単語ＨＭＭ辞書１２５の登録内容（図４６参照）と同様であり、当該部分単語ＨＭＭ辞書１２５には、種々の部分単語音声モデルとしての部分単語ＨＭＭのパラメータが部分単語名（部分単語モデル名）と対をなして登録されている。
【０１１１】
これにより単語ＨＭＭ生成部１２６は、部分単語ＨＭＭ認識部１２４から出力された部分単語系列に従って、部分単語ＨＭＭ辞書１２５に登録されている部分単語ＨＭＭ（のパラメータ）を連結することで、使用者が発声した単語の単語音声モデルとしての単語ＨＭＭ（のパラメータ）を生成する。そして単語ＨＭＭ生成部１２６は、部分単語ＨＭＭ認識部１２４から出力された部分単語系列の情報として、使用者が発声した単語の単語名と、対応する単語ＨＭＭ（のパラメータ）の対を使用者登録単語辞書１３に登録する。
【０１１２】
使用者登録単語辞書１３の一例を図７に示す。この図７は、単語登録時（単語登録モード）で「社員」という単語に対して使用者が「しゃいん」と発声したときに、部分単語系列生成部１２内の部分単語ＨＭＭ認識部１２４が「ｙ，ａ，ｉ，Ｎ」という１個の部分単語系列を出力し、「役員」という単語に対して使用者が「やくいん」と発声したときに部分単語系列生成部１２内の部分単語ＨＭＭ認識部１２４が「ｙ，ａ，ｋ，ｕ，ｉ，Ｎ」「ｙ，ａ，ｐ，ｕ，ｉ，Ｎ」の２個の部分単語系列を出力した場合の、単語名と単語ＨＭＭの対の登録例を示している。
【０１１３】
一方、認識処理時（音声認識モード）には、入力音声はモード切替部１１により主音声認識部１４に入力される。
【０１１４】
主音声認識部１４は、図４４に示した従来のサブワード型不特定話者音声認識装置と全く同様にして、（図４４中の単語ＨＭＭ辞書４５０に相当する）使用者登録単語辞書１３に登録された単語ＨＭＭのそれぞれのパラメータを用いて、入力ラベル系列に対するビタビスコアを単語毎に計算する。そして主音声認識部１４は、最大のビタビスコアを持つ単語を認識結果として出力する。
【０１１５】
主音声認識部１４の構成は、従来のサブワード型不特定話者音声認識装置と同様であり、図８に示すように、（図４４中の音響分析部４４１、量子化部４４２、及びＨＭＭ認識部４４３に相当する）音響分析部１４１、量子化部１４２、及びＨＭＭ認識部１４３を有している。ここで、主音声認識部１４内の音響分析部１４１及び量子化部１４２と、部分単語系列生成部１２内の音響分析部１２１及び量子化部１２２とを独立に設ける必要はなく、いずれか一方を共有使用することで、他方を不要とすることができる。
【０１１６】
さて、図７の使用者登録単語辞書１３の例では、認識処理時に使用者が「しゃいん」と音声入力した場合、主音声認識部１４では、この音声から生成されたラベル系列に対して、社員の単語ＨＭＭと役員の単語ＨＭＭ（２個ある）のビタビスコアが計算される。
【０１１７】
もし、「社員」のビタビスコアが−４０、「役員」のビタビスコアが−８０と−１００であるものとすると、主音声認識部１４での認識結果は単語「社員」となる。
【０１１８】
また、使用者が「やくいん」と音声入力した場合に、この音声から生成されたラベル系列に対して、同様にビタビスコアが計算され、「社員」のビタビスコアが−５０、「役員」のビタビスコアが−３０と−４０であるならば、認識結果は単語「役員」となる。
【０１１９】
以上の例では、使用者登録単語辞書１３に直接、単語ＨＭＭのパラメータを登録するものとして説明したが、部分単語系列生成部１２内の部分単語ＨＭＭ認識部１２４から出力される部分単語系列を図９に示すように当該使用者登録単語辞書１３に登録するようにしても構わない。
【０１２０】
使用者登録単語辞書１３の辞書登録形式（辞書構造）として、（図７ではなくて）図９のような形式を適用する場合、部分単語系列生成部１２は部分単語系列を出力して使用者登録単語辞書１３に登録すればよいため単語ＨＭＭを生成する必要がなく、したがって図２とは異なって、部分単語系列生成部１２に単語ＨＭＭ生成部１２６を設ける必要はない。この場合の部分単語系列生成部１２の構成を図１０に示す。
【０１２１】
これに対して主音声認識部１４には、図８とは異なって、図１１に示すように（図２中の部分単語ＨＭＭ辞書１２５及び単語ＨＭＭ生成部１２６に相当する）部分単語ＨＭＭ辞書１４５及び単語ＨＭＭ生成部１４６を追加する必要がある。単語ＨＭＭ生成部１４６は、使用者登録単語辞書１３を参照して各単語の部分単語系列を取得し、その部分単語系列を構成する部分単語によって部分単語ＨＭＭ辞書１４５を参照することで各部分単語の部分単語ＨＭＭ（のパラメータ）を取得し、それを連結して各単語の単語ＨＭＭを生成する。
【０１２２】
ＨＭＭ認識部１４３は、単語ＨＭＭ生成部１４６が生成した各単語の単語ＨＭＭのビタビスコアをそれぞれ計算し、最大のビタビスコアを持つ単語を認識結果として出力する。
【０１２３】
なお、使用者登録単語辞書１３の登録形式を図９のようにして、図１０及び図１１の構成を適用する場合、図１０の構成の部分単語系列生成部１２で使用する部分単語ＨＭＭ辞書（１２５）と、図１１の構成の主音声認識部１４で使用する部分単語ＨＭＭ辞書（１４５）の内容が同一のものであるならば、いずれか一方を共有使用して、他方を不要としても構わない。この場合、共有使用する部分単語ＨＭＭ辞書は、部分単語系列生成部１２及び主音声認識部１４の外部に設けられているものであっても構わない。また、単語ＨＭＭ生成部（１２６または１４６）も、部分単語系列生成部１２または主音声認識部１４の一部とせず、その外部に設けるようにしても構わない。
【０１２４】
また、使用者登録単語辞書１３の登録形式を図９のようにした場合、図１１の構成の主音声認識部１４で使用する部分単語ＨＭＭと、図１０の構成の部分単語系列生成部１２で使用する部分単語ＨＭＭとが異なっていても構わない。例えば、部分単語系列生成部１２にて部分単語系列を生成する場合には、高精度に照合を行うために５状態の部分単語ＨＭＭを使用し、主音声認識部１４では高速に大量の単語との照合を行うために３状態の部分単語ＨＭＭを使用するような構成を適用することも可能である。このように、主音声認識部１４で使用する部分単語ＨＭＭが、部分単語系列生成部１２で使用する部分単語ＨＭＭと異なっている場合には、図１０及び図１１の例のように、それぞれの部分単語ＨＭＭ辞書（１２５，１４５）を別個に用意すればよい。
【０１２５】
さて、主音声認識部１４で使用する部分単語の体系と、部分単語系列生成部１２で使用する部分単語の体系が異なる場合が考えられる。例えば、主音声認識部１４では直前の音素毎に区別した音素を部分単語として用いる場合がある。つまり、音素「ｋ」の後の「ａ」を「（ｋ）ａ」とし、音素「ｓ」の後の「ａ」を「（ｓ）ａ」として両者を区別する。
【０１２６】
そのためには、図１２に示すように、主音声認識部１４で使用する部分単語の体系を適用した部分単語ＨＭＭ辞書１５と、単語ＨＭＭ生成部１６とを設ける必要がある。
【０１２７】
部分単語ＨＭＭ辞書１５の登録形式自体は、直前の音素毎に区別した音素を部分単語として用いている点を除けば、これまで述べてきた部分単語ＨＭＭ辞書１２５，１４４、更には部分単語ＨＭＭ辞書４６０（図４４参照）と同様である。この部分単語ＨＭＭ辞書１５の一例を図１３に示す。図１３中の「＃」は語頭を表す仮想的な音素に与えた記号である。
【０１２８】
図１２の構成において、単語ＨＭＭ生成部１６は、部分単語系列生成部１２が生成した部分単語系列（音素系列）を主音声認識部１４で使用する部分単語の体系に変換する。そして単語ＨＭＭ生成部１６は、変換後の部分単語系列に従って部分単語ＨＭＭ辞書１５内に登録されている部分単語ＨＭＭを選択し、それを接続することで単語ＨＭＭを作成して、使用者登録単語辞書１３に登録する。
【０１２９】
例えば、「社員」という単語に対して使用者が「社員」と発声して登録したときに部分単語系列生成部１２が「ｙ，ａ，ｉ，Ｎ」という系列を出力した場合を考える。
【０１３０】
この場合、単語ＨＭＭ生成部１６は、部分単語系列「ｙ，ａ，ｉ，Ｎ」の各音素を、直前の音素も考慮して部分単語系列「（＃）ｙ，（ｙ）ａ，（ａ）ｉ，（ｉ）Ｎ」に変換する。さらに「（＃）ｙ，（ｙ）ａ，（ａ）ｉ，（ｉ）Ｎ」という並び順に、部分単語ＨＭＭ辞書１５から対応する部分単語ＨＭＭを取り出し、それらを連結して単語ＨＭＭを生成する。
【０１３１】
部分単語系列生成部１２及び主音声認識部１４の動作は、図１の構成の場合と同様である。
【０１３２】
［第２の実施形態］
次に、本発明の第２の実施形態について説明する。
【０１３３】
まず、単語「社員」に対して使用者が「しゃいん」と発声して登録使用した場合を考える。この音声の登録の際に、音声の直前の部分で雑音が混入してしまうと、その雑音部分も含んだ部分単語系列が生成されてしまう。つまり、「ｐ，ａ，ｈ，ｕ，ｓｙ，ａ，ｉ，Ｎ」のような部分単語系列が生成されてしまう。ここで、「ｐ，ａ，ｈ，ｕ」の部分は、誤って雑音に対して生成してしまった部分単語系列である。
【０１３４】
これをそのまま使用者登録単語辞書（１３）に登録してしまうと、認識処理時に使用者が発声した音声「しゃいん」に対する単語「社員」の単語ＨＭＭ（「ｐ，ａ，ｈ，ｕ，ｓｙ，ａ，ｉ，Ｎ」）のビタビスコアは小さくなってしまう。したがって、認識結果に「社員」が選ばれにくくなり、認識性能が低下する。
【０１３５】
第２の実施形態は、このような誤った部分単語系列の登録を自動的に防止する機構を実現するものである。
【０１３６】
図１４は、本発明の第２の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１と同一部分には同一符号を付してある。
【０１３７】
図１４の構成において、部分単語系列生成部１２は、入力音声を１つまたは複数の部分単語系列（少なくとも１つの部分単語系列）に変換し、その部分単語系列を出力する。この際、部分単語系列生成部１２は、前記第１の実施形態における図１０の構成と異なって、部分単語系列と同時にその系列のビタビスコアも出力する。
【０１３８】
図１４の構成の特徴は、図１の構成に対して登録条件判定部２１が追加されている点にある。この登録条件判定部２１には、部分単語系列生成部１２から出力される部分単語系列及びその系列のビタビスコアが送られる。
【０１３９】
登録条件判定部２１は、部分単語系列生成部１２から部分単語系列と対になって送られるビタビスコアを、ラベル系列長Ｔの関数である登録判定関数γ（Ｔ）＝ＲＴ（Ｒは定数）と比較し、当該γ（Ｔ）＝ＲＴの値より大きいスコアの場合だけ、対応する部分単語系列を使用者登録単語辞書１３に登録する。
【０１４０】
部分単語ＨＭＭは、対応する部分単語の音声に対するビタビスコアが大きくなるように構成されるため、雑音に代表される非音声に対するビタビスコアは小さくなることが多い。したがって、上述した例では、部分単語「ｐ，ａ，ｈ，ｕ，ｓｙ，ａ，ｉ，Ｎ」に対するビタビスコアは、正常な音声区間を部分単語系列に変換したときに期待されるビタビスコアよりも小さくなる。
【０１４１】
したがって、上記のように、部分単語系列生成部１２から出力される部分単語系列に対して、その系列のビタビスコアをもとに使用者登録単語辞書１３に登録すべきか否かを登録条件判定部２１にて判定することで、スコアの悪い誤った部分単語系列が使用者登録単語辞書１３に登録されるのを自動的に防止することができる。
【０１４２】
なお、登録条件判定部２１での登録判定方法、即ち部分単語系列生成部１２で生成された部分単語系列を使用者登録単語辞書１３に登録するか否かを判定する方法は種々考えられる。本発明ではその判定方法は問わないが、例えば以下に述べるように部分単語系列の個数で登録を制限することも可能である。
【０１４３】
部分単語系列のビタビスコアが比較的大きい単語系列が多数出現する場合がある。前記第１の実施形態における部分単語系列生成部１２では、ｇ（Ｔ）よりも大きいビタビスコアを持つ部分単語系列が全て出力される。
【０１４４】
しかし、メモリ（記憶領域）の制約が強い装置の場合には、使用者登録単語辞書１３内の１単語が占める領域をできるだけ小さくするために、単語当たりの部分単語系列の個数を制限したい。
【０１４５】
このような場合には、登録条件判定部２１での登録判定を以下のようにする。但し、単語当たりの最大部分単語系列数をＮとする。
【０１４６】
まず、部分単語系列の個数がＮ以下の場合は全て使用者登録単語辞書１３に登録する。これに対し、部分単語系列の個数がＮ以上の場合は、ビタビスコアの大きい順に部分単語系列を整列し、上位Ｎ個を使用者登録単語辞書１３に登録する。
【０１４７】
これにより、使用者登録単語辞書１３に登録される部分単語系列の個数を制限することができる。
【０１４８】
［第３の実施形態］
前記第２の実施形態においても述べたように、雑音等の影響で、非音声区間まで含めて部分単語系列に変換してしまった場合、認識処理時の主音声認識部（１４）での認識性能は低下してしまう。
【０１４９】
多くの場合、部分単語ＨＭＭは雑音に対してはうまく照合できないため、そのような部分単語系列のビタビスコアは小さい値になるのだが、雑音の種類によっては部分単語ＨＭＭとたまたま照合してしまい、部分単語系列のビタビスコアが大きくなってしまう場合がある。このような場合、前記第２の実施形態で適用した登録条件判定部２１による登録判定では、誤った部分単語系列の登録を防止することができない。
【０１５０】
しかし、部分単語系列は、使用した話者が発声した音声に相当する部分単語系列に概ね対応するため、このような誤りは使用者が部分単語系列を確認することで発見できる。
【０１５１】
第３の実施形態は、このような誤った部分単語系列の登録を、使用者が確認することによって防止する機構を実現するものである。
【０１５２】
図１５は、本発明の第３の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１４と同一部分には同一符号を付してある。
【０１５３】
図１５の構成の特徴は、図１４の構成において登録条件判定部２１に代えて登録確認部３１を用いている点、つまり図１の構成に対して登録確認部３１が追加されている点にある。この登録確認部３１には、部分単語系列生成部１２から出力される部分単語系列が送られる。
【０１５４】
登録確認部３１は、図１６に示すように、部分単語系列文字列変換部３１１、部分単語系列表示文字列対応表３１２、使用者操作部３１３、文字列表示処理部３１４、表示器３１５、及び使用者操作判定部３１６から構成される。
【０１５５】
部分単語系列文字列変換部３１１は、部分単語系列生成部１２が出力した部分単語系列を、使用者に分かりやすい系列の文字列に変換する。本実施形態では、使用者が確認しやすいように平仮名に変換して表示する例を述べる。この部分単語系列文字列変換部３１１は、図１７に示すように、部分単語系列平仮名変換部３１１ａ及び部分単語系列平仮名対応表３１１ｂから構成される。
【０１５６】
部分単語系列平仮名対応表３１１ｂの一例を図１８に示す。図１８の例では、部分単語系列平仮名対応表３１１ｂには、平仮名に変換できる部分単語系列と対応する平仮名（の文字コード）とが組になって登録されている。
【０１５７】
部分単語系列平仮名変換部３１１ａは、図１９のフローチャートに従って次のように動作する。
【０１５８】
まず、平仮名変換部３１１ａは、部分単語系列生成部１２から送られる部分単語系列を入力する（ステップＳ３１）。この部分単語系列をＸ＝［ｘ(1) ，ｘ(2) ，…，ｘ(J(X))］とする。また、変換の結果得られる文字列（結果文字列）をＳとする。
【０１５９】
次に平仮名変換部３１１ａは、変換バッファａ及び結果文字列バッファＳを空にし、部分単語系列Ｘ内の部分単語を指すポインタｉを１に初期設定する（ステップＳ３１，Ｓ３２）。
【０１６０】
次に平仮名変換部３１１ａは、ｉ＝１〜ｉ＝J(X)まで、以下に述べるステップＳ３５〜Ｓ４０を繰り返し、ｉがJ(X)を越えたならば（ステップＳ３４）、一連の処理を終了する。
【０１６１】
即ち平仮名変換部３１１ａは、ｉがJ(X)以下の場合には（ステップＳ３４）、まず部分単語系列Ｘ内のｉ番目の部分単語ｘ(i) を変換バッファａに追加する（ステップＳ３５）。
【０１６２】
次に平仮名変換部３１１ａはｉを１増加する。
【０１６３】
次に文字列変換部３１１は、変換バッファａ内の部分単語系列（または部分単語）と等しい部分単語系列（または部分単語）を部分単語系列平仮名対応表３１１ｂから探し（ステップＳ３７）、見つかった場合には（ステップＳ３８）、ステップＳ３９に進む。これに対して見つからなかった場合には、ステップＳ３４に戻る。
【０１６４】
ステップＳ３９では、変換バッファａ内の部分単語系列に対応する平仮名文字列を部分単語系列平仮名対応表３１１ｂから取得して結果文字列バッファＳに追加し、当該バッファａの内容を消去した後（ステップＳ４０）、ステップＳ３４に戻る。
【０１６５】
以上の動作をｉ＝１〜ｉ＝J(X)まで繰り返すことにより、部分単語系列Ｘに対する平仮名文字列への変換が終了し、結果文字列バッファＳに変換結果（平仮名文字列）が得られる。
【０１６６】
部分単語系列文字列変換部３１１（内の平仮名変換部３１１ａ）により部分単語系列から変換された平仮名文字列は当該部分単語系列と対にして部分単語系列表示文字列対応表３１２に登録されると同時に、文字列表示処理部３１４に送られる。この部分単語系列表示文字列対応表３１２における登録例を図２０に示す。
【０１６７】
図１６中の使用者操作部３１３は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「肯定」（ここでは「登録する」）を意味するキースイッチ、「否定」（ここでは「登録しない」）を意味するキースイッチ（いずれも図示せず）を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部３１４に出力される。
【０１６８】
文字列表示処理部３１４は、単語登録時には、使用者の指定した単語についての単語登録確認画面を表示器３１５に表示し、その画面上に部分単語系列文字列変換部３１１から変換出力される文字列（平仮名文字列）を表示する。
【０１６９】
図２１に単語登録確認画面の表示例を示す。この単語登録確認画面には、部分単語系列文字列変換部３１１から出力される各文字列の表示欄（文字列表示欄）２１１毎に、その文字列を登録するか否かの指示を入力するための登録指示欄２１２が設けられると共に、各登録指示欄２１２の入力内容を決定するためのもう１つの登録指示欄（決定欄）２１３が設けられる。これら登録指示欄２１２及び２１３は、登録指示入力フィールド２１４をなす。また、単語登録確認画面には、登録指示入力フィールド２１４内を上下に移動可能なカーソル２１５が表示される。
【０１７０】
文字列表示処理部３１４は、使用者操作部３１３から使用者の操作情報を受け取り、それに応じて、以下のように表示を変化させる。
【０１７１】
「カーソル上移動」の場合、今カーソル２１５がある行より上に登録指示欄２１２があれば、カーソル２１５を１つ上の登録指示欄２１２に移す。
【０１７２】
「カーソル下移動」の場合、今カーソル２１５がある行より下に登録指示欄２１２または２１３があれば、カーソル２１５を１つ下の登録指示欄２１２または２１３に移す。移動先が登録指示欄２１３、即ち決定欄２１３のときは、「登録する」のマークが付いている平仮名列を使用者操作判定部３１６に出力し、動作を終了する。
【０１７３】
「肯定」の場合、今カーソル２１５がある登録指示欄２１２に「登録する」のマーク（ここでは、○印）を付ける。
【０１７４】
「否定」の場合、今カーソル２１５がある登録指示欄２１２に「登録しない」のマーク（ここでは、×印）を付ける。
【０１７５】
図２１の表示例は、使用者が単語「社員」の登録を要求し、単語「社員」に対応して「しゃいん」と発声した際に、雑音の影響で部分単語系列生成部１２から「ｇ，ａ，ｂ，ａ，ｓｙ，ａ，ｉ，Ｎ」「ｇ，ａ，ｄ，ａ，ｓｙ，ａ，ｉ，Ｎ」「ｇ，ａ，ｂ，ａ，ｓｙ，ａ，ｉ，ｇ，ｕ」という３つの部分単語系列が出力された場合の単語登録確認画面を示したものである。それぞれの部分単語系列は、登録確認部３１内の部分単語系列文字列変換部３１１にて平仮名文字列に変換され、「がばしゃいん」「がだしゃいん」「がばしゃいぐ」が文字列表示欄２１１に表示されている。ここでは、「がばしゃいん」が表示された文字列表示欄２１１に対応する登録指示欄２１２に「登録する」を意味する「○印」が表示され、「がだしゃいん」が表示された文字列表示欄２１１に対応する登録指示欄２１２に、「登録する」または「登録しない」を選択指定するために、カーソル２１５が移動されている。
【０１７６】
使用者操作判定部３１６は、カーソル２１５が決定欄２１３に入った結果、文字列表示処理部３１４から出力される文字列、即ち使用者により「登録する」ことが指定された文字列を、（図２０に示したような）部分単語系列表示文字列対応表３１２を用いて部分単語系列に変換し、その部分単語系列を使用者登録単語辞書１３に登録する。
【０１７７】
なお、図２１の表示例では、表示文字列が画面の表示幅内に収まっているが、表示文字列が画面の表示幅よりも長い場合には、左右にスクロールする機溝を設けるか、もしくは複数行に折り畳んで表示すればよい。また、表示文字列の個数が画面の行数よりも多い場合には、上下にスクロールする機構を設ければよい。
【０１７８】
このように本実施形態においては、使用者が音声で入力した単語を、部分単語系列に変換してから辞書登録を行うため、その辞書登録前に、部分単語系列を使用者に分かりやすい系列の文字列（ここでは平仮名文字列）に変換して使用者に提示することで、使用者は音声登録しようとする内容、つまり部分単語系列生成部１２から出力される部分単語系列が認識誤りのある系列であるか否かを、（使用者にとって分かりにくい部分単語系列のレベルではなくて）文字列のレベルで事前に確認することができ、誤った部分単語系列が登録されるのを阻止することができる。
【０１７９】
なお、部分単語系列を文字列に変換して使用者に提示するのに、その文字列を表示する他に、その文字列を表す音声を規則合成等により出力して使用者に提示することも可能である。
【０１８０】
［第４の実施形態］
次に、本発明の第４の実施形態について説明する。この第４の実施形態は、誤った部分単語系列が出力された場合であっても、その誤った部分単語系列（の少なくとも一部分）を使用者が簡単な編集操作で正しい部分単語系列に修正することができ、これにより正しい部分単語系列の登録を可能とする機構を実現するものである。
【０１８１】
図２２は、本発明の第４の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１５と同一部分には同一符号を付してある。
【０１８２】
図２２の構成の特徴は、図１５の構成において登録確認部３１に代えて登録編集部４１を用いている点、つまり図１の構成に対して登録編集部４１が追加されている点にある。この登録編集部４１には、部分単語系列生成部１２から出力される部分単語系列が送られる。
【０１８３】
登録編集部４１は、図２３に示すように、（前記第３の実施形態における登録確認部３１の１構成要素である、図１７の部分単語系列文字列変換部３１１と同一構成の）部分単語系列文字列変換部４１１、使用者操作部４１３、文字列表示処理部４１４、表示器４１５、及び文字列部分単語系列変換部４１６から構成される。
【０１８４】
使用者操作部４１３は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「カーソル左移動」を意味するキースイッチ、「カーソル右移動」を意味するキースイッチ、「フィールド切り替え」を意味するキースイッチ、「肯定」（「登録する」）を意味するキースイッチ、「否定」（「登録しない」）を意味するキースイッチ、文字の「削除」を意味するキースイッチ、各「平仮名文字」に対応するキースイッチ（いずれも図示せず）を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部４１４に出力される。
【０１８５】
文字列表示処理部４１４は、使用者の指定した単語についての単語登録確認時には単語登録編集画面を表示器４１５に表示し、その画面上に部分単語系列生成部１２から出力される部分単語系列に対応する文字列（平仮名文字列）を表示する。この部分単語系列に対応する文字列は、部分単語系列文字列変換部４１１による、図１７の構成の部分単語系列文字列変換部３１１と同様の変換動作により、当該文字列変換部４１１から出力されるものである。この文字列変換部４１１での部分単語系列から文字列（平仮名文字列）への変換には、上記部分単語系列文字列変換部３１１内の部分単語系列平仮名対応表３１１ｂの内容（図１８参照）と同一内容の部分単語系列平仮名対応表（図示せず）が用いられる。
【０１８６】
図２４に単語登録編集画面の表示例を示す。この単語登録編集画面には、部分単語系列文字列変換部４１１から出力される各文字列を表示・編集するための文字列編集フィールド２４１と、当該文字列編集フィールド２４１上の文字列を登録するか否かの指示を入力するための登録指示入力フィールド２４２とが設けられる。登録指示入力フィールド２４２は、文字列編集フィールド２４１上の各文字列に対応して設けられる登録指示欄２４３と、各登録指示欄２４３の入力内容を決定するためのもう１つの登録指示欄（決定欄）２４４とからなる。また、単語登録編集画面には、文字列編集フィールド２４１及び登録指示入力フィールド２４２内を移動可能なカーソル２４５が表示される。
【０１８７】
文字列表示処理部４１４は、使用者操作部４１３から使用者の操作情報を受け取り、それに応じて表示を変化させる。
【０１８８】
まず、カーソル２４５が登録指示入力フィールド２４２内にある場合の動作は次の通りである。
【０１８９】
「カーソル上移動」の場合、今カーソル２４５がある行より上に登録指示欄２４３があれば、カーソル２４５を１つ上の登録指示欄２４３に移す。
【０１９０】
「カーソル下移動」の場合、今カーソル２４５がある行より下に登録指示欄２４３または２４４があれば、カーソル２４５を１つ下の登録指示欄２４３または２４４に移す。移動先が登録指示欄２４４、即ち決定欄２４４のときは、「登録する」のマークが付いている平仮名列を文字列部分単語系列変換部４１６に出力し、動作を終了する。
【０１９１】
「肯定」の場合、今カーソル２４５がある登録指示欄２４３に「登録する」のマーク（ここでは、○印）を付ける。
【０１９２】
「否定」の場合、今カーソル２４５がある登録指示欄２４３に「登録しない」のマーク（ここでは、×印）を付ける。
【０１９３】
「フィールド切り替え」の場合、カーソル２４５を文字列編集フィールド２４１上の対応する文字列の先頭位置に移動する。
【０１９４】
それ以外の場合は無視する。
【０１９５】
一方、カーソル２４５が文字列編集フィールド２４１内にある場合の動作は次の通りである。
【０１９６】
「カーソル右移動」の場合、今カーソル２４５がある文字の右隣に文字があればカーソル２４５を１文字右に移す。
【０１９７】
「カーソル左移動」の場合、今カーソル２４５がある文字の左隣に文字があればカーソル２４５を１文字左に移す。
【０１９８】
「削除」の場合、今カーソル２４５がある文字を消し、そこから右側にある文字を全て１文字ずつ左に詰める。
【０１９９】
「平仮名文字」のいずれかの場合、今カーソル２４５がある文字から右を全て１文字ずつ右にずらし、空いた位置（もともとカーソル２４５があった位置）にその平仮名文字を表示する。
【０２００】
「フィールド切り替え」の場合、カーソル２４５を登録指示入力フィールド２４２にある、対応する登録指示欄２４３に移動する。
【０２０１】
それ以外の場合は無視する。
【０２０２】
図２４の表示例は、前記第３の実施形態と同様に、使用者が単語「社員」の登録を要求し、単語「社員」に対応して「しゃいん」と発声した際に、雑音の影響で部分単語系列生成部１２から「ｇ，ａ，ｂ，ａ，ｓｙ，ａ，ｉ，Ｎ」「ｇ，ａ，ｄ，ａ，ｓｙ，ａ，ｉ，Ｎ」「ｇ，ａ，ｂ，ａ，ｓｙ，ａ，ｉ，ｇ，ｕ」という３つの部分単語系列が出力された場合の単語登録編集画面を示したものである。それぞれの部分単語系列は、登録編集部４１内の部分単語系列文字列変換部４１１にて平仮名文字列に変換され、「がばしゃいん」「がだしゃいん」「がばしゃいぐ」が文字列編集フィールド２４１に表示されている。ここでは、表示文字列「がばしゃいん」に対応する登録指示欄２４３に「登録しない」を意味する「×印」が表示され、表示文字列「がだしゃいん」中の「だ」の位置にカーソル２４５が移動されている。
【０２０３】
この状態で、使用者が使用者操作部４１３を操作して「削除」キースイッチを押すと、文字列表示処理部４１４は文字列「がだしゃいん」中の「だ」を削除する。これにより、文字列「がだしゃいん」は「がしゃいん」となる。更に、使用者がカーソル２４５を「がしゃいん」中の「が」の位置に移動させて、「削除」キースイッチを押すと、文字列表示処理部４１４は文字列「がしゃいん」中の「が」を削除する。このようにして、文字列「がばしゃいん」を文字列編集フィールド上で編集して、図２５に示すように単語「社員」の入力音声に対する正しい平仮名文字列「しゃいん」に修正することができる。
【０２０４】
この状態で、使用者が「フィールド切り替え」キースイッチを押すと、カーソル２４５は文字列「しゃいん」に対応する登録指示欄２４３に移動される。更に使用者が「肯定」キースイッチを押すと、図２５に示すように、文字列「しゃいん」に対応する登録指示欄２４３に「登録する」のマーク（○）が表示される。
【０２０５】
また、使用者がカーソル２４５を文字列編集フィールド２４１内の文字列「がばしゃいぐ」に対応する登録指示欄２４３に移動させて、「否定」キースイッチを押すと、当該登録指示欄２４３に図２５に示すように「登録しない」のマーク（×）が表示される。
【０２０６】
この状態で、使用者がカーソル２４５を決定欄２４４に移動させると、文字列表示処理部４１４は「登録する」のマーク（○）が付いている平仮名列「しゃいん」を文字列部分単語系列変換部４１６に出力する
文字列部分単語系列変換部４１６は、前記第３の実施形態における部分単語系列文字列変換部４１１とは逆の動作により、文字列表示処理部４１４から出力された平仮名文字列を部分単語系列に変換し、それを使用者登録単語辞書１３に登録する。
【０２０７】
ここで、文字列部分単語系列変換部４１６の詳細を説明する。
【０２０８】
文字列部分単語系列変換部４１６は、図２６に示すように、平仮名部分単語系列変換部４１６ａ、及び部分単語系列平仮名対応表４１６ｂから構成される。この部分単語系列平仮名対応表４１６ｂの内容は、部分単語系列文字列変換部４１１内の図示せぬ部分単語系列平仮名対応表の内容と同一、つまり図１７の構成の部分単語系列文字列変換部３１１内の部分単語系列平仮名対応表３１１ｂの内容（図１８参照）と同一である。したがって、部分単語系列文字列変換部４１１と文字列部分単語系列変換部４１６とで、部分単語系列平仮名対応表を共有することも可能である。
【０２０９】
文字列部分単語系列変換部４１６内の平仮名部分単語系列変換部４１６ａによる平仮名文字列から部分単語系列への変換動作は次のように行われる。
【０２１０】
まず、平仮名文字列をＳとし、長さをＪ(S) 、ｉ文字目の平仮名をＳ(i) で表す。変換の結果得られる部分単語系列（のバッファ）をＸとする。
【０２１１】
（１）Ｘを空にする。
【０２１２】
（２）ｉを１からＪ(S) まで１ずつ増加させ（３）を繰り返し実行する。
【０２１３】
（３）部分単語系列平仮名対応表４１６ｂから、平仮名Ｓ(i) に対応する部分単語系列を探し、その部分単語系列をＸに追加する。
【０２１４】
このように本実施形態においては、使用者が音声で入力した単語を、部分単語系列に変換してから辞書登録を行うことから、その辞書登録前に、部分単語系列を使用者に分かりやすい系列の文字列（ここでは平仮名文字列）に変換して使用者に提示して、使用者による文字列の編集操作に供することによって、使用者は音声登録しようとする内容、つまり部分単語系列生成部１２から出力される部分単語系列が認識誤りのある系列であっても、それを事前に確認して（使用者にとって分かりにくい部分単語系列のレベルではなくて）文字列のレベルで正しいものに修正することができる。しかも、修正後の文字列を自動的に部分単語系列に変換して登録することができる。したがって、本実施形態においては、音声登録した内容を文字列編集によって編集できるといえる。
【０２１５】
［第５の実施形態］
次に、本発明の第５の実施形態について説明する。
【０２１６】
以上に述べた実施形態、例えば第１の実施形態において、使用者が単語を漢字表記の読み通りに登録している場合には問題は少ない。しかし、独自の読み・略称で登録している場合には、使用者本人がどのように登録したかを忘れてしまう虞があり、その場合には問題となる。また、複数の使用者が１台の音声認識装置を利用する場合、他の使用者が登録した内容が分からないという問題もある。したがって、音声登録内容を使用者が確認できるようにことは認識装置の維持、管理の上で非常に有用である。また、文字登録できる別の音声認識装置がある場合には、確認した（表示された）文字列をその音声認識装置に登録し直すことで、音声で登録した登録内容を他の音声認識装置に容易にコピーできるようになる。
【０２１７】
第５の実施形態は、使用者登録単語辞書１３の登録内容を利用者に分かりやすい形態で提示することを可能とする機構を実現するものである。
【０２１８】
図２７は、本発明の第５の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１と同一部分には同一符号を付してある。
【０２１９】
図２７の構成の特徴は、図１の構成に対して使用者単語登録辞書表示部５１が追加されている点にある。なお、図２７中の使用者登録単語辞書１３には、図９に示したような登録形式、つまり単語名と対応す単語を構成する部分単語系列の対が登録される登録形式が用いられるものとする。
【０２２０】
使用者単語登録辞書表示部５１は、使用者登録単語辞書１３に登録された部分単語系列の情報を使用者に分かりやすい系列の文字情報、例えば平仮名文字列に変換して使用者に提示するものであり、図２８に示すように、（前記第３の実施形態における部分単語系列文字列変換部３１１と同一構成の）部分単語系列文字列変換部５１１、文字列表示処理部５１４、及び表示器５１５から構成される。
【０２２１】
部分単語系列文字列変換部５１１は、使用者登録単語辞書１３から単語名と部分単語系列の対を読み出し、部分単語系列に対して前記部分単語系列文字列変換部３１１と同様の変換を行い、使用者登録単語辞書１３から読み出した単語名と、対応する部分単語系列を変換して得られた文字列との対を、文字列表示処理部５１４に出力する。
【０２２２】
したがって、使用者登録単語辞書１３の内容が図９のようになっている場合であれば、単語「社員」と文字列「やいん」の対、単語「役員」と文字列「やくいん」の対、そして単語「役員」と文字列「やぷいん」の対が文字列表示処理部５１４に出力される。
【０２２３】
文字列表示処理部５１４は、部分単語系列文字列変換部５１１から出力された単語名と文字列の対を表示器５１５に一覧表示する。これにより使用者は、使用者登録単語辞書１３の登録内容を容易に確認することができる。この表示例を図２９に示す。
【０２２４】
なお、以上に述べた第５の実施形態では、図１の構成に使用者単語登録辞書表示部５１を追加した場合について説明したが、図２の構成、図１４の構成、図１５の構成、または図２２の構成に使用者単語登録辞書表示部５１を追加することも可能である。
【０２２５】
［第６の実施形態］
次に、本発明の第６の実施形態について説明する。
【０２２６】
前記第５の実施形態では、使用者登録単語辞書１３の内容を使用者に分かりやすい形態で提示することで、使用者は登録内容を容易に確認することができた。しかし、第５の実施形態では、部分単語系列生成部１２で誤った部分単語系列が生成されて使用者登録単語辞書１３に登録された場合には、それを編集（変更、削除）する機能を持たないため、それが主音声認識部１４の認識性能に悪影響を及ぼす虞がある。
【０２２７】
そこで第６の実施形態は、使用者登録単語辞書１３の登録内容が確認できるだけでなく、登録内容が編集できる機構を実現するものである。
【０２２８】
図３０は、本発明の第６の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図２７と同一部分には同一符号を付してある。
【０２２９】
図３０の構成の特徴は、図２７の構成において使用者単語登録辞書表示部５１に代えて使用者単語登録辞書編集部６１を用いている点、つまり図１の構成に対して使用者単語登録辞書編集部６１が追加されている点にある。
【０２３０】
使用者単語登録辞書編集部６１は、図３１に示すように、（前記第３の実施形態における部分単語系列文字列変換部３１１と同一構成の）部分単語系列文字列変換部６１１、使用者操作部６１３、文字列表示処理部６１４、表示器６１５、及び辞書操作部６１６から構成される。
【０２３１】
本実施形態で適用される図３０中の使用者登録単語辞書１３には、図９に示したような登録形式、つまり単語名と対応す単語を構成する部分単語系列の対が登録される登録形式が用いられる他、図３２に示すように、それぞれの登録内容にユニークな番号（以下、単語番号と称する）が付されているものとする。
【０２３２】
使用者単語登録辞書編集部６１内の部分単語系列文字列変換部６１１は、図３２に示す構造の使用者登録単語辞書１３から単語名と部分単語系列の対を読み出し、部分単語系列に対して前記部分単語系列文字列変換部３１１と同様の変換を行い、その単語名に付されている単語番号と、その単語名と、対応する部分単語系列を変換して得られた文字列との組を、文字列表示処理部６１４に出力する。
【０２３３】
さて、使用者操作部６１３は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「カーソル左移動」を意味するキースイッチ、「カーソル右移動」を意味するキースイッチ、「フィールド切り替え」を意味するキースイッチ、「項目の削除」を意味するキースイッチ、「項目の変更」を意味するキースイッチ、文字の「削除」を意味するキースイッチ、各「平仮名文字」に対応するキースイッチ（いずれも図示せず）を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部６１４に出力される。
【０２３４】
文字列表示処理部６１４は、使用者登録単語辞書１３の編集時には、使用者登録単語辞書編集画面を表示器６１５に表示し、その画面上に部分単語系列文字列変換部６１１から出力される単語名と文字列とを一覧表示する。
【０２３５】
図３３に使用者登録単語辞書編集画面の表示例を示す。この使用者登録単語辞書編集画面には、単語名を表示するための単語名表示フィールド３３１と、当該単語名表示フィールド３３１上の単語名と組をなして部分単語系列文字列変換部６１１から出力される文字列を表示・編集するための文字列編集フィールド３３２と、当該文字列編集フィールド３３２上の文字列に対する編集（ここでは、変更、削除）を行うか否かの指示等を入力するための編集指示入力フィールド３３３とが設けられる。編集指示入力フィールド３３３は、文字列編集フィールド３３２上の各文字列に対応して設けられ、編集指示内容（変更または削除）を入力するための編集指示欄３３４と、各編集指示欄３３４の入力内容に従う辞書操作部６１６による辞書操作を起動するためのもう１つの編集指示欄（決定欄）３３５とからなる。また、単語登録編集画面には、文字列編集フィールド３３２及び編集指示入力フィールド３３３内を移動可能なカーソル３３６が表示される。
【０２３６】
文字列表示処理部６１４は、使用者操作部６１３から使用者の操作情報を受け取り、それに応じて表示を変化させる。
【０２３７】
まず、カーソル３３６が編集指示入力フィールド３３３内にある場合の動作は次の通りである。
【０２３８】
「カーソル上移動」の場合、今カーソル３３６がある行より上に編集指示欄３３４があれば、カーソル３３６を１つ上の編集指示欄３３４に移す。
【０２３９】
「カーソル下移動」の場合、今カーソル３３６がある行より下に編集指示欄３３４または３３５があれば、カーソル３３６を１つ下の編集指示欄３３４または３３５に移す。移動先が編集指示欄３３５、即ち決定欄３３５のときは、「削除する」及び「変更する」のマークがついている全ての項目について、マークの表す操作内容、単語番号、単語名及び文字列の４個を組にして、辞書操作部６１６に出力し、動作を終了する。
【０２４０】
「項目の変更」の場合、今カーソル３３６がある編集指示欄３３４に「変更する」のマーク（ここでは、○印）を付ける。
【０２４１】
「項目の削除」の場合、今カーソル３３６がある編集指示欄３３４に「削除する」のマーク（ここでは、×印）を付け、カーソル３３６を文字列編集フィールド３３２上の対応する文字列の先頭位置に移動する。
【０２４２】
それ以外の場合は無視する。
【０２４３】
一方、カーソル３３６が文字列編集フィールド３３２内にある場合の動作は次の通りである。
【０２４４】
「カーソル右移動」の場合、今カーソル３３６がある文字の右隣に文字があればカーソル３３６を１文字右に移す。
【０２４５】
「カーソル左移動」の場合、今カーソル３３６がある文字の左隣に文字があればカーソル３３６を１文字左に移す。
【０２４６】
「削除」の場合、今カーソル３３６がある文字を消し、そこから右側にある文字を全て１文字ずつ左に詰める。
【０２４７】
「平仮名文字」のいずれかの場合、今カーソル３３６がある文字から右を全て１文字ずつ右にずらし、空いた位置（もともとカーソル３３６があった位置）にその平仮名文字を表示する。
【０２４８】
「フィールド切り替え」の場合、カーソル３３６を編集指示入力フィールド３３３にある、対応する編集指示欄３３４に移動する。
【０２４９】
それ以外の場合は無視する。
【０２５０】
図３３の表示例は、図３２に示した使用者登録単語辞書１３の内容、つまり単語番号１の単語名「社員」の部分単語系列「ｙ，ａ，ｉ，Ｎ」、単語番号２の単語名「役員」の部分単語系列「ｙ，ａ，ｋ，ｕ，ｉ，Ｎ」、単語番号３の単語名「役員」の部分単語系列「ｙ，ａ，ｐ，ｕ，ｉ，Ｎ」に対応する文字列（平仮名文字列）「やいん」「やくいん」「やぷいん」が、対応する単語番号及び単語名と共に部分単語系列文字列変換部６１１から出力された場合の使用者登録単語辞書編集画面を示したものである。
【０２５１】
この状態で、使用者が使用者操作部６１３のキースイッチを用いて適切な編集操作を行うことによって、例えば図３４のような使用者登録単語辞書編集画面を得ることができる。
【０２５２】
図３４の画面は次のようにして得られる。
【０２５３】
まず図３３に示すように、文字列編集フィールド３３２上の第１行の文字列「やいん」に対応する決定欄３３５に「変更する」のマーク（○）を表示させる。すると、カーソル３３６が当該第１行の文字列「やいん」の先頭文字「や」の位置に移動する。この状態で、「削除」キースイッチを押して「や」を削除し、そのままの状態で「平仮名」キースイッチにより「「し」「ゃ」と入力することで、文字列「やいん」を図３４のように「しゃいん」に訂正する。次に、カーソル３３６を文字列編集フィールド３３２上の第３行の文字列「やぷいん」に対応する決定欄３３５に移動して、当該決定欄３３５に「削除する」のマーク（×）を表示させる。図３４は、このときの使用者登録単語辞書編集画面を示している。
【０２５４】
この状態で、カーソルを決定欄３３５に移動させると、文字列表示処理部６１４は「○」が付いている行の情報、即ち「変更、単語番号１、社員、しゃいん」の組と、「×」が付いている行の情報、即ち「削除、単語番号３、役員、やぷいん」の組とを辞書操作部６１６に出力する。
【０２５５】
辞書操作部６１６は、文字列表示処理部６１４から、操作内容、単語番号、単語名及び文字列からなる情報組を受け取り、それに従って使用者登録単語辞書１３を次のように操作する。
【０２５６】
まず、受け取った情報組中の操作内容が「変更」であった場合、辞書操作部６１６は、当該組情報中の単語番号を持つ項目の登録内容を使用者登録単語辞書１３（図３２参照）から検索し、その登録内容の部分単語系列の部分を、当該組情報中の文字列を部分単語系列に変換したもので置き換える。したがって、当該情報組の内容が上記した「変更、単語番号１、社員、しゃいん」の場合には、図３２から明らかなように、単語番号１の項目の登録内容中の部分単語系列「ｙ，ａ，ｉ，Ｎ」が「ｓｙ，ａ，ｉ，Ｎ」に置き換えられる。なお、辞書操作部６１６による文字列から部分単語系列への変換は、前記第４の実施形態における文字列部分単語系列変換部４１６（内の平仮名部分単語系列変換部４１６ａ）と同様にして行うことができる。
【０２５７】
次に、受け取った情報組中の操作内容が「削除」であった場合、辞書操作部６１６は、当該組情報中の単語番号を持つ項目の登録内容を使用者登録単語辞書１３から検索し、その登録内容（項目）を使用者登録単語辞書１３から削除する。したがって、当該情報組の内容が上記した「削除、単語番号３、役員、やぷいん」の場合には、図３２から明らかなように、単語番号３の項目が削除される。
【０２５８】
この結果、辞書操作部６１６での上記の操作が終了した後の使用者登録単語辞書１３の登録内容は、図３２の状態から図３５の状態に変わる。
【０２５９】
なお、以上に述べた第６の実施形態で適用した使用者単語登録辞書編集部６１は、図２の構成、図１４の構成、図１５の構成、または図２２の構成にも同様に適用可能である。
【０２６０】
［第７の実施形態］
次に、本発明の第７の実施形態について説明する。
【０２６１】
従来のサブワード型不特定話者音声認識装置では、単語の登録は読みを文字で入力することで行っていた。特にシステム設計時に登録される単語（操作コマンドの一般的な呼称に対する読み）などは、システム設計者が文字列で入力して登録することが多い。
【０２６２】
一方、以上に述べた実施形態、例えば第１の実施形態で適用した音声での単語登録により実現される使用者登録単語辞書１３も部分単語で表現される。
【０２６３】
したがって、両者の単語登録情報の表現形式を統一することによって、異なる手段（音声と文字）で登録された辞書を区別することなく使用し、認識に用いることが可能である。つまり、システム設計時に登録した単語と、使用者が登録した単語を区別することなく使用し、認識に用いることが可能である。
【０２６４】
第７の実施形態は、システム設計時に登録した単語と、使用者が登録した単語を区別することなく使用することを可能とすることで、主音声認識部の構成の簡略化を図るようにしたものである。
【０２６５】
図３６は、本発明の第７の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１と同一部分には同一符号を付してある。
【０２６６】
図３６の構成の特徴は、図１の構成に対して使用者登録単語辞書１３と同一の表現形式（登録形式）の文字登録単語辞書７３が追加されている点と、図１中の主音声認識部１４に代えて、使用者登録単語辞書１３及び文字登録単語辞書７３の両単語辞書を用いて入力音声の認識を行う主音声認識部７４を用いている点にある。
【０２６７】
文字登録単語辞書７３は、例えば図３７のように、文字列部分単語系列変換部７５を用いて作成される。
【０２６８】
文字列部分単語系列変換部７５は、前記第４の実施形態における図２６の構成の文字列部分単語系列変換部４１６と同様の変換機能を有しており、キーボード等から入力された文字列（ここでは平仮名列）を、図１８に示した部分単語系列平仮名対応表３１１ｂと同様の内容の部分単語系列平仮名対応表（図示せず）をもとに部分単語系列に変換する。
【０２６９】
また文字列部分単語系列変換部７５は、前記第１の実施形態における単語ＨＭＭ生成部１２６と同様の単語ＨＭＭ生成機能も有しており、図４６に示したのと同様の部分単語ＨＭＭ辞書を用い、入力文字列から変換した部分単語系列に従って当該部分単語ＨＭＭ辞書に登録されている部分単語ＨＭＭ（のパラメータ）を連結することで、入力文字列により構成される単語の単語音声モデルとしての単語ＨＭＭ（のパラメータ）を生成する。文字列部分単語系列変換部７５は、このようにして生成した単語ＨＭＭ（のパラメータ）を、入力文字列により構成される単語の単語名と対にして文字登録単語辞書７３に登録する。
【０２７０】
文字登録単語辞書７３の一例を図３８に示す。この図３８は、「社外」という単語の登録のために使用者が「しゃがい」という文字列を入力し、「社内」という単語の登録のために「しゃない」という文字列を入力した場合の登録例を示している。
【０２７１】
なお、文字登録単語辞書７３を作成する部分（文字列部分単語系列変換部７５）は、図３６の音声認識装置内に組み込まれていても、音声認識装置には組み込まていなくても構わない。後者の場合には、作成した文字登録単語辞書７３の内容を、フロッピーディスク、ＣＤ−ＲＯＭ等の着脱可能な記録媒体に記録して音声認識装置に装着するとか、通信回線等を介して音声認識装置内の記憶装置にローディングすればよい。
【０２７２】
さて、本実施形態における使用者登録単語辞書１３には、図７に示した登録形式を適用している。この図７に示した使用者登録単語辞書１３の登録形式と、図３８に示した文字登録単語辞書７３の登録形式とは同一であり、単語名と単語ＨＭＭ（のパラメータ）の対が登録される形式となっている。
【０２７３】
このため主音声認識部７４は、認識処理において文字登録単語辞書７３を使用者登録単語辞書１３と同様に利用することができる。したがって主音声認識部７４には、使用者登録単語辞書１３と文字登録単語辞書７３との両単語辞書を用いるにも拘らず、例えば図８に示した主音声認識部１４の構成と同様の構成を適用することができる。但し、主音声認識部７４では、（図８中のＨＭＭ認識部１４３に相当する）ＨＭＭ認識部（図示せず）が、使用者登録単語辞書１３と文字登録単語辞書７３の両辞書を参照し、両辞書に含まれる全ての単語についてビタビスコアを求める点で異なっている。
【０２７４】
次に、使用者登録単語辞書１３と文字登録単語辞書７３の両辞書を利用しての主音声認識部７４での認識処理の具体例について説明する。
【０２７５】
認識処理時に、使用者が「しゃいん」と音声入力したものとする。この場合、「しゃいん」と発声された音声から生成されたラベル系列に対して、図７の登録内容を持つ使用者登録単語辞書１３を参照して「社員」の単語ＨＭＭと「役員」の単語ＨＭＭ（２個ある）のビタビスコアが計算されると共に、図３８の登録内容を持つ文字登録単語辞書７３を参照して「社内」の単語ＨＭＭと「社外」の単語ＨＭＭのビタビスコアが計算される。ここでは、「社員」のビタビスコアが−４０、「役員」のビタビスコアが−８０と−１００、「社外」のビタビスコアが−７０、「社内」のビタビスコアが−７５であるものとすると、認識結果は単語「社員」となる。
【０２７６】
次に、使用者が「しゃない」と音声入力したものとする。この場合にも、「しゃない」と発声された音声から生成されたラベル系列に対して、同様にビタビスコアが計算される。もし、「社員」のビタビスコアが−９０、「役員」のビタビスコアが−７５と−７０、「社外」のビタビスコアが−５５、「社内」のビタビスコアが−３５であるものとすると、認識結果は単語「社内」となる。
【０２７７】
以上の例では、使用者登録単語辞書１３と文字登録単語辞書７３とを全く別個に持っているが、文字で登録した単語と音声で登録した単語の区別を必要としない場合には、両者を同じ領域に保持していても構わない。
【０２７８】
例えば、図７に示した使用者登録単語辞書１３の登録内容及び図３８に示した文字登録単語辞書７３の登録内容を共通の辞書（以下、文字・音声登録単語辞書と称する）の領域に保持する場合であれば、文字・音声登録単語辞書は図３９（ａ）のようになる。
【０２７９】
また、図３９（ｂ）に示すように、文字・音声登録単語辞書内にいずれの手段で登録されたかを示す属性、例えば文字で登録されたか音声で登録されたかを示すフラグを、登録内容毎に保持することで、両者を区別して扱いたい場合であっても、両者を同じ領域に混在させて保持することが可能となる。なお、図３９（ｂ）の例では、登録手段のみをフラグで表しているが、登録された日時の情報なども属性として登録しておくことも可能である。
【０２８０】
以上に述べた第７の実施形態で適用した使用者登録単語辞書１３と文字登録単語辞書７３とを併用する構成は、図２の構成、図１４の構成、図１５の構成、図２２の構成、図２７の構成、または図３０の構成にも同様に適用可能である。
【０２８１】
［第８の実施形態］
次に、本発明の第８の実施形態について説明する。
【０２８２】
前述の実施形態では、使用者が特殊な発声をする場合（例：なまりが強い）、主音声認識部（１４）の認識精度が低下することがある。このようなとき、主音声認識部（１４）での認識処理で求められる各単語毎の尤度（ビタビスコア）は低下する傾向がある。このような傾向にある場合、部分単語系列生成部（１２）の認識結果を使用者登録単語辞書（１３）に登録し、次回からはそれも用いて認識を行うならば、主音声認識部（１４）の認識精度を高めることが可能となる。
【０２８３】
第８の実施形態は、入力音声に対して主音声認識部だけでなく部分単語系列生成部でも認識処理を行い、その結果をもとに部分単語系列の登録の可否を判定して使用者登録単語辞書に自動登録することで、主音声認識部の認識精度を高めることを可能としたものである。
【０２８４】
図４０は、本発明の第８の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図１と同一部分には同一符号を付してある。
【０２８５】
図４０の構成の特徴は、音声認識モードにおいて入力音声が主音声認識部１４だけでなく部分単語系列生成部１２にも入力される点と、部分単語系列生成部１２と主音声認識部１４の両者の認識処理の結果をもとに部分単語系列の登録の可否を判定して使用者登録単語辞書１３に登録する使用時単語登録判定部８１が新たに設けられている点にある。
【０２８６】
また本実施形態における主音声認識部１４が認識結果とその尤度（ビタビスコア）を出力する点も、それまでの実施形態とは異なる。また、部分単語系列生成部１２は、前記第２の実施形態におけるのと同様に、部分単語系列の他にその系列の尤度（ビタビスコア）を出力する。
【０２８７】
なお、図４０では、図１中のモード切替部１１に相当するモード切替部は省略されている。このモード切替部は、単語登録モードでは、図１中のモード切替部１１と同様に入力音声を部分単語系列生成部１２に入力するのに対し、音声認識モードでは、入力音声を主音声認識部１４及び部分単語系列生成部１２の両方に入力する。
【０２８８】
図４０の構成において、入力音声は、主音声認識部１４及び部分単語系列生成部１２のいずれにも入力される。主音声認識部１４は、使用者登録単語辞書１３を用いて前記第１の実施形態におけるのと同様にして入力音声に対する認識処理を行い、認識結果とその尤度（ビタビスコア）を出力する。一方、部分単語系列生成部１２は、前記第１の実施形態における単語登録モードの場合と同様にして、入力音声を部分単語系列に変換し、その部分単語系列とその尤度（ビタビスコア）を出力する。ここで、使用者登録単語辞書１３には、単語登録モードでの単語登録処理により単語登録がなされているものとする。
【０２８９】
使用時単語登録判定部８１は、主音声認識部１４から出力される認識結果の尤度と、部分単語系列生成部１２から出力される部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が予め定められた基準値（閾値）Ｚよりも大きい場合に、その部分単語系列を主音声認識部１４の認識結果に対応する部分単語系列として、使用者登録単語辞書１３に登録する。
【０２９０】
この使用時単語登録判定部８１の動作の詳細を、使用者登録単語辞書１３の内容が図４１（ａ）のようになっている場合を例に説明する。
【０２９１】
使用者Ａが「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部１４の出力が、単語「社員」でそのビタビスコアが−２５、部分単語系列生成部１２の出力が、ビタビスコアが−２０の部分単語系列「ｓｙ，ａ，ｉ」と、ビタビスコアが−２５の部分単語系列「ｓｙ，ａ，ｉ，Ｎ」であったものとする。
【０２９２】
使用時単語登録判定部８１はまず、単語「社員」のビタビスコア−２５と、部分単語系列「ｓｙ，ａ，ｉ」のビタビスコア−２０とを比較する。部分単語系列のビタビスコアの方が大きいので、使用時単語登録判定部８１はその差を求め、基準値Ｚと比較する。ここでは、基準値Ｚが２０に定められているものとすると、差５はＺより小さいため、使用時単語登録判定部８１は「ｓｙ，ａ，ｉ」の使用者登録単語辞書１３への登録を行わない。
【０２９３】
次に使用時単語登録判定部８１は、単語「社員」のビタビスコア−２５と、部分単語系列「ｓｙ，ａ，ｉ，Ｎ」のビタビスコア−２５とを比較する。部分単語系列のビタビスコアの方が大きくないので、登録は行われない。
【０２９４】
つまり、使用者Ａが発声した「しゃいん」という音声は、もともと登録されていた単語「社員」に対する部分単語系列「ｓｙ，ａ，ｉ，Ｎ」から期待される音声に非常に近い。これは、部分単語系列生成部１２の出力に「ｓｙ，ａ，ｉ，Ｎ」が含まれていること、最適な部分単語系列「ｓｙ，ａ，ｉ」のビタビスコアと、「ｓｙ，ａ，ｉ，Ｎ」のビタビスコアが比較的近い値であることからそう判断できる。したがって、この場合は使用者登録単語辞書１３に新しい項目を追加する必要はない。
【０２９５】
次に、別の使用者Ｂが「社員」を入力しようとして、「しゃいん」と発声し、主音声認識部１４の出力が、単語「社員」でそのビタビスコアが−５５、部分単語系列生成部１２の出力が、ビタビスコアが−２０の部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」と、ビタビスコアが−４５の部分単語系列「ｊ，ｅ，ｉ，Ｎ」であったものとする。
【０２９６】
使用時単語登録判定部８１はまず、単語「社員」のビタビスコア−５５と、部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」のビタビスコア−２０とを比較する。部分単語系列のビタビスコアの方が大きいので、使用時単語登録判定部８１はその差を求め、基準値Ｚ（＝２０）と比較する。差３５はＺより大きいため、使用時単語登録判定部８１は、単語「社員」に対応する部分単語系列として「ｓｙ，ｅ，ｉ，Ｎ」を新たに使用者登録単語辞書１３に登録する。
【０２９７】
次に使用時単語登録判定部８１は、単語「社員」のビタビスコア−５５と、部分単語系列「ｊ，ｅ，ｉ，Ｎ」のビタビスコア−４５とを比較する。部分単語系列のビタビスコアの方が大きいので、その差を求め、定数Ｚ（＝２０）と比較する。差１０はＺより小さいため、「ｊ，ｅ，ｉ，Ｎ」は登録されない。
【０２９８】
つまり、使用者Ｂが発声した「しゃいん」という音声は、もともと登録されていた単語「社員」に対する部分単語系列「ｓｙ，ａ，ｉ，Ｎ」から期待される音声と異なっている。これは、部分単語系列生成部１２が出力する最適な部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」のビタビスコアが、「ｓｙ，ａ，ｉ，Ｎ」のビタビスコアを大きく上回っていることから、このように判断できる。したがって、この場合は単語「社員」に対して使用者登録単語辞書１３に新しい部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」を追加登録するのは妥当である。
【０２９９】
以上の結果、図４１（ａ）の内容の使用者登録単語辞書１３は、図４１（ｂ）のようになる。この図４１（ｂ）に示した使用者登録単語辞書１３には、使用者Ｂの発声傾向に従って単語「社員」に対して新たな項目が追加されている。
【０３００】
このように、使用者登録単語辞書１３への認識結果の自動登録が可能な本実施形態の音声認識装置は、使用者が発声した単語が既知である場合に極めて有効に機能する。
【０３０１】
そこで、使用者が発声した単語が既知である場合の図４０の音声認識装置の構成の変形例について、便宜的に同じ図４０を参照して説明する。ここでは、適応モードと呼ぶ新たなモードを用意すると共に、当該適応モードでは使用者に対して単語を提示して、その単語の発声を指示するユーザインタフェース（図示せず）を設ける。
【０３０２】
使用者は、適応モードにおいて装置（内のユーザインタフェース）から提示された単語を発声する。
【０３０３】
適応モード時に使用者から発声された音声は主音声認識部１４及び部分単語系列生成部１２の両方に入力される。主音声認識部１４は、使用者登録単語辞書１３を用いて、装置（内のユーザインタフェース）が発声を指示した単語に対する尤度（ビタビスコア）を求めて出力する。一方、部分単語系列生成部１２は、入力音声を部分単語系列に変換し、その部分単語系列とその尤度（ビタビスコア）を出力する。
【０３０４】
使用時単語登録判定部８１は、主音声認識部１４の認識結果の尤度、即ち発声することを指示した単語の尤度と、部分単語系列生成部１２から出力された部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が基準値Ｚよりも大きい場合に、その部分単語系列を発声を指示した単語と対にして、使用者登録単語辞書１３に登録する。
【０３０５】
次に、使用者が発声した単語が既知である場合のもう一つの変形例について、便宜的に図４０を参照して説明する。
【０３０６】
適応モード時に発声された音声は主音声認識部１４及び部分単語系列生成部１２の両方に入力される。主音声認識部１４は、先の変形例とは異なって、発声を指示した単語に無関係に、使用者登録単語辞書１３を使って通常の認識を行う。部分単語系列生成部１２は入力音声を部分単語系列に変換して出力する。ここでは、部分単語系列の尤度は出力する必要はない。
【０３０７】
使用時単語登録判定部８１は、主音声認識部１４の認識結果が発声を指示した単語と同一であるか否かを判定し、異なっている場合には、部分単語系列生成部１２から出力された部分単語系列を発声を指示した単語と対にして、使用者登録単語辞書１３に登録する。なお、部分単語系列生成部１２から部分単語系列と共にその尤度も出力するようにして、使用時単語登録判定部８１での判定の条件に、部分単語系列の尤度を加える構成とすること（つまり、前記第２の実施形態における登録条件判定部２１の機能との組み合わせ）も可能である。
【０３０８】
以上は、図４０の音声認識装置（内の使用時単語登録判定部８１）において、主音声認識部１４と部分単語系列生成部１２の両出力をもとに、新たな部分単語系列を登録するか否かを決定する場合について説明したが、これに限るものではない。例えば、主音声認識部１４の認識結果の尤度のみで一度判定をし、その判定の結果に応じて部分単語系列生成部１２による認識処理を行わせ、当該部分単語系列生成部１２から出力される部分単語系列の尤度と比較することで、新たな部分単語系列を登録するか否かを判定するようにしても構わない。この図４０の構成の変形例について図４２のブロック構成図を参照して説明する。
【０３０９】
図４２の構成の音声認識装置では、まず入力音声は主音声認識部１４に入力され、それに対する認識結果と尤度（ビタビスコア）が計算される。それと同時に入力音声は入力音声バッファ８３に一時記憶される。
【０３１０】
（図４０中の使用時単語登録判定部８１に相当する）使用時単語登録判定部８２は、主音声認識部１４の認識結果の尤度（ビタビスコア）と、予め定めておいた基準値Ｚ１とを比較し、前者の方が大きい場合は、新たな部分単語系列の登録は行わないと判定する。
【０３１１】
これに対して後者の方が大きい場合には、使用時単語登録判定部８２は入力音声バッファ８３を制御して、当該バッファ８３に一時的に記憶されていた入力音声を部分単語系列生成部１２に出力させる。これにより部分単語系列生成部１２は、入力音声を部分単語系列に変換し、その部分単語系列と尤度（ビタビスコア）とを出力する。これ以降の使用時単語登録判定部８２の動作は前記した使用時単語登録判定部８１と同様である。
【０３１２】
即ち使用時単語登録判定部８２は、先に出力された主音声認識部１４の認識結果の尤度と、今回部分単語系列生成部１２から出力された部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が基準値Ｚよりも大きい場合に、その部分単語系列を主音声認識部１４の認識結果に対応する部分単語系列として、使用者登録単語辞書１３に登録する。
【０３１３】
図４２の構成の音声認識装置では、例えばＺ１＝−４０とすると、前記した話者Ａが「しゃいん」と発声した場合、その音声「しゃいん」に対しては部分単語系列生成部１２は動作しない。一方、話者Ｂが発声した音声「しゃいん」に対しては部分単語系列生成部１２は動作し、更に使用者登録単語辞書１３に新たな単語が追加登録されることになる。
【０３１４】
このような構成とすることによって、平均的な発声に対しては部分単語系列生成部１２の処理を行わずに済ますことができるので、音声認識装置の主たる機能（部分単語系列生成部１２及び主音声認識部１４等の機能）をコンピュータで実現する場合には、当該コンピュータの負荷が軽減される。したがって、音声認識装置の主たる機能を高速ではないコンピュータで実現するのに適している。
【０３１５】
なお、図４０及び図４２の構成における使用者登録単語辞書１３には、同じ音声認識装置内で単語登録モードを設定して単語登録することで生成されたものの他に、前記第１乃至第７の実施形態のいずれかで適用した単語登録方法によって他の装置内で生成されたものを用いることが可能となる。この場合、図４０及び図４２の構成の音声認識装置には、単語登録モード及び音声認識モードは必ずしも必要でなく、音声認識装置としての通常の使用において、主音声認識部１４及び部分単語系列生成部１２を併用して使用者登録単語辞書１３への単語の自動登録を行うことができる。
【０３１６】
また、本実施形態における音声認識装置では、前記第７の実施形態で述べた文字登録単語辞書（７３）を使用者登録単語辞書１３と併用することも可能である。この場合、第７の実施形態と同様に、主音声認識部１４は文字登録辞書（７３）及び使用者登録単語辞書１３の両者を用いて認識を行う。この主音声認識部１４での認識結果の尤度によっては、部分単語系列生成部１２からの部分単語系列が使用時単語登録判定部８１により使用者登録単語辞書１３に登録される。
【０３１７】
［第９の実施形態］
次に、本発明の第９の実施形態について説明する。
【０３１８】
前記第８の実施形態でも述べたように、使用者が特殊な発声をする場合（例：なまりが強い）、主音声認識部（１４）の認識精度が低下することがある。このようなとき、主音声認識部（１４）の尤度は低下する傾向がある。主音声認識部（１４）の出力が間違っている場合、使用者の指示に従って部分単語系列を使用者登録単語辞書（１３）に登録し、次回からはそれも用いて認識を行うならば、前記第８の実施形態と同様に、主音声認識部（１４）の認識精度を高めることが可能となる。
【０３１９】
第９の実施形態は、入力音声に対して主音声認識部だけでなく部分単語系列生成部でも認識処理を行い、部分単語系列生成部から出力された部分単語系列の登録動作を行うか否かを、使用者が主音声認識部からの認識結果をもとに指示可能な構成とすることで、主音声認識部の認識精度を高めることを可能としたものである。
【０３２０】
図４３は、本発明の第９の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図４０と同一部分には同一符号を付してある。
【０３２１】
図４３の構成の特徴は、図４０の構成において使用時単語登録判定部８１に代えて使用時単語登録確認部９１を用いている点にある。
【０３２２】
図４３の構成において、入力音声は、主音声認識部１４及び部分単語系列生成部１２のいずれにも入力される。主音声認識部１４は、使用者登録単語辞書１３を用いて前記第１の実施形態におけるのと同様にして入力音声に対する認識処理を行い、認識結果を出力する。一方、部分単語系列生成部１２は、前記第１の実施形態における単語登録モードの場合と同様にして、入力音声を部分単語系列に変換し、その部分単語系列を出力する。ここで、使用者登録単語辞書１３には、単語登録モードでの単語登録処理により単語登録がなされているものとする。
【０３２３】
使用時単語登録確認部９１は、使用者が操作可能な入力部（使用者操作部）を持ち、部分単語系列を使用者登録単語辞書１３に登録をするか否かを示す使用者からの指示を当該入力部を通して受け取る。すると使用時単語登録確認部９１は、主音声認識部１４の認識結果に対応する部分単語系列として、部分単語系列生成部１２から出力された部分単語系列を使用者登録単語辞書１３に登録する。
【０３２４】
この使用時単語登録確認部９１の動作の詳細を、使用者登録単語辞書１３の内容が、前記第８の実施形態と同様に図４１（ａ）のようになっている場合を例に説明する。
【０３２５】
使用者が「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部１４の出力が単語「社員」であり、部分単語系列生成部１２の出力が部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」であったものとする。
【０３２６】
使用者は、普段図４３の音声認識装置を使用していて、単語「社員」と認識されにくいと感じているような場合、使用時単語登録確認部９１の入力部を操作して、部分単語系列を使用者登録単語辞書１３に登録することを指示する。
【０３２７】
すると使用時単語登録確認部９１は、主音声認識部１４の出力である単語「社員」と部分単語系列生成部１２の出力である部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」の対を、使用者登録単語辞書１３に追加登録する。この追加登録の結果、図４１（ａ）の内容の使用者登録単語辞書１３は、図４１（ｂ）のようになる。
【０３２８】
このように本実施形態では、使用時単語登録判定部８１が部分単語系列の登録指示を受け取った場合には、部分単語系列は主音声認識部１４の認識結果に対応付けて登録される。しかし、この方式では、主音声認識部１４の認識結果が間違っている場合には、使用者登録単語辞書１３には、単語名と部分単語系列の誤った組み合わせが登録されることになる。
【０３２９】
そこで、このような不具合を解消するために、図４３中の使用時単語登録判定部８１が、部分単語系列の登録指示の他に、その部分単語系列をどの単語に対応付けるかという情報も受け取ることが可能な構成としても構わない。この第９の実施形態の変形例について、上述の場合と同様に、使用者登録単語辞書１３の内容が図４１（ａ）のようになっている場合を例に説明する。
【０３３０】
使用者が「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部１４の出力が単語「社員」であり、部分単語系列生成部１２の出力が部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」であったものとする。
【０３３１】
使用者は、使用時単語登録判定部８１の入力部を操作して、部分単語列の登録を指示すると共に、現在の発声が単語「社員」のものであったことを入力する。
【０３３２】
使用時単語登録確認部９１は、部分単語列の登録指示と、単語「社員」の情報とを受け取ると、その受け取った単語「社員」、つまり使用者の指定した単語「社員」と、部分単語系列生成部１２の出力である部分単語系列「ｓｙ，ｅ，ｉ，Ｎ」の対を、使用者登録単語辞書１３に追加登録する。
【０３３３】
これにより、主音声認識部１４の認識結果が間違っている場合でも、使用者登録単語辞書１３には、単語名と部分単語系列の正しい組み合わせが追加登録される。この追加登録直後の使用者登録単語辞書１３は、図４１（ｂ）のようになる。
【０３３４】
なお、図４３の構成に対して、前記第８の実施形態における図４２の構成と同様に、部分単語系列生成部１２の入力側に入力音声バッファを設け、使用時単語登録判定部８１が部分単語系列の登録指示を受け取ったときのみ、部分単語系列生成部１２で入力音声を処理するようにしてもよい。こうすることで、第８の実施形態で述べたのと同様に、音声認識装置の主たる機能をコンピュータで実現する場合に当該コンピュータの負荷を軽減することができる。
【０３３５】
以上に述べた実施形態で適用される音声認識装置の主要な機能、例えば部分単語系列生成部１２による部分単語系列生成処理、主音声認識部１４による認識処理等は、プログラム読み取り可能なコンピュータに当該処理を実行させるためのプログラムを記録した、ＣＤ−ＲＯＭ、フロッピーディスク、メモリカード等の記録媒体を装着して、当該記録媒体に記録されているプログラムをコンピュータで読み取り実行させることによっても実現される。ここで、主音声認識部１４による認識処理は既存の音声認識ソフトウェアを用いて実行することが可能なため、記録媒体に記録するプログラムとしては、上記認識処理を省いた処理をコンピュータに実行させるためのプログラムであっても構わない。なお、プログラムを記録した記録媒体の内容が、通信回線等を介してコンピュータにダウンロードされるものであっても構わない。
【０３３６】
【発明の効果】
以上詳述したように本発明によれば、特定話者音声認識方式と同程度の容易さで不特定話者が使用し得る単語登録を行うことができる。
【０３３７】
また本発明によれば、使用者の発音に応じて単語辞書を更新することができるまた本発明によれば、登録の対象となる単語系列が登録条件を満たしているか否かを判定することにより、使用者の発音に応じた単語辞書の登録において誤った登録が行われるのを防止して、認識性能の低下を招くのを防ぐことができる。
【０３３８】
また本発明によれば、登録の対象となる部分単語系列を生成した際の認識誤りの有無を使用者が確認後、登録することができるため、誤った部分単語系列の情報が登録されるのを防止できる。
【０３３９】
また本発明によれば、登録の対象となる部分単語系列の誤りを使用者が確認し、修正した上で登録することができるため、再発声することなく部分単語系列の情報を登録することができる。
【０３４１】
また本発明によれば、使用者登録単語辞書の内容を文字情報に変換して使用者に提示するだけでなく、その提示内容を使用者の編集操作に供して、その編集処理の結果を使用者登録単語辞書に反映させることにより、使用者が不具合があると確認した場合に、その不具合を訂正することができる。
【０３４２】
また本発明によれば、単語の読みを表す文字列情報から生成された部分単語系列に対応する情報が登録された文字登録単語辞書における登録情報の表現形式を、使用者登録単語辞書における登録情報の表現形式に一致させることにより、使用者登録単語辞書、及び文字登録単語辞書がそれぞれ異なる方法で単語登録がなされるにも拘らず、１つの認識方式のみで両者を同時に用いて音声認識を行うことが可能となり、装置の構成を簡略化することができる。
【０３４３】
また本発明によれば、単語登録モード時だけでなく、音声認識モード時にも、入力音声に対する部分単語系列生成を行い、使用者の発声に対する認識状況に応じて使用者登録単語辞書への追加登録を行うことにより、使用者の音声に逐次適応して認識精度の向上を図ることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図２】図１中の部分単語系列生成部１２の構成を示すブロック図。
【図３】図２中の部分単語接続表１２３の一例を示す図。
【図４】図２中の部分単語ＨＭＭ認識部１２４の動作を説明するためのフローチャートの一部を示す図。
【図５】図２中の部分単語ＨＭＭ認識部１２４の動作を説明するためのフローチャートの他の一部を示す図。
【図６】図２中の部分単語ＨＭＭ認識部１２４の動作を説明するためのフローチャートの残りを示す図。
【図７】図１中の使用者登録単語辞書１３の一例を示す図。
【図８】図１中の主音声認識部１４の構成を示すブロック図。
【図９】図１中の使用者登録単語辞書１３の他の例を示す図。
【図１０】図９の形式の使用者登録単語辞書１３を使用する場合の、部分単語系列生成部１２の構成を示すブロック図。
【図１１】図９の形式の使用者登録単語辞書１３を使用する場合の、主音声認識部１４の構成を示すブロック図。
【図１２】主音声認識部１４で使用する部分単語の体系と、部分単語系列生成部１２で使用する部分単語の体系が異なる場合の、図１の構成の変形例を示すブロック図。
【図１３】図１２中の部分単語ＨＭＭ辞書１５の一例を示す図。
【図１４】本発明の第２の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図１５】本発明の第３の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図１６】図１５中の登録確認部３１の構成を示すブロック図。
【図１７】図１６中の部分単語系列文字列変換部３１１の構成を示すブロック図。
【図１８】図１７中の部分単語系列平仮名対応表３１１ｂの一例を示す図。
【図１９】図１７中の部分単語系列平仮名変換部３１１ａの動作を説明するためのフローチャート。
【図２０】図１６中の部分単語系列表示文字列対応表３１２における登録例を示す図。
【図２１】図１６中の文字列表示処理部３１４により表示される単語登録確認画面の一例を示す図。
【図２２】本発明の第４の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図２３】図２２中の登録編集部４１の構成を示すブロック図。
【図２４】図２３中の文字列表示処理部４１４により表示される単語登録編集画面の一例を示す図。
【図２５】図２４の単語登録編集画面上での文字列編集処理後の状態例を示す図。
【図２６】図２３中の文字列部分単語系列変換部４１６の構成を示すブロック図。
【図２７】本発明の第５の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図２８】図２７中の使用者単語登録辞書表示部５１の構成を示すブロック図。
【図２９】図２８中の文字列表示処理部５１４による使用者登録単語辞書内容表示例を示す図。
【図３０】本発明の第６の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図３１】図３０中の使用者単語登録辞書編集部６１の構成を示すブロック図。
【図３２】単語番号が付された使用者登録単語辞書１３の登録形式を示す図。
【図３３】図３１中の文字列表示処理部６１４により表示される使用者登録単語辞書編集画面の一例を示す図。
【図３４】図３３の使用者登録単語辞書編集画面上での文字列編集処理後の状態例を示す図。
【図３５】図３３の使用者登録単語辞書編集画面上での文字列編集処理の結果に従う辞書操作によって図３２の状態から変化した使用者登録単語辞書１３の内容例を示す図。
【図３６】本発明の第７の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図３７】図３６中の文字登録単語辞書７３の作成手法を説明するための図。
【図３８】図３６中の文字登録単語辞書７３の一例を示す図。
【図３９】図３６中の使用者登録単語辞書１３及び文字登録単語辞書７３の内容を共通の領域に保持した文字・音声登録単語辞書の一例を示す図。
【図４０】本発明の第８の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図４１】図４０の構成における使用時単語登録判定部８１による単語登録前後の使用者登録単語辞書１３の内容例を示す図。
【図４２】図４０の構成の変形例を示すブロック図。
【図４３】本発明の第９の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図４４】従来のサブワード型不特定話者音声認識装置のブロック構成図。
【図４５】３状態２ループの離散ＨＭＭを示す図。
【図４６】図４４中の部分単語ＨＭＭ辞書４６０に登録される部分単語ＨＭＭの記憶形式の一例を示す図。
【図４７】単語「おとな」を表す部分単語系列「ｏ，ｔ，ｏ，ｎ，ａ」に相当する単語ＨＭＭを示す図。
【図４８】図４４中の単語ＨＭＭ辞書４５０に登録される単語ＨＭＭの記憶形式の一例を示す図。
【符号の説明】
１１…モード切替部
１２…部分単語系列生成部
１３…使用者登録単語辞書
１４，７４…主音声認識部（単語音声モデル取得手段）
１５，１２５，１４５…部分単語ＨＭＭ辞書
１６…単語ＨＭＭ生成部（部分単語体系変換手段）
２１…登録条件判定部
３１…登録確認部
４１…登録編集部
５１…使用者単語登録辞書表示部
６１…使用者単語登録辞書編集部
７３…文字登録単語辞書
８１，８２…使用時単語登録判定部
８３…入力音声バッファ
９１…使用時単語登録確認部
１２１，１４１…音響分析部
１２２，１４２…量子化部
１２３…部分単語接続表
１２４…部分単語ＨＭＭ認識部
１２６，１４６…単語ＨＭＭ生成部
１４３…ＨＭＭ認識部
３１１，４１１，５１１，６１１…部分単語系列文字列変換部

Claims

単語登録モード時と音声認識モード時に使用者が発声した音声を認識して少なくとも１個の部分単語系列及び当該部分単語系列の尤度を生成する部分単語系列生成手段と、
前記部分単語系列生成手段によって生成された部分単語系列に対応する情報が登録される使用者登録単語辞書と、
前記使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、
前記音声認識モード時に使用者が発声した音声を、前記使用者登録単語辞書から取得された単語音声モデルを用いて認識して、認識結果及び当該認識結果の尤度を取得する主音声認識手段と、
前記音声認識モード時に、前記部分単語系列生成手段により生成された部分単語系列の尤度及び前記主音声認識手段の認識結果の尤度とを比較し、前記部分単語系列の尤度が前記認識結果の尤度を上回っていて且つ当該両尤度の差が基準値よりも大きい場合に前記部分単語系列生成手段により生成された部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段とを具備し、
前記部分単語系列生成手段は前記音声認識モード時に前記主音声認識手段と並行して動作することを特徴とするサブワード型不特定話者音声認識装置。
単語登録モード時と音声認識モードでの予め定められた条件の成立時とに使用者が発声した音声を認識して少なくとも１個の部分単語系列及び当該部分単語系列の尤度を生成する部分単語系列生成手段と、
前記部分単語系列生成手段によって生成された部分単語系列に対応する情報が登録される使用者登録単語辞書と、
前記使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、
前記音声認識モード時に使用者が発声した音声を、前記使用者登録単語辞書から取得された単語音声モデルを用いて認識して、認識結果及び当該認識結果の尤度を取得する主音声認識手段と、
前記音声認識モード時に使用者が発声した音声を一時記憶するための入力音声記憶手段と、
前記音声認識モード時に、前記主音声認識手段の認識結果の尤度を第１の基準値と比較し、前記認識結果の尤度が前記第１の基準値を下回っている場合に前記条件の成立を判定して、前記入力音声記憶手段に記憶されている音声を前記部分単語系列生成手段に入力させて当該部分単語系列生成手段を動作させる使用時単語登録判定手段であって、当該部分単語系列生成手段により生成される部分単語系列の尤度及び前記認識結果の尤度とを比較し、前記部分単語系列の尤度が前記認識結果の尤度を上回っていて且つ当該両尤度の差が第２の基準値よりも大きい場合に当該部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段とを具備することを特徴とするサブワード型不特定話者音声認識装置。