JP3790038B2 - サブワード型不特定話者音声認識装置 - Google Patents
サブワード型不特定話者音声認識装置 Download PDFInfo
- Publication number
- JP3790038B2 JP3790038B2 JP08706998A JP8706998A JP3790038B2 JP 3790038 B2 JP3790038 B2 JP 3790038B2 JP 08706998 A JP08706998 A JP 08706998A JP 8706998 A JP8706998 A JP 8706998A JP 3790038 B2 JP3790038 B2 JP 3790038B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- partial
- partial word
- registration
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、使用者が容易かつ適切に単語を追加登録することの可能なサブワード型不特定話者音声認識装置に関する。
【0002】
【従来の技術】
音声認識の技術は、優れたマン・マシン・インタフェースを実現する上での重要な役割を担っている。
【0003】
初期には、特定話者音声認識装置を用いていた。特定話者音声認識装置は、使用前に使用者が音声入力をしたい単語を数回ずつ発声し、使用者の単語音声をもとに照合用の単語音声モデルを音声装置内部に登録する。実際に音声入力を行う際は、使用者が発した入力音声を、装置内部に登録された単語音声モデルと照合し、照合の度合が最も良かった単語を認識結果とする(文献:正井、新田、上原,“微分−直交化フィルタ法を用いた特定話者単語音声認識装置の開発”,日本音響学会昭和63年度秋季研究発表会講演論文集,pp.65-66,昭和63年10月)。
【0004】
このような装置では、装置内部に持つ単語音声モデルは、登録時の使用者の声に特化しているため、登録した使用者以外の音声は認識できないか、認識性能が著しく低下する。異なる使用者が装置を使うためには、繁雑な音声登録の作業を再度行う必要があった。
【0005】
特定話者音声認識装置では、複数の使用者が交代して利用する場合、非常に不便である。更に、街頭に設置される自動販売機等の装置では、使用者の音声を登録することができないため、このような音声認識装置では対応できない。
【0006】
そのため、不特定話者認識装置が用いられるようになった。初期の不特定話者音声認識装置では、まず装置に音声入力したい単語について多数の話者(典型的な例では100人以上)が発声した単語音声を収集する。これらの単語音声から、単語音声モデルを生成し、それを装置内部に登録する。音声入力を行う際は、使用者が発した入力音声を、装置内部に登録された単語音声モデルと照合し、照合の度合が最も良かった単語を認識結果とする(文献:松浦、新田,“SMQ/HMM方式に基づく不特定話者大語い単語認識:松浦、新田,電子情報通信学会論文誌 D-II vol.J76-D-II No.12,pp.2486-2494,1993年12月)。
【0007】
このような装置が内部に持つ単語音声モデルは多数の話者が共通して持つ特徴を持っており、特定の話者の音声には依存していない。したがって、不特定の話者が発声した音声を認識することができる。
【0008】
しかし、初期の不特定話者音声認識装置では、単語毎に多数の話者が発声した音声データを収集することが必要となるため、数単語の追加・変更でさえ、必要となる労力は非常に大きくなるという問題があった。
【0009】
単語音声モデルの学習用話者数が比較的少数の場合、その小集団が持つ固有の特徴(ある特定地域・世代でのみ通用する抑揚や音の変形など)も含んだ単語音声モデルが生成されてしまうことがある。このように学習されてしまった音声モデルでは、不特定話者に対する認識性能は劣化する。
【0010】
初期の不特定話者音声認識装置では、単語毎に音声を収集・処理しなければならず、1単語あたりの学習用話者数をあまり大きくできないために、不特定話者が発した音声と十分に照合し得る単語音声モデルが生成できないことがあるという問題もあった。
【0011】
そこで近年では、単語音声モデルを音響的に意味を持つ部分単語音声モデル(部分単語として主に音韻や音節などが用いられる)を単位として認識装置内部に保持し、認識しようとする単語の単語音声モデルは、部分単語音声モデルを連結して生成し、それと入力音声とを照合する方法(以下、サブワード型不特定話者音声認識方法と呼ぶ)がとられるようになった(文献:マーク・プンサック、新田,“Comparison of Context Dependent Sub-word HMMs for Japanese”,電子情報通信学会技術研究報告 vol.93 No.364,pp.63-70,1993年12月)。
【0012】
以下にサブワード型不特定話者音声認識装置の構成を図44を参照して説明する。
【0013】
まず、主音声認識部440は、音響分析部441、量子化部442、HMM認識部443から構成される。
【0014】
音響分析部441は、入力される音声信号を、例えばLPC(Linear Predictive Coding)分析して、入力音声の特徴パラメータを求める。
【0015】
量子化部442は、音響分析部441で入力音声を音響分析して得られた特徴パラメータを、統計的量子化により音声セグメントを表すラベル系列に変換する。
【0016】
HMM認識部(HMM照合部)443は、単語HMM辞書450に格納されている単語HMMのそれぞれが入力音声に対応したラベル系列を生成する確率を計算し、最大の確率でラベル系列を出力する単語を認識結果として出力する。
【0017】
ここで、本実施例で用いる離散HMM(Hidden Markov Model ;隠れマルコフモデル)について説明する。
【0018】
HMMは状態と遷移からなり、ある状態からある状態へと遷移する際に1つのラベルが出力される。ある状態から他の状態に遷移する確率が状態毎に定義されており、更に遷移毎に各ラベルが出力される確率が定義されている。
【0019】
実際には、HMMは次の6つのパラメータから定義される。
【0020】
Nx :部分単語xを表すHMMの状態数(状態S(1) ,S(2) ,…,S(N) )
Κ :ラベル数(ラベルR=1,2,…,Κ)
px (i,j) :部分単語xを表すHMMの遷移確率(S(i) からS(j) に遷移する確率)
qx (i,j,k) :部分単語xを表すHMMのS(i) からS(j) への遷移の際にラベルkを出力する確率
mx (i) :部分単語xを表すHMMの初期状態確率(S(i) が初期状態になる確率)
Fx :部分単語xを表すHMMの最終状態になり得る状態の集合
上記HMMには、音声の特徴を反映した遷移上の制限がある。音声では、一般的に状態S(i) から以前通過した状態S(i-1) ,S(i-2) に戻るようなループの遷移は時間的前後関係を乱すため許されない。図45に3状態2ループの離散HMMを示す。ここで、最終状態S(N) 、すなわちS(3) は照合に寄与しない。
【0021】
上述したように、HMMとラベル系列との照合は、HMMがラベル系列を出力する確率もしくは確率の対数値を計算することで行われるが、実際の装置ではより高速に実行できるビタビ(viterbi )アルゴリズムによって計算される値(ビタビスコア)で代用することが多い。
【0022】
ビタビスコアは、入力ラベル系列を最も高い確率で出力するように状態遷移が起きたときに、ラベル系列が出力される確率の対数値である。
【0023】
入力ラベル系列をY=y(1) ,y(2) ,…,y(L) とした場合、ビタビスコアは次のように計算できる。
【0024】
ビタビスコアを計算するために、配列D(T,M) を使用する。
【0025】
(1) D(0,1〜N)、つまりD(0,1 )〜D(0,N) を初期状態確率の対数値で初期化する。即ち、D(0,1) = ln m1 〜D(0,N) = ln mN とする。図のような構成のHMMの場合、D(0,1) =0,D(0,2〜N)=−∞となる。さらにD(0〜T,0)=−∞に初期化する。
【0026】
(2) tを1からTまで1ずつ増加させながら、(3)〜(4)を繰り返す。
【0027】
(3) nを1からNまで1ずつ増加させながら、(4)を繰り返す。
【0028】
(4) d1 =D(t-1,n-1) + ln p(n-1,n) + ln q(n-1,n,y(t))と、d2 =D(t-1,n) + ln p(n,n) + ln q(n,n,y(t))とを計算し、D(t,n) に大きい方の値を代入する。
【0029】
(5) D(T,N) に求めたいビタビスコアが得られる。
【0030】
部分単語HMMは、部分単語毎に作成した離散HMMである。ここでは部分単語の単位として音韻を用い、2ループ3状態の離散HMMでモデル化したものとする。
【0031】
部分単語HMMは部分単語HMM辞書460に登録されている。部分単語HMM辞書460に登録される部分単語HMMの記憶形式(登録形式)の一例を図46に示す。この例では、部分単語HMM(のパラメータ)は、部分単語モデル名と対をなして登録されている。
【0032】
単語HMMは、部分単語HMM辞書460に登録されている部分単語HMMを単語の読みに従って連結することで作成することができる。この際、各部分単語HMMの最終状態S(N) は直後に連結する後続の部分単語HMMのS(1) と重ね合わされる。例えば、単語「おとな」を部分単語で表すと「o,t,o,n,a」になるので、相当する単語HMMは図47のようになる。
【0033】
単語HMMは単語HMM辞書450に登録される。この単語HMM辞書450に登録される単語HMMの記憶形式の一例を図48に示す。この例では、上述のようにして構成された単語HMMのパラメータが、単語名と対をなして記憶されている。
【0034】
なお、単語HMMを単語毎に構成し、そのパラメータを記憶するのではなく、単語を構成する部分単語HMM名を記憶しておき、照合時に部分単語HMM辞書460を参照して単語HMMを構成し、それから照合を行う装置構成もある。更に、ひらがな等で記述される読みを記憶しておき、照合時に部分単語名に変換後、部分単語HMM辞書460を参照して単語HMMを構成し、それから照合を行う装置構成もある。
【0035】
HMM認識部443は単語HMM辞書450に登録されている単語HMMのそれぞれのパラメータを用いて、入力ラベル系列に対するビタビスコアを単語毎に計算する。そして、最大のビタビスコアを持つ単語を認識結果として出力する。
【0036】
本方式では、単語の読みを入力することによって、音声入力可能な単語を追加・変更することができるため、初期の不特定話者音声認識方法と比較して、その手間は大きく軽減される。
【0037】
また、必要となる部分単語音声モデルは認識語彙の異なる装置間で共通に用いることができるため、非常に多くの学習用話者が発声した音声データから生成することが可能となる。したがって、不特定話者が発声した音声を認識するのにより適した単語音声モデルが生成できる。
【0038】
【発明が解決しようとする課題】
上記したサブワード型不特定話者音声認識方式では、認識単語を使って登録、変更する場合、使用者が単語の読みを表す音韻系列もしくは平仮名列を入力しなければならないが、文字入力手段と音声に対する専門知識がない場合、これが困難であるという問題点がある。
【0039】
つまり、音声認識装置に登録したい読み方(発声の仕方)と、それを表現する記号との対応を登録作業者が熟知している必要がある。単語の読みを平仮名で行う場合は、比較的対応が分かりやすいが、この場合でも長音化の有無(「とけい」という平仮名列は/tokei/という発声に対応するのか、それとも/toke:/に対応するのか)などを装置がどのように解釈するのかに関する知識は依然として必要である。
【0040】
また、携帯機器や車載用機器などの場合、文字入力装置を取り付けることが困難な場合がある。このような場合でも、画面上に全音韻(或いは平仮名)を表示し1文字ずつ選択する方法、文字認識技術を利用する方法などを用いることで読み方を入力することは可能となるが、使用者は繁雑な操作を要求され、必ずしも使い勝手が良いとは言えない。
【0041】
一方、特定話者認識方式では、登録したい単語を数回発声するだけで、使用者独自の単語を登録することが可能である。つまり、音韻記号、平仮名と発音との対応に熟知している必要はなく、文字入力手段も必要としない。したがって、認識単語の追加、変更は容易に行うことができた。しかし、使用者は装置を入手後に、まず認識すべき単語を全て自分で登録しなければならない欠点があった。それに対して、不特定話者認識方式を用いた装置では、入力に用いられることが多いと考えられる単語を装置に予め組み込んでおくことが可能なため、使用者は自分で特殊な呼称をしたい単語についてのみ単語登録をするだけで装置を使用し始めることができる。
【0042】
そこで、上記両方式の欠点を解消するために、入力音声に対して不特定話者認識と特定話者認識を同時に用いて照合を行い、両者の認識結果のうち、より尤度(認識の確からしさ)の大きい方を最終的な認識結果とする方式が考えられる。この方式では、入力に用いられることが多いと考えられる単語は、装置を設計・製造する段階で予め不特定話者認識部に登録しておき、使用者が追加・変更する単語は特定話者認識部に登録する。このような構成にすることによって、使用者は自分が追加・変更したい単語のみを登録すればよく、しかも登録時に記号入力を必要としない。
【0043】
しかし、不特定話者認識方式と特定話者認識方式の両者を装置に組み込まなければならないため、装置が複雑になってしまう。また、異なる方式を併用することから、それぞれの尤度の尺度も異なっており、両者を比較するには補正が必要となる。しかし、常に使うことのできる補正方法を決定することが困難である。更に、特定話者認識用に登録した単語は登録者の音声に強く依存しており、登録者以外の人間が同じ単語を発声した場合に正しく照合できないという特定話者認識方式の欠点は依然として克服できない。
【0044】
また、サブワード型不特定話者音声認識装置で用いる辞書は、音素、音韻等で表される読み情報に従って一般的な部分単語モデルを連結して単語を生成しているため、使用者になまりがある等して一部の部分単語の発音が一般的ではない場合、音声認識の精度が低下する。したがって、なまり等のある使用者は、常に(その話者に対する)認識精度の低い音声認識装置を使用し続けることを余儀なくされる問題がある。
【0045】
本発明は、上記のような実情を考慮してなされたもので、その目的は、特定話者音声認識方式と同程度の容易さで単語登録を行うことができるサブワード型不特定話者音声認識装置を提供することにある。
【0046】
本発明の他の目的は、使用者の発音に応じて単語辞書を更新することができるサブワード型不特定話者音声認識装置を提供することにある。
【0047】
本発明の更に他の目的は、使用者の発音に応じた単語辞書の登録において誤った登録が行われるのを防止できるサブワード型不特定話者音声認識装置を提供することにある。
【0048】
本発明の更に他の目的は、構成の簡略化が図れるサブワード型不特定話者音声認識装置を提供することにある。
【0049】
本発明の更に他の目的は、使用者の音声に逐次適応して認識精度の向上が図れるサブワード型不特定話者音声認識装置を提供することにある。
【0050】
【課題を解決するための手段】
本発明の第1の観点に係る構成は、入力された音声を少なくとも1個の部分単語の系列に変換する部分単語系列生成手段と、この部分単語系列生成手段によって変換された部分単語系列に対応する情報が登録される使用者登録単語辞書と、この使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、使用者が発声した音声を、上記使用者登録単語辞書から取得された単語音声モデルを用いて認識する主音声認識手段とを備えたことを特徴とする。
【0051】
このような構成においては、単語登録時に文字情報による入力を用いずに、音声により入力を用いていながら、その入力音声を直接単語音声モデルに変換して登録するのではなく、一旦音素、音韻などの部分単語系列に変換して、その部分単語系列に対応する情報を辞書登録(使用者登録単語辞書に登録)することにより、(音声認識モード時に)使用者が発声した音声を認識する際に、辞書内の部分単語系列に対応する情報から不特定話者認識用の部分単語音声モデルがつなぎ合わされた単語音声モデルを取得して、その単語音声モデルを用いて音声認識を行うことができるため、音声で登録したにも拘らず、その登録単語は不特定話者が使用し得るものとなる。これに対して、従来技術では、音声による単語登録を適用する場合には、登録された単語は登録をした話者専用になってしまい、他の話者が使用したときの認識性能は非常に悪い。また、文字情報による単語登録を適用する場合には、文字情報の入力手段を必要とすると共に操作が繁雑である。
【0052】
ここで、使用者登録単語辞書に登録される部分単語系列に対応する情報としては、部分単語系列それ自体、或いは部分単語系列を構成する各部分単語に対応する部分単語音声モデルを予めつなぎ合わせて作成された単語音声モデルのいずれであっても構わない。
【0053】
前者の場合には、単語音声モデルを取得する手段(単語音声モデル取得手段)には、部分単語系列に対応する情報(部分単語系列それ自体)から対応する部分単語音声モデルを連結して単語音声モデルを作成することで、当該単語音声モデルを取得する機能を持たせる必要がある。これに対して後者の場合には、単語音声モデル取得手段には、使用者登録単語辞書から部分単語系列に対応する情報を取り出す機能を持たせるだけで、単語音声モデルを取得することが可能となる。但し、入力音声から変換された部分単語系列から、当該部分単語系列に対応する情報を生成する際に、部分単語系列から対応する部分単語音声モデルを連結して単語音声モデルを作成する必要がある。
【0054】
本発明の第2の観点に係る構成は、上記第1の観点に係る構成に、部分単語系列生成手段によって変換された部分単語系列が予め定められた登録条件を満たしているか否かを判定する登録条件判定手段を追加し、登録条件を満たしていると判定された部分単語系列だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【0055】
このような構成においては、登録条件を適切に設定することにより、部分単語系列生成手段での認識誤りの結果変換出力される部分単語系列、つまり明らかに入力音声とは対応しない部分単語系列が使用者登録単語辞書に登録されて、主音声認識手段の認識性能の低下を招くのを防止することが可能となる。
【0056】
ここで登録条件としては、例えば部分単語系列生成手段によって変換(生成)された部分単語系列の尤度(認識の確からしさ)との比較により条件成立の有無が判定されるものが適用可能である。このように、部分単語系列の尤度を調べて、基準値以下の場合は登録しないようにすることによって、部分単語系列生成手段がもっともらしい部分単語系列を出力できなかった(誤認識した)ときに生成される系列が登録される問題を減らすことができる。
【0057】
この他に、1単語当たりの登録可能な部分単語系列の数に上限値Nを設けて、その上限値Nを登録条件の1つに用い、部分単語系列の個数がN以下の場合には、尤度に無関係に全て使用者登録単語辞書に登録し、Nを越えている場合には、尤度の大きい順に上位N個を使用者登録単語辞書に登録することも可能である。このようにすると、メモリ(記憶領域)の制約の大きい装置では、登録される部分単語系列の個数を制限することが可能となる。
【0058】
本発明の第3の観点に係る構成は、上記第1の観点に係る構成に、部分単語系列生成手段によって変換された全ての部分単語系列について、その部分単語系列を表す情報を使用者に提示して、その登録の可否について使用者からの指定を受け付け、その受け付けた指定内容に応じて対応する部分単語系列の登録の可否を確認する登録確認手段を追加し、使用者から登録指示がなされた部分単語系列に対応する情報だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【0059】
このような構成においては、雑音等の影響により部分単語系列生成手段で認識誤りが発生したにも拘らず、雑音の種類によって偶然大きな値の尤度が得られるような場合でも、得られた部分単語系列を表す情報を使用者に提示することで、使用者は部分単語系列生成手段での認識誤りを確認して、登録の可否を指示できるため、誤った部分単語系列の情報が使用者登録単語辞書に登録されるのを防止できる。
【0060】
本発明の第4の観点に係る構成は、上記第1の観点に係る構成に、部分単語系列生成手段によって変換された全ての部分単語系列について、その部分単語系列を表す情報を使用者に提示し、当該情報を対象とする使用者の編集操作を受け付けて、当該情報に対する編集処理を行い、その編集処理の結果を対応する部分単語系列に反映させると共に、当該情報に対する登録の可否について使用者からの指定を受け付けて、その受け付けた指定内容に応じて対応する部分単語系列の登録の可否を確認する登録編集手段を追加し、部分単語系列生成手段により入力音声から生成された部分単語系列の修正等を可能とすると共に、使用者から登録指示がなされた部分単語系列に対応する情報だけが使用者登録単語辞書に登録されるようにしたことを特徴とする。
【0061】
このような構成においては、部分単語系列生成手段で認識誤りがあった場合に、それを確認、修正した上で登録できるため、再発声することなく登録可能となる。
【0064】
本発明の第5の観点に係る構成は、上記第1の観点に係る構成に、使用者登録単語辞書に登録されている部分単語系列に対応する情報を文字情報に変換して使用者に提示し、当該情報を対象とする使用者の編集操作を受け付けて、当該情報に対する編集処理を行い、その編集処理の結果を使用者登録単語辞書に反映させる使用者単語登録辞書編集手段を追加したことを特徴とする。
【0065】
このような構成においては、使用者登録単語辞書に登録された情報を使用者が確認することができ、しかも不具合があった場合に訂正することもできる。
【0066】
本発明の第6の観点に係る構成は、上記第1乃至第4の観点に係る構成のいずれかに、単語の読みを表す文字列情報から生成された部分単語系列に対応する情報が、使用者登録単語辞書と同一の表現形式で登録された文字登録単語辞書を追加し、主音声認識手段による認識処理に際しては、使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得すると共に、文字登録単語辞書に登録されている各部分単語系列に対応する情報からも部分単語音声モデルがつなぎ合わされた単語音声モデルを取得し、これらの各単語音声モデルを用いて、使用者が発声した音声を認識するようにしたことを特徴とする。
【0067】
このような構成においては、使用者登録単語辞書、及び文字登録単語辞書がそれぞれ異なる方法で単語登録がなされるにも拘らず、部分単語系列に対応する情報の表現形式(登録形式)を一致させたことで、1つの認識方式のみで両者を同時に用いて音声認識を行うことが可能となり、装置の構成の簡略化が図れる。ここで、文字登録単語辞書は予め認識単語が登録された状態で装置に予め組み込まれているものであっても、着脱可能な記録媒体に記憶された状態で提供されるものであっても構わない。また、同じ装置内で、キーボード等の文字入力手段から入力される単語の読み情報をもとに登録されるものであっても構わない。
【0068】
本発明の第7の観点に係る構成は、上記第1乃至第4の観点に係る構成のいずれかにおける部分単語系列生成手段が、単語登録モード時だけでなく、音声認識モード時にも、使用者が発声した音声を認識して少なくとも1個の部分単語の系列を生成する構成とすると共に、次のような使用時単語登録判定手段、即ち音声認識モード時に、部分単語系列生成手段により生成された部分単語系列の尤度、主音声認識手段の認識結果、及び当該認識結果の尤度の少なくとも1つをもとに、部分単語系列生成手段により生成された部分単語系列の登録の可否を判定し、その判定結果に応じて当該部分単語系列の情報を使用者登録単語辞書に追加登録する使用時単語登録判定手段を新たに設けたことを特徴とする。
【0069】
このような構成においては、使用者が特殊な発声をしたために(例:なまりが強い)、主音声認識手段の認識精度が低下して認識結果の尤度も低下する傾向にある場合でも、主音声認識手段による認識処理と並行して行われる部分単語系列生成手段での認識処理で生成される部分単語系列の情報を、使用時単語登録判定手段の判定によって使用者登録単語辞書に登録し、次回からはそれも用いて認識が行えるようにすることで、主音声認識手段の認識精度を高めることができる。
【0070】
ここで、部分単語系列の登録の可否を判定するのに、部分単語系列の尤度が基準値より大きいものだけを登録可とする第1の方式、部分単語系列の尤度を認識結果の尤度と比較し、認識結果の尤度より基準値以上大きい尤度の部分単語系列だけを登録可とする第2の方式、認識結果の尤度が基準値より小さい場合に、全ての部分単語系列、或いは尤度が上位の一定個数を上限とする部分単語系列を登録可とする第3の方式、使用者が発声した単語が既知であり、その単語と認識結果とが一致しない場合に、部分単語系列生成手段での認識処理で生成される部分単語系列を登録可とする第4の方式、この第4の方式に対象となる部分単語系列の尤度を判定条件に加え、例えば使用者が発声した単語と認識結果とが一致せず、且つ部分単語系列の尤度が基準値より大きい場合に登録可とする第5の方式などが適用可能である。なお、上記第4または第5の方式を適用可能とするためには、特別のモード(適応モード)を用意すると共に、そのモードでは、装置から使用者に単語を提示して(提示する単語は、使用者が指定するものであっても構わない)、その単語を使用者に発声させるインタフェース機能を設ければよい。
【0071】
これにより、使用者の音声に逐次適応する音声認識装置を実現することができる。
【0072】
本発明の第8の観点に係る構成は、上記第1乃至第4の観点に係る構成のいずれかにおける部分単語系列生成手段が、単語登録モード時だけでなく、音声認識モード時にも、使用者が発声した音声を認識して少なくとも1個の部分単語の系列を生成する構成とすると共に、次のような使用時単語登録確認手段、即ち主音声認識手段による認識結果出力時に使用者からの部分単語系列登録指示の受け付けを行い、当該登録指示を受け付けた際には、部分単語系列生成手段によって生成され且つ登録指示された部分単語系列に対応する情報を使用者登録単語辞書に追加登録する使用時単語登録確認手段を新たに設けたことを特徴とする。
【0073】
このような構成においては、使用者が特殊な発声をしたために(例:なまりが強い)、主音声認識手段の認識精度が低下して認識結果の尤度も低下し、認識結果が誤っている場合でも、主音声認識手段による認識処理と並行して行われる部分単語系列生成手段での認識処理で生成される部分単語系列の情報を、使用者からの主音声認識手段の認識結果を考慮した登録指示に従って使用者登録単語辞書に登録し、次回からはそれも用いて認識が行えるようにすることで、主音声認識手段の認識精度を高めることが可能となる。これにより、使用者の音声に逐次適応する音声認識装置を実現することができる。
【0074】
なお、上記第7または第8の観点に係る構成における部分単語系列生成手段に代えて、音声認識モード時には、予め定められた条件が成立した場合だけ、入力音声に対する認識処理を行って部分単語系列を生成する部分単語系列を用いると共に、音声認識モード時に使用者が発声した音声を一時記憶するための入力音声記憶手段を新たに設け、更に上記使用時単語登録判定手段に代えて、音声認識モード時に、主音声認識手段の認識結果の尤度をもとに上記条件の成立の有無を判定し、条件成立を判定した場合には入力音声記憶手段に記憶されている音声を部分単語系列生成手段に入力させて当該部分単語系列生成手段を動作させ、当該部分単語系列生成手段により生成される部分単語系列の尤度、主音声認識手段の認識結果、及び当該認識結果の尤度の少なくとも1つをもとに、部分単語系列生成手段により生成された部分単語系列の登録の可否を判定して、その判定結果に応じて当該部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段を設けた構成とすることも可能である。
【0075】
このような構成においては、主音声認識手段の認識結果の尤度が上記条件を満たさない場合、例えば認識結果の尤度が大きい場合には、部分単語系列生成手段による認識処理は行われないため、つまり使用者による平均的な発声に対しては部分単語系列生成手段は起動されないため、高速でないコンピュータで、部分単語系列生成手段の機能等を実現するのに適している。
【0076】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0077】
[第1の実施形態]
図1は本発明の第1の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図である。
【0078】
図1の装置では、単語登録と音声認識(認識処理)の2つのモードが使用者から選択指定可能なようになっている。単語登録時には、モード切替部11の切り替えにより、入力音声が部分単語系列生成部12に入力されて、その入力音声が音素、音韻などに相当する少なくとも1個の部分単語の系列に変換され、その部分単語系列に対応する情報が使用者登録単語辞書13に登録される。一方、認識処理時には、入力音声はモード切替部11により主音声認識部14に入力され、使用者登録単語辞書13の登録内容から取得される、部分単語音声モデルがつなぎ合わされた単語音声モデル、例えば部分単語HMMのパラメータがつなぎ合わされた単語音声HMMのパラメータを用いて、入力音声が認識される。
【0079】
上記のように、単語登録時には、入力音声はまず部分単語系列生成部12に入力される。部分単語系列生成部12は、入力音声を部分単語の系列に変換する。
【0080】
部分単語系列生成部12の内部構成例を図2に示す。
【0081】
ここでは、部分単語系列生成部12は、音響分析部121、量子化部122、部分単語接続表123、部分単語HMM認識部124、部分単語HMM辞書125、及び単語HMM生成部126から構成される。音響分析部121及び量子化部122は、図44に示した従来のサブワード型不特定話者音声認識装置の主音声認識部440に用いられる音響分析部441及び量子化部442と同様である。また部分単語HMM辞書125は、図44中の部分単語HMM辞書460に相当する。
【0082】
部分単語接続表123には、直接連結可能な音韻の組み合わせが登録されている。この表(テーブル)123は、「子音と子音は連接しない」、「促音、撥音は語頭には存在しない」などの日本語音声の制約を用いてより高精度に認識するために用いる。部分単語接続表123の一例を図3に示す。この例では、先行部分単語毎に後続し得る音韻が登録されている。図3において、部分単語「#」は語頭を表す仮想的な音韻に対する記号、「&」は語尾を表す仮想的な音韻に対する記号である。
【0083】
部分単語HMM認識部124は部分単語HMM辞書125を用いて入力音声の部分単語単位(ここでは音韻単位)での認識を行い、その認識結果として部分単語接続表123に従って部分単語が接続された少なくとも1個の部分単語系列を出力する。この部分単語HMM認識部124の詳細について、図4乃至図6のフローチャートを参照して以下に述べる。
【0084】
部分単語接続表123に従って部分単語を接続してできる系列は無数にある。部分単語HMM認識部124は、その系列を動的に生成しながら、入力音声に対応するラベル系列を出力する部分単語モデル系列とそのビタビ(viterbi)スコアを探索する。
【0085】
これは以下のようにして計算する。
【0086】
部分単語の系列をΧ=[x(1) ,x(2) ,…,x(J(X))]と表す。J(X)は部分単語系列の長さである。ビタビアルゴリズムで用いた配列Dを照合に用いた部分単語の系列毎に保持し、それらをDX と表すことにする。また、配列DX の状態数方向の大きさをΗX に保持する。ΗX は、部分単語系列Xの末尾の部分単語x(J(X))に対応する部分単語HMMの状態数Nx(J(X)) に等しい。但し仮想的な音韻「#」に対する状態数は1とする。つまりΗ[#] =1である。配列Zは、DX を保持している。
【0087】
まず、配列D[#] を生成して、D[#] (1,1) =0に初期化し、D[#] をZに追加する(ステップS1〜S3)。
【0088】
次に、tを1からTまで1ずつ増加させながら(ステップS4,S5,S21)、ステップS6〜S20を繰り返す。
【0089】
ステップS6〜S20では、ZからDX を1つずつ系列長J(X)の小さい順に取り出しながら(ステップS6,S7)、ステップS8〜S20が繰り返される。
【0090】
ステップS8では、Xが[#]であるか否かが調べられ、X=[#]の場合には、t=1であればDX (t,1) に0が代入され、t≠1であればDX (t,1) に−∞が代入され(ステップS9)、ステップS18からの処理に進む。
【0091】
これに対し、X≠[#]の場合には、以下に述べる部分単語の第1状態の処理(ステップS10,S11,S12またはS10,S11,S13)を行う。
【0092】
まず、現在着目しているDX の履歴X=[x(1) ,x(2) ,…,x(J(X))]の最後の部分単語を取り除いた履歴がX1=[x(1) ,x(2) ,…,x(J(X)-1)]とされる(ステップS10)。
【0093】
次に、ZにDX1,HX1が存在するか否かが調べられ(ステップS11)、存在する場合はそれを取り出し、ステップS12を行う。存在しない場合はステップS13を行う。
【0094】
ステップS12では、d1 =DX1(t,ΗX1)と、d2 =DX (t-1,1) + ln p(1,1) + ln q(1,1,y(t))の大きいほうの値を、DX (t,1) に代入する。
【0095】
これに対してステップS13では、d=DX (t-1,1) + ln p(1,1) + ln q(1,1,y(t))を計算し、DX (t,1) に代入する。
【0096】
ステップS12またはS13を実行すると、以下に述べる部分単語の第2状態以降(第2状態〜第NJ(X)状態)の処理(ステップS14〜S17)を行う。
【0097】
ここでは、nを2からNJ(X)まで1ずつ増加させながら(ステップS15,S17)、ステップS16を繰り返す。このステップS16では、d1 =DX (t-1,n-1) + ln p(n-1,n) + ln q(n-1,n,y(t))と、d2 =DX (t-1,n) + ln p(n,n) + ln q(n,n,y(t))とを計算し、そのd1 とd2 のうちの大きいほうの値をDX (t,n) に代入する。
【0098】
次に、DX (t,ΗX )が−∞であるか否かが調べられ、DX (t,ΗX )が−∞の場合には何もせずにステップS6に戻る。これに対してDX (t,ΗX )が−∞でない場合には、以下に述べる新しいDの生成処理(ステップS19,S20)を実行する。
【0099】
ここでは、Xの末尾の部分単語x(J(X))に後続することのできる部分単語x′1 ,x′2 ,…を部分単語接続表123から全て探し、それらをXに接続して新たな系列X′1 ,X′2 ,…を作る(ステップS19)。
【0100】
つまり、X′1 =[x(1) ,x(2) ,…,x(J(X)),x′1 ],X′2 =[x(1) ,x(2) ,…,x(J(X)),x′2 ],…となる。
【0101】
次に、ステップS19で生成した系列X′1 ,X′2 ,…のそれぞれについて、それに対応するDがZ内に既に存在するか否かを調べ、存在しなかった場合には新たにD,Ηを生成してZに追加する(ステップS20)。ここで、新たに作成したDは、全てD(0〜T, 1〜N)=−∞に初期化しておく。
【0102】
このステップS20の実行により、現在注目しているDX の処理は終了となり、ステップS6に戻る。
【0103】
以上の動作が、tを1からTまで1ずつ増加させながら、また各tについてZからDX を1つずつ系列長J(X)の小さい順に取り出しながら繰り返された結果、tの値がTを越えた時点で、Z内に含まれるDX (T,ΗX )にそれぞれの系列Χに対するビタビスコアが求まっていることになる。そこで、部分単語接続表123を参照して、系列Xの末尾の部分単語が「&」に接続可能な部分単語系列を選択し、これを降順に並び替えることで、ビタビスコアの大きい順に系列(部分単語系列)Xとそのビタビスコアの組を求めることができる。
【0104】
実際にはTが大きくなると、Z内に保持するDの個数が爆発的に増加するため、Dの生成、計算を一定の条件下でしか行わないように制限して、高速化を図る場合が多い。
【0105】
簡単には、ステップS18の段階で−∞と比較するのではなく、f(t)=αt(但しαは定数)と比較するように変更して、新たなDの生成を制限し、Z内のDの個数を抑制することで高速化を図る。更には、ステップS6に戻る際に、注目しているDX (t,1〜N) が、g(t)=βt(但しβは定数)よりも全て小さい場合に、そのDX をZから削除することで、Zに含まれるDを減らすことも行われる。
【0106】
高速化の手法を一切行わなければステップS13の処理は必要ないが、例えばg(t)を用いた高速化を行う場合には、ステップS11で参照するDX1が削除されることがあるため、ステップS13が必要となる。
【0107】
部分単語系列を求める計算法及び高速化法はこの他にも様々なものが存在するが、本発明ではこの部分の認識方式は問わない。
【0108】
さて、部分単語HMM認識部124は、以上のようにして入力されたラベル系列に対するビタビスコアが入力ラベル列長Tの関数g(T)=γTよりも大きい部分単語系列が存在すればそれらを全て選択し、存在しないときは最大のビタビスコアを持つ部分単語系列を出力する。
【0109】
なお、出力する部分単語系列を選沢する方法として、最大のビタビスコアを持つ系列のみを出力するとか、上位の予め定められた個数の系列を出力する、などの方法もある。
【0110】
部分単語HMM認識部124により出力される1つまたは複数の部分単語系列は単語HMM生成部126に渡される。単語HMM生成部126は、部分単語HMM認識部124から出力された部分単語系列を構成する部分単語によって部分単語HMM辞書125を参照する。この部分単語HMM辞書125の登録内容は、図44に示した従来のサブワード型不特定話者音声認識装置の部分単語HMM辞書125の登録内容(図46参照)と同様であり、当該部分単語HMM辞書125には、種々の部分単語音声モデルとしての部分単語HMMのパラメータが部分単語名(部分単語モデル名)と対をなして登録されている。
【0111】
これにより単語HMM生成部126は、部分単語HMM認識部124から出力された部分単語系列に従って、部分単語HMM辞書125に登録されている部分単語HMM(のパラメータ)を連結することで、使用者が発声した単語の単語音声モデルとしての単語HMM(のパラメータ)を生成する。そして単語HMM生成部126は、部分単語HMM認識部124から出力された部分単語系列の情報として、使用者が発声した単語の単語名と、対応する単語HMM(のパラメータ)の対を使用者登録単語辞書13に登録する。
【0112】
使用者登録単語辞書13の一例を図7に示す。この図7は、単語登録時(単語登録モード)で「社員」という単語に対して使用者が「しゃいん」と発声したときに、部分単語系列生成部12内の部分単語HMM認識部124が「y,a,i,N」という1個の部分単語系列を出力し、「役員」という単語に対して使用者が「やくいん」と発声したときに部分単語系列生成部12内の部分単語HMM認識部124が「y,a,k,u,i,N」「y,a,p,u,i,N」の2個の部分単語系列を出力した場合の、単語名と単語HMMの対の登録例を示している。
【0113】
一方、認識処理時(音声認識モード)には、入力音声はモード切替部11により主音声認識部14に入力される。
【0114】
主音声認識部14は、図44に示した従来のサブワード型不特定話者音声認識装置と全く同様にして、(図44中の単語HMM辞書450に相当する)使用者登録単語辞書13に登録された単語HMMのそれぞれのパラメータを用いて、入力ラベル系列に対するビタビスコアを単語毎に計算する。そして主音声認識部14は、最大のビタビスコアを持つ単語を認識結果として出力する。
【0115】
主音声認識部14の構成は、従来のサブワード型不特定話者音声認識装置と同様であり、図8に示すように、(図44中の音響分析部441、量子化部442、及びHMM認識部443に相当する)音響分析部141、量子化部142、及びHMM認識部143を有している。ここで、主音声認識部14内の音響分析部141及び量子化部142と、部分単語系列生成部12内の音響分析部121及び量子化部122とを独立に設ける必要はなく、いずれか一方を共有使用することで、他方を不要とすることができる。
【0116】
さて、図7の使用者登録単語辞書13の例では、認識処理時に使用者が「しゃいん」と音声入力した場合、主音声認識部14では、この音声から生成されたラベル系列に対して、社員の単語HMMと役員の単語HMM(2個ある)のビタビスコアが計算される。
【0117】
もし、「社員」のビタビスコアが−40、「役員」のビタビスコアが−80と−100であるものとすると、主音声認識部14での認識結果は単語「社員」となる。
【0118】
また、使用者が「やくいん」と音声入力した場合に、この音声から生成されたラベル系列に対して、同様にビタビスコアが計算され、「社員」のビタビスコアが−50、「役員」のビタビスコアが−30と−40であるならば、認識結果は単語「役員」となる。
【0119】
以上の例では、使用者登録単語辞書13に直接、単語HMMのパラメータを登録するものとして説明したが、部分単語系列生成部12内の部分単語HMM認識部124から出力される部分単語系列を図9に示すように当該使用者登録単語辞書13に登録するようにしても構わない。
【0120】
使用者登録単語辞書13の辞書登録形式(辞書構造)として、(図7ではなくて)図9のような形式を適用する場合、部分単語系列生成部12は部分単語系列を出力して使用者登録単語辞書13に登録すればよいため単語HMMを生成する必要がなく、したがって図2とは異なって、部分単語系列生成部12に単語HMM生成部126を設ける必要はない。この場合の部分単語系列生成部12の構成を図10に示す。
【0121】
これに対して主音声認識部14には、図8とは異なって、図11に示すように(図2中の部分単語HMM辞書125及び単語HMM生成部126に相当する)部分単語HMM辞書145及び単語HMM生成部146を追加する必要がある。単語HMM生成部146は、使用者登録単語辞書13を参照して各単語の部分単語系列を取得し、その部分単語系列を構成する部分単語によって部分単語HMM辞書145を参照することで各部分単語の部分単語HMM(のパラメータ)を取得し、それを連結して各単語の単語HMMを生成する。
【0122】
HMM認識部143は、単語HMM生成部146が生成した各単語の単語HMMのビタビスコアをそれぞれ計算し、最大のビタビスコアを持つ単語を認識結果として出力する。
【0123】
なお、使用者登録単語辞書13の登録形式を図9のようにして、図10及び図11の構成を適用する場合、図10の構成の部分単語系列生成部12で使用する部分単語HMM辞書(125)と、図11の構成の主音声認識部14で使用する部分単語HMM辞書(145)の内容が同一のものであるならば、いずれか一方を共有使用して、他方を不要としても構わない。この場合、共有使用する部分単語HMM辞書は、部分単語系列生成部12及び主音声認識部14の外部に設けられているものであっても構わない。また、単語HMM生成部(126または146)も、部分単語系列生成部12または主音声認識部14の一部とせず、その外部に設けるようにしても構わない。
【0124】
また、使用者登録単語辞書13の登録形式を図9のようにした場合、図11の構成の主音声認識部14で使用する部分単語HMMと、図10の構成の部分単語系列生成部12で使用する部分単語HMMとが異なっていても構わない。例えば、部分単語系列生成部12にて部分単語系列を生成する場合には、高精度に照合を行うために5状態の部分単語HMMを使用し、主音声認識部14では高速に大量の単語との照合を行うために3状態の部分単語HMMを使用するような構成を適用することも可能である。このように、主音声認識部14で使用する部分単語HMMが、部分単語系列生成部12で使用する部分単語HMMと異なっている場合には、図10及び図11の例のように、それぞれの部分単語HMM辞書(125,145)を別個に用意すればよい。
【0125】
さて、主音声認識部14で使用する部分単語の体系と、部分単語系列生成部12で使用する部分単語の体系が異なる場合が考えられる。例えば、主音声認識部14では直前の音素毎に区別した音素を部分単語として用いる場合がある。つまり、音素「k」の後の「a」を「(k)a」とし、音素「s」の後の「a」を「(s)a」として両者を区別する。
【0126】
そのためには、図12に示すように、主音声認識部14で使用する部分単語の体系を適用した部分単語HMM辞書15と、単語HMM生成部16とを設ける必要がある。
【0127】
部分単語HMM辞書15の登録形式自体は、直前の音素毎に区別した音素を部分単語として用いている点を除けば、これまで述べてきた部分単語HMM辞書125,144、更には部分単語HMM辞書460(図44参照)と同様である。この部分単語HMM辞書15の一例を図13に示す。図13中の「#」は語頭を表す仮想的な音素に与えた記号である。
【0128】
図12の構成において、単語HMM生成部16は、部分単語系列生成部12が生成した部分単語系列(音素系列)を主音声認識部14で使用する部分単語の体系に変換する。そして単語HMM生成部16は、変換後の部分単語系列に従って部分単語HMM辞書15内に登録されている部分単語HMMを選択し、それを接続することで単語HMMを作成して、使用者登録単語辞書13に登録する。
【0129】
例えば、「社員」という単語に対して使用者が「社員」と発声して登録したときに部分単語系列生成部12が「y,a,i,N」という系列を出力した場合を考える。
【0130】
この場合、単語HMM生成部16は、部分単語系列「y,a,i,N」の各音素を、直前の音素も考慮して部分単語系列「(#)y,(y)a,(a)i,(i)N」に変換する。さらに「(#)y,(y)a,(a)i,(i)N」という並び順に、部分単語HMM辞書15から対応する部分単語HMMを取り出し、それらを連結して単語HMMを生成する。
【0131】
部分単語系列生成部12及び主音声認識部14の動作は、図1の構成の場合と同様である。
【0132】
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
【0133】
まず、単語「社員」に対して使用者が「しゃいん」と発声して登録使用した場合を考える。この音声の登録の際に、音声の直前の部分で雑音が混入してしまうと、その雑音部分も含んだ部分単語系列が生成されてしまう。つまり、「p,a,h,u,sy,a,i,N」のような部分単語系列が生成されてしまう。ここで、「p,a,h,u」の部分は、誤って雑音に対して生成してしまった部分単語系列である。
【0134】
これをそのまま使用者登録単語辞書(13)に登録してしまうと、認識処理時に使用者が発声した音声「しゃいん」に対する単語「社員」の単語HMM(「p,a,h,u,sy,a,i,N」)のビタビスコアは小さくなってしまう。したがって、認識結果に「社員」が選ばれにくくなり、認識性能が低下する。
【0135】
第2の実施形態は、このような誤った部分単語系列の登録を自動的に防止する機構を実現するものである。
【0136】
図14は、本発明の第2の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図1と同一部分には同一符号を付してある。
【0137】
図14の構成において、部分単語系列生成部12は、入力音声を1つまたは複数の部分単語系列(少なくとも1つの部分単語系列)に変換し、その部分単語系列を出力する。この際、部分単語系列生成部12は、前記第1の実施形態における図10の構成と異なって、部分単語系列と同時にその系列のビタビスコアも出力する。
【0138】
図14の構成の特徴は、図1の構成に対して登録条件判定部21が追加されている点にある。この登録条件判定部21には、部分単語系列生成部12から出力される部分単語系列及びその系列のビタビスコアが送られる。
【0139】
登録条件判定部21は、部分単語系列生成部12から部分単語系列と対になって送られるビタビスコアを、ラベル系列長Tの関数である登録判定関数γ(T)=RT(Rは定数)と比較し、当該γ(T)=RTの値より大きいスコアの場合だけ、対応する部分単語系列を使用者登録単語辞書13に登録する。
【0140】
部分単語HMMは、対応する部分単語の音声に対するビタビスコアが大きくなるように構成されるため、雑音に代表される非音声に対するビタビスコアは小さくなることが多い。したがって、上述した例では、部分単語「p,a,h,u,sy,a,i,N」に対するビタビスコアは、正常な音声区間を部分単語系列に変換したときに期待されるビタビスコアよりも小さくなる。
【0141】
したがって、上記のように、部分単語系列生成部12から出力される部分単語系列に対して、その系列のビタビスコアをもとに使用者登録単語辞書13に登録すべきか否かを登録条件判定部21にて判定することで、スコアの悪い誤った部分単語系列が使用者登録単語辞書13に登録されるのを自動的に防止することができる。
【0142】
なお、登録条件判定部21での登録判定方法、即ち部分単語系列生成部12で生成された部分単語系列を使用者登録単語辞書13に登録するか否かを判定する方法は種々考えられる。本発明ではその判定方法は問わないが、例えば以下に述べるように部分単語系列の個数で登録を制限することも可能である。
【0143】
部分単語系列のビタビスコアが比較的大きい単語系列が多数出現する場合がある。前記第1の実施形態における部分単語系列生成部12では、g(T)よりも大きいビタビスコアを持つ部分単語系列が全て出力される。
【0144】
しかし、メモリ(記憶領域)の制約が強い装置の場合には、使用者登録単語辞書13内の1単語が占める領域をできるだけ小さくするために、単語当たりの部分単語系列の個数を制限したい。
【0145】
このような場合には、登録条件判定部21での登録判定を以下のようにする。但し、単語当たりの最大部分単語系列数をNとする。
【0146】
まず、部分単語系列の個数がN以下の場合は全て使用者登録単語辞書13に登録する。これに対し、部分単語系列の個数がN以上の場合は、ビタビスコアの大きい順に部分単語系列を整列し、上位N個を使用者登録単語辞書13に登録する。
【0147】
これにより、使用者登録単語辞書13に登録される部分単語系列の個数を制限することができる。
【0148】
[第3の実施形態]
前記第2の実施形態においても述べたように、雑音等の影響で、非音声区間まで含めて部分単語系列に変換してしまった場合、認識処理時の主音声認識部(14)での認識性能は低下してしまう。
【0149】
多くの場合、部分単語HMMは雑音に対してはうまく照合できないため、そのような部分単語系列のビタビスコアは小さい値になるのだが、雑音の種類によっては部分単語HMMとたまたま照合してしまい、部分単語系列のビタビスコアが大きくなってしまう場合がある。このような場合、前記第2の実施形態で適用した登録条件判定部21による登録判定では、誤った部分単語系列の登録を防止することができない。
【0150】
しかし、部分単語系列は、使用した話者が発声した音声に相当する部分単語系列に概ね対応するため、このような誤りは使用者が部分単語系列を確認することで発見できる。
【0151】
第3の実施形態は、このような誤った部分単語系列の登録を、使用者が確認することによって防止する機構を実現するものである。
【0152】
図15は、本発明の第3の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図14と同一部分には同一符号を付してある。
【0153】
図15の構成の特徴は、図14の構成において登録条件判定部21に代えて登録確認部31を用いている点、つまり図1の構成に対して登録確認部31が追加されている点にある。この登録確認部31には、部分単語系列生成部12から出力される部分単語系列が送られる。
【0154】
登録確認部31は、図16に示すように、部分単語系列文字列変換部311、部分単語系列表示文字列対応表312、使用者操作部313、文字列表示処理部314、表示器315、及び使用者操作判定部316から構成される。
【0155】
部分単語系列文字列変換部311は、部分単語系列生成部12が出力した部分単語系列を、使用者に分かりやすい系列の文字列に変換する。本実施形態では、使用者が確認しやすいように平仮名に変換して表示する例を述べる。この部分単語系列文字列変換部311は、図17に示すように、部分単語系列平仮名変換部311a及び部分単語系列平仮名対応表311bから構成される。
【0156】
部分単語系列平仮名対応表311bの一例を図18に示す。図18の例では、部分単語系列平仮名対応表311bには、平仮名に変換できる部分単語系列と対応する平仮名(の文字コード)とが組になって登録されている。
【0157】
部分単語系列平仮名変換部311aは、図19のフローチャートに従って次のように動作する。
【0158】
まず、平仮名変換部311aは、部分単語系列生成部12から送られる部分単語系列を入力する(ステップS31)。この部分単語系列をX=[x(1) ,x(2) ,…,x(J(X))]とする。また、変換の結果得られる文字列(結果文字列)をSとする。
【0159】
次に平仮名変換部311aは、変換バッファa及び結果文字列バッファSを空にし、部分単語系列X内の部分単語を指すポインタiを1に初期設定する(ステップS31,S32)。
【0160】
次に平仮名変換部311aは、i=1〜i=J(X)まで、以下に述べるステップS35〜S40を繰り返し、iがJ(X)を越えたならば(ステップS34)、一連の処理を終了する。
【0161】
即ち平仮名変換部311aは、iがJ(X)以下の場合には(ステップS34)、まず部分単語系列X内のi番目の部分単語x(i) を変換バッファaに追加する(ステップS35)。
【0162】
次に平仮名変換部311aはiを1増加する。
【0163】
次に文字列変換部311は、変換バッファa内の部分単語系列(または部分単語)と等しい部分単語系列(または部分単語)を部分単語系列平仮名対応表311bから探し(ステップS37)、見つかった場合には(ステップS38)、ステップS39に進む。これに対して見つからなかった場合には、ステップS34に戻る。
【0164】
ステップS39では、変換バッファa内の部分単語系列に対応する平仮名文字列を部分単語系列平仮名対応表311bから取得して結果文字列バッファSに追加し、当該バッファaの内容を消去した後(ステップS40)、ステップS34に戻る。
【0165】
以上の動作をi=1〜i=J(X)まで繰り返すことにより、部分単語系列Xに対する平仮名文字列への変換が終了し、結果文字列バッファSに変換結果(平仮名文字列)が得られる。
【0166】
部分単語系列文字列変換部311(内の平仮名変換部311a)により部分単語系列から変換された平仮名文字列は当該部分単語系列と対にして部分単語系列表示文字列対応表312に登録されると同時に、文字列表示処理部314に送られる。この部分単語系列表示文字列対応表312における登録例を図20に示す。
【0167】
図16中の使用者操作部313は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「肯定」(ここでは「登録する」)を意味するキースイッチ、「否定」(ここでは「登録しない」)を意味するキースイッチ(いずれも図示せず)を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部314に出力される。
【0168】
文字列表示処理部314は、単語登録時には、使用者の指定した単語についての単語登録確認画面を表示器315に表示し、その画面上に部分単語系列文字列変換部311から変換出力される文字列(平仮名文字列)を表示する。
【0169】
図21に単語登録確認画面の表示例を示す。この単語登録確認画面には、部分単語系列文字列変換部311から出力される各文字列の表示欄(文字列表示欄)211毎に、その文字列を登録するか否かの指示を入力するための登録指示欄212が設けられると共に、各登録指示欄212の入力内容を決定するためのもう1つの登録指示欄(決定欄)213が設けられる。これら登録指示欄212及び213は、登録指示入力フィールド214をなす。また、単語登録確認画面には、登録指示入力フィールド214内を上下に移動可能なカーソル215が表示される。
【0170】
文字列表示処理部314は、使用者操作部313から使用者の操作情報を受け取り、それに応じて、以下のように表示を変化させる。
【0171】
「カーソル上移動」の場合、今カーソル215がある行より上に登録指示欄212があれば、カーソル215を1つ上の登録指示欄212に移す。
【0172】
「カーソル下移動」の場合、今カーソル215がある行より下に登録指示欄212または213があれば、カーソル215を1つ下の登録指示欄212または213に移す。移動先が登録指示欄213、即ち決定欄213のときは、「登録する」のマークが付いている平仮名列を使用者操作判定部316に出力し、動作を終了する。
【0173】
「肯定」の場合、今カーソル215がある登録指示欄212に「登録する」のマーク(ここでは、○印)を付ける。
【0174】
「否定」の場合、今カーソル215がある登録指示欄212に「登録しない」のマーク(ここでは、×印)を付ける。
【0175】
図21の表示例は、使用者が単語「社員」の登録を要求し、単語「社員」に対応して「しゃいん」と発声した際に、雑音の影響で部分単語系列生成部12から「g,a,b,a,sy,a,i,N」「g,a,d,a,sy,a,i,N」「g,a,b,a,sy,a,i,g,u」という3つの部分単語系列が出力された場合の単語登録確認画面を示したものである。それぞれの部分単語系列は、登録確認部31内の部分単語系列文字列変換部311にて平仮名文字列に変換され、「がばしゃいん」「がだしゃいん」「がばしゃいぐ」が文字列表示欄211に表示されている。ここでは、「がばしゃいん」が表示された文字列表示欄211に対応する登録指示欄212に「登録する」を意味する「○印」が表示され、「がだしゃいん」が表示された文字列表示欄211に対応する登録指示欄212に、「登録する」または「登録しない」を選択指定するために、カーソル215が移動されている。
【0176】
使用者操作判定部316は、カーソル215が決定欄213に入った結果、文字列表示処理部314から出力される文字列、即ち使用者により「登録する」ことが指定された文字列を、(図20に示したような)部分単語系列表示文字列対応表312を用いて部分単語系列に変換し、その部分単語系列を使用者登録単語辞書13に登録する。
【0177】
なお、図21の表示例では、表示文字列が画面の表示幅内に収まっているが、表示文字列が画面の表示幅よりも長い場合には、左右にスクロールする機溝を設けるか、もしくは複数行に折り畳んで表示すればよい。また、表示文字列の個数が画面の行数よりも多い場合には、上下にスクロールする機構を設ければよい。
【0178】
このように本実施形態においては、使用者が音声で入力した単語を、部分単語系列に変換してから辞書登録を行うため、その辞書登録前に、部分単語系列を使用者に分かりやすい系列の文字列(ここでは平仮名文字列)に変換して使用者に提示することで、使用者は音声登録しようとする内容、つまり部分単語系列生成部12から出力される部分単語系列が認識誤りのある系列であるか否かを、(使用者にとって分かりにくい部分単語系列のレベルではなくて)文字列のレベルで事前に確認することができ、誤った部分単語系列が登録されるのを阻止することができる。
【0179】
なお、部分単語系列を文字列に変換して使用者に提示するのに、その文字列を表示する他に、その文字列を表す音声を規則合成等により出力して使用者に提示することも可能である。
【0180】
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。この第4の実施形態は、誤った部分単語系列が出力された場合であっても、その誤った部分単語系列(の少なくとも一部分)を使用者が簡単な編集操作で正しい部分単語系列に修正することができ、これにより正しい部分単語系列の登録を可能とする機構を実現するものである。
【0181】
図22は、本発明の第4の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図15と同一部分には同一符号を付してある。
【0182】
図22の構成の特徴は、図15の構成において登録確認部31に代えて登録編集部41を用いている点、つまり図1の構成に対して登録編集部41が追加されている点にある。この登録編集部41には、部分単語系列生成部12から出力される部分単語系列が送られる。
【0183】
登録編集部41は、図23に示すように、(前記第3の実施形態における登録確認部31の1構成要素である、図17の部分単語系列文字列変換部311と同一構成の)部分単語系列文字列変換部411、使用者操作部413、文字列表示処理部414、表示器415、及び文字列部分単語系列変換部416から構成される。
【0184】
使用者操作部413は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「カーソル左移動」を意味するキースイッチ、「カーソル右移動」を意味するキースイッチ、「フィールド切り替え」を意味するキースイッチ、「肯定」(「登録する」)を意味するキースイッチ、「否定」(「登録しない」)を意味するキースイッチ、文字の「削除」を意味するキースイッチ、各「平仮名文字」に対応するキースイッチ(いずれも図示せず)を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部414に出力される。
【0185】
文字列表示処理部414は、使用者の指定した単語についての単語登録確認時には単語登録編集画面を表示器415に表示し、その画面上に部分単語系列生成部12から出力される部分単語系列に対応する文字列(平仮名文字列)を表示する。この部分単語系列に対応する文字列は、部分単語系列文字列変換部411による、図17の構成の部分単語系列文字列変換部311と同様の変換動作により、当該文字列変換部411から出力されるものである。この文字列変換部411での部分単語系列から文字列(平仮名文字列)への変換には、上記部分単語系列文字列変換部311内の部分単語系列平仮名対応表311bの内容(図18参照)と同一内容の部分単語系列平仮名対応表(図示せず)が用いられる。
【0186】
図24に単語登録編集画面の表示例を示す。この単語登録編集画面には、部分単語系列文字列変換部411から出力される各文字列を表示・編集するための文字列編集フィールド241と、当該文字列編集フィールド241上の文字列を登録するか否かの指示を入力するための登録指示入力フィールド242とが設けられる。登録指示入力フィールド242は、文字列編集フィールド241上の各文字列に対応して設けられる登録指示欄243と、各登録指示欄243の入力内容を決定するためのもう1つの登録指示欄(決定欄)244とからなる。また、単語登録編集画面には、文字列編集フィールド241及び登録指示入力フィールド242内を移動可能なカーソル245が表示される。
【0187】
文字列表示処理部414は、使用者操作部413から使用者の操作情報を受け取り、それに応じて表示を変化させる。
【0188】
まず、カーソル245が登録指示入力フィールド242内にある場合の動作は次の通りである。
【0189】
「カーソル上移動」の場合、今カーソル245がある行より上に登録指示欄243があれば、カーソル245を1つ上の登録指示欄243に移す。
【0190】
「カーソル下移動」の場合、今カーソル245がある行より下に登録指示欄243または244があれば、カーソル245を1つ下の登録指示欄243または244に移す。移動先が登録指示欄244、即ち決定欄244のときは、「登録する」のマークが付いている平仮名列を文字列部分単語系列変換部416に出力し、動作を終了する。
【0191】
「肯定」の場合、今カーソル245がある登録指示欄243に「登録する」のマーク(ここでは、○印)を付ける。
【0192】
「否定」の場合、今カーソル245がある登録指示欄243に「登録しない」のマーク(ここでは、×印)を付ける。
【0193】
「フィールド切り替え」の場合、カーソル245を文字列編集フィールド241上の対応する文字列の先頭位置に移動する。
【0194】
それ以外の場合は無視する。
【0195】
一方、カーソル245が文字列編集フィールド241内にある場合の動作は次の通りである。
【0196】
「カーソル右移動」の場合、今カーソル245がある文字の右隣に文字があればカーソル245を1文字右に移す。
【0197】
「カーソル左移動」の場合、今カーソル245がある文字の左隣に文字があればカーソル245を1文字左に移す。
【0198】
「削除」の場合、今カーソル245がある文字を消し、そこから右側にある文字を全て1文字ずつ左に詰める。
【0199】
「平仮名文字」のいずれかの場合、今カーソル245がある文字から右を全て1文字ずつ右にずらし、空いた位置(もともとカーソル245があった位置)にその平仮名文字を表示する。
【0200】
「フィールド切り替え」の場合、カーソル245を登録指示入力フィールド242にある、対応する登録指示欄243に移動する。
【0201】
それ以外の場合は無視する。
【0202】
図24の表示例は、前記第3の実施形態と同様に、使用者が単語「社員」の登録を要求し、単語「社員」に対応して「しゃいん」と発声した際に、雑音の影響で部分単語系列生成部12から「g,a,b,a,sy,a,i,N」「g,a,d,a,sy,a,i,N」「g,a,b,a,sy,a,i,g,u」という3つの部分単語系列が出力された場合の単語登録編集画面を示したものである。それぞれの部分単語系列は、登録編集部41内の部分単語系列文字列変換部411にて平仮名文字列に変換され、「がばしゃいん」「がだしゃいん」「がばしゃいぐ」が文字列編集フィールド241に表示されている。ここでは、表示文字列「がばしゃいん」に対応する登録指示欄243に「登録しない」を意味する「×印」が表示され、表示文字列「がだしゃいん」中の「だ」の位置にカーソル245が移動されている。
【0203】
この状態で、使用者が使用者操作部413を操作して「削除」キースイッチを押すと、文字列表示処理部414は文字列「がだしゃいん」中の「だ」を削除する。これにより、文字列「がだしゃいん」は「がしゃいん」となる。更に、使用者がカーソル245を「がしゃいん」中の「が」の位置に移動させて、「削除」キースイッチを押すと、文字列表示処理部414は文字列「がしゃいん」中の「が」を削除する。このようにして、文字列「がばしゃいん」を文字列編集フィールド上で編集して、図25に示すように単語「社員」の入力音声に対する正しい平仮名文字列「しゃいん」に修正することができる。
【0204】
この状態で、使用者が「フィールド切り替え」キースイッチを押すと、カーソル245は文字列「しゃいん」に対応する登録指示欄243に移動される。更に使用者が「肯定」キースイッチを押すと、図25に示すように、文字列「しゃいん」に対応する登録指示欄243に「登録する」のマーク(○)が表示される。
【0205】
また、使用者がカーソル245を文字列編集フィールド241内の文字列「がばしゃいぐ」に対応する登録指示欄243に移動させて、「否定」キースイッチを押すと、当該登録指示欄243に図25に示すように「登録しない」のマーク(×)が表示される。
【0206】
この状態で、使用者がカーソル245を決定欄244に移動させると、文字列表示処理部414は「登録する」のマーク(○)が付いている平仮名列「しゃいん」を文字列部分単語系列変換部416に出力する
文字列部分単語系列変換部416は、前記第3の実施形態における部分単語系列文字列変換部411とは逆の動作により、文字列表示処理部414から出力された平仮名文字列を部分単語系列に変換し、それを使用者登録単語辞書13に登録する。
【0207】
ここで、文字列部分単語系列変換部416の詳細を説明する。
【0208】
文字列部分単語系列変換部416は、図26に示すように、平仮名部分単語系列変換部416a、及び部分単語系列平仮名対応表416bから構成される。この部分単語系列平仮名対応表416bの内容は、部分単語系列文字列変換部411内の図示せぬ部分単語系列平仮名対応表の内容と同一、つまり図17の構成の部分単語系列文字列変換部311内の部分単語系列平仮名対応表311bの内容(図18参照)と同一である。したがって、部分単語系列文字列変換部411と文字列部分単語系列変換部416とで、部分単語系列平仮名対応表を共有することも可能である。
【0209】
文字列部分単語系列変換部416内の平仮名部分単語系列変換部416aによる平仮名文字列から部分単語系列への変換動作は次のように行われる。
【0210】
まず、平仮名文字列をSとし、長さをJ(S) 、i文字目の平仮名をS(i) で表す。変換の結果得られる部分単語系列(のバッファ)をXとする。
【0211】
(1)Xを空にする。
【0212】
(2)iを1からJ(S) まで1ずつ増加させ(3)を繰り返し実行する。
【0213】
(3)部分単語系列平仮名対応表416bから、平仮名S(i) に対応する部分単語系列を探し、その部分単語系列をXに追加する。
【0214】
このように本実施形態においては、使用者が音声で入力した単語を、部分単語系列に変換してから辞書登録を行うことから、その辞書登録前に、部分単語系列を使用者に分かりやすい系列の文字列(ここでは平仮名文字列)に変換して使用者に提示して、使用者による文字列の編集操作に供することによって、使用者は音声登録しようとする内容、つまり部分単語系列生成部12から出力される部分単語系列が認識誤りのある系列であっても、それを事前に確認して(使用者にとって分かりにくい部分単語系列のレベルではなくて)文字列のレベルで正しいものに修正することができる。しかも、修正後の文字列を自動的に部分単語系列に変換して登録することができる。したがって、本実施形態においては、音声登録した内容を文字列編集によって編集できるといえる。
【0215】
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。
【0216】
以上に述べた実施形態、例えば第1の実施形態において、使用者が単語を漢字表記の読み通りに登録している場合には問題は少ない。しかし、独自の読み・略称で登録している場合には、使用者本人がどのように登録したかを忘れてしまう虞があり、その場合には問題となる。また、複数の使用者が1台の音声認識装置を利用する場合、他の使用者が登録した内容が分からないという問題もある。したがって、音声登録内容を使用者が確認できるようにことは認識装置の維持、管理の上で非常に有用である。また、文字登録できる別の音声認識装置がある場合には、確認した(表示された)文字列をその音声認識装置に登録し直すことで、音声で登録した登録内容を他の音声認識装置に容易にコピーできるようになる。
【0217】
第5の実施形態は、使用者登録単語辞書13の登録内容を利用者に分かりやすい形態で提示することを可能とする機構を実現するものである。
【0218】
図27は、本発明の第5の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図1と同一部分には同一符号を付してある。
【0219】
図27の構成の特徴は、図1の構成に対して使用者単語登録辞書表示部51が追加されている点にある。なお、図27中の使用者登録単語辞書13には、図9に示したような登録形式、つまり単語名と対応す単語を構成する部分単語系列の対が登録される登録形式が用いられるものとする。
【0220】
使用者単語登録辞書表示部51は、使用者登録単語辞書13に登録された部分単語系列の情報を使用者に分かりやすい系列の文字情報、例えば平仮名文字列に変換して使用者に提示するものであり、図28に示すように、(前記第3の実施形態における部分単語系列文字列変換部311と同一構成の)部分単語系列文字列変換部511、文字列表示処理部514、及び表示器515から構成される。
【0221】
部分単語系列文字列変換部511は、使用者登録単語辞書13から単語名と部分単語系列の対を読み出し、部分単語系列に対して前記部分単語系列文字列変換部311と同様の変換を行い、使用者登録単語辞書13から読み出した単語名と、対応する部分単語系列を変換して得られた文字列との対を、文字列表示処理部514に出力する。
【0222】
したがって、使用者登録単語辞書13の内容が図9のようになっている場合であれば、単語「社員」と文字列「やいん」の対、単語「役員」と文字列「やくいん」の対、そして単語「役員」と文字列「やぷいん」の対が文字列表示処理部514に出力される。
【0223】
文字列表示処理部514は、部分単語系列文字列変換部511から出力された単語名と文字列の対を表示器515に一覧表示する。これにより使用者は、使用者登録単語辞書13の登録内容を容易に確認することができる。この表示例を図29に示す。
【0224】
なお、以上に述べた第5の実施形態では、図1の構成に使用者単語登録辞書表示部51を追加した場合について説明したが、図2の構成、図14の構成、図15の構成、または図22の構成に使用者単語登録辞書表示部51を追加することも可能である。
【0225】
[第6の実施形態]
次に、本発明の第6の実施形態について説明する。
【0226】
前記第5の実施形態では、使用者登録単語辞書13の内容を使用者に分かりやすい形態で提示することで、使用者は登録内容を容易に確認することができた。しかし、第5の実施形態では、部分単語系列生成部12で誤った部分単語系列が生成されて使用者登録単語辞書13に登録された場合には、それを編集(変更、削除)する機能を持たないため、それが主音声認識部14の認識性能に悪影響を及ぼす虞がある。
【0227】
そこで第6の実施形態は、使用者登録単語辞書13の登録内容が確認できるだけでなく、登録内容が編集できる機構を実現するものである。
【0228】
図30は、本発明の第6の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図27と同一部分には同一符号を付してある。
【0229】
図30の構成の特徴は、図27の構成において使用者単語登録辞書表示部51に代えて使用者単語登録辞書編集部61を用いている点、つまり図1の構成に対して使用者単語登録辞書編集部61が追加されている点にある。
【0230】
使用者単語登録辞書編集部61は、図31に示すように、(前記第3の実施形態における部分単語系列文字列変換部311と同一構成の)部分単語系列文字列変換部611、使用者操作部613、文字列表示処理部614、表示器615、及び辞書操作部616から構成される。
【0231】
本実施形態で適用される図30中の使用者登録単語辞書13には、図9に示したような登録形式、つまり単語名と対応す単語を構成する部分単語系列の対が登録される登録形式が用いられる他、図32に示すように、それぞれの登録内容にユニークな番号(以下、単語番号と称する)が付されているものとする。
【0232】
使用者単語登録辞書編集部61内の部分単語系列文字列変換部611は、図32に示す構造の使用者登録単語辞書13から単語名と部分単語系列の対を読み出し、部分単語系列に対して前記部分単語系列文字列変換部311と同様の変換を行い、その単語名に付されている単語番号と、その単語名と、対応する部分単語系列を変換して得られた文字列との組を、文字列表示処理部614に出力する。
【0233】
さて、使用者操作部613は、「カーソル上移動」を意味するキースイッチ、「カーソル下移動」を意味するキースイッチ、「カーソル左移動」を意味するキースイッチ、「カーソル右移動」を意味するキースイッチ、「フィールド切り替え」を意味するキースイッチ、「項目の削除」を意味するキースイッチ、「項目の変更」を意味するキースイッチ、文字の「削除」を意味するキースイッチ、各「平仮名文字」に対応するキースイッチ(いずれも図示せず)を持つ。いずれかのキースイッチが押されると、その操作情報が文字列表示処理部614に出力される。
【0234】
文字列表示処理部614は、使用者登録単語辞書13の編集時には、使用者登録単語辞書編集画面を表示器615に表示し、その画面上に部分単語系列文字列変換部611から出力される単語名と文字列とを一覧表示する。
【0235】
図33に使用者登録単語辞書編集画面の表示例を示す。この使用者登録単語辞書編集画面には、単語名を表示するための単語名表示フィールド331と、当該単語名表示フィールド331上の単語名と組をなして部分単語系列文字列変換部611から出力される文字列を表示・編集するための文字列編集フィールド332と、当該文字列編集フィールド332上の文字列に対する編集(ここでは、変更、削除)を行うか否かの指示等を入力するための編集指示入力フィールド333とが設けられる。編集指示入力フィールド333は、文字列編集フィールド332上の各文字列に対応して設けられ、編集指示内容(変更または削除)を入力するための編集指示欄334と、各編集指示欄334の入力内容に従う辞書操作部616による辞書操作を起動するためのもう1つの編集指示欄(決定欄)335とからなる。また、単語登録編集画面には、文字列編集フィールド332及び編集指示入力フィールド333内を移動可能なカーソル336が表示される。
【0236】
文字列表示処理部614は、使用者操作部613から使用者の操作情報を受け取り、それに応じて表示を変化させる。
【0237】
まず、カーソル336が編集指示入力フィールド333内にある場合の動作は次の通りである。
【0238】
「カーソル上移動」の場合、今カーソル336がある行より上に編集指示欄334があれば、カーソル336を1つ上の編集指示欄334に移す。
【0239】
「カーソル下移動」の場合、今カーソル336がある行より下に編集指示欄334または335があれば、カーソル336を1つ下の編集指示欄334または335に移す。移動先が編集指示欄335、即ち決定欄335のときは、「削除する」及び「変更する」のマークがついている全ての項目について、マークの表す操作内容、単語番号、単語名及び文字列の4個を組にして、辞書操作部616に出力し、動作を終了する。
【0240】
「項目の変更」の場合、今カーソル336がある編集指示欄334に「変更する」のマーク(ここでは、○印)を付ける。
【0241】
「項目の削除」の場合、今カーソル336がある編集指示欄334に「削除する」のマーク(ここでは、×印)を付け、カーソル336を文字列編集フィールド332上の対応する文字列の先頭位置に移動する。
【0242】
それ以外の場合は無視する。
【0243】
一方、カーソル336が文字列編集フィールド332内にある場合の動作は次の通りである。
【0244】
「カーソル右移動」の場合、今カーソル336がある文字の右隣に文字があればカーソル336を1文字右に移す。
【0245】
「カーソル左移動」の場合、今カーソル336がある文字の左隣に文字があればカーソル336を1文字左に移す。
【0246】
「削除」の場合、今カーソル336がある文字を消し、そこから右側にある文字を全て1文字ずつ左に詰める。
【0247】
「平仮名文字」のいずれかの場合、今カーソル336がある文字から右を全て1文字ずつ右にずらし、空いた位置(もともとカーソル336があった位置)にその平仮名文字を表示する。
【0248】
「フィールド切り替え」の場合、カーソル336を編集指示入力フィールド333にある、対応する編集指示欄334に移動する。
【0249】
それ以外の場合は無視する。
【0250】
図33の表示例は、図32に示した使用者登録単語辞書13の内容、つまり単語番号1の単語名「社員」の部分単語系列「y,a,i,N」、単語番号2の単語名「役員」の部分単語系列「y,a,k,u,i,N」、単語番号3の単語名「役員」の部分単語系列「y,a,p,u,i,N」に対応する文字列(平仮名文字列)「やいん」「やくいん」「やぷいん」が、対応する単語番号及び単語名と共に部分単語系列文字列変換部611から出力された場合の使用者登録単語辞書編集画面を示したものである。
【0251】
この状態で、使用者が使用者操作部613のキースイッチを用いて適切な編集操作を行うことによって、例えば図34のような使用者登録単語辞書編集画面を得ることができる。
【0252】
図34の画面は次のようにして得られる。
【0253】
まず図33に示すように、文字列編集フィールド332上の第1行の文字列「やいん」に対応する決定欄335に「変更する」のマーク(○)を表示させる。すると、カーソル336が当該第1行の文字列「やいん」の先頭文字「や」の位置に移動する。この状態で、「削除」キースイッチを押して「や」を削除し、そのままの状態で「平仮名」キースイッチにより「「し」「ゃ」と入力することで、文字列「やいん」を図34のように「しゃいん」に訂正する。次に、カーソル336を文字列編集フィールド332上の第3行の文字列「やぷいん」に対応する決定欄335に移動して、当該決定欄335に「削除する」のマーク(×)を表示させる。図34は、このときの使用者登録単語辞書編集画面を示している。
【0254】
この状態で、カーソルを決定欄335に移動させると、文字列表示処理部614は「○」が付いている行の情報、即ち「変更、単語番号1、社員、しゃいん」の組と、「×」が付いている行の情報、即ち「削除、単語番号3、役員、やぷいん」の組とを辞書操作部616に出力する。
【0255】
辞書操作部616は、文字列表示処理部614から、操作内容、単語番号、単語名及び文字列からなる情報組を受け取り、それに従って使用者登録単語辞書13を次のように操作する。
【0256】
まず、受け取った情報組中の操作内容が「変更」であった場合、辞書操作部616は、当該組情報中の単語番号を持つ項目の登録内容を使用者登録単語辞書13(図32参照)から検索し、その登録内容の部分単語系列の部分を、当該組情報中の文字列を部分単語系列に変換したもので置き換える。したがって、当該情報組の内容が上記した「変更、単語番号1、社員、しゃいん」の場合には、図32から明らかなように、単語番号1の項目の登録内容中の部分単語系列「y,a,i,N」が「sy,a,i,N」に置き換えられる。なお、辞書操作部616による文字列から部分単語系列への変換は、前記第4の実施形態における文字列部分単語系列変換部416(内の平仮名部分単語系列変換部416a)と同様にして行うことができる。
【0257】
次に、受け取った情報組中の操作内容が「削除」であった場合、辞書操作部616は、当該組情報中の単語番号を持つ項目の登録内容を使用者登録単語辞書13から検索し、その登録内容(項目)を使用者登録単語辞書13から削除する。したがって、当該情報組の内容が上記した「削除、単語番号3、役員、やぷいん」の場合には、図32から明らかなように、単語番号3の項目が削除される。
【0258】
この結果、辞書操作部616での上記の操作が終了した後の使用者登録単語辞書13の登録内容は、図32の状態から図35の状態に変わる。
【0259】
なお、以上に述べた第6の実施形態で適用した使用者単語登録辞書編集部61は、図2の構成、図14の構成、図15の構成、または図22の構成にも同様に適用可能である。
【0260】
[第7の実施形態]
次に、本発明の第7の実施形態について説明する。
【0261】
従来のサブワード型不特定話者音声認識装置では、単語の登録は読みを文字で入力することで行っていた。特にシステム設計時に登録される単語(操作コマンドの一般的な呼称に対する読み)などは、システム設計者が文字列で入力して登録することが多い。
【0262】
一方、以上に述べた実施形態、例えば第1の実施形態で適用した音声での単語登録により実現される使用者登録単語辞書13も部分単語で表現される。
【0263】
したがって、両者の単語登録情報の表現形式を統一することによって、異なる手段(音声と文字)で登録された辞書を区別することなく使用し、認識に用いることが可能である。つまり、システム設計時に登録した単語と、使用者が登録した単語を区別することなく使用し、認識に用いることが可能である。
【0264】
第7の実施形態は、システム設計時に登録した単語と、使用者が登録した単語を区別することなく使用することを可能とすることで、主音声認識部の構成の簡略化を図るようにしたものである。
【0265】
図36は、本発明の第7の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図1と同一部分には同一符号を付してある。
【0266】
図36の構成の特徴は、図1の構成に対して使用者登録単語辞書13と同一の表現形式(登録形式)の文字登録単語辞書73が追加されている点と、図1中の主音声認識部14に代えて、使用者登録単語辞書13及び文字登録単語辞書73の両単語辞書を用いて入力音声の認識を行う主音声認識部74を用いている点にある。
【0267】
文字登録単語辞書73は、例えば図37のように、文字列部分単語系列変換部75を用いて作成される。
【0268】
文字列部分単語系列変換部75は、前記第4の実施形態における図26の構成の文字列部分単語系列変換部416と同様の変換機能を有しており、キーボード等から入力された文字列(ここでは平仮名列)を、図18に示した部分単語系列平仮名対応表311bと同様の内容の部分単語系列平仮名対応表(図示せず)をもとに部分単語系列に変換する。
【0269】
また文字列部分単語系列変換部75は、前記第1の実施形態における単語HMM生成部126と同様の単語HMM生成機能も有しており、図46に示したのと同様の部分単語HMM辞書を用い、入力文字列から変換した部分単語系列に従って当該部分単語HMM辞書に登録されている部分単語HMM(のパラメータ)を連結することで、入力文字列により構成される単語の単語音声モデルとしての単語HMM(のパラメータ)を生成する。文字列部分単語系列変換部75は、このようにして生成した単語HMM(のパラメータ)を、入力文字列により構成される単語の単語名と対にして文字登録単語辞書73に登録する。
【0270】
文字登録単語辞書73の一例を図38に示す。この図38は、「社外」という単語の登録のために使用者が「しゃがい」という文字列を入力し、「社内」という単語の登録のために「しゃない」という文字列を入力した場合の登録例を示している。
【0271】
なお、文字登録単語辞書73を作成する部分(文字列部分単語系列変換部75)は、図36の音声認識装置内に組み込まれていても、音声認識装置には組み込まていなくても構わない。後者の場合には、作成した文字登録単語辞書73の内容を、フロッピーディスク、CD−ROM等の着脱可能な記録媒体に記録して音声認識装置に装着するとか、通信回線等を介して音声認識装置内の記憶装置にローディングすればよい。
【0272】
さて、本実施形態における使用者登録単語辞書13には、図7に示した登録形式を適用している。この図7に示した使用者登録単語辞書13の登録形式と、図38に示した文字登録単語辞書73の登録形式とは同一であり、単語名と単語HMM(のパラメータ)の対が登録される形式となっている。
【0273】
このため主音声認識部74は、認識処理において文字登録単語辞書73を使用者登録単語辞書13と同様に利用することができる。したがって主音声認識部74には、使用者登録単語辞書13と文字登録単語辞書73との両単語辞書を用いるにも拘らず、例えば図8に示した主音声認識部14の構成と同様の構成を適用することができる。但し、主音声認識部74では、(図8中のHMM認識部143に相当する)HMM認識部(図示せず)が、使用者登録単語辞書13と文字登録単語辞書73の両辞書を参照し、両辞書に含まれる全ての単語についてビタビスコアを求める点で異なっている。
【0274】
次に、使用者登録単語辞書13と文字登録単語辞書73の両辞書を利用しての主音声認識部74での認識処理の具体例について説明する。
【0275】
認識処理時に、使用者が「しゃいん」と音声入力したものとする。この場合、「しゃいん」と発声された音声から生成されたラベル系列に対して、図7の登録内容を持つ使用者登録単語辞書13を参照して「社員」の単語HMMと「役員」の単語HMM(2個ある)のビタビスコアが計算されると共に、図38の登録内容を持つ文字登録単語辞書73を参照して「社内」の単語HMMと「社外」の単語HMMのビタビスコアが計算される。ここでは、「社員」のビタビスコアが−40、「役員」のビタビスコアが−80と−100、「社外」のビタビスコアが−70、「社内」のビタビスコアが−75であるものとすると、認識結果は単語「社員」となる。
【0276】
次に、使用者が「しゃない」と音声入力したものとする。この場合にも、「しゃない」と発声された音声から生成されたラベル系列に対して、同様にビタビスコアが計算される。もし、「社員」のビタビスコアが−90、「役員」のビタビスコアが−75と−70、「社外」のビタビスコアが−55、「社内」のビタビスコアが−35であるものとすると、認識結果は単語「社内」となる。
【0277】
以上の例では、使用者登録単語辞書13と文字登録単語辞書73とを全く別個に持っているが、文字で登録した単語と音声で登録した単語の区別を必要としない場合には、両者を同じ領域に保持していても構わない。
【0278】
例えば、図7に示した使用者登録単語辞書13の登録内容及び図38に示した文字登録単語辞書73の登録内容を共通の辞書(以下、文字・音声登録単語辞書と称する)の領域に保持する場合であれば、文字・音声登録単語辞書は図39(a)のようになる。
【0279】
また、図39(b)に示すように、文字・音声登録単語辞書内にいずれの手段で登録されたかを示す属性、例えば文字で登録されたか音声で登録されたかを示すフラグを、登録内容毎に保持することで、両者を区別して扱いたい場合であっても、両者を同じ領域に混在させて保持することが可能となる。なお、図39(b)の例では、登録手段のみをフラグで表しているが、登録された日時の情報なども属性として登録しておくことも可能である。
【0280】
以上に述べた第7の実施形態で適用した使用者登録単語辞書13と文字登録単語辞書73とを併用する構成は、図2の構成、図14の構成、図15の構成、図22の構成、図27の構成、または図30の構成にも同様に適用可能である。
【0281】
[第8の実施形態]
次に、本発明の第8の実施形態について説明する。
【0282】
前述の実施形態では、使用者が特殊な発声をする場合(例:なまりが強い)、主音声認識部(14)の認識精度が低下することがある。このようなとき、主音声認識部(14)での認識処理で求められる各単語毎の尤度(ビタビスコア)は低下する傾向がある。このような傾向にある場合、部分単語系列生成部(12)の認識結果を使用者登録単語辞書(13)に登録し、次回からはそれも用いて認識を行うならば、主音声認識部(14)の認識精度を高めることが可能となる。
【0283】
第8の実施形態は、入力音声に対して主音声認識部だけでなく部分単語系列生成部でも認識処理を行い、その結果をもとに部分単語系列の登録の可否を判定して使用者登録単語辞書に自動登録することで、主音声認識部の認識精度を高めることを可能としたものである。
【0284】
図40は、本発明の第8の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図1と同一部分には同一符号を付してある。
【0285】
図40の構成の特徴は、音声認識モードにおいて入力音声が主音声認識部14だけでなく部分単語系列生成部12にも入力される点と、部分単語系列生成部12と主音声認識部14の両者の認識処理の結果をもとに部分単語系列の登録の可否を判定して使用者登録単語辞書13に登録する使用時単語登録判定部81が新たに設けられている点にある。
【0286】
また本実施形態における主音声認識部14が認識結果とその尤度(ビタビスコア)を出力する点も、それまでの実施形態とは異なる。また、部分単語系列生成部12は、前記第2の実施形態におけるのと同様に、部分単語系列の他にその系列の尤度(ビタビスコア)を出力する。
【0287】
なお、図40では、図1中のモード切替部11に相当するモード切替部は省略されている。このモード切替部は、単語登録モードでは、図1中のモード切替部11と同様に入力音声を部分単語系列生成部12に入力するのに対し、音声認識モードでは、入力音声を主音声認識部14及び部分単語系列生成部12の両方に入力する。
【0288】
図40の構成において、入力音声は、主音声認識部14及び部分単語系列生成部12のいずれにも入力される。主音声認識部14は、使用者登録単語辞書13を用いて前記第1の実施形態におけるのと同様にして入力音声に対する認識処理を行い、認識結果とその尤度(ビタビスコア)を出力する。一方、部分単語系列生成部12は、前記第1の実施形態における単語登録モードの場合と同様にして、入力音声を部分単語系列に変換し、その部分単語系列とその尤度(ビタビスコア)を出力する。ここで、使用者登録単語辞書13には、単語登録モードでの単語登録処理により単語登録がなされているものとする。
【0289】
使用時単語登録判定部81は、主音声認識部14から出力される認識結果の尤度と、部分単語系列生成部12から出力される部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が予め定められた基準値(閾値)Zよりも大きい場合に、その部分単語系列を主音声認識部14の認識結果に対応する部分単語系列として、使用者登録単語辞書13に登録する。
【0290】
この使用時単語登録判定部81の動作の詳細を、使用者登録単語辞書13の内容が図41(a)のようになっている場合を例に説明する。
【0291】
使用者Aが「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部14の出力が、単語「社員」でそのビタビスコアが−25、部分単語系列生成部12の出力が、ビタビスコアが−20の部分単語系列「sy,a,i」と、ビタビスコアが−25の部分単語系列「sy,a,i,N」であったものとする。
【0292】
使用時単語登録判定部81はまず、単語「社員」のビタビスコア−25と、部分単語系列「sy,a,i」のビタビスコア−20とを比較する。部分単語系列のビタビスコアの方が大きいので、使用時単語登録判定部81はその差を求め、基準値Zと比較する。ここでは、基準値Zが20に定められているものとすると、差5はZより小さいため、使用時単語登録判定部81は「sy,a,i」の使用者登録単語辞書13への登録を行わない。
【0293】
次に使用時単語登録判定部81は、単語「社員」のビタビスコア−25と、部分単語系列「sy,a,i,N」のビタビスコア−25とを比較する。部分単語系列のビタビスコアの方が大きくないので、登録は行われない。
【0294】
つまり、使用者Aが発声した「しゃいん」という音声は、もともと登録されていた単語「社員」に対する部分単語系列「sy,a,i,N」から期待される音声に非常に近い。これは、部分単語系列生成部12の出力に「sy,a,i,N」が含まれていること、最適な部分単語系列「sy,a,i」のビタビスコアと、「sy,a,i,N」のビタビスコアが比較的近い値であることからそう判断できる。したがって、この場合は使用者登録単語辞書13に新しい項目を追加する必要はない。
【0295】
次に、別の使用者Bが「社員」を入力しようとして、「しゃいん」と発声し、主音声認識部14の出力が、単語「社員」でそのビタビスコアが−55、部分単語系列生成部12の出力が、ビタビスコアが−20の部分単語系列「sy,e,i,N」と、ビタビスコアが−45の部分単語系列「j,e,i,N」であったものとする。
【0296】
使用時単語登録判定部81はまず、単語「社員」のビタビスコア−55と、部分単語系列「sy,e,i,N」のビタビスコア−20とを比較する。部分単語系列のビタビスコアの方が大きいので、使用時単語登録判定部81はその差を求め、基準値Z(=20)と比較する。差35はZより大きいため、使用時単語登録判定部81は、単語「社員」に対応する部分単語系列として「sy,e,i,N」を新たに使用者登録単語辞書13に登録する。
【0297】
次に使用時単語登録判定部81は、単語「社員」のビタビスコア−55と、部分単語系列「j,e,i,N」のビタビスコア−45とを比較する。部分単語系列のビタビスコアの方が大きいので、その差を求め、定数Z(=20)と比較する。差10はZより小さいため、「j,e,i,N」は登録されない。
【0298】
つまり、使用者Bが発声した「しゃいん」という音声は、もともと登録されていた単語「社員」に対する部分単語系列「sy,a,i,N」から期待される音声と異なっている。これは、部分単語系列生成部12が出力する最適な部分単語系列「sy,e,i,N」のビタビスコアが、「sy,a,i,N」のビタビスコアを大きく上回っていることから、このように判断できる。したがって、この場合は単語「社員」に対して使用者登録単語辞書13に新しい部分単語系列「sy,e,i,N」を追加登録するのは妥当である。
【0299】
以上の結果、図41(a)の内容の使用者登録単語辞書13は、図41(b)のようになる。この図41(b)に示した使用者登録単語辞書13には、使用者Bの発声傾向に従って単語「社員」に対して新たな項目が追加されている。
【0300】
このように、使用者登録単語辞書13への認識結果の自動登録が可能な本実施形態の音声認識装置は、使用者が発声した単語が既知である場合に極めて有効に機能する。
【0301】
そこで、使用者が発声した単語が既知である場合の図40の音声認識装置の構成の変形例について、便宜的に同じ図40を参照して説明する。ここでは、適応モードと呼ぶ新たなモードを用意すると共に、当該適応モードでは使用者に対して単語を提示して、その単語の発声を指示するユーザインタフェース(図示せず)を設ける。
【0302】
使用者は、適応モードにおいて装置(内のユーザインタフェース)から提示された単語を発声する。
【0303】
適応モード時に使用者から発声された音声は主音声認識部14及び部分単語系列生成部12の両方に入力される。主音声認識部14は、使用者登録単語辞書13を用いて、装置(内のユーザインタフェース)が発声を指示した単語に対する尤度(ビタビスコア)を求めて出力する。一方、部分単語系列生成部12は、入力音声を部分単語系列に変換し、その部分単語系列とその尤度(ビタビスコア)を出力する。
【0304】
使用時単語登録判定部81は、主音声認識部14の認識結果の尤度、即ち発声することを指示した単語の尤度と、部分単語系列生成部12から出力された部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が基準値Zよりも大きい場合に、その部分単語系列を発声を指示した単語と対にして、使用者登録単語辞書13に登録する。
【0305】
次に、使用者が発声した単語が既知である場合のもう一つの変形例について、便宜的に図40を参照して説明する。
【0306】
適応モード時に発声された音声は主音声認識部14及び部分単語系列生成部12の両方に入力される。主音声認識部14は、先の変形例とは異なって、発声を指示した単語に無関係に、使用者登録単語辞書13を使って通常の認識を行う。部分単語系列生成部12は入力音声を部分単語系列に変換して出力する。ここでは、部分単語系列の尤度は出力する必要はない。
【0307】
使用時単語登録判定部81は、主音声認識部14の認識結果が発声を指示した単語と同一であるか否かを判定し、異なっている場合には、部分単語系列生成部12から出力された部分単語系列を発声を指示した単語と対にして、使用者登録単語辞書13に登録する。なお、部分単語系列生成部12から部分単語系列と共にその尤度も出力するようにして、使用時単語登録判定部81での判定の条件に、部分単語系列の尤度を加える構成とすること(つまり、前記第2の実施形態における登録条件判定部21の機能との組み合わせ)も可能である。
【0308】
以上は、図40の音声認識装置(内の使用時単語登録判定部81)において、主音声認識部14と部分単語系列生成部12の両出力をもとに、新たな部分単語系列を登録するか否かを決定する場合について説明したが、これに限るものではない。例えば、主音声認識部14の認識結果の尤度のみで一度判定をし、その判定の結果に応じて部分単語系列生成部12による認識処理を行わせ、当該部分単語系列生成部12から出力される部分単語系列の尤度と比較することで、新たな部分単語系列を登録するか否かを判定するようにしても構わない。この図40の構成の変形例について図42のブロック構成図を参照して説明する。
【0309】
図42の構成の音声認識装置では、まず入力音声は主音声認識部14に入力され、それに対する認識結果と尤度(ビタビスコア)が計算される。それと同時に入力音声は入力音声バッファ83に一時記憶される。
【0310】
(図40中の使用時単語登録判定部81に相当する)使用時単語登録判定部82は、主音声認識部14の認識結果の尤度(ビタビスコア)と、予め定めておいた基準値Z1とを比較し、前者の方が大きい場合は、新たな部分単語系列の登録は行わないと判定する。
【0311】
これに対して後者の方が大きい場合には、使用時単語登録判定部82は入力音声バッファ83を制御して、当該バッファ83に一時的に記憶されていた入力音声を部分単語系列生成部12に出力させる。これにより部分単語系列生成部12は、入力音声を部分単語系列に変換し、その部分単語系列と尤度(ビタビスコア)とを出力する。これ以降の使用時単語登録判定部82の動作は前記した使用時単語登録判定部81と同様である。
【0312】
即ち使用時単語登録判定部82は、先に出力された主音声認識部14の認識結果の尤度と、今回部分単語系列生成部12から出力された部分単語系列の尤度とを比較し、後者の方が大きく、且つその差が基準値Zよりも大きい場合に、その部分単語系列を主音声認識部14の認識結果に対応する部分単語系列として、使用者登録単語辞書13に登録する。
【0313】
図42の構成の音声認識装置では、例えばZ1=−40とすると、前記した話者Aが「しゃいん」と発声した場合、その音声「しゃいん」に対しては部分単語系列生成部12は動作しない。一方、話者Bが発声した音声「しゃいん」に対しては部分単語系列生成部12は動作し、更に使用者登録単語辞書13に新たな単語が追加登録されることになる。
【0314】
このような構成とすることによって、平均的な発声に対しては部分単語系列生成部12の処理を行わずに済ますことができるので、音声認識装置の主たる機能(部分単語系列生成部12及び主音声認識部14等の機能)をコンピュータで実現する場合には、当該コンピュータの負荷が軽減される。したがって、音声認識装置の主たる機能を高速ではないコンピュータで実現するのに適している。
【0315】
なお、図40及び図42の構成における使用者登録単語辞書13には、同じ音声認識装置内で単語登録モードを設定して単語登録することで生成されたものの他に、前記第1乃至第7の実施形態のいずれかで適用した単語登録方法によって他の装置内で生成されたものを用いることが可能となる。この場合、図40及び図42の構成の音声認識装置には、単語登録モード及び音声認識モードは必ずしも必要でなく、音声認識装置としての通常の使用において、主音声認識部14及び部分単語系列生成部12を併用して使用者登録単語辞書13への単語の自動登録を行うことができる。
【0316】
また、本実施形態における音声認識装置では、前記第7の実施形態で述べた文字登録単語辞書(73)を使用者登録単語辞書13と併用することも可能である。この場合、第7の実施形態と同様に、主音声認識部14は文字登録辞書(73)及び使用者登録単語辞書13の両者を用いて認識を行う。この主音声認識部14での認識結果の尤度によっては、部分単語系列生成部12からの部分単語系列が使用時単語登録判定部81により使用者登録単語辞書13に登録される。
【0317】
[第9の実施形態]
次に、本発明の第9の実施形態について説明する。
【0318】
前記第8の実施形態でも述べたように、使用者が特殊な発声をする場合(例:なまりが強い)、主音声認識部(14)の認識精度が低下することがある。このようなとき、主音声認識部(14)の尤度は低下する傾向がある。主音声認識部(14)の出力が間違っている場合、使用者の指示に従って部分単語系列を使用者登録単語辞書(13)に登録し、次回からはそれも用いて認識を行うならば、前記第8の実施形態と同様に、主音声認識部(14)の認識精度を高めることが可能となる。
【0319】
第9の実施形態は、入力音声に対して主音声認識部だけでなく部分単語系列生成部でも認識処理を行い、部分単語系列生成部から出力された部分単語系列の登録動作を行うか否かを、使用者が主音声認識部からの認識結果をもとに指示可能な構成とすることで、主音声認識部の認識精度を高めることを可能としたものである。
【0320】
図43は、本発明の第9の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図であり、図40と同一部分には同一符号を付してある。
【0321】
図43の構成の特徴は、図40の構成において使用時単語登録判定部81に代えて使用時単語登録確認部91を用いている点にある。
【0322】
図43の構成において、入力音声は、主音声認識部14及び部分単語系列生成部12のいずれにも入力される。主音声認識部14は、使用者登録単語辞書13を用いて前記第1の実施形態におけるのと同様にして入力音声に対する認識処理を行い、認識結果を出力する。一方、部分単語系列生成部12は、前記第1の実施形態における単語登録モードの場合と同様にして、入力音声を部分単語系列に変換し、その部分単語系列を出力する。ここで、使用者登録単語辞書13には、単語登録モードでの単語登録処理により単語登録がなされているものとする。
【0323】
使用時単語登録確認部91は、使用者が操作可能な入力部(使用者操作部)を持ち、部分単語系列を使用者登録単語辞書13に登録をするか否かを示す使用者からの指示を当該入力部を通して受け取る。すると使用時単語登録確認部91は、主音声認識部14の認識結果に対応する部分単語系列として、部分単語系列生成部12から出力された部分単語系列を使用者登録単語辞書13に登録する。
【0324】
この使用時単語登録確認部91の動作の詳細を、使用者登録単語辞書13の内容が、前記第8の実施形態と同様に図41(a)のようになっている場合を例に説明する。
【0325】
使用者が「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部14の出力が単語「社員」であり、部分単語系列生成部12の出力が部分単語系列「sy,e,i,N」であったものとする。
【0326】
使用者は、普段図43の音声認識装置を使用していて、単語「社員」と認識されにくいと感じているような場合、使用時単語登録確認部91の入力部を操作して、部分単語系列を使用者登録単語辞書13に登録することを指示する。
【0327】
すると使用時単語登録確認部91は、主音声認識部14の出力である単語「社員」と部分単語系列生成部12の出力である部分単語系列「sy,e,i,N」の対を、使用者登録単語辞書13に追加登録する。この追加登録の結果、図41(a)の内容の使用者登録単語辞書13は、図41(b)のようになる。
【0328】
このように本実施形態では、使用時単語登録判定部81が部分単語系列の登録指示を受け取った場合には、部分単語系列は主音声認識部14の認識結果に対応付けて登録される。しかし、この方式では、主音声認識部14の認識結果が間違っている場合には、使用者登録単語辞書13には、単語名と部分単語系列の誤った組み合わせが登録されることになる。
【0329】
そこで、このような不具合を解消するために、図43中の使用時単語登録判定部81が、部分単語系列の登録指示の他に、その部分単語系列をどの単語に対応付けるかという情報も受け取ることが可能な構成としても構わない。この第9の実施形態の変形例について、上述の場合と同様に、使用者登録単語辞書13の内容が図41(a)のようになっている場合を例に説明する。
【0330】
使用者が「社員」を入力しようとして、「しゃいん」と発声した結果、主音声認識部14の出力が単語「社員」であり、部分単語系列生成部12の出力が部分単語系列「sy,e,i,N」であったものとする。
【0331】
使用者は、使用時単語登録判定部81の入力部を操作して、部分単語列の登録を指示すると共に、現在の発声が単語「社員」のものであったことを入力する。
【0332】
使用時単語登録確認部91は、部分単語列の登録指示と、単語「社員」の情報とを受け取ると、その受け取った単語「社員」、つまり使用者の指定した単語「社員」と、部分単語系列生成部12の出力である部分単語系列「sy,e,i,N」の対を、使用者登録単語辞書13に追加登録する。
【0333】
これにより、主音声認識部14の認識結果が間違っている場合でも、使用者登録単語辞書13には、単語名と部分単語系列の正しい組み合わせが追加登録される。この追加登録直後の使用者登録単語辞書13は、図41(b)のようになる。
【0334】
なお、図43の構成に対して、前記第8の実施形態における図42の構成と同様に、部分単語系列生成部12の入力側に入力音声バッファを設け、使用時単語登録判定部81が部分単語系列の登録指示を受け取ったときのみ、部分単語系列生成部12で入力音声を処理するようにしてもよい。こうすることで、第8の実施形態で述べたのと同様に、音声認識装置の主たる機能をコンピュータで実現する場合に当該コンピュータの負荷を軽減することができる。
【0335】
以上に述べた実施形態で適用される音声認識装置の主要な機能、例えば部分単語系列生成部12による部分単語系列生成処理、主音声認識部14による認識処理等は、プログラム読み取り可能なコンピュータに当該処理を実行させるためのプログラムを記録した、CD−ROM、フロッピーディスク、メモリカード等の記録媒体を装着して、当該記録媒体に記録されているプログラムをコンピュータで読み取り実行させることによっても実現される。ここで、主音声認識部14による認識処理は既存の音声認識ソフトウェアを用いて実行することが可能なため、記録媒体に記録するプログラムとしては、上記認識処理を省いた処理をコンピュータに実行させるためのプログラムであっても構わない。なお、プログラムを記録した記録媒体の内容が、通信回線等を介してコンピュータにダウンロードされるものであっても構わない。
【0336】
【発明の効果】
以上詳述したように本発明によれば、特定話者音声認識方式と同程度の容易さで不特定話者が使用し得る単語登録を行うことができる。
【0337】
また本発明によれば、使用者の発音に応じて単語辞書を更新することができるまた本発明によれば、登録の対象となる単語系列が登録条件を満たしているか否かを判定することにより、使用者の発音に応じた単語辞書の登録において誤った登録が行われるのを防止して、認識性能の低下を招くのを防ぐことができる。
【0338】
また本発明によれば、登録の対象となる部分単語系列を生成した際の認識誤りの有無を使用者が確認後、登録することができるため、誤った部分単語系列の情報が登録されるのを防止できる。
【0339】
また本発明によれば、登録の対象となる部分単語系列の誤りを使用者が確認し、修正した上で登録することができるため、再発声することなく部分単語系列の情報を登録することができる。
【0341】
また本発明によれば、使用者登録単語辞書の内容を文字情報に変換して使用者に提示するだけでなく、その提示内容を使用者の編集操作に供して、その編集処理の結果を使用者登録単語辞書に反映させることにより、使用者が不具合があると確認した場合に、その不具合を訂正することができる。
【0342】
また本発明によれば、単語の読みを表す文字列情報から生成された部分単語系列に対応する情報が登録された文字登録単語辞書における登録情報の表現形式を、使用者登録単語辞書における登録情報の表現形式に一致させることにより、使用者登録単語辞書、及び文字登録単語辞書がそれぞれ異なる方法で単語登録がなされるにも拘らず、1つの認識方式のみで両者を同時に用いて音声認識を行うことが可能となり、装置の構成を簡略化することができる。
【0343】
また本発明によれば、単語登録モード時だけでなく、音声認識モード時にも、入力音声に対する部分単語系列生成を行い、使用者の発声に対する認識状況に応じて使用者登録単語辞書への追加登録を行うことにより、使用者の音声に逐次適応して認識精度の向上を図ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図2】図1中の部分単語系列生成部12の構成を示すブロック図。
【図3】図2中の部分単語接続表123の一例を示す図。
【図4】図2中の部分単語HMM認識部124の動作を説明するためのフローチャートの一部を示す図。
【図5】図2中の部分単語HMM認識部124の動作を説明するためのフローチャートの他の一部を示す図。
【図6】図2中の部分単語HMM認識部124の動作を説明するためのフローチャートの残りを示す図。
【図7】図1中の使用者登録単語辞書13の一例を示す図。
【図8】図1中の主音声認識部14の構成を示すブロック図。
【図9】図1中の使用者登録単語辞書13の他の例を示す図。
【図10】図9の形式の使用者登録単語辞書13を使用する場合の、部分単語系列生成部12の構成を示すブロック図。
【図11】図9の形式の使用者登録単語辞書13を使用する場合の、主音声認識部14の構成を示すブロック図。
【図12】主音声認識部14で使用する部分単語の体系と、部分単語系列生成部12で使用する部分単語の体系が異なる場合の、図1の構成の変形例を示すブロック図。
【図13】図12中の部分単語HMM辞書15の一例を示す図。
【図14】本発明の第2の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図15】本発明の第3の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図16】図15中の登録確認部31の構成を示すブロック図。
【図17】図16中の部分単語系列文字列変換部311の構成を示すブロック図。
【図18】図17中の部分単語系列平仮名対応表311bの一例を示す図。
【図19】図17中の部分単語系列平仮名変換部311aの動作を説明するためのフローチャート。
【図20】図16中の部分単語系列表示文字列対応表312における登録例を示す図。
【図21】図16中の文字列表示処理部314により表示される単語登録確認画面の一例を示す図。
【図22】本発明の第4の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図23】図22中の登録編集部41の構成を示すブロック図。
【図24】図23中の文字列表示処理部414により表示される単語登録編集画面の一例を示す図。
【図25】図24の単語登録編集画面上での文字列編集処理後の状態例を示す図。
【図26】図23中の文字列部分単語系列変換部416の構成を示すブロック図。
【図27】本発明の第5の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図28】図27中の使用者単語登録辞書表示部51の構成を示すブロック図。
【図29】図28中の文字列表示処理部514による使用者登録単語辞書内容表示例を示す図。
【図30】本発明の第6の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図31】図30中の使用者単語登録辞書編集部61の構成を示すブロック図。
【図32】単語番号が付された使用者登録単語辞書13の登録形式を示す図。
【図33】図31中の文字列表示処理部614により表示される使用者登録単語辞書編集画面の一例を示す図。
【図34】図33の使用者登録単語辞書編集画面上での文字列編集処理後の状態例を示す図。
【図35】図33の使用者登録単語辞書編集画面上での文字列編集処理の結果に従う辞書操作によって図32の状態から変化した使用者登録単語辞書13の内容例を示す図。
【図36】本発明の第7の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図37】図36中の文字登録単語辞書73の作成手法を説明するための図。
【図38】図36中の文字登録単語辞書73の一例を示す図。
【図39】図36中の使用者登録単語辞書13及び文字登録単語辞書73の内容を共通の領域に保持した文字・音声登録単語辞書の一例を示す図。
【図40】本発明の第8の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図41】図40の構成における使用時単語登録判定部81による単語登録前後の使用者登録単語辞書13の内容例を示す図。
【図42】図40の構成の変形例を示すブロック図。
【図43】本発明の第9の実施形態を示すサブワード型不特定話者音声認識装置のブロック構成図。
【図44】従来のサブワード型不特定話者音声認識装置のブロック構成図。
【図45】3状態2ループの離散HMMを示す図。
【図46】図44中の部分単語HMM辞書460に登録される部分単語HMMの記憶形式の一例を示す図。
【図47】単語「おとな」を表す部分単語系列「o,t,o,n,a」に相当する単語HMMを示す図。
【図48】図44中の単語HMM辞書450に登録される単語HMMの記憶形式の一例を示す図。
【符号の説明】
11…モード切替部
12…部分単語系列生成部
13…使用者登録単語辞書
14,74…主音声認識部(単語音声モデル取得手段)
15,125,145…部分単語HMM辞書
16…単語HMM生成部(部分単語体系変換手段)
21…登録条件判定部
31…登録確認部
41…登録編集部
51…使用者単語登録辞書表示部
61…使用者単語登録辞書編集部
73…文字登録単語辞書
81,82…使用時単語登録判定部
83…入力音声バッファ
91…使用時単語登録確認部
121,141…音響分析部
122,142…量子化部
123…部分単語接続表
124…部分単語HMM認識部
126,146…単語HMM生成部
143…HMM認識部
311,411,511,611…部分単語系列文字列変換部
Claims (2)
- 単語登録モード時と音声認識モード時に使用者が発声した音声を認識して少なくとも1個の部分単語系列及び当該部分単語系列の尤度を生成する部分単語系列生成手段と、
前記部分単語系列生成手段によって生成された部分単語系列に対応する情報が登録される使用者登録単語辞書と、
前記使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、
前記音声認識モード時に使用者が発声した音声を、前記使用者登録単語辞書から取得された単語音声モデルを用いて認識して、認識結果及び当該認識結果の尤度を取得する主音声認識手段と、
前記音声認識モード時に、前記部分単語系列生成手段により生成された部分単語系列の尤度及び前記主音声認識手段の認識結果の尤度とを比較し、前記部分単語系列の尤度が前記認識結果の尤度を上回っていて且つ当該両尤度の差が基準値よりも大きい場合に前記部分単語系列生成手段により生成された部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段とを具備し、
前記部分単語系列生成手段は前記音声認識モード時に前記主音声認識手段と並行して動作することを特徴とするサブワード型不特定話者音声認識装置。 - 単語登録モード時と音声認識モードでの予め定められた条件の成立時とに使用者が発声した音声を認識して少なくとも1個の部分単語系列及び当該部分単語系列の尤度を生成する部分単語系列生成手段と、
前記部分単語系列生成手段によって生成された部分単語系列に対応する情報が登録される使用者登録単語辞書と、
前記使用者登録単語辞書に登録されている各部分単語系列に対応する情報から部分単語音声モデルがつなぎ合わされた単語音声モデルを取得する単語音声モデル取得手段と、
前記音声認識モード時に使用者が発声した音声を、前記使用者登録単語辞書から取得された単語音声モデルを用いて認識して、認識結果及び当該認識結果の尤度を取得する主音声認識手段と、
前記音声認識モード時に使用者が発声した音声を一時記憶するための入力音声記憶手段と、
前記音声認識モード時に、前記主音声認識手段の認識結果の尤度を第1の基準値と比較し、前記認識結果の尤度が前記第1の基準値を下回っている場合に前記条件の成立を判定して、前記入力音声記憶手段に記憶されている音声を前記部分単語系列生成手段に入力させて当該部分単語系列生成手段を動作させる使用時単語登録判定手段であって、当該部分単語系列生成手段により生成される部分単語系列の尤度及び前記認識結果の尤度とを比較し、前記部分単語系列の尤度が前記認識結果の尤度を上回っていて且つ当該両尤度の差が第2の基準値よりも大きい場合に当該部分単語系列の情報を前記使用者登録単語辞書に追加登録する使用時単語登録判定手段とを具備することを特徴とするサブワード型不特定話者音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08706998A JP3790038B2 (ja) | 1998-03-31 | 1998-03-31 | サブワード型不特定話者音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08706998A JP3790038B2 (ja) | 1998-03-31 | 1998-03-31 | サブワード型不特定話者音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11282486A JPH11282486A (ja) | 1999-10-15 |
JP3790038B2 true JP3790038B2 (ja) | 2006-06-28 |
Family
ID=13904665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08706998A Expired - Fee Related JP3790038B2 (ja) | 1998-03-31 | 1998-03-31 | サブワード型不特定話者音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3790038B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4655184B2 (ja) * | 2001-08-01 | 2011-03-23 | ソニー株式会社 | 音声認識装置および方法、記録媒体、並びにプログラム |
JP4000828B2 (ja) * | 2001-11-06 | 2007-10-31 | 株式会社デンソー | 情報システム、電子機器、プログラム |
JP5200712B2 (ja) | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
US8200478B2 (en) | 2009-01-30 | 2012-06-12 | Mitsubishi Electric Corporation | Voice recognition device which recognizes contents of speech |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
-
1998
- 1998-03-31 JP JP08706998A patent/JP3790038B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11282486A (ja) | 1999-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983912B2 (en) | Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
EP0376501B1 (en) | Speech recognition system | |
EP0965978A1 (en) | Non-interactive enrollment in speech recognition | |
US20080243514A1 (en) | Natural error handling in speech recognition | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP3803029B2 (ja) | 音声認識装置 | |
JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
WO2004023455A2 (en) | Methods, systems, and programming for performing speech recognition | |
EP1604350A2 (en) | Methods, systems, and programming for performing speech recognition | |
JP2001312296A (ja) | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 | |
EP1933302A1 (en) | Speech recognition method | |
WO2004047075A1 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
JP3790038B2 (ja) | サブワード型不特定話者音声認識装置 | |
JP3468572B2 (ja) | 対話処理装置 | |
JP2006208905A (ja) | 音声対話装置及び音声対話方法 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP2000056795A (ja) | 音声認識装置 | |
JP3575904B2 (ja) | 連続音声認識方式及び標準パタン訓練方式 | |
JPH08248979A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110407 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130407 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140407 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |