発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
通常の音声認識において、例えば単音節のような2または3音節以下の短い語を表す音声データの認識率は低い。既知の音声認識では、或る短い語を表す文字データ、例えば「あ」を入力するために、その代わりにその短い語を表す例えば3または4音節以上の冗長な単語、例えば「あいうえおのあ」を表す音声データを音声認識させる。その認識結果のデータに対応づけられたその短い語を表す文字データが、認識結果として生成される。しかし、その短い語を表す冗長な単語において、その短い語に付加される単語、例えば「あいうえおの」は一意的に予め決められている。
発明者は、予め記憶された冗長な単語において付加されるべき単語と異なる単語が短い語に付加された異なる冗長な単語をユーザが発声すると、その異なる冗長な単語を表す音声データはその短い語を表すものとして音声認識されない、と認識した。また、発明者は、短い語を表す複数の可能な冗長な単語を用意しまたは短い語を表す任意の冗長な単語を許容すれば有利である、と認識した。
本発明の実施形態の目的は、或る短い語を表す複数の冗長な表現の音声データを認識できるようにすることである。
本発明の実施形態によれば、或る短い語を表す複数の冗長な表現の音声データを認識できる。
本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。
図1は、本発明の実施形態による、情報処理装置10における音声認識のための概略的な配置の一例を示している。
情報処理装置10は、例えば、口述筆記、ハンズフリー・コンピューティング、自動音声応答、車載装置またはカー・ナビゲーション装置、等に用いられる音声認識機能を含む装置である。
情報処理装置10は、プロセッサ12、メモリ14および表示装置15を含んでいる。情報処理装置10は、さらに、入力装置20、特徴抽出部22、音素認識部24、単語認識部26、および詳細読み認識部または代替的冗長音素データ列認識部30を含んでいる。音素認識部24は、音素モデル記憶部32に結合されている。詳細読み認識部30は、詳細読み辞書データベースまたは代替的冗長単語辞書データベース36に結合されている。単語認識部26は、単語辞書データベース33に結合されている。少なくとも、特徴抽出部22、音素認識部24、単語認識部26および詳細読み認識部30の各要素のうちの任意の2つ以上の要素は、一体的な1つのユニットであってもよい。例えば、単語認識部26と詳細読み認識部30は1つのユニットであってもよい。
単語辞書データベース33は、認識される音素データ列、その認識結果としての単語データ、およびその単語のふりがなデータを、互いに関連づけて格納している。単語辞書データベース33では、1つの音素データ列に対して1つの単語データが一意的に決定される。
入力装置20には、音声データを供給するためのマイクロホン、音声入力インタフェースおよび/または記憶媒体読取装置が含まれ、さらにコマンド等供給用のキーボード、複数のキーおよび/またはポインティング・デバイス等が含まれていてもよい。
メモリ14、表示装置15、入力装置20、特徴抽出部22、音素認識部24、単語認識部26、および詳細読み認識部30は、制御部としてのプロセッサ12によって制御される。
入力装置20からの入力音声データは特徴抽出部22に供給される。特徴抽出部22は、入力音声データを音声データの特徴を示す特徴ベクトル、例えばスペクトルまたはケプストラム変換して、その変換された特徴ベクトルまたは特徴データを音素認識部24に供給する。
音素認識部24は、受け取った特徴ベクトルを、音素モデル記憶部32に格納されている音素モデル(32)と照合し、音素単位で音声データを認識して、音素データまたは発音記号データを生成する。音素モデルは、例えば日本語のような言語の各音素の特徴量をモデル化したものである。音素モデルとして、例えばHMM(HiddenMarkov Model)などが用いられる。音素認識部24からの認識された音素データの列またはシーケンスは、単語認識部26および詳細読み認識部30に供給される。
音素認識部24からの音節数閾値N(例えば、N=2または3音節)を超える音節数を有する認識率の高い単語を表す認識された音素データ列は、単語認識部26に選択的に供給されるか、または単語認識部26によって選択的に受け取られる。その選択は、ユーザによる入力装置20のキーボードの通常読み形態を表すキーの操作によるコマンドによって行われてもよい。
単語認識部26は、その音素データ列Prを単語辞書データベース33中の単語を表す各音素データ列Pkと照合して、両者が一致すれば、一致した音素データ列Pkに対応するその単語Wkを表す文字データを音声認識結果として、他の利用装置(図示せず)に供給する。単語辞書データベース33は、1音節以上の単語Wkに対して、それを表現する音素データまたは音素データ列Pkを対応させる構造を有する認識用単語の辞書データベースである。
ユーザは、音節数閾値Nth(例えば、Nth=2または3音節)以下の音節数を有する音声認識率の低い短い語Wiを表す音声を入力する代わりに、その短い語Wiを表す増大された数の音節N(>Nth)を有する冗長なまたは長い単語を表す音声を入力装置20を介して入力してもよい。ユーザは、その短い語Wiを表す代替的な冗長な単語としてのその短い語Wiの詳細読み形態の長い単語を発声した音声データを入力してもよい。その詳細読み形態の長い冗長な単語は、その短い語Wiを含んでいてもよい。その詳細読み形態の単語または冗長な単語を表す音素認識部24からの認識された音素データ列Prは、詳細読み認識部30に選択的に供給されるか、または詳細読み認識部30によって選択的に受け取られる。その選択は、ユーザによる入力装置20のキーボードの詳細読みを表すキーの操作によるコマンドによって行われてもよい。
詳細読み認識部30は、音素データ列Prを詳細読み辞書データベース36中の短い語を表す詳細読み形態の単語の音素データ列Pijと順次照合して、両者が一致すれば、一致した音素データ列Pijに対応する短い語Wiを表す文字データを音声認識結果として、他の利要装置(図示せず)に供給する。詳細読み辞書データベース36は、閾値Nth以下の音節数の各短い語Wiに対して、その短い語Wiを表す増大された音節数N(例えば、N=3または4音節以上)の複数の詳細読み形態の音素データ列Pijを対応させる構造を有する認識用単語の辞書データベースである。
代替形態として、詳細読み認識部30は、受け取った音素データ列Prの特定の音節位置(例えば、最初と最後の音節位置)の音素データを、詳細読み辞書データベース36中の詳細読み形態の音素データ列Pijの同じ特定の音節位置の音素データと照合してもよい。この場合、両者の音素データが一致した場合に、詳細読み認識部30は、音素データ列Pijに対応するその短い語Wiを表す文字データを音声認識結果として出力してもよい。その特定の音節位置の音素データは、その短い語Wiの音素データPiであってもよい。このようにして、短い語Wiの詳細読み形態のまたは代替的な冗長な単語を表す音声データまたは音素データ列Pijを、その短い語Wiを表すものとして高い認識率で認識することができる。
情報処理装置10の音声認識のための要素22〜30は、プロセッサ12上にハードウェア(専用集積回路)またはソフトウェア(プログラム)の形態で実装されていてもよい。メモリ14は、音素モデル、プログラムおよびその他のデータを格納している。メモリ14は、プロセッサ12によって実行される音声認識のための要素22〜30の機能を実現するためのプログラムを格納していてもよい。
図2Aおよび2Bは、詳細読み辞書データベース36中の音素データ列Pijを表す発音記号の列と短い語Wiとの間の対応関係の一例を示している。ここで、iは短い語の識別番号を表し、jは識別番号iの短い語の詳細読み形態の音素データ列の順序番号を表している。
図2Aを参照すると、例えば、1音節の短い語Wi=W1「あ」について、複数の詳細読み形態の音素データ列Pijを表す発音記号の列P11「アンナイノア」(案内のあ)、P12「アイサツノア」(挨拶のあ)、P13「アンガイノア」(案外のあ)が対応付けられている。このような発声形態は、音声合成の分野で詳細読みと呼ばれる。この場合、音素データ列Pij’「ア・・・ノア」が不変部分であり、音素データ列Pij+’「ンナイ」、「イサツ」、「ンガイ」が可変部分である。別の識別法では、音素データ列Pij’「ノア」が不変部分であり、音素データ列Pij+’「アンナイ」、「アイサツ」、「アンガイ」が可変部分としてもよい。「詳細読み」は、「説明読み」または「詳細説明読み」と称してもよい。詳細読み辞書データベース36において、短い語の詳細読み形態の音素データ列Pijは、増大された2音節または3音節を超える音節数の単語の音素データ列で記述される。但し、図2Aでは、理解を容易にするために、音素データを表す発音記号としてカタカナ表記が用いられている。
図2Bを参照すると、例えば、1音節の短い語またはアルファベットWi=W1「A」について、P11「アルファノエイ」(AlphaのA)、P12「アップルノエイ」(AppleのA)、P13「アダムノエイ」(AdamのA)、P14「アルファベットノエイ」のような複数の詳細読み形態または音標文字(phonetic alphabet)形態の音素データ列Pijが対応付けられる。この場合、音素データ列Pij’「ノエイ」が不変部分であり、音素データPij+’「アルファ」、「アップル」、「アダム」、「アルファベット」が可変部分である。
図3は、情報処理装置10によって実行される、短い語の詳細読み形態の音声データの認識のためのフローチャートの一例を示している。
図3を参照すると、ステップ602において、情報処理装置10の特徴抽出部22は、プロセッサ12の制御の下で、入力音声データを音声データの特徴を示す特徴ベクトル、例えばスペクトルまたはケプストラム変換し、その変換済みの特徴ベクトルのデータを音素認識部24に供給する。さらに、音素認識部24は、プロセッサ12の制御の下で、受け取った特徴ベクトルを音素モデル記憶部32に格納されている音素モデルと照合することによって、特徴ベクトルのデータを音素単位で認識して音素データまたは発音記号の列Prを生成する。
ステップ604において、詳細読み認識部30は、プロセッサ12の制御の下で、音素認識部24から受け取った詳細読み形態の長いまたは冗長な音素データ列Prを認識する。次いで、詳細読み認識部30は、その認識された詳細読み形態の音素データ列Prを、詳細読み辞書データベース36中の短い語Wiを表す複数の詳細読み形態の各音素データ列Pijと順次照合する。その認識された詳細読み形態の音素データ列Prと詳細読み辞書データベース36中の或る詳細読み形態の音素データ列Pijとが完全に一致した場合に、詳細読み認識部30は、その音素データ列Pijによって表される短い語Wiを表す文字データを音声認識結果として出力する。
代替形態として、詳細読み認識部30は、認識された詳細読み形態の音素データ列Prの特定位置の音素データを、詳細読み辞書データベース36中の複数の詳細読み形態の同じ特定位置の音素データ列Pijと順次照合してもよい。この場合、その音素データ列Prと或る詳細読み形態の音素データ列Pijにおけるそれぞれの特定の音節位置の音素が一致した場合に、詳細読み認識部30は、その音素データ列Pijによって表される短い語Wiを表す文字データを音声認識結果として出力する。
ステップ606において、プロセッサ12は、詳細読み形態の音声データの認識が終了したかどうかを判定する。それが終了したと判定した場合は図3のルーチンを出る。それが終了していない、または次の詳細読み形態の入力音声データがあると判定された場合は、手順はステップ602に戻る。
図4は、図1の実施形態の変形形態の一例であり、情報処理装置10における音声認識のための概略的な別の配置の一例を示している。
情報処理装置10は、要素12〜26、30〜33、および36に加えて、コマンド判定部またはコマンド認識部28およびコマンド辞書データベース35を含んでいてもよい。情報処理装置10は、さらに音節チェック部31を含んでいてもよい。情報処理装置10は、さらに辞書作成部40を含んでいてもよい。少なくとも、特徴抽出部22、音素認識部24、単語認識部26、詳細読み認識部30、コマンド判定部28および音節チェック部31の各要素のうちの任意の2つ以上の要素は、一体的な1つのユニットであってもよい。例えば、単語認識部26、詳細読み認識部30、コマンド判定部28および音節チェック部31は1つのユニットであってもよい。コマンド判定部28、音節チェック部31および辞書作成部40は、制御部としてのプロセッサ12によって制御される。
詳細読み辞書データベース36は、例えば、単音節用辞書データベース362、数字用辞書データベース364、アルファベット用辞書データベース366、単漢字用辞書データベース368のような複数種別(タイプ)の詳細読み辞書データベースを含んでいる。
音素認識部24からの認識された音素データ列は、単語認識部26、詳細読み認識部30およびコマンド判定部28に供給される。音素認識部24からの例えば3音節または4音節以上の認識率の高いコマンドを表す認識された音素データ列は、コマンド判定部28に選択的に供給されるか、またはコマンド判定部28によって選択的に受け取られる。代替形態として、その選択は、ユーザによる入力装置20のキーボードの通常読みを表すキーの操作によるコマンドによって行われてもよい。
コマンド判定部28は、その音素データ列をコマンド辞書データベース35中の辞書選択用のコマンドを表す各音素データ列Ptと順次照合して、両者が一致すれば、一致した音素データ列Ptに対応するそのコマンドCMDtを音声認識結果として詳細読み辞書データベース36に出力する。
コマンド辞書データベース35は、3音節以上のコマンドCMDtに対して、それを表現する音素データ列Ptを対応させる構造を有する認識用コマンドの辞書データベースである。そのコマンドの音素列Ptは、例えば、「タンオンセツヨウジショ」(単音節用辞書)、「スウジヨウジショ」(数字用辞書)、「アルファベットヨウジショ」(アルファベット用辞書)、「タンカンジヨウジショ」(単漢字辞書)を表す発音記号列であってもよい。
単音節用辞書データベース362については図2Aを参照して既に説明した。数字用辞書データベース364は、数字Wiの詳細読みを表す複数の音素データ列Pij、例えば、数字「1」を表す「ヒトツノイチ」、「スウジノイチ」、「ワンノイチ」および「イチノイチ」、数字2を表す「フタツノニ」、「スウジノニ」、「ツーノニ」および「ニノニ」、等を含んでいる。アルファベット用辞書データベース366については図2Bを参照して既に説明した。
単漢字用辞書データベース368は、単一の漢字Wiの詳細読みを表す複数の音素データ列Pij、例えば、漢字「案」を表す「アンナイノアン」、「アンガイノアン」、「アンシュツノアン」および「カンジアンナイノアン」等を含んでいる。詳細読みは、例えば、漢字Wi「案」を表す音素データ列Pij「アンナイノアン」および「アンガイノアン」のように、表現する短い語Wiの音素データ列Pi「アン」がそれに付加される単語を表す音素データ列Pij+「ナイノ」、「ガイノ」の前後に含まれていてもよい。また、詳細読みは、例えば、漢字Wi「案」を表す音素データ列Pij「カンジアンナイノアン」、「テイアンノアン」のように、表現する短い語Wiの音素データ列Pi「アン」がそれに付加される音素データ列Pij+「カンジ・・・ナイノ」および「テイ・・・ノ」の特定の音節位置(例えば、最初または最後の音節位置)に含まれていてもよい。
コマンド判定部26からのコマンドCMDによって、詳細読み辞書データベース36の単音節用辞書データベース362、数字用辞書データベース364、アルファベット用辞書データベース366および単漢字用辞書データベース368等の中の対応するものが照合用に選択される。
音節チェック部31は、詳細読み辞書データベース36中の単音節用辞書データベース362が選択された場合に、音素認識部24からの認識された音素データ列Pr中の複数の特定音節位置(例えば最初と最後の音節位置)の音素データPiが一致するかどうかを検査する。その音素データPiは、音素データ列Pijにおける単音節の不変部分の音素データである。音素データPiは、例えば、音素データ列「アンナイノア」の最初と最後の音節位置の音素データ「ア」である。両者が一致した場合に、音節チェック部31は、入力音声データが単音節の単語Wiの詳細読み形態であると判定して、詳細読み認識部30からの音素データ列Pijに対応する単音節の単語Wiの文字データを認識結果として出力する。それによって、ユーザの入力音声に対する認識結果としての単音節の単語Wiの信頼性が高くなる。一方、両者が一致しなかった場合には、音節チェック部31は、入力音声のエラーと判定して表示装置15に「入力音声のエラー」を視覚的に表示するか、または音声合成部(図10、18)を介して「入力音声のエラー」(音声)を音響的に通知してもよい。
詳細読み辞書データベース36中のいずれかのデータベース362〜368が選択された場合であっても、詳細読み形態の音素データ列Prに対応する詳細読み形態の音素データ列Pijの認識スコアSが閾値Sthより低いことがある。さらに、詳細読み認識部30において音素データ列Prに対応する詳細読み辞書36中の音素データ列Pijを抽出できたがその認識スコアSが閾値Sth以下である場合、音節チェック部31は、音素データ列PrとPij中の特定の音節位置(例、最初と最後の音節)の音素データが一致するかどうかを検査してもよい。その音素データは、音素データ列Pijにおける1音節以上の不変部分の音素データであってもよい。その音素データは、例えば、音素データ列Pij「アンナイノア」において可変部分Pij+’「ンナイ」を除いた不変部分の最初と最後の音節位置の音素データPij’「ア・・・ノア」である。それによって、認識された音素データ列Prと或る音素データ列Pijの可変部分Pij+’の音素データが完全には一致せず認識スコアSが閾値Sth以下の場合でも、音素データ列Pijに対応する短い語Wiを認識結果として出力することができる。一方、両者が一致しなかった場合には、音節チェック部31は、上述のように「入力音声のエラー」を表示してもよい。
辞書作成部40は、或るタイミングで、短い語Wiの新しい詳細読みの音素データ列Pijを生成して、詳細読み辞書データベース36に追加する機能を有する。
図5は、図4の情報処理装置10の辞書作成部40の内部構造(破線の枠内)とその関連要素の一例を示している。
情報処理装置10は、メモリ14に格納されプロセッサ12上に実装される電子メール用ソフトウェア(SW)502およびインターネット用のブラウザ・ソフトウェア(SW)504を含んでいる。情報処理装置10は、さらに、タイマ16、メモリ14内の記憶領域としての電子メール記憶部512およびログ記憶部514、および更新チェック部42を含んでいる。更新チェック部42は、辞書作成部40の一部であってもよい。更新チェック部42は、プロセッサ12によって制御される。電子メール記憶部512には、ユーザの送信電子メールおよび受信電子メールのファイルが保存されている。ログ記憶部514には、ユーザによってアクセスされたウェブ・ページ(アドレス、日付時刻、等)のアクセスのログまたは履歴のファイルが格納されている。
情報処理装置10の辞書作成部40および更新チェック部42は、プロセッサ12上にハードウェア(専用集積回路)またはソフトウェア(プログラム)の形態で実装されていてもよい。
図5を参照すると、辞書作成部40は、ユーザ関連テキスト収集部420、形態素解析部426、単語頻度計算部428、詳細読み用単語選択部430、読み生成部434を含んでいる。更新チェック部42は、電子メール記憶部512およびログ記憶部514内のファイルおよびデータが、前回の更新チェックの後で更新されたかどうかを判定する。そのために、更新チェック部42は、電子メールおよびウェブ・ログのファイルおよびデータの前回チェックした時の状態と現在の状態の差分、例えば新しい日時のファイルまたはデータの存在を検査する。更新があると判定された場合には、更新チェック部42は辞書作成部40を起動する。タイマ16は、その更新を判定するためのタイミング、例えばユーザによって指定された毎日定時刻のタイミングを発生してプロセッサ12または更新チェック部42に供給する。
電子メール用ソフトウェア502は、ユーザによって電子メールの送受信に使用される。送受信された電子メールのファイルは、電子メール記憶部512に格納される。ブラウザ・ソフトウェア504は、ユーザによってウェブ・ページを閲覧するために使用される。ウェブ・ページへのアクセス記録は、ログ・ファイルとしてログ記憶部514に記録される。
更新チェック部42が電子メール記憶部512およびログ記憶部514内のファイルおよびデータが更新されたと判定した場合、プロセッサ12は、ユーザ関連テキスト収集部420を起動する。
ユーザ関連テキスト収集部420は、電子メール記憶部512内のファイルまたはデータからユーザに関連するテキスト・データを収集し、ログ記憶部514内のログ・ファイルまたはデータに基づいてウェッブ・ページからユーザに関連するテキスト・データを収集する。形態素解析部426は、その収集されたユーザ関連テキスト・データを構文解析して、テキスト・データを例えば単語のような形態素に分割する。単語頻度計算部428は、テキスト・データ中の各単語または形態素の出現頻度を計数する。
詳細読み用単語選択部430は、単語辞書データベース33を参照して、ユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Nthより多い音節数Nを有しかつ閾値Fthより高い出現頻度Fを有する長い単語Wkを選択する。次いで、詳細読み用単語選択部430は、選択された長い単語Wkの中から、詳細読みすべき短い語Wi(例、「あ」)をふりがなの先頭に持つ長い単語Wk(例、「案内」、「挨拶」、「案外」)を選択する。
読み生成部434は、選択された長い単語Wk(例、「案内」)について、単語辞書データベース33を参照して、短い語Wi(例、「あ」)の詳細読み形態の単語Wk(例、「案内」)を含む単語(例、「案内のあ」)の、音素データ列または発音記号列Pij(例、「アンナイノア」)を生成する。読み生成部434は、さらに、その音素データ列Pijを、その短い語Wiに対応づけて、詳細読み辞書データベース36または各辞書データベース362〜368の中の対応する辞書データベースに追加する。
図6は、図5の辞書作成部40の詳細読み用単語選択部430の例によって実行される、ユーザ関連テキスト中の単語の中から短い語Wiの詳細読み用の単語Wkを選択するためのフローチャートの一例を示している。
図6を参照すると、ステップ622において、詳細読み用単語選択部430は、単語辞書データベース33および/または詳細読みデータベース36の中から特定の種別の全ての短い語Wi(例、単音節の単語、数字、アルファベット、または単漢字)を全て抽出して、それを集合Tとして設定する。ステップ624において、詳細読み用単語選択部430は、集合Tが空集合かどうかを判定する。集合Tが空集合であると判定された場合は、手順は図6のルーチンを出る。
ステップ624において集合Tが空集合でないと判定された場合は、詳細読み用単語選択部430は、ステップ626において、集合Tの中から特定の種別の1つの短い語Wi(例、単音節の単語、数字、アルファベット、または単漢字)を取り出して短い語A=Wiと設定する。取り出された短い語Wiは、集合Tから削除される。
ステップ628において、詳細読み用単語選択部430は、単語辞書データベース33を参照して、ユーザ関連テキストの中から、その短い語Aをふりがなの先頭に持つ長い単語Wkを全て選択して、その選択された長い単語Wkを集合Bと設定する。ステップ630において、詳細読み用単語選択部430は、集合Bが空集合かどうかを判定する。集合Bが空集合であると判定された場合は、手順はステップ624に戻る。
ステップ630集合Bが空集合でないと判定された場合は、詳細読み用単語選択部430は、ステップ638において、集合Bの中から頻度閾値Fthを超える頻度Fを有する長い単語Wkを全て取り出して、その取り出された長い単語を集合Cと決定する。ステップ640において、詳細読み用単語選択部430は、集合C中の長い単語Wkを、その短い語Aの詳細読み用の単語Wkとして選択する。
その後、読み生成部434は、その詳細読み用の長い可変単語Wk(例えば「案内」)および不変部分(例えば「の」)を短い語Wi(例えば「あ」)の前に付加して、詳細読み形態の単語(例えば「案内のあ」)を生成する。次いで、読み生成部434は、単語辞書データベース33を参照して、その詳細読み形態の単語を音素データ列Pij(例えば、「アンナイノア」)に変換して、その音素列データPijを短い語Wiに対応づけて詳細読み辞書データベース36に追加する。
このように、ユーザが高い頻度Fでアクセスする電子メールおよびウェブ・ページのテキスト・データから、短い語Wiの詳細読み形態の音素データ列Pijが生成されるので、ユーザにとって音声入力しやすい表現の詳細読みの音素データ列Pijが生成される。
図7は、図5の辞書作成部40の変形形態の一例であり、図4の辞書作成部40の別の内部構造とその関連要素の一例を示している。
情報処理装置10において、ユーザ関連テキスト収集部420は、能動型テキスト収集部422および受動型テキスト収集部422を含んでいる。また、詳細読み用単語選択部430は、能動型のユーザ関連テキストから単語Wiを選択する能動詳細読み用単語選択部と、受動型のユーザ関連テキストから単語Wiを選択する受動詳細読み用単語選択部とを含んでいてもよい。辞書作成部40のその他の要素は、図5のものと同様である。
能動型テキスト収集部422は、電子メール記憶部512内の送信電子メールだけのファイルおよびデータから、ユーザに関連するテキスト・データだけを収集する。送信電子メールは、ユーザ自身が作成したものであり能動的に関与しており、ユーザによる使用頻度の高い単語が出現すると考えられる。従って、そのテキストは、能動型のユーザ関連テキスト・データである。従って、送信電子メールから収集されたテキスト・データ中の長い単語Wkは、短い語Wiの詳細読みに付加される単語Wkとしての適性が相対的に高い、と考えられる。
受動型テキスト収集部422は、電子メール記憶部512内の受信電子メールだけのファイルおよびデータからユーザに関連するテキスト・データだけを収集し、ログ記憶部514内のログ・ファイルに基づいてウェッブ・ページから、ユーザに関連するテキスト・データを収集する。受信電子メールおよびウェブ・ページは、ユーザが受信して読んだだけのものであり受動的にしか関与しておらず、ユーザによる使用頻度の高い単語が出現するとは限らないと考えられる。従って、そのテキストは、受動型のユーザ関連テキスト・データである。従って、送信電子メールおよびウェブ・ページから収集されたテキスト・データ中の単語Wkは、短い語Wiの詳細読みに付加される単語Wkとしての適性は相対的に低い、と考えられる。
形態素解析部426は、図5の場合と同様に、能動型または受動型の収集されたテキスト・データを構文解析して、テキストを例えば単語のような形態素に分割する。単語頻度計算部428は、図5の場合と同様に、能動型または受動型のユーザ関連テキスト中の各単語または形態素の出現頻度を計数する。
詳細読み用単語選択部430は、単語辞書データベース33を参照して、送信電子メール由来の能動型のユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Nthより多い音節数Nを有しかつ第1の閾値Fth=αより高い出現頻度F(>Fth)を有する長い単語Wkを選択する。また、詳細読み用単語選択部430は、単語辞書データベース33を参照して、受信電子メールおよびウェブ・ページ由来の受動型のユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Nthより多い音節数Nを有しかつ第2の閾値Fth=β(>α)より高い出現頻度F(>Fth)を有する長い単語Wkを選択する。第1の閾値αは第2の閾値βより低いので、送信電子メールから収集された受動型のユーザ関連テキスト中の単語は、相対的に低い出現頻度の単語であっても、選択される。第2の閾値βは第1の閾値αより高いので、受信電子メールおよびウェブ・ページから収集された受動型のユーザ関連テキスト中の単語は、相対的に高い出現頻度の単語だけが選択される。
読み生成部434は、図5の場合と同様に、その長い単語を含む単語の音素データ列または発音記号列Pijを生成する。読み生成部434は、さらに、その音素データ列Pijをその短い語Wiに対応づけて、詳細読み辞書データベース36にまたはその辞書データベース362〜368の中の対応する辞書データベースに追加する。
図8は、図6のフローチャートの変形形態の一例であり、図7の辞書作成部40の詳細読み用単語選択部430の例によって実行される、能動型または受動型のユーザ関連テキスト中の単語の中から短い語Wiの詳細読み用の単語を選択するためのフローチャートの一例を示している。図8のフローチャートは、能動型ユーザ関連テキストまたは受動型のユーザ関連テキストに対して別々に適用される。
図8を参照すると、ステップ622〜626は、図6のものと同様である。
ステップ629において、能動型のユーザ関連テキストに対して、単語辞書データベース33を参照して、詳細読み用単語選択部430は、そのテキストの中からその短い語Aをふりがなの先頭に持つ長い単語Wkを全て選択して、その選択された長い単語Wkを集合Bと設定する。ステップ629において、受動型のユーザ関連テキストに対して、詳細読み用単語選択部430は、単語辞書データベース33を参照して、そのテキストの中からその短い語Aをふりがなの先頭に持つ長い単語Wkを全て選択して、その選択された長い単語Wkを集合Bと設定する。
ステップ630は、図6のものと同様である。
ステップ632において、詳細読み用単語選択部430は、ユーザ関連テキストが能動型のテキストかどうかを判定する。そのテキストが能動型であると判定された場合は、ステップ634において、詳細読み用単語選択部430は、頻度の閾値として第1の閾値Fth=α(<β)を設定する。
ステップ632においてそのテキストが能動型でない、または受動型であると判定された場合は、ステップ636において、詳細読み用単語選択部430は、頻度の閾値として第2の閾値Fth=β(>α)を設定する。
ステップ638〜640は、図6のものと同様である。従って、ステップ638において、能動型のユーザ関連テキストに対して、集合Bの中から低い頻度閾値Fth=α(<β)を超える頻度Fを有する全ての長い単語Wkが、集合Cと設定される。一方、受動型のユーザ関連テキストに対して、集合Bの中から高い頻度閾値Fth=β(>α)を超える頻度Fを有する全ての長い単語Wkが、集合Cと設定される。
図9は、図5の辞書作成部40の別の変形形態の一例であり、図4の辞書作成部40の別の内部構造とその関連要素の一例を示している。
情報処理装置10は、図5の要素12〜16、33、36、40、42、502〜514、等に加えて、メモリ14に格納されプロセッサ12上に実装されるカナ漢字変換ソフトウェア(SW)506を含んでいる。情報処理装置10は、さらに、メモリ14内の記憶領域としての入力情報保持部516を含んでいる。
入力情報保持部516は、ユーザによって入力されたカナ漢字変換ソフトウェア506用の入力情報を保持する。
読み生成部434は、選択された長い単語Wkから、単語辞書データベース33および入力情報保持部516を参照して短い語Wiの詳細読み形態のその長い単語Wkを含む単語の音素データ列または発音記号列Pijを生成する。読み生成部434は、さらに、その音素データ列Pijをその短い語Wiに対応づけて、詳細読み辞書データベース36または各辞書データベース362〜368の中の対応する辞書データベースに追加する。読み生成部434は、読み方が不明な選択された単語(例えば、「平成」)に対して、入力情報保持部516を参照して、長い単語Wkと同じ変換された漢字(例、「平成」)が存在するかどうかを判定する。変換された漢字(例、「平成」)が存在する場合、読み生成部434は、さらに入力情報保持部516を参照して、選択された単語Wk(例、「平成」)に対応するユーザによって入力されたひらがなデータ(例、「へいせい」)を検出する。読み生成部434は、入力されたひらがなデータ(例、「へいせい」)に対応する音素データ列Pij(例、「ヘイセイ」)を単語辞書データベース33から選択する。例えば、選択された単語Wk「平成」に対して、入力情報保持部516に、ひらがな入力「へいばん」、変換キー、バックスペース・キー、ひらがな入力「せいこう」、変換キー、バックスペース・キーのシーケンスの入力情報が存在したとする。この場合、読み生成部434は、詳細読み用の漢字Wk「平成」を「へいせい」とふりがなを振り、それをPij「ヘイセイ」と発音していると判定する。
図10は、図4の実施形態の変形形態の一例であり、情報処理装置10における音声認識のための概略的なさらに別の配置の一例を示している。
情報処理装置10は、要素12〜15、20〜30、33、35、36および40に加えて、音声合成部18、スピーカ(SP)19、入力確認部32および詳細読み選択部34を含んでいる。少なくとも、特徴抽出部22、音素認識部24、単語認識部26、詳細読み認識部30、コマンド判定部28、入力確認部32および詳細読み選択部34の各要素のうちの任意の2つ以上の要素は、一体的な1つのユニットであってもよい。例えば、単語認識部26、詳細読み認識部30、コマンド判定部28、入力確認部32および詳細読み選択部34、および音節チェック部31(図4)は、1つのユニットであってもよい。音声合成部18、スピーカ19、入力確認部32および詳細読み選択部34は、制御部としてのプロセッサ12によって制御される。
入力確認部32は、詳細読み選択部30から音声認識結果の短い語の文字データと、その確信度または尤度を表すその認識スコアSを受け取る。入力確認部32は、認識スコアSが閾値Sthより低い場合には、詳細読み選択部34に別のおよび/または最適な明確な詳細読みの音素データ列または発音記号列Pijを選択するよう要求する。
詳細読み選択部34は、詳細読み選択部30から、認識した詳細読みの音素データ列または発音記号列Pijと、それに対応する短い語Wiの文字データとを受け取る。詳細読み選択部34は、詳細読み辞書データベース36を参照して、短い語Wiの文字データに対する認識された詳細読みの音素データ列Pijとは異なる別のおよび/または最適の明確な詳細読みの音素データ列または発音記号列Pijを選択する。次いで、詳細読み選択部34は、その音素データ列Pijを含む質問の音素データ列Pqを音声合成部18に供給する。その別のおよび/または最適な明確な詳細読みの音素データ列Pijは、短い語Wiの文字データに対応する異なる任意の音素データ列Pijであっても、または短い語の文字データに対応する確認質問として最適の明確な音素データ列Pijであってもよい。
例えば、短い語Wi「あ」に対して認識された音素データ列Pij「アンナイノア」に対して、その質問の音素データ列Pqは、音素データ列「ニュウリョクサレタオンセイハ アンガイノア デスカ」(入力された音声は、案外の「あ」、ですか?)である。この場合、その供給された音素列データPqは、詳細読み選択部34が、音素データ列Pij「アンナイノア」の代替音素データ列としてPij「アンガイノア」選択し、その前に音素データ列「ニュウリョクサレタオンセイハ」を付加し、またその後に音素データ列「デスカ」を付加して生成されたものである。
次いで、詳細読み選択部34は、質問の音素データ列Pqを供給したという通知を入力確認部26に与える。
音声合成部18は、詳細読み選択部34から受け取った音素データ列Pqの音声を合成してスピーカ19に供給する。スピーカ19はその合成音声、例えば「ニュウリョクサレタオンセイハ アンガイノア デスカ」(入力された音声は、案外の「あ」ですか)を発生する。
ユーザは、その確認のための合成音声を聞いて、それが正しければ入力装置20を介して「ハイ」を音声入力し、それが誤りであれば入力装置20を介して「イイエ」を音声入力する。
ユーザが入力装置20を介して確認のための「ハイ」または「イイエ」を音声入力すると、入力確認部32は、音素認識部24から確認のための音素データ列または発音記号列Pa「ハイ」または「イイエ」を受け取る。
音素データ列Paが「ハイ」であれば、入力確認部32は、単語辞書データベース33を参照して認識結果の文字データ「はい」を生成し、詳細読み認識部30からの認識結果の短い語Wiの文字データ(例、「あ」)を利用装置に出力する。音素データ列Paが「イイエ」であれば、入力確認部32は、「音声入力エラー」を表す表示を表示装置15に表示し、認識結果は出力せず、詳細読み認識部30からの次の音声認識の結果を待つ。このようにして、詳細読み認識部30による詳細読み形態の入力音声の認識の誤りを低減しまたは無くすことができる。
図11は、図10の情報処理装置10の入力確認部32の例によって実行される、入力確認および認識結果出力のためのフローチャートの一例を示している。
図11を参照すると、ステップ652において、入力確認部32は、詳細読み選択部30から音声認識結果の短い語Wiの文字データとその認識スコアSを受け取る。
ステップ654において、入力確認部32は、認識スコアSを閾値Sthと比較する。ステップ656において、入力確認部32は、認識スコアSが閾値Sthを超えるかどうかを判定する。認識スコアSが閾値Sthを超えたと判定された場合には、手順はステップ664に進む。
ステップ656において認識スコアSが閾値Sthを超えないと判定された場合には、ステップ658において、入力確認部32は、詳細読み選択部34に別のおよび/または最適の明確な詳細読みの音素データ列または発音記号列Pijを選択するよう要求する。次いで、詳細読み選択部34は、詳細読み辞書データベース36を参照して、短い語Wiに対する認識された詳細読みの音素データ列Pijと異なる別のおよび/または最適の明確な詳細読みの音素データ列Pijを選択して、その音素データ列Pijを含む質問の音素データ列Pqを音声合成部18に供給する。音声合成部18は、詳細読み選択部34から受け取った音素データ列Pqの音声を合成してスピーカ19を介して放音する。
ステップ660において、入力確認部32は、音素認識部24からユーザによる確認のための音素データ列または発音記号列Pa「ハイ」または「イイエ」を受け取って、音素データ列Paを認識する。
ステップ662において、入力確認部32は、単語辞書データベース33またはコマンド辞書データベース35を参照して、受け取った音素データ列Paの認識結果の応答が「はい」であるかどうかを判定する。それが「はい」であると判定された場合は、入力確認部32は、詳細読み認識部30からの認識結果の短い語Wiを出力する。
ステップ662においてそれが「いいえ」であると判定された場合は、手順はステップ654に戻る。
ステップ666において、入力確認部32は、入力確認および認識結果の単語Wiの文字データの出力が終了したかどうかを判定する。出力が終了していないと判定された場合は、手順はステップ652に戻って、次の詳細読み認識部30からの認識結果を待つ。ステップ666において終了したと判定された場合は、手順は図11のルーチンを出る。
図10を再び参照すると、詳細読み選択部34は、詳細読み辞書データベース36を参照して、短い語Wiの文字データに対する認識された詳細読みの音素データ列Pijとは異なる別のおよび/または最適な明確な詳細読みの音素データ列または発音記号列Pijを選択する。ここで、最適な明確な詳細読みの音素データ列Pijとは、音響的に似た単語が他にない単語の音素データ列を意味する。最適な明確な詳細読みの音素データ列Pijは、認識された詳細読みの音素データ列Pijとは異なるように決定されてもよい。最適な明確な詳細読みの音素データ列Pijは、認識された詳細読みの音素データ列Pijに関係なく決定してもよく、従ってたまたまそれと同じであることを許容してもよい。
次に、最適な明確な詳細読みの音素データ列Pijを選択する概略の手順の例を説明する。詳細読み認識部30からの認識された短い語Wi(例、「あ」)に対して、詳細読み選択部34は、詳細読み辞書データベース36を参照して、認識された短い語Wiの詳細読み音素データ列Pij(例、「アンナイノア」)を全て取り出す。次いで、詳細読み選択部34は、それぞれの可変部分の単語の発音bj(例えば、「アンナイ」)を取り出して、それらを集合Aと集合B(=A)と設定する(A=B={b0,b1,...,bj,...,bn−1})。
次いで、詳細読み選択部34は、集合Aの中の各1つの発音Si(∈A)と集合Bの他の各発音bj(∈B,bj≠Si)との間の音響的距離d(Si,bj)を求める。
発音Siと発音bjの間の音響的距離を表す関数d(Si,bj)として、対応する位置の音節sの母音vが一致しなかった場合に距離+2を与え、対応する位置の音節sの子音cが一致しなかった場合に距離+1を与え、発音Siと発音bjの対応する音節間の距離の総和を求めてもよい。但し、距離関数d(Si,bj)は、これに限定されることなく、他の関数を用いてもよい。
次いで、1つの発音Si(∈A)について、発音Siと集合Bの他の各発音bj(∈B,bj≠Si)との間の1つ以上の距離d(Si,bj)の中の最小のものを最小距離Dmin(Si,B)と設定する。
次いで、全ての発音Si(∈A)について1つ以上の最小距離Dmin(Si,B)の中で最大の最小距離D(Si,B)を有する発音Siを最適の明確な詳細読み用の音素列データS’として選択する。
次に、詳細読み認識部30からの認識された短い語Wiが例えば単音節の単語「あ」である場合について、最適の明確な詳細読み用の音素列データS’の選択の手順の例を説明する。詳細読み選択部34は、詳細読み辞書データベース36を参照して、Wi「あ」を認識単語とする詳細読み音素データ列Pij「アンナイノア」(案内のあ)、「アンガイノア」(案外のあ)、および「サイサツノア」(挨拶のあ)の可変音素データ列Pij+’を取り出して、次の集合Aと集合B(=A)を生成する。
集合A={アンナイ,アンガイ,アイサツ}
集合B={アンナイ,アンガイ,アイサツ}
集合Aから可変音素データ列「アンナイ」を取り出して集合Aからそれを削除し、可変音素データ列Si=「アンナイ」と設定する。この時点で集合Aと集合Bは次のように設定される。
集合A={アンガイ,アイサツ}
集合B={アンナイ,アンガイ,アイサツ}
次いで、音素データ列S0=「アンナイ」と集合Bの別の音素データ列b1=「アンガイ」の間の音響的距離を求める。第1番目の位置の音節「ア」について、子音も母音も一致するので、距離0を与える。第2番目の位置の音節「ン」について、子音も母音も一致するので、距離0を与える。第3番目の位置の音節「ナ」と「ガ」について、母音は一致するが、子音が一致しないので、距離+1を与える。第4番目の位置の音節「イ」について、子音も母音も一致するので、距離0を与える。その総和の距離はd(S0,b1)=d(アンナイ,アンガイ)=1となる。
次いで、音素データ列S0=「アンナイ」と集合Bの別の音素データ列b2=「アイサツ」の間の音響的距離を、同様に求める。その総和の距離はd(S0,b2)=d(アンナイ,アイサツ)=7となる。
従って、集合Aの音素データ列S0=「アンナイ」と集合Bの他の音素データ列b1、b2の間の最小距離は、Dmin[アンナイ]=1である。
次いで、集合AからS1=「アンガイ」を取出して集合Aからそれを削除し、音素データ列S1=「アンガイ」と設定する。この時点で集合Aと集合Bは次のように設定される。
集合A={アイサツ}
集合B={アンナイ,アンガイ,アイサツ}
音素データ列S1=「アンガイ」と集合Bの他の音素データ列b0=「アンナイ」およびb2=「アイサツ」の間の音響的距離を求める。
d(アンガイ,アンナイ)=1
d(アンガイ,アイサツ)=7
従って、集合Aの音素データ列S1=「アンガイ」と集合Bの他の音素データ列音b0、b2の間の最小距離は、Dmin[アンガイ]=1である。
次いで、集合Aから音素データ列S2=「アイサツ」を取出して集合Aからそれを削除し、音素データ列S2=「アイサツ」と設定する。この時点で集合Aと集合Bは次のように設定される。
集合A={φ}(空集合)
集合B={アンナイ,アンガイ,アイサツ}
音素データ列S2=「アイサツ」と集合Bの他の音素データ列b0=「アンナイ」およびb1=「アンガイ」の間の音響的距離を求める。
d(アイサツ,アンナイ)=7
d(アイサツ,アンガイ)=7
従って、集合Aの音素データ列S2=「アイサツ」と集合Bの他の音素データ列b1、b2の間の最小距離はDmin[アイサツ]=7である。全ての最小距離Dmin[Si]は、次の通りである。
Dmin[アンナイ]=1
Dmin[アンガイ]=1
Dmin[アイサツ]=7
次いで、集合Aは空集合なので、最小距離Dmin[Si]の中の最大の最小距離D[S]を有する発音Siを、選択された発音S’とする。
従って、最大の最小距離D[S]を有する音素データ列S2=「アイサツ」を、選択された音素データ列S’=S2と設定する。従って、詳細読み選択部34は、音素データ列S’=S2に音素データ列「ノ ア デスカ」を加えて、「アイサツノ ア デスカ」という質問音素データ列を生成する。
図12は、図10の情報処理装置10の詳細読み選択部34の例によって実行される、最適の明確な詳細読みの音素データ列を選択するためのフローチャートの一例を示している。
図12を参照すると、ステップ662において、詳細読み選択部34は、詳細読み認識部30からの認識された短い語Wi、例えば「あ」を、単語Tとする。
ステップ664において、詳細読み選択部34は、短い語Tを認識文字とする全ての詳細読み音素データ列Pijを詳細読み辞書データベース36(辞書データベース362〜368のいずれか)から収集して、集合Aおよび集合B(=A)とする。
ステップ666において、詳細読み選択部34は、集合Aが空集合かどうかを判定する。集合Tが空集合であると判定された場合は、手順は図6のルーチンを出る
ステップ664において集合Tが空集合でないと判定された場合は、詳細読み選択部34は、ステップ668において、集合Aから1つの詳細読み音素データ列Pijを取り出して、音素データ列Sと設定する。
ステップ670において、詳細読み選択部34は、音素データ列Siを除く集合Bの残りの全ての音素データ列bjと音素データ列Siの間の音響的な距離を求めて、両者の間の最も小さい音響的距離をDmin[Si]とする。
ステップ672において、詳細読み選択部34は、今回の音素データ列Siの最小距離Dmin[Si]と、前回の選択された音素データ列S’の最大の最小距離D[S’]とを比較して、音素データ列Siの最小距離Dmin[Si]が選択音素データ列S’の最大の最小距離D[S’]より大きい場合には、音素データ列Siを選択音素データ列S’=Siと設定し、最小距離Dmin[Si]を最大の最小距離D[S’]=Dmin[Si]と設定する。最初は、音素データ列Siを音素データ列S’=Siと設定する。このようにして選択された音素データ列S’は、他の詳細読みの音素データ列bjとの音響的最小距離が最大であり、ユーザに対する質問として他の全ての音素データ列と区別しやすい明確なものとなる。
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈すべきであり、また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができると理解すべきである。
以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
(付記1) 入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースと、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、前記辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する冗長音素データ認識部と、
を含む情報処理装置。
(付記2) 前記音節数閾値以下の音節数を有する短い語は、単音節単語または数字の種別を有し、
前記情報処理装置は、さらに、前記種別を表すコマンドを受け取って前記コマンドの種別を決定し、前記決定されたコマンドに従って前記辞書データベースにおける前記短い語の種別を判定する判定部を含み、
前記冗長音素データ認識部は、前記判定された種別に従って、前記辞書データベース中の前記種別の辞書データベースを検索のために選択するものである、付記1に記載の情報処理装置。
(付記3) 前記複数の冗長な音素データ列の中の或る音素データ列は、前記或る音素データ列によって表される短い語の音素データを特定の2つの音節位置に含み、
前記情報処理装置は、さらに、前記音素認識部からの音素データ列における前記特定の2つの音節位置の音素データが一致するかどうかを判定する音節判定部を含み、
前記特定の2つの音節位置の音素データが一致した場合に、前記音節判定部は、前記冗長な音素データ列に対応づけられた短い語を出力するものである、付記1または2に記載の情報処理装置。
(付記4) 前記情報処理装置は、さらに前記音節数閾値以下の音節数を有する短い語に対して、この短い語を表しこの短い語の音節数より多い音節数を有する複数の冗長な音素データ列を生成する生成部を含み、
前記メモリに保存された送信電子メールおよび受信電子メールおよび/または前記メモリに保存された履歴情報によるアクセスされたウェブ・ページから、送信電子メール、受信電子メールおよび/またはウェブ・ページのテキスト・データを収集するテキスト収集部と、
前記収集されたテキスト・データを解析して各形態素の単語に分割する形態素分析部と、
前記テキスト・データにおけるそれぞれの同一の形態素の単語の出現頻度を求める頻度計算部と、
前記テキスト・データにおける前記音節数閾値以下の音節数を有する短い語を含む前記形態素の単語の中から、頻度閾値より高い出現頻度を有する形態素の単語を選択し、前記選択された形態素の単語を表し前記選択された形態素の単語を含む冗長な音素データ列を、前記短い語に対応づけて前記辞書データベースに追加する辞書情報生成部と、
を含むものである、
付記1乃至3のいずれかに記載の情報処理装置。
(付記5) 前記辞書情報生成部は、前記メモリに保存されたかな入力情報に基づいて、前記選択された形態素の単語の音素データを生成するものである、付記4に記載の情報処理装置。
(付記6) 前記送信電子メールのテキスト・データにおける前記形態素の単語の選択のための頻度閾値は、前記受信電子メールおよび/またはウェブ・ページのテキスト・データにおける前記形態素の単語の選択のための頻度閾値より低いものである、付記4または5に記載の情報処理装置。
(付記7) 前記冗長音素データ認識部によって前記或る冗長な音素データ列の認識結果として出力された前記或る1つの短い語の認識の尤度が尤度閾値より低い場合に、前記或る1つの短い語を表し前記或る1つの短い語の音節数より多い音節数を有する冗長な音素データ列を前記辞書データベースから選択し、前記選択された冗長な音素データ列を含む確認用の音素データ列を生成する入力確認部をさらに含む、付記1乃至6のいずれかに記載の情報処理装置。
(付記8) 前記選択された冗長な音素データ列は、前記或る1つの短い語を表し前記或る1つの短い語の音節数より多い音節数を有する複数の冗長な音素データ列の中で、前記複数の冗長な音素データ列の他の残りの冗長な音素データ列との間の音響的類似度が最も低いものである、付記7に記載の情報処理装置。
(付記9) 前記選択された冗長な音素データ列は、前記冗長音素データ認識部によって認識された前記或る冗長な音素データ列と異なるものである、付記7または8に記載の情報処理装置。
(付記10) プロセッサとメモリとを有する情報処理装置において用いられるプログラムであって、
前記情報処理装置を、
入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する冗長音素データ認識部、
として動作させるプログラム。
(付記11) プロセッサとメモリとを有する情報処理装置における音声認識方法であって、
前記プロセッサにより、入力された音声データから特徴を抽出して、特徴ベクトルを生成する工程と、
前記プロセッサにより、前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する工程と、
前記プロセッサにより、前記生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列が存在する場合に、当該冗長な音素データ列に対応づけられた短い語を出力する工程と、
を含む音声認識方法。