JP2011007862A

JP2011007862A - 音声認識装置、音声認識プログラム、および音声認識方法

Info

Publication number: JP2011007862A
Application number: JP2009148784A
Authority: JP
Inventors: Hideki Kojima; 英樹小島; Nobuyuki Katae; 伸之片江; Takuya Noda; 拓也野田; Kentaro Murase; 健太郎村瀬; Kazuhiro Watanabe; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-23
Filing date: 2009-06-23
Publication date: 2011-01-13

Abstract

【課題】短い語を表す複数の冗長な表現の音声データを認識できるようにする。
【解決手段】情報処理装置10は、音節数閾値以下の音節数を有する複数の短い語と、その短い語を説明するための、その短い語を含みその短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベース36と、音素認識部によって生成された冗長な音素データ列を認識し、さらに、その辞書データベースを検索して、その認識された冗長な音素データ列に対応する冗長な音素データ列に対して、その冗長な音素データ列に対応づけられた短い語を出力する音素データ認識部30と、を含む。
【選択図】図１

Description

本発明は、音声認識に関し、特に、短い語を表す冗長な表現の音声の認識に関する。

既知の音声認識装置において、各単音節と対応づけて、複数音節からなる単音節認識用特定語が記憶されている。例えば「あ」と対応づけて「あいうえおのあ」が記憶されている。話者は、入力したい単音節の代わりに上記特定語を発声する。その特定語をパターンマッチングにより認識することにより、単音節が特定される。さらに、この機能を用いて、ナビゲーション目的地としての施設名の５０音検索が行われる。施設名の先頭部分の単音節が音声入力される。この単音節を基に施設名が所定数以下に絞り込まれる。次に、単語全体が音声入力される。所定数以下の施設名が認識語彙になるので、認識性能を高くすることができる。

既知の音声認識装置において、入力手段、第１の分析手段、照合手段、判定手段、入力される音声の様々な様態の変化を検出するための分析を行う第２の分析手段を含んでいる。その分析結果に基づいて、照合手段あるいは判定手段が制御される。それによって、利用者の多様な発声の様態の変化や話者の変化に対応して音声を認識することができる。

特開平１１−１８４４９５号公報特開平７−５６５９５号公報

本発明の実施形態の一観点によれば、情報処理装置は、入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、その特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、音節数閾値以下の音節数を有する複数の短い語と、その短い語を説明するための、その短い語を含みその短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースと、その音素認識部によって生成された冗長な音素データ列を認識し、さらに、その辞書データベースを検索して、その認識された冗長な音素データ列に対応する冗長な音素データ列に対して、その冗長な音素データ列に対応づけられた短い語を出力する音素データ認識部と、を含んでいる。

図１は、本発明の実施形態による、情報処理装置における音声認識のための概略的な配置の一例を示している。図２Ａおよび２Ｂは、詳細読み辞書データベース中の音素データ列を表す発音記号の列と短い語との間の対応関係の一例を示している。図３は、情報処理装置によって実行される、短い語の詳細読み形態の音声データの認識のためのフローチャートの一例を示している。図４は、図１の実施形態の変形形態の一例であり、情報処理装置における音声認識のための概略的な別の配置の一例を示している。図５は、図４の情報処理装置の辞書作成部の内部構造とその関連要素の一例を示している。図６は、図５の辞書作成部の詳細読み用単語選択部の例によって実行される、ユーザ関連テキスト中の単語の中から短い語の詳細読み用の単語を選択するためのフローチャートの一例を示している。図７は、図５の辞書作成部の変形形態の一例であり、図４の辞書作成部の別の内部構造とその関連要素の一例を示している。図８は、図６のフローチャートの変形形態の一例であり、図７の辞書作成部の詳細読み用単語選択部によって実行される、能動型または受動型のユーザ関連テキスト中の単語の中から短い語の詳細読み用の単語を選択するためのフローチャートの一例を示している。図９は、図５の辞書作成部の別の変形形態の一例であり、図４の辞書作成部の別の内部構造とその関連要素の一例を示している。図１０は、図４の実施形態の変形形態の一例であり、情報処理装置における音声認識のための概略的なさらに別の配置の一例を示している。図１１は、図１０の情報処理装置の入力確認部の例によって実行される、入力確認および認識結果出力のためのフローチャートの一例を示している。図１２は、図１０の情報処理装置の詳細読み選択部の例によって実行される、最適の明確な詳細読みの音素データ列を選択するためのフローチャートの一例を示している。

発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。

前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。

通常の音声認識において、例えば単音節のような２または３音節以下の短い語を表す音声データの認識率は低い。既知の音声認識では、或る短い語を表す文字データ、例えば「あ」を入力するために、その代わりにその短い語を表す例えば３または４音節以上の冗長な単語、例えば「あいうえおのあ」を表す音声データを音声認識させる。その認識結果のデータに対応づけられたその短い語を表す文字データが、認識結果として生成される。しかし、その短い語を表す冗長な単語において、その短い語に付加される単語、例えば「あいうえおの」は一意的に予め決められている。

発明者は、予め記憶された冗長な単語において付加されるべき単語と異なる単語が短い語に付加された異なる冗長な単語をユーザが発声すると、その異なる冗長な単語を表す音声データはその短い語を表すものとして音声認識されない、と認識した。また、発明者は、短い語を表す複数の可能な冗長な単語を用意しまたは短い語を表す任意の冗長な単語を許容すれば有利である、と認識した。

本発明の実施形態の目的は、或る短い語を表す複数の冗長な表現の音声データを認識できるようにすることである。

本発明の実施形態によれば、或る短い語を表す複数の冗長な表現の音声データを認識できる。

本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。

図１は、本発明の実施形態による、情報処理装置１０における音声認識のための概略的な配置の一例を示している。

情報処理装置１０は、例えば、口述筆記、ハンズフリー・コンピューティング、自動音声応答、車載装置またはカー・ナビゲーション装置、等に用いられる音声認識機能を含む装置である。

情報処理装置１０は、プロセッサ１２、メモリ１４および表示装置１５を含んでいる。情報処理装置１０は、さらに、入力装置２０、特徴抽出部２２、音素認識部２４、単語認識部２６、および詳細読み認識部または代替的冗長音素データ列認識部３０を含んでいる。音素認識部２４は、音素モデル記憶部３２に結合されている。詳細読み認識部３０は、詳細読み辞書データベースまたは代替的冗長単語辞書データベース３６に結合されている。単語認識部２６は、単語辞書データベース３３に結合されている。少なくとも、特徴抽出部２２、音素認識部２４、単語認識部２６および詳細読み認識部３０の各要素のうちの任意の２つ以上の要素は、一体的な１つのユニットであってもよい。例えば、単語認識部２６と詳細読み認識部３０は１つのユニットであってもよい。

単語辞書データベース３３は、認識される音素データ列、その認識結果としての単語データ、およびその単語のふりがなデータを、互いに関連づけて格納している。単語辞書データベース３３では、１つの音素データ列に対して１つの単語データが一意的に決定される。

入力装置２０には、音声データを供給するためのマイクロホン、音声入力インタフェースおよび／または記憶媒体読取装置が含まれ、さらにコマンド等供給用のキーボード、複数のキーおよび／またはポインティング・デバイス等が含まれていてもよい。

メモリ１４、表示装置１５、入力装置２０、特徴抽出部２２、音素認識部２４、単語認識部２６、および詳細読み認識部３０は、制御部としてのプロセッサ１２によって制御される。

入力装置２０からの入力音声データは特徴抽出部２２に供給される。特徴抽出部２２は、入力音声データを音声データの特徴を示す特徴ベクトル、例えばスペクトルまたはケプストラム変換して、その変換された特徴ベクトルまたは特徴データを音素認識部２４に供給する。

音素認識部２４は、受け取った特徴ベクトルを、音素モデル記憶部３２に格納されている音素モデル（３２）と照合し、音素単位で音声データを認識して、音素データまたは発音記号データを生成する。音素モデルは、例えば日本語のような言語の各音素の特徴量をモデル化したものである。音素モデルとして、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などが用いられる。音素認識部２４からの認識された音素データの列またはシーケンスは、単語認識部２６および詳細読み認識部３０に供給される。

音素認識部２４からの音節数閾値Ｎ（例えば、Ｎ＝２または３音節）を超える音節数を有する認識率の高い単語を表す認識された音素データ列は、単語認識部２６に選択的に供給されるか、または単語認識部２６によって選択的に受け取られる。その選択は、ユーザによる入力装置２０のキーボードの通常読み形態を表すキーの操作によるコマンドによって行われてもよい。

単語認識部２６は、その音素データ列Ｐｒを単語辞書データベース３３中の単語を表す各音素データ列Ｐｋと照合して、両者が一致すれば、一致した音素データ列Ｐｋに対応するその単語Ｗｋを表す文字データを音声認識結果として、他の利用装置（図示せず）に供給する。単語辞書データベース３３は、１音節以上の単語Ｗｋに対して、それを表現する音素データまたは音素データ列Ｐｋを対応させる構造を有する認識用単語の辞書データベースである。

ユーザは、音節数閾値Ｎｔｈ（例えば、Ｎｔｈ＝２または３音節）以下の音節数を有する音声認識率の低い短い語Ｗｉを表す音声を入力する代わりに、その短い語Ｗｉを表す増大された数の音節Ｎ（＞Ｎｔｈ）を有する冗長なまたは長い単語を表す音声を入力装置２０を介して入力してもよい。ユーザは、その短い語Ｗｉを表す代替的な冗長な単語としてのその短い語Ｗｉの詳細読み形態の長い単語を発声した音声データを入力してもよい。その詳細読み形態の長い冗長な単語は、その短い語Ｗｉを含んでいてもよい。その詳細読み形態の単語または冗長な単語を表す音素認識部２４からの認識された音素データ列Ｐｒは、詳細読み認識部３０に選択的に供給されるか、または詳細読み認識部３０によって選択的に受け取られる。その選択は、ユーザによる入力装置２０のキーボードの詳細読みを表すキーの操作によるコマンドによって行われてもよい。

詳細読み認識部３０は、音素データ列Ｐｒを詳細読み辞書データベース３６中の短い語を表す詳細読み形態の単語の音素データ列Ｐｉｊと順次照合して、両者が一致すれば、一致した音素データ列Ｐｉｊに対応する短い語Ｗｉを表す文字データを音声認識結果として、他の利要装置（図示せず）に供給する。詳細読み辞書データベース３６は、閾値Ｎｔｈ以下の音節数の各短い語Ｗｉに対して、その短い語Ｗｉを表す増大された音節数Ｎ（例えば、Ｎ＝３または４音節以上）の複数の詳細読み形態の音素データ列Ｐｉｊを対応させる構造を有する認識用単語の辞書データベースである。

代替形態として、詳細読み認識部３０は、受け取った音素データ列Ｐｒの特定の音節位置（例えば、最初と最後の音節位置）の音素データを、詳細読み辞書データベース３６中の詳細読み形態の音素データ列Ｐｉｊの同じ特定の音節位置の音素データと照合してもよい。この場合、両者の音素データが一致した場合に、詳細読み認識部３０は、音素データ列Ｐｉｊに対応するその短い語Ｗｉを表す文字データを音声認識結果として出力してもよい。その特定の音節位置の音素データは、その短い語Ｗｉの音素データＰｉであってもよい。このようにして、短い語Ｗｉの詳細読み形態のまたは代替的な冗長な単語を表す音声データまたは音素データ列Ｐｉｊを、その短い語Ｗｉを表すものとして高い認識率で認識することができる。

情報処理装置１０の音声認識のための要素２２〜３０は、プロセッサ１２上にハードウェア（専用集積回路）またはソフトウェア（プログラム）の形態で実装されていてもよい。メモリ１４は、音素モデル、プログラムおよびその他のデータを格納している。メモリ１４は、プロセッサ１２によって実行される音声認識のための要素２２〜３０の機能を実現するためのプログラムを格納していてもよい。

図２Ａおよび２Ｂは、詳細読み辞書データベース３６中の音素データ列Ｐｉｊを表す発音記号の列と短い語Ｗｉとの間の対応関係の一例を示している。ここで、ｉは短い語の識別番号を表し、ｊは識別番号ｉの短い語の詳細読み形態の音素データ列の順序番号を表している。

図２Ａを参照すると、例えば、１音節の短い語Ｗｉ＝Ｗ１「あ」について、複数の詳細読み形態の音素データ列Ｐｉｊを表す発音記号の列Ｐ１１「アンナイノア」（案内のあ）、Ｐ１２「アイサツノア」（挨拶のあ）、Ｐ１３「アンガイノア」（案外のあ）が対応付けられている。このような発声形態は、音声合成の分野で詳細読みと呼ばれる。この場合、音素データ列Ｐｉｊ’「ア・・・ノア」が不変部分であり、音素データ列Ｐｉｊ^＋’「ンナイ」、「イサツ」、「ンガイ」が可変部分である。別の識別法では、音素データ列Ｐｉｊ’「ノア」が不変部分であり、音素データ列Ｐｉｊ^＋’「アンナイ」、「アイサツ」、「アンガイ」が可変部分としてもよい。「詳細読み」は、「説明読み」または「詳細説明読み」と称してもよい。詳細読み辞書データベース３６において、短い語の詳細読み形態の音素データ列Ｐｉｊは、増大された２音節または３音節を超える音節数の単語の音素データ列で記述される。但し、図２Ａでは、理解を容易にするために、音素データを表す発音記号としてカタカナ表記が用いられている。

図２Ｂを参照すると、例えば、１音節の短い語またはアルファベットＷｉ＝Ｗ１「Ａ」について、Ｐ１１「アルファノエイ」（ＡｌｐｈａのＡ）、Ｐ１２「アップルノエイ」（ＡｐｐｌｅのＡ）、Ｐ１３「アダムノエイ」（ＡｄａｍのＡ）、Ｐ１４「アルファベットノエイ」のような複数の詳細読み形態または音標文字（ｐｈｏｎｅｔｉｃａｌｐｈａｂｅｔ）形態の音素データ列Ｐｉｊが対応付けられる。この場合、音素データ列Ｐｉｊ’「ノエイ」が不変部分であり、音素データＰｉｊ^＋’「アルファ」、「アップル」、「アダム」、「アルファベット」が可変部分である。

図３は、情報処理装置１０によって実行される、短い語の詳細読み形態の音声データの認識のためのフローチャートの一例を示している。

図３を参照すると、ステップ６０２において、情報処理装置１０の特徴抽出部２２は、プロセッサ１２の制御の下で、入力音声データを音声データの特徴を示す特徴ベクトル、例えばスペクトルまたはケプストラム変換し、その変換済みの特徴ベクトルのデータを音素認識部２４に供給する。さらに、音素認識部２４は、プロセッサ１２の制御の下で、受け取った特徴ベクトルを音素モデル記憶部３２に格納されている音素モデルと照合することによって、特徴ベクトルのデータを音素単位で認識して音素データまたは発音記号の列Ｐｒを生成する。

ステップ６０４において、詳細読み認識部３０は、プロセッサ１２の制御の下で、音素認識部２４から受け取った詳細読み形態の長いまたは冗長な音素データ列Ｐｒを認識する。次いで、詳細読み認識部３０は、その認識された詳細読み形態の音素データ列Ｐｒを、詳細読み辞書データベース３６中の短い語Ｗｉを表す複数の詳細読み形態の各音素データ列Ｐｉｊと順次照合する。その認識された詳細読み形態の音素データ列Ｐｒと詳細読み辞書データベース３６中の或る詳細読み形態の音素データ列Ｐｉｊとが完全に一致した場合に、詳細読み認識部３０は、その音素データ列Ｐｉｊによって表される短い語Ｗｉを表す文字データを音声認識結果として出力する。

代替形態として、詳細読み認識部３０は、認識された詳細読み形態の音素データ列Ｐｒの特定位置の音素データを、詳細読み辞書データベース３６中の複数の詳細読み形態の同じ特定位置の音素データ列Ｐｉｊと順次照合してもよい。この場合、その音素データ列Ｐｒと或る詳細読み形態の音素データ列Ｐｉｊにおけるそれぞれの特定の音節位置の音素が一致した場合に、詳細読み認識部３０は、その音素データ列Ｐｉｊによって表される短い語Ｗｉを表す文字データを音声認識結果として出力する。

ステップ６０６において、プロセッサ１２は、詳細読み形態の音声データの認識が終了したかどうかを判定する。それが終了したと判定した場合は図３のルーチンを出る。それが終了していない、または次の詳細読み形態の入力音声データがあると判定された場合は、手順はステップ６０２に戻る。

図４は、図１の実施形態の変形形態の一例であり、情報処理装置１０における音声認識のための概略的な別の配置の一例を示している。

情報処理装置１０は、要素１２〜２６、３０〜３３、および３６に加えて、コマンド判定部またはコマンド認識部２８およびコマンド辞書データベース３５を含んでいてもよい。情報処理装置１０は、さらに音節チェック部３１を含んでいてもよい。情報処理装置１０は、さらに辞書作成部４０を含んでいてもよい。少なくとも、特徴抽出部２２、音素認識部２４、単語認識部２６、詳細読み認識部３０、コマンド判定部２８および音節チェック部３１の各要素のうちの任意の２つ以上の要素は、一体的な１つのユニットであってもよい。例えば、単語認識部２６、詳細読み認識部３０、コマンド判定部２８および音節チェック部３１は１つのユニットであってもよい。コマンド判定部２８、音節チェック部３１および辞書作成部４０は、制御部としてのプロセッサ１２によって制御される。

詳細読み辞書データベース３６は、例えば、単音節用辞書データベース３６２、数字用辞書データベース３６４、アルファベット用辞書データベース３６６、単漢字用辞書データベース３６８のような複数種別（タイプ）の詳細読み辞書データベースを含んでいる。

音素認識部２４からの認識された音素データ列は、単語認識部２６、詳細読み認識部３０およびコマンド判定部２８に供給される。音素認識部２４からの例えば３音節または４音節以上の認識率の高いコマンドを表す認識された音素データ列は、コマンド判定部２８に選択的に供給されるか、またはコマンド判定部２８によって選択的に受け取られる。代替形態として、その選択は、ユーザによる入力装置２０のキーボードの通常読みを表すキーの操作によるコマンドによって行われてもよい。

コマンド判定部２８は、その音素データ列をコマンド辞書データベース３５中の辞書選択用のコマンドを表す各音素データ列Ｐｔと順次照合して、両者が一致すれば、一致した音素データ列Ｐｔに対応するそのコマンドＣＭＤｔを音声認識結果として詳細読み辞書データベース３６に出力する。

コマンド辞書データベース３５は、３音節以上のコマンドＣＭＤｔに対して、それを表現する音素データ列Ｐｔを対応させる構造を有する認識用コマンドの辞書データベースである。そのコマンドの音素列Ｐｔは、例えば、「タンオンセツヨウジショ」（単音節用辞書）、「スウジヨウジショ」（数字用辞書）、「アルファベットヨウジショ」（アルファベット用辞書）、「タンカンジヨウジショ」（単漢字辞書）を表す発音記号列であってもよい。

単音節用辞書データベース３６２については図２Ａを参照して既に説明した。数字用辞書データベース３６４は、数字Ｗｉの詳細読みを表す複数の音素データ列Ｐｉｊ、例えば、数字「１」を表す「ヒトツノイチ」、「スウジノイチ」、「ワンノイチ」および「イチノイチ」、数字２を表す「フタツノニ」、「スウジノニ」、「ツーノニ」および「ニノニ」、等を含んでいる。アルファベット用辞書データベース３６６については図２Ｂを参照して既に説明した。

単漢字用辞書データベース３６８は、単一の漢字Ｗｉの詳細読みを表す複数の音素データ列Ｐｉｊ、例えば、漢字「案」を表す「アンナイノアン」、「アンガイノアン」、「アンシュツノアン」および「カンジアンナイノアン」等を含んでいる。詳細読みは、例えば、漢字Ｗｉ「案」を表す音素データ列Ｐｉｊ「アンナイノアン」および「アンガイノアン」のように、表現する短い語Ｗｉの音素データ列Ｐｉ「アン」がそれに付加される単語を表す音素データ列Ｐｉｊ^＋「ナイノ」、「ガイノ」の前後に含まれていてもよい。また、詳細読みは、例えば、漢字Ｗｉ「案」を表す音素データ列Ｐｉｊ「カンジアンナイノアン」、「テイアンノアン」のように、表現する短い語Ｗｉの音素データ列Ｐｉ「アン」がそれに付加される音素データ列Ｐｉｊ^＋「カンジ・・・ナイノ」および「テイ・・・ノ」の特定の音節位置（例えば、最初または最後の音節位置）に含まれていてもよい。

コマンド判定部２６からのコマンドＣＭＤによって、詳細読み辞書データベース３６の単音節用辞書データベース３６２、数字用辞書データベース３６４、アルファベット用辞書データベース３６６および単漢字用辞書データベース３６８等の中の対応するものが照合用に選択される。

音節チェック部３１は、詳細読み辞書データベース３６中の単音節用辞書データベース３６２が選択された場合に、音素認識部２４からの認識された音素データ列Ｐｒ中の複数の特定音節位置（例えば最初と最後の音節位置）の音素データＰｉが一致するかどうかを検査する。その音素データＰｉは、音素データ列Ｐｉｊにおける単音節の不変部分の音素データである。音素データＰｉは、例えば、音素データ列「アンナイノア」の最初と最後の音節位置の音素データ「ア」である。両者が一致した場合に、音節チェック部３１は、入力音声データが単音節の単語Ｗｉの詳細読み形態であると判定して、詳細読み認識部３０からの音素データ列Ｐｉｊに対応する単音節の単語Ｗｉの文字データを認識結果として出力する。それによって、ユーザの入力音声に対する認識結果としての単音節の単語Ｗｉの信頼性が高くなる。一方、両者が一致しなかった場合には、音節チェック部３１は、入力音声のエラーと判定して表示装置１５に「入力音声のエラー」を視覚的に表示するか、または音声合成部（図１０、１８）を介して「入力音声のエラー」（音声）を音響的に通知してもよい。

詳細読み辞書データベース３６中のいずれかのデータベース３６２〜３６８が選択された場合であっても、詳細読み形態の音素データ列Ｐｒに対応する詳細読み形態の音素データ列Ｐｉｊの認識スコアＳが閾値Ｓｔｈより低いことがある。さらに、詳細読み認識部３０において音素データ列Ｐｒに対応する詳細読み辞書３６中の音素データ列Ｐｉｊを抽出できたがその認識スコアＳが閾値Ｓｔｈ以下である場合、音節チェック部３１は、音素データ列ＰｒとＰｉｊ中の特定の音節位置（例、最初と最後の音節）の音素データが一致するかどうかを検査してもよい。その音素データは、音素データ列Ｐｉｊにおける１音節以上の不変部分の音素データであってもよい。その音素データは、例えば、音素データ列Ｐｉｊ「アンナイノア」において可変部分Ｐｉｊ^＋’「ンナイ」を除いた不変部分の最初と最後の音節位置の音素データＰｉｊ’「ア・・・ノア」である。それによって、認識された音素データ列Ｐｒと或る音素データ列Ｐｉｊの可変部分Ｐｉｊ^＋’の音素データが完全には一致せず認識スコアＳが閾値Ｓｔｈ以下の場合でも、音素データ列Ｐｉｊに対応する短い語Ｗｉを認識結果として出力することができる。一方、両者が一致しなかった場合には、音節チェック部３１は、上述のように「入力音声のエラー」を表示してもよい。

辞書作成部４０は、或るタイミングで、短い語Ｗｉの新しい詳細読みの音素データ列Ｐｉｊを生成して、詳細読み辞書データベース３６に追加する機能を有する。

図５は、図４の情報処理装置１０の辞書作成部４０の内部構造（破線の枠内）とその関連要素の一例を示している。

情報処理装置１０は、メモリ１４に格納されプロセッサ１２上に実装される電子メール用ソフトウェア（ＳＷ）５０２およびインターネット用のブラウザ・ソフトウェア（ＳＷ）５０４を含んでいる。情報処理装置１０は、さらに、タイマ１６、メモリ１４内の記憶領域としての電子メール記憶部５１２およびログ記憶部５１４、および更新チェック部４２を含んでいる。更新チェック部４２は、辞書作成部４０の一部であってもよい。更新チェック部４２は、プロセッサ１２によって制御される。電子メール記憶部５１２には、ユーザの送信電子メールおよび受信電子メールのファイルが保存されている。ログ記憶部５１４には、ユーザによってアクセスされたウェブ・ページ（アドレス、日付時刻、等）のアクセスのログまたは履歴のファイルが格納されている。

情報処理装置１０の辞書作成部４０および更新チェック部４２は、プロセッサ１２上にハードウェア（専用集積回路）またはソフトウェア（プログラム）の形態で実装されていてもよい。

図５を参照すると、辞書作成部４０は、ユーザ関連テキスト収集部４２０、形態素解析部４２６、単語頻度計算部４２８、詳細読み用単語選択部４３０、読み生成部４３４を含んでいる。更新チェック部４２は、電子メール記憶部５１２およびログ記憶部５１４内のファイルおよびデータが、前回の更新チェックの後で更新されたかどうかを判定する。そのために、更新チェック部４２は、電子メールおよびウェブ・ログのファイルおよびデータの前回チェックした時の状態と現在の状態の差分、例えば新しい日時のファイルまたはデータの存在を検査する。更新があると判定された場合には、更新チェック部４２は辞書作成部４０を起動する。タイマ１６は、その更新を判定するためのタイミング、例えばユーザによって指定された毎日定時刻のタイミングを発生してプロセッサ１２または更新チェック部４２に供給する。

電子メール用ソフトウェア５０２は、ユーザによって電子メールの送受信に使用される。送受信された電子メールのファイルは、電子メール記憶部５１２に格納される。ブラウザ・ソフトウェア５０４は、ユーザによってウェブ・ページを閲覧するために使用される。ウェブ・ページへのアクセス記録は、ログ・ファイルとしてログ記憶部５１４に記録される。

更新チェック部４２が電子メール記憶部５１２およびログ記憶部５１４内のファイルおよびデータが更新されたと判定した場合、プロセッサ１２は、ユーザ関連テキスト収集部４２０を起動する。

ユーザ関連テキスト収集部４２０は、電子メール記憶部５１２内のファイルまたはデータからユーザに関連するテキスト・データを収集し、ログ記憶部５１４内のログ・ファイルまたはデータに基づいてウェッブ・ページからユーザに関連するテキスト・データを収集する。形態素解析部４２６は、その収集されたユーザ関連テキスト・データを構文解析して、テキスト・データを例えば単語のような形態素に分割する。単語頻度計算部４２８は、テキスト・データ中の各単語または形態素の出現頻度を計数する。

詳細読み用単語選択部４３０は、単語辞書データベース３３を参照して、ユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Ｎｔｈより多い音節数Ｎを有しかつ閾値Ｆｔｈより高い出現頻度Ｆを有する長い単語Ｗｋを選択する。次いで、詳細読み用単語選択部４３０は、選択された長い単語Ｗｋの中から、詳細読みすべき短い語Ｗｉ（例、「あ」）をふりがなの先頭に持つ長い単語Ｗｋ（例、「案内」、「挨拶」、「案外」）を選択する。

読み生成部４３４は、選択された長い単語Ｗｋ（例、「案内」）について、単語辞書データベース３３を参照して、短い語Ｗｉ（例、「あ」）の詳細読み形態の単語Ｗｋ（例、「案内」）を含む単語（例、「案内のあ」）の、音素データ列または発音記号列Ｐｉｊ（例、「アンナイノア」）を生成する。読み生成部４３４は、さらに、その音素データ列Ｐｉｊを、その短い語Ｗｉに対応づけて、詳細読み辞書データベース３６または各辞書データベース３６２〜３６８の中の対応する辞書データベースに追加する。

図６は、図５の辞書作成部４０の詳細読み用単語選択部４３０の例によって実行される、ユーザ関連テキスト中の単語の中から短い語Ｗｉの詳細読み用の単語Ｗｋを選択するためのフローチャートの一例を示している。

図６を参照すると、ステップ６２２において、詳細読み用単語選択部４３０は、単語辞書データベース３３および／または詳細読みデータベース３６の中から特定の種別の全ての短い語Ｗｉ（例、単音節の単語、数字、アルファベット、または単漢字）を全て抽出して、それを集合Ｔとして設定する。ステップ６２４において、詳細読み用単語選択部４３０は、集合Ｔが空集合かどうかを判定する。集合Ｔが空集合であると判定された場合は、手順は図６のルーチンを出る。

ステップ６２４において集合Ｔが空集合でないと判定された場合は、詳細読み用単語選択部４３０は、ステップ６２６において、集合Ｔの中から特定の種別の１つの短い語Ｗｉ（例、単音節の単語、数字、アルファベット、または単漢字）を取り出して短い語Ａ＝Ｗｉと設定する。取り出された短い語Ｗｉは、集合Ｔから削除される。

ステップ６２８において、詳細読み用単語選択部４３０は、単語辞書データベース３３を参照して、ユーザ関連テキストの中から、その短い語Ａをふりがなの先頭に持つ長い単語Ｗｋを全て選択して、その選択された長い単語Ｗｋを集合Ｂと設定する。ステップ６３０において、詳細読み用単語選択部４３０は、集合Ｂが空集合かどうかを判定する。集合Ｂが空集合であると判定された場合は、手順はステップ６２４に戻る。

ステップ６３０集合Ｂが空集合でないと判定された場合は、詳細読み用単語選択部４３０は、ステップ６３８において、集合Ｂの中から頻度閾値Ｆｔｈを超える頻度Ｆを有する長い単語Ｗｋを全て取り出して、その取り出された長い単語を集合Ｃと決定する。ステップ６４０において、詳細読み用単語選択部４３０は、集合Ｃ中の長い単語Ｗｋを、その短い語Ａの詳細読み用の単語Ｗｋとして選択する。

その後、読み生成部４３４は、その詳細読み用の長い可変単語Ｗｋ（例えば「案内」）および不変部分（例えば「の」）を短い語Ｗｉ（例えば「あ」）の前に付加して、詳細読み形態の単語（例えば「案内のあ」）を生成する。次いで、読み生成部４３４は、単語辞書データベース３３を参照して、その詳細読み形態の単語を音素データ列Ｐｉｊ（例えば、「アンナイノア」）に変換して、その音素列データＰｉｊを短い語Ｗｉに対応づけて詳細読み辞書データベース３６に追加する。

このように、ユーザが高い頻度Ｆでアクセスする電子メールおよびウェブ・ページのテキスト・データから、短い語Ｗｉの詳細読み形態の音素データ列Ｐｉｊが生成されるので、ユーザにとって音声入力しやすい表現の詳細読みの音素データ列Ｐｉｊが生成される。

図７は、図５の辞書作成部４０の変形形態の一例であり、図４の辞書作成部４０の別の内部構造とその関連要素の一例を示している。

情報処理装置１０において、ユーザ関連テキスト収集部４２０は、能動型テキスト収集部４２２および受動型テキスト収集部４２２を含んでいる。また、詳細読み用単語選択部４３０は、能動型のユーザ関連テキストから単語Ｗｉを選択する能動詳細読み用単語選択部と、受動型のユーザ関連テキストから単語Ｗｉを選択する受動詳細読み用単語選択部とを含んでいてもよい。辞書作成部４０のその他の要素は、図５のものと同様である。

能動型テキスト収集部４２２は、電子メール記憶部５１２内の送信電子メールだけのファイルおよびデータから、ユーザに関連するテキスト・データだけを収集する。送信電子メールは、ユーザ自身が作成したものであり能動的に関与しており、ユーザによる使用頻度の高い単語が出現すると考えられる。従って、そのテキストは、能動型のユーザ関連テキスト・データである。従って、送信電子メールから収集されたテキスト・データ中の長い単語Ｗｋは、短い語Ｗｉの詳細読みに付加される単語Ｗｋとしての適性が相対的に高い、と考えられる。

受動型テキスト収集部４２２は、電子メール記憶部５１２内の受信電子メールだけのファイルおよびデータからユーザに関連するテキスト・データだけを収集し、ログ記憶部５１４内のログ・ファイルに基づいてウェッブ・ページから、ユーザに関連するテキスト・データを収集する。受信電子メールおよびウェブ・ページは、ユーザが受信して読んだだけのものであり受動的にしか関与しておらず、ユーザによる使用頻度の高い単語が出現するとは限らないと考えられる。従って、そのテキストは、受動型のユーザ関連テキスト・データである。従って、送信電子メールおよびウェブ・ページから収集されたテキスト・データ中の単語Ｗｋは、短い語Ｗｉの詳細読みに付加される単語Ｗｋとしての適性は相対的に低い、と考えられる。

形態素解析部４２６は、図５の場合と同様に、能動型または受動型の収集されたテキスト・データを構文解析して、テキストを例えば単語のような形態素に分割する。単語頻度計算部４２８は、図５の場合と同様に、能動型または受動型のユーザ関連テキスト中の各単語または形態素の出現頻度を計数する。

詳細読み用単語選択部４３０は、単語辞書データベース３３を参照して、送信電子メール由来の能動型のユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Ｎｔｈより多い音節数Ｎを有しかつ第１の閾値Ｆｔｈ＝αより高い出現頻度Ｆ（＞Ｆｔｈ）を有する長い単語Ｗｋを選択する。また、詳細読み用単語選択部４３０は、単語辞書データベース３３を参照して、受信電子メールおよびウェブ・ページ由来の受動型のユーザ関連テキスト・データ中の単語または形態素の中から、ふりがなが閾値Ｎｔｈより多い音節数Ｎを有しかつ第２の閾値Ｆｔｈ＝β（＞α）より高い出現頻度Ｆ（＞Ｆｔｈ）を有する長い単語Ｗｋを選択する。第１の閾値αは第２の閾値βより低いので、送信電子メールから収集された受動型のユーザ関連テキスト中の単語は、相対的に低い出現頻度の単語であっても、選択される。第２の閾値βは第１の閾値αより高いので、受信電子メールおよびウェブ・ページから収集された受動型のユーザ関連テキスト中の単語は、相対的に高い出現頻度の単語だけが選択される。

読み生成部４３４は、図５の場合と同様に、その長い単語を含む単語の音素データ列または発音記号列Ｐｉｊを生成する。読み生成部４３４は、さらに、その音素データ列Ｐｉｊをその短い語Ｗｉに対応づけて、詳細読み辞書データベース３６にまたはその辞書データベース３６２〜３６８の中の対応する辞書データベースに追加する。

図８は、図６のフローチャートの変形形態の一例であり、図７の辞書作成部４０の詳細読み用単語選択部４３０の例によって実行される、能動型または受動型のユーザ関連テキスト中の単語の中から短い語Ｗｉの詳細読み用の単語を選択するためのフローチャートの一例を示している。図８のフローチャートは、能動型ユーザ関連テキストまたは受動型のユーザ関連テキストに対して別々に適用される。

図８を参照すると、ステップ６２２〜６２６は、図６のものと同様である。

ステップ６２９において、能動型のユーザ関連テキストに対して、単語辞書データベース３３を参照して、詳細読み用単語選択部４３０は、そのテキストの中からその短い語Ａをふりがなの先頭に持つ長い単語Ｗｋを全て選択して、その選択された長い単語Ｗｋを集合Ｂと設定する。ステップ６２９において、受動型のユーザ関連テキストに対して、詳細読み用単語選択部４３０は、単語辞書データベース３３を参照して、そのテキストの中からその短い語Ａをふりがなの先頭に持つ長い単語Ｗｋを全て選択して、その選択された長い単語Ｗｋを集合Ｂと設定する。

ステップ６３０は、図６のものと同様である。

ステップ６３２において、詳細読み用単語選択部４３０は、ユーザ関連テキストが能動型のテキストかどうかを判定する。そのテキストが能動型であると判定された場合は、ステップ６３４において、詳細読み用単語選択部４３０は、頻度の閾値として第１の閾値Ｆｔｈ＝α（＜β）を設定する。

ステップ６３２においてそのテキストが能動型でない、または受動型であると判定された場合は、ステップ６３６において、詳細読み用単語選択部４３０は、頻度の閾値として第２の閾値Ｆｔｈ＝β（＞α）を設定する。

ステップ６３８〜６４０は、図６のものと同様である。従って、ステップ６３８において、能動型のユーザ関連テキストに対して、集合Ｂの中から低い頻度閾値Ｆｔｈ＝α（＜β）を超える頻度Ｆを有する全ての長い単語Ｗｋが、集合Ｃと設定される。一方、受動型のユーザ関連テキストに対して、集合Ｂの中から高い頻度閾値Ｆｔｈ＝β（＞α）を超える頻度Ｆを有する全ての長い単語Ｗｋが、集合Ｃと設定される。

図９は、図５の辞書作成部４０の別の変形形態の一例であり、図４の辞書作成部４０の別の内部構造とその関連要素の一例を示している。

情報処理装置１０は、図５の要素１２〜１６、３３、３６、４０、４２、５０２〜５１４、等に加えて、メモリ１４に格納されプロセッサ１２上に実装されるカナ漢字変換ソフトウェア（ＳＷ）５０６を含んでいる。情報処理装置１０は、さらに、メモリ１４内の記憶領域としての入力情報保持部５１６を含んでいる。

入力情報保持部５１６は、ユーザによって入力されたカナ漢字変換ソフトウェア５０６用の入力情報を保持する。

読み生成部４３４は、選択された長い単語Ｗｋから、単語辞書データベース３３および入力情報保持部５１６を参照して短い語Ｗｉの詳細読み形態のその長い単語Ｗｋを含む単語の音素データ列または発音記号列Ｐｉｊを生成する。読み生成部４３４は、さらに、その音素データ列Ｐｉｊをその短い語Ｗｉに対応づけて、詳細読み辞書データベース３６または各辞書データベース３６２〜３６８の中の対応する辞書データベースに追加する。読み生成部４３４は、読み方が不明な選択された単語（例えば、「平成」）に対して、入力情報保持部５１６を参照して、長い単語Ｗｋと同じ変換された漢字（例、「平成」）が存在するかどうかを判定する。変換された漢字（例、「平成」）が存在する場合、読み生成部４３４は、さらに入力情報保持部５１６を参照して、選択された単語Ｗｋ（例、「平成」）に対応するユーザによって入力されたひらがなデータ（例、「へいせい」）を検出する。読み生成部４３４は、入力されたひらがなデータ（例、「へいせい」）に対応する音素データ列Ｐｉｊ（例、「ヘイセイ」）を単語辞書データベース３３から選択する。例えば、選択された単語Ｗｋ「平成」に対して、入力情報保持部５１６に、ひらがな入力「へいばん」、変換キー、バックスペース・キー、ひらがな入力「せいこう」、変換キー、バックスペース・キーのシーケンスの入力情報が存在したとする。この場合、読み生成部４３４は、詳細読み用の漢字Ｗｋ「平成」を「へいせい」とふりがなを振り、それをＰｉｊ「ヘイセイ」と発音していると判定する。

図１０は、図４の実施形態の変形形態の一例であり、情報処理装置１０における音声認識のための概略的なさらに別の配置の一例を示している。

情報処理装置１０は、要素１２〜１５、２０〜３０、３３、３５、３６および４０に加えて、音声合成部１８、スピーカ（ＳＰ）１９、入力確認部３２および詳細読み選択部３４を含んでいる。少なくとも、特徴抽出部２２、音素認識部２４、単語認識部２６、詳細読み認識部３０、コマンド判定部２８、入力確認部３２および詳細読み選択部３４の各要素のうちの任意の２つ以上の要素は、一体的な１つのユニットであってもよい。例えば、単語認識部２６、詳細読み認識部３０、コマンド判定部２８、入力確認部３２および詳細読み選択部３４、および音節チェック部３１（図４）は、１つのユニットであってもよい。音声合成部１８、スピーカ１９、入力確認部３２および詳細読み選択部３４は、制御部としてのプロセッサ１２によって制御される。

入力確認部３２は、詳細読み選択部３０から音声認識結果の短い語の文字データと、その確信度または尤度を表すその認識スコアＳを受け取る。入力確認部３２は、認識スコアＳが閾値Ｓｔｈより低い場合には、詳細読み選択部３４に別のおよび／または最適な明確な詳細読みの音素データ列または発音記号列Ｐｉｊを選択するよう要求する。

詳細読み選択部３４は、詳細読み選択部３０から、認識した詳細読みの音素データ列または発音記号列Ｐｉｊと、それに対応する短い語Ｗｉの文字データとを受け取る。詳細読み選択部３４は、詳細読み辞書データベース３６を参照して、短い語Ｗｉの文字データに対する認識された詳細読みの音素データ列Ｐｉｊとは異なる別のおよび／または最適の明確な詳細読みの音素データ列または発音記号列Ｐｉｊを選択する。次いで、詳細読み選択部３４は、その音素データ列Ｐｉｊを含む質問の音素データ列Ｐｑを音声合成部１８に供給する。その別のおよび／または最適な明確な詳細読みの音素データ列Ｐｉｊは、短い語Ｗｉの文字データに対応する異なる任意の音素データ列Ｐｉｊであっても、または短い語の文字データに対応する確認質問として最適の明確な音素データ列Ｐｉｊであってもよい。

例えば、短い語Ｗｉ「あ」に対して認識された音素データ列Ｐｉｊ「アンナイノア」に対して、その質問の音素データ列Ｐｑは、音素データ列「ニュウリョクサレタオンセイハアンガイノアデスカ」（入力された音声は、案外の「あ」、ですか？）である。この場合、その供給された音素列データＰｑは、詳細読み選択部３４が、音素データ列Ｐｉｊ「アンナイノア」の代替音素データ列としてＰｉｊ「アンガイノア」選択し、その前に音素データ列「ニュウリョクサレタオンセイハ」を付加し、またその後に音素データ列「デスカ」を付加して生成されたものである。

次いで、詳細読み選択部３４は、質問の音素データ列Ｐｑを供給したという通知を入力確認部２６に与える。

音声合成部１８は、詳細読み選択部３４から受け取った音素データ列Ｐｑの音声を合成してスピーカ１９に供給する。スピーカ１９はその合成音声、例えば「ニュウリョクサレタオンセイハアンガイノアデスカ」（入力された音声は、案外の「あ」ですか）を発生する。

ユーザは、その確認のための合成音声を聞いて、それが正しければ入力装置２０を介して「ハイ」を音声入力し、それが誤りであれば入力装置２０を介して「イイエ」を音声入力する。

ユーザが入力装置２０を介して確認のための「ハイ」または「イイエ」を音声入力すると、入力確認部３２は、音素認識部２４から確認のための音素データ列または発音記号列Ｐａ「ハイ」または「イイエ」を受け取る。

音素データ列Ｐａが「ハイ」であれば、入力確認部３２は、単語辞書データベース３３を参照して認識結果の文字データ「はい」を生成し、詳細読み認識部３０からの認識結果の短い語Ｗｉの文字データ（例、「あ」）を利用装置に出力する。音素データ列Ｐａが「イイエ」であれば、入力確認部３２は、「音声入力エラー」を表す表示を表示装置１５に表示し、認識結果は出力せず、詳細読み認識部３０からの次の音声認識の結果を待つ。このようにして、詳細読み認識部３０による詳細読み形態の入力音声の認識の誤りを低減しまたは無くすことができる。

図１１は、図１０の情報処理装置１０の入力確認部３２の例によって実行される、入力確認および認識結果出力のためのフローチャートの一例を示している。

図１１を参照すると、ステップ６５２において、入力確認部３２は、詳細読み選択部３０から音声認識結果の短い語Ｗｉの文字データとその認識スコアＳを受け取る。

ステップ６５４において、入力確認部３２は、認識スコアＳを閾値Ｓｔｈと比較する。ステップ６５６において、入力確認部３２は、認識スコアＳが閾値Ｓｔｈを超えるかどうかを判定する。認識スコアＳが閾値Ｓｔｈを超えたと判定された場合には、手順はステップ６６４に進む。

ステップ６５６において認識スコアＳが閾値Ｓｔｈを超えないと判定された場合には、ステップ６５８において、入力確認部３２は、詳細読み選択部３４に別のおよび／または最適の明確な詳細読みの音素データ列または発音記号列Ｐｉｊを選択するよう要求する。次いで、詳細読み選択部３４は、詳細読み辞書データベース３６を参照して、短い語Ｗｉに対する認識された詳細読みの音素データ列Ｐｉｊと異なる別のおよび／または最適の明確な詳細読みの音素データ列Ｐｉｊを選択して、その音素データ列Ｐｉｊを含む質問の音素データ列Ｐｑを音声合成部１８に供給する。音声合成部１８は、詳細読み選択部３４から受け取った音素データ列Ｐｑの音声を合成してスピーカ１９を介して放音する。

ステップ６６０において、入力確認部３２は、音素認識部２４からユーザによる確認のための音素データ列または発音記号列Ｐａ「ハイ」または「イイエ」を受け取って、音素データ列Ｐａを認識する。

ステップ６６２において、入力確認部３２は、単語辞書データベース３３またはコマンド辞書データベース３５を参照して、受け取った音素データ列Ｐａの認識結果の応答が「はい」であるかどうかを判定する。それが「はい」であると判定された場合は、入力確認部３２は、詳細読み認識部３０からの認識結果の短い語Ｗｉを出力する。

ステップ６６２においてそれが「いいえ」であると判定された場合は、手順はステップ６５４に戻る。

ステップ６６６において、入力確認部３２は、入力確認および認識結果の単語Ｗｉの文字データの出力が終了したかどうかを判定する。出力が終了していないと判定された場合は、手順はステップ６５２に戻って、次の詳細読み認識部３０からの認識結果を待つ。ステップ６６６において終了したと判定された場合は、手順は図１１のルーチンを出る。

図１０を再び参照すると、詳細読み選択部３４は、詳細読み辞書データベース３６を参照して、短い語Ｗｉの文字データに対する認識された詳細読みの音素データ列Ｐｉｊとは異なる別のおよび／または最適な明確な詳細読みの音素データ列または発音記号列Ｐｉｊを選択する。ここで、最適な明確な詳細読みの音素データ列Ｐｉｊとは、音響的に似た単語が他にない単語の音素データ列を意味する。最適な明確な詳細読みの音素データ列Ｐｉｊは、認識された詳細読みの音素データ列Ｐｉｊとは異なるように決定されてもよい。最適な明確な詳細読みの音素データ列Ｐｉｊは、認識された詳細読みの音素データ列Ｐｉｊに関係なく決定してもよく、従ってたまたまそれと同じであることを許容してもよい。

次に、最適な明確な詳細読みの音素データ列Ｐｉｊを選択する概略の手順の例を説明する。詳細読み認識部３０からの認識された短い語Ｗｉ（例、「あ」）に対して、詳細読み選択部３４は、詳細読み辞書データベース３６を参照して、認識された短い語Ｗｉの詳細読み音素データ列Ｐｉｊ（例、「アンナイノア」）を全て取り出す。次いで、詳細読み選択部３４は、それぞれの可変部分の単語の発音ｂ_ｊ（例えば、「アンナイ」）を取り出して、それらを集合Ａと集合Ｂ（＝Ａ）と設定する（Ａ＝Ｂ＝｛ｂ_０，ｂ_１，．．．，ｂ_ｊ，．．．，ｂ_ｎ−１｝）。

次いで、詳細読み選択部３４は、集合Ａの中の各１つの発音Ｓ_ｉ（∈Ａ）と集合Ｂの他の各発音ｂ_ｊ（∈Ｂ，ｂ_ｊ≠Ｓ_ｉ）との間の音響的距離ｄ（Ｓ_ｉ，ｂ_ｊ）を求める。

発音Ｓ_ｉと発音ｂ_ｊの間の音響的距離を表す関数ｄ（Ｓ_ｉ，ｂ_ｊ）として、対応する位置の音節ｓの母音ｖが一致しなかった場合に距離＋２を与え、対応する位置の音節ｓの子音ｃが一致しなかった場合に距離＋１を与え、発音Ｓ_ｉと発音ｂ_ｊの対応する音節間の距離の総和を求めてもよい。但し、距離関数ｄ（Ｓ_ｉ，ｂ_ｊ）は、これに限定されることなく、他の関数を用いてもよい。

次いで、１つの発音Ｓ_ｉ（∈Ａ）について、発音Ｓ_ｉと集合Ｂの他の各発音ｂ_ｊ（∈Ｂ，ｂ_ｊ≠Ｓ_ｉ）との間の１つ以上の距離ｄ（Ｓ_ｉ，ｂ_ｊ）の中の最小のものを最小距離Ｄｍｉｎ（Ｓ_ｉ，Ｂ）と設定する。

次いで、全ての発音Ｓ_ｉ（∈Ａ）について１つ以上の最小距離Ｄｍｉｎ（Ｓ_ｉ，Ｂ）の中で最大の最小距離Ｄ（Ｓ_ｉ，Ｂ）を有する発音Ｓ_ｉを最適の明確な詳細読み用の音素列データＳ’として選択する。

次に、詳細読み認識部３０からの認識された短い語Ｗｉが例えば単音節の単語「あ」である場合について、最適の明確な詳細読み用の音素列データＳ’の選択の手順の例を説明する。詳細読み選択部３４は、詳細読み辞書データベース３６を参照して、Ｗｉ「あ」を認識単語とする詳細読み音素データ列Ｐｉｊ「アンナイノア」（案内のあ）、「アンガイノア」（案外のあ）、および「サイサツノア」（挨拶のあ）の可変音素データ列Ｐｉｊ^＋’を取り出して、次の集合Ａと集合Ｂ（＝Ａ）を生成する。
集合Ａ＝｛アンナイ，アンガイ，アイサツ｝
集合Ｂ＝｛アンナイ，アンガイ，アイサツ｝

集合Ａから可変音素データ列「アンナイ」を取り出して集合Ａからそれを削除し、可変音素データ列Ｓ_ｉ＝「アンナイ」と設定する。この時点で集合Ａと集合Ｂは次のように設定される。
集合Ａ＝｛アンガイ，アイサツ｝
集合Ｂ＝｛アンナイ，アンガイ，アイサツ｝

次いで、音素データ列Ｓ_０＝「アンナイ」と集合Ｂの別の音素データ列ｂ_１＝「アンガイ」の間の音響的距離を求める。第１番目の位置の音節「ア」について、子音も母音も一致するので、距離０を与える。第２番目の位置の音節「ン」について、子音も母音も一致するので、距離０を与える。第３番目の位置の音節「ナ」と「ガ」について、母音は一致するが、子音が一致しないので、距離＋１を与える。第４番目の位置の音節「イ」について、子音も母音も一致するので、距離０を与える。その総和の距離はｄ（Ｓ_０，ｂ_１）＝ｄ（アンナイ，アンガイ）＝１となる。

次いで、音素データ列Ｓ_０＝「アンナイ」と集合Ｂの別の音素データ列ｂ_２＝「アイサツ」の間の音響的距離を、同様に求める。その総和の距離はｄ（Ｓ_０，ｂ_２）＝ｄ（アンナイ，アイサツ）＝７となる。

従って、集合Ａの音素データ列Ｓ_０＝「アンナイ」と集合Ｂの他の音素データ列ｂ_１、ｂ_２の間の最小距離は、Ｄｍｉｎ［アンナイ］＝１である。

次いで、集合ＡからＳ_１＝「アンガイ」を取出して集合Ａからそれを削除し、音素データ列Ｓ_１＝「アンガイ」と設定する。この時点で集合Ａと集合Ｂは次のように設定される。
集合Ａ＝｛アイサツ｝
集合Ｂ＝｛アンナイ，アンガイ，アイサツ｝

音素データ列Ｓ_１＝「アンガイ」と集合Ｂの他の音素データ列ｂ_０＝「アンナイ」およびｂ_２＝「アイサツ」の間の音響的距離を求める。
ｄ（アンガイ，アンナイ）＝１
ｄ（アンガイ，アイサツ）＝７

従って、集合Ａの音素データ列Ｓ_１＝「アンガイ」と集合Ｂの他の音素データ列音ｂ_０、ｂ_２の間の最小距離は、Ｄｍｉｎ［アンガイ］＝１である。

次いで、集合Ａから音素データ列Ｓ_２＝「アイサツ」を取出して集合Ａからそれを削除し、音素データ列Ｓ_２＝「アイサツ」と設定する。この時点で集合Ａと集合Ｂは次のように設定される。
集合Ａ＝｛φ｝（空集合）
集合Ｂ＝｛アンナイ，アンガイ，アイサツ｝

音素データ列Ｓ_２＝「アイサツ」と集合Ｂの他の音素データ列ｂ_０＝「アンナイ」およびｂ_１＝「アンガイ」の間の音響的距離を求める。
ｄ（アイサツ，アンナイ）＝７
ｄ（アイサツ，アンガイ）＝７

従って、集合Ａの音素データ列Ｓ_２＝「アイサツ」と集合Ｂの他の音素データ列ｂ_１、ｂ_２の間の最小距離はＤｍｉｎ［アイサツ］＝７である。全ての最小距離Ｄｍｉｎ［Ｓ_ｉ］は、次の通りである。
Ｄｍｉｎ［アンナイ］＝１
Ｄｍｉｎ［アンガイ］＝１
Ｄｍｉｎ［アイサツ］＝７

次いで、集合Ａは空集合なので、最小距離Ｄｍｉｎ［Ｓ_ｉ］の中の最大の最小距離Ｄ［Ｓ］を有する発音Ｓ_ｉを、選択された発音Ｓ’とする。

従って、最大の最小距離Ｄ［Ｓ］を有する音素データ列Ｓ_２＝「アイサツ」を、選択された音素データ列Ｓ’＝Ｓ_２と設定する。従って、詳細読み選択部３４は、音素データ列Ｓ’＝Ｓ_２に音素データ列「ノアデスカ」を加えて、「アイサツノアデスカ」という質問音素データ列を生成する。

図１２は、図１０の情報処理装置１０の詳細読み選択部３４の例によって実行される、最適の明確な詳細読みの音素データ列を選択するためのフローチャートの一例を示している。

図１２を参照すると、ステップ６６２において、詳細読み選択部３４は、詳細読み認識部３０からの認識された短い語Ｗｉ、例えば「あ」を、単語Ｔとする。

ステップ６６４において、詳細読み選択部３４は、短い語Ｔを認識文字とする全ての詳細読み音素データ列Ｐｉｊを詳細読み辞書データベース３６（辞書データベース３６２〜３６８のいずれか）から収集して、集合Ａおよび集合Ｂ（＝Ａ）とする。

ステップ６６６において、詳細読み選択部３４は、集合Ａが空集合かどうかを判定する。集合Ｔが空集合であると判定された場合は、手順は図６のルーチンを出る

ステップ６６４において集合Ｔが空集合でないと判定された場合は、詳細読み選択部３４は、ステップ６６８において、集合Ａから１つの詳細読み音素データ列Ｐｉｊを取り出して、音素データ列Ｓと設定する。

ステップ６７０において、詳細読み選択部３４は、音素データ列Ｓ_ｉを除く集合Ｂの残りの全ての音素データ列ｂ_ｊと音素データ列Ｓ_ｉの間の音響的な距離を求めて、両者の間の最も小さい音響的距離をＤｍｉｎ［Ｓ_ｉ］とする。

ステップ６７２において、詳細読み選択部３４は、今回の音素データ列Ｓ_ｉの最小距離Ｄｍｉｎ［Ｓ_ｉ］と、前回の選択された音素データ列Ｓ’の最大の最小距離Ｄ［Ｓ’］とを比較して、音素データ列Ｓ_ｉの最小距離Ｄｍｉｎ［Ｓ_ｉ］が選択音素データ列Ｓ’の最大の最小距離Ｄ［Ｓ’］より大きい場合には、音素データ列Ｓ_ｉを選択音素データ列Ｓ’＝Ｓ_ｉと設定し、最小距離Ｄｍｉｎ［Ｓ_ｉ］を最大の最小距離Ｄ［Ｓ’］＝Ｄｍｉｎ［Ｓ_ｉ］と設定する。最初は、音素データ列Ｓ_ｉを音素データ列Ｓ’＝Ｓ_ｉと設定する。このようにして選択された音素データ列Ｓ’は、他の詳細読みの音素データ列ｂ_ｊとの音響的最小距離が最大であり、ユーザに対する質問として他の全ての音素データ列と区別しやすい明確なものとなる。

ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈すべきであり、また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができると理解すべきである。

以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
（付記１）入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースと、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、前記辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する冗長音素データ認識部と、
を含む情報処理装置。
（付記２）前記音節数閾値以下の音節数を有する短い語は、単音節単語または数字の種別を有し、
前記情報処理装置は、さらに、前記種別を表すコマンドを受け取って前記コマンドの種別を決定し、前記決定されたコマンドに従って前記辞書データベースにおける前記短い語の種別を判定する判定部を含み、
前記冗長音素データ認識部は、前記判定された種別に従って、前記辞書データベース中の前記種別の辞書データベースを検索のために選択するものである、付記１に記載の情報処理装置。
（付記３）前記複数の冗長な音素データ列の中の或る音素データ列は、前記或る音素データ列によって表される短い語の音素データを特定の２つの音節位置に含み、
前記情報処理装置は、さらに、前記音素認識部からの音素データ列における前記特定の２つの音節位置の音素データが一致するかどうかを判定する音節判定部を含み、
前記特定の２つの音節位置の音素データが一致した場合に、前記音節判定部は、前記冗長な音素データ列に対応づけられた短い語を出力するものである、付記１または２に記載の情報処理装置。
（付記４）前記情報処理装置は、さらに前記音節数閾値以下の音節数を有する短い語に対して、この短い語を表しこの短い語の音節数より多い音節数を有する複数の冗長な音素データ列を生成する生成部を含み、
前記メモリに保存された送信電子メールおよび受信電子メールおよび／または前記メモリに保存された履歴情報によるアクセスされたウェブ・ページから、送信電子メール、受信電子メールおよび／またはウェブ・ページのテキスト・データを収集するテキスト収集部と、
前記収集されたテキスト・データを解析して各形態素の単語に分割する形態素分析部と、
前記テキスト・データにおけるそれぞれの同一の形態素の単語の出現頻度を求める頻度計算部と、
前記テキスト・データにおける前記音節数閾値以下の音節数を有する短い語を含む前記形態素の単語の中から、頻度閾値より高い出現頻度を有する形態素の単語を選択し、前記選択された形態素の単語を表し前記選択された形態素の単語を含む冗長な音素データ列を、前記短い語に対応づけて前記辞書データベースに追加する辞書情報生成部と、
を含むものである、
付記１乃至３のいずれかに記載の情報処理装置。
（付記５）前記辞書情報生成部は、前記メモリに保存されたかな入力情報に基づいて、前記選択された形態素の単語の音素データを生成するものである、付記４に記載の情報処理装置。
（付記６）前記送信電子メールのテキスト・データにおける前記形態素の単語の選択のための頻度閾値は、前記受信電子メールおよび／またはウェブ・ページのテキスト・データにおける前記形態素の単語の選択のための頻度閾値より低いものである、付記４または５に記載の情報処理装置。
（付記７）前記冗長音素データ認識部によって前記或る冗長な音素データ列の認識結果として出力された前記或る１つの短い語の認識の尤度が尤度閾値より低い場合に、前記或る１つの短い語を表し前記或る１つの短い語の音節数より多い音節数を有する冗長な音素データ列を前記辞書データベースから選択し、前記選択された冗長な音素データ列を含む確認用の音素データ列を生成する入力確認部をさらに含む、付記１乃至６のいずれかに記載の情報処理装置。
（付記８）前記選択された冗長な音素データ列は、前記或る１つの短い語を表し前記或る１つの短い語の音節数より多い音節数を有する複数の冗長な音素データ列の中で、前記複数の冗長な音素データ列の他の残りの冗長な音素データ列との間の音響的類似度が最も低いものである、付記７に記載の情報処理装置。
（付記９）前記選択された冗長な音素データ列は、前記冗長音素データ認識部によって認識された前記或る冗長な音素データ列と異なるものである、付記７または８に記載の情報処理装置。
（付記１０）プロセッサとメモリとを有する情報処理装置において用いられるプログラムであって、
前記情報処理装置を、
入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する冗長音素データ認識部、
として動作させるプログラム。
（付記１１）プロセッサとメモリとを有する情報処理装置における音声認識方法であって、
前記プロセッサにより、入力された音声データから特徴を抽出して、特徴ベクトルを生成する工程と、
前記プロセッサにより、前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する工程と、
前記プロセッサにより、前記生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列が存在する場合に、当該冗長な音素データ列に対応づけられた短い語を出力する工程と、
を含む音声認識方法。

１０情報処理装置
２０入力装置
２２特徴抽出部
２４音素認識部
２６単語認識部
３０詳細読み認識部
３２音素モデル記憶部
３３単語辞書データベース記憶部
３６詳細読み辞書データベース記憶部

Claims

入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースと、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、前記辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する音素データ認識部と、
を含む情報処理装置。
前記音節数閾値以下の音節数を有する短い語は、単音節単語または数字の種別を有し、
前記情報処理装置は、さらに、前記種別を表すコマンドを受け取って前記コマンドの種別を決定し、前記決定されたコマンドに従って前記辞書データベースにおける前記短い語の種別を判定する判定部を含み、
前記音素データ認識部は、前記判定された種別に従って、前記辞書データベース中の前記種別の辞書データベースを検索のために選択するものである、請求項１に記載の情報処理装置。
前記複数の冗長な音素データ列の中の或る音素データ列は、前記或る音素データ列によって表される短い語の音素データを特定の２つの音節位置に含み、
前記情報処理装置は、さらに、前記音素認識部からの音素データ列における前記特定の２つの音節位置の音素データが一致するかどうかを判定する音節判定部を含み、
前記特定の２つの音節位置の音素データが一致した場合に、前記音節判定部は、前記冗長な音素データ列に対応づけられた短い語を出力するものである、請求項１または２に記載の情報処理装置。
前記情報処理装置は、さらに前記音節数閾値以下の音節数を有する短い語に対して、この短い語を表しこの短い語の音節数より多い音節数を有する複数の冗長な音素データ列を生成する生成部を含み、
前記メモリに保存された送信電子メールおよび受信電子メールおよび／または前記メモリに保存された履歴情報によるアクセスされたウェブ・ページから、送信電子メール、受信電子メールおよび／またはウェブ・ページのテキスト・データを収集するテキスト収集部と、
前記収集されたテキスト・データを解析して各形態素の単語に分割する形態素分析部と、
前記テキスト・データにおけるそれぞれの同一の形態素の単語の出現頻度を求める頻度計算部と、
前記テキスト・データにおける前記音節数閾値以下の音節数を有する短い語を含む前記形態素の単語の中から、頻度閾値より高い出現頻度を有する形態素の単語を選択し、前記選択された形態素の単語を表し前記選択された形態素の単語を含む冗長な音素データ列を、前記短い語に対応づけて前記辞書データベースに追加する辞書情報生成部と、
を含むものである、
請求項１乃至３のいずれかに記載の情報処理装置。
前記音素データ認識部によって前記或る冗長な音素データ列の認識結果として出力された前記或る１つの短い語の認識の尤度が尤度閾値より低い場合に、前記或る１つの短い語を表し前記或る１つの短い語の音節数より多い音節数を有する冗長な音素データ列を前記辞書データベースから選択し、前記選択された冗長な音素データ列を含む確認用の音素データ列を生成する入力確認部をさらに含む、請求項１乃至４のいずれかに記載の情報処理装置。
プロセッサとメモリとを有する情報処理装置において用いられるプログラムであって、
前記情報処理装置を、
入力された音声データから特徴を抽出して、特徴ベクトルを生成する特徴抽出部と、
前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する音素認識部と、
前記音素認識部によって生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する音素データ認識部、
として動作させるプログラム。
プロセッサとメモリとを有する情報処理装置における音声認識方法であって、
前記プロセッサにより、入力された音声データから特徴を抽出して、特徴ベクトルを生成する工程と、
前記プロセッサにより、前記特徴ベクトルを予め記憶されている音素モデルと照合して、音素を認識して音素データを生成する工程と、
前記プロセッサにより、前記生成された冗長な音素データ列を認識し、さらに、音節数閾値以下の音節数を有する複数の短い語と、前記短い語を説明するための、前記短い語を含み前記短い語の音節数より多い音節数をそれぞれ有する複数の冗長な音素データ列とを対応づけて格納する辞書データベースを検索して、前記認識された冗長な音素データ列に対応する冗長な音素データ列に対して、当該冗長な音素データ列に対応づけられた短い語を出力する工程と、
を含む音声認識方法。