JP3911178B2

JP3911178B2 - 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体

Info

Publication number: JP3911178B2
Application number: JP2002075595A
Authority: JP
Inventors: 浩幸勘座
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-03-19
Filing date: 2002-03-19
Publication date: 2007-05-09
Anticipated expiration: 2022-03-19
Also published as: JP2003271183A

Description

【０００１】
【発明の属する技術分野】
この発明は、難読語の発声を正しく認識できる音声認識辞書に関し、特に音声認識辞書作成装置および音声認識辞書作成方法、上記音声認識辞書を用いた音声認識装置、この音声認識装置が搭載された携帯端末器、この携帯端末器を用いた音声認識システム、音声認識辞書作成プログラム、並びに、上記音声認識辞書作成プログラムを記録したプログラム記録媒体に関する。
【０００２】
【従来の技術】
音声認識技術においては、語彙記憶部に予め登録された読み方でしか入力音声を認識することができない。そのために、利用者は、どのような言葉が認識可能であるのかを予め知っておく必要がある。その場合、語彙記憶部に登録された語彙が小語彙である場合には、ある程度登録語彙を覚えておくことはできる。しかしながら、語彙記憶部に登録された語彙が大語彙である場合には、登録語彙を覚えておくことが困難になる。
【０００３】
このような問題を解決する方法として、以下のようなものがある。
(１）表示手段に音声認識対象語彙を表示する方法(例えば、特開平７‐３１９３８３号公報)
(２）対話の進行に応じて、音声認識のための語彙を動的に変更し、音声認識対象語彙を常に小語彙にしておく(例えば、特開平６‐３３２４９３号公報)
(３）上記語彙記憶部に語彙の変更や追加を容易に行うことによって、予め登録した読み方ではない読み方でも認識可能にする(例えば、特開平８‐２１１８９３号公報)
【０００４】
【発明が解決しようとする課題】
しかしながら、上記語彙記憶部に登録された語彙が大語彙である場合の問題を解決する従来の方法には、以下のような問題がある。すなわち、上記表示手段に音声認識対象語彙を表示する方法の場合には、上記表示手段に表示できる語彙の数には限界がある。また、地名等を漢字表記で表示した場合には、読み方が分らないために利用者が正しく読めない場合がある。これを避けるため、仮に地名を総て平仮名表記で表示した場合には、名簿や葉書等に書かれている漢字の住所との対応がとれなくなる。さらに、これを避けるため、漢字表記と平仮名表記とを併用して表示した場合には、表示面積の制約によって益々小語彙しか表示できなくなってしまう。
【０００５】
したがって、上記表示手段に音声認識対象語彙を表示する方法では、利用者に読み方までを含めた音声認識対象語彙を知らせるには不十分なのである。
【０００６】
また、対話の進行に応じて音声認識対象語彙を動的に変更して、音声認識対象語彙を常に小語彙にしておく方法の場合には、音声認識対象語彙が動的に変更されるため、個々の場面における認識対象語彙の数は少ない。しかしながら、結局は、動的に変動する総ての認識対象語彙を覚えておく必要がある。また、個々の場面での認識対象語彙の数は少なくなるとはいえ、結局は語彙記憶部に記憶した通りの読み方で発声しなければ認識されることはない。
【０００７】
特に、地名の場合には難読語が多く、地図検索表示装置等を用いて目的地を発声で検索しようとしても、何と読むか分らないために利用できない場合がある。あるいは、正しいと思ったつもりで発声したのに、語彙記憶部に登録された読み方とは違うために認識できない場合がある。
【０００８】
具体的な例を挙げれば、例えば、奈良市の「京終」は「きょうばて」と読むのであるが、知らない利用者は「きょうしゅう」と発声することが多い。しかしながら、その場合には認識されないために、目的地「京終」の検索を行うことができず、地図も表示されない。尚、地名全体の読み方が分らない場合であっても、例えば１文字単位では分る場合がある。例えば「京終」は読めなくても、「京」は「きょう」、「終」は「しゅう」または「おわる」と読める。そこで、利用者は、「京」と「きょう」、「終」と「しゅう」または「おわる」の対が上記語彙記憶部に登録されていることを予測して、「京終」を、「きょうしゅう」または「きょうおわる」と発声することによって音声認識できれば、「京終」が読めない場合の解決手段にはなる。ところが、このような方法が、いつも通用するという保証は全くない。
【０００９】
同様に、橿原市の「新口」は「にのくち」と発声するのであるが、知らない利用者は「しんくち」と発声する可能性がある。そして、「しんくち」が語彙記憶部に登録されていない場合には認識されないことになる。そのため、「新口」を「しんくち」と読むと思い込んでいる利用者は、永遠に「新口」の地図を表示させることができないことになる。
【００１０】
ところで、上述のような例の場合には、上記語彙記憶部に語彙の変更や追加を行う方法によって、難読語と読み誤りしそうな読み方とを語彙記憶部に追加登録しておくことで解決することはできる。
【００１１】
しかしながら、上記従来の何れの方法の場合にも、利用者は上記語彙記憶部に登録されている認識対象語彙を知っているかあるいは予測できることが必要である。したがって、上記従来の場合には、例えば、テレビ番組名や音楽タイトル名等の日々更新される言葉を音声認識する用途に利用する場合には、上記語彙記憶部に予めテレビ番組名や音楽タイトル名を登録しておくことができず、また、予想することすらできず、全く音声認識できないのである。
【００１２】
以上の例から判るように、正しく読むことが難しい言葉が発声された場合や、利用者が正しい読み方を知らない場合であっても、正しく音声認識されることが望ましいのである。
【００１３】
そこで、この発明の目的は、認識対象単語の正しい読み方を利用者が知らない場合でも、または、登録されている認識対象単語を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成できる音声認識辞書作成装置および音声認識辞書作成方法、上記音声認識辞書を用いた音声認識装置、この音声認識装置が搭載された携帯端末器、この携帯端末器を用いた音声認識システム、音声認識辞書作成プログラム、並びに、上記音声認識辞書作成プログラムを記録したプログラム記録媒体を提供することにある。
【００１４】
【課題を解決するための手段】
上記目的を達成するため、第１の発明は、テキスト解析手段によって入力テキストを解析し,読み付与手段によって上記解析された構成単語に読みを付与し,音声認識辞書作成手段によって上記解析結果および上記読み付与結果に基づいて音声認識辞書を作成し,この作成された音声認識辞書を音声認識辞書記憶手段に記憶する音声認識用辞書作成装置において、上記テキスト解析手段によるテキスト解析時に参照される辞書であって,日常使用される語彙の表記および読みを含む情報で成る第１解析辞書が記憶された第１解析辞書記憶手段と、上記テキスト解析手段によるテキスト解析時に参照される辞書であって,上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第２解析辞書が記憶された第２解析辞書記憶手段を備えると共に、上記読み付与手段は、上記テキスト解析手段によるテキスト解析結果の中に上記第２解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えて, 上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようになっていることを特徴としている。
【００１５】
上記構成によれば、読み付与手段によって、テキスト解析手段によるテキスト解析結果中に、第２解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えてその他の読み候補をも付与される。したがって、上記解析結果および上記読み付与結果に基づいて作成される音声認識辞書には、上記第２解析辞書に基づく語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記および上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録される。
【００１６】
すなわち、例えば、第２解析辞書に難読語「京終」とその正しい読み「きょうばて」を登録しておくことによって、語彙「京終」とその読み「きょうばて」,「きょう/しゅう」,「きょう/おわり」とに基づく辞書情報が格納された音声認識辞書が作成される。したがって、この音声認識辞書を用いて音声認識を行うことによって、誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【００１７】
また、１実施例では、上記第１の発明の音声認識用辞書作成装置において、上記第２解析辞書記憶手段に記憶される第２解析辞書の内容を第３の辞書記憶手段から取得する辞書取得手段を備えている。
【００１８】
この実施例によれば、上記第２解析辞書の内容は、辞書取得手段によって第３の辞書記憶手段から取得される。したがって、語彙の情報提供者によって新しい語彙が登録された第３の辞書記憶手段が提供されることによって、新しく出現した語彙が上記第２解析辞書記憶手段に追加登録される。さらに、上記第２解析辞書記憶手段に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成することが可能になる。
【００１９】
また、第２の発明は、入力された音声を,音声認識辞書に登録されている語彙との照合手段による照合を行うことによって認識する音声認識装置において、上記音声認識辞書は、上記第１の発明の音声認識辞書作成装置によって作成された音声認識辞書であることを特徴としている。
【００２０】
上記構成によれば、上記第２解析辞書に登録された語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書を用いて、音声認識が行われる。したがって、例えば上記第２解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られるのである。
【００２１】
また、第３の発明の音声認識装置は、上記第１の発明の音声認識辞書作成装置を搭載し、入力された音声を、上記音声認識辞書作成装置における音声認識辞書記憶手段に登録されている語彙との照合を照合手段によって行って認識することを特徴としている。
【００２２】
上記構成によれば、上記第２解析辞書に登録された語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書を用いて、音声認識が行われる。したがって、例えば上記第２解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られるのである。
【００２３】
また、１実施例では、上記第２の発明あるいは第３の発明の音声認識装置において、音声認識結果に,第２解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれているか否かを判定する読み判定手段と、上記読み判定手段によって,上記語彙が含まれていると判定された場合には,当該語彙に関して,第２解析辞書記憶手段に記憶されている読みを提示する読み提示手段を備えている。
【００２４】
この実施例によれば、音声認識結果中に、上記第２解析辞書に記憶されている語彙であって、上記第２解析辞書に記憶されている当該語彙の読みとは異なる読みの語彙が含まれている場合には、読み提示手段によって、上記第２解析辞書記憶手段に記憶されている正しい読みが提示される。こうして、利用者に対して、認識語彙の正しい読みが教えられる。
【００２５】
また、１実施例では、上記第２の発明あるいは第３の発明の音声認識装置において、上記読みを提示手段は、上記第２解析辞書記憶手段に記憶されている読みの提示を合成音声で行うようになっている。
【００２６】
この実施例によれば、利用者に対して、認識語彙の正しい読みが、合成音声によって利用者に教えられる。
【００２７】
また、第４の発明の携帯端末器は、上記第２の発明あるいは第３の発明の音声認識装置を搭載したことを特徴としている。
【００２８】
通常、携帯端末器は、移動時に使用される。そして、特に外出先で上記携帯端末器によって音声認識を行う際に、誤った読みで発声したためにリジェクトされた場合には、正しい読みを調べる術がない。そのために、必要な情報が即座に検索できない場合が生ずる。
【００２９】
上記構成によれば、携帯端末器に、例えば難読語「京終」を誤って「きょうしゅう」と発声した場合でも、リジェクトされることなく認識結果として目的語彙「京終」が得られる音声認識装置が搭載されている。したがって、正しい読みを調べる術がない外出先においても、音声によって必要な情報を即座に検索することが可能になるのである。
【００３０】
また、第５の発明の携帯端末器は、上記第１の発明の音声認識辞書作成装置および上記第２の発明の音声認識装置の何れか一方を搭載したことを特徴としている。
【００３１】
上記構成によれば、上記第１の発明の音声認識辞書作成装置を搭載した第１携帯端末器から、上記第２の発明の音声認識装置を搭載した第２携帯端末器に、作成された音声認識辞書の情報を送信することによって、上記第２携帯端末器の音声認識装置によって、例えば上記第２解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られる。
【００３２】
また、第６の発明の音声認識システムは、上記第１の発明の音声認識辞書作成装置が設けられたサーバーと、上記第２の発明の音声認識装置を搭載すると共に,上記サーバーと音声認識辞書情報の送受信を行うための送受信手段を有する携帯端末器を備えたことを特徴としている。
【００３３】
上記構成によれば、上記第１の発明の音声認識辞書作成装置がサーバーに設けられている。したがって、携帯端末器を上記第３の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化が図られる。さらに、上記サーバーを上記第３の辞書記憶手段として、上記第２解析辞書記憶手段の内容を定期的に追加補充することによって、次々増える新語および外来語や定期的に更新されるテレビ番組名等を、上記携帯端末器のユーザは上記第２解析辞書の内容を知らなくとも音声認識することが可能になるのである。
【００３４】
また、第７の発明は、テキスト解析手段,読み付与手段,音声認識辞書作成手段および音声認識辞書記憶手段を有すると共に,文字列情報を解析して構成単語に分割するテキスト解析ステップと,分割した構成単語に読みを付与する読み付与ステップと,上記テキスト解析および読み付与の結果に基づいて音声認識辞書を作成して上記音声認識辞書記憶手段に記憶する音声認識辞書作成ステップを有する音声認識辞書作成方法において、上記テキスト解析手段によるテキスト解析は,第１解析辞書記憶手段に記憶された日常使用される語彙の表記および読みを含む情報で成る第１解析辞書,および,第２解析辞書記憶手段に記憶された上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第２解析辞書を参照して行い、上記読み付与手段による読み付与においては,上記テキスト解析結果の中に上記第２解析辞書を参照して得られた語彙が含まれている場合には,当該語彙に関して,上記第２解析辞書を参照して得られた読みに加えて,上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようにしたことを特徴としている。
【００３５】
上記構成によれば、上記テキスト解析結果および上記読み付与結果に基づいて作成された音声認識辞書には、上記第２解析辞書に登録された語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記および上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第２解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【００３６】
また、第８の発明の音声認識辞書作成プログラムは、コンピュータを、上記第１の発明におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第１解析辞書記憶手段および第２解析辞書記憶手段として機能させることを特徴としている。
【００３７】
上記構成によれば、上記第１の発明の場合と同様に、作成される音声認識辞書には、上記第２解析辞書に登録された語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第２解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【００３８】
また、第９の発明のプログラム記録媒体は、上記第８の発明の音声認識辞書作成プログラムが記録されたことを特徴としている。
【００３９】
上記構成によれば、記録されている音声認識辞書作成プログラムをコンピュータで読み出して用いることによって、上記第１の発明の場合と同様に、上記第２解析辞書に登録された語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書が作成される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第２解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られる。
【００４０】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
【００４１】
＜第１実施の形態＞
本実施の形態は、利用者が、認識対象語彙の正しい読み方を知らない場合でも認識可能な音声認識辞書を作成する音声認識辞書作成装置に関する。
【００４２】
図１は、本実施の形態の音声認識辞書作成装置における構成を示すブロック図である。テキスト解析部１は、入力された文字列の言語を解析(テキスト解析)して、構成される形態素に分割する。その場合、複数の分割候補がある場合には、それらの総てを出力する。尚、各分割候補には、その分割候補の可能性の度合いを表す尤度が与えられる。
【００４３】
読み付与部２は、分割された形態素の読みを付与する。複数の読みが存在する場合には、複数の読みの総てを出力する方法と可能性の度合いが最も高い読みの一つに絞って出力する方法とがある。
【００４４】
音声認識辞書作成部３は、上記テキスト解析部１による解析結果と読み付与部２によって付与された読みに基づいて、音声認識を行うために必要な音声認識辞書を作成する。ここで、音声認識辞書には、認識語彙とその音素表記とを対にして記憶した形式のものと、各認識語彙の出現連鎖確率を記憶した形式のものとがある。一般に、単語を発声して認識する離散単語音声認識の場合には前者の形式の音声認識辞書のみを利用し、文を発声して認識する連続音声認識の場合には前者と後者との双方の音声認識辞書を利用することが多い。
【００４５】
また、上記連続音声認識の場合に用いる各認識語彙の出現連鎖確率として、Ｎ‐gramに代表される統計的言語モデルを使用する場合や、連鎖するか否かの２値で出現連鎖確率を表現して語彙の連鎖情報を文法で記述する場合がある。上記テキスト解析結果と付与された読みとのデータに基づけば、上記何れの場合の出現連鎖確率にも変換することが可能である。
【００４６】
音声認識辞書記憶部４は、上記音声認識辞書作成部３で作成された音声認識辞書を記憶する。尚、音声認識辞書記憶部４を構成する記憶媒体としては、フラッシュメモリやハードディスク等の一般的に広く使用されている記憶装置である。また、音声認識辞書記憶部４への記憶形式は、先に述べたように、認識語彙とその音素表記を対で記憶する形式と、各語彙の出現連鎖確率を記憶する形式とである。こうして音声認識辞書記憶部４に記憶された音声認識辞書は、後述する音声認識を行う際に参照される。
【００４７】
第１解析辞書記憶部５は、上記テキスト解析部１が上記テキスト解析を行う際に使用される解析辞書を格納している。ここで、上記テキスト解析は形態素解析と呼ばれる手法を用いて行われるが、この形態素解析を行うためには解析辞書が必要になる。この解析辞書には、日常使用される言葉に対する表記,読み,品詞情報等の情報が記憶されている。そして、テキスト解析を行う際には、入力テキストと上記解析辞書との照合処理を行うことによって、テキストの単語(形態素)を同定するのである。すなわち、第１解析辞書記憶部５には、日常的に使用される一般的な語彙の表記,読み,品詞情報等の情報で成る第１解析辞書を格納しているのである。
【００４８】
第２解析辞書記憶部６は、上記第１解析辞書記憶部５に記憶されてはいない特殊な語彙の表記,読み,品詞情報等の情報で成る第２解析辞書を格納している。登録語彙が一般的であるか特殊であるかを除き、両解析辞書記憶部５,６における構造およびテキスト解析部からの参照方法は同一である。尚、第２解析辞書記憶部６に登録される特殊な語彙との例として、通常の読み方では読めない地名や人名等がある。
【００４９】
上記構成の音声認識辞書作成装置は以下のように動作する。図２は、図１に示す音声認識辞書作成装置によって行われる音声認識辞書作成処理動作のフローチャートである。以下、図２に従って、音声認識辞書作成処理について詳細に説明する。本音声認識辞書作成処理を行うためには、音声認識辞書を生成するための文字列情報が必要である。文字列情報がテキスト解析部１に入力されると、音声認識辞書作成処理動作がスタートする。
【００５０】
ステップＳ1で、上記テキスト解析部１によって、入力文字列から１文の文字列が取得される。ステップＳ2で、テキスト解析部１によって、上記テキスト解析が行われる。すなわち、形態素解析処理によって、第１解析辞書記憶部５に記憶されている第１解析辞書と第２解析辞書記憶部６に記憶されている第２解析辞書とが照合される。そして、上記１文の入力文字列情報が単語単位に分割されるのである。上述したように、第１,第２解析辞書記憶部５,６には単語の表記,読み,品詞等の情報が記憶されており、第１,第２解析辞書記憶部５,６と照合することによって入力文字列の構成単語が何であるかを知ることができるのである。
【００５１】
例えば、「明日の天気」という文字列が入力された場合、「明日(名詞)」,「の(助詞)」および「天気(名詞)」の各形態素に分割される。また、「くるまで待つ」という文字列が入力された場合、「くる(動詞)」,「まで(助詞)」および「待つ(動詞)」の分割結果と、「くるま(名詞)」,「で(助詞)」および「待つ(動詞)」の分割結果との２通りの分割結果が存在し、両分割結果に対して、その確からしさを表す尤度が与えられる。
【００５２】
尚、上記形態素解析処理に関しては、右方向最長一致法や接続表を用いた方法が一般的であり、「自然言語解析の基礎」(田中穂積著:産業図書 1989年)等の文献に詳しい。
【００５３】
ステップＳ3で、上記読み付与部２によって、上記テキスト解析部１からのテキスト解析結果に基づいて、分割された形態素毎に読みが付与される。尚、読みが複数ある場合は、総ての読みを出力することも可能であるし、読みの尤度に応じて最も可能性の高いものから幾つかの読みを出力することも可能である。上述の例の場合には、分割単語「明日」には「あす」と「あした」との２種類の読みが存在し、夫々の読みに尤度が与えられるのである。
【００５４】
ステップＳ4で、上記読み付与部２によって、テキスト解析部１から入力された形態素の中に、第２解析辞書に登録されている語彙が含まれているか否かが判別される。尚、この判別は、例えば第２解析辞書に基づくテキスト解析結果にフラグを立てること等によって行われる。その結果、含まれている場合にはステップＳ5に進み、含まれていない場合にはステップＳ6に進む。ステップＳ5で、読み付与部２によって、上記第２解析辞書に含まれている語彙に関して、上記第２解析辞書による分割単語と読みとの対応と、上記第１解析辞書による解析結果をも含めた分割単語候補と読み候補との対応とが、対応テーブルに記録される。以下に、具体例を上げて説明する。
【００５５】
例えば、上述した地名「京終」は「きょうばて」と読む。しかしながら、一般的な単語ではないため普通の解析辞書には登録されていないことが多い。すなわち、本実施の形態の場合においては、第１解析辞書記憶部５には単語「京終」は登録されておらず、第２解析辞書記憶部６に登録されることになる。一方、第１解析辞書記憶部５には、語彙「京」および語彙「終」が登録されているものとする。
【００５６】
その場合において、上記「京終」という文字列がテキスト解析部１に入力されると、テキスト解析部１によって、第２解析辞書記憶部６に登録されている「京終」と合致するために、単語「京終(名詞)」が得られる。そして、読み付与部２によって読み「きょうばて」が付与される。ここで、単語「京終(きょうばて):名詞」は上記第２解析辞書に登録された語彙であるため、上記第２解析辞書を用いた解析結果である「京終(きょうばて):名詞」と、上記第１解析辞書を用いた解析結果候補である「京(きょう):名詞」/「終(しゅう):名詞」や「京(きょう):名詞」/「終(おわり):名詞」とが、図３に示すように、上記対応テーブルに記録されるのである。
【００５７】
仮に、解析辞書記憶部が、上記第１解析辞書記憶部５と第２解析辞書記憶部６とに分かれていない場合には、「京終」という表記に対して「きょうばて」という読みしか得られず、「きょうしゅう」や「きょうおわり」は得られることはない。本実施の形態のごとく、読み付与部２によって、第１解析辞書記憶部５を参照して得た読みと第２解析辞書記憶部６を参照して得た読みとに基づいて読みを生成することによって、「きょうばて」,「きょうしゅう」および「きょうおわり」の３通りの読みを得る事ができるのである。
【００５８】
ステップＳ6で、上記音声認識辞書作成部３によって、上記対応テーブルの内容を含む上記テキスト解析結果および読み付与結果の情報に基づいて音声認識辞書が生成される。そして、生成された音声認識辞書が音声認識辞書記憶部４に記憶される。ステップＳ7で、テキスト解析部１によって、入力文字列に次の文があるか否かが判別される。その結果、ある場合には上記ステップＳ1に戻って次の１文の文字列取得に移行する。また、ない場合には音声認識辞書作成処理動作を終了する。
【００５９】
このように、本実施の形態においては、日常使用される語彙の表記,読み,品詞情報等の情報が登録された第１解析辞書を記憶する第１解析辞書記憶部５と、特殊な語彙の表記,読み,品詞情報等の情報が登録された第２解析辞書を記憶する第２解析辞書記憶部６とを有している。そして、テキスト解析部１は両解析辞書記憶部５,６を用いて形態素解析を行い、読み付与部２は上記形態素解析結果に基づいて形態素に読みを付与する。音声認識辞書作成部３は、上記解析結果と読みとに基づいて音声認識辞書を作成する。
【００６０】
その際に、上記読み付与部２は、入力形態素中に上記第２解析辞書の登録語彙を含む場合には、その語彙に関して、上記第２解析辞書を用いた解析による分割単語「京終」とその読み「きょうばて」との対に加えて、上記第１解析辞書を用いた解析結果をも含めた他の分割単語候補「京/終」とその読み候補「きょう/しゅう」，「きょう/おわり」との対を対応テーブルに記録する。そして、音声認識辞書作成部３は、上記対応テーブルの記録内容に基づいて音声認識辞書を作成するのである。
【００６１】
その結果、上記音声認識辞書は、例えば認識語彙「京終」と音素表記「きょうばて」,「きょうしゅう」,「きょうおわり」との対応付けに基づいて作成されることになる。したがって、音声認識辞書作成部３によって作成された音声認識辞書を用いて音声認識を行うことによって、表記「京終」を「きょうおわり」と発声された場合であっても、「京終」と正しく認識できるのである。
【００６２】
＜第２実施の形態＞
本実施の形態は、上記第１実施の形態における音声認識辞書作成装置に、上記第２解析辞書を自動的に取得する上記所取得部を設けたものに関する。
【００６３】
図４は、本実施の形態の音声認識辞書作成装置における構成を示すブロック図である。テキスト解析部１１,読み付与部１２,音声認識辞書作成部１３,音声認識辞書記憶部１４,第１解析辞書記憶部１５および第２解析辞書記憶部１６は、上記第１実施の形態において図１に示すテキスト解析部１,読み付与部２,音声認識辞書作成部３,音声認識辞書記憶部４,第１解析辞書記憶部５および第２解析辞書記憶部６と同じであり、詳細な説明は省略する。
【００６４】
上記第１解析辞書記憶部１５には一般的な語彙を登録するのに対して、第２解析辞書記憶部１６には特殊な語彙を登録することは、上記第１実施の形態の場合と同様である。ここで、特殊な語彙としては、例えば、専門性の高い語彙、出現頻度の低い馴染みの薄い語彙、略語、新語、難読語等である。
【００６５】
ところで、上記専門性の高い語彙,略語,新語等は、時代の流れと共に絶えず新しい語彙が出現する。したがって、この新しく出現した特殊な語彙が、絶えず第２解析辞書記憶部１６に登録されない場合には、その新しく出現した特殊な語彙がテキスト解析部１１に入力されても正確に読みが付与されない可能性が高くなる。尚、正確に読みが付与できず未知語として判定した場合に、読みを推定する技術もある。しかしながら、この読み推定技術によるよみ推定の精度はそれ程高くはない。そのために、正確に読みを付与しようとする場合には、新しく出現した特殊な語彙を絶えず第２解析辞書記憶部１６に登録しておく必要がある。
【００６６】
そこで、本実施の形態においては、辞書取得部１７を設けて、第２解析辞書記憶部１６に記憶する特殊な語彙の表記,読み,品詞情報等の情報を、第３の辞書記憶手段(図示せず)から辞書取得部１７によって取得するのである。こうすることによって、新語のように新しい言葉が出現すれば、それを第２解析辞書記憶部１６に追加登録できるのである。
【００６７】
また、そうすることによって、第２解析辞書記憶部１６には、電子情報化されたテレビ番組名や音楽タイトル名等の日々更新される言葉も登録することが可能になる。したがって、辞書取得部１７によって、定期的に、新しく出現した特殊な語彙を第２解析辞書記憶部１６に登録しておけば、第２解析辞書記憶部１６に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成して音声認識辞書記憶部１４に記憶することができるのである。
【００６８】
ここで、上記第３の辞書記憶手段および辞書取得部１７による上記特殊な語彙の取得方法については、特に限定するものではない。例えば、フロッピーディスクやＣＤ(コンパクトディスク)‐ＲＯＭ(リード・オンリ・メモリ)等のメディアから取得する方法、ネットワークからダウンロードする方法、文字放送等の仕組みを利用する方法等がある。何れにせよ、語彙の情報提供者によって新しい語彙を登録した第３の辞書記憶手段が用意されれば、その第３の辞書記憶手段から辞書取得部１７によって新しい語彙を取得して利用することができるのである。
【００６９】
以上のごとく、本実施の形態においては、上記辞書取得部１７を設け、この辞書取得部１７によって、第２解析辞書記憶部１６に記憶する特殊な語彙を第３の辞書記憶手段から取得するようにしている。したがって、辞書取得部１７によって、定期的に、第３の辞書記憶手段から新たな語彙の情報を取得して第２解析辞書記憶部１６に登録しておけば、テレビ番組名や音楽タイトル名等の日々更新される単語であるために第２解析辞書記憶部１６に登録されていることを利用者が知らない単語であっても認識可能な音声認識辞書を作成することが可能になる。
【００７０】
＜第３実施の形態＞
本実施の形態は、上記第１実施の形態における音声認識辞書作成装置が搭載された音声認識装置に関する。
【００７１】
図５は、本実施の形態の音声認識装置における構成を示すブロック図である。テキスト解析部２１,読み付与部２２,音声認識辞書作成部２３,第１解析辞書記憶部２４および第２解析辞書記憶部２５は、上記第１実施の形態において図１に示すテキスト解析部１,読み付与部２,音声認識辞書作成部３,第１解析辞書記憶部５および第２解析辞書記憶部６と同じであり、音声認識辞書作成装置２６を構成している。そして、音声認識辞書作成装置２６で作成された音声認識辞書は、音声認識辞書記憶部２７に記憶される。尚、音声認識辞書作成装置２６および音声認識辞書記憶部２７の詳細な説明は省略する。
【００７２】
音声認識部３１は、音響分析部２８,尤度演算部２９および照合処理部３０で構成されて、入力音声を音声認識辞書記憶部２７に登録されている単語との照合を行って認識し、認識結果を出力する。以下、その概略を説明する。
【００７３】
上記音響分析部２８は、マイク(図示せず)から入力された音声をディジタル波形に変換し、短い時間間隔(フレーム)毎に周波数分析し、スペクトルを表すパラメータのベクトル系列に変換する。周波数分析にはＬＰＣ(線形予測分析)メルケプストラムのような表現方法が用いられる。尤度演算部２９は、上記得られた入力音声のパラメータベクトルに対し、音響モデル(ＨＭＭ(隠れマルコフモデル)等)を作用させて各音韻毎に尤度を算出する。照合処理部３０は、音韻尤度(類似度)系列に対して、音声認識辞書記憶部２７に記憶されている総ての項目(単語)との照合を行ない、各単語のスコアを算出する。そして、スコアが高い単語を認識結果として出力するのである。尚、音声認識方法については、「ディジタル音声処理」(古井著:東海大学出版会、1985年)等の文献に詳しい。
【００７４】
その場合、上記音声認識辞書記憶部２７の音声認識辞書は、上記第１実施の形態において述べたように、例えば、難読語である地名「京終」に対して、その正しい音素表記「きょうばて」に加えて、誤った音素表記「きょうしゅう」,「きょうおわり」をも対応付けて作成されている。したがって、発話者が上記マイクに向って「きょうばて」と発声することによって認識結果「京終」を得ることができる。それに加えて、「きょうしゅう」あるいは「きょうおわり」と誤って発声した場合であっても、正しい認識結果「京終」を得ることができるのである。
【００７５】
すなわち、本実施の形態によれば、難読語である地名や人名の読みを誤って覚えている場合や、正確な読みが分らない場合であっても、入力音声を目的の語彙として認識できる。したがって、本実施の形態を、難読語が多い地名を発声で入力して検索された地図を表示する地図検索表示装置等に適用すれば、非常に有効に利用することができる。
【００７６】
尚、本実施の形態においては、音声認識装置に音声認識辞書作成装置２６を搭載している。しかしながら、この発明はこれに限定されるものではなく、音声認識装置を音声認識辞書作成装置２６とは独立に設け、上記第１,第２実施の形態における音声認識辞書作成装置によって作成された音声認識辞書を音声認識辞書記憶部２７に記憶するようにしても差し支えない。
【００７７】
＜第４実施の形態＞
本実施の形態は、上記第１実施の形態における音声認識辞書作成装置が搭載されると共に、難読語を誤って発声した場合に正しい読みを提示して教えてくれる音声認識装置に関する。
【００７８】
図６は、本実施の形態の音声認識装置における構成を示すブロック図である。テキスト解析部４１,読み付与部４２,音声認識辞書作成部４３,第１解析辞書記憶部４４および第２解析辞書記憶部４５は、上記第１実施の形態において図１に示すテキスト解析部１,読み付与部２,音声認識辞書作成部３,第１解析辞書記憶部５および第２解析辞書記憶部６と同じであり、音声認識辞書作成装置４６を構成している。そして、音声認識辞書作成装置４６で作成された音声認識辞書は、音声認識辞書記憶部４７に記憶される。尚、音声認識辞書作成装置４６および音声認識辞書記憶部４７の詳細な説明は省略する。
【００７９】
音声認識部４８は、上記第３実施の形態において図５に示す音声認識部３１と同じ構成を有している。そして、入力された音声を音響分析してパラメータのベクトル系列に変換し、パラメータベクトルに対して音響モデルを作用させて各音韻毎に尤度演算し、音韻尤度系列と音声認識辞書記憶部４７の総単語との照合を行って各単語のスコアを算出し、最も高いスコアを呈する単語を認識結果として出力する。
【００８０】
読み判定部４９は、上記音声認識部４８からの音声認識の結果を受けて、その中に、第２解析辞書記憶部４５に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かを判定する。読み提示部５０は、読み判定部４９の判定結果を受けて、上記判定結果が「真」である場合には第２解析辞書記憶部４５に記憶されている当該語彙の読みを提示する。すなわち、第２解析辞書記憶部４５に記憶された語彙の間違った読みが音声認識部４８に入力(発声)された場合に、当該語彙の正しい読みを提示して、使用者に教えるのである。
【００８１】
上記構成を有する音声認識装置は、以下のように動作する。図７は、音声認識部４８,読み判定部４９および読み提示部５０によって実行される音声認識処理動作のフローチャートである。以下、図７に従って、上記音声認識処理動作について説明する。マイク(図示せず)から音声認識部４８に音声が入力されると音声認識処理動作がスタートする。
【００８２】
ステップＳ11で、上記音声認識部４８によって、入力された音声がディジタル波形に変換され、上記フレーム毎に周波数分析され、スペクトルを表すパラメータのベクトル系列に変換される(音響分析)。さらに、パラメータベクトルに対して音響モデルを作用させて各音韻毎に尤度演算される(尤度演算)。そして、音韻尤度系列と音声認識辞書記憶部４７に登録された総ての単語との照合が行われて各単語のスコアが算出される(照合処理)。
【００８３】
ステップＳ12で、上記読み判定部４９によって、音声認識部４８からの音声認識の結果に基づいて、その中に、第２解析辞書記憶部４５に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かが判定される。すなわち、音声認識結果が図３に示す上記対応テーブルの「その他の候補」に含まれるか否かが判別される。その結果、含まれる場合にはステップＳ13に進み、そうでなければステップＳ14に進む。
【００８４】
ここで、上記音声認識結果が上記対応テーブルの「その他の候補」に含まれることとは、例えば、「京終」という表記を見た人が「きょうしゅう」と発声し、そのまま「きょうしゅう」と認識された場合等に該当する。そして、本ステップにおける上記判別は、例えば、音声認識辞書作成部４３が上記対応テーブルに基づいて音声認識辞書を作成する際に、認識語彙「京終」に対応付けられる音素表記「きょうばて」,「きょうしゅう」,「きょうおわり」のうち上記対応テーブルにおける「その他の候補」に含まれる音素表記「きょうしゅう」,「きょうおわり」に、フラグを立てることによって実現可能になる。または、認識語彙の出現連鎖確率のうち上記対応テーブルにおける「その他の候補」に含まれる音素表記に基づく出現連鎖確率に、フラグを立てることによって実現可能になる。
【００８５】
つまり、上記音声認識部４８が照合処理を行った際に、上記音声認識辞書における音素表記あるいは出現連鎖確率に上記フラグが立っている単語との照合を行った際には、算出されたスコアに、その旨を示す情報を付加ればよいのである。
【００８６】
ステップＳ13で、上記読み提示部５０によって、上記対応テーブルの「その他の候補」に含まれる音素表記「きょうしゅう」に対応する第２解析辞書語彙の音素表記「きょうばて」が求められて、音声認識部４８に返される。その場合における上記第２解析辞書語彙の音素表記「きょうばて」は、具体的には、音声認識辞書記憶記憶部４７の内様を参照し、認識結果「京終」に対応付けられている音素表記のうち上記フラグが立っていない音素表記「きょうばて」を求めることによって行われる。
【００８７】
ステップＳ14で、上記音声認識部４８によって、上記ステップＳ11において算出されたスコアの高い単語が認識結果として出力される。その際に、読み提示部５０から上記対応テーブルの第２解析辞書語彙の音素表記が返されている場合には、その音素表記も合わせて出力表示される。こうして、認識結果「京終」に本来の読み「きょうばて」を合わせて出力することによって、ユーザに、音声入力した語彙「京終」の読み「きょうしゅう」は間違いであり、本当の読みは「きょうばて」であることを教えることができるのである。
【００８８】
ここで、上記音声認識部４８に発声「きょうしゅう」が入力され、認識結果として「京終」,「郷愁」,「教習」のように複数の候補がある場合には、音声認識部４８は一旦複数の候補「京終」,「郷愁」,「教習」を表示し、ユーザに何れかの候補を選択させる。その結果、認識候補「京終」が選択された場合には、上述しような読み判定部４９および読み提示部５０による処理を行うようにすればよい。
【００８９】
このように、本実施の形態においては、上記音声認識部４８に加えて、読み判定部４９および読み提示部５０を設けている。そして、上記読み判定部４９によって、上記音声認識の中に、第２解析辞書記憶部４５に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かを判定する。そして、上記語彙が含まれていると判定された場合には、読み提示部５０によって、読みが異なると判定された語彙の第２解析辞書の音素表記を、音声認識部４８に認識結果と共に提示するようにしている。
【００９０】
したがって、上記第２解析辞書記憶部４５に登録された語彙がその正しい読みとは異なる読みで発声され、その発声が音声認識部４８によって正しく認識された場合には、認識結果と共にその正しい読みを出力表示して、ユーザに教えることができるのである。
【００９１】
尚、本実施の形態においては、上記読み提示部５０は、上記第２解析辞書の語彙の音素表記「きょうばて」を求めて音声認識部４８に返し、音声認識部４８によって音声認識結果と共に出力表示するようにしている。しかしながら、この発明はこれに限定するものではない。例えば、読み提示部５０に音声合成手段を設けて、音声認識部４８による音声認識結果の出力表示に同期して、合成音声によって出力するようにしても差し支えない。
【００９２】
また、本実施の形態においては、音声認識装置に音声認識辞書作成装置４６を搭載している。しかしながら、この発明はこれに限定されるものではなく、音声認識装置を音声認識辞書作成装置４６とは独立に設け、上記第１,第２実施の形態における音声認識辞書作成装置によって作成された音声認識辞書を音声認識辞書記憶部４７に格納するようにしても差し支えない。
【００９３】
また、本実施の形態においては、読み判定部４９による判定および読み提示部５０による正しい読みの取得を、上記音声認識辞書における各認識語彙の上記対応テーブルの「その他の候補」に含まれる音素表記にフラグを立て、このフラグを参照することによって行っている。しかしながら、上記対応テーブルを直接参照することによって行っても差し支えない。但し、その場合には、上記対応テーブルを音声認識辞書作成装置４６と読み判定部４９と読み提示部５０とで共有する必要があるため、音声認識装置に音声認識辞書作成装置４６を搭載している必要がある。
【００９４】
また、上記第３実施の形態および第４実施の形態においては、上記第１実施の形態における音声認識辞書作成装置が搭載された場合を例に説明しているが、上記第２実施の形態における音声認識辞書作成装置を搭載しても一向に構わない。
【００９５】
上記第３実施の形態および第４実施の形態における音声認識装置は、携帯端末器に搭載することによってその効果を発揮することができる。通常、携帯端末器は、移動時に使用される。そして、特に外出先で上記携帯端末器によって音声入力で地図を検索して表示させる際に、例えば地名「京終(きょうばて)」を「きょうしゅう」であると思い込んでいる人は、「きょうしゅう」と誤った読みで発声することになる。本携帯端末器の場合には、その場合であってもリジェクトされることがなく、目的の地名「京終」の地図が表示されるのである。
【００９６】
これに対して、従来の音声認識装置による地図検索装置を搭載した携帯端末器の場合には、例えば地名「京終」を「きょうしゅう」と誤った読みで発声するとリジェクトされる。ところが、外出先では正しい読みを調べる術がなく、そのために「京終」の地図を表示することができないことになるのである。
【００９７】
また、上記携帯端末器を、上記第１,第２実施の形態における音声認識辞書作成装置が搭載された第１携帯端末器と、第３,第４実施の形態における音声認識辞書記憶部,音声認識部,読み判定部および読み提示部が搭載された第２携帯端末器とで構成し、両携帯端末器に、両携帯端末器間で音声認識辞書情報を含む情報を送受信する送受信器を設けることも可能である。こうすることによって、上記第１携帯端末器の音声認識辞書作成装置によって作成された音声認識辞書情報を上記第２携帯端末器に送信して、第２携帯端末器の音声認識辞書記憶部に記憶することができる。
【００９８】
また、上記音声認識装置の音声認識辞書を作成する音声認識辞書作成装置を第２実施の形態における音声認識辞書作成装置とし、その音声認識辞書作成装置をサーバーに設ける。さらに、携帯端末器には、第２の音声認識辞書記憶部,音声認識部(読み判定部,読み提示部)および上記サーバーと音声認識辞書情報を送受するための送受信器を設けることも可能である。このように、上記サーバーと携帯端末器とで音声認識システムを構成することによって、携帯端末器を簡単な構成にして軽量化を図ることができる。さらに、上記サーバーを上記第３の辞書記憶手段として利用することによって、上記サーバー内の第２解析辞書記憶部の内容を定期的に追加補充して、次々増える新語および外来語や定期的に更新されるテレビ番組名等に対処可能な音声認識辞書を、上記送受信器によって取得することができるのである。
【００９９】
ところで、上記各実施の形態におけるテキスト解析部１,１１,２１,４１、読み付与部２,１２,２２,４２、音声認識辞書作成部３,１３,２３,４３、音声認識辞書記憶部４,１４,２７,４７、第１解析辞書記憶部５,１５,２４,４４、第２解析辞書記憶部６,１６,２５,４５としての機能は、プログラム記録媒体に記録された音声認識辞書作成プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ＲＯＭ(図示せず)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声認識辞書作成プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、ＲＡＭ(ランダム・アクセス・メモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記ＲＡＭのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【０１００】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやＣＤ‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディスク),ＤＶＤ(ディジタル多用途ディスク)等の光ディスクのディスク系、ＩＣ(集積回路)カードや光カード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ(紫外線消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【０１０１】
また、上記各実施の形態における音声認識辞書作成装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合は、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【０１０２】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【０１０３】
【発明の効果】
以上より明らかなように、第１の発明の音声認識用辞書作成装置は、テキスト解析用の辞書として、日常使用される語彙の表記および読みを含む情報で成る第１解析辞書が記憶された第１解析辞書記憶手段と、上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第２解析辞書が記憶された第２解析辞書記憶手段を備えて、読み付与手段によって、テキスト解析結果中に上記第２解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えて、上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するので、上記解析結果および上記読み付与結果に基づいて作成される音声認識辞書には、当該語彙に関して、上記第２解析辞書を参照して得られた読みの音素表記および上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、例えば上記第２解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができるのである。
【０１０４】
すなわち、この発明によれば、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができるのである。
【０１０５】
また、１実施例の音声認識用辞書作成装置は、辞書取得手段によって、上記第２解析辞書記憶手段に記憶される第２解析辞書の内容を第３の辞書記憶手段から取得するので、語彙の情報提供者によって新しい語彙が登録された上記第３の辞書記憶手段が提供されることによって、新しく出現した語彙を常に上記第２解析辞書記憶手段に追加登録しておくことができる。そうすることによって、上記第２解析辞書に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【０１０６】
すなわち、この発明によれば、登録されている認識対象単語を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができるのである。
【０１０７】
また、第２の発明の音声認識装置は、上記第１の発明の音声認識辞書作成装置によって作成された音声認識辞書の登録語彙との照合を行って入力音声を認識するので、例えば上記音声認識辞書作成装置の上記第２解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる。
【０１０８】
また、第３の発明の音声認識装置は、上記第１の発明の音声認識辞書作成装置を搭載し、この音声認識辞書作成装置によって作成された音声認識辞書の登録語彙との照合を行って入力音声を認識するので、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【０１０９】
また、１実施例の音声認識装置は、第２解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が音声認識結果に含まれているか否かを読み判定手段によって判定し、上記語彙が含まれている場合には、当該語彙に関して、読み提示手段によって上記第２解析辞書記憶手段に記憶されている読みを提示するので、例えば上記第２解析辞書に登録されている難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声して正しい認識結果「京終」を得た利用者に対して、正しい読み「きょうばて」を提示して教えることができる。
【０１１０】
また、１実施例の音声認識装置は、上記読み提示手段を、上記第２解析辞書記憶手段に記憶されている読みの提示を合成音声によって行うようにしたので、利用者に対して認識語彙の正しい読みを合成音声によって提示できると共に、音声認識結果の表示内容を簡素化できる。
【０１１１】
また、第４の発明の携帯端末器は、上記第２の発明あるいは第３の発明の音声認識装置を搭載したので、正しい読みを調べる術がない外出先においても、音声によって必要な情報を即座に且つ簡単に検索することが可能になる。
【０１１２】
また、第５の発明の携帯端末器は、上記第１の発明の音声認識辞書作成装置および上記第２の発明の音声認識装置の何れか一方を搭載したので、上記音声認識辞書作成装置を搭載した第１携帯端末器から上記音声認識装置を搭載した第２携帯端末器に、作成された音声認識辞書の情報を送信することができる。したがって、上記第２携帯端末器を上記第３の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化を図ることができる。
【０１１３】
また、第６の発明の音声認識システムは、上記第１の発明の音声認識辞書作成装置が設けられたサーバーと、上記第２の発明の音声認識装置を搭載し且つ上記サーバーと音声認識辞書情報の送受を行うための送受信手段を有する携帯端末器とを備えているので、本携帯端末器を上記第３の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化を図ることができる。
【０１１４】
さらに、上記サーバーを上記第３の辞書記憶手段として、上記サーバーから上記第２解析辞書記憶手段の内容を定期的に追加補充することによって、次々増える新語および外来語や定期的に更新されるテレビ番組名等を、本携帯端末器のユーザは上記第２解析辞書の内容を知らなくとも音声認識することが可能になる。
【０１１５】
また、第７の発明の音声認識辞書作成方法は、第１解析辞書記憶手段に記憶された日常使用される語彙の表記及び読みを含む情報で成る第１解析辞書と、第２解析辞書記憶手段に記憶された上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記及び読みを含む情報で成る第２解析辞書とを参照して、テキスト解析を行い、分割された構成単語に読みを付与する際に、上記テキスト解析結果の中に上記第２解析辞書に登録された語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えて、上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するので、作成された音声認識辞書には、当該語彙に関しては、上記第２解析辞書を参照して得られた読みの音素表記および上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録されている。したがって、この音声認識辞書を用いて音声認識を行うことによって、例えば上記第２解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができるのである。
【０１１６】
すなわち、この発明によれば、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【０１１７】
また、第８の発明の音声認識辞書作成プログラムは、コンピュータを、上記第１の発明におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第１解析辞書記憶手段及び第２解析辞書記憶手段として機能させるので、上記第１の発明の場合と同様に、上記第２解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる音声認識辞書を作成することができる。
【０１１８】
また、第９の発明のプログラム記録媒体は、上記第８の発明の音声認識辞書作成プログラムを記録しているので、この音声認識辞書作成プログラムをコンピュータで読み出して用いることによって、上記第１の発明の場合と同様に、上記第２解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる音声認識辞書を作成することができる。
【図面の簡単な説明】
【図１】この発明の音声認識辞書作成装置における構成を示すブロック図である。
【図２】図１に示す音声認識辞書作成装置によって行われる音声認識辞書作成処理動作のフローチャートである。
【図３】図１における読み付与部によって記録される対応テーブルの内容の一例を示す図である。
【図４】図１とは異なる音声認識辞書作成装置における構成を示すブロック図である。
【図５】この発明の音声認識装置における構成を示すブロックである。
【図６】図５とは異なる音声認識辞書作成装置における構成を示すブロック図である。
【図７】図６における音声認識部,読み判定部および読み提示部によって実行される音声認識処理動作のフローチャートである。
【符号の説明】
１,１１,２１,４１…テキスト解析部、
２,１２,２２,４２…読み付与部、
３,１３,２３,４３…音声認識辞書作成部、
４,１４,２７,４７…音声認識辞書記憶部、
５,１５,２４,４４…第１解析辞書記憶部、
６,１６,２５,４５…第２解析辞書記憶部、
１７…辞書取得部、
２６,４６…音声認識辞書作成装置、
２８…音響分析部、
２９…尤度演算部、
３０…照合処理部、
３１,４８…音声認識部、
４９…読み判定部、
５０…読み提示部。

Claims

テキスト解析手段によって入力テキストを解析し、読み付与手段によって上記解析された構成単語に読みを付与し、音声認識辞書作成手段によって上記解析結果および上記読み付与結果に基づいて音声認識辞書を作成し、この作成された音声認識辞書を音声認識辞書記憶手段に記憶する音声認識用辞書作成装置において、
上記テキスト解析手段によるテキスト解析時に参照される辞書であって、日常使用される語彙の表記および読みを含む情報で成る第１解析辞書が記憶された第１解析辞書記憶手段と、
上記テキスト解析手段によるテキスト解析時に参照される辞書であって、上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第２解析辞書が記憶された第２解析辞書記憶手段
を備えると共に、
上記読み付与手段は、上記テキスト解析手段によるテキスト解析結果の中に上記第２解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えて、上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようになっている
ことを特徴とする音声認識辞書作成装置。
請求項１に記載の音声認識用辞書作成装置において、
上記第２解析辞書記憶手段に記憶される第２解析辞書の内容を、第３の辞書記憶手段から取得する辞書取得手段を備えた
ことを特徴とする音声認識辞書作成装置。
入力された音声を、音声認識辞書に登録されている語彙との照合手段による照合を行うことによって認識する音声認識装置において、
上記音声認識辞書は、請求項１あるいは請求項２に記載の音声認識辞書作成装置によって作成された音声認識辞書である
ことを特徴とする音声認識装置。
請求項１あるいは請求項２に記載の音声認識辞書作成装置を搭載し、
入力された音声を、上記音声認識辞書作成装置における音声認識辞書記憶手段に登録されている語彙との照合を照合手段によって行って認識する
ことを特徴とする音声認識装置。
請求項３あるいは請求項４に記載の音声認識装置において、
音声認識結果に、上記第２解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれているか否かを判定する読み判定手段と、
上記読み判定手段によって、上記語彙が含まれていると判定された場合には、当該語彙に関して、第２解析辞書記憶手段に記憶されている読みを提示する読み提示手段
を備えたことを特徴とする音声認識装置。
請求項５に記載の音声認識装置において、
上記読みを提示手段は、上記第２解析辞書記憶手段に記憶されている読みの提示を合成音声で行うようになっている
ことを特徴とする音声認識装置。
請求項３乃至請求項６の何れか一つに記載の音声認識装置を搭載したことを特徴とする携帯端末器。
請求項１あるいは請求項２に記載の音声認識辞書作成装置および請求項３,請求項５および請求項６の何れか一つに記載の音声認識装置の何れか一方を搭載したことを特徴とする携帯端末器。
請求項１あるいは請求項２に記載の音声認識辞書作成装置が設けられたサーバーと、
請求項３,請求項５および請求項６の何れか一つに記載の音声認識装置を搭載すると共に、上記サーバーと音声認識辞書情報の送受信を行うための送受信手段を有する携帯端末器
を備えたことを特徴とする音声認識システム。
テキスト解析手段,読み付与手段,音声認識辞書作成手段および音声認識辞書記憶手段を有すると共に、文字列情報を解析して構成単語に分割するテキスト解析ステップと、分割した構成単語に読みを付与する読み付与ステップと、上記テキスト解析および読み付与の結果に基づいて音声認識辞書を作成して上記音声認識辞書記憶手段に記憶する音声認識辞書作成ステップを有する音声認識辞書作成方法において、
上記テキスト解析手段によるテキスト解析は、第１解析辞書記憶手段に記憶された日常使用される語彙の表記および読みを含む情報で成る第１解析辞書、および、第２解析辞書記憶手段に記憶された上記第１解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第２解析辞書を参照して行い、
上記読み付与手段による読み付与においては、上記テキスト解析結果の中に上記第２解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第２解析辞書を参照して得られた読みに加えて、上記第１解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようにした
ことを特徴とする音声認識辞書作成方法。
コンピュータを、
請求項１におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第１解析辞書記憶手段および第２解析辞書記憶手段として機能させる
ことを特徴とする音声認識辞書作成プログラム。
請求項１１に記載の音声認識辞書作成プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。