JP3911178B2 - 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 - Google Patents

音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 Download PDF

Info

Publication number
JP3911178B2
JP3911178B2 JP2002075595A JP2002075595A JP3911178B2 JP 3911178 B2 JP3911178 B2 JP 3911178B2 JP 2002075595 A JP2002075595 A JP 2002075595A JP 2002075595 A JP2002075595 A JP 2002075595A JP 3911178 B2 JP3911178 B2 JP 3911178B2
Authority
JP
Japan
Prior art keywords
dictionary
speech recognition
analysis
reading
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002075595A
Other languages
English (en)
Other versions
JP2003271183A (ja
Inventor
浩幸 勘座
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002075595A priority Critical patent/JP3911178B2/ja
Publication of JP2003271183A publication Critical patent/JP2003271183A/ja
Application granted granted Critical
Publication of JP3911178B2 publication Critical patent/JP3911178B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、難読語の発声を正しく認識できる音声認識辞書に関し、特に音声認識辞書作成装置および音声認識辞書作成方法、上記音声認識辞書を用いた音声認識装置、この音声認識装置が搭載された携帯端末器、この携帯端末器を用いた音声認識システム、音声認識辞書作成プログラム、並びに、上記音声認識辞書作成プログラムを記録したプログラム記録媒体に関する。
【0002】
【従来の技術】
音声認識技術においては、語彙記憶部に予め登録された読み方でしか入力音声を認識することができない。そのために、利用者は、どのような言葉が認識可能であるのかを予め知っておく必要がある。その場合、語彙記憶部に登録された語彙が小語彙である場合には、ある程度登録語彙を覚えておくことはできる。しかしながら、語彙記憶部に登録された語彙が大語彙である場合には、登録語彙を覚えておくことが困難になる。
【0003】
このような問題を解決する方法として、以下のようなものがある。
(1)表示手段に音声認識対象語彙を表示する方法(例えば、特開平7‐319383号公 報)
(2)対話の進行に応じて、音声認識のための語彙を動的に変更し、音声認識対象語彙を 常に小語彙にしておく(例えば、特開平6‐332493号公報)
(3)上記語彙記憶部に語彙の変更や追加を容易に行うことによって、予め登録した読み 方ではない読み方でも認識可能にする(例えば、特開平8‐211893号公報)
【0004】
【発明が解決しようとする課題】
しかしながら、上記語彙記憶部に登録された語彙が大語彙である場合の問題を解決する従来の方法には、以下のような問題がある。すなわち、上記表示手段に音声認識対象語彙を表示する方法の場合には、上記表示手段に表示できる語彙の数には限界がある。また、地名等を漢字表記で表示した場合には、読み方が分らないために利用者が正しく読めない場合がある。これを避けるため、仮に地名を総て平仮名表記で表示した場合には、名簿や葉書等に書かれている漢字の住所との対応がとれなくなる。さらに、これを避けるため、漢字表記と平仮名表記とを併用して表示した場合には、表示面積の制約によって益々小語彙しか表示できなくなってしまう。
【0005】
したがって、上記表示手段に音声認識対象語彙を表示する方法では、利用者に読み方までを含めた音声認識対象語彙を知らせるには不十分なのである。
【0006】
また、対話の進行に応じて音声認識対象語彙を動的に変更して、音声認識対象語彙を常に小語彙にしておく方法の場合には、音声認識対象語彙が動的に変更されるため、個々の場面における認識対象語彙の数は少ない。しかしながら、結局は、動的に変動する総ての認識対象語彙を覚えておく必要がある。また、個々の場面での認識対象語彙の数は少なくなるとはいえ、結局は語彙記憶部に記憶した通りの読み方で発声しなければ認識されることはない。
【0007】
特に、地名の場合には難読語が多く、地図検索表示装置等を用いて目的地を発声で検索しようとしても、何と読むか分らないために利用できない場合がある。あるいは、正しいと思ったつもりで発声したのに、語彙記憶部に登録された読み方とは違うために認識できない場合がある。
【0008】
具体的な例を挙げれば、例えば、奈良市の「京終」は「きょうばて」と読むのであるが、知らない利用者は「きょうしゅう」と発声することが多い。しかしながら、その場合には認識されないために、目的地「京終」の検索を行うことができず、地図も表示されない。尚、地名全体の読み方が分らない場合であっても、例えば1文字単位では分る場合がある。例えば「京終」は読めなくても、「京」は「きょう」、「終」は「しゅう」または「おわる」と読める。そこで、利用者は、「京」と「きょう」、「終」と「しゅう」または「おわる」の対が上記語彙記憶部に登録されていることを予測して、「京終」を、「きょうしゅう」または「きょうおわる」と発声することによって音声認識できれば、「京終」が読めない場合の解決手段にはなる。ところが、このような方法が、いつも通用するという保証は全くない。
【0009】
同様に、橿原市の「新口」は「にのくち」と発声するのであるが、知らない利用者は「しんくち」と発声する可能性がある。そして、「しんくち」が語彙記憶部に登録されていない場合には認識されないことになる。そのため、「新口」を「しんくち」と読むと思い込んでいる利用者は、永遠に「新口」の地図を表示させることができないことになる。
【0010】
ところで、上述のような例の場合には、上記語彙記憶部に語彙の変更や追加を行う方法によって、難読語と読み誤りしそうな読み方とを語彙記憶部に追加登録しておくことで解決することはできる。
【0011】
しかしながら、上記従来の何れの方法の場合にも、利用者は上記語彙記憶部に登録されている認識対象語彙を知っているかあるいは予測できることが必要である。したがって、上記従来の場合には、例えば、テレビ番組名や音楽タイトル名等の日々更新される言葉を音声認識する用途に利用する場合には、上記語彙記憶部に予めテレビ番組名や音楽タイトル名を登録しておくことができず、また、予想することすらできず、全く音声認識できないのである。
【0012】
以上の例から判るように、正しく読むことが難しい言葉が発声された場合や、利用者が正しい読み方を知らない場合であっても、正しく音声認識されることが望ましいのである。
【0013】
そこで、この発明の目的は、認識対象単語の正しい読み方を利用者が知らない場合でも、または、登録されている認識対象単語を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成できる音声認識辞書作成装置および音声認識辞書作成方法、上記音声認識辞書を用いた音声認識装置、この音声認識装置が搭載された携帯端末器、この携帯端末器を用いた音声認識システム、音声認識辞書作成プログラム、並びに、上記音声認識辞書作成プログラムを記録したプログラム記録媒体を提供することにある。
【0014】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、テキスト解析手段によって入力テキストを解析し,読み付与手段によって上記解析された構成単語に読みを付与し,音声認識辞書作成手段によって上記解析結果および上記読み付与結果に基づいて音声認識辞書を作成し,この作成された音声認識辞書を音声認識辞書記憶手段に記憶する音声認識用辞書作成装置において、上記テキスト解析手段によるテキスト解析時に参照される辞書であって,日常使用される語彙の表記および読みを含む情報で成る第1解析辞書が記憶された第1解析辞書記憶手段と、上記テキスト解析手段によるテキスト解析時に参照される辞書であって,上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第2解析辞書が記憶された第2解析辞書記憶手段を備えると共に、上記読み付与手段は、上記テキスト解析手段によるテキスト解析結果の中に上記第2解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えて, 上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようになっていることを特徴としている。
【0015】
上記構成によれば、読み付与手段によって、テキスト解析手段によるテキスト解析結果中に、第2解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えてその他の読み候補をも付与される。したがって、上記解析結果および上記読み付与結果に基づいて作成される音声認識辞書には、上記第2解析辞書に基づく語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記および上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録される。
【0016】
すなわち、例えば、第2解析辞書に難読語「京終」とその正しい読み「きょうばて」を登録しておくことによって、語彙「京終」とその読み「きょうばて」,「きょう/しゅう」,「きょう/おわり」とに基づく辞書情報が格納された音声認識辞書が作成される。したがって、この音声認識辞書を用いて音声認識を行うことによって、誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【0017】
また、1実施例では、上記第1の発明の音声認識用辞書作成装置において、上記第2解析辞書記憶手段に記憶される第2解析辞書の内容を第3の辞書記憶手段から取得する辞書取得手段を備えている。
【0018】
この実施例によれば、上記第2解析辞書の内容は、辞書取得手段によって第3の辞書記憶手段から取得される。したがって、語彙の情報提供者によって新しい語彙が登録された第3の辞書記憶手段が提供されることによって、新しく出現した語彙が上記第2解析辞書記憶手段に追加登録される。さらに、上記第2解析辞書記憶手段に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成することが可能になる。
【0019】
また、第2の発明は、入力された音声を,音声認識辞書に登録されている語彙との照合手段による照合を行うことによって認識する音声認識装置において、上記音声認識辞書は、上記第1の発明の音声認識辞書作成装置によって作成された音声認識辞書であることを特徴としている。
【0020】
上記構成によれば、上記第2解析辞書に登録された語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書を用いて、音声認識が行われる。したがって、例えば上記第2解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られるのである。
【0021】
また、第3の発明の音声認識装置は、上記第1の発明の音声認識辞書作成装置を搭載し、入力された音声を、上記音声認識辞書作成装置における音声認識辞書記憶手段に登録されている語彙との照合を照合手段によって行って認識することを特徴としている。
【0022】
上記構成によれば、上記第2解析辞書に登録された語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書を用いて、音声認識が行われる。したがって、例えば上記第2解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られるのである。
【0023】
また、1実施例では、上記第2の発明あるいは第3の発明の音声認識装置において、音声認識結果に,第2解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれているか否かを判定する読み判定手段と、上記読み判定手段によって,上記語彙が含まれていると判定された場合には,当該語彙に関して,第2解析辞書記憶手段に記憶されている読みを提示する読み提示手段を備えている。
【0024】
この実施例によれば、音声認識結果中に、上記第2解析辞書に記憶されている語彙であって、上記第2解析辞書に記憶されている当該語彙の読みとは異なる読みの語彙が含まれている場合には、読み提示手段によって、上記第2解析辞書記憶手段に記憶されている正しい読みが提示される。こうして、利用者に対して、認識語彙の正しい読みが教えられる。
【0025】
また、1実施例では、上記第2の発明あるいは第3の発明の音声認識装置において、上記読みを提示手段は、上記第2解析辞書記憶手段に記憶されている読みの提示を合成音声で行うようになっている。
【0026】
この実施例によれば、利用者に対して、認識語彙の正しい読みが、合成音声によって利用者に教えられる。
【0027】
また、第4の発明の携帯端末器は、上記第2の発明あるいは第3の発明の音声認識装置を搭載したことを特徴としている。
【0028】
通常、携帯端末器は、移動時に使用される。そして、特に外出先で上記携帯端末器によって音声認識を行う際に、誤った読みで発声したためにリジェクトされた場合には、正しい読みを調べる術がない。そのために、必要な情報が即座に検索できない場合が生ずる。
【0029】
上記構成によれば、携帯端末器に、例えば難読語「京終」を誤って「きょうしゅう」と発声した場合でも、リジェクトされることなく認識結果として目的語彙「京終」が得られる音声認識装置が搭載されている。したがって、正しい読みを調べる術がない外出先においても、音声によって必要な情報を即座に検索することが可能になるのである。
【0030】
また、第5の発明の携帯端末器は、上記第1の発明の音声認識辞書作成装置および上記第2の発明の音声認識装置の何れか一方を搭載したことを特徴としている。
【0031】
上記構成によれば、上記第1の発明の音声認識辞書作成装置を搭載した第1携帯端末器から、上記第2の発明の音声認識装置を搭載した第2携帯端末器に、作成された音声認識辞書の情報を送信することによって、上記第2携帯端末器の音声認識装置によって、例えば上記第2解析辞書に登録された語彙の例としての難読語「京終」を、誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」が得られる。
【0032】
また、第6の発明の音声認識システムは、上記第1の発明の音声認識辞書作成装置が設けられたサーバーと、上記第2の発明の音声認識装置を搭載すると共に,上記サーバーと音声認識辞書情報の送受信を行うための送受信手段を有する携帯端末器を備えたことを特徴としている。
【0033】
上記構成によれば、上記第1の発明の音声認識辞書作成装置がサーバーに設けられている。したがって、携帯端末器を上記第3の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化が図られる。さらに、上記サーバーを上記第3の辞書記憶手段として、上記第2解析辞書記憶手段の内容を定期的に追加補充することによって、次々増える新語および外来語や定期的に更新されるテレビ番組名等を、上記携帯端末器のユーザは上記第2解析辞書の内容を知らなくとも音声認識することが可能になるのである。
【0034】
また、第7の発明は、テキスト解析手段,読み付与手段,音声認識辞書作成手段および音声認識辞書記憶手段を有すると共に,文字列情報を解析して構成単語に分割するテキスト解析ステップと,分割した構成単語に読みを付与する読み付与ステップと,上記テキスト解析および読み付与の結果に基づいて音声認識辞書を作成して上記音声認識辞書記憶手段に記憶する音声認識辞書作成ステップを有する音声認識辞書作成方法において、上記テキスト解析手段によるテキスト解析は,第1解析辞書記憶手段に記憶された日常使用される語彙の表記および読みを含む情報で成る第1解析辞書,および,第2解析辞書記憶手段に記憶された上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第2解析辞書を参照して行い、上記読み付与手段による読み付与においては,上記テキスト解析結果の中に上記第2解析辞書を参照して得られた語彙が含まれている場合には,当該語彙に関して,上記第2解析辞書を参照して得られた読みに加えて,上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようにしたことを特徴としている。
【0035】
上記構成によれば、上記テキスト解析結果および上記読み付与結果に基づいて作成された音声認識辞書には、上記第2解析辞書に登録された語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記および上記第1解析辞書を参照して形態素解析によっ て得られたその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第2解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【0036】
また、第8の発明の音声認識辞書作成プログラムは、コンピュータを、上記第1の発明におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第1解析辞書記憶手段および第2解析辞書記憶手段として機能させることを特徴としている。
【0037】
上記構成によれば、上記第1の発明の場合と同様に、作成される音声認識辞書には、上記第2解析辞書に登録された語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第2解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られるのである。
【0038】
また、第9の発明のプログラム記録媒体は、上記第8の発明の音声認識辞書作成プログラムが記録されたことを特徴としている。
【0039】
上記構成によれば、記録されている音声認識辞書作成プログラムをコンピュータで読み出して用いることによって、上記第1の発明の場合と同様に、上記第2解析辞書に登録された語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記およびその他の読み候補の音素表記に基づく辞書情報が登録された音声認識辞書が作成される。したがって、この音声認識辞書を用いて音声認識を行うことによって、上記第2解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることなく認識結果として目的の語彙「京終」が得られる。
【0040】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
【0041】
<第1実施の形態>
本実施の形態は、利用者が、認識対象語彙の正しい読み方を知らない場合でも認識可能な音声認識辞書を作成する音声認識辞書作成装置に関する。
【0042】
図1は、本実施の形態の音声認識辞書作成装置における構成を示すブロック図である。テキスト解析部1は、入力された文字列の言語を解析(テキスト解析)して、構成される形態素に分割する。その場合、複数の分割候補がある場合には、それらの総てを出力する。尚、各分割候補には、その分割候補の可能性の度合いを表す尤度が与えられる。
【0043】
読み付与部2は、分割された形態素の読みを付与する。複数の読みが存在する場合には、複数の読みの総てを出力する方法と可能性の度合いが最も高い読みの一つに絞って出力する方法とがある。
【0044】
音声認識辞書作成部3は、上記テキスト解析部1による解析結果と読み付与部2によって付与された読みに基づいて、音声認識を行うために必要な音声認識辞書を作成する。ここで、音声認識辞書には、認識語彙とその音素表記とを対にして記憶した形式のものと、各認識語彙の出現連鎖確率を記憶した形式のものとがある。一般に、単語を発声して認識する離散単語音声認識の場合には前者の形式の音声認識辞書のみを利用し、文を発声して認識する連続音声認識の場合には前者と後者との双方の音声認識辞書を利用することが多い。
【0045】
また、上記連続音声認識の場合に用いる各認識語彙の出現連鎖確率として、N‐gramに代表される統計的言語モデルを使用する場合や、連鎖するか否かの2値で出現連鎖確率を表現して語彙の連鎖情報を文法で記述する場合がある。上記テキスト解析結果と付与された読みとのデータに基づけば、上記何れの場合の出現連鎖確率にも変換することが可能である。
【0046】
音声認識辞書記憶部4は、上記音声認識辞書作成部3で作成された音声認識辞書を記憶する。尚、音声認識辞書記憶部4を構成する記憶媒体としては、フラッシュメモリやハードディスク等の一般的に広く使用されている記憶装置である。また、音声認識辞書記憶部4への記憶形式は、先に述べたように、認識語彙とその音素表記を対で記憶する形式と、各語彙の出現連鎖確率を記憶する形式とである。こうして音声認識辞書記憶部4に記憶された音声認識辞書は、後述する音声認識を行う際に参照される。
【0047】
第1解析辞書記憶部5は、上記テキスト解析部1が上記テキスト解析を行う際に使用される解析辞書を格納している。ここで、上記テキスト解析は形態素解析と呼ばれる手法を用いて行われるが、この形態素解析を行うためには解析辞書が必要になる。この解析辞書には、日常使用される言葉に対する表記,読み,品詞情報等の情報が記憶されている。そして、テキスト解析を行う際には、入力テキストと上記解析辞書との照合処理を行うことによって、テキストの単語(形態素)を同定するのである。すなわち、第1解析辞書記憶部5には、日常的に使用される一般的な語彙の表記,読み,品詞情報等の情報で成る第1解析辞書を格納しているのである。
【0048】
第2解析辞書記憶部6は、上記第1解析辞書記憶部5に記憶されてはいない特殊な語彙の表記,読み,品詞情報等の情報で成る第2解析辞書を格納している。登録語彙が一般的であるか特殊であるかを除き、両解析辞書記憶部5,6における構造およびテキスト解析部からの参照方法は同一である。尚、第2解析辞書記憶部6に登録される特殊な語彙との例として、通常の読み方では読めない地名や人名等がある。
【0049】
上記構成の音声認識辞書作成装置は以下のように動作する。図2は、図1に示す音声認識辞書作成装置によって行われる音声認識辞書作成処理動作のフローチャートである。以下、図2に従って、音声認識辞書作成処理について詳細に説明する。本音声認識辞書作成処理を行うためには、音声認識辞書を生成するための文字列情報が必要である。文字列情報がテキスト解析部1に入力されると、音声認識辞書作成処理動作がスタートする。
【0050】
ステップS1で、上記テキスト解析部1によって、入力文字列から1文の文字列が取得される。ステップS2で、テキスト解析部1によって、上記テキスト解析が行われる。すなわち、形態素解析処理によって、第1解析辞書記憶部5に記憶されている第1解析辞書と第2解析辞書記憶部6に記憶されている第2解析辞書とが照合される。そして、上記1文の入力文字列情報が単語単位に分割されるのである。上述したように、第1,第2解析辞書記憶部5,6には単語の表記,読み,品詞等の情報が記憶されており、第1,第2解析辞書記憶部5,6と照合することによって入力文字列の構成単語が何であるかを知ることができるのである。
【0051】
例えば、「明日の天気」という文字列が入力された場合、「明日(名詞)」,「の(助詞)」および「天気(名詞)」の各形態素に分割される。また、「くるまで待つ」という文字列が入力された場合、「くる(動詞)」,「まで(助詞)」および「待つ(動詞)」の分割結果と、「くるま(名詞)」,「で(助詞)」および「待つ(動詞)」の分割結果との2通りの分割結果が存在し、両分割結果に対して、その確からしさを表す尤度が与えられる。
【0052】
尚、上記形態素解析処理に関しては、右方向最長一致法や接続表を用いた方法が一般的であり、「自然言語解析の基礎」(田中穂積著:産業図書 1989年)等の文献に詳しい。
【0053】
ステップS3で、上記読み付与部2によって、上記テキスト解析部1からのテキスト解析結果に基づいて、分割された形態素毎に読みが付与される。尚、読みが複数ある場合は、総ての読みを出力することも可能であるし、読みの尤度に応じて最も可能性の高いものから幾つかの読みを出力することも可能である。上述の例の場合には、分割単語「明日」には「あす」と「あした」との2種類の読みが存在し、夫々の読みに尤度が与えられるのである。
【0054】
ステップS4で、上記読み付与部2によって、テキスト解析部1から入力された形態素の中に、第2解析辞書に登録されている語彙が含まれているか否かが判別される。尚、この判別は、例えば第2解析辞書に基づくテキスト解析結果にフラグを立てること等によって行われる。その結果、含まれている場合にはステップS5に進み、含まれていない場合にはステップS6に進む。ステップS5で、読み付与部2によって、上記第2解析辞書に含まれている語彙に関して、上記第2解析辞書による分割単語と読みとの対応と、上記第1解析辞書による解析結果をも含めた分割単語候補と読み候補との対応とが、対応テーブルに記録される。以下に、具体例を上げて説明する。
【0055】
例えば、上述した地名「京終」は「きょうばて」と読む。しかしながら、一般的な単語ではないため普通の解析辞書には登録されていないことが多い。すなわち、本実施の形態の場合においては、第1解析辞書記憶部5には単語「京終」は登録されておらず、第2解析辞書記憶部6に登録されることになる。一方、第1解析辞書記憶部5には、語彙「京」および語彙「終」が登録されているものとする。
【0056】
その場合において、上記「京終」という文字列がテキスト解析部1に入力されると、テキスト解析部1によって、第2解析辞書記憶部6に登録されている「京終」と合致するために、単語「京終(名詞)」が得られる。そして、読み付与部2によって読み「きょうばて」が付与される。ここで、単語「京終(きょうばて):名詞」は上記第2解析辞書に登録された語彙であるため、上記第2解析辞書を用いた解析結果である「京終(きょうばて):名詞」と、上記第1解析辞書を用いた解析結果候補である「京(きょう):名詞」/「終(しゅう):名詞」や「京(きょう):名詞」/「終(おわり):名詞」とが、図3に示すように、上記対応テーブルに記録されるのである。
【0057】
仮に、解析辞書記憶部が、上記第1解析辞書記憶部5と第2解析辞書記憶部6とに分かれていない場合には、「京終」という表記に対して「きょうばて」という読みしか得られず、「きょうしゅう」や「きょうおわり」は得られることはない。本実施の形態のごとく、読み付与部2によって、第1解析辞書記憶部5を参照して得た読みと第2解析辞書記憶部6を参照して得た読みとに基づいて読みを生成することによって、「きょうばて」,「きょうしゅう」および「きょうおわり」の3通りの読みを得る事ができるのである。
【0058】
ステップS6で、上記音声認識辞書作成部3によって、上記対応テーブルの内容を含む上記テキスト解析結果および読み付与結果の情報に基づいて音声認識辞書が生成される。そして、生成された音声認識辞書が音声認識辞書記憶部4に記憶される。ステップS7で、テキスト解析部1によって、入力文字列に次の文があるか否かが判別される。その結果、ある場合には上記ステップS1に戻って次の1文の文字列取得に移行する。また、ない場合には音声認識辞書作成処理動作を終了する。
【0059】
このように、本実施の形態においては、日常使用される語彙の表記,読み,品詞情報等の情報が登録された第1解析辞書を記憶する第1解析辞書記憶部5と、特殊な語彙の表記,読み,品詞情報等の情報が登録された第2解析辞書を記憶する第2解析辞書記憶部6とを有している。そして、テキスト解析部1は両解析辞書記憶部5,6を用いて形態素解析を行い、読み付与部2は上記形態素解析結果に基づいて形態素に読みを付与する。音声認識辞書作成部3は、上記解析結果と読みとに基づいて音声認識辞書を作成する。
【0060】
その際に、上記読み付与部2は、入力形態素中に上記第2解析辞書の登録語彙を含む場合には、その語彙に関して、上記第2解析辞書を用いた解析による分割単語「京終」とその読み「きょうばて」との対に加えて、上記第1解析辞書を用いた解析結果をも含めた他の分割単語候補「京/終」とその読み候補「きょう/しゅう」,「きょう/おわり」との対を対応テーブルに記録する。そして、音声認識辞書作成部3は、上記対応テーブルの記録内容に基づいて音声認識辞書を作成するのである。
【0061】
その結果、上記音声認識辞書は、例えば認識語彙「京終」と音素表記「きょうばて」,「きょうしゅう」,「きょうおわり」との対応付けに基づいて作成されることになる。したがって、音声認識辞書作成部3によって作成された音声認識辞書を用いて音声認識を行うことによって、表記「京終」を「きょうおわり」と発声された場合であっても、「京終」と正しく認識できるのである。
【0062】
<第2実施の形態>
本実施の形態は、上記第1実施の形態における音声認識辞書作成装置に、上記第2解析辞書を自動的に取得する上記所取得部を設けたものに関する。
【0063】
図4は、本実施の形態の音声認識辞書作成装置における構成を示すブロック図である。テキスト解析部11,読み付与部12,音声認識辞書作成部13,音声認識辞書記憶部14,第1解析辞書記憶部15および第2解析辞書記憶部16は、上記第1実施の形態において図1に示すテキスト解析部1,読み付与部2,音声認識辞書作成部3,音声認識辞書記憶部4,第1解析辞書記憶部5および第2解析辞書記憶部6と同じであり、詳細な説明は省略する。
【0064】
上記第1解析辞書記憶部15には一般的な語彙を登録するのに対して、第2解析辞書記憶部16には特殊な語彙を登録することは、上記第1実施の形態の場合と同様である。ここで、特殊な語彙としては、例えば、専門性の高い語彙、出現頻度の低い馴染みの薄い語彙、略語、新語、難読語等である。
【0065】
ところで、上記専門性の高い語彙,略語,新語等は、時代の流れと共に絶えず新しい語彙が出現する。したがって、この新しく出現した特殊な語彙が、絶えず第2解析辞書記憶部16に登録されない場合には、その新しく出現した特殊な語彙がテキスト解析部11に入力されても正確に読みが付与されない可能性が高くなる。尚、正確に読みが付与できず未知語として判定した場合に、読みを推定する技術もある。しかしながら、この読み推定技術によるよみ推定の精度はそれ程高くはない。そのために、正確に読みを付与しようとする場合には、新しく出現した特殊な語彙を絶えず第2解析辞書記憶部16に登録しておく必要がある。
【0066】
そこで、本実施の形態においては、辞書取得部17を設けて、第2解析辞書記憶部16に記憶する特殊な語彙の表記,読み,品詞情報等の情報を、第3の辞書記憶手段(図示せず)から辞書取得部17によって取得するのである。こうすることによって、新語のように新しい言葉が出現すれば、それを第2解析辞書記憶部16に追加登録できるのである。
【0067】
また、そうすることによって、第2解析辞書記憶部16には、電子情報化されたテレビ番組名や音楽タイトル名等の日々更新される言葉も登録することが可能になる。したがって、辞書取得部17によって、定期的に、新しく出現した特殊な語彙を第2解析辞書記憶部16に登録しておけば、第2解析辞書記憶部16に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識可能な音声認識辞書を作成して音声認識辞書記憶部14に記憶することができるのである。
【0068】
ここで、上記第3の辞書記憶手段および辞書取得部17による上記特殊な語彙の取得方法については、特に限定するものではない。例えば、フロッピーディスクやCD(コンパクトディスク)‐ROM(リード・オンリ・メモリ)等のメディアから取得する方法、ネットワークからダウンロードする方法、文字放送等の仕組みを利用する方法等がある。何れにせよ、語彙の情報提供者によって新しい語彙を登録した第3の辞書記憶手段が用意されれば、その第3の辞書記憶手段から辞書取得部17によって新しい語彙を取得して利用することができるのである。
【0069】
以上のごとく、本実施の形態においては、上記辞書取得部17を設け、この辞書取得部17によって、第2解析辞書記憶部16に記憶する特殊な語彙を第3の辞書記憶手段から取得するようにしている。したがって、辞書取得部17によって、定期的に、第3の辞書記憶手段から新たな語彙の情報を取得して第2解析辞書記憶部16に登録しておけば、テレビ番組名や音楽タイトル名等の日々更新される単語であるために第2解析辞書記憶部16に登録されていることを利用者が知らない単語であっても認識可能な音声認識辞書を作成することが可能になる。
【0070】
<第3実施の形態>
本実施の形態は、上記第1実施の形態における音声認識辞書作成装置が搭載された音声認識装置に関する。
【0071】
図5は、本実施の形態の音声認識装置における構成を示すブロック図である。テキスト解析部21,読み付与部22,音声認識辞書作成部23,第1解析辞書記憶部24および第2解析辞書記憶部25は、上記第1実施の形態において図1に示すテキスト解析部1,読み付与部2,音声認識辞書作成部3,第1解析辞書記憶部5および第2解析辞書記憶部6と同じであり、音声認識辞書作成装置26を構成している。そして、音声認識辞書作成装置26で作成された音声認識辞書は、音声認識辞書記憶部27に記憶される。尚、音声認識辞書作成装置26および音声認識辞書記憶部27の詳細な説明は省略する。
【0072】
音声認識部31は、音響分析部28,尤度演算部29および照合処理部30で構成されて、入力音声を音声認識辞書記憶部27に登録されている単語との照合を行って認識し、認識結果を出力する。以下、その概略を説明する。
【0073】
上記音響分析部28は、マイク(図示せず)から入力された音声をディジタル波形に変換し、短い時間間隔(フレーム)毎に周波数分析し、スペクトルを表すパラメータのベクトル系列に変換する。周波数分析にはLPC(線形予測分析)メルケプストラムのような表現方法が用いられる。尤度演算部29は、上記得られた入力音声のパラメータベクトルに対し、音響モデル(HMM(隠れマルコフモデル)等)を作用させて各音韻毎に尤度を算出する。照合処理部30は、音韻尤度(類似度)系列に対して、音声認識辞書記憶部27に記憶されている総ての項目(単語)との照合を行ない、各単語のスコアを算出する。そして、スコアが高い単語を認識結果として出力するのである。尚、音声認識方法については、「ディジタル音声処理」(古井著:東海大学出版会、1985年)等の文献に詳しい。
【0074】
その場合、上記音声認識辞書記憶部27の音声認識辞書は、上記第1実施の形態において述べたように、例えば、難読語である地名「京終」に対して、その正しい音素表記「きょうばて」に加えて、誤った音素表記「きょうしゅう」,「きょうおわり」をも対応付けて作成されている。したがって、発話者が上記マイクに向って「きょうばて」と発声することによって認識結果「京終」を得ることができる。それに加えて、「きょうしゅう」あるいは「きょうおわり」と誤って発声した場合であっても、正しい認識結果「京終」を得ることができるのである。
【0075】
すなわち、本実施の形態によれば、難読語である地名や人名の読みを誤って覚えている場合や、正確な読みが分らない場合であっても、入力音声を目的の語彙として認識できる。したがって、本実施の形態を、難読語が多い地名を発声で入力して検索された地図を表示する地図検索表示装置等に適用すれば、非常に有効に利用することができる。
【0076】
尚、本実施の形態においては、音声認識装置に音声認識辞書作成装置26を搭載している。しかしながら、この発明はこれに限定されるものではなく、音声認識装置を音声認識辞書作成装置26とは独立に設け、上記第1,第2実施の形態における音声認識辞書作成装置によって作成された音声認識辞書を音声認識辞書記憶部27に記憶するようにしても差し支えない。
【0077】
<第4実施の形態>
本実施の形態は、上記第1実施の形態における音声認識辞書作成装置が搭載されると共に、難読語を誤って発声した場合に正しい読みを提示して教えてくれる音声認識装置に関する。
【0078】
図6は、本実施の形態の音声認識装置における構成を示すブロック図である。テキスト解析部41,読み付与部42,音声認識辞書作成部43,第1解析辞書記憶部44および第2解析辞書記憶部45は、上記第1実施の形態において図1に示すテキスト解析部1,読み付与部2,音声認識辞書作成部3,第1解析辞書記憶部5および第2解析辞書記憶部6と同じであり、音声認識辞書作成装置46を構成している。そして、音声認識辞書作成装置46で作成された音声認識辞書は、音声認識辞書記憶部47に記憶される。尚、音声認識辞書作成装置46および音声認識辞書記憶部47の詳細な説明は省略する。
【0079】
音声認識部48は、上記第3実施の形態において図5に示す音声認識部31と同じ構成を有している。そして、入力された音声を音響分析してパラメータのベクトル系列に変換し、パラメータベクトルに対して音響モデルを作用させて各音韻毎に尤度演算し、音韻尤度系列と音声認識辞書記憶部47の総単語との照合を行って各単語のスコアを算出し、最も高いスコアを呈する単語を認識結果として出力する。
【0080】
読み判定部49は、上記音声認識部48からの音声認識の結果を受けて、その中に、第2解析辞書記憶部45に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かを判定する。読み提示部50は、読み判定部49の判定結果を受けて、上記判定結果が「真」である場合には第2解析辞書記憶部45に記憶されている当該語彙の読みを提示する。すなわち、第2解析辞書記憶部45に記憶された語彙の間違った読みが音声認識部48に入力(発声)された場合に、当該語彙の正しい読みを提示して、使用者に教えるのである。
【0081】
上記構成を有する音声認識装置は、以下のように動作する。図7は、音声認識部48,読み判定部49および読み提示部50によって実行される音声認識処理動作のフローチャートである。以下、図7に従って、上記音声認識処理動作について説明する。マイク(図示せず)から音声認識部48に音声が入力されると音声認識処理動作がスタートする。
【0082】
ステップS11で、上記音声認識部48によって、入力された音声がディジタル波形に変換され、上記フレーム毎に周波数分析され、スペクトルを表すパラメータのベクトル系列に変換される(音響分析)。さらに、パラメータベクトルに対して音響モデルを作用させて各音韻毎に尤度演算される(尤度演算)。そして、音韻尤度系列と音声認識辞書記憶部47に登録された総ての単語との照合が行われて各単語のスコアが算出される(照合処理)。
【0083】
ステップS12で、上記読み判定部49によって、音声認識部48からの音声認識の結果に基づいて、その中に、第2解析辞書記憶部45に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かが判定される。すなわち、音声認識結果が図3に示す上記対応テーブルの「その他の候補」に含まれるか否かが判別される。その結果、含まれる場合にはステップS13に進み、そうでなければステップS14に進む。
【0084】
ここで、上記音声認識結果が上記対応テーブルの「その他の候補」に含まれることとは、例えば、「京終」という表記を見た人が「きょうしゅう」と発声し、そのまま「きょうしゅう」と認識された場合等に該当する。そして、本ステップにおける上記判別は、例えば、音声認識辞書作成部43が上記対応テーブルに基づいて音声認識辞書を作成する際に、認識語彙「京終」に対応付けられる音素表記「きょうばて」,「きょうしゅう」,「きょうおわり」のうち上記対応テーブルにおける「その他の候補」に含まれる音素表記「きょうしゅう」,「きょうおわり」に、フラグを立てることによって実現可能になる。または、認識語彙の出現連鎖確率のうち上記対応テーブルにおける「その他の候補」に含まれる音素表記に基づく出現連鎖確率に、フラグを立てることによって実現可能になる。
【0085】
つまり、上記音声認識部48が照合処理を行った際に、上記音声認識辞書における音素表記あるいは出現連鎖確率に上記フラグが立っている単語との照合を行った際には、算出されたスコアに、その旨を示す情報を付加ればよいのである。
【0086】
ステップS13で、上記読み提示部50によって、上記対応テーブルの「その他の候補」に含まれる音素表記「きょうしゅう」に対応する第2解析辞書語彙の音素表記「きょうばて」が求められて、音声認識部48に返される。その場合における上記第2解析辞書語彙の音素表記「きょうばて」は、具体的には、音声認識辞書記憶記憶部47の内様を参照し、認識結果「京終」に対応付けられている音素表記のうち上記フラグが立っていない音素表記「きょうばて」を求めることによって行われる。
【0087】
ステップS14で、上記音声認識部48によって、上記ステップS11において算出されたスコアの高い単語が認識結果として出力される。その際に、読み提示部50から上記対応テーブルの第2解析辞書語彙の音素表記が返されている場合には、その音素表記も合わせて出力表示される。こうして、認識結果「京終」に本来の読み「きょうばて」を合わせて出力することによって、ユーザに、音声入力した語彙「京終」の読み「きょうしゅう」は間違いであり、本当の読みは「きょうばて」であることを教えることができるのである。
【0088】
ここで、上記音声認識部48に発声「きょうしゅう」が入力され、認識結果として「京終」,「郷愁」,「教習」のように複数の候補がある場合には、音声認識部48は一旦複数の候補「京終」,「郷愁」,「教習」を表示し、ユーザに何れかの候補を選択させる。その結果、認識候補「京終」が選択された場合には、上述しような読み判定部49および読み提示部50による処理を行うようにすればよい。
【0089】
このように、本実施の形態においては、上記音声認識部48に加えて、読み判定部49および読み提示部50を設けている。そして、上記読み判定部49によって、上記音声認識の中に、第2解析辞書記憶部45に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれるか否かを判定する。そして、上記語彙が含まれていると判定された場合には、読み提示部50によって、読みが異なると判定された語彙の第2解析辞書の音素表記を、音声認識部48に認識結果と共に提示するようにしている。
【0090】
したがって、上記第2解析辞書記憶部45に登録された語彙がその正しい読みとは異なる読みで発声され、その発声が音声認識部48によって正しく認識された場合には、認識結果と共にその正しい読みを出力表示して、ユーザに教えることができるのである。
【0091】
尚、本実施の形態においては、上記読み提示部50は、上記第2解析辞書の語彙の音素表記「きょうばて」を求めて音声認識部48に返し、音声認識部48によって音声認識結果と共に出力表示するようにしている。しかしながら、この発明はこれに限定するものではない。例えば、読み提示部50に音声合成手段を設けて、音声認識部48による音声認識結果の出力表示に同期して、合成音声によって出力するようにしても差し支えない。
【0092】
また、本実施の形態においては、音声認識装置に音声認識辞書作成装置46を搭載している。しかしながら、この発明はこれに限定されるものではなく、音声認識装置を音声認識辞書作成装置46とは独立に設け、上記第1,第2実施の形態における音声認識辞書作成装置によって作成された音声認識辞書を音声認識辞書記憶部47に格納するようにしても差し支えない。
【0093】
また、本実施の形態においては、読み判定部49による判定および読み提示部50による正しい読みの取得を、上記音声認識辞書における各認識語彙の上記対応テーブルの「その他の候補」に含まれる音素表記にフラグを立て、このフラグを参照することによって行っている。しかしながら、上記対応テーブルを直接参照することによって行っても差し支えない。但し、その場合には、上記対応テーブルを音声認識辞書作成装置46と読み判定部49と読み提示部50とで共有する必要があるため、音声認識装置に音声認識辞書作成装置46を搭載している必要がある。
【0094】
また、上記第3実施の形態および第4実施の形態においては、上記第1実施の形態における音声認識辞書作成装置が搭載された場合を例に説明しているが、上記第2実施の形態における音声認識辞書作成装置を搭載しても一向に構わない。
【0095】
上記第3実施の形態および第4実施の形態における音声認識装置は、携帯端末器に搭載することによってその効果を発揮することができる。通常、携帯端末器は、移動時に使用される。そして、特に外出先で上記携帯端末器によって音声入力で地図を検索して表示させる際に、例えば地名「京終(きょうばて)」を「きょうしゅう」であると思い込んでいる人は、「きょうしゅう」と誤った読みで発声することになる。本携帯端末器の場合には、その場合であってもリジェクトされることがなく、目的の地名「京終」の地図が表示されるのである。
【0096】
これに対して、従来の音声認識装置による地図検索装置を搭載した携帯端末器の場合には、例えば地名「京終」を「きょうしゅう」と誤った読みで発声するとリジェクトされる。ところが、外出先では正しい読みを調べる術がなく、そのために「京終」の地図を表示することができないことになるのである。
【0097】
また、上記携帯端末器を、上記第1,第2実施の形態における音声認識辞書作成装置が搭載された第1携帯端末器と、第3,第4実施の形態における音声認識辞書記憶部,音声認識部,読み判定部および読み提示部が搭載された第2携帯端末器とで構成し、両携帯端末器に、両携帯端末器間で音声認識辞書情報を含む情報を送受信する送受信器を設けることも可能である。こうすることによって、上記第1携帯端末器の音声認識辞書作成装置によって作成された音声認識辞書情報を上記第2携帯端末器に送信して、第2携帯端末器の音声認識辞書記憶部に記憶することができる。
【0098】
また、上記音声認識装置の音声認識辞書を作成する音声認識辞書作成装置を第2実施の形態における音声認識辞書作成装置とし、その音声認識辞書作成装置をサーバーに設ける。さらに、携帯端末器には、第2の音声認識辞書記憶部,音声認識部(読み判定部,読み提示部)および上記サーバーと音声認識辞書情報を送受するための送受信器を設けることも可能である。このように、上記サーバーと携帯端末器とで音声認識システムを構成することによって、携帯端末器を簡単な構成にして軽量化を図ることができる。さらに、上記サーバーを上記第3の辞書記憶手段として利用することによって、上記サーバー内の第2解析辞書記憶部の内容を定期的に追加補充して、次々増える新語および外来語や定期的に更新されるテレビ番組名等に対処可能な音声認識辞書を、上記送受信器によって取得することができるのである。
【0099】
ところで、上記各実施の形態におけるテキスト解析部1,11,21,41、読み付与部2,12,22,42、音声認識辞書作成部3,13,23,43、音声認識辞書記憶部4,14,27,47、第1解析辞書記憶部5,15,24,44、第2解析辞書記憶部6,16,25,45としての機能は、プログラム記録媒体に記録された音声認識辞書作成プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ROM(図示せず)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声認識辞書作成プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0100】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0101】
また、上記各実施の形態における音声認識辞書作成装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合は、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0102】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0103】
【発明の効果】
以上より明らかなように、第1の発明の音声認識用辞書作成装置は、テキスト解析用の辞書として、日常使用される語彙の表記および読みを含む情報で成る第1解析辞書が記憶された第1解析辞書記憶手段と、上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第2解析辞書が記憶された第2解析辞書記憶手段を備えて、読み付与手段によって、テキスト解析結果中に上記第2解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えて、上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するので、上記解析結果および上記読み付与結果に基づいて作成される音声認識辞書には、当該語彙に関して、上記第2解析辞書を参照して得られた読みの音素表記および上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録される。したがって、この音声認識辞書を用いて音声認識を行うことによって、例えば上記第2解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができるのである。
【0104】
すなわち、この発明によれば、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができるのである。
【0105】
また、1実施例の音声認識用辞書作成装置は、辞書取得手段によって、上記第2解析辞書記憶手段に記憶される第2解析辞書の内容を第3の辞書記憶手段から取得するので、語彙の情報提供者によって新しい語彙が登録された上記第3の辞書記憶手段が提供されることによって、新しく出現した語彙を常に上記第2解析辞書記憶手段に追加登録しておくことができる。そうすることによって、上記第2解析辞書に登録されている認識対象語彙を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【0106】
すなわち、この発明によれば、登録されている認識対象単語を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができるのである。
【0107】
また、第2の発明の音声認識装置は、上記第1の発明の音声認識辞書作成装置によって作成された音声認識辞書の登録語彙との照合を行って入力音声を認識するので、例えば上記音声認識辞書作成装置の上記第2解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声した場合でもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる。
【0108】
また、第3の発明の音声認識装置は、上記第1の発明の音声認識辞書作成装置を搭載し、この音声認識辞書作成装置によって作成された音声認識辞書の登録語彙との照合を行って入力音声を認識するので、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【0109】
また、1実施例の音声認識装置は、第2解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が音声認識結果に含まれているか否かを読み判定手段によって判定し、上記語彙が含まれている場合には、当該語彙に関して、読み提示手段によって上記第2解析辞書記憶手段に記憶されている読みを提示するので、例えば上記第2解析辞書に登録されている難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声して正しい認識結果「京終」を得た利用者に対して、正しい読み「きょうばて」を提示して教えることができる。
【0110】
また、1実施例の音声認識装置は、上記読み提示手段を、上記第2解析辞書記憶手段に記憶されている読みの提示を合成音声によって行うようにしたので、利用者に対して認識語彙の正しい読みを合成音声によって提示できると共に、音声認識結果の表示内容を簡素化できる。
【0111】
また、第4の発明の携帯端末器は、上記第2の発明あるいは第3の発明の音声認識装置を搭載したので、正しい読みを調べる術がない外出先においても、音声によって必要な情報を即座に且つ簡単に検索することが可能になる。
【0112】
また、第5の発明の携帯端末器は、上記第1の発明の音声認識辞書作成装置および上記第2の発明の音声認識装置の何れか一方を搭載したので、上記音声認識辞書作成装置を搭載した第1携帯端末器から上記音声認識装置を搭載した第2携帯端末器に、作成された音声認識辞書の情報を送信することができる。したがって、上記第2携帯端末器を上記第3の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化を図ることができる。
【0113】
また、第6の発明の音声認識システムは、上記第1の発明の音声認識辞書作成装置が設けられたサーバーと、上記第2の発明の音声認識装置を搭載し且つ上記サーバーと音声認識辞書情報の送受を行うための送受信手段を有する携帯端末器とを備えているので、本携帯端末器を上記第3の発明の音声認識装置を搭載した携帯端末器よりも簡単な構成にして軽量化を図ることができる。
【0114】
さらに、上記サーバーを上記第3の辞書記憶手段として、上記サーバーから上記第2解析辞書記憶手段の内容を定期的に追加補充することによって、次々増える新語および外来語や定期的に更新されるテレビ番組名等を、本携帯端末器のユーザは上記第2解析辞書の内容を知らなくとも音声認識することが可能になる。
【0115】
また、第7の発明の音声認識辞書作成方法は、第1解析辞書記憶手段に記憶された日常使用される語彙の表記及び読みを含む情報で成る第1解析辞書と、第2解析辞書記憶手段に記憶された上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記及び読みを含む情報で成る第2解析辞書とを参照して、テキスト解析を行い、分割された構成単語に読みを付与する際に、上記テキスト解析結果の中に上記第2解析辞書に登録された語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えて、上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するので、作成された音声認識辞書には、当該語彙に関しては、上記第2解析辞書を参照して得られた読みの音素表記および上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補の音素表記に基づく辞書情報が登録されている。したがって、この音声認識辞書を用いて音声認識を行うことによって、例えば上記第2解析辞書に登録された難読語「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができるのである。
【0116】
すなわち、この発明によれば、認識対象単語の正しい読み方を利用者が知らない場合であっても、入力音声を認識することが可能な音声認識辞書を作成することができる。
【0117】
また、第8の発明の音声認識辞書作成プログラムは、コンピュータを、上記第1の発明におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第1解析辞書記憶手段及び第2解析辞書記憶手段として機能させるので、上記第1の発明の場合と同様に、上記第2解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる音声認識辞書を作成することができる。
【0118】
また、第9の発明のプログラム記録媒体は、上記第8の発明の音声認識辞書作成プログラムを記録しているので、この音声認識辞書作成プログラムをコンピュータで読み出して用いることによって、上記第1の発明の場合と同様に、上記第2解析辞書に登録された語彙「京終(きょうばて)」を誤って「きょうしゅう」と発声してもリジェクトされることがなく、認識結果として目的の語彙「京終」を得ることができる音声認識辞書を作成することができる。
【図面の簡単な説明】
【図1】 この発明の音声認識辞書作成装置における構成を示すブロック図である。
【図2】 図1に示す音声認識辞書作成装置によって行われる音声認識辞書作成処理動作のフローチャートである。
【図3】 図1における読み付与部によって記録される対応テーブルの内容の一例を示す図である。
【図4】 図1とは異なる音声認識辞書作成装置における構成を示すブロック図である。
【図5】 この発明の音声認識装置における構成を示すブロックである。
【図6】 図5とは異なる音声認識辞書作成装置における構成を示すブロック図である。
【図7】 図6における音声認識部,読み判定部および読み提示部によって実行される音声認識処理動作のフローチャートである。
【符号の説明】
1,11,21,41…テキスト解析部、
2,12,22,42…読み付与部、
3,13,23,43…音声認識辞書作成部、
4,14,27,47…音声認識辞書記憶部、
5,15,24,44…第1解析辞書記憶部、
6,16,25,45…第2解析辞書記憶部、
17…辞書取得部、
26,46…音声認識辞書作成装置、
28…音響分析部、
29…尤度演算部、
30…照合処理部、
31,48…音声認識部、
49…読み判定部、
50…読み提示部。

Claims (12)

  1. テキスト解析手段によって入力テキストを解析し、読み付与手段によって上記解析された構成単語に読みを付与し、音声認識辞書作成手段によって上記解析結果および上記読み付与結果に基づいて音声認識辞書を作成し、この作成された音声認識辞書を音声認識辞書記憶手段に記憶する音声認識用辞書作成装置において、
    上記テキスト解析手段によるテキスト解析時に参照される辞書であって、日常使用される語彙の表記および読みを含む情報で成る第1解析辞書が記憶された第1解析辞書記憶手段と、
    上記テキスト解析手段によるテキスト解析時に参照される辞書であって、上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第2解析辞書が記憶された第2解析辞書記憶手段
    を備えると共に、
    上記読み付与手段は、上記テキスト解析手段によるテキスト解析結果の中に上記第2解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えて、上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようになっている
    ことを特徴とする音声認識辞書作成装置。
  2. 請求項1に記載の音声認識用辞書作成装置において、
    上記第2解析辞書記憶手段に記憶される第2解析辞書の内容を、第3の辞書記憶手段から取得する辞書取得手段を備えた
    ことを特徴とする音声認識辞書作成装置。
  3. 入力された音声を、音声認識辞書に登録されている語彙との照合手段による照合を行うことによって認識する音声認識装置において、
    上記音声認識辞書は、請求項1あるいは請求項2に記載の音声認識辞書作成装置によって作成された音声認識辞書である
    ことを特徴とする音声認識装置。
  4. 請求項1あるいは請求項2に記載の音声認識辞書作成装置を搭載し、
    入力された音声を、上記音声認識辞書作成装置における音声認識辞書記憶手段に登録されている語彙との照合を照合手段によって行って認識する
    ことを特徴とする音声認識装置。
  5. 請求項3あるいは請求項4に記載の音声認識装置において、
    音声認識結果に、上記第2解析辞書記憶手段に記憶されている語彙と表記は同じであるが読みは異なる語彙が含まれているか否かを判定する読み判定手段と、
    上記読み判定手段によって、上記語彙が含まれていると判定された場合には、当該語彙に関して、第2解析辞書記憶手段に記憶されている読みを提示する読み提示手段
    を備えたことを特徴とする音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    上記読みを提示手段は、上記第2解析辞書記憶手段に記憶されている読みの提示を合成音声で行うようになっている
    ことを特徴とする音声認識装置。
  7. 請求項3乃至請求項6の何れか一つに記載の音声認識装置を搭載したことを特徴とする携帯端末器。
  8. 請求項1あるいは請求項2に記載の音声認識辞書作成装置および請求項3,請求項5および請求項6の何れか一つに記載の音声認識装置の何れか一方を搭載したことを特徴とする携帯端末器。
  9. 請求項1あるいは請求項2に記載の音声認識辞書作成装置が設けられたサーバーと、
    請求項3,請求項5および請求項6の何れか一つに記載の音声認識装置を搭載すると共に、上記サーバーと音声認識辞書情報の送受信を行うための送受信手段を有する携帯端末器
    を備えたことを特徴とする音声認識システム。
  10. テキスト解析手段,読み付与手段,音声認識辞書作成手段および音声認識辞書記憶手段を有すると共に、文字列情報を解析して構成単語に分割するテキスト解析ステップと、分割した構成単語に読みを付与する読み付与ステップと、上記テキスト解析および読み付与の結果に基づいて音声認識辞書を作成して上記音声認識辞書記憶手段に記憶する音声認識辞書作成ステップを有する音声認識辞書作成方法において、
    上記テキスト解析手段によるテキスト解析は、第1解析辞書記憶手段に記憶された日常使用される語彙の表記および読みを含む情報で成る第1解析辞書、および、第2解析辞書記憶手段に記憶された上記第1解析辞書記憶手段に記憶されてはいない専門性の高い語彙 , 出現頻度の低い馴染みの薄い語彙 , 略語 , 新語および難読語のうち少なくとも何れか一つの表記および読みを含む情報で成る第2解析辞書を参照して行い、
    上記読み付与手段による読み付与においては、上記テキスト解析結果の中に上記第2解析辞書を参照して得られた語彙が含まれている場合には、当該語彙に関して、上記第2解析辞書を参照して得られた読みに加えて、上記第1解析辞書を参照して形態素解析によって得られたその他の読み候補をも付与するようにした
    ことを特徴とする音声認識辞書作成方法。
  11. コンピュータを、
    請求項1におけるテキスト解析手段,読み付与手段,音声認識辞書作成手段,音声認識辞書記憶手段,第1解析辞書記憶手段および第2解析辞書記憶手段として機能させる
    ことを特徴とする音声認識辞書作成プログラム。
  12. 請求項11に記載の音声認識辞書作成プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2002075595A 2002-03-19 2002-03-19 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 Expired - Fee Related JP3911178B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002075595A JP3911178B2 (ja) 2002-03-19 2002-03-19 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002075595A JP3911178B2 (ja) 2002-03-19 2002-03-19 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2003271183A JP2003271183A (ja) 2003-09-25
JP3911178B2 true JP3911178B2 (ja) 2007-05-09

Family

ID=29204625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002075595A Expired - Fee Related JP3911178B2 (ja) 2002-03-19 2002-03-19 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3911178B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704479B2 (en) 2012-04-16 2017-07-11 Denso Corporation Speech recognition device

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
JP2007256297A (ja) * 2004-03-18 2007-10-04 Nec Corp 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
US8060368B2 (en) 2005-12-07 2011-11-15 Mitsubishi Electric Corporation Speech recognition apparatus
WO2008069139A1 (ja) * 2006-11-30 2008-06-12 National Institute Of Advanced Industrial Science And Technology 音声認識システム及び音声認識システム用プログラム
JP6366179B2 (ja) * 2014-08-26 2018-08-01 日本放送協会 発話評価装置、発話評価方法、及びプログラム
JP6869835B2 (ja) * 2017-07-06 2021-05-12 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、端末装置、及び辞書管理方法
JP6810363B2 (ja) * 2019-01-25 2021-01-06 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システム、および情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704479B2 (en) 2012-04-16 2017-07-11 Denso Corporation Speech recognition device

Also Published As

Publication number Publication date
JP2003271183A (ja) 2003-09-25

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20230317074A1 (en) Contextual voice user interface
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
EP2862164B1 (en) Multiple pass automatic speech recognition
US10176809B1 (en) Customized compression and decompression of audio data
US10163436B1 (en) Training a speech processing system using spoken utterances
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US7890325B2 (en) Subword unit posterior probability for measuring confidence
US20050091054A1 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
EP3021318A1 (en) Speech synthesis apparatus and control method thereof
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
US12087291B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
EP1933302A1 (en) Speech recognition method
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JPH10274996A (ja) 音声認識装置
US20030055642A1 (en) Voice recognition apparatus and method
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
US6772116B2 (en) Method of decoding telegraphic speech
US11043212B2 (en) Speech signal processing and evaluation
JP2004294542A (ja) 音声認識装置及びそのプログラム
Manjunath et al. Improvement of phone recognition accuracy using source and system features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070126

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100202

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130202

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees