JP5335165B2 - 発音情報生成装置、車載情報装置およびデータベース生成方法 - Google Patents
発音情報生成装置、車載情報装置およびデータベース生成方法 Download PDFInfo
- Publication number
- JP5335165B2 JP5335165B2 JP2013520299A JP2013520299A JP5335165B2 JP 5335165 B2 JP5335165 B2 JP 5335165B2 JP 2013520299 A JP2013520299 A JP 2013520299A JP 2013520299 A JP2013520299 A JP 2013520299A JP 5335165 B2 JP5335165 B2 JP 5335165B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- pronunciation
- pronunciation information
- word
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000003860 storage Methods 0.000 abstract description 32
- 241000219495 Betulaceae Species 0.000 description 48
- 238000006243 chemical reaction Methods 0.000 description 23
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 102100036848 C-C motif chemokine 20 Human genes 0.000 description 5
- 101000713099 Homo sapiens C-C motif chemokine 20 Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
実施の形態1.
図1に示す発音情報生成装置は、文字列を入力に用いて、当該入力文字列に対応する発音情報を生成するものであり、単語列情報データベース(以下、DB)記憶部1と、単語列情報検索部2と、発音情報生成判定部3と、発音情報生成部4と、発音情報出力部5とから構成されている。
図2は、単語列情報DB1aの一例を示す図である。単語列の表記情報から、G2P変換などにより自動生成された発音情報が、発音辞書および地図DBなど、人手により整備されたDBから取得した発音情報(以下、正式な発音情報と称する)と一致しない場合、表記情報とセットで正式な発音情報が登録されている。
一方、G2P変換などにより自動生成された発音情報が、その単語列の正式な発音情報と一致する場合は、表記情報のみが単語列情報DB1aに登録されている。
なお、単語列情報DB1aの生成方法については後述する。
一方、ニューヨーク州の都市の「ALDER BEND」の正式な発音情報は「*”Ol|d@r ”bEnd」であり、G2P変換などにより自動生成した結果も「*”Ol|d@r ”bEnd」となる。この場合、自動生成により正式な発音情報を得ることができるので、表記情報「ALDER BEND」とセットになる発音情報としては何も登録されないことになる。
なお、説明の都合上、例示した各単語列がG2P変換などにより正式な発音情報を自動生成できるか否かは適宜仮定しており、実際のG2P変換により自動生成される発音情報とは異なる場合がある。
単語列情報DB1bの場合、単語列情報検索部2に入力する入力文字列は、例えば単語列の表記情報(「ALDER BROOK」など)であってもよいし、単語列固有のID(「1」など)であってもよい。そして、単語列情報検索部2が入力文字列の種類(表記情報かIDか)に応じて、単語列情報DB1bの検索する範囲(表記情報かIDか)を変更すればよい。
先ずステップST1にて、発音情報の生成対象である入力文字列が単語列情報検索部2に入力され、単語列情報検索部2がこの入力文字列を検索キーに用いて単語列情報DB1aを検索し、検索キーと一致する単語列情報を検索する。
一方、一致する単語列情報が見つかれば(ステップST2“YES”)、単語列情報検索部2はその単語列情報を取得し、次のステップST3へ進む。
例えば、単語列情報DB記憶部1が図2に示す単語列情報DB1aまたは図3に示す単語列情報DB1bのいずれか一方を記憶している構成の場合、入力文字列「ALDER BROOK」が入力されると、単語列情報検索部2はこれを表記情報の検索キーに用いて、単語列情報DB1aまたは単語列情報DB1bから表記情報「ALDER BROOK」、およびセットになった発音情報「*”Ol|d@r ”brUk」を含む単語列情報を取得する。
また例えば、単語列情報DB記憶部1が図3に示す単語列情報DB1bを記憶している構成の場合、入力文字列として「1」が入力されると、単語列情報検索部2はこれをIDの検索キーに用いて、図3に示す単語列情報DB1bからID「1」、およびセットになった表記情報「ALDER BROOK」と発音情報「*”Ol|d@r ”brUk」とフラグ「Ture」とを含む単語列情報を取得する。
なお、単語列情報に、発音情報の有無を示すフラグが含まれている場合は、発音情報生成判定部3がそのフラグをチェックして自動生成の必要性を判定してもよい。
一方、発音情報生成判定部3により単語列の発音情報を自動生成する必要がないと判定された場合(ステップST3“YES”)、続くステップST6にて、発音情報出力部5が、単語列情報検索部2により取得された単語列情報に含まれる発音情報を外部出力する。なお、発音情報を自動生成する必要がないと判定された場合に、発音情報出力部5が単語列情報DB1aから発音情報を取得する構成にしてもよい。
図5は、単語列情報DB1aを作成するDB作成装置の構成を示すブロック図である。図5に示すDB作成装置は、入力データに含まれる単語列情報を登録した単語列情報DB1aを生成するものであり、単語列情報取得部6と、発音情報生成部4と、発音情報比較部7と、単語列情報登録部8とから構成されている。なお、前提として、DB生成装置の備える発音情報生成部4の発音情報生成の方法は、図1に示す発音情報生成装置の備える発音情報生成部4の方法(G2P変換など)と同じとする。また、DB生成装置への入力データは、例えば図1に示す発音情報生成装置をナビゲーション装置に適用する場合には地図DBに含まれる地名などを表わす表記情報と正式な発音情報とがセットになった単語列情報とする。
発音情報生成部4は、単語列情報取得部6により取得された単語列情報に含まれる表記情報から、G2P変換などの所定の方法によって発音情報を自動生成する。
発音情報比較部7は、単語列情報取得部6により取得された単語列情報に含まれる正式な発音情報を、発音情報生成部4によって自動生成された発音情報と比較して両者が一致するか否かを判定する。
単語列情報登録部8は、発音情報生成部4によって発音情報が一致すると判定された場合に、単語列情報に含まれる表記情報のみを単語列情報DB1aに登録し、発音情報は登録しない。一方、発音情報が不一致と判定された場合は、単語列情報取得部6、発音情報生成部4および発音情報比較部7を介して受け取った、入力データ中の単語列情報に含まれる表記情報と正式な発音情報をセットにして単語列情報DB1aに登録する。よって、単語列情報DB1aとして、図2に示すような単語列情報が登録されたDBが作成されることになる。
先ずステップST11にて、単語列情報DB1aに登録対象である入力データが単語列情報取得部6に入力されると、単語列情報取得部6は未処理の単語列情報が存在する場合に(ステップST11“YES”)、その単語列情報を取得して発音情報生成部4および発音情報比較部7へ出力する(ステップST12)。一方、未処理の単語列情報が存在しない場合(ステップST11“NO”)、DB生成処理を終了する。
なお、単語列が複数の単語から構成される場合、発音情報比較部7は全ての単語の発音情報が一致した場合のみ一致と判定する。例えば、表記情報「ALDER BROOK」に対して、入力データから取得した発音情報が「*”Ol|d@r ”brUk」、自動生成された発音情報が「*”Ol|d@r ”krik」であった場合、単語「ALDER」の発音情報は一致するが、単語「BROOK」の発音情報が不一致のため、発音情報比較部7では単語列全体として不一致と判定する。
一方、発音情報比較部7により両者が不一致と判定された場合(ステップST14“NO”)、続くステップST16にて、単語列情報登録部8が、単語列情報取得部6により取得された単語列情報の表記情報と正式な発音情報をセットにして単語列情報DB1aに登録する。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
同じく、DB作成装置をコンピュータで構成する場合、発音情報生成部4、単語列情報取得部6、発音情報比較部7、単語列情報登録部8の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するよう構成すればよい。
図7は、本実施の形態2に係るDB生成装置の構成を示すブロック図である。このDB生成装置は、新たに、単語列情報DB中での単語列の出現頻度を算出する出現頻度算出部9を備え、単語列情報登録部8は出現頻度に応じて単語列を登録するか否かを判定し、出現頻度を考慮した単語列情報DB1cを生成する構成である。この他、図7において図5と同一または相当の部分については同一の符号を付し説明を省略する。
また、本実施の形態2に係るDB生成装置が生成した単語列情報DB1cを使用する発音情報生成装置は、図1に示す発音情報生成装置と同様の構成であるため、図1を援用する。
ここでいう出現頻度とは、単語列情報DB1cにおける出現頻度であるが、DB作成の際にはDB中の出現頻度は不明のため、等価的に、単語列情報DBを作成する元になるデータ、即ち入力データ(発音辞書、地図DBなど)における出現頻度を使用する。例えば発音情報生成装置の生成する発音情報を利用して音声合成および音声認識処理を行うナビゲーション装置において、地図DB中に出現頻度の高い単語列の発音情報は、ナビゲーション動作時に頻繁に使用されると考えられる。そこで、使用頻度の高い発音情報は単語列情報DBに登録しておき、使用の都度、発音情報生成装置が自動生成しなくてすむようにして、発音情報生成処理時間の短縮を図る。
また、出現頻度の閾値が小さければ単語列情報DB1cのデータ量が増える一方で発音情報生成処理時間が短くなる傾向にあり、閾値が大きければ単語列情報DB1cのデータ量が減る一方で発音情報生成処理時間が長くなる傾向にある。そのため、閾値は、単語列情報DB1cのデータ量と発音情報生成処理時間との兼ね合いに応じて設定すればよい。
図2に示す単語列情報DB1aでは、表記情報「ALDER BEND」および「HERVEY STREET」は正式な発音情報が自動生成可能なため登録されていなかったが、図8に示す単語列情報DB1cでは、このうちの表記情報「ALDER BEND」の出現頻度が閾値以上のため、正式な発音情報が登録されている。
発音情報生成部4により自動生成された発音情報と、単語列情報取得部6により取得された正式な発音情報とが不一致と判定された場合(ステップST24“NO”)、続くステップST25にて、単語列情報登録部8cが、単語列情報取得部6により取得された正式な発音情報とその表記情報とをセットにして単語列情報DB1cに登録する。
また、図9のフローチャートではステップST26において出現頻度算出部9が出現頻度を算出するが、算出するタイミングはこれに限定されるものではなく、例えばステップST21の処理開始前に入力データの各単語列の出現頻度を算出しておいてもよい。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
本実施の形態3に係る発音情報生成装置の構成は、図1の発音情報生成装置と図面上では略同一の構成であるため、図1を援用して説明する。
一方、G2P変換などにより自動生成された発音情報が、その単語の正式な発音情報と一致する場合は、発音情報の位置情報は登録されていない。
なお、単語列情報DB1dおよび発音情報リスト10dの生成方法については後述する。
なお、この例では表記情報の単語単位の区切り記号を「(空文字列)」、位置情報の区切り記号を「/」としている。そして、単語列情報DB1d中の「1」は単語「BROOK」の正式な発音情報の位置情報であり、その位置情報が示す発音情報リスト10dの位置に「BROOK」の正式な発音情報である「”brUk」が登録されている。
他方、単語列「QUAKER STREET」は「QUAKER」および「STREET」共に自動生成により正式な発音情報を得ることができないので、それぞれの発音情報の位置情報が登録されることになる。ただし、「STREET」の正式な発音情報「”strit」は既に発音情報リスト10dの「2」の位置に登録されているので、単語列情報DB1dには位置情報として「3/2」が登録される。もう一方の発音情報リスト10dは、「3」の位置に表記情報「QUAKER」の正式な発音情報「*”kwe|k@r」が登録されることになる。
よって、「STREET」のように同一の表記に対する正式な発音情報が重複して発音情報リスト10dに登録されないので、発音情報リスト10dを記憶しておく単語列情報DB記憶部1の容量を削減することができる。
なお、説明の都合上、例示した各単語がG2P変換などにより正式な発音情報を自動生成できるか否かは適宜仮定しており、実際のG2P変換により自動生成される発音情報とは異なる場合がある。
検索キーと一致する単語列情報が、単語列情報DB記憶部1の記憶している単語列情報DB1dに存在しない場合(ステップST32“NO”)、一連の発音情報生成処理を終了する。その際、例えば発音情報出力部5が、その単語列が単語列情報DB1dに登録されていない旨の外部出力を行ってもよい。
例えば、単語列情報DB記憶部1が図10に示す単語列情報DB1dと発音情報リスト10dを記憶している構成の場合、入力文字列「ALDER BROOK」が入力されると、単語列情報検索部2はこれを表記情報の検索キーに用いて、単語列情報DB1dから表記情報「ALDER BROOK」、およびセットになった発音情報の位置情報「(空文字列)/1」を含む単語列情報を取得する。
先ずステップST33にて、発音情報生成判定部3は、単語列情報検索部2から入力される単語列情報を構成する全ての単語について発音情報が存在するか否かをチェックし、全ての単語について発音情報が存在する場合または生成し終えた場合(ステップST33“YES”)、これ以上の発音情報を生成する必要はないと判断して一連の発音情報生成処理を終了し、そうでなければ(ステップST33“NO”)、単語列の先頭単語から順に、個々の単語について発音情報を生成する必要があるか否かを判定する(ステップST34)。具体的には、処理対象とする単語の表記情報に対応する位置情報が、単語列情報に含まれているか否かを調べる。
上記「ALDER BROOK」の例の場合、ステップST33〜ST38の繰り返し処理の1回目では、先頭単語の表記情報「ALDER」に対応する発音情報の位置情報は「(空文字列)」であり、発音情報リスト10dに正式な発音情報が登録されていないことを示す。そのため、発音情報生成部4が表記情報「ALDER」から正式な発音情報と同一の発音情報「*”Ol|d@r」を自動生成し、発音情報出力部5が外部出力する。
上記「ALDER BROOK」の例の場合、ステップST33〜ST38の繰り返し処理の2回目では、先頭から2番目の単語の表記情報「BROOK」に対応する発音情報の位置情報は「1」であり、発音情報リスト10dの位置「1」に正式な発音情報「”brUk」が登録されていることを示す。そのため、発音情報出力部5は発音情報リスト10dから発音情報「”brUk」を取得し、外部出力する。
なお、発音情報を単語単位で外部出力するのではなく、単語列単位で外部出力してもよい。その場合には、発音情報出力部5が、発音情報生成判定部3から入力される単語の発音情報と発音情報生成部4から入力される単語の発音情報とを入力された順に組み合わせて単語列の発音情報を生成すればよい。
このDB生成装置は、上記実施の形態1の図6に示すフローチャートと略同じ動作である。ただし、上記実施の形態1のDB生成装置は単語列単位で発音情報の生成およびDBへの登録を行っていたが、本実施の形態3のDB生成装置は単語単位で発音情報の生成およびDBへの登録を行う。また、図6のステップST16にて、単語列情報登録部8は、正式な発音情報を自動生成できない単語について、入力データから取得した正式な発音情報を発音情報リスト10dに登録し、その単語の表記情報と発音情報の位置情報とを単語列情報DB1dに登録する。
他方、図12に示す単語列情報DB1eと発音情報リスト10eを作成する場合は、ステップST16にて単語列情報登録部8が発音情報リスト10eに発音情報を登録する際に既に同じ発音情報が登録されているか確認し、登録されていればその位置情報を単語列情報DB1eに登録する。発音情報リスト10eに同じ発音情報が登録されていなければ、発音情報リスト10eにその単語の正式な発音情報を登録し、単語列情報DB1eに表記情報と位置情報とを登録する。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
この場合、DB生成装置への入力データおよび発音情報生成装置への入力文字列に、単語を区切るための区切り記号(例えば「(空文字列)」)と、登録単位の区切りを示す区切り記号(例えば「/」)を定義しておく。そして、各装置において「ALDER BROOK/ROAD」等の単語列を区切り記号に従って単語列と単語に分け、それぞれに対して処理を行えばよい。
他方、DB生成装置への入力データには複数種の区切り記号を予め定義しておくことができても、発音情報生成装置への入力文字列に対して予め複数種の区切り記号を定義することができない場合がある。その場合には、DB生成装置は上述のように複数種の区切り記号に従って単語列と単語が混在した状態の単語列情報DB1d,1eを生成すればよい。一方、発音情報生成装置は、単語列情報検索部2が単語を区切るための区切り記号(例えば「(空文字列)」)のみに従って、例えば最初に「ALDER BROOK ROAD」を単語列情報DB1d,1eから検索し、登録がない場合は、次に「ALDER BROOK」と「ROAD」に分けて検索する。これでも登録がなければ、区切り位置を変えて「ALDER」と「BROOK ROAD」に分けて検索する等、1つの単語列に対して複数の区切り位置で区切って検索を行う方法もある。
本実施の形態4に係るDB生成装置の構成は、単語列情報DB1cを除いて図7のDB生成装置と図面上では略同一の構成であるため、図7を援用して説明する。本実施の形態4に係るDB生成装置は、単語列情報DB1cに代えて、図13に示す単語列情報DB1fおよび発音情報リスト10fを生成する。
また、本実施の形態4に係るDB生成装置が生成した単語列情報DB1fおよび発音情報リスト10fを使用する発音情報生成装置は、図1に示す発音情報生成装置と同様の構成であるため、図1を援用する。
表記情報「ALDER」は正式な発音情報が自動生成可能であるが、出現頻度算出部9が算出する出現頻度が所定の閾値以上であるため、図13に示す単語列情報DB1fでは発音情報の位置情報「1」が登録されている。そして、発音情報リスト10fの位置「1」に正式な発音情報「*”Ol|d@r」が登録されている。
これに対して、上記実施の形態3では、図10に示す単語列情報DB1dに、表記情報「ALDER」の発音情報の位置情報は登録されていない。
その他の単語は、たとえ正式な発音情報が自動生成可能であっても出現頻度が閾値未満であるので、図10に示す単語列情報DB1dと変わりない。ただし、発音情報リスト10fの位置「1」に「*”Ol|d@r」が登録されたため、以降、位置が1つずつずれている。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
さらに、「ALDER BROOK ROAD」および「ALDER BROOK PARK」のように、単語列と単語が混在する単語列情報について、上記実施の形態3で説明したのと同様に単語列と単語を混在させて単語列情報DB1fに登録してもよい。
図14は、本実施の形態5に係るナビゲーション装置の構成を示すブロック図である。このナビゲーション装置は、音声合成および音声認識に用いる発音情報を生成する発音情報生成装置100と、地名、道路名、施設名などとそれぞれの位置とを含む地図情報を格納した地図DB101と、地図情報を用いて経路探索および経路案内などを行うナビゲーション制御部102と、経路案内などを行う音声を合成する音声合成部103と、合成音声を出力するスピーカ104と、ユーザの発話を集音するマイク105と、音声認識辞書107を用いて目的地などの音声認識を行う音声認識部106と、発音情報生成装置100の発音情報から音声認識辞書107を生成する音声認識辞書生成部108とを備える。
音声認識辞書生成部108は、発音情報生成装置100が出力する発音情報を用いて音声認識用の音声認識辞書107を生成する。発音情報から音声認識辞書を生成する方法は公知の技術を用いればよいため、ここでは説明を省略する。
あるいは、ナビゲーション制御部102がある都市に含まれる道路の名称を検索する際に、検索対象となる道路名(選択されている都市を通る道路名)を地図DB101から取得して発音情報生成装置100へ出力し、上記施設名と同様にして、道路名の音声認識辞書107を生成することもできる。
続いて、ユーザが発話した目的地を正しく音声認識したか否かを確認するために、ナビゲーション制御部102が、音声認識部106から入力された目的地を示す音声認識結果の文字列(またはその文字列に設定された固有のID)を音声合成部103へ出力し、音声合成部103が発音情報生成装置100へ目的地の文字列(またはID)を出力する。発音情報生成装置100は、目的地の単語列または単語に対応する発音情報を生成して音声合成部103へ出力する。そして、音声合成部103がその発音情報に対応する音声情報を合成して、スピーカ104から出力する。
そして、例えば、メディアがオーディオ装置に挿入された時点で、書誌データ(例えば曲名、アーティスト名など)を入力文字列として、発音情報生成装置100と音声認識辞書生成部108が協働してアーティスト名の音声認識用、曲名の音声認識用などの音声認識辞書107を作成する。
また、例えば、ユーザがある検索を行ったタイミングで、検索結果(例えばアーティスト名を検索キーにして抽出したアルバム名)を入力文字列として、アルバム名の音声認識用の音声認識辞書107を作成することもできる。
続いて、音声認識部106が、ユーザが発話した曲名、アーティスト名、アルバム名などを音声認識し、オーディオ制御部がその認識結果に従って楽曲を再生したり、音声合成部103がその楽曲の書誌データを合成音声にしてユーザへ通知したりする。
さらに、オーディオ一体型のナビゲーション装置であってもよい。また、ハンズフリー通話などを実行する電話用の機能を備えていてもよい。この場合、電話機がヘッドユニットに接続されたタイミングで、電話帳検索用の辞書から電話帳の各エントリの名称(人名、レストラン名などの施設名)を抽出し、発音情報生成装置100を用いて音声認識辞書を生成する。そして、ユーザ発話を音声認識して発信先を特定し、通話を開始することができる。
なお、ナビゲーション装置は、車両に限らず、人、鉄道、船舶、航空機などを含む移動体用のナビゲーション装置であってもよく、例えば車両への持込または車載に適したナビゲーション装置とする。
Claims (6)
- 単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の表記に対応する正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報が登録されており、一致する場合は前記表記情報が登録され前記正式な発音情報は登録されていない単語列/単語情報データベースと、
入力された単語列または単語に該当する表記情報を前記単語列/単語情報データベースから取得する単語列情報検索部と、
前記単語列情報検索部の取得した前記表記情報に対応する正式な発音情報が前記単語列/単語情報データベースに登録されているか否かを判定する発音情報生成判定部と、
前記発音情報生成判定部の判定結果に応じて、正式な発音情報の登録されていない前記表記情報から発音情報を生成する発音情報生成部と、
前記発音情報生成判定部の判定結果に応じて、前記表記情報に対応する正式な発音情報が登録されていない場合は前記発音情報生成部の生成した前記発音情報を出力し、登録されている場合は前記単語列/単語情報データベースに登録されている当該正式な発音情報を出力する発音情報出力部とを備える発音情報生成装置。 - 単語列/単語情報データベースは、単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報が登録されており、一致する場合であって前記単語列/単語情報データベース中での当該単語列または単語の出現頻度が所定の閾値以上の場合も前記表記情報と共に前記正式な発音情報が登録されており、一致する場合であって前記出現頻度が所定の閾値未満の場合は前記表記情報が登録され前記正式な発音情報は登録されていないことを特徴とする請求項1記載の発音情報生成装置。
- 表記情報から自動生成される発音情報と正式な発音情報とが一致しない単語列または単語について、当該正式な発音情報が登録されている発音情報リストを備え、
単語列/単語情報データベースは、前記正式な発音情報の代わりに、前記発音情報リスト内における前記正式な発音情報の登録位置を示す位置情報が前記表記情報と共に登録されており、
発音情報生成判定部は、単語列情報検索部の取得した表記情報に対応する位置情報が前記単語列/単語情報データベースに登録されているか否かを判定し、
前記発音情報生成部は、前記発音情報生成判定部の判定結果に応じて、位置情報の登録されていない前記表記情報から発音情報を生成し、
発音情報出力部は、前記発音情報生成判定部の判定結果に応じて、前記表記情報に対応する位置情報が登録されていない場合は前記発音情報生成部の生成した前記発音情報を出力し、登録されている場合は前記発音情報リスト中の当該位置情報の指す位置に登録されている正式な発音情報を出力することを特徴とする請求項1記載の発音情報生成装置。 - 単語列/単語情報データベースは、単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の正式な発音情報に一致しない場合は前記表記情報と共に発音情報リスト内における前記正式な発音情報の登録位置を示す位置情報が登録されており、一致する場合であって前記単語列/単語情報データベース中での当該単語列または単語の出現頻度が所定の閾値以上の場合も前記表記情報と共に前記位置情報が登録されており、一致する場合であって前記出現頻度が所定の閾値未満の場合は前記表記情報が登録され前記正式な発音情報は登録されていないことを特徴とする請求項3記載の発音情報生成装置。
- 請求項1記載の発音情報生成装置と、
音声出力する単語列または単語の発音情報を前記発音情報生成装置により生成し、当該生成した発音情報を合成音声に変換する音声合成部と、
音声認識対象となる単語列または単語を入力文字列にして前記発音情報生成装置により生成した発音情報に基づいて音声認識辞書を生成し、当該音声認識辞書を用いて、入力される音声情報の音声認識を行う音声認識部のうちの少なくとも一方を備えることを特徴とする車載情報装置。 - 単語列または単語の表記情報と、当該単語列または単語の表記に対応する正式な発音情報とが含まれた入力データに基づいて、前記表記情報から発音情報を生成する発音情報生成ステップと、
前記発音情報生成ステップで生成した発音情報と前記入力データに含まれた前記正式な発音情報とを比較する発音情報比較ステップと、
前記発音情報比較ステップの比較結果に応じて、前記発音情報生成ステップで生成した発音情報が前記正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報をデータベースに登録し、一致する場合は前記表記情報を前記データベースに登録して前記正式な発音情報は登録しない単語列情報登録ステップとを備えるデータベース生成方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/003374 WO2012172596A1 (ja) | 2011-06-14 | 2011-06-14 | 発音情報生成装置、車載情報装置およびデータベース生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5335165B2 true JP5335165B2 (ja) | 2013-11-06 |
JPWO2012172596A1 JPWO2012172596A1 (ja) | 2015-02-23 |
Family
ID=47356629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013520299A Expired - Fee Related JP5335165B2 (ja) | 2011-06-14 | 2011-06-14 | 発音情報生成装置、車載情報装置およびデータベース生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140067400A1 (ja) |
JP (1) | JP5335165B2 (ja) |
CN (1) | CN103635961B (ja) |
WO (1) | WO2012172596A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
US20150073771A1 (en) * | 2013-09-10 | 2015-03-12 | Femi Oguntuase | Voice Recognition Language Apparatus |
US9858039B2 (en) * | 2014-01-28 | 2018-01-02 | Oracle International Corporation | Voice recognition of commands extracted from user interface screen devices |
KR20160060243A (ko) * | 2014-11-19 | 2016-05-30 | 한국전자통신연구원 | 고객 응대 서비스 장치 및 방법 |
WO2016088241A1 (ja) * | 2014-12-05 | 2016-06-09 | 三菱電機株式会社 | 音声処理システム及び音声処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212586A (ja) * | 1998-01-22 | 1999-08-06 | Nec Corp | 音声合成装置 |
JPH11231886A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 登録名称認識装置 |
JP2005018113A (ja) * | 2003-06-23 | 2005-01-20 | Hitachi Systems & Services Ltd | 知識辞書を用いた属性データ付与装置およびその方法 |
JP2008021235A (ja) * | 2006-07-14 | 2008-01-31 | Denso Corp | 読み登録システム及び読み登録プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2575252B2 (ja) * | 1991-12-26 | 1997-01-22 | 沖電気工業株式会社 | 発音辞書管理方法 |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
JP4581290B2 (ja) * | 2001-05-16 | 2010-11-17 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
JP2004326367A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
JP2007086404A (ja) * | 2005-09-22 | 2007-04-05 | Nec Personal Products Co Ltd | 音声合成装置 |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
JPWO2010018796A1 (ja) * | 2008-08-11 | 2012-01-26 | 旭化成株式会社 | 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 |
JP5697860B2 (ja) * | 2009-09-09 | 2015-04-08 | クラリオン株式会社 | 情報検索装置,情報検索方法及びナビゲーションシステム |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
-
2011
- 2011-06-14 CN CN201180071596.9A patent/CN103635961B/zh not_active Expired - Fee Related
- 2011-06-14 WO PCT/JP2011/003374 patent/WO2012172596A1/ja active Application Filing
- 2011-06-14 US US14/009,300 patent/US20140067400A1/en not_active Abandoned
- 2011-06-14 JP JP2013520299A patent/JP5335165B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212586A (ja) * | 1998-01-22 | 1999-08-06 | Nec Corp | 音声合成装置 |
JPH11231886A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 登録名称認識装置 |
JP2005018113A (ja) * | 2003-06-23 | 2005-01-20 | Hitachi Systems & Services Ltd | 知識辞書を用いた属性データ付与装置およびその方法 |
JP2008021235A (ja) * | 2006-07-14 | 2008-01-31 | Denso Corp | 読み登録システム及び読み登録プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140067400A1 (en) | 2014-03-06 |
CN103635961A (zh) | 2014-03-12 |
CN103635961B (zh) | 2015-08-19 |
JPWO2012172596A1 (ja) | 2015-02-23 |
WO2012172596A1 (ja) | 2012-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US8666743B2 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
JP5697860B2 (ja) | 情報検索装置,情報検索方法及びナビゲーションシステム | |
CN107016994B (zh) | 语音识别的方法及装置 | |
US8521539B1 (en) | Method for chinese point-of-interest search | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
JP5335165B2 (ja) | 発音情報生成装置、車載情報装置およびデータベース生成方法 | |
JP2010191400A (ja) | 音声認識装置およびデータ更新方法 | |
GB2557714A (en) | Determining phonetic relationships | |
Withanage et al. | Voice-based road navigation system using natural language processing (nlp) | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US7809563B2 (en) | Speech recognition based on initial sound extraction for navigation and name search | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JP4914632B2 (ja) | ナビゲーション装置 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
JP3881155B2 (ja) | 音声認識方法及び装置 | |
JP5522679B2 (ja) | 検索装置 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 | |
JP2008134503A (ja) | 音声認識装置、および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5335165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |