JP5335165B2 - 発音情報生成装置、車載情報装置およびデータベース生成方法 - Google Patents

発音情報生成装置、車載情報装置およびデータベース生成方法 Download PDF

Info

Publication number
JP5335165B2
JP5335165B2 JP2013520299A JP2013520299A JP5335165B2 JP 5335165 B2 JP5335165 B2 JP 5335165B2 JP 2013520299 A JP2013520299 A JP 2013520299A JP 2013520299 A JP2013520299 A JP 2013520299A JP 5335165 B2 JP5335165 B2 JP 5335165B2
Authority
JP
Japan
Prior art keywords
information
pronunciation
pronunciation information
word
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013520299A
Other languages
English (en)
Other versions
JPWO2012172596A1 (ja
Inventor
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5335165B2 publication Critical patent/JP5335165B2/ja
Publication of JPWO2012172596A1 publication Critical patent/JPWO2012172596A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

この発明は、単語列または単語の発音情報を生成する発音情報生成装置、この発音情報生成装置を用いて音声合成または音声認識処理を行う車載情報装置、およびこの発音情報生成装置が発音情報を生成するために必要な単語列情報データベースの生成方法に関する。
現在、カーナビゲーション装置では音声入出力インタフェースが一般的となり、都市名および道路名などの地名を音声出力するための音声合成機能、およびユーザが発声した地名を音声認識する機能が必要となっている。カーナビゲーション装置において、音声合成および音声認識を行うためには、地名など対象とする単語の読みを示す発音情報が必要である。そのため、従来の音声合成装置は単語の表記を示す表記情報と、表記に対応した発音情報とを格納したデータベースを有している(例えば、特許文献1,2参照)。
他方、表記に対応した発音情報を生成する書記素音素(Grapheme−to−Phoneme;G2PまたはGTP)変換などの技術がある。例えば、ニューヨーク州の都市の表記「ALDER BEND」をG2P変換すると、発音情報として「*”Ol|d@r ”bEnd」が生成される。
特開平9−325789号公報 特開2004−326367号公報
従来の音声合成装置は、表記それぞれに対する発音情報をデータベースに格納する構成のため、データベースのサイズが非常に大きくなっていた。そのため、データベースを格納する大容量のメモリが必要となるという課題があった。
他方、G2P変換などの技術により表記に対応した発音情報を生成する場合は、表記情報のみをデータベースに格納し、必要に応じて発音情報を生成すればよいため、データベースのサイズを削減することができる。しかしながら、生成された発音情報が正しいとは限らないという課題があった。例えば、ニューヨーク州の都市の表記「ALDER BROOK」の正しい発音情報は「*”Ol|d@r ”brUk」であるが、G2P変換を利用すると「*”Ol|d@r ”krik」という間違った発音情報が生成される。
この発明は、上記のような課題を解決するためになされたもので、小容量のデータベースを用いて、表記に対応した正しい発音情報を生成することを目的とする。
この発明の発音情報生成装置は、単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の表記に対応する正式な発音情報に一致しない場合は表記情報と共に正式な発音情報が登録されており、一致する場合は表記情報が登録され正式な発音情報は登録されていない単語列/単語情報データベースと、入力された単語列または単語に該当する表記情報を単語列/単語情報データベースから取得する単語列情報検索部と、単語列情報検索部の取得した表記情報に対応する正式な発音情報が単語列/単語情報データベースに登録されているか否かを判定する発音情報生成判定部と、発音情報生成判定部の判定結果に応じて、正式な発音情報の登録されていない表記情報から発音情報を生成する発音情報生成部と、発音情報生成判定部の判定結果に応じて、表記情報に正式な発音情報が登録されていない場合は発音情報生成部の生成した発音情報を出力し、正式な発音情報が登録されている場合は単語列/単語情報データベースに登録されている当該正式な発音情報を出力する発音情報出力部とを備えるものである。
また、この発明の車載情報装置は、上述の発音情報生成装置を備え、音声出力する単語列または単語の発音情報を発音情報生成装置により生成し、当該生成した発音情報を合成音声に変換する音声合成部と、音声認識対象となる単語列または単語を入力文字列にして発音情報生成装置により生成した発音情報に基づいて音声認識辞書を生成し、当該音声認識辞書を用いて、入力される音声情報の音声認識を行う音声認識部のうちの少なくとも一方を有するものである。
また、この発明のデータベース生成方法は、単語列または単語の表記情報と、当該単語列または単語の表記に対応する正式な発音情報とが含まれた入力データに基づいて、表記情報から発音情報を生成する発音情報生成ステップと、発音情報生成ステップで生成した発音情報と入力データに含まれた正式な発音情報とを比較する発音情報比較ステップと、発音情報比較ステップの比較結果に応じて、発音情報生成ステップで生成した発音情報が正式な発音情報に一致しない場合は表記情報と共に正式な発音情報をデータベースに登録し、一致する場合は表記情報を登録して正式な発音情報は登録しない単語列情報登録ステップとを備えるものである。
この発明によれば、自動生成される発音情報が正式な発音情報と一致すると予め判明している場合は、発音情報生成処理において表記情報から発音情報を生成するようにしたので、データベースに正式な発音情報を登録しておく必要がなく、データベースのサイズを低減することができる。他方、自動生成される発音情報が正式な発音情報と一致しないと予め判明している場合はデータベースに正式な発音情報を登録しておき、発音情報生成処理において表記情報から発音情報を生成せずにデータベースに登録された発音情報を使用するようにしたので、誤った発音情報の生成を防ぐことができる。よって、小容量のデータベースを用いて、表記に対応した正しい発音情報を生成することができる。
また、この発明によれば、データベースのサイズを低減したので発音情報生成装置の小型化が可能となり、小型化の要求される車載情報装置に用いるのに好適な発音情報生成装置を提供することができる。
この発明の実施の形態1に係る発音情報生成装置の構成を示すブロック図である。 実施の形態1に係る発音情報生成装置が有する単語列情報DBの一例を示す図である。 実施の形態1に係る発音情報生成装置が有する単語列情報DBの別の例を示す図である。 実施の形態1に係る発音情報生成装置の動作を示すフローチャートである。 実施の形態1に係るDB生成装置の構成を示すブロック図である。 実施の形態1に係るDB生成装置の動作を示すフローチャートである。 この発明の実施の形態2に係るDB生成装置の構成を示すフローチャートである。 実施の形態2に係るDB生成装置が生成する単語列情報DBの一例を示す図である。 実施の形態2に係るDB生成装置の動作を示すフローチャートである。 この発明の実施の形態3に係る発音情報生成装置が有する単語列情報DBおよび発音情報リストの一例を示す図である。 実施の形態3に係る発音情報生成装置の動作を示すフローチャートである。 実施の形態3に係る発音情報生成装置が有する単語列情報DBおよび発音情報リストの別の例を示す図である。 この発明の実施の形態4に係るDB生成装置が生成する単語列情報DBおよび発音情報リストの一例を示す図である。 この発明の実施の形態5に係るナビゲーション装置の構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1に示す発音情報生成装置は、文字列を入力に用いて、当該入力文字列に対応する発音情報を生成するものであり、単語列情報データベース(以下、DB)記憶部1と、単語列情報検索部2と、発音情報生成判定部3と、発音情報生成部4と、発音情報出力部5とから構成されている。
単語列情報DB記憶部1は、単語列の表記を表す表記情報と、この表記の正式な音声を文字および記号で表した発音情報とをセットにして、単語列情報として登録したDB(以下、単語列情報DB1a)を記憶している記憶装置である。
図2は、単語列情報DB1aの一例を示す図である。単語列の表記情報から、G2P変換などにより自動生成された発音情報が、発音辞書および地図DBなど、人手により整備されたDBから取得した発音情報(以下、正式な発音情報と称する)と一致しない場合、表記情報とセットで正式な発音情報が登録されている。
一方、G2P変換などにより自動生成された発音情報が、その単語列の正式な発音情報と一致する場合は、表記情報のみが単語列情報DB1aに登録されている。
なお、単語列情報DB1aの生成方法については後述する。
例えば、ニューヨーク州の都市の「ALDER BROOK」の正式な発音情報は「*”Ol|d@r ”brUk」であるが、G2P変換などにより自動生成した結果は「*”Ol|d@r ”krik」となる。この場合、表記情報「ALDER BROOK」とセットになる発音情報として、正式な発音情報「*”Ol|d@r ”brUk」が登録されることになる。
一方、ニューヨーク州の都市の「ALDER BEND」の正式な発音情報は「*”Ol|d@r ”bEnd」であり、G2P変換などにより自動生成した結果も「*”Ol|d@r ”bEnd」となる。この場合、自動生成により正式な発音情報を得ることができるので、表記情報「ALDER BEND」とセットになる発音情報としては何も登録されないことになる。
また例えば、表記情報「HERVEY STREET」は自動生成により正式な発音情報を得ることができるため、単語列情報DB1aには発音情報は登録されておらず、一方、表記情報「QUAKER STREET」は自動生成により正式な発音情報を得ることができないため、正式な発音情報「*”kwe|k@r ”strit」が単語列情報DB1aに登録されている。
なお、説明の都合上、例示した各単語列がG2P変換などにより正式な発音情報を自動生成できるか否かは適宜仮定しており、実際のG2P変換により自動生成される発音情報とは異なる場合がある。
なお、単語列情報DB1aに登録される単語列は上記のような地名に限定されるものではなく、住所名、施設名、人名、企業名など、発音情報の使用目的に応じた単語列であればよい。
単語列情報検索部2は、発音情報の生成対象である入力文字列を検索キーに用いて単語列情報DB記憶部1の単語列情報DB1aを検索し、この検索キーと一致する情報を有する単語列情報を取得する。この入力文字列は、単語列の表記情報(「ALDER BROOK」など)とする。
発音情報生成判定部3は、単語列情報検索部2により取得された単語列情報に正式な発音情報が格納されているか否か調べ、後段の発音情報生成部4によって発音情報を自動生成するか否かを判定する。発音情報の自動生成が必要と判定した場合は、対応する単語列情報を発音情報生成判定部3から発音情報生成部4へ出力する。一方、自動生成が不必要と判定した場合は、対応する単語列情報を発音情報生成判定部3から発音情報出力部5へ出力する。
発音情報生成部4は、発音情報生成判定部3によって発音情報の自動生成が必要と判定された場合に、発音情報生成判定部3から単語列情報を受け取り、その単語列の表記情報に対応する発音情報をG2P変換などの所定の方法により自動生成する。
発音情報出力部5は、発音情報生成判定部3によって発音情報の自動生成が必要と判定された場合、発音情報生成部4が自動生成した発音情報を受け取って外部出力する。一方、自動生成が不必要と判定された場合は、単語列情報検索部2および発音情報生成判定部3を介して、単語列情報DB1aに登録されていた正式な発音情報を受け取って外部出力する。
なお、単語列情報DB記憶部1は、図2に示す単語列情報DB1aに代えて、図3に示す単語列情報DB1bを記憶していてもよい。図3に示すように、単語列情報DB1bは、単語列情報として表記情報および発音情報に加えて、単語列固有の識別情報(以下、ID)および発音情報の有無を表わすフラグ(TrueまたはFalse)がセットになって登録されている。
単語列情報DB1bの場合、単語列情報検索部2に入力する入力文字列は、例えば単語列の表記情報(「ALDER BROOK」など)であってもよいし、単語列固有のID(「1」など)であってもよい。そして、単語列情報検索部2が入力文字列の種類(表記情報かIDか)に応じて、単語列情報DB1bの検索する範囲(表記情報かIDか)を変更すればよい。
次に、図4に示すフローチャートを用いて、発音情報生成装置の動作を説明する。
先ずステップST1にて、発音情報の生成対象である入力文字列が単語列情報検索部2に入力され、単語列情報検索部2がこの入力文字列を検索キーに用いて単語列情報DB1aを検索し、検索キーと一致する単語列情報を検索する。
続くステップST2にて、単語列情報検索部2は、検索キーと一致する単語列情報が見つからなければ(ステップST2“NO”)、一連の発音情報生成処理を終了する。その際、例えば発音情報出力部5が、その単語列が単語列情報DB1aに登録されていない旨の外部出力を行ってもよい。
一方、一致する単語列情報が見つかれば(ステップST2“YES”)、単語列情報検索部2はその単語列情報を取得し、次のステップST3へ進む。
例えば、単語列情報DB記憶部1が図2に示す単語列情報DB1aまたは図3に示す単語列情報DB1bのいずれか一方を記憶している構成の場合、入力文字列「ALDER BROOK」が入力されると、単語列情報検索部2はこれを表記情報の検索キーに用いて、単語列情報DB1aまたは単語列情報DB1bから表記情報「ALDER BROOK」、およびセットになった発音情報「*”Ol|d@r ”brUk」を含む単語列情報を取得する。
また例えば、単語列情報DB記憶部1が図3に示す単語列情報DB1bを記憶している構成の場合、入力文字列として「1」が入力されると、単語列情報検索部2はこれをIDの検索キーに用いて、図3に示す単語列情報DB1bからID「1」、およびセットになった表記情報「ALDER BROOK」と発音情報「*”Ol|d@r ”brUk」とフラグ「Ture」とを含む単語列情報を取得する。
続くステップST3にて、発音情報生成判定部3は、単語列情報検索部2から入力される単語列情報に発音情報が含まれているか否かをチェックし、含まれていれば(ステップST3“YES”)、発音情報生成部4によって単語列の発音情報を自動生成する必要はないと判定してステップST6へ進み、含まれていなければ(ステップST3“NO”)、発音情報生成部4によって単語列の発音情報を自動生成する必要があると判定してステップST4へ進む。
なお、単語列情報に、発音情報の有無を示すフラグが含まれている場合は、発音情報生成判定部3がそのフラグをチェックして自動生成の必要性を判定してもよい。
発音情報生成判定部3により単語列の発音情報を自動生成する必要があると判定された場合(ステップST3“NO”)、続くステップST4にて、発音情報生成部4が、単語列情報検索部2により取得された単語列情報に含まれる表示情報からG2P変換などにより、その単語列の発音情報を生成して発音情報出力部5へ出力する。そして、続くステップST5にて、発音情報出力部5が、発音情報生成部4により自動生成された発音情報を外部出力する。
一方、発音情報生成判定部3により単語列の発音情報を自動生成する必要がないと判定された場合(ステップST3“YES”)、続くステップST6にて、発音情報出力部5が、単語列情報検索部2により取得された単語列情報に含まれる発音情報を外部出力する。なお、発音情報を自動生成する必要がないと判定された場合に、発音情報出力部5が単語列情報DB1aから発音情報を取得する構成にしてもよい。
次に、単語列情報DB記憶部1に記憶させる単語列情報DB1aの作成方法を説明する。
図5は、単語列情報DB1aを作成するDB作成装置の構成を示すブロック図である。図5に示すDB作成装置は、入力データに含まれる単語列情報を登録した単語列情報DB1aを生成するものであり、単語列情報取得部6と、発音情報生成部4と、発音情報比較部7と、単語列情報登録部8とから構成されている。なお、前提として、DB生成装置の備える発音情報生成部4の発音情報生成の方法は、図1に示す発音情報生成装置の備える発音情報生成部4の方法(G2P変換など)と同じとする。また、DB生成装置への入力データは、例えば図1に示す発音情報生成装置をナビゲーション装置に適用する場合には地図DBに含まれる地名などを表わす表記情報と正式な発音情報とがセットになった単語列情報とする。
単語列情報取得部6は、入力データから未処理の単語列情報を取得する。
発音情報生成部4は、単語列情報取得部6により取得された単語列情報に含まれる表記情報から、G2P変換などの所定の方法によって発音情報を自動生成する。
発音情報比較部7は、単語列情報取得部6により取得された単語列情報に含まれる正式な発音情報を、発音情報生成部4によって自動生成された発音情報と比較して両者が一致するか否かを判定する。
単語列情報登録部8は、発音情報生成部4によって発音情報が一致すると判定された場合に、単語列情報に含まれる表記情報のみを単語列情報DB1aに登録し、発音情報は登録しない。一方、発音情報が不一致と判定された場合は、単語列情報取得部6、発音情報生成部4および発音情報比較部7を介して受け取った、入力データ中の単語列情報に含まれる表記情報と正式な発音情報をセットにして単語列情報DB1aに登録する。よって、単語列情報DB1aとして、図2に示すような単語列情報が登録されたDBが作成されることになる。
次に、図6に示すフローチャートを用いて、DB生成装置の動作を説明する。
先ずステップST11にて、単語列情報DB1aに登録対象である入力データが単語列情報取得部6に入力されると、単語列情報取得部6は未処理の単語列情報が存在する場合に(ステップST11“YES”)、その単語列情報を取得して発音情報生成部4および発音情報比較部7へ出力する(ステップST12)。一方、未処理の単語列情報が存在しない場合(ステップST11“NO”)、DB生成処理を終了する。
ステップST13にて、発音情報生成部4は、単語列情報取得部6により取得された単語列情報に含まれる表記情報からG2P変換などによりその単語列の発音情報を自動生成して、発音情報比較部7へ出力する。そして、続くステップST14にて、発音情報比較部7が、発音情報生成部4により自動生成された発音情報と、単語列情報取得部6により取得された同一単語列の単語列情報に含まれる正式な発音情報とを比較し、両者が一致するか否かを判定して判定結果を単語列情報登録部8へ出力する。
なお、単語列が複数の単語から構成される場合、発音情報比較部7は全ての単語の発音情報が一致した場合のみ一致と判定する。例えば、表記情報「ALDER BROOK」に対して、入力データから取得した発音情報が「*”Ol|d@r ”brUk」、自動生成された発音情報が「*”Ol|d@r ”krik」であった場合、単語「ALDER」の発音情報は一致するが、単語「BROOK」の発音情報が不一致のため、発音情報比較部7では単語列全体として不一致と判定する。
発音情報比較部7により両者が一致すると判定された場合(ステップST14“YES”)、続くステップST15にて、単語列情報登録部8が、単語列情報取得部6により取得された単語列情報に含まれる表記情報を単語列情報DB1aに登録し、発音情報は登録しない。
一方、発音情報比較部7により両者が不一致と判定された場合(ステップST14“NO”)、続くステップST16にて、単語列情報登録部8が、単語列情報取得部6により取得された単語列情報の表記情報と正式な発音情報をセットにして単語列情報DB1aに登録する。
DB生成装置は、登録対象の単語列情報の処理がステップST15またはステップST16まで終了すると、再びステップST11に戻って入力データの次の単語列情報について処理を開始する。
なお、DB生成装置が作成するDBを、図2に示す単語列情報DB1aのような構成に代えて、図3に示す単語列情報DB1bのような構成にしてもよい。この場合には、図6のステップST16において単語列情報登録部8が単語列情報DB1aに単語列情報を登録する際に、この単語列に固有のIDおよび発音情報の有無を表わすフラグも登録する。
以上より、実施の形態1によれば、発音情報生成装置は、単語列の表記情報からG2P変換など所定の方法で自動生成される発音情報が、当該単語列の表記に対応する正式な発音情報に一致しない場合は表記情報と共に正式な発音情報が登録されており、一致する場合は表記情報のみ登録されている単語列情報DB1aを記憶している単語列情報DB記憶部1と、入力文字列に該当する表記情報を含む単語列情報を単語列情報DB1aから取得する単語列情報検索部2と、単語列情報検索部2の取得した表記情報に対応する正式な発音情報が単語列情報DB1aから取得した表記情報に対応する正式な発音情報が単語列情報DB1aに登録されているか否かを判定する発音情報生成判定部3と、発音情報生成判定部3の判定結果に応じて、正式な発音情報の登録されていない表記情報からG2P変換など所定の方法で発音情報を生成する発音情報生成部4と、発音情報生成判定部3の判定結果に応じて、表記情報に正式な発音情報が登録されていない場合は発音情報生成部4の生成した発音情報を出力し、正式な発音情報が登録されている場合は単語列情報DB1aに登録されていたその正式な発音情報を出力する発音情報出力部5とを備えるように構成した。このため、単語列の表記情報から自動生成される発音情報がこの単語列の正式な発音情報と一致すると予め判明している場合は単語列情報DB1aに発音情報を登録しておく必要がなくなるので、その分、単語列情報DB1aの容量を小さくすることができる。一方、単語列の表記情報から自動生成される発音情報がこの単語列の正式な発音情報と一致しないと予め判明している場合は単語列情報DB1aに正式な発音情報を格納して、発音情報生成処理中は自動生成を行わずに格納されている正式な発音情報を使用するため、誤った発音情報を生成することを防止できる。よって、小容量のデータベースを用いて正しい発音情報を生成することができる。
なお、上記実施の形態1では、DB生成装置が、単語列情報DB1a,1bに単語列単位(「ALDER BROOK」など)で表記情報と発音情報を登録する構成としたが、これに限定されるものではなく、単語単位(「ALDER」など)で表記情報と発音情報を登録する構成(即ち、単語情報DB)にしてもよい。そして、発音情報生成装置において単語単位の単語列情報DB1a,1bを単語列情報DB記憶部1に記憶させた場合には、単語列情報検索部2、発音情報生成判定部3、発音情報生成部4および発音情報出力部5が単語単位で処理を行えばよい。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
なお、発音情報生成装置をコンピュータで構成する場合、単語列情報DB1a、単語列情報検索部2、発音情報生成判定部3、発音情報生成部4、発音情報出力部5の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するよう構成すればよい。
同じく、DB作成装置をコンピュータで構成する場合、発音情報生成部4、単語列情報取得部6、発音情報比較部7、単語列情報登録部8の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するよう構成すればよい。
実施の形態2.
図7は、本実施の形態2に係るDB生成装置の構成を示すブロック図である。このDB生成装置は、新たに、単語列情報DB中での単語列の出現頻度を算出する出現頻度算出部9を備え、単語列情報登録部8は出現頻度に応じて単語列を登録するか否かを判定し、出現頻度を考慮した単語列情報DB1cを生成する構成である。この他、図7において図5と同一または相当の部分については同一の符号を付し説明を省略する。
また、本実施の形態2に係るDB生成装置が生成した単語列情報DB1cを使用する発音情報生成装置は、図1に示す発音情報生成装置と同様の構成であるため、図1を援用する。
上記実施の形態1では、発音情報生成部4により自動生成された発音情報と正式な発音情報とが一致する場合に単語列情報DB1a,1bに正式な発音情報が登録されていなかったが、本実施の形態2では、両者が一致する場合であっても、その単語列の出現頻度が指定した閾値以上である場合には単語列情報DB1cに正式な発音情報を登録しておくこととする。
ここでいう出現頻度とは、単語列情報DB1cにおける出現頻度であるが、DB作成の際にはDB中の出現頻度は不明のため、等価的に、単語列情報DBを作成する元になるデータ、即ち入力データ(発音辞書、地図DBなど)における出現頻度を使用する。例えば発音情報生成装置の生成する発音情報を利用して音声合成および音声認識処理を行うナビゲーション装置において、地図DB中に出現頻度の高い単語列の発音情報は、ナビゲーション動作時に頻繁に使用されると考えられる。そこで、使用頻度の高い発音情報は単語列情報DBに登録しておき、使用の都度、発音情報生成装置が自動生成しなくてすむようにして、発音情報生成処理時間の短縮を図る。
また、出現頻度の閾値が小さければ単語列情報DB1cのデータ量が増える一方で発音情報生成処理時間が短くなる傾向にあり、閾値が大きければ単語列情報DB1cのデータ量が減る一方で発音情報生成処理時間が長くなる傾向にある。そのため、閾値は、単語列情報DB1cのデータ量と発音情報生成処理時間との兼ね合いに応じて設定すればよい。
図8は、本実施の形態2のDB生成装置が生成する単語列情報DB1cの一例を示す図である。
図2に示す単語列情報DB1aでは、表記情報「ALDER BEND」および「HERVEY STREET」は正式な発音情報が自動生成可能なため登録されていなかったが、図8に示す単語列情報DB1cでは、このうちの表記情報「ALDER BEND」の出現頻度が閾値以上のため、正式な発音情報が登録されている。
次に、図9に示すフローチャートを用いて、DB生成装置の動作を説明する。なお、図9に示すステップST21〜ST24は、上記実施の形態1の図6で説明したステップST11〜ST14と同一の処理であるため、説明を省略する。
発音情報生成部4により自動生成された発音情報と、単語列情報取得部6により取得された正式な発音情報とが不一致と判定された場合(ステップST24“NO”)、続くステップST25にて、単語列情報登録部8cが、単語列情報取得部6により取得された正式な発音情報とその表記情報とをセットにして単語列情報DB1cに登録する。
一方、両者が一致すると判定された場合(ステップST24“YES”)、続くステップST26にて、出現頻度算出部9がその発音情報の単語列の、入力データにおける出現頻度を算出して単語列情報登録部8cへ出力し、単語列情報登録部8cが所定の閾値と比較する。出現頻度が閾値以上の場合(ステップST26“YES”)、単語列情報登録部8cは、単語列情報取得部6により取得された正式な発音情報とその表記情報とをセットにして単語列情報DB1cに登録する(ステップST25)。一方、出現頻度が閾値未満の場合(ステップST26“NO”)、単語列情報登録部8cは、単語列情報取得部6により取得された表記情報のみを単語列情報DB1cに登録する(ステップST27)。
なお、単語列情報DB1cを、単語列に固有のIDおよび発音情報の有無を表わすフラグが登録された構成にする場合は、単語列情報登録部8cが単語列情報DB1cに単語列情報を登録する際に、この単語列に固有のIDおよび発音情報の有無を表わすフラグも登録するようにしてもよい(ステップST26,ST27)。
また、図9のフローチャートではステップST26において出現頻度算出部9が出現頻度を算出するが、算出するタイミングはこれに限定されるものではなく、例えばステップST21の処理開始前に入力データの各単語列の出現頻度を算出しておいてもよい。
以上より、実施の形態2によれば、発音情報生成装置の単語列情報DB記憶部1が記憶している単語列情報DB1cは、単語列の表記情報から自動生成される発音情報が、この単語列の正式な発音情報に一致しない場合は表記情報と共に正式な発音情報が登録されており、一致する場合であって単語列情報DB1c中でのこの単語列の出現頻度が所定の閾値以上の場合も表記情報と共に正式な発音情報が登録されており、一方、一致する場合であって出現頻度が閾値未満の場合は表記情報のみ登録されているように構成した。このため、出現頻度の閾値を適切に設定することで、データベース容量の削減と、発音情報生成処理時間の短縮を両立させることができる。
なお、上記実施の形態2では、DB生成装置が、単語列情報DB1cに単語列単位(「ALDER BROOK」など)で表記情報と発音情報を登録する構成としたが、これに限定されるものではなく、単語単位(「ALDER」など)で表記情報と発音情報を登録する構成にしてもよい。そして、DB作成装置の出現頻度算出部9が単語単位に出現頻度を算出し、単語列情報取得部6、発音情報生成部4、発音情報比較部7および単語列情報登録部8cが単語単位で処理を行えばよい。また、発音情報生成装置において単語単位の単語列情報DB1cを単語列情報DB記憶部1に記憶させた場合には、単語列情報検索部2、発音情報生成判定部3、発音情報生成部4および発音情報出力部5が単語単位で処理を行えばよい。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
実施の形態3.
本実施の形態3に係る発音情報生成装置の構成は、図1の発音情報生成装置と図面上では略同一の構成であるため、図1を援用して説明する。
図10は、本実施の形態3の発音情報生成装置において、単語列情報DB記憶部1が記憶している単語列情報DB1dおよび発音情報リスト10dの一例を示す図である。単語列情報DB1dは、単語列の表記情報と、その表記情報に対応する発音情報が格納された発音情報リスト10d内の位置情報とがセットで登録されている。この位置情報は、単語単位で登録されている。また、発音情報リスト10dは、発音辞書、地図DBなど、人手により整備されたDBから取得した正式な発音情報が、位置情報とセットで登録されている。そして、単語の表記情報からG2P変換などにより自動生成された発音情報が、正式な発音情報と一致しない場合、その単語の正式な発音情報は発音情報リスト10dに位置情報とセットで登録され、単語列情報DB1dには表記情報と位置情報とがセットで登録されている。
一方、G2P変換などにより自動生成された発音情報が、その単語の正式な発音情報と一致する場合は、発音情報の位置情報は登録されていない。
なお、単語列情報DB1dおよび発音情報リスト10dの生成方法については後述する。
例えば、単語列「ALDER BROOK」は単語「ALDER」と「BROOK」から成り、「ALDER」から自動生成された発音情報「*”Ol|d@r」は正式な発音情報と一致するため、位置情報は「(空文字列)」となる。一方、「BROOK」から自動生成された発音情報「”krik」は正式な発音情報「”brUk」と異なるため、位置情報は「1」となる。従って、単語列情報DB1dには、表記情報「ALDER BROOK」の発音情報の位置情報として「(空文字列)/1」が登録されることになる。
なお、この例では表記情報の単語単位の区切り記号を「(空文字列)」、位置情報の区切り記号を「/」としている。そして、単語列情報DB1d中の「1」は単語「BROOK」の正式な発音情報の位置情報であり、その位置情報が示す発音情報リスト10dの位置に「BROOK」の正式な発音情報である「”brUk」が登録されている。
また例えば、単語列「ALDER BEND」は、単語「ALDER」および「BEND」共に自動生成により正式な発音情報を得ることができるので、表記情報「ALDER BEND」とセットになる発音情報の位置情報としてはなにも登録されない(即ち「(空文字列)/(空文字列)」)である。
また例えば、単語列「HERVEY STREET」のうち、「HERVEY」は自動生成により正式な発音情報を得ることができるが、「STREET」は得ることができないので、表記情報「STREET」の発音情報の位置情報だけが登録されることになる。よって、単語列情報DB1dには位置情報として「(空文字列)/2」が登録される。そして、発音情報リスト10dには、「2」の位置に表記情報「STREET」の正式な発音情報「”strit」が登録されることになる。
他方、単語列「QUAKER STREET」は「QUAKER」および「STREET」共に自動生成により正式な発音情報を得ることができないので、それぞれの発音情報の位置情報が登録されることになる。ただし、「STREET」の正式な発音情報「”strit」は既に発音情報リスト10dの「2」の位置に登録されているので、単語列情報DB1dには位置情報として「3/2」が登録される。もう一方の発音情報リスト10dは、「3」の位置に表記情報「QUAKER」の正式な発音情報「*”kwe|k@r」が登録されることになる。
よって、「STREET」のように同一の表記に対する正式な発音情報が重複して発音情報リスト10dに登録されないので、発音情報リスト10dを記憶しておく単語列情報DB記憶部1の容量を削減することができる。
なお、説明の都合上、例示した各単語がG2P変換などにより正式な発音情報を自動生成できるか否かは適宜仮定しており、実際のG2P変換により自動生成される発音情報とは異なる場合がある。
なお、上記実施の形態1の図1とは異なり、本実施の形態3に係る発音情報生成装置は、発音情報出力部5が単語列情報DB記憶部1の発音情報リスト10dを参照可能とする。
次に、図11に示すフローチャートを用いて、単語列情報DB1dおよび発音情報リスト10dを利用する発音情報生成装置の動作を説明する。なお、図11に示すステップST31,ST32は、上記実施の形態1の図4で説明したステップST1,ST2と同一の処理であるため、説明を省略する。
検索キーと一致する単語列情報が、単語列情報DB記憶部1の記憶している単語列情報DB1dに存在しない場合(ステップST32“NO”)、一連の発音情報生成処理を終了する。その際、例えば発音情報出力部5が、その単語列が単語列情報DB1dに登録されていない旨の外部出力を行ってもよい。
一方、検索キーと一致する単語列情報が単語列情報DB1dに存在する場合(ステップST32“YES”)、単語列情報検索部2は、単語列情報DB1dから検索キーに一致する表記情報および発音情報の位置情報を含む単語列情報を取得して、発音情報生成判定部3へ出力する。
例えば、単語列情報DB記憶部1が図10に示す単語列情報DB1dと発音情報リスト10dを記憶している構成の場合、入力文字列「ALDER BROOK」が入力されると、単語列情報検索部2はこれを表記情報の検索キーに用いて、単語列情報DB1dから表記情報「ALDER BROOK」、およびセットになった発音情報の位置情報「(空文字列)/1」を含む単語列情報を取得する。
続くステップST33〜ST38において、単語列情報検索部2が取得した単語列を構成する個々の単語について発音情報を生成し外部出力する。
先ずステップST33にて、発音情報生成判定部3は、単語列情報検索部2から入力される単語列情報を構成する全ての単語について発音情報が存在するか否かをチェックし、全ての単語について発音情報が存在する場合または生成し終えた場合(ステップST33“YES”)、これ以上の発音情報を生成する必要はないと判断して一連の発音情報生成処理を終了し、そうでなければ(ステップST33“NO”)、単語列の先頭単語から順に、個々の単語について発音情報を生成する必要があるか否かを判定する(ステップST34)。具体的には、処理対象とする単語の表記情報に対応する位置情報が、単語列情報に含まれているか否かを調べる。
発音情報生成判定部3は、処理対象の単語の表記情報に対応する位置情報が単語列情報に含まれていない場合、その単語については発音情報の自動生成が必要と判定して(ステップST34“NO”)、その単語の表記情報を発音情報生成部4へ出力する。続くステップST35にて、発音情報生成部4が、発音情報生成判定部3から入力される表記情報からG2P変換などにより発音情報を生成して発音情報出力部5へ出力する。そして、続くステップST36にて、発音情報出力部5が、発音情報生成部4により自動生成された発音情報を外部出力する。
上記「ALDER BROOK」の例の場合、ステップST33〜ST38の繰り返し処理の1回目では、先頭単語の表記情報「ALDER」に対応する発音情報の位置情報は「(空文字列)」であり、発音情報リスト10dに正式な発音情報が登録されていないことを示す。そのため、発音情報生成部4が表記情報「ALDER」から正式な発音情報と同一の発音情報「*”Ol|d@r」を自動生成し、発音情報出力部5が外部出力する。
一方、処理対象の単語の表記情報に対応する位置情報が単語列情報に含まれている場合、発音情報生成判定部3は、その単語については発音情報の自動生成が不要と判定して(ステップST34“YES”)、その単語の発音情報の位置情報を発音情報出力部5へ出力する。続くステップST37にて、発音情報出力部5は、発音情報生成判定部3から入力される発音情報の位置情報に基づき、単語列情報DB記憶部1の発音情報リスト10dからその位置に登録された発音情報を取得する。そして、発音情報出力部5は続くステップST38にて、発音情報リスト10dから取得した発音情報を外部出力する。
上記「ALDER BROOK」の例の場合、ステップST33〜ST38の繰り返し処理の2回目では、先頭から2番目の単語の表記情報「BROOK」に対応する発音情報の位置情報は「1」であり、発音情報リスト10dの位置「1」に正式な発音情報「”brUk」が登録されていることを示す。そのため、発音情報出力部5は発音情報リスト10dから発音情報「”brUk」を取得し、外部出力する。
ステップST36またはステップST38まで処理が終了すると、再びステップST33に戻って、単語列情報に含まれる次の単語について処理を開始する。このようにして、発音情報生成装置は、入力文字列に該当する単語列の先頭単語から順に発音情報を外部出力することになる。
なお、発音情報を単語単位で外部出力するのではなく、単語列単位で外部出力してもよい。その場合には、発音情報出力部5が、発音情報生成判定部3から入力される単語の発音情報と発音情報生成部4から入力される単語の発音情報とを入力された順に組み合わせて単語列の発音情報を生成すればよい。
また、図11のフローチャートでは、単語列情報検索部2が単語列情報DB1dから表記情報と発音情報の位置情報とを取得してその位置情報を発音情報出力部5へ通知し、発音情報出力部5が発音情報リスト10dからその位置情報に対応する発音情報を取得する構成としたが、これに限定されるものではなく、例えば単語列情報検索部2が単語列情報DB1dから表記情報と発音情報の位置情報とを取得すると共にその位置情報に対応する発音情報を発音情報リスト10dから取得し、発音情報生成部4が発音情報生成判定部3を介して単語列情報検索部2から発音情報を受け取る構成にしてもよい。
また、単語列情報DB記憶部1は、図10に示す単語列情報DB1dおよび発音情報リスト10dに代えて、図12に示す単語列情報DB1eおよび発音情報リスト10eを記憶していてもよい。図12に示すように、発音情報リスト10eには、各単語列に重複して出現する単語(「STREET」など)の正式な発音情報のみ登録しておく。そして、単語列情報DB1eでは、各単語列に重複する単語(「STREET」など)の表記情報とセットで発音情報の位置情報(「1」など)を登録し、重複しない単語(「BROOK」など)の表記情報とセットで正式な発音情報(「”brUk」など)を直接登録し、重複しない単語であってG2P変換などにより正式な発音情報と同一の発音情報を自動生成できる単語(「ALDER」など)の表記情報に対しては発音情報を登録しない(即ち「(空文字列)」となる)。
次に、DB生成装置の動作を説明する。本実施の形態3に係るDB生成装置の構成は、単語列情報DB1aを除いて図5のDB生成装置と図面上では略同一の構成であるため、図5を援用して説明する。本実施の形態3に係るDB生成装置は、単語列情報DB1aに代えて、単語列情報DB1dおよび発音情報リスト10dを生成する。
このDB生成装置は、上記実施の形態1の図6に示すフローチャートと略同じ動作である。ただし、上記実施の形態1のDB生成装置は単語列単位で発音情報の生成およびDBへの登録を行っていたが、本実施の形態3のDB生成装置は単語単位で発音情報の生成およびDBへの登録を行う。また、図6のステップST16にて、単語列情報登録部8は、正式な発音情報を自動生成できない単語について、入力データから取得した正式な発音情報を発音情報リスト10dに登録し、その単語の表記情報と発音情報の位置情報とを単語列情報DB1dに登録する。
他方、図12に示す単語列情報DB1eと発音情報リスト10eを作成する場合は、ステップST16にて単語列情報登録部8が発音情報リスト10eに発音情報を登録する際に既に同じ発音情報が登録されているか確認し、登録されていればその位置情報を単語列情報DB1eに登録する。発音情報リスト10eに同じ発音情報が登録されていなければ、発音情報リスト10eにその単語の正式な発音情報を登録し、単語列情報DB1eに表記情報と位置情報とを登録する。
以上より、実施の形態3によれば、発音情報生成装置の単語列情報DB記憶部1は、表記情報から自動生成される発音情報と正式な発音情報とが一致しない単語について、この正式な発音情報が登録されている発音情報リスト10dを備え、単語列情報DB1dは、正式な発音情報の代わりに、発音情報リスト10d内におけるその正式な発音情報の登録位置を示す位置情報が表記情報と共に登録されているように構成し、単語列情報検索部2が入力文字列に一致する表記情報を単語列情報DB1dから取得し、発音情報生成判定部3が単語列情報検索部2の取得した表記情報に対応する位置情報が単語列情報DB1dに登録されているか否かを判定し、発音情報生成部4が発音情報生成判定部3の判定結果に応じて、位置情報の登録されていない表記情報からG2P変換など所定の方法で発音情報を生成し、発音情報出力部5が発音情報生成判定部3の判定結果に応じて、表記情報に対応する位置情報が登録されていない場合は発音情報生成部4の生成した発音情報を出力し、登録されている場合は発音情報リスト10d中のその位置情報の指す位置に登録されている正式な発音情報を出力するように構成した。このため、発音情報リスト10dに同一の発音情報が複数重複して登録されなくなり、単語列情報DB記憶部1の記憶する情報量を削減できる。
なお、上記実施の形態3では、DB生成装置が、単語列情報DB1d,1eに単語単位(「ALDER」など)で表記情報と発音情報の位置情報とを登録する構成としたが、これに限定されるものではなく、単語列単位(「ALDER BROOK」など)で表記情報と発音情報の位置情報とを登録する構成にしてもよい。また、発音情報生成装置において単語列単位の単語列情報DB1d,1eを単語列情報DB記憶部1に記憶させた場合には、単語列情報検索部2、発音情報生成判定部3、発音情報生成部4および発音情報出力部5が単語列単位で処理を行えばよい。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
さらに、単語列が「ALDER BROOK ROAD」および「ALDER BROOK PARK」のように単語列「ALDER BROOK」と単語「ROAD(またはPARK)」の組み合わせと見なすことが可能な場合、単語列情報DB1d,1eに単語列と単語を混在させて登録しておくこともできる。
この場合、DB生成装置への入力データおよび発音情報生成装置への入力文字列に、単語を区切るための区切り記号(例えば「(空文字列)」)と、登録単位の区切りを示す区切り記号(例えば「/」)を定義しておく。そして、各装置において「ALDER BROOK/ROAD」等の単語列を区切り記号に従って単語列と単語に分け、それぞれに対して処理を行えばよい。
他方、DB生成装置への入力データには複数種の区切り記号を予め定義しておくことができても、発音情報生成装置への入力文字列に対して予め複数種の区切り記号を定義することができない場合がある。その場合には、DB生成装置は上述のように複数種の区切り記号に従って単語列と単語が混在した状態の単語列情報DB1d,1eを生成すればよい。一方、発音情報生成装置は、単語列情報検索部2が単語を区切るための区切り記号(例えば「(空文字列)」)のみに従って、例えば最初に「ALDER BROOK ROAD」を単語列情報DB1d,1eから検索し、登録がない場合は、次に「ALDER BROOK」と「ROAD」に分けて検索する。これでも登録がなければ、区切り位置を変えて「ALDER」と「BROOK ROAD」に分けて検索する等、1つの単語列に対して複数の区切り位置で区切って検索を行う方法もある。
実施の形態4.
本実施の形態4に係るDB生成装置の構成は、単語列情報DB1cを除いて図7のDB生成装置と図面上では略同一の構成であるため、図7を援用して説明する。本実施の形態4に係るDB生成装置は、単語列情報DB1cに代えて、図13に示す単語列情報DB1fおよび発音情報リスト10fを生成する。
また、本実施の形態4に係るDB生成装置が生成した単語列情報DB1fおよび発音情報リスト10fを使用する発音情報生成装置は、図1に示す発音情報生成装置と同様の構成であるため、図1を援用する。
上記実施の形態3では、発音情報生成部4により自動生成された発音情報と正式な発音情報とが一致する場合には単語列情報DB1d,1eに正式な発音情報が登録されていなかったが、本実施の形態4では、両者が一致する場合であっても、その単語の出現頻度が指定した閾値以上である場合には単語列情報DB1fに正式な発音情報を登録しておくこととする。
図13は、本実施の形態4に係るDB生成装置が生成する単語列情報DB1fおよび発音情報リスト10fの一例を示す図である。
表記情報「ALDER」は正式な発音情報が自動生成可能であるが、出現頻度算出部9が算出する出現頻度が所定の閾値以上であるため、図13に示す単語列情報DB1fでは発音情報の位置情報「1」が登録されている。そして、発音情報リスト10fの位置「1」に正式な発音情報「*”Ol|d@r」が登録されている。
これに対して、上記実施の形態3では、図10に示す単語列情報DB1dに、表記情報「ALDER」の発音情報の位置情報は登録されていない。
その他の単語は、たとえ正式な発音情報が自動生成可能であっても出現頻度が閾値未満であるので、図10に示す単語列情報DB1dと変わりない。ただし、発音情報リスト10fの位置「1」に「*”Ol|d@r」が登録されたため、以降、位置が1つずつずれている。
次に、DB生成装置の動作を説明する。なお、このDB生成装置は、上記実施の形態2の図9に示すフローチャートと略同じ動作である。ただし、上記実施の形態2のDB生成装置は単語列単位で発音情報の生成およびDBへの登録を行っていたが、本実施の形態4のDB生成装置は単語単位で発音情報の生成およびDBへの登録を行う。また、図9のステップST25にて、単語列情報登録部8cは、正式な発音情報を自動生成できない単語、または正式な発音情報は自動生成できるが出現頻度が閾値以上の単語について、入力データから取得した正式な発音情報を発音情報リスト10fに登録し、その単語の表記情報と発音情報の位置情報とを単語列情報DB1fに登録する。
以上より、実施の形態4によれば、発音情報生成装置の単語列情報DB記憶部1は、表記情報から自動生成される発音情報と正式な発音情報とが一致しない単語について、その正式な発音情報が登録されている発音情報リスト10fを備え、単語列情報DB1fは、単語の表記情報から自動生成される発音情報が、その単語の正式な発音情報に一致しない場合は表記情報と共に発音情報リスト10f内における正式な発音情報の登録位置を示す位置情報が登録されており、一致する場合であって単語列情報DB1f中でのこの単語の出現頻度が所定の閾値以上の場合も表記情報と共に位置情報が登録されており、一方、一致する場合であって出現頻度が閾値未満の場合は表記情報のみ登録されているように構成した。このため、上記実施の形態3と同様に、発音情報リスト10fに同一の発音情報が複数重複して登録されなくなり、単語列情報DB記憶部1の記憶する情報量を削減できる。また、上記実施の形態2と同様に、出現頻度の閾値を適切に設定することにより、単語列情報DB記憶部1の記憶する情報量の削減と、発音情報生成処理時間の短縮を両立させることができる。
なお、上記実施の形態4では、DB生成装置が、単語列情報DB1fに単語単位(「ALDER」など)で表記情報と発音情報の位置情報とを登録する構成としたが、これに限定されるものではなく、単語列単位(「ALDER BROOK」など)で表記情報と発音情報を登録する構成にしてもよい。そして、DB作成装置の出現頻度算出部9が単語単位に出現頻度を算出し、単語列情報取得部6、発音情報生成部4、発音情報比較部7および単語列情報登録部8cが単語列単位で処理を行えばよい。また、発音情報生成装置において単語列単位の単語列情報DB1fを単語列情報DB記憶部1に記憶させた場合には、単語列情報検索部2、発音情報生成判定部3、発音情報生成部4および発音情報出力部5が単語列単位で処理を行えばよい。
また、図示例では2つの単語から構成される単語列を示したが、3つ以上の単語から構成される単語列であってもよいし、あるいは単語列ではなく単語であってもよい。
さらに、「ALDER BROOK ROAD」および「ALDER BROOK PARK」のように、単語列と単語が混在する単語列情報について、上記実施の形態3で説明したのと同様に単語列と単語を混在させて単語列情報DB1fに登録してもよい。
実施の形態5.
図14は、本実施の形態5に係るナビゲーション装置の構成を示すブロック図である。このナビゲーション装置は、音声合成および音声認識に用いる発音情報を生成する発音情報生成装置100と、地名、道路名、施設名などとそれぞれの位置とを含む地図情報を格納した地図DB101と、地図情報を用いて経路探索および経路案内などを行うナビゲーション制御部102と、経路案内などを行う音声を合成する音声合成部103と、合成音声を出力するスピーカ104と、ユーザの発話を集音するマイク105と、音声認識辞書107を用いて目的地などの音声認識を行う音声認識部106と、発音情報生成装置100の発音情報から音声認識辞書107を生成する音声認識辞書生成部108とを備える。
発音情報生成装置100は、上記実施の形態1〜4で説明した発音情報生成装置である。ここでは実施の形態1に係る発音情報生成装置を例に発音情報生成装置100を説明することとし、図1を援用する。発音情報生成装置100の単語列情報DB記憶部1は、地図DB101に格納された地名、施設名などの単語列または単語から生成された単語列情報DBを記憶している。
音声認識辞書生成部108は、発音情報生成装置100が出力する発音情報を用いて音声認識用の音声認識辞書107を生成する。発音情報から音声認識辞書を生成する方法は公知の技術を用いればよいため、ここでは説明を省略する。
ナビゲーション装置において、例えば経路探索を行う際、ナビゲーション制御部102が、ある地点の周辺の施設(現在地または目的地の周辺の施設など)を検索する際に検索対象となる施設名を地図DB101から取得して発音情報生成装置100へ出力する。発音情報生成装置100は、入力された施設名の単語列または単語に対応する発音情報を生成して、音声認識辞書生成部108へ出力する。音声認識辞書生成部108は、入力された単語列または単語を用いて音声認識辞書107を生成する。
あるいは、ナビゲーション制御部102がある都市に含まれる道路の名称を検索する際に、検索対象となる道路名(選択されている都市を通る道路名)を地図DB101から取得して発音情報生成装置100へ出力し、上記施設名と同様にして、道路名の音声認識辞書107を生成することもできる。
続いて、ナビゲーション制御部102が検索対象となる施設名を画面表示し、ユーザに所望の目的地を表す施設名を発話させてマイク105で集音し、音声認識部106が音声認識辞書107を用いて音声認識し、ナビゲーション制御部102へ戻す。
続いて、ユーザが発話した目的地を正しく音声認識したか否かを確認するために、ナビゲーション制御部102が、音声認識部106から入力された目的地を示す音声認識結果の文字列(またはその文字列に設定された固有のID)を音声合成部103へ出力し、音声合成部103が発音情報生成装置100へ目的地の文字列(またはID)を出力する。発音情報生成装置100は、目的地の単語列または単語に対応する発音情報を生成して音声合成部103へ出力する。そして、音声合成部103がその発音情報に対応する音声情報を合成して、スピーカ104から出力する。
また例えば、経路案内を行う際、ナビゲーション制御部102は案内に使用する地名、施設名、道路名などの文字列(またはID)を音声合成部103へ出力し、音声合成部103が発音情報生成装置100からその文字列(またはID)に対応する発音情報を取得して音声情報を合成し、スピーカ104から出力する。
なお、発音情報生成装置100は、図14に示すナビゲーション装置の他、例えばオーディオ装置に適用することもできる。オーディオ装置であれば、ナビゲーション制御部102に代えて、CDなどの再生を行うオーディオ制御部を備える。
そして、例えば、メディアがオーディオ装置に挿入された時点で、書誌データ(例えば曲名、アーティスト名など)を入力文字列として、発音情報生成装置100と音声認識辞書生成部108が協働してアーティスト名の音声認識用、曲名の音声認識用などの音声認識辞書107を作成する。
また、例えば、ユーザがある検索を行ったタイミングで、検索結果(例えばアーティスト名を検索キーにして抽出したアルバム名)を入力文字列として、アルバム名の音声認識用の音声認識辞書107を作成することもできる。
続いて、音声認識部106が、ユーザが発話した曲名、アーティスト名、アルバム名などを音声認識し、オーディオ制御部がその認識結果に従って楽曲を再生したり、音声合成部103がその楽曲の書誌データを合成音声にしてユーザへ通知したりする。
さらに、オーディオ一体型のナビゲーション装置であってもよい。また、ハンズフリー通話などを実行する電話用の機能を備えていてもよい。この場合、電話機がヘッドユニットに接続されたタイミングで、電話帳検索用の辞書から電話帳の各エントリの名称(人名、レストラン名などの施設名)を抽出し、発音情報生成装置100を用いて音声認識辞書を生成する。そして、ユーザ発話を音声認識して発信先を特定し、通話を開始することができる。
以上より、上記実施の形態1〜4いずれかの発音情報生成装置はデータベースサイズの低減により小型化が可能となるので、小型化の要求されるカーナビゲーション装置またはカーオーディオ装置などの車載情報装置に用いるのに好適である。また、オフラインで予め生成した音声認識辞書を用いる場合には記憶装置のサイズが大きくなるが、本実施の形態5では発音情報生成装置100を利用して音声認識辞書をオンラインで生成するので、音声認識辞書に用いる記憶装置のサイズが小さくて足りる。
なお、ナビゲーション装置は、車両に限らず、人、鉄道、船舶、航空機などを含む移動体用のナビゲーション装置であってもよく、例えば車両への持込または車載に適したナビゲーション装置とする。
また、上記実施の形態1〜5では、英語の単語列を例に説明したが、これに限定されるものではなく、日本語、中国語、ドイツ語など任意の言語に適用可能であることは言うまでもない。また、発音情報の表記方式は図示例に限定されるものではなく、国際発音記号(IPA)などを用いてもよい。
その他にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る発音情報生成装置は、小容量のデータベースを用いて正しい発音情報を生成するようにしたので、カーナビゲーション装置およびカーオーディオ装置などの車載情報装置に用いるのに適している。
1 単語列情報DB記憶部、1a〜1f 単語列情報DB(単語列/単語情報データベース)、2 単語列情報検索部、3 発音情報生成判定部、4 発音情報生成部、5 発音情報出力部、6 単語列情報取得部、7 発音情報比較部、8,8c 単語列情報登録部、9 出現頻度算出部、10d〜10f 発音情報リスト、100 発音情報生成装置、101 地図DB、102 ナビゲーション制御部、103 音声合成部、104 スピーカ、105 マイク、106 音声認識部、107 音声認識辞書、108 音声認識辞書生成部。

Claims (6)

  1. 単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の表記に対応する正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報が登録されており、一致する場合は前記表記情報が登録され前記正式な発音情報は登録されていない単語列/単語情報データベースと、
    入力された単語列または単語に該当する表記情報を前記単語列/単語情報データベースから取得する単語列情報検索部と、
    前記単語列情報検索部の取得した前記表記情報に対応する正式な発音情報が前記単語列/単語情報データベースに登録されているか否かを判定する発音情報生成判定部と、
    前記発音情報生成判定部の判定結果に応じて、正式な発音情報の登録されていない前記表記情報から発音情報を生成する発音情報生成部と、
    前記発音情報生成判定部の判定結果に応じて、前記表記情報に対応する正式な発音情報が登録されていない場合は前記発音情報生成部の生成した前記発音情報を出力し、登録されている場合は前記単語列/単語情報データベースに登録されている当該正式な発音情報を出力する発音情報出力部とを備える発音情報生成装置。
  2. 単語列/単語情報データベースは、単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報が登録されており、一致する場合であって前記単語列/単語情報データベース中での当該単語列または単語の出現頻度が所定の閾値以上の場合も前記表記情報と共に前記正式な発音情報が登録されており、一致する場合であって前記出現頻度が所定の閾値未満の場合は前記表記情報が登録され前記正式な発音情報は登録されていないことを特徴とする請求項1記載の発音情報生成装置。
  3. 表記情報から自動生成される発音情報と正式な発音情報とが一致しない単語列または単語について、当該正式な発音情報が登録されている発音情報リストを備え、
    単語列/単語情報データベースは、前記正式な発音情報の代わりに、前記発音情報リスト内における前記正式な発音情報の登録位置を示す位置情報が前記表記情報と共に登録されており、
    発音情報生成判定部は、単語列情報検索部の取得した表記情報に対応する位置情報が前記単語列/単語情報データベースに登録されているか否かを判定し、
    前記発音情報生成部は、前記発音情報生成判定部の判定結果に応じて、位置情報の登録されていない前記表記情報から発音情報を生成し、
    発音情報出力部は、前記発音情報生成判定部の判定結果に応じて、前記表記情報に対応する位置情報が登録されていない場合は前記発音情報生成部の生成した前記発音情報を出力し、登録されている場合は前記発音情報リスト中の当該位置情報の指す位置に登録されている正式な発音情報を出力することを特徴とする請求項1記載の発音情報生成装置。
  4. 単語列/単語情報データベースは、単語列または単語の表記情報から自動生成される発音情報が、当該単語列または単語の正式な発音情報に一致しない場合は前記表記情報と共に発音情報リスト内における前記正式な発音情報の登録位置を示す位置情報が登録されており、一致する場合であって前記単語列/単語情報データベース中での当該単語列または単語の出現頻度が所定の閾値以上の場合も前記表記情報と共に前記位置情報が登録されており、一致する場合であって前記出現頻度が所定の閾値未満の場合は前記表記情報が登録され前記正式な発音情報は登録されていないことを特徴とする請求項3記載の発音情報生成装置。
  5. 請求項1記載の発音情報生成装置と、
    音声出力する単語列または単語の発音情報を前記発音情報生成装置により生成し、当該生成した発音情報を合成音声に変換する音声合成部と、
    音声認識対象となる単語列または単語を入力文字列にして前記発音情報生成装置により生成した発音情報に基づいて音声認識辞書を生成し、当該音声認識辞書を用いて、入力される音声情報の音声認識を行う音声認識部のうちの少なくとも一方を備えることを特徴とする車載情報装置。
  6. 単語列または単語の表記情報と、当該単語列または単語の表記に対応する正式な発音情報とが含まれた入力データに基づいて、前記表記情報から発音情報を生成する発音情報生成ステップと、
    前記発音情報生成ステップで生成した発音情報と前記入力データに含まれた前記正式な発音情報とを比較する発音情報比較ステップと、
    前記発音情報比較ステップの比較結果に応じて、前記発音情報生成ステップで生成した発音情報が前記正式な発音情報に一致しない場合は前記表記情報と共に前記正式な発音情報をデータベースに登録し、一致する場合は前記表記情報を前記データベースに登録して前記正式な発音情報は登録しない単語列情報登録ステップとを備えるデータベース生成方法。
JP2013520299A 2011-06-14 2011-06-14 発音情報生成装置、車載情報装置およびデータベース生成方法 Expired - Fee Related JP5335165B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/003374 WO2012172596A1 (ja) 2011-06-14 2011-06-14 発音情報生成装置、車載情報装置およびデータベース生成方法

Publications (2)

Publication Number Publication Date
JP5335165B2 true JP5335165B2 (ja) 2013-11-06
JPWO2012172596A1 JPWO2012172596A1 (ja) 2015-02-23

Family

ID=47356629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013520299A Expired - Fee Related JP5335165B2 (ja) 2011-06-14 2011-06-14 発音情報生成装置、車載情報装置およびデータベース生成方法

Country Status (4)

Country Link
US (1) US20140067400A1 (ja)
JP (1) JP5335165B2 (ja)
CN (1) CN103635961B (ja)
WO (1) WO2012172596A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
US20150073771A1 (en) * 2013-09-10 2015-03-12 Femi Oguntuase Voice Recognition Language Apparatus
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
KR20160060243A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 고객 응대 서비스 장치 및 방법
WO2016088241A1 (ja) * 2014-12-05 2016-06-09 三菱電機株式会社 音声処理システム及び音声処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212586A (ja) * 1998-01-22 1999-08-06 Nec Corp 音声合成装置
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JP2005018113A (ja) * 2003-06-23 2005-01-20 Hitachi Systems & Services Ltd 知識辞書を用いた属性データ付与装置およびその方法
JP2008021235A (ja) * 2006-07-14 2008-01-31 Denso Corp 読み登録システム及び読み登録プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2575252B2 (ja) * 1991-12-26 1997-01-22 沖電気工業株式会社 発音辞書管理方法
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
JP4581290B2 (ja) * 2001-05-16 2010-11-17 パナソニック株式会社 音声認識装置および音声認識方法
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2007086404A (ja) * 2005-09-22 2007-04-05 Nec Personal Products Co Ltd 音声合成装置
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
JPWO2010018796A1 (ja) * 2008-08-11 2012-01-26 旭化成株式会社 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212586A (ja) * 1998-01-22 1999-08-06 Nec Corp 音声合成装置
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JP2005018113A (ja) * 2003-06-23 2005-01-20 Hitachi Systems & Services Ltd 知識辞書を用いた属性データ付与装置およびその方法
JP2008021235A (ja) * 2006-07-14 2008-01-31 Denso Corp 読み登録システム及び読み登録プログラム

Also Published As

Publication number Publication date
US20140067400A1 (en) 2014-03-06
CN103635961A (zh) 2014-03-12
CN103635961B (zh) 2015-08-19
JPWO2012172596A1 (ja) 2015-02-23
WO2012172596A1 (ja) 2012-12-20

Similar Documents

Publication Publication Date Title
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
JP5697860B2 (ja) 情報検索装置,情報検索方法及びナビゲーションシステム
CN107016994B (zh) 语音识别的方法及装置
US8521539B1 (en) Method for chinese point-of-interest search
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2010191400A (ja) 音声認識装置およびデータ更新方法
GB2557714A (en) Determining phonetic relationships
Withanage et al. Voice-based road navigation system using natural language processing (nlp)
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
US7809563B2 (en) Speech recognition based on initial sound extraction for navigation and name search
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP4914632B2 (ja) ナビゲーション装置
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004294542A (ja) 音声認識装置及びそのプログラム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP3881155B2 (ja) 音声認識方法及び装置
JP5522679B2 (ja) 検索装置
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
JP2008134503A (ja) 音声認識装置、および音声認識方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130730

R150 Certificate of patent or registration of utility model

Ref document number: 5335165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees