JP5570675B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5570675B2
JP5570675B2 JP2014513310A JP2014513310A JP5570675B2 JP 5570675 B2 JP5570675 B2 JP 5570675B2 JP 2014513310 A JP2014513310 A JP 2014513310A JP 2014513310 A JP2014513310 A JP 2014513310A JP 5570675 B2 JP5570675 B2 JP 5570675B2
Authority
JP
Japan
Prior art keywords
abbreviation
speech
vocabulary
unit
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014513310A
Other languages
English (en)
Other versions
JPWO2013164870A1 (ja
Inventor
政信 大沢
知弘 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5570675B2 publication Critical patent/JP5570675B2/ja
Publication of JPWO2013164870A1 publication Critical patent/JPWO2013164870A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、入力された文字列から合成音声を生成して読み上げる音声合成装置に関するものである。
近年、カーナビゲーションシステム等において、SMS(Short Message Service)等の文章を音声で読み上げる機能が普及している。
しかし、あらゆる文章を適切に読み上げることが可能であるとは言い難い。その一例として、文章中の施設名称、住所名、道路名等(以下、「施設名称等」と呼ぶ。)に含まれる「Dr」や「St」等のように、複数の読み方を有する省略語の読み上げが挙げられる。
例えば、「St」は「Street」と「Saint」の二通りの読み方があるため、「Berkeley St」という道路名の場合、「St」が「Street」であるか「Saint」であるか判断することができず、適切に読み上げることができないという問題があった。
このような問題に対して、例えば、省略語の位置が語頭であるか語尾であるかによって、その読み上げ方を特定する方法がある(第1の方法)。例えば「St Andrews Church」のように、省略語である「St」が語頭にある場合は、「Saint」であると判断し、例えば「Berkeley St」のように「St」が語尾にある場合は、「Street」であると判断する。
また、別の方法として、例えば特許文献1に記載されているように、省略語を含む施設名称等と、当該施設名称等に対応する省略語の読み上げ方を特定した施設名称等を定義したテーブルを用意しておき、省略語を含む施設名称等が検出された場合は、当該テーブルを参照し、対応する施設名称等に置換して読み上げる方法がある(第2の方法)。
特開2007−41443号公報
しかしながら、例えば第1の方法のような従来の音声合成装置は、例えば「MARTINE DR HOSPITAL」のように、省略語が施設名称等の語中にある場合には、その省略前の語を特定することができない、という課題があった。
この場合には、例えば特許文献1に記載されているような方法(第2の方法)を用いて、例えば「MARTINE DR HOSPITAL」に対応する「MARTINE DOCTOR HOSPITAL」を予め定義しておくことにより対応することができるが、この方法では、予め多くの定義を行っておく必要があるため、多くのメモリが必要となる、という課題があった。
さらに、同一の位置で複数の読み方をする省略語を含む施設名称等の場合、例えば、「CT 365」という省略語に対して「Court 365」と「Connecticut 365」が考えられるような場合、SMS等を利用する搭乗者にとってどちらが適切な読み方であるかは、上記いずれの方法でも判断することができない。
この場合には、搭乗者が自身にとって適切な読み方を登録できるようにすることで対応することができるが、前記「CT 365」のような施設名称等が出現する度に登録作業を行う必要があるため煩わしい、という課題があった。
この発明は、上記のような課題を解決するためになされたものであり、施設名称等に含まれる省略語を、SMS等の読み上げ機能を利用する搭乗者にとって適切になるように読み上げる音声合成装置を提供することを目的とする。
上記目的を達成するため、この発明は、入力された文字列から合成音声を生成する音声合成装置において、入力された音声を検知して取得する音声取得部と、前記音声合成装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、前記音声認識部により出力された認識結果文字列から省略語展開用語彙を抽出する省略語展開用語彙抽出部と、省略語の展開規則を記憶した省略語展開規則記憶部と、前記入力された文字列から合成音声を生成するとともに、当該合成音声を生成する際に、前記省略語展開規則記憶部を参照することにより、前記入力された文字列に含まれる省略語を展開する音声合成部と、前記音声合成部による省略語の展開に失敗した語彙を登録する省略語未展開語彙記憶部と、前記省略語展開規則記憶部を参照することにより、前記省略語展開用語彙抽出部により抽出された省略語展開用語彙を用いて、前記省略語未展開語彙記憶部に登録されている省略語未展開語彙に含まれる省略語を展開する省略語展開部とを備えることを特徴とする。
この発明の音声合成装置によれば、搭乗者等の発話内容を常に認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ方で省略語を読み上げることができる。
実施の形態1による音声合成装置の一例を示すブロック図である。 実施の形態1における省略語展開規則記憶部に記憶されている規則の一例を示す図である。 実施の形態1において、入力されたテキストから合成音声を生成する際に省略語を展開する処理を示したフローチャートである。 実施の形態1において、省略語未展開語彙記憶部に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。 実施の形態2による音声合成装置の一例を示すブロック図である。 実施の形態2における省略語展開規則記憶部に記憶されている規則の一例を示す図である。 実施の形態2において、搭乗者によりタッチパネル上に表示されている施設名称等が選択(指示)された場合に、当該施設名称等を省略語未展開語彙記憶部に登録する処理を示したフローチャートである。 実施の形態2において(省略語展開規則記憶部に使用・再登録禁止規則が存在する場合に)、入力されたテキストから合成音声を生成する際に省略語を展開する処理を示したフローチャートである。 実施の形態2において(省略語展開規則記憶部に使用・再登録禁止規則が存在する場合に)、省略語未展開語彙記憶部に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
この発明は、入力された文字列から合成音声を生成する音声合成装置において、その音声合成装置が起動されている場合は常時、車両内の搭乗者等の発話内容を認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定するものである。なお、以下の実施の形態では、この発明の音声合成装置を、車両等の移動体に搭載されるカーナビゲーションシステムに適用した場合を例に挙げて説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声合成装置の一例を示すブロック図である。この音声合成装置は、音声取得部1と、音声認識部2と、省略語展開用語彙抽出部3と、省略語展開規則記憶部4と、省略語未展開語彙記憶部5と、省略語展開部6と、音声合成部7とを備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。
音声取得部1は、車内のマイク等により集音された搭乗者発話、ラジオ音声、テレビ音声等(以下、「搭乗者発話等」と呼ぶ。)の音声をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する。
音声認識部2は、認識辞書(図示せず)を有し、音声取得部1により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。また、音声認識部2は、後述のようにネットワーク上のサーバにあるものとしてもよい。
ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者が発話等の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン等(以下、「音声認識開始指示部」と呼ぶ)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者により音声認識開始指示部が押下された後に、発話等された音声を認識する。すなわち、音声認識開始指示部が音声認識開始信号を出力し、音声認識部が当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、上述した認識処理を行う。
しかし、この実施の形態1における音声認識部2は、上述したような搭乗者による音声認識開始指示がなくても、常に、搭乗者発話等の内容を認識する。すなわち、音声認識部2は、音声認識開始信号を受けなくても、音声取得部1により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。なお、以下の実施の形態においても同様である。
省略語展開用語彙抽出部3は、音声認識部2により出力された音声認識結果の文字列から、施設名称等が格納された地図データ記憶部(図示せず)を参照して形態素解析を行い、省略語展開用語彙を抽出する。
ここで、「省略語」とは、例えば「Doctor」や「Drive」を省略した「Dr」・「DR」、「Street」や「Saint」を省略した「St」・「ST」等の語を意味するものとする。また、「展開」とは、省略語の省略前の語を特定すること、「展開語」とは、省略語の省略前の語、を意味するものとする。そして、「省略語展開用語彙」とは、後述する省略語の展開の際に使用される語彙であり、例えば、施設名称、住所名、道路名等の施設名称等である。これらの用語の意味については、以下の実施の形態においても同様とする。
なお、省略語展開用語彙抽出部3は、施設名称等の発音情報や位置情報等が記憶されたデータベース(図示せず)を参照しながら形態素解析を行い、音声認識結果の文字列から施設名称等の抽出を行う。
省略語展開規則記憶部4は、省略語を展開するための規則が格納されている記憶部である。図2は、実施の形態1における省略語展開規則記憶部4に記憶されている規則の一例を示す図である。
まず、図2(a)は、省略語およびその省略語の施設名称等における位置と、当該省略語に対する展開語が、当該省略語に対応付けて記憶されている規則を示す。例えば、省略語「DR」と当該省略語の位置「語頭」に対して「Doctor」が対応付けられており、省略語「DR」と当該省略語の位置「語尾」に対して、「Drive」が対応付けられている。
なお、「位置」の情報については図2(a)に示すように「語頭」や「語尾」という情報に限られず、例えば、語頭を「0」、語尾を「1」というように数値が格納されていてもよい。
また、図2(b)については、後述する省略語展開部6の説明の際に合わせて説明する。
省略語未展開語彙記憶部5は、省略語を含む施設名称等であって、後述する音声合成部7による音声合成処理の際に、当該省略語の展開に失敗したものが格納されている記憶部である。
省略語展開部6は、省略語展開用語彙抽出部3により抽出された施設名称等を用いて、省略語展開規則記憶部4を参照しながら、省略語未展開語彙記憶部5に格納されている施設名称等に含まれている省略語を展開する。そして、省略語展開前の施設名称等と省略語展開後の施設名称等を、当該省略語展開前の施設名称等に対応付けて、省略語展開規則記憶部4に登録する。
このようにして、省略語展開部6により省略語展開規則記憶部4に登録された規則の例を図2(b)に示す。ここでは、省略語未展開語彙記憶部5に格納されていた省略語を含む道路名「CT 365」と、省略語展開部6により「CT365」の中の省略語「CT」が展開された「Court 365」や、省略語を含む施設名称「MARTINE DR HOSPITAL」に対応する「MARTINE DOCTOR HOSPITAL」が登録されている。
すなわち、省略語展開規則記憶部4には、予め登録されている図2(a)に示すような基本的な規則が記憶されており、当初は記憶されていなくて展開できなかった省略語(省略語未展開語彙記憶部5に格納されていた省略語)を展開する図2(b)に示すような規則が、省略語展開部6により追加で登録(記憶)されていくものである。
音声合成部7は、入力された文字列から合成音声を生成する。ここで、音声合成部7は、音声合成処理を行う前処理として、合成音声の生成対象となる施設名称等に省略語が含まれているか否か判定し、省略語が含まれている場合は省略語展開規則記憶部4を参照しながら当該省略語の展開を行い、展開に失敗した場合は当該施設名称等を省略語未展開語彙記憶部5に登録する。なお、音声合成の方法については公知の技術を用いればよいため、ここでは説明を省略する。
次に、図3および図4に示すフローチャートを用いて、実施の形態1の音声合成装置の動作を説明する。
図3は、入力されたテキストから合成音声を生成する際に、その前処理として実施される、省略語を展開する処理を示したフローチャートである。なお、ここでは、施設名称等に含まれる省略語の展開を例に説明する。
まず、音声合成部7に文字列が入力されると、音声合成部7は、公知の形態素解析処理等によって、入力された文字列を合成音声する単位に分割した後、省略語展開規則記憶部4を参照して、当該分割された文字列に省略語が含まれているか否か判定する(ステップST01)。ここでは、一例として、当該判定がなされる対象が施設名称等であるとして以降の動作を説明する。省略語が含まれていない場合(ステップST01のNOの場合)は、処理を終了する。一方、省略語が含まれている場合(ステップST01のYESの場合)は、音声合成部7は、省略語展開規則記憶部4を参照して省略語を展開する(ステップST02)。
省略語の展開に成功した場合(ステップST03のYESの場合)は、省略語を展開語に置換し(ステップST04)、その後、処理を終了する。省略語の展開に失敗した場合(ステップST03のNOの場合)は、音声合成処理部7は、省略語を含む施設名称等を省略語未展開語彙記憶部5に登録して(ステップST05)、処理を終了する。
次に、具体例を示して動作を説明する。なお、図2(b)では情報が登録されている状態を表しているが、ここでは、何も登録されていないことを前提として説明する。
例えば、「I will go to PARK AVE.」という文字列が入力されると、道路名称である「PARK AVE」に、省略語展開規則記憶部4に定義されている省略語「AVE」が含まれているので(ステップST01のYESの場合)、音声合成部7は、省略語展開規則記憶部4を参照して「AVE」に対応する展開語「Avenue」を取得し(ステップST02、ステップST03のYESの場合)、「AVE」を「Avenue」に置換する(ステップST04)。
一方、「I will go to MARTINE DR HOSPITAL.」という文字列が入力されると、施設名称である「MARTINE DR HOSPITAL」に、省略語展開規則記憶部4に定義されている省略語「DR」が含まれているので(ステップST01のYESの場合)、音声合成部7は、省略語展開規則記憶部4を参照して「DR」に対応する展開語の取得を試みる(ステップST02)。しかし、この場合、省略語「DR」の施設名称における位置は“語中”であるので、図2(a)の規則を適用できない。また、図2(b)には、「MARTINE DR HOSPITAL」に対応する文字列が登録されていないため、図2(b)の規則も適用できず、展開語が「Doctor」であるか「Drive」であるか特定することができない。この場合(ステップST03のNOの場合)、音声合成部7は、省略語未展開語彙記憶部5に「MARTINE DR HOSPITAL」を登録する(ステップST05)。
その他、「I will go to CT365.」という文字列が入力された場合も同様に、「CT365」が省略語未展開語彙記憶部5に登録される。
図4は、図3の処理で音声合成部7により省略語未展開語彙記憶部5に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。
まず、音声取得部1は、マイク等により集音された車内の音声をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する。(ステップST11)。ここで、車内の音声とは搭乗者が発話した音声、TVやラジオから出力される例えば交通情報の音声等を含むものとする。
次に、音声認識部2は、音声取得部1で取得された音声データを認識し、認識結果を文字列で出力する(ステップST12)。ここで、音声認識部2は前述したとおり、音声認識開始信号を受けなくても認識処理を行う。
そして、省略語展開用語彙抽出部3は、地図データ記憶部(図示せず)を参照しながら、音声認識部2により出力された文字列から施設名称等を抽出する(ステップST13)。なお、ここでは、省略語展開用語彙を施設名称等として説明する。ここで、地図データ記憶部は、例えばDVD−ROMやハードディスク、SDカードなどの媒体に、例えば道路データ、交差点データ、施設データ等の地図データが記憶されている記憶部である。なお、この地図データ記憶部の代わりに、ネットワーク上に存在し、通信ネットワークを介して道路データなどの地図データ情報を取得できる地図データ取得部を用いるようにしてもよい。
省略語展開部6は、省略語展開用語彙抽出部3により抽出された施設名称等と類似する施設名称等が、省略語未展開語彙記憶部5に存在するか否かを調べる(ステップST14)。ここで、類似するか否かの判断は、例えば、施設名称等を構成する一または複数の語から成る文字列の一致する個数が所定の閾値以上であるかどうかで行うことができる。類似する施設名称等が省略語未展開語彙記憶部5に存在しない場合(ステップST14のNOの場合)、処理を終了する。
一方、類似する施設名称等が存在する場合(ステップST14のYESの場合)は、省略語未展開語彙記憶部5から当該類似する施設名称等を取得し、STEP13において抽出された施設名称等と比較して、当該抽出された施設名称等含まれる省略語に対応する展開語を特定する(ステップST15)。省略語に対応する展開語が特定された場合、すなわち省略語の展開に成功した場合(ステップST16のYESの場合)は、省略語と省略語に対する展開語を当該省略語に対応付けて省略語展開規則記憶部4に登録する(ステップST17)。一方、省略語の展開に失敗した場合(ステップST16のNOの場合)は、処理を終了する。
次に、具体例を示して動作を説明する。
例えば、車内で「Did you go to the hospital yesterday?」「Yes. I went to MARTINE DOCTOR HOSPITAL.」という会話がなされているとすると、音声取得部1がその音声を取得し(ステップST11)、音声認識部2は音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する(ステップST12)。
次に、省略語展開用語彙抽出部3は、当該認識結果から施設名称等である「MARTINE DOCTOR HOSPITAL」を抽出する(ステップST13)。そして、省略語展開部6は、省略語未展開語彙記憶部5に「MARTINE DOCTOR HOSPITAL」と類似する施設名称等が存在するか調べる。なお、閾値は「一または複数の語から成る文字列の一致する個数が2以上」と仮定する。この場合、省略語未展開語彙記憶部5に登録されている「MARTINE DR HOSPITAL」は、「MARTINE DOCTOR HOSPITAL」と比較すると「MARTINE」「HOSPITAL」の2つが一致しているので、類似していると判断される(ステップST14のYESの場合)。
その後、省略語展開部6は、省略語「DR」の展開を行う。この場合、先の比較により相違する文字列が「DR」と「DOCTOR」であり、「DOCTOR」が「DR」の展開語の候補となる。ここで、省略語展開規則記憶部4の図2(a)を参照すると「DR」の展開語として「DOCTOR」が登録されているので、「DR」の展開語は「DOCTOR」であると確定することができる(ステップST15、ステップST16のYESの場合)。続いて、省略語展開部6は、図2(b)に示すように、省略語を含む施設名称等「MARTINE DR HOSPITAL」に省略語展開部6により特定された施設名称等「MARTINE DOCTOR HOSPITAL」を対応付けて、省略語展開規則記憶部4に登録する(ステップST17)。
上述したように、省略語展開規則記憶部4に図2(b)に示すような規則が登録されることにより、それ以降、音声合成部7は、「MARTINE DR HOSPITAL」の省略語「DR」を展開する場合は、ステップST02にて省略語展開規則記憶部4を参照して省略語を展開する際に、図2(b)に示すような追加で登録された規則も合わせて参照することにより、「MARTINE DR HOSPITAL」の省略語「DR」を「DOCTOR」と展開することができる。
以上のように、この実施の形態1によれば、搭乗者の発話内容を常に認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ方で省略語を読み上げることができる。また、搭乗者が意識しなくても音声合成装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のための搭乗者の手動操作や入力の意思などを必要としない。
なお、音声認識部2および省略語展開用語彙抽出部3がネットワーク上のサーバにあり、通信部(図字せず)を介して情報の送受信を行う構成としてもよい。
この場合、まず、音声取得部1により取得された音声データを、通信部を介してサーバの音声認識部2に送信する。音声認識部2は、送信された音声データを認識し、省略語展開用語彙抽出部3は、認識結果から施設名称等を抽出する。その後、抽出された施設名称等を音声データの送信元へ送信する。音声合成装置は該施設名称等を受信し、受信した施設名称等を用いて以後の省略語の展開処理を行う。
以上の構成とすることで、サーバ側の高い処理能力や豊富なメモリを利用することができるため、迅速かつ高精度な認識、迅速かつ正確な施設名称等の抽出、音声合成装置の処理負荷の低減等を図ることができる。
また、複数の特定または不特定の合成音声装置が、音声認識部2および省略語展開用語彙抽出部3と、通信部を介して情報の送受信をできるものとし、一の装置により送信された音声データが認識され、認識結果から施設名称等が抽出された場合、当該抽出された施設名称等を、他の一または複数の音声合成装置に送信するとしてもよい。すなわち、音声認識部2と省略語展開用語彙抽出部3による処理結果を、複数の装置で共有することができるようにしてもよい。
以上の構成とすることで、多数の認識結果から抽出された施設名称等を利用することができるため、短期間で省略語未展開語を展開することができる。
実施の形態2.
図5は、この発明の実施の形態2による音声合成装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、訂正語彙取得部8と訂正語彙登録部9をさらに備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。
また、図6は、実施の形態2における省略語展開規則記憶部4に記憶されている規則の一例を示す図であり、この図6に示すように、この実施の形態2における省略語展開規則記憶部4は、記憶されている省略語の展開規則を使用・再登録禁止とするか否かを示す、使用・再登録許可フラグ(Trueが許可、Falseが禁止)の情報もデータとして有している。
訂正語彙取得部8は、例えばLCD(Liquid Crystal Display)とタッチセンサから構成されているタッチパネルなどの表示部(図示せず)に表示された単語が搭乗者により選択(指示)されると、地図データと省略語展開規則記憶部4を参照して、当該選択(指示)された単語が省略語を含む施設名称等か否かを判断し、当該施設名称等であれば取得する。なお、搭乗者による選択(指示)は、タッチパネル等の入力部(図示せず)を介して行われるものであり、この入力部が、訂正指示を受け付ける訂正指示部を構成する。また、搭乗者のタッチパネル等への接触によりタッチセンサから出力された信号から、搭乗者が選択(指示)しようとしている単語を特定する方法については公知の技術を利用すればよいため、ここでは説明を省略する。
訂正語彙登録部9は、訂正語彙取得部8により取得された施設名称等を、省略語未展開語記憶部5に登録するとともに、省略語展開規則記憶部4に登録されている追加で登録された規則(例えば、実施の形態1における図2(b)に示すような規則)であって、当該取得された施設名称等の展開に使用された規則を使用・再登録禁止とする。使用・再登録禁止とする方法については、例えば、図6(a)に示すように、図2(b)に示した規則に使用・再登録許可フラグ(Trueが許可、Falseが禁止)を新たに追加し、音声合成部7が省略語を展開する際に、当該フラグが使用・再登録禁止となっている場合は、対応する規則を使用しないようにすればよい。また、省略語展開部6が展開規則を登録する際、当該フラグが使用・再登録禁止となっている規則であれば、登録しないようにすればよい。
次に、図7〜図9に示すフローチャートを用いて実施の形態2における音声合成装置の動作を説明する。
図7は、搭乗者によりタッチパネル上に表示されている施設名称等が選択(指示)された場合に、当該施設名称等を省略語未展開語彙記憶部5に登録する処理を示したフローチャートである。なお、ここでも、施設名称等に含まれる省略語の展開を例に説明する。
まず、搭乗者によりタッチパネル上に表示されている単語が選択(指示)されると、訂正指示部により当該選択(指示)が受け付けられ、訂正語彙取得部8は、地図データと省略語展開規則記憶部4を参照して、当該選択(指示)された単語が省略語を含む施設名称等が否かを判断し、該当しない場合は処理を終了する(ステップ21のNOの場合)。一方、該当する場合、すなわち、選択(指示)された単語が施設名称等であり、かつ、施設名称等に省略語が含まれている場合(ステップST21のYESの場合)は、当該施設名称等を取得する(ステップST22)。
次に、訂正語彙登録部9は、訂正語彙取得部8により取得された施設名称等に含まれる省略語の展開に使用された、省略語展開規則記憶部4に記憶されている規則を使用・再登録禁止にする(ステップST23)。その後、当該施設名称等を省略語未展開語彙記憶部5に登録して(ステップST24)、処理を終了する。
図8は、省略語展開規則記憶部4に、使用・再登録禁止規則が存在する場合の合成音声生成処理を示したフローチャートである。
まず、音声合成部7に文字列が入力されると、音声合成部7は、公知の形態素解析処理等によって、入力された文字列を合成音声する単位に分割した後、省略語展開規則記憶部4を参照して、当該分割された文字列に省略語が含まれているか否か判定する(ステップST31)。ここでは、一例として、当該判定がなされる対象が施設名称等であるとして以降の動作を説明する。省略語が含まれていない場合(ステップST31のNOの場合)は、処理を終了する。
一方、省略語が含まれている場合(ステップST31のYESの場合)は、省略語展開部6は、省略語展開規則記憶部4を参照して、省略語を展開する際に適用しようとした規則が使用・再登録禁止であるか否かを判断する(ステップST32)。規則が使用・再登録禁止である場合(ステップST32のNOの場合)は、処理を終了する。一方、使用・再登録禁止でない場合(ステップST32のYESの場合)は、ステップST33以降の処理を行う。なお、ステップST33〜ST36の処理については、実施の形態1における図3に示したステップST02〜ST05の処理と同一であるため、説明を省略する。
図9は、省略語展開規則記憶部4に、使用・再登録禁止規則が存在する場合の省略語の展開の処理を示したフローチャートである。
ここで、図9に示すステップST41〜46の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。
そして、ステップST46において、省略語の展開に成功し(ステップST46のYESの場合)、省略語と省略語に対する展開語を省略語展開規則記憶部4に規則として登録する際に、当該規則が使用・再登録禁止規則である場合(ステップST47のYESの場合)には、処理を終了する。一方、使用・再登録禁止規則ではない場合(ステップST47のNOの場合)は、省略語と省略語に対する展開語を当該省略語に対応付けて省略語展開規則記憶部4に登録する(ステップST48)。
次に、具体例を示して動作を説明する。
例えば、「I will go to CT 365.」という文字列が入力され、音声合成部7が省略語展開規則記憶部4に登録されている図6(a)の規則を参照することにより、「CT 365」を「Court 365」と展開し合成音声を生成した場合を例に説明する。
ここで、搭乗者が「CT 365」を「Connecticut 365」と読み上げられることを想定しており、誤って読み上げられたタッチパネル上の「CT 365」が、搭乗者によって選択(指示)されたとする。その結果、訂正語彙取得部8が、省略語展開規則記憶部4の規則(図5(a)の2行目)を参照し、「CT 365」が施設名称等であり、かつ、省略語が含まれていると判断し(ステップST21のYESの場合)、この「Court 365」を取得する(ステップST22)。
そして、訂正語彙登録部9により、省略語「CT 365」の展開に使用された省略語展開規則記憶部4の規則(図5(a)の2行目)について、使用・再登録許可フラグを「False」(使用・再登録禁止)に設定する(ステップST23)。図5(b)は、このように変更された状態を示すものである。
これと同時に、訂正語彙登録部9により、省略語未展開語記憶部5に「CT365」が登録される(ステップST24)。
その後、「I will go to Connecticut 365.」と発話されると、図8および図9に示したフローチャートに従って、省略語展開規則記憶部4に省略語「CT 365」に施設名称等「Connecticut 365」が対応付けられた規則(図5(c)の3行目)が追加で登録される。
これによって、次回以降「I will go to CT 365.」は搭乗者が所望する「I will go to Connecticut 365.」と読み上げられる。
以上のような構成にすることによって、誤った規則で省略語が展開され続けることを防ぐことができる。
なお、使用・再登録許可フラグが「False」と設定された規則は、同一の省略語に対する新しい規則が追加された場合に、削除することとしてもよい。
このようにすることで、使用されない規則によりメモリ使用量が増加することを防ぐことができる。
なお、この発明の音声合成装置は、移動体に搭載されるカーナビゲーションシステムに適用するものであり、音声取得部1に入力される音声は、移動体の搭乗者の発話、ラジオ音声、テレビ音声等であるものとして説明したが、このように、搭乗者発話だけでなく、ラジオ音声やテレビ音声であっても常に認識し、その発話内容に含まれる施設名称等を用いて、当該施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ肩で省略語を読み上げることができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の音声合成装置は、カーナビゲーションシステムなどに適用することができる。
1 音声取得部、2 音声認識部、3 省略語展開用語彙抽出部、4 省略語展開規則記憶部、5 省略語未展開語彙記憶部、6 省略語展開部、7 音声合成部、8 訂正語彙取得部、9 訂正語彙登録部。

Claims (3)

  1. 入力された文字列から合成音声を生成する音声合成装置において、
    入力された音声を検知して取得する音声取得部と、
    前記音声合成装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
    前記音声認識部により出力された認識結果文字列から省略語展開用語彙を抽出する省略語展開用語彙抽出部と、
    省略語の展開規則を記憶した省略語展開規則記憶部と、
    前記入力された文字列から合成音声を生成するとともに、当該合成音声を生成する際に、前記省略語展開規則記憶部を参照することにより、前記入力された文字列に含まれる省略語を展開する音声合成部と、
    前記音声合成部による省略語の展開に失敗した語彙を登録する省略語未展開語彙記憶部と、
    前記省略語展開規則記憶部を参照することにより、前記省略語展開用語彙抽出部により抽出された省略語展開用語彙を用いて、前記省略語未展開語彙記憶部に登録されている省略語未展開語彙に含まれる省略語を展開する省略語展開部とを備える
    ことを特徴とする音声合成装置。
  2. 訂正指示を受け付ける訂正指示部と、
    前記訂正指示部により受け付けられた指示に基づき訂正語彙を取得する訂正語彙取得部と、
    前記訂正語彙取得部により取得された訂正語彙を前記省略語未展開語彙記憶部に登録する訂正語彙登録部とをさらに備える
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記音声合成装置は移動体に搭載されており、
    前記音声取得部に入力される音声は、前記移動体の搭乗者の発話、ラジオ音声、テレビ音声であることを特徴とする請求項1記載の音声合成装置。
JP2014513310A 2012-05-02 2012-05-02 音声合成装置 Expired - Fee Related JP5570675B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/002972 WO2013164870A1 (ja) 2012-05-02 2012-05-02 音声合成装置

Publications (2)

Publication Number Publication Date
JP5570675B2 true JP5570675B2 (ja) 2014-08-13
JPWO2013164870A1 JPWO2013164870A1 (ja) 2015-12-24

Family

ID=49514281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014513310A Expired - Fee Related JP5570675B2 (ja) 2012-05-02 2012-05-02 音声合成装置

Country Status (4)

Country Link
US (1) US20150019224A1 (ja)
JP (1) JP5570675B2 (ja)
DE (1) DE112012006308B4 (ja)
WO (1) WO2013164870A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152532B2 (en) * 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
US10199034B2 (en) * 2014-08-18 2019-02-05 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996022594A1 (en) * 1995-01-20 1996-07-25 Centigram Communications Corporation Text to speech reader for electronic mail messages, address books and the like
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法
JP2009230062A (ja) * 2008-03-25 2009-10-08 Fujitsu Ltd 音声合成装置およびそれを用いた読み上げシステム。

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671670B2 (en) * 2001-06-27 2003-12-30 Telelogue, Inc. System and method for pre-processing information used by an automated attendant
US7536297B2 (en) * 2002-01-22 2009-05-19 International Business Machines Corporation System and method for hybrid text mining for finding abbreviations and their definitions
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
US20070220037A1 (en) * 2006-03-20 2007-09-20 Microsoft Corporation Expansion phrase database for abbreviated terms
US7848918B2 (en) * 2006-10-04 2010-12-07 Microsoft Corporation Abbreviation expansion based on learned weights
US7809715B2 (en) * 2008-04-15 2010-10-05 Yahoo! Inc. Abbreviation handling in web search
US8312057B2 (en) * 2008-10-06 2012-11-13 General Electric Company Methods and system to generate data associated with a medical report using voice inputs
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996022594A1 (en) * 1995-01-20 1996-07-25 Centigram Communications Corporation Text to speech reader for electronic mail messages, address books and the like
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法
JP2009230062A (ja) * 2008-03-25 2009-10-08 Fujitsu Ltd 音声合成装置およびそれを用いた読み上げシステム。

Also Published As

Publication number Publication date
DE112012006308B4 (de) 2016-02-04
US20150019224A1 (en) 2015-01-15
JPWO2013164870A1 (ja) 2015-12-24
WO2013164870A1 (ja) 2013-11-07
DE112012006308T5 (de) 2015-01-08

Similar Documents

Publication Publication Date Title
JP5158174B2 (ja) 音声認識装置
JP4790024B2 (ja) 音声認識装置
US9239829B2 (en) Speech recognition device
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
US20120203553A1 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP5570675B2 (ja) 音声合成装置
US20070156405A1 (en) Speech recognition system
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
US7809563B2 (en) Speech recognition based on initial sound extraction for navigation and name search
JP2004053978A (ja) 音声発生装置、音声発生方法及びナビゲーション装置
US7295923B2 (en) Navigation device and address input method thereof
JP2006330577A (ja) 音声認識装置及び音声認識方法
JP5591428B2 (ja) 自動記録装置
JP2000338993A (ja) 音声認識装置、その装置を用いたナビゲーションシステム
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2001027540A (ja) 音声認識機能を用いたナビゲーション方法
JP2000122685A (ja) ナビゲーションシステム
JP2001141500A (ja) 車載エージェント処理装置
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JP3911835B2 (ja) 音声認識装置及びナビゲーションシステム
JP2004053979A (ja) 音声認識辞書の作成方法及び音声認識辞書作成システム
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JPH11282486A (ja) サブワード型不特定話者音声認識装置及び方法

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140527

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140624

R150 Certificate of patent or registration of utility model

Ref document number: 5570675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees