JP5570675B2

JP5570675B2 - 音声合成装置

Info

Publication number: JP5570675B2
Application number: JP2014513310A
Authority: JP
Inventors: 政信大沢; 知弘岩崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-05-02
Filing date: 2012-05-02
Publication date: 2014-08-13
Anticipated expiration: 2032-05-02
Also published as: DE112012006308B4; US20150019224A1; JPWO2013164870A1; WO2013164870A1; DE112012006308T5

Description

この発明は、入力された文字列から合成音声を生成して読み上げる音声合成装置に関するものである。

近年、カーナビゲーションシステム等において、ＳＭＳ（Short Message Service）等の文章を音声で読み上げる機能が普及している。
しかし、あらゆる文章を適切に読み上げることが可能であるとは言い難い。その一例として、文章中の施設名称、住所名、道路名等（以下、「施設名称等」と呼ぶ。）に含まれる「Dr」や「St」等のように、複数の読み方を有する省略語の読み上げが挙げられる。
例えば、「St」は「Street」と「Saint」の二通りの読み方があるため、「Berkeley St」という道路名の場合、「St」が「Street」であるか「Saint」であるか判断することができず、適切に読み上げることができないという問題があった。

このような問題に対して、例えば、省略語の位置が語頭であるか語尾であるかによって、その読み上げ方を特定する方法がある（第１の方法）。例えば「St Andrews Church」のように、省略語である「St」が語頭にある場合は、「Saint」であると判断し、例えば「Berkeley St」のように「St」が語尾にある場合は、「Street」であると判断する。

また、別の方法として、例えば特許文献１に記載されているように、省略語を含む施設名称等と、当該施設名称等に対応する省略語の読み上げ方を特定した施設名称等を定義したテーブルを用意しておき、省略語を含む施設名称等が検出された場合は、当該テーブルを参照し、対応する施設名称等に置換して読み上げる方法がある（第２の方法）。

特開２００７−４１４４３号公報

しかしながら、例えば第１の方法のような従来の音声合成装置は、例えば「MARTINE DR HOSPITAL」のように、省略語が施設名称等の語中にある場合には、その省略前の語を特定することができない、という課題があった。
この場合には、例えば特許文献１に記載されているような方法（第２の方法）を用いて、例えば「MARTINE DR HOSPITAL」に対応する「MARTINE DOCTOR HOSPITAL」を予め定義しておくことにより対応することができるが、この方法では、予め多くの定義を行っておく必要があるため、多くのメモリが必要となる、という課題があった。

さらに、同一の位置で複数の読み方をする省略語を含む施設名称等の場合、例えば、「CT 365」という省略語に対して「Court 365」と「Connecticut 365」が考えられるような場合、ＳＭＳ等を利用する搭乗者にとってどちらが適切な読み方であるかは、上記いずれの方法でも判断することができない。
この場合には、搭乗者が自身にとって適切な読み方を登録できるようにすることで対応することができるが、前記「CT 365」のような施設名称等が出現する度に登録作業を行う必要があるため煩わしい、という課題があった。

この発明は、上記のような課題を解決するためになされたものであり、施設名称等に含まれる省略語を、ＳＭＳ等の読み上げ機能を利用する搭乗者にとって適切になるように読み上げる音声合成装置を提供することを目的とする。

上記目的を達成するため、この発明は、入力された文字列から合成音声を生成する音声合成装置において、入力された音声を検知して取得する音声取得部と、前記音声合成装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、前記音声認識部により出力された認識結果文字列から省略語展開用語彙を抽出する省略語展開用語彙抽出部と、省略語の展開規則を記憶した省略語展開規則記憶部と、前記入力された文字列から合成音声を生成するとともに、当該合成音声を生成する際に、前記省略語展開規則記憶部を参照することにより、前記入力された文字列に含まれる省略語を展開する音声合成部と、前記音声合成部による省略語の展開に失敗した語彙を登録する省略語未展開語彙記憶部と、前記省略語展開規則記憶部を参照することにより、前記省略語展開用語彙抽出部により抽出された省略語展開用語彙を用いて、前記省略語未展開語彙記憶部に登録されている省略語未展開語彙に含まれる省略語を展開する省略語展開部とを備えることを特徴とする。

この発明の音声合成装置によれば、搭乗者等の発話内容を常に認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ方で省略語を読み上げることができる。

実施の形態１による音声合成装置の一例を示すブロック図である。実施の形態１における省略語展開規則記憶部に記憶されている規則の一例を示す図である。実施の形態１において、入力されたテキストから合成音声を生成する際に省略語を展開する処理を示したフローチャートである。実施の形態１において、省略語未展開語彙記憶部に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。実施の形態２による音声合成装置の一例を示すブロック図である。実施の形態２における省略語展開規則記憶部に記憶されている規則の一例を示す図である。実施の形態２において、搭乗者によりタッチパネル上に表示されている施設名称等が選択（指示）された場合に、当該施設名称等を省略語未展開語彙記憶部に登録する処理を示したフローチャートである。実施の形態２において（省略語展開規則記憶部に使用・再登録禁止規則が存在する場合に）、入力されたテキストから合成音声を生成する際に省略語を展開する処理を示したフローチャートである。実施の形態２において（省略語展開規則記憶部に使用・再登録禁止規則が存在する場合に）、省略語未展開語彙記憶部に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。

以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
この発明は、入力された文字列から合成音声を生成する音声合成装置において、その音声合成装置が起動されている場合は常時、車両内の搭乗者等の発話内容を認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定するものである。なお、以下の実施の形態では、この発明の音声合成装置を、車両等の移動体に搭載されるカーナビゲーションシステムに適用した場合を例に挙げて説明する。

実施の形態１．
図１は、この発明の実施の形態１による音声合成装置の一例を示すブロック図である。この音声合成装置は、音声取得部１と、音声認識部２と、省略語展開用語彙抽出部３と、省略語展開規則記憶部４と、省略語未展開語彙記憶部５と、省略語展開部６と、音声合成部７とを備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。

音声取得部１は、車内のマイク等により集音された搭乗者発話、ラジオ音声、テレビ音声等（以下、「搭乗者発話等」と呼ぶ。）の音声をＡ／Ｄ変換して、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式で取得する。

音声認識部２は、認識辞書（図示せず）を有し、音声取得部１により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよい。また、音声認識部２は、後述のようにネットワーク上のサーバにあるものとしてもよい。

ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者が発話等の開始をシステムに対して明示（指示）するのが一般的である。そのために、音声認識開始を指示するボタン等（以下、「音声認識開始指示部」と呼ぶ）が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者により音声認識開始指示部が押下された後に、発話等された音声を認識する。すなわち、音声認識開始指示部が音声認識開始信号を出力し、音声認識部が当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、上述した認識処理を行う。

しかし、この実施の形態１における音声認識部２は、上述したような搭乗者による音声認識開始指示がなくても、常に、搭乗者発話等の内容を認識する。すなわち、音声認識部２は、音声認識開始信号を受けなくても、音声取得部１により取得された音声データから、搭乗者発話等の内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。なお、以下の実施の形態においても同様である。

省略語展開用語彙抽出部３は、音声認識部２により出力された音声認識結果の文字列から、施設名称等が格納された地図データ記憶部（図示せず）を参照して形態素解析を行い、省略語展開用語彙を抽出する。
ここで、「省略語」とは、例えば「Doctor」や「Drive」を省略した「Dr」・「DR」、「Street」や「Saint」を省略した「St」・「ST」等の語を意味するものとする。また、「展開」とは、省略語の省略前の語を特定すること、「展開語」とは、省略語の省略前の語、を意味するものとする。そして、「省略語展開用語彙」とは、後述する省略語の展開の際に使用される語彙であり、例えば、施設名称、住所名、道路名等の施設名称等である。これらの用語の意味については、以下の実施の形態においても同様とする。
なお、省略語展開用語彙抽出部３は、施設名称等の発音情報や位置情報等が記憶されたデータベース（図示せず）を参照しながら形態素解析を行い、音声認識結果の文字列から施設名称等の抽出を行う。

省略語展開規則記憶部４は、省略語を展開するための規則が格納されている記憶部である。図２は、実施の形態１における省略語展開規則記憶部４に記憶されている規則の一例を示す図である。
まず、図２（ａ）は、省略語およびその省略語の施設名称等における位置と、当該省略語に対する展開語が、当該省略語に対応付けて記憶されている規則を示す。例えば、省略語「DR」と当該省略語の位置「語頭」に対して「Doctor」が対応付けられており、省略語「DR」と当該省略語の位置「語尾」に対して、「Drive」が対応付けられている。
なお、「位置」の情報については図２（ａ）に示すように「語頭」や「語尾」という情報に限られず、例えば、語頭を「０」、語尾を「１」というように数値が格納されていてもよい。
また、図２（ｂ）については、後述する省略語展開部６の説明の際に合わせて説明する。

省略語未展開語彙記憶部５は、省略語を含む施設名称等であって、後述する音声合成部７による音声合成処理の際に、当該省略語の展開に失敗したものが格納されている記憶部である。

省略語展開部６は、省略語展開用語彙抽出部３により抽出された施設名称等を用いて、省略語展開規則記憶部４を参照しながら、省略語未展開語彙記憶部５に格納されている施設名称等に含まれている省略語を展開する。そして、省略語展開前の施設名称等と省略語展開後の施設名称等を、当該省略語展開前の施設名称等に対応付けて、省略語展開規則記憶部４に登録する。

このようにして、省略語展開部６により省略語展開規則記憶部４に登録された規則の例を図２（ｂ）に示す。ここでは、省略語未展開語彙記憶部５に格納されていた省略語を含む道路名「CT 365」と、省略語展開部６により「CT365」の中の省略語「CT」が展開された「Court 365」や、省略語を含む施設名称「MARTINE DR HOSPITAL」に対応する「MARTINE DOCTOR HOSPITAL」が登録されている。
すなわち、省略語展開規則記憶部４には、予め登録されている図２（ａ）に示すような基本的な規則が記憶されており、当初は記憶されていなくて展開できなかった省略語（省略語未展開語彙記憶部５に格納されていた省略語）を展開する図２（ｂ）に示すような規則が、省略語展開部６により追加で登録（記憶）されていくものである。

音声合成部７は、入力された文字列から合成音声を生成する。ここで、音声合成部７は、音声合成処理を行う前処理として、合成音声の生成対象となる施設名称等に省略語が含まれているか否か判定し、省略語が含まれている場合は省略語展開規則記憶部４を参照しながら当該省略語の展開を行い、展開に失敗した場合は当該施設名称等を省略語未展開語彙記憶部５に登録する。なお、音声合成の方法については公知の技術を用いればよいため、ここでは説明を省略する。

次に、図３および図４に示すフローチャートを用いて、実施の形態１の音声合成装置の動作を説明する。
図３は、入力されたテキストから合成音声を生成する際に、その前処理として実施される、省略語を展開する処理を示したフローチャートである。なお、ここでは、施設名称等に含まれる省略語の展開を例に説明する。

まず、音声合成部７に文字列が入力されると、音声合成部７は、公知の形態素解析処理等によって、入力された文字列を合成音声する単位に分割した後、省略語展開規則記憶部４を参照して、当該分割された文字列に省略語が含まれているか否か判定する（ステップＳＴ０１）。ここでは、一例として、当該判定がなされる対象が施設名称等であるとして以降の動作を説明する。省略語が含まれていない場合（ステップＳＴ０１のＮＯの場合）は、処理を終了する。一方、省略語が含まれている場合（ステップＳＴ０１のＹＥＳの場合）は、音声合成部７は、省略語展開規則記憶部４を参照して省略語を展開する（ステップＳＴ０２）。

省略語の展開に成功した場合（ステップＳＴ０３のＹＥＳの場合）は、省略語を展開語に置換し（ステップＳＴ０４）、その後、処理を終了する。省略語の展開に失敗した場合（ステップＳＴ０３のＮＯの場合）は、音声合成処理部７は、省略語を含む施設名称等を省略語未展開語彙記憶部５に登録して（ステップＳＴ０５）、処理を終了する。

次に、具体例を示して動作を説明する。なお、図２（ｂ）では情報が登録されている状態を表しているが、ここでは、何も登録されていないことを前提として説明する。
例えば、「I will go to PARK AVE.」という文字列が入力されると、道路名称である「PARK AVE」に、省略語展開規則記憶部４に定義されている省略語「AVE」が含まれているので（ステップＳＴ０１のＹＥＳの場合）、音声合成部７は、省略語展開規則記憶部４を参照して「AVE」に対応する展開語「Avenue」を取得し（ステップＳＴ０２、ステップＳＴ０３のＹＥＳの場合）、「AVE」を「Avenue」に置換する（ステップＳＴ０４）。

一方、「I will go to MARTINE DR HOSPITAL.」という文字列が入力されると、施設名称である「MARTINE DR HOSPITAL」に、省略語展開規則記憶部４に定義されている省略語「DR」が含まれているので（ステップＳＴ０１のＹＥＳの場合）、音声合成部７は、省略語展開規則記憶部４を参照して「DR」に対応する展開語の取得を試みる（ステップＳＴ０２）。しかし、この場合、省略語「DR」の施設名称における位置は“語中”であるので、図２（ａ）の規則を適用できない。また、図２（ｂ）には、「MARTINE DR HOSPITAL」に対応する文字列が登録されていないため、図２（ｂ）の規則も適用できず、展開語が「Doctor」であるか「Drive」であるか特定することができない。この場合（ステップＳＴ０３のＮＯの場合）、音声合成部７は、省略語未展開語彙記憶部５に「MARTINE DR HOSPITAL」を登録する（ステップＳＴ０５）。
その他、「I will go to CT365.」という文字列が入力された場合も同様に、「CT365」が省略語未展開語彙記憶部５に登録される。

図４は、図３の処理で音声合成部７により省略語未展開語彙記憶部５に登録された施設名称等に含まれる省略語を展開する処理を示したフローチャートである。
まず、音声取得部１は、マイク等により集音された車内の音声をＡ／Ｄ変換して、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式で取得する。（ステップＳＴ１１）。ここで、車内の音声とは搭乗者が発話した音声、ＴＶやラジオから出力される例えば交通情報の音声等を含むものとする。

次に、音声認識部２は、音声取得部１で取得された音声データを認識し、認識結果を文字列で出力する（ステップＳＴ１２）。ここで、音声認識部２は前述したとおり、音声認識開始信号を受けなくても認識処理を行う。

そして、省略語展開用語彙抽出部３は、地図データ記憶部（図示せず）を参照しながら、音声認識部２により出力された文字列から施設名称等を抽出する（ステップＳＴ１３）。なお、ここでは、省略語展開用語彙を施設名称等として説明する。ここで、地図データ記憶部は、例えばＤＶＤ−ＲＯＭやハードディスク、ＳＤカードなどの媒体に、例えば道路データ、交差点データ、施設データ等の地図データが記憶されている記憶部である。なお、この地図データ記憶部の代わりに、ネットワーク上に存在し、通信ネットワークを介して道路データなどの地図データ情報を取得できる地図データ取得部を用いるようにしてもよい。

省略語展開部６は、省略語展開用語彙抽出部３により抽出された施設名称等と類似する施設名称等が、省略語未展開語彙記憶部５に存在するか否かを調べる（ステップＳＴ１４）。ここで、類似するか否かの判断は、例えば、施設名称等を構成する一または複数の語から成る文字列の一致する個数が所定の閾値以上であるかどうかで行うことができる。類似する施設名称等が省略語未展開語彙記憶部５に存在しない場合（ステップＳＴ１４のＮＯの場合）、処理を終了する。

一方、類似する施設名称等が存在する場合（ステップＳＴ１４のＹＥＳの場合）は、省略語未展開語彙記憶部５から当該類似する施設名称等を取得し、ＳＴＥＰ１３において抽出された施設名称等と比較して、当該抽出された施設名称等含まれる省略語に対応する展開語を特定する（ステップＳＴ１５）。省略語に対応する展開語が特定された場合、すなわち省略語の展開に成功した場合（ステップＳＴ１６のＹＥＳの場合）は、省略語と省略語に対する展開語を当該省略語に対応付けて省略語展開規則記憶部４に登録する（ステップＳＴ１７）。一方、省略語の展開に失敗した場合（ステップＳＴ１６のＮＯの場合）は、処理を終了する。

次に、具体例を示して動作を説明する。
例えば、車内で「Did you go to the hospital yesterday?」「Yes. I went to MARTINE DOCTOR HOSPITAL.」という会話がなされているとすると、音声取得部１がその音声を取得し（ステップＳＴ１１）、音声認識部２は音声取得部１により取得された音声データを認識し、認識結果を文字列で出力する（ステップＳＴ１２）。

次に、省略語展開用語彙抽出部３は、当該認識結果から施設名称等である「MARTINE DOCTOR HOSPITAL」を抽出する（ステップＳＴ１３）。そして、省略語展開部６は、省略語未展開語彙記憶部５に「MARTINE DOCTOR HOSPITAL」と類似する施設名称等が存在するか調べる。なお、閾値は「一または複数の語から成る文字列の一致する個数が２以上」と仮定する。この場合、省略語未展開語彙記憶部５に登録されている「MARTINE DR HOSPITAL」は、「MARTINE DOCTOR HOSPITAL」と比較すると「MARTINE」「HOSPITAL」の２つが一致しているので、類似していると判断される（ステップＳＴ１４のＹＥＳの場合）。

その後、省略語展開部６は、省略語「DR」の展開を行う。この場合、先の比較により相違する文字列が「DR」と「DOCTOR」であり、「DOCTOR」が「DR」の展開語の候補となる。ここで、省略語展開規則記憶部４の図２（ａ）を参照すると「DR」の展開語として「DOCTOR」が登録されているので、「DR」の展開語は「DOCTOR」であると確定することができる（ステップＳＴ１５、ステップＳＴ１６のＹＥＳの場合）。続いて、省略語展開部６は、図２（ｂ）に示すように、省略語を含む施設名称等「MARTINE DR HOSPITAL」に省略語展開部６により特定された施設名称等「MARTINE DOCTOR HOSPITAL」を対応付けて、省略語展開規則記憶部４に登録する（ステップＳＴ１７）。

上述したように、省略語展開規則記憶部４に図２（ｂ）に示すような規則が登録されることにより、それ以降、音声合成部７は、「MARTINE DR HOSPITAL」の省略語「DR」を展開する場合は、ステップＳＴ０２にて省略語展開規則記憶部４を参照して省略語を展開する際に、図２（ｂ）に示すような追加で登録された規則も合わせて参照することにより、「MARTINE DR HOSPITAL」の省略語「DR」を「DOCTOR」と展開することができる。

以上のように、この実施の形態１によれば、搭乗者の発話内容を常に認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ方で省略語を読み上げることができる。また、搭乗者が意識しなくても音声合成装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のための搭乗者の手動操作や入力の意思などを必要としない。

なお、音声認識部２および省略語展開用語彙抽出部３がネットワーク上のサーバにあり、通信部（図字せず）を介して情報の送受信を行う構成としてもよい。
この場合、まず、音声取得部１により取得された音声データを、通信部を介してサーバの音声認識部２に送信する。音声認識部２は、送信された音声データを認識し、省略語展開用語彙抽出部３は、認識結果から施設名称等を抽出する。その後、抽出された施設名称等を音声データの送信元へ送信する。音声合成装置は該施設名称等を受信し、受信した施設名称等を用いて以後の省略語の展開処理を行う。
以上の構成とすることで、サーバ側の高い処理能力や豊富なメモリを利用することができるため、迅速かつ高精度な認識、迅速かつ正確な施設名称等の抽出、音声合成装置の処理負荷の低減等を図ることができる。

また、複数の特定または不特定の合成音声装置が、音声認識部２および省略語展開用語彙抽出部３と、通信部を介して情報の送受信をできるものとし、一の装置により送信された音声データが認識され、認識結果から施設名称等が抽出された場合、当該抽出された施設名称等を、他の一または複数の音声合成装置に送信するとしてもよい。すなわち、音声認識部２と省略語展開用語彙抽出部３による処理結果を、複数の装置で共有することができるようにしてもよい。
以上の構成とすることで、多数の認識結果から抽出された施設名称等を利用することができるため、短期間で省略語未展開語を展開することができる。

実施の形態２．
図５は、この発明の実施の形態２による音声合成装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態２では、実施の形態１と比べると、訂正語彙取得部８と訂正語彙登録部９をさらに備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。

また、図６は、実施の形態２における省略語展開規則記憶部４に記憶されている規則の一例を示す図であり、この図６に示すように、この実施の形態２における省略語展開規則記憶部４は、記憶されている省略語の展開規則を使用・再登録禁止とするか否かを示す、使用・再登録許可フラグ（Ｔｒｕｅが許可、Ｆａｌｓｅが禁止）の情報もデータとして有している。

訂正語彙取得部８は、例えばＬＣＤ（Liquid Crystal Display）とタッチセンサから構成されているタッチパネルなどの表示部（図示せず）に表示された単語が搭乗者により選択（指示）されると、地図データと省略語展開規則記憶部４を参照して、当該選択（指示）された単語が省略語を含む施設名称等か否かを判断し、当該施設名称等であれば取得する。なお、搭乗者による選択（指示）は、タッチパネル等の入力部（図示せず）を介して行われるものであり、この入力部が、訂正指示を受け付ける訂正指示部を構成する。また、搭乗者のタッチパネル等への接触によりタッチセンサから出力された信号から、搭乗者が選択（指示）しようとしている単語を特定する方法については公知の技術を利用すればよいため、ここでは説明を省略する。

訂正語彙登録部９は、訂正語彙取得部８により取得された施設名称等を、省略語未展開語記憶部５に登録するとともに、省略語展開規則記憶部４に登録されている追加で登録された規則（例えば、実施の形態１における図２（ｂ）に示すような規則）であって、当該取得された施設名称等の展開に使用された規則を使用・再登録禁止とする。使用・再登録禁止とする方法については、例えば、図６（ａ）に示すように、図２（ｂ）に示した規則に使用・再登録許可フラグ（Ｔｒｕｅが許可、Ｆａｌｓｅが禁止）を新たに追加し、音声合成部７が省略語を展開する際に、当該フラグが使用・再登録禁止となっている場合は、対応する規則を使用しないようにすればよい。また、省略語展開部６が展開規則を登録する際、当該フラグが使用・再登録禁止となっている規則であれば、登録しないようにすればよい。

次に、図７〜図９に示すフローチャートを用いて実施の形態２における音声合成装置の動作を説明する。
図７は、搭乗者によりタッチパネル上に表示されている施設名称等が選択（指示）された場合に、当該施設名称等を省略語未展開語彙記憶部５に登録する処理を示したフローチャートである。なお、ここでも、施設名称等に含まれる省略語の展開を例に説明する。

まず、搭乗者によりタッチパネル上に表示されている単語が選択（指示）されると、訂正指示部により当該選択（指示）が受け付けられ、訂正語彙取得部８は、地図データと省略語展開規則記憶部４を参照して、当該選択（指示）された単語が省略語を含む施設名称等が否かを判断し、該当しない場合は処理を終了する（ステップ２１のＮＯの場合）。一方、該当する場合、すなわち、選択（指示）された単語が施設名称等であり、かつ、施設名称等に省略語が含まれている場合（ステップＳＴ２１のＹＥＳの場合）は、当該施設名称等を取得する（ステップＳＴ２２）。

次に、訂正語彙登録部９は、訂正語彙取得部８により取得された施設名称等に含まれる省略語の展開に使用された、省略語展開規則記憶部４に記憶されている規則を使用・再登録禁止にする（ステップＳＴ２３）。その後、当該施設名称等を省略語未展開語彙記憶部５に登録して（ステップＳＴ２４）、処理を終了する。

図８は、省略語展開規則記憶部４に、使用・再登録禁止規則が存在する場合の合成音声生成処理を示したフローチャートである。
まず、音声合成部７に文字列が入力されると、音声合成部７は、公知の形態素解析処理等によって、入力された文字列を合成音声する単位に分割した後、省略語展開規則記憶部４を参照して、当該分割された文字列に省略語が含まれているか否か判定する（ステップＳＴ３１）。ここでは、一例として、当該判定がなされる対象が施設名称等であるとして以降の動作を説明する。省略語が含まれていない場合（ステップＳＴ３１のＮＯの場合）は、処理を終了する。

一方、省略語が含まれている場合（ステップＳＴ３１のＹＥＳの場合）は、省略語展開部６は、省略語展開規則記憶部４を参照して、省略語を展開する際に適用しようとした規則が使用・再登録禁止であるか否かを判断する（ステップＳＴ３２）。規則が使用・再登録禁止である場合（ステップＳＴ３２のＮＯの場合）は、処理を終了する。一方、使用・再登録禁止でない場合（ステップＳＴ３２のＹＥＳの場合）は、ステップＳＴ３３以降の処理を行う。なお、ステップＳＴ３３〜ＳＴ３６の処理については、実施の形態１における図３に示したステップＳＴ０２〜ＳＴ０５の処理と同一であるため、説明を省略する。

図９は、省略語展開規則記憶部４に、使用・再登録禁止規則が存在する場合の省略語の展開の処理を示したフローチャートである。
ここで、図９に示すステップＳＴ４１〜４６の処理については、実施の形態１における図４に示したステップＳＴ１１〜ＳＴ１６の処理と同一であるため、説明を省略する。

そして、ステップＳＴ４６において、省略語の展開に成功し（ステップＳＴ４６のＹＥＳの場合）、省略語と省略語に対する展開語を省略語展開規則記憶部４に規則として登録する際に、当該規則が使用・再登録禁止規則である場合（ステップＳＴ４７のＹＥＳの場合）には、処理を終了する。一方、使用・再登録禁止規則ではない場合（ステップＳＴ４７のＮＯの場合）は、省略語と省略語に対する展開語を当該省略語に対応付けて省略語展開規則記憶部４に登録する（ステップＳＴ４８）。

次に、具体例を示して動作を説明する。
例えば、「I will go to CT 365.」という文字列が入力され、音声合成部７が省略語展開規則記憶部４に登録されている図６（ａ）の規則を参照することにより、「CT 365」を「Court 365」と展開し合成音声を生成した場合を例に説明する。
ここで、搭乗者が「CT 365」を「Connecticut 365」と読み上げられることを想定しており、誤って読み上げられたタッチパネル上の「CT 365」が、搭乗者によって選択（指示）されたとする。その結果、訂正語彙取得部８が、省略語展開規則記憶部４の規則（図５（ａ）の２行目）を参照し、「CT 365」が施設名称等であり、かつ、省略語が含まれていると判断し（ステップＳＴ２１のＹＥＳの場合）、この「Court 365」を取得する（ステップＳＴ２２）。

そして、訂正語彙登録部９により、省略語「CT 365」の展開に使用された省略語展開規則記憶部４の規則（図５（ａ）の２行目）について、使用・再登録許可フラグを「False」（使用・再登録禁止）に設定する（ステップＳＴ２３）。図５（ｂ）は、このように変更された状態を示すものである。
これと同時に、訂正語彙登録部９により、省略語未展開語記憶部５に「CT365」が登録される（ステップＳＴ２４）。

その後、「I will go to Connecticut 365.」と発話されると、図８および図９に示したフローチャートに従って、省略語展開規則記憶部４に省略語「CT 365」に施設名称等「Connecticut 365」が対応付けられた規則（図５（ｃ）の３行目）が追加で登録される。
これによって、次回以降「I will go to CT 365.」は搭乗者が所望する「I will go to Connecticut 365.」と読み上げられる。

以上のような構成にすることによって、誤った規則で省略語が展開され続けることを防ぐことができる。
なお、使用・再登録許可フラグが「False」と設定された規則は、同一の省略語に対する新しい規則が追加された場合に、削除することとしてもよい。
このようにすることで、使用されない規則によりメモリ使用量が増加することを防ぐことができる。

なお、この発明の音声合成装置は、移動体に搭載されるカーナビゲーションシステムに適用するものであり、音声取得部１に入力される音声は、移動体の搭乗者の発話、ラジオ音声、テレビ音声等であるものとして説明したが、このように、搭乗者発話だけでなく、ラジオ音声やテレビ音声であっても常に認識し、その発話内容に含まれる施設名称等を用いて、当該施設名称等に含まれる省略語に対応する省略前の語を特定することとしたので、省略語に対する省略前の語を登録する等の煩わしい作業を搭乗者に強いることなく、かつ、搭乗者にとって馴染みのある適切な読み上げ肩で省略語を読み上げることができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明の音声合成装置は、カーナビゲーションシステムなどに適用することができる。

１音声取得部、２音声認識部、３省略語展開用語彙抽出部、４省略語展開規則記憶部、５省略語未展開語彙記憶部、６省略語展開部、７音声合成部、８訂正語彙取得部、９訂正語彙登録部。

Claims

入力された文字列から合成音声を生成する音声合成装置において、
入力された音声を検知して取得する音声取得部と、
前記音声合成装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
前記音声認識部により出力された認識結果文字列から省略語展開用語彙を抽出する省略語展開用語彙抽出部と、
省略語の展開規則を記憶した省略語展開規則記憶部と、
前記入力された文字列から合成音声を生成するとともに、当該合成音声を生成する際に、前記省略語展開規則記憶部を参照することにより、前記入力された文字列に含まれる省略語を展開する音声合成部と、
前記音声合成部による省略語の展開に失敗した語彙を登録する省略語未展開語彙記憶部と、
前記省略語展開規則記憶部を参照することにより、前記省略語展開用語彙抽出部により抽出された省略語展開用語彙を用いて、前記省略語未展開語彙記憶部に登録されている省略語未展開語彙に含まれる省略語を展開する省略語展開部とを備える
ことを特徴とする音声合成装置。
訂正指示を受け付ける訂正指示部と、
前記訂正指示部により受け付けられた指示に基づき訂正語彙を取得する訂正語彙取得部と、
前記訂正語彙取得部により取得された訂正語彙を前記省略語未展開語彙記憶部に登録する訂正語彙登録部とをさらに備える
ことを特徴とする請求項１記載の音声合成装置。
前記音声合成装置は移動体に搭載されており、
前記音声取得部に入力される音声は、前記移動体の搭乗者の発話、ラジオ音声、テレビ音声であることを特徴とする請求項１記載の音声合成装置。