JP2010039277A

JP2010039277A - 音声合成装置

Info

Publication number: JP2010039277A
Application number: JP2008203082A
Authority: JP
Inventors: Naoyoshi Takeura; 尚嘉竹裏; Satoshi Furuta; 訓古田; Yoichi Fujii; 洋一藤井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-08-06
Filing date: 2008-08-06
Publication date: 2010-02-18
Also published as: CN101645266A; CN101645266B

Abstract

【課題】ユーザが期待した通りの読みおよびアクセントで音声を出力できる音声合成装置を提供する。
【解決手段】語を表記するための表記情報および読み方を示す読み情報に、該語の読みのアクセントを規定するアクセント情報を対応付けて格納したアクセント辞書１１と、外部から入力された表記情報および読み情報に対応するアクセント情報をアクセント辞書から検索し、該検索されたアクセント情報が付された読み情報であるアクセント付読み情報を取得するアクセント辞書検索部１２と、アクセント辞書検索部で取得されたアクセント付読み情報に基づき音声波形を合成する音声合成部１３と、音声合成部で合成された音声波形に基づき音声を再生する音声再生部１４を備えている。
【選択図】図１

Description

この発明は、例えばカーナビゲーション装置などにおいて案内音声などを出力する音声合成装置に関し、特に、出力される音声のアクセントを制御する技術に関する。

従来、日本語の漢字と仮名が交じった和漢混淆文の読みとアクセントを推定して読み上げるＴＴＳ（Text-to-Speech；テキスト音声変換）と呼ばれる技術が知られている。この技術を利用した装置として、特許文献１は、受信した電子メールを、テキスト音声変換によって、読み誤ることなく正確に読み上げることができる電子メール端末装置を開示している。

この電子メール端末装置は、個人情報適応変換部で、電子メールのメールアドレスと、姓名等の個人情報とを用いて、受信した電子メール情報の修正、補足情報の追加を、個人情報に適応して行う。そして、この情報加工された電子メールを、報知手段のテキスト音声変換部でテキスト音声変換して報知する。

特開２００１−３２５１９１号公報

しかしながら、上述した従来の技術では、例えば、「三田」という表記に対して「サンダ」または「ミタ」といった複数通りの読み方がある単語に関しては、必ずしもユーザが期待した通りの読み上げができず、読み誤る可能性がある。

一方、読み誤りを防止するために、アクセント情報を含まない「読み」だけから成る読み情報を用いて読み上げを行う方法が知られているが、この方法によれば、アクセントのない平坦な読み上げとなってしまい、聞き取り難いという問題がある。

この発明は、上述した問題を解消するためになされたものであり、ユーザが期待した通りの読みおよびアクセントで音声を出力できる音声合成装置を提供することにある。

上記課題を解決するために、この発明に係る音声合成装置は、語を表記する表記情報および読み方を示す読み情報に、該語の読みのアクセントを規定するアクセント情報を対応付けて格納したアクセント辞書と、外部から入力された表記情報および読み情報に対応するアクセント情報をアクセント辞書から検索し、該検索されたアクセント情報が付された読み情報であるアクセント付読み情報を取得するアクセント辞書検索部と、アクセント辞書検索部で取得されたアクセント付読み情報に基づき音声波形を合成する音声合成部と、音声合成部で合成された音声波形に基づき音声を再生する音声再生部を備えている。

この発明に係る音声合成装置によれば、外部から入力された表記情報および読み情報に対応するアクセント付読み情報をアクセント辞書から読み出し、この読み出したアクセント付読み情報に基づき音声を発生するように構成したので、読み上げを誤ることなく、しかも、ユーザが期待した通りのアクセントで音声を出力できる。

以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声合成装置１の構成を示すブロック図である。この音声合成装置１は、アクセント辞書１１、アクセント辞書検索部１２、音声合成部１３および音声再生部１４を備えている。

アクセント辞書１１は、語を表記するための表記情報および読み方を示す読み情報に、この語の読みのアクセントを規定するアクセント情報を対応付けて格納している。このアクセント辞書１１は、アクセント辞書検索部１２によってアクセスされる。

アクセント辞書検索部１２は、外部から入力された表記情報および読み情報をアクセント辞書１１に送ってこれらに対応するアクセント情報をアクセント辞書１１から検索し、この検索されたアクセント情報が付された読み情報（以下、「アクセント付読み情報」という）を取得する。このアクセント辞書検索部１２で取得されたアクセント付読み情報は、音声合成部１３に送られる。

音声合成部１３は、アクセント辞書検索部１２から送られてくるアクセント付読み情報に基づき音声波形を合成する。この音声合成部１３で合成された音声波形は、音声再生部１４に送られる。

音声再生部１４は、例えばスピーカから構成されており、音声合成部１３から送られてくる音声波形に基づき音声を出力する。

図２は、上述した実施の形態１に係る音声合成装置１が適用されたカーナビゲーション装置の構成を示すブロック図である。このカーナビゲーション装置は、音声合成装置１、登録地情報編集部２１および登録地案内処理部２２を備えている。

登録地情報編集部２１は、図３に示すような登録地情報編集画面を、図示しない表示装置に出力する。ユーザは、この登録地情報編集画面を用いて、登録地の表記と読みを入力できる。図３は、登録地の表記として「自宅」が入力され、登録地の読みとして「ジタク」が入力された例を示している。登録地情報編集部２１は、この登録地情報編集画面を用いて入力された登録地の表記および読みを、それぞれ登録地の表記情報および読み情報として記憶する。この登録地情報編集部２１に記憶されている表記情報および読み情報は、登録地案内処理部２２によって読み出される。

登録地案内処理部２２は、図示しない現在位置検出装置から取得した現在位置データによって示される現在位置が登録地に接近したことを検知した場合に、この登録地に対応する表記情報および読み情報を登録地情報編集部２１から読み出して音声合成装置１に送る。これにより、上述したように、音声合成装置１で音声が合成されて出力される。

次に、上述したカーナビゲーション装置に適用された実施の形態１に係る音声合成装置１の動作を、アクセント辞書検索部１２で実行される処理を中心に、図４に示すフローチャートおよび図２に示すカーナビゲーション装置のブロック図を参照しながら説明する。

今、登録地情報編集部２１の処理によって図３に示すような登録地情報が登録されているものとする。登録地案内処理部２２は、登録地に接近したことを検知すると、登録地情報編集部２１から、この登録地の表記情報として記憶されている「自宅」および読み情報として記憶されている「ジタク」を読み出し、音声合成装置１のアクセント辞書検索部１２に送る。

アクセント辞書検索部１２は、まず、登録地案内処理部２２から表記情報「自宅」と読み情報「ジタク」を受け取る（ステップＳＴ１１）。次いで、アクセント辞書検索部１２は、アクセント辞書１１から、表記情報「自宅」および読み情報「ジタク」に対応するアクセント情報を検索する（ステップＳＴ１２）。このステップＳＴ１２において、対応するアクセント情報が検索されると、アクセント辞書検索部１２は、アクセント辞書１１からアクセント付読み情報「ジ’タク」を取得する。アクセント付読み情報のアクセント位置は「’」の記号で表している。

次いで、アクセント辞書検索部１２は、ステップＳＴ１２においてアクセント辞書１１から取得したアクセント付読み情報「ジ’タク」を、音声合成部１３に送る（ステップＳＴ１３）。その後、音声合成部１３は、アクセント辞書検索部１２から送られてくるアクセント付読み情報「ジ’タク」に基づき音声波形を合成し音声再生部１４に送る。音声再生部１４は、音声合成部１３から送られてくる音声波形に基づき音声を出力する。これにより、図５に示すように、現在位置（自車位置）が登録地に接近した時に、読み誤ることなく、しかも適切なアクセントで「ジタク」という合成音声が出力される。

以上説明したように、この発明の実施の形態１に係る音声合成装置によれば、外部から入力される表記情報および読み情報に対応するアクセント付読み情報をアクセント辞書１１から読み出して音声を発生するように構成したので、読み上げを誤ることなく、しかも、ユーザが期待した通りのアクセントで音声を出力できる。

実施の形態２．
図６は、この発明の実施の形態２に係る音声合成装置１ａの構成を示すブロック図である。この音声合成装置１ａは、図１に示した実施の形態１に係る音声合成装置１のアクセント辞書検索部１２にアクセント検索失敗処理部１５が追加されることにより新たなアクセント辞書検索部１２ａに変更されて構成されている。

アクセント検索失敗処理部１５は、アクセント辞書検索部１２ａにおいてアクセント辞書１１からアクセント情報を検索できなかった場合に、外部から入力された、アクセント情報が付されていない読み情報を音声合成部１３に送る。

図７は、上述した実施の形態２に係る音声合成装置１ａが適用されたカーナビゲーション装置の構成を示すブロック図である。このカーナビゲーション装置は、音声合成装置１が音声合成装置１ａに変更されている点のみが、実施の形態１に係るカーナビゲーション装置と異なる。

ここで、ユーザは、図８に示すような登録地情報編集画面を用いて、登録地の表記として「自宅」を入力し、登録地の読みとして登録地の表記と異なる「ツキマシタ」を入力し、登録地情報編集部２１は、これら入力された登録地の表記および読みを、それぞれ登録地の表記情報および読み情報として記憶しているものとする。この場合、アクセント辞書１１には、表記情報「自宅」および読み情報「ジタク」に対して、「ジ’タク」というアクセント情報が格納されており、「ツキマシタ」に対応するアクセント情報は存在しないものとする。

次に、上述したカーナビゲーション装置に適用された実施の形態２に係る音声合成装置１ａの動作を、アクセント辞書検索部１２ａで実行される処理を中心に、図９に示すフローチャートおよび図７に示すカーナビゲーション装置のブロック図を参照しながら説明する。

図８に示すような登録地情報が登録されている状態において、登録地案内処理部２２は、登録地に接近したことを検知すると、登録地情報編集部２１から、該登録地の表記情報として記憶されている「自宅」および読み情報として記憶されている「ツキマシタ」を読み出し、音声合成装置１ａのアクセント辞書検索部１２ａに送る。

アクセント辞書検索部１２ａは、まず、登録地案内処理部２２から表記情報「自宅」と読み情報「ツキマシタ」を受け取る（ステップＳＴ２１）。次いで、アクセント辞書検索部１２ａは、アクセント辞書１１から、表記情報「自宅」および読み情報「ツキマシタ」に対応するアクセント情報を検索する（ステップＳＴ２２）。

次いで、アクセント辞書検索部１２ａは、表記情報および読み情報に対応するアクセント情報がアクセント辞書１１に存在するかどうかを調べる（ステップＳＴ２３）。このステップＳＴ２３において、表記情報および読み情報に対応するアクセント情報が存在することを判断すると、上述した実施の形態１に係る音声合成装置の動作で説明したのと同様に、つまり、登録地情報が表記情報「自宅」および読み情報「ジタク」である場合と同様に、アクセント辞書検索部１２ａは、アクセント辞書１１からアクセント付読み情報を取得する。

次いで、アクセント辞書検索部１２ａは、ステップＳＴ２２においてアクセント辞書１１から取得したアクセント付読み情報を、音声合成部１３に送る（ステップＳＴ２４）。その後、音声合成部１３は、アクセント辞書検索部１２から送られてくるアクセント付読み情報に基づき音声波形を合成し音声再生部１４に送る。音声再生部１４は、音声合成部１３から送られてくる音声波形に基づき音声を出力する。これにより、上述した実施の形態１に係る音声合成装置１と同様に、現在位置（自車位置）が登録地に接近した時に、読み上げを誤ることなく、しかも、ユーザが期待した通りのアクセントで合成音声が出力される。

上記ステップＳＴ２３において、表記情報および読み情報に対応するアクセント情報がアクセント辞書１１に存在しないことが判断されると、アクセント辞書検索部１２ａのアクセント検索失敗処理部１５は、ステップＳＴ２１で入力された読み情報「ツキマシタ」を音声合成部１３に送る（ステップＳＴ２５）。その後、音声合成部１３は、アクセント辞書検索部１２から送られてくるアクセント情報が付されていない読み情報「ツキマシタ」に基づき音声波形を合成し音声再生部１４に送る。音声再生部１４は、音声合成部１３から送られてくる音声波形に基づき音声を出力する。これにより、図１０に示すように、現在位置（自車位置）が登録地に接近した時に、ユーザが期待した通りのアクセントではないが、読み誤ることなく、「ツキマシタ」という合成音声が出力される。

以上説明したように、この発明の実施の形態２に係る音声合成装置によれば、外部から入力される表記情報および読み情報に対応するアクセント情報がアクセント辞書１１に存在しない場合であっても、アクセントがない音声を発生するように構成したので、ユーザが期待した通りのアクセントではないが、読み上げを誤ることなく合成音声を出力できる。

なお、上述した実施の形態１および実施の形態２に係る音声合成装置は、日本語の和漢混淆文を音声合成の対象としたが、中国語に適用することもできる。中国語の「読み」に相当するピンイン（ｐｉｎｙｉｎ）には、四声というアクセント情報が含まれている。したがって、基本的には、ピンインのみで読み上げが誤ることなく正しいアクセントで音声合成することが可能である。しかしながら、四声が含まれていないピンインと漢字とからアクセントは容易に理解できるため、通常は、四声を入力することは少ない。

そこで、表記情報として「漢字」、読み情報として「四声なしのピンイン」、アクセント情報として「四声ありのピンイン」を用いれば、この発明は、中国語にも適用可能である。

この発明の実施の形態１に係る音声合成装置の構成を示すブロック図である。この発明の実施の形態１に係る音声合成装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態１に係る音声合成装置が適用されたカーナビゲーション装置で使用される登録地情報編集画面の例を示す図である。この発明の実施の形態１に係る音声合成装置がカーナビゲーション装置に適用された場合のアクセント辞書検索部で実行される処理を示すフローチャートである。この発明の実施の形態１に係る音声合成装置が適用されたカーナビゲーション装置の動作を説明するための図である。この発明の実施の形態２に係る音声合成装置の構成を示すブロック図である。この発明の実施の形態２に係る音声合成装置が適用されたカーナビゲーション装置の構成を示すブロック図である。この発明の実施の形態２に係る音声合成装置が適用されたカーナビゲーション装置で使用される登録地情報編集画面の例を示す図である。この発明の実施の形態２に係る音声合成装置がカーナビゲーション装置に適用された場合のアクセント辞書検索部で実行される処理を示すフローチャートである。この発明の実施の形態２に係る音声合成装置が適用されたカーナビゲーション装置の動作を説明するための図である。

符号の説明

１、１ａ音声合成装置、１１アクセント辞書、１２、１２ａ、アクセント辞書検索部、１３音声合成部、１４音声再生部、１５アクセント検索失敗処理部。

Claims

語を表記する表記情報および読み方を示す読み情報に、該語の読みのアクセントを規定するアクセント情報を対応付けて格納したアクセント辞書と、
外部から入力された表記情報および読み情報に対応するアクセント情報を前記アクセント辞書から検索し、該検索されたアクセント情報が付された読み情報であるアクセント付読み情報を取得するアクセント辞書検索部と、
前記アクセント辞書検索部で取得されたアクセント付読み情報に基づき音声波形を合成する音声合成部と、
前記音声合成部で合成された音声波形に基づき音声を再生する音声再生部
とを備えた音声合成装置。
アクセント辞書検索部は、アクセント辞書からアクセント情報を検索できなかった場合に、外部から入力されたアクセント情報が付されていない読み情報を音声合成部に送るアクセント検索失敗処理部を備え、
音声合成部は、前記アクセント検索失敗処理部から送られてくるアクセント情報が付されていない読み情報に基づき音声波形を合成する
ことを特徴とする請求項１記載の音声合成装置。