JP2007086404A

JP2007086404A - 音声合成装置

Info

Publication number: JP2007086404A
Application number: JP2005275086A
Authority: JP
Inventors: Yoshihiko Okada; 世志彦岡田
Original assignee: NEC Embedded Products Ltd
Current assignee: NEC Embedded Products Ltd
Priority date: 2005-09-22
Filing date: 2005-09-22
Publication date: 2007-04-05

Abstract

【課題】簡単に辞書登録を行なうことができる音声合成装置を提供する。
【解決手段】音声合成エンジン２１は、辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカ２５から出力する。候補選択部４１は、マイク３５から入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する。音声合成ユーザ辞書登録部４２は、前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録する。これにより、音声合成装置１に上記のテキストデータが与えられたとき、音声合成エンジン２１は、辞書データベースを参照して、上記のテキストデータを正しく読み上げることができる。音声合成装置１によれば、ユーザは、テキストデータの読み上げが間違えている場合、正しい読みをマイク３５により入力するだけでよい。
【選択図】図１

Description

本発明は、音声合成処理を実行する音声合成装置に関する。

音声合成処理を実行する装置が開発されている。音声合成（ＴｅｘｔＴｏＳｐｅｅｃｈ）処理とは、文が記載されたテキストデータを音声に変換し、その音声をスピーカから出力させる処理である。このような音声合成処理は、電子メールの読み上げなど一意でないテキストデータを音声に変換するときに、非常に役に立つ。しかしながら、音声合成処理では、テキストデータの読み上げが間違えている場合も少なくない。そのために、テキストデータの異なる読みを訂正する音声合成装置が開発されている。

音声合成処理を実行する音声合成装置を考えてみる。音声合成装置は、コンピュータに設けられ、音声合成エンジンと、辞書データベースと、スピーカとを備えている。辞書データベースは、複数の単語が登録されたメイン辞書データベースと、ユーザ辞書データベースとを含んでいる。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。

語句群を表すテキストデータが音声合成装置に与えられたとき、音声合成エンジンは、テキストデータが表す語句群を読み上げる。即ち、音声合成エンジンは、辞書データベースを参照して、テキストデータが表す語句群から読み群を生成する。また、音声合成エンジンは、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。音声合成エンジンは、上記読み群を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカから出力する。ここで、テキストデータの読み上げが間違えているものとする。この場合、ユーザは、テキストデータを正しく読み上げさせるために、入力装置を用いて、辞書登録を行なう。即ち、ユーザは、入力装置（キーボード、ポインティングデバイス）を用いて、テキストデータの異なる読みに対応する語句と、正しい読みと、アクセントとを入力し、ユーザ辞書データベースに登録する。これにより、音声合成装置に上記のテキストデータが与えられたとき、音声合成エンジンは、テキストデータを正しく読み上げることができる。

しかしながら、そのような音声合成装置では、簡単に辞書登録を行なうことができない。例えば、ユーザは、コンピュータに不慣れであるものとする。この場合、ユーザが辞書登録を行なうときに入力装置を用いるため、その作業が煩雑になってしまう。例えば、ユーザは、目や手が不自由であるものとする。この場合、ユーザが入力装置を用いて辞書登録を行なうことは困難である。

音声合成処理に関連する技術として、特開平５−１４３６３７号公報に韻律記号生成装置が開示されている（特許文献１参照）。韻律記号生成装置は、文字列の解析結果に基づいて韻律記号を生成する装置であり、未登録語検出手段と、未登録語提示手段と、語登録手段とを有していることを特徴としている。未登録語検出手段は、韻律記号を生成する際の解析対象となる文字列中に辞書登録されていない語があるか否かを調べ、辞書登録されていない語があるときにこれを未登録語として検出する。未登録語提示手段は、未登録語が検出されたときに該未登録語を操作者に提示する。語登録手段は、韻律記号を生成するための文字列解析に先立って所定の語を辞書に登録可能にする。この韻律記号生成装置では、語句群を表すテキストデータから読み群を生成する際に、辞書に登録されていない未登録語（語句）がテキストデータに含まれている場合、ユーザに辞書登録の入力を促している。

特開平５−２３３６２５号公報に文章読み上げ装置が開示されている（特許文献２参照）。文章読み上げ装置は、音声合成装置と、処理装置と、表記文字列、品詞、発音およびアクセント等からなる辞書を貯蔵した記憶装置と、任意の文章を入力するための入力装置を備え、前記辞書を参照して入力された文章から文章を構成する単語の発音およびアクセントを含む単語情報を得、前記単語情報を基に文章の音声出力を行う装置である。文章読み上げ装置では、処理装置に第１の手段と、第２の手段とを設けたことを特徴としている。前記第１の手段は、前記単語情報に含まれるアクセントが、アクセントが辞書に未登録であることを表わすあらかじめ決められた値をとる場合に、前記アクセントを前記単語情報より推定し、前記推定したアクセントと単語情報を基に文章の音声出力を行う。前記第２の手段は、前記入力された文章を構成する語句を示す範囲指定情報と前記範囲指定情報で示される語句を音声出力する場合のアクセントを前記入力装置から入力し、前記語句を構成する単語の単語情報が、前記アクセント未登録値をアクセントとして有する場合、前記入力されたアクセントと前記語句を構成する単語の単語情報から、前記アクセントが未登録である単語のアクセントを復元し、前記復元したアクセントを前記アクセント未登録値の代わりに前記辞書に登録する。この文章読み上げ装置では、アクセント未登録語のアクセントを推定することにより、アクセントにおける辞書登録を容易に行なっている。

特開平５−１４３６３７号公報特開平５−２３３６２５号公報

本発明の課題は、簡単に辞書登録を行なうことができる音声合成装置を提供することにある。
本発明の他の課題は、テキストデータを正しく読み上げることができる音声合成装置を提供することにある。

以下に、［発明を実施するための最良の形態］で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、［特許請求の範囲］の記載と［発明を実施するための最良の形態］の記載との対応関係を明らかにするために付加されたものであるが、［特許請求の範囲］に記載されている発明の技術的範囲の解釈に用いてはならない。

本発明の音声合成装置（１）は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、格納部（図示しない）と、制御部（図示しない）と、スピーカ（２５）と、マイク（３５）とを具備している。前記格納部には、複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納されている。前記制御部は、前記コンピュータプログラムを実行する。
前記制御部は、音声合成エンジン（２１）と、選択部（４１）と、ユーザ辞書登録部（４２）とを具備している。
前記音声合成エンジン（２１）は、前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカ（２５）から出力する。
前記選択部（４１）は、マイク（３５）から入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する。
前記ユーザ辞書登録部（４２）は、前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録する。
これにより、本発明の音声合成装置（１）に上記のテキストデータが与えられたとき、音声合成エンジン（２１）は、辞書データベース｛メイン辞書データベース（２６）、ユーザ辞書データベース（２７）｝を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置（１）によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク（３５）により入力するだけでよい。このため、本発明の音声合成装置（１）は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。

本発明の音声合成装置（１）は、更に、音声認識エンジン（３１）を具備している。前記音声認識エンジン（３１）は、前記正しい読みとして前記マイク（３５）からユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する。
前記音声合成エンジン（２１）は、前記テキストデータが表す語句群から複数の誤り候補を生成する。前記複数の誤り候補は、複数の読み方がある語句や、前記辞書データベースに登録されていない語句を含んでいる。
前記選択部（４１）は、前記複数の誤り候補の中から、前記複数の読み候補のうちの１つに対応する誤り候補を前記部分として選択する。
このように、本発明の音声合成装置（１）では、テキストデータの異なる読みに対してユーザが正しい読みをマイク（３５）により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置（１）は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。

本発明の音声合成装置（１）において、前記辞書データベースは、前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベース（２６）と、ユーザ辞書データベース（２７）とを含んでいる。
前記音声合成エンジン（２１）は、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカ（２５）から出力する。
前記ユーザ辞書登録部（４２）は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベース（２７）に登録する。
このように、本発明の音声合成装置（１）では、テキストデータの異なる読みに対してユーザが正しい読みをマイク（３５）により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置（１）では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置（１）では、必須の単語（語句、読み、アクセント）をメイン辞書データベース（２６）に予め辞書登録しておき、メイン辞書データベース（２６）に登録されていない単語（複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）をユーザ辞書データベース（２７）に辞書登録することが好ましい。これにより、本発明の音声合成装置（１）に上記のテキストデータが与えられたとき、音声合成エンジン（２１）は、辞書データベース｛メイン辞書データベース（２６）、ユーザ辞書データベース（２７）｝を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。

本発明の音声合成装置（１）において、前記辞書データベースは、カテゴリ付ユーザ辞書データベース（５４）を更に含んでいる。
前記テキストデータは、カテゴリを表す情報を含んでいる。
カテゴリ登録指示が発生した場合、以下の動作を行なう。
この場合、前記ユーザ辞書登録部（４２）は、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベース（５４）に登録する。
例えば、テキストデータが、記事を表すＷｅｂページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置（１）では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、メイン辞書データベース（２６）に登録されていない単語（複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）とを対応付けてカテゴリ付ユーザ辞書データベース（５４）に辞書登録することが好ましい。これにより、本発明の音声合成装置（１）に上記のテキストデータが与えられたとき、音声合成エンジン（２１）は、辞書データベース｛メイン辞書データベース（２６）、カテゴリ付ユーザ辞書データベース（５４）｝を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置（１）は、ユーザ辞書データベース（２７）を参照する場合に比べて、読み誤りを更に低減することができる。

本発明の音声合成装置（１）において、前記辞書データベースは、共起情報付ユーザ辞書データベース（６４）を更に含んでいる。
共起情報登録指示が発生した場合、以下の動作を行なう。
この場合、前記音声認識エンジン（３１）は、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイク（３５）からユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成する。
前記音声合成エンジン（２１）は、前記テキストデータから前記連結部分に対応する複数の共起候補を生成する。
前記選択部（４１）は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの１つに対応する共起候補を前記連結部分として選択する。
前記ユーザ辞書登録部（４２）は、第１単語と、第２単語と、第１単語と第２単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベース（６４）に登録する。
前記第１単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第２単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含んでいる。
例えば、音声合成により固有名詞（人名など）を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置（１）では、第１単語（複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）と、第２単語（複数の語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント）と、第１単語と第２単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース（６４）に辞書登録することが好ましい。これにより、本発明の音声合成装置（１）に上記のテキストデータが与えられたとき、音声合成エンジン（２１）は、辞書データベース｛メイン辞書データベース（２６）、共起情報付ユーザ辞書データベース（６４）｝を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置（１）は、ユーザ辞書データベース（２７）を参照する場合に比べて、読み誤りを更に低減することができる。

本発明の音声合成装置は、簡単に辞書登録を行なうことができる。
本発明の音声合成装置は、テキストデータを正しく読み上げることができる。

以下に添付図面を参照して、本発明の音声合成装置について詳細に説明する。

（第１実施形態）
図１は、本発明の第１実施形態による音声合成装置の構成を示すブロック図である。第１実施形態による音声合成装置１は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、コンピュータプログラムが格納された格納部（図示しない）と、コンピュータプログラムを実行する制御部（図示しない）とを具備している。
音声合成装置１は、コンピュータに設けられたスピーカ２５、マイク３５を具備している。

音声合成装置１は、更に、コンピュータプログラムである文抽出部１２、音声合成エンジン２１、音声認識エンジン３１、候補選択部４１、合成音声ユーザ辞書登録部４２を具備している。
音声合成エンジン２１は、音声合成部２２、構文解析部２３、誤り候補生成部２４を含んでいる。音声合成部２２は、音声合成エンジン２１の本体部であり、音声合成部２２を音声合成エンジン２１と称することもある。
音声認識エンジン３１は、音声認識部３２、読み候補生成部３３、アクセント抽出部３４を含んでいる。音声認識部３２は、音声認識エンジン３１の本体部であり、音声認識部３２を音声認識エンジン３１と称することもある。

音声合成装置１は、更に、コンピュータの格納部に格納された文書データベース１１、音声合成辞書データベース、音声認識辞書データベース３６を具備している。
音声合成辞書データベースは、音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７を含んでいる。
例えば、図２に示されるように、音声合成メイン辞書データベース２６には、複数の単語が予め登録されている。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。図３に示されるように、音声合成ユーザ辞書データベース２７には、音声合成メイン辞書データベース２６に登録されていない単語が登録される。
図４に示されるように、音声認識辞書データベース３６には、複数の照合用音声と複数の照合用読みとが予め登録されている。複数の照合用音声は、マイク３５から入力される音声を照合するためのデータである。

文書データベース１１には、図５に示されるように、電子メールあるいはインターネットのＷｅｂページで例示される文書を表すテキストデータが格納されている。例えば、そのテキストデータには、「７回裏に岡田秀喜が打点をあげた。」という文が記載されている。

文抽出部１２は、内蔵メモリ（図示しない）を備えている。ユーザの読上指示に応じて、文抽出部１２は、文書データベース１１に格納されたテキストデータを読み出して、内蔵メモリに格納する。あるいは、コンピュータが電子メール、Ｗｅｂページを表すテキストデータを取得して文書データベース１１に格納したときに、文抽出部１２は、文書データベース１１に格納されたテキストデータを自動的に読み出して、内蔵メモリに格納する。

音声合成エンジン２１の構文解析部２３は、文抽出部１２の内蔵メモリからテキストデータを読み出し、そのテキストデータに記載された文を解析する。このとき、構文解析部２３は、漢字、ひらがな、カタカナ、数字（回数や量を表す数字を含む）の並びにより、テキストデータ「７回裏に岡田秀喜が打点をあげた。」は、語句群として「７回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」を表していることを認識する。

構文解析部２３は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、テキストデータが表す語句群「７回裏に岡田秀喜が打点をあげた。」から、読みを表す読み群「ななかいうらにおかだひでよしがだてんをあげた」を生成する。また、構文解析部２３は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。

音声合成エンジン２１の音声合成部２２は、読み群が表す読み「ななかいうらにおかだひでよしがだてんをあげた」を音声に変換する。音声合成部２２は、上記の発音用アクセントを用いて、その音声をスピーカ２５から出力する。

テキストデータ「７回裏に岡田秀喜が打点をあげた。」に対する本来の読みは、「ななかいうらにおかだひできがだてんをあげた」である。即ち、「秀喜」に対する読みは「ひでよし」ではなく「ひでき」である。ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク３５を用いてユーザの音声「ひでき」を入力する。

音声認識エンジン３１の音声認識部３２は、正しい読み「ひでき」としてマイク３５からユーザの音声「ひでき」を入力する。候補選択部４１は、マイク３５から入力される正しい読み「ひでき」に基づいてテキストデータ８０から異なる読み「ひでよし」に対応する部分「秀喜」を選択する。これについて具体的に説明する。

音声認識エンジン３１は、内蔵メモリ（図示しない）を更に備えている。音声認識エンジン３１の音声認識部３２は、マイク３５からユーザの音声「ひでき」を入力し、データとして内蔵メモリに格納する。音声認識エンジン３１の読み候補生成部３３は、音声認識辞書データベース３６を参照して、内蔵メモリに格納されたユーザの音声「ひでき」から複数の読み候補を生成する。即ち、複数の照合用音声の中から、ユーザの音声「ひでき」に最も近い順に、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…を生成する。

音声合成エンジン２１の誤り候補生成部２４は、テキストデータ「７回裏に岡田秀喜が打点をあげた。」が表す上記の語句群「７回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、複数の誤り候補を生成する。即ち、候補選択部４１は、語句群「７回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、複数の読み方がある語句「秀喜」「打点」や、上記の音声合成辞書データベース２６、２７に登録されていない語句を誤り候補として選択する。

候補選択部４１は、複数の誤り候補「秀喜」「打点」…と複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…とを比較する。比較の結果、候補選択部４１は、複数の誤り候補「秀喜」「打点」…の中から、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…のうちの１つの読み候補「ひでき」に対応する誤り候補「秀喜」を選択する。即ち、候補選択部４１は、上記の音声合成辞書データベース２６、２７を参照して、読み候補「ひでき」から漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…に変換する。候補選択部４１は、複数の誤り候補「秀喜」「打点」…の中から、漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…の１つに対応（一致）する誤り候補「秀喜」を選択する。このように、正しい読み「ひでき」に対応する誤り候補「秀喜」をテキストデータから選択する。この選択された誤り候補「秀喜」は、異なる読み「ひでよし」に対応する部分である。

候補選択部４１は、比較の結果として、音声合成メイン辞書データベース２６に格納された複数の語句のうちの、上記部分である語句「秀喜」を読み出し、上記語句「秀喜」と上記正しい読み「ひでき」とを音声合成ユーザ辞書登録部４２に通知する。
同時に、音声認識エンジン３１のアクセント抽出部３４は、内蔵メモリに格納されたユーザの音声「ひでき」を読み出し、その音声「ひでき」からアクセントを抽出し、音声合成ユーザ辞書登録部４２に通知する。
音声合成ユーザ辞書登録部４２は、上記語句「秀喜」と上記正しい読み「ひでき」と上記アクセントとを対応付けて音声合成ユーザ辞書データベース２７に登録する。

これにより、文書データベース１１に上記のテキストデータが格納されたとき、音声合成エンジン２１は、上記のテキストデータが表す語句群を正しく読み上げることができる。即ち、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、テキストデータが表す語句群「７回裏に岡田秀喜が打点をあげた。」から、読み群「ななかいうらにおかだひできがだてんをあげた」を生成する。また、上記読み群に対応する発音用アクセントを決定する。音声合成エンジン２１は、読み群「ななかいうらにおかだひできがだてんをあげた」を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ２５から出力する。

次に、図６を参照して、本発明の第１実施形態による音声合成装置１の動作（音声合成方法・音声合成処理）について説明する。
ここで、文書データベース１１には、インターネットのＷｅｂページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置１は、コンピュータがテキストデータを取得して文書データベース１１に格納したときに、テキストデータに記載された文を音声に変換するものとする。

文抽出部１２は、文書データベース１１に格納されたテキストデータを読み出して、文抽出部１２の内蔵メモリに格納する（ステップＳ１）。

音声合成エンジン２１の構文解析部２３は、文抽出部１２の内蔵メモリからテキストデータに記載された「。」や改行などの文の区切りにより、複数の文を認識する。構文解析部２３は、変数Ｎを１（Ｎ＝１）とし、複数の文のうちの、第１番目の文を読み出す（ステップＳ２）。
構文解析部２３は、上記文を解析する。このとき、構文解析部２３は、漢字、ひらがな、カタカナ、数字の並びにより、上記文が表す語句群を認識する（ステップＳ３）。構文解析部２３は、音声合成メイン辞書データベース２６と音声合成ユーザ辞書データベース２７とを参照する（ステップＳ４、Ｓ５）。このとき、構文解析部２３は、上記文が表す語句群から、読み群を生成し、上記読み群に対応する発音用アクセントを決定する（ステップＳ６）。

音声合成エンジン２１の音声合成部２２は、上記文が表す語句群を読み上げる。即ち、読み群が表す読みを音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ２５から出力する（ステップＳ７）。音声合成部２２が上記の音声をスピーカ２５から出力している間に、ユーザがマイク３５を使用していない場合（ステップＳ８−ＮＯ、Ｓ９）、構文解析部２３は、変数Ｎをインクリメント（Ｎ＝Ｎ＋１）し、次の文を読み出す（ステップＳ１０−ＹＥＳ、Ｓ１１）。次の文がない場合（ステップＳ１０−ＮＯ）、音声合成装置１は音声合成処理を終了する。

一方、音声合成部２２が上記の音声をスピーカ２５から出力している間に、ユーザがマイク３５を使用する（ステップＳ８−ＹＥＳ）。即ち、ユーザは、上記文から異なる読みに対応する部分を正しい読みに訂正するために、マイク３５を用いてユーザの音声を入力する。このとき、音声認識エンジン３１の音声認識部３２は、マイク３５からユーザの音声を入力し、音声認識エンジン３１の内蔵メモリに格納する（ステップＳ１２）。音声認識エンジン３１の読み候補生成部３３は、音声認識辞書データベース３６を参照して、内蔵メモリに格納されたユーザの音声から複数の読み候補を生成する（ステップＳ１３）。

音声合成エンジン２１の音声合成部２２は、変数Ｉを１（Ｉ＝１）とし、文抽出部１２の内蔵メモリから上記文を再度読み出す（ステップＳ１４）。音声合成エンジン２１の構文解析部２３は、上記文を解析して、上記文が表す語句群を認識する（ステップＳ１５）。音声合成エンジン２１の誤り候補生成部２４は、上記文が表す上記の語句群から、複数の読み方がある語句や上記の音声合成辞書データベース２６、２７に登録されていない語句を含む複数の誤り候補を生成する（ステップＳ１６）。候補選択部４１は、複数の誤り候補と複数の読み候補とを比較する（ステップＳ１７）。

比較の結果、候補選択部４１は、複数の誤り候補の中から、複数の読み候補のうちの１つの読み候補に対応する誤り候補を選択することができない（ステップＳ１８−ＮＯ）。
このとき、変数Ｉが変数Ｎよりも小さい場合（ステップＳ１９−ＮＯ）、音声合成装置１は、１つ前の文に対してステップＳ１５〜Ｓ１９を実行する。
また、変数Ｉが変数Ｎである場合、あるいは、変数Ｉが変数Ｎよりも小さいが、１つ前の文がない場合（ステップＳ１９−ＹＥＳ）、ステップＳ１４により読み出された文を文抽出部１２の内蔵メモリから抽出する。即ち、音声合成エンジン２１の音声合成部２２は、文抽出部１２の内蔵メモリから上記文を再度読み出す（ステップＳ２３）。その後、音声合成装置１は、その上記文に対して上記のステップＳ３以降を実行する。

一方、比較の結果、候補選択部４１は、複数の誤り候補の中から、複数の読み候補のうちの１つの読み候補に対応する誤り候補を選択する。このとき、候補選択部４１は、比較の結果として、音声合成メイン辞書データベース２６に格納された複数の語句のうちの、上記誤り候補である語句を読み出し、上記読み出された語句と上記正しい読みとを音声合成ユーザ辞書登録部４２に通知する（ステップＳ１８−ＹＥＳ）。
同時に、音声認識エンジン３１のアクセント抽出部３４は、内蔵メモリに格納されたユーザの音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部４２に通知する（ステップＳ２１）。
音声合成ユーザ辞書登録部４２は、候補選択部４１から通知された語句、正しい読みと、アクセント抽出部３４から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース２７に登録する（ステップＳ２２）。
その後、音声合成装置１は、その上記文に対して上記のステップＳ２３以降を実行する。

上述のように、本発明の音声合成装置１では、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、テキストデータが表す語句群から読み群を生成し、上記読み群を音声に変換し、上記音声をスピーカ２５から出力する。候補選択部４１は、マイク３５から入力される正しい読みに基づいて異なる読みに対応する部分を上記テキストデータから選択する。音声合成ユーザ辞書登録部４２は、上記複数の語句のうちの上記部分を上記正しい読みに対応付けて音声合成ユーザ辞書データベース２７に登録する。これにより、本発明の音声合成装置１に上記のテキストデータが与えられたとき、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置１によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク３５により入力するだけでよい。このため、本発明の音声合成装置１は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。

上述のように、本発明の音声合成装置１では、音声認識エンジン３１は、上記正しい読みとしてマイク３５からユーザの音声を入力し、上記ユーザの音声から複数の読み候補を生成する。音声合成エンジン２１は、上記テキストデータから複数の誤り候補を生成する。候補選択部４１は、複数の誤り候補の中から、複数の読み候補のうちの１つに対応する誤り候補を上記部分として選択する。このように、本発明の音声合成装置１では、テキストデータの異なる読みに対してユーザが正しい読みをマイク３５により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置１は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。

上述のように、本発明の音声合成装置１では、音声合成エンジン２１は、複数アクセントのうちの、上記読み群に対応する発音用アクセントを用いて、上記音声をスピーカ２５から出力する。音声合成ユーザ辞書登録部４２は、複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセントとを対応付けて音声合成ユーザ辞書データベース２７に登録する。このように、本発明の音声合成装置１では、テキストデータの異なる読みに対してユーザが正しい読みをマイク３５により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置１では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置１では、必須の単語（語句、読み、アクセント）を音声合成メイン辞書データベース２６に予め辞書登録しておき、音声合成メイン辞書データベース２６に登録されていない単語（複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）を音声合成ユーザ辞書データベース２７に辞書登録することが好ましい。これにより、本発明の音声合成装置１に上記のテキストデータが与えられたとき、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。

（第２実施形態）
本発明の第２実施形態による音声合成装置１について説明する。第２実施形態では、第１実施形態と異なる点のみ説明する。第２実施形態では、カテゴリ付辞書登録処理と、共起辞書登録処理とを実現する。

カテゴリ付辞書登録処理では、音声合成により固有名詞（人名など）を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。読み上げる文書が、例えば、テキストデータが、記事を表すＷｅｂページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。この場合、音声合成装置１に音声合成辞書データベースの１つとしてカテゴリ付き辞書データベースを設け、辞書登録の際に、カテゴリと、語句と正しい読みとアクセントとを含む単語とを対応付けてカテゴリ付辞書に登録することにより、読み誤りを更に低減することができる。

共起辞書登録処理では、例えば、音声合成により固有名詞（人名など）を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、音声合成装置１に音声合成辞書データベースの１つとして共起情報付き辞書を設け、辞書登録の際に、その語句とその語句に連結する連結語句とを組み合わせる共起情報と、語句と正しい読みとアクセントとを含む単語と、連結語句（共起語）とその読みとそのアクセントとを含む単語とを対応付けて共起情報付辞書に登録することにより、読み誤りを更に低減することができる。

まず、カテゴリ付辞書への登録について説明する。
図７に示されるように、音声合成装置１は、更に、コンピュータに設けられたカテゴリ登録トリガ用スイッチ５１を具備している。
音声合成装置１は、更に、コンピュータプログラムであるカテゴリ抽出部５２を具備している。
音声合成装置１は、更に、コンピュータの格納部に格納されたカテゴリ抽出情報データベース５３を具備している。カテゴリ抽出情報データベース５３には、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…が登録されている。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成カテゴリ付きユーザ辞書データベース５４を含んでいる。

テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「７回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン２１の音声合成部２２が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ２５から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク３５を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、カテゴリとを対応付けるために、カテゴリ登録トリガ用スイッチ５１を操作する。

カテゴリ抽出部５２は、カテゴリ登録トリガ用スイッチ５１が操作されたことを表すカテゴリ登録指示を音声合成ユーザ辞書登録部４２に通知する。図８に示されるように、まず、音声合成ユーザ辞書登録部４２は、このカテゴリ登録指示に応じて、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語を音声合成カテゴリ付きユーザ辞書データベース５４に登録する。カテゴリ抽出部５２は、文抽出部１２の内蔵メモリからテキストデータを読み出し、テキストデータに記載されたカテゴリ「スポーツ」を抽出する。即ち、カテゴリ抽出情報データベース５３を参照して、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…の中から、テキストデータに記載されたカテゴリに一致する参照用カテゴリ「スポーツ」を選択する。カテゴリ抽出部５２は、上記のカテゴリ「スポーツ」を音声合成ユーザ辞書登録部４２に通知する。図８に示されるように、音声合成ユーザ辞書登録部４２は、上記のカテゴリ登録指示に応じて、上記のカテゴリ「スポーツ」を、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース５４に登録する。

次に、共起辞書への登録について説明する。
図７に示されるように、音声合成装置１は、更に、コンピュータに設けられた共起情報登録トリガ用スイッチ６１を具備している。
音声合成装置１は、更に、コンピュータプログラムである共起情報抽出部６２を具備している。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成共起情報付きユーザ辞書データベース６４を含んでいる。

テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「７回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン２１の音声合成部２２が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ２５から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク３５を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む単語とを対応付けるために、共起情報登録トリガ用スイッチ６１を操作し、マイク３５を用いてユーザの音声である連結音声「おかだ」を入力する。

共起情報抽出部６２は、共起情報登録トリガ用スイッチ６１が操作されたことを表す共起情報登録指示を音声合成ユーザ辞書登録部４２に通知する。図９に示されるように、音声合成ユーザ辞書登録部４２は、この共起情報登録指示に応じて、上記語句「秀喜」と正しい読み「ひでき」とアクセントとを含む第１単語とを音声合成共起情報付きユーザ辞書データベース６４に登録する。同時に、後述する第１共起情報を第１単語に対応付けて音声合成共起情報付きユーザ辞書データベース６４に登録する。
また、共起情報抽出部６２は、共起情報登録指示を音声認識エンジン３１、音声合成エンジン２１、候補選択部４１に通知する。

音声認識エンジン３１の音声認識部３２は、共起情報登録指示に応じて、テキストデータの上記部分「秀喜」に連結する連結部分「岡田」の読みとしてマイク３５から上記の連結音声「おかだ」を入力し、データとして内蔵メモリに格納する。音声認識エンジン３１の読み候補生成部３３は、音声認識辞書データベース３６を参照して、内蔵メモリに格納された連結音声「おかだ」から複数の連結読み候補を生成する。即ち、複数の照合用音声の中から、連結音声「おかだ」に最も近い順に、複数の連結読み候補「おかだ」…を生成する。

音声合成エンジン２１の誤り候補生成部２４は、共起情報登録指示に応じて、テキストデータ「７回裏に岡田秀喜が打点をあげた。」が表す語句群「７回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、上記の連結部分に対応する複数の共起候補を生成する。即ち、候補選択部４１は、語句群「７回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、語句「秀喜」に連結する語句「岡田」「が」を共起候補として選択する。

候補選択部４１は、共起情報登録指示に応じて、複数の共起候補「岡田」「が」と複数の連結読み候補「おかだ」…とを比較する。比較の結果、候補選択部４１は、複数の共起候補「岡田」「が」の中から、複数の連結読み候補「おかだ」…のうちの１つの読み候補「おかだ」に対応する共起候補「岡田」を選択する。即ち、候補選択部４１は、上記の音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成ユーザ辞書データベース２７）を参照して、連結読み候補「おかだ」から漢字「岡田」…に変換する。候補選択部４１は、複数の共起候補「岡田」「が」の中から、漢字「岡田」…の１つに対応（一致）する共起候補「岡田」を選択する。このように、正しい読み「ひでき」に対応する共起候補「岡田」を選択する。

候補選択部４１は、比較の結果として、音声合成メイン辞書データベース２６に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句「岡田」を読み出し、上記連結語句「岡田」とその読み「おかだ」とを音声合成ユーザ辞書登録部４２に通知する。
同時に、音声認識エンジン３１のアクセント抽出部３４は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声「おかだ」を読み出し、その音声「おかだ」からアクセントを抽出し、音声合成ユーザ辞書登録部４２に通知する。
音声合成ユーザ辞書登録部４２は、共起情報登録指示に応じて、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む第２単語を音声合成共起情報付きユーザ辞書データベース６４に登録する。同時に、後述する第２共起情報を第２単語に対応付けて音声合成共起情報付きユーザ辞書データベース６４に登録する。第１共起情報と第２共起情報は、第１単語と第２単語とを対応付ける共起情報である。上述のように、連結語句「岡田」は、テキストデータの上記部分「秀喜」の１つ前に連結する連結部分である。このため、音声合成ユーザ辞書登録部４２は、語句「岡田」、「秀喜」がこの順で音声合成共起情報付きユーザ辞書データベース６４に登録されるように、第２共起情報、第１共起情報にそれぞれ語句の並びの順番を表す順番情報“１−１”、“１−２”を付加しておく。

次に、図１０を参照して、本発明の第２実施形態による音声合成装置１の動作（音声合成方法・音声合成処理）について説明する。
ここで、第１実施形態と同様に、文書データベース１１には、インターネットのＷｅｂページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置１は、コンピュータがテキストデータを取得して文書データベース１１に格納したときに、テキストデータに記載された文を音声に変換するものとする。

第２実施形態による音声合成装置１の動作は、第１実施形態に対してステップＳ２２が異なる。音声合成装置１は、ステップＳ２２を実行するとき、トリガとしてカテゴリ登録トリガ用スイッチ５１や共起情報登録トリガ用スイッチ６１が操作されたか否かを確認し（ステップＳ３１）、ユーザ辞書登録処理、カテゴリ付辞書登録処理、共起辞書登録処理のいずれかが実行される。

ここで、音声合成ユーザ辞書登録部４２は、カテゴリ登録指示、共起情報登録指示を受け付けない。この場合、音声合成ユーザ辞書登録部４２は、カテゴリ登録トリガ用スイッチ５１、共起情報登録トリガ用スイッチ６１が操作されていないことを認識し（ステップＳ３１−トリガなし）、ユーザ辞書登録処理が実行される。
このユーザ辞書登録処理では、第１実施形態と同様に、音声合成ユーザ辞書登録部４２は、候補選択部４１から通知された語句、正しい読みと、アクセント抽出部３４から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース２７に登録する（ステップＳ３２）。

ユーザは、マイク３５を用いてユーザの音声を入力し（ステップＳ８−ＹＥＳ）、カテゴリ登録トリガ用スイッチ５１を操作する。カテゴリ抽出部５２は、カテゴリ登録トリガ用スイッチ５１が操作されたことを表すカテゴリ登録指示を出力し、音声合成ユーザ辞書登録部４２は、カテゴリ登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部４２は、カテゴリ登録トリガ用スイッチ５１が操作されたことを認識し、カテゴリ付辞書登録処理が実行される。
このカテゴリ付辞書登録処理では、音声合成ユーザ辞書登録部４２は、カテゴリ登録指示に応じて、候補選択部４１から通知された語句、正しい読みと、アクセント抽出部３４から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース２７に登録する（ステップＳ３１−カテゴリトリガあり）。
カテゴリ抽出部５２は、文抽出部１２の内蔵メモリからテキストデータを読み出し（ステップＳ４１）、カテゴリ抽出情報データベース５３を参照して、テキストデータに記載されたカテゴリを抽出する（ステップＳ４２、Ｓ４３）。カテゴリ抽出部５２は、このカテゴリを音声合成ユーザ辞書登録部４２に通知する。音声合成ユーザ辞書登録部４２は、上記のカテゴリ登録指示に応じて、上記のカテゴリを、上記の語句と正しい読みとアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース５４に登録する（ステップＳ４４）。

ユーザは、マイク３５を用いてユーザの音声を入力した後（ステップＳ８−ＹＥＳ）、共起情報登録トリガ用スイッチ６１を操作し、マイク３５を用いてユーザの音声である連結音声を入力する。共起情報抽出部６２は、共起情報登録トリガ用スイッチ６１が操作されたことを表す共起情報登録指示を出力し、音声合成ユーザ辞書登録部４２は、この共起情報登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部４２は、共起情報登録トリガ用スイッチ６１が操作されたことを認識し、共起辞書登録処理が実行される。
この共起辞書登録処理では、音声合成ユーザ辞書登録部４２は、共起情報登録指示に応じて、候補選択部４１から通知された語句、正しい読みと、アクセント抽出部３４から通知されたアクセントとを含む単語を第１単語として音声合成ユーザ辞書データベース２７に登録する。同時に、音声合成ユーザ辞書登録部４２は、第１共起情報を第１単語に対応付けて音声合成ユーザ辞書データベース２７に登録する（ステップＳ３１−共起語トリガあり）。

音声認識エンジン３１の音声認識部３２は、共起情報登録指示に応じて、テキストデータに記載された上記文の上記部分に連結する連結部分の読みとしてマイク３５から上記の連結音声を入力し、データとして内蔵メモリに格納する（ステップＳ５１）。音声認識エンジン３１の読み候補生成部３３は、音声認識辞書データベース３６を参照して、内蔵メモリに格納された連結音声から複数の連結読み候補を生成する（ステップＳ５２）。

音声合成エンジン２１の誤り候補生成部２４は、共起情報登録指示に応じて、上記文が表す語句群から、上記の連結部分に対応する複数の共起候補を生成する（ステップＳ５３）。

候補選択部４１は、共起情報登録指示に応じて、複数の共起候補と複数の連結読み候補とを比較する（ステップＳ５４）。
比較の結果、候補選択部４１は、複数の共起候補の中から、複数の連結読み候補のうちの１つの読み候補に対応する共起候補を選択する。このとき、候補選択部４１は、比較の結果として、音声合成メイン辞書データベース２６に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句を読み出し、上記連結語句とその読みとを音声合成ユーザ辞書登録部４２に通知する。同時に、音声認識エンジン３１のアクセント抽出部３４は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部４２に通知する（ステップＳ５５）。
音声合成ユーザ辞書登録部４２は、共起情報登録指示に応じて、候補選択部４１から通知された連結語句とその読みと、アクセント抽出部３４から通知されたアクセントとを含む単語を第２単語として音声合成ユーザ辞書データベース２７に登録する。同時に、音声合成ユーザ辞書登録部４２は、第２共起情報を第２単語に対応付けて音声合成ユーザ辞書データベース２７に登録する。このとき、音声合成ユーザ辞書登録部４２は、第２共起情報、第１共起情報にそれぞれ語句の並びの順番を表す順番情報“１−１”、“１−２”を付加する（ステップＳ５６）。

上述のように、例えば、テキストデータが、記事を表すＷｅｂページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置１では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、音声合成メイン辞書データベース２６に登録されていない単語（複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）とを対応付けて音声合成カテゴリ付ユーザ辞書データベース５４に辞書登録することが好ましい。これにより、本発明の音声合成装置１に上記のテキストデータが与えられたとき、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成カテゴリ付ユーザ辞書データベース５４）を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置１は、音声合成ユーザ辞書データベース２７を参照する場合に比べて、読み誤りを更に低減することができる。

上述のように、例えば、音声合成により固有名詞（人名など）を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置１では、第１単語（複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント）と、第２単語（複数語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント）と、第１単語と第２単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース６４に辞書登録することが好ましい。これにより、本発明の音声合成装置１に上記のテキストデータが与えられたとき、音声合成エンジン２１は、音声合成辞書データベース（音声合成メイン辞書データベース２６、音声合成共起情報付ユーザ辞書データベース６４）を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置１は、音声合成ユーザ辞書データベース２７を参照する場合に比べて、読み誤りを更に低減することができる。

図１は、本発明の音声合成装置１の構成を示すブロック図である。（第１実施形態）図２は、本発明の音声合成装置１の音声合成メイン辞書データベース２６を示している。（第１実施形態）図３は、本発明の音声合成装置１の音声合成ユーザ辞書データベース２７を示している。（第１実施形態）図４は、本発明の音声合成装置１の音声認識辞書データベース３６を示している。（第１実施形態）図５は、本発明の音声合成装置１の動作を説明するための図である。（第１実施形態、第２実施形態）図６は、本発明の音声合成装置１の動作を示すフローチャートである。（第１実施形態、第２実施形態）図７は、本発明の音声合成装置１の構成を示すブロック図である。（第２実施形態）図８は、本発明の音声合成装置１の音声合成カテゴリ付きユーザ辞書データベース５４を示している。（第２実施形態）図９は、本発明の音声合成装置１の音声合成共起情報付きユーザ辞書データベース６４を示している。（第２実施形態）図１０は、本発明の音声合成装置１の動作を示すフローチャートである。（第２実施形態）

符号の説明

１音声合成装置
１１文書データベース
１２文抽出部
２１音声合成エンジン
２２音声合成部
２３構文解析部
２４誤り候補生成部
２５スピーカ
２６音声合成メイン辞書データベース
２７音声合成ユーザ辞書データベース
３１音声認識エンジン
３２音声認識部
３３読み候補生成部
３４アクセント抽出部
３５マイク
３６音声認識辞書データベース
４１候補選択部
４２合成音声ユーザ辞書登録部
５１カテゴリ登録トリガ用スイッチ
５２カテゴリ抽出部
５３カテゴリ抽出情報データベース
５４音声合成カテゴリ付きユーザ辞書データベース
６１共起情報登録トリガ用スイッチ
６２共起情報抽出部
６４音声合成共起情報付きユーザ辞書データベース

Claims

複数の語句を複数の読みに対応付ける辞書データベースと、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成エンジンと、
マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
を具備する音声合成装置。
請求項１に記載の音声合成装置において、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの１つに対応する誤り候補を前記部分として選択する
音声合成装置。
請求項１又は２のいずれかに記載の音声合成装置において、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
音声合成装置。
請求項３に記載の音声合成装置において、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
音声合成装置。
請求項３又は４に記載の音声合成装置において、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの１つに対応する共起候補を前記連結部分として選択し、
前記ユーザ辞書登録部は、第１単語と、第２単語と、第１単語と第２単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
前記第１単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第２単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
音声合成装置。
複数の語句を複数の読みに対応付ける辞書データベースを具備するコンピュータに適用される音声合成方法であって、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成ステップと、
マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択ステップと、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録ステップと
を具備する音声合成方法。
請求項６に記載の音声合成方法において、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識ステップを具備し、
前記音声合成ステップは、前記テキストデータが表す語句群から複数の誤り候補を生成するステップを更に含み、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択ステップは、前記複数の誤り候補の中から、前記複数の読み候補のうちの１つに対応する誤り候補を前記部分として選択するステップ
を更に含む音声合成方法。
請求項６又は７に記載の音声合成方法において、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録ステップは、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録するステップ
を更に含む音声合成方法。
請求項８に記載の音声合成方法において、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録ステップは、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録するステップ
を更に含む音声合成方法。
請求項８又は９に記載の音声合成方法において、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識ステップは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成するステップを更に含み、
前記音声合成ステップは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成するステップを更に含み、
前記選択ステップは、前記複数の共起候補の中から、前記複数の連結読み候補のうちの１つに対応する共起候補を前記連結部分として選択するステップを更に含み、
前記ユーザ辞書登録ステップは、第１単語と、第２単語と、第１単語と第２単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録するステップを更に含み、
前記第１単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第２単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
音声合成方法。
請求項６〜１０のいずれかに記載された音声合成方法の各ステップをコンピュータに実行させるコンピュータプログラム。
複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納された格納部と、
前記コンピュータプログラムを実行する制御部と、
スピーカと、
マイクとを具備し、
前記制御部は、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声を前記スピーカから出力する音声合成エンジンと、
前記マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
を具備するコンピュータ。
請求項１２に記載のコンピュータにおいて、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの１つに対応する誤り候補を前記部分として選択する
コンピュータ。
請求項１２又は１３に記載のコンピュータにおいて、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
コンピュータ。
請求項１４に記載のコンピュータにおいて、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
コンピュータ。
請求項１４又は１５に記載のコンピュータにおいて、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの１つに対応する共起候補を前記連結部分として選択し、
前記ユーザ辞書登録部は、第１単語と、第２単語と、第１単語と第２単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
前記第１単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第２単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
コンピュータ。