JP5272764B2

JP5272764B2 - 音声合成装置、音声合成方法及びコンピュータプログラム

Info

Publication number: JP5272764B2
Application number: JP2009023919A
Authority: JP
Inventors: 英樹小島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-04
Filing date: 2009-02-04
Publication date: 2013-08-28
Anticipated expiration: 2029-02-04
Also published as: JP2010181562A

Description

本発明は、テキストデータから合成音声を生成する音声合成装置、音声合成方法及びコンピュータプログラムに関する。

テキストデータから音声を合成するテキスト音声合成技術は、例えば、ＩＶＲ（自動音声応答：Interactive Voice Response）システム、車載情報端末及び携帯電話等における操作方法の音声ガイダンス、電子メールの読み上げ、視覚障害者・発話障害者の支援システム等に適用されている。

従来のテキスト音声合成装置は、例えば、形態素の表記及び読みを対応付けて記憶する形態素辞書、形態素及びアクセント型を対応付けて記憶するアクセント辞書等が予め用意されている。従来のテキスト音声合成装置は、入力されたテキストデータを形態素辞書に基づいて形態素に分割し、分割したそれぞれの形態素に対してアクセント辞書に基づいてアクセント型を付与する。従来のテキスト音声合成装置は、分割した形態素に付与したアクセント型に基づいて、各形態素に対応する韻律を所定の韻律生成ルールに従って生成し、生成した韻律を音声波形に変換して合成音声を取得する。

また、従来のテキスト音声合成装置において、形態素辞書に登録されていない形態素（未知語）がテキストデータに含まれる場合、適切な合成音声を生成するために各種の方法が提案されている（特許文献１〜３参照）。

未知語を読み上げる方法として詳細読みと呼ばれる方法がある。詳細読みは、例えば、「平維盛」が未知語であった場合に、「平板の平、維持の維、盛大の盛」のように各漢字を含む熟語を用いて、各漢字を１文字ずつ説明しつつ読み上げる方法である。詳細読みを行なうことにより、テキスト音声合成装置は、正確な読みが不明である未知語であっても、どのような漢字が使用されているのかを聞き手に通知することができる。

特開平１１−２４９８６６号公報特開平０９−２３７０９６号公報特開２００７−１７１２７５号公報

テキスト音声合成装置は、詳細読みの機能を備える場合、各漢字に対して詳細読みを行なうための詳細読み情報を記憶した詳細読み辞書を予め用意している。そして、テキスト音声合成装置は、詳細読みを行ないたい漢字に対する詳細読み情報を詳細読み辞書から読み出し、読み出した詳細読み情報を用いて、前記漢字の詳細読みを行なう。詳細読み情報は、各漢字を説明するための情報であり、例えば、各漢字を含む熟語が用いられる。

例えば、詳細読み辞書に、漢字「平」に対して詳細読み情報「平板の平」が記憶されており、漢字「維」に対して詳細読み情報「維持の維」が記憶されており、漢字「盛」に対して詳細読み情報「盛大の盛」が記憶されているとする。このような詳細読み辞書を用いることにより、「平維盛」を、「平板の平、維持の維、盛大の盛」と読み上げることができる。

上述したような詳細読み辞書に、全てのユーザが馴染みのある詳細読み情報を登録することは非常に困難である。即ち、予め用意された詳細読み辞書を用いて詳細読みを行なう場合、各漢字の詳細読み情報は詳細読み辞書に登録された固定の情報であるので、必ずしもユーザにとって理解し易い情報ではなかった。

本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、ユーザに馴染みのある情報を用いて各漢字を説明することが可能な音声合成装置、音声合成方法及びコンピュータプログラムを提供することにある。

本願に開示する音声合成装置は、複数の漢字のそれぞれを示す情報と、各漢字を説明するための説明情報とを対応付けて記憶する漢字辞書を備える。本願に開示する音声合成装置は、電子メールデータ及び／又はウェブページを含むテキストデータに基づいて、各漢字を説明するための説明情報を生成し、生成した説明情報に基づいて、漢字辞書に記憶してある説明情報を更新する。また、本願に開示する音声合成装置は、テキストデータを形態素に分割し、分割した形態素に含まれる漢字に、漢字辞書に記憶してある説明情報を付加する。本願に開示する音声合成装置は、説明情報を付加した形態素のそれぞれにアクセント型を付与し、付与したアクセント型に基づいて、前記形態素に対応する韻律を生成し、生成した韻律に基づいて合成音声を生成する。

本願に開示する音声合成装置は、テキストデータから合成音声を生成する際に、テキストデータに含まれる漢字に、各漢字がどのような漢字かを説明するための説明情報を付加した上で合成音声を生成する。本願に開示する音声合成装置は、漢字辞書に記憶してある説明情報を、電子メールデータ及び／又はウェブページを含むテキストデータに基づいて更新する。

本願に開示する音声合成装置では、電子メールデータ及び／又はウェブページを含むテキストデータで使用されている情報に基づいて生成された説明情報を漢字辞書に登録できる。よって、漢字辞書に格納される説明情報を、ユーザが送受信した電子メールデータ又は閲覧したウェブページに基づいて任意に変更できるので、ユーザに馴染みのある説明情報を漢字辞書に登録できる。このような漢字辞書を用いることにより、ユーザに馴染みのある説明情報で各漢字を説明するので、ユーザが理解し易い詳細読みが可能となる。

実施形態１の音声合成装置の構成例を示すブロック図である。詳細読み辞書の格納内容を示す模式図である。実施形態１の音声合成装置の機能構成例を示す機能ブロック図である。実施形態１の詳細読み辞書更新部の機能構成例を示す機能ブロック図である。実施形態１の詳細読み辞書の更新処理の手順を示すフローチャートである。同音異義語辞書及び同義語辞書の格納内容を示す模式図である。実施形態２の詳細読み辞書更新部の機能構成例を示す機能ブロック図である。実施形態２の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態２の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態３の詳細読み辞書更新部の機能構成例を示す機能ブロック図である。実施形態３の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態３の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態４の詳細読み辞書更新部の機能構成例を示す機能ブロック図である。実施形態４の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態４の詳細読み辞書の更新処理の手順を示すフローチャートである。英単語辞書の格納内容を示す模式図である。実施形態５の詳細読み辞書更新部の機能構成例を示す機能ブロック図である。実施形態５の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態５の詳細読み辞書の更新処理の手順を示すフローチャートである。実施形態６の音声合成装置の構成例を示すブロック図である。

以下に、本願に開示する音声合成装置、音声合成方法及びコンピュータプログラムを、各実施形態を示す図面に基づいて詳述する。

（実施形態１）
以下に、実施形態１に係る音声合成装置について説明する。図１は実施形態１の音声合成装置の構成例を示すブロック図である。本実施形態１の音声合成装置１０は、例えば公知のパーソナルコンピュータである。本実施形態１の音声合成装置１０は、本願に開示するコンピュータプログラムをパーソナルコンピュータに読み取らせ、パーソナルコンピュータのＣＰＵ（Central Processing Unit）等に実行させることによって、本願に開示する音声合成装置を実現する。なお、等価な働きをするハードウェアによって本願に開示する音声合成装置を実現してもよい。

本実施形態１に係る音声合成装置１０は、制御部１、記憶部２、操作部３、表示部４、音声出力部５、通信部６等を備える。これらのハードウェア各部はそれぞれバス１ａを介して相互に接続されている。

制御部１は、ＣＰＵ又はＭＰＵ（Micro Processor Unit）等である。制御部１は、所定のタイミングに従って、記憶部２に予め記憶してある制御プログラムを適宜実行する。また、制御部１は、上述したハードウェア各部の動作を制御する。

記憶部２は、音声合成装置１０として動作するために必要な種々の制御プログラム、ユーザに対して各種の情報を通知するための画面情報及び音声情報等を予め格納している。また、記憶部２は、テキストデータ、形態素辞書２ａ、詳細読み辞書２ｂ、アクセント辞書２ｃ、韻律辞書２ｄ、波形辞書２ｅ等を記憶している。

操作部３は、キーボード及びマウス等であり、ユーザが音声合成装置１０を操作するために必要な各種の操作キーを備えている。ユーザにより各操作キーが操作された場合、操作部３は操作された操作キーに対応した制御信号を制御部１へ送出する。制御部１は操作部３から取得した制御信号に対応した処理を実行する。

表示部４は、液晶ディスプレイ又はＣＲＴ（Cathode Ray Tube）ディスプレイ等である。表示部４は、制御部１からの指示に従って、音声合成装置１０の動作状態、操作部３を介して入力された情報、ユーザに対して通知すべき情報等を表示する。

音声出力部５は、音声増幅回路及びスピーカ等を備えている。音声出力部５は、記憶部２に記憶された音声情報に基づく音声を出力する。
通信部６は、インターネット又はＬＡＮ（Local Area Network）等のネットワーク（図示せず）に接続するためのインタフェースである。

本実施形態１の音声合成装置１０は、電子メールの送受信機能、ウェブ閲覧機能を有する。具体的には、音声合成装置１０は、記憶部２に、ネットワークを介して電子メールの送受信を行なうためのメーラー、ネットワーク上で公開されているウェブページを閲覧するためのブラウザ等を記憶している。よって、制御部１がメーラーを実行することによって、音声合成装置１０は、ネットワークを介して外部の装置と電子メールの送受信を行なう。また、制御部１がブラウザを実行することによって、音声合成装置１０は、ネットワークを介してウェブサーバからウェブページを取得する。

なお、制御部１は、外部の装置との間で送受信した電子メールの情報を、記憶部２に予め用意されているメールフォルダ（テキスト記憶部）２０に逐次蓄積する。電子メールの情報は、例えば、電子メールの送受信日時、件名及び本文等を含む。また、制御部１は、ウェブサーバから取得したウェブページの情報を、ウェブページのアクセス履歴として、記憶部２に予め用意されているウェブ閲覧ログフォルダ（テキスト記憶部）２１に逐次蓄積する。ウェブページの情報は、例えば、閲覧日時及びＵＲＬ（Uniform Resource Locator）等を含む。

本実施形態１の音声合成装置１０において、記憶部２に記憶してある形態素辞書２ａ、詳細読み辞書２ｂ、アクセント辞書２ｃ、韻律辞書２ｄ、波形辞書２ｅは、予め記憶部２に格納されていなくてもよい。例えば、音声合成装置１０が、ネットワークを介して外部の装置から各種辞書をダウンロードして記憶部２に格納させてもよい。また、音声合成装置１０が外部メモリに記憶してあるデータの読み出しが可能なドライブ（図示せず）を備える場合には、外部メモリに記憶された各辞書をドライブによって読み出して記憶部２に格納させてもよい。

詳細については図示しないが、形態素辞書２ａには、複数の形態素について、表記、品詞及び読みがそれぞれ対応付けて格納されている。なお、各形態素の品詞は、必ずしも形態素辞書２ａに格納されている必要はない。

図２は詳細読み辞書２ｂの格納内容を示す模式図である。図２に示すように、詳細読み辞書（漢字辞書）２ｂには、複数の漢字のそれぞれを示す漢字情報と、各漢字に対して設定された詳細読み情報とがそれぞれ対応付けて格納されている。図２に示した詳細読み辞書２ｂは、漢字情報として、各漢字の表記を格納しているが、各漢字を識別できる情報であれば表記に限らない。

詳細読み情報は、各漢字の詳細読みを行なう際に各漢字を説明するための説明情報である。図２に示した詳細読み辞書２ｂは、詳細読み情報として、各漢字を含む熟語によって各漢字を説明する情報を格納しているが、各漢字を一意に説明できる情報であれば熟語を用いる構成に限らない。なお、図２に示した詳細読み辞書２ｂは、詳細読み情報として、各詳細読み情報の表記を格納している。具体的には、漢字「平」に対して詳細読み情報「平板の平」が格納されている。しかし、詳細読み辞書２ｂに格納される詳細読み情報は、各詳細読み情報を示す情報であれば表記に限らず、例えば各詳細読み情報の読みでもよい。

詳細読み辞書２ｂには、音声合成装置１０が扱う全ての漢字に対する詳細読み情報が予め格納されているものとする。なお、本実施形態１の音声合成装置１０は、詳細読み辞書２ｂに格納されている詳細読み情報を変更できる。

詳細については図示しないが、アクセント辞書２ｃには、複数の形態素について、表記、読み及びアクセント型がそれぞれ対応付けて格納されている。アクセント型は、例えば、各形態素に含まれるモーラ数とアクセント位置とを示しており、具体的には、１モーラ０型、３モーラ１型等と表される。なお、アクセント辞書２ｃに各形態素の品詞が格納されていてもよい。

また、詳細については図示しないが、韻律辞書２ｄには、複数のアクセント型と、各アクセント型に対応する韻律とがそれぞれ対応付けて格納されている。韻律は、例えば、音素長のデータ及びピッチパターンのデータ等を含む。
更に、詳細については図示しないが、波形辞書２ｅには、複数の音素（音素列）を含む文章に対応して各音声の波形群が格納されている。

以下に、本実施形態１の音声合成装置１０において、制御部１が記憶部２に格納してある制御プログラムを実行することによって実現される各機能について説明する。図３は実施形態１の音声合成装置１０の機能構成例を示す機能ブロック図である。本実施形態１の音声合成装置１０において、制御部１は、記憶部２に記憶してある制御プログラムを実行することによって、形態素解析部１１、詳細読み情報付加部１２、表音文字列生成部１３、韻律生成部１４、波形生成部１５、詳細読み辞書更新部１６等の各機能を実現する。なお、以下では、音声合成装置１０が「平維盛は、有能な人物だった。」のテキストデータから合成音声を生成する処理を例に説明する。

形態素解析部１１は、合成音声を生成すべきテキストデータを記憶部２から読み出し、形態素辞書２ａの格納内容に基づいて、読み出したテキストデータを形態素に分割する。具体的には、形態素解析部１１は、テキストデータ「平維盛は、有能な人物だった。」を、形態素「平維盛（未知語）・は・有能な・人物・だった」に分割する。なお、「平維盛」は、形態素辞書２ａに登録されていないものとする。従って、形態素解析部１１は、「平維盛」に（未知語）を付加して未知語として扱う。形態素解析部１１は、分割した各形態素を詳細読み情報付加部１２へ送出する。

詳細読み情報付加部１２は、形態素解析部１１によって分割された形態素を取得した場合、取得した形態素に未知語が含まれるか否かを判断する。具体的には、詳細読み情報付加部１２は、形態素解析部１１から取得した各形態素に、「（未知語）」が付加された形態素があるか否かを判断する。未知語があると判断した場合、詳細読み情報付加部１２は、未知語（形態素）に含まれる各漢字に対応する詳細読み情報を詳細読み辞書２ｂから読み出す。

ここでは、詳細読み情報付加部１２は、漢字「平」に対応する詳細読み情報「平板の平」、漢字「維」に対応する詳細読み情報「維持の維」、漢字「盛」に対応する詳細読み情報「盛大の盛」をそれぞれ読み出す。そして、詳細読み情報付加部（付加部）１２は、未知語に含まれる各漢字に、詳細読み辞書２ｂから読み出した詳細読み情報を付加する。

ここで、詳細読み情報付加部１２は、各漢字に詳細読み情報を付加する際に、詳細読み情報を形態素に分割して付加する。なお、本実施形態１の詳細読み情報は、各漢字を含む熟語（例えば、平板、維持、盛大）に、「の」を付加した後、各漢字（平、維、盛）を付加した情報であるので、「の」の前後で分割することによって形態素に分割できる。従って、詳細読み情報付加部１２は、形態素「平維盛（未知語）・は・有能な・人物・だった」から、形態素「平（平板・の・平）維（維持・の・維）盛（盛大・の・盛）・は・有能な・人物・だった」を生成する。

詳細読み情報付加部１２は、未知語に含まれる各漢字に詳細読み情報を付加した形態素を表音文字列生成部１３へ送出する。なお、詳細読み情報付加部１２は、形態素解析部１１から取得した形態素に未知語が含まれないと判断した場合、何も行なわずに、形態素解析部１１から取得した形態素を表音文字列生成部１３へ転送する。

表音文字列生成部（アクセント型付与部）１３は、詳細読み情報付加部１２から取得した形態素のそれぞれにアクセント型を付与して表音文字列を生成する。具体的には、表音文字列生成部１３は、取得した形態素のそれぞれをアクセント辞書２ｃから検索し、各形態素のアクセント型をアクセント辞書２ｃから読み出し、読み出したアクセント型を各形態素に付与する。なお、表音文字列生成部１３は、詳細読み情報が付加された形態素については、詳細読み情報に含まれる各形態素にアクセント型を付与する。

従って、表音文字列生成部１３は、形態素「平（平板・の・平）維（維持・の・維）盛（盛大・の・盛）・は・有能な・人物・だった」から、表音文字列「ヘーバン（４モーラ０型）・ノ（１モーラ０型）・ヘー（２モーラ１型）・イジ（２モーラ１型）・ノ（１モーラ０型）・イ（１モーラ０型）・セーダイ（４モーラ０型）・ノ（１モーラ０型）・セー（２モーラ１型）・ワ（１モーラ０型）・ユーノーナ（５モーラ０型）・ジンブツ（４モーラ１型）・ダッタ（３モーラ０型）」を生成する。なお、表音文字列生成部１３は、生成した表音文字列を韻律生成部１４へ送出する。

韻律生成部１４は、表音文字列生成部１３から取得した表音文字列に含まれる各形態素のアクセント型に対応する韻律を韻律辞書２ｄから読み出し、読み出した韻律を順次連結することによって、表音文字列に対する韻律を生成する。韻律生成部１４は、生成した韻律を波形生成部１５へ送出する。

波形生成部（合成音声生成部）１５は、韻律生成部１４から取得した韻律を、波形辞書２ｅの格納内容に基づいて音声波形に変換して合成音声を生成する。具体的には、波形生成部１５は、韻律生成部１４から取得した韻律における各形態素に対応する音声波形を波形辞書２ｅから抽出し、抽出した音声波形と韻律とに基づいて合成音声を生成する。なお、波形生成部１５によって生成された合成音声は、記憶部２に一旦記憶された後、制御部１の制御に従って音声出力部５へ送出され、音声出力部５から音声出力される。

詳細読み辞書更新部（更新部）１６は、詳細読み辞書２ｂに格納されている詳細読み情報を更新する。図４は実施形態１の詳細読み辞書更新部１６の機能構成例を示す機能ブロック図である。詳細読み辞書更新部１６は、タイマ１６１、更新チェック部１６２、テキスト収集部１６３、形態素解析部１６４、頻度算出部１６５、単語選択部１６６、詳細読み情報生成部１６７、辞書更新部１６８の各機能を有する。

タイマ１６１は、所定時間を計時し、所定時間が経過する都度、その旨を更新チェック部１６２に通知する。

更新チェック部（検知部）１６２は、タイマ１６１から所定時間の経過を通知される都度、記憶部２内のメールフォルダ２０に格納された電子メールの情報、又はウェブ閲覧ログフォルダ２１に格納されたウェブページの情報が更新されたか否かをチェックする。例えば、更新チェック部１６２は、前回のチェック時にチェックした電子メールの送受信日時を記憶部２に格納しておき、格納した送受信日時よりも後の送受信日時の電子メールの情報がメールフォルダ２０に格納されているか否かを検知する。また、更新チェック部１６２は、前回のチェック時にチェックしたウェブページの閲覧日時を記憶部２に格納しておき、格納した閲覧日時よりも後の閲覧日時のウェブページの情報がウェブ閲覧ログフォルダ２１に格納されているか否かを検知する。

更新チェック部１６２は、メールフォルダ２０に格納された電子メールの情報、又はウェブ閲覧ログフォルダ２１に格納されたウェブページの情報が更新されたことを検知した場合、その旨をテキスト収集部１６３に通知する。なお、更新チェック部１６２は、前回のチェック時に記憶部２に格納した電子メールの送受信日時及びウェブページの閲覧日時をテキスト収集部１６３に通知すると共に、今回チェックした電子メールの送受信日時及びウェブページの閲覧日時を記憶部２に格納する。

テキスト収集部（収集部）１６３は、更新チェック部１６２から電子メールの送受信日時及びウェブページの閲覧日時を取得した場合、取得した電子メールの送受信日時よりも後の送受信日時の電子メールの本文をメールフォルダ２０から収集する。なお、テキスト収集部１６３は、電子メールの本文の情報だけでなく、電子メールに関してメールフォルダ２０に格納してある全ての情報を読み出してもよい。

また、テキスト収集部１６３は、取得したウェブページの閲覧日時よりも後の閲覧日時のウェブページのＵＲＬをウェブ閲覧ログフォルダ２１から読み出す。テキスト収集部（収集部）１６３は、ウェブ閲覧ログフォルダ２１から読み出したＵＲＬで示されるウェブページを、通信部６を介してネットワークから収集する。テキスト収集部１６３は、収集した電子メールの本文及びウェブページを形態素解析部１６４へ送出する。

形態素解析部１６４は、形態素辞書２ａの格納内容に基づいて、テキスト収集部１６３から取得した電子メールの本文及びウェブページ（テキストデータ）を形態素に分割する。形態素解析部１６４は、分割した各形態素を頻度算出部１６５へ送出する。

頻度算出部（抽出部、計数部）１６５は、詳細読み辞書２ｂに格納されている各漢字について、各漢字を含む形態素（単語）を、形態素解析部１６４から取得した形態素から抽出し、抽出した各形態素の出現回数（出現頻度）を計数する。具体的には、頻度算出部１６５は、詳細読み辞書２ｂに格納されている漢字のうちの１つを読み出し、読み出した漢字を含む形態素を、形態素解析部１６４から取得した形態素から抽出し、抽出した各形態素の出現回数を計数する。頻度算出部１６５は、出現回数の多い順に、出現回数及び形態素を所定数（例えば５個、１０個等）だけ単語選択部１６６へ送出する。

頻度算出部１６５は、詳細読み辞書２ｂに格納されている全ての漢字について、このような処理を行なう。なお、詳細読み辞書２ｂから読み出した漢字を含む形態素が、形態素解析部１６４から取得した形態素に含まれていない場合、頻度算出部１６５は、この漢字に対しては何も行なわない。

単語選択部（選択部）１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、各形態素に含まれる漢字に対する詳細読み情報を生成するための単語（形態素）を選択する。本実施形態１の単語選択部１６６は、出現回数が最多の形態素を選択する。単語選択部１６６は、選択した形態素を詳細読み情報生成部１６７へ送出する。

詳細読み情報生成部（生成部）１６７は、単語選択部１６６から取得した形態素に基づいて、各漢字を説明するための詳細読み情報（説明情報）を生成する。例えば、漢字「平」を含む形態素のうちで出現回数が最多の形態素が「平行」であった場合、詳細読み情報生成部１６７は、形態素「平行」と漢字「平」とに基づいて、詳細読み情報「平行の平」を生成する。なお、詳細読み辞書２ｂに詳細読み情報の読みが格納されている場合は、詳細読み情報生成部１６７は、生成した詳細読み情報の読み（表音文字列）を、形態素辞書２ａの格納内容に基づいて生成する。詳細読み情報生成部１６７は、生成した詳細読み情報を対応する漢字と共に辞書更新部１６８へ送出する。

辞書更新部１６８は、詳細読み情報生成部１６７から詳細読み情報及び漢字を取得した場合、取得した漢字に対して詳細読み辞書２ｂに格納してある詳細読み情報を、詳細読み情報生成部１６７から取得した詳細読み情報に更新する。

頻度算出部１６５、単語選択部１６６、詳細読み情報生成部１６７及び辞書更新部１６８は、詳細読み辞書２ｂに格納されている各漢字に対してそれぞれ上述した処理を行なう。これにより、音声合成装置１０は、詳細読み辞書２ｂに格納されている全ての漢字に対する詳細読み情報を適宜更新できる。本実施形態１の音声合成装置１０では、ユーザが送受信した電子メールの情報、又はユーザが閲覧したウェブページに含まれる単語（形態素）を用いて生成した詳細読み情報が詳細読み辞書２ｂに格納される。従って、このような詳細読み辞書２ｂを用いて各漢字の詳細読みを行なった場合、ユーザに馴染みのある詳細読み情報を用いることができるので、ユーザに分かり易い詳細読みが可能となる。

以下に、本実施形態１の音声合成装置１０による詳細読み辞書２ｂの更新処理についてフローチャートに基づいて詳述する。図５は実施形態１の詳細読み辞書２ｂの更新処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置１０の記憶部２に格納されている制御プログラムに従って制御部１によって実行される。

音声合成装置１０の制御部１は、所定時間を計時し、所定時間が経過したか否かを判断し（Ｓ１）、所定時間が経過していないと判断した場合（Ｓ１：ＮＯ）、所定時間が経過するまで待機する。制御部１は、所定時間が経過したと判断した場合（Ｓ１：ＹＥＳ）、メールフォルダ２０に格納された電子メールの情報、又はウェブ閲覧ログフォルダ２１に格納されたウェブページの情報が更新されたか否かを判断する（Ｓ２）。

制御部１は、電子メールの情報及びウェブページの情報が更新されていないと判断した場合（Ｓ２：ＮＯ）、ステップＳ１に処理を戻し、所定時間が経過するまで待機する。電子メールの情報又はウェブページの情報が更新されたと判断した場合（Ｓ２：ＹＥＳ）、制御部１は、更新されたテキストデータを収集する（Ｓ３）。具体的には、制御部１は、ユーザが新たに送受信した電子メールの本文をメールフォルダ２０から収集し、ユーザが新たに閲覧したウェブページのＵＲＬをウェブ閲覧ログフォルダ２１から読み出す。なお、制御部１は、ウェブ閲覧ログフォルダ２１から読み出したＵＲＬで示されるウェブページを、通信部６を介してネットワークから収集する。

制御部１は、収集したテキストデータを、形態素辞書２ａの格納内容に基づいて形態素に分割する（Ｓ４）。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちの１つを読み出し（Ｓ５）、読み出した漢字を含む形態素毎に、収集したテキストデータを分割した形態素における出現回数を算出する（Ｓ６）。制御部１は、詳細読み辞書２ｂから読み出した漢字を含む形態素が、収集したテキストデータを分割した形態素に含まれていたか否かを判断する（Ｓ７）。詳細読み辞書２ｂから読み出した漢字を含む形態素がないと判断した場合（Ｓ７：ＮＯ）、制御部１はステップＳ１１に処理を移行する。

詳細読み辞書２ｂから読み出した漢字を含む形態素があると判断した場合（Ｓ７：ＹＥＳ）、制御部１は、ステップＳ６で算出した出現回数が最多の形態素を特定する（Ｓ８）。制御部１は、特定した形態素に基づいて、ステップＳ５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ９）。例えば、制御部１は、ステップＳ５で詳細読み辞書２ｂから読み出した漢字「平」に対してステップＳ８で形態素「平行」を特定した場合、詳細読み情報「平行の平」を生成する。

制御部１は、生成した詳細読み情報に基づいて、詳細読み辞書２ｂを更新する（Ｓ１０）。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したか否かを判断しており（Ｓ１１）、読み出していないと判断した場合（Ｓ１１：ＮＯ）、ステップＳ５に処理を戻す。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちで、まだ処理されていない１つを読み出し（Ｓ５）、読み出した漢字に対して、ステップＳ６〜Ｓ１０の処理を行なう。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字に対して上述した処理を行なうまで、ステップＳ５〜Ｓ１１の処理を繰り返す。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したと判断した場合（Ｓ１１：ＹＥＳ）、上述した処理を終了する。

上述した処理により、本実施形態１の音声合成装置１０は、ユーザが扱うテキストデータに含まれる単語（形態素）を用いて生成した詳細読み情報を詳細読み辞書２ｂに格納できる。従って、このような詳細読み辞書２ｂを用いて各漢字の詳細読みを行なった場合、ユーザに馴染みのある詳細読み情報を用いるので、ユーザに分かり易い詳細読みを実現できる。

本実施形態１の音声合成装置１０は、ユーザが扱うテキストデータとして、電子メール及びウェブページの情報に基づいて詳細読み辞書２ｂを更新していた。このほかに、音声合成装置１０は、例えば、ユーザから任意のテキストデータを指定され、指定されたテキストデータに基づいて詳細読み辞書２ｂの更新処理を行なってもよい。また、音声合成装置１０は、ユーザから指定された任意のテキストデータが更新されたか否かを検知しておき、更新される都度、詳細読み辞書２ｂの更新処理を行なってもよい。更に、詳細読み辞書２ｂの更新処理のみを、外部のサーバに実行させ、音声合成装置１０は、サーバによって更新された詳細読み辞書２ｂを取得して記憶部２に記憶させてもよい。

本実施形態１の音声合成装置１０は、ユーザが扱うテキストデータにおいて、詳細読み辞書２ｂに格納してある各漢字を含む形態素の出現回数が最多の形態素を用いて、各漢字の詳細読み情報を生成していた。更に、音声合成装置１０は、詳細読み辞書２ｂの更新処理を行なう際に逐次計数する各形態素の出現回数を蓄積しておき、出現回数の総数が最多の形態素を用いて各漢字の詳細読み情報を生成してもよい。

本実施形態１の音声読み上げ装置１０は、合成音声を生成する処理対象のテキストデータ中に、形態素辞書２ａに登録されていない単語（未知語）が含まれる場合、この未知語に対して詳細読みを行なっていた。このほかに、音声合成装置１０は、例えば、合成音声を生成する処理対象のテキストデータにおいて、ユーザから詳細読みを行なう領域の指定を受け付け、指定された領域に含まれる全ての漢字に対して詳細読みを行なってもよい。

（実施形態２）
以下に、実施形態２に係る音声合成装置について説明する。なお、本実施形態２の音声合成装置は、上述した実施形態１の音声合成装置１０と同様の構成によって実現できるので、同様の構成については同一の符号を付して説明を省略する。

上述した実施形態１の音声合成装置１０は、ユーザが扱うテキストデータにおいて出現回数が最多の形態素（単語）を用いて各漢字に対する詳細読み情報を生成していた。本実施形態２の音声合成装置１０は、出現回数が最多の形態素（単語）に同音異義語がある場合、この形態素に同義語を付加してこの形態素を説明しつつ、この形態素を用いて各漢字に対する詳細読み情報を生成する。

本実施形態２の音声合成装置１０は、図１に示した構成のほかに、記憶部２に、同音異義語辞書２２及び同義語辞書２３を格納している。図６は同音異義語辞書２２及び同義語辞書２３の格納内容を示す模式図である。図６（ａ）に示すように、同音異義語辞書２２には、読み（厳密には音読み）が同じで意味が異なる単語、即ち同音異義語がそれぞれ対応付けて格納されている。例えば、同音異義語辞書２２には、「完了」と「官僚」とが対応付けて格納されている。同音異義語辞書２２の格納内容は、予め格納されていてもよいし、ユーザによって任意に更新されてもよい。

図６（ｂ）に示すように、同義語辞書（シソーラス）２３には、意味が同じ又は類似する単語、即ち同義語がそれぞれ対応付けて格納されている。例えば、同義語辞書２３には、「完了」及び「終了」、「官僚」及び「役人」がそれぞれ対応付けて格納されている。同義語辞書２３の格納内容も、予め格納されていてもよいし、ユーザによって任意に更新されてもよい。

本実施形態２の音声合成装置１０において、制御部１は、記憶部２に記憶してある制御プログラムを実行することによって、図３及び図４に示した各機能を実現する。ただし、本実施形態２の音声合成装置１０においては、単語選択部１６６による処理が、上述した実施形態１の単語選択部１６６による処理とは異なる。

図７は実施形態２の詳細読み辞書更新部１６の機能構成例を示す機能ブロック図である。本実施形態２の単語選択部１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、出現回数が最多の形態素を選択する。単語選択部（判断部）１６６は、出現回数が最多の形態素を選択した場合、同音異義語辞書２２の格納内容に基づいて、選択した形態素に同音異義語があるか否かを判断する。

単語選択部（同義語取得部）１６６は、選択した形態素に同音異義語があると判断した場合、選択した形態素の同義語を同義語辞書２３から１つ読み出す。単語選択部１６６は、選択した形態素の同義語を同義語辞書２３から読み出した場合、選択した形態素及び同義語辞書２３から読み出した同義語を詳細読み情報生成部１６７へ送出する。なお、選択した形態素に同音異義語がないと判断した場合、単語選択部１６６は、実施形態１と同様に、選択した形態素のみを詳細読み情報生成部１６７へ送出する。

本実施形態２の詳細読み情報生成部１６７は、単語選択部１６６から形態素のみを取得した場合、実施形態１と同様の方法によって、各漢字を説明するための詳細読み情報を生成する。例えば、漢字「平」を含む形態素のうちで出現回数が最多の形態素が「平行」であった場合、詳細読み情報生成部１６７は、詳細読み情報「平行の平」を生成する。

詳細読み情報生成部１６７は、単語選択部１６６から形態素及び同義語を取得した場合、取得した形態素及び同義語に基づいて、各漢字を説明するための詳細読み情報（説明情報）を生成する。例えば、漢字「完」を含む形態素のうちで出現回数が最多の形態素が「完了」であった場合、単語選択部１６６は、形態素「完了」の同義語「終了」を同義語辞書２３から読み出す。この場合、詳細読み情報生成部１６７は、漢字「完」に対する詳細読み情報「終了の完了の完」を生成する。

また、例えば、漢字「官」を含む形態素のうちで出現回数が最多の形態素が「官僚」であった場合、単語選択部１６６は、形態素「官僚」の同義語「役人」を同義語辞書２３から読み出す。この場合、詳細読み情報生成部１６７は、漢字「官」に対する詳細読み情報「役人の官僚の官」を生成する。詳細読み情報生成部１６７は、生成した詳細読み情報を対応する漢字と共に辞書更新部１６８へ送出する。

これにより、本実施形態２の音声合成装置１０は、詳細読み辞書２ｂに格納される詳細読み情報を生成するために選択した単語（形態素）に同音異義語がある場合に、この単語の意味を明確にした詳細読み情報を生成できる。

以下に、本実施形態２の音声合成装置１０による詳細読み辞書２ｂの更新処理についてフローチャートに基づいて詳述する。図８及び図９は実施形態２の詳細読み辞書２ｂの更新処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置１０の記憶部２に格納されている制御プログラムに従って制御部１によって実行される。

図８及び図９中のステップＳ２１からＳ２８までの処理は、上述した実施形態１で説明した図５中のステップＳ１からＳ８までの処理と同一であるので、説明を省略する。
本実施形態２の音声合成装置１０において、制御部１は、ステップＳ２８で特定した形態素に同音異義語があるか否かを、同音異義語辞書２２の格納内容に基づいて判断する（Ｓ２９）。

制御部１は、同音異義語があると判断した場合（Ｓ２９：ＹＥＳ）、ステップＳ２８で特定した形態素の同義語を同義語辞書２３から読み出す（Ｓ３０）。制御部１は、ステップＳ２８で特定した形態素と、同義語辞書２３から読み出した同義語とに基づいて、ステップＳ２５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ３１）。例えば、制御部１は、ステップＳ２５で読み出した漢字「完」に対してステップＳ２８で形態素「完了」を特定し、ステップＳ３０で形態素「完了」の同義語「終了」を読み出した場合、詳細読み情報「終了の完了の完」を生成する。

一方、同音異義語がないと判断した場合（Ｓ２９：ＮＯ）、制御部１は、ステップＳ３０の処理をスキップし、ステップＳ２８で特定した形態素に基づいて、ステップＳ２５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ３１）。

制御部１は、生成した詳細読み情報に基づいて、詳細読み辞書２ｂを更新する（Ｓ３２）。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したか否かを判断しており（Ｓ３３）、読み出していないと判断した場合（Ｓ３３：ＮＯ）、ステップＳ２５に処理を戻す。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちで、まだ処理されていない１つを読み出し（Ｓ２５）、読み出した漢字に対して、ステップＳ２６〜Ｓ３２の処理を行なう。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字に対して上述した処理を行なうまで、ステップＳ２５〜Ｓ３３の処理を繰り返す。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したと判断した場合（Ｓ３３：ＹＥＳ）、上述した処理を終了する。

上述した処理により、本実施形態２の音声合成装置１０は、詳細読み辞書２ｂに格納される詳細読み情報を生成するために選択した単語（形態素）に同音異義語がある場合に、この単語の同義語によって、この単語の意味を明確にした詳細読み情報を生成できる。従って、このような詳細読み情報が格納された詳細読み辞書２ｂを用いて各漢字の詳細読みを行なった場合、同音異義語によってユーザに誤解を与えず、ユーザがより理解し易い詳細読みが可能となる。

本実施形態２の音声合成装置１０は、ユーザが扱うテキストデータにおいて出現回数が最多の形態素を用い、この形態素に同音異義語がある場合にはこの形態素の同義語も用いて詳細読み情報を生成していた。このほかに、音声合成装置１０は、例えば、出現回数は最多ではないが、同音異義語を有さない形態素を優先的に選択し、この形態素を用いて詳細読み情報を生成してもよい。この場合、詳細読み情報に含まれる形態素に同音異義語がないので、同音異義語によってユーザに誤解を与えることを確実に防止した詳細読みが可能となる。

（実施形態３）
以下に、実施形態３に係る音声合成装置について説明する。なお、本実施形態３の音声合成装置は、上述した実施形態１の音声合成装置１０と同様の構成によって実現できるので、同様の構成については同一の符号を付して説明を省略する。

上述した実施形態１の音声合成装置１０は、ユーザが扱うテキストデータにおいて出現回数が最多の形態素（単語）を用いて各漢字に対する詳細読み情報を生成していた。本実施形態３の音声合成装置１０は、各単語が一般的に使用される頻度を予め計数しておき、出現回数が最多の形態素（単語）の使用頻度が所定値以上であれば、この形態素を用いて各漢字に対する詳細読み情報を生成する。

本実施形態３の音声合成装置１０は、図１に示した構成のほかに、記憶部２に一般使用頻度情報ＤＢ２４を格納している。詳細については図示しないが、一般使用頻度情報ＤＢ（使用頻度記憶部）２４には、複数の形態素（単語）のそれぞれに対して、各形態素が一般的に使用される頻度が対応付けて記憶されている。一般使用頻度情報ＤＢ２４は、例えば、日本語の大規模なテキストコーパスにおける各形態素の出現頻度を算出することによって生成される。なお、算出した各形態素の出現頻度を所定の基準値に基づいて正規化した値を一般使用頻度情報ＤＢ２４に格納しておくことにより、各形態素の一般的な使用頻度としてもよい。

本実施形態３の音声合成装置１０において、制御部１は、記憶部２に記憶してある制御プログラムを実行することによって、図３及び図４に示した各機能を実現する。ただし、本実施形態３の音声合成装置１０においては、単語選択部１６６による処理が、上述した実施形態１の単語選択部１６６による処理とは異なる。

図１０は実施形態３の詳細読み辞書更新部１６の機能構成例を示す機能ブロック図である。本実施形態３の単語選択部１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、出現回数が最多の形態素を選択する。単語選択部（使用頻度取得部）１６６は、出現回数が最多の形態素を選択した場合、選択した形態素（単語）の一般的な使用頻度を一般使用頻度情報ＤＢ２４から読み出す。

単語選択部１６６は、一般使用頻度情報ＤＢ２４から読み出した使用頻度が所定値以上であるか否かを判断し、所定値以上であると判断した場合、選択した形態素を詳細読み情報生成部１６７へ送出する。一方、一般使用頻度情報ＤＢ２４から読み出した使用頻度が所定値未満であると判断した場合、単語選択部１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、出現回数が次に多い形態素を選択する。そして、単語選択部１６６は、選択した形態素の一般的な使用頻度を一般使用頻度情報ＤＢ２４から読み出し、読み出した使用頻度が所定値以上であるか否かを判断する。

単語選択部１６６は、一般的な使用頻度が所定値以上の形態素のうちで、頻度算出部１６５によって計数された出現回数が最多の形態素を選択するまで、上述した処理を繰り返す。そして、単語選択部１６６は、一般的な使用頻度が所定値以上であり、頻度算出部１６５によって計数された出現回数が最多の形態素を選択した場合、この形態素を詳細読み情報生成部１６７へ送出する。

本実施形態３の詳細読み情報生成部１６７は、単語選択部１６６から形態素を取得した場合、実施形態１と同様の方法によって、各漢字を説明するための詳細読み情報を生成する。例えば、漢字「平」を含む形態素のうちで出現回数が最多の形態素が「平行」であった場合、詳細読み情報生成部１６７は、詳細読み情報「平行の平」を生成する。

これにより、本実施形態３の音声合成装置１０は、詳細読み辞書２ｂに格納される詳細読み情報を生成するために選択した単語（形態素）の一般的な使用頻度が所定値以上であれば、この単語を用いた詳細読み情報を生成する。即ち、ユーザが扱うテキストデータにおける出現回数が多い形態素であっても、一般的な使用頻度が少ない場合は、詳細読み情報の生成には用いない。よって、一般的に使用されにくい単語を用いた詳細読み情報が詳細読み辞書２ｂに格納されることを防止できる。

以下に、本実施形態３の音声合成装置１０による詳細読み辞書２ｂの更新処理についてフローチャートに基づいて詳述する。図１１及び図１２は実施形態３の詳細読み辞書２ｂの更新処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置１０の記憶部２に格納されている制御プログラムに従って制御部１によって実行される。

図１１及び図１２中のステップＳ４１からＳ４８までの処理は、上述した実施形態１で説明した図５中のステップＳ１からＳ８までの処理と同一であるので、説明を省略する。
本実施形態３の音声合成装置１０において、制御部１は、ステップＳ４８で特定した形態素の一般的な使用頻度を一般使用頻度情報ＤＢ２４から読み出す（Ｓ４９）。

制御部１は、一般使用頻度情報ＤＢ２４から読み出した使用頻度が所定値以上であるか否かを判断し（Ｓ５０）、所定値未満であると判断した場合（Ｓ５０：ＮＯ）、ステップＳ４７に処理を戻す。制御部１は、ステップＳ４５で詳細読み辞書２ｂから読み出した漢字を含む形態素のうちで、まだ処理されていない形態素があるか否かを判断する（Ｓ４７）。まだ処理されていない形態素があると判断した場合（Ｓ４７：ＹＥＳ）、制御部１は、まだ処理されていない形態素のうちで、ステップＳ４６で算出した出現回数が最多の形態素を特定する（Ｓ４８）

制御部１は、特定した形態素の一般的な使用頻度を一般使用頻度情報ＤＢ２４から読み出し（Ｓ４９）、読み出した使用頻度が所定値以上であるか否かを判断する（Ｓ５０）。制御部１は、特定した形態素の一般的な使用頻度が所定値以上であると判断するまで、ステップＳ４７〜Ｓ５０の処理を繰り返す。なお、制御部１は、まだ処理されていない形態素がないと判断した場合（Ｓ４７：ＮＯ）、ステップＳ５３に処理を移行する。

ステップＳ４９で読み出した使用頻度が所定値以上であると判断した場合（Ｓ５０：ＹＥＳ）、制御部１は、ステップＳ４８で特定した形態素に基づいて、ステップＳ４５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ５１）。制御部１は、生成した詳細読み情報に基づいて、詳細読み辞書２ｂを更新する（Ｓ５２）。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したか否かを判断しており（Ｓ５３）、読み出していないと判断した場合（Ｓ５３：ＮＯ）、ステップＳ４５に処理を戻す。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちで、まだ処理されていない１つを読み出し（Ｓ４５）、読み出した漢字に対して、ステップＳ４６〜Ｓ５２の処理を行なう。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字に対して上述した処理を行なうまで、ステップＳ４５〜Ｓ５３の処理を繰り返す。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したと判断した場合（Ｓ５３：ＹＥＳ）、上述した処理を終了する。

上述した処理により、本実施形態３の音声合成装置１０は、詳細読み辞書２ｂに格納される詳細読み情報を生成するために選択した単語（形態素）の一般的な使用頻度が所定値以上である場合に、この単語を用いた詳細読み情報を生成できる。従って、本実施形態３の音声合成装置１０は、一般的に使用される単語を用いた詳細読み情報を詳細読み辞書２ｂに格納できる。よって、ユーザに馴染みのある単語であり、且つ、一般的に使用される単語を用いた詳細読みが可能となり、ユーザが理解し易い詳細読みを実現できる。

本実施形態３は、上述した実施形態１の変形例として説明したが、上述した実施形態２の構成にも適用することができる。具体的には、ユーザが扱うテキストデータにおける出現回数が多く、一般的な使用頻度が所定数以上である形態素を特定し、特定した形態素に同音異義語があれば、この形態素の同義語も用いた詳細読み情報を生成してもよい。

（実施形態４）
以下に、実施形態４に係る音声合成装置について説明する。なお、本実施形態４の音声合成装置は、上述した実施形態１の音声合成装置１０と同様の構成によって実現できるので、同様の構成については同一の符号を付して説明を省略する。

上述した実施形態１の音声合成装置１０は、ユーザが扱うテキストデータにおいて出現回数が最多の形態素（単語）を用いて各漢字に対する詳細読み情報を生成していた。本実施形態４の音声合成装置１０は、ユーザが扱うテキストデータにおける出現回数が多く、詳細読み情報を付与する各漢字を音読みする形態素と、各漢字を訓読みする形態素との両方を用いて詳細読み情報を生成する。

本実施形態４の音声合成装置１０は、図１に示した構成のほかに、記憶部２に音訓読み辞書２５を格納している。詳細については図示しないが、音訓読み辞書（読み辞書）２５には、複数の漢字の音読み及び訓読みが対応付けて記憶されている。

本実施形態４の音声合成装置１０において、制御部１は、記憶部２に記憶してある制御プログラムを実行することによって、図３及び図４に示した各機能を実現する。ただし、本実施形態４の音声合成装置１０においては、単語選択部１６６による処理が、上述した実施形態１の単語選択部１６６による処理とは異なる。

図１３は実施形態４の詳細読み辞書更新部１６の機能構成例を示す機能ブロック図である。本実施形態４の単語選択部１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、出現回数が最多の形態素を選択する。単語選択部（読み判定部）１６６は、出現回数が最多の形態素を選択した場合、音訓読み辞書２５の格納内容に基づいて、選択した形態素（単語）中の、詳細読み情報を付与したい漢字が音読みされているか、訓読みされているかを判定する。

例えば、漢字「花」に対して形態素「花瓶」が選択されていた場合、単語選択部１６６は、選択した形態素「花瓶」中の漢字「花」が音読みされていると判定する。また、例えば、漢字「花」に対して形態素「花束」が選択されていた場合、単語選択部１６６は、選択した形態素「花束」中の漢字「花」が訓読みされていると判定する。

詳細読み情報を付与したい漢字が音読みされていると判定した場合、単語選択部１６６は、頻度算出部１６５から取得した形態素及び各形態素の出現回数に基づいて、漢字が訓読みされている形態素のうちで、出現回数が最多の形態素を選択する。一方、詳細読み情報を付与したい漢字が訓読みされていると判定した場合、単語選択部１６６は、頻度算出部１６５から取得した形態素及び各形態素の出現回数に基づいて、漢字が音読みされている形態素のうちで、出現回数が最多の形態素を選択する。

単語選択部１６６は、漢字が音読みされている形態素及び漢字が訓読みされている形態素をそれぞれ特定できた場合、特定した２つの形態素を詳細読み情報生成部１６７へ送出する。なお、漢字が音読みされている形態素及び漢字が訓読みされている形態素の一方しか特定できなかった場合、単語選択部１６６は、特定した１つの形態素を詳細読み情報生成部１６７へ送出する。

本実施形態４の詳細読み情報生成部１６７は、単語選択部１６６から１つの形態素を取得した場合、実施形態１と同様の方法によって、各漢字を説明するための詳細読み情報を生成する。

詳細読み情報生成部１６７は、単語選択部１６６から２つの形態素を取得した場合、取得した２つの形態素に基づいて、各漢字を説明するための詳細読み情報（説明情報）を生成する。例えば、漢字「花」を含む形態素のうちで漢字「花」を音読みし、出現回数が最多の形態素が「花瓶」であり、漢字「花」を含む形態素のうちで漢字「花」を訓読みし、出現回数が最多の形態素が「花束」であった場合がある。この場合、詳細読み情報生成部１６７は、例えば、漢字「花」に対する詳細読み情報「花瓶の花または花束の花」を生成する。なお、詳細読み情報は、このような例に限られない。詳細読み情報生成部１６７は、生成した詳細読み情報を対応する漢字と共に辞書更新部１６８へ送出する。

これにより、本実施形態４の音声合成装置１０は、詳細読み情報を付与したい漢字を含み、該漢字が音読みされている単語（形態素）及び該漢字が訓読みされている単語（形態素）を用いた詳細読み情報を生成する。よって、各漢字を説明するための詳細読み情報に、各漢字を音読みした例と、各漢字を訓読みした例とを含めることができる。

以下に、本実施形態４の音声合成装置１０による詳細読み辞書２ｂの更新処理についてフローチャートに基づいて詳述する。図１４及び図１５は実施形態４の詳細読み辞書２ｂの更新処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置１０の記憶部２に格納されている制御プログラムに従って制御部１によって実行される。

図１４及び図１５中のステップＳ６１からＳ６８までの処理は、上述した実施形態１で説明した図５中のステップＳ１からＳ８までの処理と同一であるので、説明を省略する。
本実施形態４の音声合成装置１０において、制御部１は、ステップＳ６８で特定した形態素において、ステップＳ６５で読み出した漢字が音読みされているか否かを判断する（Ｓ６９）。

音読みされていると判断した場合（Ｓ６９：ＹＥＳ）、制御部１は、ステップＳ６６で算出した出現回数に基づいて、ステップＳ６５で読み出した漢字が訓読みされている形態素のうちで、出現回数が最多の形態素を選択する（Ｓ７０）。一方、訓読みされていると判断した場合（Ｓ６９：ＮＯ）、制御部１は、ステップＳ６６で算出した出現回数に基づいて、ステップＳ６５で読み出した漢字が音読みされている形態素のうちで、出現回数が最多の形態素を選択する（Ｓ７１）。

制御部１は、ステップＳ７０で漢字が訓読みされている形態素を選択できたか否か、又は、ステップＳ７１で漢字が音読みされている形態素を選択できたか否かを判断する（Ｓ７２）。選択できたと判断した場合（Ｓ７２：ＹＥＳ）、制御部１は、ステップＳ６８で特定した形態素と、ステップＳ７０又はＳ７１で選択した形態素とに基づいて、ステップＳ６５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ７３）。

例えば、制御部１は、ステップＳ６５で詳細読み辞書２ｂから読み出した漢字「花」に対してステップＳ６８で形態素「花瓶」を特定し、ステップＳ７０で形態素「花束」を選択した場合、詳細読み情報「花瓶の花または花束の花」を生成する。また、制御部１は、ステップＳ６５で詳細読み辞書２ｂから読み出した漢字「花」に対してステップＳ６８で形態素「花束」を特定し、ステップＳ７０で形態素「花瓶」を選択した場合、詳細読み情報「花束の花または花瓶の花」を生成する。

一方、ステップＳ７０で漢字が訓読みされている形態素を選択できなかった場合、又は、ステップＳ７１で漢字が音読みされている形態素を選択できなかった場合（Ｓ７２：ＮＯ）、制御部１は、ステップＳ６８で特定した形態素に基づいて、ステップＳ６５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ７４）。

制御部１は、生成した詳細読み情報に基づいて、詳細読み辞書２ｂを更新する（Ｓ７５）。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したか否かを判断しており（Ｓ７６）、読み出していないと判断した場合（Ｓ７６：ＮＯ）、ステップＳ６５に処理を戻す。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちで、まだ処理されていない１つを読み出し（Ｓ６５）、読み出した漢字に対して、ステップＳ６６〜Ｓ７５の処理を行なう。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字に対して上述した処理を行なうまで、ステップＳ６５〜Ｓ７６の処理を繰り返す。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したと判断した場合（Ｓ７６：ＹＥＳ）、上述した処理を終了する。

上述した処理により、本実施形態４の音声合成装置１０は、詳細読み情報を付与したい漢字を含み、該漢字が音読みされている形態素及び該漢字が訓読みされている形態素を用いた詳細読み情報を生成できる。従って、本実施形態４の音声合成装置１０は、各漢字を音読みした例と各漢字を訓読みした例とが各漢字に対する詳細読み情報に含まれるので、ユーザが理解し易い詳細読みを実現できる。

本実施形態４は、上述した実施形態１の変形例として説明したが、上述した実施形態２，３の構成にも適用することができる。

（実施形態５）
以下に、実施形態５に係る音声合成装置について説明する。なお、本実施形態５の音声合成装置は、上述した実施形態１の音声合成装置１０と同様の構成によって実現できるので、同様の構成については同一の符号を付して説明を省略する。

上述した実施形態１の音声合成装置１０は、ユーザが扱うテキストデータにおいて、詳細読み辞書２ｂに記憶してある各漢字を含む形態素の出現回数を計数し、出現回数が最多の形態素（単語）を用いて各漢字に対する詳細読み情報を生成していた。本実施形態５の音声合成装置１０は、詳細読み辞書２ｂに記憶してある各漢字を含む形態素だけでなく、詳細読み辞書２ｂに記憶してある各漢字を日本語訳に含む英単語の出現回数も計数する。そして、本実施形態５の音声合成装置１０は、出現回数が最多の形態素又は英単語を用いて各漢字に対する詳細読み情報を生成する。

本実施形態５の音声合成装置１０は、図１に示した構成のほかに、記憶部２に英単語辞書２６を格納している。図１６は英単語辞書２６の格納内容を示す模式図である。図１６に示すように、英単語辞書（英和辞書）２６には、複数の英単語について、綴り、読み及び日本語訳が対応付けて記憶されている。英単語辞書２６の格納内容は、予め格納されていてもよいし、ユーザによって任意に更新されてもよい。

本実施形態５の音声合成装置１０において、制御部１は、記憶部２に記憶してある制御プログラムを実行することによって、図３及び図４に示した各機能を実現する。ただし、本実施形態５の音声合成装置１０においては、頻度算出部１６５による処理が、上述した実施形態１の頻度算出部１６５による処理とは異なる。

図１７は実施形態５の詳細読み辞書更新部１６の機能構成例を示す機能ブロック図である。本実施形態５の頻度算出部（読出部）１６５は、英単語辞書２６に格納されている英単語のうちで、詳細読み辞書２ｂに格納されている各漢字を日本語訳に含む英単語を読み出す。そして、頻度算出部１６５は、詳細読み辞書２ｂに格納されている各漢字を含む形態素と、英単語辞書２６から読み出した英単語を含む形態素とを、形態素解析部１６４から取得した形態素から抽出する。また、頻度算出部１６５は、抽出した各形態素の出現回数を計数する。

具体的には、頻度算出部１６５は、詳細読み辞書２ｂに格納されている漢字のうちの１つを読み出し、読み出した漢字を日本語訳に含む英単語を英単語辞書２６から読み出す。そして、頻度算出部１６５は、詳細読み辞書２ｂから読み出した漢字を含む形態素と、英単語辞書２６から読み出した英単語を含む形態素とを、形態素解析部１６４から取得した形態素から抽出し、抽出した各形態素の出現回数を計数する。頻度算出部１６５は、出現回数の多い順に、出現回数及び形態素を所定数（例えば５個、１０個等）だけ単語選択部１６６へ送出する。

単語選択部１６６は、頻度算出部１６５から取得した所定数の形態素及び各形態素の出現回数に基づいて、出現回数が最多の形態素を選択する。なお、本実施形態５では、単語選択部１６６は、出現回数が最多の形態素として、英単語を含む形態素を選択する場合もある。単語選択部１６６は、選択した形態素を詳細読み情報生成部１６７へ送出する。

詳細読み情報生成部１６７は、単語選択部１６６から取得した形態素に基づいて、各漢字を説明するための詳細読み情報（説明情報）を生成する。なお、漢字「花」を含む形態素のうちで出現回数が最多の形態素が「flower」であった場合、詳細読み情報生成部１６７は、形態素「flower」と漢字「花」とに基づいて、詳細読み情報「flowerの花」を生成する。また、漢字「鼻」を含む形態素のうちで出現回数が最多の形態素が「nose」であった場合、詳細読み情報生成部１６７は、形態素「nose」と漢字「鼻」とに基づいて、詳細読み情報「noseの鼻」を生成する。詳細読み情報生成部１６７は、生成した詳細読み情報を対応する漢字と共に辞書更新部１６８へ送出する。

これにより、本実施形態５の音声合成装置１０は、詳細読み情報を付与したい漢字を日本語訳に含む英単語を用いた詳細読み情報を生成できる。よって、各漢字を含む熟語よりも、各漢字を日本語訳に含む英単語の方をよく使用するユーザに対しては、英単語を用いた詳細読みが可能となる。

以下に、本実施形態５の音声合成装置１０による詳細読み辞書２ｂの更新処理についてフローチャートに基づいて詳述する。図１８及び図１９は実施形態５の詳細読み辞書２ｂの更新処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置１０の記憶部２に格納されている制御プログラムに従って制御部１によって実行される。

図１８中のステップＳ８１からＳ８５までの処理は、上述した実施形態１で説明した図５中のステップＳ１からＳ５までの処理と同一であるので、説明を省略する。
本実施形態５の音声合成装置１０において、制御部１は、ステップＳ８５で読み出した漢字を日本語訳に含む英単語を英単語辞書２６から読み出す（Ｓ８６）。

制御部１は、ステップＳ８５で読み出した漢字を含む形態素及びステップＳ８６で読み出した英単語を含む形態素毎に、収集したテキストデータを分割した形態素における出現回数を算出する（Ｓ８７）。制御部１は、詳細読み辞書２ｂから読み出した漢字を含む形態素、又は英単語辞書２６から読み出した英単語を含む形態素が、収集したテキストデータを分割した形態素に含まれていたか否かを判断する（Ｓ８８）。

詳細読み辞書２ｂから読み出した漢字を含む形態素、及び英単語辞書２６から読み出した英単語を含む形態素がないと判断した場合（Ｓ８８：ＮＯ）、制御部１はステップＳ９２に処理を移行する。詳細読み辞書２ｂから読み出した漢字を含む形態素、又は英単語辞書２６から読み出した英単語を含む形態素があると判断した場合（Ｓ８８：ＹＥＳ）、制御部１は、ステップＳ８７で算出した出現回数が最多の形態素を特定する（Ｓ８９）。

制御部１は、特定した形態素に基づいて、ステップＳ８５で詳細読み辞書２ｂから読み出した漢字に対する詳細読み情報を生成する（Ｓ９０）。例えば、制御部１は、ステップＳ８５で詳細読み辞書２ｂから読み出した漢字「花」に対してステップＳ８９で形態素「flower」を特定した場合、詳細読み情報「flowerの花」を生成する。

制御部１は、生成した詳細読み情報に基づいて、詳細読み辞書２ｂを更新する（Ｓ９１）。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したか否かを判断しており（Ｓ９２）、読み出していないと判断した場合（Ｓ９２：ＮＯ）、ステップＳ８５に処理を戻す。制御部１は、詳細読み辞書２ｂに格納されている漢字のうちで、まだ処理されていない１つを読み出し（Ｓ８５）、読み出した漢字に対して、ステップＳ８６〜Ｓ９１の処理を行なう。

制御部１は、詳細読み辞書２ｂに格納してある全ての漢字に対して上述した処理を行なうまで、ステップＳ８５〜Ｓ９２の処理を繰り返す。制御部１は、詳細読み辞書２ｂに格納してある全ての漢字を読み出したと判断した場合（Ｓ９２：ＹＥＳ）、上述した処理を終了する。

上述した処理により、本実施形態５の音声合成装置１０は、詳細読み情報を付与したい漢字を日本語訳に含む英単語を用いた詳細読み情報を生成できる。よって、各漢字を含む熟語よりも、各漢字を日本語訳に含む英単語の使用頻度が多いユーザに対しては、英単語を用いた詳細読みを行なうことができる。従って、例えば、英文の電子メールを頻繁に送受信するユーザ、又は英文のウェブページを頻繁に閲覧するユーザに対して、英単語を用いた詳細読みを行なうことにより、ユーザがより理解し易い詳細読みを実現できる。

（実施形態６）
以下に、実施形態６に係る音声合成装置について説明する。図２０は実施形態６の音声合成装置の構成例を示すブロック図である。本実施形態６の音声合成装置１０は、図１に示したハードウェア各部のほかに外部記憶装置７を備える。外部記憶装置７は、例えば、ＣＤ−ＲＯＭドライブ又はＤＶＤドライブ等であり、ＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭ等である記録媒体７ａから、記録媒体７ａに格納されたデータを読み出す。

記録媒体７ａは、上述の各実施形態で説明した音声合成装置１０として動作するために必要な制御プログラムを記録している。外部記憶装置７は、記録媒体７ａから制御プログラムを読み出して記憶部２に格納させる。制御部１は、記憶部２に格納された制御プログラムを順次実行し、これにより、本実施形態６の音声合成装置１０は、上述の各実施形態で説明した音声合成装置１０と同様の動作を行なう。

記録媒体７ａとしては、ＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭのほかに、フレキシブルディスク、メモリカード、ＵＳＢ（Universal Serial Bus）メモリ等、各種の記録媒体を用いることができる。また、音声合成装置１０は、上述の各実施形態で説明した音声合成装置１０として動作するために必要な制御プログラムを、ネットワークを介してダウンロードして記憶部２に格納させてもよい。

以上の実施形態１〜６を含む実施形態に関し、更に以下の付記を開示する。

（付記１）
テキストデータを入力して合成音声を生成する音声合成装置において、
複数の漢字のそれぞれを示す情報と、各漢字を説明するための説明情報とを対応付けて記憶する漢字辞書と、
テキストデータを入力して、各漢字を説明するための説明情報を生成する生成部と、
該生成部が生成した説明情報に基づいて、前記漢字辞書に各漢字に対応付けて記憶してある説明情報を更新する更新部と、
前記テキストデータを形態素に分割する形態素解析部と、
該形態素解析部が分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある説明情報を付加する付加部と、
該付加部が説明情報を付加した形態素のそれぞれにアクセント型を付与するアクセント型付与部と、
該アクセント型付与部が付与したアクセント型に基づいて、前記形態素に対応する韻律を生成する韻律生成部と、
該韻律生成部が生成した韻律に基づいて合成音声を生成する合成音声生成部と
を備える音声合成装置。

（付記２）
前記テキストデータを収集する収集部と、
該収集部が収集したテキストデータから、前記漢字辞書に記憶してある各漢字を含む単語をそれぞれ抽出する抽出部と、
該抽出部が抽出した各単語の出現回数を計数する計数部と、
該計数部が計数した出現回数が多い単語を、前記抽出部が抽出した単語から選択する選択部とを備え、
前記生成部は、前記選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する付記１に記載の音声合成装置。

（付記３）
同音異義語を記憶する同音異義語辞書と、
同義語を記憶する同義語辞書と、
前記同音異義語辞書に基づいて、前記選択部が選択した単語に同音異義語があるか否かを判断する判断部と、
該判断部によって同音異義語があると判断された場合、前記単語の同義語を前記同義語辞書から取得する同義語取得部とを備え、
前記生成部は、前記選択部が選択した単語及び前記同義語取得部が取得した同義語に基づいて、各漢字を説明するための説明情報を生成する付記２に記載の音声合成装置。

（付記４）
複数の単語のそれぞれに対する使用頻度を記憶する使用頻度記憶部と、
前記選択部が選択した単語の使用頻度を前記使用頻度記憶部から取得する使用頻度取得部とを備え、
前記生成部は、前記使用頻度取得部が取得した使用頻度が所定値以上である場合に、前記選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する付記２に記載の音声合成装置。

（付記５）
各漢字の音読み及び訓読みを記憶した読み辞書と、
該読み辞書に基づいて、前記選択部が選択した単語に含まれる前記漢字が音読みされているか訓読みされているかを判定する読み判定部と、
該読み判定部が音読み又は訓読みされていると判定した場合、前記計数部が計数した出現回数が多く、前記漢字が訓読み又は音読みされている単語を、前記抽出部が抽出した単語から選択する単語選択部とを備え、
前記生成部は、前記選択部が選択した単語及び前記単語選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する付記２に記載の音声合成装置。

（付記６）
複数の英単語のそれぞれと、各英単語の日本語訳とを対応付けて記憶する英和辞書と、
該英和辞書に記憶してある英単語から、前記漢字辞書に記憶してある各漢字を日本語訳に含む英単語を読み出す読出部とを備え、
前記抽出部は、前記収集部が収集したテキストデータから、前記読出部が読み出した英単語を抽出する付記２に記載の音声合成装置。

（付記７）
前記所定のテキストデータを記憶するテキスト記憶部と、
該テキスト記憶部に記憶してあるテキストデータが更新されたことを検知する検知部とを備え、
前記収集部は、前記検知部が前記テキストデータの更新を検知した場合に、更新されたテキストデータを前記テキスト記憶部から収集する付記２から６までのいずれかひとつに記載の音声合成装置。

（付記８）
前記所定のテキストデータは、電子メールデータ及び／又はウェブページを含む付記１から７までのいずれかひとつに記載の音声合成装置。

（付記９）
形態素を示す情報を記憶する形態素辞書を備え、
前記形態素解析部は、前記形態素辞書の記憶内容に基づいて、テキストデータを形態素に分割し、
前記付加部は、前記形態素辞書に記憶されていない形態素に含まれる漢字に、前記漢字辞書に記憶してある説明情報を付加する付記１から８までのいずれかひとつに記載の音声合成装置。

（付記１０）
テキストデータに含まれる各漢字に、各漢字を説明するための説明情報を付加する指示を受け付ける受付部を備え、
前記付加部は、前記形態素解析部が解析した形態素に含まれる漢字のうちで、前記受付部が説明情報を付加する指示を受け付けた漢字に、前記漢字辞書に記憶してある説明情報を付加する付記１から８までのいずれかひとつに記載の音声合成装置。

（付記１１）
コンピュータによってテキストデータを入力して合成音声を生成する音声合成方法であって、
コンピュータが、
テキストデータを入力して、複数の漢字のそれぞれを説明するための説明情報を生成するステップと、
生成した説明情報に基づいて、各漢字を示す情報及び各漢字を説明するための説明情報を対応付けて記憶する漢字辞書を更新するステップと、
前記テキストデータを形態素に分割するステップと、
該分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある前記漢字に対応する説明情報を付加するステップと、
該説明情報を付加した形態素のそれぞれにアクセント型を付与するステップと、
前記形態素に付与したアクセント型に基づいて、前記形態素に対応する韻律を生成するステップと、
該生成した韻律に基づいて合成音声を生成するステップと
を含むステップを実行する音声合成方法。

（付記１２）
コンピュータに、テキストデータを入力して合成音声を生成させるためのコンピュータプログラムにおいて、
コンピュータに、
テキストデータを入力して、複数の漢字のそれぞれを説明するための説明情報を生成するステップと、
生成した説明情報に基づいて、各漢字を示す情報及び各漢字を説明するための説明情報を対応付けて記憶する漢字辞書を更新するステップと、
前記テキストデータを形態素に分割するステップと、
該分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある前記漢字に対応する説明情報を付加するステップと、
該説明情報を付加した形態素のそれぞれにアクセント型を付与するステップと、
前記形態素に付与したアクセント型に基づいて、前記形態素に対応する韻律を生成するステップと、
該生成した韻律に基づいて合成音声を生成するステップと
を実行させるためのコンピュータプログラム。

１０音声合成装置
１制御部
２記憶部
２ａ形態素辞書
２ｂ詳細読み辞書（漢字辞書）
２０メールフォルダ（テキスト記憶部）
２１ウェブ閲覧ログフォルダ（テキスト記憶部）
２２同音異義語辞書
２３同義語辞書
２４一般使用頻度情報ＤＢ
２５音訓読み辞書
２６英単語辞書
１１形態素解析部
１２詳細読み情報付加部（付加部）
１３表音文字列生成部（アクセント型付与部）
１４韻律生成部
１５波形生成部（合成音声生成部）
１６詳細読み辞書更新部（更新部）
１６２更新チェック部（検知部）
１６３テキスト収集部（収集部）
１６５頻度算出部（抽出部、計数部）
１６６単語選択部（選択部）
１６７詳細読み情報生成部（生成部）

Claims

テキストデータを入力して合成音声を生成する音声合成装置において、
複数の漢字のそれぞれを示す情報と、各漢字を説明するための説明情報とを対応付けて記憶する漢字辞書と、
電子メールデータ及び／又はウェブページを含むテキストデータを収集する収集部と、
該収集部が収集したテキストデータから、前記漢字辞書に記憶してある各漢字を含む単語をそれぞれ抽出する抽出部と、
該抽出部が抽出した各単語の出現回数を計数する計数部と、
該計数部が計数した出現回数が多い単語を、前記抽出部が抽出した単語から選択する選択部と、
該選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する生成部と、
該生成部が生成した説明情報に基づいて、前記漢字辞書に各漢字に対応付けて記憶してある説明情報を更新する更新部と、
前記テキストデータを形態素に分割する形態素解析部と、
該形態素解析部が分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある説明情報を付加する付加部と、
該付加部が説明情報を付加した形態素のそれぞれにアクセント型を付与するアクセント型付与部と、
該アクセント型付与部が付与したアクセント型に基づいて、前記形態素に対応する韻律を生成する韻律生成部と、
該韻律生成部が生成した韻律に基づいて合成音声を生成する合成音声生成部と
を備える音声合成装置。
同音異義語を記憶する同音異義語辞書と、
同義語を記憶する同義語辞書と、
前記同音異義語辞書に基づいて、前記選択部が選択した単語に同音異義語があるか否かを判断する判断部と、
該判断部によって同音異義語があると判断された場合、前記単語の同義語を前記同義語辞書から取得する同義語取得部とを備え、
前記生成部は、前記選択部が選択した単語及び前記同義語取得部が取得した同義語に基づいて、各漢字を説明するための説明情報を生成する請求項１に記載の音声合成装置。
複数の単語のそれぞれに対する使用頻度を記憶する使用頻度記憶部と、
前記選択部が選択した単語の使用頻度を前記使用頻度記憶部から取得する使用頻度取得部とを備え、
前記生成部は、前記使用頻度取得部が取得した使用頻度が所定値以上である場合に、前記選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する請求項１に記載の音声合成装置。
各漢字の音読み及び訓読みを記憶した読み辞書と、
該読み辞書に基づいて、前記選択部が選択した単語に含まれる前記漢字が音読みされているか訓読みされているかを判定する読み判定部と、
該読み判定部が音読み又は訓読みされていると判定した場合、前記計数部が計数した出現回数が多く、前記漢字が訓読み又は音読みされている単語を、前記抽出部が抽出した単語から選択する単語選択部とを備え、
前記生成部は、前記選択部が選択した単語及び前記単語選択部が選択した単語に基づいて、各漢字を説明するための説明情報を生成する請求項１に記載の音声合成装置。
コンピュータによってテキストデータを入力して合成音声を生成する音声合成方法であって、
前記コンピュータは、複数の漢字のそれぞれを示す情報と、各漢字を説明するための説明情報とを対応付けて記憶する漢字辞書を有しており、
前記コンピュータが、
電子メールデータ及び／又はウェブページを含むテキストデータを収集するステップと、
収集したテキストデータから、前記漢字辞書に記憶してある各漢字を含む単語をそれぞれ抽出するステップと、
抽出した各単語の出現回数を計数するステップと、
計数した出現回数が多い単語を、前記抽出した単語から選択するステップと、
選択した単語に基づいて、複数の漢字のそれぞれを説明するための説明情報を生成するステップと、
生成した説明情報に基づいて、前記漢字辞書に各漢字に対応付けて記憶してある説明情報を更新するステップと、
前記テキストデータを形態素に分割するステップと、
該分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある前記漢字に対応する説明情報を付加するステップと、
該説明情報を付加した形態素のそれぞれにアクセント型を付与するステップと、
前記形態素に付与したアクセント型に基づいて、前記形態素に対応する韻律を生成するステップと、
該生成した韻律に基づいて合成音声を生成するステップと
を含むステップを実行する音声合成方法。
コンピュータに、テキストデータを入力して合成音声を生成させるためのコンピュータプログラムにおいて、
前記コンピュータは、複数の漢字のそれぞれを示す情報と、各漢字を説明するための説明情報とを対応付けて記憶する漢字辞書を有しており、
前記コンピュータに、
電子メールデータ及び／又はウェブページを含むテキストデータを収集するステップと、
収集したテキストデータから、前記漢字辞書に記憶してある各漢字を含む単語をそれぞれ抽出するステップと、
抽出した各単語の出現回数を計数するステップと、
計数した出現回数が多い単語を、抽出した単語から選択するステップと、
選択した単語に基づいて、複数の漢字のそれぞれを説明するための説明情報を生成するステップと、
生成した説明情報に基づいて、前記漢字辞書に各漢字に対応付けて記憶してある説明情報を更新するステップと、
前記テキストデータを形態素に分割するステップと、
該分割した形態素に含まれる漢字に、前記漢字辞書に記憶してある前記漢字に対応する説明情報を付加するステップと、
該説明情報を付加した形態素のそれぞれにアクセント型を付与するステップと、
前記形態素に付与したアクセント型に基づいて、前記形態素に対応する韻律を生成するステップと、
該生成した韻律に基づいて合成音声を生成するステップと
を実行させるためのコンピュータプログラム。