JP4930584B2

JP4930584B2 - 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム

Info

Publication number: JP4930584B2
Application number: JP2009505052A
Authority: JP
Inventors: 拓也野田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-20
Filing date: 2007-03-20
Publication date: 2012-05-16
Anticipated expiration: 2027-03-20
Also published as: WO2008114453A1; US7987093B2; WO2008114453A9; JPWO2008114453A1; US20090319275A1

Description

本発明は、テキストデータを合成音声に変換することによりテキストの読み上げを実現する音声合成方法に関する。特に本発明は、絵文字、顔文字、記号を含む特殊文字に対する冗長な読み上げ、使用の意図とは異なる意味での読み上げを抑制し、テキストデータで表わされる文章の文脈に合った適切な読み上げを実現し、さらには文脈に適した聴覚的効果を表現することができる音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラムに関する。

音声合成技術の進歩により、テキストに対応する音声を合成して出力することにより、例えば電子メールの読み上げを行なうことができる音声合成装置が開発されている。

テキストの読み上げの技術は、文字を視覚的に捉えることが難しい視覚障害者又は高齢者も、他者と同様に電子メールのサービスを利用することができるようにするユニバーサルデザインに合致した技術として注目されている。

例えば、電子メールの送受信を行なうことができるＰＣ（Personal Computer）に、メールのテキストの読み上げ、又はＷｅｂ文書の読み上げを実現させるコンピュータプログラムが提供されている。また、文字の表示画面が小さく、文字が読みづらい携帯電話機にメールの読み上げ機能が搭載されている場合がある。

このような従来のテキストの読み上げ技術では、基本的にテキストをその意味に対応する「読み」に変換して読み上げるように構成されている。

しかしながら、テキストを構成する文字は、日本語の場合、ひらがな、カタカナ、漢字、英字、数字及び記号のみならず、それらを組み合わせた文字列（いわゆる顔文字）によって感情を表すこともある。日本語以外の場合であっても、文字、数字及び記号を組み合わせた文字列（いわゆるEmoticon、Smiley等）によって感情を表わすことがある。なお日本では特に、携帯電話機特有の機能として、ひらがな、カタカナ、漢字、英字、数字及び記号以外に「絵文字」と称される特殊文字をテキストに含めることができ、多用されている。

ユーザは、上述のような顔文字、絵文字、記号等の特殊文字を文章中に挿入することにより、文章に感情を込めて相手に伝えることができる。

これに対し、音声合成の分野では特殊文字を含むテキストの読み上げを適切に行なうための技術が開発されている。

特許文献１には、テキストに含まれる所定の文字列を検知した場合、検知した文字列又は特殊文字の意味に対応付けられた喜怒哀楽に応じた韻律でその文字列を読み上げる技術が開示されている。

また、特許文献２には、顔文字又は記号の直前又は直後に、顔文字又は記号に対して設定されている意味に対応する「読み」と一致する文字列が存在している場合に、その文字列を削除して音声合成のためのテキストデータに変換することにより、冗長な読み上げを防止することができる技術が開示されている。
特開２００１−３３７６８８号公報特開２００６−１８４６４２号公報

しかしながら、近年では顔文字、絵文字、記号等の特殊文字、特に絵文字は、設定されている「読み」が意識されることなく、又は設定されている「読み」が知られることなしに視覚的に意味が捉えられて多様に用いられるようになっている。ユーザは、特殊文字を独自に解釈した意味に応じて、文章の「装飾」として使用する場合と文字の「代替」として使用する場合とを使い分けていることが多い。

したがって、従来の技術では、顔文字、絵文字、記号等の特殊文字に一意的に設定されている意味に対応する「読み」を使用して音声合成のためのテキストデータに変換する場合、ユーザが特殊文字を使用した意図とは異なった読み上げ又は冗長な読み上げがされる可能性がある。

文章の装飾として使用されている特殊文字に対しては、特許文献１に開示されている技術を用いることにより、特殊文字に一意的に設定されている「喜怒哀楽」の効果を特殊文字の読み上げに反映させることができる。しかし、特殊文字が視覚的に捉えられた意味で文字の代替として使用されている場合、そのような特殊文字が読み上げられることはない。

また、文字の代替として使用されている特殊文字に対しては、特許文献２に開示されている技術を用いることにより、特殊文字の直前又は直後に存在する「読み」と重複する文字列を削除し、文字の代替として使用されている特殊文字の読み上げが冗長とならないようにすることができる。しかし、近年のように特殊文字が「読み」を意識せずに視覚的に捉えられた多様な意味で文字の代替として使用された場合、又は文字の代替としてではなく装飾として使用された場合、ユーザの意図とは異なる読み上げがされてしまう可能性がある。

以下に、ユーザの意図と異なる読み上げ及び冗長な読み上げが行なわれてしまう例について図を用いて説明する。

図１９は、従来技術を用いた音声合成によるテキストの読み上げの内容例を示す説明図である。図１９の説明図を用い、携帯電話機でのメールに使用される絵文字の読み上げについて説明する。

例えば、図１９（ａ）に示す識別コード「××」が設定されている絵文字には、誕生日ケーキのろうそくのイメージと、「バースデー（birthday）」の「読み」とが設定されている。したがって本来は、図１９（ｂ）の枠内に示したテキストデータの例のように『「ハッピー」＋「絵文字」』と使用された場合は、『ハッピー「バースデー」（Happy 「birthday」）』と読み上げられ、聞き手に正しい意味で解釈される。

しかしながら、ユーザが識別コード「××」の絵文字を設定されている「読み」と同じ「バースデー（birthday）」を意味する絵文字であると解釈した場合でも、「読み」に「バースデー（birthday）」が設定されていることを知らないことが多い。そのため、ユーザが図１９（ｃ）の枠内に示したテキストデータの例のように『「お誕生日おめでとう」＋「絵文字」』と使用する可能性がある。この場合、識別コード「××」の絵文字は文字の代替としてではなく装飾として使用されている可能性が高い。したがって識別コード「××」の絵文字は無視して読み上げないか、これに応じた効果音が出力されるようにすることにより、聞き手に正しく解釈されると考えられる。しかし、設定されている読み「バースデー（birthday）」に従って読み上げられた場合、『お誕生日おめでとう「バースデー」（Happy birthday「birthday」）』と冗長的に読み上げられるので、聞き手に違和感を感じさせる可能性がある。

図１９（ｃ）に示した例の場合、特に日本語では、「お誕生日」の直後に絵文字が位置しているのであれば、同義語の「バースデー」を「読み」に設定されている絵文字は文字の代替として使用されていないと考えられる。この場合、従来技術によって冗長的に読み上げられないように「お誕生日」の部分を削除することができる。しかし、特殊文字が文字の代替としてでなく装飾として使用されている場合には、絵文字が「お誕生日」の文字列と離れて位置しており、冗長的な読み上げを防止できない。

さらに、ユーザは、絵柄によって想起される印象から、識別コード「××」の絵文字を「ろうそく（candle）」の意味として、図１９（ｄ）に示した例のように「ご仏壇にろうそく（altar candle：祭壇のろうそく）」と使用する可能性もある。この場合、識別コード「××」の絵文字はその絵柄から「ろうそく（candle）」の代替として使用されている可能性が高い。これに対し、設定されている「バースデー（birthday）」の読みに従って読み上げられた場合、『ご仏壇に「バースデー」（altar「birthday」）』とユーザの意図と全く異なる読み上げがされる。

識別コード「××」の絵文字に「ろうそく（candle）」の意味も設定しておくことも可能である。しかし、意味を複数設定した場合は、「バースデー（birthday）」と「ろうそく（candle）」との異なる語彙のいずれの意味で使用されているのかの意味の判断、及び文の装飾として使用されているか、文字の代替として使用されているかの使用形態の判断が必要である。

本発明は斯かる事情に鑑みてなされたものであり、絵文字、顔文字、記号等の特殊文字が文字の「代替」としてのみならず「装飾」としても使用される場合があり、さらに特殊文字が使用される意味についても視覚的に捉えられた多様な意味で使用されることに対応して、冗長な読み上げ、ユーザの意図とは異なる読み上げを抑制し、特殊文字を含むテキストデータで表わされる文章の文脈に合った適切な読み上げを行なうことができる音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラムを提供することを主たる目的とする。

本発明の他の目的は、特殊文字が文字の代替目的で使用されているのかそれ以外の例えば、装飾として使用されているのか等の使用形態及び／又は特殊文字がどのような意味で使用されているのかに応じて、冗長な読み上げ、ユーザの意図と異なる読み上げを抑制することができる音声合成装置を提供することにある。

本発明の他の目的は、特殊文字に対応する音声表現として、近傍の単語とのつながりが自然である音声表現、及び共に生起する確率が高い意味に相当するような音声表現を選択して音声を合成することにより、ユーザの意図に沿った読み上げを行なうことができる音声合成装置を提供することにある。

本発明の他の目的は、特殊文字に対応する音声表現として、近傍の単語とほぼ同一の読みとなる音声表現、及び同一の意味である同義語の読みとなる音声表現を選択することを回避し、冗長な読み上げを抑制することができる音声合成装置を提供することにある。

本発明の他の目的は、特殊文字を文字の「代替」としてのみならず、「装飾」として多様に使用された場合でも、ユーザの意図に沿った効果的な読み上げを行なうことができる音声合成装置を提供することにある。

本発明の他の目的は、新たにユーザ定義の特殊文字、及び特殊文字の音声表現を受け付け、その特殊文字を含むテキストデータに対し、ユーザの意図に沿った読み上げを行なうことができ、更に別途用意された音声合成装置でも同様の読み上げを行うことができる音声合成装置、言語処理装置、及びそのような音声合成装置と言語処理装置とを含む音声合成システムを提供することにある。

また、本発明の他の目的は、特殊文字に対応する意味を読み上げる以外の効果音、擬音、音声、無音を合成する際の箇所及び音声表現を装置内部又は装置外部に備えられた音声合成手段が認識することができる音声合成装置、言語処理装置、及びそのような音声合成装置と言語処理装置とを含む音声合成システムを提供することにある。

本発明に係る音声合成装置は、テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する変換手段と、該変換手段が変換した音声表記から音声を合成する音声合成手段とを備える音声合成装置において、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、抽出された特殊文字の使用形態を判定する判定手段と、該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段とを備え、前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表現に変化するようにしてあることを特徴とする。

本発明に係る音声合成装置は、前記辞書データベースには更に、各特殊文字に対応する複数の音声表現夫々に、各音声表現とは異なる他の音声表現に対応する意味の読み表記を少なくとも含む関連語が一又は複数対応付けられて登録されており、受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記関連語を検出したか否かを判断する手段を備え、前記選択手段は、前記関連語を検出したと判断された場合は、検出された関連語が対応付けられている音声表現を前記辞書データベースから選択するようにしてあることを特徴とする。

本発明に係る音声合成装置は、前記辞書データベースには更に、各特殊文字の音声表現夫々に、各音声表現で表わされる特殊文字の意味と同義である同義語が一又は複数対応付けられて登録されており、受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記同義語を検出したか否かを判断する手段を備え、前記選択手段は、前記同義語を検出したと判断された場合は、抽出された特殊文字の複数の音声表現の内から、検出された同義語が対応付けられている音声表現とは異なる他の音声表現を選択するようにしてあることを特徴とする。

本発明に係る音声合成装置は、特殊文字の音声表現夫々について同じ文脈で共に生起する単語群が関連付けられて登録してある共起辞書データベースを更に備え、受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記共起辞書データベースに登録されている単語群の内のいずれかを検出したか否かを判断する手段を備え、前記選択手段は、前記単語群のいずれかを検出したと判断された場合、検出された単語群が関連付けられている音声表現を選択するようにしてあることを特徴とする。

本発明に係る音声合成装置は、特殊文字、該特殊文字の音声表現及び該音声表現の分類を受け付ける手段を備え、受け付けた特殊文字及び該特殊文字の音声表現を、共に受け付けた分類で区別して登録することにより前記辞書データベースを更新するようにしてあることを特徴とする。

本発明に係る音声合成装置は、受け付けた特殊文字を含むテキストデータと共に、前記受け付けた特殊文字が登録されて更新された辞書データベースを出力する手段を備えることを特徴とする。

本発明に係る音声合成装置は、テキストデータを受け付ける際に、前記テキストデータに含まれる特殊文字及び該特殊文字の音声表現を受け付ける手段を備え、前記変換手段は、受け付けられたテキストデータから前記抽出手段が前記特殊文字を抽出した場合、受け付けられた音声表現に従って、受け付けられた特殊文字を含むテキストデータを音声表記に変換するようにしてあることを特徴とする。

本発明に係る音声合成装置は、前記変換手段は、前記抽出手段が抽出した特殊文字に対応して前記選択手段が選択した音声表現が意味を読み上げる音声表現ではない場合、受け付けたテキストデータの内の前記特殊文字を、前記選択手段が選択した音声表現を示す制御文字列に変換するようにしてあり、前記音声合成手段は、前記変換手段が変換した音声表記に前記制御文字列が含まれている場合は、前記制御文字列に従って、効果音、擬音、音楽、無音のいずれかを合成するようにしてあることを特徴とする。

本発明に係る音声合成装置は、前記音声合成手段は、前記変換手段が変換した音声表記と前記選択手段が選択した音声表現とに従って、前記音声表記の内の前記特殊文字に対応する文字列を効果音、擬音、音楽のいずれかに合成するようにしてあることを特徴とする。

本発明に係る音声合成装置は、テキストデータに対応する別の参照テキストデータを受け付ける手段を備え、前記選択手段は、受け付けられた参照テキストデータからも前記関連語又は同義語が検出されるか否かを判断するようにしてあることを特徴とする。

本発明に係る音声合成システムは、テキストデータを受け付ける受付手段、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段、及び特殊文字を含むテキストデータを音声を合成するための音声表記に変換する変換手段を備える言語処理装置と、音声表記から音声を合成する音声合成装置とを含み、前記言語処理装置が変換した音声表記を前記音声合成装置へ送信し、前記音声合成装置が受信した音声表記から対応する音声を合成するようにしてある音声合成システムにおいて、
前記言語処理装置は、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、抽出された特殊文字を分類する使用形態を判定する判定手段と、該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段とを備え、前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表記に変換するようにしてあることを特徴とする。

本発明に係る言語処理装置は、テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する手段とを備える言語処理装置において、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、抽出された特殊文字を分類する使用形態を判定する判定手段と、該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段とを備え、前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表記に変換するようにしてあることを特徴とする。

本発明に係る言語処理装置は、前記変換手段は、前記抽出手段が抽出した特殊文字に対応させて前記選択手段が選択した音声表現が意味を読み上げる音声表現ではない場合、受け付けたテキストデータの内の前記特殊文字を、前記選択手段が選択した音声表現を示す制御文字列に変換するようにしてあり、前記制御文字列を含む音声表記を外部へ送信する手段を備えることを特徴とする。

本発明に係る言語処理装置は、テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する手段とを備える言語処理装置において、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されている
かの使用形態で分類されて登録されている辞書データベースと、前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、抽出された特殊文字を分類する使用形態を判定する判定手段と、該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段と、該選択手段が選択した音声表現、受け付けたテキストデータの内の前記特殊文字の位置、前記変換手段が変換した音声表記を外部へ送信する手段とを備えることを特徴とする。

本発明に係る音声合成方法は、テキストデータから、絵文字、顔文字又は記号を含む特殊文字を抽出し、前記特殊文字を含むテキストデータを音声を合成するための音声表記に変換し、変換した音声表記から音声を合成する音声合成方法において、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースを用い、受け付けたテキストデータから特殊文字を抽出した場合に、抽出された特殊文字の意味を判断し、抽出された特殊文字を分類する使用形態がいずれであるか判定し、抽出された特殊文字が文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、抽出された特殊文字が装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択し、選択した音声表現に従って、受け付けた特殊文字を含むテキストデータを音声表記に変換することを特徴とする。

本発明に係るコンピュータプログラムは、コンピュータを、テキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段、前記特殊文字を含むテキストデータを音声を合成するための音声表記に変換する変換手段、及び該変換手段が変換した音声表記から音声を合成する音声合成手段として機能させ、受け付けたテキストデータに対応する音声データを出力させるコンピュータプログラムにおいて、コンピュータを、前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する手段、抽出された特殊文字が、文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態を判定する手段、判断された意味、及び判定された使用形態に基づき、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されてい
る辞書データベースから、抽出された特殊文字の音声表現を選択する手段、及び、選択した音声表現に従って前記変換手段により音声表記に変換する手段として機能させることを特徴とする。

本発明では、テキストデータから絵文字、顔文字、記号を含む特殊文字が抽出された場合、抽出された特殊文字に対して辞書データベースに登録された複数の音声表現の内からいずれかの音声表現が選択される。音声表現は、特殊文字を音声で出力する場合の具体的な方法を示す情報である。選択された音声表現に従って音声を合成するための音声表記が作成され、作成された音声表記から音声が合成される。
なお本発明では、辞書データベースに複数登録されている特殊文字の音声表現は、その特殊文字の意味、及び、特殊文字が文字代替として使用されているのか、又は装飾目的若しくは特殊文字を視覚的に捉えた他の意味を想起させる目的で使用されているかの使用形態によって分類されている。抽出された特殊文字がどのような形態で使用されているか、が判定され、どのような意味で使用されているかが判断され、判定・判断結果に応じた分類の音声表現が選択されて音声が合成される。

本発明では、特殊文字の複数の音声表現夫々に対応する関連語として、他の音声表現に対応する意味の読み表記が少なくとも登録されている。抽出手段によって抽出された特殊文字の近傍から関連語が検出されたか否かが判断され、関連語が検出されたと判断された場合は、その関連語が対応付けられている音声表現が選択される。これにより、特殊文字に近傍から一の音声表現に対応する意味の読み表記が含まれている場合、その音声表現が選択されることが回避される。

本発明では、特殊文字に近傍から一の音声表現に対応する意味の読み表記が含まれている場合、その音声表現が選択されることが回避される。

本発明では、辞書データベースに、特殊文字の複数の音声表現夫々に、その音声表現が使用される場合の意味とほぼ同一の意味の同義語が一又は複数対応付けられて登録されている。抽出手段によって抽出された特殊文字の近傍のテキストから登録されている同義語が検出されたか否かが判断され、同義語が検出された場合はその同義語が対応付けられている音声表現とは異なる他の音声表現が選択される。

本発明では、特殊文字の近傍に一の音声表現に対応する意味の単語と共に生起する単語が検出された場合は、その一の音声表現が選択される。

本発明では、各特殊文字の音声表現は、特殊文字に対応する読みだけでなく、擬音、効果音、音楽、無音の各音声表現のいずれかである。

本発明では、特殊文字と、その特殊文字の音声表現及びその音声表現を選択するための分類とが共に受け付けられ、受け付けられた特殊文字、音声表現及びその分類が本発明における辞書データベースに更に登録される。

本発明では、受け付けられた音声表現、音声表現の分類が新たに登録された辞書データベースが他の装置へ出力される。

本発明では、受け付けられた音声表現に従って特殊文字が読み上げられる。

本発明では、選択された音声表現が特殊文字の意味を読み上げる音声表現以外である場合、選択された効果音、擬音、音楽、無音のいずれかが制御文字列で表現され、音声合成手段は制御文字列に従って音声合成する。

本発明では、選択された音声表現が特殊文字の意味を読み上げる音声表現以外である場合、特殊文字の箇所とそれに応じて選択された音声表現とが音声合成手段で認識可能である。

本発明では、特殊文字に対応する音声表現を選択する際に、特殊文字を含むテキストデータのみならず付帯的な別の参照テキストデータも、特殊文字の近傍として関連語又は同義語が検出されるか否かが判断される。

本発明による場合、絵文字、顔文字、記号を含む特殊文字の複数の音声表現が登録されている。音声表現には、特殊文字に対応する読みの音声表現だけでなく、擬音、効果音、音楽又は無音のいずれかの音声表現を合成するように登録することができる。これにより、特殊文字が文字の「代替」としてのみならず「装飾」として使用されている場合の特殊
文字の多様な意味に対応させ、複数登録されている音声表現の内から、いずれかの音声表現を選択して音声に合成することができる。これにより、テキストに含まれる特殊文字を文字の「代替」又は「装飾」のいずれか一方のみとしてではなく、いずれか又は他の使用形態に応じた音声表現を適宜選択して読み上げることができるので、冗長な読み上げ、ユーザの意図とは異なる読み上げを抑制することができる。
また、本発明による場合、特殊文字が抽出された場合、その特殊文字が文字の「代替」として使用されているのか又は「装飾」として使用されているのか等の使用形態に応じて、及び／又は、想定される多様な意味の内のいずれの意味で使用されているのかに応じて、いずれかの音声表現を選択して音声合成を行なうことができる。したがって、特殊文字を含むテキストの冗長な読み上げ、ユーザの意図とは異なる読み上げが抑制され、特殊文字を含むテキストデータで表わされる文章の文脈に合った適切な読み上げが行なわれる。

本発明による場合、辞書には特殊文字夫々に対応して複数登録されている音声表現に関連語が対応付けられて登録されている。抽出された特殊文字の近傍から関連語が検出された場合は、関連語に対応付けられている音声表現が、抽出された特殊文字の音声表現として選択される。関連語として少なくとも、各音声表現の読みを、他の音声表現に関連する関連語として登録しておくことにより、一の音声表現の読みが特殊文字の近傍に検出された場合は、同じ読みとなる音声表現が選択されることなしに他の音声表現が選択されるので、冗長的な読み上げが抑制される。即ち、関連語として、意味が異なる読み上げを抑制するための単語と、他の音声表現に対して冗長な読み上げを抑制するための単語との両者を登録しておくことにより、関連語の検出の有無のみによってユーザの意図とは異なる読み上げ及び冗長な読み上げの両者を抑制することが可能になり、適切な読み上げを行なうことができる。
さらに、関連語として、同じ文脈で共に生起する単語群を対応付けている場合、ユーザの意図とは異なる意味での読みが選択されることが防止される。

また、本発明のように、各音声表現の読みを、他の音声表現に関連する関連語として登録しておくことにより、一の音声表現の読みが特殊文字の近傍に検出された場合は、同じ読みとなる音声表現が選択されることなしに他の音声表現が選択されるので、冗長的な読み上げが抑制される。即ち、関連語として、意味が異なる読み上げを抑制するための単語と、他の音声表現に対して冗長な読み上げを抑制するための単語との両者を登録しておくことにより、関連語の検出の有無のみによってユーザの意図とは異なる読み上げ及び冗長な読み上げの両者を抑制することが可能になり、適切な読み上げを行なうことができる。

本発明による場合、特殊文字に対応して登録されている複数の音声表現夫々には、その音声表現が使用される場合の読み又は意味がほぼ同一の同義語が対応付けて登録されている。同義語が特殊文字の近傍に検出された場合は、同義語が対応づけられている音声表現とは異なる音声表現が選択される。特殊文字の近傍で検出された同義語の読みと同一又は意味がほぼ同一の音声表現が読み上げられないように他の音声表現が選択されるので、冗長的な読み上げを抑制することができる。

本発明による場合、特殊文字の音声表現として、特殊文字に対応する読みの音声表現だけでなく、擬音、効果音、音楽又は無音のいずれかの音声表現を合成するように登録することができる。これにより、特殊文字が文字の「代替」としてのみならず「装飾」として使用されている場合であってもユーザの意図に沿った効果的な読み上げを行なうことができる。

本発明による場合、新たに定義された特殊文字を辞書データベースに登録することができる。特殊文字の読みの音声表現は、その音声表現を選択するための特殊文字の使用形態及び／又は意味等の分類と共に登録される。したがって、ユーザが定義した特殊文字を含むテキストデータを、その特殊文字を定義したユーザの意図に沿って読み上げることができる。また、更新された辞書データベース、又はその辞書データベースの内の新たに定義された特殊文字の分のみの辞書更新データを、ユーザによって新たに定義された特殊文字を含むテキストデータを他へ送信する際に共に送信することにより、他の装置でもその辞書データベースを用いてユーザの意図に沿った読み上げを行うことが可能になる。

本発明による場合、音声合成を行う音声合成手段は、特殊文字の音声表現を制御文字列により認識するか、又は選択された音声表現そのものと箇所とを認識するかの複数の方式により認識することができる。選択した音声表現を表わすために既存のルールに応じて制御文字列に変換し、内部に存在する既存の音声合成手段、又は、既存の音声合成手段を有する外部の装置に制御文字列を送信することにより、特殊文字の効果的な読み上げを実現することができる。そして既存の制御文字列のルールによらずに、音声合成手段が選択された音声表現とその箇所を認識することができるように構成することにより、内部に存在する音声合成手段、又は音声合成手段を有する外部の装置に選択された音声表現とその箇所を送信して通知することにより、特殊文字の効果的な読み上げを実現することもできる。

本発明による場合、テキストデータに、サブジェクト（題名）等の付帯テキストが存在するときは付帯テキストを参照することによって、より正確に特殊文字に対応する意味を判定することができる。

実施の形態１における本発明の音声合成装置の構成を示すブロック図である。実施の形態１における本発明の音声合成装置の制御部により実現される各機能を示す機能ブロック図である。実施の形態１における本発明の音声合成装置の記憶部に記憶されている特殊文字辞書の内容例を示す説明図である。実施の形態１における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態１における本発明の音声合成装置の制御部による絵文字に対応する音声表現の選択を概念的に示す説明図である。実施の形態１における音声合成装置の制御部が、特殊文字の音声表現及び分類を受け付けて、受け付けた音声表現に従って音声を合成し、さらに特殊文字辞書１１１に登録する処理手順を示すフローチャートである。実施の形態２における本発明の音声合成装置の記憶部に記憶されている特殊文字辞書の内容例を示す説明図である。実施の形態３における本発明の音声合成装置の記憶部に記憶される特殊文字辞書の内容例を示す説明図である。実施の形態３における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態３における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態４における本発明の音声合成装置の記憶部に記憶される特殊文字辞書の内容例を示す説明図である。実施の形態４における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態４における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態４における音声合成装置の制御部が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。実施の形態５における本発明の音声合成システムの構成を示す構成図である。実施の形態５における音声合成システムを構成する言語処理装置の制御部の各機能を示す機能ブロック図である。実施の形態５における音声合成システムを構成する音声出力装置の制御部の各機能を示す機能ブロック図である。実施の形態５における言語処理装置及び音声出力装置の制御部により、テキストが受け付られ、音声が合成されるまでの処理手順を示すフローチャートである。従来技術を用いた音声合成によるテキストの読み上げの内容例を示す説明図である。

符号の説明

１音声合成装置
２言語処理装置
３音声出力装置
１０，２０，３０制御部
１０１，２０１テキスト受付部
１０２，２０２特殊文字抽出部
１０３，２０３音声表現選択部
１０４，２０４変換部
１０５，３０１音声合成部
１１，２１，３１記憶部
１１１，２１１特殊文字辞書
１１２，２１２言語辞書
１１３，３１１音声辞書（波形辞書）
１Ｐ音声合成ライブラリ
２Ｐ制御プログラム
１４，３３音声出力部

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。

以下に説明する実施の形態で、絵文字、顔文字、記号等の特殊文字を含むテキストデータを受け付け、特殊文字に対応する適した音声表現を選択してテキストデータの音声を合成する本発明の音声合成装置について説明する。なお、以下に示す実施の形態では、受け付けるテキストデータの例として主に日本語の例を説明しているが、本発明に係る音声合成装置が受け付けるテキストデータは日本語には限らないのは勿論である。なお、テキストデータの具体例が日本語以外、特に英語である場合を括弧書で示している。

（実施の形態１）
図１は、実施の形態１における本発明の音声合成装置の構成を示すブロック図である。音声合成装置１は、以下に説明する各構成部の動作を制御する制御部１０と、ハードディスク等である記憶部１１と、ＲＡＭ（Random Access Memory）等のメモリを有する一時記憶領域１２と、キーボード等を有するテキスト入力部１３と、スピーカ１４１を有する音声出力部１４とを備える。

記憶部１１には、音声合成の処理を実行するためのプログラム群である音声合成ライブラリ１Ｐが記憶されている。制御部１０は、記憶部１１から音声合成ライブラリ１Ｐを組み込んだアプリケーションプログラムを読み出して実行することにより、音声合成の各動作を実行する。

記憶部１１には更に、絵文字、顔文字、記号等の特殊文字のデータと特殊文字の読みの音声表現を含む音声表現のデータとが登録されているデータベースである特殊文字辞書１１１、テキストデータを構成する文節、単語等と音声表記との対応が登録されているデータベースである言語辞書１１２、及び、各音声の波形群が登録されているデータベースである音声辞書（波形辞書）１１３が記憶されている。

具体的には、特殊文字辞書１１１には、絵文字又は記号の特殊文字に付与されている識別コードが特殊文字のデータとして登録されている。また、特殊文字辞書１１１には、特殊文字の顔文字は記号及び／又は文字の組み合わせであるので、顔文字を構成する記号及び／又は文字の識別コードの組み合わせが特殊文字のデータとして登録されている。さらに、特殊文字辞書１１１には、特殊文字を音声で出力する場合の表現方法を示す情報、例えば音声表現の内容を表わす文字列が登録されている。

また、制御部１０は、特殊文字辞書１１１の内容を書き換えることが可能である。制御部１０は、特殊文字に対応する新たな音声表現の入力を受け付けた場合、その特殊文字に対応する音声表現を特殊文字辞書１１１に登録する。

一時記憶領域１２は、制御部１０が音声合成ライブラリ１Ｐを読み出す場合に使用されるのみならず、特殊文字辞書１１１、言語辞書１１２、又は音声辞書１１３から各種情報を読み出す場合、又は各処理を実行することによって発生する各種情報を一時的に記憶するために使用される。

テキスト入力部１３は、キーボード、文字キー、マウス等のテキストの入力を受け付ける手段である。制御部１０は、テキスト入力部１３により入力されるテキストデータを受け付ける。ユーザは、特殊文字を含むテキストデータを作成する場合、テキスト入力部１３が有するキーボード、文字キー、マウス等を操作することによって特殊文字を選択し、特殊文字以外のテキストデータ中に挿入することができる。

なお、ユーザは、テキスト入力部１３を介して特殊文字の音声表現を表わす文字列の入力、又は効果音、音楽等の特殊効果を選択することができる構成でもよい。

音声出力部１４は、スピーカ１４１を有している。制御部１０は、音声合成ライブラリ１Ｐを使用して合成した音声を音声出力部１４に与えて、スピーカ１４１を介して音声を出力させる。

図２は、実施の形態１における本発明の音声合成装置１の制御部１０により実現される各機能を示す機能ブロック図である。音声合成装置１の制御部１０は、音声合成ライブラリ１Ｐを組み込んだアプリケーションプログラムを実行することにより、テキスト入力部１３により入力されるテキストデータを受け付けるテキスト受付部１０１、テキスト受付部１０１により受け付けたテキストデータから特殊文字を抽出する特殊文字抽出部１０２、抽出された特殊文字に対する音声表現を選択する音声表現選択部１０３、受け付けたテキストデータを特殊文字に対して選択された音声表現に従って音声表記に変換する変換部１０４、及び変換部１０４により変換された音声表記から合成音声を作成して音声出力部１４へ出力する音声合成部１０５として機能する。

制御部１０は、テキスト受付部１０１として機能することにより、テキスト入力部１３により入力されるテキストデータを受け付ける。

制御部１０は、特殊文字抽出部１０２として機能することにより、特殊文字辞書１１１に予め登録されている特殊文字と受け付けられたテキストデータとを照合する。制御部１０は、テキスト受付部１０１が受け付けたテキストデータを、特殊文字辞書１１１に予め登録されている特殊文字の識別コードと照合することによって特殊文字を認識し、抽出する。

具体的には、特殊文字が絵文字又は記号である場合、特殊文字辞書１１１には絵文字又は記号に付与されている識別コードが登録されている。したがって、制御部１０はテキストデータ中に、特殊文字に付与されて登録されている識別コードと一致する文字列があるか否かによって絵文字又は記号を抽出することができる。

特殊文字が顔文字である場合、特殊文字辞書１１１には、顔文字を構成する記号及び／又は文字夫々の識別コードの組み合わせが登録されている。したがって、制御部１０は、テキストデータから特殊文字辞書１１１に登録されている識別コードの組み合わせと一致する文字列があるか否かによって顔文字を抽出することができる。

制御部１０は、特殊文字抽出部１０２として機能することにより特殊文字を抽出した場合、その特殊文字に対応する識別コード又は識別コードの列を音声表現選択部１０３に通知する。

制御部１０は、音声表現選択部１０３として機能することにより、特殊文字に対応する識別コード又は識別コードの列を受け付け、受け付けた識別コード又は識別コードの列が対応付けられている音声表現の内の一つを特殊文字辞書１１１から選択する。制御部１０は、特殊文字辞書１１１から選択した音声表現に相当する文字列にテキストデータ中の特殊文字を置き換える。

制御部１０は、変換部１０４として機能することにより、特殊文字に対応して選択した音声表現に相当する文字列を含むテキストデータを言語辞書１１２を参照して言語解析し、音声表記に変換する。制御部１０は言語解析を行なう場合、テキストデータと言語辞書１１２に登録されている単語とを照合する。照合の結果、言語辞書１１２に登録されている単語と一致する単語を検出した場合、検出した単語に対応する音声表記に変換する。以下に示す音声表記は、日本語の場合はカタカナ表記を用い、英語の場合は発音記号を用いる。制御部１０は、変換部１０４として機能することにより言語解析を行なった結果、アクセント位置及びポーズ位置をアクセント記号として「’（apostrophe）」とポーズ記号として「，（comma）」とを夫々用いて表わす。

例えば日本語の場合、制御部１０は、「お誕生日おめでとう」というテキストデータを受け付けた場合、言語辞書１１２に登録されている「お誕生日」と一致する「お誕生日」を検出し、検出した「お誕生日」に対応付けられて言語辞書１１２に登録されている「オタンジョ’ービ」の音声表記に変換する。次に制御部１０は、言語辞書１１２に登録されている「おめでとう」と一致する「おめでとう」を検出し、検出した「おめでとう」に対応付けられて言語辞書１１２に登録されている「オメデトー」に変換する。制御部１０は、検出した「お誕生日」と「おめでとう」との間にポーズを挿入して「オタンジョ’ービ，オメデトー」と音声表記に変換する。

英語の場合、制御部１０は、「Happy birthday」というテキストデータを受け付けた場合、言語辞書１１２に登録されている「happy」と一致する「Happy」を検出し、検出した「happy」に対応付けられて言語辞書１１２に登録されている「ｈａ`ｅｐｉ」の音声表記に変換する。次に制御部１０は、言語辞書１１２に登録されている「birthday」と一致する「birthday」を検出し、検出した「birthday」に対応付けられて言語辞書１１２に登録されている「ｂｅ'ｒｔｈｄｅ`ｉ」に変換する。制御部１０は、検出した「happy」と「birthday」との間にポーズを挿入して「ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ」と音声表記に変換する。

なお、変換部１０４としての機能及び言語辞書１１２は、テキストデータを音声合成部１０５が音声に変換するための音声表記に変換する公知の技術を使用することで実現できる。

制御部１０は、音声合成部１０５として機能することにより、変換部１０４によって変換された音声表記と音声辞書１１３に登録されている文字とを照合し、文字に対応付けられている音声波形データを組み合わせて音声を合成する。音声合成部１０５として機能及び音声辞書１１３についても、音声表記と対応して音声合成を行なう公知の技術を使用することで実現することができる。

次に、本発明の音声合成装置１において、制御部１０が音声表現選択部１０３として機能することにより、抽出した特殊文字に対応する音声表現を示す情報を特殊文字辞書１１１からどのように選択するかについて説明する。

図３は、実施の形態１における本発明の音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１の内容例を示す説明図である。

図３の説明図に示すように特殊文字辞書１１１には、特殊文字として識別コード「××」が設定されている「三本のろうそく」のイメージの絵文字が登録されている。「三本のろうそく」のイメージの絵文字には、４つの音声表現が登録されている。４つの音声表現は夫々、「バースデー（birthday）」と絵文字の意味を読み上げる音声表現、拍手の擬音「パチパチ（clap-clap）」、「ろうそく（candles）」と絵文字の意味を読み上げる音声表現、及び、ろうそくから連想される”りんと木魚”の擬音（ろうそくの光を表わす擬音）「ポクポクチーン（flickering：チカチカ）」である。また、４つの音声表現は、その絵文字の内容から、絵文字が文字の代替として使用された場合に最適な読み上げの音声表現である表現１と、文字の代替以外で使用された場合に適した音声表現である表現２とに分類されている。さらに、絵文字の絵柄から想起される意味で区別された候補１／候補２で分類されている。

図３の説明図で示された「三本のろうそく」の絵柄の絵文字に対しては、誕生日ケーキを想起させる意味で、且つ文字の代替として使用されている場合の音声表現として「バースデー（birthday）」と読み上げる音声表現が登録されている。また、単にろうそくを想起させる意味で、且つ文字の代替として使用されている場合の音声表現として「ろうそく（candles）」と読み上げる音声表現が登録されている。一方、誕生日ケーキを想起させる意味で、且つ文字の代替以外として使用されている場合の音声表現として「バースデー（birthday）」から連想される拍手の擬音の読み又は効果音の音声表現「パチパチ」が登録されている。単にろうそくを想起させる意味で、且つ文字の代替以外として使用されている場合の音声表現として、ろうそくが仏壇（祭壇）に捧げられた場合から連想される擬音（ろうそくの光を表わす擬音）の読み又は効果音である音声表現「ポクポクチーン（flickering）」が登録されている。

制御部１０は、音声表現選択部１０３として機能し、図３の説明図に示したように特殊文字の音声表現が分類されて登録されている特殊文字辞書１１１を参照し、抽出した特殊文字に対応する複数の音声表現の内から音声表現を選択する。

制御部１０が音声表現選択部１０３として特殊文字辞書１１１から音声表現を選択する方法の具体例としては、受け付けたテキストデータが日本語である場合、以下の方法が挙げられる。

制御部１０は、特殊文字の前後のテキストデータを言語解析によって文節、単語等の言語単位に区分する。制御部１０は、区分した言語単位を文法的に分類し、特殊文字の直前又は直後に助詞として分類された場合は、表現１に分類される音声表現を選択する。直前又は直後に助詞として分類されている単語が使用されている場合は、その特殊文字は文字の代替として使用されていると判定することも可能であるからである。

また、文法的に特殊文字の直前に形容詞の連体形として分類される単語が使用されている場合であり、且つ特殊文字の後に名詞がない場合は特殊文字は名詞である可能性が高いと考えられる。したがって、制御部１０は特殊文字を文字の代替として使用されていると判断することも可能である。逆に、特殊文字の直前に形容詞の連体形として分類される単語が使用されている場合であり、且つ特殊文字の後に名詞がある場合は、特殊文字は文法上の意味を特に有さず、文章の装飾、単に区切り等として用いられていると考えられる。したがって、制御部１０は、特殊文字を文字の代替以外として使用されていると判断することも可能である。

また、識別コード「××」が設定されている絵文字に「絵柄から想起される意味」夫々に、想起される意味が近いと考えられる単語群を対応付けて登録しておく方法でもよい。制御部１０は、特殊文字を含むテキストデータの内の文という言語単位の中に、登録されている単語群の内のいずれかの単語が検出されるか否かを判断する。制御部１０は、検出された単語を含む単語群が対応付けられている「絵柄から想起される意味」で分類される候補１／候補２を選択する。さらに、上述の直前又は直後に助詞が使用されているか否かを組み合わせて音声表現の内のいずれかを選択することもできる。

制御部１０が音声表現選択部１０３として特殊辞書から音声表現を選択する方法は、以下の方法でもよい。制御部１０は、テキストデータの内の特殊文字の近傍、例えば特殊文字を含むテキストデータの内の文という言語単位の中に、特殊文字に対応して登録されている音声表現の内のいずれかと同じ音声表現に相当する文字列が含まれているか否かを判断し、同じ音声表現に相当する文字列が含まれている場合は、その音声表現を選択しないようにする。したがって、近傍に同じ音声表現に相当する文字列が含まれている場合は、その含まれている音声表現を分類する「絵柄から想起される意味」で分類される「候補」は同じであって、使用のされ方で分類される「表現」が異なる音声表現を選択するようにしてもよい。図３の説明図に示した例では、制御部１０は、例えばテキストデータ内に識別コード「××」を抽出した場合、識別コード「××」を含む一文を読み出して言語解析を行なう。制御部１０は、言語解析によって文節、単語等の言語単位に分別した結果、「バースデー」が一文の中に含まれていると判断できた場合は、「バースデー」と絵柄から想起される意味が同じ候補１であって、使用のされ方が異なる表現２の音声表現「パチパチ」を選択する。逆に、制御部１０は「ろうそく」が近傍のテキストデータに含まれていると判断できた場合は、「ろうそく」と絵柄から想起される意味が同じ候補２であって、使用のされ方が異なる音声表現「ポクポクチーン」を選択する。

さらに、制御部１０が音声表現選択部１０３として特殊文字辞書１１１から音声表現を選択する方法は、受け付けたテキストデータが日本語以外であっても、上述と同様に文法的な解析、又は近傍の単語に基づいて選択することが可能である。特殊文字の直前に形容詞の連体形として分類される単語が使用され、特殊文字の後に名詞がない場合は、文字の代替として使用されていると判断することが可能である。また、特殊文字の直前で一文が完結しているか否かを、言語解析により判定し、完結している場合は文字の代替以外として使用されていると判断することも可能である。

なお、制御部１０が音声表現選択部１０３として特殊文字辞書１１１に登録されている音声表現を選択する方法は、特に上述の方法に限るものではない。他に、テキストデータがメールの本文である場合は、題名として入力されたテキストから「想起される意味」を判断する構成でもよいし、テキスト入力部１３に入力された一連のテキストデータ全体に対して検出される単語を用いて、「想起される意味」、文字の「代替」として使用されているか否かを判断することによって音声表現を選択する構成でもよい。

図４は、実施の形態１における音声合成装置１の制御部１０が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。

制御部１０は、テキスト入力部１３からのテキストデータの入力をテキスト受付部１０１の機能により受け付けた場合、以下の処理を行なう。

制御部１０は、受け付けたテキストデータと特殊文字辞書１１１に登録されている識別コードとを照合して特殊文字を抽出する処理を行なう（ステップＳ１１）。制御部１０は、ステップＳ１１において特殊文字を抽出したか否かを判断する（ステップＳ１２）。

制御部１０は、ステップＳ１２において特殊文字を抽出していないと判断した場合（Ｓ１２：ＮＯ）、受け付けたテキストデータを変換部１０４の機能により音声表記に変換する（ステップＳ１３）。制御部１０は、変換した音声表記から音声合成部１０５の機能により音声を合成し（ステップＳ１４）、処理を終了する。

制御部１０は、ステップＳ１２において特殊文字を抽出したと判断した場合（Ｓ１２：ＹＥＳ）、特殊文字辞書１１１から抽出した特殊文字に対応して登録されている音声表現を選択する（ステップＳ１５）。制御部１０は、選択した音声表現に相当する文字列を含むテキストデータを変換部１０４の機能により音声表記に変換し（ステップＳ１６）、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ１４）、処理を終了する。

図４のフローチャートに示した処理は、例えば受け付けたテキストデータが一文ではなく複数の文からなる文章であった場合は、文毎に実行してもよい。また、受け付けたテキストデータの先頭から特殊文字の識別コードを検索し、検索した箇所までを対象にステップＳ１３以降の処理を行ない、ステップＳ１６まで処理が終了した場合は、次の識別コードを検索する処理を行なって検索した箇所までの処理を繰り返す構成でもよい。

上述のように構成される音声合成装置１の制御部１０の処理によって、特殊文字を含むテキストデータの読み上げが、冗長な読み上げ又はユーザの意図と異なる読み上げを抑制して、適切に行なわれることを具体例を挙げて説明する。

図５は、実施の形態１における本発明の音声合成装置１の制御部１０による絵文字に対応する音声表現の選択を概念的に示す説明図である。なお、図５の説明図で示す制御部１０は、図３の説明図に示した特殊文字辞書１１１に登録されている音声表現から音声表現を選択する。

図５（ａ）に示す例では、特殊文字読み及びに示す特殊文字を含むテキストデータは枠内に示されている『「ハッピー（Happy）」＋「絵文字」』である。制御部１０は、図５（ａ）に示したテキストデータを受け付けた場合、テキストデータの内から、特殊文字辞書１１１に登録されている識別コード「××」を検出して絵文字を抽出する。

制御部１０は、絵文字の識別コード「××」に相当する部分以外のテキストデータ「ハッピー（Happy）」を言語解析し、言語辞書１１２に登録されている文字列「ハッピー（Happy）」の文字夫々に対応する文字コードを検出し、「ハッピー（happy）」という単語を認識する。

次に制御部１０は、『「ハッピー（Happy）」＋「絵文字」』から特殊文字を抽出したので、抽出した特殊文字である識別コード「××」の絵文字に対する音声表現を選択する。制御部１０は、識別コード「××」の絵文字に対し、先に認識した直前の「ハッピー（Happy）」が形容詞の連体形に相当するが、特殊文字の直後にはテキストデータが存在しないので、識別コード「××」の絵文字が名詞に相当すると判定する。制御部１０は、名詞に相当する絵文字は文字の代替として使用されていると使用形態を判断するので、図３の説明図に示した音声表現の分類に基づいて表現１を選択する。さらに、制御部１０は、「ハッピー（happy）」は「ろうそく（candle）」よりも「バースデー（birthday）」と共に使用されることが多いことを、登録してある辞書を参照して判断し、絵柄から想起される意味として候補１を選択する。

以上により、制御部１０は、選択した「バースデー」の音声表現を特殊文字と置き換え、『ハッピーバースデー（Happy birthday）』のテキストデータを作成する。この後、制御部１０は変換部１０４として機能することにより、『ハッピーバースデー（Happy birthday）』のテキストデータを言語解析し、アクセント記号を加えた音声表記「ハッピーバ’ースデー（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ）」に変換する。

一方、図５（ｂ）の枠内に示す特殊文字を含むテキストデータは『「お誕生日おめでとう（Happy birthday）」＋「絵文字」』である。制御部１０は、図５（ｂ）に示したテキストデータを受け付けた場合、テキストデータの内から、文字列「お誕生日おめでとう（Happy birthday）」夫々に対応する文字コードの後に識別コード「××」を検出して絵文字を抽出する。

日本語の場合、制御部１０は、絵文字の識別コードに相当する部分以外のテキストデータ「お誕生日おめでとう」を言語解析し、言語辞書１１２に登録されている文字列「お誕生日」の文字夫々に対応する文字コードを検出し、「お誕生日」という単語を認識する。同様に制御部１０は、言語辞書１１２に登録されている文字列「おめでとう」の文字夫々に対応する文字コードを検出し、「おめでとう」という単語を認識する。

英語の場合は同意の例でも語順が変わるので、制御部１０は、絵文字の識別コードに相当する部分以外のテキストデータ「Happy birthday」を言語解析し、言語辞書１１２に登録されている文字列「Happy」の文字夫々に対応する文字コードを検出し、「happy」という単語を認識する。同様に制御部１０は、言語辞書１１２に登録されている文字列「birthday」の文字夫々に対応する文字コードを検出し、「birthday」という単語を認識する。

制御部１０は、『「お誕生日おめでとう（Happy birthday）」＋「絵文字」』から特殊文字を抽出したので、抽出した特殊文字である識別コード「××」の絵文字の音声表現を選択する。日本語の場合、識別コード「××」の絵文字に対し、先に認識した直前の「おめでとう」が形容詞の連用形又は名詞（感嘆詞）に相当し、特殊文字の直後にはテキストデータが続かない。また英語の場合、識別コード「××」の絵文字に対し、先に認識した直前の「birthday」は名詞であり、特殊文字の直後にはテキストデータが続かない。制御部１０は、識別コード「××」の絵文字の直前で文が言い切られ、特殊文字は文字の代替以外として使用されていると判断するので、図３の説明図に示した音声表現の分類に基づいて表現２を選択する。

さらに、制御部１０は日本語の場合、テキストデータから検出される「お誕生日」は音声表現の読みとして登録されている「バースデー」と同じ意味であることを、登録してある辞書を参照して判断し、絵柄から想起される意味として候補１の音声表現を選択する。テキストデータが日本語以外の英語である場合、制御部１０はテキストデータから検出される「birthday」は音声表現の読みとして登録されている「birthday」と一致するので絵柄から想起される意味として候補１の音声表現を選択する。

制御部１０は、選択した表現２の候補１に分類される音声表現「パチパチ（clap-clap）」を特殊文字と置き換え、『お誕生日おめでとう、パチパチ（Happy birthday, clap-clap）』のテキストデータを作成する。この後、制御部１０は変換部１０４として機能することにより、『お誕生日おめでとう、パチパチ（Happy birthday, clap-clap）』のテキストデータを言語解析し、アクセント記号及びポーズ記号を加えた音声表記「オタンジョ’ービ，オメデトー，パ’チパ’チ（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ，ｋｌａｅｐｋｌａｅｐ）」に変換する。

制御部１０は、音声合成部１０５として機能することにより、音声表記「ハッピーバ’ースデー（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ）」又は「オタンジョ’ービ，オメデトー，パ’チパ’チ（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ，ｋｌａｅｐｋｌａｅｐ）」基づいて音声辞書１１３を参照して音声を合成する。制御部１０は、合成した音声を音声出力部１４に与えて音声として出力する。

これにより、本発明に係る音声合成装置１による場合は、図５（ａ）の内容例に示した『「ハッピー（Happy）」＋「絵文字」』は「ハッピーバースデー（Happy birthday）」と音声読み上げされる。また、図５（ｂ）の内容例に示した『「お誕生日おめでとう（Happy birthday）」＋「絵文字」』に対しては、識別コード「××」の絵文字に設定されている読みの音声表現「バースデー（birthday）」ではなく擬音又は効果音である音声表現「パチパチ（clap-clap）」が選択されている。したがって、図５（ｂ）の内容例に示した『「お誕生日おめでとう（Happy birthday）」＋「絵文字」』に対しては、本発明に係る音声合成装置１による場合は「お誕生日おめでとう、パチパチ（Happy birthday, clap-clap）」と音声読み上げされる。

なお、音声合成部１０５として機能する制御部１０は、変換部１０４の機能により変換した音声表記「パ’チパ’チ（clap-clap）」「ポクポクチーン（flickering）」等を、効果音に対応する文字列として登録しておく。制御部１０は、変換された音声表記が登録されている擬音に対応する文字列と一致する部分を含んでいると判断した場合、擬音に対応する文字列を「パチパチ（clap-clap）」、「ポクポクチーン（flickering）」等の「読み」として音声を合成するのみならず、夫々「拍手（applause）」の効果音、「木魚とりん（sound that lights a match）」の効果音を合成する構成でもよい。

実施の形態１における本発明の音声合成装置１により、上述のように特殊文字を抽出して特殊文字の分類を近傍のテキストデータから判断して、適切な読み又は擬音等の効果音を用いて適切に読み上げることが可能である。

なお、実施の形態１では、一の識別コード又は識別コードの組み合わせで区別される絵文字、顔文字、記号等の特殊文字は、文字の代替として使用されているのか、文字の代替以外として使用されているのかによって、対応する音声読み上げを異なる音声表現にすることが効果的であるとの着目点に基づいて分類されている。本発明の音声合成装置１では、特殊文字に対する音声表現をこのように分類して選択可能な構成とすることにより、特殊文字の使用形態及び意味に適した読み上げを行なうことができる。

本発明の音声合成装置１の記憶部１１に記憶されている特殊文字の分類は、特殊文字が文字の代替として使用されているかの使用形態又は文字の代替以外として使用されているか及び絵柄から想起される意味による分類には限らない。例えば、他に感情（喜怒哀楽）の表示であるのか、効果音を表しているのか等によって分類することも可能である。実施の形態１における分類と異なる分類方法で特殊文字に対する音声表現を分類した場合であっても、本発明の音声合成装置１では、抽出した特殊文字に適合する分類を判断し、その分類に対応した音声表現で特殊文字を読み上げることができる。

なお、音声合成装置１の制御部１０は、特殊文字を含むテキストデータを受け付けた場合、その際にユーザによって任意に入力される特殊文字の音声表現を共に受け付けたときは、特殊文字辞書１１１から音声表現を選択せずに共に受け付けた音声表現を選択し、これに従って音声を合成するようにしてもよい。

さらに、ユーザによって入力された特殊文字の音声表現を特殊文字辞書１１１に新たに登録することができる構成でもよい。具体的には、音声合成装置１の制御部１０は、テキスト受付部１０１の機能により、テキストデータを受け付ける際、テキスト入力部１３により入力された特殊文字の具体的な音声表現及びその分類（表現１又は表現２の選択）で分類して特殊文字辞書１１１に登録する。

図６は、実施の形態１における音声合成装置１の制御部１０が、特殊文字の音声表現及び分類を受け付けて、受け付けた音声表現に従って音声を合成し、さらに特殊文字辞書１１１に登録する処理手順を示すフローチャートである。

制御部１０は、受け付けたテキストデータと特殊文字辞書１１１に登録されている識別コードとを照合して特殊文字を抽出する処理を行なう（ステップＳ２０１）。制御部１０は、ステップＳ２０１において特殊文字を抽出したか否かを判断する（ステップＳ２０２）。

制御部１０は、ステップＳ２２において特殊文字を抽出していないと判断した場合（Ｓ２０２：ＮＯ）、受け付けたテキストデータを変換部１０４の機能により音声表記に変換する（ステップＳ２０３）。制御部１０は、変換した音声表記から音声合成部１０５の機能により音声を合成し（ステップＳ２０４）、処理を終了する。

制御部１０は、ステップＳ２０２において特殊文字を抽出したと判断した場合（Ｓ２０２：ＹＥＳ）、テキスト入力部１３により特殊文字の新たな音声表現を受け付けたか否かを判断する（ステップＳ２０５）。

制御部は、新たな音声表現を受け付けていないと判断した場合（Ｓ２０５：ＮＯ）、特殊文字辞書１１１から抽出した特殊文字に対応して登録されている音声表現を選択する（ステップＳ２０６）。制御部１０は、選択した音声表現に相当する文字列を含むテキストデータを変換部１０４の機能により音声表記に変換し（ステップＳ２０７）、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ２０４）、処理を終了する。

制御部は、新たな音声表現を受け付けたと判断した場合（Ｓ２０５：ＹＥＳ）、共に入力される新たな音声表現の分類を受け付ける（ステップＳ２０８）。このとき、ユーザは、テキスト入力部１３のキーボード、文字キー、マウス等を介して特殊文字の使用形態が文字の「代替」であるのか、又は「装飾」であるのかを選択することができる。制御部は、テキスト入力部１３を介したユーザの選択を受け付けることにより、ステップＳ２０８で分類を受け付ける。

次に制御部は、ステップＳ２０８で受け付けた分類に基づいて記憶部１１に記憶してある特殊文字辞書１１１に記憶し（ステップＳ２０９）、特殊文字に対してステップＳ２０５で受け付けた新たな音声表現に従い、テキストデータを変換部１０４の機能により音声表記に変換し（ステップＳ２１０）、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ２０４）、処理を終了する。

図６のフローチャートに示した制御部１０の処理により、ユーザが意図する意味での音声表現に従って、特殊文字を読み上げることができる。さらに、特殊文字に対応する新たな音声表現を特殊文字辞書１１１記憶することができる。音声合成装置１と同じ装置が他に複数存在する場合、音声合成装置１は、受け付けた特殊文字を含むテキストデータと共に新たな音声表現を記憶した特殊文字辞書１１１を他の装置に送信することにより、他の装置で当該テキストデータを読み上げる際に、テキストデータを入力したユーザが意図する意味で読み上げることが可能となる。

（実施の形態２）
実施の形態１では、音声合成装置１の記憶部１１の特殊文字辞書１１１に登録されている音声表現は、特殊文字が文字の代替として使用されているか又は文字の代替以外で使用されているかの形態による表現１又は表現２で分類され、さらに特殊文字から想起される意味による候補１又は候補２で分類された。これに対し、実施の形態２では、文字の代替以外として使用されている形態の分類を更に細分化する。実施の形態２では、特殊文字が文字の代替として使用されているか又は文字の代替以外として使用されているか、さらに、文字の代替以外として使用されている場合は文章の装飾として特に読みが意図されて使用されているか、又は文章の装飾として特に文章の雰囲気を表現するために使用されているかで音声表現を分類する。

そこで実施の形態２では、文章の装飾として特に読みが意図されず、文書の雰囲気を表現するために使用されている特殊文字には、擬音、効果音ではなく背景音楽（ＢＧＭ（BackGround Music））を対応する音声表現とする。

また、実施の形態１では、制御部１０は、音声表現選択部１０３として機能して選択した音声表現を相当する文字列に置き換え、置き換えられた文字列を含むテキストデータを変換部１０４として機能することにより音声表記へ変換した。これに対し、実施の形態２では、制御部１０は、変換部１０４として機能することにより特殊文字の音声表現として読み以外の効果音、ＢＧＭ等の音声表現が選択された場合は、当該音声表現の効果を表わす制御文字列へ変換する。

実施の形態２における音声合成装置１の構成は、実施の形態１における音声合成装置１の構成と同様であるので詳細な説明を省略する。実施の形態２では、音声合成装置１の記憶部１１に登録されている特殊文字辞書１１１と、変換部１０４による制御文字列への変換が異なる。そこで、実施の形態１と同一の符号を用いて以下に特殊文字辞書１１１及び制御文字列への変換を具体的な事例を挙げて説明する。

図７は、実施の形態２における本発明の音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１の内容例を示す説明図である。

図７の説明図に示すように特殊文字辞書１１１には、特殊文字として識別コード「××」が設定されている「三本のろうそく」のイメージの絵文字が登録されている。「三本のろうそく」のイメージの絵文字には、６つの音声表現が登録されている。各音声表現は、実施の形態１で登録されている音声表現（図３参照）に加えて“Happy birthday（Happy birthday）”のＢＧＭ及び“お経”（“Ave Maria”）のＢＧＭが登録されている。

図７の説明図に示した実施の形態２における分類は、実施の形態１における分類（図３参照）の文字の代替以外として使用されている形態（表現２）を更に二つに細分した表現２及び表現３によって分類されている。

図７の説明図で示すように、識別コード「××」が設定されている絵文字は、誕生日ケーキを想起させる意味、又はろうそくを想起させる意味により候補１と候補２に分類される。また、識別コード「××」が設定されている絵文字は、文字の代替として使用されているか、文字の代替以外として読みが意図されて使用されているか、又は文字の代替以外として雰囲気を表現するために使用されているかの使用形態により表現１、表現２及び表現３に分類される。

識別コード「××」の絵文字には、図７の説明図に示すように誕生日のケーキを想起させる意味で、且つ雰囲気を表現するために使用されている場合の音声表現として“Happy Birthday”のＢＧＭが登録されている。また、ろうそくを想起する意味で、且つ雰囲気を表現するために使用されている場合の音声表現として、ろうそくが仏壇（祭壇）に捧げられた場合から連想される“お経”（“Ave Maria”）のＢＧＭが登録されている。

制御部１０は、音声表現選択部１０３として機能し、図７の説明図に示したように特殊文字の音声表現が分類されて登録されている特殊文字辞書１１１を参照し、抽出した特殊文字に対応する複数の音声表現の内から音声表現を選択する。

制御部１０は、音声表現選択部１０３として機能する場合、特殊文字が文字の代替として使用されているか、文字の代替以外として読みが意図されて使用されているか、又は文字の代替以外として雰囲気を表現するために使用されているかの使用形態を判定する。例えば、制御部１０は受け付けたテキストデータが日本語である場合、使用形態の判定を以下のように行う。

制御部１０は、特殊文字の近傍のテキストデータを文法的に言語解析する。制御部１０は、特殊文字の前後の品詞情報から特殊文字が名詞に相当する場合は、文字の代替として使用されていると判定し、表現１を選択する。制御部１０は、特殊文字の直前に形容詞の連体形として分類される単語が使用されている場合であり、且つ特殊文字の後に名詞がある場合は、文字の代替以外として読みが意図されて使用されていると判定し、表現２を選択する。また、制御部１０は、特殊文字が近傍の単語との関係で係り受けの関係を有しないと判断される場合は、代替以外として雰囲気を表現するために使用されていると判定し、特殊文字に対応する音声表現として表現３のＢＧＭを選択する。

制御部１０は特殊文字に対応する音声表現として図７の説明図に示した表現３且つ候補１、即ちＢＧＭ“Happy Birthday”を選択した場合、特殊文字を含む一文が読み上げられる間にＢＧＭを出力させるための制御文字列を含んでテキストデータに置き換える。

具体的には、制御部１０は、テキスト受付部１０１として機能して『「お誕生日おめでとう」＋「（絵文字）」』というテキストデータを受け付けた場合、音声表現選択部１０３としてＢＧＭ”Happy Birthday”を選択したときは、以下に示すように特殊文字を含む一文を全てＢＧＭを出力させるための制御文字列で挟むようにする。なお、実施の形態２では、制御文字列はタグで表わして説明する。

「＜ＢＧＭ “Happy Birthday”＞お誕生日おめでとう（Happy birthday）＜／ＢＧＭ＞」

制御部１０は、変換部１０４として機能する場合、タグをそのまま残して以下に示すように音声表記へ変換する。

「＜ＢＧＭ “Happy Birthday”＞オタンジ’ョービ、オメデトー（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ）＜／ＢＧＭ＞」

制御部１０は、音声合成部１０５として機能する場合、音声表記に＜ＢＧＭ＞タグが検出された場合は、タグに挟まれている音声表記を出力する間は、タグに示されている音声ファイル“Happy Birthday”を音声辞書１１３から読み出し、重畳して出力するようにする。

また、制御部１０は特殊文字の音声表現として図７の説明図に示した表現２、且つ候補２の音声表現「ポクポクチーン（flickering）」を選択した場合、擬音の読みの音声表現ではなく、予め録音された木魚とりんの効果音（「sound that lights a match」）を出力させるための制御文字列を含んでテキストデータへ置き換える。

具体的には、制御部１０は、『「ご仏壇（altar）」＋「絵文字」』というテキストデータを受け付けた場合、音声表現選択部１０３として木魚とりんの効果音（「sound that lights a match」）を選択したときは、以下に示すように特殊文字を置き換えた音声表現に相当する文字列を、効果音（Sound Effect ）を出力させるためのタグで表わされる制御文字列を挿入する。

「ご仏壇（altar）＜ＥＦＦ＞ポクポクチーン（flickering）＜／ＥＦＦ＞」

「ゴブツダン（ａｏ'ｌｔａｈｒ）＜ＥＦＦ＞ポクポクチーン（flickering）＜／ＢＧＭ＞」

制御部１０は、音声合成部１０５として機能する場合、音声表記に＜ＥＦＦ＞タグが検出された場合は、タグに挟まれている文字列に対応する効果音のファイル”ポクポクチーン（flickering）”を音声辞書１１３から読み出して出力するようにする。

さらに、制御部１０は特殊文字の音声表現として図７の説明図に示した表現２且つ候補１、即ち拍手の擬音の音声表現「パチパチ（clap-clap）」を選択した場合、「パチパチ（clap-clap）」を男性の声質で擬音を出力させるための制御文字列を含んだ音声表記へ変換する。

具体的には、制御部１０は、『「お誕生日おめでとう（Happy birthday）」＋「絵文字」』というテキストデータを受け付けた場合、音声表現選択部１０３として効果音である音声表現「パチパチ（clap-clap）」を選択したときは、以下に示すように特殊文字を置き換えた音声表現に相当する文字列を、男性の声質で擬音を出力させるためのタグで表わされる制御文字列を挿入する。

「お誕生日おめでとう（Happy birthday）＜Ｍ１＞パチパチ（clap-clap）＜／Ｍ１＞」

「オタンジ’ョービ、オメデトー（ｈａ`ｅｐｉｂｅ'ｒｔｈｄｅ`ｉ）＜Ｍ１＞パ’チパ’チ（ｆｌｉ'ｋａｈｒｉｎｇ）＜／Ｍ１＞」

制御部１０は、音声合成部１０５として機能する場合、音声表記に＜Ｍ１＞タグが検出された場合は、タグに挟まれている音声表記”パ’チパ’チ（ｆｌｉ'ｋａｈｒｉｎｇ）”を男性の声質で出力するようにする。

なお、変換部１０４として機能する際に制御文字列を必ずしも挿入しない構成でもよい。制御部１０は音声表現選択部１０３として機能する際に、効果音、ＢＧＭ等の音声表現を選択した場合は、予め音声合成部１０５としての機能に対応させた文字列に置換する。例えば、音声表現「パチパチ（clap-clap）」を選択した場合、音声合成装置１の制御部１０は、擬音として読むのではなく予め録音された拍手音を出力させるために以下のようにする。制御部１０は、音声合成部１０５として機能する場合に拍手音と対応することが検知可能なように予め対応付けられた文字列「ハクシュオン（sound of applause）」を記憶部１１に記憶しておく。制御部１０は、音声表現「パチパチ（clap-clap）」を選択した場合、テキストデータの内の特殊文字を文字列「ハクシュオン（sound of applause）」に置き換える。制御部１０は記憶してある文字列「ハクシュオン（sound of applause）」と音声表記とを照合して文字列「ハクシュオン（sound of applause）」を認識し、適切な箇所で拍手の効果音（sound of applause）を音声出力部１４に出力させることができる。

また、制御部１０は音声表現選択部１０３として機能し、テキストデータ中の特殊文字の位置と、特殊文字に対応して選択した音声表現とを一時記憶領域１２に記憶しておく。この場合、制御部１０は、音声合成部１０５として機能する場合、一時記憶領域１２からテキストデータ中の特殊文字の位置と特殊文字の音声表現とを読み出して、適切な位置に効果音、背景音楽を挿入して出力するように音声データを作成する構成でもよい。

実施の形態２において図７の説明図に示したように特殊文字に対する音声表現を分類して選択可能な構成とすることにより、冗長な読み上げ又はユーザが意図しない読み上げを抑制するのみならず、擬音、効果音、又はＢＧＭを交えた表現豊かな音声読み上げを提供することができる。

（実施の形態３）
実施の形態３では、音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１に、音声表現に夫々対応付けて関連語を登録しておき、制御部１０が音声表現選択部１０３として音声表現を選択する際に使用する。

実施の形態３における音声合成装置１の構成は、実施の形態１における音声合成装置１の構成と同様であるので詳細な説明を省略する。実施の形態３では、音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１と、制御部１０が音声表現選択部１０３として機能する場合の処理の内容とが実施の形態１と異なる。したがって、実施の形態１と同一の符号を用い、特殊文字辞書１１１及び制御部１０の音声表現選択部１０３としての処理について以下に説明する。

図８は、実施の形態３における本発明の音声合成装置１の記憶部１１に記憶される特殊文字辞書１１１の内容例を示す説明図である。

図８の説明図に示すように特殊文字辞書１１１には、特殊文字として識別コード「××」が設定されている「三本のろうそく」のイメージの絵文字が登録されている。「三本のろうそく」のイメージの絵文字には、４つの音声表現が登録されている。図８の説明図に示す実施の形態３での音声表現及び各音声表現の分類は実施の形態１における分類（図３参照）と同様である。

図８の説明図に示すように、特殊文字辞書１１１には各音声表現に対応付けられて一又は複数の関連語が登録されている。特殊文字の近傍に関連語が存在する場合に、関連語が対応付けられている音声表現を選択するためである。

図８の説明図に示す例では、特殊文字辞書１１１には読みの音声表現「バースデー（birthday）」に対してつながりが強い「ハッピー（happy）」が関連語として登録されている。したがって音声合成装置１は、受け付けたテキストデータに識別コード「××」の特殊文字が存在し、さらに関連語「ハッピー（happy）」が特殊文字の近傍、特に直前に存在する場合、「ハッピー（happy）」が対応付けられている読みの音声表現「バースデー（birthday）」を選択する。音声合成装置１は、特殊文字を含むテキストデータ『「ハッピー（Happy）」＋「絵文字」』を「ハッピーバースデー（Happy birthday）」と読み上げることができる。

また、図８の説明図では、読みの音声表現「バースデー（birthday）」に対応付けて、想起される意味が同じで使用形態の分類が異なる音声表現の読みである「パチパチ（clap）」が特殊文字辞書１１１に登録されていることが下線で示されている。これは、音声合成装置１が受け付けたテキストデータに識別コード「××」の特殊文字が存在し、さらに特殊文字の近傍に関連語である「パチパチ（clap）」が存在する場合、特殊文字を「パチパチ（clap-clap）」と読み上げたときは冗長な読み上げになるので、想起される意味が同じ分類の読みの音声表現「バースデー（birthday）」を音声合成装置１が選択して読み上げるようにするためである。

特殊文字辞書１１１には擬音の読み又は効果音である音声表現「パチパチ（clap-clap）」に対応付けて、関連語「拍手（applause）」が登録されている。これにより、テキストデータに識別コード「××」の特殊文字が存在し、「拍手（applause）」が特殊文字の近傍に存在する場合は、音声合成装置１は「拍手（applause）」に対応付けられている音声表現「パチパチ（clap-clap）」を選択する。

同様に、図８の説明図では、擬音の読み又は効果音の音声表現「パチパチ（clap-clap）」に対応付けて、想起される意味が同じで使用形態の分類が異なる音声表現の読みである「バースデー（birthday）」が特殊文字辞書１１１に登録されていることが下線で示されている。また、特殊文字辞書１１１には読みの音声表現「ろうそく（candles）」に対応付けて、関連語「仏壇（altar）」、「停電（blackout）」が登録されている。また、特殊文字辞書１１１には、読みの音声表現「ろうそく（candles）」に対応付けて、「ろうそく（candles）」と想起される意味が同じで使用形態が異なる分類の擬音の読み又は効果音の音声表現「ポクポクチーン（flickering）」を音声合成装置１が冗長的に読み上げないようにするための関連語「ポクポクチーン（flick）」が登録されている。

したがって、テキストデータに識別コード「××」の特殊文字が存在し、その近傍に「仏壇（altar）」、「停電（blackout）」又は「ポクポクチーン（flick）」が存在する場合は、音声合成装置１の制御部１０は、読みの音声表現「ろうそく（candles）」を選択する。

さらに、特殊文字辞書１１１には擬音の読み又は効果音の音声表現「ポクポクチーン（flickering）」に対応付けて、関連語「木魚」及び「りん」（「pray：祈り」）が登録されている。また、特殊文字辞書１１１には、擬音の読み又は効果音の音声表現「ポクポクチーン」に対応付けて、「ポクポクチーン（flickering）」と想起される意味が同じで使用形態の分類が異なる読みの音声表現「ろうそく（candles）」を音声合成装置１が冗長的に読み上げないようにするための関連語「ろうそく（candles）」が登録されている。

したがって、テキストデータに識別コード「××」の特殊文字が存在し、特殊文字の近傍に「木魚」、「りん」（「pray」）又は「ろうそく（candles）」が存在する場合は、音声合成装置１の制御部１０は、擬音の読み又は効果音の音声表現「ポクポクチーン（flickering）」を選択する。

次に、図８の説明図に示したように特殊文字辞書１１１に登録されている関連語を使用して、音声合成装置１の制御部１０が、特殊文字辞書１１１に登録されている音声表現を選択する処理について説明する。

図９及び図１０は、実施の形態３における音声合成装置１の制御部１０が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。

制御部１０は、テキスト入力部１３からのテキストの入力をテキスト受付部１０１の機能により受け付けた場合、以下の処理を行なう。

ここで、説明を簡単にするため、候補１の音声表現に対応付けられている関連語の内、表現１に対応付けられている関連語がテキストデータの内で一致する数をＮｃ１ｒ１とする。また、候補１の音声表現に対応付けられている関連語の内、表現２に対応付けられている関連語がテキストデータの内で一致する数をＮｃ１ｒ２とする。候補１の音声表現に対応付けられている関連語がテキストデータの内で一致する総数をＮｃ１とするが、Ｎｃ１＝Ｎｃ１ｒ１＋Ｎｃ１ｒ２が成立する。一方、候補２の音声表現に対応付けられている関連語の内、表現１に対応付けられている関連語がテキストデータの内で一致する数をＮｃ２ｒ１とする。また、候補２の音声表現に対応付けられている関連語の内、表現２に対応付けられている関連語がテキストデータの内で一致する数をＮｃ２ｒ２とする。候補２の音声表現に対応付けられている関連語がテキストデータの内で一致する総数をＮｃ２とするが、Ｎｃ２＝Ｎｃ２ｒ１＋Ｎｃ２ｒ２が成立する。

制御部１０は、受け付けたテキストデータと特殊文字辞書１１１に登録されている識別コードとを照合して特殊文字を抽出する（ステップＳ３０１）。制御部１０は、ステップＳ３０１において特殊文字を抽出したか否かを判断する（ステップＳ３０２）。

制御部１０は、ステップＳ３０２において特殊文字を抽出していないと判断した場合（Ｓ３０２：ＮＯ）、受け付けたテキストデータを変換部１０４の機能により音声表記に変換する（ステップＳ３０３）。制御部１０は、変換した音声表記から音声合成部１０５の機能により音声を合成し（ステップＳ３０４）、処理を終了する。

制御部１０は、ステップＳ３０２において特殊文字を抽出したと判断した場合（Ｓ３０２：ＹＥＳ）、抽出した特殊文字に対して特殊文字辞書１１１に登録されている候補１の音声表現に対応付けられている関連語が受け付けたテキストデータの内で一致する総数（Ｎｃ１）、及び候補２の音声表現に対応付けられている関連語が受け付けたテキストデータの内で一致する総数（Ｎｃ２）を候補毎に計数する（ステップＳ３０５）。

制御部１０は、ステップＳ３０５で計数した、候補１の音声表現に対応付けられている関連語との一致総数、及び候補２の音声表現に対応付けられている関連語との一致総数がいずれもゼロであるか否か（Ｎｃ１＝Ｎｃ２＝０？）を判断する（ステップ３０６）。制御部１０は、一致総数が候補１及び候補２でいずれもゼロであると判断した場合（Ｓ３０６：ＹＥＳ）、抽出した特殊文字を削除する（ステップＳ３０７）。なお、ステップＳ３０７において特殊文字を削除するのは、その特殊文字に対して読み上げを行わない、即ち特殊文字に対応する音声表現として「無音」を選択したことに相当する。その後、制御部１０は残りのテキストデータを変換部１０４の機能により音声表記に変換し（Ｓ３０３）、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ３０４）、処理を終了する。

制御部１０は、ステップＳ３０６において、候補１の音声表現又は候補２の音声表現に対応付けられている関連語との一致総数がいずれかゼロでないと判断した場合（Ｓ３０６：ＮＯ）、候補１の音声表現に対応づけられている関連語との一致総数が、候補２の音声表現に対応付けられている関連語との一致総数以上であるか否か（Ｎｃ１≧Ｎｃ２？）を判断する（ステップＳ３０８）。

制御部１０がステップＳ３０８において、関連語の一致総数を候補１と候補２とで比較するのは以下の理由による。候補１及び候補２は、特殊文字の絵柄から想起される意味の違いで分類されており、関連語はやはり意味の違いで候補１と候補２とで分類される。したがって、抽出した特殊文字は、候補１と候補２とで特殊文字の近傍でより関連語が多く検出された方に近い意味で使用されていると判断できる。

制御部１０は、ステップＳ３０８において、候補１の音声表現に対応付けられている関連語との一致総数が、候補２の音声表現に対応付けられている関連語との一致総数以上であると判断した場合（Ｓ３０８：ＹＥＳ）、候補１の音声表現に対応付けられている関連語の内で、表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ２）以上であるか否か（Ｎｃ１ｒ１≧Ｎｃ１ｒ２？）を判断する（ステップＳ３０９）。

制御部１０がステップＳ３０９において、関連語の一致総数を同じ意味を想起させる表現１と表現２とで比較するのは以下の理由による。関連語は、それが検出された場合に対応付けられている表現１又は表現の音声表現を選択するように登録されているので、対応付けられている関連語がより多く特殊文字の近傍から検出された場合は、対応付けられている音声表現を選択する。

したがって、制御部１０は、ステップＳ３０９において、候補１の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、候補１の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ２）以上である（Ｎｃ１ｒ１≧Ｎｃ１ｒ２）と判断した場合（Ｓ３０９：ＹＥＳ）、候補１、表現１で分類される音声表現を選択する（ステップＳ３１０）。

一方、制御部１０は、ステップＳ３０９において、表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ２）未満である（Ｎｃ１ｒ１＜Ｎｃ１ｒ２）と判断した場合（Ｓ３０９：ＮＯ）、候補１、表現２で分類される音声表現を選択する（ステップＳ３１１）。

また、制御部１０は、ステップＳ３０８において候補１の音声表現に対応付けられている関連語との一致総数（Ｎｃ１）が、候補２の音声表現に対応付けられている関連語との一致総数（Ｎｃ２）未満である（Ｎｃ１＜Ｎｃ２）と判断した場合（Ｓ３０８：ＮＯ）、候補２の音声表現に対応付けられている関連語の内で、表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ２）以上であるか否か（Ｎｃ２ｒ１≧Ｎｃ２ｒ２？）を判断する（ステップＳ３１２）。

制御部１０は、ステップＳ３１２において、候補２の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、候補２の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ２）以上である（Ｎｃ２ｒ１≧Ｎｃ２ｒ２）と判断した場合（Ｓ３１２：ＹＥＳ）、候補２、表現１で分類される音声表現を選択する（ステップＳ３１３）。

制御部１０は、ステップＳ３１２において、候補２の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、候補２の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ２）未満である（Ｎｃ２ｒ１＜Ｎｃ２ｒ２）と判断した場合（Ｓ３１２：ＮＯ）、候補２、表現２で分類される音声表現を選択する（ステップＳ３１４）。

制御部１０は、ステップＳ３１０、ステップＳ３１１、ステップＳ３１３及びステップＳ３１４において選択した音声表現に従って、特殊文字を含むテキストデータを変換部１０４の機能により音声表記に変換する（ステップＳ３１５）。

制御部１０は、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ３０４）、処理を終了する。

図９及び図１０のフローチャートに示した処理は、例えばテキストデータを一文ではなく複数の文からなる文章であった場合は、文毎に実行してもよい。したがって、ステップＳ３０５においてテキストデータの内で関連語と一致する総数を計数する範囲は、特殊文字を含む一文に相当するテキストデータの内を特殊文字の近傍として捉えて関連語が一致する数を計数している。しかしながら、関連語が一致する数を計数する範囲は、一文に相当するテキストデータのみならず、特殊文字を含む一文の前後の複数の文に相当するテキストデータを特殊文字の近傍として捉えて、一致する関連語の数を計数してもよい。

さらに、テキストデータに題名などの付帯テキストがある場合は、その付帯テキストの内で関連語を計数してもよい。このとき、付帯テキスト中にも特殊文字が含まれている場合は、その特殊文字については関連語に相当するか等の解析を行わなくてもよい。

図９及び図１０のフローチャートに示した処理手順により、抽出した特殊文字に対し、対応付けられた関連語が一致する数が多い音声表現が選択される。これにより、ユーザの意図と異なる意味での読み上げ、及び冗長な読み上げを抑制することができる。したがって、ユーザの意図に沿った適切な読み上げを行なうことができる。

なお、実施の形態３において、音声表現夫々に対応付けて登録する関連語として、その音声表現の読みと共に生起する確率が高い単語群をデータベースとして登録しておいてもよい。特殊文字に対する読みを含む音声表現と共に生起する確率が高い単語群は、特殊文字の近傍に検出された場合、その特殊文字が視覚的に想起させる意味が似ていると考えられる。したがって、特殊文字の意味を誤って捉えてユーザの意図と異なる意味を想起させる読み上げを抑制することができる。

（実施の形態４）
実施の形態４では、音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１に、音声表現に夫々対応付けて関連語及び同義語を登録しておき、制御部１０が音声表現選択部１０３として特殊文字に対する音声表現を選択する際に使用する。

実施の形態４における音声合成装置１の構成は、実施の形態１における音声合成装置１の構成と同様であるので詳細な説明を省略する。実施の形態４では、音声合成装置１の記憶部１１に記憶されている特殊文字辞書１１１と、制御部１０が音声表現選択部１０３として機能する場合の処理の内容とが異なるので、実施の形態１と同一の符号を用いて以下に特殊文字辞書１１１及び音声表現選択部１０３としての処理について説明する。

図１１は、実施の形態４における本発明の音声合成装置１の記憶部１１に記憶される特殊文字辞書１１１の内容例を示す説明図である。

図１１の説明図に示すように特殊文字辞書１１１には、特殊文字として識別コード「××」が設定されている「三本のろうそく」のイメージの絵文字が登録されている。「三本のろうそく」のイメージの絵文字には、６つの音声表現が登録されている。図１１の説明図に示す実施の形態４での音声表現及び各音声表現の分類は実施の形態２における分類（図７参照）と同様である。

図１１の説明図に示すように、特殊文字辞書１１１には、各音声表現夫々に対応付けられて一又は複数の関連語及び同義語が登録されている。関連語については、特殊文字の近傍に関連語が存在する場合に関連語が対応付けられている音声表現を選択するためである。一方、同義語については、特殊文字の近傍に同義語が存在する場合に、冗長な読み上げを抑制するために同義語が対応付けられている音声表現を選択しないようにするためである。

図１１の説明図に示す例では、特殊文字辞書１１１には読みの音声表現「バースデー（birthday）」に対応付けて、同義語「バースデー」及び「誕生日」（「birthday」）が登録されている。テキストデータに含まれる識別コード「××」の特殊文字の近傍に「バースデー」又は「誕生日」（「birthday」）が存在する場合、その特殊文字を「バースデー（birthday）」と読み上げられたときは、冗長な読み上げとなるからである。これにより、音声合成装置１は、受け付けたテキストデータに識別コード「××」の特殊文字が存在し、且つ文字列「バースデー（birthday）」が近傍に存在している場合は「バースデー（birthday）」と読み上げないようにすることができる。

また、特殊文字辞書１１１には読みの音声表現「バースデー（birthday）」に対応付けて、「ハッピー（happy）」が関連語として登録されている。読みの音声表現「バースデー（birthday）」に対応する関連語として「ハッピー（happy）」を登録しておくことにより、音声合成装置１は、受け付けたテキストデータに識別コード「××」の特殊文字が存在し、特殊文字の近傍に文字列「ハッピー（happy）」が存在する場合、関連語「ハッピー」が対応付けられている読みの音声表現「バースデー（birthday）」を選択する。これにより、音声合成装置１は、特殊文字を含むテキストデータを「ハッピーバースデー（birthday）」と読み上げることができる。

特殊文字辞書１１１には擬音の読み又は効果音の音声表現「パチパチ（clap-clap）」に対応付けて、同義語「パチパチ（clap）」が登録されている。また、特殊文字辞書１１１には擬音の読み又は効果音の音声表現「パチパチ（clap-clap）」に対応付けて、関連語「拍手（applause）」が登録されている。したがって、音声合成装置１は、受け付けたテキストデータに識別コード「××」の特殊文字が存在し、且つ文字列「拍手（applause）」が近傍に存在する場合は、「拍手（applause）」が対応付けられている音声表現「パチパチ（clap-clap）」を選択し、特殊文字を含むテキストデータを例えば「拍手、パチパチ（give a round of applause, clap clap）」等と読み上げることができる。

同様に、特殊文字辞書１１１には読みの音声表現「ろうそく（candles）」に対応付けて、同義語「ろうそく（candles）」が登録されている。また、読みの音声表現「ろうそく（candles）」に対応付けて、関連語「仏壇（altar）」及び「停電（blackout）」が登録されている。

さらに、特殊文字辞書１１１には擬音の読み又は効果音の音声表現「ポクポクチーン（flickering）」に対応付けて、同義語「ポクポク」及び「チーン」（「flick」、「glitter：ピカピカ」、「twinkle：キラキラ」）が登録されている。さらに、擬音の読み又は効果音の音声表現「ポクポクチーン」に対応付けて、関連語「木魚」及び「りん」（「pray」）が登録されている。

図１１の説明図に示したように特殊文字辞書１１１に登録されている関連語を使用して、音声合成装置１の制御部１０が、特殊文字辞書１１１に登録されている音声表現を選択する処理について説明する。

図１２、図１３及び図１４は、実施の形態４における音声合成装置１の制御部１０が、受け付けたテキストデータから音声を合成する処理手順を示すフローチャートである。なお、図１２、図１３及び図１４のフローチャートに示した処理手順の内のステップＳ４０１からステップＳ４０４までの処理については実施の形態３における図９及び図１０のフローチャートに示した処理手順の内のステップＳ３０１からステップＳ３０４までの処理と同様の処理であるので、詳細な説明を省略し、ステップＳ４０５以降の処理について以下に説明する。

ここで、説明を簡単にするため、候補１の音声表現に対応付けられている同義語・関連語の内、表現１に対応付けられている同義語がテキストデータの内で一致する数をＮｃ１ｓ１とする。候補１の音声表現に対応付けられている同義語・関連語の内、表現２に対応付けられている同義語がテキストデータの内で一致する数をＮｃ１ｓ２とする。候補１の音声表現に対応付けられている同義語・関連語の内、表現１に対応付けられている関連語がテキストデータの内で一致する数をＮｃ１ｒ１とする。候補１の音声表現に対応付けられている同義語・関連語の内、表現２に対応付けられている関連語がテキストデータの内で一致する数をＮｃ１ｒ２とする。

候補１の音声表現に対応付けられている関連語がテキストデータの内で一致する総数をＮ１とするが、Ｎ１＝Ｎｃ１ｓ１＋Ｎｃ１ｓ２＋Ｎｃ１ｒ１＋Ｎｃ１ｒ２が成立する。

一方、候補２の音声表現に対応付けられている同義語・関連語の内、表現１に対応付けられている同義語がテキストデータの内で一致する数をＮｃ２ｓ１とする。候補２の音声表現に対応付けられている同義語・関連語の内、表現２に対応付けられている同義語がテキストデータの内で一致する数をＮｃ２ｓ２とする。候補２の音声表現に対応付けられている同義語・関連語の内、表現１に対応付けられている関連語がテキストデータの内で一致する数をＮｃ２ｒ１とする。候補２の音声表現に対応付けられている同義語・関連語の内、表現２に対応付けられている関連語がテキストデータの内で一致する数をＮｃ２ｒ２とする。

候補２の音声表現に対応付けられている関連語がテキストデータの内で一致する総数をＮ２とするが、Ｎ２＝Ｎｃ２ｓ１＋Ｎｃ２ｓ２＋Ｎｃ２ｒ１＋Ｎｃ２ｒ２が成立する。

制御部１０は、抽出した特殊文字に対して特殊文字辞書１１１に登録されている候補１の音声表現に対応付けられている同義語・関連語が受け付けたテキストデータの内で一致する総数（Ｎ１）、及び候補２の音声表現に対応付けられている同義語・関連語が受け付けたテキストデータの内で一致する総数（Ｎ２）を候補毎に計数する（ステップＳ４０５）。

制御部１０は、ステップＳ４０５で計数した、候補１の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ１）、及び候補２の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ２）がいずれもゼロであるか否か（Ｎ１＝Ｎ２＝０？）を判断する（ステップＳ４０６）。制御部１０は、一致総数が候補１及び候補２でいずれもゼロであると判断した場合（Ｓ４０６：ＹＥＳ）、抽出した特殊文字を削除する（ステップＳ４０７）。その後、制御部１０は残りのテキストデータを変換部１０４の機能により音声表記に変換し（Ｓ４０３）、変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、ステップＳ４０６において、候補１の音声表現又は候補２の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ１及びＮ２）がいずれもゼロであると判断した場合（Ｓ４０６：ＮＯ）、候補１の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ１）が、候補２の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ２）以上であるか否か（Ｎ１≧Ｎ２？）を判断する（ステップＳ４０８）。

制御部１０は、ステップＳ４０８において、同義語・関連語の一致総数を候補１と候補２とで比較するのは以下の理由による。候補１及び候補２は、特殊文字の絵柄から想起される意味の違いで分類されており、同義語・関連語はやはり意味の違いで候補１と候補２とで分類される。したがって、抽出した特殊文字は候補１と候補２とで特殊文字の近傍でより同義語・関連語が抽出された方に近い意味で使用されていると判断できる。

制御部１０は、ステップＳ４０８において、候補１の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ１）が、候補２の音声表現に対応付けられている同義語・関連語との一致総数（Ｎ２）以上であると判断した場合（Ｓ４０８：ＹＥＳ）、抽出した特殊文字から想起される意味が候補１で分類される意味であるので、図１１の説明図で示した特殊文字に対する音声表現を候補１の表現１／表現２／表現３の内から選択するように以下の処理を行なう。

制御部１０は、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）及び表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がいずれもゼロよりも多いか否か（Ｎｃ１ｓ１＞０＆Ｎｃ１ｓ２＞０？）を判断する（ステップＳ４０９）。

制御部１０は、候補１の表現１及び表現２夫々の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１及びＮｃ１ｓ２）がいずれもゼロよりも多いと判断した場合（Ｓ４０９：ＹＥＳ）、音声表現として表現１及び表現２のいずれも選択せず、候補１の表現３を選択する（ステップＳ４１０）。なぜならば、受け付けたテキストデータに表現１及び表現２に対応付けられている同義語がいずれも存在している場合は、表現１及び表現２のいずれの音声表現を選択した場合も、読み上げたときに冗長な読み上げとなる。したがって、制御部１０は、ＢＧＭである表現３の音声表現に従い、特殊文字を候補１の表現３のＢＧＭに相当する文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（ステップＳ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、候補１の表現１及び表現２夫々の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１又はＮｃ１ｓ２）のいずれかがゼロであると判断した場合（Ｓ４０９：ＮＯ）、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）はゼロでなく、且つ候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）はゼロであるか否か（Ｎｃ１ｓ１＞０＆Ｎｃ１ｓ２＝０？）を判断する（ステップＳ４１２）。

制御部１０は、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）がゼロでなく、且つ候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がゼロであると判断した場合（Ｓ４１２：ＹＥＳ）、音声表現として候補１の表現２を選択する（ステップＳ４１３）。

なぜならば、ステップＳ４１２における判断処理によって、受け付けたテキストデータに表現１に対応付けられている同義語が存在しており、且つ表現２に対応付けられている同義語が存在していないことを検知することができるからである。この場合、表現２の音声表現を選択した場合、読み上げたときに冗長な読み上げとならない。したがって、制御部１０は、擬音又は効果音である表現２の音声表現に従い、特殊文字を候補１の表現２の音声表現を表わす文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。

制御部１０は、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）がゼロであるか、又は候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がゼロでない場合（Ｓ４１２：ＮＯ）、逆に、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）がゼロであり、且つ候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がゼロでないか否か（Ｎｃ１ｓ１＝０＆Ｎｃ１ｓ２＞０？）を判断する（ステップＳ４１４）。

制御部１０は、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）がゼロであり、且つ候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がゼロでないと判断した場合（Ｓ４１４：ＹＥＳ）、音声表現として候補１の表現１を選択する（ステップＳ４１５）。

ステップＳ４１２において、受け付けたテキストデータに表現１に対応付けられている同義語が存在していて、且つ表現２に対応付けられている同義語が存在しない場合については既に除かれている。したがって、ステップＳ４１４の判断処理によって、受け付けたテキストデータに表現２に対応付けられている同義語が存在しており、且つ表現１に対応付けられている同義語が存在していないことを検知することができる。この場合、表現１の音声表現を選択した場合、読み上げたときに冗長な読み上げとならない。そこで制御部１０は、読みである表現１の音声表現に従い、特殊文字を候補１の表現１の音声表現を表わす文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

一方、制御部１０は、候補１の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ１）がゼロでなく、又は候補１の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ１ｓ２）がゼロであると判断した場合（Ｓ４１４：ＮＯ）、候補１の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、表現２の音声表現に対応付けられている関連語（Ｎｃ１ｒ２）と一致する数以上であるか否か（Ｎｃ１ｒ１≧Ｎｃ１ｒ２？）を判断する（ステップＳ４１６）。

ステップＳ４０９、ステップＳ４１２及びステップＳ４１４における判断処理によって、受け付けたテキストデータに候補１の表現１及び表現２の音声表現に対応付けられている同義語が存在する場合は除去されている。従って、ステップＳ４１６に進む場合は、受け付けたテキストデータには、候補１の表現１及び表現２の音声表現に対応付けられている同義語はいずれも存在しない（Ｎｃ１ｓ１＝Ｎｃ１ｓ２＝０）。したがって、いずれの音声表現を選択した場合でも、読み上げたときに冗長な読み上げとはならない。一方、制御部１０は、ステップＳ４０６の判断処理を得ているため、同義語は存在していないが表現１と表現２とのいずれかの関連語が存在していると判断することができる。そこで制御部１０は、ステップＳ４１６の判断処理によって、つながりがより強い使用形態で使用されている表現１又は表現２を選択するようにする。

制御部１０は、ステップＳ４１６において、候補１の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、候補１の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ２）以上であると判断した場合（Ｓ４１６：ＹＥＳ）、音声表現として候補１の表現１を選択する（Ｓ４１５）。制御部１０は、読みである表現１の音声表現に従い、特殊文字を候補１の表現１を文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、ステップＳ４１６において、候補１の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ１）が、候補１の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ１ｒ２）未満であると判断した場合（Ｓ４１６：ＮＯ）、音声表現として候補１の表現２を選択する（Ｓ４１３）。制御部１０は、擬音又は効果音である表現２の音声表現に従い、特殊文字を候補１の表現２を文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

一方、ステップＳ４０８において、候補１の音声表現に対応付けられている同義語・関連語との一致総数が、候補２の音声表現に対応付けられている同義語・関連語との一致総数未満であると判断した場合（Ｓ４０８：ＮＯ）、抽出した特殊文字から想起される意味が候補２で分類される意味であるので、図１０の説明図で示した特殊文字に対する音声表現を候補２の表現１／表現２／表現３の内から選択するように以下の処理を行なう。

制御部１０は、候補１の音声表現を選択する処理同様、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）及び表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がいずれもゼロよりも多いか否か（Ｎｃ２ｓ１＞０＆Ｎｃ２ｓ２＞０？）を判断する（ステップＳ４１７）。

制御部１０は、候補２の表現１及び表現２夫々の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１及びＮｃ２ｓ２）がいずれもゼロよりも多いと判断した場合（Ｓ４１７：ＹＥＳ）、音声表現として表現１及び表現２のいずれも選択せず、候補２の表現３を選択する（ステップＳ４１８）。制御部１０は、ＢＧＭである表現３の音声表現に従い、特殊文字を候補２の表現３のＢＧＭに相当する文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、候補２の表現１及び表現２夫々の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１又はＮｃ２ｓ２）のいずれかがゼロであると判断した場合（Ｓ４１７：ＮＯ）、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）はゼロでなく、且つ候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）はゼロであるか否か（Ｎｃ２ｓ１＞０＆Ｎｃ２ｓ２＝０？）を判断する（ステップＳ４１９）。

制御部１０は、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）がゼロでなく、且つ候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がゼロであると判断した場合（Ｓ４１９：ＹＥＳ）、音声表現として候補２の表現２を選択する（ステップＳ４２０）。制御部１０は、擬音又は効果音である表現２の音声表現に従い、特殊文字を候補２の表現２の音声表現を表わす文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）がゼロであるか、又は候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がゼロでない場合（Ｓ４１９：ＮＯ）、逆に、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）がゼロであり、且つ候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がゼロでないか否か（Ｎｃ２ｓ１＝０＆Ｎｃ２ｓ２＞０？）を判断する（ステップＳ４２１）。

制御部１０は、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）がゼロであり、且つ候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がゼロでないと判断した場合（Ｓ４２１：ＹＥＳ）、音声表現として候補２の表現１を選択する（ステップＳ４２２）。制御部１０は、読みである表現１の音声表現に従い、特殊文字を候補２の表現１の音声表現を表わす文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は、音声合成部１０５の機能により音声表記から音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、候補２の表現１の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ１）がゼロでなく、又は候補２の表現２の音声表現に対応付けられている同義語と一致する数（Ｎｃ２ｓ２）がゼロであると判断した場合（Ｓ４２１：ＮＯ）、候補２の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、表現２の音声表現に対応付けられている関連語（Ｎｃ２ｒ２）と一致する数以上であるか否か（Ｎｃ２ｒ１≧Ｎｃ２ｒ２？）を判断する（ステップＳ４２３）。

制御部１０は、候補２の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、候補２の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ２）以上であると判断した場合（Ｓ４２３：ＹＥＳ）、音声表現として候補２の表現１を選択する（Ｓ４２２）。制御部１０は、読みである表現１の音声表現に従い、特殊文字を候補２の表現１を文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

制御部１０は、ステップＳ４２３において、候補２の表現１の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ１）が、候補２の表現２の音声表現に対応付けられている関連語と一致する数（Ｎｃ２ｒ２）未満であると判断した場合（Ｓ４２３：ＮＯ）、音声表現として候補２の表現２を選択する（Ｓ４２０）。制御部１０は、擬音又は効果音である表現２の音声表現に従い、特殊文字を候補２の表現２を文字列に置き換えて変換部１０４の機能によりテキストデータを音声表記に変換する（Ｓ４１１）。制御部１０は変換した音声表記から音声合成部１０５の機能により音声を合成し（Ｓ４０４）、処理を終了する。

図１２、図１３及び図１４のフローチャートに示した処理は、例えばテキストデータを一文ではなく複数の文からなる文章であった場合は、文毎に実行してもよい。したがって、ステップＳ４０５においてテキストデータの内で同義語・関連語と一致する総数を計数する範囲は、特殊文字を含む一文に相当するテキストデータの内を特殊文字の近傍として捉えて同義語・関連語が一致する数を計数している。しかしながら、同義語・関連語が一致する数を計数する範囲は、一文に相当するテキストデータのみならず、特殊文字を含む一文の前後の複数の文に相当するテキストデータを特殊文字の近傍として捉えて、一致する同義語・関連語の数を計数してもよい。

さらに、受け付けたテキストデータに題名などの付帯テキストがある場合は、その付帯テキストの内で関連語を計数してもよい。

図１２、図１３及び図１４のフローチャートに示した処理手順により、抽出した特殊文字に対応付けられた同義語が近傍に存在しない音声表現が選択され、同義語が存在しない場合は、関連語が一致する数が多い音声表現が選択される。これにより、ユーザの意図と異なる意味での読み上げ、及び冗長な読み上げを抑制することができ、ユーザの意図に沿った適切な読み上げを行なうことができる。

（実施の形態５）
実施の形態１乃至４では、音声合成装置１の制御部１０が、変換部１０４及び音声合成部１０５のいずれとしても機能する構成であった。しかしながら、本発明はこれに限らず、変換部１０４と音声合成部１０５とが異なる装置に分けて備えられる構成でもよい。実施の形態５では、音声表現選択部１０３及び変換部１０４の機能を備える言語処理装置と、音声表記から音声を合成する機能を備える音声出力装置とで本発明の特殊文字を適切に読み上げる効果を実現する。

図１５は、実施の形態５における本発明の音声合成システムの構成を示す構成図である。音声合成システムは、テキストデータを受け付けて、後述する音声出力装置３が音声を合成するための音声表記へ変換する処理を行なう言語処理装置２と、言語処理装置２が変換した音声表記を受け付け、受け付けた音声表記から音声を合成して出力する音声出力装置３とを含んで構成される。

言語処理装置２と音声出力装置３とは、通信線４によって接続されており、データの送受信が可能である。

言語処理装置２は、以下に説明する各構成部の動作を制御する制御部２０と、ハードディスク等である記憶部２１と、ＲＡＭ（Random Access Memory）等のメモリを有する一時記憶領域２２と、キーボード等を有するテキスト入力部２３と、音声出力装置３と通信線４を介して接続するための通信部２４とを備える。

記憶部２１には、音声を合成するための音声表記へテキストデータを変換する処理等を実行するためのプログラムである制御プログラム２Ｐが記憶されている。制御部２０は、記憶部２１から制御プログラム２Ｐを読み出して実行することにより、音声表現の選択処理及びテキストデータの音声表記への変換処理を実行する。

記憶部２１には更に、絵文字、顔文字、記号等とその読みを含む音声表現とが登録されている特殊文字辞書２１１、漢字かな文字等からなるテキストを構成する文節、単語等と音声表記との対応が登録されている言語辞書２１２が記憶されている。

一時記憶領域２２は、制御部２０が制御プログラムを読み出す場合に使用されるのみならず、特殊文字辞書２１１、言語辞書２１２から各種情報を読み出す場合に使用される。また、一時記憶領域２２は、各処理を実行することによって発生する各種情報を一時的に記憶するために使用される。

テキスト入力部２３は、キーボード、文字キー等のテキストの入力を受け付ける手段である。制御部２０は、テキスト入力部２３により入力されるテキストデータを受け付ける。

通信部２４は、通信線４を介して音声出力装置３とのデータ通信を実現する。制御部２０は、特殊文字を含むテキストデータを変換した音声表記を通信部２４により送信する。

音声出力装置３は、以下に説明する各構成部の動作を制御する制御部３０と、ハードディスク等である記憶部３１と、ＲＡＭ（Random Access Memory）等のメモリを有する一時記憶領域３２と、スピーカ３３１を有する音声出力部３３と、言語処理装置２と通信線４を介して接続するための通信部３４とを備える。

記憶部３１には、音声合成の処理を実行するための制御プログラムが記憶されている。制御部３０は、記憶部３１から制御プログラムを読み出して実行することにより、音声合成の各動作を実行する。

記憶部３１には更に、各音声の波形群が登録されている音声辞書（波形辞書）３１１が記憶されている。

一時記憶領域３２は、制御部３０が制御プログラムを読み出す場合に使用されるのみならず、音声辞書３１１から各種情報を読み出す場合に使用される。また、制御部３０によって各処理が実行されることによって発生する各種情報を一時的に記憶するために使用される。

音声出力部３３は、スピーカ３３１を有している。制御部３０は、音声辞書３１１を参照して合成した音声を音声出力手段に与えて、スピーカ３３１を介して音声を出力させる。

通信部３４は、通信線４を介して言語処理装置２とのデータ通信を実現する。制御部３０は、特殊文字を含むテキストデータが変換された音声表記を通信部３４により受信する。

図１６は、実施の形態５における音声合成システムを構成する言語処理装置２の制御部２０の各機能を示す機能ブロック図である。言語処理装置２の制御部２０は、記憶部２１から制御プログラムを読み出すことにより、テキスト入力部２３により入力されるテキストデータを受け付けるテキスト受付部２０１、テキスト受付部２０１により受け付けたテキストデータから特殊文字を抽出する特殊文字抽出部２０２、抽出された特殊文字に対する音声表現を選択する音声表現選択部２０３、及び受け付けられたテキストデータを特殊文字に対して選択された音声表現に従って音声表記に変換する変換部２０４として機能する。

なお、各機能の詳細については、実施の形態１における音声合成装置１の制御部１０の各機能と同様であるため詳細な説明を省略する。

言語処理装置２の制御部２０は、テキスト受付部２０１として機能することによりテキストデータを受け付け、特殊文字抽出部２０２として機能することにより、記憶部２１の特殊文字辞書２１１を参照して特殊文字を抽出する。言語処理装置２の制御部２０は、音声表現選択部２０３として機能することにより特殊文字辞書２１１を参照し、抽出した特殊文字に対する音声表現を選択する。言語処理装置２の制御部２０は、変換部２０４として機能することにより、選択した音声表現に従ってテキストデータを音声表記に変換する。

なお、実施の形態５においては、実施の形態２における音声合成装置１と同様に、制御部２０は、受け付けたテキストデータの内の、特殊文字に対応して選択した音声表現を置き換えた文字列に制御文字列を挿入し、言語解析により音声表記に変換する構成とする。

図１７は、実施の形態５における音声合成システムを構成する音声出力装置３の制御部３０の各機能を示す機能ブロック図である。音声出力装置３の制御部３０は、記憶部３１から制御プログラムを読み出すことにより、送信された音声表記から合成音声を作成して音声出力部３３へ出力する音声合成部３０１として機能する。

音声合成部３０１の詳細についても、実施の形態１における音声合成装置１の制御部１０の音声合成部１０５としての機能と同様であるため、詳細な説明を省略する。

音声出力装置３の制御部３０は、言語処理装置２から送信された音声表記を通信部３４により受信し、音声合成部３０１として機能することにより音声辞書３１１を参照し、受信した音声表記に対応する音声を合成して音声出力部３３へ出力する。

次に、実施の形態５における音声合成システムを構成する言語処理装置２及び音声出力装置３の処理について説明する。なお、言語処理装置２の記憶部２１に記憶される特殊文字辞書２１１の内容は、実施の形態１乃至４の音声合成装置１の記憶部１１に記憶される特殊文字辞書１１１のいずれと同じ構成でもよい。しかし、実施の形態５では、特殊文字辞書２１１の内容は実施の形態１と同様の内容が登録されている例を挙げて説明する。

図１８は、実施の形態５における言語処理装置２及び音声出力装置３の制御部２０，３０により、テキストが受け付けられ、音声が合成されるまでの処理手順を示すフローチャートである。

言語処理装置２の制御部２０は、テキスト入力部２３からのテキストの入力をテキスト受付部２０１の機能により受け付けた場合、受け付けたテキストデータと特殊文字辞書２１１に登録されている識別コードとを照合して特殊文字を抽出する処理を行なう（ステップＳ５１）。

言語処理装置２の制御部２０は、ステップＳ５１において特殊文字を抽出したか否かを判断する（ステップＳ５２）。

言語処理装置２の制御部２０は、ステップＳ５２において特殊文字を抽出していないと判断した場合（Ｓ５２：ＮＯ）、受け付けたテキストデータを変換部２０４の機能により音声表記へ変換する（ステップＳ５３）。

言語処理装置２の制御部２０は、ステップＳ５２において特殊文字を抽出したと判断した場合（Ｓ５２：ＹＥＳ）、特殊文字辞書２１１から抽出した特殊文字に対して登録されている音声表現を選択する（ステップＳ５４）。言語処理装置２の制御部２０は、選択した音声表現に相当する文字列を含むテキストデータを変換部２０４の機能により音声表記に変換する（ステップＳ５５）。

言語処理装置２の制御部２０は、ステップＳ５３及びステップＳ５５において変換した音声表記を通信部２４により音声出力装置３へ送信する（ステップＳ５６）。

音声出力装置３の制御部３０は、通信部３４により音声表記を受信し（ステップＳ５７）、受信した音声表記から音声合成部３０１の機能により音声を合成し（ステップＳ５８）、処理を終了する。

上述の処理により、音声表現選択部２０３及び変換部２０４の機能を備える言語処理装置２で特殊文字を含むテキストデータを、適切な音声表現を選択した上で音声表記へ変換し、音声合成部３０１の機能を備える音声出力装置３で、変換された音声表記から特殊文字に適した音声を合成して出力することができる。

上述のような実施の形態５における音声合成システムにより、以下のような効果を奏する。実施の形態１乃至４における音声合成装置１の制御部１０が音声表現選択部１０３として機能する場合に実行する処理及び変換部１０４として機能する場合に実行する処理は、いずれも負荷が大きい。したがって、例えば音声合成装置１を受信メールを読み上げる機能を有した携帯電話機に適用した場合、音声表現選択部１０３及び変換部１０４として機能するには計算処理数が多くなって実現が難しくなる。しかしながら、性能が十分な装置に音声表現選択部１０３及び変換部１０４を備えさせ、音声を合成して出力する機能を備える音声出力装置３へ特殊文字を含めて変換した音声表記を送信することにより、音声出力装置３は音声表記から音声を合成する機能のみを備える構成でよい。これにより、携帯電話機等の小型化、軽量化が求められる装置でも、特殊文字を含むテキストデータを適切に読み上げることができるようになる。

なお、実施の形態５で、言語処理装置２と音声出力装置３とで音声表現選択部２０３及び変換部２０４と、音声合成部３０１とに機能を分け、言語処理装置２で音声表記に変換して送信する構成とした。しかしながら、言語処理装置２の制御部２０は必ずしも変換部２０４として機能しなくてもよい。この場合、言語処理装置２の制御部２０は、音声表記に変換せずに選択した音声表現と、特殊文字の位置に相当する場所を示す情報を含むテキストデータとを出力する構成でもよい。この場合、音声出力装置３は、言語処理装置２から送信された音声表現に従って、テキストデータを適切に、読み、擬音、効果音、ＢＧＭに合成し音声を出力する。この場合、選択した音声表現は、音声表現に相当する文字列を送信するのでもよい。

なお、実施の形態５において、言語処理装置２の制御部２０は、特殊文字を含むテキストデータを受け付けた場合、その際にユーザによって任意に入力される特殊文字の音声表現を共に受け付けたときは、特殊文字辞書１１１から音声表現を選択せずに共に受け付けた音声表現を選択し、これに従って変換した音声表記を音声出力装置３へ送信するようにしてもよい。具体的には、実施の形態５における言語処理装置が、実施の形態１の図６のフローチャートに示した処理手順の内のステップＳ２０４以外の処理を行ない、変換した音声表記を音声出力装置３へ送信する構成とする。

実施の形態１乃至５では、音声合成装置１又は音声出力装置３は、音声出力部３３が有するスピーカ３３１から合成した音声を出力させる構成とした。しかしながら本発明はこれに限らず、音声合成装置１又は音声出力装置３は、合成した音声をファイルとして出力する構成でもよい。

また、実施の形態１乃至５では、音声合成装置１及び言語処理装置２は、テキストの入力を受け付けるテキスト入力部１３，２３としてキーボード等を備える構成とした。しかしながら、本発明はこれに限らず、制御部１０又は制御部２０がテキスト受付部２０１として受け付けるテキストデータは、メール等、送受信されるファイル形式のテキストデータでも、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリ等の可搬型記録媒体から制御部１０又は制御部２０が読み出したテキストデータでもよい。

なお、実施の形態１乃至５では、記憶部１１又は記憶部２１に記憶される特殊文字辞書１１１，２１１は、言語辞書１１２，２１２と別に記憶される構成であった。しかしながら、特殊文字辞書１１１，２１１は言語辞書１１２，２１２の一部として構成してもよい。

Claims

テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する変換手段と、該変換手段が変換した音声表記から音声を合成する音声合成手段とを備える音声合成装置において、
複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、
前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、
抽出された特殊文字の使用形態を判定する判定手段と、
該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段と
を備え、
前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表現に変換するようにしてあること
を特徴とする音声合成装置。
前記辞書データベースには更に、各特殊文字に対応する複数の音声表現夫々に、各音声表現とは異なる他の音声表現に対応する意味の読み表記を少なくとも含む関連語が一又は複数対応付けられて登録されており、
受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記関連語を検出したか否かを判断する手段を備え、
前記選択手段は、前記関連語を検出したと判断された場合は、検出された関連語が対応付けられている音声表現を前記辞書データベースから選択するようにしてあること
を特徴とする請求項１に記載の音声合成装置。
前記辞書データベースには更に、各特殊文字の音声表現夫々に、各音声表現で表わされる特殊文字の意味と同義である同義語が一又は複数対応付けられて登録されており、
受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記同義語を検出したか否かを判断する手段を備え、
前記選択手段は、前記同義語を検出したと判断された場合は、抽出された特殊文字の複数の音声表現の内から、検出された同義語が対応付けられている音声表現とは異なる他の音声表現を選択するようにしてあること
を特徴とする請求項１又は２に記載の音声合成装置。
特殊文字の音声表現夫々について同じ文脈で共に生起する単語群が関連付けられて登録してある共起辞書データベースを更に備え、
受け付けられたテキストデータの内の前記抽出手段が抽出した特殊文字の近傍から前記共起辞書データベースに登録されている単語群の内のいずれかを検出したか否かを判断する手段を備え、
前記選択手段は、前記単語群のいずれかを検出したと判断された場合、検出された単語群が関連付けられている音声表現を選択するようにしてあること
を特徴とする請求項１乃至３のいずれかに記載の音声合成装置。
特殊文字、該特殊文字の音声表現及び該音声表現の分類を受け付ける手段を備え、
受け付けた特殊文字及び該特殊文字の音声表現を、共に受け付けた分類で区別して登録することにより前記辞書データベースを更新するようにしてあること
を特徴とする請求項１乃至４のいずれかに記載の音声合成装置。
受け付けた特殊文字を含むテキストデータと共に、前記受け付けた特殊文字が登録されて更新された辞書データベースを出力する手段を備えること
を特徴とする請求項５に記載の音声合成装置。
テキストデータを受け付ける際に、前記テキストデータに含まれる特殊文字及び該特殊文字の音声表現を受け付ける手段を備え、
前記変換手段は、受け付けられたテキストデータから前記抽出手段が前記特殊文字を抽出した場合、受け付けられた音声表現に従って、受け付けられた特殊文字を含むテキストデータを音声表記に変換するようにしてあること
を特徴とする請求項１乃至６のいずれかに記載の音声合成装置。
前記変換手段は、前記抽出手段が抽出した特殊文字に対応して前記選択手段が選択した音声表現が意味を読み上げる音声表現ではない場合、受け付けたテキストデータの内の前記特殊文字を、前記選択手段が選択した音声表現を示す制御文字列に変換するようにしてあり、
前記音声合成手段は、前記変換手段が変換した音声表記に前記制御文字列が含まれている場合は、前記制御文字列に従って、効果音、擬音、音楽、無音のいずれかを合成するようにしてあること
を特徴とする請求項１乃至７のいずれかに記載の音声合成装置。
前記音声合成手段は、前記変換手段が変換した音声表記と前記選択手段が選択した音声表現とに従って、前記音声表記の内の前記特殊文字に対応する文字列を効果音、擬音、音楽のいずれかに合成するようにしてあること
を特徴とする請求項１乃至８のいずれかに記載の音声合成装置。
テキストデータに対応する別の参照テキストデータを受け付ける手段を備え、
前記選択手段は、受け付けられた参照テキストデータからも前記関連語又は同義語が検出されるか否かを判断するようにしてあること
を特徴とする請求項２乃至９のいずれかに記載の音声合成装置。
テキストデータを受け付ける受付手段、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段、及び特殊文字を含むテキストデータを音声を合成するための音声表記に変換する変換手段を備える言語処理装置と、音声表記から音声を合成する音声合成装置とを含み、前記言語処理装置が変換した音声表記を前記音声合成装置へ送信し、前記音声合成装置が受信した音声表記から対応する音声を合成するようにしてある音声合成システムにおいて、
前記言語処理装置は、
複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、
前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、
抽出された特殊文字を分類する使用形態を判定する判定手段と、
該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段と
を備え、
前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表記に変換するようにしてあること
を特徴とする音声合成システム。
テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する手段とを備える言語処理装置において、
複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、
前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、
抽出された特殊文字を分類する使用形態を判定する判定手段と、
該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段と
を備え、
前記変換手段は、前記抽出された特殊文字に対応させて前記選択手段が選択した音声表現に従って、前記受付手段が受け付けた特殊文字を含むテキストデータを音声表記に変換するようにしてあること
を特徴とする言語処理装置。
前記変換手段は、前記抽出手段が抽出した特殊文字に対応させて前記選択手段が選択した音声表現が意味を読み上げる音声表現ではない場合、受け付けたテキストデータの内の前記特殊文字を、前記選択手段が選択した音声表現を示す制御文字列に変換するようにしてあり、
前記制御文字列を含む音声表記を外部へ送信する手段
を備えることを特徴とする請求項１２に記載の言語処理装置。
テキストデータを受け付ける受付手段と、該受付手段が受け付けたテキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段と、特殊文字を含むテキストデータを、音声を合成するための音声表記に変換する手段とを備える言語処理装置において、
複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースと、
前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する判断手段と、
抽出された特殊文字を分類する使用形態を判定する判定手段と、
該判定手段が、文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、前記判定手段が、装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択する選択手段と、
該選択手段が選択した音声表現、受け付けたテキストデータの内の前記特殊文字の位置、前記変換手段が変換した音声表記を外部へ送信する手段と
を備えることを特徴とする言語処理装置。
テキストデータから、絵文字、顔文字又は記号を含む特殊文字を抽出し、前記特殊文字を含むテキストデータを音声を合成するための音声表記に変換し、変換した音声表記から音声を合成する音声合成方法において、
複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースを用い、
受け付けたテキストデータから特殊文字を抽出した場合に、抽出された特殊文字の意味を判断し、
抽出された特殊文字を分類する使用形態がいずれであるか判定し、
抽出された特殊文字が文字代替目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ、前記文字代替目的での使用形態で分類される読みである音声表現を前記辞書データベースから選択し、
抽出された特殊文字が装飾目的で使用されていると判定した場合、前記判断手段が判断した意味で分類され、且つ前記目的での使用形態で分類される他の音声表現を前記辞書データベースから選択し、
選択した音声表現に従って、受け付けた特殊文字を含むテキストデータを音声表記に変換すること
を特徴とする音声合成方法。
コンピュータを、テキストデータから絵文字、顔文字又は記号を含む特殊文字を抽出する抽出手段、前記特殊文字を含むテキストデータを音声を合成するための音声表記に変換する変換手段、及び該変換手段が変換した音声表記から音声を合成する音声合成手段として機能させ、受け付けたテキストデータに対応する音声データを出力させるコンピュータプログラムにおいて、
コンピュータを、
前記抽出手段が特殊文字を抽出した場合に、抽出された特殊文字の意味を判断する手段、
抽出された特殊文字が、文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態を判定する手段、
判断された意味、及び判定された使用形態に基づき、複数の特殊文字と、各特殊文字について該特殊文字の意味に対応する一又は複数の読みの音声表現、及び、擬音、効果音、音楽、又は無音の内のいずれかである他の音声表現を含む複数の音声表現の情報とが、各特殊文字の意味、及び、各特殊文字が文字代替目的で使用されているのか、又は、装飾目的で使用されているかの使用形態で分類されて登録されている辞書データベースから、抽出された特殊文字の音声表現を選択する手段、及び、
選択した音声表現に従って前記変換手段により音声表記に変換する手段
として機能させることを特徴とするコンピュータプログラム。