JP2013544375A

JP2013544375A - 感性的音声合成装置及びその方法

Info

Publication number: JP2013544375A
Application number: JP2013536524A
Authority: JP
Inventors: ジンパク，ウェイ; ファリ，セ; ヒキム，ジュン
Original assignee: ACRIIL Inc
Current assignee: ACRIIL Inc
Priority date: 2010-10-28
Filing date: 2011-10-28
Publication date: 2013-12-12
Also published as: KR20120044809A; WO2012057562A2; US20130211838A1; WO2012057562A3; EP2634714A2; EP2634714A4; KR101160193B1

Abstract

感性的音声合成装置及びその感性的音声合成方法が開示される。本発明の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つによって音声を分類してデータベースに格納する音声ＤＢ格納部、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうち、少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。

Description

本発明は、感性的音声合成装置及びその方法に関するものである。より詳しくは、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法に関するものである。

この部分に記述された内容は、単純に本発明の実施形態に対する背景情報を提供するだけであり、従来技術を構成するものではない。

最近、インターネットの普及は無線インターネットにまで広く拡張されて普及されており、それによって、ユーザは有線コンピュータを通じてだけでなく、ＰＤＡ（Personal Digital Assistant）、ノートブック、携帯電話、スマートフォンなどのような移動通信端末機を用いて、移動する中にも他の有線または無線通信端末機のユーザと通信が可能になった。このような有線及び無線通信は、単純に音声信号やデータファイルの交換に止まらず、メッセンジャーを用いて文字で他のユーザと対話をしたり、自身または他の通信ユーザのブログ（Blog）を訪問して文字記録作成、イメージ、または動映像アップロードなどの活動を通じてオンライン上の新たなコミュニティー（Community）を形成することもある。

このように、オンライン上に形成されたコミュニティー内のコミュニケーション活動中にはオフラインと同様に、自身の感情状態を他のユーザに表現したり、他のユーザの感情状態を推測する必要がたびたびある。このために、オンライン上のコミュニティーサービス提供業者らは多様な方法によりユーザの感情状態を表現または推測できるようにしている。例えば、メッセンジャーを用いたコミュニティーサービス提供業者は感情状態に対応する多様な顔文字選択メニューを提供し、ユーザが自身の感情状態に従って顔文字を選択することができるようにすることで、ダイアログウィンドウを通じてユーザの感情状態が表示されるようにする。また、ダイアログウィンドウまたは掲示板を通じてユーザが入力する文章の中に特定単語があるかを検索し、その特定単語が検索される場合には、それに対応するアイコンが表示されるようにすることで、文章の入力に従う感情表現が自動になされるようにすることもある。

ところが、人間の感情は常に固定されているものでなく、状況や場所、雰囲気などによって時々刻々変化することが一般的であり、このように、状況または環境によって変化される感情をユーザが毎度顔文字を選択して変更することはだいぶ面倒なことである。

また、感情または感じは多分に個人的な属性を有するが、このような人間の感情を左右する心理的な要因は、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどに大別できる。ところが、同じ状況に対しても個々人が感じる心理的な要因は異なることがあり、表出される感性の強度も個人によって多様な差を表すことができる。それにも拘わらず、ユーザが入力する文章で特定単語を検索して画一的に表現することは該当個人の現在の感情状態に対して正確に表現できないという問題点がある。

本発明は前述した問題点を解決するために案出されたものであって、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法を提供することをその目的とする。

前述した目的を達成するための本発明の一実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つによって音声を分類してデータベースに格納する音声ＤＢ格納部、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうち、少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。

ここで、音声ＤＢ格納部は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を分類してデータベースに格納することができる。

前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つに対応する感性ＴＯＢＩ（Tones and Break Indices：韻律転写規約）をデータベースに格納する感性ＴＯＢＩ格納部、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうち、少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性に対応する感性ＴＯＢＩに基づいて文書を音声信号に変換して出力する音声変換部を含むことを特徴とする。

ここで、音声変換部は、ＨＭＭ（Hidden Markov Models）、ＣＡＲＴ（Classification and Regression Trees）、ＳＳＬ（Stacked Sequential Learning）方法のうち、少なくとも１つを用いて韻律境界を推定することができる。

前述した目的を達成するための本発明の一実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納するステップ、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声を分類してデータベースに格納するステップ、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性によってデータベースから文書に対応する音声を選択して出力するステップを含むことを特徴とする。

ここで、音声データベース格納ステップは、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を分類してデータベースに格納することができる。

前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納するステップ、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つに対応する感性ＴＯＢＩ（Tones and Break Indices：韻律転写規約）をデータベースに格納するステップ、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性に対応する感性ＴＯＢＩに基づいて文書を音声信号に変換して出力するステップを含むことを特徴とする。

ここで、音声変換ステップは、ＨＭＭ（Hidden Markov Models）、ＣＡＲＴ（Classification and Regression Trees）、ＳＳＬ（Stacked Sequential Learning）方法のうち、少なくとも１つを用いて韻律境界を推定することができる。

本発明によれば、感性的音声合成装置及びその感性的音声合成方法は、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力できるようになる。

本発明の一実施形態に従う感性的音声合成装置を概略的に示す図である。本発明の実施形態に従う感性単語辞典の例を示す図である。図１の感性推論モジュールの構成の例を示す図である。図３の感性ログ格納部による感性ログ情報の例を示す図である。本発明の他の実施形態に従う感性的音声合成装置を概略的に示す図である。本発明の実施形態に用いられるＴＴＳシステムの構成例を示す図である。音素列−発音列整列の例を示す図である。生成された規則ツリーの例を示す図である。韻律境界推定に使われた資質の例を示す図である。トーン推定に使われた資質の例を示す図である。本発明の一実施形態に従う感性的音声合成方法を示すフローチャートである。本発明の他の実施形態に従う感性的音声合成方法を示すフローチャートである。

以下、本発明の一部の実施形態を添付した図面を参照しつつ詳細に説明する。各図面の構成要素に参照符号を付加するに当たって、同一な構成要素に対してはたとえ他の図面上に表示されても、できる限り同一な符号を有するようにしていることに留意しなければならない。また、本発明を説明するに当たって、関連した公知構成または機能に対する具体的な説明が本発明の要旨を曖昧にすることができると判断される場合にはその詳細な説明は省略する。

また、本発明の構成要素を説明するに当たって、第１、第２、Ａ、Ｂ、（ａ）、（ｂ）などの用語を使用することができる。このような用語はその構成要素を他の構成要素と区別するためのものであり、その用語により当該構成要素の本質や回順序または順序などが限定されない。どの構成要素が他の構成要素に“連結”、“結合”、または“接続”されると記載された場合、その構成要素はその他の構成要素に直接的に連結、または接続できるが、各構成要素の間に更に他の構成要素が“連結”、“結合”、または“接続”されることもできると理解されるべきである。

図１は、本発明の一実施形態に従う感性的音声合成装置を概略的に示す図である。図面を参照すると、本発明の一実施形態に従う感性的音声合成装置１００は、単語辞典格納部１１０、音声ＤＢ格納部１２０、感性推論部１３０、及び音声出力部１４０を含む。ここで、感性的音声合成装置１００は、ネットワーク（図示せず）を介してコンピュータ、スマートフォンなどのようなユーザ通信端末機（図示せず）とデータを送受信し、それによって感性的音声合成サービスを提供するサーバで具現されることができ、前述した各々の構成要素を備えた電子機器で具現されることもできる。また、感性的音声合成装置１００がサーバの形態に具現される場合、前述した各々の構成要素は、各々独立的なサーバで具現されて相互作用を遂行するか、１つのサーバの内に設置されて相互作用を遂行することもできる。

単語辞典格納部１１０は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する。感性は刺激や刺激の変化を感じる性質であって、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどのような心理的な要因により左右される。ところが、同じ刺激に対しても個人毎に感じる感性が異なることがあり、感性の強度も異なることがある。このような性質を勘案して感性単語格納モジュール１００は、幸せだ、恥ずかしい、虚しいなどのような感性単語に対して各々の感性クラスを分類し、分類された感性クラスに対する類似性、肯定または不正度、感性強度などを分類して感性単語辞典に格納する。ここで、感性クラスは、満足、懐かしさ、幸福などのような人間の内的感情状態を分類したものであって、本実施形態では全体７７個の感性クラスに分類し、そのうち、該当単語が属する感性クラスをマッチングさせることができる。ここで、感性クラスの個数は分類可能な感性の種類の例示であるだけであり、これに限定されるものではない。類似性は、該当単語と感性クラスの内の項目間の類似度を表すものであって、一定の範囲内の数値として表現することができる。肯定または不正度は該当単語の属性が肯定的な感性なのか、または否定的な感性なのかを表す程度であって、０を基準に一定の範囲内の負の数または正の数として表現することができる。感性強度は、該当単語の属性のうち、感性に対する強さを表し、一定の範囲内の数値として表現することができる。図２は本発明の実施形態に従う感性単語辞典の例を示す図であって、ここでは、類似性は０乃至１０の範囲内の数値として表現し、肯定または不正度は０、１または−１として表現し、感性強度は０乃至１０の数値として表現した。しかしながら、このような数値は図示した範囲に限定されるものでなく、多様な変形が可能である。例えば、肯定または不正度は−１乃至１の範囲内で０．１単位の数値として表現されることができ、類似性や感性強度も０乃至１の範囲内で０．１単位の数値として表現されることもできる。また、図２のくすぐったい、温かい、じんとくるなどのように感性単語格納部１０２は同じ感性単語に対して複数の感性クラスを分類することができ、この場合、分類された各々の感性クラスに対して、類似性、肯定または不正度、感性強度のうち、少なくとも１つを分類して感性単語辞典に格納することができる。また、同じ感性単語といっても、ユーザ別にログされる文章の入力時間、場所、天気のうち、少なくとも１つを含む環境情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わったり、ユーザ別の性別、年齢、性格、職業を含むプロファイル情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わることがあるが、ユーザ別環境情報及びプロファイル情報を考慮して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つが異なるように推論される場合には、ユーザ別感性ログ情報に基づいてユーザ別感性単語辞典を設定して格納することもできる。

音声ＤＢ格納部１２０は、単語辞典格納部１１０に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声を分類してデータベースに格納する。この際、音声ＤＢ格納部１２０は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声ＤＢ格納部１２０は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を異なるように分類してデータベースに格納することができる。ここで、韻律は音声のうち、発話内容を表す音韻情報の以外の抑揚（intonation）やアクセント（accent）などをいい、声の大きさ（エネルギー）、声の高さ（周波数）、声の長さ（持続時間）により制御できる。

感性推論部１３０は、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうち、少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する。即ち、感性推論部１３０は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。このような感性推論部１３０は、図３に示すような感性推論モジュール３００により具現されることもできる。

図３は、図１の感性推論モジュールの構成を概略的に示す図である。以下、感性推論モジュール３００が感性的音声合成装置１００の感性推論部１３０に使われた場合を仮定して説明する。

図３を参照すると、感性推論モジュール３００は、文章変換部３１０、マッチング確認部３２０、感性推論部３３０、感性ログ格納部３４０、及びログ情報検索部３５０を含むことができる。

文章変換部３１０は、テキスト、電子書籍（E-Book）などのような文書の各単語、構文、文章に対して単語と構文を把握して基本形に変換する。即ち、文章変換部３１０は設定された文書に対して一次的に複数の単語に分節した後、基本形に変換することができ、分節された単語のうち、慣用的に使われる単語と単語との組み合わせを通じて構文を把握した後、基本形に変換することができる。

マッチング確認部３２０は、文章変換部３１０により変換された各々の単語及び構文を単語辞典格納サーバ１１０に格納された感性単語辞典と比較してマッチングされる単語または構文を確認する。

感性推論部３３０は、変換された単語及び構文の相互存在（Co-occurrence）に基づいて確率モデル（Probabilistic model）を適用し、適用された確率モデルによって感性を推論することができる。例えば、文章変換部３１０により基本形に変換された単語のうち、‘胸が一杯だ’という単語が感性単語辞典の‘感動’の感性クラスとマッチングされると仮定すれば、感性推論部３３０は‘胸が一杯だ’という単語と基本形に変換された他の単語または構文の組み合わせに基づいて確率モデルを適用し、適用された確率モデルによって感性を推論することができる。ここで、確率モデルは全体コーパス（corpus）で特定単語または構文の頻度数を用いて特定感性に属する確率を計算するアルゴリズムであって、これに基づいて新たな単語が特定感性に属する確率を計算することができる。例えば、＜数式１＞に表すようにコーパス内で新たな単語Ｗの全体頻度数に対するコーパス内の文章で新たな単語Ｗと特定感性Ｃとが組み合わせにより使われた頻度数を計算して新たな単語に対する感性類似度を類推することができる。

ここで、規則ｒは左側文脈Ｌと右側文脈Ｒを満たす音素列集合Ｇが発音列集合Ｐに変換されるということを意味する。この際、ＬとＲの長さは可変的であり、ＧとＰは字素または“＿”文字からなる集合である。

規則ｒは１つ以上の候補発音列ｐ∈Ｐを有することができるが、これは次の＜数式２＞のように実現確率で計算されて図８の規則ツリーに格納される。図８の“＊”文字と“＋”文字は各々文章境界と語節境界を意味する。

発音列は生成された規則ツリーに基づいて候補発音列ｐのうち、累積点数の最も高い候補を選択することにより生成される。累積点数は、次の＜数式３＞のように計算される。

ここで、ＷＣＬは左右文脈Ｌ′とＲ′の長さに従う重み付け値であり、Ｌ′とＲ′は各々ＬとＲに含まれる文脈である。即ち、規則Ｌ′（Ｇ）Ｒ′→Ｐは規則Ｌ（Ｇ）Ｒ→Ｐの親規則または自分自身に該当する。

韻律をモデリングするために韻律転写規約である韓国語ＴＯＢＩを使用することができる。韓国語ＴＯＢＩには多様なトーンと境界索引があるが、本発明の実施形態ではこれを単純化して抑揚構（Intonational Phrase）の境界トーン４種類（Ｌ％、Ｈ％、ＨＬ％、ＬＨ％）、アクセント構（Accentual Phrase）の境界トーン２種類（Ｌａ、Ｈａ）、及び韻律境界３種類（Ｂ０−境界無し、Ｂ２−小韻律境界、Ｂ３−大韻律境界）のみを用いることができる。

韻律境界は文章の韻律構造を形成するため、誤って推定された場合、本来の文章が有する意味が変わることがあるので、ＴＴＳシステムで重要な部分を占める。本発明の実施形態では、韻律境界をＨＭＭ（Hidden Markov Models）、ＣＡＲＴ（Classification and Regression Trees）、ＭＥ（Maximum Entropy）を基本学習方法とするＳＳＬ（Stacked Sequential Learning）技法などを推定に使用することができる。推定に使われた資質は図９に示す通りである。

朗読体音声と対話体音声とは、トーンで最も多い差を見える。対話体では、同じ文章でも多様なトーンで発音できるが、多様なトーンを反映するために、ピッチ曲線全体を推定することは難しいことである。たとえ、ピッチ曲線をよく推定したとしてもコーパス基盤のＴＴＳシステムでは推定されたピッチに該当する合成単位が足りないという限界がある。本発明の実施形態では、対話体の多様なトーン変化が韻律境界の最後の音節で主に起こるという点に着目して推定された韻律境界の最後の音節に対してのみトーンを推定することができる。トーンの推定は、ＣＲＦ（Conditional Random Feilds）を利用し、使われた資質は図１０に示す通りである。

前述した発音及び韻律推定方法は一例示であり、本発明の実施形態で使用可能な発音及び韻律推定方法がこれに限定されるものではない。

また、図５で、音声変換部５４０は推論された感性に対応する感性ＴＯＢＩに基づいて文書を音声信号に変換して出力する。即ち、音声変換部５４０は感性推論部５３０により推論された感性に対応して感性ＴＯＢＩ格納部５２０に格納された感性ＴＯＢＩを抽出し、抽出された感性ＴＯＢＩによって文書を音声信号に変換して出力する。

これで、本発明の他の実施形態に従う感性的音声合成装置５００は、感性単語に対応する多様な感性ＴＯＢＩをデータベースに格納し、文書から推論された感性によってデータベースから感性ＴＯＢＩを抽出し、文書を抽出された感性ＴＯＢＩに基づいて音声信号に変換して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。

図１１は、図１の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。

図１及び図１１を参照すると、単語辞典格納部１１０は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する（Ｓ１１０１）。また、音声ＤＢ格納部１２０は単語辞典格納部１１０に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声を分類してデータベースに格納する（Ｓ１１０３）。この際、音声ＤＢ格納部１２０は感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声ＤＢ格納部１２０は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を異なるように分類してデータベースに格納することができる。

感性推論部１３０は、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する（Ｓ１１０５）。即ち、感性推論部１３０は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。

音声出力部１４０は、推論された感性によって音声ＤＢ格納部１２０に格納されたデータベースから文書に対応する音声を選択して出力する（Ｓ１１０７）。即ち、音声出力部１４０は音声ＤＢ格納部１２０に格納されたデータベースから感性推論部１３０により推論された感性と一致する感性の音声を選択して抽出する。

これで、本発明の一実施形態に従う感性的音声合成装置１００は、感性単語に対応する多様な韻律を有する音声をデータベースに格納し、文書から推論された感性によってデータベースから対応する音声を選択して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。

図１２は、図５の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。

図５及び図１２を参照すると、単語辞典格納部１１０は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つを含む項目に分類して感性単語辞典に格納する（Ｓ１２０１）。また、感性ＴＯＢＩ格納部５２０は、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つに対応する感性ＴＯＢＩをデータベースに格納する（Ｓ１２０３）。

感性推論部５３０は、テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、感性単語辞典にマッチングされる感性を推論する（Ｓ１２０５）。即ち、感性推論部５３０は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。

音声変換部５４０は、推論された感性に対応する感性ＴＯＢＩに基づいて文書を音声信号に変換して出力する（Ｓ１２０７）。即ち、音声変換部５４０は感性推論部５３０により推論された感性に対応して感性ＴＯＢＩ格納部５２０に格納された感性ＴＯＢＩを抽出し、抽出された感性ＴＯＢＩによって文書を音声信号に変換して出力する。

以上、本発明の実施形態を構成する全ての構成要素が１つに結合されるか、結合されて動作することと説明されたが、本発明が必ずこのような実施形態に限定されるものではない。即ち、本発明の目的範囲内であれば、その全ての構成要素が１つ以上に選択的に結合して動作することもできる。また、その全ての構成要素が各々１つの独立的なハードウェアで具現されることができるが、各構成要素のその一部または全部が選択的に組み合わせて１つまたは複数個のハードウェアで組み合わせた一部または全部の機能を遂行するプログラムモジュールを有するコンピュータプログラムとして具現されることもできる。そのコンピュータプログラムを構成するコード及びコードセグメントは本発明の技術分野の当業者により容易に推論できるものである。このようなコンピュータプログラムは、コンピュータが読取可能な格納媒体（Computer Readable Media）に格納されてコンピュータにより読取され、実行されることによって、本発明の実施形態を具現することができる。コンピュータプログラムの格納媒体としては、磁気記録媒体、光記録媒体、キャリアウェーブ媒体などが含まれることができる。

また、以上で記載された“含む”、“構成する”、または“有する”などの用語は、特別に反対になる記載がない限り、該当構成要素が内在できることを意味するものであるので、他の構成要素を除外するのでなく、他の構成要素を更に含むことができることと解釈されるべきである。技術的または科学的な用語を含んだ全ての用語は、異に定義されない限り、本発明が属する技術分野で通常の知識を有する者により一般的に理解されることと同一な意味を有する。事前に定義された用語のように、一般的に使われる用語は関連技術の文脈上の意味と一致するものと解釈されるべきであり、本発明で明らかに定義しない限り、理想的であるとか、過度に形式的な意味として解釈されない。

以上の説明は、本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態により本発明の技術思想の範囲が限定されるのではない。本発明の保護範囲は請求範囲により解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。

本特許出願は２０１０年１０月２８日付で韓国に出願した特許出願番号第１０−２０１０−０１０６３１７号に対して米国特許法１１９（ａ）条（３５Ｕ．Ｓ．Ａ§１１９（ａ））によって優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。併せて、本特許出願は、米国以外の国家に対しても上記と同一な理由により優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。

Claims

感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声を分類してデータベースに格納する音声ＤＢ格納部と、
テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力する音声出力部と、
を含むことを特徴とする、感性的音声合成装置。
前記音声ＤＢ格納部は、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも１つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項１に記載の感性的音声合成装置。
感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つに対応する感性ＴＯＢＩ（Tones and Break Indices：韻律転写規約）をデータベースに格納する感性ＴＯＢＩ格納部と、
テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
推論された前記感性に対応する前記感性ＴＯＢＩに基づいて前記文書を音声信号に変換して出力する音声変換部と、
を含むことを特徴とする、感性的音声合成装置。
前記音声変換部は、ＨＭＭ（Hidden Markov Models）、ＣＡＲＴ（Classification and Regression Trees）、ＳＳＬ（Stacked Sequential Learning）方法のうち、少なくとも１つを用いて韻律境界を推定することを特徴とする、請求項３に記載の感性的音声合成装置。
感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納するステップと、
前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つによって音声を分類してデータベースに格納するステップと、
テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうちの少なくとも１つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力するステップと、
を含むことを特徴とする、感性的音声合成方法。
前記音声データベース格納ステップは、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項５に記載の感性的音声合成方法。
感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つを含む項目に分類して感性単語辞典に格納するステップと、
前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも１つに対応する感性ＴＯＢＩ（Tones and Break Indices：韻律転写規約）をデータベースに格納するステップと、
テキスト、電子書籍（E-Book）を含む文書の各単語、構文、文章のうち、少なくとも１つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
推論された前記感性に対応する前記感性ＴＯＢＩに基づいて前記文書を音声信号に変換して出力するステップと、
を含むことを特徴とする、感性的音声合成方法。
前記音声変換ステップは、ＨＭＭ（Hidden Markov Models）、ＣＡＲＴ（Classification and Regression Trees）、ＳＳＬ（Stacked Sequential Learning）方法のうち、少なくとも１つを用いて韻律境界を推定することを特徴とする、請求項７に記載の感性的音声合成方法。