JP2013544375A - 感性的音声合成装置及びその方法 - Google Patents
感性的音声合成装置及びその方法 Download PDFInfo
- Publication number
- JP2013544375A JP2013544375A JP2013536524A JP2013536524A JP2013544375A JP 2013544375 A JP2013544375 A JP 2013544375A JP 2013536524 A JP2013536524 A JP 2013536524A JP 2013536524 A JP2013536524 A JP 2013536524A JP 2013544375 A JP2013544375 A JP 2013544375A
- Authority
- JP
- Japan
- Prior art keywords
- sensitivity
- speech
- word
- similarity
- affirmation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000015572 biosynthetic process Effects 0.000 title description 3
- 238000003786 synthesis reaction Methods 0.000 title description 3
- 230000035945 sensitivity Effects 0.000 claims abstract description 206
- 238000001308 synthesis method Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 abstract description 16
- 238000004891 communication Methods 0.000 description 6
- 239000000470 constituent Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
感性的音声合成装置及びその感性的音声合成方法が開示される。本発明の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。
Description
本発明は、感性的音声合成装置及びその方法に関するものである。より詳しくは、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法に関するものである。
この部分に記述された内容は、単純に本発明の実施形態に対する背景情報を提供するだけであり、従来技術を構成するものではない。
最近、インターネットの普及は無線インターネットにまで広く拡張されて普及されており、それによって、ユーザは有線コンピュータを通じてだけでなく、PDA(Personal Digital Assistant)、ノートブック、携帯電話、スマートフォンなどのような移動通信端末機を用いて、移動する中にも他の有線または無線通信端末機のユーザと通信が可能になった。このような有線及び無線通信は、単純に音声信号やデータファイルの交換に止まらず、メッセンジャーを用いて文字で他のユーザと対話をしたり、自身または他の通信ユーザのブログ(Blog)を訪問して文字記録作成、イメージ、または動映像アップロードなどの活動を通じてオンライン上の新たなコミュニティー(Community)を形成することもある。
このように、オンライン上に形成されたコミュニティー内のコミュニケーション活動中にはオフラインと同様に、自身の感情状態を他のユーザに表現したり、他のユーザの感情状態を推測する必要がたびたびある。このために、オンライン上のコミュニティーサービス提供業者らは多様な方法によりユーザの感情状態を表現または推測できるようにしている。例えば、メッセンジャーを用いたコミュニティーサービス提供業者は感情状態に対応する多様な顔文字選択メニューを提供し、ユーザが自身の感情状態に従って顔文字を選択することができるようにすることで、ダイアログウィンドウを通じてユーザの感情状態が表示されるようにする。また、ダイアログウィンドウまたは掲示板を通じてユーザが入力する文章の中に特定単語があるかを検索し、その特定単語が検索される場合には、それに対応するアイコンが表示されるようにすることで、文章の入力に従う感情表現が自動になされるようにすることもある。
ところが、人間の感情は常に固定されているものでなく、状況や場所、雰囲気などによって時々刻々変化することが一般的であり、このように、状況または環境によって変化される感情をユーザが毎度顔文字を選択して変更することはだいぶ面倒なことである。
また、感情または感じは多分に個人的な属性を有するが、このような人間の感情を左右する心理的な要因は、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどに大別できる。ところが、同じ状況に対しても個々人が感じる心理的な要因は異なることがあり、表出される感性の強度も個人によって多様な差を表すことができる。それにも拘わらず、ユーザが入力する文章で特定単語を検索して画一的に表現することは該当個人の現在の感情状態に対して正確に表現できないという問題点がある。
本発明は前述した問題点を解決するために案出されたものであって、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法を提供することをその目的とする。
前述した目的を達成するための本発明の一実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。
ここで、音声DB格納部は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。
前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納する感性TOBI格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する音声変換部を含むことを特徴とする。
ここで、音声変換部は、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することができる。
前述した目的を達成するための本発明の一実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップ、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納するステップ、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性によってデータベースから文書に対応する音声を選択して出力するステップを含むことを特徴とする。
ここで、音声データベース格納ステップは、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。
前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップ、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納するステップ、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力するステップを含むことを特徴とする。
ここで、音声変換ステップは、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することができる。
本発明によれば、感性的音声合成装置及びその感性的音声合成方法は、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力できるようになる。
以下、本発明の一部の実施形態を添付した図面を参照しつつ詳細に説明する。各図面の構成要素に参照符号を付加するに当たって、同一な構成要素に対してはたとえ他の図面上に表示されても、できる限り同一な符号を有するようにしていることに留意しなければならない。また、本発明を説明するに当たって、関連した公知構成または機能に対する具体的な説明が本発明の要旨を曖昧にすることができると判断される場合にはその詳細な説明は省略する。
また、本発明の構成要素を説明するに当たって、第1、第2、A、B、(a)、(b)などの用語を使用することができる。このような用語はその構成要素を他の構成要素と区別するためのものであり、その用語により当該構成要素の本質や回順序または順序などが限定されない。どの構成要素が他の構成要素に“連結”、“結合”、または“接続”されると記載された場合、その構成要素はその他の構成要素に直接的に連結、または接続できるが、各構成要素の間に更に他の構成要素が“連結”、“結合”、または“接続”されることもできると理解されるべきである。
図1は、本発明の一実施形態に従う感性的音声合成装置を概略的に示す図である。図面を参照すると、本発明の一実施形態に従う感性的音声合成装置100は、単語辞典格納部110、音声DB格納部120、感性推論部130、及び音声出力部140を含む。ここで、感性的音声合成装置100は、ネットワーク(図示せず)を介してコンピュータ、スマートフォンなどのようなユーザ通信端末機(図示せず)とデータを送受信し、それによって感性的音声合成サービスを提供するサーバで具現されることができ、前述した各々の構成要素を備えた電子機器で具現されることもできる。また、感性的音声合成装置100がサーバの形態に具現される場合、前述した各々の構成要素は、各々独立的なサーバで具現されて相互作用を遂行するか、1つのサーバの内に設置されて相互作用を遂行することもできる。
単語辞典格納部110は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する。感性は刺激や刺激の変化を感じる性質であって、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどのような心理的な要因により左右される。ところが、同じ刺激に対しても個人毎に感じる感性が異なることがあり、感性の強度も異なることがある。このような性質を勘案して感性単語格納モジュール100は、幸せだ、恥ずかしい、虚しいなどのような感性単語に対して各々の感性クラスを分類し、分類された感性クラスに対する類似性、肯定または不正度、感性強度などを分類して感性単語辞典に格納する。ここで、感性クラスは、満足、懐かしさ、幸福などのような人間の内的感情状態を分類したものであって、本実施形態では全体77個の感性クラスに分類し、そのうち、該当単語が属する感性クラスをマッチングさせることができる。ここで、感性クラスの個数は分類可能な感性の種類の例示であるだけであり、これに限定されるものではない。類似性は、該当単語と感性クラスの内の項目間の類似度を表すものであって、一定の範囲内の数値として表現することができる。肯定または不正度は該当単語の属性が肯定的な感性なのか、または否定的な感性なのかを表す程度であって、0を基準に一定の範囲内の負の数または正の数として表現することができる。感性強度は、該当単語の属性のうち、感性に対する強さを表し、一定の範囲内の数値として表現することができる。図2は本発明の実施形態に従う感性単語辞典の例を示す図であって、ここでは、類似性は0乃至10の範囲内の数値として表現し、肯定または不正度は0、1または−1として表現し、感性強度は0乃至10の数値として表現した。しかしながら、このような数値は図示した範囲に限定されるものでなく、多様な変形が可能である。例えば、肯定または不正度は−1乃至1の範囲内で0.1単位の数値として表現されることができ、類似性や感性強度も0乃至1の範囲内で0.1単位の数値として表現されることもできる。また、図2のくすぐったい、温かい、じんとくるなどのように感性単語格納部102は同じ感性単語に対して複数の感性クラスを分類することができ、この場合、分類された各々の感性クラスに対して、類似性、肯定または不正度、感性強度のうち、少なくとも1つを分類して感性単語辞典に格納することができる。また、同じ感性単語といっても、ユーザ別にログされる文章の入力時間、場所、天気のうち、少なくとも1つを含む環境情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わったり、ユーザ別の性別、年齢、性格、職業を含むプロファイル情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わることがあるが、ユーザ別環境情報及びプロファイル情報を考慮して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つが異なるように推論される場合には、ユーザ別感性ログ情報に基づいてユーザ別感性単語辞典を設定して格納することもできる。
音声DB格納部120は、単語辞典格納部110に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する。この際、音声DB格納部120は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声DB格納部120は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を異なるように分類してデータベースに格納することができる。ここで、韻律は音声のうち、発話内容を表す音韻情報の以外の抑揚(intonation)やアクセント(accent)などをいい、声の大きさ(エネルギー)、声の高さ(周波数)、声の長さ(持続時間)により制御できる。
感性推論部130は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する。即ち、感性推論部130は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。このような感性推論部130は、図3に示すような感性推論モジュール300により具現されることもできる。
図3は、図1の感性推論モジュールの構成を概略的に示す図である。以下、感性推論モジュール300が感性的音声合成装置100の感性推論部130に使われた場合を仮定して説明する。
図3を参照すると、感性推論モジュール300は、文章変換部310、マッチング確認部320、感性推論部330、感性ログ格納部340、及びログ情報検索部350を含むことができる。
文章変換部310は、テキスト、電子書籍(E-Book)などのような文書の各単語、構文、文章に対して単語と構文を把握して基本形に変換する。即ち、文章変換部310は設定された文書に対して一次的に複数の単語に分節した後、基本形に変換することができ、分節された単語のうち、慣用的に使われる単語と単語との組み合わせを通じて構文を把握した後、基本形に変換することができる。
マッチング確認部320は、文章変換部310により変換された各々の単語及び構文を単語辞典格納サーバ110に格納された感性単語辞典と比較してマッチングされる単語または構文を確認する。
感性推論部330は、変換された単語及び構文の相互存在(Co-occurrence)に基づいて確率モデル(Probabilistic model)を適用し、適用された確率モデルによって感性を推論することができる。例えば、文章変換部310により基本形に変換された単語のうち、‘胸が一杯だ’という単語が感性単語辞典の‘感動’の感性クラスとマッチングされると仮定すれば、感性推論部330は‘胸が一杯だ’という単語と基本形に変換された他の単語または構文の組み合わせに基づいて確率モデルを適用し、適用された確率モデルによって感性を推論することができる。ここで、確率モデルは全体コーパス(corpus)で特定単語または構文の頻度数を用いて特定感性に属する確率を計算するアルゴリズムであって、これに基づいて新たな単語が特定感性に属する確率を計算することができる。例えば、<数式1>に表すようにコーパス内で新たな単語Wの全体頻度数に対するコーパス内の文章で新たな単語Wと特定感性Cとが組み合わせにより使われた頻度数を計算して新たな単語に対する感性類似度を類推することができる。
ここで、規則rは左側文脈Lと右側文脈Rを満たす音素列集合Gが発音列集合Pに変換されるということを意味する。この際、LとRの長さは可変的であり、GとPは字素または“_”文字からなる集合である。
規則rは1つ以上の候補発音列p∈Pを有することができるが、これは次の<数式2>のように実現確率で計算されて図8の規則ツリーに格納される。図8の“*”文字と“+”文字は各々文章境界と語節境界を意味する。
発音列は生成された規則ツリーに基づいて候補発音列pのうち、累積点数の最も高い候補を選択することにより生成される。累積点数は、次の<数式3>のように計算される。
ここで、WCLは左右文脈L′とR′の長さに従う重み付け値であり、L′とR′は各々LとRに含まれる文脈である。即ち、規則L′(G)R′→Pは規則L(G)R→Pの親規則または自分自身に該当する。
韻律をモデリングするために韻律転写規約である韓国語TOBIを使用することができる。韓国語TOBIには多様なトーンと境界索引があるが、本発明の実施形態ではこれを単純化して抑揚構(Intonational Phrase)の境界トーン4種類(L%、H%、HL%、LH%)、アクセント構(Accentual Phrase)の境界トーン2種類(La、Ha)、及び韻律境界3種類(B0−境界無し、B2−小韻律境界、B3−大韻律境界)のみを用いることができる。
韻律境界は文章の韻律構造を形成するため、誤って推定された場合、本来の文章が有する意味が変わることがあるので、TTSシステムで重要な部分を占める。本発明の実施形態では、韻律境界をHMM(Hidden Markov Models)、CART(Classification and Regression Trees)、ME(Maximum Entropy)を基本学習方法とするSSL(Stacked Sequential Learning)技法などを推定に使用することができる。推定に使われた資質は図9に示す通りである。
朗読体音声と対話体音声とは、トーンで最も多い差を見える。対話体では、同じ文章でも多様なトーンで発音できるが、多様なトーンを反映するために、ピッチ曲線全体を推定することは難しいことである。たとえ、ピッチ曲線をよく推定したとしてもコーパス基盤のTTSシステムでは推定されたピッチに該当する合成単位が足りないという限界がある。本発明の実施形態では、対話体の多様なトーン変化が韻律境界の最後の音節で主に起こるという点に着目して推定された韻律境界の最後の音節に対してのみトーンを推定することができる。トーンの推定は、CRF(Conditional Random Feilds)を利用し、使われた資質は図10に示す通りである。
前述した発音及び韻律推定方法は一例示であり、本発明の実施形態で使用可能な発音及び韻律推定方法がこれに限定されるものではない。
また、図5で、音声変換部540は推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する。即ち、音声変換部540は感性推論部530により推論された感性に対応して感性TOBI格納部520に格納された感性TOBIを抽出し、抽出された感性TOBIによって文書を音声信号に変換して出力する。
これで、本発明の他の実施形態に従う感性的音声合成装置500は、感性単語に対応する多様な感性TOBIをデータベースに格納し、文書から推論された感性によってデータベースから感性TOBIを抽出し、文書を抽出された感性TOBIに基づいて音声信号に変換して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
図11は、図1の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。
図1及び図11を参照すると、単語辞典格納部110は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する(S1101)。また、音声DB格納部120は単語辞典格納部110に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する(S1103)。この際、音声DB格納部120は感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声DB格納部120は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を異なるように分類してデータベースに格納することができる。
感性推論部130は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する(S1105)。即ち、感性推論部130は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。
音声出力部140は、推論された感性によって音声DB格納部120に格納されたデータベースから文書に対応する音声を選択して出力する(S1107)。即ち、音声出力部140は音声DB格納部120に格納されたデータベースから感性推論部130により推論された感性と一致する感性の音声を選択して抽出する。
これで、本発明の一実施形態に従う感性的音声合成装置100は、感性単語に対応する多様な韻律を有する音声をデータベースに格納し、文書から推論された感性によってデータベースから対応する音声を選択して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
図12は、図5の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。
図5及び図12を参照すると、単語辞典格納部110は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つを含む項目に分類して感性単語辞典に格納する(S1201)。また、感性TOBI格納部520は、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つに対応する感性TOBIをデータベースに格納する(S1203)。
感性推論部530は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する(S1205)。即ち、感性推論部530は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。
音声変換部540は、推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する(S1207)。即ち、音声変換部540は感性推論部530により推論された感性に対応して感性TOBI格納部520に格納された感性TOBIを抽出し、抽出された感性TOBIによって文書を音声信号に変換して出力する。
これで、本発明の他の実施形態に従う感性的音声合成装置500は、感性単語に対応する多様な感性TOBIをデータベースに格納し、文書から推論された感性によってデータベースから感性TOBIを抽出し、文書を抽出された感性TOBIに基づいて音声信号に変換して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
以上、本発明の実施形態を構成する全ての構成要素が1つに結合されるか、結合されて動作することと説明されたが、本発明が必ずこのような実施形態に限定されるものではない。即ち、本発明の目的範囲内であれば、その全ての構成要素が1つ以上に選択的に結合して動作することもできる。また、その全ての構成要素が各々1つの独立的なハードウェアで具現されることができるが、各構成要素のその一部または全部が選択的に組み合わせて1つまたは複数個のハードウェアで組み合わせた一部または全部の機能を遂行するプログラムモジュールを有するコンピュータプログラムとして具現されることもできる。そのコンピュータプログラムを構成するコード及びコードセグメントは本発明の技術分野の当業者により容易に推論できるものである。このようなコンピュータプログラムは、コンピュータが読取可能な格納媒体(Computer Readable Media)に格納されてコンピュータにより読取され、実行されることによって、本発明の実施形態を具現することができる。コンピュータプログラムの格納媒体としては、磁気記録媒体、光記録媒体、キャリアウェーブ媒体などが含まれることができる。
また、以上で記載された“含む”、“構成する”、または“有する”などの用語は、特別に反対になる記載がない限り、該当構成要素が内在できることを意味するものであるので、他の構成要素を除外するのでなく、他の構成要素を更に含むことができることと解釈されるべきである。技術的または科学的な用語を含んだ全ての用語は、異に定義されない限り、本発明が属する技術分野で通常の知識を有する者により一般的に理解されることと同一な意味を有する。事前に定義された用語のように、一般的に使われる用語は関連技術の文脈上の意味と一致するものと解釈されるべきであり、本発明で明らかに定義しない限り、理想的であるとか、過度に形式的な意味として解釈されない。
以上の説明は、本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態により本発明の技術思想の範囲が限定されるのではない。本発明の保護範囲は請求範囲により解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。
本特許出願は2010年10月28日付で韓国に出願した特許出願番号第10−2010−0106317号に対して米国特許法119(a)条(35U.S.A§119(a))によって優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。併せて、本特許出願は、米国以外の国家に対しても上記と同一な理由により優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。
Claims (8)
- 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部と、
テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力する音声出力部と、
を含むことを特徴とする、感性的音声合成装置。 - 前記音声DB格納部は、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項1に記載の感性的音声合成装置。
- 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納する感性TOBI格納部と、
テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
推論された前記感性に対応する前記感性TOBIに基づいて前記文書を音声信号に変換して出力する音声変換部と、
を含むことを特徴とする、感性的音声合成装置。 - 前記音声変換部は、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することを特徴とする、請求項3に記載の感性的音声合成装置。
- 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップと、
前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納するステップと、
テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力するステップと、
を含むことを特徴とする、感性的音声合成方法。 - 前記音声データベース格納ステップは、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項5に記載の感性的音声合成方法。
- 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップと、
前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納するステップと、
テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
推論された前記感性に対応する前記感性TOBIに基づいて前記文書を音声信号に変換して出力するステップと、
を含むことを特徴とする、感性的音声合成方法。 - 前記音声変換ステップは、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することを特徴とする、請求項7に記載の感性的音声合成方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100106317A KR101160193B1 (ko) | 2010-10-28 | 2010-10-28 | 감성적 음성합성 장치 및 그 방법 |
KR10-2010-0106317 | 2010-10-28 | ||
PCT/KR2011/008123 WO2012057562A2 (ko) | 2010-10-28 | 2011-10-28 | 감성적 음성합성 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013544375A true JP2013544375A (ja) | 2013-12-12 |
Family
ID=45994589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013536524A Pending JP2013544375A (ja) | 2010-10-28 | 2011-10-28 | 感性的音声合成装置及びその方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20130211838A1 (ja) |
EP (1) | EP2634714A4 (ja) |
JP (1) | JP2013544375A (ja) |
KR (1) | KR101160193B1 (ja) |
WO (1) | WO2012057562A2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101508059B1 (ko) * | 2013-06-26 | 2015-04-07 | 숭실대학교산학협력단 | 단어의 쾌-불쾌 지수 예측 장치 및 방법 |
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
KR101567789B1 (ko) * | 2014-08-26 | 2015-11-11 | 숭실대학교산학협력단 | 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
CN107437413B (zh) * | 2017-07-05 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音播报方法及装置 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
US11514886B2 (en) | 2019-01-11 | 2022-11-29 | Lg Electronics Inc. | Emotion classification information-based text-to-speech (TTS) method and apparatus |
CN113128534A (zh) * | 2019-12-31 | 2021-07-16 | 北京中关村科金技术有限公司 | 情绪识别的方法、装置以及存储介质 |
US11809958B2 (en) | 2020-06-10 | 2023-11-07 | Capital One Services, Llc | Systems and methods for automatic decision-making with user-configured criteria using multi-channel data inputs |
KR102363469B1 (ko) * | 2020-08-14 | 2022-02-15 | 네오사피엔스 주식회사 | 텍스트에 대한 합성 음성 생성 작업을 수행하는 방법 |
CN113506562B (zh) * | 2021-07-19 | 2022-07-19 | 武汉理工大学 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100241345B1 (ko) * | 1997-08-04 | 2000-02-01 | 정선종 | 케이티오비아이 데이터베이스 구축을 위한 억양곡선의단순화 방법 |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
JP4129356B2 (ja) * | 2002-01-18 | 2008-08-06 | アルゼ株式会社 | 放送情報提供システム、放送情報提供方法、放送情報提供装置及び放送情報提供プログラム |
US7401020B2 (en) * | 2002-11-29 | 2008-07-15 | International Business Machines Corporation | Application of emotion-based intonation and prosody to speech in text-to-speech systems |
KR20050058949A (ko) * | 2003-12-13 | 2005-06-17 | 엘지전자 주식회사 | 한국어 운율구 추출방법 |
JP2006030383A (ja) * | 2004-07-13 | 2006-02-02 | Sony Corp | テキスト音声合成装置及びテキスト音声合成方法 |
GB2427109B (en) * | 2005-05-30 | 2007-08-01 | Kyocera Corp | Audio output apparatus, document reading method, and mobile terminal |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20080313130A1 (en) * | 2007-06-14 | 2008-12-18 | Northwestern University | Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources |
US20090326948A1 (en) * | 2008-06-26 | 2009-12-31 | Piyush Agarwal | Automated Generation of Audiobook with Multiple Voices and Sounds from Text |
-
2010
- 2010-10-28 KR KR1020100106317A patent/KR101160193B1/ko active IP Right Grant
-
2011
- 2011-10-28 JP JP2013536524A patent/JP2013544375A/ja active Pending
- 2011-10-28 US US13/882,104 patent/US20130211838A1/en not_active Abandoned
- 2011-10-28 EP EP11836654.1A patent/EP2634714A4/en not_active Withdrawn
- 2011-10-28 WO PCT/KR2011/008123 patent/WO2012057562A2/ko active Application Filing
Also Published As
Publication number | Publication date |
---|---|
KR20120044809A (ko) | 2012-05-08 |
WO2012057562A2 (ko) | 2012-05-03 |
US20130211838A1 (en) | 2013-08-15 |
WO2012057562A3 (ko) | 2012-06-21 |
EP2634714A2 (en) | 2013-09-04 |
EP2634714A4 (en) | 2014-09-17 |
KR101160193B1 (ko) | 2012-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013544375A (ja) | 感性的音声合成装置及びその方法 | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
US9916825B2 (en) | Method and system for text-to-speech synthesis | |
CN108962219B (zh) | 用于处理文本的方法和装置 | |
US10170101B2 (en) | Sensor based text-to-speech emotional conveyance | |
US9959368B2 (en) | Computer generated emulation of a subject | |
EP3151239A1 (en) | Method and system for text-to-speech synthesis | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JPWO2020145353A1 (ja) | コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法 | |
US20060229874A1 (en) | Speech synthesizer, speech synthesizing method, and computer program | |
KR102580904B1 (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
López-Ludeña et al. | LSESpeak: A spoken language generator for Deaf people | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
Alm | The role of affect in the computational modeling of natural language | |
Shechtman et al. | Emphatic speech prosody prediction with deep lstm networks | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
CN112733546A (zh) | 表情符号生成方法、装置、电子设备及存储介质 | |
JP4523312B2 (ja) | テキスト音声出力のための装置、方法、及びプログラム | |
Wang et al. | Concept-to-Speech generation with knowledge sharing for acoustic modelling and utterance filtering | |
US11741965B1 (en) | Configurable natural language output | |
Sarma et al. | A Study on Variation of Suprasegmental Phonetic Appearance Considered for Prosody Design with Respect to Assamese Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20130924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130924 |