JP2013544375A - 感性的音声合成装置及びその方法 - Google Patents

感性的音声合成装置及びその方法 Download PDF

Info

Publication number
JP2013544375A
JP2013544375A JP2013536524A JP2013536524A JP2013544375A JP 2013544375 A JP2013544375 A JP 2013544375A JP 2013536524 A JP2013536524 A JP 2013536524A JP 2013536524 A JP2013536524 A JP 2013536524A JP 2013544375 A JP2013544375 A JP 2013544375A
Authority
JP
Japan
Prior art keywords
sensitivity
speech
word
similarity
affirmation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013536524A
Other languages
English (en)
Inventor
ジン パク,ウェイ
ファ リ,セ
ヒ キム,ジュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ACRIIL Inc
Original Assignee
ACRIIL Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ACRIIL Inc filed Critical ACRIIL Inc
Publication of JP2013544375A publication Critical patent/JP2013544375A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

感性的音声合成装置及びその感性的音声合成方法が開示される。本発明の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。

Description

本発明は、感性的音声合成装置及びその方法に関するものである。より詳しくは、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法に関するものである。
この部分に記述された内容は、単純に本発明の実施形態に対する背景情報を提供するだけであり、従来技術を構成するものではない。
最近、インターネットの普及は無線インターネットにまで広く拡張されて普及されており、それによって、ユーザは有線コンピュータを通じてだけでなく、PDA(Personal Digital Assistant)、ノートブック、携帯電話、スマートフォンなどのような移動通信端末機を用いて、移動する中にも他の有線または無線通信端末機のユーザと通信が可能になった。このような有線及び無線通信は、単純に音声信号やデータファイルの交換に止まらず、メッセンジャーを用いて文字で他のユーザと対話をしたり、自身または他の通信ユーザのブログ(Blog)を訪問して文字記録作成、イメージ、または動映像アップロードなどの活動を通じてオンライン上の新たなコミュニティー(Community)を形成することもある。
このように、オンライン上に形成されたコミュニティー内のコミュニケーション活動中にはオフラインと同様に、自身の感情状態を他のユーザに表現したり、他のユーザの感情状態を推測する必要がたびたびある。このために、オンライン上のコミュニティーサービス提供業者らは多様な方法によりユーザの感情状態を表現または推測できるようにしている。例えば、メッセンジャーを用いたコミュニティーサービス提供業者は感情状態に対応する多様な顔文字選択メニューを提供し、ユーザが自身の感情状態に従って顔文字を選択することができるようにすることで、ダイアログウィンドウを通じてユーザの感情状態が表示されるようにする。また、ダイアログウィンドウまたは掲示板を通じてユーザが入力する文章の中に特定単語があるかを検索し、その特定単語が検索される場合には、それに対応するアイコンが表示されるようにすることで、文章の入力に従う感情表現が自動になされるようにすることもある。
ところが、人間の感情は常に固定されているものでなく、状況や場所、雰囲気などによって時々刻々変化することが一般的であり、このように、状況または環境によって変化される感情をユーザが毎度顔文字を選択して変更することはだいぶ面倒なことである。
また、感情または感じは多分に個人的な属性を有するが、このような人間の感情を左右する心理的な要因は、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどに大別できる。ところが、同じ状況に対しても個々人が感じる心理的な要因は異なることがあり、表出される感性の強度も個人によって多様な差を表すことができる。それにも拘わらず、ユーザが入力する文章で特定単語を検索して画一的に表現することは該当個人の現在の感情状態に対して正確に表現できないという問題点がある。
本発明は前述した問題点を解決するために案出されたものであって、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力することができる感性的音声合成装置及びその感性的音声合成方法を提供することをその目的とする。
前述した目的を達成するための本発明の一実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性によってデータベースから文書に対応する音声を選択して出力する音声出力部を含むことを特徴とする。
ここで、音声DB格納部は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。
前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成装置は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納する感性TOBI格納部、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する感性推論部、及び推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する音声変換部を含むことを特徴とする。
ここで、音声変換部は、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することができる。
前述した目的を達成するための本発明の一実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップ、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納するステップ、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性によってデータベースから文書に対応する音声を選択して出力するステップを含むことを特徴とする。
ここで、音声データベース格納ステップは、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。
前述した目的を達成するための本発明の他の実施形態に従う感性的音声合成方法は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップ、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納するステップ、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論するステップ、及び推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力するステップを含むことを特徴とする。
ここで、音声変換ステップは、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することができる。
本発明によれば、感性的音声合成装置及びその感性的音声合成方法は、確率モデル方法を用いてユーザの感性を推論し、推論された結果によって音声信号を適応的に変化させてユーザの感性が合成された音声信号を出力できるようになる。
本発明の一実施形態に従う感性的音声合成装置を概略的に示す図である。 本発明の実施形態に従う感性単語辞典の例を示す図である。 図1の感性推論モジュールの構成の例を示す図である。 図3の感性ログ格納部による感性ログ情報の例を示す図である。 本発明の他の実施形態に従う感性的音声合成装置を概略的に示す図である。 本発明の実施形態に用いられるTTSシステムの構成例を示す図である。 音素列−発音列整列の例を示す図である。 生成された規則ツリーの例を示す図である。 韻律境界推定に使われた資質の例を示す図である。 トーン推定に使われた資質の例を示す図である。 本発明の一実施形態に従う感性的音声合成方法を示すフローチャートである。 本発明の他の実施形態に従う感性的音声合成方法を示すフローチャートである。
以下、本発明の一部の実施形態を添付した図面を参照しつつ詳細に説明する。各図面の構成要素に参照符号を付加するに当たって、同一な構成要素に対してはたとえ他の図面上に表示されても、できる限り同一な符号を有するようにしていることに留意しなければならない。また、本発明を説明するに当たって、関連した公知構成または機能に対する具体的な説明が本発明の要旨を曖昧にすることができると判断される場合にはその詳細な説明は省略する。
また、本発明の構成要素を説明するに当たって、第1、第2、A、B、(a)、(b)などの用語を使用することができる。このような用語はその構成要素を他の構成要素と区別するためのものであり、その用語により当該構成要素の本質や回順序または順序などが限定されない。どの構成要素が他の構成要素に“連結”、“結合”、または“接続”されると記載された場合、その構成要素はその他の構成要素に直接的に連結、または接続できるが、各構成要素の間に更に他の構成要素が“連結”、“結合”、または“接続”されることもできると理解されるべきである。
図1は、本発明の一実施形態に従う感性的音声合成装置を概略的に示す図である。図面を参照すると、本発明の一実施形態に従う感性的音声合成装置100は、単語辞典格納部110、音声DB格納部120、感性推論部130、及び音声出力部140を含む。ここで、感性的音声合成装置100は、ネットワーク(図示せず)を介してコンピュータ、スマートフォンなどのようなユーザ通信端末機(図示せず)とデータを送受信し、それによって感性的音声合成サービスを提供するサーバで具現されることができ、前述した各々の構成要素を備えた電子機器で具現されることもできる。また、感性的音声合成装置100がサーバの形態に具現される場合、前述した各々の構成要素は、各々独立的なサーバで具現されて相互作用を遂行するか、1つのサーバの内に設置されて相互作用を遂行することもできる。
単語辞典格納部110は、感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する。感性は刺激や刺激の変化を感じる性質であって、驚き、恐怖、嫌悪、怒り、喜び、幸福、悲しみなどのような心理的な要因により左右される。ところが、同じ刺激に対しても個人毎に感じる感性が異なることがあり、感性の強度も異なることがある。このような性質を勘案して感性単語格納モジュール100は、幸せだ、恥ずかしい、虚しいなどのような感性単語に対して各々の感性クラスを分類し、分類された感性クラスに対する類似性、肯定または不正度、感性強度などを分類して感性単語辞典に格納する。ここで、感性クラスは、満足、懐かしさ、幸福などのような人間の内的感情状態を分類したものであって、本実施形態では全体77個の感性クラスに分類し、そのうち、該当単語が属する感性クラスをマッチングさせることができる。ここで、感性クラスの個数は分類可能な感性の種類の例示であるだけであり、これに限定されるものではない。類似性は、該当単語と感性クラスの内の項目間の類似度を表すものであって、一定の範囲内の数値として表現することができる。肯定または不正度は該当単語の属性が肯定的な感性なのか、または否定的な感性なのかを表す程度であって、0を基準に一定の範囲内の負の数または正の数として表現することができる。感性強度は、該当単語の属性のうち、感性に対する強さを表し、一定の範囲内の数値として表現することができる。図2は本発明の実施形態に従う感性単語辞典の例を示す図であって、ここでは、類似性は0乃至10の範囲内の数値として表現し、肯定または不正度は0、1または−1として表現し、感性強度は0乃至10の数値として表現した。しかしながら、このような数値は図示した範囲に限定されるものでなく、多様な変形が可能である。例えば、肯定または不正度は−1乃至1の範囲内で0.1単位の数値として表現されることができ、類似性や感性強度も0乃至1の範囲内で0.1単位の数値として表現されることもできる。また、図2のくすぐったい、温かい、じんとくるなどのように感性単語格納部102は同じ感性単語に対して複数の感性クラスを分類することができ、この場合、分類された各々の感性クラスに対して、類似性、肯定または不正度、感性強度のうち、少なくとも1つを分類して感性単語辞典に格納することができる。また、同じ感性単語といっても、ユーザ別にログされる文章の入力時間、場所、天気のうち、少なくとも1つを含む環境情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わったり、ユーザ別の性別、年齢、性格、職業を含むプロファイル情報によって、感性クラス、類似性、肯定または不正度、感性強度が変わることがあるが、ユーザ別環境情報及びプロファイル情報を考慮して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つが異なるように推論される場合には、ユーザ別感性ログ情報に基づいてユーザ別感性単語辞典を設定して格納することもできる。
音声DB格納部120は、単語辞典格納部110に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する。この際、音声DB格納部120は、感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声DB格納部120は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を異なるように分類してデータベースに格納することができる。ここで、韻律は音声のうち、発話内容を表す音韻情報の以外の抑揚(intonation)やアクセント(accent)などをいい、声の大きさ(エネルギー)、声の高さ(周波数)、声の長さ(持続時間)により制御できる。
感性推論部130は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する。即ち、感性推論部130は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。このような感性推論部130は、図3に示すような感性推論モジュール300により具現されることもできる。
図3は、図1の感性推論モジュールの構成を概略的に示す図である。以下、感性推論モジュール300が感性的音声合成装置100の感性推論部130に使われた場合を仮定して説明する。
図3を参照すると、感性推論モジュール300は、文章変換部310、マッチング確認部320、感性推論部330、感性ログ格納部340、及びログ情報検索部350を含むことができる。
文章変換部310は、テキスト、電子書籍(E-Book)などのような文書の各単語、構文、文章に対して単語と構文を把握して基本形に変換する。即ち、文章変換部310は設定された文書に対して一次的に複数の単語に分節した後、基本形に変換することができ、分節された単語のうち、慣用的に使われる単語と単語との組み合わせを通じて構文を把握した後、基本形に変換することができる。
マッチング確認部320は、文章変換部310により変換された各々の単語及び構文を単語辞典格納サーバ110に格納された感性単語辞典と比較してマッチングされる単語または構文を確認する。
感性推論部330は、変換された単語及び構文の相互存在(Co-occurrence)に基づいて確率モデル(Probabilistic model)を適用し、適用された確率モデルによって感性を推論することができる。例えば、文章変換部310により基本形に変換された単語のうち、‘胸が一杯だ’という単語が感性単語辞典の‘感動’の感性クラスとマッチングされると仮定すれば、感性推論部330は‘胸が一杯だ’という単語と基本形に変換された他の単語または構文の組み合わせに基づいて確率モデルを適用し、適用された確率モデルによって感性を推論することができる。ここで、確率モデルは全体コーパス(corpus)で特定単語または構文の頻度数を用いて特定感性に属する確率を計算するアルゴリズムであって、これに基づいて新たな単語が特定感性に属する確率を計算することができる。例えば、<数式1>に表すようにコーパス内で新たな単語Wの全体頻度数に対するコーパス内の文章で新たな単語Wと特定感性Cとが組み合わせにより使われた頻度数を計算して新たな単語に対する感性類似度を類推することができる。
Figure 2013544375
ここで、規則rは左側文脈Lと右側文脈Rを満たす音素列集合Gが発音列集合Pに変換されるということを意味する。この際、LとRの長さは可変的であり、GとPは字素または“_”文字からなる集合である。
規則rは1つ以上の候補発音列p∈Pを有することができるが、これは次の<数式2>のように実現確率で計算されて図8の規則ツリーに格納される。図8の“*”文字と“+”文字は各々文章境界と語節境界を意味する。
Figure 2013544375
発音列は生成された規則ツリーに基づいて候補発音列pのうち、累積点数の最も高い候補を選択することにより生成される。累積点数は、次の<数式3>のように計算される。
Figure 2013544375
ここで、WCLは左右文脈L′とR′の長さに従う重み付け値であり、L′とR′は各々LとRに含まれる文脈である。即ち、規則L′(G)R′→Pは規則L(G)R→Pの親規則または自分自身に該当する。
韻律をモデリングするために韻律転写規約である韓国語TOBIを使用することができる。韓国語TOBIには多様なトーンと境界索引があるが、本発明の実施形態ではこれを単純化して抑揚構(Intonational Phrase)の境界トーン4種類(L%、H%、HL%、LH%)、アクセント構(Accentual Phrase)の境界トーン2種類(La、Ha)、及び韻律境界3種類(B0−境界無し、B2−小韻律境界、B3−大韻律境界)のみを用いることができる。
韻律境界は文章の韻律構造を形成するため、誤って推定された場合、本来の文章が有する意味が変わることがあるので、TTSシステムで重要な部分を占める。本発明の実施形態では、韻律境界をHMM(Hidden Markov Models)、CART(Classification and Regression Trees)、ME(Maximum Entropy)を基本学習方法とするSSL(Stacked Sequential Learning)技法などを推定に使用することができる。推定に使われた資質は図9に示す通りである。
朗読体音声と対話体音声とは、トーンで最も多い差を見える。対話体では、同じ文章でも多様なトーンで発音できるが、多様なトーンを反映するために、ピッチ曲線全体を推定することは難しいことである。たとえ、ピッチ曲線をよく推定したとしてもコーパス基盤のTTSシステムでは推定されたピッチに該当する合成単位が足りないという限界がある。本発明の実施形態では、対話体の多様なトーン変化が韻律境界の最後の音節で主に起こるという点に着目して推定された韻律境界の最後の音節に対してのみトーンを推定することができる。トーンの推定は、CRF(Conditional Random Feilds)を利用し、使われた資質は図10に示す通りである。
前述した発音及び韻律推定方法は一例示であり、本発明の実施形態で使用可能な発音及び韻律推定方法がこれに限定されるものではない。
また、図5で、音声変換部540は推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する。即ち、音声変換部540は感性推論部530により推論された感性に対応して感性TOBI格納部520に格納された感性TOBIを抽出し、抽出された感性TOBIによって文書を音声信号に変換して出力する。
これで、本発明の他の実施形態に従う感性的音声合成装置500は、感性単語に対応する多様な感性TOBIをデータベースに格納し、文書から推論された感性によってデータベースから感性TOBIを抽出し、文書を抽出された感性TOBIに基づいて音声信号に変換して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
図11は、図1の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。
図1及び図11を参照すると、単語辞典格納部110は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する(S1101)。また、音声DB格納部120は単語辞典格納部110に格納された感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する(S1103)。この際、音声DB格納部120は感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することができる。即ち、音声DB格納部120は同じ感性単語に対しても、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を異なるように分類してデータベースに格納することができる。
感性推論部130は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する(S1105)。即ち、感性推論部130は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。
音声出力部140は、推論された感性によって音声DB格納部120に格納されたデータベースから文書に対応する音声を選択して出力する(S1107)。即ち、音声出力部140は音声DB格納部120に格納されたデータベースから感性推論部130により推論された感性と一致する感性の音声を選択して抽出する。
これで、本発明の一実施形態に従う感性的音声合成装置100は、感性単語に対応する多様な韻律を有する音声をデータベースに格納し、文書から推論された感性によってデータベースから対応する音声を選択して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
図12は、図5の感性的音声合成装置による感性的音声合成方法を示すフローチャートである。
図5及び図12を参照すると、単語辞典格納部110は感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つを含む項目に分類して感性単語辞典に格納する(S1201)。また、感性TOBI格納部520は、感性単語の感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つに対応する感性TOBIをデータベースに格納する(S1203)。
感性推論部530は、テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、感性単語辞典にマッチングされる感性を推論する(S1205)。即ち、感性推論部530は文書編集プログラムにより作成された文書ファイルや、電子媒体に記録されて書籍のように利用できるディジタル図書の内の各単語、構文、文章から感性単語辞典にマッチングされる感性を推論する。
音声変換部540は、推論された感性に対応する感性TOBIに基づいて文書を音声信号に変換して出力する(S1207)。即ち、音声変換部540は感性推論部530により推論された感性に対応して感性TOBI格納部520に格納された感性TOBIを抽出し、抽出された感性TOBIによって文書を音声信号に変換して出力する。
これで、本発明の他の実施形態に従う感性的音声合成装置500は、感性単語に対応する多様な感性TOBIをデータベースに格納し、文書から推論された感性によってデータベースから感性TOBIを抽出し、文書を抽出された感性TOBIに基づいて音声信号に変換して出力することによって、文書に対応する音声に感性を合成して表現できるようになる。
以上、本発明の実施形態を構成する全ての構成要素が1つに結合されるか、結合されて動作することと説明されたが、本発明が必ずこのような実施形態に限定されるものではない。即ち、本発明の目的範囲内であれば、その全ての構成要素が1つ以上に選択的に結合して動作することもできる。また、その全ての構成要素が各々1つの独立的なハードウェアで具現されることができるが、各構成要素のその一部または全部が選択的に組み合わせて1つまたは複数個のハードウェアで組み合わせた一部または全部の機能を遂行するプログラムモジュールを有するコンピュータプログラムとして具現されることもできる。そのコンピュータプログラムを構成するコード及びコードセグメントは本発明の技術分野の当業者により容易に推論できるものである。このようなコンピュータプログラムは、コンピュータが読取可能な格納媒体(Computer Readable Media)に格納されてコンピュータにより読取され、実行されることによって、本発明の実施形態を具現することができる。コンピュータプログラムの格納媒体としては、磁気記録媒体、光記録媒体、キャリアウェーブ媒体などが含まれることができる。
また、以上で記載された“含む”、“構成する”、または“有する”などの用語は、特別に反対になる記載がない限り、該当構成要素が内在できることを意味するものであるので、他の構成要素を除外するのでなく、他の構成要素を更に含むことができることと解釈されるべきである。技術的または科学的な用語を含んだ全ての用語は、異に定義されない限り、本発明が属する技術分野で通常の知識を有する者により一般的に理解されることと同一な意味を有する。事前に定義された用語のように、一般的に使われる用語は関連技術の文脈上の意味と一致するものと解釈されるべきであり、本発明で明らかに定義しない限り、理想的であるとか、過度に形式的な意味として解釈されない。
以上の説明は、本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な修正及び変形が可能である。したがって、本発明に開示された実施形態は本発明の技術思想を限定するためのものではなく、説明するためのものであり、このような実施形態により本発明の技術思想の範囲が限定されるのではない。本発明の保護範囲は請求範囲により解釈されなければならず、それと同等な範囲内にある全ての技術思想は本発明の権利範囲に含まれるものと解釈されるべきである。
本特許出願は2010年10月28日付で韓国に出願した特許出願番号第10−2010−0106317号に対して米国特許法119(a)条(35U.S.A§119(a))によって優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。併せて、本特許出願は、米国以外の国家に対しても上記と同一な理由により優先権を主張すれば、その全ての内容は参考文献として本特許出願に併合される。

Claims (8)

  1. 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
    前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声を分類してデータベースに格納する音声DB格納部と、
    テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
    推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力する音声出力部と、
    を含むことを特徴とする、感性的音声合成装置。
  2. 前記音声DB格納部は、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうちの少なくとも1つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項1に記載の感性的音声合成装置。
  3. 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納する単語辞典格納部と、
    前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納する感性TOBI格納部と、
    テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論する感性推論部と、
    推論された前記感性に対応する前記感性TOBIに基づいて前記文書を音声信号に変換して出力する音声変換部と、
    を含むことを特徴とする、感性的音声合成装置。
  4. 前記音声変換部は、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することを特徴とする、請求項3に記載の感性的音声合成装置。
  5. 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップと、
    前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声を分類してデータベースに格納するステップと、
    テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうちの少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
    推論された前記感性によって前記データベースから前記文書に対応する音声を選択して出力するステップと、
    を含むことを特徴とする、感性的音声合成方法。
  6. 前記音声データベース格納ステップは、前記感性単語に対応して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つによって音声の韻律を分類してデータベースに格納することを特徴とする、請求項5に記載の感性的音声合成方法。
  7. 感性単語に対して、感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つを含む項目に分類して感性単語辞典に格納するステップと、
    前記感性単語の感性クラス、類似性、肯定または不正度、感性強度のうち、少なくとも1つに対応する感性TOBI(Tones and Break Indices:韻律転写規約)をデータベースに格納するステップと、
    テキスト、電子書籍(E-Book)を含む文書の各単語、構文、文章のうち、少なくとも1つに対して、前記感性単語辞典にマッチングされる感性を推論するステップと、
    推論された前記感性に対応する前記感性TOBIに基づいて前記文書を音声信号に変換して出力するステップと、
    を含むことを特徴とする、感性的音声合成方法。
  8. 前記音声変換ステップは、HMM(Hidden Markov Models)、CART(Classification and Regression Trees)、SSL(Stacked Sequential Learning)方法のうち、少なくとも1つを用いて韻律境界を推定することを特徴とする、請求項7に記載の感性的音声合成方法。
JP2013536524A 2010-10-28 2011-10-28 感性的音声合成装置及びその方法 Pending JP2013544375A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020100106317A KR101160193B1 (ko) 2010-10-28 2010-10-28 감성적 음성합성 장치 및 그 방법
KR10-2010-0106317 2010-10-28
PCT/KR2011/008123 WO2012057562A2 (ko) 2010-10-28 2011-10-28 감성적 음성합성 장치 및 그 방법

Publications (1)

Publication Number Publication Date
JP2013544375A true JP2013544375A (ja) 2013-12-12

Family

ID=45994589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013536524A Pending JP2013544375A (ja) 2010-10-28 2011-10-28 感性的音声合成装置及びその方法

Country Status (5)

Country Link
US (1) US20130211838A1 (ja)
EP (1) EP2634714A4 (ja)
JP (1) JP2013544375A (ja)
KR (1) KR101160193B1 (ja)
WO (1) WO2012057562A2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508059B1 (ko) * 2013-06-26 2015-04-07 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
KR101567789B1 (ko) * 2014-08-26 2015-11-11 숭실대학교산학협력단 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
CN107437413B (zh) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 语音播报方法及装置
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
US11514886B2 (en) 2019-01-11 2022-11-29 Lg Electronics Inc. Emotion classification information-based text-to-speech (TTS) method and apparatus
CN113128534A (zh) * 2019-12-31 2021-07-16 北京中关村科金技术有限公司 情绪识别的方法、装置以及存储介质
US11809958B2 (en) 2020-06-10 2023-11-07 Capital One Services, Llc Systems and methods for automatic decision-making with user-configured criteria using multi-channel data inputs
KR102363469B1 (ko) * 2020-08-14 2022-02-15 네오사피엔스 주식회사 텍스트에 대한 합성 음성 생성 작업을 수행하는 방법
CN113506562B (zh) * 2021-07-19 2022-07-19 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100241345B1 (ko) * 1997-08-04 2000-02-01 정선종 케이티오비아이 데이터베이스 구축을 위한 억양곡선의단순화 방법
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system
JP4129356B2 (ja) * 2002-01-18 2008-08-06 アルゼ株式会社 放送情報提供システム、放送情報提供方法、放送情報提供装置及び放送情報提供プログラム
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
KR20050058949A (ko) * 2003-12-13 2005-06-17 엘지전자 주식회사 한국어 운율구 추출방법
JP2006030383A (ja) * 2004-07-13 2006-02-02 Sony Corp テキスト音声合成装置及びテキスト音声合成方法
GB2427109B (en) * 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20080313130A1 (en) * 2007-06-14 2008-12-18 Northwestern University Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources
US20090326948A1 (en) * 2008-06-26 2009-12-31 Piyush Agarwal Automated Generation of Audiobook with Multiple Voices and Sounds from Text

Also Published As

Publication number Publication date
KR20120044809A (ko) 2012-05-08
WO2012057562A2 (ko) 2012-05-03
US20130211838A1 (en) 2013-08-15
WO2012057562A3 (ko) 2012-06-21
EP2634714A2 (en) 2013-09-04
EP2634714A4 (en) 2014-09-17
KR101160193B1 (ko) 2012-06-26

Similar Documents

Publication Publication Date Title
JP2013544375A (ja) 感性的音声合成装置及びその方法
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US9916825B2 (en) Method and system for text-to-speech synthesis
CN108962219B (zh) 用于处理文本的方法和装置
US10170101B2 (en) Sensor based text-to-speech emotional conveyance
US9959368B2 (en) Computer generated emulation of a subject
EP3151239A1 (en) Method and system for text-to-speech synthesis
RU2692051C1 (ru) Способ и система для синтеза речи из текста
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JPWO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
US20060229874A1 (en) Speech synthesizer, speech synthesizing method, and computer program
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
López-Ludeña et al. LSESpeak: A spoken language generator for Deaf people
Thennattil et al. Phonetic engine for continuous speech in Malayalam
Alm The role of affect in the computational modeling of natural language
Shechtman et al. Emphatic speech prosody prediction with deep lstm networks
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
CN112733546A (zh) 表情符号生成方法、装置、电子设备及存储介质
JP4523312B2 (ja) テキスト音声出力のための装置、方法、及びプログラム
Wang et al. Concept-to-Speech generation with knowledge sharing for acoustic modelling and utterance filtering
US11741965B1 (en) Configurable natural language output
Sarma et al. A Study on Variation of Suprasegmental Phonetic Appearance Considered for Prosody Design with Respect to Assamese Language

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130924