JP2016109832A - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP2016109832A
JP2016109832A JP2014246460A JP2014246460A JP2016109832A JP 2016109832 A JP2016109832 A JP 2016109832A JP 2014246460 A JP2014246460 A JP 2014246460A JP 2014246460 A JP2014246460 A JP 2014246460A JP 2016109832 A JP2016109832 A JP 2016109832A
Authority
JP
Japan
Prior art keywords
emphasis
degree
words
word
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014246460A
Other languages
English (en)
Other versions
JP6369311B2 (ja
Inventor
辰彦 斉藤
Tatsuhiko Saito
辰彦 斉藤
山浦 正
Tadashi Yamaura
正 山浦
古本友紀
Tomonori Furumoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014246460A priority Critical patent/JP6369311B2/ja
Publication of JP2016109832A publication Critical patent/JP2016109832A/ja
Application granted granted Critical
Publication of JP6369311B2 publication Critical patent/JP6369311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】強調された単語の連続や強調されない単語の連続を防いで生成される合成音声において効果的な強調をすることが可能な音声合成装置を得ることを目的とする。【解決手段】複数の語句で構成される言語情報の定められた第1の範囲にある語句のそれぞれの強調の度合いを、第1の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第1の基準に応じて決定する強調度決定部110と、言語情報の語句に対して強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成部と、を備える。【選択図】 図1

Description

この発明は、言語情報に基づいて合成音声を生成する音声合成装置に関する。
テキストなどの入力情報に基づいて合成音声を生成し、生成した合成音声を出力して利用者に情報を提供する装置(例えば、カーナビゲーションシステムなどの車載情報機器や、デジタルサイネージにおける音声出力装置)が広く用いられている。このような装置では、出力される音声を利用者によって聞き取りやすいものにするために、文章中の特定の単語を強調することが行われる。
例えば特許文献1は、文章中の単語や連語の出現頻度に基づいてその単語や連語の強調度を決定したり、あるいは文章中における単語や連語の初回の出現では強調度を高くし2回目以降は強調度を低めにするなどして同一の単語または連語に対して異なる強調度を決定したりすることで、聞きやすい合成音声を生成する音声合成装置を開示している。
国際公開第2004/66271号(図1)
しかしながら、上述のように構成された従来の音声合成装置においては、単語もしくは連語ごとの強調度を判断しており、合成音声においては単語もしくは連語ごとの強調度を変更するため、強調された単語が連続したり、あるいは強調されない単語が連続したりする可能性があり、このような場合には生成される合成音声において効果的な強調が困難になるという問題があった。
この発明は、上記のような課題を解決するためになされたものであり、強調された単語の連続や強調されない単語の連続を防いで生成される合成音声において効果的な強調をすることが可能な音声合成装置を得ることを目的とする。
この発明の音声合成装置は、複数の語句で構成される言語情報の定められた第1の範囲にある語句のそれぞれの強調の度合いを、第1の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第1の基準に応じて決定する強調度決定部と、それぞれの語句に対して強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成部と、を備えるものである。
この発明の音声合成方法は、言語情報を構成する複数の語句の入力を受けて、言語情報の定められた第1の範囲にある語句の強調の度合いを、第1の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第1の基準に応じて決定する強調度決定ステップと、それぞれの語句に対して強調度決定ステップで決定された当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成ステップと、を備えるものである。
この発明の音声合成装置または音声合成方法によれば、言語情報を構成する複数の語句に対し、言語情報の定められた第1の範囲にある語句のそれぞれの強調の度合いを、第1の範囲における強調の度合いの高い語句または低い語句の割合について定められた第1の基準に応じて決定し、決定されたそれぞれの語句の強調の度合いに応じた強調をそれぞれの語句に行って言語情報の音声信号を合成することにより、合成した音声信号において強調度の高い語句あるいは低い語句が連続することを防止することができ、効果的な強調がなされた音声信号を得ることができる。
実施の形態1の音声合成装置の機能構成の一例を示すブロック図である。 実施の形態1の音声合成装置の処理手順の一例を示すフローチャートである。 実施の形態1の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。 実施の形態2の音声合成装置の機能構成の一例を示すブロック図である。 実施の形態2の音声合成装置の処理手順の一例を示すフローチャートである。 実施の形態2の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。 実施の形態3の音声合成装置の機能構成の一例を示すブロック図である。 実施の形態3の音声合成装置の処理手順の一例を示すフローチャートである。 実施の形態3の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。
以下、この発明を実施するための形態を、図面を参照して説明する。なお、以下の説明で参照する図面においては、同一もしくは相当する部分には同一の符号を付している。
実施の形態1.
図1はこの発明の実施の形態1に係る音声合成装置の機能構成の一例を示すブロック図である。図1において、音声合成装置1は、入力されたテキストなどの言語情報に基づいて音声信号を合成し、合成した音声信号を出力するものである。なお、出力された音声信号はスピーカなどの音声再生装置に入力されて音声に変換される。図1に示すように、音声合成装置1は強調度決定部110と音声合成部120を備えている。また、強調度決定部110は強調度付与部111と強調度修正部112を、音声合成部120は言語辞書121と言語解析部122と韻律制御部123と信号合成部124を備えている。なお、以降の説明では、言語情報の一例として日本語のテキストを例に説明するが、この発明は言語情報をテキストに限定するものではなく、音声合成の元になる言語情報であればテキスト以外の情報であってもよい。また、言語情報は日本語に限定されるものではなく任意の言語であってよい。
音声合成装置1に入力されたテキストは音声合成部120に入力される。音声合成部120の言語解析部122は入力されたテキストを言語解析して、あらかじめ定められた単位の語句にテキストを細分化し、細分化したテキストの語句に当該語句の読み方や品詞、アクセントなどを示す情報を付加した中間言語を生成して出力する。なお、ここでは言語解析部122は単語の読み方や品詞等の情報が登録されている言語辞書121を参照して、入力されたテキストを形態素解析し、細分化の単位である単語にテキストが細分化されることとする。
なお、形態素解析は必ずしも言語辞書121を使用して行う必要はなく、対象とする言語の文法等の知識に基づいて形態素解析するように構成してもよい。さらには、言語解析部122が行う言語解析は形態素解析に限定されるものではなく、構文解析を行って句に細分化するものであってもよいし、その他、入力される言語情報の形式や言語の種類に対応した既知の処理を適用したものでもよい。また、音声合成部120において言語解析を行わず、言語情報として中間言語が入力されるように構成することも可能である。なお、この場合には言語解析部122、言語辞書121を省略することが可能である。言語解析部122が出力する中間言語は韻律制御部123と強調度決定部110の強調度付与部111に入力される。
強調度付与部111は入力された中間言語に基づいて各単語に強調度を付与する。ここで強調度とは合成する音声信号における各単語の強調の度合いを示す情報である。強調度修正部112は、強調度付与部111で付与された各単語の強調度をテキストの所定の範囲(第1の範囲)において強調度の高い単語の割合が所定の基準(第1の基準)になるように修正し、修正した強調度(修正強調度)を音声合成部120に出力する。なお、ここでは強調度付与部111は言語解析部122が生成した中間言語に基づいて細分化された単語に強調度を付与するようにしたが、強調度付与部111が独自に入力されたテキストの言語解析をするようにしてもよい。
このように強調度決定部は入力された中間言語について、所定の範囲における強調度の高い単語の割合が所定の基準となるように中間言語の各単語の強調度を決定する。なお、ここでは強調度の高い単語の割合について基準が定められることとしているが、低い単語の割合について基準が定められてもよい。
強調度決定部110の強調度修正部112から音声合成部120に出力された修正強調度は韻律制御部123及び信号合成部124に入力される。韻律制御部123は、言語解析部122から出力された中間言語と強調度修正部112から出力された修正強調度を用いて、修正強調度に応じた強調処理を行った韻律パラメータを生成し、中間言語と共に信号合成部124に出力する。信号合成部124では、韻律制御部123から出力された中間言語と韻律パラメータに基づいて、強調度修正部112から出力された修正強調度に応じた強調処理を行った音声信号を合成する。なお、音声信号は、音声波形の信号など当該音声信号が入力される音声再生装置に応じた任意の形式の信号にすればよい。
上述の強調度決定部110および音声合成部120を構成する、強調度付与部111、強調度修正部112、言語辞書121、言語解析部122、韻律制御部123、信号合成部124は、ASIC(Application Specific Integrated Circuit)およびメモリ等のハードウェアを用いて実現することが可能であるし、また、メモリ等の周辺回路を備えたプロセッサとプロセッサ上で実行されるプログラムによりソフトウェアで実現することも可能である。また、ASICおよびメモリ等とプロセッサおよびプログラムを組み合わせて、一部の機能をハードウェアで実現し、一部の機能をソフトウェアで実現することも可能である。
次に動作について説明する。図2はこの発明の実施の形態1の音声合成装置1の処理手順の一例を示すフローチャートである。なお、この発明は図2に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。なお、以降では音声合成装置1に入力されるテキストを漢字かな混じり文として説明をするが、上述のようにアルファベットや、中間言語などいかなる形式であってもよく、言語に関しても日本語に限らず英語や中国語などのその他の言語であってもよい。
音声合成装置1はテキストを入力されると、まず言語解析部122が言語辞書121を参照して入力されたテキストの形態素解析を実施し(ST1)、中間言語を生成する(ST2)。次に、強調度付与部111がST2で生成された中間言語に含まれる細分化された各単語に強調度を付与する(ST3)。なお、強調度はあらかじめ強調度を付与するルールを定めておくことや、あるいは単語の重要度をTF−IDF(Term Frequency - Inverse Document Frequency)等で求め、求めた重要度に基づいて強調度を付与するなどしてもよい。また、国際公開第2004/66271号(前述の特許文献1)に記載の方法や、あるいは特開平3−63696号公報に記載されているような有声音の無声化などによって付与してもよい。また、その他の既知の処理によって強調度を付与してもよい。
以降の説明では、強調度は0以上の整数で示されるものとし、値が大きいほど強く強調されることとする。なお、強調度を値ではなく強、弱の2段階で表すなど強調度の定義の仕方は種々考えられ、以下に説明する動作の詳細は強調度の定義に応じて容易に変更することが可能である。
次に、強調度修正部112は、ST3において強調度付与部111で付与された各単語の強調度を当該対象とする単語の周辺単語(第1の範囲にある単語)の強調度を考慮して修正(第1の修正処理)する(ST4)。なお、ST4の処理後の強調度を修正強調度と称する。強調度の修正処理の一例を以下に説明する。まず、入力されたテキスト文の先頭から順に、あらかじめ定めたn個(nは自然数)の連続した単語を取り出す。そして、取り出した単語の中で強調度があらかじめ定めたしきい値p以上の単語があらかじめ定めたしきい値m個(mはn以下の自然数)以上ある場合に、強調度がしきい値p以上の単語の中で強調度が高い方からm−1個の単語を選択する。そして、選択されなかった単語についてその強調度をp−1に修正してしきい値pよりも小さくする。なお、n、m、pはこの発明を適用するそれぞれのシステムにおいて適した値を実験的に求めるなどすればよい。すなわちこの例によれば、強調度がしきい値p以上の単語が強調度の高い単語であり、n個が第1の範囲に相当し、nとmで定まる割合が第1の基準である。
以下に、入力されたテキストを「にじいろクローバーXが13日、鎌倉ドームで初のライブを開催した」とし、当該テキストを言語解析して細分化された各単語に付与された強調度が図3の(a)に示す値であった場合を例に具体例を示す。なお、ここではn=4、m=2、p=5であるものとする。このときp−1=4である。
入力されたテキストの先頭から4個の単語を取り出すと、強調度が5以上の単語が「にじいろクローバーX」と「13」の2個あるため、強調度が最も大きい単語(「にじいろクローバーX」)を選択して、選択した単語以外の単語(「13」)の強調度を4に下げる。この状態を図3の(b)に示す。次に取り出す単語を右方向に1個ずらし、次の4単語(「が」「13」「日」「鎌倉ドーム」)の場合は、強調度が5以上の単語は1個であるので修正は行わない。取り出す単語をさらに1個ずらした場合も同様に修正は行わない。さらに取り出す単語を1個ずらすと、取り出された4単語(「日」「鎌倉ドーム」「で」「初」)では、強調度が5以上の単語が「鎌倉ドーム」と「初」の2個あるため、強調度が最も大きい単語(「初」)を選択して、これ以外の単語(「鎌倉ドーム」)の強調度を4に下げる。このような処理を1単語ずつずらしながらテキスト中の全ての単語を取り出すまで実施して強調度を修正するST4の処理を終了する。
なお、上述の例では、強調度を下げる際の修正値をしきい値pから1を減じた値としたが、これは一例であり、他の値でもよい。
また、ここではn個の単語中で強調度の高い単語の強調度は修正せずにより低い単語の強調度を修正するようにしたが(例えば図6(b)の「鎌倉ドーム」と「初」では「鎌倉ドーム」の強調度を修正)、n個の単語中で後出する単語の強調度を修正するようにするなどしてもよい。
また、ここでは強調度修正部112は対象の単語の強調度を低くすることで強調度の修正を行うようにしたが、反対に対象の単語の強調度を高くすることで強調度を修正するようにしてもよい。また、上述の例では所定のしきい値以上の単語を検出して強調度を修正したが、所定のしきい値以下の単語を検出して強調度を修正するようにしてもよい。
韻律制御部123は、ST2で言語解析部122が生成した中間言語とST4で強調度修正部112が修正した修正強調度に基づいて韻律パラメータを決定する(ST5)。ここで韻律パラメータとは、例えばパワー、ピッチ周波数、音韻継続長といった情報である。また、韻律パラメータの決定においては、修正強調度に基づいた韻律パラメータにおける強調処理を行う。なお、強調度に基づいた韻律パラメータにおける強調処理は、例えば特開2006−208793号公報に記載されているような強調箇所をゆっくりと発声させる、大きな声で発声させるなどで、既知の強調処理を行えばよい。また、韻律制御部123における上述の韻律パラメータを決定する処理は、統計的手法で得られるモデルに基づいて決定したり、経験則から定められた規則に基づいて決定したりするなど、既知の処理を用いて行えばよい。
信号合成部124では、ST2で言語解析部122が生成した中間言語とST5で韻律制御部123が決定した韻律パラメータとST4で強調度修正部112が修正した修正強調度に基づいた音声信号の合成を行う(ST6)。なお、ST6での音声信号の合成については、例えばPSOLA(Pitch Synchronous Overlap and add)法(F.J. Charpentier and M.G. Stella, “Diphone synthesis using an overlap-add technique for speech waveforms concatenation”, Proc. ICASSP 86, pp. 2015-2018, 1986)などの既知の方法で行えばよい。また、ST6では修正強調度に基づいて、強調度の高い単語に対応する音声信号には例えば振幅強調や周波数帯域強調などの強調処理を行う。ST6で信号合成部124が合成した音声信号は装置外に出力され、スピーカなどの音声再生装置に入力される。
なお、上述の例では、韻律制御部123及び信号合成部124にて強調処理を行ったが必ずしも両方で行う必要はなく、いずれか一方でのみ強調処理を行うようにしてもよいが、両方で行うことでより効果的な強調を行うことが可能である。一方、いずれか一方のみとした場合には、処理量を削減する効果がある。
以上のようにこの実施の形態の音声合成措置によれば、テキストなどの言語情報を構成する複数の語句が入力され、当該言語情報の定められた第1の範囲にある語句の強調度を、当該第1の範囲における他の語句よりも強調度が高い語句または強調度が低い語句の割合について定められた第1の基準に応じて決定する強調度決定部と、強調度決定部が決定した強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、合成した音声信号において強調度の高い語句あるいは低い語句が連続することを防止することができ、聞き取りやすい音声信号を合成することができる。
また、同じ語句であっても、当該語句の周辺の語句の強調度に応じて強調度を高く、あるいは低くすることができるため、文脈に応じた適度な強調がなされ、理解しやすい音声が生成できる。
実施の形態2.
実施の形態1では言語情報の語句の強調度を言語情報における当該語句の近傍の語句の強調度に応じて修正する音声合成装置を説明したが、実施の形態2では言語情報内の強調箇所の頻度があらかじめ決められた頻度となるように強調度を修正する音声合成装置を説明する。
図4はこの発明の実施の形態2に係る音声合成装置1bの機能構成の一例を示すブロック図である。この実施の形態の音声信号装置1bは図1に示した実施の形態1の音声合成装置1に対して、強調度修正部112bに強調頻度(第2の基準)が入力され、指定された強調頻度で語句が強調されるように強調度付与部111で決定された強調度を修正する点が異なっている。
次に動作について説明する。図5は実施の形態2の音声合成装置1bの処理手順の一例を示すフローチャートである。なお、この発明は図5に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。以降の説明では、実施の形態1との差分のある処理を中心に説明する。
ST1からST3までの処理は実施の形態1と同様である。ST3の処理の後、この実施の形態では強調度修正部112bが強調頻度に基づいて強調単語数を決定する(ST7)。ここで強調頻度とは、テキスト中(第2の範囲)の語句においてしきい値以上の強調度を与える語句の割合を示すパラメータである。なお強調頻度は、しきい値以下の強調度を与える語句の割合として定義されてもよい。また、強調単語数とはテキスト中で強調度を所定のしきい値以上にする語句の数である。なお、ここでは強調頻度がパーセントで指定されるものとするが、強調頻度の指定方法はパーセントに限られるものではなく、例えば強、中、弱等の段階指定が与えられるようにしておき、強調度修正部112bにおいて指定されたそれぞれの段階に対応する割合を保持しておくようにするなどしてもよい。
ST7のあと、強調度修正部112bは実施の形態1と同様の強調度の修正を行う(ST4)。そして強調度修正部112bはST4を実施した後、強調頻度に応じた強調度の修正(第2の修正処理)を実施する(ST8)。図6を参照してST6の処理の具体例を説明する。なお、ここでは実施の形態1と同様にテキスト「にじいろクローバーXが13日、鎌倉ドームで初のライブを開催した」が入力されたものとし、また、n=4、m=2、p=5であり、強調頻度が10パーセントであるものとする。
強調度修正部112bが行うST4の処理により、図6の(a)から(d)に示す強調度の修正が行われる。そして、図6の(d)から(e)に示す強調度の修正がST8の処理で行われる強調度の修正である。この例の場合、テキスト中の単語の総数は13個であるので、強調頻度が10パーセントである場合、13個の10パーセントは1.3個であるので、強調度がしきい値を超える単語が1となるように強調度を修正する。なお、ここでは1.3の小数点以下を四捨五入して強調度単語数を決定することとしたが、切り上げや切り下げなどとしてもよい。
この例では、ST8の処理により図6の(d)に示すそれぞれの語句の強調度を参照して、強調度が高い順に1個の単語を選択し、選択されなかった単語で強調度がしきい値p以上の単語については強調度がしきい値pよりも小さくなるようにp−1=4に下げる。以降のST5、ST6の処理は実施の形態1と同様である。なお、ここではST4で用いるしきい値とST8で用いるしきい値を同じ値としたが、異なる値にしてもよい。
以上のようにこの実施の形態の音声合成装置によれば、テキストなどの言語情報を言語解析して得られた所定の単位の複数の語句のそれぞれに与えられた強調度を、言語情報における当該語句の近傍の語句の強調度にもとづいて修正するとともに、テキスト中(第2の範囲)の強調される単語の割合が指定された強調頻度(第2の基準)に応じた割合になるようにテキスト中の語句の強調度を修正する強調度修正部と、強調度修正部において修正された強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、実施の形態1の音声合成装置の効果に加えて、言語情報中の強調される語句の割合を均一化することが可能となり、安定した合成音声の音声信号を生成することができる。
実施の形態3.
実施の形態2では、周辺単語の強調度および強調頻度に応じた強調度の修正を行う形態を説明したが、実施の形態3では強調度を修正する単語を決める際に単語の重要度を用いる形態を説明する。図7はこの発明の実施の形態3に係る音声合成装置1cの機能構成の一例を示すブロック図である。図7においてこの実施の形態の音声合成装置1cは、図4の実施の形態2の音声合成装置1bに対して、言語解析部122での言語解析結果である中間言語が入力され、入力された中間言語に基づいてテキストを細分化した語句の重要度を決定する重要度決定部114を備え、強調度修正部112cが重要度決定部114で決定された語句の重要度に応じて強調度の修正を行う点が異なっている。
以下、この実施の形態の音声合成装置1cの動作を説明する。なお、実施の形態1、実施の形態2と同じ処理については重複する説明を省略することとし、差分のある処理を中心に説明する。図8はこの発明の実施の形態3の音声合成装置1cの処理手順の一例を示すフローチャートである。なお、この発明は図8に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。
ST1からST3までの処理は実施の形態1および実施の形態2と同様である。ST3の処理の後、重要度決定部114は、テキストを形態素解析して得られた単語の重要度を決定する(ST9)。なお、単語の重要度の決定は、例えばTF−IDFを用いて各単語の重要度を算出するなど、既知の方法で行えばよい。ST9の次に強調度修正部112cが実施するST7の処理は実施の形態2と同様である。また、ST7の次に強調度修正部112cが実施するST4の処理は、実施の形態1および実施の形態2と同様である。
ST4の次に、強調度修正部112cは、指定された強調頻度と重要度決定部114で決定された重要度に応じた強調度の修正を行う(ST10)。図9を参照してST10の処理の具体例を説明する。なお、ここでは実施の形態1および実施の形態2と同様にテキスト「にじいろクローバーXが13日、鎌倉ドームで初のライブを開催した」が入力されたものとし、また、n=4、m=2、p=5であり、強調頻度が30パーセントであるものとする。なお、強調頻度を30パーセントとした場合、テキスト中の単語数は13個であるので、強調単語数は実施の形態2と同様の求め方をすると4個である。
図9の(a)から(d)への強調度の修正は、ST4の処理による修正であり、実施の形態1および実施の形態2と同様である。次にST10の処理で、強調度修正部112cは、強調度がしきい値p以上の単語の数が強調単語数の4になるように強調度を修正する。図9の(e)から(f)で示す修正がST10の処理による強調度の修正である。なお、図9(e)の強調度は同図(d)と同じ状態を示している。また、図9(e)に示す重要度はST9で重要度決定部114が決定した各単語の重要度の例である。
ST10の処理で、強調度修正部112cが、強調度がしきい値p以上である単語の数を4個にするように修正するとき、図9(e)の状態ではテキスト中に強調度がしきい値p以上の単語は2個であることから、その他の単語の中から2個の単語を選択して強調度をしきい値p以上である5に修正する。このとき、重要度が最も高い単語を選択する。図9(e)では、重要度が6である「鎌倉ドーム」と「開催」が選択される。強調度修正部112cは「鎌倉ドーム」と「開催」の強調度を5に修正してST10を終了する。この状態が図9(f)である。
なお、ここではしきい値p以上の単語が強調単語数に満たない場合の動作を説明したが、例えば、強調単語数を超える数の単語の強調度がしきい値p以上である場合に、強調度しきい値p以下に下げる単語を選択する基準として重要度を用いたり、あるいはST4の処理での強調度の修正において、強調度が同じ単語が複数存在する場合に修正する単語を選択する基準として重要度を用いたりすることも可能である。
ST10の後のST5からST6の処理は実施の形態1および実施の形態2と同様である。
以上のようにこの実施の形態の音声合成装置によれば、テキストなどの言語情報を言語解析して得られた所定の単位の語句の重要度を決定する重要度決定部と、語句に与えられた強調度を言語情報における当該語句の近傍の強調度と指定された強調頻度と重要度決定部が決定した語句の重要度に応じて修正する強調度修正部と、強調度修正部において修正された強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、実施の形態2の音声合成装置の効果に加えて、強調度を修正する単語をその単語の重要度に基づいて選択することが可能となることで、より自然な単語の強調が行われた合成音声の音声信号を生成することができる。なお、重要度決定部を実施の形態1の音声合成装置に適用して、同様の効果を得ることも可能である。
1,1b,1c 音声合成装置、110,110b,110c 強調度決定部、111 強調度付与部、112,112b,112c 強調度修正部、12 音声合成部、121 言語辞書、122 言語解析部、123 韻律制御部、124 信号合成部。

Claims (8)

  1. 複数の語句で構成される言語情報の定められた第1の範囲にある前記語句のそれぞれの強調の度合いを、前記第1の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第1の基準に応じて決定する強調度決定部と、
    前記語句に対して前記強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、前記言語情報の音声信号を合成する音声合成部と、
    を備えることを特徴とする音声合成装置。
  2. 前記強調度決定部は、前記第1の範囲にある前記語句のそれぞれに付与された強調の度合いに基づいて、当該第1の範囲にある前記語句に付与された強調の度合いを修正する第1の修正処理を行う強調度修正部を備えることを特徴とする請求項1に記載の音声合成装置。
  3. 前記強調度修正部は、前記第1の範囲を含む定められた第2の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第2の基準に応じて、前記第1の修正処理後の前記語句の強調の度合いを修正する第2の修正処理を行うことを特徴とする請求項2に記載の音声合成装置。
  4. 前記語句の重要度を決定する重要度決定部を備え、
    前記強調度修正部は、前記重要度決定部で決定された前記重要度に基づいて強調の度合いを修正する前記語句を選択することを特徴とする請求項2または請求項3に記載の音声合成装置。
  5. 言語情報を構成する複数の語句の入力を受けて、前記言語情報の定められた第1の範囲にある前記語句の強調の度合いを、前記第1の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第1の基準に応じて決定する強調度決定ステップと、
    前記語句に対して前記強調度決定ステップで決定された当該語句の強調の度合いに応じた強調を行って、前記言語情報の音声信号を合成する音声合成ステップと、
    を備えることを特徴とする音声合成方法。
  6. 前記強調度決定ステップは、前記第1の範囲にある前記語句のそれぞれに付与された強調の度合いに基づいて、当該第1の範囲にある前記語句に付与された強調の度合いを修正する第1の強調度修正ステップを備えることを特徴とする請求項5に記載の音声合成方法。
  7. 前記強調度決定ステップは、前記第1の範囲を含む定められた第2の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第2の基準に応じて、前記第1の強調度修正ステップで処理された前記語句の強調の度合いを修正する第2の強調度修正ステップを含むことを特徴とする請求項6に記載の音声合成方法。
  8. 前記語句の重要度を決定する重要度決定ステップを備え、
    前記第1の強調度修正ステップまたは前記第2の強調度ステップは、前記重要度決定ステップで決定された前記重要度に基づいて強調の度合いを修正する前記語句を選択することを特徴とする請求項6または請求項7に記載の音声合成方法。
JP2014246460A 2014-12-05 2014-12-05 音声合成装置および音声合成方法 Active JP6369311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014246460A JP6369311B2 (ja) 2014-12-05 2014-12-05 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014246460A JP6369311B2 (ja) 2014-12-05 2014-12-05 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2016109832A true JP2016109832A (ja) 2016-06-20
JP6369311B2 JP6369311B2 (ja) 2018-08-08

Family

ID=56124087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014246460A Active JP6369311B2 (ja) 2014-12-05 2014-12-05 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP6369311B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2024090309A1 (ja) * 2022-10-27 2024-05-02 京セラ株式会社 音出力装置、音出力方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107102A1 (en) * 2002-11-15 2004-06-03 Samsung Electronics Co., Ltd. Text-to-speech conversion system and method having function of providing additional information
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107102A1 (en) * 2002-11-15 2004-06-03 Samsung Electronics Co., Ltd. Text-to-speech conversion system and method having function of providing additional information
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2019087646A1 (ja) * 2017-11-01 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7226330B2 (ja) 2017-11-01 2023-02-21 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
WO2024090309A1 (ja) * 2022-10-27 2024-05-02 京セラ株式会社 音出力装置、音出力方法及びプログラム

Also Published As

Publication number Publication date
JP6369311B2 (ja) 2018-08-08

Similar Documents

Publication Publication Date Title
CN110797006B (zh) 端到端的语音合成方法、装置及存储介质
US7809572B2 (en) Voice quality change portion locating apparatus
US8103505B1 (en) Method and apparatus for speech synthesis using paralinguistic variation
CN113724686B (zh) 编辑音频的方法、装置、电子设备及存储介质
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
KR20110131768A (ko) 발음기관 애니메이션 생성 장치 및 방법
JP6369311B2 (ja) 音声合成装置および音声合成方法
JP2007264284A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
AU769036B2 (en) Device and method for digital voice processing
JP2011154061A (ja) 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
US9570067B2 (en) Text-to-speech system, text-to-speech method, and computer program product for synthesis modification based upon peculiar expressions
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2703253B2 (ja) 音声合成装置
Van Niekerk Syllabification for Afrikaans speech synthesis
JPH05134691A (ja) 音声合成方法および装置
JP3722136B2 (ja) 音声合成装置
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP2809769B2 (ja) 音声合成装置
RU2606312C2 (ru) Устройство синтеза речи

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180625

R151 Written notification of patent or utility model registration

Ref document number: 6369311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250