JP2013003470A - 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ - Google Patents

音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ Download PDF

Info

Publication number
JP2013003470A
JP2013003470A JP2011136776A JP2011136776A JP2013003470A JP 2013003470 A JP2013003470 A JP 2013003470A JP 2011136776 A JP2011136776 A JP 2011136776A JP 2011136776 A JP2011136776 A JP 2011136776A JP 2013003470 A JP2013003470 A JP 2013003470A
Authority
JP
Japan
Prior art keywords
speech
voice
filter
cumulative frequency
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011136776A
Other languages
English (en)
Inventor
Yamato Otani
大和 大谷
Masanori Tamura
正統 田村
Shinko Morita
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011136776A priority Critical patent/JP2013003470A/ja
Priority to US13/420,824 priority patent/US20120323569A1/en
Publication of JP2013003470A publication Critical patent/JP2013003470A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

【課題】
音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。
【解決手段】
実施形態の音声処理装置は、音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。
【選択図】図1

Description

本発明の実施形態は、音声処理装置、音声処理方法および音声処理方法により作成されたフィルタに関する。
音声合成技術により合成された音声波形は、人の実際の音声と比較してこもったような音質になるという問題があった。これを解決するために、音声波形に変換する前の音声特徴量にフィルタを適用して、音声スペクトルの凹凸を強調することが提案されている。
音声スペクトルの凹凸の強調する処理では、従来は、ユーザによって設定された2組の補間関数を用いて、入力されたLSP係数とフラットな周波数特性を持つLSP係数との間におけるフィルタの補正量を決定していた。
しかしながら、上述した方法では、音声を強調する際のフィルタ特性が、ユーザが設定した補間関数によって調整されていた。そのため、音声スペクトルの凹凸を強調する際のフィルタ特性を適切に制御することができなかった。
特開平9‐230869号公報
Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, "Speech parameter generation algorithms for HMM-based speech synthesis," Proc. of ICASSP, June 2000, p.1315-1318. Tomoki Toda, Alan W. Black, Keiichi Tokuda, "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory," IEEE Transactions on Audio, Speech and Language Processing, Nov. 2007, Vol.15, No.8, p.2222-2235.
発明が解決しようとする課題は、音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。
実施形態の音声処理装置は、音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。
第1の実施形態の音声処理装置を示すブロック図。 実施形態の音声処理装置のフローチャート(フィルタ作成部)。 実施形態の第1の正規化累積度数分布を示す図。 実施形態の音声処理装置のフローチャート(音声合成部)。 実施形態の第1および第2の正規化累積度数分布を示す図。 実施形態の第1、第3、第4の音声特徴量の正規化累積度数分を示す図。 実施形態の音声波形のスペクトルを示す図。 変形例1の音声処理装置を示すブロック図。 変形例3の音声処理装置を示すブロック図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の音声処理装置は、任意のテキストから音声波形を生成する音声合成を想定しており、フィルタを用いて音声スペクトルの凹凸を強調することにより、音声合成により生成された人工的な音声波形の音質を目標となる実音声データに近づけることを目的としている。ここでは、オフラインで音声スペクトルの凹凸を強調するためのフィルタを作成し、オンラインでこのフィルタを用いて任意のテキストを読み上げるための音声波形を生成する。
フィルタを作成するオフライン処理では、目標となる実音声データから抽出した第1の音声特徴量と、この実音声データのコンテキスト情報および音声合成辞書を用いて生成した第2の音声特徴量とから、それぞれ第1および第2のヒストグラムを計算する。そして、第1のヒストグラムの度数を累積して計算した第1の累積度数および第2のヒストグラムの度数を累積して計算した第2の累積度数に基づいてフィルタを作成する。ここで、本実施形態の音声処理装置は、ユーザの手動調整ではなく、第2の累積度数を目標となる実音声データから求めた第1の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。
任意のテキストの音声波形を生成するオンライン処理では、読み上げ対象となるテキストを解析し音声合成辞書を用いて生成した音声合成のための第3の音声特徴量を、オフライン処理で生成したフィルタを用いて第4の音声特徴量に変換する。最後に、第4の音声特徴量から音声スペクトルの凹凸を強調した音声波形を生成する。
本実施形態では、音声合成のための第3の音声特徴量は、フィルタ作成の際に生成された第2の音声特徴量と同様な方法で抽出された音声特徴量である。したがって、第2の累積度数を第1の累積度数に近づける基準で作成されたフィルタを用いて、第3の音声特徴量を第4の音声特徴量に変換することにより、第4の音声特徴量の累積度数自体を第1の累積度数に近づけることができる。累積度数が近づくことは、音声特徴量のスペクトル特性が近づくことを意味しており、結果として、第4の音声特徴量から生成される人工的な音声波形の音質を目標となる実音声データに近づけることができる。
(ブロック構成)
図1は、第1の実施形態にかかる音声処理装置を示すブロック図である。本実施形態の音声処理装置は、隠れマルコフモデルを利用して任意のテキストから音声波形を生成する。この音声処理装置は、オフラインでフィルタを作成するフィルタ作成部101と、作成されたフィルタを用いてオンラインで音声波形を合成する音声合成部102とを備える。
フィルタ作成部101は、音声データ格納部111に格納された実音声データからスペクトルに関する第1の音声特徴量を抽出する第1特徴量抽出部103と、第1の音声特徴量から第1のヒストグラムを計算する第1ヒストグラム計算部104と、第1のヒストグラムから第1の累積度数を計算する第1累積度数計算部105と、音声データ格納部111に記憶されたコンテキスト情報および音声合成辞書106に記憶された隠れマルコフモデルを用いて、スペクトルに関する第2の音声特徴量を生成する第2特徴量抽出部107と、第2の音声特徴量から第2のヒストグラムを計算する第2ヒストグラム計算部108と、第2のヒストグラムから第2の累積度数を計算する第2累積度数計算部109と、第1および第2の累積度数に基づいて、第3の音声特徴量を第4の音声特徴量に変換するフィルタを作成するフィルタ作成処理部110とを備える。
音声データ格納部111は、フィルタを設計する際の目標となる実音声データおよびこの実音声データのコンテキスト情報を記憶している。コンテキスト情報とは、実音声データの発話内容に関する音韻情報、文中の位置、品詞や係り先などの言語情報である。また、音声合成辞書106は、第2特徴量抽出部107および第3特徴量抽出部113で音声特徴量を生成する際に利用する隠れマルコフモデルを記憶している。
音声合成部102は、読み上げ対象となる第1のテキストを解析してコンテキスト情報を抽出するテキスト解析部112と、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いてスペクトルに関する第3の音声特徴量を生成する第3特徴量抽出部113と、フィルタ作成部101で作成されたフィルタを用いて、第3の音声特徴量を第4の音声特徴量に変換する特徴量変換部114と、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて音源に関する特徴量(音源特徴量)を生成する音源特徴量抽出部115と、第4の音声特徴量および音源特徴量から音声波形を生成する波形生成部116とを備える。
(フローチャート: フィルタ作成部)
図2は、本実施形態にかかる音声処理装置において、オフラインでフィルタを作成する際のフローチャートである。まず、ステップS1では、第1特徴量抽出部103は、音声データ格納部111から実音声データを取得し、取得した音声波形を20〜30ms程度の長さのフレームに分割する。
次に、ステップS2では、第1特徴量抽出部103は、各フレームの音響分析を行い第1の音声特徴量を抽出する。ここで、第1の音声特徴量は、音声の声色や音韻情報を表すスペクトルに関する特徴量であり、例えば、音声データをフーリエ変換することにより得られる離散スペクトル、LPC係数、ケプストラム、メルケプストラム、LSP係数、メルLSP係数などを用いることができる。本実施形態では、第1の音声特徴量としてメルLSP係数を用いる。メルLSP係数は短時間フーリエ変換により得られたスペクトルをメルスケールに変換した後にLSP分析を行うことで抽出する。
第1の音声特徴量の次元数はDとし、n番目のフレームから抽出した第1の音声特徴量yは、(1)式で表わされる。Tは転置を表す。
Figure 2013003470
ステップS3では、第1ヒストグラム計算部104は、総数Nフレームの第1の音声特徴量から第1のヒストグラムを計算する。ステップS3の詳細を説明する。まず、第1ヒストグラム計算部104は、第1の音声特徴量の各次元について最大値ymax(d)および最小値ymin(d)を計算する(ステップS201)。dは次元を表す。そして、この最大値および最小値の範囲内でI+1個の階級を設定し(ステップS202)、各階級における第3の音声特徴量の頻度を計算することで、(2)式で表される各次元のヒストグラムを得る(ステップS203)。
Figure 2013003470
ステップS4では、第1累積度数計算部105は、第1の正規化累積度数を計算する。具体的には、第1のヒストグラムから各階級の度数を累積することにより累積度数を求め(ステップS204)、求めた累積度数を総数Nで割ることで正規化する(ステップS205)。正規化された第1の累積度数(第1の正規化累積度数)は、(3)式で表される。
Figure 2013003470
正規化後の累積度数の値域は、0〜1になる。
次に、ステップS5では、第2特徴量抽出部107は、音声データ格納部111に格納された音声データに関するコンテキスト情報を取得する。
ステップS6では、第2特徴量抽出部107は、ステップS5で取得したコンテキスト情報と音声合成辞書106の隠れマルコフモデルを用いてスペクトルに関する第2の音声特徴量を生成する。本実施形態では、第2の音声特徴量は第1の音声特徴量と同様にメルLSPとなる。第2の音声特徴量の次元数は、第1の音声特徴量と同様にDであり、m番目のフレームから抽出した第2の音声特徴量xは、(4)式で表される。
Figure 2013003470
ステップS7では、総数Mフレームの第2の音声特徴量から第2のヒストグラムを計算する。ステップS206〜S208の処理は、それぞれステップS201〜S203と同様であるため説明を省略する。なお、ステップS206において、第2の音声特徴量の最大値および最小値を、第1の音声特徴量の最大値および最小値で代用することもできる。
ステップS8では、(5)式で表される正規化された第2の累積度数(第2の正規化累積度数)を求める。
Figure 2013003470
ステップS209およびS210の処理は、それぞれステップS204およびS205と同様であるため説明を省略する。
次に、ステップS9では、フィルタ作成処理部110は、第1および第2の正規化累積度数に基づいて、後述する第3の音声特徴量を第4の音声特徴量に変換するフィルタを作成する。ここでは、第2の累積度数を実音声データから計算した第1の累積度数に近づけるという基準でフィルタを作成する。
ステップS9の詳細を説明する。まず、K個の正規化累積度数p(0≦k<K)を設定する(ステップS211)。例えば、Kを11として、(6)式のように0.1刻みに設定する。
Figure 2013003470
なお、pはステップS9の処理ではなく、事前に設定してもよい。
次に、全てのp(0≦k<K)について、第1の正規化累積度数分布において(7)式を満たす階級iを探索する(ステップS212)。
Figure 2013003470
同様に第2の正規化累積度数分布についても、(8)式を満たす階級jを探索する(ステップS212)。
Figure 2013003470
次に、(9)式の線形補間により、第1の正規化累積度数分布においてpに対応する音声特徴量の値y(p,d)を求める(ステップS213)。
Figure 2013003470
ここで、i(k)は、ステップS212で探索された階級である。また、第1の正規化累積分布において、y(i(k),d)は、階級i(k)に対応する音声特徴量の値である。図3に、第1の正規化累積分布上でのpとy(p,d)の関係を示す。
同様に、(10)式の線形補間により、第2の正規化累積度数分布においてpに対応する値x(p,d)を求める(ステップS213)。
Figure 2013003470
ステップS214では、フィルタ作成処理部110は、ステップS213で計算された音声特徴量の値をフィルタとして記憶する。d次元目の特徴量に対応するフィルタT(d)は(11)式で表される。
Figure 2013003470
ここで、第1および第2の音声特徴量の最大値および最小値を用いて、フィルタT(d)の値を(12)式および(13)式のように置き換えてもよい。
Figure 2013003470
Figure 2013003470
以上の処理により、本実施形態の音声処理装置は、音声特徴量の各次元についてフィルタT(d)を作成する。フィルタT(d)は、所定の正規化累積度数pを用いて、第1および第2の正規化累積度数の対応関係を保存している。これにより、後述する特徴量変換部114は、フィルタT(d)を用いて第2の正規化累積度数を第1の正規化累積度数に近づけるような変換を実現できる。
(フローチャート: 音声合成部)
図4は、本実施形態にかかる音声処理装置において、フィルタを用いて音声スペクトルの凹凸が強調された音声波形を生成する際のフローチャートである。まず、ステップS41では、テキスト解析部112は、読み上げ対象となる第1のテキストを解析してコンテキスト情報を抽出する。コンテキスト情報は、音素情報、アクセント句長、品詞情報などを含んでおり、構文解析により抽出できる。
次に、ステップS42では、第3特徴量抽出部113は、抽出されたコンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて(14)式で表される第3の音声特徴量を生成する。
Figure 2013003470
第3の音声特徴量はスペクトルに関する特徴量であり、第1および第2の音声特徴量と同様にメルLSPを用いる。また、第3の音声特徴量の抽出方法は、第2の音声特徴量の抽出方法と同様である。
次に、ステップS43では、特徴量変換部114は、オフライン処理で作成されたフィルタT(d)を用いて第3の音声特徴量を第4の音声特徴量に変換する。
ステップS43の詳細を説明する。まず、特徴量変換部114は、第3の音声特徴量の各次元について、(15)式を満たすk(d)を探索する(ステップS401)。
Figure 2013003470
次に、特徴量変換部114は、各次元の第3の音声特徴量x (d)を第4の音声特徴量y (d)に変換する(ステップS402)。変換は(16)式で表すことができる。
Figure 2013003470
図5を用いて(16)式の動作を説明する。まず、図5(a)に示す第2の正規化累積度数分布において、変換前の第3の音声特徴量x (d)の正規化累積度数pを、x(pk(d)d)、x(pk(d)+1d)、pk(d)およびpk(d)+1を用いた線形補間により求める。次に、図5(b)に示す第1の正規化累積度数分布において、上記正規化累積頻度pに対応する変換後の音声特徴量y (d)を、y(pk(d),d)、y(pk(d)+1,d)、pおよびpk+1を用いて線形補間により求める。これらの処理をまとめたものが(16)式に相当する。
図6に、変換前後における第3の音声特徴量の正規化累積度数分布を示す。この図より、第4の音声特徴量y (d)から計算した正規化累積度数分布の形状は、実音声データから計算した第1の正規化累積度数分布の形状に近付いていることが分かる。つまり、第4の音声特徴量がもつスペクトル特性が、音声データ格納部111に格納された実音声データがもつスペクトル特性に近づいたことを意味する。これは、変換前の第3の音声特徴量は第2の音声特徴量と同様な方法で抽出されており、かつ、フィルタT(d)は、第2の正規化累積度数を第1の正規化累積度数に近づけるという基準で設計されているからである。
なお、ステップS42で生成した第3の音声特徴量x (d)が、第2の音声特徴量の最大値を超えたり最小値を下回ったりする場合は、変換をせずに出力したり、x (d)を最大値あるいは最小値に置き換えて変換したりすることができる。
ステップS44では、音源特徴量抽出部115は、コンテキスト情報および音声合成辞書106の隠れマルコフモデルを用いて音源特徴量を生成する。音源特徴量には、非周期成分や基本周波数がある。
最後に、ステップS45では、波形生成部116は、第4の音声特徴量y (d)および音源特徴量から音声波形を生成する。図7に、変換前後の音声波形のスペクトルを示す。この図からも、本実施形態のフィルタを用いた変換により、音声スペクトルの凹凸が強調されることが分かる。
(効果)
このように、本実施形態にかかる音声処理装置は、実音声データから計算した第1の累積度数と音声合成辞書を用いて計算した第2の累積度数に基づいて、第2の累積度数を第1の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。
また、本実施形態にかかる音声処理装置は、フィルタ特性をユーザの手動で調整する必要がないため、フィルタ作成に必要な時間的コストを削減することができる。
さらに、本実施形態にかかる音声処理装置は、音声合成辞書を用いて計算した第2の累積度数を実音声データから計算した第1の累積度数に近づける基準でフィルタを作成する。そして、このフィルタを用いて音声合成のための第3の音声特徴量を第4の音声特徴量に変換する。これにより、第4の音声特徴量から生成された音声波形の音質を実音声データに近づけることができる。
(変形例1)
本実施形態では、第1ヒストグラム計算部104および第2ヒストグラム計算部108の2つのヒストグラム計算部を設けたが、これらを1つにまとめることもできる。第1累積度数計算部105および第2累積度数計算部109についても同様である。
また、本実施形態では、第1〜第3の音声特徴量としてスペクトルに関するメルLSPを音声特徴量として用いたが、この他にも、音声に含まれる周期・非周期性の度合いを表す非周期成分、声の高さを表す基本周波数を音声特徴量として用いることができる。また、特徴量の時間方向の変化、周波数方向の変化の度合い、特徴量の次元間の差分、対数値を用いてもよい。
また、図8に示すように、第2特徴量抽出部107がテキスト解析部112で抽出されたコンテキスト情報を利用して第2の音声特徴量を抽出してもよい。この場合、第2の音声特徴量と第3の音声特徴量が同一となり、フィルタ作成部101は読み上げ対象となるテキスト毎にフィルタT(d)を作成する。これにより、各テキストに最適なフィルタが作成することができる。
また、本実施形態では、累積度数を正規化したが、正規化せずにフィルタを作成することもできる。
また、特徴量変換部114が、全ての次元ではなく特定の次元についてフィルタを適用するようにしてもよい。例えば、音声特徴量の総次元数が50であれば、1から30次元はフィルタT(d)を用いて変換し、残りの31〜50次元は変換を行わないなどの処理が可能である。
(変形例2)
フィルタ作成処理部110では、第2の正規化累積度数分布を第1の正規化累積度数分布に近づけるd次元目のフィルタT(d)として、(17)式を満たす係数a 、b を用いることができる。
Figure 2013003470
(17)式を解くと(18)式となる。
Figure 2013003470
特徴量変換部114では、(19)式を用いて各次元の第3の音声特徴量x (d)を第4の音声特徴量y (d)に変換する。
Figure 2013003470
(変形例3)
本実施形態では、テキスト音声合成における音声強調について説明したが、他の用途に音声強調を用いることもできる。図9は、入力された音声データの声質を変換する機能を有した音声処理装置のブロック図を示している。この音声処理装置は、声質変換部121に入力された変換前の音声データの声質を、音声データ格納部111に格納された実音声データの声質に近づけることを目的としている。例えば、音声データ格納部111にユーザの実音声データを格納しておけば、声質変換部121に入力された任意の音声波形の声質をユーザの声質に近づくよう変換することができる。
この音声処理装置は、音声データの声質を変換する声質変換部121を備えている。第2の特徴量抽出部117および第3の特徴量抽出部118は、音声データからそれぞれ第2および第3の音声特徴量を抽出する。声質変換処理部119は、声質を変換するためのフィルタである声質変換フィルタ125を用いて第3の音声特徴量の声質を変換する。特徴量変換部114は、声質変換後の第3の音声特徴量を、フィルタT(d)により音声スペクトルの凹凸を強調した第4の音声特徴量に変換する。
本変形例では、第2音声特徴量抽出部117および第3音声特徴量抽出部118は、互いに同じ方法で音声特徴量を抽出する。また、声質変換処理部124および声質変換処理部119も同じ方法で声質を変換することから、第2ヒストグラム計算部108に入力される音声特徴量と音声特徴量変換部114に入力される音声特徴量は同一なものになる。フィルタT(d)は、声質変換処理部124により声質が変換された第2の音声特徴量の累積度数を、実音声データから計算した第1の累積度数に近づける基準で生成される。このフィルタT(d)を用いた変換により、第4の音声特徴量から生成された音声波形の音質を実音声データの音質に近づけることができる。
このように、本実施形態で説明した音声強調処理は、音声合成だけでなく、声質変換、音声符号化等に用いられる音声特徴量に対しても適用可能である。
なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101、122、123 フィルタ作成部
102 音声合成部
103 第1特徴量抽出部
104 第1ヒストグラム計算部
105 第1累積度数計算部
106 音声合成辞書
107、117 第2特徴量抽出部
108 第2ヒストグラム計算部
109 第2累積度数計算部
110 フィルタ作成処理部
111 音声データ格納部
112 テキスト解析部
113、118 第3特徴量抽出部
114 特徴量変換部
115、120 音源特徴量抽出部
116 波形生成部
119、124 声質変換処理部
121 声質変換部
125 声質変換フィルタ

Claims (10)

  1. 音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、
    前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、
    前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段と、
    を備える音声処理装置。
  2. 前記フィルタ作成手段が、前記第1および第2の累積度数の値域において所定値を設定し、前記第1の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値と、前記第2の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値とを用いて前記フィルタを作成する請求項1記載の音声処理装置。
  3. 前記フィルタ作成手段で作成されたフィルタを用いて、前記第2の音声特徴量と同様な方法で抽出された第3の音声特徴量を第4の音声特徴量に変換する特徴量変換手段を更に備える請求項1乃至請求項2記載の音声処理装置。
  4. 前記累積度数計算手段で計算される前記第1および第2の累積度数が、それぞれ前記第1の音声特徴量の総数および前記第2の音声特徴量の総数で正規化されたものである請求項1から請求項3の何れか1項に記載の音声処理装置。
  5. 前記第2および第3の音声特徴量が、コンテキスト情報および音声合成のための辞書を用いて生成された音声特徴量である請求項3記載の音声処理装置。
  6. 前記第2および第3の音声特徴量が、声質を変換するフィルタにより値が変換された音声特徴量である請求項3記載の音声処理装置。
  7. 前記第2および第3の音声特徴量が、同一の音声特徴量である請求項3、請求項5、請求項6の何れか1項に記載の音声処理装置。
  8. 前記第1から第3の音声特徴量が、スペクトル包絡、スペクトル包絡を示すパラメータ、基本周波数、音声の周期性・非周期性を示すパラメータのいずれかである請求項3記載の音声処理装置。
  9. 音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するステップと、
    前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算するステップと、
    前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するステップと、
    を備える音声処理方法。
  10. 請求項9記載の音声処理方法により作成されたフィルタ。
JP2011136776A 2011-06-20 2011-06-20 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ Pending JP2013003470A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011136776A JP2013003470A (ja) 2011-06-20 2011-06-20 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US13/420,824 US20120323569A1 (en) 2011-06-20 2012-03-15 Speech processing apparatus, a speech processing method, and a filter produced by the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011136776A JP2013003470A (ja) 2011-06-20 2011-06-20 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015164768A Division JP2015212845A (ja) 2015-08-24 2015-08-24 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ

Publications (1)

Publication Number Publication Date
JP2013003470A true JP2013003470A (ja) 2013-01-07

Family

ID=47354385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011136776A Pending JP2013003470A (ja) 2011-06-20 2011-06-20 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ

Country Status (2)

Country Link
US (1) US20120323569A1 (ja)
JP (1) JP2013003470A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159329B1 (en) * 2012-12-05 2015-10-13 Google Inc. Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058379A (ja) * 2006-08-29 2008-03-13 Seiko Epson Corp 音声合成システム及びフィルタ装置
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6463412B1 (en) * 1999-12-16 2002-10-08 International Business Machines Corporation High performance voice transformation apparatus and method
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US20120234158A1 (en) * 2011-03-15 2012-09-20 Agency For Science, Technology And Research Auto-synchronous vocal harmonizer
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058379A (ja) * 2006-08-29 2008-03-13 Seiko Epson Corp 音声合成システム及びフィルタ装置
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANGEL DE LA TORRE, JOSE C.SEGURA, CARMEN BENITEZ, ANTONIO M.PEINADO, ANTONIO L.RUBIO: "Non-linear transformations of the feature space for robust Speech Recognition", 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), vol. 1, JPN6014046831, 13 May 2002 (2002-05-13), pages 401 - 402, ISSN: 0002934347 *
HANNA SILEN, ELINA HELANDER, JANI NURMINEN, MONCEF GABBOUJ: "Ways to Implement Global Variance in Statistical Speech Synthesis", INTERSPEECH-2012, JPN7014003167, 9 September 2012 (2012-09-09), pages 1436 - 1439, ISSN: 0002934349 *
ZHI-ZHENG WU, TOMI KINNUNEN, ENG SIONG CHNG, HAIZHOU LI: "Text-Independent F0 Transformation with Non-Parallel Data for Voice Conversion", INTERSPEECH-2010, JPN7014003166, 26 September 2010 (2010-09-26), pages 1732 - 1735, ISSN: 0002934346 *
大谷 大和、田村 正統、森田 眞弘: "HMM音声合成におけるヒストグラムに基づくスペクトル強調法の検討", 日本音響学会 2011年 秋季研究発表会, JPN6014046832, 13 September 2011 (2011-09-13), JP, pages 349 - 350, ISSN: 0002934348 *

Also Published As

Publication number Publication date
US20120323569A1 (en) 2012-12-20

Similar Documents

Publication Publication Date Title
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
EP0970466B1 (en) Voice conversion
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Ramani et al. A multi-level GMM-based cross-lingual voice conversion using language-specific mixture weights for polyglot synthesis
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2013003470A (ja) 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
Wen et al. Pitch-scaled spectrum based excitation model for HMM-based speech synthesis
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
WO2021033629A1 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP2015212845A (ja) 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
JP2017151224A (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP6234134B2 (ja) 音声合成装置
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
López Methods for speaking style conversion from normal speech to high vocal effort speech
Ramírez López Methods for speaking style conversion from normal speech to high vocal effort speech
Mangayyagari et al. Pitch conversion based on pitch mark mapping
Sudhakar et al. Performance Analysis of Text To Speech Synthesis System Using Hmm and Prosody Features With Parsing for Tamil Language
Kachare et al. Voice conversion: Wavelet based residual selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141226

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150522