JP4241736B2 - 音声処理装置及びその方法 - Google Patents

音声処理装置及びその方法 Download PDF

Info

Publication number
JP4241736B2
JP4241736B2 JP2006011653A JP2006011653A JP4241736B2 JP 4241736 B2 JP4241736 B2 JP 4241736B2 JP 2006011653 A JP2006011653 A JP 2006011653A JP 2006011653 A JP2006011653 A JP 2006011653A JP 4241736 B2 JP4241736 B2 JP 4241736B2
Authority
JP
Japan
Prior art keywords
speech
unit
speaker
conversion
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006011653A
Other languages
English (en)
Other versions
JP2007193139A (ja
Inventor
正統 田村
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006011653A priority Critical patent/JP4241736B2/ja
Priority to EP06254852A priority patent/EP1811497A3/en
Priority to US11/533,122 priority patent/US7580839B2/en
Priority to KR1020060106919A priority patent/KR20070077042A/ko
Priority to CNA2007100042697A priority patent/CN101004910A/zh
Publication of JP2007193139A publication Critical patent/JP2007193139A/ja
Application granted granted Critical
Publication of JP4241736B2 publication Critical patent/JP4241736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Description

本発明は、変換元話者の音声を変換先話者の音声に変換する規則を作成する音声処理装置及びその方法に関する。
変換元話者の音声を入力し、その声質を変換先話者に変換する技術を声質変換技術という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元話者の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先話者のスペクトルパラメータに変換し、得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先話者の声質に変換する。
声質変換の一手法として、混合ガウス分布(GMM)に基づいて変換規則を学習する声質変換方法(例えば、非特許文献1参照)が開示されている。非特許文献1では、変換元話者の音声のスペクトルパラメータからGMMを求め、GMMの各混合における回帰行列を、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力音声のスペクトルパラメータがGMMの各混合において出力される確率により重み付けして回帰行列を適用する。これにより、変換規則が連続になり、自然な声質変換が行われる。このように、声質変換規則作成のための変換元話者の音声と変換先話者の音声とを対にして、その関係から学習を行う。非特許文献1においては、二人の話者の短い音韻単位の音声データを動的時間伸縮(DTW)により対応付けて変換規則の学習データとしている。このように従来の声質変換規則作成装置では、非特許文献1に開示されているように、変換先話者と変換元話者の同じ発話内容の音声データを対応付け、その対から変換規則を学習している。
また、任意の文章を入力し、音声波形を生成することをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長など)が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある(例えば、特許文献1参照)。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。
これら、テキスト音声合成の音声素片データベースを、ある目標とする変換先話者の少量の音声データを用いて声質変換することを考える。これにより、音声データが限られる変換先話者の声質で任意の文章を音声合成できるようになる。非特許文献1に開示されている手法を、このような声質変換に適用するためには、変換元話者と、変換先話者の同じ発話内容の音声データを用意し、その音声データを用いて声質変換規則を作成することになる。この様に、非特許文献1に開示されている手法では、大量の変換元話者の音声データと、少量の変換先話者の音声データとを用いて声質変換規則を学習する場合、声質変換規則学習に用いる音声データの発話内容が限定され、また変換元話者の大量の音声素片データベースが存在するにもかかわらず、限定された発話内容のみを用いて声質変換規則を学習するため、変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習ができない。
特開2005−164749号公報 Y.Stylianou,at el.,「Continuous Probabilistic Transform for Voice Conversion,」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.6,NO.2,MARCH 1998
上述したように、従来技術には大量の変換元話者の音声データと、少量の変換先話者の音声データを用いて声質変換規則を学習する際、学習データとして用いる音声データの発話内容が限定され、また変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習ができないという問題があった。
本発明は、上記従来技術の問題点を解決するためになされたものであって、変換先話者の任意文の発声による声質変換規則作成を可能とする音声処理装置及びその方法を提供する。
本発明は、変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報、継続長情報、音韻環境情報、スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶部と、変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出部と、前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成部と、前記先話者音声素片に対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記変換元話者音声記憶部に含まれる、先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択部と、前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された複数の声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成部と、を有することを特徴とする音声処理装置である。
本発明によれば、変換先話者の任意文の発声による声質変換規則作成を可能とする。
以下、本発明の実施形態について説明する。
(第1の実施形態)
以下、本発明の第1の実施形態に係わる声質変換規則作成装置について図1から図21に基づいて説明する。
(1)声質変換規則作成装置の構成
図1は、本実施形態に係わる声質変換規則作成装置を示すブロック図である。
声質変換規則作成装置は、変換元話者音声素片データベース11と、声質変換規則学習データ作成部12と、声質変換規則学習部13とを備え、声質変換規則14を作成する。
声質変換規則学習データ作成部12は、変換先話者の音声データを入力し、任意の音声単位に区切って得られる音声素片それぞれに対して、変換元話者音声素片データベース11から変換元話者の音声素片を選択し、前記変換先話者の音声素片と選択された変換元話者の音声素片との対を学習データとする。
声質変換規則学習部13では、声質変換規則学習データ作成部12で作成された学習データを用いて声質変換規則14を学習する。
(2)声質変換規則学習データ作成部12
図2に、声質変換規則学習データ作成部12の構成を示す。
音声素片抽出部21において、変換先話者の音声データは、任意の音声単位の音声素片に分割されて変換先話者音声素片を抽出する。
属性作成部22において、抽出された変換先話者音声素片に対応する属性情報が作成される。
変換元話者音声素片選択部23において、前記変換先話者音声素片の属性情報と、変換元話者音声素片データベースに含まれる変換元話者音声素片の属性情報との歪みを表すコスト関数に基づいて、変換先話者音声素片に対応する変換元話者音声素片が選択される。
このように選択された変換先話者音声素片と、変換元話者音声素片の対を、声質変換規則の学習データとする。
以下、声質変換規則学習データ作成部12の処理の詳細を述べる。
(2−1)音声素片抽出部21
音声素片抽出部21では、変換先話者の音声データから任意の音声単位の音声素片を抽出する。音声単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
図3に音声素片抽出部21の処理のフローチャートを示す。
ステップS31において、入力された変換先話者音声データに対して音素単位等のラベル付けを行う。
ステップS32において、ピッチマークを付与する。
ステップS33において、任意の音声単位に対応する音声素片に分割する。
図4に「そう話す」という文に対してラベリング及びピッチマーキングを行った例を示す。図4(a)は、音声データの音素境界にラベルを付与した例、図4(b)は「a」の部分に対してピッチマーキングを行った例を示している。
ラベリングは音声単位の境界と各音声単位の音韻種別を表すラベルを付与することであり、隠れマルコフモデルを用いる方法などにより行われる。自動ラベリングに限らず、人手で付与してもよい。また、ピッチマーキングは音声の基本周期に同期したマークを付与することであり、波形のピークを抽出する方法などにより行われる。
このように、ラベリング、ピッチマーキングを行い、音声素片に分割する。音声単位を半音素とした場合、図4(b)に示すように音素境界及び音素中心で波形を分割し、「aの左素片(a−left)」、「aの右素片(a−right)」のように求められる。
(2−2)属性作成部22
次に、属性作成部22において、音声素片抽出部21において抽出された音声素片に対応する属性情報を求める。音声素片の属性は、基本周波数情報、継続長情報、音韻環境情報、スペクトル情報などの情報が用いられる。
図5に作成された変換先話者属性情報の例を示す。ここでは、基本周波数情報、音韻継続時間長、接続境界のケプストラム及び音韻環境を属性としており、基本周波数は音声素片内の平均値(Hz)、音韻継続時間長はミリ秒単位(msec)、スペクトルパラメータは接続境界のケプストラム、音韻環境は前後の隣の音素としている。
基本周波数は、例えば自己相関関数に基づいてピッチ抽出し、基本周波数に変換し、素片内の平均値を求めることにより求められる。また、スペクトル情報となるケプストラムは音声素片境界の端のピッチ波形を分析することにより求められる。
音韻環境は、前野音韻の種類及び後ろの音韻の種類を保持している。これにより変換先話者の音声素片及び対応する変換先話者属性情報が求められる。音韻環境は、前の音韻の種類及び後ろの音韻の種類を保持している。
(2−3)変換元話者音声素片データベース11
変換元話者音声素片データベース11は、変換元話者の音声データから作成した音声素片及び属性情報が記憶されている。音声素片の音声単位、属性情報は、音声素片抽出部21及び属性作成部22において得られるものと同様のものである。
変換元話者音声素片データベース11には、図6に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されている。
また、音声素片と共に図7に示すように各音声素片の属性情報が、当該音声素片の素片番号と共に記憶されている。
音声素片及び属性情報は、変換先話者音声素片抽出部21、属性作成部22の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。
(2−4)変換元話者音声素片選択部23
変換元話者音声素片選択部23では、変換先話者の音声素片の属性情報と、変換元話者の属性情報の歪みをコスト関数として表し、変換先話者の各音声素片に対してコストが最小となる変換元話者の音声素片を選択する。
(2−4−1)コスト関数
コスト関数は、属性情報毎にサブコスト関数Cn(ut,uc)(n:1,…,N、Nはサブコスト関数の数)として表す。utは変換先話者の音声素片、ucは変換元話者音声素片データベース11に含まれる変換元話者の音声素片のうち、utと同じ音韻の音声素片を表す。
サブコスト関数は、変換先話者の音声素片と変換元話者との音声素片の基本周波数の違い(差)を表す基本周波数コストC1(ut,uc)、音韻継続時間長の違い(差)を表す音韻継続時間長コストC2(ut,uc)、素片境界におけるスペクトルの違い(差)を表すスペクトルコストC3(ut,uc)、C4(ut,uc)、音韻環境の違い(差)を表す音韻環境コストC5(ut,uc)、C6(ut,uc)を用いる。
具体的には、基本周波数コストは、
Figure 0004241736
のように対数基本周波数の差として算出する。ここで、f(u)は音声素片uに対応する属性情報から平均基本周波数を取り出す関数を表す。
また、音韻継続時間長コストは、
Figure 0004241736
から算出する。ここで、g(u)は音声素片uに対応する属性情報から音韻継続時間長を取り出す関数を表す。
スペクトルコストは、音声素片の境界におけるケプストラム距離
Figure 0004241736
から算出する。ここで、h(u)は音声素片uの左素片境界、h(u)は右素片境界のケプストラム係数をベクトルとして取り出す関数を表す。
音韻環境コストは、隣の素片が等しいかどうかを表す距離
Figure 0004241736
から算出する。
変換先話者の音声素片と変換元話者の音声素片の歪みを表すコスト関数は、これらのサブコスト関数の重み付き和として定義する。
Figure 0004241736
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wnは全て「1」とする。上記式(5)は、ある変換先話者音声素片に、変換元話者音声素片データベース中のある音声素片を当てはめた場合の歪みを表す当該音声素片のコスト関数である。
(2−4−2)処理の内容
変換元話者音声素片選択部23では、上述したコスト関数を用いて変換先話者の音声素片に対応する変換元話者の音声素片を選択する。この処理を図8に示す。
ステップS81〜S83において、変換元話者音声素片データベースに含まれる変換先話者の音声素片と同じ音韻の音声素片全てについてループし、コスト関数の値を計算する。ここで同じ音韻とは、音声単位に対応した音韻の種類が等しいものであり、半音素単位であれば「aの左素片」、「iの右素片」などの種類が等しいことを示す。
ステップS81〜S83において、変換先音声素片と同じ音韻の全ての変換元話者音声素片コストが求められる。
ステップS84において、その中からコスト値を最小とする変換元話者音声素片を選択する。
これらの処理により変換先話者音声素片と変換元話者音声素片の学習データの対が求まる。
(2−4−3)他の処理の内容
図8の変換元話者音声素片選択部23では、各変換先話者音声素片に対し、コスト最小となる最適な音声素片を一つ選択しているが、複数の音声素片を選択しても良い。
この場合、変換元話者音声素片選択部23は、図9に示す処理により変換元話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト値の小さい方から順に上位N個の変換元話者の音声素片を選択する。
まず、ステップS81〜S83において、変換元話者音声素片データベースに含まれる変換先話者の音声素片と同じ音韻の音声素片全てについてループし、コスト関数の値を計算する。
その後、ステップS91において、コストに基づいて音声素片をソートし、ステップS92において、コスト値の小さいものから上位N個の音声素片を選択する。
このようにして一つの変換先話者の音声素片に対してN個の変換元話者の音声素片を選択することができ、変換元話者の音声素片それぞれと、対応する変換先話者の音声素片とを学習データの対とする。
これにより、変換先話者のそれぞれの音声素片に対して複数の変換元話者の音声素片が用いられるため、変換元話者音声素片と最適変換先話者音声素片とのミスマッチによる悪影響が減少し、また学習データ量が増えるため、より安定した変換規則学習を行うことができる。
(3)声質変換規則学習部13
次に、声質変換規則学習部13について説明する。
声質変換規則学習部13では、声質変換規則学習データ作成部12において作成された変換元話者と変換先話者の音声素片の対を用いて声質変換規則14を学習する。声質変換規則としては、平行移動、単回帰分析、重回帰分析、VQに基づく声質変換、非特許文献1に示されるGMMに基づく声質変換などが挙げられる。
(3−1)処理の内容
声質変換規則学習部13の処理を図10に示す。
まず、変換先話者スペクトルパラメータ抽出部101及び変換元話者スペクトルパラメータ抽出部102において、学習データのスペクトルパラメータを求める。スペクトルパラメータは、音声素片のスペクトル包絡の情報を表すパラメータであり、LPC係数、LSFパラメータ、メルケプストラム等が用いられる。ここでは、スペクトルパラメータはピッチ同期分析により求める。すなわち、音声素片のそれぞれのピッチマークを中心として、ピッチの2倍のハニング窓をかけることによりピッチ波形を抽出し、得られたピッチ波形からスペクトルパラメータを求める。
スペクトルパラメータの一つであるメルケプストラムは、正則化離散ケプストラムによる方法(O.Cappe at el.,「Regularization Techniques for Discrete Cepstrum Estimation,」 IEEE SIGNAL PROCESSING LETTERS,VOL.3,NO.4,APRIL1996)、不偏推定による方法(小林隆夫,「音声のケプストラム分析,メルケプストラム分析」,電子情報通信学会技術研究報告,DSP98-77/SP98-56,pp.33-40,1998.9)等により求めることができる。
変換元話者音声素片、変換先話者音声素片の各ピッチマークにおいてスペクトルパラメータを求めた後、スペクトルパラメータマッピング部103でスペクトルパラメータを対応づける。
変換元話者、変換先話者の音声素片はピッチ波形数が異なるため、スペクトルパラメータマッピング部103においてピッチ波形数を揃える処理を行う。これは、DTW(動的時間伸縮)による方法、線形にマッピングする方法、区分線形関数でマッピングする方法などにより変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータを時間方向に対応付けることにより行う。
この結果、変換先話者の各スペクトルパラメータに対して、変換元話者のスペクトルパラメータが対応づけられる。この様子を図11に示す。図11は、上から変換先話者音声素片とピッチマーク、ハニング窓により切り出した各ピッチ波形及び各ピッチ波形をスペクトル分析し、得られたスペクトルパラメータから求めたスペクトル包絡とを示す。また、下から同様に変換元話者の音声素片、ピッチ波形、スペクトル包絡を示している。図10のスペクトルパラメータマッピング部103において、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを1対1対応させて、スペクトルパラメータの対を求め、これらを声質変換規則の学習データとする。
このように作成した変換元話者と変換先話者のスペクトルパラメータの対を学習データとして、声質変換規則作成部104により声質変換規則を学習する。
(3−2)声質変換規則
声質変換規則として、平行移動、単回帰分析、重回帰分析、ベクトル量子化(VQ)に基づく声質変換規則、混合ガウス分布(GMM)に基づく声質変換規則について述べる。
(3−2−1)平行移動を用いる場合
平行移動を用いる場合の声質変換規則作成部104の処理を図12に示す。
平行移動を用いる場合、声質変換規則は、次の式で表される。
Figure 0004241736
ここで、y’は変換後のスペクトルパラメータ、xは変換元のスペクトルパラメータ、bは平行移動量であり、bを学習データであるスペクトルパラメータの対から次式により求める。
Figure 0004241736
但し、Nは学習用スペクトルパラメータ対の数を表し、yiは変換先話者のスペクトルパラメータ、xiは変換元話者のスペクトルパラメータ、iは学習データ対の番号を表す。まず、ステップS121〜S123のループにより、全ての学習用スペクトルパラメータ対の差を求め、ステップS124において平行移動量bを求める。この平行移動量bが変換規則になる。
(3−2−2)単回帰分析を用いる場合
次に、単回帰分析を用いる場合の声質変換規則作成部104の処理を図13に示す。
単回帰分析の場合はスペクトルパラメータの各次元で回帰分析を行う。単回帰分析を用いる場合、声質変換規則は、次の式で表される。
Figure 0004241736
ここで、y’は変換後のスペクトルパラメータ、xは変換元のスペクトルパラメータ、a、bは回帰係数とオフセット項、kはスペクトルパラメータの次元であり、このa、bを学習データであるスペクトルパラメータの対から求める。
Figure 0004241736
但し、Nは学習用スペクトルパラメータ対の数、yiは変換先話者のスペクトルパラメータ、xiは変換元話者のスペクトルパラメータ、iは学習データ対の番号を表す。
まず、ステップS131〜S133のループにより、全ての学習用スペクトルパラメータ対から、回帰分析に必要な式(9)の各項の値を求め、ステップS134において回帰係数a及びbを求める。この回帰係数a及びbが求める変換規則になる。
(3−2−3)重回帰分析を用いる場合
次に、重回帰分析を用いる場合の声質変換規則作成部104の処理を図14に示す。
重回帰分析を用いる場合、声質変換規則は、次の式で表される。
Figure 0004241736
ここで、y’は変換後のスペクトルパラメータ、x’は変換元のスペクトルパラメータxにオフセット項(1)を加えたもの、Aは回帰行列であり、Aを学習データであるスペクトルパラメータの対から求める。kをスペクトルパラメータの次元、aを行列Aの各列とし、Yを(y1、…、yN)T、Xを(x’1、…、x’N)、x’iは変換元スペクトルパラメータxiにオフセット項を加え(xi、1)としたもの、としたとき、
Figure 0004241736
として表される方程式を解くことにより求めることができる。但し、Xは行列Xの転置を表す。
変換規則学習のアルゴリズムは、図14に示すように、まず、ステップS141〜S143のループにより、全ての学習用スペクトルパラメータ対から、X及びYを作成し、ステップS144において、式(11)の方程式を解くことにより、回帰係数aが求まり、全ての次元について解くことにより、回帰行列Aが求まる。この回帰行列Aが求める変換規則になる。
(3−2−4)ベクトル量子化を用いる場合
次に、ベクトル量子化(VQ)に基づく場合の声質変換規則作成部104の処理を図15に示す。
VQに基づく声質変換規則では、まず変換元話者のスペクトルパラメータの集合をLBGアルゴリズムによりC個のクラスタにクラスタリングし、VQにより声質変換規則学習データ作成部12において作成された学習データ対の変換元話者スペクトルパラメータを各クラスタに割り当て、各クラスタにおいて重回帰分析を行う。VQに基づく声質変換規則は次式で表される。
Figure 0004241736
はクラスタcの回帰行列、sel(x)は、xがクラスタcに属する場合は1それ以外は0を返す選択関数である。式(12)は、選択関数により回帰行列を選択して、各クラスタにおいてスペクトルパラメータの変換を行うことを表している。
この概念図を図16に示す。図中黒丸は変換元話者スペクトルパラメータ、白丸はLBGアルゴリズムにより求められたセントロイドを示す。
図中の線に示すように変換元話者スペクトルパラメータの空間はクラスタリングされ、各クラスタにおいて、回帰行列Aを求める。変換時には入力された変換元話者のスペクトルパラメータを各クラスタに対応づけ、各クラスタの回帰行列によりスペクトルパラメータを変換する。
まず、声質変換規則作成部104では、ステップS151においてクラスタリングを行い、各クラスタのセントロイドを求める。予め定めたクラスタ数CになるまでLBGアルゴリズムにより変換元話者のスペクトルパラメータをクラスタリングする。クラスタリングの学習データは変換元話者音声素片データベース11に含まれる全ての音声素片から抽出したピッチ波形のスペクトルパラメータを用いて行う。声質変換規則学習データ作成部12において選択された変換元話者の音声素片のスペクトルパラメータのみをクラスタリングしてもよい。
次に、ステップS152〜S154において、声質変換規則学習データ作成部12において作成された学習データ対の変換元話者スペクトルパラメータをベクトル量子化し、それぞれのスペクトルパラメータをクラスタに割り当てる。
そして、ステップS155〜S157において、変換元話者スペクトルパラメータと変換先話者スペクトルパラメータの対を用いて各クラスタの回帰行列を求める。回帰行列の計算ステップ156においては、図14のステップS141〜S144に示す処理と同様に、クラスタ毎に式(11)の方程式を作成し、これを解くことにより回帰行列Aを求める。VQに基づく声質変換規則では、LBGアルゴリズムにより得られた各クラスタのセントロイド及び各クラスタの回帰行列Aが声質変換規則になる。
(3−2−5)GMMを用いる場合
最後に、非特許文献1において提案されているGMMに基づく声質変換の声質変換規則作成部104の処理を図17に示す。GMMに基づく声質変換規則では、GMMにより変換元話者スペクトルパラメータをモデル化し、入力した変換元話者のスペクトルパラメータがGMMの各混合成分において観測される事後確率により重み付けして声質変換を行う。GMMλは、ガウス分布の混合として、次式で表される。
Figure 0004241736
このとき、GMMに基づく声質変換の変換規則は次式で示される。
Figure 0004241736
Figure 0004241736
により求める。
GMMに基づく声質変換では、各混合の間で連続に変化する回帰行列が得られるという特徴がある。概念図を図18に示す。図中黒丸は変換元話者スペクトルパラメータ、白丸はGMMの最尤推定により求められた各混合の平均値を表す。
GMMに基づく声質変換では、VQに基づく声質変換規則における各クラスタが、GMMの各混合に対応し、それぞれの混合はガウス分布であらわされ平均μc、分散Σc、混合重みwcをパラメータとして持つ。各混合の回帰行列をAとしたとき、xは式(14)の事後確率に基づいて各混合の回帰行列を重み付けするように適応される。
図中の式に示したように、変換元のスペクトルパラメータxが混合m1において生成される確率が0.3、混合m2において生成される確率が0.6、混合m3において生成される確率が0.1となる場合、各クラスタの回帰行列を用いて変換したスペクトルパラメータの重み付け和により変換先のスペクトルパラメータyが求まる。
GMMに基づく声質変換規則作成部104では、まずステップS171によりGMMを最尤推定する。GMMの初期値としては、LBGアルゴリズムで作成したクラスタを与え、EMアルゴリズムによりGMMの各パラメータを最尤推定する。次にS172〜S174において、回帰行列を求めるための方程式の係数を求める。特許文献1に述べられているように、式(14)により重み付けしたデータに対して図14に示す処理と同様の処理を行うことにより方程式の係数が求まる。そして、ステップS175において、各混合の回帰行列Acを求める。GMMに基づく声質変換規則では、GMMのモデルパラメータλ及び各混合における回帰行列Aが声質変換規則になる。
以上により、平行移動、単回帰分析、重回帰分析、ベクトル量子化(VQ)に基づく声質変換規則、または混合ガウス分布(GMM)に基づく声質変換それぞれの声質変換規則が求められる。
(4)効果
本実施形態により、変換先話者の音声データから音声素片及び属性情報を抽出し、属性情報の歪みに基づいて変換元話者の音声素片データベースから音声素片を選択し、変換先話者音声素片、変換元話者音声素片の対を学習データとして声質変換規則を学習することができる。
また、変換先話者の任意文の発声による声質変換規則作成を可能とし、また変換元話者の大量の音声素片データベースに含まれる情報を反映した変換規則の学習を可能とする声質変換規則作成装置を提供することができる。
(5)変更例
本実施形態では、変換先話者の属性情報と、変換元話者の属性情報との歪みを式(5)に表されるコスト関数として、コストが最小となる変換元話者の音声素片もしくは、複数の変換元話者の音声素片を選択している。
これに代えて、変換先話者の属性情報を変換元話者の属性情報に近づけるように変換し、変換した変換先話者属性情報と、変換元話者属性情報との間の歪みから式(5)のコストを求め変換元話者の音声素片を選択してもよい。
(5−1)属性作成部22の処理
この場合の属性作成部22の処理を、図19に示す。
属性作成部22では、変換先話者の音声素片から変換先話者属性抽出部191により変換先話者の属性を抽出する。
変換先話者属性抽出部191では、変換先話者の基本周波数、音韻継続時間長、接続境界ケプストラム、音韻環境など図5に示す情報が抽出される。
属性変換部192において、得られた変換先話者の属性を、変換元話者の属性に近づけるように変換し、変換元話者音声素片選択部23に入力する変換先話者属性情報を作成する。属性の変換は、属性変換規則作成部194において予め作成した属性変換規則193を用いて行う。
(5−2)基本周波数と音韻継続時間長を変換する例
以下、図5に示されている属性情報のうち、基本周波数及び音韻継続時間長を変換する例を示す。
この場合、属性変換規則作成部194では、変換先話者の基本周波数を変換元話者の基本周波数へ近づける規則及び変換先話者の音韻継続時間長を変換元話者の音韻継続時間長に近づける規則を作成する。この処理のフローチャートを図20及び図21に示す。
変換先話者平均対数基本周波数抽出ステップS201において、変換先話者の音声データから抽出した対数基本周波数の平均値を求める。
変換元話者平均対数基本周波数抽出ステップS202において、変換元話者の音声データから抽出した対数基本周波数の平均値を求める。
平均対数基本周波数差計算ステップS203において、変換元話者平均対数基本周波数と、変換先話者平均対数基本周波数の差を求め、属性変換規則193とする。
同様に、図21の変換先話者平均音韻継続時間長ステップS211において、変換先話者の音韻継続時間長の平均値を求める。
変換元話者平均音韻継続時間長ステップS212において、変換元話者の音韻継続時間長の平均値を求める。
音韻継続時間長比計算ステップS213において、変換元話者の平均音韻継続時間長と、変換先話者の平均音韻継続時間長の比を求めて属性変換規則193とする。
属性変換規則193は、平均対数基本周波数差、平均音韻継続時間長比だけでなく、平均対数基本周波数のレンジを補正する規則などを用いてもよい。また、全データで共通の規則ではなく、音韻毎・アクセント型毎の規則作成など属性をクラスタリングして、各クラスタにおいて属性変換規則を求めてもよい。このように属性変換規則作成部194において属性変換規則193が作成される。
属性作成部22では、変換先話者音声素片から、図5に示す属性を求め、属性中の基本周波数、音韻継続時間長を、属性変換規則193に保持されている変換規則で変換する。基本周波数は、対数基本周波数に変換し、対数基本周波数に対して平均対数基本周波数差を加えることにより変換元話者の基本周波数に近づけるように変換し、変換された対数基本周波数から基本周波数に戻すことにより素片選択時の変換先話者の基本周波数属性とする。
音韻継続時間長は、平均音韻継続時間長比をかけることにより変換元話者の音韻継続時間長に近づけるように変換し、変換した属性を素片選択時の変換先話者音韻継続時間長属性とする。
これにより、男声の声から女声の声に変換する場合のように平均基本周波数が大きく異なる話者の間で声質変換規則を学習する場合に、変換先話者の女声の基本周波数を属性として、変換元話者の男性の音声素片データベースから素片選択すると、男声の音声素片データベース中の最も基本周波数の高い素片ばかりが選択されてしまい、選択される素片に偏りが生じることを避けることができる。
また、話速の早い変換元話者から話速の遅い変換先話者に変換する声質変換規則を作成する際に、変換元話者の音声素片の中から最も音韻継続時間長の長い音声素片ばかりが選択され、選択される素片に偏りが生じることを避けることができる。
これにより、変換先話者と変換元話者の特徴が異なる場合においても、変換元話者の音声素片データベースに含まれるそれぞれの音声素片の特徴を反映した声質変換規則を作成することができる。
(第2の実施形態)
以下、本発明の第2の実施形態に係わる声質変換装置について図23から図26に基づいて説明する。
声質変換装置は、第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を変換元話者の任意の音声データに適用し、変換元話者の音声データの声質を変換先話者の声質に変換する。
(1)声質変換装置の構成
図23は、本実施形態に係わる声質変換装置を示すブロック図である。
まず、変換元話者の音声データから、変換元話者スペクトルパラメータ抽出部231において、スペクトルパラメータを抽出する。
スペクトルパラメータ変換部232では、抽出されたスペクトルパラメータを第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則14により変換する。
そして、波形生成部233では、変換されたスペクトルパラメータから音声波形を生成する。これにより変換元話者音声データから変換した変換先話者音声波形が得られる。
(2)変換元話者スペクトルパラメータ抽出部231
変換元話者スペクトルパラメータ抽出部231では、変換元話者音声データに対してピッチマーキングを行い、各ピッチマークを中心としてピッチ波形を切り出し、切り出したピッチ波形に対してスペクトル分析を行う。ピッチマーキング、スペクトル分析等は、第1の実施形態において述べた変換元話者スペクトルパラメータ抽出部102と同様の方法を用いる。これにより、変換元話者の音声データの各ピッチ波形に対して、図11の変換元話者スペクトルパラメータ抽出部102に示すようなスペクトルパラメータが求まる。
(3)スペクトルパラメータ変換部232
次に、スペクトルパラメータ変換部232において、声質変換規則学習部13において作成された声質変換規則234に保持されている声質変換規則を用いて、スペクトルパラメータを変換する。
(3−1)平行移動を用いる場合
声質変換規則として平行移動を用いる場合はxを変換元のスペクトルパラメータ、yを変換後のスペクトルパラメータ、bを平行移動量として、式(6)により求まる。
(3−2)単回帰分析を用いる場合
また、単回帰分析を用いる場合は、xを変換元のk次のスペクトルパラメータ、yを変換元のk次のスペクトルパラメータ、aをk次のスペクトルパラメータに対する回帰係数、bをk次のスペクトルパラメータに対するバイアスとしたときに、式(8)により求まる。
(3−3)重回帰分析を用いる場合
また、重回帰分析を用いる場合は、xを変換元のスペクトルパラメータ、yを変換後のスペクトルパラメータ、Aを回帰行列としたとき、式(10)により求まる。
(3−4)VQに基づく方法を用いる場合
また、VQに基づく方法を用いる場合は、スペクトルパラメータ変換部232は変換元のスペクトルパラメータに対して、図24に示す処理を適用して変換する。
図24では、まずステップS241において、声質変換規則学習部13においてLBGアルゴリズムにより得られた各クラスタのセントロイドと入力されたスペクトルパラメータとの距離を求め、距離が最小となるクラスタを選択する(ベクトル量子化)。
ステップS242において、式(12)を用いてスペクトルパラメータの変換を行う。xは変換元のスペクトルパラメータ、yは変換後のスペクトルパラメータ、Aはクラスタcの回帰行列、sel(x)は、xがクラスタcに属する場合は1それ以外は0を返す関数である。
(3−5)GMMに基づく方法を用いる場合
また、GMMに基づく方法を用いる場合について図28に基づいて説明する。
図25に示すように、まずステップS251において、声質変換規則学習部13において最尤推定により得られたGMMを用いてスペクトルパラメータがGMMの各混合において生成される事後確率式(15)を求める。
次に、ステップS252において、得られた各混合における事後確率を重みとして、式(14)により変換する。p(mc|x)はxが混合mcにおいて観測される確率であり、xは変換元のスペクトルパラメータ、yは変換後のスペクトルパラメータ、Aは混合cの回帰行列である。
これらに示したように、それぞれの声質変換規則に対応して、スペクトルパラメータ変換部232において変換元話者のスペクトルパラメータを変換する。
(4)波形合成部233
次に、波形合成部233では、変換したスペクトルパラメータから波形を生成する。
変換したスペクトルパラメータから求めたスペクトルに適当な位相を与え、逆フーリエ変換することによりピッチ波形を生成し、得られたピッチ波形をピッチマークに重畳合成することにより波形が合成される。
波形合成の際のピッチマークは、変換元話者のピッチマークから、目標話者の韻律に近づけるように変更したピッチマークを用いてもよい。この場合、図20及び図21に示す属性変換規則作成部において作成された基本周波数及び音韻継続時間長の変換規則を、変換元話者から抽出した基本周波数及び音韻継続時間長に適用して変換し、変換した基本周波数及び音韻継続時間長からピッチマークを作成する。
これにより韻律情報を目標話者に近づけることができる。
また、逆フーリエ変換によりピッチ波形を合成したが、適当な音源情報を与え、フィルタリングすることによりピッチ波形を再合成してもよい。LPC係数の場合は全極フィルタ、メルケプストラムの場合はMLSAフィルタにより音源情報と、スペクトル包絡パラメータからピッチ波形を合成することができる。
(5)音声データの例
声質変換装置で変換した音声データの例を図26に示す。
図26は左から、変換元話者の音声データ、変換後の音声データ、変換先話者の音声データからそれぞれ抽出した対数スペクトル及びピッチ波形を示す。
変換元話者音声データから抽出したピッチ波形から、変換元話者スペクトルパラメータ抽出部231でスペクトル包絡パラメータを求める。得られたスペクトル包絡パラメータに対し、スペクトルパラメータ変換部232において声質変換規則を適用することにより変換する。変換したスペクトル包絡パラメータから波形合成部233により変換後のピッチ波形を合成することで、変換後のピッチ波形が得られる。変換先話者の音声データから抽出したピッチ波形及びスペクトル包絡と比較すると、変換後のピッチ波形は変換先話者の音声データから抽出したピッチ波形に近づいている様子がわかる。
(6)効果
上述したように、本実施形態では、第1の実施形態に示す声質変換規則作成装置において作成された声質変換規則を用いて、入力した変換元話者の音声データを変換先話者の声質になるように変換することができる。
本実施形態によれば、変換先話者の任意文の発声による声質変換規則、また変換元話者の大量の音声素片データベースに含まれる情報を反映した声質変換規則を、変換元話者の音声データに適用することが可能になり高品質な声質変換を行うことができる。
(第3の実施形態)
以下、本発明の第3の実施形態に係わるテキスト音声合成装置について図27から図33に基づいて説明する。
テキスト音声合成装置は、第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を音声合成装置に適用し、任意文の入力に対して、変換先話者の声質をもつ合成音声を生成する。
(1)テキスト音声合成装置の構成
図27は、本実施形態に係わるテキスト音声合成装置を示すブロック図である。
テキスト音声合成装置は、テキスト入力部271、言語処理部272、韻律処理部273、音声合成部274、音声波形出力部275から構成される。
(2)言語処理部272
言語処理部272は、テキスト入力部271から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部273へ送る。
(3)韻律処理部273
韻律処理部273は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声波形生成部274へ送る。
(4)音声合成部274
音声合成部274は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部275で出力される。
(4−2)音声合成部274の構成
図28は、音声合成部274の構成例を示したものである。
音声合成部274は、音韻系列・韻律情報入力部281、音声素片選択部282、音声素片編集・接続部283、音声波形出力部275と、変換先話者の音声素片及び属性情報を保持する音声素片データベース284より構成される。
本実施形態においては、変換先話者音声素片データベース284は、変換元話者音声素片データベース11に対して、第1の実施形態に係わる声質変換措置において作成された声質変換規則14を声質変換部285において適用することによって得られる変換先話者の音声素片データベースであることを特徴としている。
変換元話者音声素片データベース11は、第1の実施形態と同様に、変換元話者の音声データから作成した任意の音声単位に分割された音声素片及び属性情報が記憶されている。音声素片は、図6に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されており、属性情報は図7に示すように、音韻(半音素名など)、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片素片選択282において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片及び属性情報は、変換先話者の素片抽出部、属性作成部の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。
声質変換規則14、第1の実施形態に係わる声質変換規則作成装置において作成された、変換元話者の音声を変換先話者の声質に変換する声質変換規則が保持されている。
声質変換規則は声質変換の方法によって異なる。
第1及び第2の実施形態において述べたように、声質変換規則として平行移動を用いる場合は式(7)により求まる平行移動量bを保持する。
単回帰分析を用いる場合は式(9)により求められる回帰係数a及びbを保持する。
重回帰分析を用いる場合は式(11)の方程式を解くことにより求まる回帰行列Aを保持する。
VQに基づく方法を用いる場合は各クラスタのセントロイド及び各クラスタの回帰行列Aを保持する。
GMMに基づく方法を用いる場合は最尤推定により得られたGMMλ及び各混合の回帰行列Aを保持する。
(4−3)声質変換部285
声質変換部285では、変換元話者音声素片データベースに含まれる各音声素片に対して声質変換規則を適用し、変換先話者の声質に変換した変換先話者音声素片データベース284を作成する。声質変換部285では、変換元話者の各音声素片に対して、図29に示す声質変換処理を行う。
(4−3−1)変換元話者スペクトルパラメータ抽出部291
変換元話者スペクトルパラメータ抽出部291では、変換元話者の音声素片に付与されているピッチマーク情報を参照し、ピッチ波形を切り出して、図23の変換元話者スペクトルパラメータ抽出部231と同様に、スペクトルパラメータの抽出を行う。
(4−3−2)スペクトルパラメータ変換部292と波形合成部293
スペクトルパラメータ変換部292及び波形合成部293は、図23のスペクトルパラメータ変換部232及び波形合成部233、図25の声質変換例と同様に、声質変換規則14を用いてスペクトルパラメータを変換し、変換したスペクトルパラメータから音声波形を合成することにより声質を変換する。
これにより、変換元話者の各音声素片を変換し、変換先話者音声素片を作成する。このように作成した変換先話者音声素片と、対応する属性情報を変換先話者音声素片データベース284に保持する。
音声合成部274では、音声素片データベース284から音声素片を選択し、音声合成を行う。音韻系列・韻律情報入力部281には、韻律処理部273から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部281に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
(5)音声素片選択部282
音声素片選択部282は、入力音韻系列の各音声単位に対し、入力韻律情報と、音声素片データベース284に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片データベース284に記憶されている音声素片の中から、音声素片を選択する。
ここで、合成音声の歪みの度合いは、音声素片データベース284に保持されている属性情報と音韻系列・韻律情報入力部281から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。
音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Cn(ui,ui−1,ti)(n:1,…,N,Nはサブコスト関数の数)を定める。第1の実施形態に記述されている式(5)のコスト関数は、二つの音声素片の間の歪みを測るためのコスト関数であり、ここで定義するコスト関数は入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。tiは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t1,…,tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、uiは変換先話者音声素片データベース284に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
サブコスト関数は、変換先話者音声素片データベース284に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換先話者音声素片データベース284に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コスト、音声素片の音韻環境と、目標の音韻環境との違い(差)を表す音韻環境コストを用いる。接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。具体的には、基本周波数コストは、
Figure 0004241736
から算出する。ここで、viは変換先話者音声素片データベース284に記憶されている音声素片uiの属性情報を、f(vi)は属性情報viから平均基本周波数を取り出す関数を表す。
また、音韻継続時間長コストは、
Figure 0004241736
から算出する。ここで、g(vi)は音素環境viから音韻継続時間長を取り出す関数を表す。
また、音韻環境コストは、
Figure 0004241736
から算出し、隣接する音韻が一致しているかどうかを表す。
また、スペクトル接続コストは、2つの音声素片間のケプストラム距離
Figure 0004241736
から算出する。ここで、h(ui)は音声素片uiの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。
これらのサブコスト関数の重み付き和を音声単位コスト関数と定義する。
Figure 0004241736
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wnは全て「1」とする。上記式(20)は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。
入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(20)から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(21)に示すように定義する。
Figure 0004241736
音声素片選択部282では、上記式(16)〜(21)に示したコスト関数を用いて、音声素片を選択する。ここでは、変換先話者音声素片データベース284に記憶されている音声素片の中から、上記式(21)で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記音声単位コストと式(21)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
(6)音声素片編集・接続部283
音声素片編集・接続部283では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
(6−1)処理の内容
図30は、素片編集・接続部283の処理を説明するための図である。
図30では、「あいさつ」という合成音声の音素「a」の音声波形を生成する例を示している。上から選択された音声素片、ピッチ波形抽出のためのハニング窓、ピッチ波形及び合成音声を示している。合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。このピッチマークにしたがって任意の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数及び音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。
(7)効果
上述したように、本実施形態では、第1の実施形態に示す声質変換規則作成装置において作成された声質変換規則により変換した変換先話者音声素片データベースを用いて、素片選択型の音声合成を行うことが可能になり、任意の入力文章に対応する合成音声を生成することができる。
すなわち、変換先話者の少量のデータを用いて作成した声質変換規則を、変換元話者の音声素片データベース中の各音声素片に適用して変換先話者の音声素片データベースを作成し、該変換先話者音声素片データベースから音声を合成することにより変化先話者の声質を持つ任意文の合成音を得ることができる。
また、本実施形態によれば、変換先話者の任意文の発声による声質変換規則、変換元話者の大量の音声素片データベースに含まれる情報を反映した声質変換規則を、変換元話者の音声データに適用することにより得られる変換先話者音声素片データベースから音声を合成することができ、自然な変換先話者の合成音声が得られる。
(8)変更例1
本実施形態では、声質変換規則を事前に変換元話者音声素片データベースの各音声素片に適用したが、合成時に声質変換規則を適用してもよい。
この場合、音声合成部264は図31に示すように、変換元話者音声素片データベース11と共に、第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則14を保持する。
音声合成時には、音韻系列・韻律情報入力部281において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、音声素片選択部311において、変換元話者音声素片データベースから式(21)より算出されたコストの値を最小化するように音声素片を選択し、声質変換部312において、選択された音声素片の声質を変換する。声質変換部312における声質変換は、図28に示す声質変換部285と同様に行うことができる。その後、変換された音声素片を音声素片編集・接続部283において、韻律の変更及び接続を行い合成音声が得られる。
本変更例によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則14によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者音声素片データベースを保持する必要がなくなる。
このため、様々な話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者へ変換する声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。
また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、新たな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。
(9)変更例2
本実施形態では、素片選択型の音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。特許文献1において開示されている複数素片選択・融合型の音声合成に声質変換を適用してもよい。
この場合の音声合成装置を図32に示す。
声質変換部285において、変換元話者音声素片データベース11を声質変換規則14を用いて変換し、変換先話者音声素片データベース284を作成する。
音声合成部274では、音韻系列・韻律情報入力部281において、テキスト解析の結果得られた音韻系列及び韻律情報を入力する。
複数音声素片選択部321において、音声素片データベースから式(21)より算出されたコストの値に基づいて音声単位毎に複数の音声素片を選択する。
そして、複数音声素片融合部322において、選択された複数の音声素片を融合して融合音声素片を作成し、作成された融合音声素片を、融合音声素片編集・接続部323において韻律の変更及び接続を行い合成音声の音声波形を生成する。
複数素片選択部321の処理及び複数音声素片融合部322の処理は特許文献1に示されている手法により行うことができる。
複数素片選択部321では、まず式(21)のコスト関数の値を最小化するようにDPアルゴリズムを用いて最適音声素片系列を選択する。その後、各音声単位に対応する区間において、前後の隣の音声単位区間の最適音声素片との接続コスト及び該当する区間の入力された属性との目標コストとの和をコスト関数として、変換先話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト関数の値の小さい順に、複数の音声素片を選択する。
このように、選択した複数の音声素片は、複数音声素片融合部において融合され、選択された複数の音声素片を代表する音声素片を得る。音声素片融合は、選択された各音声素片からピッチ波形を抽出し、抽出したピッチ波形の波形数をピッチ波形の複製や削除を行うことにより目標とする韻律から生成したピッチマークに揃え、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより行うことができる。
この融合音声素片を融合音声素片編集・接続部323において、韻律の変更及び接続を行い合成音声の音声波形が生成される。複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。
(10)変更例3
また、本実施形態では、予め声質変換規則を適用することにより作成した音声素片データベースを保持する複数素片選択・融合型の音声合成について述べた。これに代えて、変換元話者音声素片データベースから複数の音声素片を選択し、選択された複数の音声素片を声質変換し、変換した複数の音声素片を融合することにより融合音声素片を作成し、編集・接続することにより音声を合成してもよい。
この場合、音声合成部274は図33に示すように、変換元話者音声素片データベース11と共に、第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則14を保持する。
音声合成時には、音韻系列・韻律情報入力部281において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部331において、図31の複数音声素片選択部312と同様に、変換元話者音声素片データベース11から音声単位毎に複数の音声素片を選択する。
選択された複数の音声素片は、声質変換部332において、声質変換規則14を適用し変換先話者の声質を持つ音声素片に変換される。声質変換部332における声質変換は、図28に示す声質変換部285と同様に行うことができる。その後、変換された音声素片を複数音声素片融合部322において融合し、音声素片編集・接続部323において、韻律の変更及び接続を行い合成音声の音声波形が生成される。
本変更例によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者の声質の音声素片データベースを保持する必要がなくなる。
このため、様々な話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者の声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。
また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、新たな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。
また、複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本変更例によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。
ここでは、声質変換した後に音声素片融合処理を行ったが融合音声素片を生成した後に融合音声素片の各ピッチ波形の声質を変換しても良い。その場合は、図34に示すように声質変換部の前に複数音声素片融合部341を持ち、変換元話者の複数の音声を複数素片選択部331において選択し、複数音声素片融合部341において融合した後に声質変換規則14を用いて声質変換部342において融合音声素片の声質変換を行い、変換した融合音声素片を音声素片編集・接続部323において編集・接続することで合成音声を得る。
(11)変更例4
また、本実施形態では素片選択型音声合成及び複数素片選択・融合型の音声合成に対して第1の実施形態に係わる声質変換規則作成装置において作成された声質変換規則を適用したが、これに限定するものではない。
例えば、素片学習型音声合成の一つである閉ル―プ学習に基づく音声合成装置(例えば、特許第3281281号公報参照)に適用することもできる。
素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。この場合、学習データとなる音声素片を声質変換し変換音声素片から代表音声素片を学習することにより声質変換を適用することができる。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。
(12)変更例5
また、本実施形態において、属性変換規則作成部194において作成した属性変換規則を適用してもよい。
この場合、変換元話者音声素片データベースの属性情報に属性変換規則を適用し、属性情報を変換先話者の属性に近づけることにより、音声合成時の属性情報として変換先話者の属性情報に近づけたものを利用することができる。
また、韻律処理部273において生成された韻律情報に対して、属性変換規則194において作成した属性変換を適用し入力される韻律情報を変換してもよい。これにより、韻律生成部273においては変換元話者の特徴を持つ韻律を生成し、生成した韻律情報を変換先話者の韻律に変換し、変換先話者の韻律を用いて音声合成を行うことができる。これにより声質のみでなく韻律も変換することができる。
(13)変更例6
また、第1〜第3の実施形態においては、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。
但し、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。
(変更例)
なお、本発明は第1〜第3の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係わる声質変換規則作成装置の構成を示すブロック図である。 声質変換規則学習データ作成部12の構成を示すブロック図である。 音声素片抽出部21の動作を示すフローチャートである。 音声素片抽出部21におけるラベリング及びピッチマーキングの例を示す図である。 属性作成部22において作成される属性情報の例を示す図である。 音声素片データベースに含まれる音声素片の例を示す図である。 音声素片データベースに含まれる属性情報の例を示す図である。 変換元話者音声素片選択部23の動作を示すフローチャートである。 変換元話者音声素片選択部23の動作を示すフローチャートである。 声質変換規則学習部13の構成を示すブロック図である。 声質変換規則学習部13の処理の例を示す図である。 声質変換規則作成部104の動作を示すフローチャートである。 声質変換規則作成部104の動作を示すフローチャートである。 声質変換規則作成部104の動作を示すフローチャートである。 声質変換規則作成部104の動作を示すフローチャートである。 声質変換規則作成部104にもけるVQに基づく声質変換の動作を示す概念図である。 声質変換規則作成部104の動作を示すフローチャートである。 声質変換規則作成部104にもけるGMMに基づく声質変換の動作を示す概念図である。 属性作成部22の構成を示すブロック図である。 属性変換規則作成部194の動作を示すフローチャートである。 属性変換規則作成部194の動作を示すフローチャートである。 音声合成部274の構成を示すブロック図である。 第2の実施形態に係わる声質変換装置の構成を示すブロック図である。 スペクトルパラメータ変換部232の動作を示すフローチャートである。 スペクトルパラメータ変換部232の動作を示すフローチャートである。 第2の実施形態に係わる声質変換装置の動作の例を示す図である。 本発明の第3の実施形態に係わる音声合成装置の構成を示すブロック図である。 音声合成部274の構成を示すブロック図である。 声質変換部286の構成を示すブロック図である。 音声素片編集・接続部283の動作の例を示す図である。 音声合成部274の構成を示すブロック図である。 音声合成部274の構成を示すブロック図である。 音声合成部274の構成を示すブロック図である。 音声合成部274の構成を示すブロック図である。
符号の説明
11・・・変換元話者音声素片データベース
12・・・声質変換規則学習データ作成部
13・・・声質変換規則学習部
14・・・声質変換規則

Claims (12)

  1. 変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報、継続長情報、音韻環境情報、スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶部と、
    変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出部と、
    前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成部と、
    前記先話者音声素片に対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記変換元話者音声記憶部に含まれる、先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択部と、
    前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された複数の声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成部と、
    を有することを特徴とする音声処理装置。
  2. 前記変換元話者音声素片選択部は、
    前記コスト関数のコストが最小となる元話者属性情報に対応する音声素片を前記変換元話者音声記憶部から選択して前記元話者音声素片とする
    ことを特徴とする請求項1記載の音声処理装置。
  3. 前記属性作成部は、
    前記変換先話者の属性情報を前記変換元話者の属性情報に変換する前記変換元話者音声素片記憶部に含まれる複数の音声素片に共通の属性変換関数を作成する属性変換規則作成部と、
    前記変換先話者の音声または前記変換先話者の音声の言語情報から、前記先話者音声素片に対応する属性情報を抽出する属性抽出部と、
    前記先話者音声素片に対応する属性情報を、前記属性変換関数を用いて変換し、前記変換された属性情報を前記先話者音声素片に対応する先話者属性情報とする属性変換部と、
    を有することを特徴とする請求項1または2記載の音声処理装置。
  4. 前記属性変換規則作成部は、
    前記変換先話者の基本周波数情報の平均値及び前記変換元話者の基本周波数情報の平均値を求める基本周波数情報分析部と、
    前記変換元話者の基本周波数情報の平均値と、前記変換先話者の基本周波数情報の平均値との差分を求め、前記差分を前記変換先話者の基本周波数情報に加える関数を属性変換関数とする平均基本周波数情報差分生成部と、
    を有することを特徴とする請求項3に記載の音声処理装置。
  5. 前記声質変換規則作成部は、
    前記先話者音声素片の声質を表す先話者音声パラメータ及び前記元話者音声素片の声質を表す元話者音声パラメータを求める音声パラメータ抽出部と、
    前記先話者音声パラメータを、前記元話者音声パラメータから予測する回帰行列を求める回帰分析部と、
    を有し、
    前記回帰行列を前記声質変換関数とする
    ことを特徴とする請求項1から4のいずれかに記載の音声処理装置。
  6. 前記声質変換規則作成部において作成された声質変換関数を保持する声質変換規則記憶部と、
    変換元話者音声パラメータを抽出する変換元話者音声パラメータ抽出部と、
    前記声質変換関数を用いて前記変換元話者の音声パラメータを変換する音声パラメータ変換部と、
    前記変換された音声パラメータから音声波形を生成する波形合成部と、
    を有することを特徴とする請求項1から4のいずれかに記載の音声処理装置。
  7. 前記声質変換関数により前記変換元話者音声素片を変換して得られる変換先話者音声素片を記憶する変換先話者音声素片記憶部と、
    前記変換先話者音声素片記憶部から音声素片を選択して代表音声素片を得る音声素片選択部と、
    前記代表音声素片を接続して音声波形を生成する音声波形生成部と、
    を有することを特徴とする請求項1から5のいずれかに記載の音声処理装置。
  8. 前記変換元話者音声素片記憶部から音声素片を選択して、変換元話者代表音声素片を得る音声素片選択部と、
    前記変換元話者代表音声素片を前記声質変換関数により変換して変換先話者代表音声素片を得る声質変換部と、
    前記変換先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
    を有することを特徴とする請求項1から5のいずれかに記載の音声処理装置。
  9. 前記声質変換関数により、前記変換元話者音声素片を変換して得られる変換先話者音声素片を記憶する変換先話者音声素片記憶部と、
    前記変換先話者音声素片記憶部から合成単位毎に複数の音声素片を選択する複数音声素片選択部と、
    前記選択された複数の音声素片を融合することにより融合音声素片を得る音声素片融合部と、
    前記融合音声素片を接続して音声波形を生成する音声波形生成部と、
    を有することを特徴とする請求項1から5のいずれかに記載の音声処理装置。
  10. 前記変換元話者音記憶部から合成単位毎に複数の音声素片を選択する複数音声素片選択部と、
    前記選択された複数の音声素片を前記声質変換関数により変換して変換先話者の複数の音声素片を得る声質変換部と、
    前記変換先話者の複数の音声素片を融合することにより融合音声素片を得る音声素片融合部と、
    前記融合音声素片を接続して音声波形を生成する音声波形生成部と、
    を有することを特徴とする請求項1から5のいずれかに記載の音声処理装置。
  11. 変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報,継続長情報,音韻環境情報,スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を変換元話者音声素片記憶手段に保持する変換元話者音声素片記憶ステップと、
    変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出ステップと、
    前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成ステップと、
    前記先話者音声素片それぞれに対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を、前記変換元話者音声素片記憶手段に保持した変換元話者の音声素片に含まれる,先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択ステップと、
    前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換関数作成ステップと、
    を有することを特徴とする音声処理方法。
  12. 変換元話者の複数の音声素片及び前記各音声素片に対応する少なくとも基本周波数情報,継続長情報,音韻環境情報,スペクトル情報のうちの一つを含む複数の属性からなる元話者属性情報を保持する変換元話者音声記憶機能と、
    変換先話者の音声を、任意の音声単位に分割して先話者音声素片とする音声素片抽出機能と、
    前記変換先話者の音声またはその音声の言語情報から、前記各先話者音声素片に対応する先話者属性情報をそれぞれ求める属性作成機能と、
    前記先話者音声素片それぞれに対して、前記先話者属性情報と前記元話者属性情報との歪みの度合を表すコストを、前記属性情報に含まれる各属性に対する歪みの度合を表すサブコスト関数の重み付き和であるコスト関数から算出し、前記コストより一または複数の音声素片を前記保持した変換元話者の音声素片に含まれる,先話者音声素片と同一の音韻の音声素片から選択して、元話者音声素片とすることにより前記変換先話者の音声に対応する音声素片対を作成する変換元話者音声素片選択機能と、
    前記一または複数の元話者音声素片の声質を前記先話者音声素片の声質に変換するための、共通もしくは所定の分類に従って作成された声質変換関数を、前記変換先話者の音声に対応する音声素片対の前記先話者音声素片と前記一または複数の元話者音声素片に基づいて作成する声質変換規則作成機能と、
    をコンピュータによって実現させるための音声処理プログラム。
JP2006011653A 2006-01-19 2006-01-19 音声処理装置及びその方法 Active JP4241736B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006011653A JP4241736B2 (ja) 2006-01-19 2006-01-19 音声処理装置及びその方法
EP06254852A EP1811497A3 (en) 2006-01-19 2006-09-19 Apparatus and method for voice conversion
US11/533,122 US7580839B2 (en) 2006-01-19 2006-09-19 Apparatus and method for voice conversion using attribute information
KR1020060106919A KR20070077042A (ko) 2006-01-19 2006-10-31 음성처리장치 및 방법
CNA2007100042697A CN101004910A (zh) 2006-01-19 2007-01-19 处理语音的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006011653A JP4241736B2 (ja) 2006-01-19 2006-01-19 音声処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2007193139A JP2007193139A (ja) 2007-08-02
JP4241736B2 true JP4241736B2 (ja) 2009-03-18

Family

ID=37401153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006011653A Active JP4241736B2 (ja) 2006-01-19 2006-01-19 音声処理装置及びその方法

Country Status (5)

Country Link
US (1) US7580839B2 (ja)
EP (1) EP1811497A3 (ja)
JP (1) JP4241736B2 (ja)
KR (1) KR20070077042A (ja)
CN (1) CN101004910A (ja)

Families Citing this family (235)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP3990307B2 (ja) * 2003-03-24 2007-10-10 株式会社クラレ 樹脂成形品の製造方法、金属構造体の製造方法、チップ
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8027835B2 (en) * 2007-07-11 2011-09-27 Canon Kabushiki Kaisha Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method
JP4445536B2 (ja) * 2007-09-21 2010-04-07 株式会社東芝 移動無線端末装置、音声変換方法およびプログラム
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
CN101419759B (zh) * 2007-10-26 2011-02-09 英业达股份有限公司 一种应用于全文翻译的语言学习方法及其系统
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
JP5229234B2 (ja) 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8224648B2 (en) * 2007-12-28 2012-07-17 Nokia Corporation Hybrid approach in voice conversion
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090177473A1 (en) * 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP5038995B2 (ja) 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
JP5411845B2 (ja) * 2010-12-28 2014-02-12 日本電信電話株式会社 音声合成方法、音声合成装置及び音声合成プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102419981B (zh) * 2011-11-02 2013-04-03 展讯通信(上海)有限公司 音频信号时间尺度和频率尺度缩放处理方法及设备
JP5689782B2 (ja) * 2011-11-24 2015-03-25 日本電信電話株式会社 目標話者学習方法、その装置及びプログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN102857650B (zh) * 2012-08-29 2014-07-02 苏州佳世达电通有限公司 动态调整语音的方法
JP2014048457A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 話者適応装置、方法及びプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP5727980B2 (ja) * 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
CN103730117A (zh) 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
JP6392012B2 (ja) * 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP6470586B2 (ja) * 2015-02-18 2019-02-13 日本放送協会 音声加工装置、及びプログラム
JP2016151736A (ja) * 2015-02-19 2016-08-22 日本放送協会 音声加工装置、及びプログラム
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
JP6132865B2 (ja) * 2015-03-16 2017-05-24 日本電信電話株式会社 声質変換用モデルパラメータ学習装置、その方法及びプログラム
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6496030B2 (ja) * 2015-09-16 2019-04-03 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
CN113724685B (zh) 2015-09-16 2024-04-02 株式会社东芝 语音合成模型学习装置、语音合成模型学习方法及存储介质
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
RU2632424C2 (ru) 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105206257B (zh) * 2015-10-14 2019-01-18 科大讯飞股份有限公司 一种声音转换方法及装置
CN105390141B (zh) * 2015-10-14 2019-10-18 科大讯飞股份有限公司 声音转换方法和装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3457401A1 (en) * 2017-09-18 2019-03-20 Thomson Licensing Method for modifying a style of an audio object, and corresponding electronic device, computer readable program products and computer readable storage medium
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN107818794A (zh) * 2017-10-25 2018-03-20 北京奇虎科技有限公司 基于节奏的音频转换方法及装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11894008B2 (en) * 2017-12-12 2024-02-06 Sony Corporation Signal processing apparatus, training apparatus, and method
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP6876641B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11605371B2 (en) * 2018-06-19 2023-03-14 Georgetown University Method and system for parametric speech synthesis
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
KR102273147B1 (ko) * 2019-05-24 2021-07-05 서울시립대학교 산학협력단 음성 합성 장치 및 방법
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
WO2021120145A1 (zh) * 2019-12-20 2021-06-24 深圳市优必选科技股份有限公司 语音转换方法、装置、计算机设备及计算机可读存储介质
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN112562633A (zh) * 2020-11-30 2021-03-26 北京有竹居网络技术有限公司 一种歌唱合成方法、装置、电子设备及存储介质
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置
JP7069386B1 (ja) * 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
CN114360491B (zh) * 2021-12-29 2024-02-09 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
AU6044298A (en) * 1997-01-27 1998-08-26 Entropic Research Laboratory, Inc. Voice conversion system and methodology
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
KR100275777B1 (ko) 1998-07-13 2000-12-15 윤종용 음소별 코드북 매핑에 의한 음색변환방법
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
FR2853125A1 (fr) * 2003-03-27 2004-10-01 France Telecom Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4829477B2 (ja) 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
WO2006082287A1 (fr) 2005-01-31 2006-08-10 France Telecom Procede d'estimation d'une fonction de conversion de voix
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置

Also Published As

Publication number Publication date
US7580839B2 (en) 2009-08-25
KR20070077042A (ko) 2007-07-25
CN101004910A (zh) 2007-07-25
JP2007193139A (ja) 2007-08-02
EP1811497A3 (en) 2008-06-25
US20070168189A1 (en) 2007-07-19
EP1811497A2 (en) 2007-07-25

Similar Documents

Publication Publication Date Title
JP4241736B2 (ja) 音声処理装置及びその方法
JP4966048B2 (ja) 声質変換装置及び音声合成装置
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US10140972B2 (en) Text to speech processing system and method, and an acoustic model training system and method
US9009052B2 (en) System and method for singing synthesis capable of reflecting voice timbre changes
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US10692484B1 (en) Text-to-speech (TTS) processing
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2009069179A (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP2009175345A (ja) 音声情報処理装置及びその方法
JP4476855B2 (ja) 音声合成装置及びその方法
Wen et al. Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model.
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Kobayashi et al. Regression approaches to perceptual age control in singing voice conversion
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
Gu et al. Combining HMM spectrum models and ANN prosody models for speech synthesis of syllable prominent languages
JP2005292433A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2008275698A (ja) 所望のイントネーションを備えた音声信号を生成するための音声合成装置
Chunwijitra et al. Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4241736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140109

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350