JP3907838B2 - Voice conversion device and voice conversion method - Google Patents

Voice conversion device and voice conversion method Download PDF

Info

Publication number
JP3907838B2
JP3907838B2 JP18284598A JP18284598A JP3907838B2 JP 3907838 B2 JP3907838 B2 JP 3907838B2 JP 18284598 A JP18284598 A JP 18284598A JP 18284598 A JP18284598 A JP 18284598A JP 3907838 B2 JP3907838 B2 JP 3907838B2
Authority
JP
Japan
Prior art keywords
component
sine wave
new
target
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18284598A
Other languages
Japanese (ja)
Other versions
JP2000020100A (en
Inventor
啓 嘉山
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP18284598A priority Critical patent/JP3907838B2/en
Publication of JP2000020100A publication Critical patent/JP2000020100A/en
Application granted granted Critical
Publication of JP3907838B2 publication Critical patent/JP3907838B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

PROBLEM TO BE SOLVED: To execute natural speech conversion even if target speeches do not exist in a corresponding play portion in the case where the generating source of the speeches is entirely different like in the case where the tones of a musical instrument are converted to resemble the previously determined singing of a singer. SOLUTION: The sinusoidal wave components and residual components of the input speeches are deformed in accordance with the sinusoidal wave component and residual components extracted from the input speeches and the target sinusoidal wave components and target residual components extracted from the target speeches and the converted speeches are formed by synthesizing the components. In this case, when the portions, which are the portions of the target voices and are required to be made correspondent to the input speeches, are silent portions, the sinusoidal wave components and residual components of the input speeches are deformed in accordance with the preset silent part sinusoidal wave components and silent part residual components in place of the target sinusoidal wave components and target residual components and, therefore, the natural speech conversion may be executed even when the generating source of the speech is entirely heterogeneous and the target speeches do not exist in the corresponding playing portions.

Description

【0001】
【発明の属する技術分野】
本発明は、音声変換装置及び音声変換方法に係り、特に、楽器の音を予め定めた歌唱者の歌声に似せて変換させたり、歌唱者の歌声を予め定めた楽器の音に似せて変換する場合のように、音声の発生源が全く異質の場合でも音声変換を行うことが可能な音声変換装置及び音声変換方法に関する。
【0002】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は、種々開発されており、例えば、カラオケ装置の中には、歌唱者の歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換するものがある(例えば、USP5567901、特表平8−508581号公報参照。)。
【0003】
【発明が解決しようとする課題】
上記従来の音声変換装置では、ピッチ変換による音声の変換は行われるものの、声質そのものの変換は行われていなかった。
ところで、例えば、入力された楽器音を誰かの歌声に似せるように変換するという機能があれば、楽器を演奏することで歌声を出力することが可能となり、カラオケ装置などにおいては大変に面白いと思われる。
しかしながら、従来の音声変換装置ではこのような処理を行うことは困難であった。
【0004】
ところで、このような音声変換装置をカラオケ装置として実現しようとする場合に、入力された楽器音を誰かの歌声に変換する機能を設ける場合に、誰かの歌声(ターゲット音声)を予め設定しておき、このターゲット音声に基づいて入力された楽器音の音声変換を行うという構成が考えられる。
このような構成を採った場合に、ターゲット音声に対応する楽曲の前奏部分、間奏部分あるいは後奏部分などのターゲット音声が存在しない部分において、楽器音が入力されてしまった場合などには、音声変換が行えない可能性がある。
【0005】
そこで、本発明の目的は、楽器の音を予め定めた歌唱者の歌声(=ターゲット音声)に似せて変換させたり、歌唱者の歌声を予め定めた楽器の音(=ターゲット音声)に似せて変換する場合のように、音声の発生源が全く異質の場合でも、より自然な変換音声を容易に得ることが可能であるとともに、対応する演奏部分にターゲット音声が存在しない場合でも、自然な音声変換を行うことが可能な音声変換装置及び音声変換方法を提供することにある。
【0006】
【課題を解決するための手段】
上記課題を解決するため、請求項1記載の構成は、楽器音に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出手段と、歌声に対応するターゲット音声信号から抽出したターゲット正弦波成分及びターゲット残差成分と、前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形して新規残差成分を生成する新規成分生成手段と、前記新規成分生成手段が生成した前記新規正弦波成分及び前記新規残差成分を合成し変換音声信号を生成して出力する変換音声信号生成手段と、前記変換音声信号を生成するに際し、前記ターゲット音声信号の部分であって、前記入力音声信号に対応させるべき部分が無音部であるか否かを検出する無音部検出手段と、前記対応させるべき部分が無音部である場合に、予め設定した無音部正弦波成分及び無音部残差成分を出力する無音部成分出力手段とを備え、前記新規成分生成手段は、前記対応させるべき部分が無音部である場合には、前記無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、前記ターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記ターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴としている。
【0007】
請求項2記載の構成は、歌声に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出手段と、楽器音に対応するターゲット音声信号から抽出したターゲット正弦波成分及びターゲット残差成分と、前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形して新規残差成分を生成する新規成分生成手段と、前記新規成分生成手段が生成した前記新規正弦波成分及び前記新規残差成分を合成し変換音声信号を生成して出力する変換音声信号生成手段と、前記変換音声信号を生成するに際し、前記ターゲット音声信号の部分であって、前記入力音声信号に対応させるべき部分が無音部であるか否かを検出する無音部検出手段と、前記対応させるべき部分が無音部である場合に、予め設定した無音部正弦波成分及び無音部残差成分を出力する無音部成分出力手段とを備え、前記新規成分生成手段は、前記対応させるべき部分が無音部である場合には、前記無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、前記ターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記ターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴としている。
【0008】
請求項3記載の構成は、請求項1または請求項2に記載の構成において、前記入力音声信号が無声音であるか否かを検出する無声検出手段を備え、前記無声検出手段により前記入力音声信号が無声音であると検出された場合には、前記ターゲット音声信号を前記変換音声信号として出力することを特徴としている。
【0009】
請求項4記載の構成は、楽器音に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出工程と、前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形し新規残差成分を生成する新規成分生成工程と、前記新規正弦波成分及び前記新規残差成分を合成して変換音声を生成する変換音声生成工程と、前記変換音声を生成するに際し、前記ターゲット音声の部分であって、前記入力音声に対応させるべき部分が無音部分であるか否かを検出する無音部分検出工程を備え、前記新規成分生成工程は、前記対応させるべき部分が無音部である場合には、予め設定した無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、予め設定した無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、歌声に対応するターゲット音声から抽出したターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、歌声に対応するターゲット音声から抽出したターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴としている。
【0010】
請求項5記載の構成は、歌声に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出工程と、前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形して新規残差成分を生成する新規成分生成工程と、前記新規正弦波成分及び前記新規残差成分を合成して変換音声を生成する変換音声生成工程と、前記変換音声を生成するに際し、前記ターゲット音声の部分であって、前記入力音声に対応させるべき部分が無音部分であるか否かを検出する無音部分検出工程とを備え、前記新規成分生成工程は、前記対応させるべき部分が無音部である場合には、予め設定した無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、予め設定した無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、楽器音に対応するターゲット音声から抽出したターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、楽器音に対応するターゲット音声から抽出したターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴としている。
【0011】
請求項6記載の構成は、請求項4または請求項5記載の構成において、前記入力音声が無声音であるか否かを検出する無声検出工程を備え、前記無声検出工程において前記入力音声が無声音であると検出された場合には、前記ターゲット音声を前記変換音声として出力することを特徴としている。
【0012】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
[1] 実施形態の概要処理
始めに、実施形態の概要処理について説明する。
図1に概要処理フローチャートを示す。
まず、演奏者(me)が演奏した楽器音(入力音声信号Sv)をリアルタイムでFFT(Fast Fourie Transform)を含むSMS(Spectral Modeling Synthesis)分析を行い(ステップS101)、フレーム単位で正弦波成分(Sine成分)を抽出し、入力音声信号及び正弦波成分からフレーム単位で残差成分(Residual成分)を生成するとともに(ステップS102)、並行して入力音声信号が無声音か否かの判別を行う。そして、抽出した正弦波成分からさらに元属性(Attribute)データであるピッチ(Pitch)、アンプ(Amplitude)及びスペクトラル・シェイプ(Spectral Shape)を抽出する(ステップS103)。
【0013】
次に、処理中のフレームに対応する特定の歌唱者(Target)のフレーム情報(ターゲットフレーム情報:属性データ、残差成分、子音音声信号など)を参照して、保持されている特定の歌唱者(Target)の歌声が無音部分であるか否かを判別する(ステップS104)。
ステップS104の判別において、無音部分ではないと判別した場合は(ステップS104;NO)、予め記憶(保存)してある特定の歌唱者(Target)の属性データ(ターゲット属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)から、入力音声信号Svのフレームに対応するフレームのターゲット属性データを取り出す(ステップS105)。
【0014】
一方、ステップS104の判別において、特定の歌唱者(Target)の歌声が無音であると判別された場合は(ステップS104;YES)、演奏者(me)が楽器を演奏して音声信号Svが入力されているにもかかわらず、変換する対象の音声が存在しないことになり不都合が生じる。そこで、本実施形態においては、後に詳しく説明するように、無音部分変換処理を行って(ステップS106)、予め設定された無音パートデータ(無音部属性データおよび無音部残差成分)を、ターゲット属性データあるいはターゲット残差成分として使用することになる。
【0015】
続いて入力音声が無声音か否かを判別する(ステップS107)。
ステップS107の判別において、入力音声が無声音ではないと判別された場合は(ステップS107;NO)、入力音声信号Svは有声音であるので、以下に説明する音声変換処理を行う(ステップS108〜S110)。
次に、入力音声信号Svから抽出された属性データである元属性データ及びターゲット属性データを適宜選択して組み合わせることにより、新しい属性データ(新属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)を生成する(ステップS108)。
【0016】
つづいて得られた新属性データに基づいて、当該フレームの新正弦波成分を生成する(ステップS109)。また、ステップS102において抽出した残差成分から保持された特定の歌唱者(Target)の残差成分に基づいて新規残差成分を生成し(ステップS110)、ステップS109において生成した新規正弦波成分とともに逆FFTを行い、変換音声信号を得る(ステップS112)。ところで、ステップS107の判別において、入力音声が無声音であると判別された場合は(ステップS107;YES)、歌声としては子音部分であるので、音声変換処理は行わず、特定の歌唱者(Target)の子音音声信号をそのまま出力する(ステップS111)。子音部分は歌声から抽出されたデータを用いなければ不自然になるからである。
【0017】
このように、ステップS112において逆FFT変換処理によって生成された変換音声信号あるいは、ステップS111において出力された特定の歌唱者(Target)の音声信号を、カラオケの伴奏となる楽音信号と合成して出力し(ステップS113)、処理をステップS101に移行して次のフレームの処理を行う。このように、ステップS101からステップS113の処理を循環する過程において、演奏者(me)が楽器を演奏することによって入力された音声信号Svは、あたかも、特定の歌唱者(Target)が歌った歌声のように変換された音声信号として出力される。
【0018】
[2] 実施形態の概要構成
図2に実施形態の音声変換装置の概要構成ブロック図を示す。
図2において、SMS(Spectral Modeling Synthesis)分析部101は、入力音声(例えば、楽器音)をSMS分析し、正弦波成分SINmeおよび残差成分Rme(f)を取得する。
より具体的には、SMS分析では、入力音声信号をFFT変換し、FFT変換後の結果からローカルピークを求め、求めたローカルピークからピッチPme-staを抽出するとともに、ローカルピークを時系列順に連携することにより正弦波成分SINme(周波数成分及びアンプ成分)を取得する。
【0019】
また、入力音声信号から正弦波成分SINmeを減算することにより、残差成分Rme(f)を抽出する。
すなわち、正弦波成分SINmeは、正弦波の合成で表すことができる成分であり、残差成分Rme(f)は、入力音声信号のうち、正弦波成分として表すことができない残りの成分である。
【0020】
次に、SMS分析部101は、ローカルピークにおける高周波成分の大きさに応じて、無声音(子音:'t'、'k'等)を検出し、あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出('s'等)し、無声音であるか否かを示す無声音情報U/Vinfを切換部SW3へ供給する切換制御信号として供給する。
そして、これらの分析結果は、入力音声信号に関する情報である入力音声情報INFmeとして、無音部分検出部103に出力される。
さらに、残差成分Rme(f)は、残差成分処理部104へ出力されることとなる。
【0021】
次に、ターゲット情報格納部102のターゲットデータ格納部102aは、予めSMS分析した音声変換の対象となる歌唱者(ものまねの対象となる歌唱者:TARGET)の音声(以下、ターゲット音声という。)の諸データ(正弦波成分SINtar、残差成分Rtar(f))を格納している。これらはターゲット情報INFtar-syncとして無音部分検出部103に出力される。
また、ターゲット情報格納部102のターゲット無音データ格納部102bは、前奏部、間奏部等を含め、入力音声(=楽器音)に対応する、ターゲット音声が無音部分(SILENTパート)である場合に入力音声信号を音声変換するために用いる予め用意されたターゲットの音声信号に関する諸データ(無音部正弦波成分SILENTsine、無音部残差成分SILENTresidual(f))を格納している。
【0022】
次に、無音部分検出部103は、入力音声情報INFmeおよびターゲット情報INF tar-syncに基づき入力音声信号に対応するターゲット音声信号が存在する位置に対応する位置にターゲット正弦波成分SINtarが存在するか否かを判別することにより、ターゲット音声信号が無音部分(SILENTパート)であるかを検出し、ターゲット音声信号の無音部分であるか否かを示す無音情報S/Pinfを切換制御信号として切換部SW1、SW2へ出力する。これにより切換部SW1は、無音情報S/Pinfに従って、ターゲット音声信号が無音部分でなければ、ターゲットデータ格納部102aに格納されているターゲット残差成分Rtar(f)を残差成分処理部104へ供給する。
【0023】
また、ターゲット音声信号が無音部分であれば、ターゲット残差成分Rtar(f)に代えてターゲットデータ格納部102bに格納されている無音部残差成分SILENTresidual(f)を残差成分処理部104へ供給する。また、切換部SW2は、無音情報S/Pinfに従って、ターゲット音声信号の無音部分でなければ、ターゲットデータ格納部102aに格納されているターゲット正弦波成分SINtarを正弦波倍音成分処理部106へ出力し、ターゲット音声信号の無音部分であれば、ターゲット正弦波成分SINtarに代えてターゲットデータ格納部102bに格納されている無音部正弦波成分SILENTsineを正弦波倍音成分処理部106へ供給する。
【0024】
残差成分処理部104は、入力音声信号(=楽器音)の残差成分Rme(f)を、ターゲット残差成分Rtar(f)または無音部残差成分SILENTresidual(f)に基づいて変形する残差成分変形を行い、生成された新たな残差成分Rnew(f)を逆高速フーリエ変換処理部108へ出力する。次に、正弦波倍音成分処理部106は、楽器音の音声信号の正弦波成分SINmeを、音声変換の対象となる歌唱者の音声信号の正弦波成分SINtarまたは無音部正弦波成分SILENTsineに基づいて変形する正弦波成分変形を行い、生成される新たな正弦波成分SINnewを属性変形部107へ供給する。属性変形部107は、音声変換処理を施した正弦波成分SINnewに、必要に応じて振幅やピッチ、スペクトラル・シェープを変更するなどの属性変形を施し、生成される新たな正弦波成分SINnew'を、逆高速フーリエ変換処理部108へ供給する。
【0025】
逆高速フーリエ変換処理部108は、属性変換された正弦波成分SINnew'と上記残差成分Rnew(f)とを周波軸上で加算した後、逆FFT変換し、最終処理部110へ供給する。逆高速フーリエ変換処理部109は、入力音声が無声であるときに出力する信号を合成する。すなわち、ターゲット正弦波成分SINtar及びターゲット残差成分Rtar(f)あるいは無音部正弦波成分SILENTsine及び無音部残差成分SILENTresidual(f)を周波数軸上で加算した後、逆FFT変換し、ターゲットの無声音声を最終処理部110に出力することとなる。切換部SW3は、SMS分析部101から供給される無声音情報U/Vinfに従って、無声音であれば、U(Unvoice)側から後述する逆高速フーリエ変換処理部109からの合成信号(=ターゲット側の無声音)を最終処理部110へ供給し、無声音でなければ、V(Voice)側から逆高速フーリエ変換処理部108からの合成音信号(正弦波成分SINnewと残差成分 new(f)との合成信号)を最終処理部110へ供給する。
【0026】
最終処理部110は、上記逆FFT変換された音声信号と楽曲を合成して出力する。
これらの結果、楽器音のような入力音声を自然な歌声に変換することができる。同様にして歌唱者の歌声を入力音声として、自然な楽器音に変換するようなことも可能である。
【0027】
[3] 実施形態の詳細構成
次に図2〜図12を参照して実施形態の詳細構成について説明する。
なお、本実施形態は、本発明による音声変換装置(音声変換方法)をカラオケ装置に適用し、楽器音である入力音声を歌唱者の自然な歌声に変換することができる音声変換装置として構成した場合の例である。
図3及び図4に音声変換装置の詳細構成ブロック図を示す。
【0028】
[3.1] SMS分析部の動作
[3.1.1] マイク、分析窓生成部及び入力音声信号切出部の動作
図3におけるマイク1、分析窓生成部2、入力音声信号切出部3、高速フーリエ変換部4、ピーク検出部5、無声/有声検出部6、ピッチ検出部7、ピーク連携部8、補間合成部9、残差成分検出部10、高速フーリエ変換部11、残差成分保持部12、正弦波成分保持部13、平均アンプ演算部14、アンプ正規化部15、スペクトラル・シェイプ演算部16、ピッチ正規化部17、元フレーム情報保持部18及び静的変化/ビブラート的変化分離部19は、SMS分析部101を構成している。
まず、マイク1は、音声変換をしようとする楽器演奏者(me)の楽器音を収集し、入力音声信号Svとして入力音声信号切出部3に出力する。
【0029】
これと並行して、分析窓生成部2は、前回のフレームで検出したピッチの周期の固定倍(例えば、3.5倍など)の周期を有する分析窓(例えば、ハミング窓)AWを生成し、入力音声信号切出部3に出力する。なお、初期状態あるいは前回のフレームが無声音(含む無音)の場合には、予め設定した固定周期の分析窓を分析窓AWとして入力音声信号切出部3に出力する。
これらにより入力音声信号切出部3は、入力された分析窓AWと入力音声信号Svとを掛け合わせ、入力音声信号Svをフレーム単位で切り出し、フレーム音声信号FSvとして高速フーリエ変換部4に出力される。
より具体的には、入力音声信号Svとフレームとの関係は、図5に示すようになっており、各フレームFLは、前のフレームFLと一部重なるように設定されている。
【0030】
[3.1.2] 高速フーリエ変換部の動作
そして、高速フーリエ変換部4においてフレーム音声信号FSvは、解析処理されるとともに、図6に示すように、高速フーリエ変換部4の出力である周波数スペクトルからピーク検出部5によりローカルピークが検出される。
より具体的には、図6に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ(振幅)値の組み合わせとして表される。
すなわち、図6に示すように、(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)というように各フレームについてローカルピークが検出され、表されることとなる。
【0031】
そして、図5に模式的に示すように、各フレーム毎に一組(以下、ローカルピーク組という。)として無声/有声検出部6及びピーク連携部8に出力される。無声/有声検出部6は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出(‘t’、‘k’等)し、無声/有声検出信号U/Vmeをピッチ検出部7及びクロスフェーダ30に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出(‘s’等)し、元無声/有声検出信号U/Vmeをピッチ検出部7に出力する。
【0032】
さらに無声/有声検出部6は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部7に出力する。
また、無声/有声の情報をU/Vinfとしてクロスフェーダ30に供給する。
【0033】
[3.1.3] ピッチ検出部及びピーク連携部の動作
ピッチ検出部7は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチPmeを検出する。
より具体的なフレームのピッチPmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"(Journal of Acounstical Society of America95(4):2254-2263)に開示されているような方法で行う。
【0034】
次に、ピーク検出部5から出力されたローカルピーク組は、ピーク連携部8において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
【0035】
ここで、この連携処理について、図7を参照して説明する。
今、図7(A)に示すようなローカルピークが前回のフレームにおいて検出され、図7(B)に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、ピーク連携部8は、前回のフレームで検出された各ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
【0036】
より具体的には、図7の例では、ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)……については、対応するローカルピークが検出されているが、ローカルピーク(FK、AK)については(図7(A)参照)、対応するローカルピーク(図7(B)参照)は検出されていない。
ピーク連携部8は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図8は、複数のフレームにわたるローカルピークの周波数F0及び周波数F1の変化の一例を示している。
【0037】
このような変化は、アンプ(振幅)A0、A1、A2、……についても同様に認められる。この場合、ピーク連携部8から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
なお、ピーク連携部8から出力されるピーク値を、以後において、確定成分という。これは、元の信号(すなわち、音声信号Sv)のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波(厳密には、正弦波のパラメータである周波数及びアンプ(振幅))の各々については、正弦波成分と呼ぶことにする。
【0038】
次に、補間合成部9は、ピーク連携部8から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部34が出力する最終出力信号のサンプリングレート(例えば、44.1KHz)に対応した間隔で行われる。前述した図8に示す実線は、正弦波成分の周波数F0、F1について補間処理が行われた場合のイメージを示している。
【0039】
[3.1.4] 補間合成部の構成
ここで、補間合成部9の構成を図9に示す。
補間合成部9は、複数の部分波形発生部9aを備えて構成されており、各部分波形発生部9aは、指定された正弦波成分の周波数(F0、F1、…)およびアンプ(振幅)に応じた正弦波を発生する。ただし、本第1実施形態における正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部9aから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部8からは正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部9aは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部9aから出力された波形は、加算部9bにおいて加算合成される。したがって、補間合成部9の出力信号は、入力音声信号Svから確定成分を抽出した正弦波成分合成信号SSSになる。これらの分析情報と後述する残差信号を合わせ、入力音声信号に関する情報である入力音声信号情報INFmeとして無音検出部21に出力する。
【0040】
[3.2] ターゲット情報格納部
一方、ターゲット正弦波成分SINtar及びターゲット残差成分Rtarは、予め分析されてターゲット情報保持部102(例えば、ハードディスク)上のターゲットデータ格納部102aに予め保持されている。
この場合において、ターゲット正弦波成分SINtarとしては、平均アンプ静的成分Atar-sta、平均アンプビブラート的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビブラート的成分Ptar-vib、スペクトラル・シェイプStar(f)がある。
なお、本実施形態の音声変換装置をカラオケ装置として用いる場合には、キーを基準より上げ下げした場合、ターゲット正弦波成分SINtarを構成するピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、50[cent]だけキーを上げた場合には、ピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても50[cent]だけ上げなければならない。
【0041】
また、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲット正弦波成分SINtar及びターゲット残差成分Rtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲット正弦波成分SINtar及びターゲット残差成分Rtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲット正弦波成分SINtar及びターゲット残差成分Rtarを読み出し、これら二組のターゲット正弦波成分SINtar及びターゲット残差成分Rtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲット正弦波成分SINtar及びターゲット残差成分Rtarを生成する。
【0042】
この場合において、ビブラート的成分(平均アンプビブラート的成分Atar-vib及びピッチビブラート的成分Ptar-vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。これらのターゲット音声に関する情報は、ターゲット情報INFtar-syncとして無音部検出部21に出力される。
【0043】
[3.3] 無音部分検出部
無音部分検出部103として機能する無音部分検出部21は、入力音声信号情報INFme及びターゲット情報INFtar-syncに基づき、入力音声に対応するターゲット音声が無音ではないと検出した場合には、無音情報S/Pinfを切換制御信号として出力することにより切換部SW1及び切換部SW2の双方をターゲットデータ格納部20a側とする。
この結果、残差成分処理部104の残差成分選択部25には、ターゲット残差成分Rtarが入力され、正弦波成分属性データ選択部23には、ターゲット正弦波成分SINtarが入力されることとなる。
【0044】
また、無音部分検出部103として機能する無音部分検出部21は、入力音声に対応するターゲット音声が無音であると検出した場合には、無音情報S/Pinfを切換制御信号として出力することにより切換部SW1及び切換部SW2の双方をターゲットデータ格納部20a側からターゲット無音データ格納部20b側に切り替える。
この結果、残差成分処理部104の残差成分選択部25には、ターゲット残差成分Rtarに代えて無音部残差成分SILENTresidual(f)が入力され、正弦波成分属性データ選択部23には、ターゲット正弦波成分SINtarに代えて無音部正弦波成分SILENTsineが入力されることとなる。
【0045】
[3.3.1] 無音部分検出部の詳細動作
ここで、無音部分検出部21がターゲット音声が無音部分であると検出した場合の詳細動作を図10を参照して説明する。
無音部分検出部21は、入力音声に対応するターゲット音声が無音であると検出された場合には、無音情報S/Pinfを切換制御信号として出力することにより切換部SW1及び切換部SW2の双方をターゲットデータ格納部2a側からターゲット無音データ格納部2b側に切り替える。
この結果、残差成分処理部104の残差成分選択部25には、ターゲット残差成分Rtarに代えて無音部残差成分SILENTresidual(f)が入力され、正弦波成分属性データ選択部23にはターゲット正弦波成分SINtarに代えて無音部正弦波成分SILENTsineが入力されることとなる。
【0046】
これにより、図10(a)、(b)に示すように、ターゲットデータ(=SINtar+Rtar)が無音部分ではない場合、例えば、入力音声信号X1に対応するターゲットデータY1が存在する場合には、合成音声信号は、図10(d)に示すように、入力音声信号X1及びターゲットデータY1に基づいて合成される(図中、「X1*Y1」で示す。)。同様に、入力音声信号X3に対応するターゲットデータY3が存在する場合には、合成音声信号は、図10(d)に示すように、入力音声信号X3及びターゲットデータY3に基づいて合成される(図中、「X3*Y3」で示す。)。
また、図10(a)、(b)に示すように、ターゲットデータ(=SINtar+Rtar)が無音部分である場合、例えば、入力音声信号X2あるいは入力音声信号X4の場合のように、入力音声信号X2あるいは入力音声信号X4に対応するターゲットデータが無音部分である場合には、合成音声信号は、入力音声信号X2及びターゲット無音データZ(=SILENTsine+SILENTresidual(f);図10(c)参照)に基づいて合成され(図中、X2*Zで示す。)あるいは、入力音声信号X4及びターゲット無音データZに基づいて合成されることとなる(図中、X4*Zで示す。)。
【0047】
これにより、入力音声信号(=楽器音)が入力されたとき、その部分においてターゲット音声が無音部分であっても、入力音声信号をそのまま出力する場合と比較して、より自然な音声信号が出力されることとなる。
また、入力音声信号(=楽器音)が無声音である場合には、逆FFT処理部109の逆高速フーリエ変換部35からの出力となるターゲット音の無声音がそのまま最終処理部110のミキサ33を介して出力されることとなる。
【0048】
[3.4] 残差成分処理部
[3.4.1] 残差成分検出部の動作
次に、SMS分析部101を構成する残差成分検出部10は、補間合成部9から出力された正弦波成分合成信号SSSと入力音声信号Svとの偏差である残差成分信号SRD(時間波形)を生成する。この残差成分信号SRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号SSSは有声成分に対応するものである。
ところで、変換の対象(Target)となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
そこで、本実施形態においては、有声母音成分に対応する確定成分について音声変換処理を行うようにしている。
【0049】
より具体的には、残差成分信号SRDについては、SMS分析部101を構成する高速フーリエ変換部11で、周波数波形に変換し、得られた残差成分信号(周波数波形)をRme(f)として残差成分処理部104の残差成分保持部12に保持しておく。
[3.4.2] 残差成分選択部の動作
一方、残差成分処理部104を構成する残差成分選択部25は、ターゲットフレーム情報保持部20から入力されたターゲット残差成分 Rtar(f) あるいは無音部残差成分 SILENTresidual(f) のいずれか一方、残差成分保持部12に保持されている残差成分信号(周波数波形)Rme(f)及びコントローラ29から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Rnew(f)を生成する。
【0050】
らに、新規残差成分Rnew(f)に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図11に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【0051】
[3.5] 正弦波倍音成分処理部
[3.5.1] 正弦波成分保持部及び平均アンプ演算部の動作
一方、図12(A)に示すように、SMS分析部101を構成するピーク検出部5からピーク連携部8を介して出力された正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……、(F(N-1)、A(N-1))のN個の正弦波成分(以下、これらをまとめてFn、Anと表記する。n=0〜(N−1)。)は、正弦波倍音成分処理部106の正弦波成分保持部13に保持されるとともに、アンプAnは平均アンプ演算部14に入力され、各フレーム毎に次式により平均アンプAmeが算出される。
Ame=Σ(An)/N
【0052】
[3.5.2] アンプ正規化部の動作
次にアンプ正規化部15において、次式により各アンプAnを平均アンプAmeで正規化し、正規化アンプA’nを求める。
A’n=An/Ame
[3.5.3] スペクトラル・シェイプ演算部の動作
そして、SMS分析部101を構成するスペクトラル・シェイプ演算部16において、図12(B)に示すように、周波数Fn及び正規化アンプA’nにより得られる正弦波成分(Fn、A’n)をブレークポイントとするエンベロープ(包絡線)をスペクトラル・シェイプSme(f)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【0053】
[3.5.4] ピッチ正規化部の動作
続いてSMS分析部101を構成するピッチ正規化部17においては、各周波数Fnをピッチ検出部7において検出したピッチPmeで正規化し、正規化周波数F’nを求める。
F’n=Fn/Pme
[3.5.5] 元フレーム情報保持部の動作
これらの結果、SMS分析部101を構成する元フレーム情報保持部18は、入力音声信号Svに含まれる正弦波成分に対応する元属性データである平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)、正規化周波数F’nを保持することとなる。
なお、この場合において、正規化周波数F’nは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【0054】
[3.5.6] 静的変化/ビブラート的変化分離部の動作
つづいて、元フレーム情報保持部18に保持している元属性データのうち、平均アンプAmeおよびピッチPmeについては、さらに静的変化/ビブラート的変化分離部19により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
より具体的には、平均アンプAmeを平均アンプ静的成分Ame-sta及び平均アンプビブラート的成分Ame-vibとに分離して保持する。
【0055】
また、ピッチPmeをピッチ静的成分Pme-sta及びピッチビブラート的成分Pme-vibとに分離して保持する。これらの結果、対応するフレームの元フレーム情報データは、図12(C)に示すように、入力音声信号Svの正弦波成分に対応する平均アンプ静的成分Ame-sta、平均アンプビブラート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブラート的成分Pme-vib、スペクトラル・シェイプSme(f)、及び正規化周波数F’nの形で保持されることとなる。
【0056】
[3.5.7]正弦波成分属性データ選択部の動作
続いて、正弦波倍音成分処理部106を構成する正弦波成分属性データ選択部23は、ターゲットフレーム情報保持部20から入力されたターゲット正弦波成分SINtarあるいは無音部正弦波成分SILENTsineのいずれか一方、入力音声信号Svの正弦波成分に対応する平均アンプ静的成分Ame-sta、平均アンプビブラート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブラート的成分Pme-vib、スペクトラル・シェイプSme(f)、正規化周波数F’n及びコントローラ29から入力される正弦波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)を生成する。
【0057】
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの明るい音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプSnew(f)に関しては、このような状態をシミュレートすべく、図11に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【0058】
[3.5.8] 属性データ変形部の動作
続いて、生成された新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)について、必要に応じてコントローラ29から入力される正弦波成分属性データ変形情報に基づいて、正弦波倍音成分処理部106を構成する属性データ変形部24によりさらなる変形を行う。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変形を行う。
【0059】
[3.5.9] 正弦波成分生成部の動作
続いて、正弦波倍音成分処理部106を構成する正弦波成分生成部26は、属性データ変形部24から出力された変形を伴わない、あるいは、変形を伴う新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)に基づいて、当該フレームにおける新たな正弦波成分(F”0、A”0)、(F”1、A”1)、(F”2、A”2)、……、(F”(N-1)、A”(N-1))のN個の正弦波成分(以下、これらをまとめて新規正弦波成分SINnewと表記する。)を求める。
【0060】
[3.6] 正弦波変形部
さらに、求めた新規正弦波成分SINnew(=新規周波数F”nおよび新規アンプA”n)について、必要に応じてコントローラ29から入力される正弦波成分変形情報に基づいて、正弦波変形部107として機能する正弦波成分変形部27によりさらなる変形を行って変形新規正弦波成分SIN’newを出力する。例えば、偶数次成分の新規アンプA”n(=A”0、A”2、A”4、……)だけを大きく(例えば、2倍する)等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【0061】
[3.7] 逆高速フーリエ変換処理部
次に逆高速フーリエ変換処理部108を構成する逆高速フーリエ変換部28は、求めた新規周波数F”nおよび新規アンプA”n(=新規正弦波成分)並びに新規残差成分Rnew(f)をFFTバッファに格納し、順次逆FFTを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号(変換有声音声信号)を生成する。
このとき、コントローラ29から入力される正弦波成分/残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【0062】
この場合において、FFTバッファに新規周波数f”nおよび新規アンプa”n(=新規正弦波成分)並びに新規残差成分Rnew(f)を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ31により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
また、逆高速フーリエ変換処理部109を構成する逆高速フーリエ変換部35は、S/Pinfにより切換部SW2において選択された選択正弦波成分SINSLCT(=ターゲット正弦波成分SINtarあるいは無音部正弦波成分SILENTsineのいずれか一方)及びS/Pinfにより切換部SW1において選択された選択残差成分RSLCT(=ターゲット残差成分Rtarあるいは無音部残差成分SILENTresidual(f)のいずれか一方)をFFTバッファに格納し、順次逆FFTを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい無声音(無音を含む)の時間軸信号である変換音声信号(変換無声音声信号)を生成する。
【0063】
[3.8] 切換部SW3
次に切換部SW3を構成するクロスフェーダ30は、無音/有声検出部6が出力した無声音情報U/Vinfに基づいて、入力音声が無声(U)である場合には、逆高速フーリエ変換部35の出力となるターゲットの音声信号をそのまま最終処理部110のミキサ33に出力する。
また、ターゲット音声が有声(V)である場合には、逆高速フーリエ変換変換部28が出力した変換音声信号をミキサ33に出力する。
この場合において、切換部SW3としてクロスフェーダ30を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【0064】
[3.9] 最終処理部
最終処理部110は、シーケンサ31、音源部32及びミキサ33により構成されている。
シーケンサ31は、カラオケの伴奏音を発生するための音源制御情報を例えば、MIDI(Musical Instrument Digital Interface)データなどとして音源部32に出力する。
これにより音源部32は、音源制御情報に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部34に出力する。
出力部34は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【0065】
[4] 実施形態の効果
以上の結果、楽器音等の入力音声が入力されると、ターゲット歌唱者の歌声等の自然な音声に変換されて出力される。
この場合において、ターゲット歌唱者の歌声に無音部分が存在しても、予め用意した無音部データ(無音部正弦波成分+無音部残差成分)に基づいて変換音声が出力されるため、違和感の少ない自然な変換音声が出力されることとなる。
【0066】
[5] 実施形態の変形例
[5.1] 第1変形例
上述した実施形態では、楽器音を入力し、分析した歌声を予め保持していたが、これに限らず、歌声を入力し、楽器音を出力すること、あるいは歌声と楽器音の中間的な音色を出力するようにしてもよい。
[5.2] 第2変形例
正弦波成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波成分を抽出できればよい。
【0067】
[5.3] 第3変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態で入力音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
[5.4] 第4変形例
本実施形態においては、正弦波成分として、ピッチ、アンプ、スペクトラル・シェイプの全てを取り扱ったが、少なくともいずれか一つを扱うようにすることも可能である。
【0068】
【発明の効果】
以上説明したように、本発明によれば、楽器の音を予め定めた歌唱者の歌声に似せて変換させたり、歌唱者の歌声を予め定めた楽器の音に似せて変換する場合のように、音声の発生源が全く異質の場合でも、より自然な変換音声を容易に得ることが可能となるとともに、対応する演奏部分にターゲット音声が存在しない場合でも、自然な音声変換を行うことが可能となる。
【図面の簡単な説明】
【図1】 実施形態の概要処理フローチャートである。
【図2】 実施形態の概要構成ブロック図である。
【図3】 実施形態の詳細構成を示すブロック図(その1)である。
【図4】 実施形態の詳細構成を示すブロック図(その2)である。
【図5】 実施形態におけるフレームの状態を示す図である。
【図6】 実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図7】 実施形態におけるフレーム毎のピーク値の連携を示す図である

【図8】 実施形態における周波数値の変化状態を示す図である。
【図9】 実施形態における処理過程における確定成分の変化状態を示す図である。
【図10】 無音部分検出部の詳細動作の説明図である。
【図11】 スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【図12】 実施形態における信号処理の説明図である。
【符号の説明】
1…マイク、2…分析窓生成部、3…入力音声信号切出部、4…高速フーリエ変換部、5…ピーク検出部、6…無声/有声検出部、7…ピッチ抽出部、8…ピーク連携部、9…補間合成部、10…残差成分検出部、11…高速フーリエ変換部、12…残差成分保持部、13…正弦波成分保持部、14…平均アンプ演算部、15…アンプ正規化部、16…スペクトラル・シェイプ演算部、17…ピッチ正規化部、18…元フレーム情報保持部、19…静的変化/ビブラート的変化分離部、20…ターゲットフレーム情報保持部、21…無音部分検出部、23…正弦波成分属性データ選択部、24…属性データ変形部、25…残差成分選択部、26…正弦波成分生成部、27…正弦波成分変形部、28…逆高速フーリエ変換部、29…コントローラ、30…クロスフェーダ、31…シーケンサ、32…音源部、33…ミキサ、34…出力部、35…逆高速フーリエ変換部、101…SMS分析部、102…ターゲット情報格納部、103…無音部分検出部、104…残差成分処理部、106…正弦波倍音成分処理部、107…正弦波変形部、108…逆高速フーリエ変換処理部、109…逆高速フーリエ変換処理部、110…最終処理部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice conversion device and a voice conversion method, and in particular, converts a sound of a musical instrument to resemble a predetermined singer's singing voice or converts a singer's singing voice to resemble a predetermined musical instrument's sound. In particular, the present invention relates to a voice conversion device and a voice conversion method capable of performing voice conversion even when a voice generation source is completely different.
[0002]
[Prior art]
Various voice conversion devices that change the frequency characteristics of the input voice and the like have been developed. For example, in a karaoke device, the pitch of a singer's singing voice is converted to convert a male voice into a female voice. There are those that convert to voice or vice versa (see, for example, US Pat. No. 5,567,901 and Japanese Patent Publication No. 8-508581).
[0003]
[Problems to be solved by the invention]
In the above conventional voice conversion device, voice is converted by pitch conversion, but voice quality itself is not converted.
By the way, for example, if there is a function to convert the input instrument sound to resemble someone's singing voice, it will be possible to output the singing voice by playing the instrument, which is very interesting for karaoke devices etc. It is.
However, it has been difficult to perform such processing with a conventional audio conversion device.
[0004]
By the way, when such a voice conversion device is to be realized as a karaoke device, when providing a function of converting the input instrument sound into someone's singing voice, someone's singing voice (target voice) is set in advance. A configuration may be considered in which voice conversion of an instrument sound input based on the target voice is performed.
When such a configuration is adopted, if an instrument sound is input in a portion where the target sound does not exist, such as a prelude part, an interlude part or a follower part of the music corresponding to the target sound, the sound is Conversion may not be possible.
[0005]
Therefore, an object of the present invention is to change the sound of an instrument to resemble a predetermined singer's singing voice (= target sound), or to resemble a singer's singing voice to a predetermined instrument's sound (= target sound). Even if the sound source is completely different as in the case of conversion, it is possible to easily obtain a more natural converted sound, and even if the target sound does not exist in the corresponding performance part, the natural sound An object of the present invention is to provide an audio conversion device and an audio conversion method capable of performing conversion.
[0006]
[Means for Solving the Problems]
  In order to solve the above problem, the configuration of claim 1 is:Compatible with instrument soundsComponent extraction means for extracting a sine wave component and a residual component from the input audio signal;Corresponds to singing voiceTarget sine wave component and target residual component extracted from target speech signalThe sine wave component is transformed to generate a new sine wave component, and the residual component is transformed to generate a new residual component.New component generation means;Generated by the new component generation meansA synthesized voice signal generating means for synthesizing the new sine wave component and the new residual component to generate and output a converted voice signal; and when generating the converted voice signal, the target voice signal part, Silencer detection means for detecting whether or not the part to be associated with the input audio signal is a silence part, and when the part to be associated is a silence part, a silent part sine wave component and a silence part remaining Silent part component output means for outputting a difference component, the new component generation means,When the part to be matched is a silent part, the sine wave component is transformed based on the silent part sine wave component to generate a new sine wave component, and based on the silent part residual component While the residual component is deformed to generate a new residual component, and the portion to be matched is not a silent portion, the new sine wave component is modified by deforming the sine wave component based on the target sine wave component And generating a new residual component by modifying the residual component based on the target residual componentIt is characterized by that.
[0007]
  The configuration of claim 2 is:Component extraction means for extracting a sine wave component and a residual component from an input voice signal corresponding to a singing voice, a target sine wave component and a target residual component extracted from a target voice signal corresponding to a musical instrument sound, and the sine wave component New component generation means for generating a new sine wave component by deformation, generating a new residual component by changing the residual component, and the new sine wave component and the new residual generated by the new component generation means A converted voice signal generating means for synthesizing components and generating and outputting a converted voice signal; and when generating the converted voice signal, a portion of the target voice signal that should correspond to the input voice signal is silent. A silent part detecting means for detecting whether or not the part is a silent part, and outputting a preset silent part sine wave component and silent part residual component when the corresponding part is a silent part Silent part component output means, and when the part to be associated is a silent part, the new component generation means transforms the sine wave component based on the silent part sine wave component to generate a new sine wave And generating a new residual component by transforming the residual component based on the silent part residual component, and when the portion to be associated is not a silent part, the target sine wave The sine wave component is deformed based on the component to generate a new sine wave component, and the residual component is deformed based on the target residual component to generate a new residual component.It is characterized by that.
[0008]
According to a third aspect of the present invention, in the configuration according to the first or second aspect of the present invention, the structure includes a silent detection unit that detects whether or not the input voice signal is an unvoiced sound, and the input voice signal is detected by the silent detection unit. Is detected as an unvoiced sound, the target sound signal is output as the converted sound signal.
[0009]
  The configuration of claim 4 is:Compatible with instrument soundsA component extraction step of extracting a sine wave component and a residual component from the input audio signal;Deforming the sine wave component to generate a new sine wave component;The residual component is transformedTheA new component generating step for generating a new residual component, a converted speech generating step for generating a converted speech by synthesizing the new sine wave component and the new residual component, and a target speech for generating the converted speech A silent part detecting step for detecting whether or not the part corresponding to the input voice is a silent part.WhenThe novel component generation step comprisesWhen the part to be matched is a silent part, the sine wave component is transformed based on a preset silent part sine wave component to generate a new sine wave component, and a preset silent part residual component Based on the target sine wave component extracted from the target voice corresponding to the singing voice, when the part to be matched is not a silent part, The sine wave component is transformed to generate a new sine wave component, and the residual component is transformed based on the target residual component extracted from the target voice corresponding to the singing voice to generate a new residual component.It is characterized by that.
[0010]
  The configuration according to claim 5 is:A component extraction step for extracting a sine wave component and a residual component from an input voice signal corresponding to a singing voice, a new sine wave component is generated by modifying the sine wave component, and a new residual is generated by modifying the residual component A new component generating step for generating a component, a converted speech generating step for generating a converted speech by synthesizing the new sine wave component and the new residual component, and a portion of the target speech in generating the converted speech. And a silent part detecting step for detecting whether or not the part to be associated with the input voice is a silent part, and the new component generating step is performed when the part to be associated is a silent part. The sine wave component is modified based on a preset silent part sine wave component to generate a new sine wave component, and the residual component is modified based on a preset silent part residual component to generate a new residual. Difference component On the other hand, if the portion to be matched is not a silent portion, a new sine wave component is generated by modifying the sine wave component based on the target sine wave component extracted from the target sound corresponding to the instrument sound. And generating a new residual component by modifying the residual component based on the target residual component extracted from the target speech corresponding to the instrument sound.It is characterized by that.
[0011]
According to a sixth aspect of the present invention, in the configuration of the fourth or fifth aspect, the method further includes a silent detection step of detecting whether or not the input voice is an unvoiced sound, and the input voice is an unvoiced sound in the silent detection step. When it is detected that there is, the target voice is output as the converted voice.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Next, preferred embodiments of the present invention will be described with reference to the drawings.
[1] Outline processing of embodiment
First, an outline process of the embodiment will be described.
FIG. 1 shows a schematic processing flowchart.
First, SMS (Spectral Modeling Synthesis) analysis including FFT (Fast Fourie Transform) is performed on the instrument sound (input audio signal Sv) performed by the performer (me) in real time (step S101), and a sine wave component ( Sine component) is extracted, a residual component (Residual component) is generated from the input speech signal and the sine wave component in units of frames (step S102), and at the same time, it is determined whether the input speech signal is an unvoiced sound. Then, from the extracted sine wave component, pitch (Pitch), amplifier (Amplitude) and spectral shape (Spectral Shape) which are original attribute data are further extracted (step S103).
[0013]
Next, referring to the frame information of the specific singer (Target) corresponding to the frame being processed (target frame information: attribute data, residual component, consonant sound signal, etc.), the specific singer held It is determined whether or not the (Target) singing voice is a silent part (step S104).
If it is determined in step S104 that it is not a silent part (step S104; NO), attribute data (target attribute data = pitch, amplifier, and spectral) of a specific singer (Target) stored (stored) in advance. From the shape, target attribute data of a frame corresponding to the frame of the input audio signal Sv is extracted (step S105).
[0014]
  On the other hand, when it is determined in step S104 that the singing voice of the specific singer (Target) is silent (step S104; YES), the player (me) plays the instrument.do itDespite the input of the audio signal Sv, there is no inconvenience because there is no audio to be converted. Therefore, in the present embodiment, as will be described in detail later, silence part conversion processing is performed (step S106), and preset silence part data (silence part attribute data and silence part residual component) are converted into target attributes. It will be used as data or target residual component.
[0015]
Subsequently, it is determined whether or not the input voice is an unvoiced sound (step S107).
If it is determined in step S107 that the input sound is not an unvoiced sound (step S107; NO), since the input sound signal Sv is a voiced sound, a sound conversion process described below is performed (steps S108 to S110). ).
Next, new attribute data (new attribute data = pitch, amplifier, and spectral shape) is generated by appropriately selecting and combining the original attribute data and target attribute data, which are attribute data extracted from the input audio signal Sv. (Step S108).
[0016]
  Based on the new attribute data obtained subsequently, a new sine wave component of the frame is generated (step S109). Further, a new residual component is generated based on the residual component of the specific singer (Target) held from the residual component extracted in step S102 (step S110), and together with the new sine wave component generated in step S109. Inverse FFT is performed to obtain a converted audio signal (step S112). By the way, in the determination of step S107,Input voiceIs determined to be an unvoiced sound (step S107; YES), since the singing voice is a consonant part, the voice conversion process is not performed and the consonant voice signal of the specific singer (Target) is output as it is (step S107). S111). This is because the consonant part becomes unnatural unless data extracted from the singing voice is used.
[0017]
In this way, the converted voice signal generated by the inverse FFT conversion process in step S112 or the voice signal of the specific singer (Target) output in step S111 is synthesized with the musical sound signal that is accompanied by karaoke and output. (Step S113), the process proceeds to Step S101, and the next frame is processed. Thus, in the process of cycling through the processing from step S101 to step S113, the audio signal Sv input by the player (me) playing the instrument is as if the singing voice sung by a specific singer (Target). Is output as an audio signal converted as shown in FIG.
[0018]
[2] Outline configuration of embodiment
FIG. 2 is a block diagram showing a schematic configuration of the speech conversion apparatus according to the embodiment.
In FIG. 2, an SMS (Spectral Modeling Synthesis) analysis unit 101 performs SMS analysis on input speech (for example, instrument sound), and acquires a sine wave component SINme and a residual component Rme (f).
More specifically, in the SMS analysis, the input voice signal is subjected to FFT conversion, a local peak is obtained from the result after the FFT conversion, the pitch Pme-sta is extracted from the obtained local peak, and the local peaks are linked in time series. As a result, the sine wave component SINme (frequency component and amplifier component) is acquired.
[0019]
Further, the residual component Rme (f) is extracted by subtracting the sine wave component SINme from the input audio signal.
That is, the sine wave component SINme is a component that can be expressed by the synthesis of sine waves, and the residual component Rme (f) is a remaining component that cannot be expressed as a sine wave component in the input audio signal.
[0020]
Next, the SMS analysis unit 101 detects an unvoiced sound (consonant: 't', 'k', etc.) according to the magnitude of the high-frequency component at the local peak, or zero crossing per unit time on the time axis. According to the number, it is detected that it is unvoiced (such as 's'), and unvoiced sound information U / Vinf indicating whether it is unvoiced sound is supplied as a switching control signal to be supplied to the switching unit SW3.
These analysis results are output to the silent part detection unit 103 as input voice information INFme that is information related to the input voice signal.
Further, the residual component Rme (f) is output to the residual component processing unit 104.
[0021]
Next, the target data storage unit 102a of the target information storage unit 102 is a voice (hereinafter referred to as a target voice) of a singer (a singer who is a target of imitation: TARGET) subjected to voice conversion subjected to SMS analysis in advance. Various data (sine wave component SINtar, residual component Rtar (f)) are stored. These are output to the silent part detection unit 103 as target information INFtar-sync.
The target silence data storage unit 102b of the target information storage unit 102 includes a prelude part, an interlude part, etc., and is input when the target sound corresponding to the input sound (= instrument sound) is a silent part (SILENT part). Various data (silent part sine wave component SILENTsine, silent part residual component SILENTresidual (f)) prepared in advance for use in voice conversion of the voice signal are stored.
[0022]
  Next, the silent part detecting unit 103 receives the input voice information INFme andTarget information INF tar-syncWhether the target audio signal is a silent part (SILENT part) by determining whether or not the target sine wave component SINtar exists at a position corresponding to the position where the target audio signal corresponding to the input audio signal exists. Is output to the switching units SW1 and SW2 as silence control information S / Pinf indicating whether or not the target voice signal is a silence part. As a result, the switching unit SW1 sends the target residual component Rtar (f) stored in the target data storage unit 102a to the residual component processing unit 104 if the target audio signal is not a silent part according to the silence information S / Pinf. Supply.
[0023]
  If the target speech signal is a silent part, the silent part residual component SILENTresidual (f) stored in the target data storage unit 102b is sent to the residual component processing unit 104 instead of the target residual component Rtar (f). Supply. Further, according to the silence information S / Pinf, the switching unit SW2 converts the target sine wave component SINtar stored in the target data storage unit 102a into a sine wave if it is not a silence part of the target audio signal.Overtone componentIf it is a silent part of the target audio signal that is output to the processing unit 106, the silent part sine wave component SILENTsine stored in the target data storage part 102b is replaced with the sine wave instead of the target sine wave component SINtar.Overtone componentThis is supplied to the processing unit 106.
[0024]
  The residual component processing unit 104 converts the residual component Rme (f) of the input audio signal (= instrument sound) based on the target residual component Rtar (f) or the silent part residual component SILENTresidual (f). Perform difference component transformation and reverse generated new residual component Rnew (f)Fast Fourier transformThe data is output to the processing unit 108. Next, sine waveOvertoneThe component processing unit 106 transforms the sine wave component SINme of the sound signal of the musical instrument sound based on the sine wave component SINtar or the silent part sine wave component SILENTsine of the singer's sound signal to be subjected to sound conversion. To create a new sine wave component SINnewAttribute transformation partIt supplies to 107. The attribute transformation unit 107 performs attribute transformation such as changing the amplitude, pitch, and spectral shape as necessary on the sine wave component SINnew subjected to the voice conversion process, and generates a new sine wave component SINnew ′ generated. ,Inverse fast Fourier transformThe data is supplied to the processing unit 108.
[0025]
  Inverse fast Fourier transformThe processing unit 108 adds the attribute-converted sine wave component SINnew ′ and the residual component Rnew (f) on the frequency axis, and then performs inverse FFT conversion, and supplies the result to the final processing unit 110.Inverse fast Fourier transformThe processing unit 109 synthesizes a signal to be output when the input voice is silent. That is, the target sine wave component SINtar and the target residual component Rtar (f), or the silent part sine wave component SILENTsine and the silent part residual component SILENTresidual (f) are added on the frequency axis, and then subjected to inverse FFT transform, and the target silent The sound is output to the final processing unit 110. If the switching unit SW3 is an unvoiced sound according to the unvoiced sound information U / Vinf supplied from the SMS analysis unit 101, the switching unit SW3 will be described later from the U (Unvoice) side.Inverse fast Fourier transformThe synthesized signal from the processing unit 109 (= unvoiced sound on the target side) is supplied to the final processing unit 110. If it is not unvoiced sound, the V (Voice) sideInverse fast Fourier transformSynthetic sound signal (sinusoidal component SINnew) from the processing unit 108'And residual componentR new (f)And a combined signal) are supplied to the final processing unit 110.
[0026]
The final processing unit 110 synthesizes and outputs the audio signal subjected to the inverse FFT conversion and the music.
As a result, it is possible to convert an input voice such as a musical instrument sound into a natural singing voice. Similarly, it is also possible to convert a singer's singing voice as an input voice into a natural instrument sound.
[0027]
[3] Detailed configuration of the embodiment
Next, the detailed configuration of the embodiment will be described with reference to FIGS.
In this embodiment, the voice conversion device (voice conversion method) according to the present invention is applied to a karaoke device, and is configured as a voice conversion device that can convert an input voice that is a musical instrument sound into a natural singing voice of a singer. This is an example.
3 and 4 are block diagrams showing the detailed configuration of the voice conversion device.
[0028]
[3.1] Operation of SMS analysis unit
[3.1.1] Operation of microphone, analysis window generation unit, and input audio signal extraction unit
In FIG. 3, the microphone 1, the analysis window generation unit 2, the input speech signal extraction unit 3, the fast Fourier transform unit 4, the peak detection unit 5, the unvoiced / voiced detection unit 6, the pitch detection unit 7, the peak cooperation unit 8, and interpolation synthesis. Unit 9, residual component detection unit 10, fast Fourier transform unit 11, residual component holding unit 12, sine wave component holding unit 13, average amplifier calculation unit 14, amplifier normalization unit 15, spectral shape calculation unit 16, pitch The normalization unit 17, the original frame information holding unit 18, and the static change / vibrato change separation unit 19 constitute an SMS analysis unit 101.
First, the microphone 1 collects musical instrument sounds of a musical instrument player (me) who wants to perform voice conversion, and outputs them to the input voice signal cutout unit 3 as an input voice signal Sv.
[0029]
In parallel with this, the analysis window generator 2 generates an analysis window (for example, a hamming window) AW having a fixed period (for example, 3.5 times) of the pitch period detected in the previous frame. And output to the input voice signal cutout unit 3. When the initial state or the previous frame is a silent sound (including silent sound), an analysis window having a preset fixed period is output to the input voice signal cutout unit 3 as an analysis window AW.
As a result, the input voice signal cutout unit 3 multiplies the input analysis window AW and the input voice signal Sv, cuts out the input voice signal Sv in units of frames, and outputs the frame voice signal FSv to the fast Fourier transform unit 4. The
More specifically, the relationship between the input audio signal Sv and the frame is as shown in FIG. 5, and each frame FL is set to partially overlap the previous frame FL.
[0030]
[3.1.2] Operation of fast Fourier transform
Then, the frame audio signal FSv is analyzed in the fast Fourier transform unit 4 and a local peak is detected by the peak detection unit 5 from the frequency spectrum output from the fast Fourier transform unit 4 as shown in FIG. .
More specifically, a local peak marked with x is detected for the frequency spectrum as shown in FIG. This local peak is expressed as a combination of a frequency value and an amplifier (amplitude) value.
That is, as shown in FIG. 6, local peaks are detected and represented for each frame as (F0, A0), (F1, A1), (F2, A2),..., (FN, AN). It will be.
[0031]
  Then, as schematically shown in FIG. 5, each frame is output to the unvoiced / voiced detection unit 6 and the peak link unit 8 as one set (hereinafter referred to as a local peak set). The unvoiced / voiced detection unit 6 detects unvoiced ('t', 'k', etc.) according to the magnitude of the high frequency component based on the input local peak for each frame, and detects unvoiced / voiced. The signal U / Vme is sent to the pitch detector 7,And output to the crossfader 30. Alternatively, it is detected that the voice is unvoiced according to the number of zero crosses per unit time on the time axis (such as “s”), and the original unvoiced / voiced detection signal U / Vme is output to the pitch detector 7.
[0032]
Furthermore, if the unvoiced / voiced detection unit 6 does not detect that the input frame is unvoiced, the unvoiced / voiced detection unit 6 outputs the input local peak set to the pitch detection unit 7 as it is.
Further, unvoiced / voiced information is supplied to the crossfader 30 as U / Vinf.
[0033]
[3.1.3] Operation of pitch detector and peak link unit
The pitch detector 7 detects the pitch Pme of the frame corresponding to the local peak set based on the input local peak set.
As a more specific method of detecting the frame pitch Pme, for example, Maher, RC and J.W. Beauchamp: “Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure” (Journal of Acounstical Society of America 95 (4) : 2254-2263).
[0034]
Next, the local peak set output from the peak detection unit 5 is determined in the peak linkage unit 8 for linkage between the previous and subsequent frames, and the local peaks recognized to be linked are local peaks so as to form a series of data strings. Cooperation process to connect
[0035]
Here, this cooperation processing will be described with reference to FIG.
Assume that a local peak as shown in FIG. 7A is detected in the previous frame, and a local peak as shown in FIG. 7B is detected in the current frame.
In this case, the peak link unit 8 performs local peaks corresponding to the local peaks (F0, A0), (F1, A1), (F2, A2),..., (FN, AN) detected in the previous frame. It is checked whether or not is detected even in the current frame. Whether or not there is a corresponding local peak is determined by whether or not the local peak of the current frame is detected within a predetermined range centered on the frequency of the local peak detected in the previous frame.
[0036]
More specifically, in the example of FIG. 7, corresponding local peaks are detected for local peaks (F0, A0), (F1, A1), (F2, A2). For FK, AK (see FIG. 7A), the corresponding local peak (see FIG. 7B) is not detected.
When the peak linking unit 8 detects corresponding local peaks, they are connected in time series order and output as a set of data strings. If no corresponding local peak is detected, the data is replaced with data indicating that there is no corresponding local peak for the frame.
Here, FIG. 8 shows an example of changes in the local peak frequency F0 and frequency F1 over a plurality of frames.
[0037]
Such a change is similarly recognized for the amplifiers (amplitudes) A0, A1, A2,. In this case, the data string output from the peak cooperation unit 8 is a discrete value output at every frame interval.
The peak value output from the peak cooperation unit 8 is hereinafter referred to as a deterministic component. This means that the original signal (that is, the audio signal Sv) is a component that is definitely replaced as a sine wave element. Further, each replaced sine wave (strictly speaking, the frequency and amplifier (amplitude) which are parameters of the sine wave) will be referred to as a sine wave component.
[0038]
Next, the interpolation synthesis unit 9 performs an interpolation process on the deterministic component output from the peak cooperation unit 8 and performs waveform synthesis using a so-called oscillator method based on the deterministic component after the interpolation. In this case, the interpolation interval is performed at an interval corresponding to the sampling rate (for example, 44.1 KHz) of the final output signal output from the output unit 34 described later. The solid line shown in FIG. 8 indicates an image when the interpolation processing is performed for the frequencies F0 and F1 of the sine wave component.
[0039]
[3.1.4] Configuration of interpolation / synthesis unit
Here, the configuration of the interpolation / synthesis unit 9 is shown in FIG.
The interpolation / synthesis unit 9 includes a plurality of partial waveform generation units 9a, and each partial waveform generation unit 9a has a frequency (F0, F1,...) And an amplifier (amplitude) of a specified sine wave component. A corresponding sine wave is generated. However, since the sine wave components (F0, A0), (F1, A1), (F2, A2),... In the first embodiment change each time according to the interpolation interval, The waveform output from the partial waveform generator 9a is a waveform according to the change. That is, the sine wave components (F0, A0), (F1, A1), (F2, A2),... Are sequentially output from the peak cooperation unit 8, and interpolation processing is performed for each sine wave component. Each partial waveform generator 9a outputs a waveform whose frequency and amplitude vary within a predetermined frequency region. The waveforms output from the partial waveform generators 9a are added and synthesized in the adder 9b. Therefore, the output signal of the interpolation synthesis unit 9 is a sine wave component synthesis signal SSS obtained by extracting a deterministic component from the input audio signal Sv. These analysis information and a residual signal to be described later are combined and output to the silence detector 21 as input audio signal information INFme which is information relating to the input audio signal.
[0040]
[3.2] Target information storage unit
On the other hand, the target sine wave component SINtar and the target residual component Rtar are analyzed in advance and held in advance in the target data storage unit 102a on the target information holding unit 102 (for example, a hard disk).
In this case, the target sine wave component SINtar includes the average amplifier static component Atar-sta, the average amplifier vibrato component Atar-vib, the pitch static component Ptar-sta, the pitch vibrato component Ptar-vib, and the spectral shape Star. There is (f).
When the voice conversion device of this embodiment is used as a karaoke device, the pitch static component Ptar-sta and the pitch vibrato component Ptar-vib constituting the target sine wave component SINtar when the key is raised or lowered from the reference. Also, correction processing is performed to raise and lower the same amount. For example, when the key is raised by 50 [cent], the pitch static component Ptar-sta and the pitch vibrato component Ptar-vib must also be raised by 50 [cent].
[0041]
Further, when the tempo of the karaoke apparatus is raised or lowered, it is necessary to read out the target sine wave component SINtar and the target residual component Rtar at a timing corresponding to the changed tempo.
In this case, if the target sine wave component SINtar and the target residual component Rtar corresponding to the timing corresponding to the necessary frame do not exist, the targets of the two frames existing at timings before and after the timing of the necessary frame. The sine wave component SINtar and the target residual component Rtar are read out, and interpolation processing is performed by using these two sets of the target sine wave component SINtar and the target residual component Rtar, and the target sine wave component SINtar and the target residual of the frame at the necessary timing. The component Rtar is generated.
[0042]
In this case, the vibrato component (the average amp vibrato component Atar-vib and the pitch vibrato component Ptar-vib) is not suitable as it is because the vibrato cycle itself is changed and is not suitable. It is necessary to perform interpolation processing that does not occur. Alternatively, if the target attribute data is not data representing the trajectory of the vibrato itself but the parameters of the vibrato period and the vibrato depth are held and the actual trajectory is obtained by calculation, this problem can be avoided. Information on these target sounds is output to the silent part detection unit 21 as target information INFtar-sync.
[0043]
[3.3] Silent part detector
When the silent part detector 21 functioning as the silent part detector 103 detects that the target voice corresponding to the input voice is not silent based on the input voice signal information INFme and the target information INFtar-sync, the silent information S By outputting / Pinf as a switching control signal, both the switching unit SW1 and the switching unit SW2 are set to the target data storage unit 20a side.
As a result, the residual component selection unit 25 of the residual component processing unit 104 receives the target residual component Rtar, and the sine wave component attribute data selection unit 23 receives the target sine wave component SINtar. Become.
[0044]
Further, when the silent part detecting unit 21 functioning as the silent part detecting unit 103 detects that the target voice corresponding to the input voice is silent, the silent part detecting part 21 switches by outputting the silent information S / Pinf as a switching control signal. Both the unit SW1 and the switching unit SW2 are switched from the target data storage unit 20a side to the target silent data storage unit 20b side.
As a result, the silence component residual component SILENTresidual (f) is input to the residual component selection unit 25 of the residual component processing unit 104 instead of the target residual component Rtar, and the sine wave component attribute data selection unit 23 The silent sine wave component SILENTsine is input instead of the target sine wave component SINtar.
[0045]
[3.3.1] Detailed operation of silent part detector
Here, a detailed operation when the silent part detecting unit 21 detects that the target voice is a silent part will be described with reference to FIG.
When it is detected that the target voice corresponding to the input voice is silent, the silent part detection unit 21 outputs both the switching unit SW1 and the switching unit SW2 by outputting the silent information S / Pinf as a switching control signal. The target data storage unit 2a side is switched to the target silence data storage unit 2b side.
As a result, the silence component residual component SILENTresidual (f) is input to the residual component selection unit 25 of the residual component processing unit 104 instead of the target residual component Rtar, and the sine wave component attribute data selection unit 23 The silent sine wave component SILENTsine is input instead of the target sine wave component SINtar.
[0046]
Thereby, as shown in FIGS. 10A and 10B, when the target data (= SINtar + Rtar) is not a silent part, for example, when the target data Y1 corresponding to the input audio signal X1 exists, the synthesis is performed. As shown in FIG. 10D, the audio signal is synthesized based on the input audio signal X1 and the target data Y1 (indicated by “X1 * Y1” in the figure). Similarly, when the target data Y3 corresponding to the input audio signal X3 exists, the synthesized audio signal is synthesized based on the input audio signal X3 and the target data Y3 as shown in FIG. (Indicated in the figure by “X3 * Y3”).
Further, as shown in FIGS. 10A and 10B, when the target data (= SINtar + Rtar) is a silent portion, for example, the input audio signal X2 as in the case of the input audio signal X2 or the input audio signal X4. Alternatively, when the target data corresponding to the input voice signal X4 is a silent part, the synthesized voice signal is based on the input voice signal X2 and the target silence data Z (= SILENTsine + SILENTresidual (f); see FIG. 10C). They are synthesized (indicated by X2 * Z in the figure) or synthesized based on the input audio signal X4 and the target silence data Z (indicated by X4 * Z in the figure).
[0047]
As a result, when an input audio signal (= instrument sound) is input, a more natural audio signal is output as compared to the case where the input audio signal is output as it is even if the target audio is a silent portion. Will be.
When the input sound signal (= instrument sound) is an unvoiced sound, the unvoiced sound of the target sound that is output from the inverse fast Fourier transform unit 35 of the inverse FFT processing unit 109 is directly passed through the mixer 33 of the final processing unit 110. Will be output.
[0048]
[3.4] Residual component processing unit
[3.4.1] Operation of residual component detector
Next, the residual component detection unit 10 constituting the SMS analysis unit 101 has a residual component signal SRD (time waveform) that is a deviation between the sine wave component synthesis signal SSS output from the interpolation synthesis unit 9 and the input speech signal Sv. ) Is generated. This residual component signal SRD includes many unvoiced components included in the speech. On the other hand, the aforementioned sine wave component composite signal SSS corresponds to the voiced component.
By the way, in order to resemble the voice of a singer as a target of conversion (Target), if processing is performed only for voiced sounds, it is not necessary to process unvoiced sounds.
Therefore, in the present embodiment, the speech conversion process is performed on the deterministic component corresponding to the voiced vowel component.
[0049]
  More specifically, the residual component signal SRD is converted into a frequency waveform by the fast Fourier transform unit 11 constituting the SMS analysis unit 101, and the obtained residual component signal (frequency waveform) is converted to Rme (f). Is stored in the residual component storage unit 12 of the residual component processing unit 104.
[3.4.2] Operation of residual component selector
  On the other hand, the residual component selection unit 25 constituting the residual component processing unit 104 isTarget residual component input from the target frame information holding unit 20 Rtar (f) Or silent part residual component SILENTresidual (f) Either one ofBased on the residual component signal (frequency waveform) Rme (f) held in the residual component holding unit 12 and the residual component attribute data selection information inputted from the controller 29, new residual component attribute data is obtained. A residual component Rnew (f) is generated.
[0050]
  TheFurthermore, with respect to the new residual component Rnew (f), as shown in FIG. 11, in order to simulate the same state as the new spectral shape, the high-frequency component of the residual component, that is, the high-frequency component portion More realistic sound can be reproduced by performing and controlling spectral tilt correction that compensates for the slope of the residual component according to the magnitude of the new amplifier component Anew.
[0051]
[3.5] Sine wave overtone component processing section
[3.5.1] Operation of sine wave component holding unit and average amplifier calculation unit
On the other hand, as shown in FIG. 12A, sine wave components (F0, A0), (F1, A1), (F1) output from the peak detector 5 constituting the SMS analyzer 101 via the peak link unit 8 ( F2, A2),... (F (N-1), A (N-1)) N sine wave components (hereinafter collectively referred to as Fn, An, where n = 0 to (N -1).) Is held in the sine wave component holding unit 13 of the sine wave overtone component processing unit 106, and the amplifier An is input to the average amplifier calculation unit 14, and the average amplifier Ame is calculated by the following equation for each frame. Calculated.
Ame = Σ (An) / N
[0052]
[3.5.2] Operation of amplifier normalization unit
Next, the amplifier normalization unit 15 normalizes each amplifier An with the average amplifier Ame according to the following equation to obtain a normalized amplifier A'n.
A’n = An / Ame
[3.5.3] Operation of the spectral shape calculation unit
Then, in the spectral shape calculation unit 16 constituting the SMS analysis unit 101, as shown in FIG. 12B, the frequency Fn and the sine wave component (Fn, A′n) obtained by the normalization amplifier A′n are obtained. An envelope (envelope) as a breakpoint is generated as a spectral shape Sme (f).
In this case, the value of the amplifier at the frequency between the two breakpoints is calculated by, for example, linearly interpolating the two breakpoints. Note that the interpolation method is not limited to linear interpolation.
[0053]
[3.5.4] Operation of pitch normalization unit
Subsequently, in the pitch normalization unit 17 constituting the SMS analysis unit 101, each frequency Fn is normalized by the pitch Pme detected by the pitch detection unit 7 to obtain a normalized frequency F'n.
F'n = Fn / Pme
[3.5.5] Operation of original frame information holding unit
As a result, the original frame information holding unit 18 constituting the SMS analysis unit 101 has the average amplifier Ame, the pitch Pme, and the spectral shape Sme (f) which are the original attribute data corresponding to the sine wave component included in the input audio signal Sv. ), The normalized frequency F′n is held.
In this case, the normalized frequency F′n represents a relative value of the frequency of the harmonic sequence. If the harmonic structure of the frame is handled as a complete harmonic structure, it is not necessary to hold it.
[0054]
[3.5.6] Operation of static change / vibrato-like change separation unit
Subsequently, among the original attribute data held in the original frame information holding unit 18, the average amplifier Ame and the pitch Pme are further filtered by the static change / vibrato change separation unit 19, so as to be static. Separately and keep the target change component and the vibrato change component. It is also possible to separate the jitter changing component, which is a higher frequency changing component, from the vibrato changing component.
More specifically, the average amplifier Ame is separated into an average amplifier static component Ame-sta and an average amplifier vibrato component Ame-vib.
[0055]
  Further, the pitch Pme is separated and held into a pitch static component Pme-sta and a pitch vibrato-like component Pme-vib. As a result, as shown in FIG. 12C, the original frame information data of the corresponding frame includes the average amplifier static component Ame-sta and the average amplifier vibrato component Ame corresponding to the sine wave component of the input audio signal Sv. -vib, pitch static component Pme-sta, pitch vibrato component Pme-vib, spectral shape Sme (f),as well asIt will be held in the form of normalized frequency F'n.
[0056]
[3.5.7] Operation of sine wave component attribute data selection unit
  Subsequently, the sine wave component attribute data selection unit 23 constituting the sine wave overtone component processing unit 106Target frame information holding unit 20The average amplifier static component Ame-sta corresponding to the sine wave component of the input audio signal Sv, the average amplifier vibrato component Ame-vib, one of the target sine wave component SINtar and the silent sine wave component SILENTsine Pitch static component Pme-sta, Pitch vibrato-like component Pme-vib, Spectral shape Sme (f), Normalized frequency F'n,Based on the sine wave component attribute data selection information input from the controller 29, a new amplifier component Anew, a new pitch component Pnew, and a new spectral shape Snew (f), which are new sine wave component attribute data, are generated.
[0057]
By the way, in general, when the amplifier component is large, a bright sound extending to a high frequency is obtained, and when the amplifier component is small, the sound is concealed. Therefore, with respect to the new spectral shape Snew (f), in order to simulate such a state, as shown in FIG. 11, the high-frequency component of the spectral shape, that is, the slope of the spectral shape of the high-frequency component portion. Is controlled by performing spectral tilt correction that compensates according to the magnitude of the new amplifier component Anew, so that more realistic sound can be reproduced.
[0058]
[3.5.8] Operation of attribute data transformation unit
Subsequently, with respect to the generated new amplifier component Anew, new pitch component Pnew, and new spectral shape Snew (f), a sine wave harmonic overtone is generated based on the sine wave component attribute data deformation information input from the controller 29 as necessary. Further modification is performed by the attribute data modification unit 24 constituting the component processing unit 106. For example, deformation such as extending the spectral shape as a whole is performed.
[0059]
[3.5.9] Operation of sine wave component generator
Subsequently, the sine wave component generation unit 26 constituting the sine wave overtone component processing unit 106 is not accompanied by the deformation output from the attribute data deformation unit 24, or includes a new amplifier component Anew, a new pitch component Pnew and Based on the new spectral shape Snew (f), new sine wave components (F ″ 0, A ″ 0), (F ″ 1, A ″ 1), (F ″ 2, A ″ 2) in the frame, ..., N sine wave components of (F "(N-1), A" (N-1)) (hereinafter, these are collectively referred to as a new sine wave component SINnew).
[0060]
[3.6] Sine wave deformation section
Furthermore, the obtained new sine wave component SINnew (= new frequency F ″ n and new amplifier A ″ n) is used as the sine wave deformation unit 107 based on the sine wave component deformation information input from the controller 29 as necessary. Further deformation is performed by the functioning sine wave component deformation unit 27 to output a modified new sine wave component SIN′new. For example, only the new-order amplifier A ″ n (= A ″ 0, A ″ 2, A ″ 4,...) Of even-order components is increased (for example, doubled), and so on. As a result, it is possible to give the converted speech further variety.
[0061]
[3.7] Inverse fast Fourier transform processing unit
Next, the inverse fast Fourier transform unit 28 constituting the inverse fast Fourier transform processing unit 108 uses the obtained new frequency F ″ n, new amplifier A ″ n (= new sine wave component), and new residual component Rnew (f). A new voiced sound time axis signal is obtained by storing in the FFT buffer, sequentially performing inverse FFT, performing overlap processing so that the obtained time axis signals partially overlap, and adding them. A converted voice signal (converted voiced voice signal) is generated.
At this time, based on the sine wave component / residual component balance control signal input from the controller 29, the mixing ratio of the sine wave component and the residual component is controlled to obtain a more realistic voiced signal. In this case, generally, a rough voice can be obtained by increasing the mixing ratio of the residual components.
[0062]
In this case, when the new frequency f ″ n, the new amplifier a ″ n (= new sine wave component) and the new residual component Rnew (f) are stored in the FFT buffer, they are converted with different pitches and appropriate pitches. By further adding a sine wave component, harmony can be obtained as a converted audio signal. Further, by giving a harmony pitch suitable for the accompaniment sound by the sequencer 31, a musical harmony suitable for the accompaniment can be obtained.
In addition, the inverse fast Fourier transform unit 35 constituting the inverse fast Fourier transform processing unit 109 selects the selected sine wave component SINSLCT (= target sine wave component SINtar or silent part sine wave component SILENTsine selected by the switching unit SW2 by S / Pinf. ) And the selected residual component RSLCT (= one of the target residual component Rtar or the silent residual component SILENTresidual (f)) selected in the switching unit SW1 by S / Pinf is stored in the FFT buffer. Then, the inverse inverse FFT is performed, the obtained time axis signals are overlapped so that they partially overlap, and the addition process of adding them is performed to convert a new voiceless sound (including silence) time axis signal An audio signal (converted unvoiced audio signal) is generated.
[0063]
[3.8] Switching unit SW3
Next, when the input speech is unvoiced (U) based on the unvoiced sound information U / Vinf output from the silent / voiced detection unit 6, the crossfader 30 constituting the switching unit SW <b> 3 is an inverse fast Fourier transform unit 35. The target audio signal to be output is output to the mixer 33 of the final processing unit 110 as it is.
When the target sound is voiced (V), the converted sound signal output from the inverse fast Fourier transform conversion unit 28 is output to the mixer 33.
In this case, the reason why the cross fader 30 is used as the switching unit SW3 is to prevent the generation of a click sound when the switch is switched by performing a cross fade operation.
[0064]
[3.9] Final processing section
The final processing unit 110 includes a sequencer 31, a sound source unit 32, and a mixer 33.
The sequencer 31 outputs sound source control information for generating the accompaniment sound of karaoke to the sound source unit 32 as MIDI (Musical Instrument Digital Interface) data, for example.
Thereby, the sound source unit 32 generates an accompaniment signal based on the sound source control information and outputs the accompaniment signal to the mixer 33.
The mixer 33 mixes either the input audio signal Sv or the converted audio signal and the accompaniment signal, and outputs the mixed signal to the output unit 34.
The output unit 34 has an amplifier (not shown) and amplifies the mixed signal and outputs it as an acoustic signal.
[0065]
[4] Effects of the embodiment
As a result, when an input sound such as a musical instrument sound is input, it is converted into a natural sound such as a singing voice of the target singer and output.
In this case, even if there is a silent part in the singing voice of the target singer, the converted voice is output based on the previously prepared silent part data (silent part sine wave component + silent part residual component). Less natural converted sound is output.
[0066]
[5] Modification of embodiment
[5.1] First modification
In the above-described embodiment, the instrument sound is input and the analyzed singing voice is held in advance. However, the present invention is not limited thereto, and the singing voice is input and the instrument sound is output, or the intermediate tone color between the singing voice and the instrument sound. May be output.
[5.2] Second modification
The extraction of the sine wave component is not limited to the method used in this embodiment. In short, it is only necessary to extract a sine wave component included in the audio signal.
[0067]
[5.3] Third modification
In this embodiment, the target sine wave component and residual component are stored, but instead, the target speech itself is stored and read out, and the sine wave component and residual component are extracted by real-time processing. May be. That is, you may perform the process similar to the process performed with respect to the input audio | voice in this embodiment with respect to the voice of a target singer.
[5.4] Fourth modification
In the present embodiment, pitch, amplifier, and spectral shape are all handled as sine wave components, but it is also possible to handle at least one of them.
[0068]
【The invention's effect】
As described above, according to the present invention, the sound of a musical instrument is converted to resemble a predetermined singer's singing voice, or the singer's singing voice is converted to resemble a predetermined musical instrument's sound. Even if the sound source is completely different, it is possible to easily obtain a more natural converted sound and to perform natural sound conversion even when the target sound does not exist in the corresponding performance part. It becomes.
[Brief description of the drawings]
FIG. 1 is a flowchart of an overview process according to an embodiment.
FIG. 2 is a schematic configuration block diagram of the embodiment.
FIG. 3 is a block diagram (part 1) illustrating a detailed configuration of the embodiment.
FIG. 4 is a block diagram (part 2) illustrating a detailed configuration of the embodiment.
FIG. 5 is a diagram illustrating a state of a frame in the embodiment.
FIG. 6 is an explanatory diagram for explaining peak detection of a frequency spectrum in the embodiment.
FIG. 7 is a diagram illustrating cooperation of peak values for each frame in the embodiment.
.
FIG. 8 is a diagram illustrating a change state of a frequency value in the embodiment.
FIG. 9 is a diagram illustrating a change state of a deterministic component in a process in the embodiment.
FIG. 10 is an explanatory diagram of a detailed operation of a silent part detection unit.
FIG. 11 is a diagram for explaining spectral tilt compensation of a spectral shape;
FIG. 12 is an explanatory diagram of signal processing in the embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Analysis window production | generation part, 3 ... Input audio | voice signal extraction part, 4 ... Fast Fourier transform part, 5 ... Peak detection part, 6 ... Unvoiced / voiced detection part, 7 ... Pitch extraction part, 8 ... Peak Linking unit, 9 ... interpolation synthesis unit, 10 ... residual component detection unit, 11 ... fast Fourier transform unit, 12 ... residual component holding unit, 13 ... sine wave component holding unit, 14 ... average amplifier calculation unit, 15 ... amplifier Normalization unit, 16 ... Spectral shape calculation unit, 17 ... Pitch normalization unit, 18 ... Original frame information holding unit, 19 ... Static change / vibrato change separation unit, 20 ... Target frame information holding unit, 21 ... Silence Partial detection unit, 23 ... sine wave component attribute data selection unit, 24 ... attribute data transformation unit, 25 ... residual component selection unit, 26 ... sine wave component generation unit, 27 ... sine wave component transformation unit, 28 ... inverse fast Fourier Conversion unit, 29 ... Contro , 30 ... crossfader, 31 ... sequencer, 32 ... sound source unit, 33 ... mixer, 34 ... output unit, 35 ... inverse fast Fourier transform unit, 101 ... SMS analysis unit, 102 ... target information storage unit, 103 ... silent part detection 104, residual component processing unit, 106 ... sine wave overtone component processing unit, 107 ... sine wave deformation unit, 108 ... inverse fast Fourier transform processing unit, 109 ... inverse fast Fourier transform processing unit, 110 ... final processing unit.

Claims (6)

楽器音に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出手段と、
歌声に対応するターゲット音声信号から抽出したターゲット正弦波成分及びターゲット残差成分と、
前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形して新規残差成分を生成する新規成分生成手段と、
前記新規成分生成手段が生成した前記新規正弦波成分及び前記新規残差成分を合成し変換音声信号を生成して出力する変換音声信号生成手段と、
前記変換音声信号を生成するに際し、前記ターゲット音声信号の部分であって、前記入力音声信号に対応させるべき部分が無音部であるか否かを検出する無音部検出手段と、
前記対応させるべき部分が無音部である場合に、予め設定した無音部正弦波成分及び無音部残差成分を出力する無音部成分出力手段とを備え、
前記新規成分生成手段は、前記対応させるべき部分が無音部である場合には、前記無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、前記ターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記ターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴とする音声変換装置。
Component extraction means for extracting a sine wave component and a residual component from an input audio signal corresponding to a musical instrument sound ;
A target sine wave component and a target residual component extracted from the target voice signal corresponding to the singing voice ;
New component generation means for deforming the sine wave component to generate a new sine wave component, deforming the residual component to generate a new residual component ;
Converted speech signal generating means for combining the new sine wave component and the new residual component generated by the new component generating means to generate and output a converted speech signal;
When generating the converted audio signal, a silent part detecting means for detecting whether or not a part of the target audio signal that is to be made to correspond to the input audio signal is a silent part;
A silent part component output means for outputting a preset silent part sine wave component and silent part residual component when the part to be associated is a silent part;
The new component generation means generates a new sine wave component by deforming the sine wave component based on the silence portion sine wave component when the portion to be associated is a silence portion, and the silence portion When the residual component is deformed based on the residual component to generate a new residual component, and the portion to be matched is not a silent portion, the sine wave component is converted based on the target sine wave component. An audio conversion device characterized by generating a new sine wave component by deformation and generating a new residual component by modifying the residual component based on the target residual component .
歌声に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出手段と、
楽器音に対応するターゲット音声信号から抽出したターゲット正弦波成分及びターゲット残差成分と、
前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形して新規残差成分を生成する新規成分生成手段と、
前記新規成分生成手段が生成した前記新規正弦波成分及び前記新規残差成分を合成し変換音声信号を生成して出力する変換音声信号生成手段と、
前記変換音声信号を生成するに際し、前記ターゲット音声信号の部分であって、前記入力音声信号に対応させるべき部分が無音部であるか否かを検出する無音部検出手段と、
前記対応させるべき部分が無音部である場合に、予め設定した無音部正弦波成分及び無音部残差成分を出力する無音部成分出力手段とを備え、
前記新規成分生成手段は、前記対応させるべき部分が無音部である場合には、前記無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、前記ターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、前記ターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴とする音声変換装置。
Component extraction means for extracting a sine wave component and a residual component from an input voice signal corresponding to a singing voice ;
A target sine wave component and a target residual component extracted from the target audio signal corresponding to the instrument sound ;
New component generation means for deforming the sine wave component to generate a new sine wave component, deforming the residual component to generate a new residual component ;
Converted speech signal generating means for combining the new sine wave component and the new residual component generated by the new component generating means to generate and output a converted speech signal;
When generating the converted audio signal, a silent part detecting means for detecting whether or not a part of the target audio signal that is to be made to correspond to the input audio signal is a silent part;
A silent part component output means for outputting a preset silent part sine wave component and silent part residual component when the part to be associated is a silent part;
The new component generation means generates a new sine wave component by deforming the sine wave component based on the silence portion sine wave component when the portion to be associated is a silence portion, and the silence portion When the residual component is deformed based on the residual component to generate a new residual component, and the portion to be matched is not a silent portion, the sine wave component is converted based on the target sine wave component. An audio conversion device characterized by generating a new sine wave component by deformation and generating a new residual component by modifying the residual component based on the target residual component .
請求項1または請求項2に記載の音声変換装置において、
前記入力音声信号が無声音であるか否かを検出する無声検出手段を備え、
前記無声検出手段により前記入力音声信号が無声音であると検出された場合には、前記ターゲット音声信号を前記変換音声信号として出力すること
を特徴とする音声変換装置。
In the voice converter according to claim 1 or 2,
Comprising silent detection means for detecting whether or not the input voice signal is a silent sound;
When the unvoiced detection means detects that the input sound signal is unvoiced sound, the target sound signal is output as the converted sound signal.
楽器音に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出工程と、
前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形し新規残差成分を生成する新規成分生成工程と、
前記新規正弦波成分及び前記新規残差成分を合成して変換音声を生成する変換音声生成工程と、
前記変換音声を生成するに際し、前記ターゲット音声の部分であって、前記入力音声に対応させるべき部分が無音部分であるか否かを検出する無音部分検出工程を備え、
前記新規成分生成工程は、前記対応させるべき部分が無音部である場合には、予め設定した無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、予め設定した無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、歌声に対応するターゲット音声から抽出したターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、歌声に対応するターゲット音声から抽出したターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴とする音声変換方法。
A component extraction step of extracting a sine wave component and a residual component from an input audio signal corresponding to a musical instrument sound ;
And novel component generating step of generating a new residual component to generate a new sinusoid, then deforming said residual component to deform the sine wave component,
A converted voice generation step of generating a converted voice by combining the new sine wave component and the new residual component;
Upon generating the conversion voice, said a portion of the target sound, and a silence detecting step portion to be corresponding to the input voice is detected whether the silent portion,
The new component generation step generates a new sine wave component by transforming the sine wave component based on a preset silent portion sine wave component when the portion to be associated is a silent portion, Based on the set silent part residual component, the residual component is transformed to generate a new residual component. On the other hand, if the part to be matched is not a silent part, it is extracted from the target voice corresponding to the singing voice. The sine wave component is modified based on the target sine wave component to generate a new sine wave component, and the residual component is modified based on the target residual component extracted from the target voice corresponding to the singing voice to generate a new residual sine wave component. A voice conversion method characterized by generating a difference component .
歌声に対応する入力音声信号から正弦波成分及び残差成分を抽出する成分抽出工程と、
前記正弦波成分を変形して新規正弦波成分を生成し、前記残差成分を変形し新規残差成分を生成する新規成分生成工程と、
前記新規正弦波成分及び前記新規残差成分を合成して変換音声を生成する変換音声生成工程と、
前記変換音声を生成するに際し、前記ターゲット音声の部分であって、前記入力音声に対応させるべき部分が無音部分であるか否かを検出する無音部分検出工程を備え、
前記新規成分生成工程は、前記対応させるべき部分が無音部である場合には、予め設定した無音部正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、予め設定した無音部残差成分に基づいて前記残差成分を変形して新規残差成分を生成する一方、前記対応させるべき部分が無音部で無い場合には、楽器音に対応するターゲット音声から抽出したターゲット正弦波成分に基づいて前記正弦波成分を変形して新規正弦波成分を生成するとともに、楽器音に対応するターゲット音声から抽出したターゲット残差成分に基づいて前記残差成分を変形して新規残差成分を生成することを特徴とする音声変換方法。
A component extraction step of extracting a sine wave component and a residual component from an input audio signal corresponding to a singing voice ;
And novel component generating step of generating a new residual component to generate a new sinusoid, then deforming said residual component to deform the sine wave component,
A converted voice generation step of generating a converted voice by combining the new sine wave component and the new residual component;
Upon generating the conversion voice, said a portion of the target sound, and a silence detecting step portion to be corresponding to the input voice is detected whether the silent portion,
The new component generation step generates a new sine wave component by transforming the sine wave component based on a preset silent portion sine wave component when the portion to be associated is a silent portion, Based on the set silent part residual component, the residual component is transformed to generate a new residual component. On the other hand, if the part to be matched is not a silent part, it is extracted from the target voice corresponding to the instrument sound. The sine wave component is transformed based on the target sine wave component to generate a new sine wave component, and the residual component is transformed based on the target residual component extracted from the target sound corresponding to the instrument sound. A speech conversion method characterized by generating a new residual component .
請求項4または請求項5記載の音声変換方法において、
前記入力音声が無声音であるか否かを検出する無声検出工程を備え、
前記無声検出工程において前記入力音声が無声音であると検出された場合には、前記ターゲット音声を前記変換音声として出力すること
を特徴とする音声変換方法。
The voice conversion method according to claim 4 or 5,
Comprising a silent detection step of detecting whether the input voice is a silent sound,
The speech conversion method, wherein the target speech is output as the converted speech when the input speech is detected to be unvoiced in the silent detection step.
JP18284598A 1998-06-29 1998-06-29 Voice conversion device and voice conversion method Expired - Fee Related JP3907838B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18284598A JP3907838B2 (en) 1998-06-29 1998-06-29 Voice conversion device and voice conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18284598A JP3907838B2 (en) 1998-06-29 1998-06-29 Voice conversion device and voice conversion method

Publications (2)

Publication Number Publication Date
JP2000020100A JP2000020100A (en) 2000-01-21
JP3907838B2 true JP3907838B2 (en) 2007-04-18

Family

ID=16125473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18284598A Expired - Fee Related JP3907838B2 (en) 1998-06-29 1998-06-29 Voice conversion device and voice conversion method

Country Status (1)

Country Link
JP (1) JP3907838B2 (en)

Also Published As

Publication number Publication date
JP2000020100A (en) 2000-01-21

Similar Documents

Publication Publication Date Title
Bonada et al. Synthesis of the singing voice by performance sampling and spectral models
JP4207902B2 (en) Speech synthesis apparatus and program
JP3502247B2 (en) Voice converter
EP1701336B1 (en) Sound processing apparatus and method, and program therefor
JP6733644B2 (en) Speech synthesis method, speech synthesis system and program
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP3540159B2 (en) Voice conversion device and voice conversion method
JP4757971B2 (en) Harmony sound adding device
JP3502268B2 (en) Audio signal processing device and audio signal processing method
JP4433734B2 (en) Speech analysis / synthesis apparatus, speech analysis apparatus, and program
JP3706249B2 (en) Voice conversion device, voice conversion method, and recording medium recording voice conversion program
JP3907838B2 (en) Voice conversion device and voice conversion method
JP3447221B2 (en) Voice conversion device, voice conversion method, and recording medium storing voice conversion program
JP3949828B2 (en) Voice conversion device and voice conversion method
JP3540609B2 (en) Voice conversion device and voice conversion method
JP2022065554A (en) Method for synthesizing voice and program
JP2022065566A (en) Method for synthesizing voice and program
JP3294192B2 (en) Voice conversion device and voice conversion method
JP3934793B2 (en) Voice conversion device and voice conversion method
JP3540160B2 (en) Voice conversion device and voice conversion method
WO2022080395A1 (en) Audio synthesizing method and program
JPH1031496A (en) Musical sound generating device
CN112331222B (en) Method, system, equipment and storage medium for converting tone color of song
JP3447220B2 (en) Voice conversion device and voice conversion method
JP2010002937A (en) Speech analysis and synthesis device, speed analyzer, speech synthesizer, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140126

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees