JP2011237602A - 符号化音声データの音高変換装置 - Google Patents
符号化音声データの音高変換装置 Download PDFInfo
- Publication number
- JP2011237602A JP2011237602A JP2010109006A JP2010109006A JP2011237602A JP 2011237602 A JP2011237602 A JP 2011237602A JP 2010109006 A JP2010109006 A JP 2010109006A JP 2010109006 A JP2010109006 A JP 2010109006A JP 2011237602 A JP2011237602 A JP 2011237602A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- data
- code
- frequency
- midi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【解決手段】ユニット110により変換対象となる符号化音声データDを入力し、ユニット120により音高のシフト量を示すオフセット値αを入力する。ユニット140内には、周波数fの増加に従って単調減少する重み関数W(f)を格納しておく。ユニット130は、データD内の各符号について、当該符号が示す周波数fを、α・W(f)に応じた値だけ増減する処理を行い、処理後の符号を符号化音声データD*として出力する。各符号に対する音高の実際のシフト量は、重み関数W(f)を乗じて決定されるため、より高音の符号ほど音高シフト量が減少する。このため、フォルマント成分についての音高シフト量が小さくなり、簡便ながら、自然な音声再生が可能な符号化音声データD*が得られる。
【選択図】図12
Description
変換対象となる符号化音声データDを入力する変換対象データ入力ユニットと、
音高に関するオフセット値αを入力するオフセット値入力ユニットと、
周波数fについて定義された所定の重み関数W(f)を格納した重み関数格納ユニットと、
変換対象となる符号化音声データDに対して、オフセット値αに基づく音高の変更処理を行い、変更後の符号化音声データD*を出力する音高変換処理ユニットと、
を設け、
重み関数格納ユニットが、重み関数W(f)として、周波数f軸上の所定区間においてW(f)が周波数fの増加に従って単調減少する関数を格納しており、
音高変換処理ユニットが、重み関数W(f)を用いて、変換対象となる符号化音声データDに含まれている個々の符号について、当該符号が示す周波数fをα・W(f)に応じた値だけ増減することにより新たな周波数f′を求め、当該符号を、それが示す周波数fをf′に変更した新たな符号に置き換える処理を行うようにしたものである。
重み関数格納ユニットが、重み関数W(f)として、周波数f軸上の第1設定値faおよび第2設定値fb(fb>fa)について、f≦faの区間は、W(f)=1、fa<f<fbの区間は、1>W(f)>0(但し、W(f)はfの増加に従って単調減少)、f≧fbの区間は、W(f)=0となる関数を格納しているようにしたものである。
重み関数格納ユニットが、100Hz〜200Hzの範囲内の第1設定値faと3kHz〜6kHzの範囲内の第2設定値fbとを用いた男性用重み関数W-male(f)と、200Hz〜400Hzの範囲内の第1設定値faと4kHz〜8kHzの範囲内の第2設定値fbとを用いた女性用重み関数W-female(f)と、を格納しており、
音高変換処理ユニットが、変換対象となる符号化音声データDによって表現される声が男性の声か女性の声かを示す指示に基づいて、男性の声の場合には男性用重み関数W-male(f)を用いた変更処理を行い、女性の声の場合には女性用重み関数W-female(f)を用いた変更処理を行うようにしたものである。
オフセット値入力ユニットが、音高を高める場合は正、低める場合は負のオフセット値αを入力し、
音高変換処理ユニットが、所定の係数k(k>1)を用いた式f′=f・kα・W(f)により新たな周波数f′を求めるようにしたものである。
重み関数格納ユニットが、fa<f<fbの区間は、W(f)の値が周波数fの対数値に対して反比例する値となる重み関数W(f)を格納しているようにしたものである。
変換対象データ入力ユニットが、周波数fをノートナンバーnによって示す符号を含む符号化音声データDを入力し、
重み関数格納ユニットが、ノートナンバーnについて定義された重み関数W(n)を格納し、
オフセット値入力ユニットが、音高を高める場合は正、低める場合は負の値をとるノートナンバーの差をオフセット値αとして入力し、
音高変換処理ユニットが、変換対象となる符号化音声データDに含まれる個々の符号について、当該符号が示すノートナンバーnを用いた「n′=n+α・W(n)」なる演算式により新たなノートナンバーn′を求め、当該符号を、それが示すノートナンバーnをn′に変更した新たな符号に置き換える処理を行うようにしたものである。
重み関数格納ユニットが、周波数f軸上の第1設定値faに対応するノートナンバーnaおよび第2設定値fbに対応するノートナンバーnbについて、na<n<nbの区間は、W(n)の値がノートナンバーnに反比例する値となる重み関数W(n)を格納しているようにしたものである。
変換対象データ入力ユニットが、音の持続時間が時間軸上で同一期間を占め、互いに異なる周波数を示す複数の符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、複数の符号のそれぞれについて新たな符号への置換処理を行うようにしたものである。
変換対象データ入力ユニットが、周波数をノートナンバーによって示す符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、音の持続時間が時間軸上で同一期間を占める複数の符号についてそれぞれ新たな符号への置換処理を行う際に、同一のノートナンバーを示す新たな符号が複数m個生じた場合には、当該複数m個の符号のうち1つのみを残し、その余の(m−1)個を削除する重複回避処理を行うようにしたものである。
変換対象データ入力ユニットが、音の強度の情報をもった符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、重複回避処理を行う際に、1つのみ残された符号についての強度を、削除された符号についての強度に応じて修正するようにしたものである。
変換対象データ入力ユニットが、符号化音声データDとしてMIDI規格のデータを入力し、
音高変換処理ユニットが、変更後の符号化音声データD*としてMIDI規格のデータを出力するようにしたものである。
音高変換処理ユニットが、変更後の符号化音声データD*を、五線譜上に音符を配置した楽譜のデータとして出力するようにしたものである。
人間の声を含む音声信号Sをアナログ信号もしくはデジタル信号として入力する音声信号入力ユニットと、
音声信号Sを、特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成された符号化音声データDに変換する符号化ユニットと、
を有する音声符号化装置を更に付加し、
符号化ユニットによって変換された符号化音声データDの音高を、音高変換装置によって変更し、変更後の符号化音声データD*を出力する機能をもった音声変換装置を構成するようにしたものである。
所定の言語による単語を文字列として表現したテキストデータを入力するテキストデータ入力ユニットと、
所定の言語による単語を構成する個々の音節にそれぞれ対応する符号群(特定周波数の音が特定時間だけ持続することを示す符号の集合体)を格納した符号データベースユニットと、
符号データベースユニットを参照して、テキストデータの読みを構成する個々の音節にそれぞれ対応する符号群を抽出し、これらを時間軸上に並べることによって、テキストデータの読みに対応する人間の声を表現した符号化音声データDを合成し、これを音高変換装置に与える符号合成ユニットと、
を有するテキスト符号化装置を更に付加し、
符号合成ユニットによって合成された符号化音声データDの音高を、音高変換装置によって変更し、変更後の符号化音声データD*を出力する機能をもった音声合成装置を構成するようにしたものである。
符号データベースユニットが、子音を構成する子音音素と母音を構成する母音音素とについて、それぞれ対応する符号群を格納しており、
符号合成ユニットが、テキストデータの読みを構成する個々の音節を子音音素と母音音素とに分解し、個々の音素ごとにそれぞれ対応する符号群を抽出し、これらを時間軸上に並べることによって符号化音声データDを合成するようにしたものである。
テキストデータ入力ユニットが、音節ごとのオフセット値αを含むテキストデータを入力し、
符号合成ユニットが、合成した符号化音声データDとともに、個々の音節ごとのオフセット値αを音高変換装置に与え、
音高変換装置が、符号合成ユニットから与えられたオフセット値αを用いて、個々の音節ごとに音高の変更処理を行うようにしたものである。
テキスト符号化装置が、
個々の単語について、当該単語を構成する各音節に与えるオフセット値αを格納した音高辞書ユニットを更に備え、
符号合成ユニットが、合成した符号化音声データDとともに、音高辞書ユニットを参照することにより得られる個々の音節ごとのオフセット値αを音高変換装置に与え、
音高変換装置が、符号合成ユニットから与えられたオフセット値αを用いて、個々の音節ごとに音高の変更処理を行うようにしたものである。
所定の楽器による様々な周波数の演奏音響波形をデジタルデータとして格納した音源ユニットと、
符号化音声データD*を構成する個々の符号を、音源ユニットに格納されている対応する演奏音響波形に置き換えることにより音声信号の復号化を行う復号化ユニットと、
復号化された音声信号に基づいて音波を生成する発音ユニットと、
を有する音声発生装置を更に設けるようにしたものである。
コンピュータが、変換対象となる符号化音声データDを入力する変換対象データ入力段階と、
コンピュータが、音高に関するオフセット値αを入力するオフセット値入力段階と、
コンピュータが、変換対象となる符号化音声データDに対して、オフセット値αに基づく音高の変更処理を行い、変更後の符号化音声データD*を出力する音高変換処理段階と、
を行い、
音高変換処理段階において、周波数f軸上の所定区間においてW(f)が周波数fの増加に従って単調減少する所定の重み関数W(f)を利用して、変換対象となる符号化音声データDに含まれている個々の符号について、当該符号が示す周波数fをα・W(f)に応じた値だけ増減することにより新たな周波数f′を求め、当該符号を、それが示す周波数fをf′に変更した新たな符号に置き換える処理を行うようにしたものである。
コンピュータが、変換対象となるMIDIデータDを入力する変換対象データ入力段階と、
コンピュータが、音高に関するオフセット値αを入力するオフセット値入力段階と、
コンピュータが、変換対象となるMIDIデータDに対して、オフセット値αに基づく音高の変更処理を行い、変更後のMIDIデータD*を出力する音高変換処理段階と、
を行い、
変換対象データ入力段階では、互いに異なるノートナンバーをもち、時間軸上の同一位置を占める複数のMIDI符号を含むMIDIデータDの入力を行い、
音高変換処理段階では、ノートナンバー軸上の第1設定値naおよび第2設定値nb(nb>na)について、n≦naの区間は、W(n)=1、na<n<nbの区間は、1>W(n)>0(但し、W(n)はnの増加に従って単調減少)、n≧nbの区間は、W(n)=0となる所定の重み関数W(n)を利用して、変換対象となるMIDIデータDに含まれている個々のMIDI符号について、当該MIDI符号が示すノートナンバーnに対してα・W(n)に応じた値だけ加減算を行うことにより新たなノートナンバーn′を求め、当該MIDI符号を、それが示すノートナンバーnをn′に変更した新たなMIDI符号に置き換える処理を行うことにより、変更後のMIDIデータD*を生成するようにしたものである。
音高変換処理段階で、新たなMIDI符号に置き換える処理を行う際に、時間軸上の同一位置を占め、同一のノートナンバーをもつ新たなMIDI符号が複数m個生じた場合には、当該複数m個のMIDI符号のうち1つのみを残し、その余の(m−1)個を削除する重複回避処理を行うようにしたものである。
はじめに、前掲の特許文献1〜3に開示されているフーリエ変換を利用した音響信号の符号化方法の基本原理を簡単に説明しておく。この符号化方法を利用すれば、たとえば、人間の音声をアナログ音響信号として取り込み、MIDIデータなどのデジタル符号データに変換することができる。
H(k)=0.5−0.5・cos(2πk/L)
で与えられる関数である。
n(d1,1),e(d1,1)
n(d1,2),e(d1,2)
n(d1,3),e(d1,3)
n(d2,1),e(d2,1)
n(d2,2),e(d2,2)
n(d2,3),e(d2,3)
なる3組のデータ対が得られる。このようにして単位区間ごとに得られたデータによって、原音響信号を符号化することができる。
V=√(E/Emax )・127
なる演算で求まる値Vをベロシティーとして用いる。あるいは対数をとって、
V=log(E/Emax )・127+127
(ただし、V<0の場合はV=0とする)
なる演算で求まる値Vをベロシティーとして用いてもよい。また、「デルタタイム」データは、各単位区間の長さに応じて設定すればよい。
さて、§1で述べた技術を利用すれば、任意の音響信号をMIDIデータなどのデジタル符号データに変換することができるので、楽器の演奏音に限らず、人間の話し声や歌声を符号化することが可能であり、人間の声を、五線譜上の音符として表現することも可能である。もちろん、MIDI規格は、もともと楽器演奏の操作を記述するための符号化規格であるため、個々の符号は、基本的に、特定周波数の音(特定の鍵盤の音)が特定時間だけ持続する(特定時間だけ鳴る)ことを示しているにすぎない。したがって、符号化したMIDIデータを再生、すなわち、所定の音源を用いて演奏しても、元の人間の声がそのまま再生されるわけではない。ただ、楽器を使って人間のしゃべる声に似せた演奏を行うことができるので、エンターテインメントとして様々な利用形態が広がることになる。
§2で述べた人間の声の特性を考慮すれば、人間の声を表現したMIDIデータについての音高シフトを行う際には、基本周波数F0をもつ音には音高のシフト処理(周波数/ノートナンバーの増減処理)を行い、フォルマント周波数F1,F2,F3をもつ音には音高のシフト処理を行わない、という分別処理を行うとよいことがわかる。しかしながら、実際にそのような分別処理を行うことは非常に困難である。たとえば、図6(a) に示す例の場合、基本周波数F0は、最も大きな強度ピークをとる周波数であり、かつ、複数の強度ピークに対応する周波数の中で最も小さな周波数となっている。このような典型的な例の場合、基本周波数F0とフォルマント周波数F1,F2,F3とを弁別することは容易であり、基本周波数F0をもつ音に対してのみシフト処理を行うことができる。
§3では、本発明の基本概念を、「周波数をシフトする」という物理的な事象の観点から述べたが、MIDI規格などの符号化音声データの場合、音高は周波数fではなく、ノートナンバーnによって表現される。したがって、実用上は、「周波数をシフトする」処理の代わりに、「ノートナンバーをシフトする」処理を行う必要がある。そこで、以下、このような実用上の観点から本発明の基本概念を説明する。
図12は、本発明の基本的実施形態に係る符号化音声データの音高変換装置100の構成を示すブロック図である。この装置は、特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成され人間の声を表現する符号化音声データD(たとえば、MIDIデータ)を、異なる音高をもった別な音声データD*に変換する符号化音声データの音高変換装置であり、その基本原理は、既に§3,§4で述べたとおりである。
ここでは、§5で述べた本発明に係る音高変換装置100を利用して、音声変換装置を構成した例を、図13のブロック図を参照しながら説明する。図13に示す音声変換装置は、図12に示す音高変換装置100に、音声符号化装置200を更に付加することによって構成される装置である。
ここでは、§5で述べた本発明に係る音高変換装置100を利用して、音声合成装置を構成した例を、図14のブロック図を参照しながら説明する。図14に示す音声合成装置は、図12に示す音高変換装置100に、テキスト符号化装置300を更に付加することによって構成される装置である。このテキスト符号化装置300の詳細な構成や動作は、前掲の特許文献4に記載されているが、ここではその原理だけを簡単に述べておく。
ここでは、これまで述べてきた様々な実施形態についての変形例を述べる。
図21は、図14に示す音声合成装置の第1の変形例を示すブロック図である。図14に示す音声合成装置では、音高を変更するためには、音高変換装置100に対してオフセット値αを指定する必要があるが、この第1の変形例に係る音声合成装置では、予めテキストデータ内にオフセット値αを埋め込んでおくことにより、テキスト符号化装置300Aから音高変換装置100に対して、自動的に、かつ、音素ごとにオフセット値αを指示することができる。
図23は、図14に示す音声合成装置の第2の変形例を示すブロック図であり、テキスト符号化装置300の代わりに、テキスト符号化装置300Bが用いられている。テキスト符号化装置300Bは、図14に示すテキスト符号化装置300における符号合成ユニット330を、付加機能をもった符号合成ユニット350に置き換え、新たに、音高辞書ユニット360を追加したものである。符号データベースユニット310とテキストデータ入力ユニット320は、図14に示すテキスト符号化装置300に用いられているものと同じものでかまわない。
図25は、本発明に係る音高変換装置100から出力された符号化音声データD*に基づいて、音声を発声させる音声発声装置400の基本構成を示すブロック図である。MIDIデータのような符号化音声データには、実際の音の波形に関する情報は含まれていないので、この符号化音声データを復号化して音を再生するためには、音の波形に関する情報をもった音源を用いる必要がある。
これまで述べた実施形態では、主として、本発明をMIDI規格の符号化音声データを用いて実施した例を述べてきた。しかしながら、本発明を実施する場合、必ずしもMIDI規格の符号化音声データを用いる必要はない。本発明は、特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成され人間の声を表現する符号化音声データであれば、どのような規格の符号化音声データを用いた場合でも、その作用効果が得られるものである。
これまでの説明では、本発明に係る音高変換装置、音声変換装置、音声合成装置を、ブロック図として示し、個々のブロックで示す構成要素の集合体として示したが、実用上、これらの装置はコンピュータに専用のプログラムを組み込むことによって構成することができる。
これまで、本発明を装置として把握した説明を行ったが、本発明に係る基本思想は、方法発明としても捉えることができる。
20:マイク
30:アンプ装置
100:音高変換装置
110:変換対象データ入力ユニット
120:オフセット値入力ユニット
130:音高変換処理ユニット
140:重み関数格納ユニット
200:音声符号化装置
210:音声信号入力ユニット
220:符号化ユニット
300,300A,300B:テキスト符号化装置
310:符号データベースユニット
320:テキストデータ入力ユニット
330:符号合成ユニット
340:符号合成ユニット
350:符号合成ユニット
360:音高辞書ユニット
400:音声発生装置
410:復号化ユニット
420:音源ユニット
430:発音ユニット(アンプ装置・スピーカ)
A:複素強度
D:符号化音声データ
D*:音高変更後の符号化音声データ
D(x):音素xの符号化音声データ
d1〜d5:単位区間
E:実効強度(エネルギー)
e(i,j):符号コードn(i,j)の実効強度
F:サンプリング周波数
F0:基本周波数
F1:第1フォルマント周波数
F2:第2フォルマント周波数
F3:第3フォルマント周波数
f:周波数
f′:音高変更後の周波数
f1〜f3:個々の音符が示す周波数
f1*〜f3*:音高変更後の個々の音符が示す周波数
fa:周波数の第1設定値
fb:周波数の第2設定値
n:ノートナンバー
n1〜n5:音符/個々の音符が示すノートナンバー
n1*〜n5*:音高変更後の音符/個々の音符が示すノートナンバー
na:周波数faに対応するノートナンバー
nb:周波数fbに対応するノートナンバー
n(i,j):単位区間diについて抽出された第j番目の符号コード
S:音声信号
T:テキストデータ
T(α):オフセット値αを含むテキストデータ
T1〜T3:トラック
t:時間
t1〜t6:時刻
W(f),W(n):重み関数
α:オフセット値
Claims (22)
- 特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成され人間の声を表現する符号化音声データを、異なる音高をもった別な音声データに変換する符号化音声データの音高変換装置であって、
変換対象となる符号化音声データDを入力する変換対象データ入力ユニットと、
音高に関するオフセット値αを入力するオフセット値入力ユニットと、
周波数fについて定義された所定の重み関数W(f)を格納した重み関数格納ユニットと、
前記変換対象となる符号化音声データDに対して、前記オフセット値αに基づく音高の変更処理を行い、変更後の符号化音声データD*を出力する音高変換処理ユニットと、
を備え、
前記重み関数格納ユニットが、前記重み関数W(f)として、周波数f軸上の所定区間においてW(f)が周波数fの増加に従って単調減少する関数を格納しており、
前記音高変換処理ユニットが、前記重み関数W(f)を用いて、前記変換対象となる符号化音声データDに含まれている個々の符号について、当該符号が示す周波数fをα・W(f)に応じた値だけ増減することにより新たな周波数f′を求め、当該符号を、それが示す周波数fをf′に変更した新たな符号に置き換える処理を行うことを特徴とする符号化音声データの音高変換装置。 - 請求項1に記載の音高変換装置において、
重み関数格納ユニットが、重み関数W(f)として、周波数f軸上の第1設定値faおよび第2設定値fb(fb>fa)について、f≦faの区間は、W(f)=1、fa<f<fbの区間は、1>W(f)>0(但し、W(f)はfの増加に従って単調減少)、f≧fbの区間は、W(f)=0となる関数を格納していることを特徴とする符号化音声データの音高変換装置。 - 請求項2に記載の音高変換装置において、
重み関数格納ユニットが、100Hz〜200Hzの範囲内の第1設定値faと3kHz〜6kHzの範囲内の第2設定値fbとを用いた男性用重み関数W-male(f)と、200Hz〜400Hzの範囲内の第1設定値faと4kHz〜8kHzの範囲内の第2設定値fbとを用いた女性用重み関数W-female(f)と、を格納しており、
音高変換処理ユニットが、変換対象となる符号化音声データDによって表現される声が男性の声か女性の声かを示す指示に基づいて、男性の声の場合には前記男性用重み関数W-male(f)を用いた変更処理を行い、女性の声の場合には前記女性用重み関数W-female(f)を用いた変更処理を行うことを特徴とする符号化音声データの音高変換装置。 - 請求項2または3に記載の音高変換装置において、
オフセット値入力ユニットが、音高を高める場合は正、低める場合は負のオフセット値αを入力し、
音高変換処理ユニットが、所定の係数k(k>1)を用いた式f′=f・kα・W(f)により新たな周波数f′を求めることを特徴とする符号化音声データの音高変換装置。 - 請求項4に記載の音高変換装置において、
重み関数格納ユニットが、fa<f<fbの区間は、W(f)の値が周波数fの対数値に対して反比例する値となる重み関数W(f)を格納していることを特徴とする符号化音声データの音高変換装置。 - 請求項2または3に記載の音高変換装置において、
変換対象データ入力ユニットが、周波数fをノートナンバーnによって示す符号を含む符号化音声データDを入力し、
重み関数格納ユニットが、ノートナンバーnについて定義された重み関数W(n)を格納し、
オフセット値入力ユニットが、音高を高める場合は正、低める場合は負の値をとるノートナンバーの差をオフセット値αとして入力し、
音高変換処理ユニットが、変換対象となる符号化音声データDに含まれる個々の符号について、当該符号が示すノートナンバーnを用いた「n′=n+α・W(n)」なる演算式により新たなノートナンバーn′を求め、当該符号を、それが示すノートナンバーnをn′に変更した新たな符号に置き換える処理を行うことを特徴とする符号化音声データの音高変換装置。 - 請求項6に記載の音高変換装置において、
重み関数格納ユニットが、周波数f軸上の第1設定値faに対応するノートナンバーnaおよび第2設定値fbに対応するノートナンバーnbについて、na<n<nbの区間は、W(n)の値がノートナンバーnに反比例する値となる重み関数W(n)を格納していることを特徴とする符号化音声データの音高変換装置。 - 請求項1〜7のいずれかに記載の音高変換装置において、
変換対象データ入力ユニットが、音の持続時間が時間軸上で同一期間を占め、互いに異なる周波数を示す複数の符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、前記複数の符号のそれぞれについて新たな符号への置換処理を行うことを特徴とする符号化音声データの音高変換装置。 - 請求項8に記載の音高変換装置において、
変換対象データ入力ユニットが、周波数をノートナンバーによって示す符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、音の持続時間が時間軸上で同一期間を占める複数の符号についてそれぞれ新たな符号への置換処理を行う際に、同一のノートナンバーを示す新たな符号が複数m個生じた場合には、当該複数m個の符号のうち1つのみを残し、その余の(m−1)個を削除する重複回避処理を行うことを特徴とする符号化音声データの音高変換装置。 - 請求項9に記載の音高変換装置において、
変換対象データ入力ユニットが、音の強度の情報をもった符号を含む符号化音声データDを入力し、
音高変換処理ユニットが、重複回避処理を行う際に、1つのみ残された符号についての強度を、削除された符号についての強度に応じて修正することを特徴とする符号化音声データの音高変換装置。 - 請求項1〜10のいずれかに記載の音高変換装置において、
変換対象データ入力ユニットが、符号化音声データDとしてMIDI規格のデータを入力し、
音高変換処理ユニットが、変更後の符号化音声データD*としてMIDI規格のデータを出力することを特徴とする符号化音声データの音高変換装置。 - 請求項11に記載の音高変換装置において、
音高変換処理ユニットが、変更後の符号化音声データD*を、五線譜上に音符を配置した楽譜のデータとして出力することを特徴とする符号化音声データの音高変換装置。 - 請求項1〜12のいずれかに記載の音高変換装置を含む音声変換装置であって、
人間の声を含む音声信号Sをアナログ信号もしくはデジタル信号として入力する音声信号入力ユニットと、
前記音声信号Sを、特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成された符号化音声データDに変換する符号化ユニットと、
を有する音声符号化装置を更に備え、
前記符号化ユニットによって変換された符号化音声データDの音高を、前記音高変換装置によって変更し、変更後の符号化音声データD*を出力することを特徴とする音声変換装置。 - 請求項1〜12のいずれかに記載の音高変換装置を含む音声合成装置であって、
所定の言語による単語を文字列として表現したテキストデータを入力するテキストデータ入力ユニットと、
前記所定の言語による単語を構成する個々の音節にそれぞれ対応する符号群(特定周波数の音が特定時間だけ持続することを示す符号の集合体)を格納した符号データベースユニットと、
前記符号データベースユニットを参照して、前記テキストデータの読みを構成する個々の音節にそれぞれ対応する符号群を抽出し、これらを時間軸上に並べることによって、前記テキストデータの読みに対応する人間の声を表現した符号化音声データDを合成し、これを前記音高変換装置に与える符号合成ユニットと、
を有するテキスト符号化装置を更に備え、
前記符号合成ユニットによって合成された符号化音声データDの音高を、前記音高変換装置によって変更し、変更後の符号化音声データD*を出力することを特徴とする音声合成装置。 - 請求項14に記載の音声合成装置であって、
符号データベースユニットが、子音を構成する子音音素と母音を構成する母音音素とについて、それぞれ対応する符号群を格納しており、
符号合成ユニットが、テキストデータの読みを構成する個々の音節を子音音素と母音音素とに分解し、個々の音素ごとにそれぞれ対応する符号群を抽出し、これらを時間軸上に並べることによって符号化音声データDを合成することを特徴とする音声合成装置。 - 請求項14または15に記載の音声合成装置であって、
テキストデータ入力ユニットが、音節ごとのオフセット値αを含むテキストデータを入力し、
符号合成ユニットが、合成した符号化音声データDとともに、個々の音節ごとの前記オフセット値αを音高変換装置に与え、
前記音高変換装置が、前記符号合成ユニットから与えられたオフセット値αを用いて、個々の音節ごとに音高の変更処理を行うことを特徴とする音声合成装置。 - 請求項14または15に記載の音声合成装置であって、
テキスト符号化装置が、
個々の単語について、当該単語を構成する各音節に与えるオフセット値αを格納した音高辞書ユニットを更に備え、
符号合成ユニットが、合成した符号化音声データDとともに、前記音高辞書ユニットを参照することにより得られる個々の音節ごとの前記オフセット値αを音高変換装置に与え、
前記音高変換装置が、前記符号合成ユニットから与えられたオフセット値αを用いて、個々の音節ごとに音高の変更処理を行うことを特徴とする音声合成装置。 - 請求項13〜17のいずれかに記載の音声変換装置もしくは音声合成装置であって、
所定の楽器による様々な周波数の演奏音響波形をデジタルデータとして格納した音源ユニットと、
符号化音声データD*を構成する個々の符号を、前記音源ユニットに格納されている対応する演奏音響波形に置き換えることにより音声信号の復号化を行う復号化ユニットと、
復号化された音声信号に基づいて音波を生成する発音ユニットと、
を有する音声発生装置を更に備えることを特徴とする音声変換装置もしくは音声合成装置。 - 請求項1〜18のいずれかに記載の音高変換装置、音声変換装置もしくは音声合成装置としてコンピュータを機能させるためのプログラム。
- 特定周波数の音が特定時間だけ持続することを示す符号を時間軸上に並べることによって構成され人間の声を表現する符号化音声データについて、その抑揚を変換する符号化音声データの抑揚変換方法であって、
コンピュータが、変換対象となる符号化音声データDを入力する変換対象データ入力段階と、
コンピュータが、音高に関するオフセット値αを入力するオフセット値入力段階と、
コンピュータが、前記変換対象となる符号化音声データDに対して、前記オフセット値αに基づく音高の変更処理を行い、変更後の符号化音声データD*を出力する音高変換処理段階と、
を有し、
前記音高変換処理段階において、周波数f軸上の所定区間においてW(f)が周波数fの増加に従って単調減少する所定の重み関数W(f)を利用して、前記変換対象となる符号化音声データDに含まれている個々の符号について、当該符号が示す周波数fをα・W(f)に応じた値だけ増減することにより新たな周波数f′を求め、当該符号を、それが示す周波数fをf′に変更した新たな符号に置き換える処理を行うことを特徴とする符号化音声データの抑揚変換方法。 - 人間の声を表現したMIDIデータを、抑揚の異なる別なMIDIデータに変換するMIDIデータの抑揚変換方法であって、
コンピュータが、変換対象となるMIDIデータDを入力する変換対象データ入力段階と、
コンピュータが、音高に関するオフセット値αを入力するオフセット値入力段階と、
コンピュータが、前記変換対象となるMIDIデータDに対して、前記オフセット値αに基づく音高の変更処理を行い、変更後のMIDIデータD*を出力する音高変換処理段階と、
を有し、
前記変換対象データ入力段階では、互いに異なるノートナンバーをもち、時間軸上の同一位置を占める複数のMIDI符号を含むMIDIデータDの入力を行い、
前記音高変換処理段階では、ノートナンバー軸上の第1設定値naおよび第2設定値nb(nb>na)について、n≦naの区間は、W(n)=1、na<n<nbの区間は、1>W(n)>0(但し、W(n)はnの増加に従って単調減少)、n≧nbの区間は、W(n)=0となる所定の重み関数W(n)を利用して、前記変換対象となるMIDIデータDに含まれている個々のMIDI符号について、当該MIDI符号が示すノートナンバーnに対してα・W(n)に応じた値だけ加減算を行うことにより新たなノートナンバーn′を求め、当該MIDI符号を、それが示すノートナンバーnをn′に変更した新たなMIDI符号に置き換える処理を行うことにより、変更後のMIDIデータD*を生成することを特徴とするMIDIデータの抑揚変換方法。 - 請求項21に記載のMIDIデータの抑揚変換方法において、
音高変換処理段階で、新たなMIDI符号に置き換える処理を行う際に、時間軸上の同一位置を占め、同一のノートナンバーをもつ新たなMIDI符号が複数m個生じた場合には、当該複数m個のMIDI符号のうち1つのみを残し、その余の(m−1)個を削除する重複回避処理を行うことを特徴とするMIDIデータの抑揚変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010109006A JP5560888B2 (ja) | 2010-05-11 | 2010-05-11 | 符号化音声データの音高変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010109006A JP5560888B2 (ja) | 2010-05-11 | 2010-05-11 | 符号化音声データの音高変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011237602A true JP2011237602A (ja) | 2011-11-24 |
JP5560888B2 JP5560888B2 (ja) | 2014-07-30 |
Family
ID=45325647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010109006A Expired - Fee Related JP5560888B2 (ja) | 2010-05-11 | 2010-05-11 | 符号化音声データの音高変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5560888B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602182A (zh) * | 2022-12-13 | 2023-01-13 | 广州感音科技有限公司(Cn) | 声音变换方法、系统、计算机设备及存储介质 |
WO2024100951A1 (ja) * | 2022-11-07 | 2024-05-16 | 合同会社音楽呼吸総研 | 電子機器、音声生成方法、音声生成システム及びコンピュータプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10116088A (ja) * | 1996-10-14 | 1998-05-06 | Roland Corp | 効果付与装置 |
JPH1195753A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 |
JPH1195798A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音声合成方法および音声合成装置 |
JP2000010597A (ja) * | 1998-06-18 | 2000-01-14 | Yamaha Corp | 音声変換装置及び音声変換方法 |
JP2000066682A (ja) * | 1998-08-21 | 2000-03-03 | Roland Corp | 波形発生装置 |
JP2000305600A (ja) * | 1999-04-21 | 2000-11-02 | Victor Co Of Japan Ltd | 音声信号処理装置及び方法、情報媒体 |
JP2003066983A (ja) * | 2001-08-30 | 2003-03-05 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
-
2010
- 2010-05-11 JP JP2010109006A patent/JP5560888B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10116088A (ja) * | 1996-10-14 | 1998-05-06 | Roland Corp | 効果付与装置 |
JPH1195753A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 |
JPH1195798A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音声合成方法および音声合成装置 |
JP2000010597A (ja) * | 1998-06-18 | 2000-01-14 | Yamaha Corp | 音声変換装置及び音声変換方法 |
JP2000066682A (ja) * | 1998-08-21 | 2000-03-03 | Roland Corp | 波形発生装置 |
JP2000305600A (ja) * | 1999-04-21 | 2000-11-02 | Victor Co Of Japan Ltd | 音声信号処理装置及び方法、情報媒体 |
JP2003066983A (ja) * | 2001-08-30 | 2003-03-05 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024100951A1 (ja) * | 2022-11-07 | 2024-05-16 | 合同会社音楽呼吸総研 | 電子機器、音声生成方法、音声生成システム及びコンピュータプログラム |
CN115602182A (zh) * | 2022-12-13 | 2023-01-13 | 广州感音科技有限公司(Cn) | 声音变换方法、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5560888B2 (ja) | 2014-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331222B (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
US11996082B2 (en) | Electronic musical instruments, method and storage media | |
JP2014501941A (ja) | クライアント端末機を用いた音楽コンテンツ製作システム | |
JP2005516262A (ja) | 音声合成 | |
Pierce | The nature of musical sound | |
JP2022044938A (ja) | 電子楽器、方法及びプログラム | |
KR102168529B1 (ko) | 인공신경망을 이용한 가창음성 합성 방법 및 장치 | |
New et al. | Voice conversion: From spoken vowels to singing vowels | |
Macon et al. | Concatenation-based midi-to-singing voice synthesis | |
JPH1097267A (ja) | 声質変換方法および装置 | |
CN108922505B (zh) | 信息处理方法及装置 | |
Bonada et al. | Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
CN113555001A (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
JP5560888B2 (ja) | 符号化音声データの音高変換装置 | |
JP5560769B2 (ja) | 音素符号変換装置および音声合成装置 | |
JPH1195798A (ja) | 音声合成方法および音声合成装置 | |
JPH05224689A (ja) | 音声合成装置 | |
US20240347037A1 (en) | Method and apparatus for synthesizing unified voice wave based on self-supervised learning | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
Risset | Speech and music combined: an overview | |
KR20040015605A (ko) | 가상노래 합성장치 및 방법 | |
CN115273776B (zh) | 端到端歌声合成方法、计算机设备及存储介质 | |
KR20240151961A (ko) | 자기지도 학습기반 통합 음성 합성 방법 및 장치 | |
Chamorro | An Analysis of Jonathan Harvey’s Speakings for Orchestra and Electronics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5560888 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |