JP5233737B2 - 音素符号補正装置、音素符号データベース、および音声合成装置 - Google Patents

音素符号補正装置、音素符号データベース、および音声合成装置 Download PDF

Info

Publication number
JP5233737B2
JP5233737B2 JP2009041165A JP2009041165A JP5233737B2 JP 5233737 B2 JP5233737 B2 JP 5233737B2 JP 2009041165 A JP2009041165 A JP 2009041165A JP 2009041165 A JP2009041165 A JP 2009041165A JP 5233737 B2 JP5233737 B2 JP 5233737B2
Authority
JP
Japan
Prior art keywords
phoneme
code
time
chord
phoneme code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009041165A
Other languages
English (en)
Other versions
JP2010197605A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2009041165A priority Critical patent/JP5233737B2/ja
Publication of JP2010197605A publication Critical patent/JP2010197605A/ja
Application granted granted Critical
Publication of JP5233737B2 publication Critical patent/JP5233737B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は人間の声を基にして、電子楽器、楽譜等で利用可能な符号データを得るための技術に関する。
従来、人間の声を擬似的に合成する手法は、種々の分野で利用されている。出願人は、人間の声をPCMでデジタル化した後、フーリエ変換を用い、実効強度の大きい周波数に対応する符号コードを取得することにより音声合成を行う技術を提案している(特許文献1参照)。
特開平11−95798号公報
上記特許文献1に記載の技術では、ヒト音声を構成する各音素ごとにMIDIデータ形式で符号化された符号コード群は、電子楽器による自動演奏で音声を再生することを前提としているため、発音タイミングやベロシティ制御が煩雑で、玩具などに搭載されている性能の低いMIDI音源では再生できなかった。また、前記符号コード群を既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読不能な譜面になってしまい、ヒトによる楽器演奏で前記符号コード群を再生することは困難であった。
そこで、本発明は、ヒト音声を構成する各音素ごとにMIDIデータ形式で符号化された符号コード群が玩具などに搭載されている性能の低いMIDI音源でも再生可能で、既存の楽譜編集ツールに読み込ませて五線譜に変換すると、ヒトによる楽器演奏で前記符号コード群を再生可能な判読性のある譜面が得られるように、前記各音素ごとの符号コード群を簡素な符号コード群に変換することが可能な音素符号補正装置、音素符号データベース、および音声合成装置を提供することを課題とする。
上記課題を解決するため、本発明では、1つの音素を複数の符号コード群で表現した音素符号を、その発音開始時刻、発音終了時刻、周波数に対応付けて画面に表示する音素符号表示手段と、前記表示された音素符号に対して、利用者が指定開始時刻、指定分割時刻、指定終了時刻を指定するための時刻指定手段と、前記時刻指定手段により指定された指定開始時刻、指定終了時刻で特定される区間を指定区間とし、前記音素符号を構成する符号コードのうち、前記指定区間内の符号コードの発音終了時刻から発音開始時刻との時間と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、前記指定区間に指定分割時刻を含む場合に、前記指定開始時刻から前記指定分割時刻までを第1の指定区間、前記指定分割時刻から前記指定終了時刻までを第2の指定区間として、2つの指定区間ごとに符号コードのエネルギー値が高い上位のものを各々抽出する音素符号補正手段を有する音素符号補正装置を提供する。
本発明の音素符号補正装置によれば、符号コード群として構成される音素符号を画面表示し、利用者に指定された区間内のエネルギー値の高い符号コードを抽出するとともに、分割時刻が指定されている場合に、分割された2つの指定区間ごとに各々指定された区間内のエネルギー値の高い符号コードを抽出する抽出するようにしたので、玩具などに搭載されている性能の低いMIDI音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換可能な単純な音素符号に補正することが可能となる。
また、本発明では、日本語カナ文字の各音素を表現した音素符号を、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音のいずれかにより構成し、前記各音素符号を、各音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースを提供する。
本発明の音素符号データベースによれば、日本語カナ文字を、単一和音で構成する音素符号、2連和音で構成する音素符号のいずれかの定型形式により記録するようにしたので、音声合成を行うことにより作成される符号コード群は玩具などに搭載されている性能の低いMIDI音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換が可能となる。
また、本発明では、日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成する音素編集処理手段と、前記音素編集処理手段により生成された合成音声データを出力する音声出力手段を有する音声合成装置を提供する。
本発明の音声合成装置によれば、単一和音、2連和音のいずれかの定型形式により記録したデータベースを有し、入力された音素符号識別情報に対応する音素符号を抽出し、音素の種別に従って、発音の開始および終了を特定する時刻を設定して合成音声データを生成するようにしたので、音声合成を行うことことにより作成される符号コード群は玩具などに搭載されている性能の低いMIDI音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換が可能となる。
本発明によれば、玩具などに搭載されている性能の低いMIDI音源で音声再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で音声再生可能な判読性のある五線譜に変換可能な符号コード群を生成できる音声合成を行うことが可能となるという効果を奏する。
本発明における音声合成の基本概念を示す図である。 本発明における音声合成の基本概念を示す図である。 本発明に係る音素符号補正装置の一実施形態を示す構成図である。 音素符号表示手段30に表示された補正前の音素符号の様子を示す図である。 音素符号表示手段30に表示された補正後の音素符号の様子を示す図である。 音素符号補正手段21による処理前と処理後の音素符号の変化の様子を示す図である。 補正音素符号記憶部12に格納された男声の音素符号の一覧を示す図である。 補正音素符号記憶部12に格納された男声の音素符号の一覧を示す図である。 補正音素符号記憶部12に格納された女声の音素符号の一覧を示す図である。 補正音素符号記憶部12に格納された女声の音素符号の一覧を示す図である。 本発明に係る音声合成装置の一実施形態を示す構成図である。 本発明に係る電子透かし埋め込み装置の一実施形態を示す構成図である。
(1.本発明の基本概念)
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。最初に、本発明の基本概念について説明する。日本語の母音は、2つの特徴的な音声フォルマント成分を含む4つ以上の重音による和音で近似できることが知られている。子音は母音成分に加えて、摩擦音など雑音を表現する和音と母音への経過音を表現する和音の3種の連結された和音が理論上必要であるが、経過音は人間の聴覚上の補間現象(音脈分凝)に委ねれば、最初の雑音と母音の2つの和音に近似できる。実験の結果、日本語の母音は単一の4和音、子音は2連の4和音を基本にして全音素を表現し、これらを時間軸上につなぎ合わせれば音声合成を実現できることが判明した。
本発明では、上述の結果を基に、母音と子音を区別して2種の態様で音素を表現して記録する。そして、これらの音素を用いて、音素の特徴に応じてさらに多種の態様で合成することを特徴とする。音声の特徴に応じた合成態様の分類については、様々なものが考えられるが、本実施形態では、母音、子音(濁音、半濁音、撥音含む)、長音の母音、長音の子音、促音、拗音の6通りに分類している。
図1、図2は、本実施形態における音声合成の基本概念を示す図である。図1(a)〜(d)、図2(a)(b)は、上記各分類に対応したものとなっている。図1、図2において、各矩形は、音素を示しており、矩形と矩形の間の空白は無音部分を示している。また、左右方向は時間軸であり、矩形の横幅は、音素の発音時間に対応している。音素の発音時間は、基本的な母音、子音の発音時間を単位区間として設定し、他の分類の音素についても、この単位区間を基準にして定められている。単位区間の具体的な長さは適宜設定することが可能であるが、本実施形態では0.25秒としている。また、詳しくは後述するが、本実施形態では、音素は、2つのパターンで符号化され、1つの和音で構成される音素と、2つの連続する和音(以下、2連和音という)で構成される音素がある。
図1(a)は、母音の場合の合成パターンを示す例である。母音の場合、音素は1つの和音(第1和音)で構成される。図1(a)に示すように、第1和音を単位区間分発音した後、単位区間分無音とし、その後、他の音素が続く。図1(b)は、子音の場合の合成パターンを示す例である。子音の場合、音素は第1和音と第2和音の2つの和音で構成される。図1(b)に示すように、単位区間の1/4だけ第1和音を発音し、続いて、単位区間の3/4だけ第2和音を発音する。すなわち、第1和音の発音終了と同時に第2和音の発音を開始し、第1和音の発音開始から第2和音の発音終了までがちょうど単位区間となる。その後、単位区間分無音とし、その後、他の音素が続く。
図1(c)は、長音の母音の場合の合成パターンを示す例である。長音の母音の場合、1つの和音で構成されるが、図1(c)に示すように、通常の母音に比べ、単位区間分発音時間を延ばす。すなわち、第1和音を2単位区間分発音する。その後、単位区間分無音とし、その後、他の音素が続く。図1(d)は、長音の子音の場合の合成パターンを示す例である。長音の子音の場合、2つの和音で構成されるが、図1(d)に示すように、通常の子音に比べ、第2和音の発音時間を単位区間分だけ延ばす。第1和音の発音時間は、通常の子音の場合と同じく、単位区間の1/4である。すなわち、第1和音の発音終了と同時に第2和音の発音を開始し、第1和音の発音開始から第2和音の発音終了までが2単位区間分となる。その後、単位区間分無音とし、その後、他の音素が続く。
図2(a)は、促音の場合の合成パターンを示す例である。促音の場合、図2(a)に示すように、後続音素である子音の第1和音を、後続音素の直前に発音する。例えば、“ッタ”における“ッ”を合成する場合、後続音素“タ”の第1和音を、“タ”の第1和音の直前に配置する。このとき、促音の発音開始は、先行音素の発音終了から単位区間の3/4だけ経過した時点とする。すなわち、先行音素の発音終了から単位区間の3/4だけ経過した時点から、後続音素の第1和音が2回繰り返して発音され、その後、後続音素の第2和音が発音されることになる。
図2(b)は、拗音の場合の合成パターンを示す例である。拗音の場合、図2(b)に示すように、直前の子音を第1和音のみとする。そして、直前の子音の第1和音の発音終了時刻を、拗音に対応する子音の発音開始時刻として、その拗音に対応する子音の第1和音と第2和音を連続して発音する。例えば、“キャ”における“ャ”を合成する場合、先行音素“キ”の第1和音の直後に、拗音“ャ”に対応する子音“ヤ”の第1和音を配置する。このとき、拗音に対応する子音の発音は、通常の子音の場合と同様、第1和音が単位区間の1/4、第2和音が単位区間の3/4となる。
図1(a)〜図1(d)、図2(b)においては、先行音素を省略し、図2(a)、(b)においては、後続音素を省略したが、基本的に全ての音素の間には単位区間分の無音区間が設定される。また、図1、2に示したものは、基本概念であるため、各音素における各和音の発音時間の比率、発音時間や無音時間の長さは適宜変更することが可能である。例えば、隣接音素との間隔を変動させれば話速を変更できる。
(2.前準備)
次に、従来技術を利用した前処理について説明する。前準備として、人間の声を各音素ごとに符号化する処理を行う。これは、特許文献1に示されている音素の符号化処理に相当する。ただし、特許文献1に示されている符号化処理では、1つの単位区間において、4、8、16個の符号コードを定義しているが、本実施形態では、より多くの符号コードを定義する点で異なっている。具体的には、本実施形態では、ノートナンバーに対応した32個の符号コードを定義し、符号化を行う。
符号化処理としては、まず最初に、人間の声を音素単位でデジタル化する。これは、特許文献1に示したのと同様に、各音素を人間が実際に発声し、これを録音したものをPCM等の手法により行う。続いて、各音素のデジタルデータを128個の符号コード群に変換する。この変換は、概略的には特許文献1に示したものと同様である。したがって、各符号コードは、音の高さ、音の強さ、発音開始時刻、発音終了時刻(本実施形態では、符号コードとしてMIDIを採用するので、ノートナンバー、ベロシティ、ノートオン時刻、ノートオフ時刻)で構成される。しかし、上述のように、本実施形態では、特許文献1のように4〜16個程度ではなく、全てのノートナンバーに対応した128個の符号コード群に変換し、更にその中から32個の符号コード群を選別する。PCMデータから、32個の符号コード群への変換の具体的手法は、特許第4037542号や、特許第4132362号等に開示されている公知の技術を利用する。このようにして、各音素ごとの符号コード群を音素データベースとして記録する。本実施形態では、音素データベースに記録される音素は、いわゆる五十音に加え、撥音、濁音、半濁音の計71音である。
(3.音素符号の補正)
次に、音素符号の補正について説明する。図3は、本発明に係る音素符号補正装置の一実施形態を示す構成図である。記憶手段10は、音素符号記憶部11、補正音素符号記憶部12を有しており、コンピュータに接続されたハードディスク等の外部記憶装置により実現される。処理制御手段20は、音素符号補正装置全体の処理を統括するものであり、音素符号補正手段21を有している。処理制御手段20は、CPU、メモリを含むコンピュータ本体であり、音素符号補正手段21は、専用のプログラムをCPUが実行することにより実現される。音素符号表示手段30は、処理制御手段20に読み込まれた音素符号を表示するものであり、液晶ディスプレイ等の表示装置により実現される。開始終了時刻指示手段40は、音素符号表示手段30に表示された音素符号について、開始、分割、終了とする時刻を指定するものであり、キーボード、マウス等の入力機器により実現される。
次に、図3に示した音素符号補正装置の処理動作について説明する。まず、最初に処理制御手段20が、音素符号記憶部11から音素ごとに音素符号を読み込む。そして、処理制御手段20は、読み込んだ音素符号を基に表示用データを生成し、音素符号表示手段30に出力する。音素符号表示手段30に表示された音素符号の様子を図4に示す。図4においては、「カ」「キ」「ク」「ケ」「コ」の5つの音素に対応する音素符号が表示されている。音素符号が表示された後、利用者は、開始終了時刻指示手段40を用いて、各音素について開始時刻、分割時刻、終了時刻を指定する。
開始時刻、終了時刻は母音を含む全ての音素について指定する。このうち、5つの母音以外の66個の音素に対しては、分割時刻の指定も行う。図4に示した「カ」「キ」「ク」「ケ」「コ」は母音ではないので、分割時刻が指定されることになる。図4において、「カ」の音素に重ねて示された三本の縦軸方向の直線は、左から開始時刻、分割時刻、終了時刻を示している。開始時刻、分割時刻、終了時刻の具体的な指定手法としては、様々なものを用いることができる。別途、数値入力画面を表示して、開始時刻、分割時刻、終了時刻を数値入力するようにしても良いし、マウスで画面上を指定し、指定された位置と楽譜の演奏時刻との対応関係により、処理制御手段20が、開始時刻、分割時刻、終了時刻を認識するようにしても良い。
開始時刻、分割時刻、終了時刻(母音に対しては、開始時刻、終了時刻)が指定されたら、音素符号補正手段21は指定された時刻で特定される指定区間に含まれる符号コードのうち、エネルギー値の高いものを上位から設定された数だけ抽出する。エネルギー値は、指定区間内に含まれる各符号コードの音の強度(MIDIの場合、ベロシティ)×発音時間(MIDIの場合、デュレーション:ノートオフ時刻−ノートオン時刻)により算出する。このとき、分割時刻が指示されている場合、開始時刻から分割時刻までを第1の指定区間、分割時刻から終了時刻までを第2の指定区間として、2つの指定区間に2分割し、各指定区間ごとに、エネルギー値の算出とエネルギー値の高い符号コードを抽出する処理を個別に行う。エネルギー算出時において、ノートオン時刻が分割後を含む指定区間の外に位置する場合、ノートオン時刻を指定区間の開始時刻(第2の指定区間の場合は分割時刻)に補正する処理を行い、ノートオフ時刻が分割後を含む指定区間の外に位置する場合、ノートオフ時刻を指定区間の終了時刻(第1の指定区間の場合は分割時刻)に補正する処理を行った上で、補正された発音時間を用いてエネルギー値を算出する。
抽出すべき数は、事前に設定されるものであり、自由に設定することができるが、本実施形態では、“4”としている。したがって、本実施形態では、32個の符号コードから4個の符号コードが、音素符号補正手段21により抽出されることになる。そして、音素符号補正手段21は、分割時刻が指示されていない場合、抽出された符号コードのノートオン時刻を開始時刻、ノートオフ時刻を終了時刻、ベロシティを規定値に設定する。分割時刻が指示されている場合、第1の指定区間において抽出された符号コードのノートオン時刻を開始時刻、ノートオフ時刻を分割時刻、ベロシティを規定値に設定し、第2の指定区間において抽出された符号コードのノートオン時刻を分割時刻、ノートオフ時刻を終了時刻、ベロシティを規定値に設定する。本実施形態では、“0”〜“255”の値を取り得るベロシティの規定値を“127”としている。ノートオン時刻を開始時刻または分割時刻、ノートオフ時刻を終了時刻または分割時刻とすることにより、指定された区間外の部分は削除されることになる。図4に示した音素符号に対する補正処理後の補正音素符号の様子を図5に示す。
音素符号補正手段21による処理前と処理後の音素符号の変化の様子を図6に示す。図6は、母音以外の音素に対応したものであり、横軸は時間、縦軸は周波数(ノートナンバー)に対応している。グラフ内に配置された矩形は符号コードを示しており、横方向の長さは横軸に従って時間的長さを示しているが、縦方向の長さは縦軸とは異なり、周波数ではなく強度(ベロシティ)を示している。
図6(a)は、音素符号補正手段21による処理前の音素符号を示したものである。上述のように、本実施形態では、同一時刻において32個の符号コードで音素符号を構成しているが、図6(a)では、特定の周波数範囲に対応した部分のみを示しているため、同一時刻において符号コードは最大5個となっている。また、各符号コードを示す矩形の縦方向の長さからわかるように、各符号コードの強度も異なっている。音素符号補正手段21による処理後は、図6(b)に示すように、分割された2つの各指定区間内の符号コードの開始時刻、終了時刻は指定区間の開始時刻、終了時刻に統一される。また、各符号コードも規定値に統一されるため、図6(b)においては、各符号コードを示す矩形の縦方向の長さが全て同一となる。指定区間外の符号コードは、補正後の音素符号の構成要素から除外される。
音素符号補正手段21は、音素符号記憶部11に記憶されている各音素符号について処理を行い、補正後の各音素符号を補正音素符号記憶部12に格納する。補正音素符号記憶部12に格納された音素符号の一覧を図7〜図10に示す。このうち、図7、図8は男声を符号化したものであり、図9、図10は女声を符号化したものである。図7〜図10中、“C,C#,D,D#、E、F、F#、G、G#、A、A#、B”は、“ド、ド#、レ、レ#、ミ、ファ、ファ#、ソ、ソ#、ラ、ラ#、シ”の音名の英語表記で、列記されている数字はオクターブ番号を示し、音名とオクターブ番号の対記号でMIDI規格のノートナンバーを特定でき、本願ではMIDI規格ノートナンバーの69をA3と表記する(国際的にはA4をMIDI規格ノートナンバーの69を示す表記も多数存在する)。各音素符号につき、これらの記号が縦に4つ並んでいるのは4和音であることを示し、更に、「アイウエオ」以外はこれらが2セット横に並び、2連の4和音であることを示す。図7〜図10を見るとわかるように、5つの母音については、1つの音階(ノートナンバーに対応)が示されているが、母音以外の音素については、2つの音階が示されている。上述のように、母音以外の音素については、分割時刻を指定することにより、その時刻の前後で符号コードのノートナンバーが変化するためである。分割時刻は、音素符号補正手段21による補正処理にのみ用いられるものであり、補正音素符号記憶部12に格納される音素符号には反映されない。音素符号には、2つの符号コードの時間的な前後が反映されるのみである。
(4.音声の合成)
次に、補正した音素符号を利用した音声の合成について説明する。図11は、本発明に係る音声合成装置の一実施形態を示す構成図である。図11において、音素符号データベース12aは、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。音素データベース12aに格納されている音素符号は、上述の音素符号化装置により補正され、補正音素符号記憶部12に格納されたものと同じである。したがって、上述の音素符号補正装置は、この音素データベース12aを作成するためのものであるとも言える。音素編集処理手段50は、合成指示データの内容に従って、音素符号データベース12aから対応する音素符号を抽出し、所定の加工を施して合成音声として音声出力手段60に出力する処理を行う。音声出力手段60は、音素編集処理手段50から受け取った合成音声を実際の音声として発音するものであり、MIDI音源を備えたMIDI再生装置により実現される。図11に示した音声合成装置は、現実には、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
音声合成装置に入力される合成指示データは、音素識別情報を所定の順序で配置したものであり、この音素識別情報は、音素符号を識別することができるものであれば、どのような形式であっても良い。本実施形態では、音素識別情報として、音素に対応する文字コードを記録したテキストデータを用いている。この場合、音素データベース内の音素符号は、音素に対応する文字コードと対応付けて記録されている必要がある。
続いて、図11に示した音声合成装置の処理動作について説明する。まず、合成指示データを音声合成装置に入力する。音声合成装置は、合成指示データを読み込むと、音素編集処理手段50が合成指示データ内を先頭の音素識別情報から順に合成処理していく。具体的には、音素編集処理手段50は、合成指示データ内の音素識別情報で音素データベース12aから対応する音素符号を抽出する。そして、それが母音である場合は、前の音素のノートオフ時刻の0.25秒後をノートオン時刻として設定し、その0.25秒後をノートオフ時刻とし、ノートナンバー、ベロシティは音素データベースに記録されていた値そのものとするMIDIイベントを作成する。ただし、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータに基づいて適宜上下され、ピッチ変換を行えるようにしてある。抽出した音素符号が子音である場合は、音素符号として2つの符号コードが存在するため、先の符号コードについて、前の音素のノートオフ時刻の0.25秒後をノートオン時刻として設定し、音素の1/4、すなわち0.0625秒後をノートオフ時刻とする。そして、後の符号コードについて、先の符号コードのノートオフ時刻をノートオン時刻として設定し、音素の3/4、すなわち0.1875秒後をノートオフ時刻とする。子音の場合も、母音の場合と同様、ノートナンバー、ベロシティは音素データベースに記録されていた値そのものとする。が、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータを加算することにより適宜上下され、ピッチ変換を実現することができる。また、上記の0.25秒、0.0625秒、0.1875秒という時間数値はあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。
長音の場合、長音の母音と長音の子音で若干異なる。長音の母音の場合、ノートオン時刻からノートオフ時刻の間隔を0.5秒に増加して設定する。長音の子音の場合、先の符号コードについては、長音でない通常の場合と同様、ノートオン時刻からノートオフ時刻の間隔を0.25秒にして設定し、後の符号コードについてノートオン時刻からノートオフ時刻の間隔を0.375秒にして設定する。したがって、長音の場合、音素全体の発音時間は、母音、子音ともに同じ0.5秒となる。子音については、第1和音の発音時間は、長音でない通常の場合と同じ0.0625秒であるが、第2和音の発音時間が、長音でない通常の場合と比べて長くなる。尚、上記の0.5秒、0.25秒、0.375秒、0.5秒、0.0625という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。
促音の場合、その直後の音素符号の第1和音と同じものを、直後の音素符号の第1和音の直前に加える。第1和音の発音時間は0.0625秒であるため、直前の音素符号の発音終了時刻から0.1875秒後に促音のノートオン時刻を設定することになり、促音のノートオフ時刻と、直後の音素の第1和音のノートオン時刻が同一となる。尚、上記の0.0625秒、0.1875秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。
拗音の場合、直前の子音の第1和音の直後に加える。したがって、直前の子音の第1和音のノートオフ時刻と、拗音のノートオン時刻が同一となるように設定する。拗音の音素符号の構成自体は子音と同じであるので、拗音の第1和音のノートオフ時刻および第2和音のノートオン時刻は、第1和音のノートオン時刻の0.0625秒後であり、拗音の第2和音のノートオフ時刻は、そのノートオン時刻の0.1875秒後となる。尚、上記の0.0625秒、0.1875秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。
音素編集処理手段50は、読み込んだ合成指示データ内の音素識別情報単位で音素の合成処理を行っていき、処理が終わった音素単位で順に、合成音声データ(MIDIデータ)を、音声出力手段60に渡していく。音声出力手段60は、音素編集処理手段50から受け取ったMIDIデータを順に再生していく。以上のようにして、音声合成装置は、読み込んだ合成指示データに従って音声の再生が可能となる。
図11に示した音声合成装置では、合成指示データに従って音声合成をリアルタイムで行い、音声再生するようにしたが、音素編集処理手段50による処理結果であるMIDIデータを記憶装置に蓄積し、別途このMIDIデータをMIDI再生装置により音声再生するようにしても良い。MIDIデータを記憶装置に蓄積する方法としては、SMF(Standard MIDI File)形式ファイルを用いると、市販の種々の音楽関係ソフトウェアに渡すことができ、作成されたMIDIデータからは、市販の楽譜作成ツールを用いて、楽譜を作成することができる。この場合、楽譜は、SMF形式に記録されていた音素符号を基にして作成されるが、図7〜図10に示したように、各音素符号を構成する符号コード数が少ないため(同時に4個)、作成された楽譜は、繁雑でなく見易いものになる。そして、作成された楽譜を印刷装置に出力すれば、ヒトがそれを読譜しながら楽器演奏により手動で音声再生を実現することができる。
前述した通り、音素編集処理手段50は、合成指示データ内の音素識別情報で音素データベース12aから対応する音素符号を抽出し、MIDIイベントを作成する際、そのノートナンバーについては音素データベース12aに収録されている当該音素符号に対応する和音を構成する各音符のノートナンバーに対して、オプション的に別途ユーザにより指示される音高オフセットパラメータを加算し適宜上下させ、ピッチ変換を行えるようにしてある。この場合は、合成音声データ全体のピッチを上下させるものであるが、前記合成指示データ内の音素識別情報とともに前記音高オフセットパラメータを音素ごとに定義すれば、各音素ごとにピッチを上下させることもできる。即ち、あらかじめ作成した旋律の隣接音符間での音高変化(音程情報)を、前記合成指示データ内の音素識別情報とともに定義される音高オフセットパラメータとして与えれば、歌声合成を実現することができる。
(5.電子透かしへの応用)
本発明に係る音声合成装置は、音楽データに、音声メッセージの形態で著作権者情報など特定の情報を埋め込む技術、可聴な“電子透かし”に応用することが可能である。図12は、本発明に係る音声合成装置の基本構成を利用した電子透かし埋め込み装置を示す図である。図12において、音素符号データベース12aは、図11に示した音素符号データベース12aと同じものであり、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。埋め込み処理手段51は、SMF形式等により記述されたデジタルデータである音楽コンテンツに、メッセージテキスト(合成指示データ)で特定されるメッセージを埋め込む。具体的には、埋め込み処理手段51は、図11に示した音素編集処理手段50の機能を備え、メッセージテキスト(合成指示データ)の内容に従って、音素符号データベース12aから対応する音素符号を抽出し、所定の加工を施して合成音声を生成する。そして、出力する音楽コンテンツが複数トラックであり、メッセージ用の専用トラックが存在する場合は、その専用トラックに合成音声を埋め込んで単一のMIDI形式の音楽データとして音響出力手段61に出力する。音楽コンテンツに専用トラックが存在しない場合には、音楽コンテンツの無音部分に、合成音声を格納して音響出力手段61に出力する。音響出力手段61は、図11に示した音声出力手段60と実質的には同じものであり、埋め込み処理手段51から受け取った音響データを実際の音として発音するものである。図12に示した電子透かし埋め込み装置では、メッセージテキストの埋め込みをリアルタイムで行い、音響出力するようにしたが、埋め込み処理手段51による処理結果であるSMF形式等でMIDIデータを記憶装置に蓄積し、ネットワーク等で別途このMIDIデータを配信し、受信者側のMIDI再生装置により音響出力する形態をとることもできる。図12に示した電子透かし埋め込み装置は、現実には、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
続いて、MIDIデータに埋め込まれた電子透かしを抽出する電子透かし抽出装置について述べる。電子透かし抽出装置は、マイクロフォン等の音響信号取得機器、上記音素符号データベース12aを備えるとともに、電子透かし抽出のための専用のプログラムを組み込んだコンピュータにより実現される。電子透かし抽出装置に組み込まれた専用プログラムは、コンピュータを、周波数解析手段、音素符号識別情報復号化手段として機能させる。周波数解析手段、音素符号識別情報復号化手段の具体的内容は、特許第4037542号や、特許第4132362号等に開示されている手順により実現可能である。電子透かし抽出装置は、音響出力手段61より空間に送出された音響信号に対して電子透かし抽出装置に接続されたマイクロフォンなどを通じて部分的に録音を行い、録音されたPCMデータに対して周波数解析手段が周波数解析を行い、和音データを抽出する。具体的には、特許第4037542号や、特許第4132362号等に開示されている公知の技術を用いて時系列の32個の符号コード群へ変換する。続いて、音素符号識別情報復号化手段が、抽出された和音データを音素符号データベース12aと照合し、類似した和音データをもつ音素符号を抽出し、音素符号識別情報を復号化する。具体的には、音素符号データベース12aに収録されている符号コード群と順次照合し、適合する音素符号を順次抽出することにより、図12のメッセージテキスト(合成指示データ)を復元する。
本発明は、イベントや余興目的に行われる人間の音声再生を模倣した音楽作品制作・作曲の支援産業に利用することができる。また、エンターテインメント分野において、電子楽器を主体とした玩具(ロボット、ぬいぐるみを含む)、玩具型のアコースティック楽器(室内装飾用のミニチュアピアノ)、オルゴール、携帯電話の着信メロディ等の音階再生媒体に対して音声合成機能を付加する産業に利用することができる。また、SMF(Standard MIDI File)等によるMIDI音楽コンテンツ配布時における著作権保護等の産業に利用することができる。
10・・・記憶手段
11・・・音素符号記憶部
12・・・補正音素符号記憶部
12a・・・音素データベース
20・・・処理制御手段
21・・・音素符号補正手段
30・・・音素符号表示手段
40・・・開始終了時刻指示手段
50・・・音素編集処理手段
51・・・埋め込み処理手段
60・・・音声出力手段
61・・・音響出力手段

Claims (16)

  1. 1つの音素を複数の符号コード群で表現した音素符号を、その発音開始時刻、発音終了時刻、周波数に対応付けて画面に表示する音素符号表示手段と、
    前記表示された音素符号に対して、利用者が指定開始時刻、指定分割時刻、指定終了時刻を指定するための時刻指定手段と、
    前記時刻指定手段により指定された指定開始時刻、指定終了時刻で特定される区間を指定区間とし、前記音素符号を構成する符号コードのうち、前記指定区間内の符号コードの発音終了時刻から発音開始時刻との時間と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、前記指定区間に指定分割時刻を含む場合に、前記指定開始時刻から前記指定分割時刻までを第1の指定区間、前記指定分割時刻から前記指定終了時刻までを第2の指定区間として、2つの指定区間ごとに符号コードのエネルギー値が高い上位のものを各々抽出する音素符号補正手段と、
    を有することを特徴とする音素符号補正装置。
  2. 日本語カナ文字の各音素を表現した音素符号を、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音のいずれかにより構成し、前記各音素符号を、各音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベース。
  3. 請求項2において、
    前記日本語カナ文字の音素が「ア」「イ」「ウ」「エ」「オ」の各母音の場合は、その音素符号を前記単一和音で構成し、前記日本語カナ文字の音素が子音・濁音・半濁音・撥音の場合は、その音素符号を前記2連和音で構成することを特徴とする音素符号データベース。
  4. 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
    与えられた合成指示データに記載されている音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成する音素編集処理手段と、
    前記音素編集処理手段により生成された合成音声データを出力する音声出力手段と、
    を有することを特徴とする音声合成装置。
  5. 請求項4において、
    前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の長音であるとき、前記音素が単一和音で構成されている場合、その音素符号全体の発音時間を、前記音素が2連和音で構成されている場合、その第2和音の発音時間を、所定の値だけ増加させることを特徴とする音声合成装置。
  6. 請求項4において、
    前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の促音であるとき、前記音素の直後に配置される音素の第1和音と同一の第1和音を設定することを特徴とする音声合成装置。
  7. 請求項4において、
    前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の「ヤ」「ユ」「ヨ」の拗音であるとき、前記拗音の直前の音素については、第1和音のみを設定し、当該第1和音の直後に、前記拗音に対応する「ヤ」「ユ」「ヨ」いずれかの2連和音を設定することを特徴とする音声合成装置。
  8. 請求項4から請求項7のいずれかにおいて、
    前記音素編集処理手段により生成された前記合成音声データはSMF形式のMIDIデータで、前記音声出力手段には五線譜変換手段と印刷手段を備え、前記合成音声データに対してヒトが読譜して楽器演奏により手動で音声出力を実現できるような五線譜に変換し印刷するようにしていることを特徴とする音声合成装置。
  9. 請求項4から請求項8のいずれかにおいて、
    前記音素編集処理手段が、与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された時間伸縮パラメータに基づいて、前記音素符号データベースに収録されている前記和音の長さに対して、前記時間伸縮パラメータを乗算し、前記発音の開始および終了を特定する時刻に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
  10. 請求項4から請求項9のいずれかにおいて、
    前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
  11. 請求項10において、
    前記合成指示データには各音素ごとに音素符号識別情報とともに前記音高オフセットパラメータが定義されており、前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、前記各音素ごとに定義された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して、前記音素符号識別情報に基づいて改変を施すようにしていることを特徴とする音声合成装置。
  12. 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
    与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
    前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
    を有することを特徴とする電子透かし埋め込み装置。
  13. 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
    与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
    前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
    前記音響出力手段より出力された音響信号の一部を録音する音響録音手段と、
    前記音響録音手段により得られた録音音響信号に対して周波数解析を行い、和音データを抽出する周波数解析手段と、
    前記抽出された和音データを前記音素符号データベースと照合し、類似した和音データをもつ音素符号を抽出し、前記音素符号識別情報を復号化する音素符号識別情報復号化手段と、
    を有することを特徴とする電子透かし抽出装置。
  14. 請求項1に記載の音素符号補正装置としてコンピュータを機能させるためのプログラム。
  15. 請求項4から請求項11のいずれかに記載の音声合成装置としてコンピュータを機能させるためのプログラム。
  16. 請求項12または請求項13に記載の電子透かし埋め込み装置または電子透かし抽出装置としてコンピュータを機能させるためのプログラム。
JP2009041165A 2009-02-24 2009-02-24 音素符号補正装置、音素符号データベース、および音声合成装置 Expired - Fee Related JP5233737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009041165A JP5233737B2 (ja) 2009-02-24 2009-02-24 音素符号補正装置、音素符号データベース、および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009041165A JP5233737B2 (ja) 2009-02-24 2009-02-24 音素符号補正装置、音素符号データベース、および音声合成装置

Publications (2)

Publication Number Publication Date
JP2010197605A JP2010197605A (ja) 2010-09-09
JP5233737B2 true JP5233737B2 (ja) 2013-07-10

Family

ID=42822400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009041165A Expired - Fee Related JP5233737B2 (ja) 2009-02-24 2009-02-24 音素符号補正装置、音素符号データベース、および音声合成装置

Country Status (1)

Country Link
JP (1) JP5233737B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3776196B2 (ja) * 1997-03-05 2006-05-17 大日本印刷株式会社 音声信号の符号化方法および音声の記録再生装置
JP3958841B2 (ja) * 1997-08-29 2007-08-15 大日本印刷株式会社 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
JPH1195798A (ja) * 1997-09-19 1999-04-09 Dainippon Printing Co Ltd 音声合成方法および音声合成装置
JP4331289B2 (ja) * 1998-09-18 2009-09-16 大日本印刷株式会社 音響信号の符号化方法
JP2002229568A (ja) * 2001-02-05 2002-08-16 Dainippon Printing Co Ltd 音響情報再生方法
JP2003216147A (ja) * 2002-01-17 2003-07-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
JP4780375B2 (ja) * 2005-05-19 2011-09-28 大日本印刷株式会社 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム

Also Published As

Publication number Publication date
JP2010197605A (ja) 2010-09-09

Similar Documents

Publication Publication Date Title
US5704007A (en) Utilization of multiple voice sources in a speech synthesizer
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP6167503B2 (ja) 音声合成装置
JP6044284B2 (ja) 音声合成装置
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
WO2020217801A1 (ja) オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム
JP5233737B2 (ja) 音素符号補正装置、音素符号データベース、および音声合成装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JP5481957B2 (ja) 音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2005539267A (ja) 音声波形の連結を用いる音声合成
WO2022190502A1 (ja) 音生成装置およびその制御方法、プログラム、電子楽器
WO2022054496A1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JPH0895588A (ja) 音声合成装置
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JPH1049192A (ja) 歌唱音合成装置
JPS6155679B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5233737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees