JP5233737B2

JP5233737B2 - 音素符号補正装置、音素符号データベース、および音声合成装置

Info

Publication number: JP5233737B2
Application number: JP2009041165A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2009-02-24
Filing date: 2009-02-24
Publication date: 2013-07-10
Anticipated expiration: 2029-02-24
Also published as: JP2010197605A

Description

本発明は人間の声を基にして、電子楽器、楽譜等で利用可能な符号データを得るための技術に関する。

従来、人間の声を擬似的に合成する手法は、種々の分野で利用されている。出願人は、人間の声をＰＣＭでデジタル化した後、フーリエ変換を用い、実効強度の大きい周波数に対応する符号コードを取得することにより音声合成を行う技術を提案している（特許文献１参照）。

特開平１１−９５７９８号公報

上記特許文献１に記載の技術では、ヒト音声を構成する各音素ごとにＭＩＤＩデータ形式で符号化された符号コード群は、電子楽器による自動演奏で音声を再生することを前提としているため、発音タイミングやベロシティ制御が煩雑で、玩具などに搭載されている性能の低いＭＩＤＩ音源では再生できなかった。また、前記符号コード群を既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読不能な譜面になってしまい、ヒトによる楽器演奏で前記符号コード群を再生することは困難であった。

そこで、本発明は、ヒト音声を構成する各音素ごとにＭＩＤＩデータ形式で符号化された符号コード群が玩具などに搭載されている性能の低いＭＩＤＩ音源でも再生可能で、既存の楽譜編集ツールに読み込ませて五線譜に変換すると、ヒトによる楽器演奏で前記符号コード群を再生可能な判読性のある譜面が得られるように、前記各音素ごとの符号コード群を簡素な符号コード群に変換することが可能な音素符号補正装置、音素符号データベース、および音声合成装置を提供することを課題とする。

上記課題を解決するため、本発明では、１つの音素を複数の符号コード群で表現した音素符号を、その発音開始時刻、発音終了時刻、周波数に対応付けて画面に表示する音素符号表示手段と、前記表示された音素符号に対して、利用者が指定開始時刻、指定分割時刻、指定終了時刻を指定するための時刻指定手段と、前記時刻指定手段により指定された指定開始時刻、指定終了時刻で特定される区間を指定区間とし、前記音素符号を構成する符号コードのうち、前記指定区間内の符号コードの発音終了時刻から発音開始時刻との時間と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、前記指定区間に指定分割時刻を含む場合に、前記指定開始時刻から前記指定分割時刻までを第１の指定区間、前記指定分割時刻から前記指定終了時刻までを第２の指定区間として、２つの指定区間ごとに符号コードのエネルギー値が高い上位のものを各々抽出する音素符号補正手段を有する音素符号補正装置を提供する。

本発明の音素符号補正装置によれば、符号コード群として構成される音素符号を画面表示し、利用者に指定された区間内のエネルギー値の高い符号コードを抽出するとともに、分割時刻が指定されている場合に、分割された２つの指定区間ごとに各々指定された区間内のエネルギー値の高い符号コードを抽出する抽出するようにしたので、玩具などに搭載されている性能の低いＭＩＤＩ音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換可能な単純な音素符号に補正することが可能となる。

また、本発明では、日本語カナ文字の各音素を表現した音素符号を、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音のいずれかにより構成し、前記各音素符号を、各音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースを提供する。

本発明の音素符号データベースによれば、日本語カナ文字を、単一和音で構成する音素符号、２連和音で構成する音素符号のいずれかの定型形式により記録するようにしたので、音声合成を行うことにより作成される符号コード群は玩具などに搭載されている性能の低いＭＩＤＩ音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換が可能となる。

また、本発明では、日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成する音素編集処理手段と、前記音素編集処理手段により生成された合成音声データを出力する音声出力手段を有する音声合成装置を提供する。

本発明の音声合成装置によれば、単一和音、２連和音のいずれかの定型形式により記録したデータベースを有し、入力された音素符号識別情報に対応する音素符号を抽出し、音素の種別に従って、発音の開始および終了を特定する時刻を設定して合成音声データを生成するようにしたので、音声合成を行うことことにより作成される符号コード群は玩具などに搭載されている性能の低いＭＩＤＩ音源で再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で再生可能な判読性のある五線譜に変換が可能となる。

本発明によれば、玩具などに搭載されている性能の低いＭＩＤＩ音源で音声再生可能で、既存の楽譜編集ツールによりヒトが楽器演奏で音声再生可能な判読性のある五線譜に変換可能な符号コード群を生成できる音声合成を行うことが可能となるという効果を奏する。

本発明における音声合成の基本概念を示す図である。本発明における音声合成の基本概念を示す図である。本発明に係る音素符号補正装置の一実施形態を示す構成図である。音素符号表示手段３０に表示された補正前の音素符号の様子を示す図である。音素符号表示手段３０に表示された補正後の音素符号の様子を示す図である。音素符号補正手段２１による処理前と処理後の音素符号の変化の様子を示す図である。補正音素符号記憶部１２に格納された男声の音素符号の一覧を示す図である。補正音素符号記憶部１２に格納された男声の音素符号の一覧を示す図である。補正音素符号記憶部１２に格納された女声の音素符号の一覧を示す図である。補正音素符号記憶部１２に格納された女声の音素符号の一覧を示す図である。本発明に係る音声合成装置の一実施形態を示す構成図である。本発明に係る電子透かし埋め込み装置の一実施形態を示す構成図である。

（１．本発明の基本概念）
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。最初に、本発明の基本概念について説明する。日本語の母音は、２つの特徴的な音声フォルマント成分を含む４つ以上の重音による和音で近似できることが知られている。子音は母音成分に加えて、摩擦音など雑音を表現する和音と母音への経過音を表現する和音の３種の連結された和音が理論上必要であるが、経過音は人間の聴覚上の補間現象（音脈分凝）に委ねれば、最初の雑音と母音の２つの和音に近似できる。実験の結果、日本語の母音は単一の４和音、子音は２連の４和音を基本にして全音素を表現し、これらを時間軸上につなぎ合わせれば音声合成を実現できることが判明した。

本発明では、上述の結果を基に、母音と子音を区別して２種の態様で音素を表現して記録する。そして、これらの音素を用いて、音素の特徴に応じてさらに多種の態様で合成することを特徴とする。音声の特徴に応じた合成態様の分類については、様々なものが考えられるが、本実施形態では、母音、子音（濁音、半濁音、撥音含む）、長音の母音、長音の子音、促音、拗音の６通りに分類している。

図１、図２は、本実施形態における音声合成の基本概念を示す図である。図１（ａ）〜（ｄ）、図２（ａ）（ｂ）は、上記各分類に対応したものとなっている。図１、図２において、各矩形は、音素を示しており、矩形と矩形の間の空白は無音部分を示している。また、左右方向は時間軸であり、矩形の横幅は、音素の発音時間に対応している。音素の発音時間は、基本的な母音、子音の発音時間を単位区間として設定し、他の分類の音素についても、この単位区間を基準にして定められている。単位区間の具体的な長さは適宜設定することが可能であるが、本実施形態では０．２５秒としている。また、詳しくは後述するが、本実施形態では、音素は、２つのパターンで符号化され、１つの和音で構成される音素と、２つの連続する和音（以下、２連和音という）で構成される音素がある。

図１（ａ）は、母音の場合の合成パターンを示す例である。母音の場合、音素は１つの和音（第１和音）で構成される。図１（ａ）に示すように、第１和音を単位区間分発音した後、単位区間分無音とし、その後、他の音素が続く。図１（ｂ）は、子音の場合の合成パターンを示す例である。子音の場合、音素は第１和音と第２和音の２つの和音で構成される。図１（ｂ）に示すように、単位区間の１／４だけ第１和音を発音し、続いて、単位区間の３／４だけ第２和音を発音する。すなわち、第１和音の発音終了と同時に第２和音の発音を開始し、第１和音の発音開始から第２和音の発音終了までがちょうど単位区間となる。その後、単位区間分無音とし、その後、他の音素が続く。

図１（ｃ）は、長音の母音の場合の合成パターンを示す例である。長音の母音の場合、１つの和音で構成されるが、図１（ｃ）に示すように、通常の母音に比べ、単位区間分発音時間を延ばす。すなわち、第１和音を２単位区間分発音する。その後、単位区間分無音とし、その後、他の音素が続く。図１（ｄ）は、長音の子音の場合の合成パターンを示す例である。長音の子音の場合、２つの和音で構成されるが、図１（ｄ）に示すように、通常の子音に比べ、第２和音の発音時間を単位区間分だけ延ばす。第１和音の発音時間は、通常の子音の場合と同じく、単位区間の１／４である。すなわち、第１和音の発音終了と同時に第２和音の発音を開始し、第１和音の発音開始から第２和音の発音終了までが２単位区間分となる。その後、単位区間分無音とし、その後、他の音素が続く。

図２（ａ）は、促音の場合の合成パターンを示す例である。促音の場合、図２（ａ）に示すように、後続音素である子音の第１和音を、後続音素の直前に発音する。例えば、“ッタ”における“ッ”を合成する場合、後続音素“タ”の第１和音を、“タ”の第１和音の直前に配置する。このとき、促音の発音開始は、先行音素の発音終了から単位区間の３／４だけ経過した時点とする。すなわち、先行音素の発音終了から単位区間の３／４だけ経過した時点から、後続音素の第１和音が２回繰り返して発音され、その後、後続音素の第２和音が発音されることになる。

図２（ｂ）は、拗音の場合の合成パターンを示す例である。拗音の場合、図２（ｂ）に示すように、直前の子音を第１和音のみとする。そして、直前の子音の第１和音の発音終了時刻を、拗音に対応する子音の発音開始時刻として、その拗音に対応する子音の第１和音と第２和音を連続して発音する。例えば、“キャ”における“ャ”を合成する場合、先行音素“キ”の第１和音の直後に、拗音“ャ”に対応する子音“ヤ”の第１和音を配置する。このとき、拗音に対応する子音の発音は、通常の子音の場合と同様、第１和音が単位区間の１／４、第２和音が単位区間の３／４となる。

図１（ａ）〜図１（ｄ）、図２（ｂ）においては、先行音素を省略し、図２（ａ）、（ｂ）においては、後続音素を省略したが、基本的に全ての音素の間には単位区間分の無音区間が設定される。また、図１、２に示したものは、基本概念であるため、各音素における各和音の発音時間の比率、発音時間や無音時間の長さは適宜変更することが可能である。例えば、隣接音素との間隔を変動させれば話速を変更できる。

（２．前準備）
次に、従来技術を利用した前処理について説明する。前準備として、人間の声を各音素ごとに符号化する処理を行う。これは、特許文献１に示されている音素の符号化処理に相当する。ただし、特許文献１に示されている符号化処理では、１つの単位区間において、４、８、１６個の符号コードを定義しているが、本実施形態では、より多くの符号コードを定義する点で異なっている。具体的には、本実施形態では、ノートナンバーに対応した３２個の符号コードを定義し、符号化を行う。

符号化処理としては、まず最初に、人間の声を音素単位でデジタル化する。これは、特許文献１に示したのと同様に、各音素を人間が実際に発声し、これを録音したものをＰＣＭ等の手法により行う。続いて、各音素のデジタルデータを１２８個の符号コード群に変換する。この変換は、概略的には特許文献１に示したものと同様である。したがって、各符号コードは、音の高さ、音の強さ、発音開始時刻、発音終了時刻（本実施形態では、符号コードとしてＭＩＤＩを採用するので、ノートナンバー、ベロシティ、ノートオン時刻、ノートオフ時刻）で構成される。しかし、上述のように、本実施形態では、特許文献１のように４〜１６個程度ではなく、全てのノートナンバーに対応した１２８個の符号コード群に変換し、更にその中から３２個の符号コード群を選別する。ＰＣＭデータから、３２個の符号コード群への変換の具体的手法は、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている公知の技術を利用する。このようにして、各音素ごとの符号コード群を音素データベースとして記録する。本実施形態では、音素データベースに記録される音素は、いわゆる五十音に加え、撥音、濁音、半濁音の計７１音である。

（３．音素符号の補正）
次に、音素符号の補正について説明する。図３は、本発明に係る音素符号補正装置の一実施形態を示す構成図である。記憶手段１０は、音素符号記憶部１１、補正音素符号記憶部１２を有しており、コンピュータに接続されたハードディスク等の外部記憶装置により実現される。処理制御手段２０は、音素符号補正装置全体の処理を統括するものであり、音素符号補正手段２１を有している。処理制御手段２０は、ＣＰＵ、メモリを含むコンピュータ本体であり、音素符号補正手段２１は、専用のプログラムをＣＰＵが実行することにより実現される。音素符号表示手段３０は、処理制御手段２０に読み込まれた音素符号を表示するものであり、液晶ディスプレイ等の表示装置により実現される。開始終了時刻指示手段４０は、音素符号表示手段３０に表示された音素符号について、開始、分割、終了とする時刻を指定するものであり、キーボード、マウス等の入力機器により実現される。

次に、図３に示した音素符号補正装置の処理動作について説明する。まず、最初に処理制御手段２０が、音素符号記憶部１１から音素ごとに音素符号を読み込む。そして、処理制御手段２０は、読み込んだ音素符号を基に表示用データを生成し、音素符号表示手段３０に出力する。音素符号表示手段３０に表示された音素符号の様子を図４に示す。図４においては、「カ」「キ」「ク」「ケ」「コ」の５つの音素に対応する音素符号が表示されている。音素符号が表示された後、利用者は、開始終了時刻指示手段４０を用いて、各音素について開始時刻、分割時刻、終了時刻を指定する。

開始時刻、終了時刻は母音を含む全ての音素について指定する。このうち、５つの母音以外の６６個の音素に対しては、分割時刻の指定も行う。図４に示した「カ」「キ」「ク」「ケ」「コ」は母音ではないので、分割時刻が指定されることになる。図４において、「カ」の音素に重ねて示された三本の縦軸方向の直線は、左から開始時刻、分割時刻、終了時刻を示している。開始時刻、分割時刻、終了時刻の具体的な指定手法としては、様々なものを用いることができる。別途、数値入力画面を表示して、開始時刻、分割時刻、終了時刻を数値入力するようにしても良いし、マウスで画面上を指定し、指定された位置と楽譜の演奏時刻との対応関係により、処理制御手段２０が、開始時刻、分割時刻、終了時刻を認識するようにしても良い。

開始時刻、分割時刻、終了時刻（母音に対しては、開始時刻、終了時刻）が指定されたら、音素符号補正手段２１は指定された時刻で特定される指定区間に含まれる符号コードのうち、エネルギー値の高いものを上位から設定された数だけ抽出する。エネルギー値は、指定区間内に含まれる各符号コードの音の強度（ＭＩＤＩの場合、ベロシティ）×発音時間（ＭＩＤＩの場合、デュレーション：ノートオフ時刻−ノートオン時刻）により算出する。このとき、分割時刻が指示されている場合、開始時刻から分割時刻までを第１の指定区間、分割時刻から終了時刻までを第２の指定区間として、２つの指定区間に２分割し、各指定区間ごとに、エネルギー値の算出とエネルギー値の高い符号コードを抽出する処理を個別に行う。エネルギー算出時において、ノートオン時刻が分割後を含む指定区間の外に位置する場合、ノートオン時刻を指定区間の開始時刻（第２の指定区間の場合は分割時刻）に補正する処理を行い、ノートオフ時刻が分割後を含む指定区間の外に位置する場合、ノートオフ時刻を指定区間の終了時刻（第１の指定区間の場合は分割時刻）に補正する処理を行った上で、補正された発音時間を用いてエネルギー値を算出する。

抽出すべき数は、事前に設定されるものであり、自由に設定することができるが、本実施形態では、“４”としている。したがって、本実施形態では、３２個の符号コードから４個の符号コードが、音素符号補正手段２１により抽出されることになる。そして、音素符号補正手段２１は、分割時刻が指示されていない場合、抽出された符号コードのノートオン時刻を開始時刻、ノートオフ時刻を終了時刻、ベロシティを規定値に設定する。分割時刻が指示されている場合、第１の指定区間において抽出された符号コードのノートオン時刻を開始時刻、ノートオフ時刻を分割時刻、ベロシティを規定値に設定し、第２の指定区間において抽出された符号コードのノートオン時刻を分割時刻、ノートオフ時刻を終了時刻、ベロシティを規定値に設定する。本実施形態では、“０”〜“２５５”の値を取り得るベロシティの規定値を“１２７”としている。ノートオン時刻を開始時刻または分割時刻、ノートオフ時刻を終了時刻または分割時刻とすることにより、指定された区間外の部分は削除されることになる。図４に示した音素符号に対する補正処理後の補正音素符号の様子を図５に示す。

音素符号補正手段２１による処理前と処理後の音素符号の変化の様子を図６に示す。図６は、母音以外の音素に対応したものであり、横軸は時間、縦軸は周波数（ノートナンバー）に対応している。グラフ内に配置された矩形は符号コードを示しており、横方向の長さは横軸に従って時間的長さを示しているが、縦方向の長さは縦軸とは異なり、周波数ではなく強度（ベロシティ）を示している。

図６（ａ）は、音素符号補正手段２１による処理前の音素符号を示したものである。上述のように、本実施形態では、同一時刻において３２個の符号コードで音素符号を構成しているが、図６（ａ）では、特定の周波数範囲に対応した部分のみを示しているため、同一時刻において符号コードは最大５個となっている。また、各符号コードを示す矩形の縦方向の長さからわかるように、各符号コードの強度も異なっている。音素符号補正手段２１による処理後は、図６（ｂ）に示すように、分割された２つの各指定区間内の符号コードの開始時刻、終了時刻は指定区間の開始時刻、終了時刻に統一される。また、各符号コードも規定値に統一されるため、図６（ｂ）においては、各符号コードを示す矩形の縦方向の長さが全て同一となる。指定区間外の符号コードは、補正後の音素符号の構成要素から除外される。

音素符号補正手段２１は、音素符号記憶部１１に記憶されている各音素符号について処理を行い、補正後の各音素符号を補正音素符号記憶部１２に格納する。補正音素符号記憶部１２に格納された音素符号の一覧を図７〜図１０に示す。このうち、図７、図８は男声を符号化したものであり、図９、図１０は女声を符号化したものである。図７〜図１０中、“Ｃ，Ｃ＃，Ｄ，Ｄ＃、Ｅ、Ｆ、Ｆ＃、Ｇ、Ｇ＃、Ａ、Ａ＃、Ｂ”は、“ド、ド＃、レ、レ＃、ミ、ファ、ファ＃、ソ、ソ＃、ラ、ラ＃、シ”の音名の英語表記で、列記されている数字はオクターブ番号を示し、音名とオクターブ番号の対記号でＭＩＤＩ規格のノートナンバーを特定でき、本願ではＭＩＤＩ規格ノートナンバーの６９をＡ３と表記する（国際的にはＡ４をＭＩＤＩ規格ノートナンバーの６９を示す表記も多数存在する）。各音素符号につき、これらの記号が縦に４つ並んでいるのは４和音であることを示し、更に、「アイウエオ」以外はこれらが２セット横に並び、２連の４和音であることを示す。図７〜図１０を見るとわかるように、５つの母音については、１つの音階（ノートナンバーに対応）が示されているが、母音以外の音素については、２つの音階が示されている。上述のように、母音以外の音素については、分割時刻を指定することにより、その時刻の前後で符号コードのノートナンバーが変化するためである。分割時刻は、音素符号補正手段２１による補正処理にのみ用いられるものであり、補正音素符号記憶部１２に格納される音素符号には反映されない。音素符号には、２つの符号コードの時間的な前後が反映されるのみである。

（４．音声の合成）
次に、補正した音素符号を利用した音声の合成について説明する。図１１は、本発明に係る音声合成装置の一実施形態を示す構成図である。図１１において、音素符号データベース１２ａは、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。音素データベース１２ａに格納されている音素符号は、上述の音素符号化装置により補正され、補正音素符号記憶部１２に格納されたものと同じである。したがって、上述の音素符号補正装置は、この音素データベース１２ａを作成するためのものであるとも言える。音素編集処理手段５０は、合成指示データの内容に従って、音素符号データベース１２ａから対応する音素符号を抽出し、所定の加工を施して合成音声として音声出力手段６０に出力する処理を行う。音声出力手段６０は、音素編集処理手段５０から受け取った合成音声を実際の音声として発音するものであり、ＭＩＤＩ音源を備えたＭＩＤＩ再生装置により実現される。図１１に示した音声合成装置は、現実には、外部記憶装置を備え、ＭＩＤＩ再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。

音声合成装置に入力される合成指示データは、音素識別情報を所定の順序で配置したものであり、この音素識別情報は、音素符号を識別することができるものであれば、どのような形式であっても良い。本実施形態では、音素識別情報として、音素に対応する文字コードを記録したテキストデータを用いている。この場合、音素データベース内の音素符号は、音素に対応する文字コードと対応付けて記録されている必要がある。

続いて、図１１に示した音声合成装置の処理動作について説明する。まず、合成指示データを音声合成装置に入力する。音声合成装置は、合成指示データを読み込むと、音素編集処理手段５０が合成指示データ内を先頭の音素識別情報から順に合成処理していく。具体的には、音素編集処理手段５０は、合成指示データ内の音素識別情報で音素データベース１２ａから対応する音素符号を抽出する。そして、それが母音である場合は、前の音素のノートオフ時刻の０．２５秒後をノートオン時刻として設定し、その０．２５秒後をノートオフ時刻とし、ノートナンバー、ベロシティは音素データベースに記録されていた値そのものとするＭＩＤＩイベントを作成する。ただし、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータに基づいて適宜上下され、ピッチ変換を行えるようにしてある。抽出した音素符号が子音である場合は、音素符号として２つの符号コードが存在するため、先の符号コードについて、前の音素のノートオフ時刻の０．２５秒後をノートオン時刻として設定し、音素の１／４、すなわち０．０６２５秒後をノートオフ時刻とする。そして、後の符号コードについて、先の符号コードのノートオフ時刻をノートオン時刻として設定し、音素の３／４、すなわち０．１８７５秒後をノートオフ時刻とする。子音の場合も、母音の場合と同様、ノートナンバー、ベロシティは音素データベースに記録されていた値そのものとする。が、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータを加算することにより適宜上下され、ピッチ変換を実現することができる。また、上記の０．２５秒、０．０６２５秒、０．１８７５秒という時間数値はあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。

長音の場合、長音の母音と長音の子音で若干異なる。長音の母音の場合、ノートオン時刻からノートオフ時刻の間隔を０．５秒に増加して設定する。長音の子音の場合、先の符号コードについては、長音でない通常の場合と同様、ノートオン時刻からノートオフ時刻の間隔を０．２５秒にして設定し、後の符号コードについてノートオン時刻からノートオフ時刻の間隔を０．３７５秒にして設定する。したがって、長音の場合、音素全体の発音時間は、母音、子音ともに同じ０．５秒となる。子音については、第１和音の発音時間は、長音でない通常の場合と同じ０．０６２５秒であるが、第２和音の発音時間が、長音でない通常の場合と比べて長くなる。尚、上記の０．５秒、０．２５秒、０．３７５秒、０．５秒、０．０６２５という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。

促音の場合、その直後の音素符号の第１和音と同じものを、直後の音素符号の第１和音の直前に加える。第１和音の発音時間は０．０６２５秒であるため、直前の音素符号の発音終了時刻から０．１８７５秒後に促音のノートオン時刻を設定することになり、促音のノートオフ時刻と、直後の音素の第１和音のノートオン時刻が同一となる。尚、上記の０．０６２５秒、０．１８７５秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。

拗音の場合、直前の子音の第１和音の直後に加える。したがって、直前の子音の第１和音のノートオフ時刻と、拗音のノートオン時刻が同一となるように設定する。拗音の音素符号の構成自体は子音と同じであるので、拗音の第１和音のノートオフ時刻および第２和音のノートオン時刻は、第１和音のノートオン時刻の０．０６２５秒後であり、拗音の第２和音のノートオフ時刻は、そのノートオン時刻の０．１８７５秒後となる。尚、上記の０．０６２５秒、０．１８７５秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、和速変換を実現することができる。

音素編集処理手段５０は、読み込んだ合成指示データ内の音素識別情報単位で音素の合成処理を行っていき、処理が終わった音素単位で順に、合成音声データ（ＭＩＤＩデータ）を、音声出力手段６０に渡していく。音声出力手段６０は、音素編集処理手段５０から受け取ったＭＩＤＩデータを順に再生していく。以上のようにして、音声合成装置は、読み込んだ合成指示データに従って音声の再生が可能となる。

図１１に示した音声合成装置では、合成指示データに従って音声合成をリアルタイムで行い、音声再生するようにしたが、音素編集処理手段５０による処理結果であるＭＩＤＩデータを記憶装置に蓄積し、別途このＭＩＤＩデータをＭＩＤＩ再生装置により音声再生するようにしても良い。ＭＩＤＩデータを記憶装置に蓄積する方法としては、ＳＭＦ(Standard MIDI File)形式ファイルを用いると、市販の種々の音楽関係ソフトウェアに渡すことができ、作成されたＭＩＤＩデータからは、市販の楽譜作成ツールを用いて、楽譜を作成することができる。この場合、楽譜は、ＳＭＦ形式に記録されていた音素符号を基にして作成されるが、図７〜図１０に示したように、各音素符号を構成する符号コード数が少ないため（同時に４個）、作成された楽譜は、繁雑でなく見易いものになる。そして、作成された楽譜を印刷装置に出力すれば、ヒトがそれを読譜しながら楽器演奏により手動で音声再生を実現することができる。

前述した通り、音素編集処理手段５０は、合成指示データ内の音素識別情報で音素データベース１２ａから対応する音素符号を抽出し、ＭＩＤＩイベントを作成する際、そのノートナンバーについては音素データベース１２ａに収録されている当該音素符号に対応する和音を構成する各音符のノートナンバーに対して、オプション的に別途ユーザにより指示される音高オフセットパラメータを加算し適宜上下させ、ピッチ変換を行えるようにしてある。この場合は、合成音声データ全体のピッチを上下させるものであるが、前記合成指示データ内の音素識別情報とともに前記音高オフセットパラメータを音素ごとに定義すれば、各音素ごとにピッチを上下させることもできる。即ち、あらかじめ作成した旋律の隣接音符間での音高変化（音程情報）を、前記合成指示データ内の音素識別情報とともに定義される音高オフセットパラメータとして与えれば、歌声合成を実現することができる。

（５．電子透かしへの応用）
本発明に係る音声合成装置は、音楽データに、音声メッセージの形態で著作権者情報など特定の情報を埋め込む技術、可聴な“電子透かし”に応用することが可能である。図１２は、本発明に係る音声合成装置の基本構成を利用した電子透かし埋め込み装置を示す図である。図１２において、音素符号データベース１２ａは、図１１に示した音素符号データベース１２ａと同じものであり、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。埋め込み処理手段５１は、ＳＭＦ形式等により記述されたデジタルデータである音楽コンテンツに、メッセージテキスト（合成指示データ）で特定されるメッセージを埋め込む。具体的には、埋め込み処理手段５１は、図１１に示した音素編集処理手段５０の機能を備え、メッセージテキスト（合成指示データ）の内容に従って、音素符号データベース１２ａから対応する音素符号を抽出し、所定の加工を施して合成音声を生成する。そして、出力する音楽コンテンツが複数トラックであり、メッセージ用の専用トラックが存在する場合は、その専用トラックに合成音声を埋め込んで単一のＭＩＤＩ形式の音楽データとして音響出力手段６１に出力する。音楽コンテンツに専用トラックが存在しない場合には、音楽コンテンツの無音部分に、合成音声を格納して音響出力手段６１に出力する。音響出力手段６１は、図１１に示した音声出力手段６０と実質的には同じものであり、埋め込み処理手段５１から受け取った音響データを実際の音として発音するものである。図１２に示した電子透かし埋め込み装置では、メッセージテキストの埋め込みをリアルタイムで行い、音響出力するようにしたが、埋め込み処理手段５１による処理結果であるＳＭＦ形式等でＭＩＤＩデータを記憶装置に蓄積し、ネットワーク等で別途このＭＩＤＩデータを配信し、受信者側のＭＩＤＩ再生装置により音響出力する形態をとることもできる。図１２に示した電子透かし埋め込み装置は、現実には、外部記憶装置を備え、ＭＩＤＩ再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。

続いて、ＭＩＤＩデータに埋め込まれた電子透かしを抽出する電子透かし抽出装置について述べる。電子透かし抽出装置は、マイクロフォン等の音響信号取得機器、上記音素符号データベース１２ａを備えるとともに、電子透かし抽出のための専用のプログラムを組み込んだコンピュータにより実現される。電子透かし抽出装置に組み込まれた専用プログラムは、コンピュータを、周波数解析手段、音素符号識別情報復号化手段として機能させる。周波数解析手段、音素符号識別情報復号化手段の具体的内容は、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている手順により実現可能である。電子透かし抽出装置は、音響出力手段６１より空間に送出された音響信号に対して電子透かし抽出装置に接続されたマイクロフォンなどを通じて部分的に録音を行い、録音されたＰＣＭデータに対して周波数解析手段が周波数解析を行い、和音データを抽出する。具体的には、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている公知の技術を用いて時系列の３２個の符号コード群へ変換する。続いて、音素符号識別情報復号化手段が、抽出された和音データを音素符号データベース１２ａと照合し、類似した和音データをもつ音素符号を抽出し、音素符号識別情報を復号化する。具体的には、音素符号データベース１２ａに収録されている符号コード群と順次照合し、適合する音素符号を順次抽出することにより、図１２のメッセージテキスト（合成指示データ）を復元する。

本発明は、イベントや余興目的に行われる人間の音声再生を模倣した音楽作品制作・作曲の支援産業に利用することができる。また、エンターテインメント分野において、電子楽器を主体とした玩具（ロボット、ぬいぐるみを含む）、玩具型のアコースティック楽器（室内装飾用のミニチュアピアノ）、オルゴール、携帯電話の着信メロディ等の音階再生媒体に対して音声合成機能を付加する産業に利用することができる。また、ＳＭＦ（ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）等によるＭＩＤＩ音楽コンテンツ配布時における著作権保護等の産業に利用することができる。

１０・・・記憶手段
１１・・・音素符号記憶部
１２・・・補正音素符号記憶部
１２ａ・・・音素データベース
２０・・・処理制御手段
２１・・・音素符号補正手段
３０・・・音素符号表示手段
４０・・・開始終了時刻指示手段
５０・・・音素編集処理手段
５１・・・埋め込み処理手段
６０・・・音声出力手段
６１・・・音響出力手段

Claims

１つの音素を複数の符号コード群で表現した音素符号を、その発音開始時刻、発音終了時刻、周波数に対応付けて画面に表示する音素符号表示手段と、
前記表示された音素符号に対して、利用者が指定開始時刻、指定分割時刻、指定終了時刻を指定するための時刻指定手段と、
前記時刻指定手段により指定された指定開始時刻、指定終了時刻で特定される区間を指定区間とし、前記音素符号を構成する符号コードのうち、前記指定区間内の符号コードの発音終了時刻から発音開始時刻との時間と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、前記指定区間に指定分割時刻を含む場合に、前記指定開始時刻から前記指定分割時刻までを第１の指定区間、前記指定分割時刻から前記指定終了時刻までを第２の指定区間として、２つの指定区間ごとに符号コードのエネルギー値が高い上位のものを各々抽出する音素符号補正手段と、
を有することを特徴とする音素符号補正装置。
日本語カナ文字の各音素を表現した音素符号を、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音のいずれかにより構成し、前記各音素符号を、各音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベース。
請求項２において、
前記日本語カナ文字の音素が「ア」「イ」「ウ」「エ」「オ」の各母音の場合は、その音素符号を前記単一和音で構成し、前記日本語カナ文字の音素が子音・濁音・半濁音・撥音の場合は、その音素符号を前記２連和音で構成することを特徴とする音素符号データベース。
日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた合成指示データに記載されている音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成する音素編集処理手段と、
前記音素編集処理手段により生成された合成音声データを出力する音声出力手段と、
を有することを特徴とする音声合成装置。
請求項４において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の長音であるとき、前記音素が単一和音で構成されている場合、その音素符号全体の発音時間を、前記音素が２連和音で構成されている場合、その第２和音の発音時間を、所定の値だけ増加させることを特徴とする音声合成装置。
請求項４において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の促音であるとき、前記音素の直後に配置される音素の第１和音と同一の第１和音を設定することを特徴とする音声合成装置。
請求項４において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の「ヤ」「ユ」「ヨ」の拗音であるとき、前記拗音の直前の音素については、第１和音のみを設定し、当該第１和音の直後に、前記拗音に対応する「ヤ」「ユ」「ヨ」いずれかの２連和音を設定することを特徴とする音声合成装置。
請求項４から請求項７のいずれかにおいて、
前記音素編集処理手段により生成された前記合成音声データはＳＭＦ形式のＭＩＤＩデータで、前記音声出力手段には五線譜変換手段と印刷手段を備え、前記合成音声データに対してヒトが読譜して楽器演奏により手動で音声出力を実現できるような五線譜に変換し印刷するようにしていることを特徴とする音声合成装置。
請求項４から請求項８のいずれかにおいて、
前記音素編集処理手段が、与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された時間伸縮パラメータに基づいて、前記音素符号データベースに収録されている前記和音の長さに対して、前記時間伸縮パラメータを乗算し、前記発音の開始および終了を特定する時刻に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
請求項４から請求項９のいずれかにおいて、
前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
請求項１０において、
前記合成指示データには各音素ごとに音素符号識別情報とともに前記音高オフセットパラメータが定義されており、前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、前記各音素ごとに定義された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して、前記音素符号識別情報に基づいて改変を施すようにしていることを特徴とする音声合成装置。
日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
を有することを特徴とする電子透かし埋め込み装置。
日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で２種の異なる長さをもつ和音を連結させた２連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
前記音響出力手段より出力された音響信号の一部を録音する音響録音手段と、
前記音響録音手段により得られた録音音響信号に対して周波数解析を行い、和音データを抽出する周波数解析手段と、
前記抽出された和音データを前記音素符号データベースと照合し、類似した和音データをもつ音素符号を抽出し、前記音素符号識別情報を復号化する音素符号識別情報復号化手段と、
を有することを特徴とする電子透かし抽出装置。
請求項１に記載の音素符号補正装置としてコンピュータを機能させるためのプログラム。
請求項４から請求項１１のいずれかに記載の音声合成装置としてコンピュータを機能させるためのプログラム。
請求項１２または請求項１３に記載の電子透かし埋め込み装置または電子透かし抽出装置としてコンピュータを機能させるためのプログラム。