JP5481958B2

JP5481958B2 - 音素符号変換装置および音声合成装置

Info

Publication number: JP5481958B2
Application number: JP2009143825A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2009-06-17
Filing date: 2009-06-17
Publication date: 2014-04-23
Anticipated expiration: 2029-06-17
Also published as: JP2011002529A

Description

本発明は人間の声を基にして、電子楽器、楽譜等で利用可能な符号データを得るための技術に関する。

従来、人間の声を擬似的に合成する手法は、種々の分野で利用されている。出願人は、人間の声をＰＣＭでデジタル化した後、フーリエ変換を用い、実効強度の大きい周波数に対応する符号コードを取得することにより音声合成を行う技術を提案している（特許文献１参照）。

また、出願人は、玩具などに搭載されている性能の低いＭＩＤＩ音源でも再生可能とし、既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読性のある譜面が得られるようにするために、各音節ごとの符号コード群を簡素な符号コード群に変換する技術を提案している（特許文献２参照）。尚、特許文献１および特許文献２に記載の「音素」という用語は、全て本願記載の「音節」に対応するため、以下本願で前記文献を引用する際はそのように読み替えて説明する。

特開平１１−９５７９８号公報特願２００９−４１１６５号

上記特許文献１に記載の技術では、人間の音声を構成する各音節ごとにＭＩＤＩデータ形式で符号化された符号コード群は、電子楽器による自動演奏で音声を再生することを前提としているため、発音タイミングやベロシティ制御が煩雑で、玩具などに搭載されている性能の低いＭＩＤＩ音源では再生できなかった。また、前記符号コード群を既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読不能な譜面になってしまい、人間による楽器演奏で前記符号コード群を再生することは困難であった。

上記特許文献２に記載の技術では、母音以外の全ての音節を２連和音で簡略化したＭＩＤＩデータで統一的に表現しているが、ＭＩＤＩ音源で種々の楽器音色を設定して再生しても音声の明瞭性に欠けるという問題がある。音声が不明瞭である原因としては、音節を構成する各音素が適切に符号化されていなかったことが挙げられる。母音以外の全ての音節は子音音素と母音音素で構成されるため、２連の和音で簡略化する方法をとること自体は妥当であるが、構成する２つの和音は子音音素と母音音素に対応していなかった。その理由は、日本語音節７１音を録音した波形データ一式を高精細なＭＩＤＩデータに変換し、変換されたＭＩＤＩデータに対して、２箇所の音素区間に対応する位置を作業者が画面上で指示する方法をとっていたためで、子音音素と母音音素は時間的に連続して繊維するため、点による時刻指定で単純に分離できるものではなく、かつ作業者の負荷を伴うという問題がある。

また、子音音節より母音音素成分の分離精度が悪いため、ピッチ（音高）を上下させるとき、本来は母音音素成分だけ上下させれば良いところ、子音音素成分も上下させる必要が生じており、母音音素成分だけの長さを伸ばして長音にすると不自然になるという問題も生じている。

そこで、本発明は、五線譜に自動変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データ（ＭＩＤＩデータ等）を基本として音声合成機能を実現する場合において、作業負荷を軽減するとともに、音声再生品質の明瞭性を改善することが可能な音素符号変換装置、音素符号データベース、および音声合成装置を提供することを課題とする。

上記課題を解決するため、本発明では、１つの音節を複数の符号コードで表現した音節符号を読み込む音節符号読込手段と、前記読み込まれた音節符号を構成する符号コード群について、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出する音高別エネルギー算出手段と、複数の音節符号間で、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出する音高別エネルギー統合手段と、前記統合エネルギー値が高い上位の音高を所定の個数だけ抽出し、抽出された各音高に対応する符号コードに、所定の強さ、所定の発音開始時刻、所定の発音終了時刻のパラメータを設定し、複数の符号コードで構成される音素符号に変換する符号変換手段を有する音素符号変換装置を提供する。

本発明の音素符号変換装置によれば、符号コード群として構成される音節符号を読み込み、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出し、複数の音節符号間で、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出し、統合エネルギー値が高い上位の音高を抽出するようにしたので、実際に人間が発音することにより得られた音節符号を利用して、より少ない数で全ての音節を表現可能な音素符号を得ることができる。音節符号に共通の音高成分を有する音素符号に変換することにより、音節符号より少ない数の音素符号で、全ての音節を表現することができるため、データベース化した際に少ない記憶容量で足りることになる。

また、本発明では、前記音素符号変換装置により作成され、日本語カナ文字の各音節を構成する音素に対応して、所定の種類以下の音高を同時にもち、音の強さおよび音の長さが均一の複数の符号コードで構成される音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースと、与えられた合成指示データに記載されている音節識別情報をもとに音素符号識別情報に変換し、対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定することにより合成音声データを生成する音素編集処理手段を有する音声合成装置を提供する。

本発明の音声合成装置によれば、日本語カナ文字の各音節を構成する音素を音素符号として記録した音素符号データベースを有し、与えられた合成指示データに記載されている音節情報をもとに、対応する音素符号を音素符号データベースから抽出し、音節情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定するようにしたので、音声合成を行うことにより作成される符号コード群は玩具などに搭載されている性能の低いＭＩＤＩ音源で再生可能であるとともに、既存の楽譜編集ツールにより演奏者が楽器演奏で再生可能な判読性のある五線譜に変換することが可能となる。

本発明によれば、五線譜に自動変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データ（ＭＩＤＩデータ等）を基本として音声合成機能を実現する場合において、作業負荷を軽減するとともに、必要なデータベースの容量を削減し、さらに音声再生品質の明瞭性を改善することが可能となるという効果を奏する。

本発明における音声合成の基本概念を示す図である。本発明における音声合成の基本概念を示す図である。本発明に係る音素符号変換装置の一実施形態を示す構成図である。音節と音素の対応関係を記録した変換テーブルを示す図である。音節符号から音素符号へ変換する際における符号コード群の変化の様子を示す図である。音節符号と、音素符号の構成例を示す図である。音素符号記憶部１２に格納された男声の音素符号の例を示す図である。音素符号記憶部１２に格納された男声の音素符号の例を示す図である。音素符号記憶部１２に格納された女声の音素符号の例を示す図である。音素符号記憶部１２に格納された女声の音素符号の例を示す図である。図７、図８に示した男声の音素符号を五線譜化した例を示す図である。図９、図１０に示した女声の音素符号を五線譜化した例を示す図である。本発明に係る音声合成装置の一実施形態を示す構成図である。本発明に係る電子透かし埋め込み装置の一実施形態を示す構成図である。

（１．本発明の基本概念）
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。最初に、本発明の基本概念について説明する。日本語の母音は、２つの特徴的な音声フォルマント成分を含む４つ以上の重音による和音で近似できることが知られている。子音は母音成分に加えて、摩擦音など雑音を表現する和音と母音への経過音を表現する和音の３種の連結された和音が理論上必要であるが、経過音は人間の聴覚上の補間現象（音脈分凝）に委ねれば、最初の雑音と母音の２つの和音に近似できる。そこで、出願人は、日本語の母音は単一の４和音、子音は２連の４和音を基本にして全音素を表現し、これらを時間軸上につなぎ合わせれば音声合成を実現できると考え、特許文献２において、これを提案した。

しかしながら、上述のように、様々な要因により、ＭＩＤＩ音源で種々の楽器音色を設定して再生しても音声の明瞭性に欠けるという問題があった。本発明では、母音、子音等の音節の構成を上記特許文献２とは根本的に異なるものとした。具体的には、７１音節それぞれ固有の音節符号とするのではなく、日本語５母音と１５子音に対応する２０の音素符号より１つまたは２つの音素符号を選択し組み合わせることにより、７１音節を表現することとした。

まず、母音音節と子音音節の違いについて説明する。本実施形態では、母音音節は第１音素だけの単独音素とする。子音音節は第１音素と第２音素の２音素構成で第１音素は第２音素に比べ短めにする。なお、本実施形態では、母音音節の第１音素、子音音節の第１音素、第２音素は、いずれも８和音となっている。

子音音節の第１音素は、「Ｋ、Ｓ、Ｔ、Ｎ、Ｈ、Ｍ、Ｒ、Ｇ、Ｚ、Ｄ、Ｂ、Ｐ、Ｙ、Ｗ」の１４音素のいずれか１つが選択され、子音音節第２音素の、母音音節の第１音素は、「Ａ、Ｉ、Ｕ、Ｅ、Ｏ、ｎ」の６音素のいずれか１つが選択される。子音音節には、濁音（「バ」など）、半濁音（「パ」など）を含み、撥音（はつおん「ン」）は第１音素は音素「Ｎ」、第２音素は音素「ｎ」とする。

本発明では、上述のような構成の子音音節と母音音節を用いて、音声の特徴に応じてさらに多種の態様で合成することを特徴とする。音声の特徴に応じた合成態様の分類については、様々なものが考えられるが、本実施形態では、母音、子音（濁音、半濁音、撥音含む）、長音の母音、長音の子音、促音、拗音の６通りに分類している。

図１、図２は、本実施形態における音声合成の基本概念を示す図である。図１（ａ）〜（ｄ）、図２（ａ）（ｂ）は、上記各分類に対応したものとなっている。図１、図２において、各矩形は、音節または音素を示しており、矩形と矩形の間の空白は無音部分を示している。また、左右方向は時間軸であり、矩形の横幅は、音節の発音時間に対応している。音節の発音時間は、基本的な母音、子音の発音時間を単位区間として設定し、他の分類の音節についても、この単位区間を基準にして定められている。単位区間の具体的な長さは適宜設定することが可能であるが、本実施形態では０．２５秒としている。また、詳しくは後述するが、本実施形態では、音節は、２つのパターンで符号化され、１つの音素で構成される音節と、２つの連続する音素（以下、２連音素という）で構成される音節がある。

図１（ａ）は、母音の場合の合成パターンを示す例である。母音の場合、音節は１つの音素（第１音素）で構成される。図１（ａ）に示すように、第１音素を単位区間分発音した後、単位区間分無音とし、その後、他の音節が続く。図１（ｂ）は、子音の場合の合成パターンを示す例である。子音の場合、音節は第１音素と第２音素の２つの音素で構成される。図１（ｂ）に示すように、単位区間の１／４だけ第１音素を発音し、続いて、単位区間の３／４だけ第２音素を発音する。すなわち、第１音素の発音終了と同時に第２音素の発音を開始し、第１音素の発音開始から第２音素の発音終了までがちょうど単位区間となる。その後、単位区間分無音とし、その後、他の音節が続く。

図１（ｃ）は、長音の母音の場合の合成パターンを示す例である。長音の母音の場合、１つの音素で構成されるが、図１（ｃ）に示すように、通常の母音に比べ、単位区間分発音時間を延ばす。すなわち、第１音素を２単位区間分発音する。その後、単位区間分無音とし、その後、他の音節が続く。図１（ｄ）は、長音の子音の場合の合成パターンを示す例である。長音の子音の場合、２つの音素で構成されるが、図１（ｄ）に示すように、通常の子音に比べ、第２音素の発音時間を単位区間分だけ延ばす。第１音素の発音時間は、通常の子音の場合と同じく、単位区間の１／４である。すなわち、第１音素の発音終了と同時に第２音素の発音を開始し、第１音素の発音開始から第２音素の発音終了までが２単位区間分となる。その後、単位区間分無音とし、その後、他の音節が続く。

図２（ａ）は、促音の場合の合成パターンを示す例である。促音の場合、図２（ａ）に示すように、後続音節である子音の第１音素を、後続音節の直前に発音する。例えば、“ッタ”における“ッ”を合成する場合、後続音節“タ”の第１音素を、“タ”の第１音素の直前に配置する。このとき、促音の発音開始は、先行音素の発音終了から単位区間の３／４だけ経過した時点とする。すなわち、先行音素の発音終了から単位区間の３／４だけ経過した時点から、後続音節の第１音素が単位区間の１／４だけ２回繰り返して発音され、その後、後続音節の第２音素が単位区間の３／４だけ発音されることになる。

図２（ｂ）は、拗音の場合の合成パターンを示す例である。拗音の場合、図２（ｂ）に示すように、直前の子音音節を第１音素のみとする。そして、直前の子音音節の第１音素の発音終了時刻を、拗音に対応する子音の発音開始時刻として、その拗音に対応する子音の第１音素と第２音素を連続して発音する。例えば、“キャ”における“ャ”を合成する場合、先行音節“キ”の第１音素の直後に、拗音“ャ”に対応する子音“ヤ”の第１音素を配置する。このとき、直前の子音音節の第１音素の発音時間は単位区間の１／４とし、拗音に対応する子音の発音時間は、通常の子音の場合と同様、第１音素が単位区間の１／４、第２音素が単位区間の３／４となる。

図１（ａ）〜図１（ｄ）、図２（ｂ）においては、先行音節を省略し、図２（ａ）、（ｂ）においては、後続音節を省略したが、基本的に全ての音素の間には単位区間分の無音区間が設定される。この単位区間の具体的長さは前述の通り０．２５秒を標準として設定しているが、適宜変更可能である。また、図１、２に示したものは、基本様式であるため、各音節における各音素の発音時間の比率、発音時間や無音時間の長さは適宜変更することが可能である。例えば、隣接音節との間隔を変動させれば話速を変更できる。

（２．前準備）
次に、従来技術を利用した前準備について説明する。前準備として、人間の声を各音節ごとに符号化する処理を行う。これは、特許文献１に示されている音素の符号化処理に相当する。ただし、特許文献１に示されている符号化処理では、１つの単位区間において、４、８、１６個の符号コードを定義しているが、本実施形態では、より多くの符号コードを定義する点で異なっている。具体的には、本実施形態では、ノートナンバーに対応した３２個の符号コードを定義し、符号化を行う。なお、特許文献１における「音素」という語と、本発明における「音素」という語は異なっており、特許文献１における「音素」は、本発明における「音節」に相当する。

符号化処理としては、まず最初に、人間の声を音節単位でデジタル化する。これは、特許文献１に示したのと同様に、各音節を人間が実際に発声し、これを録音したものをＰＣＭ等の手法により行う。このとき、話者はネイティブの日本人男性または女性とし、同一人が７１の音節に対してできる限り、ピッチ（音高）と発声区間を揃えて、発声することが望まれる。一般人の話者ではこのように発声を揃えるのは困難であるため、専門のボイストレーニングを受けたアナウンサー・声楽家などに発声してもらうことが望ましい。更に、男性または女性を含む複数の話者により複数のセットの７１音節の録音信号を収集することが望ましい。続いて、各音節のデジタルデータを１２８個の符号コード群に変換する。この変換は、概略的には特許文献１に示したものと同様である。したがって、各符号コードは、音の高さ、音の強さ、発音開始時刻、発音終了時刻（本実施形態では、符号コードとしてＭＩＤＩを採用するので、ノートナンバー、ベロシティ、ノートオン時刻、ノートオフ時刻）で構成される。しかし、上述のように、本実施形態では、特許文献１のように４〜１６個程度ではなく、全てのノートナンバーに対応した１２８個の符号コード群に変換し、更にその中から３２個の符号コード群を選別する。ＰＣＭデータから、３２個の符号コード群への変換の具体的手法は、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている公知の技術を利用する。このようにして、各音節ごとの符号コード群を音節符号として音節データベースに記録する。本実施形態では、音節データベースに記録される音節は、いわゆる五十音に加え、撥音、濁音、半濁音を含む計７１音である。

（３．音素符号への変換）
次に、音節符号から音素符号への変換について説明する。図３は、本発明に係る音素符号変換装置の一実施形態を示す構成図である。記憶手段１０は、音節符号記憶部１１、音素符号記憶部１２を有しており、コンピュータに接続されたハードディスク等の外部記憶装置により実現される。音節符号記憶部１１には、音節を特定する音節識別情報と音節符号が対応付けて記憶されている。また、音節と音素の対応関係を示した変換テーブルが記憶されている。音節符号記憶部１１に格納されている音節符号は、上述の前準備により符号化され、音節データベースに記録されたものと同じである。

処理制御手段２０は、音素符号変換装置全体の処理を統括するものであり、音高別エネルギー算出手段２１、音高別エネルギー統合手段２２、符号変換手段２３を有している。処理制御手段２０は、ＣＰＵ、メモリを含むコンピュータ本体であり、音高別エネルギー算出手段２１、音高別エネルギー統合手段２２、符号変換手段２３は、専用のプログラムをＣＰＵが実行することにより実現される。符号表示手段３０は、処理制御手段２０に読み込まれた音節符号、変換により得られる音素符号を表示するものであり、液晶ディスプレイ等の表示装置により実現される。

次に、図３に示した音素符号変換装置の処理動作について説明する。音素符号変換装置では、７１の音節単位で構成される音節符号を基に、２０の音素符号に変換するものである。ここで、音節と音素の対応関係を示した変換テーブルを図４に示す。図４において、カタカナで示す「ア」「イ」・・・の７１音は音節であり、アルファベットで示す「Ａ」「Ｉ」は音素である。母音音素「Ａ」・・・「Ｏ」は水平方向の１３音節のＡＮＤ演算で決定され、子音音素「Ｋ」・・・「Ｐ」は垂直方向の５音節のＡＮＤ演算で決定される。図４に示した横長の枠は、母音音素「Ａ」が１３個の音節「ア」・・・「パ」で決定されることを示しており、縦長の枠は、子音音素「Ｋ」が５個の音節「カ」・・・「コ」で決定されることを示している。なお、子音音素「Ｙ」は３個の音節「ヤ」「ユ」「ヨ」で決定され、子音音素「Ｗ」は２個の音節「ワ」「ヲ」で決定され、音素「ｎ」は１個の音節「ン」で決定される。

音素符号変換装置が起動されると、処理制御手段２０は、図４に示した変換テーブルを参照し、関連する複数の音節符号を読み込む。例えば、音素符号「Ｋ」を得るために、音節符号記憶部１１から「カ」「キ」「ク」「ケ」「コ」の５個の音節符号を読み込む。

処理制御手段２０が、５個の音節符号を読み込んだら、音高別エネルギー算出手段２１は、各音節符号単位で、構成する全ての符号コードを対象にして、音高（ＭＩＤＩの場合、ノートナンバー）別に、エネルギー総和値を算出する。エネルギー総和値は、各音高における音の強度（ＭＩＤＩの場合、ベロシティ）×発音時間（ＭＩＤＩの場合、デュレーション：ノートオフ時刻−ノートオン時刻）により算出する。ここで、エネルギー総和値の“総和”とは、１つの音節符号内において、同一音高で２つ以上の符号コードが存在する場合、各符号コードについて総和をとることを意味している。

各符号単位で、全音高についてエネルギー総和値が算出されたら、次に、音高別エネルギー統合手段２２が、５個の音節符号間で、同一の音高別にエネルギー総和値を乗算し、統合エネルギー値を得る。乗算であるため、５個の音節符号のうち、いずれか１つの音節符号に存在しない音高成分については、“０”となる。したがって、統合エネルギー値を求めることにより、５個の音節符号に共通の成分のみが残ることになる。例えば、音素符号「Ｋ」を構成する音高成分は、音節符号「カ」「キ」「ク」「ケ」「コ」に共通に含まれている音高成分でなければならない。

音高別に統合エネルギー値が算出されたら、符号変換手段２３が、統合エネルギー値が上位の音高を指定和音数（例：８個）を超えないように選出する。

指定和音数は、事前に設定されるものであり、自由に設定することができるが、本実施形態では、上述のように“８”としている。したがって、本実施形態では、３２個の符号コードから８個の符号コードが、符号変換手段２３により抽出されることになる。さらに、符号変換手段２３は、元の各音節符号を構成する複数の符号コードのうち、最も早い区間開始時刻、最も遅い区間終了時刻を、それぞれ選出された全ての音高の区間開始時刻、区間終了時刻として設定し、選出された音高のベロシティを規定値に設定する。ベロシティの規定値については、ベロシティが“０”〜“１２７”の値を取り得るため、本実施形態では、その最大の“１２７”としている。

音高別エネルギー算出手段２１、音高別エネルギー統合手段２２、符号変換手段２３による処理前と処理後の音素符号の変化の様子を図５に示す。図５において、横軸は時間、縦軸は周波数（ノートナンバー）に対応している。グラフ内に配置された矩形は符号コードを示しており、横方向の長さは横軸に従って時間的長さを示しているが、縦方向の長さは縦軸とは異なり、周波数ではなく強度（ベロシティ）を示している。

実際には、図４に示したように、１つの音素は、１３個の音節、または５個の音節により得られる（例外として、音素Ｙは３個の音節、音素Ｗは２個の音節、音素ｎは１個の音節）が、図５の例では、説明の便宜上２つの音節符号α、βを用いて、音素γを抽出する場合を示している。図５（ａ）、（ｂ）は、それぞれ音高別エネルギー算出手段２１による処理前の音節符号α、βを構成する符号コード群を示したものである。上述のように、本実施形態では、同一時刻において３２個の符号コードで音節符号を構成し、指定和音数は８に設定するのが一般的であるが、図５（ａ）では、説明の都合上、同一時刻において符号コードは最大６個となっており、指定和音数は４に設定している場合を示している。また、各符号コードを示す矩形の横方向および縦方向の長さからわかるように、各符号コードの再生時間（終了時刻−開始時刻）および強度も異なっている。

音高別エネルギー算出手段２１、音高別エネルギー統合手段２２による処理後は、全ての音高についての統合エネルギー値が得られる。統合エネルギー値は、図５（ａ）（ｂ）に示されるような、音高別エネルギー算出手段２１により音高ごとに算出される発音開始時刻と発音終了時刻との時間差と符号コードの強さ（ベロシティ）との積の同一音高における総和値であるエネルギー総和値に対して、音節符号αとβとの間で対応する音高におけるエネルギー総和値同士を乗算したものであるので、図で表現するのは難しいが、イメージ的には、図５（ｃ）に示すように、音高に対応して、その統合エネルギー値（図５（ｃ）では、図面上下方向の幅で表現）が得られる。そして、符号変換手段２３により、図５（ｄ）に示すように、統合エネルギー値が大きい音高が４つ選出される。さらに、この後、符号変換手段２３により、各音高に対応する符号コードの強度値は、上述のような規定値に設定される。「カ」「キ」「ク」「ケ」「コ」の５個の音節符号（最大３２の音高）と、「Ａ」「Ｉ」「Ｕ」「Ｅ」「Ｏ」「Ｋ」の６個の音素符号（最大８の音高）の構成例を図６に示す。

音高別エネルギー算出手段２１、音高別エネルギー統合手段２２、符号変換手段２３は、音節符号記憶部１１に記憶されている各音節符号について処理を行い、得られた各音素符号を音素符号記憶部１２に格納する。音素符号記憶部１２に格納された音素符号の例を図７〜図１０に示す。このうち、図７、図８は男声を符号化したものであり、図９、図１０は女声を符号化したものである。図７〜図１０中、“Ｃ，Ｃ＃，Ｄ，Ｄ＃、Ｅ、Ｆ、Ｆ＃、Ｇ、Ｇ＃、Ａ、Ａ＃、Ｂ”は、“ド、ド＃、レ、レ＃、ミ、ファ、ファ＃、ソ、ソ＃、ラ、ラ＃、シ”の音名の英語表記で、列記されている数字はオクターブ番号を示し、音名とオクターブ番号の対記号でＭＩＤＩ規格のノートナンバーを特定でき、本願ではＭＩＤＩ規格ノートナンバーの６９をＡ３と表記する（国際的にはＡ４をＭＩＤＩ規格ノートナンバーの６９を示す表記も多数存在する）。音素符号を構成する符号コードが、ＭＩＤＩ規格で定義されている場合、市販の楽譜編集ツールにより五線譜に変換することができる。図７、図８の男声の音素符号を五線譜化した例を図１１に、図９、図１０の女声の音素符号を五線譜化した例を図１２にそれぞれ示す。

（４．音声の合成）
次に、得られた音素符号を利用した音声の合成について説明する。図１３は、本発明に係る音声合成装置の一実施形態を示す構成図である。図１３において、音素符号データベース１２ａは、得られた音素符号を、音素符号識別情報と対応付けて記録したものである。音素符号データベース１２ａに格納されている音素符号は、上述の音素符号変換装置により変換され、音素符号記憶部１２に格納されたものと同じである。したがって、上述の音素符号変換装置は、この音素符号データベース１２ａを作成するためのものであるとも言える。また、音素符号データベース１２ａには、各音素符号識別情報と、音節を特定する音節識別情報との対応関係を示した変換テーブルが記録されている。この変換テーブルは、図４に示したものと同じである。合成音声データ記憶手段１３は、音素編集処理手段５０により合成された合成音声データを記憶するものであり、ハードディスク等の記憶装置により実現される。

音素編集処理手段５０は、合成指示データの内容に従って、音素符号データベース１２ａから対応する音素符号を抽出し、所定の加工を施して合成音声データを生成し、所定の出力先に出力する処理を行う。生成された合成音声データは、設定に従って合成音声データ記憶手段１３、音声出力手段６０、印刷手段７０のうち、１つ以上に出力される。音声出力手段６０は、音素編集処理手段５０から受け取った合成音声データを実際の音声として発音するものであり、ＭＩＤＩ音源を備えたＭＩＤＩ再生装置により実現される。印刷手段７０は、音素編集処理手段５０から受け取った合成音声データを五線譜に変換し、印刷するものであり、五線譜への変換は、公知の変換ソフトウェアを実行することにより実現され、印刷機能は、公知のプリンタ等により実現される。図１３に示した音声合成装置は、現実には、入力機器、外部記憶装置を備え、ＭＩＤＩ再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。

音声合成装置に入力される合成指示データは、音節識別情報を所定の順序で配置したものであり、この音節識別情報は、音節を識別することができるものであれば、どのような形式であっても良い。本実施形態では、音節識別情報として、音節に対応する文字コードを記録したテキストデータを用いている。この場合、音素符号データベース１２ａ内の変換テーブルには、音節識別情報に対応する文字コードと音素符号識別情報が対応付けて記録されている必要がある。

続いて、図１３に示した音声合成装置の処理動作について説明する。まず、合成指示データを音声合成装置に入力する。音声合成装置は、合成指示データを読み込むと、音素編集処理手段５０が合成指示データ内を先頭の音節識別情報から順に合成処理していく。具体的には、音素編集処理手段５０は、合成指示データ内の音節識別情報で音素符号データベース１２ａ内の変換テーブルを参照して、音素符号識別情報を取得し、その音素符号識別情報に対応する音素符号を抽出する。

そして、抽出した音素符号が母音音素１つだけである場合は、母音音節であるので、先行する音節のノートオフ時刻の０．２５秒後をノートオン時刻として設定し、その０．２５秒後をノートオフ時刻とし、ノートナンバー、ベロシティは音素符号データベース１２ａに記録されていた値そのものとするＭＩＤＩイベントを作成する。ただし、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータに基づいて適宜上下され、ピッチ変換を行えるようにしてある。

抽出した音素符号が２つであり、それが子音音素と母音音素である場合は、子音音節であるので、先の子音音素符号について、前の音節のノートオフ時刻の０．２５秒後をノートオン時刻として設定し、単位区間の１／４、すなわち０．０６２５秒後をノートオフ時刻とする。そして、後の母音音素符号について、先の子音音素符号のノートオフ時刻をノートオン時刻として設定し、単位区間の３／４、すなわち０．１８７５秒後をノートオフ時刻とする。子音音節の場合も、母音音節の場合と同様、ノートナンバー、ベロシティは音素符号データベース１２ａに記録されていた値そのものとするが、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータを加算することにより適宜上下され、ピッチ変換を実現することができる。また、上記の０．２５秒、０．０６２５秒、０．１８７５秒という時間数値はあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。

音節識別情報が長音を示すものであった場合（音節識別情報を文字コードで記録したときは、“ー”に対応する文字コードであった場合）、その直前の音節識別情報とともに２つの音節識別情報で１つの長音の音節を特定する。例えば、例えば、音節識別情報が“ア”と“ー”が連続した場合、２つの音節識別情報“アー”により、長音の母音音節であると判断する。音節識別情報が“カ”と“ー”が連続した場合、２つの音節識別情報“カー”により、長音の子音音節であると判断する。長音の場合、長音の母音音節と長音の子音音節で若干異なる。長音の母音音節の場合、ノートオン時刻からノートオフ時刻の間隔を０．５秒に増加して設定する。長音の子音音節の場合、先の子音音素符号については、長音でない通常の場合と同様、ノートオン時刻からノートオフ時刻の間隔を０．０６２５秒にして設定し、後の母音音素符号についてノートオン時刻からノートオフ時刻の間隔を０．４３７５秒にして設定する。したがって、長音の場合、音節全体の発音時間は、母音音節、子音音節ともに同じ０．５秒となる。子音音節については、第１音素の発音時間は、長音でない通常の場合と同じ０．０６２５秒であるが、第２音素の発音時間が、長音でない通常の場合と比べて長くなる。尚、上記の０．５秒、０．２５秒、０．４３７５秒、０．５秒、０．０６２５という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。

促音の場合、その直後の音節の第１音素と同じものを、直後の音節の第１音素の直前に加える。第１音素の発音時間は０．０６２５秒であるため、先行する音節の発音終了時刻から０．１８７５秒後に促音のノートオン時刻を設定することになり、促音のノートオフ時刻と、直後の音節の第１音素のノートオン時刻が同一となる。尚、上記の０．０６２５秒、０．１８７５秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。

拗音の場合、直前の子音の第１音素の直後に加える。したがって、直前の子音の第１音素のノートオフ時刻と、拗音のノートオン時刻が同一となるように設定する。拗音の音節の構成自体は子音と同じであるので、拗音の第１音素のノートオフ時刻および第２音素のノートオン時刻は、第１音素のノートオン時刻の０．０６２５秒後であり、拗音の第２音素のノートオフ時刻は、そのノートオン時刻の０．１８７５秒後となる。尚、上記の０．０６２５秒、０．１８７５秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。

音素編集処理手段５０は、読み込んだ合成指示データ内の音節識別情報単位で音素の合成処理を行っていき、処理が終わった音節単位で順に、合成音声データ（ＭＩＤＩデータ）を、音声出力手段６０に渡していく。音声出力手段６０は、音素編集処理手段５０から受け取ったＭＩＤＩデータを順に再生していく。以上のようにして、音声合成装置は、読み込んだ合成指示データに従って音声の再生が可能となる。

五線譜として出力する場合は、合成音声データを印刷手段７０により五線譜データに変換した後、印刷出力する。また、上記の例のように、合成指示データに従って音声合成をリアルタイムで行い、音声再生したり、五線譜出力することも可能であるが、この音声合成装置では、音素編集処理手段５０による処理結果であるＭＩＤＩデータを合成音声データ記憶手段１３に蓄積し、別途このＭＩＤＩデータをＭＩＤＩ再生装置により音声再生するようにしても良い。ＭＩＤＩデータを記憶装置に蓄積する方法としては、ＳＭＦ(Standard MIDI File)形式ファイルを用いると、市販の種々の音楽関係ソフトウェアに渡すことができ、作成されたＭＩＤＩデータからは、市販の楽譜作成ツールを用いて、楽譜を作成することができる。この場合、楽譜は、ＳＭＦ形式に記録されていた音素符号を基にして作成される。そして、作成された楽譜を印刷装置から出力すれば、読みやすい楽譜として、楽器演奏の際に利用することができる。

上述の通り、音素編集処理手段５０は、合成指示データ内の音節識別情報で音素符号データベース１２ａから対応する音素符号を抽出し、ＭＩＤＩイベントを作成する際、そのノートナンバーについては音素符号データベース１２ａに収録されている当該音素符号を構成する各音符のノートナンバーに対して、オプション的に別途ユーザにより指示される音高オフセットパラメータを加算し適宜上下させ、ピッチ変換を行えるようにしてある。この場合は、合成音声データ全体のピッチを上下させるのではなく、母音音素に限定して上下させるようにする。また、合成指示データ内の音節識別情報とともに音高オフセットパラメータを音節ごとに定義すれば、各音節ごとに構成される母音音素のピッチを個別に上下させることもできる。すなわち、あらかじめ作成した旋律の隣接音符間での音高変化（音程情報）を、合成指示データ内の音節識別情報とともに定義される音高オフセットパラメータとして与えれば、歌声合成を実現することができる。

（５．電子透かしへの応用）
本発明に係る音声合成装置は、音楽データに、音声メッセージの形態で著作権者情報など特定の情報を埋め込む技術、“電子透かし”に応用することが可能である。図１４は、本発明に係る音声合成装置の基本構成を利用した電子透かし埋め込み装置を示す図である。図１４において、音素符号データベース１２ａは、図１３に示した音素符号データベース１２ａと同じものであり、音素符号を、音素符号識別情報と対応付けて記録するとともに、各音素符号識別情報と、音節識別情報との対応関係を示した変換テーブルを記録したものである。埋め込み処理手段５１は、ＳＭＦ形式等により記述されたデジタルデータである音楽コンテンツに、メッセージテキスト（合成指示データ）で特定されるメッセージを埋め込む。具体的には、埋め込み処理手段５１は、図１３に示した音素編集処理手段５０の機能を備え、メッセージテキスト（合成指示データ）の内容を各音節識別情報に分離し、更に前記変換テーブルを参照しながら各音節識別情報を対応する音素符号識別情報に変換し、音素符号データベース１２ａから前記変換された音素符号識別情報に対応する音素符号を抽出し、所定の加工を施して合成音声を生成する。そして、出力する音楽コンテンツが複数トラックであり、メッセージ用の専用トラックが存在する場合は、その専用トラックに合成音声を埋め込んで単一のＭＩＤＩ形式の音楽データとして音響出力手段６１に出力する。音楽コンテンツに専用トラックが存在しない場合には、音楽コンテンツの無音部分に、合成音声を格納して音響出力手段６１に出力する。

音響出力手段６１は、図１３に示した音声出力手段６０と実質的には同じものであり、埋め込み処理手段５１から受け取った音響データを実際の音として発音するものである。図１４に示した電子透かし埋め込み装置では、メッセージテキストの埋め込みをリアルタイムで行い、音響出力するようにしたが、埋め込み処理手段５１による処理結果であるＳＭＦ形式等でＭＩＤＩデータを記憶装置に蓄積し、ネットワーク等で別途このＭＩＤＩデータを配信し、受信者側のＭＩＤＩ再生装置により音響出力する形態をとることもできる。図１４に示した電子透かし埋め込み装置は、現実には、外部記憶装置を備え、ＭＩＤＩ再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。

音響出力の際、埋め込まれたメッセージテキストが音楽コンテンツと合成されて音声メッセージとして出力される可聴な電子透かしとして運用する方法と、埋め込まれたメッセージテキストに対応するＭＩＤＩデータのチャンネルボリュームを最小に設定するか、１２７の固定値に設定されている全てのＭＩＤＩイベントのベロシティ値を０に変更する方法により、音楽コンテンツ以外の音声メッセージは再生されない不可聴な電子透かしとして運用する方法もとれる。例えば、一般ユーザにサンプルとして試聴版配布する場合は、可聴な電子透かしを埋め込んで配布し、正規購入された製品版配布する場合は、不可聴な電子透かしを埋め込んで配布する。不可聴な電子透かしが埋め込まれた音楽コンテンツが正規購入品か否かを音楽コンテンツ事業者側で判断する場合、上記の逆の操作、即ち、ＭＩＤＩデータのチャンネルボリュームを最大値に変更するか、０に設定されている全てのＭＩＤＩイベントのベロシティ値を１２７に変更するような前処理を行うことにより可聴な形態で埋め込まれた状態に変更して、以下電子透かし抽出装置を適用すればよい。

続いて、ＭＩＤＩデータに前述の可聴な形態で埋め込まれた電子透かしを抽出する電子透かし抽出装置について述べる。電子透かし抽出装置は、マイクロフォン等の音響信号取得機器、上記音素符号データベース１２ａを備えるとともに、電子透かし抽出のための専用のプログラムを組み込んだコンピュータにより実現される。電子透かし抽出装置に組み込まれた専用プログラムは、コンピュータを、周波数解析手段、音素符号識別情報復号化手段として機能させる。周波数解析手段、音素符号識別情報復号化手段の具体的内容は、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている手順により実現可能である。電子透かし抽出装置は、音響出力手段６１より空間に送出された音響信号に対して電子透かし抽出装置に接続されたマイクロフォンなどを通じて部分的に録音を行い、録音されたＰＣＭデータに対して周波数解析手段が周波数解析を行い、和音データを抽出する。具体的には、特許第４０３７５４２号や、特許第４１３２３６２号等に開示されている公知の技術を用いて時系列の３２個の符号コード群へ変換する。続いて、音素符号識別情報復号化手段が、抽出された和音データを音素符号データベース１２ａと照合し、類似した和音データをもつ音素符号を抽出し、音素符号識別情報を復号化する。具体的には、音素符号データベース１２ａに収録されている符号コード群と順次照合し、適合する音素符号を順次抽出することにより、図１４のメッセージテキスト（合成指示データ）を復元する。

本発明は、イベントや余興目的に行われる人間の音声再生を模倣した音楽作品制作・作曲の支援産業に利用することができる。また、エンターテインメント分野において、電子楽器を主体とした玩具（ロボット、ぬいぐるみを含む）、玩具型のアコースティック楽器（室内装飾用のミニチュアピアノ）、オルゴール、携帯電話の着信メロディ等の音階再生媒体に対して音声合成機能を付加する産業に利用することができる。また、ＳＭＦ（ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）等によるＭＩＤＩ音楽コンテンツ配布時における著作権保護等の産業に利用することができる。

１０・・・記憶手段
１１・・・音節符号記憶部
１２・・・音素符号記憶部
１２ａ・・・音素符号データベース
１３・・・合成音声データ記憶手段
２０・・・処理制御手段
２１・・・音高別エネルギー算出手段
２２・・・音高別エネルギー統合手段
２３・・・符号変換手段
３０・・・符号表示手段
５０・・・音素編集処理手段
５１・・・埋め込み処理手段
６０・・・音声出力手段
６１・・・音響出力手段
７０・・・印刷手段

Claims

１つの音節を複数の符号コードで表現した音節符号を読み込む音節符号読込手段と、
前記読み込まれた音節符号を構成する符号コード群について、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出する音高別エネルギー算出手段と、
複数の音節符号間で、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出する音高別エネルギー統合手段と、
前記統合エネルギー値が高い上位の音高を所定の個数だけ抽出し、抽出された各音高に対応する符号コードに、所定の強さ、所定の発音開始時刻、所定の発音終了時刻のパラメータを設定し、複数の符号コードで構成される音素符号に変換する符号変換手段と、
を有することを特徴とする音素符号変換装置。
請求項１において、
前記音高別エネルギー統合手段は、日本語カナ文字の「ア」「イ」「ウ」「エ」「オ」に対応する５種の「カ」「キ」「ク」「ケ」「コ」などの複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
前記符号変換手段は、「Ｋ」などの共通する子音音素の音素符号に変換することを特徴とする音素符号変換装置。
請求項１または請求項２において、
前記音高別エネルギー統合手段は、日本語カナ文字の「ア」に対応する複数個の「カ」「サ」「タ」「ナ」「ハ」「マ」などの複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
前記符号変換手段は、「Ａ」などの共通する母音音素の音素符号に変換することを特徴とする音素符号変換装置。
請求項１から請求項３のいずれか一項に記載の音素符号変換装置により作成され、日本語カナ文字の各音節を構成する音素に対応して、所定の種類以下の音高を同時にもち、音の強さおよび音の長さが均一の複数の符号コードで構成される音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースと、
与えられた合成指示データに記載されている音節識別情報をもとに音素符号識別情報に変換し、対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定することにより合成音声データを生成する音素編集処理手段と、
を有することを特徴とする音声合成装置。
請求項４において、
前記音素編集処理手段により生成された合成音声データを音声として出力する音声出力手段をさらに有することを特徴とする音声合成装置。
請求項４または請求項５において、
前記音素編集処理手段により生成された合成音声データを五線譜に変換し、印刷する印刷手段をさらに有することを特徴とする音声合成装置。
請求項４から請求項６のいずれか一項において、
前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が母音音節で、日本語カナ文字の長音であるとき、その音節全体の発音時間を、所定の値だけ増加させることを特徴とする音声合成装置。
請求項４から請求項７のいずれか一項において、
前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が、日本語カナ文字の促音であるとき、当該促音の直後に配置される音節に対応する第１の音素と同一の音素を、当該第１の音素の直前に配置して、各音素の発音の開始を特定する時刻、発音の終了を特定する時刻を設定することを特徴とする音声合成装置。
請求項４から請求項８のいずれか一項において、
前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が、日本語カナ文字の「ヤ」「ユ」「ヨ」の拗音であるとき、前記拗音の直前の音節については、第１の音素のみを設定し、当該第１の音素の直後に、前記拗音に対応する「ヤ」「ユ」「ヨ」いずれかの音節に対応する２つの音素を配置して、各音素の発音の開始を特定する時刻、発音の終了を特定する時刻を設定することを特徴とする音声合成装置。
請求項４から請求項９のいずれか一項において、
前記音素編集処理手段が、前記音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、前記無音区間に対して、設定された時間伸縮率を乗算し、前記発音の開始および終了を特定する時刻に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
請求項４から請求項１０のいずれか一項において、
前記音素編集処理手段が、前記音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、設定された音高オフセットパラメータに基づいて、前記音素符号データベースに記録されている前記音素符号が母音の場合、当該音素符号を構成する各符号コードの音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての母音音素に対応する符号コードの音高に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
請求項１１において、
前記合成指示データには各音節ごとに音節識別情報とともに前記音高オフセットパラメータが定義されており、前記音素編集処理手段が、与えられた音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、前記各音節ごとに定義された音高オフセットパラメータに基づいて、前記音素符号データベースに記録されている前記音素符号が母音の場合、当該音素符号を構成する各符号コードの音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての母音音素に対応する符号コードの音高に対して、改変を施すようにしていることを特徴とする音声合成装置。
請求項１から請求項３のいずれか一項に記載の音素符号変換装置としてコンピュータを機能させるためのプログラム。
請求項４から請求項１２のいずれか一項に記載の音声合成装置としてコンピュータを機能させるためのプログラム。