JP5471138B2 - 音素符号変換装置および音声合成装置 - Google Patents

音素符号変換装置および音声合成装置 Download PDF

Info

Publication number
JP5471138B2
JP5471138B2 JP2009183417A JP2009183417A JP5471138B2 JP 5471138 B2 JP5471138 B2 JP 5471138B2 JP 2009183417 A JP2009183417 A JP 2009183417A JP 2009183417 A JP2009183417 A JP 2009183417A JP 5471138 B2 JP5471138 B2 JP 5471138B2
Authority
JP
Japan
Prior art keywords
phoneme
code
syllable
pitch
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009183417A
Other languages
English (en)
Other versions
JP2011039088A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2009183417A priority Critical patent/JP5471138B2/ja
Publication of JP2011039088A publication Critical patent/JP2011039088A/ja
Application granted granted Critical
Publication of JP5471138B2 publication Critical patent/JP5471138B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は人間の声を基にして、電子楽器、楽譜等で利用可能な符号データを得るための技術に関する。
従来、人間の声を擬似的に合成する手法は、種々の分野で利用されている。出願人は、人間の声をPCMでデジタル化した後、フーリエ変換を用い、実効強度の大きい周波数に対応する符号コードを取得することにより音声合成を行う技術を提案している(特許文献1参照)。
また、出願人は、玩具などに搭載されている性能の低いMIDI音源でも再生可能とし、既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読性のある譜面が得られるようにするために、各音節ごとの符号コード群を簡素な符号コード群に変換する技術を提案している(特許文献2参照)。尚、特許文献1および特許文献2に記載の「音素」という用語は、全て本願記載の「音節」に対応するため、以下本願で前記文献を引用する際はそのように読み替えて説明する。さらに、出願人は、音節符号に共通の音高成分を有する音素符号に変換することにより、音節符号より少ない数の音素符号で、全ての音節を表現する技術を提案している(特許文献3参照)。
特開平11−95798号公報 特願2009−41165号 特願2009−143825号
上記特許文献1に記載の技術では、人間の音声を構成する各音節ごとにMIDIデータ形式で符号化された符号コード群は、電子楽器による自動演奏で音声を再生することを前提としているため、発音タイミングやベロシティ制御が煩雑で、玩具などに搭載されている性能の低いMIDI音源では再生できなかった。また、前記符号コード群を既存の楽譜編集ツールに読み込ませて五線譜に変換すると、判読不能な譜面になってしまい、人間による楽器演奏で前記符号コード群を再生することは困難であった。
上記特許文献2に記載の技術では、母音以外の全ての音節を2連和音で簡略化したMIDIデータで統一的に表現しているが、MIDI音源で種々の楽器音色を設定して再生しても音声の明瞭性に欠けるという問題がある。音声が不明瞭である原因としては、音節を構成する各音素が適切に符号化されていなかったことが挙げられる。母音以外の全ての音節は子音音素と母音音素で構成されるため、2連の和音で簡略化する方法をとること自体は妥当であるが、構成する2つの和音は子音音素と母音音素に対応していなかった。その理由は、日本語音節71音を録音した波形データ一式を高精細なMIDIデータに変換し、変換されたMIDIデータに対して、2箇所の音素区間に対応する位置を作業者が画面上で指示する方法をとっていたためで、子音音素と母音音素は時間的に連続して遷移するため、点による時刻指定で単純に分離できるものではなく、かつ作業者の負荷を伴うという問題がある。
また、上記特許文献2に記載の技術では、子音音節より母音音素成分の分離精度が悪いため、音高(ピッチ)を上下させるとき、本来は母音音素成分だけ上下させれば良いところ、子音音素成分も上下させる必要が生じており、母音音素成分だけの長さを伸ばして長音にすると不自然になるという問題も生じている。
また、上記特許文献3に記載の技術では、音節71音の符号データを利用して、複数の音節を構成する符号データ同士を掛け合わせることにより、日本語音素20音に対応する音素MIDIデータを抽出しているが、これを実現するにあたり、各母音音素を抽出するために用いた13音節の音高(ピッチ)および各子音音素を抽出するために用いた5音節の音高(ピッチ)は均一である必要があった。そのためには、絶対音感をもつ声楽家などプロの話者に発声してもらう必要があるが、それでも数半音程度のバラツキが生じる場合があり、1半音でもズレが発生すると、掛け合わせ精度に大きく影響するという問題があった。
そこで、本発明は、五線譜に自動変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データ(MIDIデータ等)を基本として音声合成機能を実現する場合において、各話者の声質に依存しない音素符号を得ることが可能であるとともに、音声再生品質の明瞭性を改善することが可能な音素符号変換装置、音素符号データベース、および音声合成装置を提供することを課題とする。
上記課題を解決するため、本発明では、1つの音節を複数の符号コードで表現した音節符号を読み込む音節符号読込手段と、前記読み込まれた音節符号を構成する符号コード群について、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出する音高別エネルギー算出手段と、複数の音節符号間で、一方の音節符号の音高に対応するエネルギー総和値と前記音高に所定の正または負の数値で与えられる音高補正値を加算した音高に対応する他方の音節符号のエネルギー総和値を乗算しながら、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出する音高別エネルギー統合手段と、前記統合エネルギー値が高い上位の音高を所定の個数だけ抽出し、抽出された各音高に対応する符号コードに、所定の強さ、所定の発音開始時刻、所定の発音終了時刻のパラメータを設定し、複数の符号コードで構成される音素符号に変換する符号変換手段を有する音素符号変換装置を提供する。
本発明の音素符号変換装置によれば、符号コード群として構成される音節符号を読み込み、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出し、複数の音節符号間で、両者の音高を合わせるように、一方の音節符号の音高を補正しながら、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出し、統合エネルギー値が高い上位の音高を抽出するようにしたので、実際に人間が発音することにより得られた音節符号を利用して、より少ない数で全ての音節を表現可能な音素符号を得ることができるとともに、音高が異なる複数の話者の音節符号を基に、1つの音素符号を作成することが可能となり、話者に依存しない音素符号が得られる。
また、本発明では、前記音素符号変換装置により作成され、複数の話者が発声した日本語カナ文字の各音節に共通して含まれる音素に対応して、所定の種類以下の音高を同時にもち、音の強さおよび音の長さが均一の複数の符号コードで構成される音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースと、与えられた合成指示データに記載されている音節識別情報をもとに音素符号識別情報に変換し、対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定することにより合成音声データを生成する音素編集処理手段を有する音声合成装置を提供する。
本発明の音声合成装置によれば、複数の話者が発声した日本語カナ文字の各音節に共通して含まれる音素を音素符号として記録した音素符号データベースを有し、与えられた合成指示データに記載されている音節情報をもとに、対応する音素符号を音素符号データベースから抽出し、音節情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定するようにしたので、音声合成を行うことにより作成される符号コード群は玩具などに搭載されている性能の低いMIDI音源で再生可能であるとともに、既存の楽譜編集ツールにより演奏者が楽器演奏で再生可能な判読性のある五線譜に変換することが可能となり、さらに、各話者の声質に依存しない音節を表現することが可能となる。
本発明によれば、五線譜に自動変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データ(MIDIデータ等)を基本として音声合成機能を実現する場合において、各話者の声質に依存しない音素符号を得ることが可能であるとともに、音声再生品質の明瞭性を改善することを可能とするという効果を奏する。
本発明における音声合成の基本概念を示す図である。 本発明における音声合成の基本概念を示す図である。 本発明に係る音素符号変換装置の一実施形態を示す構成図である。 音節と音素の対応関係を記録した変換テーブルを示す図である。 音節符号から音素符号へ変換する際における符号コード群の変化の様子を示す図である。 音節符号と、音素符号の構成例を示す図である。 音素符号記憶部12に格納された男声の音素符号の例を示す図である。 音素符号記憶部12に格納された男声の音素符号の例を示す図である。 音素符号記憶部12に格納された女声の音素符号の例を示す図である。 音素符号記憶部12に格納された女声の音素符号の例を示す図である。 音素符号記憶部12に格納された男女混合の音素符号の例を示す図である。 音素符号記憶部12に格納された男女混合の音素符号の例を示す図である。 本発明に係る音声合成装置の一実施形態を示す構成図である。 音節識別情報を男声の音素符号によりを五線譜化した例を示す図である。 音節識別情報を女声の音素符号によりを五線譜化した例を示す図である。 音節識別情報を男女混合の音素符号によりを五線譜化した例を示す図である。 本発明に係る電子透かし埋め込み装置の一実施形態を示す構成図である。
(1.本発明の基本概念)
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。最初に、本発明の基本概念について説明する。日本語の母音は、2つの特徴的な音声フォルマント成分を含む4つ以上の重音による和音で近似できることが知られている。子音は母音成分に加えて、摩擦音など雑音を表現する和音と母音への経過音を表現する和音の3種の連結された和音が理論上必要であるが、経過音は人間の聴覚上の補間現象(音脈分凝)に委ねれば、最初の雑音と母音の2つの和音に近似できる。そこで、出願人は、日本語の母音は単一の4和音、子音は2連の4和音を基本にして全音素を表現し、これらを時間軸上につなぎ合わせれば音声合成を実現できると考え、特許文献2において、これを提案した。
しかしながら、上述のように、様々な要因により、MIDI音源で種々の楽器音色を設定して再生しても音声の明瞭性に欠けるという問題があった。本発明では、母音、子音等の音節の構成を上記特許文献2とは根本的に異なるものとした。具体的には、71音節それぞれ固有の音節符号とするのではなく、日本語5母音と15子音に対応する20の音素符号より1つまたは2つの音素符号を選択し組み合わせることにより、71音節を表現することとした。
まず、母音音節と子音音節の違いについて説明する。本実施形態では、母音音節は第1音素だけの単独音素とする。子音音節は第1音素と第2音素の2音素構成で第1音素は第2音素に比べ短めにする。なお、本実施形態では、母音音節の第1音素、子音音節の第1音素、第2音素は、いずれも8和音となっている。
子音音節の第1音素は、「K、S、T、N、H、M、R、G、Z、D、B、P、Y、W」の14音素のいずれか1つが選択され、子音音節第2音素の、母音音節の第1音素は、「A、I、U、E、O、n」の6音素のいずれか1つが選択される。子音音節には、濁音(「バ」など)、半濁音(「パ」など)を含み、撥音(はつおん「ン」)は第1音素は音素「N」、第2音素は音素「n」とする。
本発明では、上述のような構成の子音音節と母音音節を用いて、音声の特徴に応じてさらに多種の態様で合成することを特徴とする。音声の特徴に応じた合成態様の分類については、様々なものが考えられるが、本実施形態では、母音、子音(濁音、半濁音、撥音含む)、長音の母音、長音の子音、促音、拗音の6通りに分類している。
図1、図2は、本実施形態における音声合成の基本概念を示す図である。図1(a)〜(d)、図2(a)(b)は、上記各分類に対応したものとなっている。図1、図2において、各矩形は、音節または音素を示しており、矩形と矩形の間の空白は無音部分を示している。また、左右方向は時間軸であり、矩形の横幅は、音節の発音時間に対応している。音節の発音時間は、基本的な母音、子音の発音時間を単位区間として設定し、他の分類の音節についても、この単位区間を基準にして定められている。単位区間の具体的な長さは適宜設定することが可能であるが、本実施形態では0.25秒としている。また、詳しくは後述するが、本実施形態では、音節は、2つのパターンで符号化され、1つの音素で構成される音節と、2つの連続する音素(以下、2連音素という)で構成される音節がある。
図1(a)は、母音の場合の合成パターンを示す例である。母音の場合、音節は1つの音素(第1音素)で構成される。図1(a)に示すように、第1音素を単位区間分発音した後、単位区間分無音とし、その後、他の音節が続く。図1(b)は、子音の場合の合成パターンを示す例である。子音の場合、音節は第1音素と第2音素の2つの音素で構成される。図1(b)に示すように、単位区間の1/4だけ第1音素を発音し、続いて、単位区間の3/4だけ第2音素を発音する。すなわち、第1音素の発音終了と同時に第2音素の発音を開始し、第1音素の発音開始から第2音素の発音終了までがちょうど単位区間となる。その後、単位区間分無音とし、その後、他の音節が続く。
図1(c)は、長音の母音の場合の合成パターンを示す例である。長音の母音の場合、1つの音素で構成されるが、図1(c)に示すように、通常の母音に比べ、単位区間分発音時間を延ばす。すなわち、第1音素を2単位区間分発音する。その後、単位区間分無音とし、その後、他の音節が続く。図1(d)は、長音の子音の場合の合成パターンを示す例である。長音の子音の場合、2つの音素で構成されるが、図1(d)に示すように、通常の子音に比べ、第2音素の発音時間を単位区間分だけ延ばす。第1音素の発音時間は、通常の子音の場合と同じく、単位区間の1/4である。すなわち、第1音素の発音終了と同時に第2音素の発音を開始し、第1音素の発音開始から第2音素の発音終了までが2単位区間分となる。その後、単位区間分無音とし、その後、他の音節が続く。
図2(a)は、促音の場合の合成パターンを示す例である。促音の場合、図2(a)に示すように、後続音節である子音の第1音素を、後続音節の直前に発音する。例えば、“ッタ”における“ッ”を合成する場合、後続音節“タ”の第1音素を、“タ”の第1音素の直前に配置する。このとき、促音の発音開始は、先行音素の発音終了から単位区間の3/4だけ経過した時点とする。すなわち、先行音素の発音終了から単位区間の3/4だけ経過した時点から、後続音節の第1音素が単位区間の1/4だけ2回繰り返して発音され、その後、後続音節の第2音素が単位区間の3/4だけ発音されることになる。
図2(b)は、拗音の場合の合成パターンを示す例である。拗音の場合、図2(b)に示すように、直前の子音音節を第1音素のみとする。そして、直前の子音音節の第1音素の発音終了時刻を、拗音に対応する子音の発音開始時刻として、その拗音に対応する子音の第1音素と第2音素を連続して発音する。例えば、“キャ”における“ャ”を合成する場合、先行音節“キ”の第1音素の直後に、拗音“ャ”に対応する子音“ヤ”の第1音素を配置する。このとき、直前の子音音節の第1音素の発音時間は単位区間の1/4とし、拗音に対応する子音の発音時間は、通常の子音の場合と同様、第1音素が単位区間の1/4、第2音素が単位区間の3/4となる。
図1(a)〜図1(d)、図2(b)においては、先行音節を省略し、図2(a)、(b)においては、後続音節を省略したが、基本的に全ての音素の間には単位区間分の無音区間が設定される。この単位区間の具体的長さは前述の通り0.25秒を標準として設定しているが、適宜変更可能である。また、図1、2に示したものは、基本様式であるため、各音節における各音素の発音時間の比率、発音時間や無音時間の長さは適宜変更することが可能である。例えば、隣接音節との間隔を変動させれば話速を変更できる。ここまでは、特許文献3に示した概念と同じである。
本発明では、さらに、話者の声質に依存しない音素符号を得るために、複数の話者が発した音節を録音して得られる音節符号を基に、音素符号に変換するようにしている。音節符号から音素符号への変換は、複数の音節符号の同一周波数成分(同一音高)を乗算し、その乗算値を利用して行なうが、この際、各音節を1づつ相乗平均をとりながら順次乗算する。乗算の際、音高(ピッチ)補正を行い、低い方の音高に合わせるようにする。音高補正は、新たに乗算する音高成分を半音単位に所定の周波数範囲でシフトさせながら、各音高成分ごとに乗算した値の総和が最大になるシフト値を補正値とすることにより行う。この際、男声と女声を混在させる場合は、1オクターブ強の範囲上下させるように周波数範囲を大きく設定する。
(2.前準備)
次に、従来技術を利用した前準備について説明する。前準備として、人間の声を各音節ごとに符号化する処理を行う。これは、特許文献1に示されている音素の符号化処理に相当する。ただし、特許文献1に示されている符号化処理では、1つの単位区間において、4、8、16個の符号コードを定義しているが、本実施形態では、より多くの符号コードを定義する点で異なっている。具体的には、本実施形態では、ノートナンバーに対応した32個の符号コードを定義し、符号化を行う。なお、特許文献1における「音素」という語と、本発明における「音素」という語は異なっており、特許文献1における「音素」は、本発明における「音節」に相当する。
符号化処理としては、まず最初に、人間の声を音節単位でデジタル化する。これは、特許文献1に示したのと同様に、各音節を人間が実際に発声し、これを録音したものをPCM等の手法により行う。このとき、複数の話者が、それぞれ71の音節に対してできる限り、音高(ピッチ)と発声区間を揃えて、発声することが望まれる。そして、男性、女性それぞれを含む複数の話者により複数のセットの71音節の録音信号を収集する。続いて、各音節のデジタルデータを128個の符号コード群に変換する。この変換は、概略的には特許文献1に示したものと同様である。したがって、各符号コードは、音の高さ、音の強さ、発音開始時刻、発音終了時刻(本実施形態では、符号コードとしてMIDIを採用するので、ノートナンバー、ベロシティ、ノートオン時刻、ノートオフ時刻)で構成される。しかし、上述のように、本実施形態では、特許文献1のように4〜16個程度ではなく、全てのノートナンバーに対応した128個の符号コード群に変換する。PCMデータから、32個の符号コード群への変換の具体的手法は、特許第4037542号や、特許第4132362号等に開示されている公知の技術を利用する。このようにして、各音節ごとの符号コード群を音節符号として、各話者ごとに音節データベースに記録する。本実施形態では、音節データベースに記録される音節は、各話者ごとに、いわゆる五十音に加え、撥音、濁音、半濁音を含む計71音である。
(3.音素符号への変換)
次に、音節符号から音素符号への変換について説明する。図3は、本発明に係る音素符号変換装置の一実施形態を示す構成図である。記憶手段10は、音節符号記憶部11、音素符号記憶部12を有しており、コンピュータに接続されたハードディスク等の外部記憶装置により実現される。音節符号記憶部11には、音節符号が、音節を特定する音節識別情報、男声、女声の別を示す性別情報と対応付けて記憶されている。音節符号記憶部11には、男女含めた複数人それぞれにより発声された音節符号が記憶されているため、同一の音節に対応する音節符号が複数存在する。そのため、男声、女声の別を示す属性情報により、男声の音節符号と、女声の音節符号を特定可能にしてある。また、音節と音素の対応関係を示した変換テーブルが記憶されている。音節符号記憶部11に格納されている音節符号は、上述の前準備により符号化され、音節データベースに記録されたものと同じである。
処理制御手段20は、音素符号変換装置全体の処理を統括するものであり、音高別エネルギー算出手段21、音高別エネルギー統合手段22、符号変換手段23を有している。処理制御手段20は、CPU、メモリを含むコンピュータ本体であり、音高別エネルギー算出手段21、音高別エネルギー統合手段22、符号変換手段23は、専用のプログラムをCPUが実行することにより実現される。符号表示手段30は、処理制御手段20に読み込まれた音節符号、変換により得られる音素符号を表示するものであり、液晶ディスプレイ等の表示装置により実現される。
次に、図3に示した音素符号変換装置の処理動作について説明する。音素符号変換装置は、71個の音節に話者の人数Nを乗じた数で構成される音節符号を基に、20個の音素符号に変換するものである。ここで、音節と音素の対応関係を示した変換テーブルを図4に示す。図4において、カタカナで示す「ア」「イ」・・・の71音は音節であり、アルファベットで示す「A」「I」は音素である。母音音素「A」・・・「O」は水平方向の13音節のAND演算で決定され、子音音素「K」・・・「P」は垂直方向の5音節のAND演算で決定される。図4に示した横長の枠は、母音音素「A」が13個の音節「ア」・・・「パ」で決定されることを示しており、縦長の枠は、子音音素「K」が5個の音節「カ」・・・「コ」で決定されることを示している。なお、子音音素「Y」は3個の音節「ヤ」「ユ」「ヨ」で決定され、子音音素「W」は2個の音節「ワ」「ヲ」で決定され、音素「n」は1個の音節「ン」で決定される。実際には、各音節符号が話者の人数N個存在するため、各音素符号はさらにN倍の個数の音節符号を用いて決定される。
音素符号変換装置が起動されると、処理制御手段20は、図4に示した変換テーブルを参照し、関連する複数の音節符号を読み込む。例えば、音素符号「K」を得るために、音節符号記憶部11から各話者について「カ」「キ」「ク」「ケ」「コ」の5個、話者がN人の場合、計5N個の音節符号を読み込む。複数人の話者としては、話者識別情報を音節符号に対応付けて音節符号記憶部11に記憶しておくことにより、個別の話者を指定して音節符号を読み込むようにしても良いし、男声、女声の別を示す属性情報を指定して、属性情報に対応する音節符号を全て読み込むようにしても良い。例えば、男女の別に依存しない音素符号を作成する場合には、男声の音節符号、女声の音節符号を読み込むように指定することになるし、特定の個人には依存しない男声の音節符号を作成する場合には、複数の男声の音節符号を読み込むように指定することになるし、特定の個人には依存しない女声の音節符号を作成する場合には、複数の女声の音節符号を読み込むように指定することになる。
処理制御手段20が、5N個の音節符号(音素符号「K」の場合)を読み込んだら、音高別エネルギー算出手段21は、各音節符号単位で、構成する全ての符号コードを対象にして、音高(MIDIの場合、ノートナンバー)別に、エネルギー総和値を算出する。エネルギー総和値は、各音高における音の強度(MIDIの場合、ベロシティ)×発音時間(MIDIの場合、デュレーション:ノートオフ時刻−ノートオン時刻)により算出する。ここで、エネルギー総和値の“総和”とは、1つの音節符号内において、同一音高で2つ以上の符号コードが存在する場合、各符号コードについて総和をとることを意味している。
各符号単位で、全音高についてエネルギー総和値が算出されたら、次に、音高別エネルギー統合手段22が、5N個の音節符号間で、同一の音高別にエネルギー総和値を乗算し、統合エネルギー値を得る。乗算であるため、5N個の音節符号のうち、いずれか1つの音節符号に存在しない音高成分については、“0”となる。したがって、統合エネルギー値を求めることにより、5N個の音節符号に共通の成分のみが残ることになる。例えば、音素符号「K」を構成する音高成分は、全ての話者の音節符号「カ」「キ」「ク」「ケ」「コ」に共通に含まれている音高成分でなければならない。
音高別エネルギー統合手段22による統合エネルギー値算出の詳細を説明する。上述のように、音素符号「K」を得る場合、5N個の音節符号間で、対応する音高別にエネルギー総和値を乗算する。この際、後述するように、音節符号間の相関を考慮し、音高補正を行いながら乗算を行うため、どの話者のどの音節符号から乗じるかにより算出される統合エネルギー値が異なってくる。しかし、本実施形態では、特に順序を限定せず、5N個の音節符号のうち、いずれかの話者のいずれかの音節符号を任意に選択し、乗算を行なう。例えば、男性話者と女性話者の2人の発声による音節符号「カ」「キ」「ク」「ケ」「コ」から音素符号「K」を得る場合、どちらの話者のどの音節符号から乗算処理を行なっても良い。この場合、計10個の音節符号をそれぞれ音節O1〜音節O10として設定し、音節1から順に処理を行なう。
具体的には、R個(音素「K」の場合R=5N、音素「A」の場合R=13N)の音節O1〜ORの中で、ノートナンバーnに対応する音節O1のエネルギー総和値E1(n)と、音節O2のエネルギー総和値E2(n)を乗算する場合、ノートナンバーnのシフト値をh(−H≦h≦H,H≧0)として、音高別エネルギー統合手段22は、以下の〔数式1〕に従った処理を実行することにより、乗算値e1,2(n,n+h)を算出する。統合対象とされる音節が全て男声の場合か、全て女声の場合は、上下の最大シフト幅Hをそれほど大きくする必要はないが、男声と女声を混在させる場合は、最大シフト幅Hを1オクターブに相当する“12”よりやや大き目に設定する。上下の最大シフト幅Hの値は適宜設定可能であるが、本実施形態ではH=20としている。
〔数式1〕
1,2(n,n+h)=E1(n)・E2(n+h)
上記〔数式1〕に示すように、乗算値e1,2(n,n+h)は、音節O1については、ノートナンバーnのエネルギー総和値E1(n)を用い、音節O2については、ノートナンバーnにhだけ加算したノートナンバー(n+h)のエネルギー総和値E2(n+h)を用いる。
上記〔数式1〕において、ノートナンバーnの範囲は、ノートナンバーの下限値“0” に対して最大シフト幅Hだけ上方にオフセットさせたノートナンバーHから、ノートナンバーの上限値127に対して最大シフト幅Hだけ下方にオフセットさせたノートナンバー(127−H)までとする。したがって、音高別エネルギー統合手段22は、上記〔数式1〕に従った処理を(128−2H)回実行し、各ノートナンバーnに対応する乗算値e1,2(n,n+h)を得る。本実施形態では、各音節符号は、選別された32個の符号コード群で構成されており、選別されなかったノートナンバーに対応する符号コードの音の強度は“0”である。したがって、音高別エネルギー統合手段22が、〔数式1〕に従った処理を(128−2H)回実行することにより、(128−2H)個の乗算値e1,2(n,n+h)が得られるが、その値が“0”となるものが相当な数存在することになる。
(128−2H)個の乗算値e1,2(n,n+h)が得られたら、音高別エネルギー統合手段22は、以下の〔数式2〕に従った処理を実行することにより、n=H〜127−Hまでの(128−2H)個の乗算値e1,2(n,n+h)の総和値S2(h)を算出する。
〔数式2〕
2(h)=Σn=H,127-H1,2(n,n+h)
音高別エネルギー統合手段22は、上記シフト値hを−H〜Hの範囲で、変化させながら、上記〔数式1〕〔数式2〕に従った処理を実行し、(2H+1)個の総和値S2(h)を得る。そして、(2H+1)個の総和値S2(h)の中で最大となる総和値S2(h)におけるシフト値hを音高補正値hM,2とする。音高別エネルギー統合手段22は、得られた音高補正値hM,2を用いて、以下の〔数式3〕に従った処理を実行することにより、エネルギー総和値E1(n)とエネルギー総和値E2(n)の統合エネルギー値E1,2(n)を算出する。統合エネルギー値E1,2(n)は、エネルギー総和値E1(n)とエネルギー総和値E2(n)の乗算値が反映されたものであれば良い。本実施形態では、以下の〔数式3〕に示すように、エネルギー総和値E1(n)とエネルギー総和値E2(n)の相乗平均としている。
〔数式3〕
M,2≧0のとき、E1,2(n)={e1,2(n,n+hM,2)}1/2
M,2<0のとき、E1,2(n)={e1,2(n−hM,2,n)}1/2
上記〔数式3〕に示すように、音高補正値hM,2が正の値のときは、音節O1の方が全体として音高が低いことになるので、音高が低い音節O1のノートナンバーnを基準として、エネルギー総和値E1(n)と音高が高い音節O2のエネルギー総和値E2(n+hM,2)の乗算により統合エネルギー値を求める。また、音高補正値hM,2が負の値のときは、音節O1の方が全体として音高が高いことになるので、音高が低い音節O2のノートナンバーnを基準として、音高が高い音節O1のエネルギー総和値E1(n−hM,2)と音高が高い音節O2のエネルギー総和値E2(n)の乗算により統合エネルギー値を求める。H≦n≦(127−H)であるため、音高別エネルギー統合手段22が、上記〔数式3〕に従った処理を実行した結果、(128−2H)個の統合エネルギー値E1,2(n)が得られることになる。
1,2(n)は、音節O1のエネルギー総和値E1(n)と、音節O2のエネルギー総和値E2(n)の統合エネルギー値であるが、音高別エネルギー統合手段22は、得られた統合エネルギー値に他の音節Orのエネルギー総和値Er(n)を乗算する処理を順次行っていくことにより、最終的にR個の音節O1〜ORの統合エネルギー値を得る。具体的には、音高別エネルギー統合手段22は、以下の〔数式4〕〔数式5〕に従った処理を順次各音節Orに対して実行していく。まず、音高別エネルギー統合手段22は、r個の音節O1〜Orの統合エネルギー値E1,r(n)のr乗に、音節Or+1のエネルギー総和値Er+1(n)を乗算して乗算値を算出する。
〔数式4〕
1,r+1(n,n+h)={E1,r(n)}r・Er+1(n+h)
上記〔数式4〕は、上記〔数式1〕を一般化したものであり、r=1とすると上記〔数式1〕と同一になる。したがって、音高別エネルギー統合手段22は、上記〔数式4〕に従った処理を(128−2H)回実行し、各ノートナンバーnに対応する乗算値e1,r+1(n,n+h)を得る。
(128−2H)個の乗算値e1,r+1(n,n+h)が得られたら、音高別エネルギー統合手段22は、以下の〔数式5〕に従った処理を実行することにより、n=H〜127−Hまでの(128−2H)個の乗算値e1,2(n,n+h)の総和値Sr+1(h)を算出する。
〔数式5〕
r+1(h)=Σn=H,127-H1,r+1(n,n+h)
音高別エネルギー統合手段22は、上記シフト値hを−H〜Hの範囲で、変化させながら、上記〔数式4〕〔数式5〕に従った処理を実行し、(2H+1)個の総和値Sr+1(h)を得る。そして、(2H+1)個の総和値Sr+1(h)の中で最大となる総和値Sr+1(h)におけるシフト値hを音高補正値hM,r+1とする。音高別エネルギー統合手段22は、得られた音高補正値hM,r+1を用いて、以下の〔数式6〕に従った処理を実行することにより、エネルギー総和値E1(n)からエネルギー総和値Er+1(n)までの統合エネルギー値E1,r+1(n)を算出する。
〔数式6〕
M,r+1≧0のとき、E1,r+1(n)={e1,r+1(n,n+hM,r+1)}1/(r+1)
M,r+1<0のとき、E1,r+1(n)={e1,r+1(n−hM,r+1,n)}1/(r+1)
上記〔数式6〕は、上記〔数式3〕を一般化したものであり、r=1とすると上記〔数式3〕と同一になる。したがって、音高別エネルギー統合手段22は、上記〔数式6〕に従った処理を(128−2H)回実行し、各ノートナンバーnに対応する統合エネルギー値E1,r+1(n)を得る。
結局、音高別エネルギー統合手段22は、上記〔数式4〕〜〔数式6〕(r=1とした〔数式1〕〜〔数式3〕も含む)に従った処理を(R−1)回実行し、音節O1〜ORのエネルギー総和値E1(n)〜ER(n)を乗算し、統合エネルギー値E1,R(n)を得る。本実施形態では、上記〔数式6〕に示すように、相乗平均を用いているため、統合エネルギー値E1,R(n)も相乗平均として得られるが、統合エネルギー値E1,R(n)は、他の音高の統合エネルギー値との比較に用いられるものであるため、乗算値が反映されていれば、単純に乗算したものであっても良い。
音高(ノートナンバー)別に統合エネルギー値が算出されたら、符号変換手段23が、統合エネルギー値が上位の音高を指定和音数(例:8個)を超えないように選出する。
指定和音数は、事前に設定されるものであり、自由に設定することができるが、本実施形態では、上述のように“8”としている。したがって、本実施形態では、(128−2H)個の符号コードから8個の符号コードが、符号変換手段23により抽出されることになる。さらに、符号変換手段23は、元の各音節符号を構成する複数の符号コードのうち、最も早い区間開始時刻、最も遅い区間終了時刻を、それぞれ選出された全ての音高の区間開始時刻、区間終了時刻として設定し、選出された音高のベロシティを規定値に設定する。ベロシティの規定値については、ベロシティが“0”〜“127”の値を取り得るため、本実施形態では、その最大の“127”としている。
音高別エネルギー算出手段21、音高別エネルギー統合手段22、符号変換手段23による処理前と処理後の音素符号の変化の様子を図5に示す。図5において、横軸は時間、縦軸は周波数(ノートナンバー)に対応している。グラフ内に配置された矩形は符号コードを示しており、横方向の長さは横軸に従って時間的長さを示しているが、縦方向の長さは縦軸とは異なり、周波数ではなく強度(ベロシティ)を示している。
実際には、図4に示したように、1つの音素は、13個の音節、または5個の音節により得られる(例外として、音素Yは3個の音節、音素Wは2個の音節、音素nは1個の音節)が、図5の例では、説明の便宜上2つの音節符号α、βを用いて、音素γを抽出する場合を示している。図5(a)、(b)は、それぞれ音高別エネルギー算出手段21による処理前の音節符号α、βを構成する符号コード群を示したものである。上述のように、本実施形態では、同一時刻において32個の符号コードで音節符号を構成し、指定和音数は8に設定するのが一般的であるが、図5(a)(b)では、説明の都合上、同一時刻において符号コードは最大6個となっており、指定和音数は4に設定している場合を示している。また、各符号コードを示す矩形の横方向および縦方向の長さからわかるように、各符号コードの再生時間(終了時刻−開始時刻)および強度も異なっている。
音高別エネルギー算出手段21、音高別エネルギー統合手段22による処理後は、全ての音高についての統合エネルギー値が得られる。統合エネルギー値は、図5(a)(b)に示されるような、音高別エネルギー算出手段21により音高ごとに算出される発音開始時刻と発音終了時刻との時間差と符号コードの強さ(ベロシティ)との積(面積)の同一音高における総和値であるエネルギー総和値に対して、音節符号αとβとの間で対応する音高におけるエネルギー総和値同士を乗算したものであるので、その平方根値は図上では面積に対応し、イメージ的には、図5(c)に示すように、音高に対応して、その統合エネルギー値(図5(c)では、左右方向の幅を均一にしたため、図面上下方向の幅で面積の大小を表現)が得られる。そして、符号変換手段23により、図5(d)に示すように、統合エネルギー値が大きい音高が4つ選出される。さらに、この後、符号変換手段23により、各音高に対応する符号コードの強度値は、上述のような規定値に設定される。「カ」「キ」「ク」「ケ」「コ」の5個の音節符号(最大32の音高)と、「A」「I」「U」「E」「O」「K」の6個の音素符号(最大8の音高)の構成例を図6に示す。
音高別エネルギー算出手段21、音高別エネルギー統合手段22、符号変換手段23は、音節符号記憶部11に記憶されている各音節符号について処理を行い、得られた各音素符号を音素符号記憶部12に格納する。音素符号記憶部12に格納された音素符号の例を図7〜図12に示す。このうち、図7、図8は男声を符号化したものであり、図9、図10は女声を符号化したものであり、図11、図12は男女混合を符号化したものである。図7〜図12中、“C,C#,D,D#、E、F、F#、G、G#、A、A#、B”は、“ド、ド#、レ、レ#、ミ、ファ、ファ#、ソ、ソ#、ラ、ラ#、シ”の音名の英語表記で、列記されている数字はオクターブ番号を示し、音名とオクターブ番号の対記号でMIDI規格のノートナンバーを特定でき、本願ではMIDI規格ノートナンバーの69をA3と表記する(国際的にはA4をMIDI規格ノートナンバーの69を示す表記も多数存在する)。音素符号を構成する符号コードが、MIDI規格で定義されている場合、市販の楽譜編集ツールにより五線譜に変換することができる。
(4.音声の合成)
次に、得られた音素符号を利用した音声の合成について説明する。図13は、本発明に係る音声合成装置の一実施形態を示す構成図である。図13において、音素符号データベース12aは、得られた音素符号を、音素符号識別情報と対応付けて記録したものである。音素符号データベース12aに格納されている音素符号は、上述の音素符号変換装置により変換され、音素符号記憶部12に格納されたものと同じである。したがって、上述の音素符号変換装置は、この音素符号データベース12aを作成するためのものであるとも言える。また、音素符号データベース12aには、各音素符号識別情報と、音節を特定する音節識別情報との対応関係を示した変換テーブルが記録されている。この変換テーブルは、図4に示したものと同じである。合成音声データ記憶手段13は、音素編集処理手段50により合成された合成音声データを記憶するものであり、ハードディスク等の記憶装置により実現される。
音素編集処理手段50は、合成指示データの内容に従って、音素符号データベース12aから対応する音素符号を抽出し、所定の加工を施して合成音声データを生成し、所定の出力先に出力する処理を行う。生成された合成音声データは、設定に従って合成音声データ記憶手段13、音声出力手段60、印刷手段70のうち、1つ以上に出力される。音声出力手段60は、音素編集処理手段50から受け取った合成音声データを実際の音声として発音するものであり、MIDI音源を備えたMIDI再生装置により実現される。印刷手段70は、音素編集処理手段50から受け取った合成音声データを五線譜に変換し、印刷するものであり、五線譜への変換は、公知の変換ソフトウェアを実行することにより実現され、印刷機能は、公知のプリンタ等により実現される。図13に示した音声合成装置は、現実には、入力機器、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
音声合成装置に入力される合成指示データは、音節識別情報を所定の順序で配置したものであり、この音節識別情報は、音節を識別することができるものであれば、どのような形式であっても良い。本実施形態では、音節識別情報として、音節に対応する文字コードを記録したテキストデータを用いている。この場合、音素符号データベース12a内の変換テーブルには、音節識別情報に対応する文字コードと音素符号識別情報が対応付けて記録されている必要がある。
続いて、図13に示した音声合成装置の処理動作について説明する。まず、合成指示データを音声合成装置に入力する。音声合成装置は、合成指示データを読み込むと、音素編集処理手段50が合成指示データ内を先頭の音節識別情報から順に合成処理していく。具体的には、音素編集処理手段50は、合成指示データ内の音節識別情報で音素符号データベース12a内の変換テーブルを参照して、音素符号識別情報を取得し、その音素符号識別情報に対応する音素符号を抽出する。
そして、抽出した音素符号が母音音素1つだけである場合は、母音音節であるので、先行する音節のノートオフ時刻の0.25秒後をノートオン時刻として設定し、その0.25秒後をノートオフ時刻とし、ノートナンバー、ベロシティは音素符号データベース12aに記録されていた値そのものとするMIDIイベントを作成する。ただし、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータに基づいて適宜上下され、音高(ピッチ)変換を行えるようにしてある。
抽出した音素符号が2つであり、それが子音音素と母音音素である場合は、子音音節であるので、先の子音音素符号について、前の音節のノートオフ時刻の0.25秒後をノートオン時刻として設定し、単位区間の1/4、すなわち0.0625秒後をノートオフ時刻とする。そして、後の母音音素符号について、先の子音音素符号のノートオフ時刻をノートオン時刻として設定し、単位区間の3/4、すなわち0.1875秒後をノートオフ時刻とする。子音音節の場合も、母音音節の場合と同様、ノートナンバー、ベロシティは音素符号データベース12aに記録されていた値そのものとするが、ノートナンバーについてはオプション的に別途ユーザにより指示される音高オフセットパラメータを加算することにより適宜上下され、音高(ピッチ)変換を実現することができる。また、上記の0.25秒、0.0625秒、0.1875秒という時間数値はあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。
音節識別情報が長音を示すものであった場合(音節識別情報を文字コードで記録したときは、“ー”に対応する文字コードであった場合)、その直前の音節識別情報とともに2つの音節識別情報で1つの長音の音節を特定する。例えば、例えば、音節識別情報が“ア”と“ー”が連続した場合、2つの音節識別情報“アー”により、長音の母音音節であると判断する。音節識別情報が“カ”と“ー”が連続した場合、2つの音節識別情報“カー”により、長音の子音音節であると判断する。長音の場合、長音の母音音節と長音の子音音節で若干異なる。長音の母音音節の場合、ノートオン時刻からノートオフ時刻の間隔を0.5秒に増加して設定する。長音の子音音節の場合、先の子音音素符号については、長音でない通常の場合と同様、ノートオン時刻からノートオフ時刻の間隔を0.0625秒にして設定し、後の母音音素符号についてノートオン時刻からノートオフ時刻の間隔を0.4375秒にして設定する。したがって、長音の場合、音節全体の発音時間は、母音音節、子音音節ともに同じ0.5秒となる。子音音節については、第1音素の発音時間は、長音でない通常の場合と同じ0.0625秒であるが、第2音素の発音時間が、長音でない通常の場合と比べて長くなる。尚、上記の0.5秒、0.25秒、0.4375秒、0.5秒、0.0625という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。
促音の場合、その直後の音節の第1音素と同じものを、直後の音節の第1音素の直前に加える。第1音素の発音時間は0.0625秒であるため、先行する音節の発音終了時刻から0.1875秒後に促音のノートオン時刻を設定することになり、促音のノートオフ時刻と、直後の音節の第1音素のノートオン時刻が同一となる。尚、上記の0.0625秒、0.1875秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。
拗音の場合、直前の子音の第1音素の直後に加える。したがって、直前の子音の第1音素のノートオフ時刻と、拗音のノートオン時刻が同一となるように設定する。拗音の音節の構成自体は子音と同じであるので、拗音の第1音素のノートオフ時刻および第2音素のノートオン時刻は、第1音素のノートオン時刻の0.0625秒後であり、拗音の第2音素のノートオフ時刻は、そのノートオン時刻の0.1875秒後となる。尚、上記の0.0625秒、0.1875秒という時間数値も同様にあくまで基準値であり、別途ユーザにより指示される時間伸縮パラメータを乗算することにより適宜伸縮され、話速変換を実現することができる。
音素編集処理手段50は、読み込んだ合成指示データ内の音節識別情報単位で音素の合成処理を行っていき、処理が終わった音節単位で順に、合成音声データ(MIDIデータ)を、音声出力手段60に渡していく。音声出力手段60は、音素編集処理手段50から受け取ったMIDIデータを順に再生していく。以上のようにして、音声合成装置は、読み込んだ合成指示データに従って音声の再生が可能となる。
五線譜として出力する場合は、合成音声データを印刷手段70により五線譜データに変換した後、印刷出力する。男声、女声、男女混合の合成音声データを、五線譜データとして印刷出力した例を図14、図15、図16にそれぞれ示す。また、上記の例のように、合成指示データに従って音声合成をリアルタイムで行い、音声再生したり、五線譜出力することも可能であるが、この音声合成装置では、音素編集処理手段50による処理結果であるMIDIデータを合成音声データ記憶手段13に蓄積し、別途このMIDIデータをMIDI再生装置により音声再生するようにしても良い。MIDIデータを記憶装置に蓄積する方法としては、SMF(Standard MIDI File)形式ファイルを用いると、市販の種々の音楽関係ソフトウェアに渡すことができ、作成されたMIDIデータからは、市販の楽譜作成ツールを用いて、楽譜を作成することができる。この場合、楽譜は、SMF形式に記録されていた音素符号を基にして作成される。そして、作成された楽譜を印刷装置から出力すれば、読みやすい楽譜として、楽器演奏の際に利用することができる。
上述の通り、音素編集処理手段50は、合成指示データ内の音節識別情報で音素符号データベース12aから対応する音素符号を抽出し、MIDIイベントを作成する際、そのノートナンバーについては音素符号データベース12aに収録されている当該音素符号を構成する各音符のノートナンバーに対して、オプション的に別途ユーザにより指示される音高オフセットパラメータを加算し適宜上下させ、音高(ピッチ)変換を行えるようにしてある。この場合は、合成音声データ全体の音高(ピッチ)を上下させるのではなく、母音音素に限定して上下させるようにする。また、合成指示データ内の音節識別情報とともに音高オフセットパラメータを音節ごとに定義すれば、各音節ごとに構成される母音音素の音高(ピッチ)を個別に上下させることもできる。すなわち、あらかじめ作成した旋律の隣接音符間での音高変化(音程情報)を、合成指示データ内の音節識別情報とともに定義される音高オフセットパラメータとして与えれば、歌声合成を実現することができる。
(5.電子透かしへの応用)
本発明に係る音声合成装置は、音楽データに、音声メッセージの形態で著作権者情報など特定の情報を埋め込む技術、“電子透かし”に応用することが可能である。図17は、本発明に係る音声合成装置の基本構成を利用した電子透かし埋め込み装置を示す図である。図17において、音素符号データベース12aは、図13に示した音素符号データベース12aと同じものであり、音素符号を、音素符号識別情報と対応付けて記録するとともに、各音素符号識別情報と、音節識別情報との対応関係を示した変換テーブルを記録したものである。埋め込み処理手段51は、SMF形式等により記述されたデジタルデータである音楽コンテンツに、メッセージテキスト(合成指示データ)で特定されるメッセージを埋め込む。具体的には、埋め込み処理手段51は、図13に示した音素編集処理手段50の機能を備え、メッセージテキスト(合成指示データ)の内容を各音節識別情報に分離し、更に前記変換テーブルを参照しながら各音節識別情報を対応する音素符号識別情報に変換し、音素符号データベース12aから前記変換された音素符号識別情報に対応する音素符号を抽出し、所定の加工を施して合成音声を生成する。そして、出力する音楽コンテンツが複数トラックであり、メッセージ用の専用トラックが存在する場合は、その専用トラックに合成音声を埋め込んで単一のMIDI形式の音楽データとして音響出力手段61に出力する。音楽コンテンツに専用トラックが存在しない場合には、音楽コンテンツの無音部分に、合成音声を格納して音響出力手段61に出力する。
音響出力手段61は、図13に示した音声出力手段60と実質的には同じものであり、埋め込み処理手段51から受け取った音響データを実際の音として発音するものである。図17に示した電子透かし埋め込み装置では、メッセージテキストの埋め込みをリアルタイムで行い、音響出力するようにしたが、埋め込み処理手段51による処理結果であるSMF形式等でMIDIデータを記憶装置に蓄積し、ネットワーク等で別途このMIDIデータを配信し、受信者側のMIDI再生装置により音響出力する形態をとることもできる。図17に示した電子透かし埋め込み装置は、現実には、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
音響出力の際、埋め込まれたメッセージテキストが音楽コンテンツと合成されて音声メッセージとして出力される可聴な電子透かしとして運用する方法と、埋め込まれたメッセージテキストに対応するMIDIデータのチャンネルボリュームを最小に設定するか、127の固定値に設定されている全てのMIDIイベントのベロシティ値を0に変更する方法により、音楽コンテンツ以外の音声メッセージは再生されない不可聴な電子透かしとして運用する方法もとれる。例えば、一般ユーザにサンプルとして試聴版配布する場合は、可聴な電子透かしを埋め込んで配布し、正規購入された製品版配布する場合は、不可聴な電子透かしを埋め込んで配布する。不可聴な電子透かしが埋め込まれた音楽コンテンツが正規購入品か否かを音楽コンテンツ事業者側で判断する場合、上記の逆の操作、即ち、MIDIデータのチャンネルボリュームを最大値に変更するか、0に設定されている全てのMIDIイベントのベロシティ値を127に変更するような前処理を行うことにより可聴な形態で埋め込まれた状態に変更して、以下電子透かし抽出装置を適用すればよい。
続いて、MIDIデータに前述の可聴な形態で埋め込まれた電子透かしを抽出する電子透かし抽出装置について述べる。電子透かし抽出装置は、マイクロフォン等の音響信号取得機器、上記音素符号データベース12aを備えるとともに、電子透かし抽出のための専用のプログラムを組み込んだコンピュータにより実現される。電子透かし抽出装置に組み込まれた専用プログラムは、コンピュータを、周波数解析手段、音素符号識別情報復号化手段として機能させる。周波数解析手段、音素符号識別情報復号化手段の具体的内容は、特許第4037542号や、特許第4132362号等に開示されている手順により実現可能である。電子透かし抽出装置は、音響出力手段61より空間に送出された音響信号に対して電子透かし抽出装置に接続されたマイクロフォンなどを通じて部分的に録音を行い、録音されたPCMデータに対して周波数解析手段が周波数解析を行い、和音データを抽出する。具体的には、特許第4037542号や、特許第4132362号等に開示されている公知の技術を用いて時系列の32個の符号コード群へ変換する。続いて、音素符号識別情報復号化手段が、抽出された和音データを音素符号データベース12aと照合し、類似した和音データをもつ音素符号を抽出し、音素符号識別情報を復号化する。具体的には、音素符号データベース12aに収録されている符号コード群と順次照合し、適合する音素符号を順次抽出することにより、図17のメッセージテキスト(合成指示データ)を復元する。
本発明は、イベントや余興目的に行われる人間の音声再生を模倣した音楽作品制作・作曲の支援産業に利用することができる。また、エンターテインメント分野において、電子楽器を主体とした玩具(ロボット、ぬいぐるみを含む)、玩具型のアコースティック楽器(室内装飾用のミニチュアピアノ)、オルゴール、携帯電話の着信メロディ等の音階再生媒体に対して音声合成機能を付加する産業に利用することができる。また、SMF(Standard MIDI File)等によるMIDI音楽コンテンツ配布時における著作権保護等の産業に利用することができる。
10・・・記憶手段
11・・・音節符号記憶部
12・・・音素符号記憶部
12a・・・音素符号データベース
13・・・合成音声データ記憶手段
20・・・処理制御手段
21・・・音高別エネルギー算出手段
22・・・音高別エネルギー統合手段
23・・・符号変換手段
30・・・符号表示手段
50・・・音素編集処理手段
51・・・埋め込み処理手段
60・・・音声出力手段
61・・・音響出力手段
70・・・印刷手段

Claims (17)

  1. 1つの音節を複数の符号コードで表現した音節符号を読み込む音節符号読込手段と、
    前記読み込まれた音節符号を構成する符号コード群について、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出する音高別エネルギー算出手段と、
    複数の音節符号間で、一方の音節符号の音高に対応するエネルギー総和値と前記音高に所定の正または負の数値で与えられる音高補正値を加算した音高に対応する他方の音節符号のエネルギー総和値を乗算しながら、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出する音高別エネルギー統合手段と、
    前記統合エネルギー値が高い上位の音高を所定の個数だけ抽出し、抽出された各音高に対応する符号コードに、所定の強さ、所定の発音開始時刻、所定の発音終了時刻のパラメータを設定し、複数の符号コードで構成される音素符号に変換する符号変換手段と、
    を有することを特徴とする音素符号変換装置。
  2. 請求項1において、
    前記音高別エネルギー統合手段は、所定の範囲でシフト値を所定の規則に従って変動させながら、一方の音節符号の音高に対応するエネルギー総和値と前記音高に所定の正または負の値で与えられる前記シフト値を加算した音高に対応する他方の音節符号のエネルギー総和値を乗算して、所定の音高の範囲で複数の乗算値を算出し、前記複数の乗算値の総和が最大になるときのシフト値を前記音高補正値として与えることを特徴とする音素符号変換装置。
  3. 請求項1または請求項2において、
    前記音高別エネルギー統合手段は、日本語カナ文字の「ア」「イ」「ウ」「エ」「オ」に対応する5種の「カ」「キ」「ク」「ケ」「コ」などの複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
    前記符号変換手段は、「K」などの共通する子音音素の音素符号に変換することを特徴とする音素符号変換装置。
  4. 請求項1から請求項3のいずれかにおいて、
    前記音高別エネルギー統合手段は、日本語カナ文字の「ア」に対応する複数個の「カ」「サ」「タ」「ナ」「ハ」「マ」などの複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
    前記符号変換手段は、「A」などの共通する母音音素の音素符号に変換することを特徴とする音素符号変換装置。
  5. 請求項1または請求項2において、
    前記音高別エネルギー統合手段は、N人の話者が発声した日本語カナ文字の「ア」「イ」「ウ」「エ」「オ」に対応する5N種の「カ」「キ」「ク」「ケ」「コ」などの複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
    前記符号変換手段は、「K」などの共通する子音音素の音素符号に変換することを特徴とする音素符号変換装置。
  6. 請求項1、請求項2、請求項5のいずれかにおいて、
    前記音高別エネルギー統合手段は、N人の話者が発声した日本語カナ文字の「ア」に対応する複数個の「カ」「サ」「タ」「ナ」「ハ」「マ」などのN種の複数の子音音節に対応する音節符号間で乗算して統合エネルギー値を算出し、
    前記符号変換手段は、「A」などの共通する母音音素の音素符号に変換することを特徴とする音素符号変換装置。
  7. 請求項1から請求項6のいずれか一項に記載の音素符号変換装置により作成され、複数の話者が発声した日本語カナ文字の各音節に共通して含まれる音素に対応して、所定の種類以下の音高を同時にもち、音の強さおよび音の長さが均一の複数の符号コードで構成される音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録した音素符号データベースと、
    与えられた合成指示データに記載されている音節識別情報をもとに音素符号識別情報に変換し、対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定し、母音音素に対応する音素の発音の終了を特定する時刻より所定の無音区間を加えた時刻を後続する音節の発音の開始を特定する時刻として設定することにより合成音声データを生成する音素編集処理手段と、
    を有することを特徴とする音声合成装置。
  8. 請求項において、
    前記音素編集処理手段により生成された合成音声データを音声として出力する音声出力手段をさらに有することを特徴とする音声合成装置。
  9. 請求項7または請求項8において、
    前記音素編集処理手段により生成された合成音声データを五線譜に変換し、印刷する印刷手段をさらに有することを特徴とする音声合成装置。
  10. 請求項から請求項のいずれか一項において、
    前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が母音音節で、日本語カナ文字の長音であるとき、その音節全体の発音時間を、所定の値だけ増加させることを特徴とする音声合成装置。
  11. 請求項から請求項10のいずれか一項において、
    前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が、日本語カナ文字の促音であるとき、当該促音の直後に配置される音節に対応する第1の音素と同一の音素を、当該第1の音素の直前に配置して、各音素の発音の開始を特定する時刻、発音の終了を特定する時刻を設定することを特徴とする音声合成装置。
  12. 請求項から請求項11のいずれか一項において、
    前記音素編集処理手段は、前記合成指示データに記載されている音節識別情報が、日本語カナ文字の「ヤ」「ユ」「ヨ」の拗音であるとき、前記拗音の直前の音節については、第1の音素のみを設定し、当該第1の音素の直後に、前記拗音に対応する「ヤ」「ユ」「ヨ」いずれかの音節に対応する2つの音素を配置して、各音素の発音の開始を特定する時刻、発音の終了を特定する時刻を設定することを特徴とする音声合成装置。
  13. 請求項から請求項12のいずれか一項において、
    前記音素編集処理手段が、前記音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、前記無音区間に対して、設定された時間伸縮率を乗算し、前記発音の開始および終了を特定する時刻に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
  14. 請求項から請求項13のいずれか一項において、
    前記音素編集処理手段が、前記音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、設定された音高オフセットパラメータに基づいて、前記音素符号データベースに記録されている前記音素符号が母音の場合、当該音素符号を構成する各符号コードの音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての母音音素に対応する符号コードの音高に対して所定の改変を施すようにしていることを特徴とする音声合成装置。
  15. 請求項14において、
    前記合成指示データには各音節ごとに音節識別情報とともに前記音高オフセットパラメータが定義されており、前記音素編集処理手段が、与えられた音節識別情報より変換された音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、前記音節識別情報に従って、発音の開始および終了を特定する時刻を設定する際、前記各音節ごとに定義された音高オフセットパラメータに基づいて、前記音素符号データベースに記録されている前記音素符号が母音の場合、当該音素符号を構成する各符号コードの音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての母音音素に対応する符号コードの音高に対して、改変を施すようにしていることを特徴とする音声合成装置。
  16. 請求項1から請求項6のいずれか一項に記載の音素符号変換装置としてコンピュータを機能させるためのプログラム。
  17. 請求項から請求項15のいずれか一項に記載の音声合成装置としてコンピュータを機能させるためのプログラム。
JP2009183417A 2009-08-06 2009-08-06 音素符号変換装置および音声合成装置 Expired - Fee Related JP5471138B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009183417A JP5471138B2 (ja) 2009-08-06 2009-08-06 音素符号変換装置および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009183417A JP5471138B2 (ja) 2009-08-06 2009-08-06 音素符号変換装置および音声合成装置

Publications (2)

Publication Number Publication Date
JP2011039088A JP2011039088A (ja) 2011-02-24
JP5471138B2 true JP5471138B2 (ja) 2014-04-16

Family

ID=43766951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009183417A Expired - Fee Related JP5471138B2 (ja) 2009-08-06 2009-08-06 音素符号変換装置および音声合成装置

Country Status (1)

Country Link
JP (1) JP5471138B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3234589B2 (ja) * 1990-06-08 2001-12-04 ヤマハ株式会社 音声処理装置
JP3011997B2 (ja) * 1990-11-15 2000-02-21 株式会社リコー 参照ベクトル更新方法
JP2800465B2 (ja) * 1991-05-27 1998-09-21 ヤマハ株式会社 電子楽器
JP3776196B2 (ja) * 1997-03-05 2006-05-17 大日本印刷株式会社 音声信号の符号化方法および音声の記録再生装置
JP2004294816A (ja) * 2003-03-27 2004-10-21 Yamaha Corp 携帯端末装置
JP4179268B2 (ja) * 2004-11-25 2008-11-12 カシオ計算機株式会社 データ合成装置およびデータ合成処理のプログラム
JP2007011209A (ja) * 2005-07-04 2007-01-18 Xing Inc 作曲プログラムおよび作曲装置
JP4353174B2 (ja) * 2005-11-21 2009-10-28 ヤマハ株式会社 音声合成装置

Also Published As

Publication number Publication date
JP2011039088A (ja) 2011-02-24

Similar Documents

Publication Publication Date Title
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP7476934B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP2838977B2 (ja) カラオケ装置
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2020148914A (ja) 鍵盤楽器、方法、プログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP4277697B2 (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JP6167503B2 (ja) 音声合成装置
JP6044284B2 (ja) 音声合成装置
WO2022054496A1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
WO2020217801A1 (ja) オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム
JP6819732B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JP2022065566A (ja) 音声合成方法およびプログラム
JP5481957B2 (ja) 音声合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP5560888B2 (ja) 符号化音声データの音高変換装置
JP5233737B2 (ja) 音素符号補正装置、音素符号データベース、および音声合成装置
JPH0895588A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees