JP5233737B2 - 音素符号補正装置、音素符号データベース、および音声合成装置 - Google Patents
音素符号補正装置、音素符号データベース、および音声合成装置 Download PDFInfo
- Publication number
- JP5233737B2 JP5233737B2 JP2009041165A JP2009041165A JP5233737B2 JP 5233737 B2 JP5233737 B2 JP 5233737B2 JP 2009041165 A JP2009041165 A JP 2009041165A JP 2009041165 A JP2009041165 A JP 2009041165A JP 5233737 B2 JP5233737 B2 JP 5233737B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- code
- time
- chord
- phoneme code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。最初に、本発明の基本概念について説明する。日本語の母音は、2つの特徴的な音声フォルマント成分を含む4つ以上の重音による和音で近似できることが知られている。子音は母音成分に加えて、摩擦音など雑音を表現する和音と母音への経過音を表現する和音の3種の連結された和音が理論上必要であるが、経過音は人間の聴覚上の補間現象(音脈分凝)に委ねれば、最初の雑音と母音の2つの和音に近似できる。実験の結果、日本語の母音は単一の4和音、子音は2連の4和音を基本にして全音素を表現し、これらを時間軸上につなぎ合わせれば音声合成を実現できることが判明した。
次に、従来技術を利用した前処理について説明する。前準備として、人間の声を各音素ごとに符号化する処理を行う。これは、特許文献1に示されている音素の符号化処理に相当する。ただし、特許文献1に示されている符号化処理では、1つの単位区間において、4、8、16個の符号コードを定義しているが、本実施形態では、より多くの符号コードを定義する点で異なっている。具体的には、本実施形態では、ノートナンバーに対応した32個の符号コードを定義し、符号化を行う。
次に、音素符号の補正について説明する。図3は、本発明に係る音素符号補正装置の一実施形態を示す構成図である。記憶手段10は、音素符号記憶部11、補正音素符号記憶部12を有しており、コンピュータに接続されたハードディスク等の外部記憶装置により実現される。処理制御手段20は、音素符号補正装置全体の処理を統括するものであり、音素符号補正手段21を有している。処理制御手段20は、CPU、メモリを含むコンピュータ本体であり、音素符号補正手段21は、専用のプログラムをCPUが実行することにより実現される。音素符号表示手段30は、処理制御手段20に読み込まれた音素符号を表示するものであり、液晶ディスプレイ等の表示装置により実現される。開始終了時刻指示手段40は、音素符号表示手段30に表示された音素符号について、開始、分割、終了とする時刻を指定するものであり、キーボード、マウス等の入力機器により実現される。
次に、補正した音素符号を利用した音声の合成について説明する。図11は、本発明に係る音声合成装置の一実施形態を示す構成図である。図11において、音素符号データベース12aは、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。音素データベース12aに格納されている音素符号は、上述の音素符号化装置により補正され、補正音素符号記憶部12に格納されたものと同じである。したがって、上述の音素符号補正装置は、この音素データベース12aを作成するためのものであるとも言える。音素編集処理手段50は、合成指示データの内容に従って、音素符号データベース12aから対応する音素符号を抽出し、所定の加工を施して合成音声として音声出力手段60に出力する処理を行う。音声出力手段60は、音素編集処理手段50から受け取った合成音声を実際の音声として発音するものであり、MIDI音源を備えたMIDI再生装置により実現される。図11に示した音声合成装置は、現実には、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
本発明に係る音声合成装置は、音楽データに、音声メッセージの形態で著作権者情報など特定の情報を埋め込む技術、可聴な“電子透かし”に応用することが可能である。図12は、本発明に係る音声合成装置の基本構成を利用した電子透かし埋め込み装置を示す図である。図12において、音素符号データベース12aは、図11に示した音素符号データベース12aと同じものであり、補正された音素符号を、合成指示データで示される音素符号識別情報と対応付けて記録したものである。埋め込み処理手段51は、SMF形式等により記述されたデジタルデータである音楽コンテンツに、メッセージテキスト(合成指示データ)で特定されるメッセージを埋め込む。具体的には、埋め込み処理手段51は、図11に示した音素編集処理手段50の機能を備え、メッセージテキスト(合成指示データ)の内容に従って、音素符号データベース12aから対応する音素符号を抽出し、所定の加工を施して合成音声を生成する。そして、出力する音楽コンテンツが複数トラックであり、メッセージ用の専用トラックが存在する場合は、その専用トラックに合成音声を埋め込んで単一のMIDI形式の音楽データとして音響出力手段61に出力する。音楽コンテンツに専用トラックが存在しない場合には、音楽コンテンツの無音部分に、合成音声を格納して音響出力手段61に出力する。音響出力手段61は、図11に示した音声出力手段60と実質的には同じものであり、埋め込み処理手段51から受け取った音響データを実際の音として発音するものである。図12に示した電子透かし埋め込み装置では、メッセージテキストの埋め込みをリアルタイムで行い、音響出力するようにしたが、埋め込み処理手段51による処理結果であるSMF形式等でMIDIデータを記憶装置に蓄積し、ネットワーク等で別途このMIDIデータを配信し、受信者側のMIDI再生装置により音響出力する形態をとることもできる。図12に示した電子透かし埋め込み装置は、現実には、外部記憶装置を備え、MIDI再生装置を接続したコンピュータに専用のプログラムを組み込むことにより実現される。
11・・・音素符号記憶部
12・・・補正音素符号記憶部
12a・・・音素データベース
20・・・処理制御手段
21・・・音素符号補正手段
30・・・音素符号表示手段
40・・・開始終了時刻指示手段
50・・・音素編集処理手段
51・・・埋め込み処理手段
60・・・音声出力手段
61・・・音響出力手段
Claims (16)
- 1つの音素を複数の符号コード群で表現した音素符号を、その発音開始時刻、発音終了時刻、周波数に対応付けて画面に表示する音素符号表示手段と、
前記表示された音素符号に対して、利用者が指定開始時刻、指定分割時刻、指定終了時刻を指定するための時刻指定手段と、
前記時刻指定手段により指定された指定開始時刻、指定終了時刻で特定される区間を指定区間とし、前記音素符号を構成する符号コードのうち、前記指定区間内の符号コードの発音終了時刻から発音開始時刻との時間と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、前記指定区間に指定分割時刻を含む場合に、前記指定開始時刻から前記指定分割時刻までを第1の指定区間、前記指定分割時刻から前記指定終了時刻までを第2の指定区間として、2つの指定区間ごとに符号コードのエネルギー値が高い上位のものを各々抽出する音素符号補正手段と、
を有することを特徴とする音素符号補正装置。 - 日本語カナ文字の各音素を表現した音素符号を、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音のいずれかにより構成し、前記各音素符号を、各音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベース。
- 請求項2において、
前記日本語カナ文字の音素が「ア」「イ」「ウ」「エ」「オ」の各母音の場合は、その音素符号を前記単一和音で構成し、前記日本語カナ文字の音素が子音・濁音・半濁音・撥音の場合は、その音素符号を前記2連和音で構成することを特徴とする音素符号データベース。 - 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた合成指示データに記載されている音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成する音素編集処理手段と、
前記音素編集処理手段により生成された合成音声データを出力する音声出力手段と、
を有することを特徴とする音声合成装置。 - 請求項4において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の長音であるとき、前記音素が単一和音で構成されている場合、その音素符号全体の発音時間を、前記音素が2連和音で構成されている場合、その第2和音の発音時間を、所定の値だけ増加させることを特徴とする音声合成装置。 - 請求項4において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の促音であるとき、前記音素の直後に配置される音素の第1和音と同一の第1和音を設定することを特徴とする音声合成装置。 - 請求項4において、
前記音素編集処理手段は、前記音素の種別が、日本語カナ文字の「ヤ」「ユ」「ヨ」の拗音であるとき、前記拗音の直前の音素については、第1和音のみを設定し、当該第1和音の直後に、前記拗音に対応する「ヤ」「ユ」「ヨ」いずれかの2連和音を設定することを特徴とする音声合成装置。 - 請求項4から請求項7のいずれかにおいて、
前記音素編集処理手段により生成された前記合成音声データはSMF形式のMIDIデータで、前記音声出力手段には五線譜変換手段と印刷手段を備え、前記合成音声データに対してヒトが読譜して楽器演奏により手動で音声出力を実現できるような五線譜に変換し印刷するようにしていることを特徴とする音声合成装置。 - 請求項4から請求項8のいずれかにおいて、
前記音素編集処理手段が、与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された時間伸縮パラメータに基づいて、前記音素符号データベースに収録されている前記和音の長さに対して、前記時間伸縮パラメータを乗算し、前記発音の開始および終了を特定する時刻に対して所定の改変を施すようにしていることを特徴とする音声合成装置。 - 請求項4から請求項9のいずれかにおいて、
前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、別途指示された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して所定の改変を施すようにしていることを特徴とする音声合成装置。 - 請求項10において、
前記合成指示データには各音素ごとに音素符号識別情報とともに前記音高オフセットパラメータが定義されており、前記音素編集処理手段が、与えられた音素符号識別情報に対応する所定の重音数以下の単一和音、または2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定する際、前記各音素ごとに定義された音高オフセットパラメータに基づいて、前記音素符号データベースに収録されている前記和音を構成する各音符の音高に対して、前記音高オフセットパラメータを加算し、前記合成音声データを構成する全ての音符の音高に対して、前記音素符号識別情報に基づいて改変を施すようにしていることを特徴とする音声合成装置。 - 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
を有することを特徴とする電子透かし埋め込み装置。 - 日本語カナ文字の各音素に対応して、所定の重音数以下で音の強さと長さが均一な単一和音、または所定の重音数以下で音の強さが均一で2種の異なる長さをもつ和音を連結させた2連和音で構成された音素符号を、音素符号を識別する音素符号識別情報と対応付けて記録したことを特徴とする音素符号データベースと、
与えられた音素符号識別情報に対応する音素符号を前記音素符号データベースから抽出し、当該音素の種別に従って、発音の開始および終了を特定する時刻を設定することにより合成音声データを生成するとともに、生成した合成音声データを音楽コンテンツが有する所定のトラックに、生成された合成音声データを格納する埋め込み処理手段と、
前記埋め込み処理手段により合成音声データが格納された音楽コンテンツを出力する音響出力手段と、
前記音響出力手段より出力された音響信号の一部を録音する音響録音手段と、
前記音響録音手段により得られた録音音響信号に対して周波数解析を行い、和音データを抽出する周波数解析手段と、
前記抽出された和音データを前記音素符号データベースと照合し、類似した和音データをもつ音素符号を抽出し、前記音素符号識別情報を復号化する音素符号識別情報復号化手段と、
を有することを特徴とする電子透かし抽出装置。 - 請求項1に記載の音素符号補正装置としてコンピュータを機能させるためのプログラム。
- 請求項4から請求項11のいずれかに記載の音声合成装置としてコンピュータを機能させるためのプログラム。
- 請求項12または請求項13に記載の電子透かし埋め込み装置または電子透かし抽出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041165A JP5233737B2 (ja) | 2009-02-24 | 2009-02-24 | 音素符号補正装置、音素符号データベース、および音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041165A JP5233737B2 (ja) | 2009-02-24 | 2009-02-24 | 音素符号補正装置、音素符号データベース、および音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010197605A JP2010197605A (ja) | 2010-09-09 |
JP5233737B2 true JP5233737B2 (ja) | 2013-07-10 |
Family
ID=42822400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009041165A Expired - Fee Related JP5233737B2 (ja) | 2009-02-24 | 2009-02-24 | 音素符号補正装置、音素符号データベース、および音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5233737B2 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3776196B2 (ja) * | 1997-03-05 | 2006-05-17 | 大日本印刷株式会社 | 音声信号の符号化方法および音声の記録再生装置 |
JP3958841B2 (ja) * | 1997-08-29 | 2007-08-15 | 大日本印刷株式会社 | 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体 |
JPH1195798A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音声合成方法および音声合成装置 |
JP4331289B2 (ja) * | 1998-09-18 | 2009-09-16 | 大日本印刷株式会社 | 音響信号の符号化方法 |
JP2002229568A (ja) * | 2001-02-05 | 2002-08-16 | Dainippon Printing Co Ltd | 音響情報再生方法 |
JP2003216147A (ja) * | 2002-01-17 | 2003-07-30 | Dainippon Printing Co Ltd | 音響信号の符号化方法 |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP4780375B2 (ja) * | 2005-05-19 | 2011-09-28 | 大日本印刷株式会社 | 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム |
-
2009
- 2009-02-24 JP JP2009041165A patent/JP5233737B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010197605A (ja) | 2010-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5704007A (en) | Utilization of multiple voice sources in a speech synthesizer | |
US5930755A (en) | Utilization of a recorded sound sample as a voice source in a speech synthesizer | |
CN111418006B (zh) | 声音合成方法、声音合成装置及记录介质 | |
JP6784022B2 (ja) | 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム | |
JP2007086316A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP6167503B2 (ja) | 音声合成装置 | |
JP6044284B2 (ja) | 音声合成装置 | |
JP5560769B2 (ja) | 音素符号変換装置および音声合成装置 | |
WO2020217801A1 (ja) | オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム | |
JP5233737B2 (ja) | 音素符号補正装置、音素符号データベース、および音声合成装置 | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
JP5481958B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP5481957B2 (ja) | 音声合成装置 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP5106437B2 (ja) | カラオケ装置及びその制御方法並びにその制御プログラム | |
JP2005539267A (ja) | 音声波形の連結を用いる音声合成 | |
WO2022190502A1 (ja) | 音生成装置およびその制御方法、プログラム、電子楽器 | |
WO2022054496A1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JPH0895588A (ja) | 音声合成装置 | |
JP4305022B2 (ja) | データ作成装置、プログラム及び楽音合成装置 | |
JPH1049192A (ja) | 歌唱音合成装置 | |
JPS6155679B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130311 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5233737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |