JP2010160406A - 音声合成装置、およびプログラム - Google Patents

音声合成装置、およびプログラム Download PDF

Info

Publication number
JP2010160406A
JP2010160406A JP2009003576A JP2009003576A JP2010160406A JP 2010160406 A JP2010160406 A JP 2010160406A JP 2009003576 A JP2009003576 A JP 2009003576A JP 2009003576 A JP2009003576 A JP 2009003576A JP 2010160406 A JP2010160406 A JP 2010160406A
Authority
JP
Japan
Prior art keywords
speech
unit
data
segment
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009003576A
Other languages
English (en)
Other versions
JP5157922B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009003576A priority Critical patent/JP5157922B2/ja
Publication of JP2010160406A publication Critical patent/JP2010160406A/ja
Application granted granted Critical
Publication of JP5157922B2 publication Critical patent/JP5157922B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract


【課題】素片接続方式の音声合成において、データベース化する素片の数が従来よりも少なくしても自然な音声を合成できるようにする。
【解決手段】曲を構成する音符とその歌詞を示す歌詞データとを示す曲データに基づき、その曲の歌唱音声を合成するのに用いる複数の音声素片、それらの発生時刻、その歌唱音声のピッチを指定する歌唱合成スコア(音声合成指示)を生成する。そして、データベース化された音声素片のうちから歌唱合成スコアにより指定されるものを選択する際に、無声摩擦音から無音への遷移部分を示す音声素片については、無音から当該無声摩擦音への遷移部分の音声素片を選択し、その音声素片の波形に時間反転を施して歌唱音声の合成に使用する。
【選択図】図4

Description

本発明は、音声を合成する技術に関し、特に、複数の音声素片を接続して音声を合成する素片接続方式の音声合成技術に関する。
この種の音声合成技術の一例としては、素片接続方式の歌唱合成が挙げられる。素片接続方式の歌唱合成では、単一の音素や音素から音素への遷移部分など歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化しておくことが一般的である。そして、ある歌詞をあるメロディに合わせて歌唱する歌唱音声を合成する際には、歌詞を構成する音声素片の音声素片データをデータベースから読み出し、各々のピッチをメロディに合わせるためのピッチ変換を施した後に連結して、歌唱音声の波形を示すデータを合成する(特許文献1〜3参照)。
特開2007−240564号公報 特開2006−17946号公報 特開2000−3200号公報
素片接続方式の音声合成で自然な音声を合成するためには、できるだけ多くの音声素片をデータベースに格納しておく必要があり、音韻の種類(有声、無声、母音の脱落など)、前後の音韻の組み合わせや、声質、情感などを考慮すると、データベース化しておくべき音声素片の数は膨大なものになる。このため、携帯型ゲーム機やPDA(Personal Digital Assistants)、携帯電話などの携帯端末に音声合成を実行させようとすると、データベース化しておく音声素片の数が大きな問題となる。これら携帯端末は大容量の記憶装置を有しておらず、格納可能なデータサイズに制限があるからである。
本発明は上記課題に鑑みて為されたものであり、素片接続方式の音声合成において、データベース化する音声素片を従来よりも少なくしても自然な音声を合成できるようにする技術を提供することを目的とする。
上記課題を解決するため、本発明は、各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無音から無声摩擦音への第1の遷移部分と前記無声摩擦音から無音への第2の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第1および第2の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、を提供する。
このような音声合成装置によれば、第1および第2の遷移部分のうちの何れか一方に該当する音声素片データが音声素片データベースに格納されていれば、第1および第2の遷移部分の連結で表される音声を合成することができる。無声摩擦音については、破裂音とは異なり上記のような波形の時間反転により波形データを生成しても特段の影響は生じない。つまり、この音声合成装置によれば、上記第1および第2の遷移部分のうちの何れか一方をデータベース化の対象から除外しても、従来技術と同様に自然な音声の合成を行うことができる。なお、本発明の別の態様においては、コンピュータ装置を上記各手段(すなわち、素片選択手段、および素片連結手段)として機能させるプログラムを提供する態様であっても良い。
ここで、第1の遷移部分(すなわち、無音から無声摩擦音への遷移部分)と第2の遷移部分(同無声摩擦音から無音への遷移部分)の何れをデータベースの格納対象とし、或いはデータベース化の対象から除外するのかについては、音声合成の対象言語との関係で定めれば良い。例えば、対象言語が英語である場合には、第2の遷移部分に比較して第1の遷移部分の出現頻度が高いため、第1の遷移部分をデータベースの格納対象とする(第2の遷移部分を格納対象から除外する)ことが好ましい。逆に、第2の遷移部分の出現頻度が高い言語が対象言語である場合には、第2の遷移部分を格納対象とする(第1の遷移部分を格納対象から除外する)ことが好ましいことは言うまでもない。
また、上記課題を解決するため、本発明は、各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第1の遷移部分と無音から前記他の子音への第2の遷移部分の連結で当該音声素片を置き換え、前記第1の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第2の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段とを有することを特徴とする音声合成装置、を提供する。
このような音声合成装置によれば、無声摩擦音から他の子音への遷移部分の音声素片は、上記無声摩擦音から無音への第1の遷移部分と、無音から上記他の子音への第2の遷移部分の連結に置き換えられるため、この音声素片に対応する音声素片データが音声素片データベースに格納されていなくても、上記音声素片を含む音声を合成することが可能になる。さらに、上記第1の遷移部分の音声素片データは、無音から上記無声摩擦音への遷移部分の音声素片データに時間反転を施して生成されるため、この第1の遷移部分の音声素片データについても音声素片データベースに格納しておく必要はない。つまり、上記音声合成装置によれば、従来の素片接続方式の音声合成に比較して、無声摩擦音から他の子音への遷移部分と上記第1の遷移部分の分だけ、データベース化を要する音声素片を削減することが可能になる。なお、本発明の別の態様においては、コンピュータ装置を上記各手段として機能させるプログラムを提供する態様であっても良い。
以下、図面を参照しつつ本発明の一実施形態について説明する。
図1は、本発明に係る音声合成装置の一実施形態である歌唱合成装置の構成を示すブロック図である。この歌唱合成装置は、例えば携帯電話機や携帯型ゲーム機など音声を出力する機能を備えた携帯端末に音声合成プログラムをインストールしたものであり、前述した素片接続方式で歌唱音声の合成を行う。図1において、CPU(Central Processing Unit)1は、この歌唱合成装置の各部を制御する制御中枢である。ROM(Read Only Memory)2は、ローダなど、この歌唱合成装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。表示部3は、例えば液晶ディスプレイとその駆動回路であり、装置の動作状態や入力データ、利用者に対するメッセージなどを表示する。操作部4は、利用者に各種情報を入力させるための手段であり、複数の操作子(例えば、携帯型ゲーム機であればスタートボタンやカーソルキー、携帯電話であればテンキーなど)やタッチパネルなどで構成されている。インタフェース群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、UMD(Universal Media Disc)やCD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバなどである。フラッシュメモリ6は、データの書き込みおよび読み出しが可能な不揮発性メモリであり、各種のプログラムやデータベースなどの情報を記憶するためのものである。RAM(Random Access Memory)7は、CPU1によってワークエリアとして利用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令にしたがいフラッシュメモリ6内のプログラムをRAM7に読み出し実行する。サウンドシステム8は、この歌唱合成装置において合成される音声を出力する手段である。このサウンドシステム8は、合成音声の波形を示すデジタル音声信号(例えば、合成音声の波形を示すサンプリングデータ)をアナログ音声信号に変換するD/A変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等を含んでいる。
フラッシュメモリ6に記憶されている情報としては、曲編集プログラム61、曲データ62、音声素片データベース63、および音声合成プログラム64が挙げられる。曲データ62は、曲を構成する一連の音符を表す音符データと、音符に合わせて発音する歌詞を表す歌詞データと、曲に音楽的表情を与えるためのダイナミックス情報等のその他の情報とを含んでいる。この曲データ62は、曲毎に作成されフラッシュメモリ6に格納される。
曲編集プログラム61は、曲データ62を編集するためにCPU1によって実行されるプログラムである。好ましい態様において、この曲編集プログラム61は、ピアノの鍵盤の画像からなるGUI(Graphical User Interface)を表示部3に表示させる。ユーザは、表示部3に表示される鍵盤における所望の鍵の画像に対する操作部4の操作により音符を指定し、その音符に合わせて発音する歌詞を操作部4の操作により入力することができる。ここで、歌詞の入力は、図2(A)に示すように、仮名入力で行っても良く、また、図2(B)に示すように音声記号入力で行っても良い。曲編集プログラム61は、このようにして、音符とその音符に合わせて発音される歌詞に関する情報を操作部4を介して受け取り、音符毎に音符データと歌詞データとを曲データ62としてフラッシュメモリ6内に格納する。さらに、ユーザは操作部4の操作によりダイナミック情報等を曲データ62に追加することができる。なお、このように曲データ62の全てを操作部4の操作により入力させるのではなく、歌唱合成装置に鍵盤を接続し、ユーザによる鍵盤の操作を検知することにより音符データを生成し、この音符データに対応させる歌詞を操作部4の操作により入力させるようにしても良い。また、他の装置で作成した曲データ62をインタフェース群5を介してこの歌唱合成装置へ入力し、フラッシュメモリ6に格納させる態様でも良く、この態様においては曲編集プログラム61をフラッシュメモリ6に格納しておく必要はない。
1個の音符に対応した音符データは、音符の発生時刻、音高、音符の長さを示す各情報を含んでいる。歌詞データは、音符に合わせて発音するべき歌詞を音符毎に定義したデータである。曲データ62は、曲の開始からの発生順序に合わせて、個々の音符に対応した音符データと歌詞データとを時系列的に並べたものであり、曲データ62内においては音符データと歌詞データとは音符単位で対応付けられている。
音声合成プログラム64は、曲データ62にしたがって音声(本実施形態では、歌唱音声)を合成する処理を、CPU1に実行させるプログラムである。好ましい態様において、音声合成プログラム64と曲編集プログラム61は、例えばインターネット内のサイトからインタフェース群5の中の適当なものを介してダウンロードされ、フラッシュメモリ6にインストールされる。また、他の態様において、音声合成プログラム64等は、CD−ROMやUMD等のコンピュータ装置読取可能な記録媒体に記録された状態で取引される。この態様では、インタフェース群5の中の適当なものを介して記録媒体から音声合成プログラム64等が読み出され、フラッシュメモリ6にインストールされる。
音声素片データベース63は、子音から母音への遷移部分、母音から他の母音への遷移部分など音素から音素への遷移部分や、母音の伸ばし音など、歌声の素材となる各種の音声素片を示す音声素片データの集合体である。これらの音声素片データは、実際に人間が発した音声波形から抽出された音声素片に基づいて作成されたデータである。音声素片データベース63では、男性歌手、女性歌手、澄んだ声の歌手、ハスキーな声の歌手など、声質の異なった歌手毎に、各歌手の歌唱音声波形から得られる音声素片データのグループが用意されている。音声合成プログラム64による歌唱合成の際、ユーザは、操作部4の操作により、以上のような各種の音声素片データのグループの中から歌唱合成に使用する音声素片データのグループを選択することができる。
前述したように、音声素片データベース63には、できるだけ多くの音声素片データが格納されていることが好ましい。しかし、本実施形態では、音声素片データベース63は、フラッシュメモリ6に格納されるので、音声素片データベース63に格納する音声素片データの数を最小限に絞り込む必要がある。何故ならば、フラッシュメモリの記憶容量はハードディス等に比較して小さいことが一般的だからである。そこで、本実施形態では、無声摩擦音から他の子音への遷移部分の音声素片データと、無声摩擦音から無音への遷移部分の音声素片データとを音声素片データベースの格納対象から除外する(なお、無音から無声摩擦音への遷移部分は格納対象)ことで上記絞込みを実現している。これらを格納対象から除外した理由は以下の通りである。
特許文献1等に開示された従来の素片接続方式の歌唱合成技術では、無声摩擦音から他の子音への遷移部分、無声摩擦音から無音への遷移部分を示すものも音声素片データベースに格納されている。何故ならば、これらの遷移部分の音声素片は、母音の脱落した音声の合成の際に使用されるからである。図3(A)は、母音の脱落が発生していない「す」の発音の素片構成を示す図であり、図3(B)および図3(C)は、各々母音(u)の脱落した「す」の発音の素片構成を示す図である。図3(B)および図3(C)に示すように、このような母音の脱落は、無音から無声摩擦音(図3(B)では、無音から子音s)への遷移部分と同無声摩擦音から無音への遷移部分の連続で表現されるものと、無声摩擦音から他の子音(図3(C)では、子音sから子音t)への遷移部分で表現されるものとがある。このような母音の脱落は主に英語等で良く見られる現象である。図3(B)および図3(C)を参照すれば明らかように、無声摩擦音から他の子音への遷移部分や、無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース63に格納されていないと、母音の脱落した音声を合成することはできない。なお、無声摩擦音から他の子音への遷移部分については、図3(C)に示すように、無声摩擦音から無音への遷移部分と無音から上記他の子音への遷移部分とに置き換えて表現することも可能である。しかし、無声摩擦音から無音への遷移部分がデータベース化の対象とされていない状況下では、このような方法によっても図3(C)に示すような母音の脱落を表現することはできない。本実施形態では、無音から無声摩擦音への遷移部分の音声素片データを利用することで上記のような不具合の発生を回避しているのである。この点については後に詳細に説明する。
音声素片データベース63に格納されている各音声素片データは、音声素片の波形を示す波形データを含んでいる。本実施形態では、この波形データは、音声素片の波形を所定のサンプリングレートでサンプリングしたサンプル列であり、各音声素片データは、音声素片を構成する音素の種類と各音素の開始時刻を示すセグメンテーションデータを含む。なお、本実施形態では、上記波形データとしてサンプリングデータ列を用いるが、音声素片の波形のサンプル列を一定時間長のフレームに分割し、FFT(高速フーリエ変換)を行うことにより得られたフレーム毎のスペクトル(振幅スペクトルおよび位相スペクトル)を表すデータを上記波形データとして用いても勿論良い。
本実施形態では、音声素片データに含まれる波形データにピッチ変換を施して利用することにより、任意のメロディに対応した歌唱音声を合成する。このピッチ変換については、例えば特許文献1に開示されている手法を採用すれば良い。ピッチ変換を行うためには、その対象である波形データのピッチに関する情報が必要である。そこで、ある好ましい態様では、歌唱合成の際のピッチ変換の便宜のため、音声素片のピッチがフレーム毎に算出され、各フレームにおけるピッチを示す素片ピッチデータが音声素片データの一部として音声素片データベース63に格納される。また、他の好ましい態様では、歌唱合成の際の演算処理の便宜のため、上記素片ピッチデータに加えて、音声素片の振幅スペクトルの包絡線がフレーム毎に求められ、各フレームにおけるスペクトル包絡を示すスペクトル包絡データの一部として音声素片データベース63に格納される。
次いで、音声合成プログラム64の構成について説明する。
図4は、音声合成プログラム64の構成を説明するための図である。この音声合成プログラム64は、所謂素片接続方式の音声合成(本実施形態では、歌唱合成)処理をCPU1に実行させるプログラムであり、図4に示すように、音声合成指示生成手段641、素片選択手段642、ピッチ変換手段643、および素片連結手段644を含んでいる。なお、本実施形態では、CPU1が音声合成指示生成手段641等に相等するプログラムを実行することにより歌唱音声の合成を行うが、これらの各プログラムを複数のプロセッサが分担して並列実行するように構成しても良い。また、音声合成指示生成手段641等の各プログラムの一部を電子回路により構成しても良い。
音声合成指示生成手段641は、操作部4の操作により指定された曲データ62から音声合成指示650を生成するプログラムである。本実施形態における音声合成指示650は、所謂歌唱合成スコアであり、音韻データトラック651と、ピッチデータトラック652と、その他のデータトラック653と、を含んでいる。これら各データトラックは時間軸を共通にするものである。音韻データトラック651は、1曲分の歌唱音声を合成するのに使用する複数の音声素片と、それらの各音声素片の時間軸上における位置(具体的には、音声素片の開始タイミングおよび継続時間)を示すデータトラックである。ピッチデータトラック652は、合成するべき歌唱音声のピッチを示すデータトラックである。
音声合成指示生成手段641は、基本的には音符データに従い、また、ビブラートやポルタメント、レガートの指示がある場合にはそれに従い、ピッチデータトラック652を生成する。ただし、ピッチデータトラックを音符データ通りのものにすると、ピッチの変化が階段状になり、不自然な歌唱音になるので、本実施形態では、ピッチの切り換り区間においてピッチが自然な動きとなるように、ピッチデータトラック652が示すピッチに変化を与える。その他のデータトラック653は、曲データ62に含まれるダイナミックス情報等に基づいて作成される。
素片選択手段642、ピッチ変換手段643および素片連結手段644は、音声合成指示650に従って歌唱音声の波形を示す波形データである歌唱音声データを生成する役割を担っている。ここで、音声合成指示650から歌唱音声データを生成する処理は、1曲分の音声合成指示650の生成が完了した後に開始するようにしても良く、音声合成指示650の生成開始から少し遅れて開始するようにしても良い。
素片選択手段642は、音声合成指示650の音韻データトラック651において指定されている音声素片に該当する音声素片データを音声素片データベース63から選択し、その音声素片データをピッチ変換手段643に出力するプログラムである。本実施形態における素片選択手段642は、音声素片データをピッチ変換手段643に引渡す際に、その音声素片データに含まれる波形データの継続時間長を音声合成指示650において指定された音声素片の継続時間長に合わせる機能を備えている。
ピッチ変換手段643は、ピッチデータトラック652において指定されたピッチに対応した波形データとなるように、素片選択手段642から出力される音声素片データに含まれる波形データにピッチ変換を施すプログラムである。さらに詳述すると、本実施形態では、音声素片データに含まれる波形データはサンプル列であるため、ピッチ変換手段643は、まず、所定サンプル数からなるフレーム単位でサンプル列のFFT(高速フーリエ変換)を行い、音声素片の振幅スペクトルおよび位相スペクトルをフレーム毎に求める。そして、ピッチ変換手段643は、ピッチデータトラック652において指定されたピッチに対応するように、各フレームにおける振幅スペクトルを周波数軸方向に伸張または圧縮する。その際、基音および倍音に相等する周波数の近傍は、元のスペクトルの概形が保たれるように、非線形な伸張または圧縮を行い、ピッチ変換後の振幅スペクトルとする。また、ピッチ変換後においても、ピッチ変換前のスペクトル包絡が維持されるように、非線形な圧縮または伸張を経た振幅スペクトルのレベル調整を行う。位相スペクトルに関しては、元の位相スペクトルをそのままピッチ変換後の位相スペクトルとしても良いが、振幅スペクトルの周波数軸方向の圧縮または伸張に合わせて補正を行ったものをピッチ変換後の位相スペクトルとする方が好ましい。なお、上記波形データとして、音声素片の振幅スペクトルおよび位相スペクトルを表すデータを用いる場合には、上記FFTを行うことなく、周波数軸方向の伸張または圧縮を施すようにすれば良い。
素片連結手段644は、最終的に得られる歌唱音声が一連の音声素片が滑らかに繋がったものとなるように、ピッチ変換手段643の処理を経た波形データの調整を行い、この調整後の波形データをIFFT(逆高速フーリエ変換)により時間領域のデジタル音声信号に変換してサウンドシステム8に出力するプログラムである。
以上に説明した音声合成プログラム64の構成要素のうち、音声合成指示生成手段641(本実施形態では、歌唱合成スコア生成手段)、ピッチ変換手段643、および素片連結手段644については特許文献1に開示されたものと何ら変るところはない。これに対して、本実施形態の素片選択手段642は、無音から無声摩擦音への第1の遷移部分と前記無声摩擦音から無音への第2の遷移部分とが連続して音声合成指示650にて指定されている場合、または、無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示650にて指定されている場合に、本実施形態の特徴を顕著に示す処理を実行する。
より詳細に説明すると、無音から無声摩擦音への第1の遷移部分と同無声摩擦音から無音への第2の遷移部分とが連続して音声合成指示650にて指定されている場合、素片選択手段642は、当該第2の遷移部分については、当該第2の遷移部分に先行する第1の遷移部分(すなわち、無音から無声摩擦音への遷移部分)に対応する音声素片データを音声素片データベース63から選択し、当該音声素片データに含まれる波形データに時間反転を施したものを出力する処理(以下、無音接続合成処理)を実行する。
前述したように、無音から無声摩擦音への第1の遷移部分と同無声摩擦音から無音への第2の遷移部分とが連続して音声合成指示650にて指定されている場合とは、図3(B)に示すような態様で母音が脱落した音声の合成を指示されている、ということである。この場合、素片選択手段642は、まず、無音から無声摩擦音への遷移部分(上記第1の遷移部分)の音声素片データを音声素片データベース63から読み出して出力する。次いで、素片選択手段642は、上記音声素片データに時間反転を施して得られるものを、上記無声摩擦音から無音への遷移部分(すなわち、上記第2の遷移部分)の音声素片データとして出力する(図3(D)参照)。この時間反転の具体的な実施態様としては種々のものが考えられる。例えば、音声素片データに含まれる波形データがサンプル列である場合には、それらサンプル列を逆順に配列し直すことで実現される。また、上記波形データとしてフレーム毎のスペクトル(振幅スペクトルおよび位相スペクトル)を表すデータを用いる場合には、それらデータをフレーム単位の逆順にIFFTすることで時間反転が実現される。このように本実施形態によれば、無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース63に格納されていなくても、図3(B)に示すタイプの母音の脱落した音声を合成することができる。
これに対して、無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示650にて指定されている場合は、素片選択手段642は、無声摩擦音から無音への第1の遷移部分と無音から他の子音への第2の遷移部分の連結で当該音声素片を置き換え、第1の遷移部分については、無音から同無声摩擦音への遷移部分に対応する音声素片データを音声素片データベース63から選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、第2の遷移部分については該当する音声素片データを素片データベース63から選択して出力する処理(以下、子音接続合成処理)を実行する。
無声摩擦音から他の子音への遷移部分の音声素片が音声合成指示650にて指定されている場合とは、図3(C)に示すような態様で母音が脱落した音声の合成を指示されている、ということである。この場合、素片選択手段642は、まず、無音から無声摩擦音への遷移部分の音声素片データを音声素片データベース63から読み出し、これに時間反転を施したものを上記第1の遷移部分の音声素片データとして出力する。次いで、素片選択手段642は、上記第2の遷移部分の音声素片データを素片選択データベース63から読み出し、そのまま出力する(図3(E)参照)。このように本実施形態によれば、無声摩擦音から他の子音への遷移部分の音声素片データや無声摩擦音から無音への遷移部分の音声素片データが音声素片データベース63に格納されていなくても、図3(C)に示すタイプの母音の脱落した音声を合成することができる。
以上説明したように本実施形態に係る歌唱合成装置によれば、従来技術に比較して、無声摩擦音から他の子音への遷移部分や無声摩擦音から無音への遷移部分の分だけデータベース化する音声素片の数を削減しつつ、自然な歌唱音声の合成を行うことが可能になる。
以上、本発明の一実施形態について説明したが、この実施形態を以下のように変形しても勿論良い。
(1)上述した実施形態では、無音接続合成処理、および子音接続合成処理を素片選択手段642に実行させるようにすることで、無声摩擦音から無音への遷移部分、および無声摩擦音から他の子音への遷移部分を示す音声素片のデータベース化を不要にし、音声素片データベース63に格納する音声素片の数を削減した。しかし、本実施形態の特徴を顕著に示す上記2つの処理のうち、何れか一方のみを素片選択手段642に実行させるようにしても良い。例えば、無音接続合成処理のみを実行させる態様においては、無声摩擦音から無音への遷移部分をデータベース化しておく必要はないものの、無声摩擦音から他の子音への遷移部分については従来と同様にデータベース化しておく必要がある。ただし、このような態様においても、無声摩擦音から無音への遷移部分をデータベース化しない分だけ、従来の素片接続方式の音声合成技術に比較して音声素片データベースに格納しておくべき音声素片の数を削減することができる。同様に、素片選択手段642に子音接続合成処理のみを実行させ、無声摩擦音から無音への遷移部分については予めデータベース化しておく態様であっても勿論良い。
(2)上述した実施形態では、無音から無声摩擦音への遷移部分の音声素片データを音声素片データベース63の格納対象とし、無声摩擦音から無音への遷移部分の音声素片データを格納対象から除外したが、無声摩擦音から無音への遷移部分の音声素片データを音声素片データベース63の格納対象とし、無音から無声摩擦音への遷移部分の音声素片データを格納対象から除外しても良い。ただし、この態様においては、無音から無声摩擦音への第1の遷移部分と同無声摩擦音から無音への第2の遷移部分とが連続して音声合成指示650にて指定されている場合に、以下の態様の無音接続合成処理を素片選択手段642に実行させる必要がある。すなわち、第1の遷移部分については、無声摩擦音から無音への遷移部分(すなわち、上記第2の遷移部分)に対応する音声素片データを音声素片データベース63から選択し、当該音声素片データに含まれる波形データに時間反転を施したものを出力する処理を素片選択手段642に実行させるのである。
ここで、第1の遷移部分(すなわち、無音から無声摩擦音への遷移部分)と第2の遷移部分(無声摩擦音から無音への遷移部分)の何れを音声素片データベース63の格納対象とし、或いはデータベース化の対象から除外するのかについては、音声合成の対象言語との関係で定めれば良い。例えば、対象言語が英語である場合には、第2の遷移部分に比較して第1の遷移部分の出現頻度が高いため、第1の遷移部分をデータベースの格納対象とする(第2の遷移部分を格納対象から除外する)ことが好ましい。逆に、第2の遷移部分の出現頻度が高い言語が対象言語である場合には、第2の遷移部分を格納対象とする(第1の遷移部分を格納対象から除外する)ことが好ましいことは言うまでもない。
(3)ピッチデータトラック652については、上記実施形態に挙げたもの以外の方法により音符の切り換り部分のピッチに動きを与えても良い。例えばユーザが操作部4の操作によりピッチに動きを与える構成でも良い。
(4)上述した実施形態では、仮名入力と音声記号入力の何れによっても歌詞の入力ができるようにしたが、例えば、仮名入力で歌詞が入力された場合には、常に母音の脱落がない態様で歌唱合成を行い、音声記号入力で歌詞が入力された場合には、その入力内容に応じて母音の脱落の発生の有無を制御するようにしても良い。また、仮名入力の場合には、母音の脱落を指示する制御文字をその脱落箇所に付与してその旨を指示するようにしても良い。例えば、母音の脱落を指示する制御文字として“%”を用い、図3(B)に示す態様の母音の脱落を指示する場合には、“す%”と入力し、図3(C)に示す態様の母音の脱落を指示する場合には、“す%た”と入力するようにすれば良い。
(5)素片連結手段644は、周波数領域の情報である波形データ(振幅スペクトル、位相スペクトル)を時間領域の情報であるデジタル音声信号に変換した後、このデジタル音声信号を対象としてスムージング処理を行うようにしても良い。例えば、先行音声素片の最後のn個の波形データと後続音声素片の最初のn個の波形データからIFFTにより得られた時間領域のデジタル音声信号を対象としてクロスフェードを行い、最終的なデジタル音声信号としても良い。
(6)音声合成指示は、音声合成パラメータの時系列情報であれば良く、1曲分に限らず、曲の1部分についての時系列情報でも良い。
(7)上述した実施形態では、音声合成の素材となる各音声素片の音声素片データの集合からなる音声素片データベース63が歌唱合成装置(音声合成装置)のフラッシュメモリ6に格納されていた。しかし、上記音声素片データベース63をSDメモリやUMDなどのコンピュータ装置記録媒体に書き込んで流通させ、これら記録媒体に格納されている音声素片データベース63へのインタフェース群5経由でのアクセスにより、音声合成指示650にて指定された音声素片に対応する音声素片データを読み出す処理をCPU1に実行させても良い。このような態様においては、歌唱合成装置(音声合成装置)が備える記憶装置の記憶容量の大小が問題となることはない。しかし、一般にUMDやSDメモリの記憶容量はハードディスク等に比較して小さいため、上記実施形態にて説明した手法により、データベース化する音声素片の数を削減することには十分な意義がある。
(8)上述した実施形態では、歌唱音声(すなわち、曲に合わせて歌唱する音声)の合成に本発明を適用したが、発話音声など歌唱音声以外の音声の合成に本発明を適用しても勿論良い。発話音声の合成の場合においても、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示を生成する処理を音声合成指示生成手段641に実行させ、素片選択手段642から出力される各音声素片データに対してピッチ変換手段643によるピッチ変換を施し、ピッチ変換後の波形データを調整しつつ連結して出力する処理を素片連結手段644に実行させるようにすれば良い。
(9)上述した実施形態では、音声合成プログラム64にしたがってCPU1を作動させることにより、そのCPU1を、音声合成指示生成手段641、素片選択手段642、ピッチ変換手段643および素片連結手段644として機能させた。しかしながら、インタフェース群5のうちの適当なものを介して他の装置から音声合成指示650が与えられる態様においては、CPU1を音声合成指示生成手段641として機能させる必要はない。また、合成音声を構成する音声素片毎にピッチの指定を行わない態様においては、CPU1をピッチ変換手段643として機能させる必要はない。つまり、本発明に特徴的な音声合成を実現するには、音声合成指示生成手段641およびピッチ変換手段643は必ずしも必須ではなく、素片選択手段642および素片連結手段644としてCPU1を機能させることができれば良い。
この発明の一実施形態である歌唱合成装置の構成例を示す図である。 発音内容(歌詞)の入力態様の一例を示す図である。 母音の脱落した音声素片の一例、および本実施形態の原理を説明するための図である。 同歌唱合成装置のフラッシュメモリ6に格納されている音声合成プログラム64の構成を説明するための図である。
1…CPU、2…ROM、3…表示部、4…操作部、5…インタフェース群、6…フラッシュメモリ、61…曲編集プログラム、62…曲データ、63…音声素片データベース、64…音声合成プログラム、641…音声合成指示生成手段、642…素片選択手段、643…ピッチ変換手段、644…素片連結手段、7…RAM。

Claims (4)

  1. 各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、
    音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無音から無声摩擦音への第1の遷移部分と前記無声摩擦音から無音への第2の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第1および第2の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、
    前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
    を有することを特徴とする音声合成装置。
  2. 各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースと、
    音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを前記音声素片データベースから選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第1の遷移部分と無音から前記他の子音への第2の遷移部分の連結で当該音声素片を置き換え、前記第1の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第2の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、
    前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段と
    を有することを特徴とする音声合成装置。
  3. コンピュータ装置を、
    各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースから、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを選択し出力する手段であって、無音から無声摩擦音への第1の遷移部分と前記無声摩擦音から無音への第2の遷移部分とが連続して前記音声合成指示により指定されている場合には、前記第1および第2の遷移部分のうちの何れか一方については前記音声素片データベースから該当する音声素片データを選択して出力し、他方については当該音声素片データに含まれる波形データに時間反転を施したものを出力する素片選択手段と、
    前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段
    として機能させることを特徴とするプログラム。
  4. コンピュータ装置を、
    各種の音声素片の波形を示す波形データを含む音声素片データを記憶する音声素片データベースから、音声の合成に用いる複数の音声素片を指定する情報を時系列化した音声合成指示にしたがって音声素片データを選択し出力する手段であって、無声摩擦音から他の子音への遷移部分の音声素片が前記音声合成指示により指定されている場合には、前記無声摩擦音から無音への第1の遷移部分と無音から前記他の子音への第2の遷移部分の連結で当該音声素片を置き換え、前記第1の遷移部分については、無音から前記無声摩擦音への遷移部分に対応する音声素片データを前記音声素片データベースから選択し当該音声素片データに含まれる波形データに時間反転を施したものを出力する一方、前記第2の遷移部分については該当する音声素片データを前記素片データベースから選択して出力する素片選択手段と、
    前記素片選択手段から出力される各音声素片データに含まれる波形データを調整しつつ連結して出力する素片連結手段
    として機能させることを特徴とするプログラム。
JP2009003576A 2009-01-09 2009-01-09 音声合成装置、およびプログラム Expired - Fee Related JP5157922B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009003576A JP5157922B2 (ja) 2009-01-09 2009-01-09 音声合成装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009003576A JP5157922B2 (ja) 2009-01-09 2009-01-09 音声合成装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010160406A true JP2010160406A (ja) 2010-07-22
JP5157922B2 JP5157922B2 (ja) 2013-03-06

Family

ID=42577594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009003576A Expired - Fee Related JP5157922B2 (ja) 2009-01-09 2009-01-09 音声合成装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5157922B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208479A (ja) * 2011-03-11 2012-10-25 Yamaha Corp 音声合成装置
TWI471853B (zh) * 2011-08-26 2015-02-01 Yamaha Corp Music generating device
CN107025902A (zh) * 2017-05-08 2017-08-08 腾讯音乐娱乐(深圳)有限公司 数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6295600A (ja) * 1985-10-23 1987-05-02 株式会社リコー 残差駆動型音声合成方式
JPS6490500A (en) * 1987-09-30 1989-04-06 Sharp Kk Voice synthesizer
JPH03149600A (ja) * 1989-11-06 1991-06-26 Canon Inc 音声合成方法及び装置
JP2006243473A (ja) * 2005-03-04 2006-09-14 Sharp Corp 音声素片生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6295600A (ja) * 1985-10-23 1987-05-02 株式会社リコー 残差駆動型音声合成方式
JPS6490500A (en) * 1987-09-30 1989-04-06 Sharp Kk Voice synthesizer
JPH03149600A (ja) * 1989-11-06 1991-06-26 Canon Inc 音声合成方法及び装置
JP2006243473A (ja) * 2005-03-04 2006-09-14 Sharp Corp 音声素片生成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208479A (ja) * 2011-03-11 2012-10-25 Yamaha Corp 音声合成装置
TWI471853B (zh) * 2011-08-26 2015-02-01 Yamaha Corp Music generating device
CN107025902A (zh) * 2017-05-08 2017-08-08 腾讯音乐娱乐(深圳)有限公司 数据处理方法及装置
CN107025902B (zh) * 2017-05-08 2020-10-09 腾讯音乐娱乐(深圳)有限公司 数据处理方法及装置

Also Published As

Publication number Publication date
JP5157922B2 (ja) 2013-03-06

Similar Documents

Publication Publication Date Title
US10354629B2 (en) Sound control device, sound control method, and sound control program
JP2008170592A (ja) 歌唱合成のための装置およびプログラム
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP2013137520A (ja) 音楽データ編集装置
JP6127371B2 (ja) 音声合成装置および音声合成方法
JP6507579B2 (ja) 音声合成方法
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
JP5423375B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6044284B2 (ja) 音声合成装置
JP6167503B2 (ja) 音声合成装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP3843953B2 (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP2020166298A (ja) 音声合成方法
JPH0227397A (ja) 音声合成歌唱装置
JP2019168620A (ja) 合成音生成装置、方法、及びプログラム
JP2005107028A (ja) 音色パラメータ編集装置、方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5157922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees