JP4357791B2

JP4357791B2 - 電子透かし入り音声合成システム、合成音声の透かし情報検出システム及び電子透かし入り音声合成方法

Info

Publication number: JP4357791B2
Application number: JP2002097052A
Authority: JP
Inventors: 博松浦; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-29
Filing date: 2002-03-29
Publication date: 2009-11-04
Anticipated expiration: 2022-03-29
Also published as: JP2003295878A

Description

【０００１】
【発明の属する技術分野】
本発明は、電子透かし入り音声合成システム、電子透かし入り音声合成方法などに関する。
【０００２】
【従来の技術】
任意の文章に基づき人工的に音声を作り出す音声合成は、最近、品質の向上が著しい。それゆえ、例えば誘拐事件などに悪用される危険性なども現実のものとなってきた。また、書籍などをこの合成音声で朗読したものを流通させることも考えられるようになり、その場合の著作権の保護という観点からもこれら合成音声情報に透かし情報を組み込む需要が出てきている。しかし、これまで合成音声に透かし情報を組み込む良い方法が存在しなかった。
【０００３】
【発明が解決しようとする課題】
本発明は、従来の上述のような問題点に鑑みてなされたもので、テキスト合成音声に透かし情報を組み込むシステムと方法などを提供することを目的とする。
【０００４】
【課題を解決するための手段】
本発明の請求項１によれば、人工的な音声を生成する音声合成システムであって、音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、この音声素片選択部出力の音声波形データに、透かし情報としての符号データを振幅の修正として付与する振幅修正部と、この振幅修正部により修正された音声素片を含む音声信号を、前記ピッチマーク生成部出力のピッチマークに従って波形を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システムを提供する。
【０００５】
本発明の請求項２によれば、人工的な音声を生成する音声合成システムであって、音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、この音声素片選択部出力の音声波形データに、透かし情報としての符号データを音声素片の位相の修正として付与する位相修正部と、この位相修正部により修正された音声素片を含む音声信号を、前記ピッチマーク生成部出力のピッチマークに従って波形を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システムを提供する。
【０００６】
本発明の請求項３によれば、人工的な音声を生成する音声合成システムであって、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、このピッチマーク生成部出力のピッチマークデータに、透かし情報としての符号データをピッチの修正として付与するピッチ修正部と、このピッチ修正部により修正されたピッチマークに従って、前記音声素片選択部出力の音声素片を含む音声信号を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システムを提供する。
【０００７】
本発明の請求項４によれば、透かし情報が音声素片に振幅として埋め込まれている合成音声から、音声素片を抽出する手段と、この手段により抽出された音声素片のパターンを該当する音声素片の典型的なパターンと比較することにより、振幅に埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システムを提供する。
【０００８】
本発明の請求項５によれば、透かし情報が音声素片に位相として埋め込まれている合成音声から、ピッチマークを抽出する手段と、この手段により抽出されたピッチマークからピッチ波形を切り出す手段と、この手段により切り出されたピッチ波形の位相を判定することにより、位相に埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システムを提供する。
【０００９】
本発明の請求項６によれば、透かし情報が音声素片に振幅として埋め込まれている合成音声から、そのピッチマークを検出する手段と、この手段により検出されたピッチマークを通常のピッチマークと比較することにより、前記ピッチマークに埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システムを提供する。
【００１０】
本発明の請求項７によれば、人工的な音声を生成する音声合成方法であって、音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、この音声素片選択ステップにより選択された音声波形データに、透かし情報としての符号データを振幅の修正として付与する振幅修正ステップと、この振幅修正ステップにより修正された音声素片を含む音声信号を前記ピッチマーク生成ステップにより生成されたピッチマークに従って波形を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法を提供する。
【００１１】
本発明の請求項８によれば、人工的な音声を生成する音声合成方法であって、音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、この音声素片選択ステップにより選択された音声波形データに、透かし情報としての符号データを音声素片の修正として付与する位相修正ステップと、この位相修正ステップにより修正された音声素片を含む音声信号を前記ピッチマーク生成ステップにより生成されたピッチマークに従って波形を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法を提供する。
【００１２】
本発明の請求項９によれば、人工的な音声を生成する音声合成方法であって、音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、このピッチマーク生成ステップにより生成されたピッチマークデータに、透かし情報としての符号データをピッチの修正として付与するピッチ修正ステップと、このピッチ修正ステップにより修正されたピッチマークに従って、前記音声素片選択ステップにより選択された音声素片を含む音声信号を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法を提供する。
【００１３】
【発明の実施の形態】
以下、本発明の実施形態について図面を用いて説明する。
【００１４】
音声素片の振幅に１，０の符号列を入れる、本発明の第１の実施形態のシステムの構成例を図１に示す。このエンコーダシステム１０は、合成音声のピッチマークを生成するピッチマーク生成部１１と、文章（テキスト）の各音韻記号列から該当音声素片を選択して出力する音声素片選択部１２と、音韻記号に対応する音声素片を格納する音声素片辞書１３と、透かし情報の符号を音声素片情報に反映させる符号付与部１４と、ピッチマークと透かし情報符号付与済の音声素片を重畳する波形重畳部１５から成る。
【００１５】
まず音声素片選択部１２は、テキスト、即ち音韻記号列の各音韻記号に対応する音声素片を音声素片辞書１３から選択し出力する。この音声素片は、母音、子音などの基本となる小さな単位の特徴パラメータや音声波形データなどから成り、図２に示した例における音声素片２１のようなものである。
【００１６】
符号付与部１４は、透かし情報として組み入れたい符号（例えば“０１０１・・・・"）の各ビットに対応した音声素片（音声波形データ）の振幅を、符号のビット値が“０"ならば実際の振幅に対して０．９倍、ビット値が“１"ならば１．１倍して符号付与済み音声素片２２として出力する。この振幅変更の対象となる音声波形データにおける箇所は、極めて狭い範囲の周波数帯域とし予め決められたものとする。
【００１７】
符号付与済みの音声素片２２は、音節のピッチを設定するピッチマーク生成部１１からのピッチマークと、音韻継続時間長などの情報と共に波形重畳部１５により時間軸上に重畳されて合成出力される。
【００１８】
上記処理の手順を、図３に示すフローチャートを用いて説明する。まず、ステップＳ３１では音声素片選択部１２が、入力された音韻記号に対応する音声素片を音声素片辞書１３より検索・選択して出力することにより、音韻記号から音声素片への変換を行う。
【００１９】
ステップＳ３２では、符号付与部１４において入力された符号情報をもとに、図２の２２で示したように、音声素片（音声波形データ）の特定部分（予め決められた極めて狭い範囲の周波数帯域）の振幅を０．９、または１．１倍することにより変更し出力する。
【００２０】
一方、ステップＳ３３でピッチマーク生成部１１において音節のピッチパターンよりピッチマークデータを作成する。
【００２１】
ステップＳ３４では、波形重畳部１５においてステップＳ４２で生成された符号付与済みの音声波形データを、ピッチマーク生成部１１で生成されたピッチマークと音韻継続時間長などと共に重畳し、ステップＳ３５において合成音声として出力する。
【００２２】
このようにして合成音声中に、聴視者の耳には分からないように透かし情報を組み込むことができる。
【００２３】
その結果は、図４に示すように、例えば「あらゆる」の合成音声のなかの「ａ」の母音に上記符号列を入れるとすると、「あ」の音声素片４１や「ら」の音声素片４２の波形の振幅に上記符号の影響が現れることになる。
【００２４】
透かしの情報は、1ピッチに1ビットを埋め込むようにしてもよいし、数ピッチを1ブロックとして、1ブロックに1ビットを埋め込むようにしてもよい。また、1音韻に1ビットを埋め込むようにしてもよい。透かし情報は、出力する音声の先頭から1回だけ順次埋め込むようにしてもよいし、ポーズが入った場合にその直後から毎回埋め込むようにしても良い。
【００２５】
上述した実施形態では、合成する際にその都度透かし情報を埋め込むようにしたが、予め音声素片に埋め込んでおくようにしても良い。図１０は、標準版音声素片辞書に透かし情報を埋め込んで、透かし入り音声素片辞書を作成する実施形態を表している。透かしデータの各ビットが、どの音韻に埋め込まれるかを規定する透かしデータ挿入情報を予め決めておき、この情報と透かしデータに従って標準版音声素片辞書の振幅を変更し、透かし入り音声素片辞書を生成する。この例では、透かしデータの先頭から1ビット目のデータ"1"が素片/sa/に挿入されるため、/sa/の素片の母音部分の波形が1.1倍されており、同様に先頭から2ビット目のデータ"0"が素片/si/に挿入されるため、/si/の素片の母音部分の波形が0.9倍されている。このように予め音声素片に透かしを埋め込んだ場合は、図１の符号付与部１４は不要であり、選択された素片をそのまま重畳すればよい。
【００２６】
このようにして透かし情報が組み込まれた音声は、その音声素片の振幅が微妙に典型的な音声素片と違っているから、合成音声の音声素片を典型的な音声素片と比較することにより、組み込まれている１，０のデータを取り出すことができる。
【００２７】
次に、上記のように透かし情報が組み込まれた合成音声から、この透かし情報を取り出す（デコード）方法について説明する。図５に透かし情報組み込み済み合成音声のデコーダシステムの構成例を示す。
【００２８】
このデコードシステム５０は、典型的な音声素片を生成する音声素片発生器５１と、合成音声を入力し、各音声素片に分解して抽出する音声素片抽出部５２と、典型パターンの音声素片と抽出パターンの音声素片のタイミングを調整するタイミング制御部５３と、前記２つの音声素片の増幅率を調整するゲイン制御部５４と、２つの音声素片を比較して符号を抽出する符号抽出部５５とから成る。
【００２９】
上記のように音声素片の振幅に透かし情報が組み込まれた合成音声は、音声素片抽出部５２に入力され、各音声素片に分解・抽出され抽出パターン音声素片として出力される。この音声素片の原形である典型パターン音声素片は音声素片発生器５１において生成されあるいは引き出される。
【００３０】
タイミング制御部５３では、上記抽出パターンと典型パターンを時間軸上で合わせるように波形データのタイミング（位相）を合わせる。次に、ゲイン制御部５４において、上記抽出パターンと典型パターンの振幅を同じ増幅率で増幅し、符号抽出部５５の入力とされる。符号抽出部５５では、典型パターン音声素片と抽出パターン音声素片の振幅を比較し、その差分を抽出して透かし情報符号列を取り出す。
【００３１】
このようにして、合成音声に透かし情報を聴視者の耳には分からないように組み込むと同時に、容易に透かし組み込み合成音声からの透かし情報の抽出を行うことができる。
【００３２】
また、音声素片に予め透かし情報を埋め込んだ場合には、図１２に示されるように、差分によって抽出された"0"または"1"の情報と、その情報が埋め込まれていた音韻を特定するための音韻時刻情報、および透かしデータ挿入情報を参照して、透かし情報符号列の各ビットを復号すればよい。
【００３３】
ところで、上述の実施形態では、音声素片の振幅に透かし情報を符号として組み込む方法を示したが、音声素片の位相に符号を組み入れるようにすることもできる。この場合、図１に示した符号付与部１４では、波形のパワースペクトルはそのままに、位相特性を変更することにより符号を埋め込む。この場合の符号付与部１４の具体的な実施例を、図９を用いて説明する。まず入力された波形にフーリエ変換を行って、周波数スペクトルに変換する。次に、周波数スペクトルの振幅を変更せずに、位相のみを全てゼロとする。具体的には、スペクトルの実部をxとし、虚部をyとすると、ゼロ位相化されたスペクトルの実部x'と虚部y'は次の式で求めることができる。
x' = (x*x+y*y)^0.5
y' = 0
全ての周波数でゼロ位相化した後に、逆フーリエ変換によってゼロ位相化した波形を生成する。ゼロ位相化した波形は、その形状が左右対称となっており、元の波形と明確に区別することが可能であるが、ゼロ位相化によって合成音の聞こえ方は変化しない。
【００３４】
このように、位相に透かし情報を埋め込んだ場合は、合成音声から透かし情報を抽出する際に、典型パターンと比較する必要が無いという利点がある。
【００３５】
図１３を用いて、位相に埋め込まれた透かし情報を抽出する、本発明の実施形態について説明する。まずピッチマーク抽出部で合成音声にピッチ分析を行って、ピッチマークを抽出する。次に、ピッチ波形切り出し部において、ピッチマーク位置を中心としピッチ周期の2倍の長さのハニング窓を用いて、各ピッチマークからピッチ波形を切り出す。次に位相特性判定部において、切り出されたピッチ波形の位相を判定する。波形が左右対称に近いゼロ位相化された波形であれば符号"1"を、そうでなければ符号"0"を出力する。この例では、3ピッチを1ブロックとして符号を埋め込んでおり、透かしデコード部において3つの符号を１つにまとめて透かし情報符号列を出力する。
【００３６】
このように数ピッチを1ブロックとすることにより、頻繁な位相変化による音質劣化を防ぐと共に、ノイズなどの混入に対して頑健なデコードを実現することができる効果がある。
【００３７】
ところで、上述の実施形態では、音声素片の振幅に透かし情報を符号として組み込む方法を示したが、音声素片のピッチに符号を組み入れるようにすることもできる。このピッチの変更は、合成音声内の各音声素片のピッチを時間軸上の前後に動かすことによって実現する。次に、この種の本発明の第２の実施形態について説明する。
【００３８】
図６に、ピッチ調整によって透かし情報の符号付与を行う、エンコーダシステム６０の構成例を示す。このシステムは図１と比較して符号付与部１４を省き、代わりに符号をピッチに反映するピッチ調整部６１と、調整情報をピッチパターンに組み入れる符号付与部６２を追加したものである。
【００３９】
音声素片のピッチを微妙に変化させて符号を入れる方法は、図７に示した例のように各典型パターン７１の音声素片（音声波形データ）を時間軸上で一定値以上位相を前に動かしたものを“０"とし、後に動かしたものを“１"として符号を組み入れて出力パターン７２の合成音声を生成する。
【００４０】
図８に処理の流れをフローチャートで示す。ステップＳ８１で音声素片選択部１２が音韻記号を、音声素片辞書１３を用いて音声素片に変換する。
【００４１】
一方、ステップＳ８２では、ピッチマーク生成部１１がピッチパターンからピッチマークを生成する。ステップＳ８３で、ピッチ調整部６１では入力された透かし情報の符号によってピッチ調整情報を生成し、符号付与部６２によりピッチマークを符号の値により変更する。
【００４２】
ステップＳ８４で波形重畳部１５が音声素片を符号化されたピッチマークと音韻継続時間長をもとに重畳し、ステップＳ８５において合成音声として出力する。
【００４３】
本発明のこの実施形態、即ちピッチ調整によって透かし情報を付加する方法では、前述の第１の実施形態の場合よりも、聴視者に聞き分けることのできない符合組み込みを行うことができる利点がある。
【００４４】
【発明の効果】
以上述べたように本発明によれば、合成音声に透かし情報を組み込むことが可能なシステムと方法を得ることができる効果がある。
【図面の簡単な説明】
【図１】本発明における一実施形態のエンコーダの構成例を示す図。
【図２】本発明における一実施形態の原理を説明するための図。
【図３】本発明における一実施形態の動作を説明するためのフローチャートを示す図。
【図４】本発明における一実施形態の具体例を説明するための図。
【図５】本発明における一実施形態のデコーダの構成例を示す図。
【図６】本発明の他の実施形態におけるエンコーダの構成例を示す図。
【図７】本発明の他の実施形態における透かし情報符号列の埋め込み方法を説明するための図。
【図８】本発明における他の実施形態の動作を説明するためのフローチャートを示す図。
【図９】本発明において、透かし情報を音声素片の位相に入れる場合の実施形態を説明するための図。
【図１０】本発明の一実施形態において、透かし情報を予め埋め込んでおく例を説明するための図。
【図１１】本発明の一実施形態において、透かし情報組み込み済み合成音声のデコーダシステムの構成例を示す図。
【図１２】本発明の一実施形態において、透かし情報を検出する構成例を示す図。
【図１３】本発明の他の実施形態において位相に埋め込まれた透かし情報を抽出する場合の構成例を説明するための図。
【符号の説明】
１１・・・ピッチマーク生成部、１２・・・音声素片選択部、１３・・・音声素片辞書、１４・・・符号付与部、１５・・・波形重畳部、２１・・・音声素片、２２・・・符号付与済み音声素片、５１・・・音声素片発生部、５２・・・音声素片抽出部、５３・・・タイミング制御部、５４・・・ゲイン制御部、５５・・・符号抽出部、６１・・・ピッチ調整部、６２・・・符号付与部。

Claims

人工的な音声を生成する音声合成システムであって、
音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、
この音声素片選択部出力の音声波形データに、透かし情報としての符号データを振幅の修正として付与する振幅修正部と、
この振幅修正部により修正された音声素片を含む音声信号を、前記ピッチマーク生成部出力のピッチマークに従って波形を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システム。
人工的な音声を生成する音声合成システムであって、
音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、
この音声素片選択部出力の音声波形データに、透かし情報としての符号データを音声素片の位相の修正として付与する位相修正部と、
この位相修正部により修正された音声素片を含む音声信号を、前記ピッチマーク生成部出力のピッチマークに従って波形を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システム。
人工的な音声を生成する音声合成システムであって、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択部と、
音声のピッチを規定するピッチマークを生成するピッチマーク生成部と、
このピッチマーク生成部出力のピッチマークデータに、透かし情報としての符号データをピッチの修正として付与するピッチ修正部と、
このピッチ修正部により修正されたピッチマークに従って、前記音声素片選択部出力の音声素片を含む音声信号を重畳する波形重畳部とを備えて成ることを特徴とする電子透かし入り音声合成システム。
透かし情報が音声素片に振幅として埋め込まれている合成音声から、音声素片を抽出する手段と、
この手段により抽出された音声素片のパターンを該当する音声素片の典型的なパターンと比較することにより、振幅に埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システム。
透かし情報が音声素片に位相として埋め込まれている合成音声から、ピッチマークを抽出する手段と、
この手段により抽出されたピッチマークからピッチ波形を切り出す手段と、
この手段により切り出されたピッチ波形の位相を判定することにより、位相に埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システム。
透かし情報が音声素片にピッチマークとして埋め込まれている合成音声から、そのピッチマークを検出する手段と、
この手段により検出されたピッチマークを通常のピッチマークと比較することにより、前記ピッチマークに埋め込まれている透かし情報を取り出す手段とを備えて成ることを特徴とする、合成音声の透かし情報検出システム。
人工的な音声を生成する音声合成方法であって、
音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、
この音声素片選択ステップにより選択された音声波形データに、透かし情報としての符号データを振幅の修正として付与する振幅修正ステップと、
この振幅修正ステップにより修正された音声素片を含む音声信号を前記ピッチマーク生成ステップにより生成されたピッチマークに従って波形を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法。
人工的な音声を生成する音声合成方法であって、
音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、
この音声素片選択ステップにより選択された音声波形データに、透かし情報としての符号データを音声素片の修正として付与する位相修正ステップと、
この位相修正ステップにより修正された音声素片を含む音声信号を前記ピッチマーク生成ステップにより生成されたピッチマークに従って波形を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法。
人工的な音声を生成する音声合成方法であって、
音韻記号に基づき音声素片辞書から音声素片を選択する音声素片選択ステップと、
音声のピッチを規定するピッチマークを生成するピッチマーク生成ステップと、
このピッチマーク生成ステップにより生成されたピッチマークデータに、透かし情報としての符号データをピッチの修正として付与するピッチ修正ステップと、
このピッチ修正ステップにより修正されたピッチマークに従って、前記音声素片選択ステップにより選択された音声素片を含む音声信号を重畳する波形重畳ステップとを有することを特徴とする電子透かし入り音声合成方法。