JP2008040371A

JP2008040371A - 音声合成装置

Info

Publication number: JP2008040371A
Application number: JP2006217721A
Authority: JP
Inventors: Yusuke Fujita; 雄介藤田; Ryota Kamoshita; 亮太鴨志田; Kenji Nagamatsu; 健司永松; Yoshinori Kitahara; 義典北原; Yuichi Mori; 森　　有一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-08-10
Filing date: 2006-08-10
Publication date: 2008-02-21

Abstract

【課題】可般型の音声合成装置を用いて、多種多様な音声合成を実現する。
【解決手段】可般型の音声合成装置に、話者や用途などの情報をあらかじめ記憶しておき、また、他の音声合成装置の話者・用途などの情報を検索する機能を有し、同一の特徴を持つ、他の音声合成装置とデータを結合することにより、音声合成装置の機能を拡張する。
【選択図】図２

Description

本発明は、可般型の記憶媒体等に格納された音声合成装置に関する。

テキスト音声合成は、入力されたテキストに対して言語処理を行い、読みやアクセントの情報を示す中間記号列を生成した後、基本周波数パタンや音素継続時間長などの韻律パラメータを決定し、韻律パラメータに合わせて音声波形を生成するものである。韻律パラメータから音声波形を生成する方法として、音素や音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。

テキスト音声合成を用いた装置は、パーソナルコンピュータや携帯電話などの、個人用途から業務用の音声ガイダンスシステムに至るまで、様々な装置形態を持ち、それぞれ用途に応じた音声合成手段および音声合成用データが用いられる。様々な装置形態に起因する記憶容量の制限や用途に応じて音声合成用データを構成することが、高品質の音声合成を実現するために必要とされている。

特に、可般型の記録媒体で音声合成装置を実現する際には、記憶容量が充分にとれないことがあるため、音声合成用のデータは、大きく圧縮するか、特定の単語のみを高品質に合成できるようにデータが削減する必要がある。従って、パーソナルコンピュータやネットワーク上のサーバで音声合成装置を備える構成に比べて、品質の点で問題がある。

音声合成装置を特定用途に合わせるためには、特定用途のために録音された音声を用いて、音声素片・韻律モデルを学習する方法や、また、これらの音声素片や韻律モデルを、標準的な音声素片・韻律モデルからの変形によって実現する方法が用いられている。また、記憶容量に合わせた音声合成装置を作成するためには、用途に合わせて音声素片や韻律モデルのデータを圧縮する方法がある。

しかしながら、音声合成装置を、特定用途に合わせて構成するためには、音声合成の方式を熟知した技術者が作業を行う必要があり、作業の手間がかかるという問題があった。また、特定用途に応じて構成された音声合成装置は、他の用途に利用すると品質が落ちてしまうため、再利用することが難しいという問題があった。

本発明は、上記の問題を解決するものであり、特定用途に応じて構成された音声合成装置を、簡易な手法で実現することができ、また、音声合成の方法を熟知した技術者でなくとも、直感的な操作で、特定用途に応じた音声合成装置を構成する方法を提供するものである。

本発明は、上記目的を達成するために、入力されたテキストから音声を合成する装置において、音声合成用データと該音声合成用データの属性情報をあらかじめ記憶しておき、他の音声合成装置と接続し、接続された複数の音声合成装置の前記属性情報を検索し、検索結果に基づいて、複数の前記音声合成用データを結合して、結合音声合成用データを生成し、該結合音声合成用データに基づいて、入力されたテキストから音声を合成することを特徴とする。

また本発明は、前記音声合成用データの話者・基本話速・平均基本周波数・声質のいずれかを識別する情報を前記属性情報とし、該属性情報と一致する他の音声合成装置の前記属性情報を検索し、前記属性情報の一致した前記音声合成データを結合して前記結合音声合成用データを生成することを特徴とする。

また本発明は、前記属性情報と対応付けて音声合成装置の形状、色、および材質が加工されることを特徴とする。

また、本発明は、入力されたテキストから音声を合成する装置において、音声合成用データをあらかじめ記憶しておき、他の音声合成装置と接続し、接続された複数の音声合成装置の接続位置情報を取得し、該接続位置情報に基づいて、音声の加工を行う音声合成手段を備えることを特徴とする。

本発明によれば、音声合成装置は特定用途のために構成された音声合成用データと音声合成手段を有するが、他の音声合成装置と接続する手段と、接続された音声合成装置の音声合成用データの属性を検索し、音声合成用データを取得する手段を備えることにより、用途に適した属性を持つ音声合成用データが他の音声合成装置に存在する場合、これらを結合して、用途に適した音声合成用データを生成することにより、結果として、多種多様な入力に対しても高品質な合成音声を得ることを可能とする。

また、本発明によれば、音声合成装置が可般型メモリ等に格納され、記憶容量に制限がある場合においても、他の音声合成装置における話者・基本話速・平均基本周波数・声質などの属性が一致または近いと判定された音声合成用データを取得し、結合することにより、より大きな記憶容量を必要とする音声合成装置を簡易に構成することを可能とする。

また、本発明によれば、音声合成用データの属性を反映した形状・色・材質を有した音声合成装置を構成することにより、接続した複数の音声合成装置によって生成される合成音声の特徴を、視覚的に容易に把握することができるため、音声合成を熟知した技術者でなくとも、用途に合わせた音声合成装置の構成を直感的な操作によって行うことを可能とする。

また、本発明によれば、装置の物理的な接続関係によって、結合される音声合成用データの特徴および音声の加工方法を操作する音声合成手段を備えることにより、接続位置の操作によって簡易に、音声合成装置の用途に応じた構成の変更を可能とする。

このように、本発明によれば、他の音声合成装置と接続して、単体の音声合成装置では生成しえない、多種多様な合成音声を生成することができるようになる。また、物理的な接続構成の変更によって、出力される合成音声の特徴を変えることができるため、より直感的な音声合成装置の操作が可能となる。

以下、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係り、複数のＵＳＢメモリに格納された音声合成装置を用いた、音声合成システムを示すブロック図である。

本実施形態の音声合成装置１は、外部の装置と接続する装置接続部２と、音声素片データベース３および韻律データベース４からなる音声合成用データ記憶部５と、音声合成用データの属性情報を格納する属性情報記憶部６と、外部に接続された音声合成装置の属性情報を検索する属性情報検索部７と、属性情報検索部７から得られた情報に基づき、外部に接続された音声合成装置の音声合成用データと当該装置の音声合成用データを結合する音声合成用データ結合部８と、結合された音声合成用データに基づいて、入力されたテキストを合成する音声合成部９を備えている。

音声合成装置１は、装置接続部２によってＵＳＢポート１０に接続され、コンピュータ装置１１とキーボード１２およびスピーカ１３と接続することにより、音声合成システムを構成する。また、ＵＳＢポート１０には、音声合成装置１と同様の構成を持つ音声合成装置１４および１５を接続することで、拡張された音声合成システムを構成する。

次に、本実施形態に係る音声合成システムの動作について説明する。なお、図２は、本実施形態に係る音声合成システムの接続時の設定動作を示すフローチャートであり、図３は、本実施形態に係る音声合成システムの運用時の動作を示すフローチャートである。

まず、音声合成装置１をＵＳＢポート１０に接続することにより、音声合成システムの設定を開始する（ステップ１０１）。本実施形態においては、ＵＳＢメモリに格納された複数の音声合成装置を利用するために、コンピュータ装置に内蔵のＵＳＢポートあるいは、外部に接続されているＵＳＢハブなどを用いることが好適であるが、接続の形態はＵＳＢ装置に限るものではなく、同様の構成を、イーサネットケーブルや無線を用いたネットワークによって実施することも可能である。

ＵＳＢポートに接続されると、属性情報検索部７は、音声合成装置１が持つ属性情報記憶部６と同一の属性情報を持つ音声合成装置を、ＵＳＢポート１０を介して検索する（ステップ１０２）。ここで、外部の音声合成装置に関する情報は、コンピュータ装置１１の所定の位置にデータベースとして格納されている情報を読み出すか、コンピュータ装置１１を介して、外部の音声合成装置に問い合わせる等の方法で取得することができる。

属性情報記憶部６の構成は図４の例に示すように、話者ＩＤ４１、平均基本周波数４２、平均話速４３、声質ＩＤ４４の情報である。これらは、音声合成用データ５の特徴に対応するものである。話者ＩＤ４１は、素片データベース３と韻律データベース４の学習に用いられた話者を識別するための番号である。声質ＩＤ４４は、同一話者であっても、発話スタイルや発話環境が異なる場合に、声の質が異なることを考慮し、これらの違いを識別するための番号として付与する。属性情報６の構成は、音声素片データベースと韻律データベースの構築時に作成されるものを利用することが好適である。

音声合成用データ結合部８は、検索された属性情報に対応して、音声合成用データ５と結合可能な音声合成用データが存在するかを判定する(ステップ１０３)。ここで、結合可能な音声合成用データが存在しない場合は処理を終了する。

結合可能な音声合成用データが存在する場合は、音声合成用データ結合部は、複数の音声合成用データの情報を結合する（ステップ１０４）。ここで、図６および図７は、属性情報を用いて複数の音声合成用データを結合する動作の例であり、話者ＩＤの一致する音声合成用データが存在する際に、素片データベースを結合する方法を示している。

図７に示すように、素片データベースの結合は、結合する複数の素片データベースの構成要素を全て有し、素片データベースの音素ＩＤの順に並べ替える等、単一の素片データベースと同様の記憶形式となるようにするものである。韻律データベースの結合は図示しないが、同様に、アクセント型の順序を考慮して並べ替えを行うものであればよい。

音声合成用データの結合を行う方法は、図７に示した結合の例に限らない。例えば、結合素片データベースに、結合される複数の素片データベースの全ての構成要素を含ませず、特定の音素のみを結合することとし、特定用途に必要な音声素片だけを集めることで、計算量の観点で有利になるよう構成することもできる。

結合された音声合成用データの記憶領域としては、音声合成装置１またはコンピュータ装置１１のいずれであってもよいが、ＵＳＢメモリに十分な領域がなくても、音声合成データの結合が可能であるように、コンピュータ装置１２上に記憶領域をとることが望ましい。または、結合された音声合成データ全体の記憶領域をとらずとも、音声合成部９の動作時に、外部に接続された音声合成装置の持つ音声合成用データへのアクセスが可能なように構成しておけばよい。

属性情報検索部７は、外部の音声合成装置に関する属性情報に加えて、接続の物理的な位置に関する情報を取得して、音声合成用データ結合部８で利用するようにしてもよい。例えば、隣接するＵＳＢポートに接続されている音声合成装置、もしくは、直列に接続されている音声合成装置についてのみ、音声合成用データの結合の対象とすることにより、視覚的に分かりやすい操作で、音声合成用データの結合を行うことができる。

図８に示すように、音声合成装置の形状を、属性情報記憶部に対応させておくことによって、視覚的に分かりやすい操作で、音声合成用データの結合を行うことができる。ここでは、話者ＩＤと関連する情報を装置の形状とすることにより、同一話者の音声合成用データを結合して、高品質な音声合成システムを構成する操作を支援する。また、装置の長辺の長さを平均基本周波数の逆数と対応させる形状に加工しておくことにより、声の高さに関するバリエーションを考慮した音声合成システムを構築することができる。

次に、音声合成システムの運用時の動作について説明する。
まず、ユーザからキーボード１１によってテキストが入力されると、音声合成すべきテキストを決定する（ステップ２０１）。テキストを入力する方法は、キーボード入力に限るものでなく、例えば、すでにテキストデータのファイルを格納している場合は、そのファイルをユーザが選択することによって行ってもよい。もしくは、あらかじめ記憶されているスケジュールやシナリオに従ってテキストデータを供給するプログラムが構成されている場合には、そのプログラムの実行によって行ってもよい。

ＵＳＢポートに複数の音声合成装置が接続されている場合には、コンピュータ装置１１は、出力に利用する音声合成装置を選択する（ステップ２０２）。選択方法は、コンピュータ装置に接続されている入力手段を用いて選択するだけでなく、あらかじめ記憶されているスケジュールやシナリオに従って、接続されている音声合成装置の中から選択するプログラムが構成されている場合には、そのプログラムの実行によって行っても良い。

次に、選択された音声合成装置の音声合成部では、入力されたテキストを、音声合成用データに従って合成し、音声データを生成する（ステップ２０３）。音声合成部の合成方法は、公知技術の組み合わせによって構築することができる。本実施形態では、入力されたテキストに対し、形態素解析および構文解析を行い、各形態素の読み情報、アクセント位置情報などを利用して読み情報を付与したのち、音声合成用データのひとつである韻律データベースを参照して、韻律情報を付与し、さらに音声合成用データのひとつである素片データベースを参照して、素片波形の組み合わせを決定し、波形接続処理を行って音声波形を生成する。

音声合成部９は、生成した音声データを、装置接続部を介してコンピュータ装置へ送り、コンピュータ装置はスピーカ１３に音声波形を出力する（ステップ２０４）。ここで、スピーカ１３は、コンピュータ装置に接続される構成としたが、スピーカは、コンピュータ装置に内蔵される形態であってもよく、また、音声合成装置に内蔵される形態、音声合成装置に接続されるヘッドフォンなどの形態であってもよい。

このように、本発明の一実施形態によれば、他の音声合成装置と接続して、単体の音声合成装置では生成しえない、多種多様な合成音声を生成することができるようになる。また、物理的な接続構成の変更によって、出力される合成音声の特徴を変えることができるため、より直感的な音声合成装置の操作が可能となる。

なお、本発明の一実施形態においては、ＵＳＢメモリに音声合成を行うプログラムおよびデータを格納し、コンピュータ装置に接続して利用する場合を例示したが、これ以外の装置構成にも本発明を適用することができる。例えば、音声合成を行うプログラムおよびデータを格納する可般型の媒体に、ＣＰＵなどの演算処理装置を持つ媒体を利用すると、複数の音声合成装置の音声合成用データを結合するためのプログラムの実行は、各可般型媒体のもつ中央演算装置に実行させる構成とすることもできる。また、本実施形態の各手順は、ＣＰＵによって実現されてもよいし、ＤＳＰなどの音声処理専用に利用できるハードウェアによって実現されてもよい。

本発明の一実施形態における音声合成システムの構成を示すブロック図である。本発明の一実施形態における音声合成システムの接続時の設定動作を示すフローチャートである。本発明の一実施形態における音声合成システムの運用時の動作を示すフローチャートである。属性情報記憶部に記憶される情報を示す図である。音声合成用データ記憶部に記憶される情報を示す図である。属性情報検索部と音声合成用データ結合部の動作を説明するための説明図である。素片データベースの結合動作を説明するための説明図である。音声合成装置の仕様の例である。

符号の説明

１・・・音声合成装置、２・・・装置接続部、３・・・素片データベース、４・・・韻律データベース、５・・・音声合成用データ記憶部、６・・・属性情報記憶部、７・・・属性情報検索部、８・・・音声合成用データ結合部、９・・・音声合成部。

Claims

入力されたテキストから音声を合成する装置において、音声合成用データを記憶する音声合成用データ記憶手段と、該音声合成用データの属性情報を記憶する属性情報記憶手段と、他の音声合成装置と接続する装置接続手段と、該装置接続手段に接続された複数の音声合成装置の前記属性情報記憶手段に記憶されている前記属性情報を検索する属性情報検索手段と、該属性情報検索手段の検索結果に基づき、複数の前記音声合成用データを結合し、結合音声合成用データを生成する音声合成用データ結合手段と、該音声合成用データ結合手段により結合された前記結合音声合成用データに基づいて、入力されたテキストから音声を合成する音声合成手段を備えることを特徴とする音声合成装置。
前記属性情報が、前記音声合成用データの話者・基本話速・平均基本周波数・声質のいずれかを識別する情報であって、前記属性情報検索手段が、前記属性情報と一致する他の音声合成装置の前記属性情報を検索し、前記音声合成用データ結合部が、前記属性情報の一致した前記音声合成データを結合して前記結合音声合成用データを生成することを特徴とする請求項１に記載の音声合成装置。
前記音声合成装置において、装置の形状・色・材質が、前記属性情報と対応付けて加工されることを特徴とする、請求項１に記載の音声合成装置。
入力されたテキストから音声を合成する装置において、音声合成用データを記憶する音声合成用データ記憶部と、他の音声合成装置と接続する装置接続手段と、該装置接続手段に接続された複数の音声合成装置の接続位置情報を取得する接続位置情報取得手段と、該接続位置情報取得手段から得られる前記接続位置情報に基づいて、音声の加工を行う音声合成手段を備えることを特徴とする音声合成装置。