JP2007316303A

JP2007316303A - 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム

Info

Publication number: JP2007316303A
Application number: JP2006145423A
Authority: JP
Inventors: Akihiro Yoshida; 明弘吉田; Hideyuki Mizuno; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-05-25
Filing date: 2006-05-25
Publication date: 2007-12-06
Anticipated expiration: 2026-05-25
Also published as: JP4769124B2

Abstract

【課題】著作権で保護すべき話者の音声でテキストデータを音声合成する際に、発声禁止ワードを含む文章も、話者の著作権隣接権を保護しつつ、音声合成ユーザの利便性を向上する。
【解決手段】発声禁止ワードを含まない文章はユーザが選択した話者の音声で音声合成し、発声禁止ワードを含む文章は、その発声禁止ワードが公序良俗に触れる場合は、その発声禁止ワード部分をビープ音等に代替し、そうでなく、話者固有の事情により発声禁止とした発声禁止ワードの場合は、そのワードを発声禁止としていない他の話者を探索し、他の話者の音声データベースから音声合成のための音声情報を収集し、その発生禁止ワードの部分を他の話者の音声で音声合成する。
【選択図】図１

Description

本発明は、合成音声を作成するために必要な音声データベース（ＤＢ）の著作権保護と音声合成ユーザの利便性の相反する要求を同時に満たすものとした話者選択機能付き音声合成方法、装置、プログラムに関する。

ウェブニュースや個人ブログなど、インターネット上には多種多様な大量のテキストが存在している。これらのテキストはパソコンの画面を目の前にしている時にしか読むことができないが、それらのテキストを音声合成技術で音声化し、移動時などに再生用端末を用いて聞くことで情報を得ることが出来る。その際、テキストを読み上げる合成音声の話者は、合成音声を聞く人の要望によって選択できることが望ましい。
近年の音声合成技術は、実音声や録音音声との区別がつきづらいほど合成音声の高品質化が進んでおり、ある特定の人物の声を再現可能な音声合成技術の進化が著しい。

しかし、ある特定話者の合成音声を生成する際、その特定話者が望まない合成音声、例えば公序良俗に反する単語を含む合成音声は生成を避けるべきである。もし仮にこのような合成音声が生成された場合、合成音声に使用された話者の名誉・声望を害する恐れがあり、著作権隣接権中の同一性保持権の侵害になる。
これを避けるための従来技術として、合成されたくない単語をあらかじめ発声禁止ワードとして登録しておき、合成したいテキストと発声禁止ワードのマッチングを行うことで、発話内容を抑制する方法が提案されている（非特許文献１）。
http://www.prblog.biz/afchives/com/cat57/index.html

しかし、発声禁止ワードの利用における問題点として、発声禁止ワードを含んだセンテンスの部分は音声合成することが出来ないシステムが一般的であり、このようなシステムでは発声禁止ワードを含む部分にさしかかると、音声が全く出力されなくなるため、ユーザは文意を掴みそこなう等の弊害が発生し、利便性が低いという点が挙げられる。
また、発声禁止ワードは音声合成システムで一意の発声禁止ワード集を保持し利用しているが、登録された音声データベースの話者によっては、発声禁止ワードの範囲をより広く設定したいなど、話者によって要望が異なると考えられる。
本発明は、著作隣接権の保護対策をした上で、合成音声ユーザの利便性を確保することを目的としている。

本発明による話者選択機能付き音声合成方法は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成方法において、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析処理と、テキスト解析処理の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第１検出処理と、テキスト解析処理の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第２検出処理と、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第３検出処理と、第３検出処理において、解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第４検出処理と、第１検出処理の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第１音声合成情報収集処理と、第２検出処理の検出出力により起動され、ワードの音声合成情報として予め定めた合成音情報を収集する第２音声合成情報収集処理と、第３検出処理の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第３音声合成情報収集処理と、第４検出処理の検出出力により起動され、ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第４音声合成情報収集処理と、第１乃至第４検出処理の検出結果に従って、第１乃至第４音声合成情報収集処理の何れかで収集した音声情報により音声合成処理を施す音声合成処理とを含むことを特徴とする。

本発明による話者選択機能付き音声合成方法は上記話者選択機能付き音声合成方法において、第３検出処理で検出する話者専用音声データベースは話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第２音声合成情報収集処理で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第４音声合成情報収集処理で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声を合成する音声合成情報であることを特徴とする。

本発明による話者選択機能付き音声合成装置は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成装置において、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第１検出部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第２検出部と、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果によりワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第３検出部と、第３検出部において、解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第４検出部と、第１検出部の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第１音声合成情報収集部と、第２検出部の検出出力により起動され、ワードの音声合成情報として予め定めた合成音情報を収集する第２音声合成情報収集部と、第３検出部の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第３音声合成情報収集部と、第４検出部の検出出力により起動され、ワードの音声合成情報を話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第４音声合成情報収集部と、第１乃至第４検出部の検出結果に従って、第１乃至第４音声合成情報収集部の何れかで収集した音声情報により音声合成処理を施す音声合成部とを備えることを特徴とする。

本発明による話者選択機能付き音声合成装置は更に第３検出部で検出する話者専用音声データベースは話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成装置。
本発明による話者選択機能付き音声合成装置は更に第２音声合成情報収集部で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成装置は更に第４音声合成情報収集部で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声で合成する音声合成情報であることを特徴とする。

本発明によれば、発声禁止ワードや利用条件など、合成音声の作成に関わる諸設定を音声データベースの話者ごとに設定し、その設定にしたがって合成音声の作成方法を変更することで、話者の著作隣接権を保護しつつ、合成音声をできる限り出力する。このことにより多くのユーザの要望に答えることが可能となる。つまり、音声合成ユーザの利便性を高めることができる。

本発明による話者選択機能付き音声合成装置は全てをハードウェアによって構成することもできるが、最も簡素に実現するには、コンピュータに本発明で提案している話者選択機能付き音声合成プログラムをインストールし、コンピュータに備えられているＣＰＵでこのプログラムを解読させ、コンピュータに話者選択機能付き音声合成装置として機能させる実施形態が最も望ましい実施形態である。

コンピュータに話者選択機能付き音声合成装置として機能させるには、コンピュータにインストールした話者選択機能付き音声合成プログラムにより、コンピュータ内に著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第１検出部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第２検出部と、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第３検出部と、第３検出部において、解析結果に得られたワードを発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第４検出部と、第１検出部の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第１音声合成情報収集部と、第２検出部の検出出力により起動され、ワードの音声合成情報として予め定めた合成音情報を収集する第２音声合成情報収集部と、第３検出部の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第３音声合成情報収集部と、第４検出部の検出出力により起動され、ワードの音声合成情報を話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第４音声合成情報収集部と、第１乃至第４検出部の検出結果に従って、第１乃至第４音声合成情報収集部の何れかで収集した音声情報により音声合成処理を施す音声合成部とを構築し、話者選択機能付き音声合成装置として機能させると共に、この話者選択機能付き音声合成装置により本発明による話者選択機能付き音声合成方法を実行させる。

図１に本発明による話者選択機能付き音声合成装置の一実施例を示す。本発明による話者選択機能付き音声合成装置はテキストデータ入力部１と、テキスト解析部２と、話者を選択し、設定するためのデータベース番号入力部３と、データベース選択部４と、利用可能データベース探索部５と、この利用可能データベース探索部５が探索した利用可能なデータベースの番号などを表示出力し、その表示の中から好みのデータベースを選択し、入力するためのデータベース番号入出力部６と、テキスト解析部２が解析して出力するワードが発声禁止ワードであるか否かを検出する発声禁止ワード検出部１０と、話者専用音声データベースを複数格納して構成される話者専用音声データベース群２０と、発声禁止ワード検出部１０の検出結果に応じて話者専用音声データベース群２０から音声情報を収集する音声情報収集部３０と、音声情報収集部３０が収集した音声情報に従って音声を合成することと、利用している音声データベースに付随している利用条件に基づいて、合成音声の配布を限定する例えばデジタル著作権管理（ＤＲＭ）に必要な情報を埋め込んだり、合成音声の話者性を変更したりする利用条件埋め込み部を兼ねる音声合成部４０とによって構成される。

話者専用音声データベース群２０は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースＤＢ−１、ＤＢ−２……と、各話者専用音声データベースＤＢ−１、ＤＢ−２……毎に設定された話者専用発声禁止ワード集ＷＲ−１、ＷＲ−２……と、各話者専用音声データベースＤＢ−１、ＤＢ−２……のそれぞれに設定された利用条件を記憶した利用条件記憶部Ｍ−１、Ｍ−２……と、各話者専用音声データベースＤＢ−１、ＤＢ−２……に共通した発声禁止ワード（主に公序良俗に反するワード）を保持した共通発声禁止ワード集２１とを備えた構成とされる。
テキストデータ入力部１と、データベース番号入力部３と、データベース番号入出力部６は例えばユーザ所有のパーソナルコンピュータのような端末（クライアント）によって構成することができる。テキスト解析部２、データベース選択部４、利用可能データベース探索部５、発声禁止ワード検出部１０、話者専用音声データベース群２０、音声情報収集部３０、利用条件埋め込み部兼・音声合成部４０はサーバによって構成し、端末とサーバとは適当な通信回線を通じて接続し、サーバ・クライアント方式のシステムとすることができる。

ユーザは自己の端末に設けたデータベース番号入力部３から希望する話者を選択するためのデータベース番号を入力する。このデータベース番号の入力により話者専用音声データベース群２０の中の指定された話者の音声を音声合成する話者専用音声データベース例えばＤＢ−１が選択される。
テキストデータ入力部１からテキストデータを入力する。このテキストデータはテキスト解析部２で形態素解析することで読みを得、韻律生成に必要な情報であるアクセント型・音調結合型を付与したワードを出力する。
発声禁止ワード検出部１０はテキスト解析部２が出力したワードが、どの発声禁止ワード集に含まれるかを検出し、その検出結果を音声情報収集部３０に引き渡す。音声情報収集部３０はテキスト解析部２が出力したワードに付されたアクセント情報を基に合成対象テキストの韻律を作成し、ここで得られた韻律情報に出来るだけ合致する音声情報（音声素片）を話者専用音声データベース群２０から収集し、その音声情報を利用条件埋め込み部兼・音声合成部４０へ入力する。利用条件埋め込み部兼・音声合成部４０は収集した音声情報を滑らかに接続し、合成音声信号を出力する。

音声合成は一般にテキスト解析部２が出力するワードが蓄積され、１センテンス（例えば句点で区切られる１文章）に達する毎にセンテンス単位で音声合成が実行される。従来はこのセンテンスの中に発声禁止ワードが含まれている場合は、このセンテンスの全てが発声禁止処理されるが、本発明では発声禁止ワードを含むセンテンスにあっては、発声禁止ワードのみをこのワードを発声禁止ワードに指定していない他の話者の音声に振替えるか、或いは公序良俗に抵触するワードのような場合はそのワードの部分のみを例えばビープ音等で表現し、残りのワードは音声として出力し、発声禁止ワードを含むセンテンスであっても可及的に許容される範囲で出力しようとするものである。
このため、本発明では発声禁止ワード検出部１０に第１検出部１０−１〜第４検出部１０−４を設け、これら複数の検出部１０−１〜１０−４により、テキスト解析部２が出力するワードの属性を検出し、ワードの属性に応じて音声合成処理の形態を選択できるように構成するものである。
（１）第１検出部１０−１はテキスト解析部２が出力したワードが共通発声禁止ワード集２１と、話者専用音声データベース群２０の中で選択されている話者専用音声データベース（ここではＤＢ−１とする）に含まれる話者専用発声禁止ワード集ＷＲ−１の何れにも含まれないことを検出する。
（２）第２検出部１０−２はテキスト解析部２が出力したワードが共通発声禁止ワード集２１に含まれていることを検出する。
（３）第３検出部１０−３はテキスト解析部２が出力したワードが共通発声禁止ワード集２１に含まれず、選択されている話者専用発生禁止ワード集ＷＲ−１に含まれていることを検出し、更に、このワードが他の話者で発声禁止に設定していない話者が存在することを検出する。
（４）第４検出部１０−４はテキスト解析部２が出力したワードを発声禁止ワードに設定していない話者が無かったことを検出する。

音声情報収集部３０は発声禁止ワード検出部１０の検出結果に応じて話者専用音声データベース群２０の中から予め定めた手順に従って音声合成のための音声情報を収集する。つまり、音声情報収集部３０にも第１音声情報収集部３０−１〜第４音声情報収集部３０−４が設けられ、これら複数の音声情報収集部３０−１〜３０−４で発声禁止ワード検出部１０の検出結果に対応した音声情報の収集を実行する。

第１音声情報収集部３０−１は第１検出部１０−１がテキスト解析部２が出力したワードが、共通発声禁止ワード集２１及び話者専用発生禁止ワード集ＷＲ−１の何れにも含まれないとする検出結果を出力すると起動される。この場合はテキスト解析部２が出力したワードは何れの発声禁止ワードに属さないから、第１音声情報収集部３０−１はデータベース番号から入力したデータベース番号で選択されている話者専用音声データベースＤＢ−１から音声情報を収集し、このデータベースＤＢ−１で特定される話者の音声情報を利用条件埋め込み部兼・音声合成部４０に送り込み、ユーザが選択した話者の音声で音声合成が実行される。

第２検出部１０−２はテキスト解析部２が出力したワードが共通発声禁止ワード集２１に含まれていることを検出する。従って、この検出結果によって起動される第２音声情報収集部３０−２はこのワード以外の部分は選択されている話者専用音声データベースＤＢ−１から音声情報を収集し、選択されている話者専用音声データベースＤＢ−１で特定されている話者の声で音声合成を実行するが、共通発声禁止ワード集２１に属するワードの部分は公序良俗違反に触れるため、このワードの部分の音声情報は例えば音声合成部４０の併設した利用条件埋込部から例えばビープ音情報を抽出し、ビープ音信号を出力する。従って、著作権で保護すべき話者の音声で公序良俗に触れる内容のワードが発声されることは避けられる。

第３検出部１０−３が検出結果を出力した場合は、テキスト解析部２が出力したワードが公序良俗に触れないが、話者専用発生禁止ワード集ＷＲ−１に発声禁止ワードとして設定されている状況にある。本発明ではこの状況下では第３検出部１０−３の検出結果により利用可能データベース検索部５を起動し、他の話者でこのワードを発声禁止ワードに設定していない話者の存在を探索させる。テキスト解析部２が出力したワードを発声禁止ワードとして設定していない話者が検出された場合、利用可能データベース検索部５はデータベース番号入出力部６に探索結果を表示する。ユーザはその検出結果の中から好みの話者を選択し、その話者に対応するデータベース番号をデータベース番号入出力部６から入力する。入力されたデータベース番号が初期に設定したデータベース番号に一致していなければそのまま、そのデータベース番号を第３音声情報収集部３０−３に伝達する。一致している場合は第３検出部１０−３は第４検出部１０−４に話者専用発声データベース群２０に他の話者が存在しなかったことを表わす信号を入力する。第３音声情報収集部３０−３は、他の話者の話者専用音声データベース（例えばＤＢ−２）からその話者の音声を音声合成する音声情報を収集する。従って、この場合は、発声禁止ワードを含む文章は少なくとも発声禁止ワードの部分は他の話者の音声で音声合成が行われる。但し、この発声禁止ワードを含む部分の文章では発声禁止ワード以外の部分もこの他の話者の音声で音声合成してもよい。

第４検出部１０−４はテキスト分析部２が出力したワードが共通発声禁止ワード集２１に含まれず、話者専用発生禁止ワード集ＷＲ−１に含まれるが、他の話者にそのワードを発声禁止ワードとしない話者が存在しなかった場合（第３検出部１０−３において他の話者を選択する場合、ユーザが再度初期に設定した話者のデータベース番号を入力した場合も含む）に検出結果を出力する。この場合には第４音声情報収集部３０−４が起動される。第４音声情報収集部３０−４は選択されている話者専用音声データベースＤＢ−１の利用条件記憶部Ｍ−１から利用条件埋め込み部に埋め込んだ利用条件を読み出し、例えば発声禁止ワードの部分を著作権で保護すべき話者以外の音声で音声合成する。著作権で保護すべき話者以外の音声とは、例えば利用条件埋め込み部に予め用意したロボットを連想させる音声等とすることができる。

第１音声情報収集部３０−１〜第４音声情報収集部３０−４で収集した音声情報は音声合成部４０に入力され、各音声情報に応じて音声合成が実行される。
図２に本発明の話者選択機能付き音声合成プログラムの実行手順を説明するためのフローチャートを示す。
・テキストデータが入力される（ステップＳＰ１）。
・利用データベースを選択し、指定する（ステップＳＰ２）。
・テキスト解析処理を実行する（ステップＳＰ３）。
・テキスト解析結果に得られたワードが共通発声禁止ワード集２１と話者専用発声禁止ワ
ード集の何れにも含まれないことを検出（ステップＳＰ４）。
・何れのワード集にも含まれない場合は第１音声情報収集処理（ステップＳＰ５）を実行
し、収集した音声情報（著作権で保護すべき話者の音声情報）を音声合成処理（ステッ
プＳＰ６）に引き渡す。
・入力されたワードが共通発声禁止ワード集のみに含まれることを検出（ステップＳＰ
７）。
・ステップＳＰ７で共通発声禁止ワード集に含まれると判定された場合、第２音声情報収
集処理（ステップＳＰ８）を実行し、第２音声情報収集処理で収集した音声情報（例え
ばビープ音情報）を音声合成処理（ステップＳＰ６）に引き渡す。
・ステップＳＰ７で話者専用発声禁止ワード集のみに含まれると判定された場合、ステッ
プＳＰ９に分岐する。
・ステップＳＰ９では入力されたワードが発声禁止ワードとして設定していない話者の存
在を探索する。
・入力されたワードが発声禁止ワードとして設定していない話者が存在した場合は、その
話者に対応するデータベース番号をユーザに出力し、ユーザに好みのデータベース番号
を入力させる（ステップＳＰ１０）。
・代替する話者を決定すると、ステップＳＰ１１でユーザが入力したデータベース番号が初期に設定したデータベース番号に一致しているか否かを判定する。ユーザが入力したデータベース番号が初期に設定したデータベース番号に一致していなければステップＳＰ１２で第３音声情報収集処理が実行される。第３音声情報収集処理では発声禁止ワードの部分の音声情報を代替する話者のデータベースから収集し、その音声情報を含む１センテンスに相当する音声情報を音声合成処理に引き渡す。ステップＳＰ１１でユーザが入力したデータベース番号が初期に設定したデータベース番号と一致している場合
は、ステップＳＰ１１からステップＳＰ１３に分岐し、第４音声情報収集処理を実行さ
せる。
・ステップＳＰ９で代替する話者の存在が検出できなかった場合又はステップＳＰ１１で初期設定したデータベース番号を検出した場合、ステップＳＰ１３に進み、ステップＳＰ１３で当初選択した話者専用音声データベースに記憶している利用条件に従って例えばロボットの音声を連想させる音声で発声禁止ワードを発声させる音声情報を選択中の話者専用音声データベース或いは利用条件記憶部Ｍ−１から収集し、第４音声情報収集処理を終了する。
・第１音声情報収集処理（ステップＳＰ５）、第２音声情報収集処理（ステップＳＰ８）、
第３音声情報収集処理（ステップＳＰ１１）、第４音声情報収集処理（ステップＳＰ１
３）で収集した各音声情報はそれぞれ音声合成処理ステップＳＰ６に入力され、各収集
条件に対応した音声が合成され出力される。

以上説明した本発明による話者選択機能付き音声合成装置は図２に示した手順でコンピュータを動作させる話者選択機能付き音声合成プログラムをコンピュータにインストールし、コンピュータに備えたＣＰＵに解読させて実行させることにより実現される。
本発明による話者選択機能付き音声合成プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク、ＣＤ−ＲＯＭ、半導体メモリ等に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。

テキストデータで提供される各種の情報を、好みの話者の音声で耳から聞かせる音声情報に変換する情報変換装置に活用される。

本発明による話者選択機能付き音声合成装置の一実施例を説明するためのブロック図。本発明による話者選択機能付き音声合成プログラムの概要を説明するためのフローチャート。

符号の説明

１テキストデータ入力部３０音声情報収集部
２テキスト解析部３０−１第１音声情報収集部
３データベース番号入力部３０−２第２音声情報収集部
４データベース選択部３０−３第３音声情報収集部
５利用可能データベース探索部３０−４第４音声情報収集部
６データベース番号入出力部４０利用条件埋め込み部兼・
１０発声禁止ワード検出部音声合成部
１０−１第１検出部
１０−２第２検出部
１０−３第３検出部
１０−４第４検出部
２０話者専用音声データベース群
２１共通発声禁止ワード集
ＤＢ−１、ＤＢ−２話者専用音声データベース
ＷＲ−１、ＷＲ−２話者専用発声禁止ワード集
Ｍ−１、Ｍ−２利用条件記憶部

Claims

著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成方法において、
入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析処理と、
前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第１検出処理と、
前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第２検出処理と、
前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、前記選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第３検出処理と、
前記第３検出処理において、前記解析結果に得られたワードを発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第４検出処理と、
前記第１検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第１音声合成情報収集処理と、
前記第２検出処理の検出出力により起動され、前記ワードの音声合成情報として予め定めた合成音情報を収集する第２音声合成情報収集処理と、
前記第３検出処理の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第３音声合成情報収集処理と、
前記第４検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第４音声合成情報収集処理と、
前記第１乃至第４検出処理の検出結果に従って、前記第１乃至第４音声合成情報収集処理の何れかで収集した音声情報により音声合成処理を施す音声合成処理と、
を含むことを特徴とする話者選択機能付き音声合成方法。
請求項１記載の話者選択機能付き音声合成方法において、前記第３検出処理で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成方法。
請求項１又は２の何れかに記載の話者選択機能付き音声合成方法において、
前記第２音声合成情報収集処理で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする話者選択機能付き音声合成方法。
請求項１乃至３の何れかに記載の話者選択機能付き音声合成方法において、前記第４音声合成情報収集処理で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声を合成する音声合成情報であることを特徴とする話者選択機能付き音声合成方法。
著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成装置において、
入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、
前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第１検出部と、
前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第２検出部と、
前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第３検出部と、
前記第３検出部において、前記解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第４検出部と、
前記第１検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第１音声合成情報収集部と、
前記第２検出部の検出出力により起動され、前記ワードの音声合成情報として予め定めた合成音情報を収集する第２音声合成情報収集部と、
前記第３検出部の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第３音声合成情報収集部と、
前記第４検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第４音声合成情報収集部と、
前記第１乃至第４検出部の検出結果に従って、前記第１乃至第４音声合成情報収集部の何れかで収集した音声情報により音声合成処理を施す音声合成部と、
を備えることを特徴とする話者選択機能付き音声合成装置。
請求項５記載の話者選択機能付き音声合成装置において、前記第３検出部で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成装置。
請求項５又は６の何れかに記載の話者選択機能付き音声合成装置において、
前記第２音声合成情報収集部で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする話者選択機能付き音声合成装置。
請求項５乃至７の何れかに記載の話者選択機能付き音声合成装置において、前記第４音声合成情報収集部で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声を合成する音声合成情報であることを特徴とする話者選択機能付き音声合成装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項５乃至８記載の話者選択機能付き音声合成装置として機能させる話者選択機能付き音声合成プログラム。