JP4356334B2

JP4356334B2 - 音声データ提供システムならびに音声データ作成装置

Info

Publication number: JP4356334B2
Application number: JP2003060266A
Authority: JP
Inventors: 康永宮澤; 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-03-06
Filing date: 2003-03-06
Publication date: 2009-11-04
Anticipated expiration: 2023-03-06
Also published as: JP2004271728A

Description

【０００１】
【発明の属する技術分野】
本発明は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供する音声データ提供システムならびに音声データ作成装置および音声データ作成プログラムに関する。
【０００２】
【従来の技術】
発注者の指定した音声メッセージの発話内容（テキストデータ）とその発注者の選択したある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供するシステムが従来から知られている。
【０００３】
たとえば、特開２００２−２３７７７号公報に記載の発明（以下、特許文献１という）や、特開２００１−２５５８８４号公報に記載の発明（以下、特許文献２という）もその一例である。
【０００４】
これらの発明は、発注者がネットワークに接続されたパーソナルコンピュータ（ＰＣという）などから音声メッセージの発話内容をキー入力し、かつ、話者（たとえば、俳優、歌手、声優、スポーツ選手などの著名人）を選択すると、システム側では、その発注者の入力した音声メッセージの発話内容に対するテキストデータと当該発注者の選択した話者の音声特徴データとを用いて音声合成処理を行い、その話者の声と話し方での音声合成データを生成して、それを特別注文（特注という）の音声データとして、たとえば、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などの記録媒体に記録させて当該発注者に納品するといったことを可能とするものである。
【０００５】
また、特許文献１の発明には、このような音声合成データを玩具、置き時計、携帯電話機などの機器に組み込むことによってこれらの機器に付加価値を持たせることが記載されている。
【０００６】
【特許文献１】
特開２００２−２３７７７号公報
【特許文献２】
特開２００１−２５５８８４号公報
【０００７】
【発明が解決しようとする課題】
上述した特許文献１や特許文献２の発明によれば、発注者は自分の用意した音声メッセージの発話内容を自分の好みの著名人などある特定の話者に似せた話し方で発話させることができるので、それによって得られた音声メッセージはその発注者にとって価値の高いものとすることができ、さらに、その音声メッセージを玩具や置き時計などの機器に組み込むことによって、それらの機器はその発注者にとって唯一無二の機器とすることができる。
【０００８】
しかしながら、発注者が用意した音声メッセージの発話内容とその発注者の好みの著名人の音声特徴データとを用いて音声合成処理し、それによって、その著名人に似せた話し方で発話させるとなると、音声メッセージの内容によっては、その発注者の選択した著名人などの名誉を傷つけることにもなり兼ねない。
【０００９】
たとえば、アイドル歌手やテレビジョンで放映されているアニメーション番組の人気キャラクタ（声優）の音声特徴データを用いて、乱暴な言い回しや卑猥な内容の音声メッセージを発話させるというように、公の場でその話者が発話することのあり得ない内容の音声メッセージを発話させるといったことも可能となってしまう。
【００１０】
これら著名人の多くは自分の声自体も売り物の１つとしている人も多いのが一般的であり、声の権利者でもあるといえる。したがって、これら著名人に似せた声や話し方で、その著名人の意図しない発話内容を発話させ、それをネットワーク上で配信可能としたり、ある特定の機器に埋め込むのは問題である。また、このようなことが実際に行われると、このような音声データ提供サービスを行うサービス提供者に対してもその責任が発生し、サービス提供者としての良識が疑われることにもなる。
【００１１】
そこで本発明は、自分の用意した音声メッセージの発話内容をある特定の話者に似せた話し方で発話させるような音声合成を行ってその音声合成データを特注の音声データとして提供する際、音声メッセージの発話内容に声の権利者やサービス提供者の意図しない表現があるか否かを判断することで、適正な内容の音声メッセージの作成を可能とすることを目的としている。
【００１２】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音声データ提供システムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムであって、前記発注者から音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、当該発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定し、使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを音声データとして提供するようにしている。
【００１３】
このような音声データ提供システムにおいて、前記受注側は、選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行うようにしている。
【００１４】
また、この音声データ提供システムにおいて、前記受注側は、選択された話者の発話する内容として使用を許可された表現で構成されたネットワーク文法を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該ネットワーク文法の内容に照らし合わせて行うようにしている。
【００１５】
また、この音声データ提供システムにおいて、前記使用許可表現辞書は、個々の話者対応に用意され、個々の話者において許容される表現が記述されていることが好ましい。
【００１６】
また、この音声データ提供システムにおいて、前記ネットワーク文法は、個々の話者対応に用意され、個々の話者において許容される表現で構成されていることが好ましい。
【００１７】
また、この音声データ提供システムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語の存在を前記発注者に提示することが好ましい。
【００１８】
また、この音声データ提供システムにおいて、前記使用許可表現辞書またはネットワーク文法に加えて、話者の発話する内容として使用を許可された表現以外の未知語を、前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、音声メッセージの発話内容に未知語が含まれていると判定された場合は、この未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【００１９】
また、この音声データ提供システムにおいて、前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることが好ましい。
【００２０】
また、この音声データ提供システムにおいて、前記発注者の指定した音声メッセージの発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使用を許可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【００２１】
また、本発明の音声データ作成装置は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、この音声データ作成装置は、前記話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、前記発注者の指定した音声メッセージの発話内容を文章解析するとともに、発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、この文書解析手段によって当該音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有している。
【００２２】
このような音声データ作成装置において、前記使用許可表現記録手段は、前記選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行うようにしている。
【００２３】
また、この音声データ作成装置において、前記使用許可表現記録手段は、前記選択された話者の発話内容として使用を許可された表現で構成されたネットワーク文法であって、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該ネットワーク文法の内容に照らし合わせて行うようにしている。
【００２４】
また、この音声データ作成装置において、前記使用許可表現辞書は、個々の話者対応に用意され、個々の話者において許容される表現が記述されていることが好ましい。
【００２５】
また、この音声データ作成装置において、前記ネットワーク文法は、個々の話者対応に用意され、個々の話者において許容される表現で構成されていることが好ましい。
【００２６】
また、この音声データ作成装置において、前記文書解析手段によって前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれていると判定された場合は、その未知語の存在を前記発注者に提示することが好ましい。
【００２７】
また、この音声データ作成装置において、前記使用許可表現辞書またはネットワーク文法に加えて、前記話者の発話する内容として使用を許可された表現以外の未知語を、前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、前記文書解析手段は音声メッセージの発話内容に未知語が含まれていると判定した場合は、当該未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【００２８】
また、この音声データ作成装置において、前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることが好ましい。
【００２９】
また、この音声データ作成装置において、前記発注者の指定した音声メッセージの発話内容を前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使用を許可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【００３０】
また、本発明の音声データ作成プログラムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ作成システムに用いられる音声データ作成プログラムであって、その音声データ作成プログラムは、前記発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定する手順と、当該音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理する手順とを含んでいる。
【００３１】
このような音声データ作成プログラムにおいて、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を前記選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書の内容に照らし合わせて行うようにしている。
【００３２】
また、この音声データ作成プログラムにおいて、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を前記選択された話者の発話内容として使用を許可された表現で構成されたネットワーク文法の内容に照らし合わせて行うようにしている。
【００３３】
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語の存在を前記発注者に提示することが好ましい。
【００３４】
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語を、前記使用を許可された表現に変換するための変換候補を前記発注者に提示することが好ましい。
【００３５】
また、この音声データ作成プログラムにおいて、前記不適切な表現が含まれていないことが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を言語変換手段を用いて当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【００３６】
このように本発明は、発注者が俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、その発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されていると判定された場合のみに、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを生成するようにしているので、生成された音声合成データ（音声メッセージ）は、話者の発話内容として使用を許可された表現のみ構成された内容となり、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者（受注側）もサービス提供者としての良識が疑われることもなくなる。
【００３７】
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
【００３８】
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができる。
【００３９】
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
【００４０】
また、音声メッセージの発話内容に使用を許可された表現以外の未知語が含まれていると判定された場合は、その音声メッセージの発話内容に対する音声合成処理を行わず、未知語を前記発注者に提示するようにしているので、不適切な表現が含まれた音声合成データが作成されるのを未然に防ぐことができるとともに、未知語を発注者に提示することによって、発注者は自分の用意した音声メッセージのどこが未知語なのかを知ることができ、未知語の修正がし易くなる。
【００４１】
また、未知語変換辞書を有し、音声メッセージの発話内容に未知語が含まれていると判定された場合は、この未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示するようにしているので、発注者はそれを見ることによって、未知語をどのような表現とすればよいかを即座に知ることができ、未知語の修正作業を容易に行うことができる。
【００４２】
その未知語変換辞書は、個々の話者対応に用意されることによって、個々の話者の個性などを生かした上で未知語の変換を行うことができる。
【００４３】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【００４４】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【００４５】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声データ提供システム、音声データ作成装置、音声データ作成プログラムについての説明を含むものである。
【００４６】
〔実施形態１〕
図１は本発明の実施形態１に係る音声データ提供システムの構成を説明する図である。この音声データ提供システムは、発注者の指定した音声メッセージの発話内容をある特定の話者の音声特徴データを用いて音声合成処理し、それによって得られた音声合成データを特注の音声データとして提供するシステムであり、その構成を大きく分けると、音声データ生成を発注する側としての発注者１、この発注者１の所望とする音声メッセージの発話内容を発注者１の要求する話者の音声特徴データを用いて音声合成処理し、それによって得られた音声データを発注者１に提供する受注側２、この受注側２と発注者１との間に介在されるネットワーク３、発注者１の選択した話者の声の権利を有する声の権利者４などから構成される。
【００４７】
この図１において、発注者１は、この音声データ提供システムを利用し、自分の好みの音声メッセージの作成を依頼して、その作成された音声メッセージの記録された機器（置き時計など）や記録媒体（ＣＤ−ＲＯＭなど）を購入してそれを自分で使用したり、その音声メッセージをネットワークを介して受信して、自分の情報端末（ＰＣや携帯電話機）にダウンロードして使用する人だけではなく、その機器や記録媒体そのものは自分で使用せずにプレゼントなどの目的で購入する人も含むものであるが、ここでの発注者１は、自分で発注した音声メッセージを自分で使用する場合を例にとって説明する。
【００４８】
また、受注側２は、音声データを埋め込むべき機器を製造する製造メーカであってあってもよく、また、音声データを提供するサービスを専門に行うサービス提供会社であってもよい。なお、サービス提供会社の場合は、音声データを作成してその音声データを機器製造会社や一般ユーザに提供することができることは勿論、機器製造会社から機器を供給されてその機器に音声データを組み込むところまでを行うことも可能である。
【００４９】
また、この受注側２で作成される音声データの発注者（たとえば発注者１）への納品形態は、たとえば、置き時計などの機器５に組み込まれた状態で納品される形態であってよく、ＣＤ−ＲＯＭなどの記録媒体６に記録された状態で納品される形態であってもよい。また、ある発注者（たとえば発注者１）がネットワーク３を介して自分の情報端末（ＰＣや携帯電話機など）にダウンロードするといった納品形態でもよい。
【００５０】
ところで、この受注側２は音声データ作成装置２０を有している。この音声データ作成装置２０は、発注者１の所望とする音声メッセージ、すなわち、本発明の実施形態では発注者１が自分のＰＣからキー入力した発話内容（テキストデータ）と発注者１の選択した話者の音声特徴データとを用いて音声合成データを作成するが、その音声合成処理を行う前に、発注者１のキー入力した音声メッセージの発話内容が、当該選択された話者の発話内容として使用を許可された表現（これをここでは使用許可語彙・活用という）で構成されているか否かを判定し、その話者の発話内容として使用を許可された表現（使用許可語彙・活用）で構成されていると判定された場合のみに音声合成処理を行うものであるが、その詳細な構成や動作については後に詳細に説明する。
【００５１】
また、声の権利者４は、俳優、歌手、声優、スポーツ選手などのいわゆる著名人である。なお、これら個々の著名人が個人で声の権利者４となる場合もあるが、俳優、歌手、声優などの場合はそれぞれが所属する事務所（プロダクションなど）などが声の権利者４となる場合もある。また、それ以外の著名人の場合も同様にそれぞれが所属する事務所などが声の権利者４となる場合もある。
【００５２】
このような構成において、その処理手順を簡単に説明すると、発注者１は自分のＰＣなどで受注側２の音声データ作成受注サイトにアクセスし、どのようなサービスを受けるかなどのサービス形態（この場合は、音声メッセージの作成要求）を選択し、その音声メッセージの発話内容をＰＣ上からキー入力するとともに、その音声メッセージをどのような話者に発話させたいかを選択（話者選択）する。
【００５３】
受注側２では、発注者１がキー入力した音声メッセージの発話内容のテキストデータと当該発注者１の選択した話者の音声特徴データとを用いて音声合成処理を行い、それによって得られた音声合成データを音声メッセージに対応する音声データとして当該発注者１に提供する。
【００５４】
このとき、上述したように、発注者１の入力した音声メッセージの発話内容が、当該発注者１によって選択された話者の発話内容として使用を許可された表現（使用許可語彙・活用）で構成されているか否かを判定し、その話者対応の使用許可語彙・活用で構成されていると判定されれば、発注者１の選択した話者に対応する声の権利者４に使用許諾を要求し、使用許諾が得られれば、その話者の音声特徴データと発注者１の入力した音声メッセージの発話内容（テキストデータ）とを用いて音声合成処理を行う。そして、それによって得られた音声合成データを発注者１の購入希望の機器に搭載された記憶手段に記録させてその機器５を発注者１に提供したり、ＣＤ−ＲＯＭなどの記録媒体６に記録させたものを発注者に提供したり、その音声合成データそのものを発注者に送信して発注者１が自身の情報端末にダウンロードしたりする。以下、詳細に説明する。
【００５５】
図２は受注側２に設けられる音声データ作成装置２０の構成図であり、文章解析部２１と、文法データ２２と、音声合成処理部としての韻律制御部２２および音声波形生成部２３と、この受注側２に記述されている俳優、歌手、声優、スポーツ選手などの多数の話者（話者＃１、話者＃２，・・・，話者＃ｎとする）の発話内容として使用を許可された表現が記録されている使用許可表現記録手段としての使用許可表現辞書２５１，２５２，・・・，２５ｎと、これら話者＃１、話者＃２，・・・，話者＃ｎに対する音声特徴データである韻律データ２６１，２６２，・・・，２６ｎおよび音質データ２７１，２７２，・・・，２７ｎとを有している。
【００５６】
使用許可表現辞書２５１，２５２，・・・，２５ｎは、個々の話者＃１、話者＃２，・・・，話者＃ｎの発話内容として使用を許可された表現（使用許可語彙・活用）が記述されているものである。
【００５７】
文章解析部２１は、発注者１によって入力された音声メッセージの発話内容（テキストデータ）を受け取って、文法辞書や日本語語彙辞書などからなる文法データ２２を用いて文章解析（構文解析や形態解析）を行って、その文章解析結果を当該発注者１の選択した話者用の使用許可表現辞書（話者＃１、話者＃２，・・・，話者＃ｎ用の使用許可表現辞書２５１〜２５ｎのいずれか）に照らし合わせて、発注者１の入力した音声メッセージの発話内容が、当該選択された話者用の使用許可語彙・活用で構成されているか否かを判定し、当該選択された話者用の使用許可語彙・活用で構成されていると判定した場合には、その文章解析結果を次の処理過程である音声合成処理部（韻律制御部２３と音声波形生成部２４）に渡す。
【００５８】
また、発注者１の入力した音声メッセージの発話内容に、当該選択された話者用の使用許可語彙・活用以外の表現（これを未知語と呼ぶことにする）があると判定された場合には、その旨を発注者１に通知するとともに、どれが未知語であるかをその発注者１に提示する。
【００５９】
また、音声合成処理部としての韻律制御部２３と音声波形生成部２４は、文章解析部２１で適正な表現であると判定された音声メッセージの発話内容（テキストデータ）の文章解析結果に対して、発注者１によって選択された話者の音声特徴データ、すなわち、話者＃１、話者＃２，・・・，話者＃ｎ用の韻律データ２６１〜２６ｎのうち、その話者に対応する韻律データと話者＃１、話者＃２，・・・，話者＃ｎ用の声質データ２７１〜２７ｎのうち、その話者に対応する声質データを用いて音声合成処理を行って、音声合成データを出力する。
【００６０】
このような構成において、具体例を用いて図３を参照しながらより詳細に説明する。発注者１は自分のＰＣなどで受注側２の音声データ作成受注サイトにアクセスし、自分で用意した音声メッセージの発話内容を自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器（置き時計など）５の記憶手段に記録することを依頼するものとする。
【００６１】
ここでの音声メッセージの発話内容は、たとえば、「もう朝だよ起きろばか」という内容であって、その内容を発話させる話者として、あるアイドル歌手（話者＃１とする）を選択するものとする。
【００６２】
発注者１は、その音声メッセージの発話内容を自分のＰＣによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手（話者＃１）を選択する。これによって、発注者１によってキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータが受注側２における音声データ作成装置２０の文書解析部２１に入力されるとともに、話者＃１を選択したことを示す話者選択情報が文書解析部２１に入力される。
【００６３】
文書解析部２１では、入力されたテキストデータに対して文法データ（文法辞書や日本語語彙辞書などからなる）２２を用いて、文書解析として形態素解析を行い（ステップＳ１）、品詞分解してその形態素解析結果を得る（ステップＳ２）。
【００６４】
そして、この図３のステップＳ２に示すような形態素解析結果を、発注者１の選択した話者＃１用の使用許可表現辞書２５１に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書２５１に記述された内容の一致を判定する（ステップＳ３）。この場合、話者＃１に対する使用許可表現辞書２５１には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」は記述されていないとする。
【００６５】
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は、該話者＃１の発話する内容として適切であると判定されるが、「起きろ」や「寝ろ」は当該話者＃１の使用許可表現辞書に記述されていない表現（未知語）であると判定されるので、この場合、使用許可語彙・活用として「もう」、「朝」、「だ」、「よ」が抽出される（ステップＳ４）。
【００６６】
このように、当該話者＃１の使用許可表現辞書２５１に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれていることを発注者１に通知するとともに、その判定結果を発注者１に対して提示する（ステップＳ５）。
【００６７】
この発注者１に提示される判定結果としては、たとえば、この図３のステップＳ５に示すように、「もう朝だよ ○○○ ○○」というように、未知語である「起きろ」、「ばか」の各文字部分を○で表すことが考えられる。なお、この未知語の表し方としては、そのほかに、未知語を太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が考えられる。
【００６８】
発注者１がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話内容に話者＃１（あるアイドル歌手）にとって未知語があることを知り、その未知語を修正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、再び、前述のステップＳ１，Ｓ２の処理を行う。
【００６９】
すなわち、「もう朝だよ起きてね」のテキストデータを形態素解析して、その形態素解析結果を得る（ステップＳ１，Ｓ２）。そして、その形態素解析結果を、発注者１の選択した話者＃１用の使用許可表現辞書２５１に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書２５１の内容の一致を判断する（ステップＳ３）。この場合、話者＃１に対する使用許可表現辞書２５１には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているものとする。
【００７０】
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表現辞書２５１に記述されているので、その音声メッセージの発話内容は当該話者＃１の発話する内容として適切であると判定される。
【００７１】
このように、音声メッセージの発話内容が当該話者＃１の発話する内容として適切であると判定されると、次の処理過程である音声合成処理に入る。この音声合成処理は、韻律制御部２３と音声波形生成部２４によって行われる。すなわち、「もう朝だよ起きてね」というテキストデータに対する文章解析結果と、当該話者＃１用の韻律データ２５１およびその話者＃１用の声質データ２６１を用いて、音声合成処理を行い、音声合成データを出力する。
【００７２】
この音声合成データは、ここでは、発注者１の購入しようとする置き時計の記憶手段に記録される。これによって、その置き時計は、たとえば、その音声メッセージの出力タイミングとして、午前７時００分を設定すすれば、毎朝、午前７時ちょうどになると、話者＃１（あるアイドル歌手）の声と話し方で「もう朝だよ起きてね」という音声メッセージが出力される。
【００７３】
なお、ステップＳ３において、発注者１の用意した音声メッセージの発話内容が適切な語彙や活用で構成されていると判断されれば、上述したように、音声合成処理に入るが、このとき、その音声メッセージを発話する話者＃１（声の権利者４）に対してその音声特徴データ（韻律データや声質データなど）を使用するための使用許諾要求（図１参照）を出し、声の権利者４側からの使用許諾通知（図１参照）を取得すると、その音声特徴データ（この場合、韻律データ２６１と声質データ２７１）を用いた音声合成処理を行う。
【００７４】
このように、ある話者の音声特徴データを使用する際は、受注側２がその使用料金（個々の話者によって異なる場合もある）をその声の権利者４に支払う。
【００７５】
なお、ある話者の音声特徴データを使用する場合、その都度、受注側２から使用許諾要求を出し、それに対して、声の権利者４から使用許諾通知をもらうというようなことをせず、発注者１の用意した音声メッセージの発話内容に不適切な内容がないと判断したら、音声データ作成装置２０から声の権利者４に対して使用許諾要求だけを出して、その話者の音声特徴データを使用した音声合成データの作成を可能とするというような取り決めを、対応する声の権利者４との間で交わしておくことも可能である。その場合、声の権利者４は受注側２からの使用許諾要求によって、自分の音声特徴データの使用回数を把握することができ、それに基づいて課金することができる。
【００７６】
また、発注者１から受注側２への音声メッセージ作成料金の支払いは、コンビニエンスストアでの支払い、銀行振り込みによる支払い、クレジットカードでの支払いなど種々の方法を可能とする。
【００７７】
また、使用許可表現辞書の内容は個々の話者＃１，＃２，・・・，＃ｎによって異なるようにすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲内の語彙や活用の記述がなされた使用許可表現辞書を用意することによって、個々の話者の個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うことができる。
【００７８】
以上説明したようにこの実施形態１によれば、発注者１の指定（ここではキー入力）した音声メッセージの発話内容が、当該選択された話者（ここでは話者＃１）用の使用許可表現辞書２５１に記述された起用許可語彙・活用で構成されているか否かを判定し、使用許可語彙・活用以外の表現（未知語）が含まれていれば、それを発注者１に提示し、発注者１はそれを見て未知語を修正した音声メッセージの発話内容を作成して受注側２に送信し、受注側２では、その修正された音声メッセージについて、再度、当該選択された話者（ここでは話者＃１）用の使用許可表現辞書２５１に記述された語彙・活用で構成されているか否かを判定し、使用許可表現辞書２５１に記述された使用許可語彙・活用で構成されていると判定された場合のみに、その音声メッセージの発話内容を当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしている。
【００７９】
これによって、俳優、歌手、声優、スポーツ選手などの著名人（声の権利者）の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、また、このような音声データ提供サービスを行うサービス提供者（受注側２）もサービス提供者としての良識が疑われることもなくなる。
【００８０】
また、この実施形態１では、音声メッセージの発話内容が、個々の話者対応に設定された使用許可語彙・活用のみで構成されていると判定された場合に音声合成処理に移行できるので、音声メッセージの発話内容は、ある程度制限されるが、その分、その話者の発話内容としての適正さをより高めることができ、声の権利者としての話者に安心感を与えることができる。また、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者（受注側）もサービス提供者としての評価を高めることができる。
【００８１】
また、個々の話者用の発話内容として使用できる語彙や活用を記述する方式によれば、たとえば、新語や流行語が発生した場合に対応し易い効果もある。たとえば、そのときの流行語をある話者用に記述したい場合には、その流行語を使用許可語彙・活用として記述すれば、その流行語を含んだ音声メッセージの発話内容を作成することができる。
【００８２】
〔実施形態２〕
この実施形態２では話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段として、実施形態１における話者＃１，話者＃２，・・・，話者＃ｎ用の使用許可表現辞書２５１，２５２，・・・，２５ｎの代わりに、図４に示すように、それぞれの話者＃１，話者＃２，・・・，話者＃ｎ用のネットワーク文法２８１，２８２，・・・，２８ｎを用いた例を示すものである。その他の構成要素は図２と同じであるので同一部分には同一符号が付されている。以下、この実施形態２について説明する。
【００８３】
ネットワーク文法は、ごく簡単に言えば、図５に示すように、図示の左端（begin）から右端（end）に向かって（矢印Ｘ方向）それぞれの形態素をつないで行くことによって、幾つかの表現を生成可能とするものである。
【００８４】
この図５の例では、たとえば、「もう朝だよ起きてね」、「もう朝です起きてください」、「もう夜です寝てください」、「午前＊時 △分です起きてください」など、ネットワーク文法を構成する形態素数を組み合わせることによって、多様な音声メッセージの発話内容を生成できる。ただし、実施形態１の例に比較すると、生成可能な音声メッセージの発話内容の数は制限されるが、生成可能な音声メッセージの発話内容が簡単に把握できるので、好ましくない発話内容が作成される可能性はきわめて低くなり、声の権利者として話者に安心感を与えることができる効果がある。また、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者（受注側）もサービス提供者としての評価を高めることができる。
【００８５】
なお、図５において、「＊時」や「△分」などの「＊」や「△」の部分は、この場合、時刻を表す任意の数字を挿入可能とするものである。
【００８６】
このようなネットワーク文法をそれぞれの話者ごとに用意しておく。そして、発注者１がたとえば前述の実施形態１と同様に、「もう朝だよ起きろばか」という音声メッセージの発話内容を入力し、かつ、それを発話させる話者として、あるアイドル歌手（話者＃１とする）を選択するものとする。なお、この話者＃１用のネットワーク文法２８１は図５に示すものであるとする。
【００８７】
文書解析部２１では、入力されたテキストデータに対して文法データ（文法辞書や日本語語彙辞書などからなる）２２を用いて、文書解析として形態素解析を行い、品詞分解してその形態素解析結果を得る（図３のステップＳ２参照）。
【００８８】
そして、この形態素解析結果を、発注者１の選択した話者＃１用のネットワーク文法２８１（図５参照）を用いて、左端（begin）から該当する形態素をトレースして行く。この例では、「もう」、「朝」、「だよ」までは形態素の一致がとれるが、発注者１の入力した「起きろ」、「ばか」はネットワーク文法２８１に該当する形態素が記述されていないので、この「起きろ」、「ばか」は当該話者＃１の発話する表現としては未知語であると判断される。
【００８９】
このように、当該話者＃１の使用許可表現辞書に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれていることを発注者１に通知するとともに、その判定結果を発注者１に対して提示する。
【００９０】
この発注者１に提示される判定結果としては、前述したように、たとえば、「もう朝だよ ○○○ ○○」というように、未知語である「起きろ」、「ばか」の各文字部分を○で表すことが考えられる。なお、この未知語の表し方としては、そのほかに、未知語を太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が考えられる。
【００９１】
発注者１がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話内容に未知語があることを知り、その未知語を修正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、今度は、「もう朝だよ起きてね」のテキストデータを形態素解析して、その形態素解析結果を得て、その形態素解析結果を、発注者１の選択した話者＃１用のネットワーク文法２８１を用いて、上述したと同様に、左端（begin）から該当する形態素をトレースして行く。この場合、「もう」、「朝」、「だよ」、「起きて」、「ね」のすべての形態素がネットワーク文法を構成する形態素と一致がとれ、その音声メッセージ「もう朝だよ起きてね」の発話内容は当該話者＃１の発話する内容として適切であると判定される。
【００９２】
このように、音声メッセージの発話内容が当該話者＃１の発話する内容として適切であると判定されると、次の処理過程である音声合成処理に入るが、これ以降の処理は実施形態１と同じであり、実施形態１ですでに説明したのでここではその説明は省略する。
【００９３】
このように、ネットワーク文法を用いた実施形態２は、実施形態１に比較すると、生成可能な音声メッセージの発話内容の制約は大きいが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができるといった効果がある。
【００９４】
なお、この実施形態２において、発注者が話者を選択すると、その話者用のネットワーク文法を当該発注者に提示するようにし、その発注者はそのネットワーク文法を見て、自分の所望とする音声メッセージを作成するようにしてもよい。
【００９５】
たとえば、発注者１が話者＃１を選択したとすると、当該話者３１用のネットワーク文法３０１を発注者１側に送信し、発注者１はそれを自分のＰＣ上で見て、ＰＣ画面上で、たとえば、「もう」、「朝」、「だよ」、「起きて」、「ね」を、順次、クリックして行くことでは、音声メッセージの発話内容として「もう朝だよ起きてね」が受注者２側に入力されるようにすることもできる。
【００９６】
これによれば、発注者１の作成する音声メッセージの発話内容は、ネットワーク文法に沿った内容となるので、未知語が用いられることがなくなり、音声メッセージの発話内容の作成処理を容易なものとすることができ、それによって、音声合成処理を含めた全体の処理を効率よく行うことができる。
【００９７】
また、ネットワーク文法を構成する個々の形態素は、その形態素の内容によっては、固定としないで、いくつかの中から発注者に選択可能としてもよい。たとえば、上述したように、時刻や月日などは、「＊時」、「△分」、「＊月」、「△日」として、「＊」、「△」に時刻や月日を表す任意の数値を入力可能（プルダウンメニューのようなものから選択する形式でもよい）としたリ、「ください」というような表現は「ちょうだい」など、それに類似した表現で、かつ、その話者にふさわしい表現をいくつか用意しておいて、その中から選択できるようにしてもよい。このようにすれば、表現のバリエーションをより多彩なものとすることができる。
【００９８】
また、ネットワーク文法は個々の話者＃１，＃２，・・・，＃ｎによって異なる内容とすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲内の語彙や活用の記述がなされたネットワーク文法を用意することによって、個々の話者の個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うことができる。
【００９９】
このように、この実施形態２も実施形態１と同様に、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者（受注側）もサービス提供者としての評価を高めることができ、また、たとえば、新語や流行語が発生した場合に対応し易い効果が得られる。
【０１００】
〔実施形態３〕
前述の実施形態１および実施形態２では、受注側２から発注者１に対して未知語の存在を示す判定結果が提示されると、発注者１はその提示内容を見て、未知語を自分の判断で修正するようにしたが、この実施形態３では、話者＃１，＃２，・・・，＃ｎ用の使用許可表現辞書２５１，２５２，・・・，２５ｎ（実施形態１）または話者＃１，＃２，・・・，＃ｎ用のネットワーク文法２８１，２８２，・・・，２８ｎ（実施形態２）に加えて、話者＃１，＃２，・・・，＃ｎ用の未知語変換辞書２９１，２９２，・・・，２９ｎを持ち、発注者１のキー入力した音声メッセージの発話内容に未知語があった場合、個々の話者ごとにその未知語をどのような表現に変換したらよいかの変換候補を発注者１に提示できるようにする。
【０１０１】
図６はこの実施形態３における音声データ作成装置２０の構成を示す図であり、ここでは、実施形態１で用いた図２の構成に話者＃１，＃２，・・・，＃ｎ用の未知語変換辞書２９１，２９２，・・・，２９ｎを設けた例が示されている。この図６は図２で示した構成図に対して、話者＃１，＃２，・・・，＃ｎごとの未知語変換辞書２９１，２９２，・・・，２９ｎを有している点が異なるだけで、あとは図２と同じであるので、図２と同一の構成要素には同一符号が付されている。
【０１０２】
未知語変換辞書２９１，２９２，・・・，２９ｎは、上述したように、ある話者に発話させる音声メッセージの発話内容に未知語があった場合、その未知語をどのような表現に変換したらよいかの変換候補が記述されている辞書である。以下、図７を参照しながらこの実施形態３の具体例について説明する。
【０１０３】
発注者１は自分のＰＣなどで受注側２の音声データ作成受注サイトにアクセスし、上述の実施形態１と同様に、自分で用意した音声メッセージを自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器（置き時計など）５の記憶手段に記録することを依頼するものとする。
【０１０４】
ここでの音声メッセージの発話内容は、実施形態１で用いたものと同様、「もう朝だよ起きろばか」という内容であって、その音声メッセージの発話内容を自分のＰＣによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手（話者＃１）を選択したとする。これによって、発注者１のキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータは受注側２の文書解析部２１に入力されるとともに、話者＃１が選択されたことを示す話者選択情報が文書解析部２１に入力される。
【０１０５】
文書解析部２では、入力されたテキストデータに対して文法データ（文法辞書や日本語語彙辞書などからなる）２２を用いて文書解析として形態素解析を行い（ステップＳ１１）、品詞分解してその形態素解析結果を得る（ステップＳ１２）。
【０１０６】
そして、この図７におけるステップＳ１２に示すような形態素解析結果を、発注者１の選択した話者＃１用の使用許可表現辞書２５１に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書２５１の内容の一致を判定する（ステップＳ１３）。この場合、話者＃１に対する使用許可表現辞書２５１には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」といった命令形の活用は記述されていないとする。
【０１０７】
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は当該話者＃１の使用許可表現辞書２５１に記述されているので、該話者＃１の発話する内容として適切であると判定されるが、「起きろ」や「寝ろ」は当該話者＃１の使用許可表現辞書に記述されていない未知語であると判定され、この場合、使用許可語彙・活用として「もう」、「朝」、「だ」、「よ」が抽出される（ステップＳ１４）。
【０１０８】
このように、当該話者＃１の使用許可表現辞書に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、文章解析部２１は、当該話者＃１用の未知語変換辞書２８１を用いて、その不適切な表現をどのような表現としたらよいかの表現変換（語彙・活用変換）を行う（ステップＳ１５）。
【０１０９】
この場合、話者＃１用の未知語変換辞書２９１には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されており、また、「起きろ」や「寝ろ」といった命令形の表現については、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換することが記述されている。
【０１１０】
なお、「ばか」や「あほ」といった表現を「空白」とするのは、これら人を誹謗、中傷する表現を他の適当な表現に言い換えるのは難しいからであり、また、このような誹謗、中傷するような表現は、たとえ、それを他の表現で言い換えが可能であるとしてもそのような表現を用いるのは好ましいことではないからである。また、「起きろ」や「寝ろ」といった少し乱暴な命令形は、そのアイドル歌手ならこのような表現が好ましいとされる表現として、ここでは、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換するとしている。
【０１１１】
この未知語変換が終了すると、どこをどのように変換すればよいかを発注者１に提示する（ステップＳ１５）。この場合、発注者１の用意した「もう朝だよ起きろばか」という未知語を含む音声メッセージの発話内容は、この図７のステップＳ１６に示すように、第１の候補として、「もう朝だよ起きてね」、第２の候補として、「もう朝だよ起きてちょうだい」の２つの候補を発注者１に提示する。
【０１１２】
なお、ここでの未知語である「起きろ」、「ばか」の部分は、それが未知語であることを発注者に知らせるために、前述の実施形態１で説明したように、たとえば、「もう朝だよ ○○○ ○○」というように、未知語の各文字部分を○で表したり、太字で表したり、文字の大きさを大きくしたり、字体を変えたりするなど種々の方法が考えられる。
【０１１３】
このように、未知語変換辞書２９１を用いた未知語変換処理を行うことによって、この場合、第１の候補「もう朝だよ起きてね」、第２の候補「もう朝だよ起きてちょうだい」が発注者に提示されるが、これらの内容は、いずれも、「ばか」という表現が削除されている。これは、上述したように、話者＃１用の未知語変換辞書２９１には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されているからである。
【０１１４】
発注者１がこのような通知を受け取り、自分の用意した音声メッセージの発話内容に未知語があることを知り、受注側２から提示された第１の候補を選択し、「もう朝だよ起きてね」というような内容をキー入力したとすると、受注側２の音声データ作成装置２０では、文書解析部２１が「もう朝だよ起きてね」のテキストデータを形態素解析し、その形態素解析結果を得る（ステップＳ１１，Ｓ１２）。そして、その形態素解析結果を、発注者１の選択した話者＃１用の使用許可表現辞書２５１に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書２５１の内容の一致を判断する（ステップＳ１３）。この場合、話者＃１に対する使用許可表現辞書２５１には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているものとする。
【０１１５】
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表現辞書２５１に記述されているので、今度は、その音声メッセージの発話内容は当該話者＃１の発話する内容として適切であると判定される。
【０１１６】
なお、この場合、受注側２から２つの候補が発注者１に提示され、発注者１がそれを見て、その候補の中から自分の好みの表現を選択して、その候補を含んだ音声メッセージの発話内容全体キー入力し直すようにしているが、音声メッセージの発話内容全体をキー入力し直す必要はなく、どの候補を選ぶかの情報のみを受注側２に送るようにしてもよい。たとえば、この場合、発注者１が第１の候補を選択するという情報を受注側２に送ることで、あとは、受注側２で、その第１の候補「もう朝だよ起きてね」が発注者１の所望とする音声メッセージの発話内容であると判断し、次の処理である音声合成処理を行って、音声合成された音声データを機器５の記録手段に記録する。
【０１１７】
この音声合成処理以降の処理は、実施形態１と同じであり、実施形態１ですでに説明したのでここではその説明は省略する。
【０１１８】
なお、未知語変換辞書２８１，２８２，・・・，２８ｎの内容は、個々の話者＃１，＃２，・・・，＃ｎによって異なるようにすることも可能であり、たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、それに応じた未知語変換辞書を作成しておく。
【０１１９】
以上説明したようにこの実施形態３によれば、発注者１が自分で用意した音声メッセージの発話内容に、当該発注者１の選択した話者用の使用許可表現辞書２５１に記述されていない未知語が含まれている場合は、その未知語に対する変換候補を受注側２で用意して、それを発注者１に提示するようにしている。これによって、発注者１は、未知語をどのように修正すればよいかが一目でわかるので、発話させる話者ごとの音声メッセージの発話内容の作成が容易なものとなる。
【０１２０】
また、前述の実施形態１と同様、適切な音声メッセージの発話内容であると判断された場合のみに、当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、俳優、歌手、声優、スポーツ選手などの著名人（声の権利者）の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者（受注側２）もサービス提供者としての良識が疑われることもなくなる。
【０１２１】
なお、ここでは未知語変換処理を実施形態１に適用した例を説明したが、実施形態２にも適用できることは勿論である。
【０１２２】
〔実施形態４〕
上述の各実施形態では、発注者１の用意した日本語の音声メッセージの発話内容を、その発注者１の選択した話者の音声特徴データを用いてその話者が日本語の音声メッセージを発話するような音声合成処理を行った例を説明したが、この実施形態４では、発注者１の用意した音声メッセージの発話内容に用いた言語と音声合成された音声メッセージの言語を異ならせることを可能とする。
【０１２３】
たとえば、発注者１が上述の各実施形態で用いた「もう朝だよ起きろばか」という日本語の音声メッセージの発話内容をキー入力し、それを話者＃１の音声特徴データを用いて英語の音声メッセージの作成を要求することも可能である。以下、この実施形態４について図８を参照しながら簡単に説明する。なお、ここでは、実施形態１に適用した例について説明する。
【０１２４】
図８はこの実施形態４の音声データ作成装置２０の構成を示す図であり、文書解析部２１の出力側に、言語変換部３０が設けられている点が異なるだけで、その他の構成要素は図２と同様であるので、同一部分には同一符号が付されている。
【０１２５】
この言語変換部３０は、ある言語を発注者１の指定する言語に変換（翻訳）処理可能なものであるが、この実施形態３では、日本語を他の言語に変換可能とする。この場合、日本語から英語というように、変換（翻訳）できる言語が予めある１つの言語に決められていてもよいが、日本語から複数の言語に変換可能とし、その複数の言語の中から発注者１が変換すべき言語を指定できるようにしてもよい。
【０１２６】
なお、このように、複数の言語の中から発注者１が変換すべき言語を指定できるようにする場合、発注者１は、音声メッセージの発話内容をキー入力するとともに話者選択を行い、さらに、言語選択を行う。たとえば、英語での音声メッセージの作成を依頼する場合は、言語として英語を選択する。
【０１２７】
ここで、発注者１がたとえば音声メッセージの発話内容として実施形態１で用いた「もう朝だよ起きろばか」をキー入力するとともに話者＃１を選択し、さらに、言語として英語を選択したとする。これによって、その「もう朝だよ起きろばか」のテキストデータと話者選択情報が文書解析部２１に入力されるとともに、言語選択情報が言語変換部３０に入力される。
【０１２８】
文書解析部２１では、実施形態１で説明したような文書解析処理がなされるとともに、入力された音声メッセージの発話内容に話者＃１が発話する内容として不適切な表現が有るか否かの判定がなされるが、これらの処理についてはすでに詳細に説明したのでここではその説明は省略する。そして、不適切な表現があればその修正を行って、たとえば、前述したように、「もう朝だよ起きてね」と修正され、不適切な表現がないと判定された場合は、その音声メッセージの発話内容に対する文書解析結果を用いて言語変換部３０が言語変換（この場合、日本語を英語に変換）を行う。
【０１２９】
そして、その言語変換された音声メッセージの発話内容について、韻律制御部２３と音声波形生成部２４が話者＃１用の韻律データと話者＃１用の音声波形データを用いて音声合成処理を行い、「もう朝だよ起きてね」が英語に翻訳された音声メッセージが出力される。
【０１３０】
このように、発注者１の用意した日本語の音声メッセージの発話内容をその話者の指定した言語（この場合は英語）変換し、その英語の音声メッセージの発話内容を当該発注者１の選択した話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、この場合、「もう朝だよ起きてね」という音声メッセージの発話内容を話者＃１によって英語で発話させることができる。
【０１３１】
なお、ここでは実施形態１の例について説明したが、実施形態２や実施形態３の場合にも同様に実施することができる。また、変換後の言語は英語に限られるものではなく、他の言語であってもよい。
【０１３２】
このように実施形態４によれば、発注者の指定した音声メッセージの発話内容を、他の言語に変換する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【０１３３】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【０１３４】
なお、本発明は上述の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の各実施形態では、発注者１の選択したある特定の話者の音声特徴データを用いた音声メッセージを置き時計などの機器５に組み込む例について説明したが、これは、前述したように、機器５などに組み込むだけでなく、ＣＤ−ＲＯＭなどの記録媒体６に記録させたものを発注者１に納品する形態でもよく、また、作成された音声メッセージをネットワーク３を介して発注者１がダウンロードできるような形態であってもよい。
【０１３５】
また、上述の各実施形態では、音声メッセージの発注を行う発注者１と作成された音声メッセージを受け取る受取人は同一人として説明したが、発注者１と作成された音声メッセージを受け取る受取人またはそれを使用する使用者は別人であってもよい。
【０１３６】
また、上述の各実施形態では、音声メッセージの発話内容を発注者１自身がキー入力などして受注側２に送信するようにしたが、発注者１は電話などで受注側２に音声メッセージの発話内容を口頭で伝えたり、ファクシミリで音声メッセージの発話内容を送信して、それを受注側２で受信して、受注側２の担当者が、受注側２に用意されたＰＣなどからキー入力するような形態であってもよい。
【０１３７】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１３８】
【発明の効果】
以上説明したように本発明によれば、たとえば、発注者が俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、その発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されていると判定された場合のみに、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを生成するようにしているので、生成された音声合成データ（音声メッセージ）は、話者の発話内容として使用を許可された表現のみ構成された内容となり、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者（受注側）もサービス提供者としての良識が疑われることもなくなる。
【０１３９】
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
【０１４０】
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができる。
【０１４１】
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
【０１４２】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【０１４３】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【図面の簡単な説明】
【図１】本発明の実施形態１に係る音声データ提供システムの構成を説明する図である。
【図２】実施形態１における音声データ提供システムの受注側に設けられる音声データ作成装置２０の構成図である。
【図３】実施形態１における文書解析部２１の処理手順を説明する図である。
【図４】本発明の実施形態２に係る音声データ提供システムの受注側に設けられる音声データ作成装置２０の構成図である。
【図５】実施形態２で用いられるネットワーク文法の一例を示す図である。
【図６】本発明の実施形態３に係る音声データ提供システムの受注側に設けられる音声データ作成装置２０の構成図である。
【図７】実施形態３における文書解析部２１の処理手順を説明する図である。
【図８】本発明の実施形態４に係る音声データ提供システムの受注側に設けられる音声データ作成装置２０の構成図である。
【符号の説明】
１発注者
２受注側
３ネットワーク
４声の権利者
５機器
６記録媒体
２０音声データ作成装置
２１文章解析部
２２文法データ
２３韻律制御部
２４音声波形生成部
２５１，２５２，・・・，２５ｎ使用許可表現辞書
２６１，２６２，・・・，２６ｎ韻律データ
２７１，２７２，・・・，２７ｎ声質データ
２８１，２８２，・・・，２８ｎネットワーク文法
２９１，２９２，・・・，２９ｎ未知語変換辞書
３０言語変換部

Claims

発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムであって、
前記発注者から前記音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、前記特定の話者の選択情報を受信すると、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定し、前記使用を許可された表現で構成されていると判定された場合に、前記発注者の指定した音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供し、
前記受注側は、前記特定の話者の発話内容として使用を許可された表現が記述された使用許可表現辞書を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記使用許可表現辞書の内容に照らし合わせて行い、
前記使用許可表現辞書に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、前記音声メッセージの発話内容に前記未知語が含まれていると判定された場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ提供システム。
発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムであって、
前記発注者から前記音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、前記特定の話者の選択情報を受信すると、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定し、前記使用を許可された表現で構成されていると判定された場合に、前記発注者の指定した音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供し、
前記受注側は、前記特定の話者の発話内容として使用を許可された表現で構成されたネットワーク文法を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記ネットワーク文法の内容に照らし合わせて行い
前記ネットワーク文法に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、前記音声メッセージの発話内容に前記未知語が含まれていると判定された場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ提供システム。
前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることを特徴とする請求項１または２に記載の音声データ提供システム。
発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、
前記音声データ作成装置は、
前記特定の話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、
前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、
前記音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有し、
前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として使用を許可された表現が記述された使用許可表現辞書であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記使用許可表現辞書の内容に照らし合わせて行い、
前記使用許可表現辞書に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、
前記文書解析手段は、音声メッセージの発話内容に未知語が含まれていると判定した場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ作成装置。
発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、
前記音声データ作成装置は、
前記特定の話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、
前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、
前記音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有し、
前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として使用を許可された表現で構成されたネットワーク文法であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記ネットワーク文法の内容に照らし合わせて行い、
前記ネットワーク文法に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、
前記文書解析手段は、音声メッセージの発話内容に未知語が含まれていると判定した場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ作成装置。
前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることを特徴とする請求項４または５に記載の音声データ作成装置。