JP4356334B2 - 音声データ提供システムならびに音声データ作成装置 - Google Patents
音声データ提供システムならびに音声データ作成装置 Download PDFInfo
- Publication number
- JP4356334B2 JP4356334B2 JP2003060266A JP2003060266A JP4356334B2 JP 4356334 B2 JP4356334 B2 JP 4356334B2 JP 2003060266 A JP2003060266 A JP 2003060266A JP 2003060266 A JP2003060266 A JP 2003060266A JP 4356334 B2 JP4356334 B2 JP 4356334B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- speaker
- orderer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000014509 gene expression Effects 0.000 claims abstract description 156
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 94
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000006243 chemical reaction Methods 0.000 claims description 81
- 238000000034 method Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 34
- 230000033764 rhythmic process Effects 0.000 abstract 2
- 230000001755 vocal effect Effects 0.000 abstract 1
- 230000000877 morphologic effect Effects 0.000 description 16
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241000287462 Phalacrocorax carbo Species 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供する音声データ提供システムならびに音声データ作成装置および音声データ作成プログラムに関する。
【0002】
【従来の技術】
発注者の指定した音声メッセージの発話内容(テキストデータ)とその発注者の選択したある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供するシステムが従来から知られている。
【0003】
たとえば、特開2002−23777号公報に記載の発明(以下、特許文献1という)や、特開2001−255884号公報に記載の発明(以下、特許文献2という)もその一例である。
【0004】
これらの発明は、発注者がネットワークに接続されたパーソナルコンピュータ(PCという)などから音声メッセージの発話内容をキー入力し、かつ、話者(たとえば、俳優、歌手、声優、スポーツ選手などの著名人)を選択すると、システム側では、その発注者の入力した音声メッセージの発話内容に対するテキストデータと当該発注者の選択した話者の音声特徴データとを用いて音声合成処理を行い、その話者の声と話し方での音声合成データを生成して、それを特別注文(特注という)の音声データとして、たとえば、CD−ROM(Compact Disk-Read Only Memory)などの記録媒体に記録させて当該発注者に納品するといったことを可能とするものである。
【0005】
また、特許文献1の発明には、このような音声合成データを玩具、置き時計、携帯電話機などの機器に組み込むことによってこれらの機器に付加価値を持たせることが記載されている。
【0006】
【特許文献1】
特開2002−23777号公報
【特許文献2】
特開2001−255884号公報
【0007】
【発明が解決しようとする課題】
上述した特許文献1や特許文献2の発明によれば、発注者は自分の用意した音声メッセージの発話内容を自分の好みの著名人などある特定の話者に似せた話し方で発話させることができるので、それによって得られた音声メッセージはその発注者にとって価値の高いものとすることができ、さらに、その音声メッセージを玩具や置き時計などの機器に組み込むことによって、それらの機器はその発注者にとって唯一無二の機器とすることができる。
【0008】
しかしながら、発注者が用意した音声メッセージの発話内容とその発注者の好みの著名人の音声特徴データとを用いて音声合成処理し、それによって、その著名人に似せた話し方で発話させるとなると、音声メッセージの内容によっては、その発注者の選択した著名人などの名誉を傷つけることにもなり兼ねない。
【0009】
たとえば、アイドル歌手やテレビジョンで放映されているアニメーション番組の人気キャラクタ(声優)の音声特徴データを用いて、乱暴な言い回しや卑猥な内容の音声メッセージを発話させるというように、公の場でその話者が発話することのあり得ない内容の音声メッセージを発話させるといったことも可能となってしまう。
【0010】
これら著名人の多くは自分の声自体も売り物の1つとしている人も多いのが一般的であり、声の権利者でもあるといえる。したがって、これら著名人に似せた声や話し方で、その著名人の意図しない発話内容を発話させ、それをネットワーク上で配信可能としたり、ある特定の機器に埋め込むのは問題である。また、このようなことが実際に行われると、このような音声データ提供サービスを行うサービス提供者に対してもその責任が発生し、サービス提供者としての良識が疑われることにもなる。
【0011】
そこで本発明は、自分の用意した音声メッセージの発話内容をある特定の話者に似せた話し方で発話させるような音声合成を行ってその音声合成データを特注の音声データとして提供する際、音声メッセージの発話内容に声の権利者やサービス提供者の意図しない表現があるか否かを判断することで、適正な内容の音声メッセージの作成を可能とすることを目的としている。
【0012】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音声データ提供システムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムであって、前記発注者から音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、当該発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定し、使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを音声データとして提供するようにしている。
【0013】
このような音声データ提供システムにおいて、前記受注側は、選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行うようにしている。
【0014】
また、この音声データ提供システムにおいて、前記受注側は、選択された話者の発話する内容として使用を許可された表現で構成されたネットワーク文法を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該ネットワーク文法の内容に照らし合わせて行うようにしている。
【0015】
また、この音声データ提供システムにおいて、前記使用許可表現辞書は、個々の話者対応に用意され、個々の話者において許容される表現が記述されていることが好ましい。
【0016】
また、この音声データ提供システムにおいて、前記ネットワーク文法は、個々の話者対応に用意され、個々の話者において許容される表現で構成されていることが好ましい。
【0017】
また、この音声データ提供システムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語の存在を前記発注者に提示することが好ましい。
【0018】
また、この音声データ提供システムにおいて、前記使用許可表現辞書またはネットワーク文法に加えて、話者の発話する内容として使用を許可された表現以外の未知語を、前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、音声メッセージの発話内容に未知語が含まれていると判定された場合は、この未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【0019】
また、この音声データ提供システムにおいて、前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることが好ましい。
【0020】
また、この音声データ提供システムにおいて、前記発注者の指定した音声メッセージの発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使用を許可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【0021】
また、本発明の音声データ作成装置は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、この音声データ作成装置は、前記話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、前記発注者の指定した音声メッセージの発話内容を文章解析するとともに、発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、この文書解析手段によって当該音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有している。
【0022】
このような音声データ作成装置において、前記使用許可表現記録手段は、前記選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行うようにしている。
【0023】
また、この音声データ作成装置において、前記使用許可表現記録手段は、前記選択された話者の発話内容として使用を許可された表現で構成されたネットワーク文法であって、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該ネットワーク文法の内容に照らし合わせて行うようにしている。
【0024】
また、この音声データ作成装置において、前記使用許可表現辞書は、個々の話者対応に用意され、個々の話者において許容される表現が記述されていることが好ましい。
【0025】
また、この音声データ作成装置において、前記ネットワーク文法は、個々の話者対応に用意され、個々の話者において許容される表現で構成されていることが好ましい。
【0026】
また、この音声データ作成装置において、前記文書解析手段によって前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれていると判定された場合は、その未知語の存在を前記発注者に提示することが好ましい。
【0027】
また、この音声データ作成装置において、前記使用許可表現辞書またはネットワーク文法に加えて、前記話者の発話する内容として使用を許可された表現以外の未知語を、前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、前記文書解析手段は音声メッセージの発話内容に未知語が含まれていると判定した場合は、当該未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【0028】
また、この音声データ作成装置において、前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることが好ましい。
【0029】
また、この音声データ作成装置において、前記発注者の指定した音声メッセージの発話内容を前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使用を許可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【0030】
また、本発明の音声データ作成プログラムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ作成システムに用いられる音声データ作成プログラムであって、その音声データ作成プログラムは、前記発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されているか否かを判定する手順と、当該音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理する手順とを含んでいる。
【0031】
このような音声データ作成プログラムにおいて、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を前記選択された話者の発話内容として使用を許可された表現が記述された使用許可表現辞書の内容に照らし合わせて行うようにしている。
【0032】
また、この音声データ作成プログラムにおいて、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を前記選択された話者の発話内容として使用を許可された表現で構成されたネットワーク文法の内容に照らし合わせて行うようにしている。
【0033】
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語の存在を前記発注者に提示することが好ましい。
【0034】
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、その未知語を、前記使用を許可された表現に変換するための変換候補を前記発注者に提示することが好ましい。
【0035】
また、この音声データ作成プログラムにおいて、前記不適切な表現が含まれていないことが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を言語変換手段を用いて当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することも可能である。
【0036】
このように本発明は、発注者が俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、その発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されていると判定された場合のみに、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを生成するようにしているので、生成された音声合成データ(音声メッセージ)は、話者の発話内容として使用を許可された表現のみ構成された内容となり、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての良識が疑われることもなくなる。
【0037】
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
【0038】
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができる。
【0039】
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
【0040】
また、音声メッセージの発話内容に使用を許可された表現以外の未知語が含まれていると判定された場合は、その音声メッセージの発話内容に対する音声合成処理を行わず、未知語を前記発注者に提示するようにしているので、不適切な表現が含まれた音声合成データが作成されるのを未然に防ぐことができるとともに、未知語を発注者に提示することによって、発注者は自分の用意した音声メッセージのどこが未知語なのかを知ることができ、未知語の修正がし易くなる。
【0041】
また、未知語変換辞書を有し、音声メッセージの発話内容に未知語が含まれていると判定された場合は、この未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示するようにしているので、発注者はそれを見ることによって、未知語をどのような表現とすればよいかを即座に知ることができ、未知語の修正作業を容易に行うことができる。
【0042】
その未知語変換辞書は、個々の話者対応に用意されることによって、個々の話者の個性などを生かした上で未知語の変換を行うことができる。
【0043】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【0044】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声データ提供システム、音声データ作成装置、音声データ作成プログラムについての説明を含むものである。
【0046】
〔実施形態1〕
図1は本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。この音声データ提供システムは、発注者の指定した音声メッセージの発話内容をある特定の話者の音声特徴データを用いて音声合成処理し、それによって得られた音声合成データを特注の音声データとして提供するシステムであり、その構成を大きく分けると、音声データ生成を発注する側としての発注者1、この発注者1の所望とする音声メッセージの発話内容を発注者1の要求する話者の音声特徴データを用いて音声合成処理し、それによって得られた音声データを発注者1に提供する受注側2、この受注側2と発注者1との間に介在されるネットワーク3、発注者1の選択した話者の声の権利を有する声の権利者4などから構成される。
【0047】
この図1において、発注者1は、この音声データ提供システムを利用し、自分の好みの音声メッセージの作成を依頼して、その作成された音声メッセージの記録された機器(置き時計など)や記録媒体(CD−ROMなど)を購入してそれを自分で使用したり、その音声メッセージをネットワークを介して受信して、自分の情報端末(PCや携帯電話機)にダウンロードして使用する人だけではなく、その機器や記録媒体そのものは自分で使用せずにプレゼントなどの目的で購入する人も含むものであるが、ここでの発注者1は、自分で発注した音声メッセージを自分で使用する場合を例にとって説明する。
【0048】
また、受注側2は、音声データを埋め込むべき機器を製造する製造メーカであってあってもよく、また、音声データを提供するサービスを専門に行うサービス提供会社であってもよい。なお、サービス提供会社の場合は、音声データを作成してその音声データを機器製造会社や一般ユーザに提供することができることは勿論、機器製造会社から機器を供給されてその機器に音声データを組み込むところまでを行うことも可能である。
【0049】
また、この受注側2で作成される音声データの発注者(たとえば発注者1)への納品形態は、たとえば、置き時計などの機器5に組み込まれた状態で納品される形態であってよく、CD−ROMなどの記録媒体6に記録された状態で納品される形態であってもよい。また、ある発注者(たとえば発注者1)がネットワーク3を介して自分の情報端末(PCや携帯電話機など)にダウンロードするといった納品形態でもよい。
【0050】
ところで、この受注側2は音声データ作成装置20を有している。この音声データ作成装置20は、発注者1の所望とする音声メッセージ、すなわち、本発明の実施形態では発注者1が自分のPCからキー入力した発話内容(テキストデータ)と発注者1の選択した話者の音声特徴データとを用いて音声合成データを作成するが、その音声合成処理を行う前に、発注者1のキー入力した音声メッセージの発話内容が、当該選択された話者の発話内容として使用を許可された表現(これをここでは使用許可語彙・活用という)で構成されているか否かを判定し、その話者の発話内容として使用を許可された表現(使用許可語彙・活用)で構成されていると判定された場合のみに音声合成処理を行うものであるが、その詳細な構成や動作については後に詳細に説明する。
【0051】
また、声の権利者4は、俳優、歌手、声優、スポーツ選手などのいわゆる著名人である。なお、これら個々の著名人が個人で声の権利者4となる場合もあるが、俳優、歌手、声優などの場合はそれぞれが所属する事務所(プロダクションなど)などが声の権利者4となる場合もある。また、それ以外の著名人の場合も同様にそれぞれが所属する事務所などが声の権利者4となる場合もある。
【0052】
このような構成において、その処理手順を簡単に説明すると、発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、どのようなサービスを受けるかなどのサービス形態(この場合は、音声メッセージの作成要求)を選択し、その音声メッセージの発話内容をPC上からキー入力するとともに、その音声メッセージをどのような話者に発話させたいかを選択(話者選択)する。
【0053】
受注側2では、発注者1がキー入力した音声メッセージの発話内容のテキストデータと当該発注者1の選択した話者の音声特徴データとを用いて音声合成処理を行い、それによって得られた音声合成データを音声メッセージに対応する音声データとして当該発注者1に提供する。
【0054】
このとき、上述したように、発注者1の入力した音声メッセージの発話内容が、当該発注者1によって選択された話者の発話内容として使用を許可された表現(使用許可語彙・活用)で構成されているか否かを判定し、その話者対応の使用許可語彙・活用で構成されていると判定されれば、発注者1の選択した話者に対応する声の権利者4に使用許諾を要求し、使用許諾が得られれば、その話者の音声特徴データと発注者1の入力した音声メッセージの発話内容(テキストデータ)とを用いて音声合成処理を行う。そして、それによって得られた音声合成データを発注者1の購入希望の機器に搭載された記憶手段に記録させてその機器5を発注者1に提供したり、CD−ROMなどの記録媒体6に記録させたものを発注者に提供したり、その音声合成データそのものを発注者に送信して発注者1が自身の情報端末にダウンロードしたりする。以下、詳細に説明する。
【0055】
図2は受注側2に設けられる音声データ作成装置20の構成図であり、文章解析部21と、文法データ22と、音声合成処理部としての韻律制御部22および音声波形生成部23と、この受注側2に記述されている俳優、歌手、声優、スポーツ選手などの多数の話者(話者#1、話者#2,・・・,話者#nとする)の発話内容として使用を許可された表現が記録されている使用許可表現記録手段としての使用許可表現辞書251,252,・・・,25nと、これら話者#1、話者#2,・・・,話者#nに対する音声特徴データである韻律データ261,262,・・・,26nおよび音質データ271,272,・・・,27nとを有している。
【0056】
使用許可表現辞書251,252,・・・,25nは、個々の話者#1、話者#2,・・・,話者#nの発話内容として使用を許可された表現(使用許可語彙・活用)が記述されているものである。
【0057】
文章解析部21は、発注者1によって入力された音声メッセージの発話内容(テキストデータ)を受け取って、文法辞書や日本語語彙辞書などからなる文法データ22を用いて文章解析(構文解析や形態解析)を行って、その文章解析結果を当該発注者1の選択した話者用の使用許可表現辞書(話者#1、話者#2,・・・,話者#n用の使用許可表現辞書251〜25nのいずれか)に照らし合わせて、発注者1の入力した音声メッセージの発話内容が、当該選択された話者用の使用許可語彙・活用で構成されているか否かを判定し、当該選択された話者用の使用許可語彙・活用で構成されていると判定した場合には、その文章解析結果を次の処理過程である音声合成処理部(韻律制御部23と音声波形生成部24)に渡す。
【0058】
また、発注者1の入力した音声メッセージの発話内容に、当該選択された話者用の使用許可語彙・活用以外の表現(これを未知語と呼ぶことにする)があると判定された場合には、その旨を発注者1に通知するとともに、どれが未知語であるかをその発注者1に提示する。
【0059】
また、音声合成処理部としての韻律制御部23と音声波形生成部24は、文章解析部21で適正な表現であると判定された音声メッセージの発話内容(テキストデータ)の文章解析結果に対して、発注者1によって選択された話者の音声特徴データ、すなわち、話者#1、話者#2,・・・,話者#n用の韻律データ261〜26nのうち、その話者に対応する韻律データと話者#1、話者#2,・・・,話者#n用の声質データ271〜27nのうち、その話者に対応する声質データを用いて音声合成処理を行って、音声合成データを出力する。
【0060】
このような構成において、具体例を用いて図3を参照しながらより詳細に説明する。発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、自分で用意した音声メッセージの発話内容を自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器(置き時計など)5の記憶手段に記録することを依頼するものとする。
【0061】
ここでの音声メッセージの発話内容は、たとえば、「もう朝だよ起きろばか」という内容であって、その内容を発話させる話者として、あるアイドル歌手(話者#1とする)を選択するものとする。
【0062】
発注者1は、その音声メッセージの発話内容を自分のPCによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手(話者#1)を選択する。これによって、発注者1によってキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータが受注側2における音声データ作成装置20の文書解析部21に入力されるとともに、話者#1を選択したことを示す話者選択情報が文書解析部21に入力される。
【0063】
文書解析部21では、入力されたテキストデータに対して文法データ(文法辞書や日本語語彙辞書などからなる)22を用いて、文書解析として形態素解析を行い(ステップS1)、品詞分解してその形態素解析結果を得る(ステップS2)。
【0064】
そして、この図3のステップS2に示すような形態素解析結果を、発注者1の選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書251に記述された内容の一致を判定する(ステップS3)。この場合、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」は記述されていないとする。
【0065】
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は、該話者#1の発話する内容として適切であると判定されるが、「起きろ」や「寝ろ」は当該話者#1の使用許可表現辞書に記述されていない表現(未知語)であると判定されるので、この場合、使用許可語彙・活用として「もう」、「朝」、「だ」、「よ」が抽出される(ステップS4)。
【0066】
このように、当該話者#1の使用許可表現辞書251に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれていることを発注者1に通知するとともに、その判定結果を発注者1に対して提示する(ステップS5)。
【0067】
この発注者1に提示される判定結果としては、たとえば、この図3のステップS5に示すように、「もう 朝だよ ○○○ ○○」というように、未知語である「起きろ」、「ばか」の各文字部分を○で表すことが考えられる。なお、この未知語の表し方としては、そのほかに、未知語を太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が考えられる。
【0068】
発注者1がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話内容に話者#1(あるアイドル歌手)にとって未知語があることを知り、その未知語を修正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、再び、前述のステップS1,S2の処理を行う。
【0069】
すなわち、「もう朝だよ起きてね」のテキストデータを形態素解析して、その形態素解析結果を得る(ステップS1,S2)。そして、その形態素解析結果を、発注者1の選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書251の内容の一致を判断する(ステップS3)。この場合、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているものとする。
【0070】
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表現辞書251に記述されているので、その音声メッセージの発話内容は当該話者#1の発話する内容として適切であると判定される。
【0071】
このように、音声メッセージの発話内容が当該話者#1の発話する内容として適切であると判定されると、次の処理過程である音声合成処理に入る。この音声合成処理は、韻律制御部23と音声波形生成部24によって行われる。すなわち、「もう朝だよ起きてね」というテキストデータに対する文章解析結果と、当該話者#1用の韻律データ251およびその話者#1用の声質データ261を用いて、音声合成処理を行い、音声合成データを出力する。
【0072】
この音声合成データは、ここでは、発注者1の購入しようとする置き時計の記憶手段に記録される。これによって、その置き時計は、たとえば、その音声メッセージの出力タイミングとして、午前7時00分を設定すすれば、毎朝、午前7時ちょうどになると、話者#1(あるアイドル歌手)の声と話し方で「もう朝だよ起きてね」という音声メッセージが出力される。
【0073】
なお、ステップS3において、発注者1の用意した音声メッセージの発話内容が適切な語彙や活用で構成されていると判断されれば、上述したように、音声合成処理に入るが、このとき、その音声メッセージを発話する話者#1(声の権利者4)に対してその音声特徴データ(韻律データや声質データなど)を使用するための使用許諾要求(図1参照)を出し、声の権利者4側からの使用許諾通知(図1参照)を取得すると、その音声特徴データ(この場合、韻律データ261と声質データ271)を用いた音声合成処理を行う。
【0074】
このように、ある話者の音声特徴データを使用する際は、受注側2がその使用料金(個々の話者によって異なる場合もある)をその声の権利者4に支払う。
【0075】
なお、ある話者の音声特徴データを使用する場合、その都度、受注側2から使用許諾要求を出し、それに対して、声の権利者4から使用許諾通知をもらうというようなことをせず、発注者1の用意した音声メッセージの発話内容に不適切な内容がないと判断したら、音声データ作成装置20から声の権利者4に対して使用許諾要求だけを出して、その話者の音声特徴データを使用した音声合成データの作成を可能とするというような取り決めを、対応する声の権利者4との間で交わしておくことも可能である。その場合、声の権利者4は受注側2からの使用許諾要求によって、自分の音声特徴データの使用回数を把握することができ、それに基づいて課金することができる。
【0076】
また、発注者1から受注側2への音声メッセージ作成料金の支払いは、コンビニエンスストアでの支払い、銀行振り込みによる支払い、クレジットカードでの支払いなど種々の方法を可能とする。
【0077】
また、使用許可表現辞書の内容は個々の話者#1,#2,・・・,#nによって異なるようにすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲内の語彙や活用の記述がなされた使用許可表現辞書を用意することによって、個々の話者の個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うことができる。
【0078】
以上説明したようにこの実施形態1によれば、発注者1の指定(ここではキー入力)した音声メッセージの発話内容が、当該選択された話者(ここでは話者#1)用の使用許可表現辞書251に記述された起用許可語彙・活用で構成されているか否かを判定し、使用許可語彙・活用以外の表現(未知語)が含まれていれば、それを発注者1に提示し、発注者1はそれを見て未知語を修正した音声メッセージの発話内容を作成して受注側2に送信し、受注側2では、その修正された音声メッセージについて、再度、当該選択された話者(ここでは話者#1)用の使用許可表現辞書251に記述された語彙・活用で構成されているか否かを判定し、使用許可表現辞書251に記述された使用許可語彙・活用で構成されていると判定された場合のみに、その音声メッセージの発話内容を当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしている。
【0079】
これによって、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者)の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、また、このような音声データ提供サービスを行うサービス提供者(受注側2)もサービス提供者としての良識が疑われることもなくなる。
【0080】
また、この実施形態1では、音声メッセージの発話内容が、個々の話者対応に設定された使用許可語彙・活用のみで構成されていると判定された場合に音声合成処理に移行できるので、音声メッセージの発話内容は、ある程度制限されるが、その分、その話者の発話内容としての適正さをより高めることができ、声の権利者としての話者に安心感を与えることができる。また、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての評価を高めることができる。
【0081】
また、個々の話者用の発話内容として使用できる語彙や活用を記述する方式によれば、たとえば、新語や流行語が発生した場合に対応し易い効果もある。たとえば、そのときの流行語をある話者用に記述したい場合には、その流行語を使用許可語彙・活用として記述すれば、その流行語を含んだ音声メッセージの発話内容を作成することができる。
【0082】
〔実施形態2〕
この実施形態2では話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段として、実施形態1における話者#1,話者#2,・・・,話者#n用の使用許可表現辞書251,252,・・・,25nの代わりに、図4に示すように、それぞれの話者#1,話者#2,・・・,話者#n用のネットワーク文法281,282,・・・,28nを用いた例を示すものである。その他の構成要素は図2と同じであるので同一部分には同一符号が付されている。以下、この実施形態2について説明する。
【0083】
ネットワーク文法は、ごく簡単に言えば、図5に示すように、図示の左端(begin)から右端(end)に向かって(矢印X方向)それぞれの形態素をつないで行くことによって、幾つかの表現を生成可能とするものである。
【0084】
この図5の例では、たとえば、「もう 朝だよ 起きて ね」、「もう 朝です 起きて ください」、「もう 夜です 寝て ください」、「午前 *時 △分 です 起きて ください」など、ネットワーク文法を構成する形態素数を組み合わせることによって、多様な音声メッセージの発話内容を生成できる。ただし、実施形態1の例に比較すると、生成可能な音声メッセージの発話内容の数は制限されるが、生成可能な音声メッセージの発話内容が簡単に把握できるので、好ましくない発話内容が作成される可能性はきわめて低くなり、声の権利者として話者に安心感を与えることができる効果がある。また、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての評価を高めることができる。
【0085】
なお、図5において、「*時」や「△分」などの「*」や「△」の部分は、この場合、時刻を表す任意の数字を挿入可能とするものである。
【0086】
このようなネットワーク文法をそれぞれの話者ごとに用意しておく。そして、発注者1がたとえば前述の実施形態1と同様に、「もう朝だよ起きろばか」という音声メッセージの発話内容を入力し、かつ、それを発話させる話者として、あるアイドル歌手(話者#1とする)を選択するものとする。なお、この話者#1用のネットワーク文法281は図5に示すものであるとする。
【0087】
文書解析部21では、入力されたテキストデータに対して文法データ(文法辞書や日本語語彙辞書などからなる)22を用いて、文書解析として形態素解析を行い、品詞分解してその形態素解析結果を得る(図3のステップS2参照)。
【0088】
そして、この形態素解析結果を、発注者1の選択した話者#1用のネットワーク文法281(図5参照)を用いて、左端(begin)から該当する形態素をトレースして行く。この例では、「もう」、「朝」、「だよ」までは形態素の一致がとれるが、発注者1の入力した「起きろ」、「ばか」はネットワーク文法281に該当する形態素が記述されていないので、この「起きろ」、「ばか」は当該話者#1の発話する表現としては未知語であると判断される。
【0089】
このように、当該話者#1の使用許可表現辞書に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれていることを発注者1に通知するとともに、その判定結果を発注者1に対して提示する。
【0090】
この発注者1に提示される判定結果としては、前述したように、たとえば、「もう 朝だよ ○○○ ○○」というように、未知語である「起きろ」、「ばか」の各文字部分を○で表すことが考えられる。なお、この未知語の表し方としては、そのほかに、未知語を太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が考えられる。
【0091】
発注者1がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話内容に未知語があることを知り、その未知語を修正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、今度は、「もう朝だよ起きてね」のテキストデータを形態素解析して、その形態素解析結果を得て、その形態素解析結果を、発注者1の選択した話者#1用のネットワーク文法281を用いて、上述したと同様に、左端(begin)から該当する形態素をトレースして行く。この場合、「もう」、「朝」、「だよ」、「起きて」、「ね」のすべての形態素がネットワーク文法を構成する形態素と一致がとれ、その音声メッセージ「もう朝だよ起きてね」の発話内容は当該話者#1の発話する内容として適切であると判定される。
【0092】
このように、音声メッセージの発話内容が当該話者#1の発話する内容として適切であると判定されると、次の処理過程である音声合成処理に入るが、これ以降の処理は実施形態1と同じであり、実施形態1ですでに説明したのでここではその説明は省略する。
【0093】
このように、ネットワーク文法を用いた実施形態2は、実施形態1に比較すると、生成可能な音声メッセージの発話内容の制約は大きいが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができるといった効果がある。
【0094】
なお、この実施形態2において、発注者が話者を選択すると、その話者用のネットワーク文法を当該発注者に提示するようにし、その発注者はそのネットワーク文法を見て、自分の所望とする音声メッセージを作成するようにしてもよい。
【0095】
たとえば、発注者1が話者#1を選択したとすると、当該話者31用のネットワーク文法301を発注者1側に送信し、発注者1はそれを自分のPC上で見て、PC画面上で、たとえば、「もう」、「朝」、「だよ」、「起きて」、「ね」を、順次、クリックして行くことでは、音声メッセージの発話内容として「もう朝だよ起きてね」が受注者2側に入力されるようにすることもできる。
【0096】
これによれば、発注者1の作成する音声メッセージの発話内容は、ネットワーク文法に沿った内容となるので、未知語が用いられることがなくなり、音声メッセージの発話内容の作成処理を容易なものとすることができ、それによって、音声合成処理を含めた全体の処理を効率よく行うことができる。
【0097】
また、ネットワーク文法を構成する個々の形態素は、その形態素の内容によっては、固定としないで、いくつかの中から発注者に選択可能としてもよい。たとえば、上述したように、時刻や月日などは、「*時」、「△分」、「*月」、「△日」として、「*」、「△」に時刻や月日を表す任意の数値を入力可能(プルダウンメニューのようなものから選択する形式でもよい)としたリ、「ください」というような表現は「ちょうだい」など、それに類似した表現で、かつ、その話者にふさわしい表現をいくつか用意しておいて、その中から選択できるようにしてもよい。このようにすれば、表現のバリエーションをより多彩なものとすることができる。
【0098】
また、ネットワーク文法は個々の話者#1,#2,・・・,#nによって異なる内容とすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲内の語彙や活用の記述がなされたネットワーク文法を用意することによって、個々の話者の個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うことができる。
【0099】
このように、この実施形態2も実施形態1と同様に、個々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての評価を高めることができ、また、たとえば、新語や流行語が発生した場合に対応し易い効果が得られる。
【0100】
〔実施形態3〕
前述の実施形態1および実施形態2では、受注側2から発注者1に対して未知語の存在を示す判定結果が提示されると、発注者1はその提示内容を見て、未知語を自分の判断で修正するようにしたが、この実施形態3では、話者#1,#2,・・・,#n用の使用許可表現辞書251,252,・・・,25n(実施形態1)または話者#1,#2,・・・,#n用のネットワーク文法281,282,・・・,28n(実施形態2)に加えて、話者#1,#2,・・・,#n用の未知語変換辞書291,292,・・・,29nを持ち、発注者1のキー入力した音声メッセージの発話内容に未知語があった場合、個々の話者ごとにその未知語をどのような表現に変換したらよいかの変換候補を発注者1に提示できるようにする。
【0101】
図6はこの実施形態3における音声データ作成装置20の構成を示す図であり、ここでは、実施形態1で用いた図2の構成に話者#1,#2,・・・,#n用の未知語変換辞書291,292,・・・,29nを設けた例が示されている。この図6は図2で示した構成図に対して、話者#1,#2,・・・,#nごとの未知語変換辞書291,292,・・・,29nを有している点が異なるだけで、あとは図2と同じであるので、図2と同一の構成要素には同一符号が付されている。
【0102】
未知語変換辞書291,292,・・・,29nは、上述したように、ある話者に発話させる音声メッセージの発話内容に未知語があった場合、その未知語をどのような表現に変換したらよいかの変換候補が記述されている辞書である。以下、図7を参照しながらこの実施形態3の具体例について説明する。
【0103】
発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、上述の実施形態1と同様に、自分で用意した音声メッセージを自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器(置き時計など)5の記憶手段に記録することを依頼するものとする。
【0104】
ここでの音声メッセージの発話内容は、実施形態1で用いたものと同様、「もう朝だよ起きろばか」という内容であって、その音声メッセージの発話内容を自分のPCによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手(話者#1)を選択したとする。これによって、発注者1のキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータは受注側2の文書解析部21に入力されるとともに、話者#1が選択されたことを示す話者選択情報が文書解析部21に入力される。
【0105】
文書解析部2では、入力されたテキストデータに対して文法データ(文法辞書や日本語語彙辞書などからなる)22を用いて文書解析として形態素解析を行い(ステップS11)、品詞分解してその形態素解析結果を得る(ステップS12)。
【0106】
そして、この図7におけるステップS12に示すような形態素解析結果を、発注者1の選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書251の内容の一致を判定する(ステップS13)。この場合、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」といった命令形の活用は記述されていないとする。
【0107】
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は当該話者#1の使用許可表現辞書251に記述されているので、該話者#1の発話する内容として適切であると判定されるが、「起きろ」や「寝ろ」は当該話者#1の使用許可表現辞書に記述されていない未知語であると判定され、この場合、使用許可語彙・活用として「もう」、「朝」、「だ」、「よ」が抽出される(ステップS14)。
【0108】
このように、当該話者#1の使用許可表現辞書に記述されていない未知語が含まれると判定された場合は、次の処理過程である音声合成処理には進まず、文章解析部21は、当該話者#1用の未知語変換辞書281を用いて、その不適切な表現をどのような表現としたらよいかの表現変換(語彙・活用変換)を行う(ステップS15)。
【0109】
この場合、話者#1用の未知語変換辞書291には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されており、また、「起きろ」や「寝ろ」といった命令形の表現については、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換することが記述されている。
【0110】
なお、「ばか」や「あほ」といった表現を「空白」とするのは、これら人を誹謗、中傷する表現を他の適当な表現に言い換えるのは難しいからであり、また、このような誹謗、中傷するような表現は、たとえ、それを他の表現で言い換えが可能であるとしてもそのような表現を用いるのは好ましいことではないからである。また、「起きろ」や「寝ろ」といった少し乱暴な命令形は、そのアイドル歌手ならこのような表現が好ましいとされる表現として、ここでは、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換するとしている。
【0111】
この未知語変換が終了すると、どこをどのように変換すればよいかを発注者1に提示する(ステップS15)。この場合、発注者1の用意した「もう朝だよ起きろばか」という未知語を含む音声メッセージの発話内容は、この図7のステップS16に示すように、第1の候補として、「もう朝だよ起きてね」、第2の候補として、「もう朝だよ起きてちょうだい」の2つの候補を発注者1に提示する。
【0112】
なお、ここでの未知語である「起きろ」、「ばか」の部分は、それが未知語であることを発注者に知らせるために、前述の実施形態1で説明したように、たとえば、「もう 朝だよ ○○○ ○○」というように、未知語の各文字部分を○で表したり、太字で表したり、文字の大きさを大きくしたり、字体を変えたりするなど種々の方法が考えられる。
【0113】
このように、未知語変換辞書291を用いた未知語変換処理を行うことによって、この場合、第1の候補「もう朝だよ起きてね」、第2の候補「もう朝だよ起きてちょうだい」が発注者に提示されるが、これらの内容は、いずれも、「ばか」という表現が削除されている。これは、上述したように、話者#1用の未知語変換辞書291には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されているからである。
【0114】
発注者1がこのような通知を受け取り、自分の用意した音声メッセージの発話内容に未知語があることを知り、受注側2から提示された第1の候補を選択し、「もう朝だよ起きてね」というような内容をキー入力したとすると、受注側2の音声データ作成装置20では、文書解析部21が「もう朝だよ起きてね」のテキストデータを形態素解析し、その形態素解析結果を得る(ステップS11,S12)。そして、その形態素解析結果を、発注者1の選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要素と使用許可表現辞書251の内容の一致を判断する(ステップS13)。この場合、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」、「朝」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているものとする。
【0115】
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表現辞書251に記述されているので、今度は、その音声メッセージの発話内容は当該話者#1の発話する内容として適切であると判定される。
【0116】
なお、この場合、受注側2から2つの候補が発注者1に提示され、発注者1がそれを見て、その候補の中から自分の好みの表現を選択して、その候補を含んだ音声メッセージの発話内容全体キー入力し直すようにしているが、音声メッセージの発話内容全体をキー入力し直す必要はなく、どの候補を選ぶかの情報のみを受注側2に送るようにしてもよい。たとえば、この場合、発注者1が第1の候補を選択するという情報を受注側2に送ることで、あとは、受注側2で、その第1の候補「もう朝だよ起きてね」が発注者1の所望とする音声メッセージの発話内容であると判断し、次の処理である音声合成処理を行って、音声合成された音声データを機器5の記録手段に記録する。
【0117】
この音声合成処理以降の処理は、実施形態1と同じであり、実施形態1ですでに説明したのでここではその説明は省略する。
【0118】
なお、未知語変換辞書281,282,・・・,28nの内容は、個々の話者#1,#2,・・・,#nによって異なるようにすることも可能であり、たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、それに応じた未知語変換辞書を作成しておく。
【0119】
以上説明したようにこの実施形態3によれば、発注者1が自分で用意した音声メッセージの発話内容に、当該発注者1の選択した話者用の使用許可表現辞書251に記述されていない未知語が含まれている場合は、その未知語に対する変換候補を受注側2で用意して、それを発注者1に提示するようにしている。これによって、発注者1は、未知語をどのように修正すればよいかが一目でわかるので、発話させる話者ごとの音声メッセージの発話内容の作成が容易なものとなる。
【0120】
また、前述の実施形態1と同様、適切な音声メッセージの発話内容であると判断された場合のみに、当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者)の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側2)もサービス提供者としての良識が疑われることもなくなる。
【0121】
なお、ここでは未知語変換処理を実施形態1に適用した例を説明したが、実施形態2にも適用できることは勿論である。
【0122】
〔実施形態4〕
上述の各実施形態では、発注者1の用意した日本語の音声メッセージの発話内容を、その発注者1の選択した話者の音声特徴データを用いてその話者が日本語の音声メッセージを発話するような音声合成処理を行った例を説明したが、この実施形態4では、発注者1の用意した音声メッセージの発話内容に用いた言語と音声合成された音声メッセージの言語を異ならせることを可能とする。
【0123】
たとえば、発注者1が上述の各実施形態で用いた「もう朝だよ起きろばか」という日本語の音声メッセージの発話内容をキー入力し、それを話者#1の音声特徴データを用いて英語の音声メッセージの作成を要求することも可能である。以下、この実施形態4について図8を参照しながら簡単に説明する。なお、ここでは、実施形態1に適用した例について説明する。
【0124】
図8はこの実施形態4の音声データ作成装置20の構成を示す図であり、文書解析部21の出力側に、言語変換部30が設けられている点が異なるだけで、その他の構成要素は図2と同様であるので、同一部分には同一符号が付されている。
【0125】
この言語変換部30は、ある言語を発注者1の指定する言語に変換(翻訳)処理可能なものであるが、この実施形態3では、日本語を他の言語に変換可能とする。この場合、日本語から英語というように、変換(翻訳)できる言語が予めある1つの言語に決められていてもよいが、日本語から複数の言語に変換可能とし、その複数の言語の中から発注者1が変換すべき言語を指定できるようにしてもよい。
【0126】
なお、このように、複数の言語の中から発注者1が変換すべき言語を指定できるようにする場合、発注者1は、音声メッセージの発話内容をキー入力するとともに話者選択を行い、さらに、言語選択を行う。たとえば、英語での音声メッセージの作成を依頼する場合は、言語として英語を選択する。
【0127】
ここで、発注者1がたとえば音声メッセージの発話内容として実施形態1で用いた「もう朝だよ起きろばか」をキー入力するとともに話者#1を選択し、さらに、言語として英語を選択したとする。これによって、その「もう朝だよ起きろばか」のテキストデータと話者選択情報が文書解析部21に入力されるとともに、言語選択情報が言語変換部30に入力される。
【0128】
文書解析部21では、実施形態1で説明したような文書解析処理がなされるとともに、入力された音声メッセージの発話内容に話者#1が発話する内容として不適切な表現が有るか否かの判定がなされるが、これらの処理についてはすでに詳細に説明したのでここではその説明は省略する。そして、不適切な表現があればその修正を行って、たとえば、前述したように、「もう朝だよ起きてね」と修正され、不適切な表現がないと判定された場合は、その音声メッセージの発話内容に対する文書解析結果を用いて言語変換部30が言語変換(この場合、日本語を英語に変換)を行う。
【0129】
そして、その言語変換された音声メッセージの発話内容について、韻律制御部23と音声波形生成部24が話者#1用の韻律データと話者#1用の音声波形データを用いて音声合成処理を行い、「もう朝だよ起きてね」が英語に翻訳された音声メッセージが出力される。
【0130】
このように、発注者1の用意した日本語の音声メッセージの発話内容をその話者の指定した言語(この場合は英語)変換し、その英語の音声メッセージの発話内容を当該発注者1の選択した話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、この場合、「もう朝だよ起きてね」という音声メッセージの発話内容を話者#1によって英語で発話させることができる。
【0131】
なお、ここでは実施形態1の例について説明したが、実施形態2や実施形態3の場合にも同様に実施することができる。また、変換後の言語は英語に限られるものではなく、他の言語であってもよい。
【0132】
このように実施形態4によれば、発注者の指定した音声メッセージの発話内容を、他の言語に変換する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【0133】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【0134】
なお、本発明は上述の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の各実施形態では、発注者1の選択したある特定の話者の音声特徴データを用いた音声メッセージを置き時計などの機器5に組み込む例について説明したが、これは、前述したように、機器5などに組み込むだけでなく、CD−ROMなどの記録媒体6に記録させたものを発注者1に納品する形態でもよく、また、作成された音声メッセージをネットワーク3を介して発注者1がダウンロードできるような形態であってもよい。
【0135】
また、上述の各実施形態では、音声メッセージの発注を行う発注者1と作成された音声メッセージを受け取る受取人は同一人として説明したが、発注者1と作成された音声メッセージを受け取る受取人またはそれを使用する使用者は別人であってもよい。
【0136】
また、上述の各実施形態では、音声メッセージの発話内容を発注者1自身がキー入力などして受注側2に送信するようにしたが、発注者1は電話などで受注側2に音声メッセージの発話内容を口頭で伝えたり、ファクシミリで音声メッセージの発話内容を送信して、それを受注側2で受信して、受注側2の担当者が、受注側2に用意されたPCなどからキー入力するような形態であってもよい。
【0137】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0138】
【発明の効果】
以上説明したように本発明によれば、たとえば、発注者が俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、その発注者の指定した音声メッセージの発話内容が、前記話者の発話内容として使用を許可された表現で構成されていると判定された場合のみに、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを生成するようにしているので、生成された音声合成データ(音声メッセージ)は、話者の発話内容として使用を許可された表現のみ構成された内容となり、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての良識が疑われることもなくなる。
【0139】
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
【0140】
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を与えることができる。
【0141】
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
【0142】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【0143】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。
【図2】 実施形態1における音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【図3】 実施形態1における文書解析部21の処理手順を説明する図である。
【図4】 本発明の実施形態2に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【図5】 実施形態2で用いられるネットワーク文法の一例を示す図である。
【図6】 本発明の実施形態3に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【図7】 実施形態3における文書解析部21の処理手順を説明する図である。
【図8】 本発明の実施形態4に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【符号の説明】
1 発注者
2 受注側
3 ネットワーク
4 声の権利者
5 機器
6 記録媒体
20 音声データ作成装置
21 文章解析部
22 文法データ
23 韻律制御部
24 音声波形生成部
251,252,・・・,25n 使用許可表現辞書
261,262,・・・,26n 韻律データ
271,272,・・・,27n 声質データ
281,282,・・・,28n ネットワーク文法
291,292,・・・,29n 未知語変換辞書
30 言語変換部
Claims (6)
- 発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムであって、
前記発注者から前記音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、前記特定の話者の選択情報を受信すると、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定し、前記使用を許可された表現で構成されていると判定された場合に、前記発注者の指定した音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供し、
前記受注側は、前記特定の話者の発話内容として使用を許可された表現が記述された使用許可表現辞書を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記使用許可表現辞書の内容に照らし合わせて行い、
前記使用許可表現辞書に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、前記音声メッセージの発話内容に前記未知語が含まれていると判定された場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ提供システム。 - 発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムであって、
前記発注者から前記音声データ作成を受注する受注側は、前記発注者の指定した音声メッセージの発話内容を受信するとともに、前記特定の話者の選択情報を受信すると、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定し、前記使用を許可された表現で構成されていると判定された場合に、前記発注者の指定した音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供し、
前記受注側は、前記特定の話者の発話内容として使用を許可された表現で構成されたネットワーク文法を有し、前記使用を許可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記ネットワーク文法の内容に照らし合わせて行い
前記ネットワーク文法に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し、前記音声メッセージの発話内容に前記未知語が含まれていると判定された場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ提供システム。 - 前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることを特徴とする請求項1または2に記載の音声データ提供システム。
- 発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、
前記音声データ作成装置は、
前記特定の話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、
前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、
前記音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有し、
前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として使用を許可された表現が記述された使用許可表現辞書であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記使用許可表現辞書の内容に照らし合わせて行い、
前記使用許可表現辞書に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、
前記文書解析手段は、音声メッセージの発話内容に未知語が含まれていると判定した場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ作成装置。 - 発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、
前記音声データ作成装置は、
前記特定の話者の発話内容として使用を許可された表現を記録した使用許可表現記録手段と、
前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手段と、
前記音声メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有し、
前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として使用を許可された表現で構成されたネットワーク文法であって、前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析の結果を前記ネットワーク文法の内容に照らし合わせて行い、
前記ネットワーク文法に加えて、前記特定の話者の発話内容として使用を許可された表現以外の未知語を前記使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、
前記文書解析手段は、音声メッセージの発話内容に未知語が含まれていると判定した場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする音声データ作成装置。 - 前記未知語変換辞書は、個々の話者対応に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていることを特徴とする請求項4または5に記載の音声データ作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060266A JP4356334B2 (ja) | 2003-03-06 | 2003-03-06 | 音声データ提供システムならびに音声データ作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060266A JP4356334B2 (ja) | 2003-03-06 | 2003-03-06 | 音声データ提供システムならびに音声データ作成装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009148359A Division JP4840476B2 (ja) | 2009-06-23 | 2009-06-23 | 音声データ作成装置および音声データ作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004271728A JP2004271728A (ja) | 2004-09-30 |
JP4356334B2 true JP4356334B2 (ja) | 2009-11-04 |
Family
ID=33122867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003060266A Expired - Fee Related JP4356334B2 (ja) | 2003-03-06 | 2003-03-06 | 音声データ提供システムならびに音声データ作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4356334B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102450816B1 (ko) * | 2017-11-28 | 2022-10-05 | 한국전자통신연구원 | 실시간 자동 통역 시스템 및 이의 발화 검증 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03217900A (ja) * | 1990-01-24 | 1991-09-25 | Oki Electric Ind Co Ltd | テキスト音声合成装置 |
JPH05165486A (ja) * | 1991-12-18 | 1993-07-02 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
JP3315539B2 (ja) * | 1994-10-21 | 2002-08-19 | 沖電気工業株式会社 | テキスト音声変換システムの未定義コード検出装置 |
JPH10149361A (ja) * | 1996-11-18 | 1998-06-02 | Canon Inc | 情報処理方法及び装置及び記憶媒体 |
JP2000214874A (ja) * | 1999-01-26 | 2000-08-04 | Canon Inc | 音声合成装置及びその方法、コンピュ―タ可読メモリ |
JP2002221981A (ja) * | 2001-01-25 | 2002-08-09 | Canon Inc | 音声合成装置および音声合成方法 |
-
2003
- 2003-03-06 JP JP2003060266A patent/JP4356334B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004271728A (ja) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7987244B1 (en) | Network repository for voice fonts | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
CN104380373B (zh) | 用于名称发音的系统和方法 | |
US7472065B2 (en) | Generating paralinguistic phenomena via markup in text-to-speech synthesis | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20090271178A1 (en) | Multilingual Asynchronous Communications Of Speech Messages Recorded In Digital Media Files | |
WO2010004978A1 (ja) | 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法 | |
CN1692403A (zh) | 具有个人化语音段的语音合成设备 | |
TW200901161A (en) | Speech synthesizer generating system and method | |
US20050108011A1 (en) | System and method of templating specific human voices | |
JPH11109991A (ja) | マンマシンインターフェースシステム | |
KR20020060975A (ko) | 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법 | |
JP4840476B2 (ja) | 音声データ作成装置および音声データ作成方法 | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
JP4244661B2 (ja) | 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム | |
Otake et al. | Lexical selection in action: Evidence from spontaneous punning | |
JP4356334B2 (ja) | 音声データ提供システムならびに音声データ作成装置 | |
US20030009340A1 (en) | Synthetic voice sales system and phoneme copyright authentication system | |
WO2001073752A1 (fr) | Moyen de stockage, procede de distribution et dispositif de sortie vocale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060306 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090727 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |