JP4244661B2 - Audio data providing system, audio data generating apparatus, and audio data generating program - Google Patents
Audio data providing system, audio data generating apparatus, and audio data generating program Download PDFInfo
- Publication number
- JP4244661B2 JP4244661B2 JP2003060265A JP2003060265A JP4244661B2 JP 4244661 B2 JP4244661 B2 JP 4244661B2 JP 2003060265 A JP2003060265 A JP 2003060265A JP 2003060265 A JP2003060265 A JP 2003060265A JP 4244661 B2 JP4244661 B2 JP 4244661B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- inappropriate
- orderer
- voice message
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供する音声データ提供システムならびに音声データ作成装置および音声データ作成プログラムに関する。
【0002】
【従来の技術】
発注者の指定した音声メッセージの発話内容(テキストデータ)とその発注者の選択したある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声データを提供するシステムが従来から知られている。
【0003】
たとえば、特開2002−23777号公報に記載の発明(以下、特許文献1という)や、特開2001−255884号公報に記載の発明(以下、特許文献2という)もその一例である。
【0004】
これらの発明は、発注者がネットワークに接続されたパーソナルコンピュータ(PCという)などから音声メッセージの発話内容をキー入力し、かつ、話者(たとえば、俳優、歌手、声優、スポーツ選手などの著名人)を選択すると、システム側では、その発注者の入力した音声メッセージの発話内容に対するテキストデータと当該発注者の選択した話者の音声特徴データとを用いて音声合成処理を行い、その話者の声と話し方での音声合成データを生成して、それを特別注文(特注という)の音声データとして、たとえば、CD−ROM(Compact Disk-Read Only Memory)などの記録媒体に記録させて当該発注者に納品するといったことを可能とするものである。
【0005】
また、特許文献1の発明には、このような音声合成データを玩具、置き時計、携帯電話機などの機器に組み込むことによってこれらの機器に付加価値を持たせることが記載されている。
【0006】
【特許文献1】
特開2002−23777号公報
【特許文献2】
特開2001−255884号公報
【0007】
【発明が解決しようとする課題】
上述した特許文献1や特許文献2の発明によれば、発注者は自分の用意した音声メッセージの発話内容を自分の好みの著名人などある特定の話者に似せた話し方で発話させることができるので、それによって得られた音声メッセージはその発注者にとって価値の高いものとすることができ、さらに、その音声メッセージを玩具や置き時計などの機器に組み込むことによって、それらの機器はその発注者にとって唯一無二の機器とすることができる。
【0008】
しかしながら、発注者が用意した音声メッセージの発話内容とその発注者の好みの著名人の音声特徴データとを用いて音声合成処理し、それによって、その著名人に似せた話し方で発話させるとなると、音声メッセージの内容によっては、その発注者の選択した著名人などの名誉を傷つけることにもなり兼ねない。
【0009】
たとえば、アイドル歌手やテレビジョンで放映されているアニメーション番組の人気キャラクタ(声優)の音声特徴データを用いて、乱暴な言い回しや卑猥な内容の音声メッセージを発話させるというように、公の場でその話者が発話することのあり得ない内容の音声メッセージを発話させるといったことも可能となってしまう。
【0010】
これら著名人の多くは自分の声自体も売り物の1つとしている人も多いのが一般的であり、声の権利者でもあるといえる。したがって、これら著名人に似せた声や話し方で、その著名人の意図しない発話内容を発話させ、それをネットワーク上で配信可能としたり、ある特定の機器に埋め込むのは問題である。また、このようなことが実際に行われると、このような音声データ提供サービスを行うサービス提供者に対してもその責任が発生し、サービス提供者としての良識が疑われることにもなる。
【0011】
そこで本発明は、自分の用意した音声メッセージの発話内容をある特定の話者に似せた話し方で発話させるような音声合成を行ってその音声合成データを特注の音声データとして提供する際、音声メッセージの発話内容に声の権利者やサービス提供者の意図しない表現があるか否かを判断することで、適正な内容の音声メッセージの作成を可能とすることを目的としている。
【0012】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音声データ提供システムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムであって、前記発注者から音声データ作成を受注する受注側は、発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、前記受信した音声メッセージの発話内容に前記選択された話者の発話する内容として不適切な表現が含まれているか否かを判定し、不適切な表現が含まれていないことが判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを特別注文の音声データとして提供するようにしている。
【0013】
このような音声データ提供システムにおいて、前記受注側は、選択された話者の発話する内容として不適切な表現が記述された不適切表現辞書を有し、前記不適切な表現が含まれているか否かの判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果を当該不適切表現辞書の記述に照らし合わせて行うようにしている。
【0014】
また、このような音声データ提供システムにおいて、前記不適切表現辞書は、個々の話者対応に用意され、個々の話者において許容される範囲を超えた不適切表現が記述されていることが好ましい。
【0015】
また、この音声データ提供システムにおいて、前記音声メッセージの発話内容に不適切な内容が含まれていると判定された場合は、不適切な表現の存在を前記発注者に提示することが好ましい。
【0016】
また、この音声データ提供システムにおいて、前記不適切表現辞書に加えて、前記不適切な表現を他の表現に変換するための変換候補が記述された表現変換辞書を有し、音声メッセージの発話内容に不適切な表現が含まれていると判定された場合は、この表現変換辞書からその不適切な表現に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【0017】
また、この音声データ提供システムにおいて、前記表現変換辞書は、個々の話者対応に用意され、個々の話者対応の前記不適切表現辞書に記述されている不適切表現に対する変換候補として、個々の話者において許容される範囲内の変換候補が記述されていることが好ましい。
【0018】
また、この音声データ提供システムにおいて、前記発注者の指定した音声メッセージの発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記不適切な表現が含まれていないことが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としている。
【0019】
また、本発明の音声データ作成装置は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、この音声データ作成装置は、前記ある特定の話者が発話する内容として不適切な表現の記述がなされている不適切表現辞書と、前記発注者の指定した音声メッセージの発話内容を文章解析するとともに、その文章解析結果を前記不適切表現辞書に照らし合わせて当該話者の発話内容として不適切な表現が含まれているか否かを判定する文書解析手段と、この文書解析手段によって不適切な表現が含まれていないことが判定されると、その文書解析手段での文章解析結果と当該話者の音声特徴データとを用いて音声合成処理して音声合成データを出力する音声合成手段とを有している。
【0020】
このような音声データ作成装置において、前記不適切表現辞書は、個々の話者対応に用意され、個々の話者において許容される範囲を超えた不適切表現の記述がなされている。
【0021】
この音声データ作成装置において、前記文書解析手段は、音声メッセージの発話内容に不適切な内容が含まれていると判定した場合は、不適切な表現の存在を前記発注者に提示することが好ましい。
【0022】
また、音声データ作成装置において、前記不適切表現辞書に加えて、不適切な表現を他の表現に変換するための変換候補の記述がなされた表現変換辞書を有し、前記文書解析手段は音声メッセージの発話内容に不適切な表現が含まれていると判定した場合は、当該表現変換辞書からその不適切な表現に対する変換候補を取得して、その変換候補を前記発注者に提示することが好ましい。
【0023】
また、この音声データ作成装置において、前記表現変換辞書は、個々の話者対応に用意され、個々の話者対応の前記不適切表現辞書に記述されている不適切表現に対する変換候補として、個々の話者において許容される範囲内の変換候補が記述されている。
【0024】
また、この音声データ作成装置において、前記発注者の指定した音声メッセージの発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記不適切な表現が含まれていないことが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としている。
【0025】
また、本発明の音声データ作成プログラムは、発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ作成システムに用いられる音声データ作成プログラムであって、その音声データ作成プログラムは、前記発注者の指定した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者の選択情報を受信すると、前記受信した音声メッセージの発話内容に前記選択された話者の発話する内容として不適切な表現が含まれているか否かを判定する手順と、不適切な表現が含まれていないことが判定された場合に、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理する手順とを含むものである。
【0026】
このような音声データ作成プログラムにおいて、前記不適切な表現が含まれているか否かの判定は、当該音声メッセージの発話内容を文章解析し、その文章解析結果を不適切な表現の記述された不適切表現辞書の記述に照らし合わせて行うようにしている。
【0027】
この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に不適切な内容が含まれていると判定された場合は、その音声メッセージの発話内容に対する音声合成処理を行わず、不適切な表現の存在を前記発注者に提示することが好ましい。
【0028】
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に不適切な表現が含まれていると判定された場合は、その不適切な表現を他の表現に変換可能な変換候補を前記発注者に提示することが好ましい。
【0029】
また、この音声データ作成プログラムにおいて、前記不適切な表現が含まれていないことが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を言語変換手段を用いて当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としている。
【0030】
このように本発明は、たとえば、俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、これらの話者が少なくとも公の場では発話しないような不適切な表現が含まれていないことを確かめた上で音声合成処理を行って、音声合成データを生成するようにしているので、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての良識が疑われることもなくなる。
【0031】
また、受注側では選択された話者の発話する内容として不適切な表現が記述された不適切表現辞書を用いて、不適切な表現が含まれているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容に不適切な表現が含まれているか否かの判定を確実に、かつ、容易に行うことができる。
【0032】
また、その不適切表現辞書は個々の話者対応に用意されることで、個々の話者の個性などを生かした上で不適切表現の有無の判定を行うことができる。
【0033】
また、音声メッセージの発話内容に不適切な内容が含まれていると判定された場合は、その音声メッセージの発話内容に対する音声合成処理を行わず、不適切な表現であることを前記発注者に提示するようにしているので、不適切な表現が含まれた音声合成データが作成されるのを未然に防ぐことができるとともに、不適切な表現を発注者に提示することによって、発注者は自分の用意した音声メッセージのどこが不適切な表現なのかを知ることができ、不適切表現の修正がし易くなる。
【0034】
また、前記不適切表現辞書に加えて、前記不適切な表現をどのような表現としたらよいかを示す変換候補の記述がなされた表現変換辞書を有し、音声メッセージの発話内容に不適切な表現が含まれていると判定された場合は、この表現変換辞書からその不適切な表現に対する変換候補を取得して、その変換候補を前記発注者に提示するようにしているので、発注者はそれを見ることによって、不適切な表現をどのような表現とすればよいかを即座に知ることができ、不適切な表現の修正作業を容易に行うことができる。
【0035】
その表現変換辞書は、個々の話者対応に用意されることによって、個々の話者の個性などを生かした上で不適切表現の変換を行うことができる。
【0036】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【0037】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に登録しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【0038】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声データ提供システム、音声データ作成装置、音声データ作成プログラムについての説明を含むものである。
【0039】
〔実施形態1〕
図1は本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。この音声データ提供システムは、発注者の指定した音声メッセージの発話内容をある特定の話者の音声特徴データを用いて音声合成処理し、それによって得られた音声合成データを特注の音声データとして提供するシステムであり、その構成を大きく分けると、音声データ生成を発注する側としての発注者1、この発注者1の所望とする音声メッセージの発話内容を発注者1の要求する話者の音声特徴データを用いて音声合成処理し、それによって得られた音声データを発注者1に提供する受注側2、この受注側2と発注者1との間に介在されるネットワーク3、発注者1の選択した話者の声の権利を有する声の権利者4などから構成される。
【0040】
この図1において、発注者1は、この音声データ提供システムを利用し、自分の好みの音声メッセージの作成を依頼して、その作成された音声メッセージの記録された機器(置き時計など)や記録媒体(CD−ROMなど)を購入してそれを自分で使用したり、その音声メッセージをネットワークを介して受信して、自分の情報端末(PCや携帯電話機)にダウンロードして使用する人だけではなく、その機器や記録媒体そのものは自分で使用せずにプレゼントなどの目的で購入する人も含むものであるが、ここでの発注者1は、自分で発注した音声メッセージを自分で使用する場合を例にとって説明する。
【0041】
また、受注側2は、音声データを埋め込むべき機器を製造する製造メーカであってあってもよく、また、音声データを提供するサービスを専門に行うサービス提供会社であってもよい。なお、サービス提供会社の場合は、音声データを作成してその音声データを機器製造会社や一般ユーザに提供することができることは勿論、機器製造会社から機器を供給されてその機器に音声データを組み込むところまでを行うことも可能である。
【0042】
また、この受注側2で作成される音声データの発注者(たとえば発注者1)への納品形態は、たとえば、置き時計などの機器5に組み込まれた状態で納品される形態であってよく、CD−ROMなどの記録媒体6に記録された状態で納品される形態であってもよい。また、ある発注者(たとえば発注者1)がネットワーク3を介して自分の情報端末(PCや携帯電話機など)にダウンロードするといった納品形態でもよい。
【0043】
ところで、この受注側2は音声データ作成装置20を有している。この音声データ作成装置20は、発注者1の所望とする音声メッセージ、すなわち、本発明の実施形態では発注者1が自分のPCからキー入力した発話内容(テキストデータ)と発注者1の選択した話者の音声特徴データとを用いて音声合成データを作成するが、その音声合成処理を行う前に、発注者1のキー入力した音声メッセージの発話内容に不適切な表現が含まれているか否かを判定し、不適切な表現が含まれてないと判定された場合のみに音声合成処理を行うものであるが、その詳細な構成や動作については後に詳細に説明する。
【0044】
また、声の権利者4は、俳優、歌手、声優、スポーツ選手などのいわゆる著名人である。なお、これら個々の著名人が個人で声の権利者4となる場合もあるが、俳優、歌手、声優などの場合はそれぞれが所属する事務所(プロダクションなど)などが声の権利者4となる場合もある。また、それ以外の著名人の場合も同様にそれぞれが所属する事務所などが声の権利者4となる場合もある。
【0045】
このような構成において、その処理手順を簡単に説明すると、発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、どのようなサービスを受けるかなどのサービス形態(この場合は、音声メッセージの作成要求)を選択し、その音声メッセージの発話内容をPC上からキー入力するとともに、その音声メッセージをどのような話者に発話させたいかを選択(話者選択)する。
【0046】
受注側2では、発注者1がキー入力した音声メッセージの発話内容のテキストデータと当該発注者1の選択した話者の音声特徴データとを用いて音声合成処理を行い、その音声合成データを音声メッセージに対応する音声データとして当該発注者1に提供する。
【0047】
このとき、上述したように、発注者1の入力した音声メッセージの発話内容に不適切な表現が含まれているか否かを判定し、不適切な表現が含まれてなく適正な内容であると判断すれば、発注者1の選択した話者に対応する声の権利者4に使用許諾を要求し、使用許諾が得られれば、その話者の音声特徴データと発注者1の入力した音声メッセージの発話内容(テキストデータ)とを用いて音声合成処理を行う。そして、その音声合成処理によって得られた音声合成データを発注者1の購入希望の機器に搭載された記憶手段に記録させてその機器5を発注者1に提供したり、CD−ROMなどの記録媒体6に記録させたものを発注者に提供したり、その音声合成データそのものを発注者に送信して発注者1が自身の情報端末にダウンロードしたりする。以下、詳細に説明する。
【0048】
図2は受注側2に設けられる音声データ作成装置20の構成図であり、文章解析部21と、文法データ22と、音声合成処理部としての韻律制御部22および音声波形生成部23と、この受注側2に登録されている俳優、歌手、声優、スポーツ選手などの多数の話者(話者#1、話者#2,・・・,話者#nとする)個々に対する不適切表現辞書251,252,・・・,25nと、これら話者#1、話者#2,・・・,話者#nに対する音声特徴データである韻律データ261,262,・・・,26nおよび音質データ271,272,・・・,27nとを有している。
【0049】
不適切表現辞書251,252,・・・,25nは、個々の話者#1、話者#2,・・・,話者#nが少なくとも公の場では発話することがあり得ない不適切な表現として、不適切な語彙や活用(ここではこれを不適切語彙・活用という)が記述されている。
【0050】
文章解析部21は、発注者1によって入力された音声メッセージの発話内容(テキストデータ)を受け取って、文法辞書や日本語語彙辞書などからなる文法データ22を用いて文章解析(構文解析や形態解析)を行って、その文章解析結果を当該発注者1の選択した話者用の不適切表現辞書、すなわち、話者#1、話者#2,・・・,話者#n用の不適切表現辞書251〜25nのうち、その話者に対応した不適切表現辞書に照らし合わせて、発注者1の入力した音声メッセージの発話内容に、その話者が公の場では発話することがあり得ない不適切な表現(不適切語彙・活用)があるか否かを判定し、そのような不適切な表現がないと判定した場合には、その文章解析結果を次の処理過程である音声合成処理部(韻律制御部23と音声波形生成部24)に渡す。
【0051】
また、発注者1の入力した音声メッセージの発話内容に、その発注者1によって選択された話者が公の場で発話することがあり得ない不適切な表現があると判定した場合には、その旨を発注者1に通知するとともに、どこが不適切な表現であるかをその発注者1に提示する。
【0052】
また、音声合成処理部としての韻律制御部23と音声波形生成部24は、文章解析部21で適正な表現であると判定された音声メッセージの発話内容(テキストデータ)の文章解析結果に対して、発注者1によって選択された話者の音声特徴データ、すなわち、話者#1、話者#2,・・・,話者#n用の韻律データ261〜26nのうち、その話者に対応した韻律データ)と、話者#1、話者#2,・・・,話者#n用の声質データ271〜27nのうち、その話者に対応した声質データを用いて音声合成処理を行って、音声合成データを出力する。
【0053】
このような構成において、具体例を用いて図3を参照しながらより詳細に説明する。発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、自分で用意した音声メッセージの発話内容を自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器(置き時計など)5の記憶手段に記録することを依頼するものとする。
【0054】
ここでの音声メッセージの発話内容は、たとえば、「もう朝だよ起きろばか」という内容であって、その内容を発話させる話者として、あるアイドル歌手(話者#1とする)を選択するものとする。
【0055】
発注者1は、その音声メッセージの発話内容を自分のPCによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手(話者#1)を選択する。これによって、発注者1によってキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータが受注側2における音声データ作成装置20の文書解析部21に入力されるとともに、話者#1を選択したことを示す話者選択情報が文書解析部21に入力される。
【0056】
文書解析部21では、入力されたテキストデータに対して文法データ(文法辞書や日本語語彙辞書などからなる)22を用いて、文書解析として形態素解析を行い(ステップS1)、品詞分解してその形態素解析結果を得る(ステップS2)。
【0057】
そして、この図3のステップS2に示すような形態素解析結果に対し、発注者1の選択した話者#1用の不適切表現辞書251を参照して、不適切な表現があるか否か(不適切語彙・活用があるか否か)を調べ、該当する表現があればそれを抽出する(ステップS3)。この場合、話者#1に対する不適切表現辞書251には、不適切語彙・活用として、「ばか」、「あほ」や、「起きろ」や「寝ろ」があるので、発注者1の入力した音声メッセージの発話内容「もう朝だよ起きろばか」からは、「ばか」、「起きろ」といった不適切な表現が抽出される。
【0058】
このように、発注者1のキー入力した音声メッセージの発話内容に、当該発注者1の選択した話者#1が公の場などで発話することがあり得ない表現が含まれている場合には、次の処理過程である音声合成処理には進まず、不適切な表現が含まれていることを発注者1に通知するとともに、その判定結果を発注者1に対して提示する(ステップS4)。
【0059】
この発注者1に提示される判定結果としては、たとえば、この図3のステップS4に示すように、「もう 朝だよ ○○○ ○○」というように、不適切な表現「起きろ」、「ばか」の各文字部分を○で表すことが考えられる。なお、この不適切な表現の表し方としては、そのほかに、不適切な表現部分を太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が考えられる。
【0060】
発注者1がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話内容に話者#1(あるアイドル歌手)にとって不適切な表現があることを知り、その不適切な表現を修正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、再び、前述のステップS1,S2,S3の処理を行い、そのメッセージ内容に不適切な表現があるか否かを判断したところ、今度は、不適切な表現がないと判断されたとする。
【0061】
このように、不適切な表現がなければ、次の処理過程である音声合成処理に入る。この音声合成処理は、韻律制御部23と音声波形生成部24によって行われる。すなわち、「もう朝だよ起きてね」というテキストデータに対する文章解析結果と、当該話者#1用の韻律データ251およびその話者#1用の声質データ261を用いて、音声合成処理を行い、音声合成データを出力する。
【0062】
この音声合成データは、ここでは、発注者1の購入しようとする置き時計の記憶手段に記録される。これによって、その置き時計は、たとえば、その音声メッセージの出力タイミングとして、午前7時00分を設定すすれば、毎朝、午前7時ちょうどになると、話者#1(あるアイドル歌手)の声と話し方で「もう朝だよ起きてね」という音声メッセージが出力される。
【0063】
なお、ステップS3において、発注者1の用意した音声メッセージの発話内容に不適切な表現が存在しないと判断されれば、上述したように、音声合成処理に入るが、このとき、その音声メッセージを発話する話者#1(声の権利者4)に対してその音声特徴データ(韻律データや声質データなど)を使用するための使用許諾要求を出し、声の権利者4側からの使用許諾通知を取得すると、その音声特徴データを用いた音声合成処理を行う。
【0064】
このように、ある話者の音声特徴データを使用する際は、受注側2がその使用料金(個々の話者によって異なる場合もある)をその声の権利者4に支払う。
【0065】
なお、ある話者の音声特徴データを使用する場合、その都度、受注側2から使用許諾要求を出し、それに対して、声の権利者4から使用許諾通知をもらうというようなことをせず、発注者1の用意した音声メッセージの発話内容に不適切な内容がないと判断したら、音声データ作成装置20から声の権利者4に対して使用許諾要求だけを出して、その話者の音声特徴データを使用した音声合成データの作成を可能とするというような取り決めを、対応する声の権利者4との間で交わしておくことも可能である。その場合、声の権利者4は受注側2からの使用許諾要求によって、自分の音声特徴データの使用回数を把握することができ、それに基づいて課金することができる。
【0066】
また、発注者1から受注側2への音声メッセージ作成料金の支払いは、コンビニエンスストアでの支払い、銀行振り込みによる支払い、クレジットカードでの支払いなど種々の方法を可能とする。
【0067】
また、不適切表現辞書の内容は個々の話者によって異なるようにすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲を超えた不適切表現が記述された不適切表現辞書を用意することによって、個々の話者の個性などを生かした上で不適切表現の有無の判定を行うことができる。
【0068】
以上説明したようにこの実施形態1によれば、発注者の指定した音声メッセージの発話内容に、その発注者の選択した話者が発話する内容として不適切な表現が含まれているか否かを判定して、不適切な表現が含まれていれば、不適切な表現を発注者1に提示し、発注者1はそれを見て不適切な表現を修正した音声メッセージの発話内容を作成して受注側2に送信し、受注側2では、その修正された音声メッセージについて、再度、不適切な表現が含まれているか否かを判定する処理を行い、不適切な表現が含まれていない場合のみに、その音声メッセージの発話内容を当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしている。
【0069】
これによって、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者)の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、また、このような音声データ提供サービスを行うサービス提供者(受注側2)もサービス提供者としての良識が疑われることもなくなる。
【0070】
〔実施形態2〕
前述の実施形態1では、受注側2から発注者1に対して不適切な表現が提示されると、発注者1はその提示内容を見て不適切な内容を自分の判断で修正するようにしたが、この実施形態2では、個々の話者対応の不適切表現辞書251,252,・・・,25nに加えて、個々の話者対応の表現変換辞書281,282,・・・,28nを持ち、発注者1のキー入力した音声メッセージの発話内容に不適切な表現があった場合、個々の話者ごとにその不適切な表現をどのような表現に変換したらよいかの変換候補を発注者1に提示できるようにする。
【0071】
図4はこの実施形態2における音声データ作成装置20の構成を示す図であり、図2で示した構成図に対して、話者#1,#2,・・・,#nごとの表現変換辞書281,282,・・・,28nを有している点が異なるだけで、あとは図2と同じであるので、図2と同一の構成要素には同一符号が付されている。
【0072】
表現変換辞書281,282,・・・,28nは、上述したように、ある話者に発話させる音声メッセージの発話内容に不適切な表現があった場合、その不適切な表現をどのような表現に変換したらよいかの変換候補が記述されている辞書である。以下、図4を参照しながらこの実施形態2の具体例について説明する。
【0073】
発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、上述の実施形態1と同様に、自分で用意した音声メッセージを自分の好みの話者の音声で発話させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器(置き時計など)5の記憶手段に記録することを依頼するものとする。
【0074】
ここでの音声メッセージの発話内容は、実施形態1で用いたものと同様、「もう朝だよ起きろばか」という内容であって、その音声メッセージの発話内容を自分のPCによりキー入力するとともに、それを発話させる話者として、あるアイドル歌手(話者#1)を選択したとする。これによって、発注者1のキー入力された音声メッセージの発話内容「もう朝だよ起きろばか」に対するテキストデータは受注側2の文書解析部21に入力されるとともに、話者#1が選択されたことを示す話者選択情報が文書解析部21に入力される。
【0075】
文書解析部2では、入力されたテキストデータに対して文法データ(文法辞書や日本語語彙辞書などからなる)22を用いて文書解析として形態素解析を行い(ステップS11)、品詞分解してその形態素解析結果を得る(ステップS12)。
【0076】
そして、この図5におけるステップS12に示すような形態素解析結果に対し、発注者1の選択した話者#1用の不適切表現辞書251を参照して、不適切な表現があるか否か(不適切語彙や不適切活用があるか否か)を調べ、該当する表現があればそれを抽出する(ステップS13)。この場合、話者#1に対する不適切表現辞書251には、不適切語彙として、「ばか」、「あほ」などがあり、また、不適切活用として、「起きろ」や「寝ろ」といった命令形があるので、発注者1の入力した音声メッセージの発話内容「もう朝だよ起きろばか」からは、「ばか」、「起きろ」といった不適切な表現が抽出される。
【0077】
このように、発注者1の用意した音声メッセージの発話内容に、当該発注者の選択した話者#1が公の場などで発話することが通常はあり得ない表現が含まれている場合には、次の処理過程である音声合成処理には進まず、文章解析部21は、当該話者#1用の表現変換辞書281を用いて、その不適切な表現をどのような表現としたらよいかの表現変換(語彙・活用変換)を行う(ステップS14)。
【0078】
この場合、話者#1用の表現変換辞書281には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されており、また、「起きろ」や「寝ろ」といった命令形の表現については、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換することが記述されている。
【0079】
なお、「ばか」や「あほ」といった表現を「空白」とするのは、これら人を誹謗、中傷する表現を他の適当な表現に言い換えるのは難しいからであり、また、このような誹謗、中傷するような表現は、たとえ、それを他の表現で言い換えが可能であるとしてもそのような表現を用いるのは好ましいことではないからである。また、「起きろ」や「寝ろ」といった少し乱暴な命令形は、そのアイドル歌手ならこのような表現が好ましいとされる表現として、ここでは、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょうだい」といった表現に変換するとしている。
【0080】
この表現変換、つまり、語彙・活用変換が終了すると、どこをどのように変換すればよいかを発注者1に提示する(ステップS15)。この場合、発注者1の用意した「もう朝だよ起きろばか」という不適切な表現を含んだ音声メッセージの発話内容は、この図5のステップS15に示すように、第1の候補として、「もう朝だよ起きてね」、第2の候補として、「もう朝だよ起きてちょうだい」の2つの候補を発注者1に提示する。
【0081】
なお、ここでの不適切な表現である「起きろ」、「ばか」の部分は、それが不適切な表現であることを発注者に知らせるために、前述の実施形態1で説明したように、たとえば、「もう 朝だよ ○○○ ○○」というように、各文字部分を○で表したり、太字で表したり、文字の大きさを大きくしたり、字体を変えたりするなど種々の方法が考えられる。
【0082】
このように、表現変換辞書282を用いた表現変換処理を行うことによって、この場合、第1の候補「もう朝だよ起きてね」、第2の候補「もう朝だよ起きてちょうだい」が発注者に提示されるが、これらの内容は、いずれも、「ばか」という表現が削除されている。これは、上述したように、話者#1用の表現変換辞書281には、「ばか」や「あほ」といった表現に対しては、「空白」とすることが記述されているからである。
【0083】
発注者1がこのような通知を受け取り、自分の用意した音声メッセージの発話内容に不適切な表現があることを知り、受注側2から提示された第1の候補を選択し、「もう朝だよ起きてね」というような内容をキー入力したとすると、受注側2では前述のステップS11,S12,S13の処理を行い、その音声メッセージの発話内容に不適切な表現があるか否かを判断したところ、今度は、不適切な表現がないと判断されたとする。
【0084】
なお、この場合、受注側2から2つの候補が発注者に提示され、発注者1がそれを見て、その候補の中から自分の好みの表現を選択して、その候補を含んだ音声メッセージの発話内容全体キー入力し直すようにしているが、音声メッセージの発話内容全体をキー入力し直す必要はなく、どの候補を選ぶかの情報のみを受注側2に送るようにしてもよい。たとえば、この場合、発注者1が第1の候補を選択するという情報を受注側2に送ることで、あとは、受注側2で、その第1の候補「もう朝だよ起きてね」が発注者1の所望とする音声メッセージの発話内容であると判断し、次の処理である音声合成処理に入る。
【0085】
この音声合成処理は、実施形態1で説明したように、「もう朝だよ起きてね」というテキストデータに対する文章解析結果と、当該話者#1の音声特徴データである韻律データと声質データを用いて、音声合成処理を行い、音声合成データを出力する。
【0086】
この音声合成データは、ここでは、発注者の購入しようとする置き時計の記憶手段に記録される。これによって、その置き時計は、たとえば、その音声メッセージの出力タイミングとして午前7時00分を設定すすれば、毎朝、午前7時ちょうどになると、話者#1(あるアイドル歌手)の発話の仕方で「もう朝だよ起きてね」という音声メッセージが出力される。
【0087】
なお、前述の実施形態1と同様、ある話者の音声特徴データを使用する際は、受注側2がその使用料金(個々の話者によって異なる場合もある)をその声の権利者4に支払う。
【0088】
このようにある話者の音声特徴データを使用する場合、実施形態1で述べたように、その都度、受注側2から使用許諾要求を出し、それに対して、声の権利者4から使用許諾通知をもらうというようなことをせず、発注者1の用意した音声メッセージの発話内容に不適切な内容がないと判断したら、音声データ作成装置20から声の権利者4に対して使用許諾要求だけを出して、その話者の音声特徴データを使用した音声合成データの作成を可能とするというような取り決めを、対応する声の権利者4との間で交わしておくことも可能である。その場合、声の権利者4は受注側2からの使用許諾要求によって、自分の音声特徴データの使用回数を把握することができ、それに基づいて課金することができる。
【0089】
また、発注者1から受注側2への音声メッセージ作成料金の支払いは、コンビニエンスストアでの支払い、銀行振り込みによる支払い、クレジットカードでの支払いなど種々の方法を可能とする。
【0090】
また、表現変換辞書281,282,・・・,28nの内容は、個々の話者#1,#2,・・・,#nによって異なるようにすることも可能であり、たとえば、話者が女性であるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の範囲が異なってくるので、それに応じた表現変換辞書を作成しておく。
【0091】
この場合、個々の話者#1,#2,・・・,#n対応の不適切表現辞書251,252,・・・,25nに記述されている不適切表現に対する変換候補として、個々の話者において許容される範囲内の変換候補が記述されるようにする。たとえば、話者#1用の表現変換辞書281を例に取れば、この話者#1用の表現変換辞書281の内容は、図5からもわかるように、その話者#1用の不適切表現辞書251の不適切表現に対応した変換候補が記述がれている。
【0092】
以上説明したようにこの実施形態2によれば、発注者1が自分で用意した音声メッセージの発話内容に、当該発注者1の選択した話者の発話する内容として不適切な表現が含まれているか否かを判定し、不適切な表現が含まれている場合は、その不適切な表現に対する変換候補を受注側2で用意して、それを発注者1に提示するようにしている。これによって、発注者1は、不適切な表現をどのように修正すればよいかが一目でわかるので、発話させる話者ごとの音声メッセージの発話内容の作成が容易なものとなる。
【0093】
また、前述の実施形態1と同様、適切な音声メッセージの発話内容であると判断された場合のみに、当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者)の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側2)もサービス提供者としての良識が疑われることもなくなる。
【0094】
〔実施形態3〕
上述の各実施形態では、発注者1の用意した日本語の音声メッセージの発話内容を、その発注者1の選択した話者の音声特徴データを用いてその話者が日本語の音声メッセージを発話するような音声合成処理を行った例を説明したが、この実施形態4では、発注者1の用意した音声メッセージの発話内容に用いた言語と音声合成された音声メッセージの言語を異ならせることを可能とする。
【0095】
たとえば、発注者1が上述の各実施形態で用いた「もう朝だよ起きろばか」という日本語の音声メッセージの発話内容をキー入力し、それを話者#1の音声特徴データを用いて英語の音声メッセージの作成を要求することも可能である。以下、この実施形態4について図6を参照しながら簡単に説明する。なお、ここでは、実施形態1に適用した例について説明する。
【0096】
図6はこの実施形態3の音声データ作成装置20の構成を示す図であり、文書解析部21の出力側に、言語変換部29が設けられている点が異なるだけで、その他の構成要素は図2と同様であるので、同一部分には同一符号が付されている。
【0097】
この言語変換部29は、ある言語を発注者1の指定する言語に変換(翻訳)処理可能なものであるが、この実施形態3では、日本語を他の言語に変換可能とする。この場合、日本語から英語というように、変換(翻訳)できる言語が予めある1つの言語に決められていてもよいが、日本語から複数の言語に変換可能とし、その複数の言語の中から発注者1が変換すべき言語を指定できるようにしてもよい。
【0098】
なお、このように、複数の言語の中から発注者1が変換すべき言語を指定できるようにする場合、発注者1は、音声メッセージの発話内容をキー入力するとともに話者選択を行い、さらに、言語選択を行う。たとえば、英語での音声メッセージの作成を依頼する場合は、言語として英語を選択する。
【0099】
この言語変換部29は、ある言語を発注者1の指定する言語に変換処理可能なものであるが、この実施形態3では、日本語を他の言語に変換可能とする。この場合、日本語から英語というように、変換(翻訳)できる言語が1つであってもよいが、日本語から複数の言語に変換可能とし、その複数の言語の中から発注者1が変換すべき言語を指定できるようにしてもよい。なお、このように、複数の言語の中から発注者1が変換すべき言語を指定できるようにする場合、発注者1は、音声メッセージの発話内容をキー入力するとともに話者選択を行い、さらに、言語選択を行う。たとえば、英語での音声メッセージの作成を依頼する場合は、言語として英語を選択する。
【0100】
ここで、発注者1がたとえば音声メッセージの発話内容として実施形態1で用いた「もう朝だよ起きろばか」をキー入力するとともに話者#1を選択し、さらに、言語として英語を選択したとする。これによって、その「もう朝だよ起きろばか」のテキストデータと話者選択情報が文書解析部21に入力されるとともに、言語選択情報が言語変換部29に入力される。
【0101】
文書解析部21では、実施形態1で説明したような文書解析処理がなされるとともに、入力された音声メッセージの発話内容に話者#1が発話する内容として不適切な表現が有るか否かの判定がなされるが、これらの処理についてはすでに詳細に説明したのでここではその説明は省略する。そして、不適切な表現があればその修正を行って、たとえば、前述したように、「もう朝だよ起きてね」と修正され、不適切な表現がないと判定された場合は、その音声メッセージの発話内容に対する文書解析結果を用いて言語変換部29が言語変換(この場合、日本語を英語に変換)を行う。
【0102】
そして、その言語変換された音声メッセージの発話内容について、韻律制御部23と音声波形生成部24が話者#1用の韻律データと話者#1用の音声波形データを用いて音声合成処理を行い、「もう朝だよ起きてね」が英語に翻訳された音声メッセージが出力される。
【0103】
このように、発注者1の用意した日本語の音声メッセージの発話内容をその話者の指定した言語(この場合は英語)変換し、その英語の音声メッセージの発話内容を当該発注者1の選択した話者の音声特徴データを用いて音声合成処理して、音声合成データを出力するようにしているので、この場合、「もう朝だよ起きてね」という音声メッセージの発話内容を話者#1によって英語で発話させることができる。
【0104】
なお、ここでは実施形態1に適用した例について説明したが、実施形態2の場合にも同様に実施することができる。また、変換後の言語は英語に限られるものではなく、他の言語であってもよい。
【0105】
このように第3の実施形態によれば、発注者の指定した音声メッセージの発話内容を、他の言語に変換する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【0106】
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ選手など世界的著名人をも受注側に登録しておき、これらの話者の音声特徴データを受注側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージとして出力させることができ、より価値の高い音声メッセージを得ることができる。
【0107】
なお、本発明は上述の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の各実施形態では、発注者1の選択したある特定の話者の音声特徴データを用いた音声メッセージを置き時計などの機器5に組み込む例について説明したが、これは、前述したように、機器5などに組み込むだけでなく、CD−ROMなどの記録媒体6に記録させたものを発注者1に納品する形態でもよく、また、作成された音声メッセージをネットワーク3を介して発注者1がダウンロードできるような形態であってもよい。
【0108】
また、上述の各実施形態では、音声メッセージの発注を行う発注者1と作成された音声メッセージを受け取る受取人は同一人として説明したが、発注者1と作成された音声メッセージを受け取る受取人またはそれを使用する使用者は別人であってもよい。
【0109】
また、上述の各実施形態では、音声メッセージの発話内容を発注者1自身がキー入力などして受注側2に送信するようにしたが、発注者1は電話などで受注側2に音声メッセージの発話内容を口頭で伝えたり、ファクシミリで音声メッセージの発話内容を送信して、それを受注側2で受信して、受注側2の担当者が、受注側2に用意されたPCなどからキー入力するような形態であってもよい。
【0110】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0111】
【発明の効果】
以上説明したように本発明によれば、たとえば、俳優、歌手、声優、スポーツ選手などの著名人などを話者として選択した場合、これらの話者が少なくとも公の場では発話しないような不適切な表現が含まれていないことを確かめた上で音声合成処理を行うことによって音声合成データが生成されるので、これらの話者が意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての良識が疑われることもなくなる。
【0112】
また、受注側では選択された話者の発話する内容として不適切な表現が記述された不適切表現辞書を有し、この不適切表現辞書を用いて、不適切な表現が含まれているか否かの判定を行うようにしているので、発注者の指定した音声メッセージの発話内容に不適切な表現が含まれているか否かの判定を確実に、かつ、容易に行うことができる。そして、その不適切表現辞書は個々の話者対応に用意されることで、個々の話者の個性などを生かした上で不適切表現の有無の判定を行うことができる。
【0113】
また、不適切表現辞書に加えて、不適切な表現をどのような表現に変換したらよいかを示す表現変換辞書を有し、音声メッセージの発話内容に不適切な表現が含まれていると判定された場合は、この表現変換辞書からその不適切な表現に対する変換候補を取得して、その変換候補を発注者に提示するようにしているので、発注者はそれを見ることによって、不適切な表現をどのような表現とすればよいかを即座に知ることができ、不適切な表現の修正作業を容易に行うことができる。そして、その表現変換辞書は、個々の話者対応に用意されることによって、個々の話者の個性などを生かした上で不適切表現の修正を行うことができる。
【0114】
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注者の好みの話者の音声で発話させることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。
【図2】 実施形態1における音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【図3】 図2で示した文書解析部21の処理手順を説明する図である。
【図4】 本発明の実施形態2に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【図5】 実施形態2における文書解析部21の処理手順を説明する図である。
【図6】 本発明の実施形態3に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
【符号の説明】
1 発注者
2 受注側
3 ネットワーク
4 声の権利者
5 機器
6 記録媒体
20 音声データ作成装置
21 文章解析部
22 文法データ
23 韻律制御部
24 音声波形生成部
251,252,・・・,25n 不適切表現辞書
261,262,・・・,26n 韻律データ
271,272,・・・,27n 声質データ
281,282,・・・,28n 表現変換辞書
29 言語変換部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice data providing system and a voice data generation system that perform voice synthesis processing using voice content of a voice message designated by an orderer and voice data of a specific speaker, and provide voice data obtained thereby. The present invention relates to a device and an audio data creation program.
[0002]
[Prior art]
A system that performs speech synthesis processing using speech content (text data) of a voice message designated by an orderer and speech data of a specific speaker selected by the orderer, and provides the resulting speech data Conventionally known.
[0003]
For example, the invention described in JP-A-2002-23777 (hereinafter referred to as Patent Document 1) and the invention described in JP-A-2001-255484 (hereinafter referred to as Patent Document 2) are examples.
[0004]
In these inventions, the orderer inputs the utterance content of a voice message from a personal computer (PC) connected to a network, and a celebrity such as a speaker (for example, an actor, a singer, a voice actor, or a sports player). ), The system performs a speech synthesis process using the text data for the utterance content of the voice message input by the orderer and the voice feature data of the speaker selected by the orderer, and Voice-speech-synthetic data in voice and speech is generated and recorded as a special order (custom order) voice data on a recording medium such as a CD-ROM (Compact Disk-Read Only Memory). It is possible to deliver the product.
[0005]
In addition, the invention of
[0006]
[Patent Document 1]
JP 2002-23777 A
[Patent Document 2]
JP 2001-255484 A
[0007]
[Problems to be solved by the invention]
According to the inventions of
[0008]
However, when speech synthesis processing is performed using the utterance content of the voice message prepared by the orderer and the voice feature data of the celebrity of the orderer's preference, and thereby speaking in a manner similar to that celebrity, Depending on the content of the voice message, it may damage the honor of the celebrity selected by the orderer.
[0009]
For example, using voice feature data of popular characters (voice actors) of animated programs aired on idol singers and television, it is possible to utter harsh words and obscene voice messages. It is also possible to utter a voice message with a content that cannot be spoken by the speaker.
[0010]
Many of these celebrities generally have their own voice as one of the items for sale, and it can be said that they are also voice owners. Therefore, it is a problem that the celebrity's unintended utterance content is uttered by voices and speaking methods resembling those of celebrities and can be distributed on a network or embedded in a specific device. Moreover, when such a thing is actually performed, the responsibility also arises with respect to the service provider who performs such a voice data provision service, and the common sense as a service provider will be doubted.
[0011]
Therefore, the present invention performs voice synthesis such that the utterance content of the voice message prepared by the user is spoken in a manner similar to that of a specific speaker, and provides the voice synthesis data as custom voice data. It is an object of the present invention to make it possible to create a voice message with an appropriate content by determining whether or not there is an unintended expression of the voice right holder or service provider in the utterance content.
[0012]
[Means for Solving the Problems]
In order to achieve the above-described object, the speech data providing system of the present invention performs speech synthesis processing using speech content specified by the orderer and speech feature data of a specific speaker, and thereby obtained. The voice data providing system for providing the synthesized voice data as voice data, the order receiving side receiving the voice data creation from the orderer receives the utterance content of the voice message designated by the orderer, and the voice When receiving the selection information of the speaker to utter the message, it is determined whether or not the utterance content of the received voice message includes an inappropriate expression as the utterance content of the selected speaker. If it is determined that no narrative expression is included, a sound is generated using the utterance content of the voice message and the voice feature data of the selected speaker. Combining processing, and to provide the voice synthesis data as custom audio data.
[0013]
In such a voice data providing system, the order receiving side has an inappropriate expression dictionary in which inappropriate expressions are described as contents uttered by the selected speaker, and the inappropriate expressions are included. The determination as to whether or not is performed by analyzing the utterance content of the voice message and comparing the result of the sentence analysis with the description of the inappropriate expression dictionary.
[0014]
Further, in such a voice data providing system, it is preferable that the inappropriate expression dictionary is prepared for each speaker, and describes inappropriate expressions exceeding the range allowed for each speaker. .
[0015]
Further, in this voice data providing system, when it is determined that inappropriate contents are included in the utterance contents of the voice message, it is preferable to present the presence of inappropriate expressions to the orderer.
[0016]
In addition to the inappropriate expression dictionary, the speech data providing system further includes an expression conversion dictionary in which conversion candidates for converting the inappropriate expression into another expression are described, and the utterance content of the voice message If it is determined that an inappropriate expression is included, it is preferable to obtain a conversion candidate for the inappropriate expression from the expression conversion dictionary and present the conversion candidate to the orderer.
[0017]
Further, in this audio data providing system, the expression conversion dictionary is prepared for each speaker, and individual conversion candidates for inappropriate expressions described in the inappropriate expression dictionary corresponding to individual speakers are used. It is preferable that conversion candidates within a range allowed by the speaker are described.
[0018]
The voice data providing system further includes language conversion means for translating the utterance content of the voice message designated by the orderer into another language using the document analysis result, and includes the inappropriate expression. If it is determined that the content of the voice message is not translated, the utterance content of the voice message is translated into another language designated by the orderer by the language conversion means based on the request of the orderer. It is possible to perform speech synthesis processing using the speech content and the voice feature data of the selected speaker.
[0019]
Also, the speech data creation device of the present invention performs speech synthesis processing using speech content specified by the orderer and speech feature data of a specific speaker, and speech synthesis data obtained thereby is speech-synthesized. A voice data creation device used in a voice data provision system provided as data, wherein the voice data creation device is an inappropriate expression in which an inappropriate expression is described as content uttered by the specific speaker. Whether the utterance content of the voice message specified by the dictionary and the orderer is analyzed, and the sentence analysis result is compared with the inappropriate expression dictionary to determine whether the speaker contains inappropriate expressions A document analysis means for determining whether or not the document analysis means determines that the document analysis means does not contain inappropriate expressions. And a speech synthesis means for outputting speech synthesis data by speech synthesis by using the analysis result and the speech feature data of the speaker.
[0020]
In such a voice data creation device, the inappropriate expression dictionary is prepared for each speaker, and the description of inappropriate expressions exceeding the allowable range for each speaker is made.
[0021]
In this voice data creation device, the document analysis unit preferably presents the orderer with the presence of an inappropriate expression when it is determined that the utterance content of the voice message contains inappropriate content. .
[0022]
In addition to the inappropriate expression dictionary, the speech data creation apparatus further includes an expression conversion dictionary in which conversion candidates for converting inappropriate expressions into other expressions are described, and the document analysis means If it is determined that an inappropriate expression is included in the utterance content of the message, a conversion candidate for the inappropriate expression is acquired from the expression conversion dictionary, and the conversion candidate is presented to the orderer. preferable.
[0023]
Further, in this voice data creation device, the expression conversion dictionary is prepared for each speaker, and individual conversion candidates for inappropriate expressions described in the inappropriate expression dictionary corresponding to each speaker are used as individual conversion candidates. Conversion candidates within the allowable range for the speaker are described.
[0024]
The voice data creation device further includes language conversion means for translating the utterance content of the voice message designated by the orderer into another language using the document analysis result, and includes the inappropriate expression. If it is determined that the content of the voice message is not translated, the utterance content of the voice message is translated into another language designated by the orderer by the language conversion means based on the request of the orderer. It is possible to perform speech synthesis processing using the speech content and the voice feature data of the selected speaker.
[0025]
Also, the speech data creation program of the present invention performs speech synthesis processing using the utterance content of the voice message designated by the orderer and the speech feature data of a specific speaker, and the speech synthesis data obtained thereby is speech-synthesized. A voice data creation program used in a voice data creation system provided as data, the voice data creation program receiving the utterance content of the voice message designated by the orderer and uttering the voice message Including a procedure for determining whether or not an inappropriate expression is included in the utterance content of the received voice message as the utterance content of the selected speaker. If it is determined that the voice message has not been spoken, the speech content of the voice message and the voice feature data of the selected speaker It is intended to include a procedure for speech synthesis process using.
[0026]
In such a voice data creation program, whether or not the inappropriate expression is included is determined by analyzing the utterance content of the voice message and analyzing the sentence analysis result with the description of the inappropriate expression. It is done in the light of the description of the appropriate expression dictionary.
[0027]
In this voice data creation program, if it is determined that the utterance content of the voice message contains inappropriate content, the speech synthesis processing is not performed on the utterance content of the voice message, and there is an inappropriate expression Is preferably presented to the orderer.
[0028]
Also, in this voice data creation program, if it is determined that an inappropriate expression is included in the utterance content of the voice message, the conversion candidate capable of converting the inappropriate expression into another expression is ordered. It is preferable to present it to a person.
[0029]
Further, in the voice data creation program, when it is determined that the inappropriate expression is not included, based on the request of the orderer, the utterance content of the voice message is converted into the order using the language conversion means. It is possible to translate into another language designated by the speaker, and to perform speech synthesis processing using the utterance content of the translated voice message and the voice feature data of the selected speaker.
[0030]
As described above, the present invention includes, for example, inappropriate expressions such that, when an actor, a singer, a voice actor, or a celebrity such as a sports player is selected as a speaker, such a speaker does not speak at least in a public place. Since speech synthesis processing is performed after confirming that it has not been generated, speech synthesis data is generated, so inappropriate content that these speakers do not speak in public is given to the speakers. It is possible to prevent problems such as uttering and damaging the honor of the speaker, and as a result, the service provider (ordering party) that provides such a voice data provision service is also suspected of having good sense as a service provider. Nothing will happen.
[0031]
In addition, the order receiving side determines whether or not an inappropriate expression is included by using an inappropriate expression dictionary in which an inappropriate expression is described as the content of the selected speaker. Therefore, it is possible to reliably and easily determine whether or not an inappropriate expression is included in the utterance content of the voice message designated by the orderer.
[0032]
In addition, the inappropriate expression dictionary is prepared for each speaker, so that it is possible to determine the presence or absence of inappropriate expressions taking advantage of the individuality of each speaker.
[0033]
Also, if it is determined that the utterance content of the voice message includes inappropriate content, the speech ordering processing is not performed on the utterance content of the voice message, and the orderer is informed that the expression is inappropriate. Because it is possible to prevent speech synthesis data containing inappropriate expressions from being created, and by presenting inappropriate expressions to the orderer, the orderer can It is possible to know where the voice message prepared by is an inappropriate expression, and it is easy to correct the inappropriate expression.
[0034]
Further, in addition to the inappropriate expression dictionary, there is an expression conversion dictionary in which conversion candidates indicating what should be used as the inappropriate expression are described, which is inappropriate for the utterance content of the voice message. If it is determined that the expression is included, the conversion candidate for the inappropriate expression is acquired from the expression conversion dictionary, and the conversion candidate is presented to the orderer. By looking at it, it is possible to immediately know what kind of expression should be used as the inappropriate expression, and it is possible to easily correct the inappropriate expression.
[0035]
The expression conversion dictionary is prepared for each speaker, so that inappropriate expressions can be converted by taking advantage of the individuality of each speaker.
[0036]
Further, it has language conversion means for translating the utterance content of the voice message designated by the orderer into another language, and the utterance content of the voice message is translated into the language designated by the orderer by the language conversion means, Since it is possible to perform speech synthesis processing using the utterance content of the translated voice message and the voice feature data of the selected speaker, for example, the utterance content of a Japanese voice message is converted into an English voice message. Utterance content can be converted into the voice of the speaker who likes the orderer.
[0037]
As a result, for example, international celebrities such as foreign movie stars and athletes are registered on the order receiving side as speakers that can be selected by the ordering party, and the voice feature data of these speakers are held on the order receiving side. Utterance content of Japanese voice messages created by the orderer can be output as voice messages spoken in the language of the country by world-renowned celebrities such as foreign movie stars and sports players, etc. A high voice message can be obtained.
[0038]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below. The contents described in this embodiment include descriptions of the audio data providing system, the audio data generating apparatus, and the audio data generating program of the present invention.
[0039]
FIG. 1 is a diagram for explaining the configuration of an audio data providing system according to
[0040]
In FIG. 1, an
[0041]
The
[0042]
Further, the delivery form of the voice data created on the
[0043]
By the way, the
[0044]
The voice
[0045]
In such a configuration, the processing procedure will be described briefly. The
[0046]
The
[0047]
At this time, as described above, it is determined whether or not an inappropriate expression is included in the utterance content of the voice message input by the
[0048]
FIG. 2 is a block diagram of the speech
[0049]
The
[0050]
The
[0051]
When it is determined that the utterance content of the voice message input by the
[0052]
In addition, the
[0053]
Such a configuration will be described in more detail with reference to FIG. 3 using a specific example. The
[0054]
The utterance content of the voice message here is, for example, the content of “It's already morning, do n’t wake up”, and selects an idol singer (speaker # 1) as the speaker who utters the content. And
[0055]
The
[0056]
The
[0057]
Then, referring to the
[0058]
As described above, when the utterance content of the voice message key-input by the
[0059]
As the determination result presented to the
[0060]
The
[0061]
As described above, if there is no inappropriate expression, the speech synthesis process, which is the next processing step, is started. This speech synthesis process is performed by the
[0062]
This speech synthesis data is recorded in the storage means of the table clock that the
[0063]
In step S3, if it is determined that there is no inappropriate expression in the utterance content of the voice message prepared by the
[0064]
Thus, when using the voice feature data of a certain speaker, the
[0065]
In addition, when using the voice feature data of a certain speaker, a request for permission for use is issued from the
[0066]
The voice message creation fee from the
[0067]
Also, the contents of the inappropriate expression dictionary can be made different for each speaker. For example, the range of expressions allowed varies depending on whether the speaker is a woman or a man, or even the same man, depending on the young idol singer and the elderly action actor. For each speaker, an inappropriate expression dictionary that describes inappropriate expressions beyond the allowable range for each speaker is prepared, taking into account the individuality of each speaker and the presence or absence of inappropriate expressions. Can be determined.
[0068]
As described above, according to the first embodiment, it is determined whether or not the utterance content of the voice message designated by the orderer includes an inappropriate expression as the utterance content of the speaker selected by the orderer. If an inappropriate expression is included in the determination, the inappropriate expression is presented to the
[0069]
This prevents problems such as causing the speaker to speak unintentionally inappropriate content by celebrities (voice rights holders) such as actors, singers, voice actors, and athletes, and hurting the speaker's honor. In addition, the service provider (order receiving side 2) that provides such a voice data providing service is not suspected of having good sense as a service provider.
[0070]
[Embodiment 2]
In the first embodiment, when an inappropriate expression is presented from the
[0071]
FIG. 4 is a diagram showing the configuration of the voice
[0072]
As described above, the
[0073]
The
[0074]
The utterance content of the voice message here is the same as that used in the first embodiment, and it is the content of “It's already morning, do n’t wake up”, and the utterance content of the voice message is keyed by your own PC, Assume that a certain idol singer (speaker # 1) is selected as the speaker who speaks it. As a result, the text data corresponding to the utterance content of the voice message entered by the key of the
[0075]
The
[0076]
Then, referring to the
[0077]
As described above, when the utterance content of the voice message prepared by the
[0078]
In this case, the
[0079]
In addition, the expression “blade” or “aho” is “blank” because it is difficult to paraphrase these people and deface them with other appropriate expressions. It is because it is not preferable to use such an expression even if it can be paraphrased by another expression even if the expression is slandering. Also, a little rough command forms such as “get up” and “sleep” are the expressions that such an idol singer would prefer such expressions. Here, “get up”, “get me up”, “sleep” It is supposed to be converted into expressions such as “Tene” and “Give me a sleep”.
[0080]
When this expression conversion, that is, the vocabulary / utilization conversion is completed, the
[0081]
In addition, as described in the first embodiment, in order to inform the orderer that the parts of “raise” and “idiot” which are inappropriate expressions here are inappropriate expressions, For example, there are various methods such as “It's already in the morning ○○○ ○○”, such as representing each character part with ○, bolding, increasing the size of the character, and changing the font. Conceivable.
[0082]
In this case, by performing the expression conversion process using the
[0083]
The
[0084]
In this case, two candidates are presented from the order-receiving
[0085]
As described in the first embodiment, the speech synthesis process is performed by using the sentence analysis result for the text data “Wake me up in the morning” and the prosodic data and voice quality data that are the speech feature data of the
[0086]
This speech synthesis data is recorded here in the storage means of the table clock that the orderer intends to purchase. As a result, if the table clock is set to 7:00 am as the output timing of the voice message, for example, at 7 am every morning, the way of speaking of the speaker # 1 (an idol singer) The voice message “Wake me up in the morning” is output.
[0087]
As in the first embodiment, when the voice feature data of a certain speaker is used, the
[0088]
When using the voice feature data of a speaker in this way, as described in the first embodiment, a license request is issued from the
[0089]
The voice message creation fee from the
[0090]
In addition, the contents of the
[0091]
In this case, individual stories are used as conversion candidates for inappropriate expressions described in
[0092]
As described above, according to the second embodiment, the utterance content of the voice message prepared by the
[0093]
Further, as in the first embodiment, only when it is determined that the speech content is an appropriate speech message, speech synthesis processing is performed using the speech feature data of the speaker, and speech synthesis data is output. Therefore, there is a problem that the speaker's unintentional inappropriate contents such as actors, singers, voice actors, athletes, etc. are not intended, and that the speaker's honor is hurt. As a result, the service provider (order receiving side 2) that provides such a voice data providing service is not suspected of the common sense as the service provider.
[0094]
[Embodiment 3]
In each of the above-described embodiments, the speaker utters a Japanese voice message using the utterance content of the Japanese voice message prepared by the
[0095]
For example, the
[0096]
FIG. 6 is a diagram showing the configuration of the audio
[0097]
The
[0098]
When the
[0099]
The
[0100]
Here, it is assumed that the
[0101]
The
[0102]
Then, the
[0103]
In this way, the utterance content of the Japanese voice message prepared by the
[0104]
In addition, although the example applied to
[0105]
As described above, according to the third embodiment, the language conversion unit converts the utterance content of the voice message designated by the orderer into another language, and the utterance content of the voice message is converted by the language conversion unit. Since it is possible to perform speech synthesis processing using the speech content of the translated voice message and the voice feature data of the selected speaker, the language is specified by the orderer. The utterance content of the voice message can be converted into the utterance content of the English voice message, and it can be uttered by the voice of the speaker who likes the orderer.
[0106]
As a result, for example, international celebrities such as foreign movie stars and athletes are registered on the order receiving side as speakers that can be selected by the ordering party, and the voice feature data of these speakers are held on the order receiving side. Utterance content of Japanese voice messages created by the orderer can be output as voice messages spoken in the language of the country by world-renowned celebrities such as foreign movie stars and sports players, etc. A high voice message can be obtained.
[0107]
The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention. For example, in each of the above-described embodiments, the example in which the voice message using the voice feature data of a specific speaker selected by the
[0108]
In each of the above-described embodiments, the
[0109]
Further, in each of the above-described embodiments, the
[0110]
Further, the present invention can create a processing program in which the processing procedure for realizing the present invention described above is described, and the processing program can be recorded on a recording medium such as a floppy disk, an optical disk, a hard disk, The present invention also includes a recording medium on which the processing program is recorded. Further, the processing program may be obtained from a network.
[0111]
【The invention's effect】
As described above, according to the present invention, for example, when a celebrity such as an actor, a singer, a voice actor, or a sports player is selected as a speaker, it is inappropriate that these speakers do not speak at least in public places. Since speech synthesis data is generated by performing speech synthesis processing after confirming that no explicit expression is included, let the speaker speak inappropriate content unintended by these speakers, and Problems such as damaging the honor of the speaker can be prevented in advance, so that the service provider (order receiving party) that provides such voice data providing service is not suspected of the common sense as the service provider.
[0112]
Also, the order receiving side has an inappropriate expression dictionary in which inappropriate expressions are described as the content of the selected speaker, and whether or not inappropriate expressions are included using this inappropriate expression dictionary Therefore, it is possible to reliably and easily determine whether or not an inappropriate expression is included in the utterance content of the voice message designated by the orderer. The inappropriate expression dictionary is prepared for each speaker, so that the presence or absence of inappropriate expressions can be determined by taking advantage of the individuality of each speaker.
[0113]
Also, in addition to the inappropriate expression dictionary, it has an expression conversion dictionary that indicates what kind of expression should be converted to an inappropriate expression, and it is determined that an inappropriate expression is included in the utterance content of a voice message In this case, the conversion candidate for the inappropriate expression is obtained from the expression conversion dictionary, and the conversion candidate is presented to the orderer. It is possible to immediately know what kind of expression should be used, and to easily correct inappropriate expressions. The expression conversion dictionary is prepared for each speaker, so that inappropriate expressions can be corrected while making use of the individuality of each speaker.
[0114]
Further, it has language conversion means for translating the utterance content of the voice message designated by the orderer into another language, and the utterance content of the voice message is translated into the language designated by the orderer by the language conversion means, Since it is possible to perform speech synthesis processing using the utterance content of the translated voice message and the voice feature data of the selected speaker, for example, the utterance content of a Japanese voice message is converted into an English voice message. Utterance content can be converted into the voice of the speaker who likes the orderer.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of an audio data providing system according to a first embodiment of the present invention.
FIG. 2 is a configuration diagram of an audio
3 is a diagram illustrating a processing procedure of a
FIG. 4 is a configuration diagram of an audio
FIG. 5 is a diagram illustrating a processing procedure of a
FIG. 6 is a configuration diagram of an audio
[Explanation of symbols]
1 Ordering party
2 Ordering side
3 network
4 Voice holders
5 Equipment
6 Recording media
20 Voice data creation device
21 sentence analysis department
22 Grammar data
23 Prosody control section
24 Speech waveform generator
251,252, ..., 25n inappropriate expression dictionary
261,262, ..., 26n Prosodic data
271, 272, ..., 27n Voice quality data
281, 282, ..., 28n Expression conversion dictionary
29 Language converter
Claims (11)
前記特定の話者の発話する内容として不適切な表現が記述された不適切表現辞書と、
前記不適切な表現を、前記特定の話者において許容される範囲内の他の表現に変換するための変換候補を前記特定の話者対応に用意された表現変換辞書と、
前記発注者の指定した音声メッセージの発話内容と、音声メッセージを発話させる前記特定の話者の選択情報とを受信すると、前記音声メッセージの発話内容を前記文章解析手段にて文章解析し、文章解析された結果を当該不適切表現辞書の記述に照らし合わせて前記受信した音声メッセージの発話内容に前記選択された前記特定の話者の発話する内容として不適切な表現が含まれているか否かを判定し、前記不適切な表現が含まれていることが判定された場合、前記表現変換辞書から前記不適切な表現に対する変換候補を取得して、取得された前記変換候補を前記発注者に選択させる文章解析手段と、
前記選択された前記変換候補と、前記音声メッセージの発話内容と選択された前記特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声合成手段と、
を有することを特徴とする音声データ提供システム。A speech data providing system that performs speech synthesis processing using speech content of a voice message designated by an orderer and speech feature data of a specific speaker, and provides speech synthesis data obtained by the speech synthesis processing as speech data Because
An inappropriate expression dictionary in which inappropriate expressions are described as content uttered by the specific speaker;
An expression conversion dictionary in which conversion candidates for converting the inappropriate expression into another expression within a range allowed for the specific speaker are prepared for the specific speaker;
Upon receiving the utterance content of the voice message designated by the orderer and the selection information of the specific speaker that utters the voice message, the utterance content of the voice message is analyzed by the sentence analysis means, and sentence analysis is performed. Whether the utterance content of the received voice message includes an inappropriate expression as the utterance content of the selected specific speaker by comparing the result obtained with the description of the inappropriate expression dictionary judgment, if it is determined that the contains inappropriate language, and acquires the conversion candidates for the inappropriate language from the representation conversion dictionary, select the acquired conversion candidate to the orderer Sentence analysis means to
Speech synthesis processing is performed using the selected conversion candidate, the utterance content of the voice message, and the voice feature data of the selected specific speaker, and the speech synthesis data obtained by the speech synthesis processing is converted into speech. Speech synthesis means provided as data,
A voice data providing system comprising:
話者の発話する内容として不適切な表現が記述された不適切表現辞書と、
前記不適切な表現を、前記特定の話者において許容される範囲内の他の表現に変換するための変換候補を個々の話者対応に用意された表現変換辞書と、
前記発注者の指定した音声メッセージの発話内容と、音声メッセージを発話させる前記特定の話者の選択情報とを受信すると、前記音声メッセージの発話内容を前記文章解析手段にて文章解析し、文章解析された結果を当該不適切表現辞書の記述に照らし合わせて前記受信した音声メッセージの発話内容に前記選択された前記特定の話者の発話する内容として不適切な表現が含まれているか否かを判定し、前記不適切な表現が含まれていることが判定された場合、前記表現変換辞書から前記不適切な表現に対する変換候補を取得して、取得された前記変換候補を前記発注者に選択させる文章解析手段と、
前記選択された前記変換候補と、前記音声メッセージの発話内容と選択された前記特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声合成手段と、
を有することを特徴とする音声データ作成装置。A voice data creation device that performs voice synthesis processing using the utterance content of a voice message designated by the orderer and voice feature data of a specific speaker, and provides the voice synthesis data obtained by the voice synthesis processing as voice data Because
An inappropriate expression dictionary in which inappropriate expressions are described as content spoken by the speaker;
An expression conversion dictionary in which conversion candidates for converting the inappropriate expression into another expression within a range allowed for the specific speaker are prepared for each speaker;
Upon receiving the utterance content of the voice message designated by the orderer and the selection information of the specific speaker that utters the voice message, the utterance content of the voice message is analyzed by the sentence analysis means, and sentence analysis is performed. Whether the utterance content of the received voice message contains an inappropriate expression as the utterance content of the selected specific speaker is compared with the description of the inappropriate expression dictionary. judgment, if it is determined that the contains inappropriate language, and acquires the conversion candidates for the inappropriate language from the representation conversion dictionary, select the acquired conversion candidate to the orderer Sentence analysis means to
Speech synthesis processing is performed using the selected conversion candidate, the utterance content of the voice message, and the voice feature data of the selected specific speaker, and the speech synthesis data obtained by the speech synthesis processing is converted into speech. Speech synthesis means provided as data,
An audio data creation device characterized by comprising:
前記特定の話者の発話する内容として不適切な表現が記述された不適切表現辞書と、
前記不適切な表現を、前記特定の話者において許容される範囲内の他の表現に変換するための変換候補を前記特定の話者対応に用意された表現変換辞書と、
前記発注者の指定した音声メッセージの発話内容と、音声メッセージを発話させる話者の選択情報とを受信すると、前記音声メッセージの発話内容を前記文章解析手段にて文章解析し、文章解析された結果を当該不適切表現辞書の記述に照らし合わせて前記受信した音声メッセージの発話内容に選択された前記特定の話者の発話する内容として不適切な表現が含まれているか否かを判定し、前記不適切な表現が含まれていることが判定された場合、前記表現変換辞書から前記不適切な表現に対する変換候補を取得して、取得された前記変換候補を前記発注者に選択させる文章解析手段と、
前記選択された前記変換候補と、前記音声メッセージの発話内容と選択された前記特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声合成手段と、
して機能させることを特徴とする音声データ作成プログラム。A speech data creation system that performs speech synthesis processing using speech content specified by an orderer and speech feature data of a specific speaker, and provides speech synthesis data obtained by the speech synthesis processing as speech data Audio data creation program used for
An inappropriate expression dictionary in which inappropriate expressions are described as content uttered by the specific speaker;
An expression conversion dictionary in which conversion candidates for converting the inappropriate expression into another expression within a range allowed for the specific speaker are prepared for the specific speaker;
When the utterance content of the voice message designated by the orderer and the selection information of the speaker that utters the voice message are received, the utterance content of the voice message is analyzed by the sentence analysis means, and the result of the sentence analysis Whether or not the content of the speech of the received voice message contains an inappropriate expression as the content of the speech of the specific speaker selected by referring to the description of the inappropriate expression dictionary If it is determined that contains profanity, the acquired conversion candidates for the inappropriate language from representation conversion dictionary, text analysis means for selecting the obtained the conversion candidates to the orderer When,
Speech synthesis processing is performed using the selected conversion candidate, the utterance content of the voice message, and the voice feature data of the selected specific speaker, and the speech synthesis data obtained by the speech synthesis processing is converted into speech. Speech synthesis means provided as data,
An audio data creation program characterized by being made to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060265A JP4244661B2 (en) | 2003-03-06 | 2003-03-06 | Audio data providing system, audio data generating apparatus, and audio data generating program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060265A JP4244661B2 (en) | 2003-03-06 | 2003-03-06 | Audio data providing system, audio data generating apparatus, and audio data generating program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004271727A JP2004271727A (en) | 2004-09-30 |
JP4244661B2 true JP4244661B2 (en) | 2009-03-25 |
Family
ID=33122866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003060265A Expired - Fee Related JP4244661B2 (en) | 2003-03-06 | 2003-03-06 | Audio data providing system, audio data generating apparatus, and audio data generating program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4244661B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4769124B2 (en) * | 2006-05-25 | 2011-09-07 | 日本電信電話株式会社 | Speech synthesis method and apparatus with speaker selection function, speech synthesis program with speaker selection function |
JP2007334144A (en) * | 2006-06-16 | 2007-12-27 | Oki Electric Ind Co Ltd | Speech synthesis method, speech synthesizer, and speech synthesis program |
WO2017094500A1 (en) * | 2015-12-02 | 2017-06-08 | 株式会社電通 | Determination device and voice provision system provided therewith |
KR102450816B1 (en) * | 2017-11-28 | 2022-10-05 | 한국전자통신연구원 | Real-time auto-interpretation system and method for verifying utterance thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05165486A (en) * | 1991-12-18 | 1993-07-02 | Oki Electric Ind Co Ltd | Text voice transforming device |
JP2002221981A (en) * | 2001-01-25 | 2002-08-09 | Canon Inc | Voice synthesizer and voice synthesizing method |
-
2003
- 2003-03-06 JP JP2003060265A patent/JP4244661B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004271727A (en) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8594995B2 (en) | Multilingual asynchronous communications of speech messages recorded in digital media files | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
US7472065B2 (en) | Generating paralinguistic phenomena via markup in text-to-speech synthesis | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US7987244B1 (en) | Network repository for voice fonts | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20060074672A1 (en) | Speech synthesis apparatus with personalized speech segments | |
US20130080160A1 (en) | Document reading-out support apparatus and method | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP2010020166A (en) | Voice synthesis model generation device and system, communication terminal, and voice synthesis model generation method | |
TW200901161A (en) | Speech synthesizer generating system and method | |
JP2006293026A (en) | Voice synthesis apparatus and method, and computer program therefor | |
JPH09171396A (en) | Voice generating system | |
JP4244661B2 (en) | Audio data providing system, audio data generating apparatus, and audio data generating program | |
JPH11143483A (en) | Voice generating system | |
JP5693834B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4840476B2 (en) | Audio data generation apparatus and audio data generation method | |
JP4356334B2 (en) | Audio data providing system and audio data creating apparatus | |
WO2001073752A1 (en) | Storage medium, distributing method, and speech output device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050817 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |