JP4840476B2 - 音声データ作成装置および音声データ作成方法 - Google Patents

音声データ作成装置および音声データ作成方法 Download PDF

Info

Publication number
JP4840476B2
JP4840476B2 JP2009148359A JP2009148359A JP4840476B2 JP 4840476 B2 JP4840476 B2 JP 4840476B2 JP 2009148359 A JP2009148359 A JP 2009148359A JP 2009148359 A JP2009148359 A JP 2009148359A JP 4840476 B2 JP4840476 B2 JP 4840476B2
Authority
JP
Japan
Prior art keywords
voice
speaker
speech
voice message
orderer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009148359A
Other languages
English (en)
Other versions
JP2009217846A (ja
Inventor
康永 宮澤
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2009148359A priority Critical patent/JP4840476B2/ja
Publication of JP2009217846A publication Critical patent/JP2009217846A/ja
Application granted granted Critical
Publication of JP4840476B2 publication Critical patent/JP4840476B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、発注者の指定した音声メッセージの発話内容とある特定の話者の音声データ
とを用いて音声合成処理し、それによって得られた音声データを提供する音声データ提供
システムならびに音声データ作成装置および音声データ作成プログラムに関する。
発注者の指定した音声メッセージの発話内容(テキストデータ)とその発注者の選択し
たある特定の話者の音声データとを用いて音声合成処理し、それによって得られた音声デ
ータを提供するシステムが従来から知られている。
たとえば、特開2002−23777号公報に記載の発明(以下、特許文献1という)
や、特開2001−255884号公報に記載の発明(以下、特許文献2という)もその
一例である。
これらの発明は、発注者がネットワークに接続されたパーソナルコンピュータ(PCと
いう)などから音声メッセージの発話内容をキー入力し、かつ、話者(たとえば、俳優、
歌手、声優、スポーツ選手などの著名人)を選択すると、システム側では、その発注者の
入力した音声メッセージの発話内容に対するテキストデータと当該発注者の選択した話者
の音声特徴データとを用いて音声合成処理を行い、その話者の声と話し方での音声合成デ
ータを生成して、それを特別注文(特注という)の音声データとして、たとえば、CD−
ROM(Compact Disk-Read Only Memory)などの記録媒体に記録させて当該発注者に納
品するといったことを可能とするものである。
また、特許文献1の発明には、このような音声合成データを玩具、置き時計、携帯電話
機などの機器に組み込むことによってこれらの機器に付加価値を持たせることが記載され
ている。
特開2002−23777号公報 特開2001−255884号公報
上述した特許文献1や特許文献2の発明によれば、発注者は自分の用意した音声メッセ
ージの発話内容を自分の好みの著名人などある特定の話者に似せた話し方で発話させるこ
とができるので、それによって得られた音声メッセージはその発注者にとって価値の高い
ものとすることができ、さらに、その音声メッセージを玩具や置き時計などの機器に組み
込むことによって、それらの機器はその発注者にとって唯一無二の機器とすることができ
る。
しかしながら、発注者が用意した音声メッセージの発話内容とその発注者の好みの著名
人の音声特徴データとを用いて音声合成処理し、それによって、その著名人に似せた話し
方で発話させるとなると、音声メッセージの内容によっては、その発注者の選択した著名
人などの名誉を傷つけることにもなり兼ねない。
たとえば、アイドル歌手やテレビジョンで放映されているアニメーション番組の人気キ
ャラクタ(声優)の音声特徴データを用いて、乱暴な言い回しや卑猥な内容の音声メッセ
ージを発話させるというように、公の場でその話者が発話することのあり得ない内容の音
声メッセージを発話させるといったことも可能となってしまう。
これら著名人の多くは自分の声自体も売り物の1つとしている人も多いのが一般的であ
り、声の権利者でもあるといえる。したがって、これら著名人に似せた声や話し方で、そ
の著名人の意図しない発話内容を発話させ、それをネットワーク上で配信可能としたり、
ある特定の機器に埋め込むのは問題である。また、このようなことが実際に行われると、
このような音声データ提供サービスを行うサービス提供者に対してもその責任が発生し、
サービス提供者としての良識が疑われることにもなる。
そこで本発明は、自分の用意した音声メッセージの発話内容をある特定の話者に似せた
話し方で発話させるような音声合成を行ってその音声合成データを特注の音声データとし
て提供する際、音声メッセージの発話内容に声の権利者やサービス提供者の意図しない表
現があるか否かを判断することで、適正な内容の音声メッセージの作成を可能とすること
を目的としている。
上述した目的を達成するために、本発明の音声データ提供システムは、発注者の指定し
た音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理
し、それによって得られた音声合成データを音声データとして提供する音声データ提供シ
ステムであって、前記発注者から音声データ作成を受注する受注側は、前記発注者の指定
した音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話
者の選択情報を受信すると、当該発注者の指定した音声メッセージの発話内容が、前記話
者の発話内容として使用を許可された表現で構成されているか否かを判定し、使用を許可
された表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該
選択された話者の音声特徴データとを用いて音声合成処理し、その音声合成データを音声
データとして提供するようにしている。
このような音声データ提供システムにおいて、前記受注側は、選択された話者の発話内
容として使用を許可された表現が記述された使用許可表現辞書を有し、前記使用を許可さ
れた表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解析し
、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行うようにしている
また、この音声データ提供システムにおいて、前記受注側は、選択された話者の発話す
る内容として使用を許可された表現で構成されたネットワーク文法を有し、前記使用を許
可された表現で構成されているか否かの判定は、前記音声メッセージの発話内容を文章解
析し、その文章解析結果を当該ネットワーク文法の内容に照らし合わせて行うようにして
いる。
また、この音声データ提供システムにおいて、前記使用許可表現辞書は、個々の話者対
応に用意され、個々の話者において許容される表現が記述されていることが好ましい。
また、この音声データ提供システムにおいて、前記ネットワーク文法は、個々の話者対
応に用意され、個々の話者において許容される表現で構成されていることが好ましい。
また、この音声データ提供システムにおいて、前記音声メッセージの発話内容に、前記
話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、そ
の未知語の存在を前記発注者に提示することが好ましい。
また、この音声データ提供システムにおいて、前記使用許可表現辞書またはネットワー
ク文法に加えて、話者の発話する内容として使用を許可された表現以外の未知語を、前記
使用を許可された表現に変換するための変換候補の記述がなされた未知語変換辞書を有し
、音声メッセージの発話内容に未知語が含まれていると判定された場合は、この未知語変
換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発注者に提示す
ることが好ましい。
また、この音声データ提供システムにおいて、前記未知語変換辞書は、個々の話者対応
に用意され、個々の話者において許容される範囲内の変換候補の記述がなされていること
が好ましい。
また、この音声データ提供システムにおいて、前記発注者の指定した音声メッセージの
発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使
用を許可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、
前記音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言
語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴
データとを用いて音声合成処理することも可能である。
また、本発明の音声データ作成装置は、発注者の指定した音声メッセージの発話内容と
ある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声
合成データを音声データとして提供する音声データ提供システムに用いられる音声データ
作成装置であって、この音声データ作成装置は、前記話者の発話内容として使用を許可さ
れた表現を記録した使用許可表現記録手段と、前記発注者の指定した音声メッセージの発
話内容を文章解析するとともに、発注者の指定した音声メッセージの発話内容が、前記話
者の発話内容として使用を許可された表現で構成されているか否かを判定する文書解析手
段と、この文書解析手段によって当該音声メッセージの発話内容が前記使用を許可された
表現で構成されていると判定された場合に、その音声メッセージの発話内容と当該選択さ
れた話者の音声特徴データとを用いて音声合成処理する音声合成手段とを有している。
このような音声データ作成装置において、前記使用許可表現記録手段は、前記選択され
た話者の発話内容として使用を許可された表現が記述された使用許可表現辞書であって、
前記使用を許可された表現で構成されているか否かを判定は、前記音声メッセージの発話
内容を文章解析し、その文章解析結果を当該使用許可表現辞書の内容に照らし合わせて行
うようにしている。
また、この音声データ作成装置において、前記使用許可表現記録手段は、前記選択され
た話者の発話内容として使用を許可された表現で構成されたネットワーク文法であって、
前記話者の発話内容として使用を許可された表現で構成されているか否かを判定は、前記
音声メッセージの発話内容を文章解析し、その文章解析結果を当該ネットワーク文法の内
容に照らし合わせて行うようにしている。
また、この音声データ作成装置において、前記使用許可表現辞書は、個々の話者対応に
用意され、個々の話者において許容される表現が記述されていることが好ましい。
また、この音声データ作成装置において、前記ネットワーク文法は、個々の話者対応に
用意され、個々の話者において許容される表現で構成されていることが好ましい。
また、この音声データ作成装置において、前記文書解析手段によって前記音声メッセー
ジの発話内容に、前記話者の発話する内容として使用を許可された表現以外の未知語が含
まれていると判定された場合は、その未知語の存在を前記発注者に提示することが好まし
い。
また、この音声データ作成装置において、前記使用許可表現辞書またはネットワーク文
法に加えて、前記話者の発話する内容として使用を許可された表現以外の未知語を、前記
使用を許可された表現に変換するための変換候補が記述された未知語変換辞書を有し、前
記文書解析手段は音声メッセージの発話内容に未知語が含まれていると判定した場合は、
当該未知語変換辞書からその未知語に対する変換候補を取得して、その変換候補を前記発
注者に提示することが好ましい。
また、この音声データ作成装置において、前記未知語変換辞書は、個々の話者対応に用
意され、個々の話者において許容される範囲内の変換候補の記述がなされていることが好
ましい。
また、この音声データ作成装置において、前記発注者の指定した音声メッセージの発話
内容を前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記使用を許
可された表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音
声メッセージの発話内容を当該言語変換手段によって当該発注者の指定する他の言語に翻
訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音声特徴データ
とを用いて音声合成処理することも可能である。
また、本発明の音声データ作成プログラムは、発注者の指定した音声メッセージの発話
内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られ
た音声合成データを音声データとして提供する音声データ作成システムに用いられる音声
データ作成プログラムであって、その音声データ作成プログラムは、前記発注者の指定し
た音声メッセージの発話内容を受信するとともに、その音声メッセージを発話させる話者
の選択情報を受信すると、発注者の指定した音声メッセージの発話内容が、前記話者の発
話内容として使用を許可された表現で構成されているか否かを判定する手順と、当該音声
メッセージの発話内容が前記使用を許可された表現で構成されていると判定された場合に
、その音声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声
合成処理する手順とを含んでいる。
このような音声データ作成プログラムにおいて、前記使用を許可された表現で構成され
ているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果
を前記選択された話者の発話内容として使用を許可された表現が記述された使用許可表現
辞書の内容に照らし合わせて行うようにしている。
また、この音声データ作成プログラムにおいて、前記使用を許可された表現で構成され
ているか否かを判定は、前記音声メッセージの発話内容を文章解析し、その文章解析結果
を前記選択された話者の発話内容として使用を許可された表現で構成されたネットワーク
文法の内容に照らし合わせて行うようにしている。
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前
記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、
その未知語の存在を前記発注者に提示することが好ましい。
また、この音声データ作成プログラムにおいて、前記音声メッセージの発話内容に、前
記話者の発話する内容として使用を許可された表現以外の未知語が含まれている場合は、
その未知語を、前記使用を許可された表現に変換するための変換候補を前記発注者に提示
することが好ましい。
また、この音声データ作成プログラムにおいて、前記不適切な表現が含まれていないこ
とが判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を言
語変換手段を用いて当該発注者の指定する他の言語に翻訳し、その翻訳された音声メッセ
ージの発話内容と前記選択された話者の音声特徴データとを用いて音声合成処理すること
も可能である。
このように本発明は、発注者が俳優、歌手、声優、スポーツ選手などの著名人などを話
者として選択した場合、その発注者の指定した音声メッセージの発話内容が、前記話者の
発話内容として使用を許可された表現で構成されていると判定された場合のみに、その音
声メッセージの発話内容と当該選択された話者の音声特徴データとを用いて音声合成処理
し、その音声合成データを生成するようにしているので、生成された音声合成データ(音
声メッセージ)は、話者の発話内容として使用を許可された表現のみ構成された内容とな
り、これらの話者が公の場では発話しないような不適切な内容をその話者に発話させて、
その話者の名誉を傷つけるといった問題を未然に防ぐことができ、これによって、このよ
うな音声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての
良識が疑われることもなくなる。
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現
辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否か
の判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話
者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク
文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否か
の判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話
者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、
ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話
者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を
与えることができる。
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、
個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
また、音声メッセージの発話内容に使用を許可された表現以外の未知語が含まれている
と判定された場合は、その音声メッセージの発話内容に対する音声合成処理を行わず、未
知語を前記発注者に提示するようにしているので、不適切な表現が含まれた音声合成デー
タが作成されるのを未然に防ぐことができるとともに、未知語を発注者に提示することに
よって、発注者は自分の用意した音声メッセージのどこが未知語なのかを知ることができ
、未知語の修正がし易くなる。
また、未知語変換辞書を有し、音声メッセージの発話内容に未知語が含まれていると判
定された場合は、この未知語変換辞書からその未知語に対する変換候補を取得して、その
変換候補を前記発注者に提示するようにしているので、発注者はそれを見ることによって
、未知語をどのような表現とすればよいかを即座に知ることができ、未知語の修正作業を
容易に行うことができる。
その未知語変換辞書は、個々の話者対応に用意されることによって、個々の話者の個性
などを生かした上で未知語の変換を行うことができる。
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手
段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定
する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音
声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語
の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注
者の好みの話者の音声で発話させることができる。
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ
選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注
側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国
の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージ
として出力させることができ、より価値の高い音声メッセージを得ることができる。
本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。 実施形態1における音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。 実施形態1における文書解析部21の処理手順を説明する図である。 本発明の実施形態2に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。 実施形態2で用いられるネットワーク文法の一例を示す図である。 本発明の実施形態3に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。 実施形態3における文書解析部21の処理手順を説明する図である。 本発明の実施形態4に係る音声データ提供システムの受注側に設けられる音声データ作成装置20の構成図である。
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は
、本発明の音声データ提供システム、音声データ作成装置、音声データ作成プログラムに
ついての説明を含むものである。
〔実施形態1〕
図1は本発明の実施形態1に係る音声データ提供システムの構成を説明する図である。
この音声データ提供システムは、発注者の指定した音声メッセージの発話内容をある特定
の話者の音声特徴データを用いて音声合成処理し、それによって得られた音声合成データ
を特注の音声データとして提供するシステムであり、その構成を大きく分けると、音声デ
ータ生成を発注する側としての発注者1、この発注者1の所望とする音声メッセージの発
話内容を発注者1の要求する話者の音声特徴データを用いて音声合成処理し、それによっ
て得られた音声データを発注者1に提供する受注側2、この受注側2と発注者1との間に
介在されるネットワーク3、発注者1の選択した話者の声の権利を有する声の権利者4な
どから構成される。
この図1において、発注者1は、この音声データ提供システムを利用し、自分の好みの
音声メッセージの作成を依頼して、その作成された音声メッセージの記録された機器(置
き時計など)や記録媒体(CD−ROMなど)を購入してそれを自分で使用したり、その
音声メッセージをネットワークを介して受信して、自分の情報端末(PCや携帯電話機)
にダウンロードして使用する人だけではなく、その機器や記録媒体そのものは自分で使用
せずにプレゼントなどの目的で購入する人も含むものであるが、ここでの発注者1は、自
分で発注した音声メッセージを自分で使用する場合を例にとって説明する。
また、受注側2は、音声データを埋め込むべき機器を製造する製造メーカであってあっ
てもよく、また、音声データを提供するサービスを専門に行うサービス提供会社であって
もよい。なお、サービス提供会社の場合は、音声データを作成してその音声データを機器
製造会社や一般ユーザに提供することができることは勿論、機器製造会社から機器を供給
されてその機器に音声データを組み込むところまでを行うことも可能である。
また、この受注側2で作成される音声データの発注者(たとえば発注者1)への納品形
態は、たとえば、置き時計などの機器5に組み込まれた状態で納品される形態であってよ
く、CD−ROMなどの記録媒体6に記録された状態で納品される形態であってもよい。
また、ある発注者(たとえば発注者1)がネットワーク3を介して自分の情報端末(PC
や携帯電話機など)にダウンロードするといった納品形態でもよい。
ところで、この受注側2は音声データ作成装置20を有している。この音声データ作成
装置20は、発注者1の所望とする音声メッセージ、すなわち、本発明の実施形態では発
注者1が自分のPCからキー入力した発話内容(テキストデータ)と発注者1の選択した
話者の音声特徴データとを用いて音声合成データを作成するが、その音声合成処理を行う
前に、発注者1のキー入力した音声メッセージの発話内容が、当該選択された話者の発話
内容として使用を許可された表現(これをここでは使用許可語彙・活用という)で構成さ
れているか否かを判定し、その話者の発話内容として使用を許可された表現(使用許可語
彙・活用)で構成されていると判定された場合のみに音声合成処理を行うものであるが、
その詳細な構成や動作については後に詳細に説明する。
また、声の権利者4は、俳優、歌手、声優、スポーツ選手などのいわゆる著名人である
。なお、これら個々の著名人が個人で声の権利者4となる場合もあるが、俳優、歌手、声
優などの場合はそれぞれが所属する事務所(プロダクションなど)などが声の権利者4と
なる場合もある。また、それ以外の著名人の場合も同様にそれぞれが所属する事務所など
が声の権利者4となる場合もある。
このような構成において、その処理手順を簡単に説明すると、発注者1は自分のPCな
どで受注側2の音声データ作成受注サイトにアクセスし、どのようなサービスを受けるか
などのサービス形態(この場合は、音声メッセージの作成要求)を選択し、その音声メッ
セージの発話内容をPC上からキー入力するとともに、その音声メッセージをどのような
話者に発話させたいかを選択(話者選択)する。
受注側2では、発注者1がキー入力した音声メッセージの発話内容のテキストデータと
当該発注者1の選択した話者の音声特徴データとを用いて音声合成処理を行い、それによ
って得られた音声合成データを音声メッセージに対応する音声データとして当該発注者1
に提供する。
このとき、上述したように、発注者1の入力した音声メッセージの発話内容が、当該発
注者1によって選択された話者の発話内容として使用を許可された表現(使用許可語彙・
活用)で構成されているか否かを判定し、その話者対応の使用許可語彙・活用で構成され
ていると判定されれば、発注者1の選択した話者に対応する声の権利者4に使用許諾を要
求し、使用許諾が得られれば、その話者の音声特徴データと発注者1の入力した音声メッ
セージの発話内容(テキストデータ)とを用いて音声合成処理を行う。そして、それによ
って得られた音声合成データを発注者1の購入希望の機器に搭載された記憶手段に記録さ
せてその機器5を発注者1に提供したり、CD−ROMなどの記録媒体6に記録させたも
のを発注者に提供したり、その音声合成データそのものを発注者に送信して発注者1が自
身の情報端末にダウンロードしたりする。以下、詳細に説明する。
図2は受注側2に設けられる音声データ作成装置20の構成図であり、文章解析部21
と、文法データ22と、音声合成処理部としての韻律制御部22および音声波形生成部2
3と、この受注側2に記述されている俳優、歌手、声優、スポーツ選手などの多数の話者
(話者#1、話者#2,・・・,話者#nとする)の発話内容として使用を許可された表
現が記録されている使用許可表現記録手段としての使用許可表現辞書251,252,・
・・,25nと、これら話者#1、話者#2,・・・,話者#nに対する音声特徴データ
である韻律データ261,262,・・・,26nおよび音質データ271,272,・
・・,27nとを有している。
使用許可表現辞書251,252,・・・,25nは、個々の話者#1、話者#2,・
・・,話者#nの発話内容として使用を許可された表現(使用許可語彙・活用)が記述さ
れているものである。
文章解析部21は、発注者1によって入力された音声メッセージの発話内容(テキスト
データ)を受け取って、文法辞書や日本語語彙辞書などからなる文法データ22を用いて
文章解析(構文解析や形態解析)を行って、その文章解析結果を当該発注者1の選択した
話者用の使用許可表現辞書(話者#1、話者#2,・・・,話者#n用の使用許可表現辞
書251〜25nのいずれか)に照らし合わせて、発注者1の入力した音声メッセージの
発話内容が、当該選択された話者用の使用許可語彙・活用で構成されているか否かを判定
し、当該選択された話者用の使用許可語彙・活用で構成されていると判定した場合には、
その文章解析結果を次の処理過程である音声合成処理部(韻律制御部23と音声波形生成
部24)に渡す。
また、発注者1の入力した音声メッセージの発話内容に、当該選択された話者用の使用
許可語彙・活用以外の表現(これを未知語と呼ぶことにする)があると判定された場合に
は、その旨を発注者1に通知するとともに、どれが未知語であるかをその発注者1に提示
する。
また、音声合成処理部としての韻律制御部23と音声波形生成部24は、文章解析部2
1で適正な表現であると判定された音声メッセージの発話内容(テキストデータ)の文章
解析結果に対して、発注者1によって選択された話者の音声特徴データ、すなわち、話者
#1、話者#2,・・・,話者#n用の韻律データ261〜26nのうち、その話者に対
応する韻律データと話者#1、話者#2,・・・,話者#n用の声質データ271〜27
nのうち、その話者に対応する声質データを用いて音声合成処理を行って、音声合成デー
タを出力する。
このような構成において、具体例を用いて図3を参照しながらより詳細に説明する。発
注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、自分で用
意した音声メッセージの発話内容を自分の好みの話者の音声で発話させた音声メッセージ
の作成を依頼し、かつ、その音声メッセージをある機器(置き時計など)5の記憶手段に
記録することを依頼するものとする。
ここでの音声メッセージの発話内容は、たとえば、「もう朝だよ起きろばか」という内
容であって、その内容を発話させる話者として、あるアイドル歌手(話者#1とする)を
選択するものとする。
発注者1は、その音声メッセージの発話内容を自分のPCによりキー入力するとともに
、それを発話させる話者として、あるアイドル歌手(話者#1)を選択する。これによっ
て、発注者1によってキー入力された音声メッセージの発話内容「もう朝だよ起きろばか
」に対するテキストデータが受注側2における音声データ作成装置20の文書解析部21
に入力されるとともに、話者#1を選択したことを示す話者選択情報が文書解析部21に
入力される。
文書解析部21では、入力されたテキストデータに対して文法データ(文法辞書や日本
語語彙辞書などからなる)22を用いて、文書解析として形態素解析を行い(ステップS
1)、品詞分解してその形態素解析結果を得る(ステップS2)。
そして、この図3のステップS2に示すような形態素解析結果を、発注者1の選択した
話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要素と
使用許可表現辞書251に記述された内容の一致を判定する(ステップS3)。この場合
、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」
、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」は記述されて
いないとする。
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は、該話者#1の
発話する内容として適切であると判定されるが、「起きろ」や「寝ろ」は当該話者#1の
使用許可表現辞書に記述されていない表現(未知語)であると判定されるので、この場合
、使用許可語彙・活用として「もう」、「朝」、「だ」、「よ」が抽出される(ステップ
S4)。
このように、当該話者#1の使用許可表現辞書251に記述されていない未知語が含ま
れると判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれ
ていることを発注者1に通知するとともに、その判定結果を発注者1に対して提示する(
ステップS5)。
この発注者1に提示される判定結果としては、たとえば、この図3のステップS5に示
すように、「もう 朝だよ ○○○ ○○」というように、未知語である「起きろ」、「
ばか」の各文字部分を○で表すことが考えられる。なお、この未知語の表し方としては、
そのほかに、未知語を太字としたり、文字の大きさを大きくしたり、字体を変えたりする
などなど種々の方法が考えられる。
発注者1がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話
内容に話者#1(あるアイドル歌手)にとって未知語があることを知り、その未知語を修
正し、「もう朝だよ起きてね」というような内容としてそれをキー入力したとすると、再
び、前述のステップS1,S2の処理を行う。
すなわち、「もう朝だよ起きてね」のテキストデータを形態素解析して、その形態素解
析結果を得る(ステップS1,S2)。そして、その形態素解析結果を、発注者1の選択
した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々の要
素と使用許可表現辞書251の内容の一致を判断する(ステップS3)。この場合、話者
#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」、「朝
」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているものとする。
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表
現辞書251に記述されているので、その音声メッセージの発話内容は当該話者#1の発
話する内容として適切であると判定される。
このように、音声メッセージの発話内容が当該話者#1の発話する内容として適切であ
ると判定されると、次の処理過程である音声合成処理に入る。この音声合成処理は、韻律
制御部23と音声波形生成部24によって行われる。すなわち、「もう朝だよ起きてね」
というテキストデータに対する文章解析結果と、当該話者#1用の韻律データ251およ
びその話者#1用の声質データ261を用いて、音声合成処理を行い、音声合成データを
出力する。
この音声合成データは、ここでは、発注者1の購入しようとする置き時計の記憶手段に
記録される。これによって、その置き時計は、たとえば、その音声メッセージの出力タイ
ミングとして、午前7時00分を設定すすれば、毎朝、午前7時ちょうどになると、話者
#1(あるアイドル歌手)の声と話し方で「もう朝だよ起きてね」という音声メッセージ
が出力される。
なお、ステップS3において、発注者1の用意した音声メッセージの発話内容が適切な
語彙や活用で構成されていると判断されれば、上述したように、音声合成処理に入るが、
このとき、その音声メッセージを発話する話者#1(声の権利者4)に対してその音声特
徴データ(韻律データや声質データなど)を使用するための使用許諾要求(図1参照)を
出し、声の権利者4側からの使用許諾通知(図1参照)を取得すると、その音声特徴デー
タ(この場合、韻律データ261と声質データ271)を用いた音声合成処理を行う。
このように、ある話者の音声特徴データを使用する際は、受注側2がその使用料金(個
々の話者によって異なる場合もある)をその声の権利者4に支払う。
なお、ある話者の音声特徴データを使用する場合、その都度、受注側2から使用許諾要
求を出し、それに対して、声の権利者4から使用許諾通知をもらうというようなことをせ
ず、発注者1の用意した音声メッセージの発話内容に不適切な内容がないと判断したら、
音声データ作成装置20から声の権利者4に対して使用許諾要求だけを出して、その話者
の音声特徴データを使用した音声合成データの作成を可能とするというような取り決めを
、対応する声の権利者4との間で交わしておくことも可能である。その場合、声の権利者
4は受注側2からの使用許諾要求によって、自分の音声特徴データの使用回数を把握する
ことができ、それに基づいて課金することができる。
また、発注者1から受注側2への音声メッセージ作成料金の支払いは、コンビニエンス
ストアでの支払い、銀行振り込みによる支払い、クレジットカードでの支払いなど種々の
方法を可能とする。
また、使用許可表現辞書の内容は個々の話者#1,#2,・・・,#nによって異なる
ようにすることも可能である。たとえば、話者が女性であるか男性であるかの違いや、同
じ男性であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される
表現の範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される
範囲内の語彙や活用の記述がなされた使用許可表現辞書を用意することによって、個々の
話者の個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うこと
ができる。
以上説明したようにこの実施形態1によれば、発注者1の指定(ここではキー入力)し
た音声メッセージの発話内容が、当該選択された話者(ここでは話者#1)用の使用許可
表現辞書251に記述された起用許可語彙・活用で構成されているか否かを判定し、使用
許可語彙・活用以外の表現(未知語)が含まれていれば、それを発注者1に提示し、発注
者1はそれを見て未知語を修正した音声メッセージの発話内容を作成して受注側2に送信
し、受注側2では、その修正された音声メッセージについて、再度、当該選択された話者
(ここでは話者#1)用の使用許可表現辞書251に記述された語彙・活用で構成されて
いるか否かを判定し、使用許可表現辞書251に記述された使用許可語彙・活用で構成さ
れていると判定された場合のみに、その音声メッセージの発話内容を当該話者の音声特徴
データを用いて音声合成処理して、音声合成データを出力するようにしている。
これによって、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者)の意図し
ない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといった問題を未
然に防ぐことができ、また、このような音声データ提供サービスを行うサービス提供者(
受注側2)もサービス提供者としての良識が疑われることもなくなる。
また、この実施形態1では、音声メッセージの発話内容が、個々の話者対応に設定され
た使用許可語彙・活用のみで構成されていると判定された場合に音声合成処理に移行でき
るので、音声メッセージの発話内容は、ある程度制限されるが、その分、その話者の発話
内容としての適正さをより高めることができ、声の権利者としての話者に安心感を与える
ことができる。また、個々の話者にとって適正な内容の音声メッセージのみが作成される
ことから、このような音声データ提供サービスを行うサービス提供者(受注側)もサービ
ス提供者としての評価を高めることができる。
また、個々の話者用の発話内容として使用できる語彙や活用を記述する方式によれば、
たとえば、新語や流行語が発生した場合に対応し易い効果もある。たとえば、そのときの
流行語をある話者用に記述したい場合には、その流行語を使用許可語彙・活用として記述
すれば、その流行語を含んだ音声メッセージの発話内容を作成することができる。
〔実施形態2〕
この実施形態2では話者の発話内容として使用を許可された表現を記録した使用許可表
現記録手段として、実施形態1における話者#1,話者#2,・・・,話者#n用の使用
許可表現辞書251,252,・・・,25nの代わりに、図4に示すように、それぞれ
の話者#1,話者#2,・・・,話者#n用のネットワーク文法281,282,・・・
,28nを用いた例を示すものである。その他の構成要素は図2と同じであるので同一部
分には同一符号が付されている。以下、この実施形態2について説明する。
ネットワーク文法は、ごく簡単に言えば、図5に示すように、図示の左端(begin)か
ら右端(end)に向かって(矢印X方向)それぞれの形態素をつないで行くことによって
、幾つかの表現を生成可能とするものである。
この図5の例では、たとえば、「もう 朝だよ 起きて ね」、「もう 朝です 起き
て ください」、「もう 夜です 寝て ください」、「午前 *時 △分 です 起き
て ください」など、ネットワーク文法を構成する形態素数を組み合わせることによって
、多様な音声メッセージの発話内容を生成できる。ただし、実施形態1の例に比較すると
、生成可能な音声メッセージの発話内容の数は制限されるが、生成可能な音声メッセージ
の発話内容が簡単に把握できるので、好ましくない発話内容が作成される可能性はきわめ
て低くなり、声の権利者として話者に安心感を与えることができる効果がある。また、個
々の話者にとって適正な内容の音声メッセージのみが作成されることから、このような音
声データ提供サービスを行うサービス提供者(受注側)もサービス提供者としての評価を
高めることができる。
なお、図5において、「*時」や「△分」などの「*」や「△」の部分は、この場合、
時刻を表す任意の数字を挿入可能とするものである。
このようなネットワーク文法をそれぞれの話者ごとに用意しておく。そして、発注者1
がたとえば前述の実施形態1と同様に、「もう朝だよ起きろばか」という音声メッセージ
の発話内容を入力し、かつ、それを発話させる話者として、あるアイドル歌手(話者#1
とする)を選択するものとする。なお、この話者#1用のネットワーク文法281は図5
に示すものであるとする。
文書解析部21では、入力されたテキストデータに対して文法データ(文法辞書や日本
語語彙辞書などからなる)22を用いて、文書解析として形態素解析を行い、品詞分解し
てその形態素解析結果を得る(図3のステップS2参照)。
そして、この形態素解析結果を、発注者1の選択した話者#1用のネットワーク文法2
81(図5参照)を用いて、左端(begin)から該当する形態素をトレースして行く。こ
の例では、「もう」、「朝」、「だよ」までは形態素の一致がとれるが、発注者1の入力
した「起きろ」、「ばか」はネットワーク文法281に該当する形態素が記述されていな
いので、この「起きろ」、「ばか」は当該話者#1の発話する表現としては未知語である
と判断される。
このように、当該話者#1の使用許可表現辞書に記述されていない未知語が含まれると
判定された場合は、次の処理過程である音声合成処理には進まず、未知語が含まれている
ことを発注者1に通知するとともに、その判定結果を発注者1に対して提示する。
この発注者1に提示される判定結果としては、前述したように、たとえば、「もう 朝
だよ ○○○ ○○」というように、未知語である「起きろ」、「ばか」の各文字部分を
○で表すことが考えられる。なお、この未知語の表し方としては、そのほかに、未知語を
太字としたり、文字の大きさを大きくしたり、字体を変えたりするなどなど種々の方法が
考えられる。
発注者1がこのような判定結果を受け取り、自分のキー入力した音声メッセージの発話
内容に未知語があることを知り、その未知語を修正し、「もう朝だよ起きてね」というよ
うな内容としてそれをキー入力したとすると、今度は、「もう朝だよ起きてね」のテキス
トデータを形態素解析して、その形態素解析結果を得て、その形態素解析結果を、発注者
1の選択した話者#1用のネットワーク文法281を用いて、上述したと同様に、左端(
begin)から該当する形態素をトレースして行く。この場合、「もう」、「朝」、「だよ
」、「起きて」、「ね」のすべての形態素がネットワーク文法を構成する形態素と一致が
とれ、その音声メッセージ「もう朝だよ起きてね」の発話内容は当該話者#1の発話する
内容として適切であると判定される。
このように、音声メッセージの発話内容が当該話者#1の発話する内容として適切であ
ると判定されると、次の処理過程である音声合成処理に入るが、これ以降の処理は実施形
態1と同じであり、実施形態1ですでに説明したのでここではその説明は省略する。
このように、ネットワーク文法を用いた実施形態2は、実施形態1に比較すると、生成
可能な音声メッセージの発話内容の制約は大きいが、その分、話者の発話内容としての適
正さをより高めることができ、声の権利者として話者に安心感を与えることができるとい
った効果がある。
なお、この実施形態2において、発注者が話者を選択すると、その話者用のネットワー
ク文法を当該発注者に提示するようにし、その発注者はそのネットワーク文法を見て、自
分の所望とする音声メッセージを作成するようにしてもよい。
たとえば、発注者1が話者#1を選択したとすると、当該話者31用のネットワーク文
法301を発注者1側に送信し、発注者1はそれを自分のPC上で見て、PC画面上で、
たとえば、「もう」、「朝」、「だよ」、「起きて」、「ね」を、順次、クリックして行
くことでは、音声メッセージの発話内容として「もう朝だよ起きてね」が受注者2側に入
力されるようにすることもできる。
これによれば、発注者1の作成する音声メッセージの発話内容は、ネットワーク文法に
沿った内容となるので、未知語が用いられることがなくなり、音声メッセージの発話内容
の作成処理を容易なものとすることができ、それによって、音声合成処理を含めた全体の
処理を効率よく行うことができる。
また、ネットワーク文法を構成する個々の形態素は、その形態素の内容によっては、固
定としないで、いくつかの中から発注者に選択可能としてもよい。たとえば、上述したよ
うに、時刻や月日などは、「*時」、「△分」、「*月」、「△日」として、「*」、「
△」に時刻や月日を表す任意の数値を入力可能(プルダウンメニューのようなものから選
択する形式でもよい)としたリ、「ください」というような表現は「ちょうだい」など、
それに類似した表現で、かつ、その話者にふさわしい表現をいくつか用意しておいて、そ
の中から選択できるようにしてもよい。このようにすれば、表現のバリエーションをより
多彩なものとすることができる。
また、ネットワーク文法は個々の話者#1,#2,・・・,#nによって異なる内容と
することも可能である。たとえば、話者が女性であるか男性であるかの違いや、同じ男性
であっても、若いアイドル歌手と年配のアクション俳優などによって、許容される表現の
範囲が異なってくるので、個々の話者対応に、それぞれの話者において許容される範囲内
の語彙や活用の記述がなされたネットワーク文法を用意することによって、個々の話者の
個性などを生かした上で、その話者の発話内容として適切か否かの判定を行うことができ
る。
このように、この実施形態2も実施形態1と同様に、個々の話者にとって適正な内容の
音声メッセージのみが作成されることから、このような音声データ提供サービスを行うサ
ービス提供者(受注側)もサービス提供者としての評価を高めることができ、また、たと
えば、新語や流行語が発生した場合に対応し易い効果が得られる。
〔実施形態3〕
前述の実施形態1および実施形態2では、受注側2から発注者1に対して未知語の存在
を示す判定結果が提示されると、発注者1はその提示内容を見て、未知語を自分の判断で
修正するようにしたが、この実施形態3では、話者#1,#2,・・・,#n用の使用許
可表現辞書251,252,・・・,25n(実施形態1)または話者#1,#2,・・
・,#n用のネットワーク文法281,282,・・・,28n(実施形態2)に加えて
、話者#1,#2,・・・,#n用の未知語変換辞書291,292,・・・,29nを
持ち、発注者1のキー入力した音声メッセージの発話内容に未知語があった場合、個々の
話者ごとにその未知語をどのような表現に変換したらよいかの変換候補を発注者1に提示
できるようにする。
図6はこの実施形態3における音声データ作成装置20の構成を示す図であり、ここで
は、実施形態1で用いた図2の構成に話者#1,#2,・・・,#n用の未知語変換辞書
291,292,・・・,29nを設けた例が示されている。この図6は図2で示した構
成図に対して、話者#1,#2,・・・,#nごとの未知語変換辞書291,292,・
・・,29nを有している点が異なるだけで、あとは図2と同じであるので、図2と同一
の構成要素には同一符号が付されている。
未知語変換辞書291,292,・・・,29nは、上述したように、ある話者に発話
させる音声メッセージの発話内容に未知語があった場合、その未知語をどのような表現に
変換したらよいかの変換候補が記述されている辞書である。以下、図7を参照しながらこ
の実施形態3の具体例について説明する。
発注者1は自分のPCなどで受注側2の音声データ作成受注サイトにアクセスし、上述
の実施形態1と同様に、自分で用意した音声メッセージを自分の好みの話者の音声で発話
させた音声メッセージの作成を依頼し、かつ、その音声メッセージをある機器(置き時計
など)5の記憶手段に記録することを依頼するものとする。
ここでの音声メッセージの発話内容は、実施形態1で用いたものと同様、「もう朝だよ
起きろばか」という内容であって、その音声メッセージの発話内容を自分のPCによりキ
ー入力するとともに、それを発話させる話者として、あるアイドル歌手(話者#1)を選
択したとする。これによって、発注者1のキー入力された音声メッセージの発話内容「も
う朝だよ起きろばか」に対するテキストデータは受注側2の文書解析部21に入力される
とともに、話者#1が選択されたことを示す話者選択情報が文書解析部21に入力される
文書解析部2では、入力されたテキストデータに対して文法データ(文法辞書や日本語
語彙辞書などからなる)22を用いて文書解析として形態素解析を行い(ステップS11
)、品詞分解してその形態素解析結果を得る(ステップS12)。
そして、この図7におけるステップS12に示すような形態素解析結果を、発注者1の
選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析された個々
の要素と使用許可表現辞書251の内容の一致を判定する(ステップS13)。この場合
、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「もう」
、「朝」、「だ」、「よ」などが記述されているが、「起きろ」や「寝ろ」といった命令
形の活用は記述されていないとする。
したがって、この例においては、「もう」、「朝」、「だ」、「よ」は当該話者#1の
使用許可表現辞書251に記述されているので、該話者#1の発話する内容として適切で
あると判定されるが、「起きろ」や「寝ろ」は当該話者#1の使用許可表現辞書に記述さ
れていない未知語であると判定され、この場合、使用許可語彙・活用として「もう」、「
朝」、「だ」、「よ」が抽出される(ステップS14)。
このように、当該話者#1の使用許可表現辞書に記述されていない未知語が含まれると
判定された場合は、次の処理過程である音声合成処理には進まず、文章解析部21は、当
該話者#1用の未知語変換辞書281を用いて、その不適切な表現をどのような表現とし
たらよいかの表現変換(語彙・活用変換)を行う(ステップS15)。
この場合、話者#1用の未知語変換辞書291には、「ばか」や「あほ」といった表現
に対しては、「空白」とすることが記述されており、また、「起きろ」や「寝ろ」といっ
た命令形の表現については、「起きてね」、「起きてちょうだい」、「寝てね」、「寝て
ちょうだい」といった表現に変換することが記述されている。
なお、「ばか」や「あほ」といった表現を「空白」とするのは、これら人を誹謗、中傷
する表現を他の適当な表現に言い換えるのは難しいからであり、また、このような誹謗、
中傷するような表現は、たとえ、それを他の表現で言い換えが可能であるとしてもそのよ
うな表現を用いるのは好ましいことではないからである。また、「起きろ」や「寝ろ」と
いった少し乱暴な命令形は、そのアイドル歌手ならこのような表現が好ましいとされる表
現として、ここでは、「起きてね」、「起きてちょうだい」、「寝てね」、「寝てちょう
だい」といった表現に変換するとしている。
この未知語変換が終了すると、どこをどのように変換すればよいかを発注者1に提示す
る(ステップS15)。この場合、発注者1の用意した「もう朝だよ起きろばか」という
未知語を含む音声メッセージの発話内容は、この図7のステップS16に示すように、第
1の候補として、「もう朝だよ起きてね」、第2の候補として、「もう朝だよ起きてちょ
うだい」の2つの候補を発注者1に提示する。
なお、ここでの未知語である「起きろ」、「ばか」の部分は、それが未知語であること
を発注者に知らせるために、前述の実施形態1で説明したように、たとえば、「もう 朝
だよ ○○○ ○○」というように、未知語の各文字部分を○で表したり、太字で表した
り、文字の大きさを大きくしたり、字体を変えたりするなど種々の方法が考えられる。
このように、未知語変換辞書291を用いた未知語変換処理を行うことによって、この
場合、第1の候補「もう朝だよ起きてね」、第2の候補「もう朝だよ起きてちょうだい」
が発注者に提示されるが、これらの内容は、いずれも、「ばか」という表現が削除されて
いる。これは、上述したように、話者#1用の未知語変換辞書291には、「ばか」や「
あほ」といった表現に対しては、「空白」とすることが記述されているからである。
発注者1がこのような通知を受け取り、自分の用意した音声メッセージの発話内容に未
知語があることを知り、受注側2から提示された第1の候補を選択し、「もう朝だよ起き
てね」というような内容をキー入力したとすると、受注側2の音声データ作成装置20で
は、文書解析部21が「もう朝だよ起きてね」のテキストデータを形態素解析し、その形
態素解析結果を得る(ステップS11,S12)。そして、その形態素解析結果を、発注
者1の選択した話者#1用の使用許可表現辞書251に照らし合わせて、形態素解析され
た個々の要素と使用許可表現辞書251の内容の一致を判断する(ステップS13)。こ
の場合、話者#1に対する使用許可表現辞書251には、使用許可語彙・活用として、「
もう」、「朝」、「だ」、「よ」の他に、「起きて」、「ね」などが記述されているもの
とする。
したがって、この「もう朝だよ起きてね」を構成する語彙や活用は、すべて使用許可表
現辞書251に記述されているので、今度は、その音声メッセージの発話内容は当該話者
#1の発話する内容として適切であると判定される。
なお、この場合、受注側2から2つの候補が発注者1に提示され、発注者1がそれを見
て、その候補の中から自分の好みの表現を選択して、その候補を含んだ音声メッセージの
発話内容全体キー入力し直すようにしているが、音声メッセージの発話内容全体をキー入
力し直す必要はなく、どの候補を選ぶかの情報のみを受注側2に送るようにしてもよい。
たとえば、この場合、発注者1が第1の候補を選択するという情報を受注側2に送ること
で、あとは、受注側2で、その第1の候補「もう朝だよ起きてね」が発注者1の所望とす
る音声メッセージの発話内容であると判断し、次の処理である音声合成処理を行って、音
声合成された音声データを機器5の記録手段に記録する。
この音声合成処理以降の処理は、実施形態1と同じであり、実施形態1ですでに説明し
たのでここではその説明は省略する。
なお、未知語変換辞書281,282,・・・,28nの内容は、個々の話者#1,#
2,・・・,#nによって異なるようにすることも可能であり、たとえば、話者が女性で
あるか男性であるかの違いや、同じ男性であっても、若いアイドル歌手と年配のアクショ
ン俳優などによって、許容される表現の範囲が異なってくるので、それに応じた未知語変
換辞書を作成しておく。
以上説明したようにこの実施形態3によれば、発注者1が自分で用意した音声メッセー
ジの発話内容に、当該発注者1の選択した話者用の使用許可表現辞書251に記述されて
いない未知語が含まれている場合は、その未知語に対する変換候補を受注側2で用意して
、それを発注者1に提示するようにしている。これによって、発注者1は、未知語をどの
ように修正すればよいかが一目でわかるので、発話させる話者ごとの音声メッセージの発
話内容の作成が容易なものとなる。
また、前述の実施形態1と同様、適切な音声メッセージの発話内容であると判断された
場合のみに、当該話者の音声特徴データを用いて音声合成処理して、音声合成データを出
力するようにしているので、俳優、歌手、声優、スポーツ選手などの著名人(声の権利者
)の意図しない不適切な内容をその話者に発話させて、その話者の名誉を傷つけるといっ
た問題を未然に防ぐことができ、これによって、このような音声データ提供サービスを行
うサービス提供者(受注側2)もサービス提供者としての良識が疑われることもなくなる
なお、ここでは未知語変換処理を実施形態1に適用した例を説明したが、実施形態2に
も適用できることは勿論である。
〔実施形態4〕
上述の各実施形態では、発注者1の用意した日本語の音声メッセージの発話内容を、そ
の発注者1の選択した話者の音声特徴データを用いてその話者が日本語の音声メッセージ
を発話するような音声合成処理を行った例を説明したが、この実施形態4では、発注者1
の用意した音声メッセージの発話内容に用いた言語と音声合成された音声メッセージの言
語を異ならせることを可能とする。
たとえば、発注者1が上述の各実施形態で用いた「もう朝だよ起きろばか」という日本
語の音声メッセージの発話内容をキー入力し、それを話者#1の音声特徴データを用いて
英語の音声メッセージの作成を要求することも可能である。以下、この実施形態4につい
て図8を参照しながら簡単に説明する。なお、ここでは、実施形態1に適用した例につい
て説明する。
図8はこの実施形態4の音声データ作成装置20の構成を示す図であり、文書解析部2
1の出力側に、言語変換部30が設けられている点が異なるだけで、その他の構成要素は
図2と同様であるので、同一部分には同一符号が付されている。
この言語変換部30は、ある言語を発注者1の指定する言語に変換(翻訳)処理可能な
ものであるが、この実施形態3では、日本語を他の言語に変換可能とする。この場合、日
本語から英語というように、変換(翻訳)できる言語が予めある1つの言語に決められて
いてもよいが、日本語から複数の言語に変換可能とし、その複数の言語の中から発注者1
が変換すべき言語を指定できるようにしてもよい。
なお、このように、複数の言語の中から発注者1が変換すべき言語を指定できるように
する場合、発注者1は、音声メッセージの発話内容をキー入力するとともに話者選択を行
い、さらに、言語選択を行う。たとえば、英語での音声メッセージの作成を依頼する場合
は、言語として英語を選択する。
ここで、発注者1がたとえば音声メッセージの発話内容として実施形態1で用いた「も
う朝だよ起きろばか」をキー入力するとともに話者#1を選択し、さらに、言語として英
語を選択したとする。これによって、その「もう朝だよ起きろばか」のテキストデータと
話者選択情報が文書解析部21に入力されるとともに、言語選択情報が言語変換部30に
入力される。
文書解析部21では、実施形態1で説明したような文書解析処理がなされるとともに、
入力された音声メッセージの発話内容に話者#1が発話する内容として不適切な表現が有
るか否かの判定がなされるが、これらの処理についてはすでに詳細に説明したのでここで
はその説明は省略する。そして、不適切な表現があればその修正を行って、たとえば、前
述したように、「もう朝だよ起きてね」と修正され、不適切な表現がないと判定された場
合は、その音声メッセージの発話内容に対する文書解析結果を用いて言語変換部30が言
語変換(この場合、日本語を英語に変換)を行う。
そして、その言語変換された音声メッセージの発話内容について、韻律制御部23と音
声波形生成部24が話者#1用の韻律データと話者#1用の音声波形データを用いて音声
合成処理を行い、「もう朝だよ起きてね」が英語に翻訳された音声メッセージが出力され
る。
このように、発注者1の用意した日本語の音声メッセージの発話内容をその話者の指定
した言語(この場合は英語)変換し、その英語の音声メッセージの発話内容を当該発注者
1の選択した話者の音声特徴データを用いて音声合成処理して、音声合成データを出力す
るようにしているので、この場合、「もう朝だよ起きてね」という音声メッセージの発話
内容を話者#1によって英語で発話させることができる。
なお、ここでは実施形態1の例について説明したが、実施形態2や実施形態3の場合に
も同様に実施することができる。また、変換後の言語は英語に限られるものではなく、他
の言語であってもよい。
このように実施形態4によれば、発注者の指定した音声メッセージの発話内容を、他の
言語に変換する言語変換手段を有し、その音声メッセージの発話内容を当該言語変換手段
によって当該発注者の指定する言語に翻訳し、その翻訳された音声メッセージの発話内容
と前記選択された話者の音声特徴データとを用いて音声合成処理することを可能としてい
るので、たとえば、日本語の音声メッセージの発話内容を英語の音声メッセージの発話内
容に変換して、それを発注者の好みの話者の音声で発話させることができる。
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ
選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注
側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国
の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージ
として出力させることができ、より価値の高い音声メッセージを得ることができる。
なお、本発明は上述の実施形態に限られるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、上述の各実施形態では、発注者1の
選択したある特定の話者の音声特徴データを用いた音声メッセージを置き時計などの機器
5に組み込む例について説明したが、これは、前述したように、機器5などに組み込むだ
けでなく、CD−ROMなどの記録媒体6に記録させたものを発注者1に納品する形態で
もよく、また、作成された音声メッセージをネットワーク3を介して発注者1がダウンロ
ードできるような形態であってもよい。
また、上述の各実施形態では、音声メッセージの発注を行う発注者1と作成された音声
メッセージを受け取る受取人は同一人として説明したが、発注者1と作成された音声メッ
セージを受け取る受取人またはそれを使用する使用者は別人であってもよい。
また、上述の各実施形態では、音声メッセージの発話内容を発注者1自身がキー入力な
どして受注側2に送信するようにしたが、発注者1は電話などで受注側2に音声メッセー
ジの発話内容を口頭で伝えたり、ファクシミリで音声メッセージの発話内容を送信して、
それを受注側2で受信して、受注側2の担当者が、受注側2に用意されたPCなどからキ
ー入力するような形態であってもよい。
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログ
ラムを作成し、その処理プログラムをフロッピー(登録商標)ディスク、光ディスク、ハ
ードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラ
ムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラ
ムを得るようにしてもよい。
以上説明したように本発明によれば、たとえば、発注者が俳優、歌手、声優、スポーツ
選手などの著名人などを話者として選択した場合、その発注者の指定した音声メッセージ
の発話内容が、前記話者の発話内容として使用を許可された表現で構成されていると判定
された場合のみに、その音声メッセージの発話内容と当該選択された話者の音声特徴デー
タとを用いて音声合成処理し、その音声合成データを生成するようにしているので、生成
された音声合成データ(音声メッセージ)は、話者の発話内容として使用を許可された表
現のみ構成された内容となり、これらの話者が公の場では発話しないような不適切な内容
をその話者に発話させて、その話者の名誉を傷つけるといった問題を未然に防ぐことがで
き、これによって、このような音声データ提供サービスを行うサービス提供者(受注側)
もサービス提供者としての良識が疑われることもなくなる。
また、選択された話者の発話内容として使用を許可された表現が記された使用許可表現
辞書を用いて、その話者の発話内容として使用を許可された表現で構成されているか否か
の判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話
者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。
また、選択された話者の発話内容として使用を許可された表現が記されたネットワーク
文法を用いて、その話者の発話内容として使用を許可された表現で構成されているか否か
の判定を行うようにしているので、発注者の指定した音声メッセージの発話内容がその話
者の発話内容として適正か否かの判定を的確に、かつ、容易に行うことができる。なお、
ネットワーク文法を用いた場合、音声メッセージの発話内容は制限されるが、その分、話
者の発話内容としての適正さをより高めることができ、声の権利者として話者に安心感を
与えることができる。
また、その不適切表現辞書やネットワーク文法は個々の話者対応に用意されることで、
個々の話者の個性などを生かした音声メッセージの発話内容の作成が可能となる。
また、発注者の指定した音声メッセージの発話内容を、他の言語に翻訳する言語変換手
段を有し、その音声メッセージの発話内容を当該言語変換手段によって当該発注者の指定
する言語に翻訳し、その翻訳された音声メッセージの発話内容と前記選択された話者の音
声特徴データとを用いて音声合成処理することを可能としているので、たとえば、日本語
の音声メッセージの発話内容を英語の音声メッセージの発話内容に変換して、それを発注
者の好みの話者の音声で発話させることができる。
これによって、たとえば、発注者の選択可能な話者として外国の映画スターやスポーツ
選手など世界的著名人をも受注側に記述しておき、これらの話者の音声特徴データを受注
側で持っていれば、発注者の作成した日本語の音声メッセージの発話内容をたとえば外国
の映画スターやスポーツ選手など世界的著名人がその国の言語で発話する音声メッセージ
として出力させることができ、より価値の高い音声メッセージを得ることができる。
1…発注者、2…受注側、3…ネットワーク、4…声の権利者、5…機器、6…記録媒
体、20…音声データ作成装置、21…文章解析部、22…文法データ、23…韻律制御
部、24…音声波形生成部、251,252,・・・,25n…使用許可表現辞書、26
1,262,・・・,26n…韻律データ、271,272,・・・,27n…声質デー
タ、281,282,・・・,28n…ネットワーク文法、291,292,・・・,2
9n…未知語変換辞書、30…言語変換部。

Claims (10)

  1. 発注者の指定した音声メッセージの発話内容と特定の話者の音声特徴データとを用いて音声合成処理し、前記音声合成処理によって得られた音声合成データを音声データとして提供する音声データ提供システムに用いられる音声データ作成装置であって、
    前記音声データ作成装置は、
    前記特定の話者の発話内容として前記音声の権利者が使用を許可した表現を記録した使用許可表現記録手段と、
    前記発注者の指定した音声メッセージの発話内容を文章解析するとともに、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として前記音声の権利者が使用を許可した表現で構成されているか否かを判定する文書解析手段と、
    前記文書解析手段によって前記音声メッセージの発話内容が前記音声の権利者が使用を許可した表現で構成されていると判定された場合に、前記音声の権利者に音声メッセージの発話内容の使用許諾を要求し、前記音声の権利者の使用許諾を得た後、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する音声合成手段と、
    を有することを特徴とする音声データ作成装置。
  2. 前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として前記音声の権利者が使用を許可した表現が記述された使用許可表現辞書であって、前記音声の権利者が使用を許可した表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析結果を前記使用許可表現辞書の内容に照らし合わせて行うことを特徴とする請求1記載の音声データ作成装置。
  3. 前記使用許可表現記録手段は、前記選択された特定の話者の発話内容として前記音声の権利者が使用を許可した表現で構成されたネットワーク文法であって、前記音声の権利者が使用を許可した表現で構成されているか否かを判定は、前記音声メッセージの発話内容を文章解析し、前記文章解析結果を前記ネットワーク文法の内容に照らし合わせて行うことを特徴とする請求1記載の音声データ作成装置。
  4. 前記使用許可表現辞書は、個々の話者に対応して用意され、個々の話者の音声の権利者が使用を許可した表現が記述されていることを特徴とする請求項2記載の音声データ作成装置。
  5. 前記ネットワーク文法は、個々の話者対応して用意され、個々の話者の音声の権利者が使用を許可した表現で構成されていることを特徴とする請求項3記載の音声データ作成装置。
  6. 前記文書解析手段によって、前記音声メッセージの発話内容に、前記特定の話者の発話内容として、前記音声の権利者が使用を許可した表現以外の未知語が含まれていると判定された場合は、前記未知語の存在を前記発注者に提示することを特徴とする請求項1から5のいずれか1項に記載の音声データ作成装置。
  7. 前記使用許可表現辞書またはネットワーク文法に加えて、前記特定の話者の発話内容として、前記音声の権利者が使用を許可した表現以外の未知語を前記音声の権利者が使用を許可した表現に変換する変換候補が記述された未知語変換辞書を有し、前記文書解析手段は前記音声メッセージの発話内容に前記未知語が含まれていると判定した場合は、前記未知語変換辞書から前記未知語に対する変換候補を取得して、前記変換候補を前記発注者に提示することを特徴とする請求項1から6のいずれか1項に記載の音声データ作成装置。
  8. 前記未知語変換辞書は、個々の話者対応して用意され、個々の話者の音声の権利者が使用を許可した範囲内の変換候補の記述がなされていることを特徴とする請求項7記載の音声データ作成装置。
  9. 前記発注者の指定した音声メッセージの発話内容を、前記文書解析結果を用いて他の言語に翻訳する言語変換手段を有し、前記音声の権利者が使用を許可した表現で構成されていると判定された場合、前記発注者の要求に基づいて、前記音声メッセージの発話内容を前記言語変換手段によって前記発注者の指定する他の言語に翻訳し、前記言語変換手段によって翻訳された音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理することを特徴とする請求項1から8のいずれか1項に記載の音声データ作成装置。
  10. 発注者の指定した音声メッセージの発話内容とある特定の話者の音声特徴データとを用いて音声合成処理し、それによって得られた音声合成データを音声データとして提供する音声データ作成システムに用いられる音声データ作成方法であって、
    前記発注者の指定した音声メッセージの発話内容を受信するとともに、前記音声メッセージを発話させる特定の話者の選択情報を受信すると、前記発注者の指定した音声メッセージの発話内容が、前記特定の話者の発話内容として、前記音声の権利者が使用を許可した表現で構成されているか否かを判定する手順と、
    前記音声メッセージの発話内容が前記音声の権利者が使用を許可した表現で構成されていると判定された場合に、前記音声メッセージの発話内容と前記選択された特定の話者の音声特徴データとを用いて音声合成処理する手順と、
    を含むことを特徴とする音声データ作成方法
JP2009148359A 2009-06-23 2009-06-23 音声データ作成装置および音声データ作成方法 Expired - Fee Related JP4840476B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009148359A JP4840476B2 (ja) 2009-06-23 2009-06-23 音声データ作成装置および音声データ作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009148359A JP4840476B2 (ja) 2009-06-23 2009-06-23 音声データ作成装置および音声データ作成方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003060266A Division JP4356334B2 (ja) 2003-03-06 2003-03-06 音声データ提供システムならびに音声データ作成装置

Publications (2)

Publication Number Publication Date
JP2009217846A JP2009217846A (ja) 2009-09-24
JP4840476B2 true JP4840476B2 (ja) 2011-12-21

Family

ID=41189548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009148359A Expired - Fee Related JP4840476B2 (ja) 2009-06-23 2009-06-23 音声データ作成装置および音声データ作成方法

Country Status (1)

Country Link
JP (1) JP4840476B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム
WO2015040751A1 (ja) * 2013-09-20 2015-03-26 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03217900A (ja) * 1990-01-24 1991-09-25 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JP3315539B2 (ja) * 1994-10-21 2002-08-19 沖電気工業株式会社 テキスト音声変換システムの未定義コード検出装置
JP3884851B2 (ja) * 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置
JP2000214874A (ja) * 1999-01-26 2000-08-04 Canon Inc 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP2001255884A (ja) * 2000-03-13 2001-09-21 Antena:Kk 音声合成システム、そのシステムを使用してボイスメッセージの受注配送を行うことのできるボイスデリバリシステム、及びボイスデリバリ方法
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器
JP2002221981A (ja) * 2001-01-25 2002-08-09 Canon Inc 音声合成装置および音声合成方法
JP2003140677A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003216186A (ja) * 2002-01-21 2003-07-30 Arcadia:Kk 音声データ配信管理システムおよびその方法
JP2003308541A (ja) * 2002-04-16 2003-10-31 Arcadia:Kk プロモーションシステムおよびその方法ならびに仮想実在互換システムおよびその方法

Also Published As

Publication number Publication date
JP2009217846A (ja) 2009-09-24

Similar Documents

Publication Publication Date Title
US7987244B1 (en) Network repository for voice fonts
CN104380373B (zh) 用于名称发音的系统和方法
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US5911129A (en) Audio font used for capture and rendering
JP4296231B2 (ja) 声質編集装置および声質編集方法
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US20090012793A1 (en) Text-to-speech assist for portable communication devices
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082347A1 (en) Systems and methods for concatenation of words in text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP2002366186A (ja) 音声合成方法及びそれを実施する音声合成装置
JP2015517684A (ja) コンテンツのカスタマイズ
CN1692403A (zh) 具有个人化语音段的语音合成设备
WO2009006081A2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
JP2010020166A (ja) 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
TW200901161A (en) Speech synthesizer generating system and method
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
JP4840476B2 (ja) 音声データ作成装置および音声データ作成方法
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP4356334B2 (ja) 音声データ提供システムならびに音声データ作成装置
JP2011064969A (ja) 音声認識装置及び音声認識方法
WO2001073752A1 (fr) Moyen de stockage, procede de distribution et dispositif de sortie vocale

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees