JP2010020166A - 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法 - Google Patents

音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法 Download PDF

Info

Publication number
JP2010020166A
JP2010020166A JP2008181683A JP2008181683A JP2010020166A JP 2010020166 A JP2010020166 A JP 2010020166A JP 2008181683 A JP2008181683 A JP 2008181683A JP 2008181683 A JP2008181683 A JP 2008181683A JP 2010020166 A JP2010020166 A JP 2010020166A
Authority
JP
Japan
Prior art keywords
synthesis model
speech synthesis
voice
speech
image information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008181683A
Other languages
English (en)
Inventor
Noriko Mizuguchi
紀子 水口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008181683A priority Critical patent/JP2010020166A/ja
Priority to PCT/JP2009/062341 priority patent/WO2010004978A1/ja
Priority to KR1020107029074A priority patent/KR20110021944A/ko
Priority to CN2009801268433A priority patent/CN102089804B/zh
Priority to US13/003,701 priority patent/US20110144997A1/en
Priority to EP09794422A priority patent/EP2306450A4/en
Publication of JP2010020166A publication Critical patent/JP2010020166A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

【課題】ユーザの音声を好適に取得することができる音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法を提供する。
【解決手段】音声合成モデル生成システム1は、移動通信端末2と、音声合成モデル生成装置3とを含んで構成されている。移動通信端末2は、入力された音声から音声の特徴量を抽出する特徴量抽出部201、及び音声からテキストデータを取得するテキストデータ取得部202を備えている。音声合成モデル3は、学習情報取得部200によって取得された特徴量及びテキストデータに基づいて、音声合成モデルを生成する音声合成モデル生成部301と、特徴量及びテキストデータに基づくパラメータに基づいて画像情報を生成する画像情報生成部307と、画像情報を移動通信端末2に送信する情報出力部309を備えている。
【選択図】 図1

Description

本発明は、音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法に関する。
従来から、音声合成モデルを生成する技術が知られている。音声合成モデルは、入力されたテキスト(文字列)に対応する音声データを作成するために使われる情報である。音声合成モデルを用いた音声合成の方法としては、例えば特許文献1に記載されているように、入力された文字列を解析し、音声合成モデルを参照して、テキストに対応する音声データを組み合わせることにより音声データを作成するものがある。
特開2003−295880号公報
ところで、音声合成モデルの生成においては、予め任意の対象者(ユーザ)の音声データを収集する必要がある。このデータの収集には、例えばスタジオを用意して任意の対象者が長時間(数時間〜数十時間)にわたって音声を録音することが必要である。このとき、長時間にわたってユーザが音声を例えばシナリオに基づいてただ入力(録音)するといった行為は、音声を入力しようとするユーザのモチベーションを低下させてしまうおそれがある。
本発明は、以上の問題点を解決するためになされたものであり、ユーザの音声を好適に取得することができる音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る音声合成モデル生成装置は、ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得手段と、学習情報取得手段によって取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、音声合成モデル生成手段によって生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、パラメータ生成手段によって生成されたパラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段と、画像情報生成手段によって生成された画像情報を出力する画像情報出力手段と、を備えることを特徴とする。
この構成により、音声の特徴量及びテキストデータに基づいて音声合成モデルを生成し、その音声合成モデルの学習度合を示すパラメータを生成する。そして、パラメータに応じてユーザに対して画像を表示させるための画像情報を生成し、その画像情報を出力する。これにより、音声を入力するユーザは、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするユーザのモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。
また、特徴量を取得するために、ユーザに音声を入力させるための要求情報を、パラメータ生成手段によって生成されたパラメータに基づいて生成して出力する要求情報生成手段を更に備えることが好適である。この構成により、ユーザから入力される音声が音声合成モデルを生成するための学習に対して適切なものとなる。
また、学習情報取得手段によって取得されたテキストデータから単語を抽出する単語抽出手段を更に備え、パラメータ生成手段は、単語抽出手段によって抽出された単語の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成することが好適である。この構成により、累積単語数に応じてパラメータが生成されるので、ユーザは、パラメータに応じて生成される画像情報を見ることで、単語数が増加していることを認識できる。これにより、音声を入力したことに対する達成感を更に得ることができる。その結果、ユーザの音声をより好適に取得することができる。
また、画像情報はキャラクタ画像を表示させるための情報であることが好適である。この構成により、ユーザに出力されるキャラクタ画像がパラメータに応じて例えば大きくなるといったように変化するので、例えば数値等が画像で表示される場合よりも、ユーザに対して視覚的に好感を与えることができる。これにより、更にユーザの達成感を得ることができ、音声を入力しようとするユーザのモチベーションがより一層向上する。その結果、ユーザの音声をより好適に取得することができる。
また、音声合成モデル生成手段は、ユーザ毎に音声合成モデルを生成することが好適である。この構成により、ユーザ毎に対応する音声合成モデルを生成することができ、音声合成モデルを個々人で利用することが可能となる。
また、音声特徴量は、音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータであることが好適である。この構成により、音声合成モデルを確実に生成することができる。
上記の目的を達成するために、本発明に係る音声合成モデル生成システムは、通信機能を有する通信端末と、通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムであって、通信端末は、ユーザの音声を入力する音声入力手段と、音声入力手段によって入力された音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータを音声合成モデル生成装置に送信する学習情報送信手段と、音声情報送信手段から音声情報及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、画像情報受信手段によって受信された画像情報を表示する表示手段と、を備え、音声合成モデル生成装置は、通信端末から送信される音声情報を受信することにより音声の特徴量を取得すると共に、通信端末から送信されるテキストデータを受信することにより取得する学習情報取得手段と、学習情報取得手段によって取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、音声合成モデル生成手段によって生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、パラメータ生成手段によって生成されたパラメータに応じて、画像情報を生成する画像情報生成手段と、画像情報生成手段によって生成された画像情報を通信端末に送信する画像情報出力手段と、を備えることを特徴とする。
この構成により、音声の取得が通信端末でなされ、その音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータが音声合成モデル生成装置で受信されると、特徴量及びテキストデータに基づいて音声合成モデルが生成される。そして、音声合成モデルの学習度合を示すパラメータが生成され、そのパラメータに応じてユーザに対して画像を表示させるための画像情報が生成されて音声合成モデル生成装置から通信端末へと送信される。これにより、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするユーザのモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。また、通信端末で音声が取得されるので、スタジオ等といった設備を必要とせず、簡易に音声を取得することがきる。
また、通信端末は、音声入力手段によって入力された音声から音声の特徴量を抽出する特徴量抽出手段を更に備えることが好適である。通信端末から送信される音声は、codec(コ−デック)や通信路によって劣化させられる場合があり、その音声から音声合成モデルを生成すると音声合成モデルの品質が低下するおそれがある。しかし、上記の構成により、音声合成モデルを生成するのに必要な特徴量が通信端末によって抽出され、その特徴量が送られることになるので、精度の高い音声合成モデルを生成することができる。
また、音声入力手段によって入力された音声から音声に対応するテキストデータを取得するテキストデータ取得手段を更に備えることが好適である。この構成により、音声に対応するテキストデータをユーザが入力する必要がないので、ユーザの手間を省くことができる。
ところで、本発明は、上記のように音声合成モデル生成システムの発明として記述できる他に、以下のように音声合成モデル生成システムに含まれる通信端末の発明としても記述することができる。音声合成モデル生成システムに含まれるこの通信端末も新規な構成を有しており、これも本発明に相当するものである。そのため、音声合成モデル生成システムと同様の作用及び効果を奏する。
即ち、本発明に係る通信端末は、通信機能を有する通信端末であって、ユーザの音声を入力する音声入力手段と、音声入力手段によって入力された音声から音声の特徴量を抽出する特徴量抽出手段と、音声に対応するテキストデータを取得するテキストデータ取得手段と、特徴量抽出手段によって抽出された音声の特徴量、及びテキストデータ取得手段によって取得されたテキストデータを、通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信手段と、学習情報送信手段から特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、画像情報受信手段によって受信された画像情報を表示する表示手段と、を備えることを特徴とする。
また、本発明は、上記のように音声合成装置、及び音声合成モデル生成システム、通信端末の発明として記述できる他に、以下のように音声合成モデル生成方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る音声合成モデル生成方法は、ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得ステップと、学習情報取得ステップにおいて取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、音声合成モデル生成ステップにおいて生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、パラメータ生成ステップにおいて生成されたパラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成ステップと、画像情報生成ステップにおいて生成された画像情報を出力する画像情報出力ステップと、を含むことを特徴とする。
また、本発明に係る音声合成モデル生成方法は、通信機能を有する通信端末と、通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムによる音声合成モデル生成方法であって、通信端末が、ユーザの音声を入力する音声入力ステップと、音声入力ステップにおいて入力された音声又は音声の特徴量からなる音声情報及び音声に対応するテキストデータを音声合成モデル生成装置に送信する学習情報送信ステップと、音声情報送信ステップにおいて音声情報及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、画像情報受信ステップにおいて受信された画像情報を表示する表示ステップと、を含み、音声合成モデル生成装置が、通信端末から送信される音声情報を受信することにより音声の特徴量を取得すると共に、通信端末から送信されるテキストデータを受信することにより取得する学習情報取得ステップと、学習情報取得ステップにおいて取得された特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、音声合成モデル生成ステップにおいて生成された音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、パラメータ生成ステップにおいて生成されたパラメータに応じて、画像情報を生成する画像情報生成ステップと、画像情報生成ステップにおいて生成された画像情報を通信端末に送信する画像情報出力ステップと、を含むことを特徴とする。
また、本発明に係る音声合成モデル生成方法は、通信機能を有する通信端末による音声合成モデル生成方法であって、ユーザの音声を入力する音声入力ステップと、音声入力ステップにおいて入力された音声から音声の特徴量を抽出する特徴量抽出ステップと、音声に対応するテキストデータを取得するテキストデータ取得ステップと、特徴量抽出ステップおいて抽出された音声の特徴量、及びテキストデータ取得ステップおいて取得されたテキストデータを、通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信ステップと、学習情報送信ステップにおいて特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置からユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、画像情報受信ステップにおいて受信された画像情報を表示する表示ステップと、を含むことを特徴とする。
本発明によれば、ユーザが入力した音声によって生成された音声合成モデルの学習度合を可視化して認識することができるので、長時間にわたってユーザが音声をただ入力するといった行為によるユーザの音声入力に対するモチベーションの低下を防止し、ユーザの音声を好適に取得することができる。
以下、図面と共に本発明に係る音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成生成方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本発明の一実施形態に係る音声合成モデル生成システムの構成を示す。図1に示すように、音声合成モデル生成システム1は、移動通信端末(通信端末)2と、音声合成モデル生成装置3とを含んで構成されている。移動通信端末2と音声合成モデル生成装置3とは、移動体通信により互いに情報を送受信することができる。図1には、移動通信端末2は1つしか示されていないが、音声合成モデル生成システム1には、通常、無数の移動通信端末2が含まれている。また、音声合成モデル生成装置3は、1台の装置により構成されてもよいし、複数の装置により構成されてもよい。
音声合成モデル生成システム1は、音声合成モデルを移動通信端末2のユーザに対して生成することができるシステムである。音声合成モデルは、入力されたテキストに対応するユーザの音声データを作成するために使用される情報である。音声合成モデルを利用して合成された音声データは、例えば移動通信端末2におけるメールの読み上げ時、留守時のメッセージ再生時、及びブログやWEB上で利用することができるものである。
移動通信端末2は、例えば携帯電話機であり、自機が在圏する無線エリアをカバーする基地局と無線通信を行い、ユーザの操作に応じて、通話サービス或いはパケット通信サービスを受ける通信端末である。また、移動通信端末2は、パケット通信サービスを利用したアプリケーションを利用することができ、アプリケーションは、音声合成モデル生成装置3から送信されるデータによって更新される。アプリケーションの管理は、音声合成モデル生成装置3ではなく、別に設けられた装置によって行われてもよい。なお、本実施形態におけるアプリケーションは、画面表示を行い、例えばユーザの音声によりコマンド入力することができる育成系のゲームである。より具体的には、ユーザの音声の入力によってアプリケーションにより表示されるキャラクタが育成される(キャラクタの外観等が変化する)ものである。
音声合成モデル生成装置3は、移動通信端末2から送信されるユーザの音声に関する情報に基づいて、音声合成モデルを生成する装置である。音声合成モデル生成装置3は、移動体通信網にあり、音声合成モデル生成のサービスを提供するサービス事業者によって管理されている。
図2は、移動通信端末2のハードウェア構成を示す図である。図2に示すように、移動通信端末2は、CPU(Central Processing Unit)21、RAM(Random Access Memory)22、ROM(Read OnlyMemory)23、操作部24、マイク25、無線通信部26、ディスプレイ27、スピーカー28及びアンテナ29等のハードウェアにより構成されている。これらの構成要素が動作することにより、以下に説明する移動通信端末2の各機能が発揮される。
図3は、音声合成モデル生成装置3のハードウェア構成を示す図である。図3に示すように、音声合成モデル生成装置3は、CPU31、主記憶装置であるRAM32及びROM33、ネットワークカード等のデータ送受信デバイスである通信モジュール34、ハードディスク等の補助記憶装置35、キーボード等の音声合成モデル生成装置3に対して情報を入力するための入力装置36、並びにモニタ等の情報を出力するための出力装置37等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が動作することにより、音声合成モデル生成装置3の後述する機能が発揮される。
引き続いて、移動通信端末2及び音声合成モデル生成装置3の機能について説明する。
図1を参照して、移動通信端末2について説明する。図1に示すように、移動通信端末2は、音声入力部200と、特徴量抽出部201と、テキストデータ取得部202と、学習情報送信部203と、受信部204と、表示部205と、音声合成モデル保持部206と、音声合成部207とを備えている。
音声入力部200は、マイク25であり、ユーザの音声を入力する音声入力手段である。音声入力部200は、例えば上述したアプリケーションへのコマンド入力としてユーザの音声を入力する。音声入力部200は、入力された音声をフィルターに通してノイズ(雑音)を除去し、ユーザから入力された音声を音声データとして特徴量抽出部201及びテキストデータ取得部202に出力する。
特徴量抽出部201は、音声入力部200から受け取った音声データから、音声の特徴量を抽出する。音声の特徴量は、音声の高さ低さ、スピード、アクセント等の声質を数値化したものであり、具体的には、例えば音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータである。コンテキストデータは、音声データが音素等の音声単位に分割(ラベリング)されたコンテキストラベル(音素列)である。音声単位とは、「音素」、「単語」、「文節」など音声が所定の規則に従って区切られたものである。コンテキストラベルの要因として、具体的には、先行,当該,後続の音素、当該音素のアクセント句内でのモーラ位置、先行,当該,後続の品詞・活用形・活用型、先行,当該,後続のアクセント句の長さ・アクセント型、当該アクセント句の位置・前後のポーズの有無、先行,当該,後続の呼気段落の長さ、当該呼気段落の位置、文の長さ等である。音声波形に関するデータは、対数基本周波数及びメルケプストラムである。対数基本周波数は、音声の高さを表すものであり、音声データから基本周波数パラメータを抽出することによって抽出される。メルケプストラムは、音声の声質を表すものであり、音声データをメルケプストラム分析することで抽出される。特徴量抽出部201は、抽出した特徴量を学習情報送信部203に出力する。
テキストデータ取得部202は、音声入力部200から受け取った音声データから、音声に対応するテキストデータを取得するテキストデータ取得手段である。テキストデータ取得部202は、入力された音声データを解析(音声認識)することにより、ユーザから入力された音声と内容が一致するテキストデータ(文字列)を取得する。テキストデータ取得部202は、取得したテキストデータを学習情報送信部203に出力する。なお、テキストデータは、特徴量抽出部201によって抽出された音声の特徴量から取得されてもよい。
学習情報送信部203は、特徴量抽出部201から受け取った特徴量及びテキストデータ取得部202から受け取ったテキストデータを、音声合成モデル生成装置3に送信する学習情報送信手段である。学習情報送信部203は、XML over HTTP、SIP等によって特徴量及びテキストデータを音声合成モデル生成装置3に送信する。このとき、移動通信端末2と音声合成モデル生成装置3との間では、例えばSIPやIMSを用いたユーザ認証が行われる。
受信部204は、学習情報送信部203により音声合成モデル生成装置3に特徴量及びテキストデータを送信したことに応じて、音声合成モデル生成装置3から画像情報、要求情報及び音声合成モデルを受信する受信手段(画像情報受信手段)である。画像情報は、ユーザに対して画像をディスプレイ27に表示させるための情報である。要求情報は、例えばユーザに音声の入力を促がす情報や入力させる文章や言葉等の情報であり、要求情報に対応する画像(テキスト)がディスプレイ27に表示される。画像情報及び要求情報は、上述したアプリケーションにより用いられて出力される。また、要求情報に対応する音声データがスピーカー28から出力されてもよい。受信部204は、受信した画像情報及び要求情報を表示部205に出力すると共に、音声合成モデルを音声合成モデル保持部206に出力する。
表示部205は、受信部204から受け取った画像情報及び要求情報を表示する表示手段である。表示部205は、アプリケーションが起動された場合に、画像情報及び要求情報を移動通信端末2のディスプレイ27に表示する。図4は、ディスプレイ27に画像情報及び要求情報が表示された一例を示す図である。同図に示すように、画像情報は、キャラクタCの画像としてディスプレイ27の上側に表示され、要求情報は、ユーザに音声の入力を要求するメッセージとして例えば3つの選択項目S1〜S3が表示される。ユーザは、ディスプレイ27に表示された選択項目S1〜S3のいずれかを発声し、その発生された音声が音声入力部200によって入力される。
音声合成モデル保持部206は、受信部204から受け取った音声合成モデルを保持する。音声合成モデル保持部206は、受信部204から音声合成モデルに関する情報を受け取ると、既存の音声合成モデルに対する更新処理を行う。
音声合成部207は、音声合成モデル保持部206に保持されている音声合成モデルを参照し、音声データを合成する。音声データを合成する方法は、従来から知られている方法が用いられる。具体的に、例えば音声合成部207は、移動通信端末2の操作部24(キーボード)によってもテキスト(文字列)が入力され、ユーザから合成の指示があると、音声合成モデル保持部206を参照し、保持されている音声合成モデルから入力されたテキストの音素列(コンテキストラベル)に対応する音響的特徴量(対数基本周波数及びメルケプストラム)を確率的に予測し、入力されたテキストに対応する音声データを合成して生成する。音声合成部207は、合成した音声データを例えばスピーカー28に出力する。なお、音声合成部207で生成された音声データは、アプリケーションにも用いられる。
続いて、音声合成モデル生成装置3について説明する。図1に示すように、音声合成モデル生成装置3は、学習情報取得部300と、音声合成モデル生成部301と、モデルデータベース302と、統計モデルデータベース303と、単語抽出部304と、単語データベース305と、パラメータ生成部306と、画像情報生成部307と、要求情報生成部308と、情報出力部309とを備えている。
学習情報取得部300は、特徴量及びテキストデータを移動通信端末2から受信することにより取得する学習情報取得手段である。学習情報取得部300は、移動通信端末2から受信して取得した特徴量及びテキストデータを音声合成モデル生成部301に出力すると共に、テキストデータを単語抽出部304に出力する。
音声合成モデル生成部301は、学習情報取得部300から受け取った特徴量及びテキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段である。音声合成モデルの生成は、従来から知られている方法によって行われる。具体的に、例えば音声合成モデル生成部301は、隠れマルコフモデル(Hidden Markov Model:HMM)に基づく学習によって、移動通信端末2のユーザ毎の音声合成モデルを生成する。音声合成モデル生成部301は、音素等の音声の単位(コンテキストラベル)の音響的特徴量(対数基本周波数、メルケプストラム)を確率モデルの一種であるHMMを用いてそれぞれモデル化する。音声合成モデル生成部301は、対数基本周波数及びメルケプストラムに関して繰り返し学習を行う。音声合成モデル生成部301は、対数基本周波数及びメルケプストラムについてそれぞれ生成されたモデルに基づいて、音声のリズムやテンポを表す状態継続長(音韻継続長)を状態分布(ガウス分布)から決定し、モデル化する。そして、音声合成モデル生成部301は、対数基本周波数及びメルケプストラムのHMMと状態継続長のモデルとを合成して音声合成モデルを生成する。生成した音声合成モデルをモデルデータベース302及び統計モデルデータベース303に出力する。
モデルデータベース302は、音声合成モデル生成部301から受け取った音声合成モデルをユーザ毎に保持する。モデルデータベース302は、音声合成モデル生成部301から新たな音声合成モデルに関する情報を受け取ると、既存の音声合成モデルに対する更新処理を行う。
統計モデルデータベース303は、音声合成モデル生成部301から受け取った全ての移動通信端末2のユーザの音声合成モデルを、まとめて保持する。統計モデルデータベース303に保持される音声合成モデルに関する情報は、例えば統計モデル生成部によって全ユーザの平均的なモデルやユーザの年代別の平均的なモデルを生成する処理が行われ、個々のユーザの音声合成モデルの不足モデルを補間するために用いられる。
単語抽出部304は、学習情報取得部300から受け取ったテキストデータから単語を抽出する単語抽出手段である。単語抽出部304は、学習情報取得部300からテキストデータを受け取ると、形態素解析等の手法により単語を特定するための単語情報が保持されている辞書データベース(図示せず)を参照し、テキストデータと単語情報との一致度合に基づいて、テキストデータから単語を抽出する。単語とは、文構成の最小単位であり、例えば「携帯」等といった自立語と、「を」等といった付属語とを含むものである。単語抽出部304は、抽出した単語を示す単語データをユーザ毎に単語データベース305に出力する。
単語データベース305は、単語抽出部304から受け取った単語データをユーザ毎に保持する。単語データベース305は、図5に示すようなテーブルを保持している。図5は、単語データが保持されているテーブルの一例を示す図である。図5に示すように、単語データのテーブルでは、所定の規則に従って分割された12個のカテゴリ毎に収容された「単語データ」と、その単語データの「単語数」とを対応付けて保持している。例えば、カテゴリ1には、「携帯」、「音声」等といった単語が保持されており、カテゴリ毎の累積単語数は「50」となっている。なお、単語が収容されるカテゴリは、スペクトラム部の決定木、基本周波数の決定木、及び状態継続長モデルの決定木等の従来の方法によって決定される。
パラメータ生成部306は、単語抽出部304によって抽出された単語が保持されている単語データベース305の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段である。上記の学習度合とは、音声合成モデルがどの程度ユーザの音声を再現することができるかを示す度合(音声合成モデルの精度)である。パラメータ生成部306は、単語データベース305のカテゴリ毎の単語数から累積単語数を算出し、その累積単語数に比例する音声合成モデルの学習度合を示すパラメータをユーザ毎に生成する。パラメータは、例えば0,1,…といった数値で示され、数値が大きくなるにつれて学習度合が高いことを示している。累積単語数に応じてパラメータを算出するのは、カテゴリ毎の単語数の増加が音声合成モデルの精度の向上に直接関係しているからである。パラメータ生成部306は、生成したパラメータを画像情報生成部307及び要求情報生成部308に出力する。なお、パラメータには、各カテゴリ毎の単語数を特定可能な情報が含まれている。また、音声合成モデルの精度に関しては、音声データの入力を増やすほどに向上し、ユーザ音声の再現性も増すが、統計的に向上率が停滞する程度の音声データを最大数として定義することも可能である。
画像情報生成部307は、パラメータ生成部306から出力されたパラメータに応じて、移動通信端末2のユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段である。画像情報生成部307は、アプリケーションに利用されるキャラクタ画像を表示させるための画像情報を生成する。画像情報生成部307は、図6に示すようなテーブルを保持している。図6は、パラメータと画像の変化度を示すレベルとが対応付けられているテーブルの一例を示す図である。図6に示すように、パラメータが「0」のときはレベルが「1」であり、パラメータ「3」のときはレベルが「4」である。画像情報生成部307は、画像の変化度を示すレベルに対応する画像情報を生成し、その画像情報を情報出力部309に出力する。
ここで、図7に、画像の変化度を示すレベルに応じて移動通信端末2のディスプレイ27に表示されるキャラクタ画像が変化する一例を示す。図7(a)は、レベル1に対応するキャラクタ画像C1を示すであり、(b)は、レベル3に対応するキャラクタ画像C2を示す図である。図7(a),(b)に示すように、レベル1ではキャラクタ画像C1の輪郭がはっきりしていないのに対し、レベル3ではキャラクタ画像C2の輪郭がはっきりしている。このように、パラメータに対応付けられたレベルに応じて、キャラクタ画像が成長(変化)するようになる。また、キャラクタ画像C1,C2の吹き出しに表示される言葉も、レベルが高くなるにつれて流暢に発声するように表示される。即ち、ユーザの音声により音声合成モデルの学習が進むと、それにつれてアプリケーションにより表示されるキャラクタも成長していく。
要求情報生成部308は、パラメータ生成部306によって生成されたパラメータに基づいて、特徴量を取得するために、ユーザに音声を入力させるための要求情報を生成する要求情報生成手段である。要求情報生成部308は、パラメータに基づいて、単語データベースに保持されちるカテゴリ毎の単語数を比較し、他のカテゴリよりも単語数の少ないカテゴリを特定して、そのカテゴリに対応する単語を算出する。具体的には、図5に示すように、例えばカテゴリ「6」が他のカテゴリよりも保持されている単語数が少ない場合に、要求情報生成部308は、カテゴリ「6」に対応する単語を複数算出する。そして、要求情報生成部308は、算出した単語を示す要求情報を生成し、情報出力部309に出力する。
情報出力部309は、音声合成モデル生成部301で生成された音声合成モデル、画像情報生成部307から出力された画像情報及び要求情報生成部308から出力された要求情報を移動通信端末2に送信する情報出力手段(画像情報出力手段)である。情報出力部309は、パラメータ生成部306によって新たにパラメータが生成された場合に、音声合成モデル、画像情報及び要求情報を送信する。
引き続いて、図8を参照して、本実施形態に係る音声合成モデル生成システム1で実行される処理(音声合成モデル生成方法)について説明する。図8は、移動通信端末2と音声合成モデル生成装置3との処理を示すシーケンス図である。
図8に示すように、移動通信端末2では、まず音声入力部200によってユーザからアプリケーションによる表示に応じた音声が入力される(S01、音声入力ステップ)。そして、特徴量抽出部201によって、音声入力部200によって入力された音声データに基づいて、音声の特徴量が抽出される(S02)。また、テキストデータ取得部202によって、音声入力部200により入力された音声データに基づいて、音声に対応するテキストデータが取得される(S03)。音声の特徴量及びテキストデータを含む学習情報は、学習情報送信部203によって音声合成モデル生成装置3へと送信される(S04、学習情報送信ステップ)。
音声合成モデル生成装置3では、学習情報取得部300によって、移動通信端末2から学習情報が受信されることにより特徴量及びテキストデータが取得される(S05、学習情報取得ステップ)。次に、音声合成モデル生成部301によって、取得された特徴量及びテキストデータに基づいて、音声合成モデルが生成される(S06、音声合成モデル生成ステップ)。また、単語抽出部304によって、取得されたテキストデータに基づいて、単語が抽出される(S07)。そして、パラメータ生成部306によって、抽出された単語の累積単語数に基づいて、音声合成モデルの学習度合を示すパラメータが生成される(S08、パラメータ生成ステップ)。
続いて、画像情報生成部307によって、生成されたパラメータに基づいて、移動通信端末2のユーザに対して画像を表示させるためのパラメータに応じた画像情報が生成される(S09)。また、要求情報生成部308によって、生成されたパラメータに基づいて、移動通信端末2のユーザに対して、特徴量を取得するために、音声を入力させるための要求情報が生成される(S10)。このように生成された音声合成モデル、画像情報及び要求情報は、情報出力部309によって、音声合成モデル生成部301から移動通信端末2へと送信される(S11、情報出力ステップ)。
移動通信端末2では、受信部204によって音声合成モデル、画像情報及び要求情報が受信されて、音声合成モデルが音声合成モデル保持部206に保持されると共に、画像情報及び要求情報が表示部205によってディスプレイに表示される(S12、表示ステップ)。移動通信端末2のユーザは、ディスプレイ27に表示される要求情報に応じて、音声を入力する。音声が入力されると、ステップS01の処理に戻って以下の処理が繰り返される。以上が、本実施形態に係る音声合成モデル生成システム1により実行される処理である。
上述したように本実施形態によれば、音声の特徴量及びテキストデータに基づいて音声合成モデルを生成し、その音声合成モデルの学習度合を示すパラメータを生成する。そして、パラメータに応じてユーザに対して画像を表示させるための画像情報を生成し、その画像情報を出力する。これにより、音声を入力するユーザは、音声合成モデルの学習度合を可視化された画像として認識することができるので、音声を入力したことに対する達成感を得ることができ、音声を入力しようとするモチベーションが向上する。その結果、ユーザの音声を好適に取得することができる。
また、音声合成モデル生成装置3のパラメータ生成部306によって生成されたパラメータに基づいて、特徴量を取得するために、ユーザに音声を入力させるための要求情報を生成して移動通信端末2へと送信するので、ユーザから入力される音声が音声合成モデルを生成するための学習に対して適切なものとなる。
また、パラメータ生成部306は、単語抽出部304によって抽出された単語の累積単語数に応じて、音声合成モデルの学習度合を示すパラメータを生成する。これにより、累積単語数に応じてパラメータが生成されるので、ユーザは、パラメータに応じて生成される画像情報を見ることで、単語数が増加していることを認識できる。これにより、音声を入力したことに対する達成感を更に得ることができる。その結果、ユーザの音声をより好適に取得することができる。
また、音声合成モデル生成装置3から移動通信端末2へと送信される画像情報は、キャラクタ画像を表示させるための情報であり、ユーザに出力されるキャラクタ画像がパラメータに応じて例えば大きくなるといったように変化するので、例えば数値等が画像で表示される場合よりも、ユーザに対して視覚的に好感を与えることができる。これにより、更にユーザの達成感を得ることができ、音声を入力しようとするモチベーションがより一層向上する。その結果、ユーザの音声をより好適に取得することができる。
また、音声合成モデル生成部301は、ユーザ毎に音声合成モデルを生成するので、ユーザ毎に対応する音声合成モデルを生成することができ、音声合成モデルを個々人で利用することが可能となる。
また、音声特徴量は、音声を音声単位にラベリングしたコンテキストデータ及び音声の特徴を示す音声波形に関するデータ(対数基本周波数及びメルケプストラム)であるので、音声合成モデルを確実に生成することができる。
また、移動通信端末2で音声が取得されるので、スタジオ等といった設備を必要とせず、簡易に音声を取得することがきる。更に、移動通信端末2から送信される音声から音声合成モデルを生成する場合とは違い、音声合成モデルを生成するのに必要な特徴量を移動通信端末2が抽出して送信するので、通信路によって劣化させられる音声を用いて音声合成モデルを生成する場合よりも、精度の高い音声合成モデルを生成することができる。
本発明は上記実施形態に限られるものではない。上記実施形態では、音声合成モデルを生成するのにHMMを用いて学習を行ったが、他のアルゴリズムを用いて音声合成モデルが生成されてもよい。
また、上記実施形態では、移動通信端末2の特徴量抽出部201によって音声の特徴量が抽出されて、特徴量が音声合成モデル生成装置3に送信されているが、音声入力部200に入力された音声が音声情報(例えば、AAC,AMRなど符号化された音声)として音声合成モデル生成装置3に送信されてもよい。この場合、音声合成モデル生成装置3において特徴量が抽出される。
また、上記実施形態では、単語データベース305に保持されている単語の累積単語数に対応するパラメータに対応付けられたレベルに基づいて、画像情報生成部307が画像情報を生成しているが、画像情報生成はこの方法に限定されない。例えば、キャラクタ画像Cの大きさや性格等を構成するためのデータを保持するデータベースを設け、ユーザから例えば「ありがとう」という音声が入力された場合には、所定の規則に従い、大きさを示すデータに1を加算し、性格の優しさを示すデータに1を加算する等して、画像情報を生成してもよい。
また、上記実施形態では、画像情報はキャラクタ画像を表示させるための情報としているが、例えばグラフ、数値、自動車等といった物を表示させるための情報であってもよい。グラフの場合には、累積単語数を表示する情報であり、自動車等といった物である場合には、所定の単語数になったときに形を変化させる情報等とすることができる。
また、上記実施形態では、画像情報をキャラクタ画像を表示させるための表示データとしているが、必ずしも表示データとする必要はなく移動通信端末2において画像を生成するためのデータであればよい。例えば、音声合成モデル生成装置3において、パラメータ生成部306から出力されたパラメータに基づいて画像を生成するための画像情報を作成して送信し、その画像情報を受信した移動通信端末2においてキャラクタ画像を生成してもよい。具体的に、音声合成モデル生成装置3において作成される画像情報は、予め設定されているキャラクタ画像の顔の大きさや肌の色等を示すパラメータである。
また、音声合成モデル生成装置3のパラメータ生成部306から出力されたパラメータを画像情報として送信し、そのパラメータに基づいて移動通信端末2がキャラクタ画像を生成してもよい。その場合、移動通信端末2が上記パラメータに応じて、どのようなキャラクタ画像を生成するかを示す情報(例えば、図6に示す情報)を保持している。
また、音声合成モデル生成装置3の単語データベース305に保持されている単語データの累積単語数を画像情報として送信し、その画像情報に基づいて移動通信端末2がキャラクタ画像を生成してもよい。その場合、移動通信端末2は、累積単語数からパラメータを生成し、そのパラメータに応じて、どのようなどのようなキャラクタ画像を生成するかを示す情報(例えば、図6に示す情報)を保持している。
また、上記実施形態では、単語データベース305に保持された単語のカテゴリ毎の単語数に基づいて、要求情報生成部308が要求情報を生成しているが、要求する単語が予め格納されたデータベースから順番に単語が要求される構成としてもよい。
また、上記実施形態では、テキストデータ取得部202が移動通信端末2に設けられる構成となっているが、音声合成モデル生成装置3に設けられる構成としてもよい。また、テキストデータの取得は、移動通信端末2自身が行わなくとも、移動体通信によって情報の送受信ができるサーバ装置によって行われてもよい。この場合、移動通信端末2は、サーバ装置に特徴量抽出部201によって抽出した特徴量を送信し、その特徴量を送信したことに応じて、特徴量に基づいて取得されたテキストデータがサーバ装置から送信される。
また、上記実施形態では、テキストデータ取得部202によってテキストデータが取得されているが、ユーザが音声入力後にユーザ自身で入力するようにしてもよい。また、要求情報に含まれるテキストデータから取得されてもよい。
また、上記実施形態では、テキストデータ取得部202がテキストデータをユーザに確認することなく取得しているが、取得したテキストデータを一度ユーザに表示し、ユーザから例えば確認キーが押下された場合に、取得される構成としてもよい。
また、上記実施形態では、移動通信端末2と音声合成モデル生成装置3とによって音声合成モデル生成システム1を構成する形態となっているが、音声合成モデル生成装置3だけで構成されてもよい。この場合には、音声合成モデル生成装置3に、音声入力部等が設けられる。
本発明の一実施形態に係る音声合成モデル生成システムの構成を示す図である。 移動通信端末のハードウェア構成を示す図である。 音声合成モデル生成装置のハードウェア構成を示す図である。 ディスプレイに画像情報及び要求情報が表示された一例を示す図である。 単語データが保持されているテーブルの一例を示す図である。 パラメータと画像の変化度を示すレベルとが対応付けられているテーブルの一例を示す図である。 画像の変化度を示すレベルに応じて移動通信端末のディスプレイに表示されるキャラクタ画像が変化する一例を示す。 移動通信端末と音声合成モデル生成装置との処理を示すシーケンス図である。
符号の説明
1…音声合成モデル生成システム、2…移動通信端末(通信端末)、3…音声合成モデル生成装置、200…音声入力部(音声入力手段)、201…特徴量抽出部(特徴量抽出手段)、202…テキストデータ取得部(テキストデータ取得手段)、203…学習情報送信部(学習情報送信手段)、204…受信部(画像情報受信手段)、205…表示部(表示手段)、300…学習情報取得部(学習情報取得手段)、301…音声合成モデル生成部(音声合成モデル生成手段)、304…単語抽出部(単語抽出手段)、306…パラメータ生成部(パラメータ生成手段)、307…画像情報生成部(画像情報生成手段)、308…要求情報生成部(要求情報生成手段)、309…情報出力部(画像情報出力手段)、C,C1,C2…キャラクタ画像。

Claims (13)

  1. ユーザの音声の特徴量及び前記音声に対応するテキストデータを取得する学習情報取得手段と、
    前記学習情報取得手段によって取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、
    前記音声合成モデル生成手段によって生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、
    前記パラメータ生成手段によって生成された前記パラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成手段と、
    前記画像情報生成手段によって生成された前記画像情報を出力する画像情報出力手段と、を備えることを特徴とする音声合成モデル生成装置。
  2. 前記特徴量を取得するために、前記ユーザに前記音声を入力させるための要求情報を、前記パラメータ生成手段によって生成された前記パラメータに基づいて生成して出力する要求情報生成手段を更に備えることを特徴とする請求項1記載の音声合成モデル生成装置。
  3. 前記学習情報取得手段によって取得された前記テキストデータから単語を抽出する単語抽出手段を更に備え、
    前記パラメータ生成手段は、前記単語抽出手段によって抽出された前記単語の累積単語数に応じて、前記音声合成モデルの前記学習度合を示す前記パラメータを生成することを特徴とする請求項1又は2記載の音声合成モデル生成装置。
  4. 前記画像情報はキャラクタ画像を表示させるための情報であることを特徴とする請求項1〜3のいずれか一項記載の音声合成モデル生成装置。
  5. 前記音声合成モデル生成手段は、前記ユーザ毎に前記音声合成モデルを生成することを特徴とする請求項1〜4のいずれか一項記載の音声合成モデル生成装置。
  6. 前記特徴量は、前記音声を音声単位にラベリングしたコンテキストデータ及び前記音声の特徴を示す音声波形に関するデータであることを特徴とする請求項1〜5のいずれか一項記載の音声合成モデル生成装置。
  7. 通信機能を有する通信端末と、当該通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムであって、
    前記通信端末は、
    ユーザの音声を入力する音声入力手段と、
    前記音声入力手段によって入力された前記音声又は当該音声の特徴量からなる音声情報及び前記音声に対応するテキストデータを前記音声合成モデル生成装置に送信する学習情報送信手段と、
    前記音声情報送信手段から前記音声情報及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、
    前記画像情報受信手段によって受信された前記画像情報を表示する表示手段と、を備え、
    前記音声合成モデル生成装置は、
    前記通信端末から送信される前記音声情報を受信することにより前記音声の特徴量を取得すると共に、前記通信端末から送信される前記テキストデータを受信することにより取得する学習情報取得手段と、
    前記学習情報取得手段によって取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成手段と、
    前記音声合成モデル生成手段によって生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成手段と、
    前記パラメータ生成手段によって生成された前記パラメータに応じて、前記画像情報を生成する画像情報生成手段と、
    前記画像情報生成手段によって生成された前記画像情報を前記通信端末に送信する画像情報出力手段と、を備えることを特徴とする音声合成モデル生成システム。
  8. 前記通信端末は、
    前記音声入力手段によって入力された前記音声から当該音声の特徴量を抽出する特徴量抽出手段を更に備えることを特徴とする請求項7記載の音声合成モデル生成システム。
  9. 前記音声入力手段によって入力された前記音声から当該音声に対応するテキストデータを取得するテキストデータ取得手段を更に備えることを特徴とする請求項7又は8記載の音声合成モデル生成システム。
  10. 通信機能を有する通信端末であって、
    ユーザの音声を入力する音声入力手段と、
    前記音声入力手段によって入力された前記音声から当該音声の特徴量を抽出する特徴量抽出手段と、
    前記音声に対応するテキストデータを取得するテキストデータ取得手段と、
    前記特徴量抽出手段によって抽出された前記音声の特徴量、及びテキストデータ取得手段によって取得された前記テキストデータを、前記通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信手段と、
    前記学習情報送信手段から前記特徴量及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信手段と、
    前記画像情報受信手段によって受信された前記画像情報を表示する表示手段と、を備えることを特徴とする通信端末。
  11. ユーザの音声の特徴量及び音声に対応するテキストデータを取得する学習情報取得ステップと、
    前記学習情報取得ステップにおいて取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、
    前記音声合成モデル生成ステップにおいて生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、
    前記パラメータ生成ステップにおいて生成された前記パラメータに応じて、ユーザに対して画像を表示させるための画像情報を生成する画像情報生成ステップと、
    前記画像情報生成ステップにおいて生成された前記画像情報を出力する画像情報出力ステップと、を含むことを特徴とする音声合成モデル生成方法。
  12. 通信機能を有する通信端末と、当該通信端末と通信を行うことができる音声合成モデル生成装置とを含んで構成される音声合成モデル生成システムによる音声合成モデル生成方法であって、
    前記通信端末が、
    ユーザの音声を入力する音声入力ステップと、
    前記音声入力ステップにおいて入力された前記音声又は当該音声の特徴量からなる音声情報及び前記音声に対応するテキストデータを前記音声合成モデル生成装置に送信する学習情報送信ステップと、
    前記音声情報送信ステップにおいて前記音声情報及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、
    前記画像情報受信ステップにおいて受信された前記画像情報を表示する表示ステップと、を含み、
    前記音声合成モデル生成装置が、
    前記通信端末から送信される前記音声情報を受信することにより前記音声の特徴量を取得する共に、前記通信端末から送信される前記テキストデータを受信することにより取得する学習情報取得ステップと、
    前記学習情報取得ステップにおいて取得された前記特徴量及び前記テキストデータに基づいて学習を行って音声合成モデルを生成する音声合成モデル生成ステップと、
    前記音声合成モデル生成ステップにおいて生成された前記音声合成モデルの学習度合を示すパラメータを生成するパラメータ生成ステップと、
    前記パラメータ生成ステップにおいて生成された前記パラメータに応じて、前記画像情報を生成する画像情報生成ステップと、
    前記画像情報生成ステップにおいて生成された前記画像情報を前記通信端末に送信する画像情報出力ステップと、を含むことを特徴とする音声合成モデル生成方法。
  13. 通信機能を有する通信端末による音声合成モデル生成方法であって、
    ユーザの音声を入力する音声入力ステップと、
    前記音声入力ステップにおいて入力された前記音声から当該音声の特徴量を抽出する特徴量抽出ステップと、
    前記音声に対応するテキストデータを取得するテキストデータ取得ステップと、
    前記特徴量抽出ステップにおいて抽出された前記音声の特徴量、及び前記テキストデータ取得ステップおいて取得された前記テキストデータを、前記通信端末と通信を行うことができる音声合成モデル生成装置に送信する学習情報送信ステップと、
    前記学習情報送信ステップにおいて前記特徴量及び前記テキストデータを送信したことに応じて、前記音声合成モデル生成装置から前記ユーザに対して画像を表示させるための画像情報を受信する画像情報受信ステップと、
    前記画像情報受信ステップにおいて受信された前記画像情報を表示する表示ステップと、を含むことを特徴とする音声合成モデル生成方法。
JP2008181683A 2008-07-11 2008-07-11 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法 Withdrawn JP2010020166A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2008181683A JP2010020166A (ja) 2008-07-11 2008-07-11 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
PCT/JP2009/062341 WO2010004978A1 (ja) 2008-07-11 2009-07-07 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
KR1020107029074A KR20110021944A (ko) 2008-07-11 2009-07-07 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법
CN2009801268433A CN102089804B (zh) 2008-07-11 2009-07-07 声音合成模型生成装置、声音合成模型生成系统、通信终端以及声音合成模型生成方法
US13/003,701 US20110144997A1 (en) 2008-07-11 2009-07-07 Voice synthesis model generation device, voice synthesis model generation system, communication terminal device and method for generating voice synthesis model
EP09794422A EP2306450A4 (en) 2008-07-11 2009-07-07 VOICE SYNTHESIZING MODEL GENERATION DEVICE, VOICE SYNTHESIZING MODEL GENERATING SYSTEM, COMMUNICATION TERMINAL DEVICE, AND METHOD FOR GENERATING VOICE SYNTHESIZING MODEL

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008181683A JP2010020166A (ja) 2008-07-11 2008-07-11 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法

Publications (1)

Publication Number Publication Date
JP2010020166A true JP2010020166A (ja) 2010-01-28

Family

ID=41507091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008181683A Withdrawn JP2010020166A (ja) 2008-07-11 2008-07-11 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法

Country Status (6)

Country Link
US (1) US20110144997A1 (ja)
EP (1) EP2306450A4 (ja)
JP (1) JP2010020166A (ja)
KR (1) KR20110021944A (ja)
CN (1) CN102089804B (ja)
WO (1) WO2010004978A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JPWO2019073559A1 (ja) * 2017-10-11 2020-10-22 サン電子株式会社 情報処理装置
JP2020205057A (ja) * 2020-07-31 2020-12-24 株式会社Suntac 情報処理装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2608195B1 (en) * 2011-12-22 2016-10-05 BlackBerry Limited Secure text-to-speech synthesis for portable electronic devices
US9166977B2 (en) 2011-12-22 2015-10-20 Blackberry Limited Secure text-to-speech synthesis in portable electronic devices
JP6070952B2 (ja) * 2013-12-26 2017-02-01 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
KR101703214B1 (ko) * 2014-08-06 2017-02-06 주식회사 엘지화학 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
US9336782B1 (en) * 2015-06-29 2016-05-10 Vocalid, Inc. Distributed collection and processing of voice bank data
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
KR102441066B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 음성생성 시스템 및 방법
US10755694B2 (en) 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
CN108668024B (zh) * 2018-05-07 2021-01-08 维沃移动通信有限公司 一种语音处理方法及终端
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
CN111009233A (zh) * 2019-11-20 2020-04-14 泰康保险集团股份有限公司 语音处理方法、装置、电子设备及存储介质
KR20200111609A (ko) 2019-12-16 2020-09-29 휴멜로 주식회사 음성 합성 장치 및 그 방법
KR20200111608A (ko) 2019-12-16 2020-09-29 휴멜로 주식회사 음성 합성 장치 및 그 방법
US11368799B2 (en) * 2020-02-04 2022-06-21 Securboration, Inc. Hearing device customization systems and methods

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
JP2002196786A (ja) * 2000-12-26 2002-07-12 Mitsubishi Electric Corp 音声認識装置
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
JP2003177790A (ja) * 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2003295880A (ja) 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
JP3973492B2 (ja) * 2002-06-04 2007-09-12 日本電信電話株式会社 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JPWO2019073559A1 (ja) * 2017-10-11 2020-10-22 サン電子株式会社 情報処理装置
JP2020205057A (ja) * 2020-07-31 2020-12-24 株式会社Suntac 情報処理装置

Also Published As

Publication number Publication date
KR20110021944A (ko) 2011-03-04
EP2306450A1 (en) 2011-04-06
US20110144997A1 (en) 2011-06-16
CN102089804B (zh) 2012-07-18
WO2010004978A1 (ja) 2010-01-14
EP2306450A4 (en) 2012-09-05
CN102089804A (zh) 2011-06-08

Similar Documents

Publication Publication Date Title
WO2010004978A1 (ja) 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
CN106373580B (zh) 基于人工智能的合成歌声的方法和装置
CN106898340B (zh) 一种歌曲的合成方法及终端
CN104380373B (zh) 用于名称发音的系统和方法
US7596499B2 (en) Multilingual text-to-speech system with limited resources
JP4884212B2 (ja) 音声合成装置
US20160240215A1 (en) System and Method for Text-to-Speech Performance Evaluation
CN101156196A (zh) 混合语音合成器、方法和使用
JPWO2007010680A1 (ja) 声質変化箇所特定装置
JP2002366186A (ja) 音声合成方法及びそれを実施する音声合成装置
CN104471512A (zh) 内容定制化
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
JP6111802B2 (ja) 音声対話装置及び対話制御方法
TW200901161A (en) Speech synthesizer generating system and method
JP2004226556A (ja) 話し方診断方法、話し方診断装置、話し方学習支援方法、音声合成方法、カラオケ練習支援方法、ボイストレーニング支援方法、辞書、語学教材、方言矯正方法、方言学習方法
JP2011028130A (ja) 音声合成装置
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
US20140074478A1 (en) System and method for digitally replicating speech
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
US20140067398A1 (en) Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores
CN113192484A (zh) 基于文本生成音频的方法、设备和存储介质
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP2006330060A (ja) 音声合成装置、音声処理装置、およびプログラム
KR20010035173A (ko) 음성 합성 훈련 툴킷을 이용한 개인용 음성 합성기 및 그방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110329

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20121126