JP2014021136A - 音声合成システム - Google Patents

音声合成システム Download PDF

Info

Publication number
JP2014021136A
JP2014021136A JP2012156123A JP2012156123A JP2014021136A JP 2014021136 A JP2014021136 A JP 2014021136A JP 2012156123 A JP2012156123 A JP 2012156123A JP 2012156123 A JP2012156123 A JP 2012156123A JP 2014021136 A JP2014021136 A JP 2014021136A
Authority
JP
Japan
Prior art keywords
speech
unit
speech synthesis
voice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012156123A
Other languages
English (en)
Inventor
Ikuo Kitagishi
郁雄 北岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012156123A priority Critical patent/JP2014021136A/ja
Priority to US13/939,735 priority patent/US20140019137A1/en
Publication of JP2014021136A publication Critical patent/JP2014021136A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Abstract

【課題】従来の音声合成システムでは、ユーザは予めサーバに蓄積された限られた音声辞書からしか合成可能な音声を選択することができず、自らの音声をサーバに蓄積したり、自己の要求を満たすような特徴の音声合成データを得ることは困難であった。
【解決手段】公開されたインターフェイス部と、インターフェイス部を介して外部端末から音声の入力を受付ける音声入力受付部と、インターフェイス部を介して外部端末から音声所有者に関する情報を受付ける登録用情報受付部と、前記音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、インターフェイス部を介して外部端末から音声辞書セットを選択できる音声辞書セット選択部とを有するサーバ装置を含む音声合成システムなどを提案する。
【選択図】図1

Description

本発明は音声合成システムに関する。
従来から、ユーザが予めサーバに蓄積された音声モデルを指定することで、当該音声モデルを利用して任意のテキストを読み上げる音声データを生成する音声合成システムが一般的に知られている。これらの音声合成システムは、顧客(ユーザ)が端末を用いて特定の話者を選択し、システム運営者側で特定の文章を前記選択された話者の声の特徴に基づき音声合成を行うことを特徴としている。
例えば、特許文献1では、顧客とサービス提供者との間でネットワークを介してなされる音声合成システムとして、前記顧客に対し選択可能に提示された話者の中から特定の話者を選択可能とし、サーバにおいて任意の文章を前記特定の話者の音声特徴データ(音声モデル)を用いて音声合成処理を行う音声合成システムに関する技術が開示されている。
特開2002−23777号公報
しかしながら、従来の音声合成システムでは、既に特定の話者の音声モデル(音声辞書)が生成された状態でサーバに保持されている。そのためユーザは、合成音声の提供を受けうたいと考えても、予めサーバに蓄積された限られた数の音声辞書のなかからしか選択することができず、自己の音声を自由に音声辞書化しサーバに蓄積したり、自己の要求を満たすような特徴・性質の音声辞書を選択して作成された音声合成データを受け取ったりすることは困難であった。
以上のような課題を解決するために、本件発明は、読上用テキストと音声辞書セットとを用いて音声合成をする音声合成システムであって、公開されたインターフェイス部と、前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける音声入力受付部と、前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける登録用情報受付部と、前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択できる音声辞書セット選択部と、を有するサーバ装置を含む音声合成システムなどを提案する。
主に以上のような構成をとる本件発明によって、話者は自由に自己の音声の特徴である韻律モデルや音声モデルを記録した音声辞書セットをサーバ内に蓄積させ、当該音声辞書セットを公開することが可能になり、さらに、このように手軽に音声辞書セットを公開することが可能となるため、多くの話者による音声辞書セットの提供が進むことととなり、ユーザが求める条件に沿った音声辞書セットを提供することが可能になる。
実施形態1の音声合成システムの概要を示す図 実施形態1の音声合成システムにおけるサーバ装置の機能ブロックの一例を示す図 実施形態1のサーバ装置の音声辞書セット保持部での音声辞書セットの保持方法の一例を表す図 実施形態1のサーバ装置のハードウェア構成の一例を表す概略図 実施形態1のサーバ装置の処理の流れの一例を示す図 実施形態2のサーバ装置の機能ブロックの一例を示す図 実施形態2のサーバ装置の処理の流れの一例を示す図 実施形態3のサーバ装置の機能ブロックの一例を示す図 実施形態3のサーバ装置の処理の流れの一例を示す図 実施形態4のサーバ装置の機能ブロックの一例を示す図 実施形態4のサーバ装置の処理の流れの一例を示す図 実施形態5のサーバ装置の機能ブロックの一例を示す図 実施形態5のサーバ装置の処理の流れの一例を示す図 実施形態6のサーバ装置の機能ブロックの一例を示す図 実施形態6のサーバ装置の処理の流れの一例を示す図 実施形態7の音声合成システムにおける外部端末装置の機能ブロックの一例を示す図 実施形態7の音声合成システムにおける外部端末装置のハードウェア構成の一例を表す概略図 実施形態7の外部端末装置の処理の流れの一例を示す図 実施形態8の外部端末装置の機能ブロックの一例を示す図 実施形態8の外部端末装置の処理の流れの一例を示す図 実施形態9の外部端末装置の機能ブロックの一例を示す図 実施形態9の外部端末装置の処理の流れの一例を示す図 実施形態10の外部端末装置の機能ブロックの一例を示す図 実施形態10の外部端末装置の処理の流れの一例を示す図
以下に、本発明の各実施形態について適宜図を用いて説明をする。なお、本発明はこれらの実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、様々な実施することが可能である。
<<実施形態1>>
<概要>
図1は、本実施形態の音声合成システムにおけるシステムの概要を示す図である。この図にあるように、話者は、公開されたインターフェイスを介してシステム運用者に対し音声データを提供する。システム運用者が管理するサーバ装置は、提供された音声データに基づき音声辞書セットを作成し、複数の音声辞書セットを保持するデータベースを構成する。そしてユーザは、前記各音声辞書セットの中から自己の求める条件と整合するようなものを選択する。図1の場合、ユーザは、複数の音声辞書セットの中から「音声辞書セットB」を選択し、「吾輩は猫である」という内容の読上用テキストを外部端末において入力する。すると、当該音声辞書セットが保持する「B」という特性の音声情報に従って、「吾輩は猫である」との合成音声の提供を受ける。
なお、以下で説明する本サーバ装置及び後記音声合成端末の機能ブロックは、いずれもハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの両方として実現され得る。具体的には、コンピュータを利用するものとしては、CPUやメインメモリ、バス、あるいは二次記憶装置(ハードディスクや不揮発性メモリ、CDやDVDなどの記憶メディアとそれらのメディアの読取ドライブなど)、情報入力に利用される入力デバイス、印刷機器や表示装置、マイクロフォンやスピーカー、その他の外部周辺装置などのハードウェア構成部、またその外部周辺装置用のインターフェイス、通信用インターフェイス、それらハードウェアを制御するためのドライバプログラムやアプリケーションプログラム、ユーザ・インターフェイス用アプリケーションプログラムなどが挙げられる。
そして、メインメモリ上に展開したプログラムに従ったCPUの演算処理によって、入力デバイスやその他インターフェイスなどから入力され、メモリやハードディスク上に保持されているデータなどが加工、蓄積されたり、上記各ハードウェアやソフトウェアを制御するための命令が生成されたりする。ここで、上記プログラムは、モジュール化された複数のプログラムとして実現されてもよいし、2以上のプログラムを組み合わせて一のプログラムとして実現されても良い。
また、このような本件発明は装置として実現できるのみならず、方法としても実現可能である。さらに、このような装置の一部をソフトウェアとして構成することも可能である。そして、そのようなソフトウェアをコンピュータに実行されるために用いるソフトウェア製品、及び同製品を記録媒体に固定した記憶媒体も、当然に本件発明の技術的な範囲に含まれる(本実施形態に限らず、本明細書の全体を通じて同様である。)。
<機能的構成>
図2は、本実施形態の音声合成システムにおけるサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」0200は、「インターフェイス部」0201と、「音声入力受付部」0202と、「登録用情報受付部」0203と、「音声辞書セット保持部」0204と、「音声辞書セット選択部」0205とからなる。
「インターフェイス部」は公開されており、外部端末装置とサーバ装置との間における種々の情報の送受信を媒介する機能を有する。「公開されて」いることにより、コンピュータの利用者は原則として誰でも、外部端末装置を用いて自由にサーバ装置との間で情報の送受信を行うことが可能である。ここで送受信が可能な情報としては、例えば文字情報や画像情報などが考えられ、音声情報も当然ここでいう送受信が可能な情報に含まれる。このように、サーバ装置が音声情報を送受信するインターフェイスを公開する構成をとることにより、自らの音声を音声辞書として公開し多くのユーザに利用してほしいという話者としては、ネットワークを通じて手軽にかつ自由に音声情報を提供することが可能になり、サーバ管理者にとっても、ネットワークを通じて幅広い話者から音声情報の提供を受けることが可能になる。すなわち、上記音声情報の送受信はあくまで公開されたインターフェイスを介して行われる構成であればよく、当該構成を実現可能であれば、必ずしも当該インターフェイスが一の系統である必要はない。端的にいえば、音声情報を受信するためのインターフェイスと、送信するためのインターフェイスはそれぞれ異なっていても良く、具体的な例を挙げると、音声情報の受信には電話回線を用い、音声情報の発信にはインターネット回線を用いるということがあってももちろん構わない。
このように、インターフェイス部は、基本的に不特定多数からのアクセスを受けて、音声の登録と、登録された音声の利用を可能とする市場創設機能を実現する。つまり、インターフェイス部によって音声があたかも商品であるかのように取り引きされ、今まで広く取引の対象足り得なかった音声という情報を誰でも自由に商品として販売し、商品として購入することを可能とした。
「音声入力受付部」は、前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける機能を有する。ここで「外部端末から音声辞書セット作成用の音声の入力を受付ける」とは、具体的には、利用者から外部端末に付属するマイクロフォンや電話機などを通じて発出された音声をAD変換してデジタル信号として受付けることを指す。
「音声辞書セット作成用の音声」とは、音声辞書を作成するための素材となるフレーズの音声のことを意味する。音声辞書セットを作成するためには、音声を聞き取り、話者の音声データのほか話者独特の音素や韻律のモデルをも抽出生成する必要があることが技術常識として知られている。韻律モデルは、話者による様々な単語や文章を読み上げを通じて得られる情報である。したがって、「音声辞書を作成するための素材となるフレーズ」とは、音声データのほか韻律モデルを取得するために必要な単語や文章であることが考えられる。音声辞書セットとしては、普段からよく使うことの多い単語や文章に関する韻律モデルや音声データを備えていることが望ましいので、前記フレーズも日常的によく使うことの多い単語や文章であることが望ましい。例えば、先進国の国名や主要都市名、都道府県名、有名人や芸能人の名前、一般名詞、あいさつ文などが考えられる。なお、これらの単語や文章はいずれも一例であり、具体的にどのようなフレーズを用いるかは適宜設定可能である。例えば、特定の学術分野の専門的な単語や文章にのみ対応した音声辞書セットを作成しようと思えば、たとえ一般名詞等ではなくても、当該学術分野の専門用語等を素材となるフレーズにしてももちろん構わない。
「音声の入力」とは、話者が前記素材となるフレーズの音声を読み上げることを意味する。一定程度以上の確度を有する音声辞書の作成には少なくとも数十分の音声の読上げが必要であるのが技術常識であるから、話者は少なくとも数十分間は素材となるフレーズを読み上げる必要がある。なお、話者によるフレーズの読上げは、一度で最初から最後まで読上げを完了しなければならないものではない。読上げは途中で中断してもよく、必要な時間分のテキストを複数回に分けて読み上げてももちろんよい。このように読上げ時間を複数回に分けた場合、後記音声辞書セット保持部は、各中断時点において読み上げられた音声に基づいて作成した未完成の音声辞書セットを保持することとなる。
「登録情報受付部」は、前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける機能を有する。「音声所有者に関する登録用情報」とは、具体的には、当該音声所有者を特定し、あるいは当該音声の特徴を認識する際の判断要素となる固有の情報であって、例えば、性別や年齢、声が似ている有名人、顔写真、ネットワーク上で用いる音声辞書ID、氏名、住所、職業、電話番号、クレジットカード番号、銀行口座番号などが考えられる。当該各情報を受付けることにより、後記音声辞書セットと登録情報とを関連付け、利用者が自己の希望する条件を満たす音声辞書を選びやすくすることが可能になる。具体的には、例えば「20歳代男性」や「30歳代のキャリアウーマン風の女性」「現役総理大臣に似ている」「高視聴率のアニメーションのキャラクターの音声に似ている」などの各条件を満たすような音声辞書を探すことが可能になるよう各情報の登録を受付けることを意味する。
さらに、音声辞書セットの提供を有償とし、ユーザが音声辞書セットを選択する回数などにより、当該音声辞書セットに含まれる音声の所有者である話者に対し金銭的利益を配分する構成をとることも考えられる。音声辞書セットの価格は話者が登録用情報として決定してもよいし、サーバ管理者が決定しても良い。そして、このような金銭的利益の配分を効率的に行うため、登録用情報として氏名や銀行口座番号などの情報を登録しておく構成としてもよい。
なお、登録用情報としては様々な種類の情報が考えられるが、なかには個人情報である等の理由から公開することが好ましくないものも含まれる。したがって、登録用情報を入力する際は、各情報のいずれを公開しいずれを非公開とするかを話者が選択可能とする構成をとることが望ましい。
「音声辞書セット保持部」は、前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する機能を有する。「音声から作成する音声辞書セット」とは、話者により読上げられた音声の情報から音声データ及び音素・韻律モデルを抽出生成し、任意のテキストに対応する音声情報を提供可能とするような音声辞書セットのことを指す。具体的には、話者の単語や文章ごとの話し方のスピードの高低やアクセントの位置、声の大小および高低などの特徴の情報を話者単位で集約し保持する機能を有する。
「音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する」とは、前記音声の入力者である話者が入力した単数あるいは複数の登録用情報と、音声辞書セットとをそれぞれ紐づけて保持することを意味する。ここで、図3は、本実施形態のサーバ装置の音声辞書セット保持部での音声辞書セットの保持方法の一例を表す図である。この図にあるように、音声辞書セットごとに複数の登録用情報を関連付けてテーブル上に保持する構成をとることにより、ユーザは、自らが求める合成音声を特徴づける条件に対応した登録用情報を検索することが可能になるため、当該条件に近似する音声辞書セットを選択することが可能になる。
「音声辞書セット選択部」は、前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択可能とする機能を有する。ここで「インターフェイス部を介して外部端末から」「音声辞書セットを選択可能とする」とは、外部端末を用いるユーザが、自己の希望する条件に適した音声辞書セットを選択し得る提示手段が用いられていることを意味する。「自己の希望する条件に適した音声辞書セットを選択し得る提示手段」とは、例えば、ユーザからある条件の入力を受付け、当該条件と整合する内容の登録用情報と関連付けられている音声辞書セットの情報をインターフェイス部を介して表示出力する方法が考えられる。また、ユーザが過去に選択した音声辞書セットの登録用情報をユーザIDとともに記憶しておき、同登録用情報と類似する情報をもつ音声辞書セットをユーザが優先的に視認可能となるように表示出力する方法も考えられる。さらには、視聴用音声データの出力が可能とする状態にて各音声辞書セットの情報をインターフェイス部を介して公開し、ユーザの選択により視聴用音声データを視聴することで自らの希望する条件を満たす音声データかどうかを確認する方法も考えられる。視聴用音声データは、例えば、予めサーバ装置内に記録した定型の音声データを再生する方法を用いてもよいし、ユーザから後記読上用テキストの入力を受け、当該読上用テキストを合成音声として再生してもよい。さらには、ユーザではなく話者自身が視聴用に読上用テキストを登録しておき、当該読上用テキストを合成音声として再生する構成としてもよい。
なお、音声辞書セット選択部にてユーザの選択を受けた場合、当該選択を受けた音声辞書セットは、ユーザ側の外部端末にダウンロードしても良いし、従前通りサーバ装置に保持しておき、その後のユーザの出力命令に従って適宜音声合成に用いる方法をとっても良い。
<サーバ装置の具体的な構成>
図4は、前記サーバ装置の機能的な各構成をコンピュータで実現した場合のハードウェア構成の一例を表す概略図である。同図を利用して、それぞれのハードウェア構成部の働きについて説明する。
この図にあるように、サーバ装置は、各部における演算処理を実行するための「CPU」0401と、「記憶装置(記憶媒体)」0402と、「メインメモリ」0403と、「入出力インターフェイス」0404とを備え、入出力インターフェイスを介してネットワークを通じ、音声合成端末などの「外部端末」0405との間で情報の入出力を行う。前記の構成は「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
(インターフェイス部の具体的な処理)
CPUは、「インターフェイスプログラム」を実行し、サーバ装置の音声入力受付部や音声辞書セット選択部などをネットワーク上で外部端末に対し公開するためのインターフェイスを構成する処理を行う。
(音声入力受付部の具体的な処理)
CPUは、「音声入力受付プログラム」を実行し、インターフェイスを介して話者の音声情報を外部端末から取得する処理を行い、当該情報をメインメモリの所定のアドレスに格納する。ここで、音声情報は、外部端末装置にてAD変換されたデジタル信号として取得する。音声情報の入力時間が予め指定された時間に満たない場合には、当該時点までの音声情報を記憶装置の所定のアドレスに格納し、音声情報の入力が再開される際に記憶装置の前記所定のアドレスから未完成の音声情報を読み出し、さらに音声情報の入力を受ける。
(登録用情報受付部の具体的な処理)
CPUは、「登録用情報受付プログラム」を実行し、インターフェイスを介して外部端末から出力された登録用情報を受付ける処理を行い、当該情報をメインメモリの所定のアドレスに格納する。
(音声辞書セット保持部の具体的な処理)
CPUは「音声辞書セット保持プログラム」を実行し、所定のアドレスに格納した前記音声情報及び登録用情報を読み出したうえで、当該情報から韻律モデルと音声データとを抽出する処理を行い、当該処理により得られた情報と登録用情報とを音声辞書セットとしてメインメモリの所定のアドレスに格納する。
(音声辞書セット選択部の具体的な処理)
CPUは「音声辞書セット選択プログラム」を実行し、外部端末からインターフェイスを介してなされる指示に基づき保持する複数の音声辞書セットのうち当該指示内容に適合する音声辞書セットを選択する処理を行い、処理結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図5は、本実施形態のサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS0501では、音声の入力を受付ける。次にステップS0502では、登録用情報の入力を受付ける。次にステップS0503では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS0504では、外部端末からの指示に基づき、音声辞書セットを選択する。なお、ステップS0501とステップS0502の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムにより、ユーザは、自己の音声モデルに基づいた音声辞書セットを自由にサーバ内に蓄積させ、当該音声辞書セットを公開することが可能になり、さらに、このように手軽に音声辞書セットを公開することが可能となることにより多くの音声辞書セットの公開が促される結果、ユーザが求める条件に沿った音声辞書セットを提供することが可能となる。
<<実施形態2>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態1の音声合成システムと同様であるが、前記サーバ装置は、前記インターフェイス部を介して読上用テキストの入力を受付ける機能をさらに有することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザの求める任意のテキストを読み上げることを内容とする音声を合成することが可能となる。
<機能的構成>
図6は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」0600は、「インターフェイス部」0601と、「音声入力受付部」0602と、「登録用情報受付部」0603と、「音声辞書セット保持部」0604と、「音声辞書セット選択部」0605と、「読上用テキスト入力受付部」0606とからなる。基本的な構成は実施形態1の図2を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「読上用エキスト入力受付部」について説明する。
「読上用テキスト入力受付部」は、前記インターフェイス部を介して読上用テキストの入力を受付ける機能を有する。「読上用テキスト」とは、後記合成音声によって読み上げることとなるテキストのことを意味している。テキストは文字情報であることが考えられるが、音声情報であってもよい。読上用テキストを音声情報として入力を受付ける場合には、当該音声情報の内容を正確に認識するため、極めて広範な語彙をカバーする単語辞書や言語モデルを備えた音声辞書を保持する音声認識装置がサーバ装置内に備えられている必要がある。
なお、読上用テキストの入力はユーザがキーボードなどの入力機器を操作することにより自らテキストとなる単語や文章を入力する方法のほか、特定内容のテキストの記録先であるURLを入力する方法をとってもよい。後者の方法をとることにより、ユーザは自らいちいち文章を入力する手間をかけずに、大量のテキストを入力することが可能になる。
また、読上用テキストの入力を受付ける際には、ユーザによる複数の異なる音声辞書セットの選択を受付ける構成とすることも可能である。このような構成とすることにより、複数のユーザが参加するチャットアプリケーションや複数のキャラクターが登場する内容の電子書籍アプリケーションのように、複数の合成音声が必要となるケースにも対応できる。
<サーバ装置の具体的な構成>
本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図4を用いて説明した実施形態1のサーバ装置のハードウェア構成と同様である。以下では、実施形態1で説明しなかった読上用テキスト入力受付部の具体的な処理について述べる。
(読上用テキスト入力受付部の具体的な処理)
CPUは、「読上用テキスト入力受付プログラム」を実行し、インターフェイスを介して読上用テキストの入力を受付ける処理をおこない、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図7は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS0701では、音声の入力を受付ける。次にステップS0702では、登録用情報の入力を受付ける。次にステップS0703では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS0704では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップS0705では、読上用テキストの入力を受付ける。なお、ステップS0701とステップS0702の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムによって、ユーザの求める任意のテキストを読み上げることを内容とする音声を合成することが可能となる。
<<実施形態3>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態1の音声合成システムと同様であるが、前記読上用テキスト入力受付部は、禁止処理をすべきテキストのリストである第一禁止テキストリストを保持し、入力された読上用テキストと禁止テキストリストとを比較し、比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をすることを特徴とする。このような特徴を備えた本実施形態の構成をとることにより、公序良俗に反する内容の音声を合成することを事前に防ぎ、合成音声が犯罪やいたずらなど話者の意に反して利用されることを回避することが可能となる。
<機能的構成>
図8は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」0800は、「インターフェイス部」0801と、「音声入力受付部」0802と、「登録用情報受付部」0803と、「音声辞書セット保持部」0804と、「音声辞書セット選択部」0805と、「読上用テキスト入力受付部」0806からなり、読上用テキスト入力受付部は「第一禁止テキストリスト保持手段」0807と、「第一比較手段」0808と、「第一禁止処理手段」0809とをさらに有する。基本的な構成は実施形態2の図6を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「第一禁止テキストリスト保持手段」、「第一比較手段」、そして「第一禁止処理手段」について説明する。
「第一禁止テキストリスト保持手段」は、禁止処理をすべきテキストのリストである第一禁止テキストリストを保持する機能を有する。「禁止処理をすべきテキスト」とは、公序良俗に反する内容のテキストや、話者の意に反する内容を意味するテキストなど、音声として外部に出力し公になることが好ましくないと思われるテキストを指す。具体的には、「誘拐」「身代金」のように特定の犯罪行為を想起させる語が含まれるテキストや、誹謗中傷を意味するような内容の語が含まれるテキスト、さらには話者の品位をおとしめる内容のテキストなどが考えられる。
第一禁止テキストリストの構成としては、一般的に禁止すべきと考えられる複数のテキストを予め記録しておく方法が考えられるが、禁止すべきテキストは社会情勢などによって変化することが考えられるため、随時サーバ管理者により内容の加除修正を可能とする構成とすることが望ましい。
なお、第一禁止テキストリストは、本件音声合成システムにおいて統一的に一のリストとして存在してもよいし、音声辞書ごとに個々の第一禁止テキストリストが存在してもよく、統一的なリストと音声辞書ごとの個別のリストとが併存していてもよい。ここで音声辞書ごとの個別のリストは、当該音声辞書の情報を提供した話者によって作成および編集を可能とする構成とすることが考えられる。このような構成とすることにより、犯罪等社会一般的に許容すべきではない音声の合成を事前に禁止することが可能になるのみならず、話者が自己のイメージにそぐわないなどの理由によって出力を望まない音声の合成をも事前に禁止することが可能になる。
「第一比較手段」は、入力された読上用テキストと第一禁止テキストリストとを比較する機能を有する。「入力された読上用テキストと第一禁止テキストリストとを比較する」とは、読上用テキストの内容に、第一禁止テキストリストに含まれる禁止テキストが含まれていないかどうかを確認することを意味している。当該構成とすることにより、音声合成処理を行うべきでない内容のテキストを同合成処理の前段階で認識することが可能となるため、その後の処理を行う手間を早期に排除することが可能になり、サーバ装置にかかる機械的負荷を軽減することが可能になる。
「第一禁止処理手段」は、前記比較の結果に応じて禁止テキストが音声合成に用いられないための禁止処理をする機能を有する。「前記比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をする」とは、前記比較の結果、禁止テキストとして第一禁止テキストリストに登録されているテキストが読上入力されたと確認した場合に、当該テキストを読み上げた内容通りに音声合成を行わないことを意味している。
ここで「禁止テキスト」とは、前記読上用テキストのうち、禁止処理をすべきと判断されたものをさす。読上用テキスト全体を禁止テキストとする構成も考えられるほか、読上用テキストのうち、第一禁止テキストリストに含まれるテキストの部分のみを禁止テキストとする構成も考えられる。すなわち、「当該テキストを読み上げた内容通りに音声合成を行わない」とは、禁止テキストと判断した該当箇所のみの音声合成を行わない構成としても良いし、禁止テキストと判断した内容を含む読上用テキスト全体の音声合成を行わない構成としても良く、両構成を選択可能に保持する構成であってももちろん構わない。
<サーバ装置の具体的な構成>
本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図4を用いて説明した実施形態2のサーバ装置のハードウェア構成と同様である。以下では、実施形態2で説明しなかった第一禁止テキストリスト保持手段、第一比較手段および第一禁止処理手段の具体的な処理について述べる。
(第一禁止テキストリスト保持手段の具体的な処理)
CPUは、「第一禁止テキストリスト保持プログラム」を実行し、後記禁止処理すべき内容を含むテキストのリストである第一禁止テキストリストの情報をメインメモリの所定のアドレスに格納する処理を行う。
(第一比較手段の具体的な処理)
CPUは、「第一比較プログラム」を実行し、メインメモリの所定のアドレスに格納している第一禁止テキストリストと読上用テキストをともに読み出し、それぞれの情報の内容を比較する処理を行う。そして、処理の結果をメインメモリの所定のアドレスに格納する。
(第一禁止処理手段の具体的な処理)
CPUは、「第一禁止処理プログラム」を実行し、前記第一比較手段における処理で得られた比較の結果に応じて、禁止テキストが音声合成に用いられないためのフィルタリング処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図9は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS0901では、音声の入力を受付ける。次にステップS0902では、登録用情報の入力を受付ける。次にステップS0903では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS0904では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップS0905では、読上用テキストの入力を受付ける。次にステップS0906では、入力された読上用テキストに禁止処理をおこなう必要があるかどうかを判断する。ここでの判断が禁止処理をおこなう必要があるとの判断である場合はステップS0907に移行する。禁止処理をおこなう必要はないとの判断である場合は処理を完了する。そしてステップS0907では、禁止テキストが音声合成に用いられないためのフィルタリング処理を行う。なお、ステップS0901とステップS0902の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムによって、公序良俗に反する内容の音声を合成することを事前に防ぎ、合成した音声が犯罪やいたずらなど話者の意に反して利用されることを回避することが可能となる。
<<実施形態4>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態2の音声合成システムと同様であるが、前記サーバ装置は、前記読上用テキストから音声辞書セットを用いて音声合成をするために用いる中間言語セットを作成することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、日々生まれる新しいことばに対しても対応した合成音声の作成が可能となる。
<機能的構成>
図10は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」1000は、「インターフェイス部」1001と、「音声入力受付部」1002と、「登録用情報受付部」1003と、「音声辞書セット保持部」1004と、「音声辞書セット選択部」1005と、「読上用テキスト入力受付部」1006と、「中間言語セット作成部」1007と、からなる。基本的な構成は実施形態2の図6を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「中間言語セット作成部」について説明する。
「中間言語セット作成部」は、前記読上用テキストから音声辞書セットを用いて音声合成をするために用いられる中間言語セットを作成する機能を有する。「読上用テキストから音声辞書セットを用いて音声合成をするために用いられる中間言語セットを作成する」とは、端的には、前記読上用テキスト入力受付部にて入力を受付けた読上用テキストに基づいた内容の中間言語セットを作成することを意味している。具体的には、読上用テキストの内容を解析し、解析内容に基づいた読み方の制御に関する記述である中間言語セットを作成することをさす。具体的には、テキストを単分節や単語に分割し、漢字の音訓読みや同音異義語などを峻別して適切な読み方を特定し、各単語の韻律や分節間のフレーズ間隔等を設定する処理を行う。
このように、中間言語セットは、漢字の読みや単語のアクセントを解析する必要があるところ、一般的にことばは日々変化したり、新たに発生したりすることは少なくない。例えば、新語・流行語や、デビューしたての新人芸能人の名前、新しく設立された会社名などのように、従前は誰も使ってこなかったり、一般的ではなかったことばがある瞬間から一般的になったりすることもある。そこで、読上用テキストを適切に中間言語セット化するためには、このようなことばの使われ方の変化に適切に対応するために中間言語セット作成の前提となる後記プログラムを逐一アップデートする必要がある。そして、中間言語セット作成部をサーバ装置の構成要素とする実施形態においては、上記中間言語セット作成のためのプログラムをアップデートすることがサーバ管理者により適切なタイミングで行われることが期待できるため、個々のユーザが上記アップデートをいちいち行うという煩雑さを解消することが可能となる。
<サーバ装置の具体的な構成>
本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図4を用いて説明した実施形態2のサーバ装置のハードウェア構成と同様である。以下では、実施形態2で説明しなかった中間言語セット作成部の具体的な処理について述べる。
(中間言語セット作成部の具体的な処理)
CPUは、「中間言語セット作成プログラム」を実行し、メインメモリに格納されている読上用テキストを読み出し、当該テキストに対応する内容の中間言語セットを作成する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図12は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS1201では、音声の入力を受付ける。次にステップS1202では、登録用情報の入力を受付ける。次にステップS1203では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS1204では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップS1205では、読上用テキストの入力を受付ける。次にステップS1206では、入力された読上用テキストから中間言語セットを作成する処理を行う。なお、ステップS1201とステップS1202の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムによって、日々生まれる新しいことばや意味やイントネーションの変化することばに対しても対応した合成音声の作成が可能となる。
<<実施形態5>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態4の音声合成システムと同様であるが、前記中間言語セット作成部は、禁止処理をすべきテキストのリストである第二禁止テキストリストを保持し、中間言語セットを作成するために用いられる読上用テキストと、第二禁止テキストリストとを比較し、比較の結果に応じて当該禁止テキストが音声合成に用いられないための禁止処理をおこなうことを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、テキストを解析する際に音声の合成を禁止する処理を行うことが可能になるため、随時変更し得るテキスト解析の際に時宜を得た禁止処理を行うことが可能となる。
<機能的構成>
図11は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」は、「インターフェイス部」と、「音声入力受付部」と、「登録用情報受付部」と、「音声辞書セット保持部」と、「音声辞書セット選択部」と、「読上用テキスト入力受付部」と、「中間言語セット作成部」と、からなり、「中間言語セット作成部」は、「第二禁止テキストリスト保持手段」と、「第二比較手段」と、「第二禁止処理手段」とを有する。基本的な構成は実施形態4の図9を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「第二禁止テキストリスト保持手段」「第二比較手段」そして「第二禁止処理手段」についてそれぞれ説明する。
「第二禁止テキストリスト保持手段」は、禁止処理をすべきテキストのリストである第二禁止テキストリストを保持する機能を有する。第二禁止テキストリストの概要は既に述べた第一禁止テキストリストの概要と同様であるが、禁止テキストリストが中間言語を用いて構成されていることが第一禁止テキストリストと異なる。当該構成とすることにより、実施形態3の場合に比べて後記禁止処理手段における処理の精度を高めることが可能となる。
「第二比較手段」は、前記中間言語セットを作成するために用いられる読上用テキストと、第二テキストリストとを比較する機能を有する。第二比較手段の機能も既に説明した第一比較手段と同様である。しかし、第二比較手段においては、上記比較を読上用テキストの前記テキスト解析の際に行うことを特徴とする。読上用テキストの入力受付時に比較を行う構成では、一つの読み方をする単語であっても漢字表記やかな・カナ表記など様々な表記の仕方があるため、禁止テキストリストの構成によっては、本来禁止処理すべきテキストであるにも関わらず、禁止処理すべきでないとの判断になるおそれもある。第二比較手段ではテキスト解析を行い、テキストの読み方やアクセントから同音異義語などを峻別することが可能であるため、たとえ読上用テキストにおいて同じ意味の単語が漢字およびかな・カナ表記されていても、これらを区別することなく全て同一の単語として比較の対象とすることが可能となる。
「第二禁止処理手段」は、前記第二比較手段においてなした比較の結果に応じて当該禁止テキストが音声合成に用いられないための禁止処理をおこなう機能を有する。当該機能についても、その概要は既に説明した第一禁止処理手段と同様である。当該構成をとることにより、様々な表記の仕方がされているテキストに対しても適切に禁止処理を行う精度の高さを実現することが可能となる。
<サーバ装置の具体的な構成>
本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図4を用いて説明した実施形態4のサーバ装置のハードウェア構成と同様である。以下では、実施形態4で説明しなかった第二禁止テキストリスト保持手段や第二比較手段、そして第二禁止処理手段の具体的な処理について述べる。
(第二禁止テキストリスト保持手段の具体的な処理)
CPUは、「第二禁止テキストリスト保持プログラム」を実行し、後記禁止処理すべき内容を含むテキストのリストである第二禁止テキストリストの情報をメインメモリの所定のアドレスに格納する処理を行う。
(第二比較手段の具体的な処理)
CPUは、「第二比較プログラム」を実行し、メインメモリの所定のアドレスに格納している第二禁止テキストリストと入力済みの読上用テキストをともに読み出し、それぞれの情報の内容を比較する処理を行う。そして、処理の結果をメインメモリの所定のアドレスに格納する。
(第二禁止処理手段の具体的な処理)
CPUは、「第二禁止処理プログラム」を実行し、前記第二比較手段における処理で得られた比較の結果に応じて、禁止テキストについては作成する中間言語セットには含まないことを内容とするフィルタリング処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図13は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS1301では、音声の入力を受付ける。次にステップS1302では、登録用情報の入力を受付ける。次にステップS1303では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS1304では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップS1305では、読上用テキストの入力を受付ける。次にステップS1306では、入力された読上用テキストに禁止処理をおこなう必要があるかどうかを判断する。ここでの判断が禁止処理をおこなう必要があるとの判断である場合はステップS1307に移行する。禁止処理をおこなう必要はないとの判断である場合はステップS1308に移行する。そしてステップS1307では、禁止テキストが音声合成に用いられないためのフィルタリング処理を行う。次にステップS1308では、入力された読上用テキストから中間言語セットを作成する処理を行う。なお、ステップS1301とステップS1302の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムによって、時宜を得た禁止処理を行うことが可能となる。
<<実施形態6>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態4の音声合成システムと同様であるが、前記サーバ装置は、前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、外部端末は中間言語セットを用いて合成音声を作成することが可能になる。
<機能的構成>
図14は、本実施形態の音声合成システムのうちサーバ装置の機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」1400は、「インターフェイス部」1401と、「音声入力受付部」1402と、「登録用情報受付部」1403と、「音声辞書セット保持部」1404と、「音声辞書セット選択部」1405と、「読上用テキスト入力受付部」1406と、「中間言語セット作成部」1407と、「中間言語セット出力部」1408と、からなる。基本的な構成は実施形態4の図8を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「中間言語セット出力部」についてそれぞれ説明する。
「中間言語セット出力部」は、前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力する機能を有する。「中間言語セットを外部端末に対して出力する」とは、具体的には、中間言語セットをデータ形式で出力する方法が考えられる。なお、中間言語セットはストリーミング方式によって外部端末に対し出力する方法をとってもよい。このような構成をとることによって、外部端末では、入力テキストに対応する中間言語セットを随時受け取りつつ合成音声を生成することが可能になるため、例えばチャットのように短時間で短文のテキストを入力するような場合であっても、合成音声の出力までに時間がかかりすぎて間延びしてしまうという弊害を防ぐことが可能となる。
<サーバ装置の具体的な構成>
本実施形態の音声合成システムを構成するサーバ装置のハードウェア構成は、基本的に図4を用いて説明した実施形態4のサーバ装置のハードウェア構成と同様である。以下では、実施形態4で説明しなかった中間言語セット出力部の具体的な処理について述べる。
(中間言語セット出力部の具体的処理)
CPUは、「中間言語セット出力プログラム」を実行し、生成した中間言語セットをインターフェイスを介して外部端末に対して出力する処理を行う。
<処理の流れ>
図15は、本実施形態の音声合成システムを構成するサーバ装置の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS1501では、音声の入力を受付ける。次にステップS1502では、登録用情報の入力を受付ける。次にステップS1503では、入力を受付けた音声から韻律モデルと音声データとを抽出し、登録用情報とあわせて音声辞書セットを生成する。次にステップS1504では、外部端末からの指示に基づき、音声辞書セットを選択する。その後ステップS1505では、読上用テキストの入力を受付ける。次にステップS1506では、入力された読上用テキストから中間言語セットを作成する処理を行う。次にステップS1507では、中間言語セットを外部端末に対し出力する。なお、ステップS1501とステップS1502の処理順序は、それぞれが逆になっていてもかまわない。
<効果>
本実施形態のサーバ装置を有する音声合成システムによって、外部端末は中間言語セットを用いて合成音声を作成することが可能になる。
<<実施形態7>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態1の音声合成システムと同様であるが、前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力し、出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得し、選択された音声辞書セットを用いて音声合成を行う音声合成端末をさらに有することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザは自ら端末を操作して音声辞書セットを選ぶだけでなく自ら音声合成処理を行い、様々な種類のアプリケーションに利用することが可能になる。
<機能的構成>
図16は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「サーバ装置」1600は、「インターフェイス部」1601と、「音声入力受付部」1602と、「登録用情報受付部」1603と、「音声辞書セット保持部」1604と、「音声辞書セット選択部」1605と、からなり、音声合成端末は、「選択命令出力部」1606と、「音声辞書セット取得部」1607と、「音声合成部」1608とからなる。サーバ装置の基本的な構成は実施形態1の図2を用いて説明した音声合成システムにおけるサーバ装置と共通するため、以下では相違点である「音声合成端末」および音声合成端末における各部についてそれぞれ説明する。
「音声合成端末」は、サーバ装置とネットワークを通じて接続される外部端末である。
「選択命令出力部」は、前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力する機能を有する。「音声辞書セット選択部にて音声辞書セットを選択するための選択命令」とは、サーバ装置に保持されている音声辞書セットのうち、ユーザの求める条件に適合する内容の音声辞書セットを選択するように指示する情報のことであって、具体的にはこれまで述べてきた年齢や性別、声質が似ている有名人等の情報に基づいてユーザが選択した音声辞書セットを選択するよう指示することを指す。
「音声辞書セット取得部」は、前記出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得する機能を有する。当該構成をとることによるメリットは、実施形態1で述べたところであって、実際に音声合成を行う前の段階として、予め音声辞書セットを外部端末にダウンロードしておくことにより、音声合成から当該合成音声の出力に至るネットワーク環境の安定に資することとなる。
「音声合成部」は、前記選択された音声辞書セットを用いて音声合成をおこなう機能を有する。「選択された音声辞書セットを用いて音声合成をおこなう」とは、具体的には、前記選択された音声辞書セットに含まれている韻律モデルを用いてテキストの各箇所における韻律を予測するとともに、同じくされた音声辞書セットに含まれている音声データベースを用いてテキストの各箇所における波形を選択、特定し、単語ごとの韻律および波形を接続し、テキスト全体として自然な文章となるよう調整を行う処理のことを指す。
<音声合成端末の具体的な構成>
図17は、前記音声合成端末の機能的な各構成をコンピュータで実現した場合のハードウェア構成の一例を表す概略図である。同図を利用して、それぞれのハードウェア構成部の働きについて説明する。
この図にあるように、音声合成端末は、各種演算処理を実行するための「CPU」1701と、「記憶装置(記憶媒体)」1702と、「メインメモリ」1703と、「入出力インターフェイス」1704とを備え、入出力インターフェイスを介して「キーボード」1705や「マイクロフォン」1706、「ディスプレイ」1707、「スピーカー」1708などと接続されるほか、ネットワークを通じ、「サーバ装置」1709との間で情報の入出力を行う。前記の構成は「システムバス」1710などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。
(選択命令出力部の具体的な処理)
CPUは、「選択命令出力プログラム」を実行し、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択するための選択命令を通信装置を介して送信する。
(音声辞書セット取得部の具体的な処理)
CPUは、「音声辞書セット取得プログラム」を実行し、サーバ装置から音声辞書セットをインターフェイスを介して取得し、当該音声辞書セットの情報をメインメモリの所定のアドレスに格納する。
(音声合成部の具体的処理)
CPUは、メインメモリの所定のアドレスに格納された音声辞書セットの情報を読み出し、「音声合成プログラム」を実行し、前記音声辞書セットの特徴を備えた合成音声を作成する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図18は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS1801では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップS1802では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップS1803では、選択により取得した音声辞書セットを用いて音声を合成する。
<効果>
本実施形態の音声合成端末を有する音声合成システムによって、ユーザは自ら端末を操作して音声辞書セットを選ぶだけでなく自ら音声合成処理を行うことが可能になる。
<<実施形態8>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態7の音声合成システムと同様であるが、前記音声合成端末は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力し、読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得し、取得した中間言語セットを前記音声合成部に出力することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、ユーザは、テキストの入力から合成音声の作成までの処理を同一端末を用いて行うことが可能になる。
<機能的構成>
図19は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」1909は、「選択命令出力部」1910と、「音声辞書セット取得部」1911と、「読上用テキスト出力部」1912と、「中間言語セット取得部」1913と、「中間言語セット送出部」1914と、「音声合成部」1915とからなる。音声合成端末の基本的な構成は実施形態7の図16を用いて説明した音声合成システムにおける音声合成端末とおおむね同様であるため、以下では相違点である「読上用テキスト出力部」「中間言語セット取得部」そして「中間言語送出部」についてそれぞれ説明する。
「読上用テキスト出力部」は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する機能を有する。「読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する」とは、予め定型でサーバにおいて保持するテキストではなく、ユーザが外部端末より出力した任意のテキストを読上用テキストとして用いることが可能であることを意味している。当該構成をとることにより、本音声合成システムではユーザが要求する様々な内容の合成音声を提供することが可能となる。
「中間言語セット取得部」は、読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得する機能を有する。中間言語セットの具体的な取得形態としては、実施形態6の中間言語セット出力部の説明で述べたように、同セットの情報を中間言語のファイルとして取得する方法であってもストリーミングにより随時取得する方法であってもよい。
「中間言語セット送出部」は、前記取得した中間言語セットを前記音声合成部に出力する機能を有する。生成される合成音声の分量や合成音声の出力タイミング等の利用形態は、ユーザによって様々考えられることから、中間言語セット送出部においても、取得した中間言語セットをどのようなタイミングで音声合成部に出力するかは適宜調整可能な構成とすることが望ましい。例えば、チャットアプリケーションのように少量のテキストに対応した合成音声の出力をユーザが求めているような場合には、取得した中間言語セットを取得とほぼ同時に順次音声合成部に送出する方法が好ましい。いっぽう、電子書籍アプリケーションのように、ある程度処理量の多いテキストについて複数の音声辞書セットを用いて音声合成処理を行うような場合には、取得した中間言語セットをいったん対応する音声辞書セットごとに振り分け、対応する中間言語セットごとに順番に送出する方法が考えられる。いずれにしても、当該構成をとることにより、ユーザの求める好適な条件のもとで音声合成そして合成音声の出力を実施することが可能となる。
<音声合成端末の具体的な構成>
本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図17を用いて説明した実施形態7の音声合成端末のハードウェア構成と同様である。以下では、実施形態7で説明しなかった読上用テキスト出力部や中間言語セット取得部、そして中間言語セット送出部の具体的な処理について述べる。
(読上用テキスト出力部の具体的な処理)
CPUは、「読上用テキスト出力プログラム」を実行し、通信装置を介し、読上用テキストをサーバ装置の読上用テキスト入力受付部に対して送信する。
(中間言語セット取得部の具体的な処理)
CPUは、「中間言語セット取得プログラム」を実行し、通信装置を介し、前記読上用テキスト出力プログラムを実行して送信した読上用テキストに対応した中間言語セットをサーバ装置の中間言語セット出力部から取得し、メインメモリ上の所定のアドレスに格納する。
(中間言語セット送出部の具体的処理)
CPUは、「中間言語セット送出プログラム」を実行し、メインメモリの所定のアドレスから中間言語セットを読み出し、音声合成部に出力する処理を行う。
<処理の流れ>
図20は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS2001では、インターフェイスを介してサーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップS2002では、インターフェイスを介してサーバ装置から音声辞書セットを取得する。次にS2003では、読上用テキストをインターフェイスを介してサーバ装置の読上用テキスト入力受付部に対して出力する。次にステップS2004では、前記読上用テキストに対応した中間言語セットをインターフェイスを介してサーバ装置の中間言語セット出力部から取得する。ステップS2005では、選択により取得した音声辞書セットと中間言語セットとを用いて音声を合成する。
<効果>
本実施形態の音声合成端末を有する音声合成システムによって、ユーザはテキストの入力から合成音声の作成までの処理を同一端末を用いて行うことが可能になる。
<<実施形態9>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態7の音声合成システムと同様であるが、前記音声合成端末は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させ、動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択することを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、合成音声について様々な利用形態が想定される複数のアプリケーションに対応した合成音声の出力が可能になる。
<機能的構成>
図21は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」2106は、「選択命令出力部」2107と、「音声辞書セット取得部」2108と、「音声辞書セット切替部」2109と、「音声合成部」2110と、「アプリケーション動作部」2111と、からなる。音声合成端末の基本的な構成は実施形態7の図16を用いて説明した音声合成システムにおける音声合成端末とおおむね同様であるため、以下では相違点である「アプリケーション動作部」、「音声辞書セット切替部」についてそれぞれ説明する。
「アプリケーション動作部」は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させる機能を有する。「合成音声を利用するアプリケーション」としては、様々な種類のアプリケーションが考えられるが、例えば、アニメーションアプリケーションのように性質上音声を用いるものや電子書籍アプリケーションや短文の情報送受信アプリケーションのように文字情報を用いる性質のもの、さらには目覚ましアプリケーションやリマインダアプリケーションのように、何らかの音を発する性質のものなど様々なアプリケーションが考えられ、これらいずれのアプリケーションも合成音声を利用することが可能である。
ここで、「利用する」の意味について、前記掲げた各アプリケーションを例にして説明する。アニメーションアプリケーションの場合には、当該アニメーションのキャラクターの発するセリフを合成音声を用いて出力する方法が考えられる。電子書籍アプリケーションや短文の情報送受信アプリケーションのように文字情報を用いるものの場合には、内容となる文章の読上げに合成音声を用いる方法が考えられる。なお、読上げの際には登場人物や送受信者別に異なる音声辞書を用いて音声を合成する構成としてもよい。このような構成をとることにより、一つのアプリケーションで複数の合成音声を利用することが可能になるため、当該アプリケーションを利用して実現可能な表現方法を大幅に広げることが可能となる。さらに、目覚ましアプリケーションやリマインダアプリケーションの場合には、ユーザが、自らの好みの性質をもつ音声辞書を選択して合成音声を出力することにより、ストレスを抱えることなく起床したり予定を実行したりすることを促す効果を高めることを可能とする。
「音声辞書セット切替部」は、動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する機能を有する。「動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する」とは、ユーザがアプリケーションの性質に適合すると考える音声辞書セットを切替選択することを意味する。前記アプリケーションの各例に置き換えてみると、老人が話をする内容のアニメーションにおいては、老人の登録用情報をもつ音声辞書セットを選択するのが望ましいと通常考えられるほか、電子書籍アプリケーションにおいても、同様に話者となる登場人物の属性と似た登録用情報を有する音声辞書セットを利用するよう切り替えることが想定される。目覚ましアプリケーション等のようにユーザのストレス軽減を図ることが効果の一つして考えられるアプリケーションにおいては、ユーザが自ら気に入っている登録用情報を有する音声辞書セットを選択することが考えられる。
これらの切替選択は、いずれも対応するアプリケーションの内容や性質との関連性が強く、これらの関連性の有無や高低はユーザ個々人の判断に委ねざるを得ない場合も少なくないことから、上記音声辞書セットの選択機能は、複数の音声辞書セットについて、それぞれの登録用情報と関連付けて検索する方法が考えられる。さらには、ユーザによる切替履歴を保持しておき、切替頻度の高い順に並べ替えて選択可能となるよう表示したり、音声辞書セットの入手時期の新しい順に並べ替えて選択可能となるように表示したりする方法などが考えられる。
<音声合成端末の具体的な構成>
本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図17を用いて説明した実施形態7の音声合成端末のハードウェア構成と同様である。以下では、実施形態7で説明しなかったアプリケーション動作部および音声辞書セット切替部の具体的な処理について述べる。
(アプリケーション動作部の具体的な処理)
CPUは、「アプリケーション動作プログラム」を実行し、合成音声を利用するアプリケーションを動作させる処理を行う。
(音声辞書セット切替部の具体的な処理)
CPUは、「音声辞書セット切替プログラム」を実行し、動作させるアプリケーションに対応して音声合成プログラムにて実行する音声辞書セットを選択する処理を行い、その結果をメインメモリの所定のアドレスに格納する。
<処理の流れ>
図22は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS2201では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップS2202では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップS2203では、後記動作させるアプリケーションに応じて音声合成プログラムにて利用する音声辞書セットを選択する。次にステップS2204では、音声辞書セットを用いて音声を合成する。次にステップS2205では、合成した音声を利用してアプリケーションを動作させる。
<効果>
本実施形態の音声合成端末を有する音声合成システムによって、合成音声について様々な利用形態が想定される複数のアプリケーションに対応した合成音声の出力が可能になる。
<<実施形態10>>
<概要>
本実施形態の音声合成システムは、基本的に実施形態9の音声合成システムと同様であるが、前記音声合成端末は、前記アプリケーション動作部で動作するアプリケーションが発生アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させることを特徴とする。かかる特徴を備えた本実施形態の構成をとることにより、発声アニメーションにおいて、キャラクターが自然に話しているような感覚で合成音声を出力することが可能になる。
<機能的構成>
図23は、本実施形態の音声合成システムの機能ブロックの一例を示す図である。この図にあるように、本実施形態の「音声合成システム」における「音声合成端末」2306は、「選択命令出力部」2307と、「音声辞書セット取得部」2308と、「音声辞書セット切替部」2309と、「音声合成部」2310と、「同期部」2311と、「アプリケーション動作部」2312と、からなる。音声合成端末の基本的な構成は実施形態9の図21を用いて説明した音声合成システムにおける音声合成装置とおおむね同様であるため、以下では相違点である「同期部」についてそれぞれ説明する。
「同期部」は、前記アプリケーション動作部にて動作するアプリケーションが発声アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させる処理をおこなう機能を有する。発声アニメーションの場合、登場するキャラクターの発声のタイミングに合わせて合成音声を出力しないと、各キャラクターが合成音声を話しているように視認することができず、むしろ不自然な「口パク」のようなアニメーションとなってしまい、出力される合成音声とアニメーションとが整合しない事態が生じてしまう。具体的には、発声アニメーションにおける各キャラクターの発声タイミングを予め記録しておき、上記記録に基づいたタイミングで特定の合成音声を出力する方法が考えられる。
<音声合成端末の具体的な構成>
本実施形態の音声合成システムを構成する音声合成端末のハードウェア構成は、基本的に図17を用いて説明した実施形態7の音声合成端末のハードウェア構成と同様である。以下では、実施形態7で説明しなかった同期部の具体的な処理について述べる。
(同期部の具体的な処理)
CPUは、「同期プログラム」を実行し、アニメーションと合成音声との出力タイミングを同期させる処理を行う。
<処理の流れ>
図24は、本実施形態の音声合成システムを構成する音声合成端末の制御処理の流れの一例を示す図である。同図の処理の流れは以下のステップからなる。最初にステップS2401では、サーバ装置の音声辞書セット保持部にて保持される音声辞書セットのなかから特定の音声辞書セットを選択する。次にステップS2402では、サーバ装置からインターフェイスを介して音声辞書セットを取得する。次にステップS2403では、後記動作させるアプリケーションに応じて音声合成プログラムにて利用する音声辞書セットを選択する。次にステップS2404では、音声辞書セットを用いて音声を合成する。次にステップS2405では、動作するアプリケーションが発声アニメーションかどうかを判断する。ここでの判断が発声アニメーションであるとの結果の場合はステップS2406に移行する。発声アニメーションではないとの結果の場合はステップS2407に移行する。ステップS2406では、アニメーションと合成音声との出力タイミングを同期させる。次にステップS2407では、合成した音声を利用してアニメーションアプリケーションを動作させる。
<効果>
本実施形態の音声合成端末を有する音声合成システムによって、発声アニメーションにおいて、キャラクターが自然に話しているような感覚で合成音声を出力することが可能になる。
1900・・・サーバ装置
1901・・・インターフェイス部
1902・・・音声入力受付部
1903・・・登録用情報受付部
1904・・・音声辞書セット保持部
1905・・・音声辞書セット選択部
1906・・・読上用テキスト入力受付部
1907・・・中間言語セット作成部
1908・・・中間言語セット出力部
2100・・・サーバ装置
2101・・・インターフェイス部
2102・・・音声入力受付部
2103・・・登録用情報受付部
2104・・・音声辞書セット保持部
2105・・・音声辞書セット選択部
2300・・・サーバ装置
2301・・・インターフェイス部
2302・・・音声入力受付部
2303・・・登録用情報受付部
2304・・・音声辞書セット保持部
2305・・・音声辞書セット選択部

Claims (10)

  1. 読上用テキストと音声辞書セットとを用いて音声合成をする音声合成システムであって、
    公開されたインターフェイス部と、
    前記インターフェイス部を介して外部端末から音声辞書セット作成用の音声の入力を受付ける音声入力受付部と、
    前記インターフェイス部を介して外部端末から音声の入力者である音声所有者に関する登録用情報を受付ける登録用情報受付部と、
    前記入力を受付けた音声から作成する音声辞書セットをその音声の入力者に関する登録用情報と関連付けて保持する音声辞書セット保持部と、
    前記インターフェイス部を介して外部端末から音声辞書セット保持部に保持された音声辞書セットを選択できる音声辞書セット選択部と、
    を有するサーバ装置を含む音声合成システム。
  2. 前記サーバ装置は、
    前記インターフェイス部を介して読上用テキストの入力を受付ける読上用テキスト入力受付部をさらに有する請求項1に記載の音声合成システム。
  3. 前記読上用テキスト入力受付部は、
    禁止処理をすべきテキストのリストである第一禁止テキストリスト保持手段と、
    入力された読上用テキストと第一禁止テキストリストとを比較する第一比較手段と、
    比較の結果に応じて禁止テキストが音声合成に用いられないための禁止処理をする第一禁止処理手段と、
    をさらに有する請求項2に記載の音声合成システム。
  4. 前記サーバ装置は、
    前記読上用テキストから音声辞書セットを用いて音声合成をするために用いる中間言語セットを作成する中間言語セット作成部をさらに有する請求項2または3に記載の音声合成システム。
  5. 前記中間言語セット作成部は、
    禁止処理をすべきテキストのリストである第二禁止テキストリスト保持手段と、
    中間言語を作成するために用いられる読上用テキストと、禁止テキストリストとを比較する第二比較手段と、
    比較の結果に応じてその禁止テキストが音声合成に用いられないための禁止処理をする第二禁止処理手段と、
    をさらに有する請求項4に記載の音声合成システムのうち請求項2に従属する音声合成システム。
  6. 前記サーバ装置は、
    前記インターフェイス部を介して生成された中間言語セットを外部端末に対して出力する中間言語セット出力部をさらに有する請求項4又は5に記載の音声合成システム。
  7. 前記インターフェイス部を介して音声辞書セット選択部にて音声辞書セットを選択するための選択命令を出力する選択命令出力部と、
    出力された選択命令に応じて選択された音声辞書セットを前記インターフェイス部を介して取得する音声辞書セット取得部と、
    選択された音声辞書セットを用いて音声合成をする音声合成部と、
    を有する外部端末である音声合成端末をさらに有する請求項1から6のいずれか一に記載の音声合成システム。
  8. 前記音声合成端末は、読上用テキストを前記インターフェイス部を介して前記読上用テキスト入力受付部に対して出力する読上用テキスト出力部と、
    読上用テキスト出力部から出力された読上用テキストに対応して中間言語セットを前記インターフェイス部を介して中間言語セット出力部から取得する中間言語セット取得部と、
    取得した中間言語セットを前記音声合成部に出力する中間言語セット送出部と、
    をさらに有する請求項7に記載の音声合成システムのうち請求項2ないし請求項6に従属する音声合成システム。
  9. 前記音声合成端末は、音声合成部にて合成される合成音声を利用するアプリケーションを動作させるアプリケーション動作部と、
    動作しているアプリケーションに応じて音声合成部にて利用する音声辞書セットを選択する音声辞書セット切替部と、
    をさらに有する請求項7又は8に記載の音声合成システム。
  10. 前記音声合成端末は、前記アプリケーション動作部で動作するアプリケーションが発声アニメーションである場合にはアニメーションと音声合成部で合成された合成音声との出力タイミングを同期させる同期部をさらに有する請求項9に記載の音声合成システム。
JP2012156123A 2012-07-12 2012-07-12 音声合成システム Pending JP2014021136A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012156123A JP2014021136A (ja) 2012-07-12 2012-07-12 音声合成システム
US13/939,735 US20140019137A1 (en) 2012-07-12 2013-07-11 Method, system and server for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012156123A JP2014021136A (ja) 2012-07-12 2012-07-12 音声合成システム

Publications (1)

Publication Number Publication Date
JP2014021136A true JP2014021136A (ja) 2014-02-03

Family

ID=49914723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156123A Pending JP2014021136A (ja) 2012-07-12 2012-07-12 音声合成システム

Country Status (2)

Country Link
US (1) US20140019137A1 (ja)
JP (1) JP2014021136A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110151A (ja) * 2014-12-04 2016-06-20 悠之介 北 音声管理サーバー装置、会話音声提供方法、会話音声提供システム
JP2017107198A (ja) * 2015-12-02 2017-06-15 悠之介 北 音声採取方法および音声移植方法
JP2017162006A (ja) * 2016-03-07 2017-09-14 ヤフー株式会社 配信装置、配信方法及び配信プログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311912B1 (en) * 2013-07-22 2016-04-12 Amazon Technologies, Inc. Cost efficient distributed text-to-speech processing
WO2015129302A1 (ja) * 2014-02-26 2015-09-03 日本碍子株式会社 半導体用複合基板のハンドル基板
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
CN104992703B (zh) * 2015-07-24 2017-10-03 百度在线网络技术(北京)有限公司 语音合成方法和系统
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
WO2020060151A1 (en) * 2018-09-19 2020-03-26 Samsung Electronics Co., Ltd. System and method for providing voice assistant service
US11822885B1 (en) * 2019-06-03 2023-11-21 Amazon Technologies, Inc. Contextual natural language censoring

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221981A (ja) * 2001-01-25 2002-08-09 Canon Inc 音声合成装置および音声合成方法
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2004221746A (ja) * 2003-01-10 2004-08-05 Yamaha Corp 発声機能を有する携帯端末装置
JP2005300783A (ja) * 2004-04-08 2005-10-27 Zyyx:Kk 音声変換装置
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP2007163875A (ja) * 2005-12-14 2007-06-28 Advanced Telecommunication Research Institute International 音声合成装置および音声合成プログラム
JP2009217846A (ja) * 2009-06-23 2009-09-24 Seiko Epson Corp 音声データ作成装置および音声データ作成方法
JP2010528372A (ja) * 2007-05-24 2010-08-19 マイクロソフト コーポレーション パーソナリティベース装置
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
US20020156630A1 (en) * 2001-03-02 2002-10-24 Kazunori Hayashi Reading system and information terminal
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
AU2003226192A1 (en) * 2002-04-02 2003-10-20 Worldcom, Inc. Billing system for communications services involving telephony and instant communications
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221981A (ja) * 2001-01-25 2002-08-09 Canon Inc 音声合成装置および音声合成方法
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2004221746A (ja) * 2003-01-10 2004-08-05 Yamaha Corp 発声機能を有する携帯端末装置
JP2005300783A (ja) * 2004-04-08 2005-10-27 Zyyx:Kk 音声変換装置
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP2007163875A (ja) * 2005-12-14 2007-06-28 Advanced Telecommunication Research Institute International 音声合成装置および音声合成プログラム
JP2010528372A (ja) * 2007-05-24 2010-08-19 マイクロソフト コーポレーション パーソナリティベース装置
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法
JP2009217846A (ja) * 2009-06-23 2009-09-24 Seiko Epson Corp 音声データ作成装置および音声データ作成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110151A (ja) * 2014-12-04 2016-06-20 悠之介 北 音声管理サーバー装置、会話音声提供方法、会話音声提供システム
JP2017107198A (ja) * 2015-12-02 2017-06-15 悠之介 北 音声採取方法および音声移植方法
JP2017162006A (ja) * 2016-03-07 2017-09-14 ヤフー株式会社 配信装置、配信方法及び配信プログラム

Also Published As

Publication number Publication date
US20140019137A1 (en) 2014-01-16

Similar Documents

Publication Publication Date Title
JP2014021136A (ja) 音声合成システム
US10991360B2 (en) System and method for generating customized text-to-speech voices
US8682671B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
Eide et al. A corpus-based approach to< ahem/> expressive speech synthesis
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20130085760A1 (en) Training and applying prosody models
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JPWO2005093713A1 (ja) 音声合成装置
US20080243510A1 (en) Overlapping screen reading of non-sequential text
US20050144015A1 (en) Automatic identification of optimal audio segments for speech applications
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
Grůber et al. Czech expressive speech synthesis in limited domain: Comparison of unit selection and HMM-based approaches
JP2010048959A (ja) 音声出力システム及び車載装置
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP2004294577A (ja) 文字情報音声変換方法

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20131129

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20131217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140306

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140331

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140630

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140708

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150424