JP2009265279A - 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム - Google Patents

音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム Download PDF

Info

Publication number
JP2009265279A
JP2009265279A JP2008113202A JP2008113202A JP2009265279A JP 2009265279 A JP2009265279 A JP 2009265279A JP 2008113202 A JP2008113202 A JP 2008113202A JP 2008113202 A JP2008113202 A JP 2008113202A JP 2009265279 A JP2009265279 A JP 2009265279A
Authority
JP
Japan
Prior art keywords
text
speech
content
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008113202A
Other languages
English (en)
Inventor
Susumu Takatsuka
進 高塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Ericsson Mobile Communications Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Communications Japan Inc filed Critical Sony Ericsson Mobile Communications Japan Inc
Priority to JP2008113202A priority Critical patent/JP2009265279A/ja
Priority to US12/411,031 priority patent/US9812120B2/en
Priority to EP09156866.7A priority patent/EP2112650B8/en
Priority to EP16168765.2A priority patent/EP3086318B1/en
Priority to CN2009101345944A priority patent/CN101567186B/zh
Publication of JP2009265279A publication Critical patent/JP2009265279A/ja
Priority to US15/719,106 priority patent/US10720145B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Abstract

【課題】 テキスト読み上げ音声が聞く人に機械的な印象を与えず、表現力豊かな再生音声出力となり、聞く人にとって有益な演出等が施された再生音声となるようにする。
【解決手段】
コンテンツ選択インターフェース部1は、ユーザからの指示に応じて、テキストコンテンツ記録メモリ3からテキストコンテンツを選択する。演出判断部2は、選択されたテキストコンテンツに関連付けられたユーザ情報、日時情報、BGMデータを選択すると共に、ユーザ情報と日時情報のテキストデータを生成する。そして、テキストコンテンツにユーザ情報、日時情報のテキストデータを加えたものをテキスト音声変換再生部7で音声信号に変換する。ミキサ部9では、テキスト音声変換再生部7からの音声信号に、BGM再生部からのBGM音声信号が合成され、その合成音声信号がスピーカ11から出力される。
【選択図】 図1

Description

本発明は、例えばテキストデータから変換した音声に様々な演出を施す場合に好適な音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムに関する。
従来より、パーソナルコンピュータやゲーム機器により実現されている機能の一つとして、テキストデータを音声信号に変換してスピーカから出力する機能(いわゆる音声読み上げ機能)が知られている。
当該音声読み上げ機能に使用されるテキスト−音声変換(Text-to-Speech)の手法としては、従来より大きく分けて二通りの手法が知られている。
その一つは録音編集方式であり、もう一つは規則合成方式である。
上記録音編集方式は、言葉等を人間が発声した音声を録音しておき、その録音された音声を組み合わせる等の編集を行うことにより、所望の言葉や文などの音声を合成する手法である。なお、当該音声編集方式では、人間の生の声に近い自然な仕上がりの音声が得られるが、録音した音声を組み合わせて所望の言葉や文などを造るため、稀に組み合わせでは造れない言葉や文が生ずる場合がある。また例えば、幾つかのキャラクターがテキストを読み上げるようなケースに当該録音編集方式による音声変換を適用したとすると、それらキャラクターの数の分だけ、それぞれ異なる音質(声色)の音声データが必要になる。特に音質のクオリティを上げようとすると、1キャラクターあたり例えば600MB(メガバイト)もの音声データが必要になる。
一方、規則合成方式は、音声を構成する「音素」や「音節」などの要素を組み合わせて音声を合成する手法である。この規則合成方式では、「音素」や「音節」などの要素を自由に組み合わせることができるため自由度が高い。また、規則合成方式では、素材となる音素データが必要ないので、例えば携帯情報端末のような搭載メモリ容量に限りがある機器の組み込みアプリケーションの音声合成機能に適している。ただし、規則合成方式の場合は、上述の録音編集方式に比べ、合成音声が機械的な音声になり易い。
その他にも、例えば特開2001−51688号の公開特許公報(特許文献1)には、電子メールの文字情報から文字を発音する音声を合成すると共に、その合成音声に音楽や擬音などを加算して出力するような音声合成を用いた電子メール読み上げ装置が開示されている。
また例えば、特開2002−354111号の公開特許公報(特許文献2)には、マイクロホンからの音声と、バックグラウンドミュージック(BGM)記録部から再生されたBGMとを合成してスピーカ等から出力するような音声信号合成装置等が開示されている。
また例えば、特開2005−106905号の公開特許公報(特許文献3)には、電子メールやウェブサイトに含まれるテキストデータを音声データに変換し、さらに、その音声データを音声信号に変換してスピーカ等から出力するような音声出力システム等が開示されている。
さらに例えば、特開2003−223181号の公開特許公報(特許文献4)には、テキストデータを絵文字とその他の文字データに分け、絵文字はイントネーション制御データに変換され、文字データをイントネーション制御データに基づくイントネーションを有する音声信号に変換してスピーカ等から出力するような文字−音声変換装置等が開示されている。
またさらに、特開2007−293277号の公開特許公報(特許文献5)には、RSSコンテンツからテキストを抽出してスピーチに変換するようなRSSコンテンツ管理の方法等が開示されている。
特開2001−51688号公報(図1) 特開2002−354111号公報(図1) 特開2005−106905号公報(図1) 特開2003−223181号公報(図1) 特開2007−293277号公報(図1)
ところで、上述したような従来のテキスト−音声変換の各技術では、あくまでテキストデータを音声信号に変換して再生するだけである。このため、再生出力された音声は、機械的な音声であり、演出力に乏しいという欠点がある。
例えば、上記録音編集方式では、前述したように人間の生の声に近い自然な仕上がりの音声が得られるが、あくまでテキストを音声に変換したもののみであり面白みに欠ける。また、規則合成方式では、前述したように合成音声が機械的な音声になり易く、表現力に乏しい欠点がある。
一方、上述の公開特許公報に挙げたように、音声にBGMを追加したりイントネーションを追加することで、或る程度の演出を加える技術も存在するが、それらは聞く人にとって必ずしも有益な演出であるとは言い難い。
本発明は、例えばテキストデータから変換された音声信号を再生出力するような場合に、聞く人に機械的な印象を与えることなく、表現力が豊かな再生音声出力を得ることができる音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムを提供することを目的とする。
また本発明は、聞く人にとって或る程度有益な演出等が施された再生音声を出力可能とする音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムを提供することを目的とする。
本発明は、音声変換するテキストコンテンツを選択し、その選択されたテキストコンテンツに関連付けられた少なくともテキスト化可能な関連情報を選択し、さらに、その関連情報をテキストデータ化して、先に選択されたテキストコンテンツのデータに付加する。そして、そのテキストデータを音声信号に変換して出力する。これにより、本発明は、上述した課題を解決する。
すなわち本発明によれば、テキストコンテンツが選択されると、そのテキストコンテンツの関連情報をも選択し、その関連情報をテキスト化してテキストデータに付加し、当該付加後のテキストデータを音声変換している。言い換えると、本発明によれば、テキストデータを単に音声変換するのみではなく、関連情報による演出等が施されたテキストデータの音声変換を行っている。
本発明においては、音声変換するテキストコンテンツを選択し、さらにその選択されたテキストコンテンツに関連付けられた関連情報をテキストデータ化して付加し、そのテキストデータを音声信号に変換して出力する。これにより本発明においては、例えばテキストデータから変換された音声信号を再生出力するような場合に、聞く人に機械的な印象を与えることなく、表現力が豊かな再生音声出力を得ることができる。また本発明においては、また聞く人にとって或る程度有益な演出等が施された再生音声を出力可能となる。
以下、図面を参照しながら、本発明の一実施形態について説明する。
なお、本実施形態はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。
〔音声合成装置の概略的な内部構成〕
図1には、本発明実施形態の音声合成装置の概略的な内部構成例を示す。
なお、本実施形態の音声合成装置は、据え置き型の各種機器のみならず、携帯電話端末やPDA(PDA:Personal Digital Assistants)、ノート型等のパーソナルコンピュータ、ナビゲーション装置や携帯型AV機器、携帯型ゲーム機など様々なモバイル機器にも適用可能である。また、本発明の音声合成装置は、各構成要素がそれぞれ独立した機器からなる音声合成システムであっても良い。本実施形態では、音声合成装置が適用される機器の一例として携帯電話端末を挙げている。また、本実施形態において、テキストを音声に変換する方式は、録音編集方式と規則合成方式の何れにも適用可能であるが、本実施形態は特に規則合成方式のような機械的な合成音声に表現力を加える際に好適である。
図1に示す本実施形態の携帯電話端末は、コンテンツ選択インターフェース部1、演出判断部2、テキストコンテンツ記録メモリ3、ユーザ情報記録メモリ4、日時記録部5、バックグラウンドミュージック(BGM)記録メモリ6、テキスト音声変換再生部7、BGM再生部8、ミキサ部9、音声認識・ユーザ指示判定部10、及び、スピーカ又はヘッドフォン11を有して構成されている。
テキストコンテンツ記録メモリ3には、例えば、電子メール、ユーザのスケジュール、料理のレシピ、道案内(ナビゲーション)情報、インターネット等を通じてダウンロードされたニュースや天気予報,株価,テレビジョン番組表,ウェブページ,ウェブログ,占い情報など、様々なテキストコンテンツのデータ(特にテキストデータ)が記録されている。なお、以下の説明では、テキストコンテンツのデータを簡略化してテキストコンテンツ或いは単にコンテンツと表記することにする。これらテキストコンテンツはあくまで一例として挙げたものであり、テキストコンテンツ記録メモリ3には、その他の様々なテキストコンテンツも記録されている。
ユーザ情報記録メモリ4には、テキストコンテンツ記録メモリ3に記録されているテキストコンテンツに各々関連したユーザ情報が記録されている。各テキストコンテンツとユーザ情報の関連付けは、ユーザによる事前の設定や、コンテンツ毎の事前の設置、後述する音声合成プログラム制作者による設定などより行われている。また、テキストコンテンツ内に元々ユーザ情報が含まれている場合には、上述のようなテキストコンテンツとユーザ情報の関連付けは事前に行われていなくても良い。なお、各コンテンツに関連するユーザ情報の一例としては、当該携帯電話端末の使用者の名前や電子メール送信者の名前、予定スケジュールの参加者の名前等のような、少なくともテキスト化可能な情報を挙げることができる。勿論、テキストコンテンツの中にはユーザ情報が関連付けられていないものがあっても良い。
上記日時記録部5には、テキストコンテンツ記録メモリ3に記録されている各コンテンツに関連付けられた日時情報が記録されている。各コンテンツと日時情報との関連付けは、ユーザによる事前の設定情報や、コンテンツ毎の事前の設置情報、後述する音声合成プログラム制作者による設定情報などに応じて行われている。なお、各コンテンツに関連する日時情報としては、現在の年月日時刻等の日時情報を挙げることができ、その他にもコンテンツ毎に特有の日時情報であっても良い。上記特有の日時情報としては、一例として、ニュースの場合にはそのニュースの配信日時の情報等、スケジュール帳の場合には予定スケジュールの日時等の情報等、電子メールの場合にはその電子メールの受信日時や送信日時の情報等のような、少なくともテキスト化可能な情報を挙げることができる。勿論、テキストコンテンツの中には日時情報が関連付けられていないものがあっても良い。
上記BGM記録メモリ6には、複数のBGMデータが記録されている。このBGM記録メモリ6内のBGMデータは、テキストコンテンツ記録メモリ3に記録されている各コンテンツにそれぞれ関連付けられているものと、関連付けられていないものとに分けられる。各コンテンツとBGMデータの関連付けは、ユーザによる事前の設定情報や、コンテンツ毎の事前の設置情報、音声合成プログラム制作者による設定情報などに応じて行われる。また、各コンテンツとBGMデータの関連付けはランダムに行われても良い。当該ランダムな関連付けを行うか否かは、予め設定されていても良い。また、当該ランダムな関連付けは、後述するコンテンツ選択インターフェース部1でコンテンツが選択された際に自動的に行われても良い。
音声認識・ユーザ指示判定部10は、マイクロフォンを通じて入力されたユーザの音声認識を行い、その音声認識結果からユーザの指示入力内容を判定する。
コンテンツ選択インターフェース部1は、上記テキストコンテンツ記録メモリ3に記録されている各テキストコンテンツの中から、ユーザが所望のコンテンツを選択するためのインターフェース部である。当該コンテンツの選択は、上記テキストコンテンツ記録メモリ3に記録されている各テキストコンテンツの中からユーザが直接選択する場合と、ユーザからの起動指示入力に応じて当該携帯電話端末内のアプリケーションプログラムが起動した時に自動的に行われる場合とがある。なお、ユーザが選択指示を入力する場合、例えばディスプレイ画面上に複数のコンテンツ選択メニューが表示される。そして、ユーザにより、当該コンテンツ選択メニュー表示画面の中から、例えばキーやタッチパネル操作を通じて所望のコンテンツの選択指示が入力された時に、コンテンツ選択インターフェース部1は当該コンテンツを選択する。アプリケーションの起動に応じたコンテンツの選択は、例えばディスプレイ画面上の複数のアプリケーション起動アイコンがユーザにより選択指示されることにより、そのアプリケーションが起動した時に行われる。その他にも、コンテンツの選択は、音声認識を介した音声により行われても良い。この場合、上記音声認識・ユーザ指示判定部10において、ユーザの音声認識が行われ、その認識結果からユーザの指示入力内容が判定される。そして、その音声認識によるユーザ指示入力がコンテンツ選択インターフェース部1へ送られる。これにより、コンテンツ選択インターフェース部は、ユーザの音声指示入力に応じたコンテンツを選択する。
演出判断部2は、本発明の音声合成プログラムを実行し、上記コンテンツ選択インターフェース部1を通じてユーザが選択したテキストコンテンツを、上記テキストコンテンツ記録メモリ3から取り出す。なお、本発明にかかる音声合成プログラムは、予め携帯電話端末の出荷時に内部メモリ等にインストールされている場合だけでなく、例えばディスク状記録媒体や外部半導体メモリ等を介してインストールされたり、外部インターフェースを通じたケーブル或いは無線を介してインストールされたものであっても良い。
同時に、演出判断部2は、当該選択されたテキストコンテンツに関連したユーザ情報、日時情報、BGM情報等を選択する。すなわち、演出判断部2は、コンテンツ選択インターフェース部1にてテキストコンテンツが選択されると、そのコンテンツに関連したユーザ情報が存在する場合にはそのユーザ情報をユーザ情報記録メモリ4から取り出す。また、演出判断部2は、選択されたテキストコンテンツに関連した日時情報が存在する場合にはその日時情報を日時情報記録部5から取り出す。同様に、演出判断部2は、選択されたテキストコンテンツに関連したBGMデータが存在する場合にはそのBGMデータをBGM記録メモリ6から取り出す。なお、テキストコンテンツとBGMデータとの関連付けがランダム設定になされている場合には、演出判断部2は、BGM記録メモリ6からランダムにBGMデータを取り出す。
そして、演出判断部2は、それらユーザ情報や日時情報、BGMデータを基に、上記選択されたテキストコンテンツに演出を施す。
すなわち例えば、上記ユーザ情報をユーザの名前等のテキストデータに変換し、同様に日時情報を日時等のテキストデータに変換して、それらユーザ名や日時等のテキストデータを上記選択されたテキストコンテンツの例えば前や途中、最後などに適宜付け加えるようにする。
テキスト音声変換再生部7は、演出判断部2から上記テキストコンテンツとそれに付け加えられた演出用のユーザ名や日時のテキストデータが送られてくると、それらのテキストデータを音声信号に変換する。そして、当該テキスト変換音声信号をミキサ部9へ出力する。
また、BGM再生部8は、上記演出判断部2からBGMデータが送られてくると、そのBGMデータからBGM音声信号(音楽信号)を生成する。
ミキサ部9は、テキスト音声変換部7からテキスト変換音声信号が供給され、またBGM再生部9からBGM音声信号が供給されると、それらをミックスしてスピーカ又はヘッドホン(以下、スピーカ11とする。)に出力する。
これにより、スピーカ11からは、テキストから変換された音声とBGMがミックスされた音声が出力される。すなわち、本実施形態の場合、その音声は、テキストコンテンツを単にテキスト−音声変換したものにBGMを加えたのみではなく、例えばユーザ名や日時の音声等が演出として付け加えられた音声となっている。これらユーザ名や日時等は、テキストコンテンツに関連したものであるため、本実施形態において付加される演出は、その音声を聞く人にとって有益なものとなる。
〔演出の一例〕
ここで、上記演出判断部2がテキストコンテンツに付け加える演出について、以下に幾つかの具体例を挙げて説明する。なお、本発明は以下の具体例に限定されないことは言うまでもない。
上記テキストコンテンツに演出が加えられる一例として、テキストコンテンツが受信電子メールである場合、上記ユーザ情報は、例えばその電子メールの送信元情報と当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時とその受信電子メールの受信日時となされる。なお、電子メールの送信元情報は、実際には電子メールアドレス情報であるが、携帯電話端末のアドレス帳内に当該電子メールアドレスに関連した名前等が登録されている場合には、上記送信元情報としてその名前を用いることができる。
すなわち、当該受信電子メールをテキスト−音声変換により読み上げて音声出力することがユーザにより指示された場合、演出判断部2は、例えば、ユーザ情報記録メモリ4から使用者情報を取り出し、また、日時記録部5から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部2は、図示しない電子メール受信部にて受信されて上記テキストコンテンツ記録メモリ3に記録された受信電子メールのデータから、送信元の名前を表すテキストデータと、その受信電子メールの受信日時を表すテキストデータを生成する。そして、演出判断部2は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「A」で、現在日時が例えば「夜」の時間帯、送信元の名前が例えば「B」で、電子メール受信日時が例えば「4月8日午後6時30分」であるような場合、演出判断部2は、一例として「Aさんこんばんは、Bさんからのメールを午後6時30分に受信しました。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部2は、上述の演出用のテキストデータを、受信電子メールのタイトル及び本文のテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部7へ送る。
また同時に、演出判断部2は、電子メールのコンテンツについて予め設定してあるか、若しくはランダムに設定されているBGMのデータを、BGM記録メモリ6から読み出す。なお、電子メールのコンテンツについて予め設定されたBGMデータは、例えばアドレス帳の各登録者名毎に予め設定されたものであっても良いし、受信フォルダについて予め設定されたものや、グループ分けされた受信フォルダ毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部2は、上記BGM記録メモリ6から読み出したBGMデータを、BGM再生部8へ送る。
これにより、上記ミキサ部9でミックスされ、最終的にスピーカ11から出力される音声は、上述したように、「Aさんこんばんは、Bさんからのメールを午後6時30分に受信しました。」の演出用音声の後に受信電子メールのタイトル及び本文を読み上げた音声と、演出用のBGM音楽とがミックスされたものとなる。
上記テキストコンテンツに演出が加えられる他の例として、テキストコンテンツがインターネット等からダウンロードしたニュースである場合、上記ユーザ情報は、例えば当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時とそのニュースの配信受信日時となされる。
すなわち、当該ニュースをテキスト−音声により読み上げて音声出力することがユーザにより指示された場合、演出判断部2は、例えば、ユーザ情報記録メモリ4から使用者情報を取り出し、また、日時記録部5から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部2は、図示しないインターネット接続部を通じてダウンロードされて上記テキストコンテンツ記録メモリ3に記録されたニュースの配信データから、ニュースのトピックスを表すテキストデータと、各ニュースの配信日時を表すテキストデータを生成する。そして、演出判断部2は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「A」で、現在日時が例えば「朝」の時間帯、ニュースのトピックスが例えば「ガソリン税」で、ニュースの配信日時が例えば「4月8日午前9時」であるような場合、演出判断部2は、一例として「Aさんおはようございます。ガソリン税に関する午前9時のニュースです。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部2は、上述の演出用のテキストデータを、ニュース本文のテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部7へ送る。その他に、ニュースを読み上げる擬人化されたキャラクタ「C」等が設定されているような場合には、一例として、「本日のニュースを、ニュースキャスターCがお伝えします。」などの上記演出用のテキストデータを付け加えるようにしても良い。
また同時に、演出判断部2は、ニュースのコンテンツについて予め設定してあるか、若しくはランダムに設定されているBGMのデータを、BGM記録メモリ6から読み出す。なお、ニュースのコンテンツについて予め設定されたBGMデータは、例えばニュースに対して予め設定されたものであっても良いし、例えばニュースのジャンル毎やニュースの配信元毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部2は、上記BGM記録メモリ6から読み出したBGMデータを、BGM再生部8へ送る。
これにより、上記ミキサ部9でミックスされ、最終的にスピーカ11から出力される音声は、上述したように、「Aさんおはようございます。ガソリン税に関する午前9時のニュースです。」の演出用音声の後にニュース本文を読み上げた音声と、演出用のBGM音楽とがミックスされたものとなる。
上記テキストコンテンツに演出が加えられるさらに他の例として、テキストコンテンツが料理のレシピである場合、上記ユーザ情報は、例えば当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時と料理のレシピ中の各種時間となされる。
すなわち、当該料理のレシピをテキスト−音声により読み上げて音声出力することがユーザにより指示された場合、演出判断部2は、例えば、ユーザ情報記録メモリ4から使用者情報を取り出し、また、日時記録部5から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部2は、テキストコンテンツ記録メモリ3に記録されている料理のレシピのデータから、その料理のタイトルを表すテキストデータと、料理の手順を説明するテキストデータを生成する。そして、演出判断部2は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「A」で、現在日時が例えば「昼」の時間帯、料理のタイトルが例えば「ハンバーグ」であるような場合、演出判断部2は、一例として「Aさんこんにちは。美味しいハンバーグを作りましょう。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部2は、上述の演出用のテキストデータを、料理の手順を説明するテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部7へ送る。また特に、料理の手順のように、ハンバーグを焼く時間などのように途中で或る時間を計測する必要がある場合、演出判断部2は、その時間のカウントも行う。その他に、料理のレシピを読み上げる擬人化されたキャラクタ「C」等が設定されているような場合には、一例として、「美味しいハンバーグの作り方を、私Cがお伝えします。」などの上記演出用のテキストデータを付け加えるようにしても良い。
また同時に、演出判断部2は、料理レシピのコンテンツについて予め設定してあるか、若しくはランダムに設定されているBGMのデータを、BGM記録メモリ6から読み出す。なお、料理レシピのコンテンツについて予め設定されたBGMデータは、例えばその料理レシピに対して予め設定されたものであっても良いし、例えば料理のジャンル毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部2は、上記BGM記録メモリ6から読み出したBGMデータを、BGM再生部8へ送る。
これにより、上記ミキサ部9でミックスされ、最終的にスピーカ11から出力される音声は、上述したように、「Aさんこんにちは。美味しいハンバーグを作りましょう。」の演出用音声の後に料理の手順の説明文を読み上げた音声と、演出用のBGM音楽とがミックスされたものとなる。
なお、本発明実施形態において、上記演出判断部2がテキストコンテンツに付け加える演出は、上述した具体例の他にも多種多様の演出が可能であるが、冗長になるため、ここではそれら全てについて説明することは行わないこととする。
また、本実施形態では、上述したようなテキスト−音声変換によるテキスト読み上げの処理が行われている時に、例えばユーザから音声による指示入力等がなされた場合には、その指示入力に従って、テキスト読み上げの一時停止や再開、終了、繰り返し、別のテキストコンテンツの読み上げへの移行などが行われる。すなわち、音声認識・ユーザ指示判定部10は、マイクロフォン等を通じて入力された音声についていわゆる音声認識を行い、その音声認識結果からユーザの指示入力内容を判定し、その指示入力内容を演出判断部2へ伝える。これにより、演出判断部2は、ユーザから上記一時停止、再開、終了、繰り返し、別のテキストコンテンツの読み上げへの移行などの何れの指示がなされたかを判断し、その指示に応じた処理を行う。
〔テキスト−音声変換処理のフロー〕
図2には、本実施形態の携帯電話端末において、テキストコンテンツの選択から、当該コンテンツへの演出の付加までの処理の流れを示す。なお、この図2に示したフローチャートの処理は、演出判断部2が本発明の音声合成プログラムを実行することにより行われる処理である。
図2において、演出判断部2は、音声合成プログラムの起動後、コンテンツ選択インターフェース部1からの入力待ち状態となる。そして、ステップS1の処理として、当該コンテンツ選択インターフェース部1を通じてユーザにより何れかのテキストコンテンツの選択指示が入力されると、演出判断部2は、その選択指示に応じたテキストコンテンツをテキストコンテンツ記録メモリ3から読み出す。
次に、ステップS2の処理として、演出判断部2は、そのテキストコンテンツに関連したユーザ情報がユーザ情報記録メモリ4内に設定されているか判断する。そして、演出判断部2は、上記ユーザ情報が設定されている時にはステップS3へ処理を進め、設定されていないときにはステップS4へ処理を進める。
ステップS3の処理に進むと、演出判断部2は、前述したように、そのユーザ情報に応じたテキストデータをテキスト音声変換再生部7へ送って音声化させるようにする。
一方、ステップS4の処理に進むと、演出判断部2は、上記テキストコンテンツに関連した日時情報が日時記録部5に設定されているか判断する。そして、演出判断部2は、上記日時情報が設定されている時にはステップS5へ処理を進め、設定されていないときにはステップS6へ処理を進める。
ステップS5の処理に進むと、演出判断部2は、前述したように、その日時情報に応じたテキストデータをテキスト音声変換再生部7へ送って音声化させるようにする。
一方、ステップS6の処理に進むと、演出判断部2は、上記テキストコンテンツの例えば種類を判定し、次のステップS7へ処理を進める。
ステップS7の処理に進んだ場合、演出判断部2は、上記テキストコンテンツの種類に関連したBGMデータがBGM記録メモリ6に設定されているか判断する。そして、演出判断部2は、上記BGMデータが設定されている時にはステップS8へ処理を進め、設定されていないときにはステップS9へ処理を進める。
ステップS8の処理に進むと、演出判断部2は、前述したように、そのBGMデータをBGM記録メモリ6から読み出してBGM再生部8へ送って再生させるようにする。
一方、ステップS9の処理に進むと、演出判断部2は、BGMをランダム選曲する設定がなされているか判断する。そして、演出判断部2は、上記ランダム選曲が設定されている時にはステップS10へ処理を進め、設定されていないときにはステップS11へ処理を進める。
ステップS10の処理に進むと、演出判断部2は、BGM記録メモリ6からランダムに選び出したBGMデータをBGM再生部8へ送って再生させるようにする。
一方、ステップS11の処理に進むと、演出判断部2は、上記テキストコンテンツのデータをテキスト音声変換再生部7へ送り、音声化させるようにする。
その後、演出判断部2は、ステップS12の処理として、上記テキスト音声変換再生部7で前述のようにテキストが音声化された音声信号をミキサ部9へ出力させ、同時に、BGM再生部8で再生させたBGM音声信号をミキサ部9へ出力させる。これにより、ミキサ部9では、テキストから変換された音声信号とBGM音声信号とが合成されることになり、その合成音声がスピーカ11から出力されることになる。
〔ネットワーク上の情報を用いた音声合成装置の概略的な内部構成〕
前述したユーザ情報や日時情報、テキストコンテンツ、BGMデータは、例えばネットワーク上のサーバ等に用意されていても良い。
図3には、それら情報をネットワーク上に用意した場合の音声合成装置の概略的な内部構成例を示す。なお、図3において、図1と同じ構成要素にはそれぞれ同じ指示符号を付して適宜それらの説明は省略する。
図3の構成例の場合、本発明の音声合成装置の一例である携帯電話端末は、コンテンツ選択インターフェース部1、演出判断部2、テキスト音声変換再生部7、BGM再生部8、ミキサ部9、音声認識・ユーザ指示判定部10、及び、スピーカ又はヘッドフォン11を有して構成されている。すなわち、この図3の構成例の場合、テキストコンテンツはネットワーク上のテキストコンテンツ記録装置23に用意されている。同様に、テキストコンテンツに関連付けられたユーザ情報はネットワーク上のユーザ情報記録装置24に、テキストコンテンツに関連付けられた日時情報はネットワーク上の日時記録装置25に用意されている。また、BGMデータについても、ネットワーク上のBGM記録装置26に用意されている。これらテキストコンテンツ記録装置23、ユーザ情報記録装置24、日時記録装置25、BGM記録装置26は、例えばサーバからなり、図示しないネットワークインターフェース部を介して演出判断部2に接続可能となされている。
この図3の構成例において、テキストコンテンツの選択やそのテキストコンテンツへの演出の付加、それらを音声化した音声信号とBGMの合成の処理については上述の図1及び図2の例と同様である。但し、この例の場合は、テキストコンテンツ記録装置23、ユーザ情報記録装置24、日時記録装置25、BGM記録装置26と、演出判断部2との間のデータのやり取りは、ネットワークインターフェース部を通じて行われる。
なお、インターネット上のウェブページのコンテンツを取得するような場合において、演出判断部2は、そのウェブページの例えばURL(Uniform Resource Locator)に含まれる情報を基に、そのページから取得されるコンテンツの種類を判断することもできる。そして、演出判断部2は、BGM選曲の際に、当該コンテンツの種類に応じたBGMを選ぶようなことが可能となる。一例を挙げて説明すると、例えばニュースのウェブページの場合、そのページのURL内には「news」等の文字が記述されていることが多い。したがって、演出判断部2は、当該URL内に「news」等の文字を検出した場合には、そのウェブページから得られるコンテンツはニュースのジャンルに含まれると判断する。そして、演出判断部2は、BGM記録装置26からBGMデータを取得する際には、当該ニュースのコンテンツに関連して予め設定したBGMデータを選択する。その他にも、URLではなく、ウェブページ内に記載された文字等(news等)からコンテンツの種類を判断するようにしても良い。
また一般に、インターネットブラウザ画面には、ユーザがジャンル等により分けたフォルダ(いわゆるブックマークのフォルダ)内にURLが登録されていることが多い。したがって、インターネットのウェブページからコンテンツを取得する場合、演出判断部2は、何れのフォルダ内のURLによりウェブページが表示されたかどうかを監視することにより、そのウェブページから得られるコンテンツのジャンル等を判断することも可能である。
〔ホームオーディオシステムとの連携による音声合成〕
テキスト−音声変換された音声とBGMとの合成は、例えばテキスト−音声変換された音声用のスピーカから出力された音声と、BGM用のスピーカから出力された音声とを、空気中で合成することにより実現しても良い。
すなわち例えば、テキスト−音声変換された音声については例えば携帯電話端末のスピーカから出力し、一方、BGMについては例えばホームオーディオシステムのスピーカから出力させるようにすれば、それら音声は空気中で合成されることになる。
この例の場合、携帯電話端末には、少なくとも、コンテンツ選択インターフェース部、演出判断部、テキスト音声変換再生部が設けられる。なお、日時情報やユーザ情報、テキストコンテンツは、図1の例のように携帯電話端末内に記録されていても良いし、図3の例のようにネットワーク上に用意されていても良い。
一方、BGM記録装置とBGM再生装置は、例えばホームオーディオシステムを構成する装置の一つとなされる。なお、BGMデータは、携帯電話端末内に記録されていて、前述のように選択されたBGMデータが、例えば無線通信などにより当該携帯電話端末からホームオーディオシステムのBGM再生装置へ転送されても良い。
その他にも、例えば携帯電話端末には、コンテンツ選択インターフェース部と演出判断部のみ用意し、テキスト−音声変換についてはテキスト音声変換装置が行い、当該テキスト音声変換装置からの音声信号と、ホームオーディオシステムのBGM再生装置からのBGM再生音楽信号を、同じくホームオーディオシステムのミキサ装置により合成して、当該ホームオーディオシステムのスピーカから出力するようにしても良い。
〔まとめ〕
以上説明したように、本実施形態によれば、テキストコンテンツの音声読み上げ指示がなされた時、そのコンテンツに関連したユーザ情報や日時情報、BGM情報が選択され、それらユーザ情報,日時情報,BGM情報により、上記テキストコンテンツの読み上げ音声に演出が付加されることにより、聞く人に機械的な印象を与えることなく、表現力が豊かな読み上げ音声出力を得ることができる。また、コンテンツに付加される演出は、そのコンテンツに関連したユーザ情報や日時情報に基づいた演出となされているため、聞く人にとって或る程度有益な演出等が施された読み上げ音声が得られることになる。
なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることはもちろんである。
上述した実施形態において、テキストコンテンツを読み上げる際の言語は、何れかの一つの言語に限定されず、日本語、英語、フランス語、ドイツ語、ロシア語、アラビア語、中国語など何れの言語であっても良い。
本発明実施形態の音声合成装置の概略的な内部構成例を示すブロック図である。 テキストコンテンツの選択から演出の付加までの処理の流れを示すフローチャートである。 ユーザ情報,日時情報,テキストコンテンツ,BGMデータ等をネットワーク上のサーバ等に用意した場合の音声合成装置の概略的な内部構成例を示すブロック図である。
符号の説明
1 コンテンツ選択インターフェース部、2 演出判断部、3 テキストコンテンツ記録メモリ、4 ユーザ情報記録メモリ、5 日時記録部、6 BGM記録メモリ、7 テキスト音声変換再生部、8 BGM再生部、9 ミキサ部、10 音声認識・ユーザ指示判定部、11 スピーカ、23 テキストコンテンツ記録装置、24 ユーザ情報記録装置、25 日時記録装置、26 BGM記録装置

Claims (13)

  1. 音声変換するテキストコンテンツを選択するコンテンツ選択部と、
    上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
    上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
    上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
    上記テキスト音声変換部からの音声信号を出力する音声出力部と、
    を有する音声合成装置。
  2. 上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
    上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項1記載の音声合成装置。
  3. 上記関連情報選択部は、上記コンテンツ選択部にて選択可能な複数のテキストコンテンツに関連付けられて予め記録された複数の関連情報の中から、上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた上記関連情報を選択する請求項1又は請求項2記載の音声合成装置。
  4. 上記コンテンツ選択部は、ネットワーク上の複数のテキストコンテンツの中から所望のテキストコンテンツを選択し、
    上記関連情報選択部は、上記コンテンツ選択部にて選択可能な複数のテキストコンテンツに関連付けられてネットワーク上に用意された複数の関連情報の中から、上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた上記関連情報を選択する請求項1又は請求項2記載の音声合成装置。
  5. 音声変換するテキストコンテンツを、コンテンツ選択部が選択するステップと、
    上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を、関連情報選択部が選択するステップと、
    データ付加部が、上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するステップと、
    上記データ付加部からのテキストデータを、テキスト音声変換部が音声信号に変換するステップと、
    音声出力部が、上記テキスト音声変換部からの音声信号を出力するステップと、
    を有する音声合成方法。
  6. 上記関連情報選択部が、上記選択されたテキストコンテンツに関連付けられた音楽データを選択するステップを有し、
    上記音声出力部が、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力するステップを有する請求項5記載の音声合成方法。
  7. 音声変換するテキストコンテンツを選択するコンテンツ選択部と、
    上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
    上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記テキスト選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
    上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
    上記テキスト音声変換部からの音声信号を出力する音声出力部として、
    コンピュータを機能させる音声合成プログラム。
  8. 上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
    上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項7記載の音声合成プログラム。
  9. ユーザからの指示入力を取得する指示入力部と、
    音声変換するテキストコンテンツを、上記ユーザからの指示入力に応じて選択するコンテンツ選択部と、
    上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
    上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
    上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
    上記テキスト音声変換部からの音声信号を出力する音声出力部と、
    を有する携帯情報端末。
  10. 上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
    上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項9記載の携帯情報端末。
  11. 音声変換するテキストコンテンツをユーザからの指示入力に応じて選択し、当該選択したテキストコンテンツに関連付けられた少なくともテキスト化可能な関連情報を選択し、当該選択された関連情報をテキスト化して、そのデータを上記ユーザの指示入力に応じて選択されたテキストコンテンツのテキストデータに付加する選択付加装置と、
    上記選択付加装置からのテキストデータを音声信号に変換するテキスト音声変換装置と、
    上記テキスト音声変換装置からの音声信号に応じた音声を空気中に出力する音声出力装置とを、
    少なくとも有する音声合成システム。
  12. 上記選択付加装置は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
    上記音声出力装置は、上記テキスト音声変換装置からの音声信号に上記音楽データの音声信号を合成し、その合成音声信号に応じた音声を出力する請求項11記載の音声合成システム。
  13. 上記選択付加装置は、上記選択されたテキストコンテンツに関連付けられた音楽信号を選択し、
    上記音声出力装置は、上記テキスト音声変換装置からの音声信号に応じた音声を空気中に出力する装置と、上記選択付加装置からの音楽信号に応じた音声を空気中に出力装置とからなる請求項11記載の音声合成システム。
JP2008113202A 2008-04-23 2008-04-23 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム Pending JP2009265279A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2008113202A JP2009265279A (ja) 2008-04-23 2008-04-23 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
US12/411,031 US9812120B2 (en) 2008-04-23 2009-03-25 Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
EP09156866.7A EP2112650B8 (en) 2008-04-23 2009-03-31 Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
EP16168765.2A EP3086318B1 (en) 2008-04-23 2009-03-31 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and portable information terminal
CN2009101345944A CN101567186B (zh) 2008-04-23 2009-04-23 语音合成装置、方法、系统以及便携式信息终端
US15/719,106 US10720145B2 (en) 2008-04-23 2017-09-28 Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008113202A JP2009265279A (ja) 2008-04-23 2008-04-23 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム

Publications (1)

Publication Number Publication Date
JP2009265279A true JP2009265279A (ja) 2009-11-12

Family

ID=40636977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008113202A Pending JP2009265279A (ja) 2008-04-23 2008-04-23 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム

Country Status (4)

Country Link
US (2) US9812120B2 (ja)
EP (2) EP3086318B1 (ja)
JP (1) JP2009265279A (ja)
CN (1) CN101567186B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065620A (zh) * 2012-12-27 2013-04-24 安徽科大讯飞信息科技股份有限公司 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
US9159313B2 (en) 2012-04-03 2015-10-13 Sony Corporation Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放系统、其播放方法及可读记录介质
JP2020086028A (ja) * 2018-11-20 2020-06-04 東京瓦斯株式会社 情報処理装置およびプログラム
JP2020135212A (ja) * 2019-02-15 2020-08-31 東芝ホームテクノ株式会社 レシピ情報提供システム
JP2020201435A (ja) * 2019-06-12 2020-12-17 株式会社ポニーキャニオン 情報処理端末及び情報処理方法
JP2022534824A (ja) * 2019-09-18 2022-08-04 ヨプ リ,ジョン 多重音声システムが装着されたオンラインメディアサービス具現方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751562B2 (en) * 2009-04-24 2014-06-10 Voxx International Corporation Systems and methods for pre-rendering an audio representation of textual content for subsequent playback
US9842168B2 (en) * 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9754045B2 (en) * 2011-04-01 2017-09-05 Harman International (China) Holdings Co., Ltd. System and method for web text content aggregation and presentation
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
CN109036373A (zh) * 2018-07-31 2018-12-18 北京微播视界科技有限公司 一种语音处理方法及电子设备
US11410656B2 (en) * 2019-07-31 2022-08-09 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
US11494434B2 (en) 2019-07-31 2022-11-08 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
CN112331223A (zh) * 2020-11-09 2021-02-05 合肥名阳信息技术有限公司 一种给配音添加背景音乐的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109487A (ja) * 1999-10-07 2001-04-20 Matsushita Electric Ind Co Ltd 電子メールの音声再生装置、その音声再生方法、及び音声再生プログラムを記録した記録媒体
JP2006323827A (ja) * 2005-04-18 2006-11-30 Ricoh Co Ltd 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
JP2007087267A (ja) * 2005-09-26 2007-04-05 Nippon Telegr & Teleph Corp <Ntt> 音声ファイル生成装置、音声ファイル生成方法およびプログラム

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5671158A (en) * 1995-09-18 1997-09-23 Envirotest Systems Corp. Apparatus and method for effecting wireless discourse between computer and technician in testing motor vehicle emission control systems
JP3847838B2 (ja) 1996-05-13 2006-11-22 キヤノン株式会社 情報処理方法及び装置
JPH10290256A (ja) 1997-04-15 1998-10-27 Casio Comput Co Ltd 受信電子メールの報告装置及び記憶媒体
US6446040B1 (en) 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
JP2000081892A (ja) 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
JP2000250574A (ja) 1999-03-03 2000-09-14 Sony Corp コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法
US6554188B1 (en) * 1999-04-13 2003-04-29 Electronic Data Holdings Limited Terminal for an active labelling system
JP2001005688A (ja) 1999-06-24 2001-01-12 Hitachi Ltd 並列プログラム用デバッグ支援装置
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP2001051688A (ja) 1999-08-10 2001-02-23 Hitachi Ltd 音声合成を用いた電子メール読み上げ装置
JP2001117828A (ja) 1999-10-14 2001-04-27 Fujitsu Ltd 電子装置及び記憶媒体
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
JP3850616B2 (ja) 2000-02-23 2006-11-29 シャープ株式会社 情報処理装置および情報処理方法、ならびに情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
JP4392956B2 (ja) 2000-05-17 2010-01-06 シャープ株式会社 電子メール端末装置
US6823311B2 (en) * 2000-06-29 2004-11-23 Fujitsu Limited Data processing system for vocalizing web content
JP3635230B2 (ja) 2000-07-13 2005-04-06 シャープ株式会社 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体
US7233940B2 (en) * 2000-11-06 2007-06-19 Answers Corporation System for processing at least partially structured data
US7640163B2 (en) * 2000-12-01 2009-12-29 The Trustees Of Columbia University In The City Of New York Method and system for voice activating web pages
JP4225703B2 (ja) * 2001-04-27 2009-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報アクセス方法、情報アクセスシステムおよびプログラム
JP2002354111A (ja) 2001-05-30 2002-12-06 Sony Corp 音声信号合成装置、方法、プログラムおよび該プログラムを記録した記録媒体
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US20030023688A1 (en) * 2001-07-26 2003-01-30 Denenberg Lawrence A. Voice-based message sorting and retrieval method
US20040030554A1 (en) * 2002-01-09 2004-02-12 Samya Boxberger-Oberoi System and method for providing locale-specific interpretation of text data
US7324942B1 (en) * 2002-01-29 2008-01-29 Microstrategy, Incorporated System and method for interactive voice services using markup language with N-best filter element
JP2003223181A (ja) 2002-01-29 2003-08-08 Yamaha Corp 文字−音声変換装置およびそれを用いた携帯端末装置
US6999930B1 (en) * 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
JP2004198488A (ja) 2002-12-16 2004-07-15 Casio Comput Co Ltd 電子装置
JP2004240217A (ja) 2003-02-06 2004-08-26 Ricoh Co Ltd 文書/音声変換装置および文書/音声変換方法
US7653698B2 (en) * 2003-05-29 2010-01-26 Sonicwall, Inc. Identifying e-mail messages from allowed senders
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
JP2005043968A (ja) 2003-07-22 2005-02-17 Canon Inc 通信装置、音声読出方法、制御プログラム、及び記憶媒体
JP2005106905A (ja) 2003-09-29 2005-04-21 Matsushita Electric Ind Co Ltd 音声出力システムおよびサーバ装置
JP2005135169A (ja) * 2003-10-30 2005-05-26 Nec Corp 携帯端末およびデータ処理方法
JP2005221289A (ja) 2004-02-04 2005-08-18 Nissan Motor Co Ltd 車両用経路誘導装置及び方法
CN1655634A (zh) * 2004-02-09 2005-08-17 联想移动通信科技有限公司 移动装置的显示信息的话音装置及其实现方法
DE102004061782B4 (de) * 2004-03-04 2015-05-07 Volkswagen Ag Kraftfahrzeug mit einem Instant-Messaging-Kommunikationssystem
JP4296598B2 (ja) * 2004-04-30 2009-07-15 カシオ計算機株式会社 通信端末装置および通信端末処理プログラム
JP2005321730A (ja) * 2004-05-11 2005-11-17 Fujitsu Ltd 対話システム、対話システム実行方法、及びコンピュータプログラム
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
DE102004050785A1 (de) * 2004-10-14 2006-05-04 Deutsche Telekom Ag Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
US20060161850A1 (en) * 2004-12-14 2006-07-20 John Seaberg Mass personalization of messages to enhance impact
US7555713B2 (en) * 2005-02-22 2009-06-30 George Liang Yang Writing and reading aid system
EP1856628A2 (en) * 2005-03-07 2007-11-21 Linguatec Sprachtechnologien GmbH Methods and arrangements for enhancing machine processable text information
ATE449399T1 (de) * 2005-05-31 2009-12-15 Telecom Italia Spa Bereitstellung von sprachsynthese auf benutzerendgeräten über ein kommunikationsnetz
JP4675691B2 (ja) 2005-06-21 2011-04-27 三菱電機株式会社 コンテンツ情報提供装置
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
CN100487788C (zh) * 2005-10-21 2009-05-13 华为技术有限公司 一种实现文语转换功能的方法
US9361299B2 (en) 2006-03-09 2016-06-07 International Business Machines Corporation RSS content administration for rendering RSS content on a digital audio player
US9037466B2 (en) * 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
US20070239856A1 (en) * 2006-03-24 2007-10-11 Abadir Essam E Capturing broadcast sources to create recordings and rich navigations on mobile media devices
US7870142B2 (en) * 2006-04-04 2011-01-11 Johnson Controls Technology Company Text to grammar enhancements for media files
ES2359430T3 (es) * 2006-04-27 2011-05-23 Mobiter Dicta Oy Procedimiento, sistema y dispositivo para la conversión de la voz.
KR100699050B1 (ko) * 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
US8032378B2 (en) * 2006-07-18 2011-10-04 Stephens Jr James H Content and advertising service using one server for the content, sending it to another for advertisement and text-to-speech synthesis before presenting to user
WO2008010413A1 (fr) * 2006-07-21 2008-01-24 Nec Corporation Dispositif, procédé et programme de synthèse audio
JP4843455B2 (ja) 2006-10-30 2011-12-21 株式会社エヌ・ティ・ティ・ドコモ 整合回路、マルチバンド増幅器
US7415409B2 (en) * 2006-12-01 2008-08-19 Coveo Solutions Inc. Method to train the language model of a speech recognition system to convert and index voicemails on a search engine
FR2910143B1 (fr) * 2006-12-19 2009-04-03 Eastman Kodak Co Procede pour predire automatiquement des mots dans un texte associe a un message multimedia
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
US20090055187A1 (en) * 2007-08-21 2009-02-26 Howard Leventhal Conversion of text email or SMS message to speech spoken by animated avatar for hands-free reception of email and SMS messages while driving a vehicle
US20140304228A1 (en) * 2007-10-11 2014-10-09 Adobe Systems Incorporated Keyword-Based Dynamic Advertisements in Computer Applications
US9241063B2 (en) * 2007-11-01 2016-01-19 Google Inc. Methods for responding to an email message by call from a mobile device
US20090235312A1 (en) * 2008-03-11 2009-09-17 Amir Morad Targeted content with broadcast material
US8370148B2 (en) * 2008-04-14 2013-02-05 At&T Intellectual Property I, L.P. System and method for answering a communication notification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109487A (ja) * 1999-10-07 2001-04-20 Matsushita Electric Ind Co Ltd 電子メールの音声再生装置、その音声再生方法、及び音声再生プログラムを記録した記録媒体
JP2006323827A (ja) * 2005-04-18 2006-11-30 Ricoh Co Ltd 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
JP2007087267A (ja) * 2005-09-26 2007-04-05 Nippon Telegr & Teleph Corp <Ntt> 音声ファイル生成装置、音声ファイル生成方法およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159313B2 (en) 2012-04-03 2015-10-13 Sony Corporation Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis
CN103065620A (zh) * 2012-12-27 2013-04-24 安徽科大讯飞信息科技股份有限公司 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放系统、其播放方法及可读记录介质
JP2020056996A (ja) * 2018-08-16 2020-04-09 國立臺灣科技大學 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
JP2020086028A (ja) * 2018-11-20 2020-06-04 東京瓦斯株式会社 情報処理装置およびプログラム
JP7284571B2 (ja) 2018-11-20 2023-05-31 東京瓦斯株式会社 情報処理装置およびプログラム
JP2020135212A (ja) * 2019-02-15 2020-08-31 東芝ホームテクノ株式会社 レシピ情報提供システム
JP7308620B2 (ja) 2019-02-15 2023-07-14 東芝ホームテクノ株式会社 レシピ情報提供システム
JP2020201435A (ja) * 2019-06-12 2020-12-17 株式会社ポニーキャニオン 情報処理端末及び情報処理方法
JP2022534824A (ja) * 2019-09-18 2022-08-04 ヨプ リ,ジョン 多重音声システムが装着されたオンラインメディアサービス具現方法
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法

Also Published As

Publication number Publication date
US9812120B2 (en) 2017-11-07
US20090271202A1 (en) 2009-10-29
CN101567186B (zh) 2013-01-02
US20180018956A1 (en) 2018-01-18
EP2112650B1 (en) 2016-06-15
EP2112650A1 (en) 2009-10-28
US10720145B2 (en) 2020-07-21
EP3086318A1 (en) 2016-10-26
EP3086318B1 (en) 2019-10-23
EP2112650B8 (en) 2016-07-27
CN101567186A (zh) 2009-10-28

Similar Documents

Publication Publication Date Title
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
JP4651613B2 (ja) マルチメディアおよびテキストエディタを用いた音声起動メッセージ入力方法および装置
CN101295504B (zh) 用于仅文本的应用的娱乐音频
US8645140B2 (en) Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
KR101513888B1 (ko) 멀티미디어 이메일 합성 장치 및 방법
JPWO2008001500A1 (ja) 音声コンテンツ生成システム、情報交換システム、プログラム、音声コンテンツ生成方法及び情報交換方法
US20060210028A1 (en) System and method for personalized text-to-voice synthesis
JP2005223928A (ja) コネクテッド・クロック・ラジオ
JP2003521750A (ja) スピーチシステム
US20060224385A1 (en) Text-to-speech conversion in electronic device field
US20040098266A1 (en) Personal speech font
JP4075349B2 (ja) 電子書籍装置および電子書籍データ表示制御方法
EP2224426B1 (en) Electronic Device and Method of Associating a Voice Font with a Contact for Text-To-Speech Conversion at the Electronic Device
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP2004294577A (ja) 文字情報音声変換方法
JP2002108378A (ja) 文書読み上げ装置
JP2006127443A (ja) 電子メール送信端末および電子メールシステム
JP2006301063A (ja) コンテンツ提供システム、コンテンツ提供装置および端末装置
JP2005107320A (ja) 音声再生用データ生成装置
JP2022185174A (ja) メッセージサービス提供方法、メッセージサービス提供プログラム及びメッセージサービスシステム
JP4775236B2 (ja) 音声合成装置
CN103200309A (zh) 用于仅文本的应用的娱乐音频
JP2006012056A (ja) 携帯端末装置、電子メール読み上げ方法、制御プログラムおよび記憶媒体
KR20010108566A (ko) 온라인을 통한 음성 메일 전송 방법 및 그 프로그램 저장매체
JPH09251373A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110328

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120419

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130507

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130531