JP4082249B2 - Content distribution system - Google Patents
Content distribution system Download PDFInfo
- Publication number
- JP4082249B2 JP4082249B2 JP2003070717A JP2003070717A JP4082249B2 JP 4082249 B2 JP4082249 B2 JP 4082249B2 JP 2003070717 A JP2003070717 A JP 2003070717A JP 2003070717 A JP2003070717 A JP 2003070717A JP 4082249 B2 JP4082249 B2 JP 4082249B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- content
- phonetic symbol
- string
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声を出力させるコンテンツを端末装置に配信する音声コンテンツ配信システムと、この音声コンテンツ配信システムに適用されるコンテンツ配信装置、音声情報変換装置、端末装置、コンテンツ配信プログラム、音声情報変換プログラムおよびコンテンツ出力プログラムに関する。
【0002】
【従来の技術】
端末装置(以下、端末と記す。)にコンテンツを配信して、端末の使用者にコンテンツを閲覧させるサービスが普及している。コンテンツとしては、画像や文字等を端末に表示させるコンテンツが多い。しかし、音声を出力させるコンテンツを配信し、端末において音声を出力するシステムも種々提案されている。
【0003】
例えば、特許文献1では、表音文字列を要求する記述を含むハイパーテキストをクライアントに送信するシステムが提案されている。特許文献1に記載のシステムにおいて、クライアントは、受信したハイパーテキスト内に表音文字列を要求する記述が含まれている場合、サーバに表音文字列を要求する。そして、クライアントは、サーバから表音文字列の情報を受信し、その表音文字列に従って音声を出力する。
【0004】
また、特許文献2では、テキストデータ等の音声合成目的データを端末がダウンロードし、ダウンロードしたデータに基づいて、端末が音声を読み上げるシステムが提案されている。特許文献2には、端末の使用者が希望するキャラクタ音声の音素データを端末がダウンロードし、端末がそのキャラクタ音声でテキストデータ等を読み上げることについても記載されている。また、端末が音声合成処理プログラムや画像データをダウンロードする場合についても記載されている。
【0005】
また、音声処理を行うためのマークアップ言語であるVoiceXMLを利用したシステムも提案されている(例えば、特許文献3)。特許文献3に記載のシステムでは、VoiceXMLを利用した記述に基づいて、音声対話サーバが音声を生成し、その音声を電話回線を介して端末に送信する。また、音声対話サーバが音声と同期させて、画面表示データを端末に送信する。
【0006】
以下の説明において、端末が出力音声を特定するためのデータを発音記号列と記す。
【0007】
【特許文献1】
特開2001−43064号公報(段落0024−0132、第1−21図)
【0008】
【特許文献2】
特開2002−328694号公報(段落0038−0132、第1−74図)
【0009】
【特許文献3】
特開2002−318132号公報(段落0016−0051、第1−9図)
【0010】
【発明が解決しようとする課題】
特許文献1に記載のシステムでは、クライアントは、サーバからハイパーテキストを受信し、そのハイパーテキスト内に表音文字列を要求する記述が含まれている場合、サーバに表音文字列を要求する。従って、クライアントは、コンテンツとなるハイパーテキストを受信しただけでは音声を出力できない。音声を出力する場合には、ハイパーテキストを受信した後、更にサーバに表音文字列を要求して表音文字列を受信する処理を行わなければならない。この結果、コンテンツとなるハイパーテキストを要求してから、音声の出力完了までに時間がかかってしまう。
【0011】
また、端末の種類によっては、発音記号列(例えば、特許文献1における表音文字列)の仕様が異なる場合もある。例えば、携帯電話機を端末として用いる場合、通信会社Aの携帯電話機と通信会社Bの携帯電話機とでは、発音記号列の仕様が異なる場合ある。コンテンツ提供者は、発音記号列の仕様が異なる複数の端末にコンテンツを提供しようとする場合、個々の仕様毎に発音記号列を作成しなければならない。このため、コンテンツ提供者の負担が大きくなってしまう。
【0012】
例えば、通信会社Aの携帯電話機の仕様では、「こんにちは」という音声を出力するためには「KONNICHIWA」という発音記号列を作成しなければならないとする。また、通信会社Bの携帯電話機の仕様では、「こんにちは」という音声を出力するためには「KON-NITIWA」という発音記号列を作成しなければならないとする。コンテンツ提供者が、「こんにちは」という音声を出力させるようなコンテンツを通信会社A,Bそれぞれの携帯電話機に提供する場合、「KONNICHIWA」および「KON-NITIWA」という複数の発音記号列を作成しておかなければならず、発音記号列を作成する負担が大きかった。
【0013】
特許文献1や特許文献2に記載のシステムでは、このようなコンテンツ提供者の負担は考慮されていない。そのため、発音記号列の仕様が異なる複数種類の端末にコンテンツを提供する場合、コンテンツ提供者の負担を軽減させることはできない。
【0014】
また、特許文献2に記載の端末は、音声に合致する画像を表示する場合、画像データを音声のデータとは別個にダウンロードしなければならない。また、特許文献3に記載のVoiceXMLを利用したシステムでは、音声対話サーバが音声に同期させて画面データを端末に送信しなければならない。
【0015】
そこで、本発明は、コンテンツを受信した端末が音声を出力するまでの時間を短縮することを目的とする。また、発音記号列の仕様が異なる複数種類の端末にコンテンツを提供する場合に、コンテンツ提供者の負担を軽減させることを目的とする。
【0016】
【課題を解決するための手段】
本発明によるコンテンツ配信システムは、コンテンツデータを配信するコンテンツ配信装置と、コンテンツ配信装置から受信したコンテンツデータに基づいてコンテンツを出力する端末装置とを備えたコンテンツ配信システムであって、コンテンツ配信装置は、音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、コンテンツデータ内の読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換するコンテンツ置換手段とを備え、端末装置は、コンテンツ配信装置から、発音記号列が記述されたコンテンツデータを受信するコンテンツ受信手段と、コンテンツデータから発音記号列を抽出する発音記号列抽出手段と、発音記号列に基づいて音声を出力する出力手段とを備え、前記コンテンツ置換手段は、前記コンテンツ入力手段に入力されたコンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、前記読み上げ文字列を発音記号列に変換する変換手段と、前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備え、前記コンテンツ受信手段は、発音記号列を示すタグとともに発音記号列が記述されたコンテンツデータをコンテンツ配信装置から受信し、発音記号列抽出手段は、発音記号列を示すタグとともに記述された文字列を発音記号列として抽出することを特徴とする。
【0018】
コンテンツ入力手段が、発音記号列の仕様を示す仕様情報が読み上げ文字列とともに記述されたコンテンツデータの入力を受け付け、読み上げ文字列抽出手段が、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、変換手段が、読み上げ文字列を、仕様情報が示す仕様に応じた発音記号列に変換することが好ましい。そのような構成によれば、コンテンツ提供者は、各仕様に応じた発音記号列を記述しなくてよいので、コンテンツ提供者の負担が軽減される。
【0019】
また、本発明によるコンテンツ配信システムは、コンテンツデータを配信するコンテンツ配信装置と、前記コンテンツ配信装置から受信したコンテンツデータに基づいてコンテンツを出力する端末装置と、音声として読み上げられるべき文字列である読み上げ文字列を発音記号列に変換する音声情報変換装置とを備えたコンテンツ配信システムであって、前記コンテンツ配信装置は、読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、前記コンテンツデータ内の読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換するコンテンツ置換手段とを備え、前記端末装置は、前記コンテンツ配信装置から、発音記号列が記述されたコンテンツデータを受信するコンテンツ受信手段と、前記コンテンツデータから発音記号列を抽出する発音記号列抽出手段と、前記発音記号列に基づいて音声を出力する出力手段とを備え、前記コンテンツ置換手段は、前記コンテンツ入力手段に入力されたコンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、前記読み上げ文字列を前記音声情報変換装置に送信する読み上げ文字列送信手段と、前記音声情報変換装置から発音記号列を受信し、前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備え、前記音声情報変換装置は、前記コンテンツ配信装置から読み上げ文字列を受信し、前記読み上げ文字列を発音記号列に変換する変換手段と、前記発音記号列を前記コンテンツ配信装置に送信する発音記号列送信手段とを備え、前記コンテンツ受信手段は、発音記号列を示すタグとともに発音記号列が記述されたコンテンツデータをコンテンツ配信装置から受信し、発音記号列抽出手段は、発音記号列を示すタグとともに記述された文字列を発音記号列として抽出することを特徴とする。そのような構成によれば、音声情報変換装置に処理が分散され、コンテンツ配信サーバの処理負荷を軽減させることができる。
【0020】
コンテンツ入力手段が、発音記号列の仕様を示す仕様情報が読み上げ文字列とともに記述されたコンテンツデータの入力を受け付け、読み上げ文字列抽出手段が、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、読み上げ文字列送信手段が、読み上げ文字列と仕様情報を音声情報変換装置に送信し、変換手段が、読み上げ文字列を、仕様情報が示す仕様に応じた発音記号列に変換することが好ましい。そのような構成によれば、コンテンツ提供者は、各仕様に応じた発音記号列を記述しなくてよいので、コンテンツ提供者の負担が軽減される。
【0029】
また、本発明によるコンテンツ配信装置は、端末装置にコンテンツデータを配信するコンテンツ配信装置であって、音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する変換手段と、コンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備えたことを特徴とする。
【0030】
コンテンツ入力手段は、発音記号列の仕様を示す仕様情報が読み上げ文字列とともに記述されたコンテンツデータの入力を受け付け、読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、変換手段は、読み上げ文字列を、仕様情報が示す仕様に応じた発音記号列に変換することが好ましい。そのような構成によれば、コンテンツ提供者は、各仕様に応じた発音記号列を記述しなくてよいので、コンテンツ提供者の負担が軽減される。
【0031】
また、本発明によるコンテンツ配信装置は、音声として読み上げられるべき文字列である読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する音声情報変換装置に接続され、端末装置にコンテンツデータを配信するコンテンツ配信装置であって、読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、読み上げ文字列抽出手段が抽出した読み上げ文字列を音声情報変換装置に送信する読み上げ文字列送信手段と、読み上げ文字列から変換された発音記号列を音声情報変換装置から受信し、コンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備えたことを特徴とする。
【0032】
コンテンツ入力手段は、発音記号列の仕様を示す仕様情報が読み上げ文字列とともに記述されたコンテンツデータの入力を受け付け、読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、読み上げ文字列送信手段は、読み上げ文字列と仕様情報を音声情報変換装置に送信することが好ましい。そのような構成によれば、コンテンツ提供者は、各仕様に応じた発音記号列を記述しなくてよいので、コンテンツ提供者の負担が軽減される。
【0039】
本発明によるコンテンツ配信プログラムは、端末装置にコンテンツデータを配信するコンテンツ配信装置に搭載されるコンテンツ配信プログラムであって、コンピュータに、音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付ける処理、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する処理、およびコンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理を実行させることを特徴とする。
【0040】
また、本発明によるコンテンツ配信プログラムは、音声として読み上げられるべき文字列である読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する音声情報変換装置に接続され、端末装置にコンテンツデータを配信するコンテンツ配信装置に搭載されるコンテンツ配信プログラムであって、コンピュータに、読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付ける処理、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、読み上げ文字列を音声情報変換装置に送信する処理、および読み上げ文字列から変換された発音記号列を音声情報変換装置から受信し、コンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理を実行させることを特徴とする。
【0044】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
【0045】
実施の形態1.
図1は、本発明による音声コンテンツ配信システムの第1の実施の形態を示すブロック図である。図1に示す音声コンテンツ配信システムは、コンテンツサーバ(コンテンツ配信装置)1と端末11とを備える。コンテンツサーバ1と端末11とは、通信ネットワーク21を介して接続される。以下、通信ネットワーク21がインターネットである場合を例に説明するが、通信ネットワーク21はインターネットに限定されない。例えば、通信ネットワーク21は、LAN、WAN等であってもよい。
【0046】
コンテンツサーバ1は、発音記号列を含むコンテンツのデータを端末11に送信する情報処理装置である。コンテンツは、マークアップ言語によって記述される。以下、マークアップ言語によって記述されたコンテンツのデータをコンテンツデータと記す。端末11は、コンテンツサーバ1からコンテンツデータを受信し、コンテンツデータに含まれる発音記号列に基づいて音声を出力する。また、端末11は、コンテンツデータの記述に従って画像を表示してもよい。
【0047】
なお、コンテンツデータに記述される発音記号列は、音素文字の文字列であっても、音節文字の文字列であってもよい。
【0048】
図1では一台の端末11を示したが、コンテンツサーバ1に複数の端末11が接続されてもよい。さらに、発音記号列の仕様が異なる複数種類の端末がコンテンツサーバ1に接続されてもよい。
【0049】
コンテンツサーバ1に入力されるコンテンツデータは、端末11において音声として読み上げられるべき文字列(以下、読み上げ文字列と記す。)を含む。読み上げ文字列は、コンテンツが配信される端末11の発音記号列の仕様に従って記述される必要はない。例えば、端末11が発音記号列の仕様として「ローマ字綴りであること」を要求している場合であっても、読み上げ文字列は漢字や仮名等で記述されていてよい。また、複数種類の端末がそれぞれ異なる発音記号列の仕様を要求している場合であっても、読み上げ文字列は各仕様に従っていなくてよい。コンテンツサーバ1は、読み上げ文字列が記述されたコンテンツデータの入力を受け付けると、コンテンツデータ内の読み上げ文字列を、指定された仕様の発音記号列に置換する。その後、コンテンツサーバ1は、端末11からの要求に応じてコンテンツデータを送信する。
【0050】
なお、コンテンツデータにおいて、読み上げ文字列として記述される文字列は、その文字列が読み上げ文字列であることを示すタグとともに記述される。さらに、その読み上げ文字列をどのような仕様の発音記号列に変換すべきかを示す識別情報も、読み上げ文字列およびタグとともに記述される。
【0051】
また、読み上げ文字列が発音記号列に置換された場合、発音記号列として記述される文字列は、その文字列が発音記号列であることを示すタグとともに記述される。
【0052】
図1に示すコンテンツ入力部2は、コンテンツ提供者から、コンテンツデータの入力を受け付ける。読み上げ文字列抽出置換部3は、入力されるコンテンツデータの中から読み上げ文字列および識別情報を抽出する処理や、コンテンツデータ内の読み上げ文字列を発音記号列に置換する処理を行う。変換部4は、読み上げ文字列に含まれる個々の文字や単語と発音記号列との対応関係を示す辞書データを記憶する記憶装置(図1において図示せず。)を含む。この記憶装置は、発音記号列の各仕様毎に辞書データを記憶する。変換部4は、この辞書データを用いて、読み上げ文字列から発音記号列への変換処理を行う。変換部4は、どの仕様に従う発音記号列に変換すべきかを識別情報に基づいて判定する。読み上げ文字列抽出置換部3は、変換部4によって変換された発音記号列を用いて、コンテンツデータ内の読み上げ文字列を発音記号列に置換する。コンテンツ送信部5は、端末11からの要求に応じて、置換後のコンテンツデータを端末11に送信する。
【0053】
端末11におけるコンテンツ受信部12は、コンテンツサーバ1からコンテンツデータを受信する。発音記号列抽出部13は、コンテンツ受信部12が受信したコンテンツデータの中から発音記号列を抽出する。音声生成部14は、発音記号列抽出部13が抽出した発音記号列に基づいて音声信号を生成する。音声出力部15は、音声生成部13が生成した音声信号に基づいて音声を出力する。なお、端末11は、コンテンツを表示する表示部(ディスプレイ装置)を備えていてもよい。
【0054】
図2は、本発明の第1の実施の形態の具体的な構成例を示すブロック図である。図2において、コンテンツサーバ1の制御部6は、記憶装置7が記憶するコンテンツ配信プログラムに従って処理を実行する。具体的には、制御部6は、コンテンツデータの入力受け付け処理、コンテンツデータの中から読み上げ文字列および識別情報を抽出する処理、その読み上げ文字列から発音記号列への変換処理、コンテンツデータ内の読み上げ文字列を発音記号列に置換する処理、端末11へのコンテンツデータ送信処理を実行する。ネットワークインタフェース部8は、インターネット21を介してコンテンツデータの送受信を行う。記憶装置7は、コンテンツ配信プログラムのほかに、辞書データを記憶する。また、一時記憶装置9は、コンテンツデータから抽出される読み上げ文字列、識別情報や、変換処理によって得られる発音記号列を一時的に記憶する記憶装置である。
【0055】
なお、制御部6は、例えば、インターネット21およびネットワークインタフェース部8を介して、コンテンツ提供者の端末(図示せず。)からコンテンツデータを受信することにより、コンテンツデータの入力を受け付ける。
【0056】
記憶装置7は、コンピュータに、音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付ける処理、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する処理、およびコンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理を実行させるためのコンテンツ配信プログラムを記憶する。
【0057】
また、端末11の制御部16は、記憶装置17が記憶するコンテンツ出力プログラムに従って処理を実行する。具体的には、制御部16は、コンテンツサーバ1からのコンテンツデータ受信処理、コンテンツデータからの発音記号列抽出処理、音声記号列に基づく音声信号生成処理、音声を出力させる処理を実行する。ネットワークインタフェース部8は、インターネット21を介して、コンテンツデータの要求の送信や、コンテンツデータの受信を行う。音声出力装置19は、スピーカ等の音声出力装置であり、音声を出力する。一時記憶装置20は、受信したコンテンツデータや、コンテンツデータから抽出される発音記号列を一時的に記憶する記憶装置である。
【0058】
記憶装置17は、コンピュータに、出力音声を特定するためのデータである発音記号列が記述されたコンテンツデータをコンテンツ配信装置から受信する処理、コンテンツデータから発音記号列を抽出する処理、および発音記号列に基づいて音声を出力する処理を実行させるためのコンテンツ出力プログラムを記憶する。
【0059】
音声コンテンツ配信システムを図2に示すような構成とした場合、読み上げ文字列抽出置換部3は、コンテンツサーバ1の制御部6によって実現される。変換部4は、記憶装置7および制御部6によって実現される。コンテンツ入力部2およびコンテンツ送信部5は、制御部6およびネットワークインタフェース部8によって実現される。また、発音記号列抽出部13および音声生成部14は、端末11の制御部16によって実現される。コンテンツ受信部12は、制御部16およびネットワークインタフェース部18によって実現される。音声出力部15は、音声出力装置17によって実現される。
【0060】
次に、動作について説明する。
図3は、コンテンツサーバ1の動作の例を示す流れ図である。コンテンツサーバ1のコンテンツ入力部2は、コンテンツ提供者からコンテンツデータの入力を受け付ける(ステップS101)。例えば、インターネット21を介して、コンテンツ提供者の端末(図示せず。)からコンテンツデータを受信する。
【0061】
コンテンツサーバ1に入力されるコンテンツデータには、読み上げ文字列となる文字列とともに、その文字列が読み上げ文字列であることを示すタグと、読み上げ文字列をどのような仕様の発音記号列に変換すべきかを示す識別情報とが記述される。図4は、コンテンツサーバ1に入力されるコンテンツデータの例を示す説明図である。図4に示す例において、「TTP 」は、次に記述される識別情報の後から「/ 」まで続く文字列が読み上げ文字列であることを示すタグである。「TTP 」の次に記述される「phoneme="Type1" 」は、識別情報が「Type1 」であることを示す記述である。従って図4に示す例では、「phoneme="Type1" 」と「/>」との間に記述された「ご訪問ありがとうございます」という文字列が読み上げ文字列になる。なお、コンテンツデータは、読み上げ文字列以外の記述を含んでいてもよい。例えば、HTML(Hypertext Markup Language )と同様のタグとともに、画像や文字列の表示を指定する記述を含んでいてもよい。図4では、HTMLと同様の言語で記載される場合を示したが、画像や文字列の表示を指定する記述は、HTML以外のマークアップ言語で記述されてもよい。
【0062】
ステップS101において、コンテンツ入力部2は、入力されたコンテンツデータを、記憶装置7(図1において図示せず。)に記憶させる。
【0063】
続いて、読み上げ文字列抽出置換部3は、コンテンツ入力部2に入力されて記憶装置7に記憶されたコンテンツデータから読み上げ文字列および識別情報を抽出する(ステップS102)。このとき、読み上げ文字列抽出置換部3は、読み上げ文字列を示すタグ(例えば、図4に示す「TTP 」)とともに記述されている識別情報を抽出し、また、そのタグとともに記述されている文字列を読み上げ文字列として抽出する。ステップS102において、読み上げ文字列抽出置換部3は、抽出した識別情報および読み上げ文字列を一時記憶装置9(図1において図示せず。)に記憶させる。
【0064】
続いて、変換部4は、読み上げ文字列抽出置換部3によって抽出されて一時記憶装置9に記憶された読み上げ文字列を発音記号列に変換する(ステップS103)。このとき、変換部4は、一時記憶装置9に記憶された識別情報に基づいて、どの辞書データを用いて変換すればよいのかを判定する。そして、変換部4は、識別情報に応じた辞書データを用いて、読み上げ文字列に含まれる各文字や単語を、対応する発音記号列に変換すればよい。例えば、図4に例示する「Type1 」という識別情報に応じた辞書データでは、「ご」と「GO」、「訪問」と「HOUMON」等の対応関係が示されているとする。この場合、変換部4は、「Type1 」に応じた辞書データを用いて、「ご訪問ありがとうございます」という読み上げ文字列を「GOHOUMON ARIGATOU GOZAIMASU 」という発音記号列に変換する。以下、読み上げ文字列から発音記号列への変換処理をTTP(Text-to-Phoneme)処理と記す。ステップS103において、変換部4は、読み上げ文字列から変換した発音記号列を一時記憶装置9に記憶させる。
【0065】
なお、ステップS103におけるTTP処理は、ステップS102で抽出した読み上げ文字列を発音記号列に変換する処理である。従って、コンテンツデータ自体は、ステップS103では変更されない。
【0066】
次に、読み上げ文字列抽出置換部3は、記憶装置7に記憶されたコンテンツデータ内の読み上げ文字列を、TTP処理で得られた発音記号列(一時記憶装置9に記憶される発音記号列)に置換する(ステップS104)。ステップS104において、読み上げ文字列抽出置換部3は、読み上げ文字列を示すタグとともに記述された文字列を発音記号文字列に置換すればよい。また、このとき、読み上げ文字列抽出置換部3は、識別情報を示す記述(例えば、図4に示す「phoneme="Type1" 」)を削除し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する。
【0067】
図5は、置換後のコンテンツデータの例を示す説明図である。図5に示す例において、「PTS 」は、「/ 」まで続く文字列が発音記号列であることを示すタグである。図4に示す読み上げ文字列「ご訪問ありがとうございます」は、発音記号列「GOHOUMON ARIGATOU GOZAIMASU 」に置換される。また、識別情報を示す記述「phoneme="Type1" 」は削除され、読み上げ文字列を示すタグ「TTP 」は、発音記号列を示すタグ「PTS」に置換される。この結果、図5に例示するコンテンツデータが得られる。
【0068】
読み上げ文字列抽出置換部3は、置換後のコンテンツデータを記憶装置7に記憶させておく。その後、コンテンツ送信部5は、端末11からコンテンツデータの要求を受け付けた場合、インターネット21を介して、置換後のコンテンツデータを端末11に送信する(ステップS105)。
【0069】
図6は、端末11の動作の例を示す流れ図である。端末11の使用者は、端末11の仕様に従う発音記号列を含むコンテンツデータを要求するように端末11を操作する。端末11のコンテンツ受信部12は、この操作に応じて、コンテンツサーバ1にコンテンツデータを要求する。そして、コンテンツ受信部12は、要求したコンテンツデータをコンテンツサーバ1から受信する(ステップS111)。このコンテンツデータは、例えば、図5に示すような発音記号列を含む。ステップS111において、コンテンツ受信部12は、受信したコンテンツデータを一時記憶装置20(図1において図示せず。)に記憶させる。
【0070】
発音記号列抽出部13は、一時記憶装置20に記憶されたコンテンツデータから発音記号列を抽出する(ステップS112)。このとき、発音記号列抽出部13は、発音記号列を示すタグ(例えば、図5に示す「PTS 」)とともに記述されている文字列を発音記号列として抽出すればよい。ステップS112において、発音記号抽出部13は、抽出した発音記号列を一時記憶装置20に記憶させる。
【0071】
音声生成部14は、一時記憶装置20に記憶された発音記号列に基づいて、出力すべき音声の音声信号を生成する(ステップS113)。以下、この音声信号生成処理をPTS(Pheneme-to-Speech)処理と記す。音声生成部14は、生成した音声信号を音声出力部15に出力し、音声出力部15に音声を出力させる(ステップS114)。例えば、ステップS112において「GOHOUMON ARIGATOU GOZAIMASU 」という発音記号列を抽出した場合、音声生成部14は、この記号列に基づいて、「ご訪問ありがとうございます」という発声に対応する音声信号を生成する。そして、その音声信号を音声出力部15に出力し、音声出力部15に「ご訪問ありがとうございます」という音声を出力させる。
【0072】
本実施の形態に示す音声コンテンツ配信システムによれば、コンテンツサーバは、読み上げ文字列を含むコンテンツデータが入力されると、コンテンツデータ内の読み上げ文字列を発音記号列に置換する。そして、置換後のコンテンツデータを端末11に送信する。従って、端末11は、コンテンツデータを受信したときに、すぐに音声を出力することができる。よって、コンテンツデータを受信した端末が音声を出力するまでの時間を短縮することができる。
【0073】
また、コンテンツサーバ1は、読み上げ文字列を、識別情報によって指定される発音記号列に変換する。従って、発音記号列の仕様が異なる複数の端末にコンテンツを提供しようとする場合であっても、コンテンツ提供者は、各仕様毎に発音記号列を記述する必要はなく、各仕様を指定する識別情報を読み上げ文字列とともに記述すればよい。例えば、ステップS101〜S105の説明では、「ご訪問ありがとうございます」という読み上げ文字列を「GOHOUMON ARIGATOU GOZAIMASU 」という発音記号列に変換する場合を示した。図4に示す「Type1 」の代わりに他の識別情報(例えば「Type2 」)が記述されたコンテンツデータが入力された場合、コンテンツサーバ1は、「ご訪問ありがとうございます」を他の仕様に従った発音記号列に置換する。このように、コンテンツ提供者は、「GOHOUMON ARIGATOU GOZAIMASU 」等の個々の仕様に沿う発音記号列を記述する必要はなく、「Type1 」等の識別情報を記述すればよい。従って、コンテンツ提供者の負担を軽減させることができる。
【0074】
また、TTP処理は、コンテンツサーバ1が行う。従って、端末11が読み上げ文字列から発音記号列への変換処理を行う必要はないので、端末11の処理を簡易化し、端末11の生産コストを低くすることができる。また、発音記号列を含むコンテンツデータ内に画像等の表示を指定する記述が含まれていれば、端末11は、その記述に従って画像等を表示すればよい。従って、発音記号列の情報と、画像データの表示に関する情報とを、別々にダウンロードする必要がない。また、コンテンツサーバが、音声と画像とを同期させて送信する必要もない。
【0075】
本実施の形態において、各端末11の発音記号列の仕様が共通である場合、コンテンツ入力部2に、識別情報が記述されていないコンテンツデータが入力されてもよい。この場合、変換部4は、読み上げ文字列を所定の仕様に従う発音記号列に変換してよい。
【0076】
また、発音記号列の仕様の指定を、識別情報ではなく、タグによって行ってもよい。例えば、読み上げ文字列を示すタグとして「TTP 」、「TTPX」等の複数種類のタグを用い、所望の仕様毎に読み上げ文字列を示すタグを変えてもよい。この場合、読み上げ文字列抽出置換部3は、ステップS102において、読み上げ文字列を示すタグと読み上げ文字列とを抽出し、一時記憶装置に記憶させればよい。そして、変換部4は、そのタグの種類に応じた仕様に従って、読み上げ文字列を発音記号文字列に変換すればよい。
【0077】
本実施の形態において、コンテンツ入力手段は、コンテンツ入力部2に相当する。コンテンツ置換手段は、読み上げ文字列抽出置換部3および変換部4に相当する。そして、読み上げ文字列抽出手段および置換手段は、読み上げ文字列抽出置換部3に相当し、変換手段は、変換部4に相当する。
【0078】
また、コンテンツ受信手段は、コンテンツ受信部12に相当する。発音記号列抽出手段は、発音記号列抽出部13に相当する。出力手段は、音声生成部14および音声出力部15に相当する。
【0079】
実施の形態2.
本実施の形態では、コンテンツサーバとは別に設けられる変換サーバがTTP処理(読み上げ文字列から発音記号列への変換処理)を行う。図7は、本発明による音声コンテンツ配信システムの第2の実施の形態を示すブロック図である。第1の実施の形態と同様の構成部は、図1と同一の符合を付し、説明を省略する。図7に示す音声コンテンツ配信システムは、コンテンツサーバ(コンテンツ配信装置)31と変換サーバ(音声情報変換装置)41と端末11とを備える。コンテンツサーバ31と変換サーバ41と端末11とは、通信ネットワーク21を介して接続される。以下、通信ネットワーク21がインターネットである場合を例に説明するが、第1の実施の形態と同様、通信ネットワーク21はインターネットに限定されない。また、コンテンツサーバ31と端末11とを接続する通信ネットワークと、コンテンツサーバ31と変換サーバ41とを接続する通信ネットワークとが異なっていてもよい。
【0080】
第1の実施の形態と同様、コンテンツサーバ31に複数の端末11が接続されてもよい。さらに、発音記号列の仕様が異なる複数種類の端末がコンテンツサーバ31に接続されてもよい。
【0081】
コンテンツサーバ31には、図1に示すコンテンツサーバ1と同様に、読み上げ文字列を示すタグ、識別情報、および読み上げ文字列を含むコンテンツデータが入力される。そして、コンテンツサーバ31は、読み上げ文字列が発音記号列に置換されたコンテンツデータを端末11に送信する。ただし、コンテンツサーバ31は、TTP処理を行わず、変換サーバ41がTTP処理を実行する。
【0082】
コンテンツサーバ31において、読み上げ文字列抽出置換部32は、コンテンツ入力部2に入力されたコンテンツデータの中から読み上げ文字列や識別情報を抽出して変換サーバ41に送信する。また、読み上げ文字列抽出置換部32は、変換サーバ41から発音記号列を受信し、コンテンツデータ内の読み上げ文字列を発音記号列に置換する。
【0083】
変換サーバ41の読み上げ文字列受信部42は、読み上げ文字列抽出置換部32から読み上げ文字列および識別情報を受信する。変換部4は、第1の実施の形態で示した変換部4と同様に、辞書データを記憶する記憶装置(図7において図示せず。)を含む。この記憶装置は、発音記号列の各仕様毎に辞書データを記憶する。そして、変換部4は、どの仕様に従う発音記号列に変換すべきかを識別情報に基づいて判定し、TTP処理を行う。発音記号列送信部43は、変換部4によって変換された発音記号列を読み上げ文字列抽出置換部32に送信する。
【0084】
端末11の構成は、第一の実施の形態の端末の構成と同様である。
【0085】
図8は、本発明の第2の実施の形態の具体的な構成例を示すブロック図である。図8において、コンテンツサーバ31の制御部36は、記憶装置37が記憶するコンテンツ配信プログラムに従って処理を実行する。具体的には、制御部36は、コンテンツデータの入力受け付け処理、コンテンツデータの中から読み上げ文字列や識別情報を抽出して変換サーバ41に送信する処理、変換サーバ41から発音記号列を受信し、コンテンツデータ内の読み上げ文字列を発音記号列に置換する処理、端末11へのコンテンツデータ送信処理を実行する。ネットワークインタフェース部38は、インターネット21を介してコンテンツデータの送受信を行う。また、一時記憶装置39は、コンテンツデータから抽出される読み上げ文字列、識別情報や、変換サーバから受信する発音記号列を一時的に記憶する記憶装置である。なお、制御部36は、例えば、インターネット21およびネットワークインタフェース部38を介して、コンテンツ提供者の端末(図示せず。)からコンテンツデータを受信することにより、コンテンツデータの入力を受け付ける。
【0086】
記憶装置37は、コンピュータに、読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付ける処理、コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、読み上げ文字列を音声情報変換装置に送信する処理、および読み上げ文字列から変換された発音記号列を音声情報変換装置から受信し、コンテンツデータ内の読み上げ文字列を発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理を実行させるためのコンテンツ配信プログラムを記憶する。
【0087】
また、変換サーバ41の制御部46は、記憶装置47が記憶する音声情報変換プログラムに従って処理を実行する。具体的には、制御部46は、読み上げ文字列および識別情報の受信処理、TTP処理、TTP処理によって得た発音記号列の送信処理を実行する。ネットワークインタフェース部48は、インターネット21を介して、データ(例えば、読み上げ文字列、識別情報、発音記号列)を送受信する。記憶装置47は、音声情報変換プログラムのほかに、辞書データを記憶する。一時記憶装置49は、コンテンツサーバから受信する読み上げ文字列、識別情報や、TTP処理によって得られる発音記号列を一時的に記憶する記憶装置である。
【0088】
記憶装置47は、コンピュータに、通信ネットワークを介して接続される情報処理装置から、音声として読み上げられるべき文字列である読み上げ文字列を受信する処理、読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する処理、および発音記号列を情報処理装置に送信する処理を実行させるための音声情報変換プログラムを記憶する。
【0089】
図8に示す端末11の構成の例は、図2に示す場合と同様である。
【0090】
音声コンテンツ配信システムを図8に示すような構成とした場合、読み上げ文字列抽出置換部32、コンテンツ入力部2およびコンテンツ送信部5は、コンテンツサーバ31の制御部36およびネットワークインタフェース部38によって実現される。また、読み上げ文字列受信部42および発音記号列送信部43は、変換サーバ41の制御部46およびネットワークインタフェース部48によって実現される。変換部4は、制御部46および記憶装置47によって実現される。
【0091】
次に、動作について説明する。
図9は、コンテンツサーバ31および変換サーバ41の動作の例を示す流れ図である。コンテンツサーバ31のコンテンツ入力部2は、コンテンツ提供者からコンテンツデータの入力を受け付け、そのコンテンツデータを記憶装置37(図7において図示せず。)に記憶させる。(ステップS121)。この処理は、ステップS101と同様の処理である。第一の実施の形態と同様、読み上げ文字列となる文字列とともに、その文字列が読み上げ文字列であることを示すタグと、読み上げ文字列をどのような仕様の発音記号列に変換すべきかを示す識別情報とが記述されたコンテンツデータが入力される。
【0092】
読み上げ文字列抽出置換部32は、コンテンツ入力部2に入力されて記憶装置37に記憶されたコンテンツデータから、読み上げ文字列および識別情報を抽出し、一時記憶装置39(図7において図示せず。)に記憶させる。このとき読み上げ文字列抽出置換部32は、読み上げ文字列を示すタグとともに記述されている識別情報を抽出し、また、そのタグとともに記述されている文字列を読み上げ文字列として抽出する。読み上げ文字列抽出置換部32は、一時記憶装置39に記憶させた読み上げ文字列および識別情報を、インターネット21を介して変換サーバ41に送信する(ステップS122)。
【0093】
なお、読み上げ文字列抽出置換部32は、予め変換サーバ41のアドレス情報を記憶装置に記憶しておけばよい。そして、ステップS122では、そのアドレス情報を用いて、読み上げ文字列および識別情報を変換サーバ41に送信すればよい。あるいは、コンテンツ提供者が、読み上げ文字列を示すタグ、識別情報、読み上げ文字列とともに、変換サーバ41のアドレス情報をコンテンツデータ中に記述しておいてもよい。この場合、読み上げ文字列抽出置換部32は、コンテンツデータからアドレス情報を抽出し、そのアドレス情報を用いて、読み上げ文字列および識別情報を変換サーバ41に送信すればよい。
【0094】
変換サーバ41の読み上げ文字列受信部42は、読み上げ文字列および識別情報を受信すると、一時記憶装置49(図8において図示せず。)に記憶させる。
【0095】
変換部4は、一時記憶装置49に記憶された識別情報に基づいて、使用すべき辞書データを判定する。そして、その辞書データを用いて、読み上げ文字列受信部42から送られる読み上げ文字列を発音記号列に変換する(ステップS123)。このTTP処理は、ステップS103と同様の処理である。変換部4は、変換した発音記号列を一時記憶装置49に記憶させる。発音記号列送信部43は、その発音記号列を、インターネット21を介してコンテンツサーバ31に送信する(ステップS124)。
【0096】
コンテンツサーバ31の読み上げ文字列抽出置換部32は、変換サーバ41が送信した発音記号列を受信し、一時記憶装置39に記憶させる。続いて、読み上げ文字列抽出置換部32は、その発音記号列を用いて、記憶装置37に記憶されたコンテンツデータ内の読み上げ文字列を発音記号列に置換する(ステップS125)。読み上げ文字列抽出置換部32は、読み上げ文字列を示すタグとともに記述された文字列を発音記号文字列に置換すればよい。また、このとき、読み上げ文字列抽出置換部3は、識別情報を示す記述(例えば、図4に示す「phoneme="Type1" 」)を削除し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する。
【0097】
読み上げ文字列抽出置換部32は、置換後のコンテンツデータを記憶装置37に記憶させておく。その後、コンテンツ送信部5は、端末11からの要求に応じて、置換後のコンテンツデータを端末11に送信する(ステップS126)。ステップS126の処理は、ステップS105の処理と同様の処理である。
【0098】
端末11がコンテンツサーバ31からコンテンツデータを受信して、音声を出力する際の動作は、第1の実施の形態と同様である。
【0099】
本実施の形態においても、コンテンツサーバ32は、入力されたコンテンツデータ内の読み上げ文字列を発音記号列に置換し、置換後のコンテンツデータを端末11に送信する。従って、コンテンツデータを受信した端末が音声を出力するまでの時間を短縮することができる。また、コンテンツサーバ31が、読み上げ文字列を、識別情報によって指定される発音記号列に変換する。従って、コンテンツ提供者の負担を軽減させることができる。また、端末11がステップS123のTTP処理を行う必要はないので、端末11の処理を簡易化し、端末11の生産コストを低くすることができる。また、端末11は、発音記号列の情報と、画像データの表示に関する情報とを、別々にダウンロードする必要がない。コンテンツサーバが、音声と画像とを同期させて送信する必要もない。
【0100】
さらに、本実施の形態によれば、コンテンツデータの置換や配信を行うコンテンツサーバ31と、ステップS123のTTP処理を実行する変換サーバ41とを別々に設けたので、処理の分散化を図れる。特に、TTP処理の処理負荷は大きいので、コンテンツサーバ31における処理負荷を軽減させることができる。
【0101】
第1の実施の形態と同様に、各端末11の発音記号列の仕様が共通である場合、コンテンツ入力部2に、識別情報が記述されていないコンテンツデータが入力されてもよい。また、発音記号列の仕様の指定を、識別情報ではなく、タグによって行ってもよい。この場合、読み上げ文字列抽出置換部32は、ステップS122において、読み上げ文字列を示すタグと読み上げ文字列とを抽出し、変換サーバ41に送信すればよい。そして、変換サーバ41の変換部4は、そのタグの種類に応じた仕様に従って、読み上げ文字列を発音記号文字列に変換すればよい。
【0102】
本実施の形態において、音声記号列の仕様毎に変換サーバが設けられ、個々の変換サーバがそれぞれ特定の仕様に従ってTTP処理を行うように構成されていてもよい。この場合、コンテンツサーバ31は、識別情報等によって指定された仕様に対応する変換サーバに読み上げ文字列を送信すればよい。
【0103】
本実施の形態において、コンテンツ入力手段は、コンテンツ入力部2に相当する。コンテンツ置換手段は、読み上げ文字列抽出置換部32に相当する。そして、読み上げ文字列抽出手段、読み上げ文字列送信手段および変換手段も、読み上げ文字列抽出置換部32に相当する。
【0104】
また、変換手段は、読み上げ文字列受信部42および変換部4に相当する。発音記号列送信手段は、発音記号列送信部43に相当する。
【0105】
また、コンテンツ受信手段は、コンテンツ受信部12に相当する。発音記号列抽出手段は、発音記号列抽出部13に相当する。出力手段は、音声生成部14および音声出力部15に相当する。
【0106】
実施の形態3.
本実施の形態では、端末は、読み上げ文字列が記述されたコンテンツデータを受信する。ただし、端末は、読み上げ文字列が記述されたコンテンツデータの他に、発音記号列が記述されたコンテンツデータも受信してよい。図10は、本発明による音声コンテンツ配信システムの第3の実施の形態を示すブロック図である。第1または第2の実施の形態と同様の構成部は、図1または図7と同一の符合を付し、説明を省略する。図10に示す音声コンテンツ配信システムは、コンテンツサーバ(コンテンツ配信装置)51と変換サーバ(音声情報変換装置)41と端末61とを備える。コンテンツサーバ51と変換サーバ41と端末61とは、通信ネットワーク21を介して接続される。以下、通信ネットワーク21がインターネットである場合を例に説明するが、第1の実施の形態と同様、通信ネットワーク21はインターネットに限定されない。また、コンテンツサーバ51と端末61とを接続する通信ネットワークと、端末61と変換サーバ41とを接続する通信ネットワークとが異なっていてもよい。
【0107】
第1の実施の形態と同様、コンテンツサーバ51に複数の端末61が接続されてもよい。さらに、発音記号列の仕様が異なる複数種類の端末がコンテンツサーバ51に接続されてもよい。
【0108】
コンテンツサーバ51には、読み上げ文字列を示すタグ、識別情報、および読み上げ文字列を含むコンテンツデータ(例えば、図4に例示するコンテンツデータ)が入力される。コンテンツサーバ51は、そのコンテンツデータを、読み上げ文字列を含む状態のまま端末61に送信する。端末61は、このコンテンツデータを受信すると、変換サーバ41にTTP処理を実行させ、その結果得られる発音記号列に基づいて音声を出力する。
【0109】
図10では図示していないが、第1の実施の形態あるいは第2の実施の形態で示したコンテンツサーバが通信ネットワーク(本例ではインターネット21)に接続されていてもよい。そして、端末61は、このコンテンツサーバから、発音記号列を含むコンテンツデータを受信して、音声を出力してもよい。
【0110】
コンテンツサーバ51において、コンテンツ入力部2は、第1の実施の形態と同様に、コンテンツ提供者から、コンテンツデータの入力を受け付ける。また、コンテンツ送信部5は、端末11からの要求に応じて、コンテンツデータを端末11に送信する。ただし、コンテンツ送信部5は、読み上げ文字列を含んだ状態のコンテンツデータを端末61に送信する。
【0111】
変換サーバ41の構成は、第2の実施の形態における変換サーバの構成と同様である。ただし、本実施の形態では、変換サーバ41は、端末61から読み上げ文字列および識別情報を受信し、その端末61に発音記号列を送信する。
【0112】
端末11において、データ抽出部63は、コンテンツ受信部12が受信したコンテンツデータの中から読み上げ文字列または発音記号列を抽出する。タイミング制御部62は、データ抽出部63がコンテンツデータから読み上げ文字列または発音記号列を抽出するタイミングを制御する。変換要求部64は、データ抽出部63が抽出した読み上げ文字列を変換サーバ41に送信し、読み上げ文字列から発音記号列への変換(TTP処理)を要求する。そして、変換要求部64は、TTP処理によって得られた発音記号列を変換サーバ41から受信する。音声生成部65は、変換要求部64が受信した発音記号列またはデータ抽出部63が抽出した発音記号列に基づいて音声信号を生成する。なお、端末61は、コンテンツを表示する表示部(ディスプレイ装置)を備えていてもよい。
【0113】
図11は、本発明の第3の実施の形態の具体的な構成例を示すブロック図である。図8において、コンテンツサーバ51の制御部56は、記憶装置57が記憶するコンテンツ配信プログラムに従って、コンテンツデータの入力受付処理および端末11へのコンテンツデータ送信処理を実行する。ネットワークインタフェース部58は、インターネット21を介してコンテンツデータを送受信する。
【0114】
また、端末61の制御部66は、記憶装置67が記憶するコンテンツ出力プログラムに従って処理を実行する。具体的には、制御部66は、コンテンツサーバ51からのコンテンツデータ受信処理、コンテンツデータから読み上げ文字列または発音記号列を抽出する処理、抽出した読み上げ文字列を変換サーバ41に送信して変換サーバ41から発音記号列を受信する処理、音声記号列に基づく音声信号生成処理、音声を出力させる処理を実行する。ネットワークインタフェース部68は、インターネット21を介して、コンテンツデータの要求の送信や、コンテンツデータの受信を行う。音声出力装置69は、スピーカ等の音声出力装置であり、音声を出力する。一時記憶装置70は、受信したコンテンツデータや、発音記号列を一時的に記憶する記憶装置である。
【0115】
記憶装置67は、コンピュータに、コンテンツ配信装置から、読み上げ文字列が記述されたコンテンツデータを受信する処理、コンテンツデータから読み上げ文字列を抽出する処理、読み上げ文字列を音声情報変換装置に送信する処理、読み上げ文字列から変換された発音記号列を音声情報変換装置から受信する処理、および発音記号列に基づいて音声を出力する処理を実行させるためのコンテンツ出力プログラムを記憶する。
【0116】
図11に示す変換サーバ41の構成の例は、図8に示す場合と同様である。
【0117】
音声コンテンツ配信システムを図11に示すような構成とした場合、コンテンツ入力部2およびコンテンツ送信部5は、コンテンツサーバ51の制御部56およびネットワークインタフェース部58によって実現される。また、コンテンツ受信部12および変換要求部64は、制御部66およびネットワークインタフェース部68によって実現される。また、タイミング制御部62、データ抽出部63および音声生成部65は、制御部66によって実現される。音声出力部15は、音声出力装置69によって実現される。
【0118】
次に、動作について説明する。
コンテンツサーバ51のコンテンツ入力部2は、コンテンツ提供者からコンテンツデータの入力を受け付け、そのコンテンツデータを記憶装置57(図10において図示せず。)に記憶させる。この処理は、ステップS101と同様の処理である。第一の実施の形態と同様、読み上げ文字列となる文字列とともに、その文字列が読み上げ文字列であることを示すタグと、読み上げ文字列をどのような仕様の発音記号列に変換すべきかを示す識別情報とが記述されたコンテンツデータが入力される。
【0119】
コンテンツ送信部5は、端末61からコンテンツデータの要求を受け付けた場合、記憶装置57に記憶されたコンテンツデータを端末11に送信する。入力されたコンテンツデータは、置換等の処理を行われていない。従って、コンテンツ送信部5は、読み上げ文字列を示すタグと、識別情報と、読み上げ文字列とを含むコンテンツデータを送信する。
【0120】
図12は、端末61の動作の例を示す流れ図である。端末61のコンテンツ受信部12は、使用者の操作に応じて、コンテンツサーバ51にコンテンツデータを要求する。あるいは、使用者の操作に応じて、第1の実施の形態あるいは第2の実施の形態と同様のコンテンツサーバ(図10において図示せず。)に、発音記号列を含むコンテンツデータを要求してもよい。そして、コンテンツ受信部12は、要求したコンテンツデータをコンテンツサーバから受信し、一時記憶装置70(図10において図示せず。)に記憶させる(ステップS131)。
【0121】
データ抽出部63は、タイミング制御部62の制御に従い、一時記憶装置70に記憶されるコンテンツデータから読み上げ文字列または発音記号列を抽出する。タイミング制御部62は、例えば、コンテンツ受信部12がコンテンツデータを受信した直後(ステップS131の直後)に、データ抽出部63に読み上げ文字列等の抽出を開始させてもよい。あるいは、コンテンツデータを受信後に、使用者によって音声出力を指示する操作が行われたときに、データ抽出部63に読み上げ文字列等の抽出を開始させてもよい。また、コンテンツデータに基づいて表示部に画像等を表示させてから所定期間後に、データ抽出部63に読み上げ文字列等の抽出を開始させてもよい。
【0122】
データ抽出部63は、コンテンツデータから読み上げ文字列または発音記号列を抽出する際、まず、コンテンツデータに読み上げ文字列が含まれているのか、発音記号列が含まれているのかを判定する(ステップS132)。データ抽出部63は、コンテンツデータに、読み上げ文字列を示すタグが記述されていれば、読み上げ文字列が含まれていると判定する。また、発音記号列を示すタグが記述されていれば、発音記号列が含まれていると判定する。
【0123】
データ抽出部63は、読み上げ文字列が含まれていると判定した場合、コンテンツデータから読み上げ文字列および識別情報を抽出し、一時記憶装置70に記憶させる。このときデータ抽出部63は、読み上げ文字列を示すタグとともに記述されている識別情報を抽出し、また、そのタグとともに記述されている文字列を読み上げ文字列として抽出する。
【0124】
変換要求部64は、一時記憶装置70に記憶された読み上げ文字列および識別情報を、インターネット21を介して変換サーバ41に送信する(ステップS133)。
【0125】
なお、変換要求部64は、予め変換サーバ41のアドレス情報を記憶装置に記憶しておけばよい。そして、ステップS133では、そのアドレス情報を用いて、読み上げ文字列および識別情報を変換サーバ41に送信すればよい。あるいは、コンテンツ提供者が、読み上げ文字列を示すタグ、識別情報、読み上げ文字列とともに、変換サーバ41のアドレス情報も記述したデータをコンテンツサーバ51に入力しておいてもよい。この場合、データ抽出部63がコンテンツデータからアドレス情報を抽出し、変換要求部64は、そのアドレス情報を用いて、読み上げ文字列および識別情報を変換サーバ41に送信すればよい。
【0126】
変換サーバ41の読み上げ文字列受信部42は、端末61から読み上げ文字列および識別情報を受信する。そして、変換部4は、TTP処理を実行し、受信した読み上げ文字列を発音記号列に変換する(ステップS134)。そして、その発音記号列を端末61に送信する(ステップS135)。変換サーバ41が読み上げ文字列および識別情報を受信してから、発音記号列を送信するまでの動作は、第2の実施の形態における変換サーバ41の動作と同様である。
【0127】
ステップS135において、端末61の変換要求部64は、変換サーバ41が送信した発音記号列を受信し、一時記憶装置70に記憶させる。
【0128】
また、データ抽出部63は、コンテンツデータに発音記号列が含まれていると判定した場合(ステップS132)、コンテンツデータから発音記号列を抽出し、一時記憶装置70に記憶させる(ステップS136)。
【0129】
音声生成部65は、ステップS135またはステップS136において、一時記憶装置70に記憶された発音記号列に基づいてPTS処理(音声信号生成処理)を実行する(ステップS137)。音声生成部65は、生成した音声信号をを音声出力部15に出力し、音声出力部15に音声を出力させる(ステップS138)。
【0130】
本実施の形態によれば、端末61は、発音記号列を含むコンテンツデータを受信した場合だけでなく、読み上げ文字列を含むコンテンツを受信した場合にも、音声を出力することができる。
【0131】
また、端末61は、発音記号列を含むコンテンツデータを受信した場合には、その発音記号列に基づいて音声を出力するので、音声を出力するまでの時間を短縮できる。また、コンテンツ提供者は、各仕様毎に発音記号列を記述しなくてよいので、コンテンツ提供者の負担を軽減させることができる。また、端末11は、発音記号列の情報と、画像データの表示に関する情報とを、別々にダウンロードする必要がない。コンテンツサーバが、音声と画像とを同期させて送信する必要もない。
【0132】
第3の実施の形態において、コンテンツサーバ51には、読み上げ文字列と発音記号列の双方が記述されたコンテンツデータが入力されてもよい。このコンテンツデータにおいて、読み上げ文字列は、読み上げ文字列を示すタグおよび識別情報とともに記述され、発音記号列は、発音記号列を示すタグとともに記述される。読み上げ文字列と発音記号列の双方が記述されたコンテンツデータを端末61が受信した場合、データ抽出部62は、発音記号列を示すタグとともに記述されている文字列を発音記号列として抽出する。また、読み上げ文字列を示すタグとともに記述されている文字列を読み上げ文字列として抽出し、また、識別情報も抽出する。変換要求部64は、読み上げ文字列および識別情報を変換サーバ41に送信し、変換サーバ41から発音記号列を受信する。音声生成部65は、コンテンツデータから抽出された発音記号列および変換サーバ41から受信した発音記号列から音声信号を生成する。
【0133】
なお、第1の実施の形態と同様に、各端末11の発音記号列の仕様が共通である場合、コンテンツ入力部2に、識別情報が記述されていないコンテンツデータが入力されてもよい。また、発音記号列の仕様の指定を、識別情報ではなく、タグによって行ってもよい。この場合、ステップS133において、データ抽出部63は、読み上げ文字列を示すタグと読み上げ文字列とを抽出し、変換要求部64は、このタグと読み上げ文字列を変換サーバ41に送信すればよい。そして、変換サーバ41の変換部4は、そのタグの種類に応じた仕様に従って、読み上げ文字列を発音記号文字列に変換すればよい。
【0134】
また、本実施の形態において、音声記号列の仕様毎に変換サーバ41が設けられ、個々の変換サーバ41がそれぞれ特定の仕様に従ってTTP処理を行うように構成されていてもよい。この場合、端末61は、識別情報等によって指定された仕様に対応する変換サーバに読み上げ文字列を送信すればよい。
【0135】
本実施の形態において、コンテンツ受信手段は、コンテンツ受信部12に相当する。コンテンツ出力手段は、データ抽出部63、変換要求部64、音声生成部65および音声出力部15に相当する。そして、データ抽出手段はデータ抽出部63に相当し、送受信手段は変換要求部64に相当し、出力手段は音声生成部65および音声出力部15に相当する。タイミング制御手段は、タイミング制御部62に相当する。
【0136】
また、変換手段は、読み上げ文字列受信部42および変換部4に相当する。発音記号列送信手段は、発音記号列送信部43に相当する。
【0137】
【発明の効果】
本発明によれば、コンテンツ配信装置が、音声として読み上げられるべき文字列である読み上げ文字列が記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、コンテンツデータ内の読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換するコンテンツ置換手段とを備え、端末装置が、コンテンツ配信装置から、発音記号列が記述されたコンテンツデータを受信するコンテンツ受信手段と、コンテンツデータから発音記号列を抽出する発音記号列抽出手段と、発音記号列に基づいて音声を出力する出力手段とを備えているので、コンテンツを受信した端末が音声を出力するまでの時間を短縮できる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態を示すブロック図である。
【図2】 第1の実施の形態の具体的な構成例を示すブロック図である。
【図3】 コンテンツサーバの動作の例を示す流れ図である。
【図4】 コンテンツサーバに入力されるコンテンツデータの例を示す説明図である。
【図5】 置換後のコンテンツデータの例を示す説明図である。
【図6】 端末の動作の例を示す流れ図である。
【図7】 本発明の第2の実施の形態を示すブロック図である。
【図8】 第2の実施の形態の具体的な構成例を示すブロック図である。
【図9】 コンテンツサーバおよび変換サーバの動作の例を示す流れ図である。
【図10】 本発明の第3の実施の形態を示すブロック図である。
【図11】 第3の実施の形態の具体的な構成例を示すブロック図である。
【図12】 端末および変換サーバの動作の例を示す流れ図である。
【符号の説明】
1 コンテンツサーバ
2 コンテンツ入力部
3 読み上げ文字列抽出置換部
4 変換部
5 コンテンツ送信部
11 端末装置
12 コンテンツ受信部
13 発音記号列抽出部
14 音声生成部
15 音声出力部
21 通信ネットワーク[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio content distribution system that distributes audio output content to a terminal device, and a content distribution device, audio information conversion device, terminal device, content distribution program, and audio information conversion program applied to the audio content distribution system And a content output program.
[0002]
[Prior art]
A service that distributes content to a terminal device (hereinafter referred to as a terminal) and allows the user of the terminal to browse the content is widespread. As content, there are many contents that display images, characters and the like on a terminal. However, various systems for distributing contents for outputting sound and outputting sound at a terminal have been proposed.
[0003]
For example, Patent Document 1 proposes a system that transmits hypertext including a description requesting a phonetic character string to a client. In the system described in Patent Literature 1, when a description requesting a phonetic character string is included in the received hypertext, the client requests a phonetic character string from the server. Then, the client receives information on the phonetic character string from the server, and outputs a voice according to the phonetic character string.
[0004]
[0005]
A system using VoiceXML, which is a markup language for performing voice processing, has also been proposed (for example, Patent Document 3). In the system described in Patent Document 3, a voice conversation server generates voice based on a description using VoiceXML, and transmits the voice to a terminal via a telephone line. In addition, the voice dialogue server transmits screen display data to the terminal in synchronization with the voice.
[0006]
In the following description, data for the terminal to specify the output voice is referred to as a phonetic symbol string.
[0007]
[Patent Document 1]
JP 2001-43064 A (paragraph 0024-0132, FIG. 1-21)
[0008]
[Patent Document 2]
JP 2002-328694 A (paragraph 0038-0132, FIG. 1-74)
[0009]
[Patent Document 3]
Japanese Patent Laid-Open No. 2002-318132 (paragraphs 0016-0051, FIG. 1-9)
[0010]
[Problems to be solved by the invention]
In the system described in Patent Document 1, when a client receives hypertext from a server and the hypertext includes a description requesting a phonetic character string, the client requests the phonetic character string from the server. Therefore, the client cannot output sound only by receiving hypertext as content. In the case of outputting voice, after receiving the hypertext, it is necessary to further request the server for a phonetic character string and receive the phonetic character string. As a result, it takes time from requesting the hypertext as the content until the completion of the audio output.
[0011]
Further, depending on the type of terminal, the specification of a phonetic symbol string (for example, a phonetic character string in Patent Document 1) may be different. For example, when a mobile phone is used as a terminal, the phonetic symbol specification may be different between the mobile phone of communication company A and the mobile phone of communication company B. When a content provider intends to provide content to a plurality of terminals having different phonetic symbol string specifications, it must create a phonetic symbol string for each individual specification. This increases the burden on the content provider.
[0012]
For example, in the specification of the mobile phone communication company A, in order to output a voice saying "Hello" is a must to create a pronunciation symbol string "KONNICHIWA". In addition, in the specification of the mobile phone communication company B, in order to output a voice saying "Hello" is a must to create a pronunciation symbol string "KON-NITIWA". Content provider, when providing content such as to output a voice saying "Hello" communication company A, B to each of the mobile telephone, by creating a plurality of phonetic symbols string "KONNICHIWA" and "KON-NITIWA" There was a heavy burden on creating a phonetic symbol string.
[0013]
In the systems described in Patent Document 1 and
[0014]
In addition, the terminal described in
[0015]
Therefore, an object of the present invention is to shorten the time until a terminal that receives content outputs audio. Another object of the present invention is to reduce the burden on the content provider when providing content to a plurality of types of terminals having different phonetic symbol string specifications.
[0016]
[Means for Solving the Problems]
A content distribution system according to the present invention is a content distribution system including a content distribution device that distributes content data and a terminal device that outputs content based on the content data received from the content distribution device. , The text to be read out as a text , With a tag indicating the text to read Content input means for receiving input of described content data, and content replacement means for replacing a read character string in the content data with a phonetic symbol string that is data for specifying output speech, the terminal device includes: Content receiving means for receiving content data in which phonetic symbol strings are described from a content distribution device, phonetic symbol string extracting means for extracting phonetic symbol strings from content data, and output means for outputting sound based on phonetic symbol strings And with The content replacement means extracts from the content data input to the content input means a character string described with a tag indicating a read character string as a read character string, and the read character string. Conversion means for converting into a phonetic symbol string; and replacement means for replacing a reading character string in the content data with the phonetic symbol string and replacing a tag indicating the reading character string with a tag indicating the phonetic symbol string, The content receiving means receives content data describing a phonetic symbol string together with a tag indicating a phonetic symbol string from the content distribution device, and the phonetic symbol string extracting means receives a character string described with a tag indicating the phonetic symbol string. Extract as phonetic symbol string It is characterized by that.
[0018]
The content input means accepts input of content data in which the specification information indicating the specification of the phonetic symbol string is described together with the reading character string, and the reading character string extracting means extracts the reading character string and the specification information from the content data, Preferably, the conversion means converts the read-out character string into a phonetic symbol string corresponding to the specification indicated by the specification information. According to such a configuration, the content provider does not have to describe the phonetic symbol string corresponding to each specification, so the burden on the content provider is reduced.
[0019]
In addition, a content distribution system according to the present invention includes a content distribution device that distributes content data, a terminal device that outputs content based on content data received from the content distribution device, and a read-out that is a character string to be read out as speech. A content distribution system including an audio information conversion device that converts a character string into a phonetic symbol string, wherein the content distribution device accepts input of content data in which the read character string is described together with a tag indicating the read character string Content input means; and content replacement means for replacing a read-out character string in the content data with a phonetic symbol string that is data for specifying output speech, and the terminal device generates a pronunciation from the content distribution device. Content data describing symbol strings Content receiving means for receiving; phonetic symbol string extracting means for extracting a phonetic symbol string from the content data; and output means for outputting sound based on the phonetic symbol string, wherein the content replacing means includes the content input Read-out character string extraction means for extracting a character string described with a tag indicating a read-out character string from the content data input to the means as a read-out character string, and read-out characters for transmitting the read-out character string to the speech information converter Receiving a phonetic symbol string from the string transmitting means and the audio information conversion device, replacing the reading character string in the content data with the phonetic symbol string, and converting the tag indicating the reading character string into a tag indicating the phonetic symbol string Replacement means for replacing, and the audio information conversion device reads a read-out character string from the content distribution device. And a conversion means for converting the read-out character string into a phonetic symbol string; and a phonetic symbol string transmission means for transmitting the phonetic symbol string to the content distribution device, wherein the content receiving means indicates a phonetic symbol string The content data in which the phonetic symbol string is described together with the tag is received from the content distribution device, and the phonetic symbol string extracting unit extracts a character string described with the tag indicating the phonetic symbol string as a phonetic symbol string. . According to such a configuration, the processing is distributed to the audio information conversion device, and the processing load on the content distribution server can be reduced.
[0020]
The content input means accepts input of content data in which the specification information indicating the specification of the phonetic symbol string is described together with the reading character string, and the reading character string extracting means extracts the reading character string and the specification information from the content data, It is preferable that the reading character string transmission unit transmits the reading character string and the specification information to the speech information conversion device, and the conversion unit converts the reading character string into a phonetic symbol string corresponding to the specification indicated by the specification information. According to such a configuration, the content provider does not have to describe the phonetic symbol string corresponding to each specification, so the burden on the content provider is reduced.
[0029]
A content distribution apparatus according to the present invention is a content distribution apparatus that distributes content data to a terminal device, and a read-out character string that is a character string to be read out as speech is , With a tag indicating the text to read Content input means for receiving input of described content data and content data , The character string described with the tag indicating the reading character string Read-out string As Read-out character string extraction means to be extracted, conversion means to convert the read-out character string into a phonetic symbol string that is data for specifying output speech, and replace the read-out character string in the content data with the phonetic symbol string And replace the tag indicating the reading string with the tag indicating the phonetic symbol string And replacement means.
[0030]
The content input means accepts input of content data in which the specification information indicating the specification of the phonetic symbol string is described together with the reading character string, and the reading character string extracting means extracts the reading character string and the specification information from the content data, The conversion means preferably converts the read-out character string into a phonetic symbol string corresponding to the specification indicated by the specification information. According to such a configuration, the content provider does not have to describe the phonetic symbol string corresponding to each specification, so the burden on the content provider is reduced.
[0031]
Also, the content distribution apparatus according to the present invention is connected to a speech information conversion device that converts a read-out character string that is a character string to be read out as speech into a phonetic symbol string that is data for specifying output speech, and a terminal device A content distribution device that distributes content data to Along with a tag indicating the text to be read Content input means for receiving input of content data in which a reading character string is described, and content data , The character string described with the tag indicating the reading character string Read-out string As Read-out character string extracting means for extracting, read-out character string transmitting means for transmitting the read-out character string extracted by the read-out character string extracting means to the speech information converting device, and the phonetic information converting device for the phonetic symbol string converted from the read-out character string Is replaced with a phonetic symbol string. And replace the tag indicating the reading string with the tag indicating the phonetic symbol string And replacement means.
[0032]
The content input means accepts input of content data in which the specification information indicating the specification of the phonetic symbol string is described together with the reading character string, and the reading character string extracting means extracts the reading character string and the specification information from the content data, The reading character string transmitting means preferably transmits the reading character string and the specification information to the voice information conversion device. According to such a configuration, the content provider does not have to describe the phonetic symbol string corresponding to each specification, so the burden on the content provider is reduced.
[0039]
A content distribution program according to the present invention is a content distribution program installed in a content distribution device that distributes content data to a terminal device, and a computer has a read-out character string that is a character string to be read out as speech. , With a tag indicating the text to read Process that accepts input of described content data, from content data , The character string described with the tag indicating the reading character string Read-out string As Processing to extract, processing to convert the text string to be read into a phonetic symbol string that is data for specifying the output sound, and replace the text string to be read out in the content data with the phonetic symbol string And replace the tag indicating the reading string with the tag indicating the phonetic symbol string Processing is executed.
[0040]
Also, the content distribution program according to the present invention is connected to a speech information conversion device that converts a read-out character string that is a character string to be read out as a sound into a phonetic symbol string that is data for specifying output speech, and a terminal device. A content distribution program installed in a content distribution apparatus for distributing content data to a computer, Along with a tag indicating the text to be read Processing that accepts input of content data in which read-out character strings are described, from content data , The character string described with the tag indicating the reading character string Read-out string As Processing to extract, processing to send the read-out character string to the speech information converter, receive the phonetic symbol string converted from the text-to-speech string from the speech information converter, and replace the text-to-speech string in the content data with the phonetic symbol string And replace the tag indicating the reading string with the tag indicating the phonetic symbol string Processing is executed.
[0044]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0045]
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a first embodiment of an audio content distribution system according to the present invention. The audio content distribution system shown in FIG. 1 includes a content server (content distribution device) 1 and a terminal 11. The content server 1 and the terminal 11 are connected via a
[0046]
The content server 1 is an information processing apparatus that transmits content data including a phonetic symbol string to the terminal 11. Content is described in a markup language. Hereinafter, content data described in a markup language is referred to as content data. The terminal 11 receives the content data from the content server 1 and outputs sound based on the phonetic symbol string included in the content data. Further, the terminal 11 may display an image according to the description of the content data.
[0047]
The phonetic symbol string described in the content data may be a phoneme character string or a syllable character string.
[0048]
Although one
[0049]
The content data input to the content server 1 includes a character string (hereinafter referred to as a read-out character string) that should be read out as speech in the terminal 11. The reading character string need not be described according to the specification of the phonetic symbol string of the terminal 11 to which the content is distributed. For example, even when the terminal 11 requests “phonetic spelling” as the phonetic symbol string specification, the read-out character string may be described in kanji or kana. Even when a plurality of types of terminals request different phonetic symbol string specifications, the read-out character string does not have to comply with each specification. When the content server 1 receives the input of the content data in which the read character string is described, the content server 1 replaces the read character string in the content data with a phonetic symbol string of the specified specification. Thereafter, the content server 1 transmits content data in response to a request from the terminal 11.
[0050]
In the content data, a character string described as a reading character string is described with a tag indicating that the character string is a reading character string. Further, identification information indicating what kind of phonetic symbol string should be converted to the reading character string is also described together with the reading character string and the tag.
[0051]
When the reading character string is replaced with the phonetic symbol string, the character string described as the phonetic symbol string is described with a tag indicating that the character string is a phonetic symbol string.
[0052]
The
[0053]
The
[0054]
FIG. 2 is a block diagram showing a specific configuration example of the first exemplary embodiment of the present invention. In FIG. 2, the control unit 6 of the content server 1 executes processing according to the content distribution program stored in the storage device 7. Specifically, the control unit 6 receives content data input, processes to extract a read character string and identification information from the content data, converts the read character string to a phonetic symbol string, A process of replacing the read-out character string with a phonetic symbol string and a process of transmitting content data to the terminal 11 are executed. The
[0055]
For example, the control unit 6 receives content data from a content provider's terminal (not shown) via the
[0056]
The storage device 7 stores a read-out character string that is a character string to be read out as a voice in the computer. , With a tag indicating the text to read Process that accepts input of described content data, from content data , The character string described with the tag indicating the reading character string Read-out string As Processing to extract, processing to convert the text string to be read into a phonetic symbol string that is data for specifying the output sound, and replace the text string to be read out in the content data with the phonetic symbol string And replace the tag indicating the reading string with the tag indicating the phonetic symbol string A content distribution program for executing processing is stored.
[0057]
Further, the
[0058]
The
[0059]
When the audio content distribution system is configured as shown in FIG. 2, the reading character string extraction / replacement unit 3 is realized by the control unit 6 of the content server 1. The
[0060]
Next, the operation will be described.
FIG. 3 is a flowchart showing an example of the operation of the content server 1. The
[0061]
The content data input to the content server 1 includes a character string that is a read-out character string, a tag that indicates that the character string is a read-out character string, and a phonetic symbol string that has a specification of the read-out character string. Identification information indicating whether or not to be described. FIG. 4 is an explanatory diagram illustrating an example of content data input to the content server 1. In the example shown in FIG. 4, “TTP” is a tag indicating that the character string that continues from the identification information described next to “/” is a read-out character string. “Phoneme =“ Type1 ”” described after “TTP” is a description indicating that the identification information is “Type1”. Therefore, in the example shown in FIG. 4, the character string “Thank you for visiting” written between “phoneme =“ Type1 ”” and “/>” becomes the read-out character string. Note that the content data may include a description other than the reading character string. For example, a description similar to a tag similar to HTML (Hypertext Markup Language) may be included to specify display of an image or a character string. Although FIG. 4 shows a case where it is described in a language similar to HTML, a description for designating display of an image or a character string may be described in a markup language other than HTML.
[0062]
In step S101, the
[0063]
Subsequently, the reading character string extraction / replacement unit 3 extracts the reading character string and the identification information from the content data input to the
[0064]
Subsequently, the
[0065]
The TTP process in step S103 is a process for converting the reading character string extracted in step S102 into a phonetic symbol string. Accordingly, the content data itself is not changed in step S103.
[0066]
Next, the reading character string extraction / replacement unit 3 converts the reading character string in the content data stored in the storage device 7 into a phonetic symbol string obtained by TTP processing (a phonetic symbol string stored in the temporary storage device 9). (Step S104). In step S104, the reading character string extraction / replacement unit 3 may replace the character string described together with the tag indicating the reading character string with the phonetic symbol character string. At this time, the reading character string extraction / replacement unit 3 deletes the description indicating the identification information (for example, “phoneme =“ Type1 ”” shown in FIG. 4), and sets the tag indicating the reading character string as the phonetic symbol string. Replace with the indicated tag.
[0067]
FIG. 5 is an explanatory diagram showing an example of content data after replacement. In the example shown in FIG. 5, “PTS” is a tag indicating that the character string that continues to “/” is a phonetic symbol string. The reading character string “Thank you for visiting” shown in FIG. 4 is replaced with the phonetic symbol string “GOHOUMON ARIGATOU GOZAIMASU”. Further, the description “phoneme =“ Type1 ”” indicating the identification information is deleted, and the tag “TTP” indicating the reading character string is replaced with the tag “PTS” indicating the phonetic symbol string. As a result, the content data illustrated in FIG. 5 is obtained.
[0068]
The reading character string extraction / replacement unit 3 stores the content data after replacement in the storage device 7. Thereafter, when the
[0069]
FIG. 6 is a flowchart showing an example of the operation of the terminal 11. A user of the terminal 11 operates the terminal 11 so as to request content data including a phonetic symbol string according to the specifications of the terminal 11. In response to this operation, the
[0070]
The phonetic symbol
[0071]
The
[0072]
According to the audio content distribution system shown in the present embodiment, when content data including a reading character string is input, the content server replaces the reading character string in the content data with a phonetic symbol string. Then, the replaced content data is transmitted to the terminal 11. Therefore, the terminal 11 can output the voice immediately when receiving the content data. Therefore, the time until the terminal that receives the content data outputs the sound can be shortened.
[0073]
In addition, the content server 1 converts the read-out character string into a phonetic symbol string designated by the identification information. Therefore, even when content is to be provided to a plurality of terminals with different phonetic symbol string specifications, the content provider does not have to write a phonetic symbol string for each specification. What is necessary is just to describe information with a reading character string. For example, in the description of steps S101 to S105, a case where a text string “Thank you for visiting” is converted to a phonetic symbol string “GOHOUMON ARIGATOU GOZAIMASU” is shown. When content data in which other identification information (for example, “Type2”) is entered instead of “Type1” shown in FIG. 4, the content server 1 follows “Thank you for your visit” according to other specifications. Replace with a phonetic symbol string. In this way, the content provider need not describe a phonetic symbol string that conforms to individual specifications such as “GOHOUMON ARIGATOU GOZAIMASU”, but may describe identification information such as “Type1”. Therefore, the burden on the content provider can be reduced.
[0074]
Further, the content server 1 performs the TTP process. Therefore, since it is not necessary for the terminal 11 to perform the conversion process from the reading character string to the phonetic symbol string, the process of the terminal 11 can be simplified and the production cost of the terminal 11 can be reduced. If the content data including the phonetic symbol string includes a description that designates display of an image or the like, the terminal 11 may display the image or the like according to the description. Therefore, there is no need to separately download phonetic symbol string information and image data display information. Further, it is not necessary for the content server to transmit the sound and the image in synchronization.
[0075]
In the present embodiment, if the specifications of the phonetic symbol strings of the
[0076]
Also, the specification of the phonetic symbol string may be specified by a tag instead of the identification information. For example, a plurality of types of tags such as “TTP” and “TTPX” may be used as tags indicating the reading character string, and the tag indicating the reading character string may be changed for each desired specification. In this case, the read-out character string extraction / replacement unit 3 may extract the tag indicating the read-out character string and the read-out character string in step S102 and store them in the temporary storage device. And the
[0077]
In the present embodiment, the content input unit corresponds to the
[0078]
The content receiving unit corresponds to the
[0079]
In the present embodiment, a conversion server provided separately from the content server performs TTP processing (conversion processing from a read-out character string to a phonetic symbol string). FIG. 7 is a block diagram showing a second embodiment of the audio content distribution system according to the present invention. The same components as those in the first embodiment are given the same reference numerals as those in FIG. The audio content distribution system shown in FIG. 7 includes a content server (content distribution device) 31, a conversion server (audio information conversion device) 41, and a terminal 11. The
[0080]
Similar to the first embodiment, a plurality of
[0081]
Similar to the content server 1 shown in FIG. 1, the
[0082]
In the
[0083]
The reading character
[0084]
The configuration of the terminal 11 is the same as the configuration of the terminal according to the first embodiment.
[0085]
FIG. 8 is a block diagram showing a specific configuration example of the second exemplary embodiment of the present invention. In FIG. 8, the
[0086]
The
[0087]
In addition, the
[0088]
The
[0089]
An example of the configuration of the terminal 11 shown in FIG. 8 is the same as that shown in FIG.
[0090]
When the audio content distribution system is configured as shown in FIG. 8, the reading character string extraction /
[0091]
Next, the operation will be described.
FIG. 9 is a flowchart illustrating an example of operations of the
[0092]
The reading character string extraction /
[0093]
The reading character string extraction /
[0094]
When the read-out character
[0095]
The
[0096]
The reading character string extraction /
[0097]
The reading character string extraction /
[0098]
The operation when the terminal 11 receives content data from the
[0099]
Also in the present embodiment, the
[0100]
Furthermore, according to the present embodiment, since the
[0101]
Similarly to the first embodiment, when the specifications of the phonetic symbol strings of the
[0102]
In the present embodiment, a conversion server may be provided for each specification of the phonetic symbol string, and each conversion server may be configured to perform TTP processing according to a specific specification. In this case, the
[0103]
In the present embodiment, the content input unit corresponds to the
[0104]
The conversion means corresponds to the read character
[0105]
The content receiving unit corresponds to the
[0106]
Embodiment 3 FIG.
In the present embodiment, the terminal receives content data in which a reading character string is described. However, the terminal may receive the content data in which the phonetic symbol string is described in addition to the content data in which the reading character string is described. FIG. 10 is a block diagram showing a third embodiment of an audio content distribution system according to the present invention. The same components as those in the first or second embodiment are denoted by the same reference numerals as those in FIG. 1 or FIG. The audio content distribution system shown in FIG. 10 includes a content server (content distribution device) 51, a conversion server (audio information conversion device) 41, and a terminal 61. The
[0107]
Similar to the first embodiment, a plurality of
[0108]
The
[0109]
Although not shown in FIG. 10, the content server shown in the first embodiment or the second embodiment may be connected to a communication network (the
[0110]
In the
[0111]
The configuration of the
[0112]
In the terminal 11, the
[0113]
FIG. 11 is a block diagram illustrating a specific configuration example of the third exemplary embodiment of the present invention. In FIG. 8, the
[0114]
In addition, the
[0115]
The
[0116]
An example of the configuration of the
[0117]
When the audio content distribution system is configured as shown in FIG. 11, the
[0118]
Next, the operation will be described.
The
[0119]
When the
[0120]
FIG. 12 is a flowchart showing an example of the operation of the terminal 61. The
[0121]
The
[0122]
When extracting the reading character string or the phonetic symbol string from the content data, the
[0123]
If the
[0124]
The
[0125]
The
[0126]
The reading character
[0127]
In step S <b> 135, the
[0128]
If the
[0129]
The
[0130]
According to the present embodiment, the terminal 61 can output audio not only when content data including a phonetic symbol string is received but also when content including a reading character string is received.
[0131]
Further, when the terminal 61 receives the content data including the phonetic symbol string, the terminal 61 outputs the voice based on the phonetic symbol string, so that the time until the voice is output can be shortened. Further, since the content provider does not have to describe a phonetic symbol string for each specification, the burden on the content provider can be reduced. Further, the terminal 11 does not need to separately download the phonetic symbol string information and the image data display information. There is no need for the content server to transmit the sound and the image in synchronization.
[0132]
In the third embodiment, content data in which both a reading character string and a phonetic symbol string are described may be input to the
[0133]
Similarly to the first embodiment, when the specifications of the phonetic symbol strings of the
[0134]
In the present embodiment, a
[0135]
In the present embodiment, the content receiving unit corresponds to the
[0136]
The conversion means corresponds to the read character
[0137]
【The invention's effect】
According to the present invention, the content distribution device accepts input of content data in which a read-out character string that is a character string to be read out as sound is described, and reads out the read-out character string in the content data as an output sound. Content replacement means for replacing the phonetic symbol string, which is data for identification, with the terminal device receiving content data in which the phonetic symbol string is described from the content distribution device; and pronunciation from the content data Since the phonetic symbol string extracting means for extracting the symbol string and the output means for outputting the sound based on the phonetic symbol string are provided, the time until the terminal receiving the content outputs the voice can be shortened.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of the present invention.
FIG. 2 is a block diagram illustrating a specific configuration example of the first embodiment.
FIG. 3 is a flowchart showing an example of the operation of the content server.
FIG. 4 is an explanatory diagram illustrating an example of content data input to a content server.
FIG. 5 is an explanatory diagram showing an example of content data after replacement.
FIG. 6 is a flowchart showing an example of operation of a terminal.
FIG. 7 is a block diagram showing a second embodiment of the present invention.
FIG. 8 is a block diagram illustrating a specific configuration example of the second embodiment.
FIG. 9 is a flowchart showing an example of operations of a content server and a conversion server.
FIG. 10 is a block diagram showing a third embodiment of the present invention.
FIG. 11 is a block diagram illustrating a specific configuration example of the third embodiment.
FIG. 12 is a flowchart showing an example of operations of a terminal and a conversion server.
[Explanation of symbols]
1 Content server
2 Content input section
3 Text-to-speech extraction and replacement part
4 Conversion unit
5 Content transmission part
11 Terminal device
12 Content receiver
13 Pronunciation symbol string extraction unit
14 Speech generator
15 Audio output section
21 Communication network
Claims (10)
前記コンテンツ配信装置は、
音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、
前記コンテンツデータ内の読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換するコンテンツ置換手段とを備え、
前記端末装置は、
前記コンテンツ配信装置から、発音記号列が記述されたコンテンツデータを受信するコンテンツ受信手段と、
前記コンテンツデータから発音記号列を抽出する発音記号列抽出手段と、
前記発音記号列に基づいて音声を出力する出力手段とを備え、
前記コンテンツ置換手段は、
前記コンテンツ入力手段に入力されたコンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、
前記読み上げ文字列を発音記号列に変換する変換手段と、
前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備え、
前記コンテンツ受信手段は、発音記号列を示すタグとともに発音記号列が記述されたコンテンツデータをコンテンツ配信装置から受信し、
発音記号列抽出手段は、発音記号列を示すタグとともに記述された文字列を発音記号列として抽出する
ことを特徴とするコンテンツ配信システム。A content distribution system comprising: a content distribution device that distributes content data; and a terminal device that outputs content based on content data received from the content distribution device,
The content distribution device includes:
A content input means for receiving input of content data in which a read- out character string that is a character string to be read out as sound is described together with a tag indicating the read-out character string ;
Content replacement means for replacing the read-out character string in the content data with a phonetic symbol string that is data for specifying the output sound;
The terminal device
Content receiving means for receiving content data in which a phonetic symbol string is described from the content distribution device;
Phonetic symbol string extraction means for extracting a phonetic symbol string from the content data;
Output means for outputting sound based on the phonetic symbol string ,
The content replacement means includes:
Read-out character string extraction means for extracting a character string described together with a tag indicating a read-out character string from the content data input into the content input means,
Conversion means for converting the reading character string into a phonetic symbol string;
Substituting means for substituting the phonetic symbol string in the content data with the phonetic symbol string, and substituting the tag indicating the voiced character string with the tag indicating the phonetic symbol string,
The content receiving means receives content data in which a phonetic symbol string is described together with a tag indicating a phonetic symbol string from the content distribution device,
A content distribution system, wherein the phonetic symbol string extraction unit extracts a character string described with a tag indicating the phonetic symbol string as a phonetic symbol string .
読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、
変換手段は、前記読み上げ文字列を、前記仕様情報が示す仕様に応じた発音記号列に変換する
請求項1に記載のコンテンツ配信システム。The content input means accepts input of content data in which specification information indicating the specification of the phonetic symbol string is described together with the reading character string,
The reading character string extraction means extracts the reading character string and the specification information from the content data,
Conversion means, content delivery system according to claim 1 for converting the speech string, the phonetic symbol string corresponding to the specifications indicated by the specification information.
前記コンテンツ配信装置は、
読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、
前記コンテンツデータ内の読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換するコンテンツ置換手段とを備え、
前記端末装置は、
前記コンテンツ配信装置から、発音記号列が記述されたコンテンツデータを受信するコンテンツ受信手段と、
前記コンテンツデータから発音記号列を抽出する発音記号列抽出手段と、
前記発音記号列に基づいて音声を出力する出力手段とを備え、
前記コンテンツ置換手段は、
前記コンテンツ入力手段に入力されたコンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と 、
前記読み上げ文字列を前記音声情報変換装置に送信する読み上げ文字列送信手段と、
前記音声情報変換装置から発音記号列を受信し、前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備え、
前記音声情報変換装置は、
前記コンテンツ配信装置から読み上げ文字列を受信し、前記読み上げ文字列を発音記号列に変換する変換手段と、
前記発音記号列を前記コンテンツ配信装置に送信する発音記号列送信手段とを備え、
前記コンテンツ受信手段は、発音記号列を示すタグとともに発音記号列が記述されたコンテンツデータをコンテンツ配信装置から受信し、
発音記号列抽出手段は、発音記号列を示すタグとともに記述された文字列を発音記号列として抽出する
ことを特徴とするコンテンツ配信システム。A content distribution device that distributes content data, a terminal device that outputs content based on the content data received from the content distribution device, and a voice that converts a read-out character string that is a character string to be read out as a voice into a phonetic symbol string A content distribution system comprising an information conversion device ,
The content distribution device includes:
Content input means for accepting input of content data in which a read-out character string is described together with a tag indicating the read-out character string;
Content replacement means for replacing the read-out character string in the content data with a phonetic symbol string that is data for specifying the output sound;
The terminal device
Content receiving means for receiving content data in which a phonetic symbol string is described from the content distribution device;
Phonetic symbol string extraction means for extracting a phonetic symbol string from the content data;
Output means for outputting sound based on the phonetic symbol string ,
The content replacement means includes:
A reading character string extraction unit that extracts a character string described together with a tag indicating a reading character string from the content data input to the content input unit ;
Read-out character string transmitting means for transmitting the read-out character string to the speech information converter;
Substitution means for receiving a phonetic symbol string from the audio information converter, replacing a text string in the content data with the phonetic symbol string, and replacing a tag indicating the text string with a tag indicating the phonetic string With
The voice information conversion device includes:
Conversion means for receiving a read-out character string from the content distribution device and converting the read-out character string into a phonetic symbol string;
Phonetic symbol string transmitting means for transmitting the phonetic symbol string to the content distribution device;
The content receiving means receives content data in which a phonetic symbol string is described together with a tag indicating a phonetic symbol string from the content distribution device,
A content distribution system, wherein the phonetic symbol string extraction unit extracts a character string described with a tag indicating the phonetic symbol string as a phonetic symbol string .
読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、
読み上げ文字列送信手段は、前記読み上げ文字列と前記仕様情報を音声情報変換装置に送信し、
変換手段は、前記読み上げ文字列を、前記仕様情報が示す仕様に応じた発音記号列に変換する
請求項3に記載のコンテンツ配信システム。The content input means accepts input of content data in which specification information indicating the specification of the phonetic symbol string is described together with the reading character string,
The reading character string extraction means extracts the reading character string and the specification information from the content data,
The reading character string transmitting means transmits the reading character string and the specification information to the voice information conversion device,
The content distribution system according to claim 3 , wherein the conversion unit converts the reading character string into a phonetic symbol string corresponding to a specification indicated by the specification information.
音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、
前記コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、
前記読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する変換手段と、
前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備えた
ことを特徴とするコンテンツ配信装置。A content distribution device for distributing content data to a terminal device,
A content input means for receiving input of content data in which a read- out character string that is a character string to be read out as sound is described together with a tag indicating the read-out character string ;
Read-out character string extraction means for extracting a character string described with a tag indicating a read-out character string from the content data as a read-out character string;
Conversion means for converting the reading character string into a phonetic symbol string that is data for specifying output speech;
A content distribution apparatus comprising: replacement means for replacing a reading character string in the content data with the phonetic symbol string, and replacing a tag indicating the reading character string with a tag indicating the phonetic symbol string .
読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、
変換手段は、前記読み上げ文字列を、前記仕様情報が示す仕様に応じた発音記号列に変換する
請求項5に記載のコンテンツ配信装置。The content input means accepts input of content data in which specification information indicating the specification of the phonetic symbol string is described together with the reading character string,
The reading character string extraction means extracts the reading character string and the specification information from the content data,
The content distribution apparatus according to claim 5 , wherein the conversion unit converts the reading character string into a phonetic symbol string corresponding to a specification indicated by the specification information.
読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付けるコンテンツ入力手段と、
前記コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する読み上げ文字列抽出手段と、
前記読み上げ文字列抽出手段が抽出した読み上げ文字列を前記音声情報変換装置に送信する読み上げ文字列送信手段と、
前記読み上げ文字列から変換された発音記号列を前記音声情報変換装置から受信し、前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する置換手段とを備えた
ことを特徴とするコンテンツ配信装置。A content distribution device that is connected to a speech information conversion device that converts a read-out character string, which is a character string to be read out as speech, into a phonetic symbol sequence that is data for specifying output speech, and distributes content data to a terminal device. There,
Content input means for accepting input of content data in which a read-out character string is described together with a tag indicating the read-out character string;
Read-out character string extraction means for extracting a character string described with a tag indicating a read-out character string from the content data as a read-out character string;
Read-out character string transmitting means for transmitting the read-out character string extracted by the read-out character string extracting means to the speech information converter;
The phonetic symbol string converted from the read-out character string is received from the speech information conversion device, the read-out character string in the content data is replaced with the phonetic symbol string, and a tag indicating the read-out character string is added to the phonetic symbol string. A content distribution apparatus comprising: replacement means for replacing the indicated tag .
読み上げ文字列抽出手段は、コンテンツデータから読み上げ文字列と仕様情報とを抽出し、
読み上げ文字列送信手段は、前記読み上げ文字列と前記仕様情報を音声情報変換装置に送信する
ことを特徴とする請求項7に記載のコンテンツ配信装置。The content input means accepts input of content data in which specification information indicating the specification of the phonetic symbol string is described together with the reading character string,
The reading character string extraction means extracts the reading character string and the specification information from the content data,
The content distribution device according to claim 7 , wherein the reading character string transmission unit transmits the reading character string and the specification information to an audio information conversion device.
コンピュータに、
音声として読み上げられるべき文字列である読み上げ文字列が、読み上げ文字列を示すタグとともに記述されたコンテンツデータの入力を受け付ける処理、
前記コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、
前記読み上げ文字列を、出力音声を特定するためのデータである発音記号列に変換する処理、および
前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理
を実行させるためのコンテンツ配信プログラム。A content distribution program installed in a content distribution device for distributing content data to a terminal device,
On the computer,
A process of accepting input of content data in which a read- out character string, which is a character string to be read out as sound, is described together with a tag indicating the read-out character string ;
A process of extracting a character string described with a tag indicating a reading character string from the content data as a reading character string ;
A process for converting the reading character string into a phonetic symbol string that is data for specifying output sound, and replacing the reading character string in the content data with the phonetic symbol string, and a tag indicating the reading character string, A content distribution program for executing processing to replace a tag indicating a phonetic symbol string .
コンピュータに、
読み上げ文字列を示すタグとともに読み上げ文字列が記述されたコンテンツデータの入力を受け付ける処理、
前記コンテンツデータから、読み上げ文字列を示すタグとともに記述された文字列を読み上げ文字列として抽出する処理、
前記読み上げ文字列を前記音声情報変換装置に送信する処理、および
前記読み上げ文字列から変換された発音記号列を前記音声情報変換装置から受信し、前記コンテンツデータ内の読み上げ文字列を前記発音記号列に置換し、読み上げ文字列を示すタグを、発音記号列を示すタグに置換する処理
を実行させるためのコンテンツ配信プログラム。To a content distribution apparatus that is connected to a speech information conversion device that converts a read-out character string that is a character string to be read out as speech into a phonetic symbol string that is data for specifying output speech, and that distributes content data to a terminal device A content distribution program installed;
On the computer,
A process of accepting input of content data in which a text string is written together with a tag indicating the text string to be read,
A process of extracting a character string described with a tag indicating a reading character string from the content data as a reading character string ;
A process of transmitting the reading character string to the speech information conversion device; and a phonetic symbol string converted from the reading character string is received from the speech information conversion device, and the reading character string in the content data is received as the phonetic symbol string. A content distribution program for executing processing for replacing a tag indicating a read-out character string with a tag indicating a phonetic symbol string .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003070717A JP4082249B2 (en) | 2003-03-14 | 2003-03-14 | Content distribution system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003070717A JP4082249B2 (en) | 2003-03-14 | 2003-03-14 | Content distribution system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004282392A JP2004282392A (en) | 2004-10-07 |
JP4082249B2 true JP4082249B2 (en) | 2008-04-30 |
Family
ID=33287397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003070717A Expired - Fee Related JP4082249B2 (en) | 2003-03-14 | 2003-03-14 | Content distribution system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4082249B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097033A (en) * | 2011-10-28 | 2013-05-20 | Hitachi Government & Public Corporation System Engineering Ltd | Apparatus for providing text data with synthesized voice information and method for providing text data |
JP6078964B2 (en) | 2012-03-26 | 2017-02-15 | 富士通株式会社 | Spoken dialogue system and program |
-
2003
- 2003-03-14 JP JP2003070717A patent/JP4082249B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004282392A (en) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101027548B1 (en) | Voice browser dialog enabler for a communication system | |
KR101683944B1 (en) | Speech translation system, control apparatus and control method | |
JP3711411B2 (en) | Speech synthesizer | |
US20110067059A1 (en) | Media control | |
JP2002528804A (en) | Voice control of user interface for service applications | |
JPH10333693A (en) | Automatic speech recognition service offering method and system therefor | |
EP1215656A2 (en) | Idiom handling in voice service systems | |
US20170372695A1 (en) | Information providing system | |
JP6625772B2 (en) | Search method and electronic device using the same | |
EP2747464A1 (en) | Sent message playing method, system and related device | |
US11488603B2 (en) | Method and apparatus for processing speech | |
CN113593519B (en) | Method, system, device, equipment and storage medium for synthesizing text speech | |
GB2330429A (en) | Data stream enhancement | |
JP3714159B2 (en) | Browser-equipped device | |
JP4082249B2 (en) | Content distribution system | |
EP3171610B1 (en) | Transmission device, transmission method, reception device, and reception method | |
JP2018045675A (en) | Information presentation method, information presentation program and information presentation system | |
EP1665229B1 (en) | Speech synthesis | |
JP2002091473A (en) | Information processor | |
US20020077814A1 (en) | Voice recognition system method and apparatus | |
JP2005266009A (en) | Data conversion program and data conversion device | |
JP2001256142A (en) | Voice information provision method and voice information provision device | |
KR100432373B1 (en) | The voice recognition system for independent speech processing | |
JP2002099294A (en) | Information processor | |
JP7454159B2 (en) | Automatic voice response device, server device, automatic voice response method, page sending method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051117 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080204 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |