JP2004094085A - Speech data distribution apparatus and client terminal device - Google Patents

Speech data distribution apparatus and client terminal device Download PDF

Info

Publication number
JP2004094085A
JP2004094085A JP2002257570A JP2002257570A JP2004094085A JP 2004094085 A JP2004094085 A JP 2004094085A JP 2002257570 A JP2002257570 A JP 2002257570A JP 2002257570 A JP2002257570 A JP 2002257570A JP 2004094085 A JP2004094085 A JP 2004094085A
Authority
JP
Japan
Prior art keywords
data
audio data
voice
voice data
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002257570A
Other languages
Japanese (ja)
Other versions
JP3999078B2 (en
Inventor
Satoshi Watanabe
渡辺 聡
Shinji Hayakawa
早川 慎司
Mayumi Harada
原田 真弓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2002257570A priority Critical patent/JP3999078B2/en
Publication of JP2004094085A publication Critical patent/JP2004094085A/en
Application granted granted Critical
Publication of JP3999078B2 publication Critical patent/JP3999078B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a reliable speech data distribution apparatus. <P>SOLUTION: The speech data distribution apparatus for distributing speech data through a data network receives at least a series of text data from at least one client terminal, converts the text data by speech synthesis to a series of speech data and accumulates the data for the purpose of delivery. The system corrects and updates the series of accumulated speech data according to reception of a correction request from the client terminal. The client terminal sends the text data to be converted to the series of speech data to a speech data distribution server in response to such speech data distribution apparatus and sends the correction request for correcting and updating the series of speech data to the speech data distribution server. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット等のデータネットワークを介して利用者端末に音声データを配信する音声データ配信装置及び配信依頼者端末に関する。
【0002】
【従来の技術】
電子メールやWebページの長文テキストを画面上で読む場合、目への負担を軽減するため、テキストを音声化して提示したいというニーズがある。このニーズに対し、音声データ配信装置を利用した音声提示を実現する方法が知られている。かかる音声データ配信装置においては、テキスト形式等の文書データを音声データに変換するには、音声合成エンジンと呼ばれる特殊のソフトウェアを必要とすることから、かかる音声データへの変換を音声データの配信に先立って利用者にサービスする音声データ配信システムも知られている。この点、特開2001−282268公報は、天気予報等のテキストデータを依頼者から受け取り、音声合成データを作成して配信元であるWebサーバ或いは電話サーバに配信することにより、ホームページ閲覧者や電話利用者が天気予報等の情報を音声にて聴取できるようにする音声データ配信システムを開示している。かかる構成により、音声データの配信を望む配信依頼者は、自己の装置に音声合成機能を有しなくても、テキスト形式等の文書データを該データ配信システムに送信するだけで、かかる音声データを配信先の利用者に提供できるとしている。
【0003】
ところで、日本語を対象言語とする前提では、音声データの合成は、通常、漢字かな混じり文であるテキストデータから、単語辞書データ、韻律規則データ及び音声素片データを用いて音声波形の音声データが生成される。
【0004】
【発明が解決しようとする課題】
このように生成される音声データには、常に、読みの誤りの発生、或いは未知語の発生、即ち、単語辞書に登録されていないために対応する音声が確定できず読みが未確定のまま配信される危険の発生が予想されている。特に、日本語では、当該テキストの内容の属する分野、例えば、経済、文化、政治、娯楽等の分野の違いにより、妥当する読みが異なる或いは専門用語のため未知語が多く発生する等の問題が予想される。そのため結果的に、誤った読みを含んだ音声データを配信し、これを音声にて聴取する利用者をして情報の理解を誤らせしめる危険が存在する。かかる誤りのある音声データの提供は、音声データ配信サービスの信頼性を損ね、その普及を妨げる要因となっていた。
【0005】
本発明は、以上の問題に鑑みてなされたものであり、その目的は、信頼性のある音声データ配信装置を提供することである。
【0006】
【課題を解決するための手段】
本発明による音声データ配信装置は、データネットワークを介して音声データを配信する音声データ配信装置であり、少なくとも1つの依頼者端末から少なくとも一連のテキストデータを受信し、音声合成により該テキストデータを1連の音声データに変換して配信のために蓄積する音声データ蓄積手段と、該依頼者端末からの修正リクエストに応じて、当該蓄積された1連の音声データを修正して更新する音声データ修正更新手段と、を含むことを特徴とする。
【0007】
本発明による配信依頼端末は、データネットワークを介して音声データを配信する音声データ配信装置に該複数の音声データのうちの少なくとも1連の音声データの配信を依頼する依頼者端末であり、該1連の音声データに変換されるべきテキストデータを該音声データ配信サーバに送信するテキストデータ送信手段と、該1連の音声データを修正して更新するための修正リクエストを該音声データ配信サーバに送信する修正情報送信手段と、を含むことを特徴とする。
【0008】
【発明の実施の形態】
本発明の実施例について添付の図面を参照して詳細に説明する。
<第1実施例>
図1は、本発明の第1の実施例であり、音声データ配信装置を含むシステム全体構成を示している。音声データ配信装置(音声データ配信システムとも称する)は、音声データ配信サーバ10及び音声データ合成サーバ20から構成される。
【0009】
図1の右側に示される音声データ合成サーバ20を参照すると、音声データ合成サーバ20は、インターネット30に接続されて、依頼者端末40及び/又は利用者端末100との通信を可能とする。音声データ合成サーバ20のハードウェア構成は、通常のサーバコンピュータとして構成される。音声データ合成サーバ20のソフトウェア構成は、図示されるように、制御プログラム22と、TCP/IP部23と、HTTP/CGI部24と、音声合成処理部25と、音声データ蓄積依頼部26と、を含む。制御プログラム22は、音声データ合成サーバ20の全体の基本制御を司るオペレーティングシステムである。TCP/IP部23は、制御プログラム22の制御の下にTCP/IPプロトコルの手順を実行し、インターネット30を介して依頼者端末40及び/又は利用者端末100とのデータ通信を実現する。HTTP/CGI部24は、TCP/IP部23を介して、音声データ配信依頼受け付けのためのWebページをインターネット30に配信すると共に、そのCGI機能により、依頼者端末40からのテキストデータを受信する機能を有する。HTTP/CGI部24は、また、音声合成された音声データを依頼者端末40に返却して、その修正指示を受け付ける機能を有する。HTTP/CGI部24は、HTTP(HyperText Transfar Protocol;IETF:RFC2616参照)によるデータ通信を実現する。
【0010】
音声合成処理部25は、HTTP/CGI部24から入力されるテキストデータを音声データに変換する機能を有する。入力されるテキストデータの形式は、プレーンテキスト、即ち、JIS漢字文字コード列から構成されるのが通常であるが、他の文書形式でも良い。出力される音声データは、音声波形に対応する音素データから構成され、通常1つのファイルにまとめられる。このファイルは、利用者端末100及び又は依頼者端末40により再生可能な音声波形形式のファイルであれば良く、WAVファイル、MP3ファイル等の多様なファイル形式が想定される。音声合成処理部25には、例えば10万語程度の表記、読み、アクセント及び品詞の情報が各単語に対応付けて保存される単語辞書データファイル251と、基本周波数や音圧の制御規則データが格納される韻律規則データファイル252と、音素ごとの波形データを蓄えた音声素片データファイル253と、が接続される。音声合成処理部25の音声合成の処理手順は、先ず、漢字かな混じり文であるテキストデータを単語辞書データファイル251の単語辞書データを用いてアクセント記号付カナ文字列である中間言語を生成する。次いで、生成された中間言語から、韻律規則データファイル252の韻律規則データを用いて音声素片番号、ピッチパターン情報及び音韻継続時間情報等からなる合成パラメータを生成する。そして、生成された合成パラメータに従って、音声素片データ253の音声素片データを読み出してこれを順次繋げることで音声波形データを生成する。これにより、音声データの音声波形情報は、例えば、標本化周波数8kHz、量子化16bitのPCMデータとして生成され、音声データ63として音声データ合成サーバ20の適切な一次記憶装置に一時的に保存される。
【0011】
音声合成処理部25は、更に、文字列として未知語を返す機能を有する。ここで、未知語とは、単語辞書データファイルに登録されておらず、読み誤る可能性がある単語である。音声合成処理部25は、未知語であると判定された単語は、所定の適当な読みで音声に変換と共に、未知語と判定された単語のリストを未知語リスト64として出力する。未知語リスト64は、先の音声データ63と共に音声データ合成サーバ20の適切な一次記憶装置に一時的に保存される。
【0012】
音声データ蓄積依頼部26は、依頼者端末40からの音声データに対する配信承認のOKメッセージに応じて、一時的に記憶されていた音声データ63を音声データ配信サーバ10に送信して、これに蓄積せしめてインターネット30に向け各利用者端末100に配信するように依頼する機能を有する。
図1の左側に示される音声データ配信サーバ10について参照すると、音声データ配信サーバ10がインターネット30に接続されて、利用者端末100及び/又は依頼者端末40との間でデータ通信を可能とする。音声データ配信サーバ10のハードウェア構成は、通常のサーバコンピュータとして構成される。音声データ合成サーバ20のソフトウェア構成は、図示されるように、制御プログラム12と、TCP/IP部13と、HTTP部14と、音声データ蓄積部15と、配信のための音声データ・データベース60(以下、音声データDBと称する)と、から構成される。
【0013】
制御プログラム12は、音声データ配信サーバ装置10の全体の基本制御を司るオペレーティングシステムである。TCP/IP部13は、制御プログラム12の制御の下にTCP/IPプロトコルの手順を実行し、インターネット30を介して依頼者端末40及び/又は利用者端末100とのデータ通信を実現する。HTTP部14は、TCP/IP部13を介して、音声データDB60に格納されている音声データの配信を要求する利用者端末100又は依頼者端末40に向けて所望の音声データを配信する機能を有する。音声データDB60は、複数の識別子からなる識別子群と、該識別子の各々に対応付けられた複数の音声データからなる音声データ群からなる。音声データDB60の構成は、識別子をファイル名とする通常のファイルシステムによって実現され得る。
【0014】
図2は、図1に示される依頼者端末40の内部構成を示している。ここで、依頼者端末40は、インターネット30に接続されデータ通信を可能としている。依頼者端末40のハードウェア構成としては、パーソナルコンピュータ等の通常のネットワーククライアント端末であり、通常のディスプレイ51及びキーボード54が接続されている。依頼者端末40のハードウェア構成は、更に、音声データを再生して検証するためのスピーカ52と操作者の音声入力により直接音声データ作成するためのマイク53とを含む。依頼者端末40のソフトウェア構成としては、依頼者端末40の全体の基本制御を司る制御プログラム41と、インターネット30を介してデータ通信を実現するためのTCP/IP部42と、キーボード54を含むI/O機器の入出力を制御プログラム41と協働して実現するI/O制御部43と、マイク53から入力される音声をデジタル処理して取り込む音声入力部46と、TCP/IP部42を介して受信されるWebページを表示し、これに対する操作者の入力を再びインターネットに向けて送信するWebブラウザ部44と、Webブラウザ部44に表示されたWebページを介して取り込まれる音声データをスピーカ52を通して再生するための音声データ再生部45と、を含む。
【0015】
尚、依頼者端末40には、マイク53及び音声入力部46を用いてテキストデータの修正に対して直接操作者の音声をWebブラウザ部44に表示されるテキスト入力欄と連動させて音声データを直接生成することも可能である。
図3は、依頼者端末40における音声データ配信依頼画面の例を示している。音声データ配信依頼画面80は、テキストデータ入力欄81と、音声データ化指示釦82と、音声合成処理条件設定欄83とを含む。テキストデータ入力欄81は、依頼者端末40の操作者が実際に音声データとして配信を所望する文書をテキストデータとして文字入力する欄である。音声データ化指示釦82がテキストデータ入力の後に指示されることより、当該テキストデータが音声データ合成サーバ20に送信される。音声合成処理条件設定欄83は、音声データ合成サーバ20が音声合成処理を実行する際の詳細な処理条件を設定することを可能とする。本図の例では、音声データの声質設定と、速さ設定と、未知語表示の設定とを可能とする例を示されている。音声合成処理条件設定欄83に設定可能とする処理条件としては、他に生成される音声データの符号化速度(16kbps、32kbps等)や単語辞書の分野を設定する等の多様な設定が考えられる。
【0016】
図4は、依頼者端末40における音声データ修正依頼画面の例を示している。音声データ修正依頼画面84は、スピーカ52を用いた音声データの再生を指示する音声データ再生釦85と、テキストデータに対する修正指示としての文字入力を促す修正入力欄86と、未知語リストを表示する未知語リスト欄87と、該未知語に対する修正指示としてその単語情報の入力を促す単語情報入力欄88と、音声データに対する配信を承認する又は修正指示をなすOKメッセージ釦89とを含む。単語情報入力欄88は、更に、未知語リスト87上で選択された単語に対する修正指示として、そのフリガナ、即ち「読み」の入力を促す読み入力欄881と、その品詞を指定する品詞指定欄882と、読み入力欄にて指定されたフリガナに従い、そのアクセント情報の指定を促すアクセント指定欄883とを含む。尚、配信承認のための釦と修正指示のための釦とを別異に設ける形態でも良い。
【0017】
図5は、音声データ合成サーバ20及び依頼者端末40の処理手順を示している。本図に示されるシーケンスについて、前述の図1及び図2に示される構成要素を適宜参照して説明する。
先ず、音声データ合成サーバ20は、HTTP/CGI部24により、依頼者端末40に音声データ配信依頼画面を送信する(ステップS11)。これは、依頼者端末40が音声データ合成サーバ20のアドレスを指定して音声データ配信依頼画面にアクセスすることにより送信される。この送信に応じて、依頼者端末40は、そのWebブラウザ部44により、音声データ配信依頼画面を受信して表示する(ステップS12)。次いで、依頼者端末40の操作者からテキストデータの入力を受け付け、音声データ合成サーバに送信する(ステップS13)。この送信に応じて、音声データ配信サーバ20は、HTTP/CGI部24により、テキストデータを受信する(ステップS14)。
【0018】
次に、音声データ合成サーバ20は、音声合成処理部25により、受信されたテキストデータに対して音声合成処理を実行する(ステップS15)。この合成処理においては、音声データ配信依頼画面において指定された詳細な音声合成処理条件に従って合成処理がなされても良い。音声合成処理部25は、合成処理の結果として音声データ63及び未知語リスト64を作成する。次いで、音声データ合成サーバ20は、HTTP/CGI部24により、得られた音声データ63及び未知語リスト64を含む音声データ修正依頼画面を依頼者端末40に送信する(ステップS16)。この送信に応じて、依頼者端末40は、そのWebブラウザ部44により、音声データ修正依頼画面を受信して表示する(ステップS17)。音声データ修正依頼画面の表示に応じて、依頼者端末40の操作者は、適宜、当該合成された音声データが適正か否かの判断を行い、必要に応じてテキストデータの編集を行う。
【0019】
この編集の例について説明すると、「こちら側ではなしている言葉はきこえない。」というテキストデータは、文脈上「こちら側で、はなしている言葉は聞こえない。」という切れ目が妥当なのに対し、「こちら側では、なしてる言葉は聞こえない。」と聞こえる音声が生成された場合、依頼者端末40の操作者は、元のテキストデータに句点を加え、「こちら側で、話している言葉は聞こえない。」と修正指示をすることで、再び音声合成処理を依頼し、妥当な音声を生成することが出来る。又、「彼は大和魂がある」というテキストデータは、文脈上「彼はヤマトダマシイがある」という読み方が妥当なのに対し、「彼はダイワダマシイがある」と聞こえる音声が生成された場合、操作者は、元のテキストデータの「大和魂」の部分を「ヤマトダマシイ」とカナに変更し、修正指示することで妥当な音声を生成することが出来る。この場合、操作者は、図4に示す単語情報入力欄88から、「大和魂」の単語情報を入力することで修正指示をしても、妥当な音声を生成することが出来る。ここで入力された単語情報は、音声合成処理部25が、再び音声合成処理を行うにあたり、単語辞書データ251と併せて用いられる。
【0020】
以上の編集操作の後に、依頼者端末40は、Webブラウザ部44を介して、音声データ修正指示(修正リクエスト)又はOKメッセージを音声データ合成サーバに送信する(ステップS18)。修正指示の無いOKメッセージは、依頼者端末40の操作者が当該音声データについて修正指示が不要として実際の配信を承認することを意味する。
【0021】
この送信に応じて、音声データ合成サーバ20は、HTTP/CGI部24により、修正指示(修正リクエスト)又はOKメッセージを受信する(ステップS19)。次いで、修正指示/OKか否かの判定を行う(ステップS20)。もし修正指示がある場合には、ステップS15の音声合成処理に戻る。一方、OKである場合には、音声データ合成サーバ20は、音声データ蓄積依頼部26を介して音声データ配信サーバ10に当該音声データを蓄積せしめる(ステップS21)。音声データ蓄積依頼部26は、インターネット30を介して音声データ配信サーバ10の音声データ蓄積部15に音声データの蓄積を依頼し、音声データ蓄積部15はこれを音声データDB60に蓄積する。これにより、蓄積された音声データは、音声データ配信サーバ10のHTTP部14によりインターネット30を介して利用者端末100又は依頼者端末40に配信可能となる。
【0022】
次に、音声データ合成サーバ20は、HTTP/CGI部24により、登録完了メッセージを依頼者端末に通知する(ステップS22)。この送信に応じて、依頼者端末40は、Webブラウザ部44により、登録完了メッセージを受信する(ステップS23)。この登録完了メッセージは、依頼者端末40に操作者に表示される。
【0023】
以上のように、本第1の実施例においては、音声データ配信システムに音声合成サーバを設けたことで、音声データ配信の依頼者は、その依頼者端末に音声合成機能を備える作業が必要なく、合成された音声データに対して適切な修正追加をすることができる。
尚、音声データの配信形態として、HTTPサーバによる配信について説明したが、かかる形態に限られず、FTP(File Transfer Protocol)によるファイル転送v やUDP(User Datagram Protocol)による配信形態等の他の配信形態でも良い。
<第2の実施例>
図7は、本発明の第2の実施例であり、音声データ合成サーバ20の他の構成を示している。ここで、音声データ合成サーバ20のハードウェア構成は第1の実施例の場合と同様であり、そのソフトウェア構成は一部に機能の追加がなされる。かかる機能追加の部分についてのみ説明する。図7を参照すると、識別子決定部27と、音声音声データ情報計算部28とが備えられている。
【0024】
識別子決定部27は、合成され且つ依頼者端末からの配信承認のOKメッセージに基づいて配信される音声データを音声データファイルとしてインターネット30上でアクセス可能とする一意の識別子を自動的に決定する機能を有する。識別子の書式としては、URI(Uniform  Resource Identifiyer;IETF:RFC2396参照)を特定する情報として、IPヘッダの要求送信元IPアドレス(InternetProtocol;Source−address;IETF:RFC791)を利用することができる。
【0025】
識別子決定部27の識別子の自動生成方法の1例としては、カウンタメモリを備える方法がある。この例では、識別子決定部27の内部にカウンタメモリを備える。識別子決定部27は自動生成を開始すると直ちに、カウンタメモリから値を読み出す。そして、この値の文字列として含んだ識別子を生成すると共に、カウンタメモリの値をインクリメントする。カウンタメモリの値は、次の識別子生成まで保存される。具体的には、カウンタメモリから読み出した値が123だった場合、例えばhttp://aaa.bbb.cccc.dddd/123.wavと識別子を生成し、直ちにカウンタをインクリメントすることで、値124で次の識別子の生成に備える。自動生成方法の他の1例としては、時刻情報を用いる方法がある。この例では、識別子決定部27の内部に時刻情報を提供する時計を備える。識別子決定部27は、自動生成を開始すると直ちに時計から時刻情報を取得し、この値の文字列として含んだ識別子を生成する。具体的には、時計から得た時刻情報が2001年12月3日10時29分15秒33msだった場合には、例えば次のようになる。
【0026】
http://aaaa.bbbb.cccc.dddd/2001120310291533.wav
と識別子を生成する。尚、識別子決定部27による識別子生成機能は、対象となるテキストデータの内容から自動的に識別子を生成するように実現されても良い。この場合の方法としては、テキストデータの書式を予め規定しておき所定のフィールドの文字例から自動的に識別子を予定する文字例を抽出するようにすることが考えられる。これにより、依頼者は、所望の識別子名を自ら指定できるようになる。これは、依頼者にとってインターネット上での音声データの識別を自ら指定した識別子名によって管理できるので、使いやすいシステムを提供できる。音声データ合成サーバ20の音声データ蓄積依頼部26は、識別子決定部27により決定された識別子を音声データ63に付与して音声データ配信サーバ10に蓄積依頼する。
【0027】
音声データ情報計算部28は、音声合成処理部25により合成された音声データに基づいて音声データ情報を計算する。ここで音声データ情報とは、音声データのデータサイズおよび音声データの再生時間長である。音声データ情報計算部28は、入力された音声データのサイズ及び予め取り決められた音声データの形式から音声データの再生時間を計算する。具体的には、該音声データサイズがNバイト、該形式が標本化周波数8kHz、及び量子化16bitであると仮定すると、再生時間は、N/(16)[ms]と計算される。
【0028】
音声データ合成サーバ20は、音声データ情報計算部28により計算された再生時間を、識別子決定部27から出力される識別子と共に依頼者端末40にHTTP/CGI部24を用いて送信する。
図7は、依頼者端末40に表示される音声データ登録確認画面の例を示している。音声データ登録確認画面90は、識別子表示欄91と再生時間表示欄92とを含んでいる。識別子表示欄91は、音声データ合成サーバ20の識別子決定部27により決定された識別子が表示される。再生時間表示欄92は、音声データ合成サーバ20の音声データ情報計算部28により計算される当該音声データの予測再生時間が表示される。
【0029】
以上の第2実施例のおいては、第1の実施例と同様の処理手順の動作の結果として、依頼者端末の操作者は、音声データの識別子を認識することができる。例えば、Webページ管理者は、この識別子をその管理するWebページにハイパーリンクとして埋め込むことで更新し、Webサーバに登録する。Webページの利用者は、該更新されたWebページをブラウザ等で表示し、音声出力したい場合には、該追加されたハイパーリンクを利用することで、音声出力を得ることができる。また、本第2の実施例においては、音声データの再生時間情報を認識することができる。これにより、音声配信がなされた場合の聴取時間、通信データ量を知ることができ、音声データの利用者における具体的な利用イメージを想定することが可能となり、より洗練された音声データの配信が可能となる。
【0030】
尚、以上の第1及び第2の実施例において、説明の容易性から単一の依頼者端末或いは利用者端末について説明したが、本発明による音声データ配信システムは、多数の単一の依頼者端末或いは利用者端末を想定している。従って、音声データ配信システムが扱い得る音声データは、図示される数に限られず多数の音声データを収容し得る。
【0031】
又、以上の第1及び第2の実施例における音声データ配信装置は、音声データ配信サーバと音声データ合成サーバとの2つのサーバにより構成されるものとしたが、これは、既存の音声データ配信サーバのみが存在する運用形態に新たに音声構成サーバを追加する場合によりシステムの実現が容易であることによる。しかし、この2つのサーバを単一ハードウェアとしてのサーバ装置に集約する構成も当然に可能である。
【0032】
【発明の効果】
以上のように本発明による音声データ配信装置及び配信者端末によれば、配信対象となるべき音声データを再生確認して適切な修正をなすことが可能となり誤った読みによる発声を回避することができる。これにより、信頼性のある音声データ配信装置が提供される。
【図面の簡単な説明】
【図1】本発明の第1の実施例であり、音声データ配信システムの全体構成を示しているブロック図である。
【図2】図1に示される依頼者端末の構成を示しているブロック図である。
【図3】依頼者端末40に表示される音声データ配信依頼画面の例を示している図である。
【図4】依頼者端末40に表示される音声データ修正依頼画面の例を示している図である。
【図5】音声データ合成サーバ20及び依頼者端末40の処理手順を示しているシーケンス図である。
【図6】本発明の第2の実施例であり、音声データ合成サーバ20の他の構成を示しているブロック図である。
【図7】依頼者端末40に表示され音声データ登録確認画面の例を示している図である。
【符号の説明】
10 音声データ配信サーバ
12、22、41 制御プログラム
13、23、42 TCP/IP部
14 HTTP部
15 音声データ蓄積部
20 音声データ合成サーバ
24 HTTP/CGI部
25 音声合成処理部
26 音声データ蓄積依頼部
27 識別子決定部
28 音声データ情報計算部
30 インターネット
40 依頼者端末
43 I/O制御部
44 Webブラウザ部
45 音声データ再生部
46 音声入力部
51 ディスプレイ
52 スピーカ
53 マイク
54 キーボード
60 音声データ・データベース
63 音声データ
64 未知語リスト
80 音声データ配信依頼画面
84 音声データ修正依頼画面
90 音声データ登録確認画面
100 利用者端末
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an audio data distribution device that distributes audio data to user terminals via a data network such as the Internet, and a distribution requester terminal.
[0002]
[Prior art]
When reading an e-mail or a long text on a Web page on a screen, there is a need to present the text in voice to reduce the burden on the eyes. To meet this need, there has been known a method of realizing voice presentation using a voice data distribution device. In such an audio data distribution device, converting document data in a text format or the like into audio data requires special software called an audio synthesis engine. There is also known an audio data distribution system for providing services to users in advance. In this regard, Japanese Patent Application Laid-Open No. 2001-282268 discloses that text data such as a weather forecast is received from a requester, voice synthesis data is created and distributed to a Web server or a telephone server that is a distribution source, so that a homepage viewer or a telephone An audio data distribution system that allows a user to listen to information such as a weather forecast by voice is disclosed. With such a configuration, a distribution requester who wants to distribute audio data can transmit such audio data only by transmitting document data in a text format or the like to the data distribution system without having a voice synthesis function in its own device. It can be provided to users at the destination.
[0003]
By the way, on the premise that Japanese is the target language, speech data is usually synthesized from text data, which is a mixture of kanji and kana characters, by using word dictionary data, prosodic rule data, and speech unit data. Is generated.
[0004]
[Problems to be solved by the invention]
In the voice data generated in this manner, a reading error or an unknown word is always generated, that is, the corresponding voice cannot be determined because the word is not registered in the word dictionary, and the reading is undecided and distributed. It is expected that the danger will occur. In Japanese, in particular, there are problems such as differences in appropriate readings or the generation of many unknown words due to technical terms, depending on the field to which the contents of the text belong, for example, fields such as economy, culture, politics, and entertainment. is expected. As a result, there is a danger that, as a result, voice data containing erroneous reading is delivered, and a user who listens to the voice by voice may misunderstand the information. The provision of such erroneous audio data has impaired the reliability of the audio data distribution service and has been a factor hindering its spread.
[0005]
The present invention has been made in view of the above problems, and an object of the present invention is to provide a reliable audio data distribution device.
[0006]
[Means for Solving the Problems]
An audio data distribution device according to the present invention is an audio data distribution device that distributes audio data via a data network, receives at least a series of text data from at least one client terminal, and converts the text data into one by voice synthesis. Voice data storage means for converting to a series of voice data and storing for distribution, and voice data correction for correcting and updating the stored voice data in response to a correction request from the client terminal Updating means.
[0007]
The distribution request terminal according to the present invention is a requester terminal for requesting a voice data distribution device that distributes voice data via a data network to distribute at least one of the plurality of voice data. Text data transmitting means for transmitting text data to be converted to a series of voice data to the voice data distribution server, and transmitting a correction request for correcting and updating the series of voice data to the voice data distribution server And a correction information transmitting unit.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described in detail with reference to the accompanying drawings.
<First embodiment>
FIG. 1 shows a first embodiment of the present invention, and shows an entire system configuration including an audio data distribution device. The audio data distribution device (also referred to as an audio data distribution system) includes an audio data distribution server 10 and an audio data synthesis server 20.
[0009]
Referring to the voice data synthesis server 20 shown on the right side of FIG. 1, the voice data synthesis server 20 is connected to the Internet 30 and enables communication with the client terminal 40 and / or the user terminal 100. The hardware configuration of the voice data synthesis server 20 is configured as a normal server computer. As shown, the software configuration of the voice data synthesis server 20 includes a control program 22, a TCP / IP unit 23, an HTTP / CGI unit 24, a voice synthesis processing unit 25, a voice data accumulation request unit 26, including. The control program 22 is an operating system that controls the basic control of the entire voice data synthesis server 20. The TCP / IP unit 23 executes a procedure of the TCP / IP protocol under the control of the control program 22, and realizes data communication with the client terminal 40 and / or the user terminal 100 via the Internet 30. The HTTP / CGI unit 24 distributes a Web page for receiving a voice data distribution request to the Internet 30 via the TCP / IP unit 23, and receives text data from the client terminal 40 by using the CGI function. Has functions. The HTTP / CGI unit 24 also has a function of returning the synthesized voice data to the client terminal 40 and receiving a correction instruction. The HTTP / CGI unit 24 implements data communication by HTTP (HyperText Transfer Protocol; IETF: see RFC2616).
[0010]
The speech synthesis processing unit 25 has a function of converting text data input from the HTTP / CGI unit 24 into speech data. The format of the input text data is usually plain text, that is, a JIS kanji character code string, but may be another document format. The output audio data is composed of phoneme data corresponding to the audio waveform, and is usually collected in one file. This file only needs to be a file in an audio waveform format that can be reproduced by the user terminal 100 and / or the client terminal 40, and various file formats such as a WAV file and an MP3 file are assumed. The speech synthesis processing unit 25 includes, for example, a word dictionary data file 251 in which information of notation, reading, accent and part of speech of about 100,000 words is stored in association with each word, and control rule data of fundamental frequency and sound pressure. The stored prosody rule data file 252 and the speech unit data file 253 storing waveform data for each phoneme are connected. In the speech synthesis processing procedure of the speech synthesis processing unit 25, first, an intermediate language, which is a kana character string with accent symbols, is generated from text data that is a sentence mixed with Chinese characters and kana using the word dictionary data of the word dictionary data file 251. Next, from the generated intermediate language, a synthesis parameter including a speech unit number, pitch pattern information, and phoneme duration information is generated using the prosody rule data of the prosody rule data file 252. Then, in accordance with the generated synthesis parameters, the speech unit data of the speech unit data 253 is read out and sequentially connected to generate speech waveform data. Thereby, the audio waveform information of the audio data is generated as, for example, PCM data having a sampling frequency of 8 kHz and quantization of 16 bits, and is temporarily stored as an audio data 63 in an appropriate primary storage device of the audio data synthesis server 20. .
[0011]
The speech synthesis processing unit 25 further has a function of returning an unknown word as a character string. Here, the unknown word is a word that is not registered in the word dictionary data file and may be misread. The speech synthesis processing unit 25 converts a word determined to be an unknown word into a voice with predetermined appropriate reading and outputs a list of words determined to be an unknown word as an unknown word list 64. The unknown word list 64 is temporarily stored in an appropriate primary storage device of the voice data synthesis server 20 together with the previous voice data 63.
[0012]
The audio data storage requesting unit 26 transmits the temporarily stored audio data 63 to the audio data distribution server 10 in response to the OK message of the distribution approval for the audio data from the client terminal 40, and stores the audio data 63 therein. It has a function of requesting distribution to each user terminal 100 toward the Internet 30 at least.
Referring to the audio data distribution server 10 shown on the left side of FIG. 1, the audio data distribution server 10 is connected to the Internet 30 to enable data communication with the user terminal 100 and / or the client terminal 40. . The hardware configuration of the audio data distribution server 10 is configured as a normal server computer. As shown in the figure, the software configuration of the audio data synthesizing server 20 includes a control program 12, a TCP / IP unit 13, an HTTP unit 14, an audio data storage unit 15, and an audio data database 60 for distribution. Hereinafter, referred to as audio data DB).
[0013]
The control program 12 is an operating system that controls the basic control of the entire audio data distribution server device 10. The TCP / IP unit 13 executes a procedure of the TCP / IP protocol under the control of the control program 12, and realizes data communication with the client terminal 40 and / or the user terminal 100 via the Internet 30. The HTTP unit 14 has a function of distributing desired audio data to the user terminal 100 or the requester terminal 40 that requests distribution of the audio data stored in the audio data DB 60 via the TCP / IP unit 13. Have. The audio data DB 60 includes an identifier group including a plurality of identifiers, and an audio data group including a plurality of audio data associated with each of the identifiers. The configuration of the audio data DB 60 can be realized by a normal file system using an identifier as a file name.
[0014]
FIG. 2 shows the internal configuration of the client terminal 40 shown in FIG. Here, the client terminal 40 is connected to the Internet 30 to enable data communication. The hardware configuration of the client terminal 40 is a normal network client terminal such as a personal computer, and a normal display 51 and a keyboard 54 are connected. The hardware configuration of the client terminal 40 further includes a speaker 52 for reproducing and verifying audio data and a microphone 53 for directly creating audio data based on an operator's voice input. The software configuration of the client terminal 40 includes a control program 41 that controls the basic control of the entire client terminal 40, a TCP / IP unit 42 for implementing data communication via the Internet 30, and a keyboard 54. An I / O control unit 43 for realizing input / output of an I / O device in cooperation with a control program 41, an audio input unit 46 for digitally processing and inputting audio input from a microphone 53, and a TCP / IP unit 42. A Web browser unit 44 for displaying a Web page received via the Web browser and transmitting an operator's input to the Web page again to the Internet, and a speaker for outputting audio data captured through the Web page displayed on the Web browser unit 44 And an audio data reproducing unit 45 for reproducing through the audio source 52.
[0015]
Note that the requester terminal 40 uses the microphone 53 and the voice input unit 46 to directly link the voice of the operator with the text input field displayed on the web browser unit 44 for the correction of the text data, and to output the voice data. It is also possible to generate them directly.
FIG. 3 shows an example of a voice data distribution request screen on the client terminal 40. The voice data distribution request screen 80 includes a text data input field 81, a voice data conversion instruction button 82, and a voice synthesis processing condition setting field 83. The text data input field 81 is a field in which the operator of the client terminal 40 inputs a character as a text data of a document that is actually desired to be delivered as voice data. The text data is transmitted to the voice data synthesizing server 20 when the voice data conversion instruction button 82 is specified after the text data is input. The voice synthesis processing condition setting column 83 allows the voice data synthesis server 20 to set detailed processing conditions when executing voice synthesis processing. In the example of this drawing, an example is shown in which voice quality setting, speed setting, and unknown word display setting of voice data are possible. As the processing conditions that can be set in the voice synthesis processing condition setting column 83, various settings such as setting the encoding speed (16 kbps, 32 kbps, etc.) of the generated voice data and the field of the word dictionary can be considered. .
[0016]
FIG. 4 shows an example of a voice data correction request screen on the client terminal 40. The voice data correction request screen 84 displays a voice data reproduction button 85 for instructing reproduction of voice data using the speaker 52, a correction input box 86 for prompting a character input as a correction instruction for text data, and an unknown word list. An unknown word list column 87, a word information input column 88 for prompting the input of the word information as a correction instruction for the unknown word, and an OK message button 89 for approving or giving a correction instruction to the voice data are included. The word information input field 88 further includes a reading input field 881 for prompting the user to input the reading of the word selected on the unknown word list 87, that is, “reading”, and a part of speech specification field 882 for specifying the part of speech. And an accent designation field 883 for prompting designation of the accent information in accordance with the reading specified in the reading input field. Note that a button for distributing approval and a button for instructing correction may be provided separately.
[0017]
FIG. 5 shows a processing procedure of the voice data synthesis server 20 and the client terminal 40. The sequence shown in this drawing will be described with reference to the components shown in FIGS. 1 and 2 as appropriate.
First, the voice data synthesizing server 20 transmits a voice data distribution request screen to the client terminal 40 by the HTTP / CGI unit 24 (step S11). This is transmitted when the client terminal 40 specifies the address of the voice data synthesis server 20 and accesses the voice data distribution request screen. In response to this transmission, the client terminal 40 receives and displays the audio data distribution request screen via the Web browser unit 44 (step S12). Next, text data input is received from the operator of the client terminal 40 and transmitted to the voice data synthesis server (step S13). In response to this transmission, the audio data distribution server 20 receives the text data via the HTTP / CGI unit 24 (Step S14).
[0018]
Next, the speech data synthesis server 20 executes the speech synthesis processing on the received text data by the speech synthesis processing unit 25 (step S15). In this synthesizing process, the synthesizing process may be performed according to the detailed voice synthesizing process conditions specified on the voice data distribution request screen. The speech synthesis processing unit 25 creates the speech data 63 and the unknown word list 64 as a result of the synthesis processing. Next, the voice data synthesizing server 20 transmits a voice data correction request screen including the obtained voice data 63 and the unknown word list 64 to the client terminal 40 by the HTTP / CGI unit 24 (step S16). In response to this transmission, the client terminal 40 receives and displays the voice data correction request screen via the Web browser unit 44 (step S17). In response to the display of the voice data correction request screen, the operator of the client terminal 40 appropriately determines whether or not the synthesized voice data is appropriate, and edits the text data as necessary.
[0019]
To explain an example of this editing, the text data "I can't hear the word I'm talking about here" is contextually a break "I can't hear the word I'm talking about here." If a sound that can be heard at this side is not heard, the operator of the requester terminal 40 adds a period to the original text data, and says, "I can hear the words spoken at this side. There is no correction instruction ", and a request for speech synthesis processing can be made again to generate an appropriate speech. Also, while the text data "He has Yamato soul" is appropriate in the context of reading "He has Yamato Damashii", if the sound that sounds "He has Daiwa Masai" is generated, the operator Can change the "Yamato soul" part of the original text data to "Yamatodamasashi" and Kana, and issue a correction instruction to generate an appropriate voice. In this case, even if the operator gives a correction instruction by inputting the word information of “Yamato soul” from the word information input field 88 shown in FIG. 4, an appropriate voice can be generated. The word information input here is used together with the word dictionary data 251 when the speech synthesis processing unit 25 performs speech synthesis processing again.
[0020]
After the above editing operation, the client terminal 40 transmits a voice data correction instruction (correction request) or an OK message to the voice data synthesis server via the web browser unit 44 (step S18). An OK message without a correction instruction means that the operator of the requester terminal 40 approves the actual distribution of the audio data without requiring a correction instruction.
[0021]
In response to this transmission, the audio data synthesizing server 20 receives a correction instruction (correction request) or an OK message through the HTTP / CGI unit 24 (step S19). Next, it is determined whether the instruction is a correction instruction / OK (step S20). If there is a correction instruction, the process returns to the speech synthesis processing in step S15. On the other hand, if it is OK, the audio data synthesizing server 20 causes the audio data distribution server 10 to store the audio data via the audio data accumulation requesting unit 26 (step S21). The voice data storage request unit 26 requests the voice data storage unit 15 of the voice data distribution server 10 to store voice data via the Internet 30, and the voice data storage unit 15 stores the request in the voice data DB 60. Thereby, the stored voice data can be delivered to the user terminal 100 or the client terminal 40 via the Internet 30 by the HTTP unit 14 of the voice data delivery server 10.
[0022]
Next, the voice data synthesizing server 20 notifies the client terminal of a registration completion message by the HTTP / CGI unit 24 (step S22). In response to this transmission, the client terminal 40 receives the registration completion message via the Web browser unit 44 (Step S23). This registration completion message is displayed on the client terminal 40 to the operator.
[0023]
As described above, in the first embodiment, since the voice data distribution system is provided with the voice synthesis server, the requester of the voice data distribution does not need to provide a voice synthesis function in the client terminal. It is possible to make appropriate corrections and additions to the synthesized voice data.
Although the distribution by the HTTP server has been described as the distribution form of the audio data, other distribution forms such as a file transfer v by FTP (File Transfer Protocol) and a distribution form by UDP (User Datagram Protocol) are not limited to this form. But it's fine.
<Second embodiment>
FIG. 7 is a second embodiment of the present invention, and shows another configuration of the audio data synthesizing server 20. Here, the hardware configuration of the audio data synthesizing server 20 is the same as that of the first embodiment, and the software configuration has some functions added. A description will be given only of a part where the function is added. Referring to FIG. 7, an identifier determining unit 27 and a voice / sound data information calculating unit 28 are provided.
[0024]
The identifier determining unit 27 automatically determines a unique identifier that can be accessed on the Internet 30 as audio data files of audio data synthesized and distributed based on a distribution approval OK message from the client terminal. Having. As a format of the identifier, a request source IP address (Internet Protocol; Source-address; IETF: RFC791) of an IP header can be used as information for specifying a URI (Uniform Resource Identifier; IETF: RFC2396).
[0025]
As an example of an automatic identifier generation method of the identifier determination unit 27, there is a method including a counter memory. In this example, a counter memory is provided inside the identifier determination unit 27. The identifier determination unit 27 reads the value from the counter memory immediately after starting the automatic generation. Then, an identifier including the character string of this value is generated, and the value of the counter memory is incremented. The value in the counter memory is stored until the next identifier generation. Specifically, when the value read from the counter memory is 123, for example, http: // aaa. bbb. cccc. dddd / 123. By generating a wav and an identifier and immediately incrementing the counter, the value 124 is prepared for the generation of the next identifier. As another example of the automatic generation method, there is a method using time information. In this example, a clock that provides time information is provided inside the identifier determination unit 27. Immediately after the automatic generation is started, the identifier determining unit 27 acquires time information from the clock and generates an identifier that includes a character string of this value. Specifically, when the time information obtained from the clock is 10: 29: 15: 33 ms on December 3, 2001, for example, the following is performed.
[0026]
http: // aaaa. bbbb. cccc. dddd / 2001120310291533. wav
And an identifier. The identifier generation function of the identifier determination unit 27 may be realized so as to automatically generate an identifier from the content of the target text data. As a method in this case, it is conceivable to preliminarily define the format of the text data and automatically extract a character example for which an identifier is to be expected from a character example in a predetermined field. This allows the requester to specify a desired identifier name by himself. This allows the requester to manage the identification of the voice data on the Internet by the identifier name specified by himself, thereby providing an easy-to-use system. The audio data storage requesting unit 26 of the audio data synthesizing server 20 assigns the identifier determined by the identifier determining unit 27 to the audio data 63 and requests the audio data distribution server 10 to store.
[0027]
The voice data information calculation unit 28 calculates voice data information based on the voice data synthesized by the voice synthesis processing unit 25. Here, the audio data information is the data size of the audio data and the reproduction time length of the audio data. The audio data information calculation unit 28 calculates the reproduction time of the audio data from the size of the input audio data and a predetermined audio data format. Specifically, assuming that the audio data size is N bytes, the format is a sampling frequency of 8 kHz, and the quantization is 16 bits, the reproduction time is calculated as N / (16) [ms].
[0028]
The audio data synthesizing server 20 transmits the reproduction time calculated by the audio data information calculator 28 to the client terminal 40 together with the identifier output from the identifier determiner 27 using the HTTP / CGI unit 24.
FIG. 7 shows an example of a voice data registration confirmation screen displayed on the client terminal 40. The audio data registration confirmation screen 90 includes an identifier display column 91 and a reproduction time display column 92. The identifier display column 91 displays the identifier determined by the identifier determination unit 27 of the audio data synthesis server 20. The reproduction time display column 92 displays the predicted reproduction time of the audio data calculated by the audio data information calculation unit 28 of the audio data synthesis server 20.
[0029]
In the second embodiment described above, the operator of the client terminal can recognize the identifier of the voice data as a result of the operation of the processing procedure similar to that of the first embodiment. For example, a Web page administrator updates this identifier by embedding it as a hyperlink in a Web page managed by the Web page manager, and registers the identifier in a Web server. When the user of the Web page displays the updated Web page on a browser or the like and wants to output the sound, the user can obtain the sound output by using the added hyperlink. Further, in the second embodiment, it is possible to recognize the reproduction time information of the audio data. As a result, it is possible to know the listening time and the amount of communication data when voice distribution is performed, and it is possible to assume a specific use image of the voice data user, and more sophisticated voice data distribution can be achieved. It becomes possible.
[0030]
In the first and second embodiments, a single client terminal or user terminal has been described for ease of explanation. A terminal or a user terminal is assumed. Therefore, the audio data that can be handled by the audio data distribution system is not limited to the illustrated number, but can include a large number of audio data.
[0031]
Further, the audio data distribution device in the first and second embodiments is constituted by two servers, namely, an audio data distribution server and an audio data synthesizing server. This is because the system can be easily realized by adding a new voice configuration server to an operation mode in which only a server exists. However, a configuration in which these two servers are integrated into a server device as a single piece of hardware is naturally possible.
[0032]
【The invention's effect】
As described above, according to the audio data distribution device and the distributor terminal according to the present invention, it is possible to confirm the reproduction of audio data to be distributed and make appropriate corrections, thereby avoiding utterance caused by erroneous reading. it can. As a result, a reliable audio data distribution device is provided.
[Brief description of the drawings]
FIG. 1 is a first embodiment of the present invention, and is a block diagram illustrating an overall configuration of an audio data distribution system.
FIG. 2 is a block diagram showing a configuration of a client terminal shown in FIG.
FIG. 3 is a diagram showing an example of a voice data distribution request screen displayed on a client terminal 40;
FIG. 4 is a diagram showing an example of a voice data correction request screen displayed on the client terminal 40.
FIG. 5 is a sequence diagram showing a processing procedure of the voice data synthesis server 20 and the client terminal 40.
FIG. 6 is a block diagram showing another configuration of the audio data synthesizing server 20 according to a second embodiment of the present invention.
FIG. 7 is a diagram showing an example of a voice data registration confirmation screen displayed on the client terminal 40.
[Explanation of symbols]
10 Audio data distribution server
12, 22, 41 control program
13,23,42 TCP / IP section
14 HTTP section
15 Voice data storage
20 Voice data synthesis server
24 HTTP / CGI section
25 Voice synthesis processing unit
26 Voice Data Storage Request Section
27 Identifier determination unit
28 Voice Data Information Calculation Unit
30 Internet
40 Requester terminal
43 I / O control unit
44 Web browser section
45 audio data playback unit
46 Voice input section
51 Display
52 speakers
53 microphone
54 keyboard
60 Voice Data Database
63 audio data
64 unknown word list
80 Voice data distribution request screen
84 Voice data correction request screen
90 Voice data registration confirmation screen
100 user terminals

Claims (7)

データネットワークを介して音声データを配信する音声データ配信装置であって、
少なくとも1つの依頼者端末から少なくとも1連のテキストデータを受信し、音声合成により前記テキストデータを1連の音声データに変換して配信のために蓄積する音声データ蓄積手段と、
前記依頼者端末からの修正リクエストに応じて、当該蓄積された1連の音声データを修正して更新する音声データ修正更新手段と、
を含むことを特徴とする音声データ配信装置。
An audio data distribution device that distributes audio data via a data network,
Voice data storage means for receiving at least one set of text data from at least one client terminal, converting the text data into a set of voice data by voice synthesis, and storing the data for distribution;
Voice data correction updating means for correcting and updating the stored series of voice data in response to a correction request from the client terminal;
An audio data distribution device comprising:
音声データ修正更新手段は、前記1連の音声データに対応するテキストデータに対する修正情報及び/又は未知語に対する単語情報を含む修正リクエストに基づいて前記1連の音声データを修正して更新することを特徴とする請求項1記載の音声データ配信装置。The voice data correction updating unit corrects and updates the series of voice data based on a correction request including correction information for text data corresponding to the series of voice data and / or word information for an unknown word. The audio data distribution device according to claim 1, wherein: 前記1連の音声データの識別子を決定する識別子決定手段と、前記決定された識別子を対応する依頼者端末に送信する識別子送信手段を更に含むことを特徴とする請求項1又は2記載の音声データ配信装置。3. The voice data according to claim 1, further comprising: identifier determination means for determining an identifier of the series of voice data; and identifier transmission means for transmitting the determined identifier to a corresponding client terminal. Delivery device. 前記識別子決定手段は、1連の音声データ毎に更新されるカウンタ、現在時刻、又は前記テキストデータから抽出される情報に基づいて決定することを特徴とする請求項3記載の音声データ配信装置。4. The audio data distribution device according to claim 3, wherein the identifier determination unit determines the identifier based on a counter updated for each series of audio data, a current time, or information extracted from the text data. 前記1連の音声データの予測再生時間を計算し、前記予測再生時間を対応する依頼者端末に送信する手段を更に含むことを特徴とする請求項1記載の音声データ配信装置。2. The audio data distribution device according to claim 1, further comprising: means for calculating an estimated reproduction time of the series of audio data and transmitting the estimated reproduction time to a corresponding client terminal. データネットワークを介して音声データを配信する音声データ配信装置に前記複数の音声データのうちの少なくとも1連の音声データの配信を依頼する依頼者端末であって、
前記1連の音声データに変換されるべきテキストデータを前記音声データ配信サーバに送信するテキストデータ送信手段と、
前記1連の音声データを修正して更新するための修正リクエストを前記音声データ配信サーバに送信する修正情報送信手段と、
を含むことを特徴とする配信依頼者端末。
A requester terminal for requesting an audio data distribution device that distributes audio data via a data network to distribute at least one series of audio data of the plurality of audio data,
Text data transmitting means for transmitting the text data to be converted to the series of voice data to the voice data distribution server;
Correction information transmitting means for transmitting a correction request for correcting and updating the series of voice data to the voice data distribution server;
A distribution requester terminal comprising:
前記修正リクエストは、前記1連の音声データに対応するテキストデータに対する修正情報及び/又は未知語に対する単語情報を含むことを特徴とする請求項6記載の配信依頼者端末。7. The distribution requester terminal according to claim 6, wherein the correction request includes correction information for text data corresponding to the series of voice data and / or word information for unknown words.
JP2002257570A 2002-09-03 2002-09-03 Voice data distribution device and client terminal Expired - Fee Related JP3999078B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002257570A JP3999078B2 (en) 2002-09-03 2002-09-03 Voice data distribution device and client terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002257570A JP3999078B2 (en) 2002-09-03 2002-09-03 Voice data distribution device and client terminal

Publications (2)

Publication Number Publication Date
JP2004094085A true JP2004094085A (en) 2004-03-25
JP3999078B2 JP3999078B2 (en) 2007-10-31

Family

ID=32062436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002257570A Expired - Fee Related JP3999078B2 (en) 2002-09-03 2002-09-03 Voice data distribution device and client terminal

Country Status (1)

Country Link
JP (1) JP3999078B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006137033A (en) * 2004-11-10 2006-06-01 Toppan Forms Co Ltd Voice message transmission sheet
EP1650925A3 (en) * 2004-10-22 2006-06-07 Microsoft Corporation Distributed speech service
JP2006349787A (en) * 2005-06-14 2006-12-28 Hitachi Information & Control Solutions Ltd Method and device for synthesizing voices
KR102363469B1 (en) * 2020-08-14 2022-02-15 네오사피엔스 주식회사 Method for performing synthesis voice generation work for text

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1650925A3 (en) * 2004-10-22 2006-06-07 Microsoft Corporation Distributed speech service
US8396973B2 (en) 2004-10-22 2013-03-12 Microsoft Corporation Distributed speech service
JP2006137033A (en) * 2004-11-10 2006-06-01 Toppan Forms Co Ltd Voice message transmission sheet
JP2006349787A (en) * 2005-06-14 2006-12-28 Hitachi Information & Control Solutions Ltd Method and device for synthesizing voices
KR102363469B1 (en) * 2020-08-14 2022-02-15 네오사피엔스 주식회사 Method for performing synthesis voice generation work for text
KR20220021898A (en) * 2020-08-14 2022-02-22 네오사피엔스 주식회사 Method for performing synthesis voice generation work for text
KR102450936B1 (en) * 2020-08-14 2022-10-06 네오사피엔스 주식회사 Method for performing synthesis voice generation work for text

Also Published As

Publication number Publication date
JP3999078B2 (en) 2007-10-31

Similar Documents

Publication Publication Date Title
JP3224760B2 (en) Voice mail system, voice synthesizing apparatus, and methods thereof
JP5033756B2 (en) Method and apparatus for creating and distributing real-time interactive content on wireless communication networks and the Internet
TWI249729B (en) Voice browser dialog enabler for a communication system
US7027568B1 (en) Personal message service with enhanced text to speech synthesis
US8918322B1 (en) Personalized text-to-speech services
JP2009112000A6 (en) Method and apparatus for creating and distributing real-time interactive content on wireless communication networks and the Internet
US7230177B2 (en) Interchange format of voice data in music file
JP3999078B2 (en) Voice data distribution device and client terminal
JP2008046951A (en) System and method for generating electronic document, server device, terminal device, program for server device, and program for terminal device
JP2005151553A (en) Voice portal
JP3922247B2 (en) Performance control data generation apparatus and program
JP4357175B2 (en) Method and apparatus for creating and distributing real-time interactive content on wireless communication networks and the Internet
JP4229058B2 (en) Terminal device and recording medium
JP2005062420A (en) System, method, and program for content generation
JP3709798B2 (en) Fortune-telling and composition system, fortune-telling and composition device, fortune-telling and composition method, and storage medium
JP2003216186A (en) Speech data distribution management system and its method
JP3073293B2 (en) Audio information output system
JP2006031478A (en) Content reproduction terminal and content distribution system
JP2007164210A (en) System for converting content to voice
AU2002309787A1 (en) Method and apparatus for creating and distributing real-time interactive media content through wireless communication networks and the internet
JP2003345351A (en) Method and system for editing digital content
JP3694698B2 (en) Music data generation system, music data generation server device
JP2005107320A (en) Data generator for voice reproduction
JP2003223178A (en) Electronic song card creation method and receiving method, electronic song card creation device and program
JP2002169570A (en) Musical piece server providing custom-made medley music

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees