JP6246626B2 - 音声合成システム、音声変換支援装置および音声変換支援方法 - Google Patents

音声合成システム、音声変換支援装置および音声変換支援方法 Download PDF

Info

Publication number
JP6246626B2
JP6246626B2 JP2014048388A JP2014048388A JP6246626B2 JP 6246626 B2 JP6246626 B2 JP 6246626B2 JP 2014048388 A JP2014048388 A JP 2014048388A JP 2014048388 A JP2014048388 A JP 2014048388A JP 6246626 B2 JP6246626 B2 JP 6246626B2
Authority
JP
Japan
Prior art keywords
data
voice
converted
user
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014048388A
Other languages
English (en)
Other versions
JP2015172657A (ja
Inventor
町田 淳
淳 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Infrastructure Systems and Solutions Corp filed Critical Toshiba Corp
Priority to JP2014048388A priority Critical patent/JP6246626B2/ja
Publication of JP2015172657A publication Critical patent/JP2015172657A/ja
Application granted granted Critical
Publication of JP6246626B2 publication Critical patent/JP6246626B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明の実施形態は、例えばテキスト(文字、記号等)、図形等のキャラクタを音声に変換するサービスに利用される音声合成システム、音声変換支援装置および音声変換支援方法に関する。
近年、例えばインターネットなどでは、文字を音声に変換するサービスが開始されており、このサービスには音声合成装置が利用されている。
一般に、音声合成装置は、ユーザが端末から入力したテキストの文面(文字列)を音声合成波形データに変換し、音声信号または音声ファイルを端末へ返すものである。
ところで、ユーザが入力したテキストが、例えばひらがななどの場合、同音異義語、つまり文面では同じであるが意味上の違いから発音が異なる単語があり、このような単語を含む文面に対して音声変換処理を実施した場合、ユーザの意図とは異なる発音の音声信号または音声ファイルが端末に返されることがある。
特開2004−117778号公報
この場合、ユーザは修正したテキストの再変換、つまり音声変換のやり直しを音声合成装置に行わせることになるが、このようなやり直しの処理は、音声合成装置に多大な負荷をかけるだけでなく、それ相応の時間を要することから、ユーザへのレスポンスが悪化する。
本発明が解決しようとする課題は、ユーザが以前に音声合成装置に変換させた変換済みの音声データをネットワークに接続された複数の音声変換支援装置で個別に保持しながらも各装置の音声データを安全に共有して利用することで、音声合成装置の負荷を軽減しつつレスポンス速度を向上することができる音声変換システムおよび音声変換支援装置を提供することにある。
実施形態の音声変換支援装置は、変換済音声データ記憶部、既存音声データ取得部、アクセス権情報記憶部、テスト再生部、制御部を備える。変換済音声データ記憶部には音声変換装置が変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶されている。アクセス権情報記憶部には変換済音声データ毎に端末のユーザのアクセス権と保存先が登録されている。変換済音声データ取得部は端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とをアクセス権情報記憶部から取得し、ユーザがアクセス可能な該音声データを自他の音声変換支援装置の保存先から取得する。テスト再生部は変換済音声データ取得部により自他の音声変換支援装置から取得された該音声データをテスト再生する。制御部はテスト再生部によりテスト再生された音声データが正しいものとの指示を端末から受けた場合、テスト再生箇所を除いたテキストデータを音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して端末へ送信する。
実施形態の音声合成システムの全体の構成を示す図である。 アプリケーションサーバのブロック図である。 セキュリティ情報記憶部の記憶内容の一例を示す図である。 この音声合成システムの動作を示すフローチャートである。 この音声合成システムの動作を示すフローチャートである。 この音声合成システムの検索動作を示すフローチャートである。
以下、図面を参照して実施形態を詳細に説明する。図1は実施形態の音声合成システムの構成を示す図である。
図1に示すように、この実施形態の音声合成システムは、サービス利用者(以下「ユーザ」と称す)が操作する端末であるコンピュータ1a〜1m(以下「ユーザPC1a〜1m」と称す)、音声変換装置としてのコンピュータである音声合成サーバ3と、音声変換支援装置としてのコンピュータ2a〜2n(以下「アプリケーションサーバ2a〜2n」と称す)と、これらの機器を、ネットワーク4を介して接続されたものである。
ユーザPC1a〜1mは、アプリケーションサーバ2a〜2nに対してテキストデータから音声データへの変換要求を行う。音声合成サーバ3は、音声変換機能としての音声合成エンジンを搭載している。音声合成エンジンはアプリケーションサーバ2a〜2nからの変換要求を受けてアプリケーションサーバ2a〜2nから受け取ったテキストデータを音声データに変換し、要求元のアプリケーションサーバ2a〜2nへ返す。
詳細には、音声合成サーバ3は、アプリケーションサーバ2a〜2nから送られてきた中間ファイル(テキストデータとアクセント記号のペア(組))を音声データ(以下「音声ファイル」と称す)に変換してアプリケーションサーバ2a〜2nに戻す。
アプリケーションサーバ2a〜2nは、ユーザPC1a〜1mと音声合成サーバ3とにネットワーク4を介して接続されている。アプリケーションサーバ2a〜2nは、音声合成サーバ3とユーザPC1a〜1mとの間に介在してテキストデータ、中間ファイルおよび音声ファイルのやりとりを行う。
詳細には、アプリケーションサーバ2a〜2nは、ユーザPC1a〜1mからのテキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に音声合成サーバ3にテキストデータを変換させ、音声合成サーバ3により変換された音声データをユーザPC1a〜1mへ送信する。
ネットワーク4に接続された複数のアプリケーションサーバ2a〜2nのうち、図2に示すように、例えばアプリケーションサーバ2aは、グラフィックユーザインターフェース部21(以下「GUI部21」と称す)、メモリ22、中間ファイル生成部23、キャッシュされた既存の音声データのアクセス権を管理するためのアクセス権記憶部としてのセキュリティ情報記憶部32、変換済音声データ記憶部としてのキャッシュデータ保存部25、既存音声ファイル取得部26、通信処理部27、データ処理部28、登録部29、テスト再生部30、配信部31などを有する。
なお他のアプリケーションサーバ2b〜2nもアプリケーションサーバ2aと同様の構成を有するため、以下では代表してアプリケーションサーバ2aの構成について説明する。
アプリケーションサーバ2aは、ユーザPC1a〜1mから入力されたテキストデータをキーワード(検索キー)にしてセキュリティ情報記憶部32の情報を利用してキャッシュデータ保存部25にキャッシュ(記憶)された音声ファイルを取得し、音声合成サーバ3に音声合成を要求することなく要求元であるユーザPC(ユーザPC1a〜1mのいずれか)に返す。
すなわち、アプリケーションサーバ2aは、キーワードに対応する既存の音声ファイルが自他すべてのアプリケーションサーバ2a〜2nにキャッシュされているか否かをチェックし、既存の音声ファイルがキャッシュされていればその音声ファイルを該当保存先から取得しユーザPC1a〜1mへ送る。
また、アプリケーションサーバ2aは、既存の音声ファイルがどこにもキャッシュされていない場合に、ユーザPC1a〜1mから入力されたテキストデータを音声合成サーバ3へ出力(音声合成要求)し、このテキストデータに対する応答として音声合成サーバ3にて変換(音声合成)された音声ファイルを取得しユーザPC1a〜1mへ送る。
GUI部21は、ユーザPC1a〜1mからアプリケーションサーバ2aにログインするための画面、検索画面、登録画面などを表示し、ユーザPC1a〜1mからの音声合成要求、テキストデータの入力などを受け付けるとともに、要求に対する応答として音声ファイルをユーザPC1a〜1mへ送る。GUI部21は、例えば検索画面において、ユーザPC1a〜1mから新たに入力された変換対象のテキストデータのうち指定されたテスト再生箇所を受け付ける受付部として機能する。
つまり、GUI部21は、ユーザPC1a〜1mとアプリケーションサーバ2aとの間の入出力インターフェースを実現するものである。
メモリ22は、データ処理部28、既存音声ファイル取得部26および登録部29などがそれぞれの処理を実行する際のワークエリア、変換要求する際に作成された中間ファイルの一時記憶エリアとして利用される。
中間ファイル生成部23は、ユーザPC1a〜1mから入力された変換対象のテキストデータを単語または文節の単位に分割し、分割したテキストデータのうちキャッシュされていないもの、またはテスト再生でユーザにより発音が正しくないものと指示されたものをキーワードにして音声変換用の登録辞書42を参照して、対応するアクセント記号を登録辞書42から読み出してテキストデータとアクセント記号とのペア(組)の中間ファイルを生成し、音声合成サーバ3への変換要求のためのデータとしてメモリ22に記憶する。この中間ファイルは、音声合成用の元データとして音声合成サーバ3へ送信される。
なお、既にユーザの承認を受け、変換不要(確定済)のフラグが付されたテキストデータについては、音声変換をしないため中間ファイルも生成しない。
キャッシュデータ保存部25には、以前(過去)に変換されたファイル(音声データのファイル、テキストデータのファイル、中間データのファイルなど)が保存されている。
つまりキャッシュデータ保存部25には、音声合成サーバ3により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶されている。
図3に示すように、セキュリティ情報記憶部32には、音声ファイルの登録順序を示すインデックス(番号)と、音声ファイルを登録したユーザを識別するための情報である登録ユーザIDと、音声ファイルの内容(音声ファイルの変換元のテキストデータ)と、音声ファイルの公開レベル(アクセス可能なユーザやサーバ)を示すセキュリティレベルと、保存先とが対応して記憶されている。
セキュリティレベル(安全性の度合いまたは値)は、例えば「1」〜「4」などの異なるレベルで設定されている。セキュリティレベル「1」はセキュリティが最も高く、音声ファイルを登録したユーザIDのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。
セキュリティレベル「2」はセキュリティが2番目に高く、予め登録されたユーザが属するグループのユーザだけがその音声ファイルにアクセス可能というアクセス権限である。ログインユーザと音声ファイルを登録したユーザIDのユーザとが同じグループに属していない場合はログインユーザには既存の音声ファイルへのアクセス権がない。
セキュリティレベル「3」はセキュリティが3番目に高く、ログインユーザはログイン中のアプリケーションサーバ内にある音声ファイルにだけアクセスする権限である。
セキュリティレベル「4」はセキュリティが一番低く、すべてのユーザが本サーバまたはネットワーク4に接続された他のアプリケーションサーバの音声ファイルにアクセス可能である。
保存先は音声ファイルの保存先を示すサーバのIDと保存先インテックスを含む。保存先インテックスとは格納場所の番号などである。この例の場合、インデックス1に登録さていれる登録先「1−1」は1番サーバの1番目の格納場所に音声ファイルが登録されていることを示している。この他、保存先としては例えばディレクトリ、リンク先などであってもよい。
すなわちセキュリティ情報記憶部32は、音声データ毎に各ユーザPC1a〜1mのユーザの音声ファイルへのアクセス権(セキュリティレベルと登録ユーザID)と保存先が設定されたアクセス権情報記憶部である。
既存音声ファイル取得部26は、ユーザPC1a〜1mから入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声ファイルの保存先とユーザのセキュリティレベルと登録ユーザIDとをセキュリティ情報記憶部32から取得する。
そして取得した保存先がこのアプリケーションサーバ2a内のキャッシュデータ保存部25の場合、既存音声ファイル取得部26は音声ファイルの取得先をキャッシュデータ保存部25としてキャッシュデータ保存部25から該音声ファイルを読み出し取得する。
また取得した既存音声ファイルの保存先がネットワーク4上の他のアプリケーションサーバ2b〜2nの場合、既存音声ファイル取得部26はその外部のアプリケーションサーバ2b〜2nに対して該音声ファイルの取得要求を行い、該音声ファイルを取得する。
詳細には、既存音声ファイル取得部26は、GUI部21がユーザPC1a〜1mに表示する画面において、ユーザPC1a〜1mから入力されたテキストデータのうちテスト再生箇所が指定された場合、GUI部21により受け付けられたテスト再生箇所の過去の変換済みデータ、つまり変換済みの音声ファイル(音声データ)がどのアプリケーションサーバ2a〜2nのキャッシュデータ保存部25に存在するか否かをチェックする。
テスト再生部30は、既存音声ファイル取得部26によりキャッシュデータ保存部25から取得された該音声ファイル、または他のアプリケーションサーバ2b〜2nから取得された該音声ファイルをテスト再生する。
通信処理部27は、音声合成サーバ3との間で、TCP(HTTP)通信により、データのやりとりを行う。
データ処理部28は、既存音声ファイル取得部26により取得された既存の音声ファイルを、通信処理部27を通じて変換要求元のユーザPC1a〜1mへ転送する。
ユーザPC1a〜1mの画面において、テスト再生部30によりテスト再生されたテスト再生箇所の音声データの発音が正しいものとの指示をユーザが行い、その指示をデータ処理部28がユーザPC1a〜1mから受けた場合、データ処理部28は、テスト再生箇所を除いたテキストデータを音声合成サーバ3に変換させて得られた音声データとテスト再生した既存の音声データとを結合して要求元のユーザPC1a〜1mへ送信(返却)する制御部として機能する。
すなわちデータ処理部28は、テスト再生された音声ファイルが正しいものとの指示をユーザPC1a〜1mから受けた場合、テスト再生箇所を除いたテキストデータを音声合成サーバ3に変換させて得られた音声ファイルとテスト再生した過去に変換済みの既存音声ファイルとを結合して要求元のユーザPC1a〜1mへ送信する。
セキュリティ情報記憶部32にキーワードと一致する音声のデータ(テキストデータ)が存在せず、既存音声ファイル取得部26により既存の音声ファイルが取得されない場合、データ処理部28は、入力されたテキストデータを基に中間ファイル生成部23により生成されメモリ22に記憶された中間ファイルを音声合成サーバ3へ送り、音声合成サーバ3により変換(音声合成)された音声ファイルを要求元のユーザPC1a〜1mへ転送(送信)する。なお中間ファイルではなく入力されたテキストデータを送ってもよい。
登録部29は、GUI部21により表示される辞書登録画面にて、メモリ22内のユーザID毎の登録辞書42にユーザが独自に入力または編集した情報(音声データとテキストデータとアクセント記号)を登録する。
また登録部29は変換済の音声ファイルの保存先(このサーバ内の場合はキャッシュデータ保存部25を示す保存先インデックスなど)、登録者の識別情報であるユーザID(登録ユーザID)、セキュリティレベル(ユーザのアクセス権のレベル)を指定してセキュリティ情報記憶部32に保存する。
すなわち登録部29は既存音声ファイルの内容(テキスト)とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先と対応付けて登録する。登録部29は既存の音声ファイルに対して、異なるセキュリティレベル(セキュリティレベル「1」〜「4」など)に区分されたユーザのアクセス権をアクセス権情報記憶部に設定する。
登録ユーザIDはログイン時に入力されており、保存先インデックスも固定されていれば、それらの情報を予めセキュリティ情報記憶部32に設定しておいてもよい。
また登録部29はネットワーク4上の他のアプリケーションサーバ2b〜2nから配信されてきた音声ファイルの保存先の情報(音声ファイルの保存先、登録ユーザID、音声ファイルのセキュリティレベル)をセキュリティ情報記憶部32に登録する(図3参照)。
配信部31はキャッシュデータ保存部25に新たに登録された音声ファイルの保存先の情報をセキュリティ情報記憶部32から読み出してネットワーク4上の他のアプリケーションサーバ2b〜2nへ配信する。すなわち配信部31は既存音声ファイルの内容(テキスト)とその音声ファイルへのユーザのアクセス権と登録したユーザの識別情報と保存先とを配信する。
メモリ22にはユーザID毎の登録辞書42が記憶されている。この他、メモリ22にはユーザID毎の変換履歴、このアプリケーションサーバ2のすべてのユーザの使用履歴などが記憶されている。このアプリケーションサーバ2にログインしたユーザ一人の変換履歴を第1変換履歴という。このアプリケーションサーバ2にログインした複数のユーザ(例えば今までログインした全てのユーザといってもよい)の変換履歴を第2変換履歴という。
ユーザID毎の登録辞書42には、ユーザが独自に登録したテキストデータ(これを「テキスト」という)と、テキストとそのアクセスト記号のペア(組)である中間ファイルと、これらのデータに対応する音声ファイルの保存先を示す保存先インデックスとが記憶されている。
このユーザID毎の登録辞書42は、既存音声ファイル取得部26がキャッシュデータを検索するときに初めに参照される。この登録辞書の中での参照順位は第1順位が中間ファイル、第2順位がテキストである。
保存先として登録される情報は、例えばサーバ自体の内部であればキャッシュデータ保存部25のディレクトリ、ネットワーク4に接続された他のサーバであれば、そのサーバのリンク情報かURLまたはサーバの保存先を識別するための識別情報である装置ID(サーバID+保存先インデックス)などである。
次に、図4〜図6のフローチャートを参照してこの実施形態の音声合成システムに動作を説明する。まず図4および図5のフローチャートを参照してこのシステム全体の動作を説明する。
この実施形態の音声合成システムの場合、ユーザがユーザPC1a〜1mから所定のURLを入力し、アプリケーションサーバ2にアクセスすると、GUI部21はログイン画面をユーザPC1a〜1mに表示するので、ユーザは表示されたログイン画面の入力欄に、ログインID、例えば「ユーザ1」などのログイン情報を入力する(図4のステップS101)。この他、ログイン情報としてパスワードなども入力する場合がある。
すると、GUI部21は入力されたログイン情報をメモリ22のユーザIDテーブル41のユーザIDと照合することで、ログイン情報が登録済みか否かを判定し(ステップS102)、ログイン情報が登録済みの場合(ステップS102のYes)、アプリケーションサーバ2へのログインを許可し、音声変換画面を表示する(ステップS103)。
ユーザが、音声変換画面の文字入力欄にカーソルを移動し、キー入力により変換対象の文字(テキストデータ)を入力すると(ステップS104)、GUI部21はその入力を受け付け、入力されたテキストデータを文字入力欄に表示する(ステップS105)。
そして、音声変換画面に表示されている音声ファイル作成指示のためのボタンが押下されると(ステップS106のYes)、音声ファイル作成処理のルーチンへ進む。
一方、文字入力欄に表示されているテキストデータのうちテスト再生箇所をユーザが範囲指定などの操作(マウスのドラッグ操作など)により指定され、音声変換画面に表示されているテスト再生ボタンが押下されると(ステップS107のYes)、GUI部21はテスト再生ボタンの押下を受け付け、既存音声ファイル取得部26に通知する。
既存音声ファイル取得部26は、既存の音声ファイルがこの装置内の保存先(メモリ22またはキャッシュデータ保存部25など)に存在するか否か(有無)をチェックし、既存の音声ファイルが存在する場合はその保存先から既存の音声ファイルを取得する(ステップS108)。
より詳細には、既存音声ファイル取得部26は、変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とをセキュリティ情報記憶部32から取得し、ユーザがアクセス可能な該音声データを自他の音声変換支援装置の保存先(この場合、キャッシュデータ保存部25)から取得し(ステップS109)、メモリ22の再生ワークエリアにキャッシュする(ステップS110)。この音声ファイルを<データ1>とする。
テスト再生部30は、既存音声ファイル取得部26による検索の結果、既存のファイルが存在した場合、再生ワークエリアにキャッシュされたテスト再生箇所の既存の音声ファイルを読み出してユーザPC1a〜1mのスピーカから音声を再生する(ステップS111)。
この音声を聞いたユーザが発音を確認し、発音が正しいものとして音声変換画面の「OK」等のボタンを選択操作すると(ステップS112のYes)、データ処理部28は、テスト再生された部分のテキストデータを確定し(ステップS113)、確定したテキストデータに変換不要のフラグを付す。テスト再生すべき次のテキストデータがあれば、S104の処理に戻り上記の処理繰り返す。
このようにしてテスト再生すべき次のテキストデータがなくなり、テスト再生箇所すべてのテスト再生が終了し、音声ファイル作成指示のためのボタンが押下されると(ステップS115)、データ処理部28は、文字入力欄に入力された文面のテキストデータを単語または文節単位に分割し(ステップS116)、分割した単位でテキストデータを既存音声ファイル取得部26に渡し、分割単位に既存音声ファイルがこの装置内のキャッシュデータ保存部25に保存されているか否かをチェックし(ステップS117)既存音声ファイルが存在すればそれを取得する。
なお、既存音声ファイルを取得動作の詳細については後述の図6で説明する。また、この場合、既にユーザから承認を受け、変換不要(確定済)のフラグが付されているテスト再生済のテキストデータについては、音声へ変換しないため既存音声ファイルの取得は不要である。
既存音声ファイル取得部26は、キャッシュデータ保存部25から取得した音声ファイルをメモリ22の再生ワークエリアにキャッシュする(ステップS119)。この音声ファイルを<データ2>とする。
また上記既存音声ファイルを取得動作の結果、既存音声ファイルがこの装置内に存在しない場合(ステップS118のNo)、データ処理部28は、検索した分割テキストデータの中間ファイルを生成した上で音声合成サーバ3へ転送し(ステップS120)、音声合成サーバ3により変換された音声ファイルを取得する(ステップS121)。
そして、得られた音声ファイル(生成物)をメモリ22の再生ワークエリアにキャッシュする(ステップS122)。この音声ファイルを<データ3>とする。
そして、データ処理部28は、再生ワークエリアにキャッシュされた音声ファイル(<データ1>、<データ2>、<データ3>)を分割した順序に従い結合し(ステップS123)、文面通りの音声ファイルを生成し、結合した音声ファイルをユーザPC1a〜1mのスピーカから再生する(ステップS124)。
この音声を聞いたユーザが再生音声の発音を確認し、発音が間違っていた場合は、その音声ファイルの中間ファイル(テキストデータとアクセント記号)を表示した編集画面を表示し(ステップS126)、例えば「間違っている箇所のアクセント記号を訂正してください」等といったメッセージを表示してユーザの訂正を促し、ユーザがアクセント記号を訂正すると(ステップS127)、ステップS124の処理に戻り音声を再生する。
ユーザが発音を確認した結果、発音が正しいものとして、画面の音声保存ボタンを選択操作すると(ステップS128)、データ処理部28は、保存先を指定するための画面を表示し、保存先が指定されると(ステップS129)、その指定されたユーザPC1a〜1mの保存先へ音声ファイルを転送し保存する(ステップS130)。
その後、処理を継続するか否かに応じて処理を変える。例えば処理終了操作が行われなければ処理を継続するものとして(ステップS131のYes)、ステップS104の処理に戻り、次のテキスト入力を待機する。
また、処理終了操作が行われると、処理を継続しないものとして(ステップS131のNo)、データ処理部28は、音声ファイルを履歴記録エリアであるキャッシュデータ保存部25に保存し(ステップS132)、保存先の情報(装置ID(サーバID+保存先インデックス)とテキストデータ(以下これを「語句」と称す)をセキリティ情報記憶部32に登録するとともに(ステップS133)、保存先の情報をネットワーク4上の他のアプリケーションサーバ2b〜2nへ配信し(ステップS134)、一連のテキスト/音声の変換処理を終了する。
なお他のアプリケーションサーバ2b〜2nから音声ファイルの保存先の情報(リンク情報または装置ID(サーバID+保存先インデックス)と音声のデータ(テキストデータ))が配信されてきて、通信処理部27に受信された場合、登録部29はその受信された保存先の情報(リンク情報または装置ID(サーバID+保存先インデックス)と音声のデータ(テキストデータ))をセキュリティ情報記憶部32に登録する。
ここで、図3と図6のフローチャートを参照して既存音声ファイル取得部26による既存音声ファイルの取得動作(ステップS108、ステップS108、ステップS117、ステップS18)の詳細について説明する。
ここで、図6のフローチャートを参照して既存音声ファイル取得動作の詳細を説明する。この場合、既存音声ファイル取得部26は、テキストデータをキーワードにしてセキリティ情報記憶部32の情報を検索し、ログインユーザのユーザID(ユーザ1)で変換済みの音声ファイルが登録されているか否か(音声ファイルが存在するか否か)をチェックする(図6のステップS201)。
チェックの結果、既存の音声ファイルが存在しない場合(S201のNo)、音声合成を要求する(ステップS202)。
また上記チェックの結果、既存の音声ファイルがどこかしらの保存先に登録されている(音声ファイルが存在する)場合(S201のYes)、既存音声ファイル取得部26は、セキュリティ情報記憶部32の登録ユーザIDのセキュリティレベルに基づいて既存音声ファイルにアクセス可能なユーザの範囲(音声ファイルの公開レベル)を確定する。
つまり既存音声ファイル取得部26は、選択範囲のテキストデータをキーワードにしてセキュリティ情報記憶部32を参照して、テキストデータと一致した音声のデータのセキュリティレベル、登録ユーザのユーザID、保存先などを取得し、ログインユーザがその人のユーザIDでどの程度の範囲までの音声ファイルにアクセス権があるか否かをチェックする。
例えばログインしたユーザのユーザIDが「ユーザ1」であり、セキュリティ情報記憶部32から取得した登録ユーザのユーザIDが「ユーザ1」、セキュリティレベルが「1」であれば(S203のYes)、登録ユーザIDと一致したログインユーザでなければ、該音声ファイルに対してその保存先にアクセスできない。この場合、登録ユーザのユーザIDとログインユーザのユーザIDとが一致するため、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S204)。
例えばログインしたユーザのユーザIDが「ユーザ1」であり、セキュリティレベルが「2」であれば(S205のYes)、ログインユーザが登録ユーザとは異なるクループに属していた場合は該音声ファイルにはアクセス不可であり、該音声ファイルを取得できない。
またログインしたユーザのユーザグループに属するユーザのユーザIDで登録されていた場合は、該音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S206)。
セキュリティレベルが「3」であれば(S207のYes)、ログインしたユーザがログインしているサーバ内に登録されている音声ファイルに対してその保存先にアクセス可能であり、既存音声ファイル取得部26は当該音声ファイルの保存先から音声ファイルを取得する(S208)。
例えばセキュリティレベルが「4」であれば(S209のYes)、ログインした全てのユーザがいずれかのアプリケーションサーバ2a〜2nに登録されている音声ファイルに対してその保存先にアクセス可能であり(S210)、既存音声ファイル取得部26は当該音声ファイルの保存先がこのサーバ内か他のサーバかを判定する(S211)。
この判定の結果、該音声ファイルの保存先がこのサーバ内であれば(S211のYes)、キャッシュデータ保存部25から当該音声ファイルを読み出し取得する(S212)。
また判定の結果、該音声ファイルの保存先が他のサーバであれば(S211のNo)、保存先のアプリケーションサーバに当該音声ファイルを要求し取得する(S213)。
このようにして既存音声ファイル取得部26は、存在を確認した既存の音声ファイルに対するユーザのアクセス権の範囲で、選択範囲のテキストデータに対する既存の音声ファイルの保存先を特定し、特定した保存先から既存の音声ファイルを読み出し取得する。
図3の例では、登録ユーザIDが例えば「ユーザ1」であり、音声のデータが例えば「特許」であれば、セキュリティレベルが「1」なので、登録ユーザのユーザID「ユーザ1」でログインしたユーザにしか、音声ファイルへのアクセス権がなく、他のログインユーザ「ユーザ2」や「ユーザ3」では音声ファイルを得られない。
また登録ユーザIDが例えば「ユーザ3」であり、音声のデータが例えば「打ち合わせ」であれば、セキュリティレベルが「4」なので、登録されている音声ファイルにすべてのログインユーザがアクセスする権限があり、広い範囲での音声ファイルの取得が可能である。
このようにこの実施形態によれば、アプリケーションサーバ2a(自機または自装置ともいう)に今までに蓄積された既存の音声ファイルだけでなく、ネットワーク4上の他のアプリケーションサーバ2b〜2n(他機または他装置ともいう)に蓄積された音声ファイルについてもその蓄積情報を共有しつつ既存の音声ファイルへのユーザのアクセス権を管理することで、ユーザのアクセス権に応じた既存音声ファイルの利用が可能なり、実務面で情報管理(通常の音声ファイルは広く利用させる一方で秘匿性の高い音声ファイルは引用(共用)させないなど)が可能になる。
すなわちユーザが以前に音声合成サーバ3に変換させた変換済みの音声ファイルをネットワーク4に接続された複数のアプリケーションサーバ2a〜2nで個別に保持しながらも各サーバ2a〜2nの音声データを安全に共有して利用することで、音声合成サーバ3の負荷を軽減しつつレスポンス速度を向上することができる。
ネットワーク4上の複数のアプリケーションサーバ2a〜2nに変換済みの音声ファイルを分散して保管させることで、個々のアプリケーションサーバ2a〜2nの保存容量や処理性能を抑えることができ、装置の低コスト化を図ることができる。
また音声変換を音声合成サーバ3に依頼することなく、複数のアプリケーションサーバ2a〜2nに蓄積されていた過去に変換済みの音声ファイルを利用することで、音声合成サーバ3の負荷軽減を図ると共に変換時間を短縮し、ユーザへのレスポンス速度を向上することができる。また音声合成サーバ3が変換処理するデータ量を低減することができる。さらに、修正箇所のミニマム化が図れ、最終的にユーザの音声変換作業の時間短縮につながる。
すなわち音声データの保存に関する管理情報を音声変換支援装置にて共有することにより、当該装置を直ちに特定して検索することにより処理速度を向上させるとともに負荷低減を図ることができる。
説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。
1a〜1m…ユーザPC、2a〜2n…アプリケーションサーバ、3…音声合成サーバ31…グラフィックユーザインターフェース部(GUI部)、22…メモリ、23…中間ファイル生成部、25…キャッシュデータ保存部、26…既存音声ファイル取得部、27…通信処理部、28…データ処理部、29…登録部、30…テスト再生部、32…セキュリティ情報記憶部、42…ユーザID毎の登録辞書。

Claims (8)

  1. テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置において、
    前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
    前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
    前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
    前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
    前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
    を具備する音声変換支援装置。
  2. 前記変換済音声データ記憶部に新たに登録した変換済の音声データの内容とその音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記ネットワーク上の他の音声変換支援装置へ配信する配信部をさらに具備する請求項1記載の音声変換支援装置。
  3. 新規の音声データおよび前記ネットワーク上の他の音声変換支援装置から配信されてきた変換済の音声データへのユーザのアクセス権と登録したユーザの識別情報と保存先を前記アクセス権情報記憶部に登録する登録部をさらに具備する請求項1記載の音声変換支援装置。
  4. 前記変換済音声データ取得部は、
    前記ユーザにアクセス権がある音声データの保存先がこの装置内部の前記変換済音声データ記憶部であれば、前記音声データを前記変換済音声データ記憶部から取得し、前記保存先が前記ネットワーク上の他の音声変換支援装置の場合、前記他の音声変換支援装置に対して該音声データの取得要求を行うことで該音声データを取得する請求項1記載の音声変換支援装置。
  5. 前記登録部は、
    前記変換済の音声データに対して、異なるセキュリティレベルに区分されたユーザのアクセス権を前記アクセス権情報記憶部に設定する請求項記載の音声変換支援装置。
  6. 前記セキュリティレベルが、ユーザ毎、ユーザが属するグループ毎、音声変換支援装置毎のセキュリティレベルに区分されている請求項記載の音声変換支援装置。
  7. テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置と、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置とをネットワークを介して接続した音声合成システムにおいて、
    前記音声変換装置は、
    前記音声変換支援装置から変換要求を受けた前記テキストデータを音声データに変換して前記音声変換支援装置へ返す音声変換機能を備え、
    前記音声変換支援装置は、
    前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとが記憶された変換済音声データ記憶部と、
    前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先が登録されたアクセス権情報記憶部と、
    前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得する変換済音声データ取得部と、
    前記変換済音声データ取得部により前記自他の音声変換支援装置から取得された該音声データをテスト再生するテスト再生部と、
    前記テスト再生部によりテスト再生された音声データが正しいものとの指示を前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する制御部と
    を具備する音声合成システム。
  8. テキストデータから音声データへの変換要求を行うユーザの端末と、前記テキストデータを音声データに変換する音声変換装置とにネットワークを介して接続され、前記端末からの前記テキストデータの変換要求に対して過去に該テキストデータの変換履歴がない場合に前記音声変換装置に前記テキストデータを変換させ、変換された音声データを前記端末へ送信する音声変換支援装置における音声変換支援方法において、
    前記音声変換装置により変換済の音声データとこの音声データと対応する変換元のテキストデータとを変換済音声データ記憶部に記憶し、
    前記変換済音声データ毎に前記端末のユーザのアクセス権と保存先をアクセス権情報記憶部に登録し、
    前記端末から入力された変換対象のテキストデータのうち指定されたテスト再生箇所のテキストデータに対応する変換済の音声データの保存先とユーザのアクセス権とを前記アクセス権情報記憶部から変換済音声データ取得部が取得し、前記ユーザにアクセス権がある該音声データを自他の音声変換支援装置の保存先から取得し、
    前記自他の音声変換支援装置から取得された該音声データをテスト再生部がテスト再生し、
    前記テスト再生部によりテスト再生された音声データが正しいものとの指示を制御部が前記端末から受けた場合、前記テスト再生箇所を除いたテキストデータを前記音声変換装置に変換させて得られた音声データとテスト再生した過去に変換済みの音声データとを結合して前記端末へ送信する音声変換支援方法。
JP2014048388A 2014-03-12 2014-03-12 音声合成システム、音声変換支援装置および音声変換支援方法 Expired - Fee Related JP6246626B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014048388A JP6246626B2 (ja) 2014-03-12 2014-03-12 音声合成システム、音声変換支援装置および音声変換支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014048388A JP6246626B2 (ja) 2014-03-12 2014-03-12 音声合成システム、音声変換支援装置および音声変換支援方法

Publications (2)

Publication Number Publication Date
JP2015172657A JP2015172657A (ja) 2015-10-01
JP6246626B2 true JP6246626B2 (ja) 2017-12-13

Family

ID=54260022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014048388A Expired - Fee Related JP6246626B2 (ja) 2014-03-12 2014-03-12 音声合成システム、音声変換支援装置および音声変換支援方法

Country Status (1)

Country Link
JP (1) JP6246626B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554291B (zh) * 2020-05-18 2023-04-28 中移(杭州)信息技术有限公司 设备控制方法、语音输入终端、语音平台及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0215764A (ja) * 1988-07-01 1990-01-19 Nippon Telegr & Teleph Corp <Ntt> 情報分配システム
JPH07160290A (ja) * 1993-12-02 1995-06-23 Kokusai Denshin Denwa Co Ltd <Kdd> 音声合成方式
JP2000293458A (ja) * 1999-04-09 2000-10-20 Canon Inc データ配信装置及びデータ受信装置及びそれらの制御方法
JP2002156987A (ja) * 2000-11-20 2002-05-31 Fujitsu General Ltd 音声合成システム
JP4039620B2 (ja) * 2002-09-26 2008-01-30 日本放送協会 音声合成装置および音声合成プログラム
JP4289080B2 (ja) * 2003-08-22 2009-07-01 沖電気工業株式会社 音声データ提供装置、音声データ提供方法、および音声データ提供プログラム
JP2006030326A (ja) * 2004-07-13 2006-02-02 Hitachi Ltd 音声合成装置
JP2008268478A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk アクセント調整可能な音声合成装置

Also Published As

Publication number Publication date
JP2015172657A (ja) 2015-10-01

Similar Documents

Publication Publication Date Title
KR101422859B1 (ko) 문서의 오디언스-적정 버전을 제공하는 방법, 문서 서버, 및 컴퓨터 판독 가능 매체
JP6246951B2 (ja) ユーザコンタクトエントリのデータ設定
US20210352074A1 (en) Method, apparatus, and computer program product for managing access permissions for a searchable enterprise platform
US11514907B2 (en) Activation of remote devices in a networked system
JP7439186B2 (ja) オーディオクエリのオーバーラップ処理の協調
US11841893B2 (en) Coordination of parallel processing of audio queries across multiple devices
US11416445B2 (en) Method and system for using dynamic content types
US20070106664A1 (en) Input/query methods and apparatuses
CN111797334B (zh) 一种网址访问方法、装置、电子设备及存储介质
US9898463B2 (en) Document management server, document management method, and non-transitory storage medium storing program
JP6246626B2 (ja) 音声合成システム、音声変換支援装置および音声変換支援方法
KR101609293B1 (ko) 스마트 주소 생성 방법 및 이를 실행하는 서버
US20090100135A1 (en) Device and method of sharing contents among devices
JP5787794B2 (ja) 音声合成システム、音声変換支援装置および音声変換支援方法
JP6117040B2 (ja) 音声合成システムおよび音声変換支援装置
JP5502787B2 (ja) 音声変換支援装置、プログラムおよび音声変換支援方法
CN113626722A (zh) 舆论引导方法、装置、设备及计算机可读存储介质
KR102194767B1 (ko) 컨텐츠 검색 서비스 제공방법 및 이를 위한 서버
JP6152504B1 (ja) 管理システム、管理装置、管理方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体
JP5485935B2 (ja) コンテンツ処理方法、コンテンツ処理サーバ、コンテンツ処理端末、コンテンツ処理プログラム、及びコンテンツ処理システム
US10275518B2 (en) Integrated phonetic matching methods and systems
JP2012155272A (ja) 音声認識辞書拡張装置、システム、方法およびプログラム
JP2007026155A (ja) 単語情報の分散開発システム
JP2010157062A (ja) データ処理システムと、それらの各装置と、そのプログラム
JP2010066788A (ja) 電子掲示板サーバ、電子掲示板システム及び掲示板データ提供方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160229

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170424

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170908

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171115

R150 Certificate of patent or registration of utility model

Ref document number: 6246626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees