JP5502787B2 - Voice conversion support device, program, and voice conversion support method - Google Patents

Voice conversion support device, program, and voice conversion support method Download PDF

Info

Publication number
JP5502787B2
JP5502787B2 JP2011057229A JP2011057229A JP5502787B2 JP 5502787 B2 JP5502787 B2 JP 5502787B2 JP 2011057229 A JP2011057229 A JP 2011057229A JP 2011057229 A JP2011057229 A JP 2011057229A JP 5502787 B2 JP5502787 B2 JP 5502787B2
Authority
JP
Japan
Prior art keywords
data
voice
text data
index information
usage history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011057229A
Other languages
Japanese (ja)
Other versions
JP2012194284A (en
Inventor
淳 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011057229A priority Critical patent/JP5502787B2/en
Publication of JP2012194284A publication Critical patent/JP2012194284A/en
Application granted granted Critical
Publication of JP5502787B2 publication Critical patent/JP5502787B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、例えば文字等のキャラクタを音声に変換するサービスに利用される音声変換支援装置、プログラムおよび音声変換支援方法に関する。   Embodiments described herein relate generally to a speech conversion support apparatus, a program, and a speech conversion support method used for a service that converts a character such as a character into speech.

近年、例えばインターネットなどでは、文字を音声に変換するサービスが開始されており、このサービスには音声合成装置が利用されている。   In recent years, for example, on the Internet, a service for converting characters into speech has been started, and a speech synthesizer is used for this service.

一般に、音声合成装置は、ユーザが入力したテキストの文面(文字列)を音声合成波形データに変換し、音声信号または音声ファイルを出力するものである。   In general, a speech synthesizer converts a text (character string) of text input by a user into speech synthesis waveform data and outputs a speech signal or a speech file.

ところで、文字を音声に変換するためには処理性能の高い音声合成装置が必要であり、この種のサービスを開始するためにはコストがかかる。一方、性能の低い音声合成装置を用いた場合は、音声合成処理に時間がかかり、応答性が損なわれるという問題もある。   By the way, in order to convert characters into speech, a speech synthesizer with high processing performance is required, and it is expensive to start this type of service. On the other hand, when a speech synthesizer with low performance is used, there is a problem that speech synthesis processing takes time and responsiveness is impaired.

特開2004−117778号公報JP 2004-117778 A

一般に、この種のサービスでは、ユーザが入力したテキストに対して、特色のない一定の音声データが返されるだけであるため、サービスに特徴を持たせるために何らかの付加価値を付ける必要がある。   In general, this type of service only returns certain voice data having no special characteristics to the text input by the user. Therefore, it is necessary to add some added value in order to give the service a characteristic.

本発明が解決しようとする課題は、文字/音声変換の応答性を維持しつつコストダウンを図り、さらには、特徴のあるサービスを実現することができる音声変換支援装置、プログラムおよび音声変換支援方法を提供することにある。   The problem to be solved by the present invention is to reduce costs while maintaining the responsiveness of character / speech conversion, and further, a speech conversion support apparatus, program and speech conversion support method capable of realizing a characteristic service Is to provide.

実施形態の音声変換支援装置は、テキストデータを音声データに変換する音声変換装置とネットワークを介して接続されている。前記音声変換支援装置はキャッシュデータ保存部、インデックス情報記憶部、検索部、データ処理部を備える。前記キャッシュデータ保存部には前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとが対応して過去データとして保存される。前記インデックス情報記憶部には前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶される。前記検索部は要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する。前記データ処理部は前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去に使用された音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にも存在しない前記テキストデータを前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返す。前記インデックス情報記憶部は、この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、検索ステップでは、第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索する。 The speech conversion support device according to the embodiment is connected to a speech conversion device that converts text data into speech data via a network. The voice conversion support device includes a cache data storage unit, an index information storage unit, a search unit, and a data processing unit. In the cache data storage unit, voice data previously converted by the voice converter and text data from which the voice data is converted are stored as past data correspondingly. The index information storage unit ranks and stores a plurality of pieces of index information with different narrowing ranges for searching past data stored in the cache data storage unit in descending order of affinity with the user. The search unit searches a plurality of pieces of index information in the index information storage unit in the order of ranking based on text data input from a request source. The data processing unit as a result of search by the search unit, whereas the text data returns the audio data used in the past as indicated by the presence index information to the previous reading from the cache data storage unit Kiyo Motomemoto, either The text data that does not exist in the index information is sent to the voice converter, and the voice data converted by the voice converter is returned to the request source. The index information storage unit is a user registration dictionary uniquely registered by a user who has logged in to the device, a first usage history which is a usage history of the user, and a usage history of all users who have logged into the device. The search step first searches the user registration dictionary, and when the input text data does not exist in the user registration dictionary, the search step second searches the first usage history. If the text data does not exist in the first usage history, third, the second usage history is searched.

実施形態の音声合成システムの全体の構成を示す図である。1 is a diagram illustrating an overall configuration of a speech synthesis system according to an embodiment. アプリケーションサーバのブロック図である。It is a block diagram of an application server. インデックス情報の一例を示す図である。It is a figure which shows an example of index information. この音声合成システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of this speech synthesis system. ユーザ毎の辞書登録動作を示すフローチャートである。It is a flowchart which shows the dictionary registration operation | movement for every user. アプリケーションサーバにおけるキャッシュデータの検索動作を示すフローチャートである。It is a flowchart which shows the search operation | movement of the cache data in an application server.

以下、図面を参照して、実施形態を詳細に説明する。
(第1の実施形態)図1は第1の実施形態の音声合成システムの構成を示す図である。
Hereinafter, embodiments will be described in detail with reference to the drawings.
(First Embodiment) FIG. 1 is a diagram showing the configuration of a speech synthesis system according to a first embodiment.

図1に示すように、この実施形態の音声合成システムは、サービス利用者(以下「ユーザ」と称す)が操作する端末装置であるコンピュータ1(以下「ユーザPC1」と称す)、音声合成エンジンを搭載したコンピュータである音声合成サーバ3と、音声変換支援装置としてのコンピュータ2(以下「アプリケーションサーバ2」と称す)と、これらの機器を接続するネットワーク4等から構成されている。   As shown in FIG. 1, the speech synthesis system of this embodiment includes a computer 1 (hereinafter referred to as “user PC 1”), which is a terminal device operated by a service user (hereinafter referred to as “user”), and a speech synthesis engine. It is composed of a voice synthesis server 3 which is a mounted computer, a computer 2 (hereinafter referred to as “application server 2”) as a voice conversion support device, and a network 4 which connects these devices.

音声合成サーバ3は、アプリケーションサーバ2から転送(入力)された中間ファイル(テキストデータとアクセント記号の組)を音声データ(以下「音声ファイル」と称す)に変換してアプリケーションサーバ2に返す。   The speech synthesis server 3 converts the intermediate file (a set of text data and accent marks) transferred (input) from the application server 2 into speech data (hereinafter referred to as “speech file”) and returns it to the application server 2.

アプリケーションサーバ2は、音声合成サーバ3とユーザPC1との間に介在してテキストデータ、中間ファイルおよび音声ファイルのやりとりを行う。   The application server 2 is interposed between the voice synthesis server 3 and the user PC 1 and exchanges text data, intermediate files, and voice files.

図2に示すように、アプリケーションサーバ2は、グラフィックユーザインターフェース部21(以下「GUI部21」と称す)、メモリ22、中間ファイル生成部23、キャッシュされたデータを管理するためのインデックス情報記憶部24、キャッシュデータ保存部25、検索部26、通信処理部27、データ処理部28、登録部29などを有している。   As shown in FIG. 2, the application server 2 includes a graphic user interface unit 21 (hereinafter referred to as “GUI unit 21”), a memory 22, an intermediate file generation unit 23, and an index information storage unit for managing cached data. 24, a cache data storage unit 25, a search unit 26, a communication processing unit 27, a data processing unit 28, a registration unit 29, and the like.

アプリケーションサーバ2は、ユーザPC1から入力されたテキストデータをキーワード(検索キー)にしてインデックス情報記憶部24のインデックス情報を利用してキャッシュデータ保存部25にキャッシュ(記憶)された音声ファイルを検索し、ヒットした場合は、音声合成サーバ3に音声合成を要求することなく、キャッシュされた音声ファイルを読み出して要求元であるユーザPC1に返す。   The application server 2 searches the audio data cached (stored) in the cache data storage unit 25 using the index information in the index information storage unit 24 using the text data input from the user PC 1 as a keyword (search key). If there is a hit, the cached voice file is read out and returned to the requesting user PC 1 without requesting the voice synthesis server 3 for voice synthesis.

すなわち、アプリケーションサーバ2は、自身のハードディスク装置にキャッシュされているか否かをチェックし、キャッシュされていない場合に、ユーザPC1から入力されたテキストデータを音声合成サーバ3へ出力し、このテキストデータに対する応答として音声合成サーバ3にて変換(音声合成)された音声ファイルを取得しユーザPC1へ送る。   In other words, the application server 2 checks whether or not it is cached in its own hard disk device, and if it is not cached, it outputs the text data input from the user PC 1 to the speech synthesis server 3, and As a response, the voice file converted (voice synthesized) by the voice synthesis server 3 is acquired and sent to the user PC 1.

GUI部21は、ユーザPC1からアプリケーションサーバ2にログインするための画面、検索画面、登録画面など表示し、ユーザPC1からの音声合成要求、テキストデータの入力などを受け付けるとともに、要求に対する応答として音声ファイルをPCへ送る。   The GUI unit 21 displays a screen for logging in to the application server 2 from the user PC 1, a search screen, a registration screen, etc., accepts a voice synthesis request from the user PC 1, input of text data, and the like, and a voice file as a response to the request To the PC.

つまり、GUI部21は、ユーザPC1とアプリケーションサーバ2との間の入出力インターフェースを実現するものである。   That is, the GUI unit 21 realizes an input / output interface between the user PC 1 and the application server 2.

メモリ22には、音声変換辞書が記憶されている。音声変換辞書は音声合成サーバ3により変換(音声合成)される音声データの変換元のテキストデータとこのテキストデータを音声に変換する際に音の強弱を指定するアクセント記号(アクセント情報)とが対応して保存され参照用の辞書である。この音声変換辞書は中間ファイル生成部23により利用される。   The memory 22 stores a voice conversion dictionary. The voice conversion dictionary corresponds to the text data that is converted from the voice data converted (voice synthesized) by the voice synthesis server 3 and the accent symbols (accent information) that specify the strength of the sound when the text data is converted into voice. It is a dictionary for reference that is saved. This voice conversion dictionary is used by the intermediate file generation unit 23.

またメモリ22は、データ処理部28、検索部26および登録部29などがそれぞれの処理を実行する際のワークエリアとして利用される。   The memory 22 is used as a work area when the data processing unit 28, the search unit 26, the registration unit 29, and the like execute their respective processes.

中間ファイル生成部23は、ユーザPC1から入力された変換対象のテキストデータをキーにして音声変換辞書を参照して、対応するアクセント記号を音声変換辞書から読み出してテキストデータとアクセント記号との組の中間ファイルを生成し、メモリ22に記憶する。中間ファイルは、音声合成用の元データとして音声合成サーバ3へ送信される。   The intermediate file generation unit 23 refers to the speech conversion dictionary by using the text data to be converted input from the user PC 1 as a key, reads the corresponding accent symbol from the speech conversion dictionary, and sets a set of the text data and the accent symbol. An intermediate file is generated and stored in the memory 22. The intermediate file is transmitted to the speech synthesis server 3 as original data for speech synthesis.

キャッシュデータ保存部25には、以前(過去)に変換された音声ファイル、テキストデータ、中間ファイルなどが保存されている。   The cache data storage unit 25 stores voice files, text data, intermediate files, and the like that have been converted to the previous (past) time.

インデックス情報記憶部24には、キャッシュデータ保存部25にキャッシュ(保存)されている過去のデータをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されている。   In the index information storage unit 24, a plurality of pieces of index information with different narrowing ranges for searching the past data cached (saved) in the cache data storage unit 25 in order of high affinity with the user are ranked. Is remembered.

つまりインデックス情報記憶部24には、キャッシュデータ保存部25にキャッシュされたデータを管理するためのインデックス情報が記憶されている。なおインデックス情報については図3で具体的に説明する。   That is, the index information storage unit 24 stores index information for managing the data cached in the cache data storage unit 25. The index information will be specifically described with reference to FIG.

検索部26は、ユーザID毎に設定された登録辞書42、ユーザID毎の使用履歴43、サーバ使用履歴44を順位の順に検索する。すなわち検索部26は、要求元から入力されたテキストデータを基にインデックス情報記憶部24の複数のインデックス情報を順位付けの順に検索する。   The search unit 26 searches the registration dictionary 42 set for each user ID, the use history 43 for each user ID, and the server use history 44 in order of rank. That is, the search unit 26 searches the plurality of index information in the index information storage unit 24 in the order of ranking based on the text data input from the request source.

通信処理部27は、音声合成サーバ3との間で、TCP(HTTP)通信により、データのやりとりを行う。   The communication processing unit 27 exchanges data with the speech synthesis server 3 by TCP (HTTP) communication.

データ処理部28は、検索部26による検索の結果、テキストデータ(検索キーまたはキーワード等とも言う)が存在したインデックス情報により示される過去のデータの保存場所、つまりキャッシュデータ保存部25からキャッシュされている音声ファイルを読み出して変換要求元のユーザPC1へ返す。   As a result of the search by the search unit 26, the data processing unit 28 is cached from the past data storage location indicated by the index information where the text data (also referred to as a search key or keyword) exists, that is, from the cache data storage unit 25. Is read out and returned to the conversion requesting user PC1.

一方、いずれのインデックス情報にもキーワードが存在しない場合は、入力されたテキストデータを基に中間ファイル生成部23により生成されメモリ22に記憶された中間ファイルを音声合成サーバ3へ送り、音声合成サーバ3により変換(音声合成)された音声ファイルを要求元のユーザPC1へ返す。なおテキストデータを送ってもよい。   On the other hand, if no keyword exists in any of the index information, the intermediate file generated by the intermediate file generation unit 23 based on the input text data and stored in the memory 22 is sent to the speech synthesis server 3, and the speech synthesis server The voice file converted (voice synthesized) by 3 is returned to the requesting user PC 1. Text data may be sent.

登録部29は、GUI部21により表示される辞書登録画面にて、ユーザID毎の登録辞書42にユーザが独自に入力または編集した辞書情報(テキストデータとアクセント記号)を登録する。   The registration unit 29 registers the dictionary information (text data and accent symbols) that the user independently inputs or edits in the registration dictionary 42 for each user ID on the dictionary registration screen displayed by the GUI unit 21.

インデックス情報記憶部24には、図3に示すように、ユーザIDテーブル41の各ユーザIDに紐付けられた複数のインデックス情報(ユーザID毎の登録辞書42、ユーザID毎の使用履歴43、このアプリケーションサーバ2のすべてのユーザの使用履歴44(以下「サーバ使用履歴44」と称す)などの3つのインデックス情報)が記憶されている。   As shown in FIG. 3, the index information storage unit 24 includes a plurality of pieces of index information (a registration dictionary 42 for each user ID, a use history 43 for each user ID, and the like) associated with each user ID in the user ID table 41. Stored is a usage history 44 (hereinafter referred to as “server usage history 44”) of all users of the application server 2).

ユーザIDテーブル41には、このアプリケーションサーバ2にログイン可能なユーザの識別情報であるユーザIDが設定されている。ユーザの識別情報は、ユーザIDだけでなくパスワードなども含まれる。   In the user ID table 41, a user ID that is identification information of a user who can log in to the application server 2 is set. The user identification information includes not only the user ID but also a password.

ユーザID毎の登録辞書42には、ユーザが独自に登録したテキストデータ(これを「テキスト」という)と、テキストとそのアクセスト記号の組である中間ファイルと、これらのデータに対応する音声ファイルの保存先を示す保存先インデックスとが記憶されている。   The registration dictionary 42 for each user ID includes text data uniquely registered by the user (referred to as “text”), an intermediate file that is a set of text and its access symbol, and an audio file corresponding to these data. And a storage location index indicating the storage location of.

このユーザID毎の登録辞書42は、検索の際の順位として第1,2番目の順位(第1,2順位)に設定されており、検索部26がキャッシュデータを検索するときに初めに参照される。この辞書の中での順位は、第1順位が中間ファイル、第2順位がテキストである。インデックス情報としての検索順位は第1番目である。   The registration dictionary 42 for each user ID is set to the first and second ranks (first and second ranks) as the ranks for the search, and is referred to first when the search unit 26 searches the cache data. Is done. In the dictionary, the first rank is an intermediate file, and the second rank is text. The search order as index information is first.

ユーザID毎の使用履歴43には、ログインしたユーザID毎にこの音声変換機能を使用したときのテキストと、テキストとそのアクセスト記号の組である中間ファイルと、これらのデータに対応する音声ファイルの保存先を示す保存先インデックスとが記憶されている。テキスト、中間ファイル、保存先インデックスなどを使用履歴という。   The usage history 43 for each user ID includes a text when this voice conversion function is used for each logged-in user ID, an intermediate file that is a set of the text and its access symbol, and a voice file corresponding to these data. And a storage location index indicating the storage location of. Text, intermediate files, save destination indexes, etc. are called usage history.

ユーザID毎の使用履歴43は、検索の際の順位として第3,4番目の順位(第3,4順位)に設定されており、検索部26がキャッシュデータを検索するときに第3,4番目に参照される。この履歴の中での順位は、第3順位が中間ファイル、第4順位がテキストである。インデックス情報としての検索順位は第2番目である。   The usage history 43 for each user ID is set to the third and fourth ranks (third and fourth ranks) as the ranks for retrieval, and the third and fourth ranks when the retrieval unit 26 retrieves cache data. Referenced to th. In the history, the third rank is an intermediate file, and the fourth rank is text. The search order as index information is second.

サーバ使用履歴44には、このアプリケーションサーバ2にユーザがログインしてこの音声変換機能を使用した際のすべてのユーザの使用履歴が記憶されている。サーバ使用履歴44は、検索の際の順位として第5,6番目の順位(第5,6順位)に設定されており、検索部26がキャッシュデータを検索するときに第5,6番目に参照される。この履歴の中での順位は、第5順位が中間ファイル、第6順位がテキストである。インデックス情報としての検索順位は第3番目である。   The server usage history 44 stores usage histories of all users when the user logs in to the application server 2 and uses the voice conversion function. The server usage history 44 is set to the fifth and sixth ranks (fifth and sixth ranks) as the rank in the search, and is referred to the fifth and sixth when the search unit 26 searches the cache data. Is done. In the history, the fifth rank is an intermediate file, and the sixth rank is text. The search order as index information is the third.

次に、図4乃至図6のフローチャートを参照してこの実施形態の音声合成システムに動作を説明する。まず、図4のフローチャートを参照してこのシステム全体の動作を説明する。   Next, the operation of the speech synthesis system of this embodiment will be described with reference to the flowcharts of FIGS. First, the operation of the entire system will be described with reference to the flowchart of FIG.

この実施形態の音声合成システムの場合、ユーザがユーザPC1から所定のURLを入力し、アプリケーションサーバ2にアクセスすると、GUI部21はログイン画面をユーザPC1に表示するので、ユーザは表示されたログイン画面の入力欄に、ログインIDなどのログイン情報を入力する(図4のステップS101)。この他、ログイン情報としてパスワードなども入力する場合がある。   In the case of the speech synthesis system of this embodiment, when the user inputs a predetermined URL from the user PC 1 and accesses the application server 2, the GUI unit 21 displays a login screen on the user PC 1, so that the user displays the displayed login screen. In the input field, login information such as a login ID is input (step S101 in FIG. 4). In addition, a password may be input as login information.

すると、GUI部21は入力されたログイン情報をメモリ22のユーザIDテーブル41のユーザIDと照合することで、ログイン情報が登録済みか否かを判定し(ステップS102)、ログイン情報が登録済みの場合(ステップS102のYes)、アプリケーションサーバ2へのログインを許可し、音声変換画面を表示する(ステップS103)。   Then, the GUI unit 21 determines whether the login information has been registered by checking the input login information with the user ID in the user ID table 41 of the memory 22 (step S102). In the case (Yes in step S102), login to the application server 2 is permitted and a voice conversion screen is displayed (step S103).

ユーザが、音声変換画面の文字入力欄に、キー入力により、変換対象の文字(テキストデータ)を入力すると(ステップS104)、GUI部21はその入力を受け付ける。   When the user inputs a character to be converted (text data) by key input in the character input field of the voice conversion screen (step S104), the GUI unit 21 receives the input.

そして、音声変換画面に表示されている音声ファイル作成指示のためのボタンを押下すると(ステップS105)、中間ファイル生成部23が、受け付けた変換対象のテキストデータをキーにして音声変換辞書を参照して、対応するアクセント記号を音声変換辞書から読み出してテキストデータとアクセント記号との組の中間ファイルを生成し(ステップS106)、生成した中間ファイルを音声変換画面に表示する(ステップS107)。   When the button for voice file creation instruction displayed on the voice conversion screen is pressed (step S105), the intermediate file generation unit 23 refers to the voice conversion dictionary using the received text data to be converted as a key. Then, the corresponding accent symbol is read from the speech conversion dictionary, an intermediate file of a set of text data and an accent symbol is generated (step S106), and the generated intermediate file is displayed on the speech conversion screen (step S107).

続いて、ユーザが、音声変換画面に表示されている検索指示のためのボタンを押下すると(ステップS108)、検索部26が、受け付けたテキストデータをキーにしてインデックス情報を、設定された順位の順に検索する(ステップS109)。なお検索動作の詳細について図5で説明する。   Subsequently, when the user presses a button for a search instruction displayed on the voice conversion screen (step S108), the search unit 26 uses the received text data as a key to display the index information in the set order. Search in order (step S109). Details of the search operation will be described with reference to FIG.

検索の結果、対象のテキストデータが、インデックス情報記憶部24の複数のインデックス情報のうちのいずれにも存在しない場合(ステップS110のNo)、データ処理部28は、中間ファイル生成部23により生成された中間ファイルと共に音声変換要求を音声合成サーバ3へ転送(送信)する(ステップS111)。   As a result of the search, when the target text data does not exist in any of the plurality of index information in the index information storage unit 24 (No in step S110), the data processing unit 28 is generated by the intermediate file generation unit 23. The voice conversion request is transferred (transmitted) to the voice synthesis server 3 together with the intermediate file (step S111).

音声合成サーバ3は、中間ファイル及び音声変換要求を受けて、中間ファイルを基に音声合成し、生成した音声ファイルを、ネットワークを通じてアプリケーションサーバ2に返信する(ステップS112)。   The voice synthesis server 3 receives the intermediate file and voice conversion request, synthesizes voice based on the intermediate file, and returns the generated voice file to the application server 2 through the network (step S112).

アプリケーションサーバ2では、音声合成サーバ3により送信された音声ファイルが通信処理部27により受信されると、その音声ファイルをデータ処理部28に渡し、データ処理部28が取得する(ステップS113)。   In the application server 2, when the voice file transmitted from the voice synthesis server 3 is received by the communication processing unit 27, the voice file is transferred to the data processing unit 28, and the data processing unit 28 acquires the voice file (step S113).

データ処理部28は、取得した音声ファイルを、キャッシュデータ保存部25に保存すると共にユーザPC1へ送り、ユーザPC1のスピーカから音声が出力される(ステップS114)。   The data processing unit 28 stores the acquired audio file in the cache data storage unit 25 and sends it to the user PC 1, and the audio is output from the speaker of the user PC 1 (step S 114).

上記S109の検索ステップの検索の結果、対象のテキストデータが、インデックス情報記憶部24の複数のインデックス情報のうちのいずれかに存在した場合(ステップS110のYes)、データ処理部28は、検索されたインデックス情報により示される保存場所(キャッシュデータ保存部25)から、該当する音声ファイルを読み出して取得し(ステップS113)、音声合成サーバ3に依頼することなく、ユーザPC1へ転送(送信)する(ステップS114)。   As a result of the search in the search step in S109, when the target text data is present in any one of the plurality of index information in the index information storage unit 24 (Yes in step S110), the data processing unit 28 is searched. The corresponding voice file is read out and acquired from the storage location (cache data storage unit 25) indicated by the index information (step S113), and is transferred (transmitted) to the user PC 1 without requesting the voice synthesis server 3 ( Step S114).

その後、処理終了操作が行われなければ(ステップS115のNo)、次のテキスト入力を待機する。また処理終了操作が行われると(ステップS115のYes)、データ処理部28は、テキスト/音声の変換処理を終了する。   Thereafter, if the processing end operation is not performed (No in step S115), the next text input is waited. When the processing end operation is performed (Yes in step S115), the data processing unit 28 ends the text / speech conversion processing.

続いて、図5を参照して一度作成された音声ファイルのキャッシュ処理を説明する。
アプリケーションサーバ2では、作成された中間ファイルおよび音声ファイルは、メモリ22に一旦キャッシュされる。
Next, a description will be given of a cache process for an audio file once created with reference to FIG.
In the application server 2, the created intermediate file and audio file are temporarily cached in the memory 22.

そして、ユーザにより当該音声ファイルの変換元の中間ファイルが音声変換画面上で指定されると(ステップS121)、登録部29は、メモリ22から中間ファイルを読み出し音声変換画面にその内容(テキストデータとアクセント部号)を表示する(ステップS122)。   When the intermediate file from which the audio file is converted is designated by the user on the audio conversion screen (step S121), the registration unit 29 reads the intermediate file from the memory 22 and displays the contents (text data and text data) on the audio conversion screen. (Accent part number) is displayed (step S122).

そして、ユーザが、音声変換画面に表示された中間ファイルの内容であるテキストデータとアクセント符号を編集した後(ステップS123)、音声変換画面に設けられている音声ファイル保存指示用のボタンを押下すると(ステップS124)、保存先指定用のダイアログボックスが表示される。   When the user edits the text data and the accent code that are the contents of the intermediate file displayed on the voice conversion screen (step S123), the user presses the voice file save instruction button provided on the voice conversion screen. (Step S124), a save destination designation dialog box is displayed.

ユーザがこの画面より、保存先を指定すると(ステップS125)、登録部29は、指定された保存先のフォルダへ音声ファイルを保存する(ステップS126)。そして、終了操作が行われると(ステップS127のYes)、登録部29は、保存した音声ファイルのインデックス情報をインデックス情報記憶部24のユーザID毎の登録辞書42に登録する(ステップS128)。   When the user designates a save destination from this screen (step S125), the registration unit 29 saves the audio file in the designated save destination folder (step S126). When the ending operation is performed (Yes in step S127), the registration unit 29 registers the index information of the stored audio file in the registration dictionary 42 for each user ID in the index information storage unit 24 (step S128).

続いて、図6を参照して上記ステップS109の検索処理の詳細を説明する。
この場合、GUI部21により表示された音声変換画面から、検索ボタンを操作すると、検索部26は、作成された中間ファイルのテキストデータとアクセント記号を検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第1順位であるユーザID毎の登録辞書42の中の中間ファイルを検索する(ステップS201:第1検索)。
Next, the details of the search process in step S109 will be described with reference to FIG.
In this case, when a search button is operated from the voice conversion screen displayed by the GUI unit 21, the search unit 26 stores the created intermediate file text data and accent symbol in the index information storage unit 24 using the search key. The intermediate file in the registered dictionary 42 for each user ID, which is the first rank, of the index information being searched is searched (step S201: first search).

この第1検索の結果、ユーザID毎の登録辞書42の中の中間ファイルに、検索キーと同じデータが存在すると(ステップS202のYes)、次のステップ110で、検索部26は、そのデータに対応する音声ファイルをキャッシュデータ保存部25から読み出してデータ処理部28に渡す。これにより音声ファイルがデータ処理部28に取得される。   As a result of the first search, if the same data as the search key exists in the intermediate file in the registration dictionary 42 for each user ID (Yes in step S202), the search unit 26 adds the data to the data in the next step 110. The corresponding audio file is read from the cache data storage unit 25 and passed to the data processing unit 28. As a result, the audio file is acquired by the data processing unit 28.

一方、第1検索の結果、ユーザID毎の登録辞書42の中の中間ファイルに、検索キーと同じデータが存在しない場合(ステップS202のNo)、検索部26は、次に同中間ファイルのテキストデータを検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第2順位であるユーザID毎の登録辞書42の中のテキストを検索する(ステップS203:第2検索)。   On the other hand, as a result of the first search, if the same data as the search key does not exist in the intermediate file in the registration dictionary 42 for each user ID (No in step S202), the search unit 26 next selects the text of the intermediate file. Using the data as a search key, the index information stored in the index information storage unit 24 is searched for text in the registration dictionary 42 for each user ID in the second order (step S203: second search). .

この第2検索の結果、ユーザID毎の登録辞書42の中のテキストに、検索キーと同じデータが存在すると(ステップS204のYes)、次のステップ110に移る。   As a result of the second search, if the same data as the search key exists in the text in the registration dictionary 42 for each user ID (Yes in step S204), the process proceeds to the next step 110.

また、第2検索の結果、ユーザID毎の登録辞書42の中のテキストに、検索キーと同じデータが存在しない場合(ステップS204のNo)、検索部26は、次に同中間ファイルのテキストデータとアクセント記号を検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第3順位であるユーザ毎の使用履歴43の中の中間ファイルを検索する(ステップS205:第3検索)。   If the same data as the search key does not exist in the text in the registration dictionary 42 for each user ID as a result of the second search (No in step S204), the search unit 26 then selects the text data of the intermediate file. And the accent mark as a search key, the intermediate file in the usage history 43 for each user in the third rank is searched from the index information stored in the index information storage unit 24 (step S205: third). Search).

この第3検索の結果、ユーザID毎の登録辞書42の中の中間ファイルに、検索キーと同じデータが存在すると(ステップS206のYes)、次のステップ110に移る。   If the same data as the search key exists in the intermediate file in the registration dictionary 42 for each user ID as a result of the third search (Yes in step S206), the process proceeds to the next step 110.

一方、第3検索の結果、ユーザID毎の登録辞書42の中の中間ファイルに、検索キーと同じデータが存在しない場合(ステップS206のNo)、検索部26は、次に同中間ファイルのテキストデータを検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第4順位であるユーザID毎の登録辞書42の中のテキストを検索する(ステップS207:第4検索)。   On the other hand, as a result of the third search, when the same data as the search key does not exist in the intermediate file in the registration dictionary 42 for each user ID (No in step S206), the search unit 26 next selects the text of the intermediate file. Using the data as a search key, the index information stored in the index information storage unit 24 is searched for text in the registration dictionary 42 for each user ID in the fourth rank (step S207: fourth search). .

この第4検索の結果、ユーザID毎の登録辞書42の中のテキストに、検索キーと同じデータが存在すると(ステップS208のYes)、次のステップ110に移る。   As a result of the fourth search, if the same data as the search key exists in the text in the registration dictionary 42 for each user ID (Yes in step S208), the process proceeds to the next step 110.

また、第4検索の結果、ユーザID毎の登録辞書42の中のテキストに、検索キーと同じデータが存在しない場合(ステップS208のNo)、検索部26は、次に同中間ファイルのテキストデータとアクセント記号を検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第5順位であるサーバ使用履歴44の中の中間ファイルを検索する(ステップS209:第5検索)。   If the same data as the search key does not exist in the text in the registration dictionary 42 for each user ID as a result of the fourth search (No in step S208), the search unit 26 next selects the text data of the intermediate file. And the accent mark as a search key, the intermediate file in the server usage history 44 in the fifth rank of the index information stored in the index information storage unit 24 is searched (step S209: fifth search). .

この第5検索の結果、サーバ使用履歴44の中の中間ファイルに、検索キーと同じデータが存在すると(ステップS210のYes)、次のステップ110に移る。   As a result of the fifth search, if the same data as the search key exists in the intermediate file in the server usage history 44 (Yes in step S210), the process proceeds to the next step 110.

一方、第5検索の結果、サーバ使用履歴44の中の中間ファイルに、検索キーと同じデータが存在しない場合(ステップS210のNo)、検索部26は、次に同中間ファイルのテキストデータを検索キーにして、インデックス情報記憶部24に記憶されているインデック情報のうちの、第6順位であるサーバ使用履歴44の中のテキストを検索する(ステップS211:第6検索)。   On the other hand, as a result of the fifth search, when the same data as the search key does not exist in the intermediate file in the server usage history 44 (No in step S210), the search unit 26 next searches the text data of the intermediate file. Using the key, the text in the server usage history 44 in the sixth rank in the index information stored in the index information storage unit 24 is searched (step S211: sixth search).

この第6検索の結果、サーバ使用履歴44の中のテキストに、検索キーと同じデータが存在すると(ステップS212のYes)、次のステップ110に移る。   As a result of the sixth search, if the same data as the search key exists in the text in the server usage history 44 (Yes in step S212), the process proceeds to the next step 110.

また、第6検索の結果、サーバ使用履歴44の中のテキストに、検索キーと同じデータが存在しない場合(ステップS212のNo)、検索部26は、キャッシュデータ保存部25にデータが存在しない旨をデータ処理部28に通知する。この通知を受けたデータ処理部28は、音声変換要求と中間ファイルを音声合成サーバ3へ送信する。   If the same data as the search key does not exist in the text in the server usage history 44 as a result of the sixth search (No in step S212), the search unit 26 indicates that no data exists in the cache data storage unit 25. Is notified to the data processing unit 28. Upon receiving this notification, the data processing unit 28 transmits the voice conversion request and the intermediate file to the voice synthesis server 3.

このようにこの実施形態によれば、ユーザからの要求に応じてテキストを音声に変換する機能を、ユーザインターフェース部分であるアプリケーションサーバ2と音声合成エンジン部部分である音声合成サーバ3とに分けたことで、負荷分散を図ることができる。   As described above, according to this embodiment, the function of converting text into speech in response to a request from the user is divided into the application server 2 which is a user interface part and the speech synthesis server 3 which is a speech synthesis engine part. Thus, load distribution can be achieved.

また、ユーザがアプリケーションサーバ2に入力した文字または文章(テキストデータ、文字列)が以前に使用された文字または文章と同一であった場合は音声合成サーバ3に処理を依頼せずに、自身のハードディスク装置にキャッシュされている音声ファイルを読み出して返すことで、音声合成サーバ3側の処理負荷を軽減することができる。   If the character or sentence (text data, character string) input by the user to the application server 2 is the same as the previously used character or sentence, the user does not request the speech synthesis server 3 to perform the process. By reading and returning the voice file cached in the hard disk device, the processing load on the voice synthesis server 3 can be reduced.

さらに、ユーザが独自に登録したユーザID毎の登録辞書42を第1に検索することで、例えばユーザ独自のアクセストの音声をユーザへ提供することができる。   Further, by first searching the registration dictionary 42 for each user ID registered by the user, for example, the user's unique access voice can be provided to the user.

この結果、文字/音声変換の応答性を維持しつつコストダウンを図り、さらには、特徴のあるサービスを実現することができる。   As a result, it is possible to reduce costs while maintaining the responsiveness of character / speech conversion, and to realize a characteristic service.

説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
上記実施形態では、中間ファイルとテキストデータとを交互に検索したが、中間ファイルのみ、またはテキストデータのみで複数のインデックス情報に順位を設定し、その順位の順にインデックス情報を検索してもよい。
The described embodiments are presented by way of example and are not intended to limit the scope of the invention. The novel embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The above-described embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and equivalents thereof.
In the above-described embodiment, the intermediate file and the text data are alternately searched. However, ranks may be set for a plurality of index information using only the intermediate file or only the text data, and the index information may be searched in order of the ranks.

また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。   Further, each component shown in the above embodiment may be realized by a program installed in a storage such as a hard disk device of a computer, and the program is stored in a computer-readable electronic medium: electronic media, The computer may realize the functions of the present invention by causing a computer to read a program from an electronic medium. Examples of the electronic medium include a recording medium such as a CD-ROM, flash memory, and removable media. Further, the configuration may be realized by distributing and storing components in different computers connected via a network, and communicating between computers in which the components are functioning.

1…ユーザPC、2…アプリケーションサーバ、3…音声合成サーバ31…グラフィックユーザインターフェース部(GUI部)、22…メモリ、23…中間ファイル生成部、24…インデックス情報記憶部、25…キャッシュデータ保存部、25…キャッシュデータ保存部、26…検索部、27…通信処理部、28…データ処理部、29…登録部、41…ユーザIDテーブル、42…ユーザID毎の登録辞書、43…ユーザID毎の使用履歴、44…サーバ使用履歴。   DESCRIPTION OF SYMBOLS 1 ... User PC, 2 ... Application server, 3 ... Speech synthesis server 31 ... Graphic user interface part (GUI part), 22 ... Memory, 23 ... Intermediate file generation part, 24 ... Index information storage part, 25 ... Cache data storage part , 25 ... cache data storage unit, 26 ... search unit, 27 ... communication processing unit, 28 ... data processing unit, 29 ... registration unit, 41 ... user ID table, 42 ... registration dictionary for each user ID, 43 ... for each user ID Usage history, 44... Server usage history.

Claims (7)

テキストデータを音声データに変換する音声変換装置とネットワークを介して接続され
る音声変換支援装置において、
前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとが対応して過去データとして保存されるキャッシュデータ保存部と、
前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部と、
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索部と、
前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去に使用された音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にも存在しない前記テキストデータを前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理部とを備え、
前記インデックス情報記憶部は、この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、
前記検索部は、
第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索することを特徴とする音声変換支援装置。
In a speech conversion support device connected via a network to a speech conversion device that converts text data into speech data,
A cache data storage unit in which the speech data previously converted by the speech conversion device and the text data from which the speech data is converted are stored as past data;
An index information storage unit in which a plurality of pieces of index information with different narrowing down ranges are stored in order for searching past data stored in the cache data storage unit in descending order of affinity with the user;
A search unit that searches a plurality of pieces of index information in the index information storage unit based on text data input from a request source in the order of ranking;
The search portion searches results by, while said text data returns the audio data used in the past as indicated by the presence index information to the previous reading from the cache data storage unit Kiyo Motomemoto, in any of the index information A data processing unit that sends the text data that does not exist to the voice conversion device and returns the voice data converted by the voice conversion device to the request source ;
The index information storage unit is a user registration dictionary uniquely registered by a user who has logged in to the device, a first usage history which is a usage history of the user, and a usage history of all users who have logged into the device. With 2 usage histories,
The search unit
First, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the second usage history is searched second, and the text data is stored in the first usage history. If not, thirdly, the speech conversion support device searches the second usage history .
テキストデータを音声データに変換する音声変換装置とネットワークを介して接続される音声変換支援装置において、
前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとこのテキストデータを音声に変換する際に音の強弱を指定するアクセント情報とが対応して過去データとして保存されるキャッシュデータ保存部と、
前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部と、
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索部と、
前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去の音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にもテキストデータが存在しない場合、前記テキストデータと対応するアクセント情報と共に音声合成用のデータとして前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理部とを備え、
前記インデックス情報記憶部は、この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、
前記検索部は、
第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索することを特徴とする音声変換支援装置。
In a speech conversion support device connected via a network to a speech conversion device that converts text data into speech data,
The voice data previously converted by the voice converter, the text data from which the voice data is converted, and the accent information that specifies the strength of the sound when the text data is converted to voice are stored as past data. Cache data storage unit
An index information storage unit in which a plurality of pieces of index information with different narrowing down ranges are stored in order for searching past data stored in the cache data storage unit in descending order of affinity with the user;
A search unit that searches a plurality of pieces of index information in the index information storage unit based on text data input from a request source in the order of ranking;
As a result of the search by the search unit, the past voice data indicated by the index information in which the text data existed is read from the cache data storage unit and returned to the request source, while no text data exists in any index information. A data processing unit that sends the voice data to the voice conversion device as voice synthesis data together with the accent information corresponding to the text data, and returns the voice data converted by the voice conversion device to the request source ,
The index information storage unit is a user registration dictionary uniquely registered by a user who has logged in to the device, a first usage history which is a usage history of the user, and a usage history of all users who have logged into the device. With 2 usage histories,
The search unit
First, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the second usage history is searched second, and the text data is stored in the first usage history. If not, thirdly, the speech conversion support device searches the second usage history .
前記ユーザ登録辞書、前記第1使用履歴、前記第2使用履歴には、以前に変換した音声データの変換元のテキストデータと、テキストデータとアクセント記号とで構成される中間データとが記憶されており、
前記検索部は、
第1に前記中間データを検索し、前記中間データの中に、入力されたテキストデータが存在しない場合に、第2に前記変換元のテキストデータを検索する請求項1または2いずれか記載の音声変換支援装置。
In the user registration dictionary, the first usage history, and the second usage history, text data that is a conversion source of previously converted voice data, and intermediate data that includes text data and accent marks are stored. And
The search unit
The voice according to claim 1 or 2 , wherein first the intermediate data is searched, and if the input text data does not exist in the intermediate data, the second conversion source text data is searched second. Conversion support device.
入力されたテキストデータを音声データに変換する音声変換装置と、この音声変換装置とネットワークを介して接続され、前記音声変換装置に対して前記テキストデータを音声データに変換する変換要求を送り、この変換要求に対して前記音声変換装置から出力された音声データを取得し、テキストデータの入力元へ返信する音声変換支援装置とを有する音声合成システムにおいて、A speech conversion device that converts input text data into speech data, and a speech conversion device that is connected to the speech conversion device via a network, and sends a conversion request for converting the text data to speech data to the speech conversion device. In a speech synthesis system having a speech conversion support device that acquires speech data output from the speech conversion device in response to a conversion request and sends back to the input source of text data,
前記音声変換支援装置は、The voice conversion support device includes:
前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとが対応して過去データとして保存されるキャッシュデータ保存部と、A cache data storage unit in which the speech data previously converted by the speech conversion device and the text data from which the speech data is converted are stored as past data;
前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部と、An index information storage unit in which a plurality of pieces of index information with different narrowing down ranges are stored in order for searching past data stored in the cache data storage unit in descending order of affinity with the user;
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索部と、A search unit that searches a plurality of pieces of index information in the index information storage unit based on text data input from a request source in the order of ranking;
前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去に使用された音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にも存在しない前記テキストデータを前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理部とを備え、As a result of the search by the search unit, the voice data used in the past indicated by the index information in which the text data existed is read from the cache data storage unit and returned to the request source, but is not present in any index information A data processing unit that sends the text data to the voice converter and returns the voice data converted by the voice converter to the request source;
前記インデックス情報記憶部は、この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、The index information storage unit is a user registration dictionary uniquely registered by a user who has logged in to the device, a first usage history which is a usage history of the user, and a usage history of all users who have logged into the device. With 2 usage histories,
前記検索部は、The search unit
第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索するFirst, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the second usage history is searched second, and the text data is stored in the first usage history. If not, thirdly search the second usage history
ことを特徴とする音声変換支援システム。A voice conversion support system characterized by this.
入力されたテキストデータを音声データに変換する音声変換装置と、この音声変換装置とネットワークを介して接続され、前記音声変換装置に対して前記テキストデータを音声データに変換する変換要求を送り、この変換要求に対して前記音声変換装置から出力された音声データを取得し、テキストデータの入力元へ返信する音声変換支援装置とを有する音声合成システムにおいて、
前記音声変換支援装置は、
前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとこのテキストデータを音声に変換する際に音の強弱を指定するアクセント情報とが対応して過去データとして保存されるキャッシュデータ保存部と、
前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部と、
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索部と、
前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去の音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にもテキストデータが存在しない場合、前記テキストデータと対応するアクセント情報と共に音声合成用のデータとして前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理部とを備え、
前記インデックス情報記憶部は、
この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、
前記検索部は、
第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索する
ことを特徴とする音声合成システム。
A speech conversion device that converts input text data into speech data, and a speech conversion device that is connected to the speech conversion device via a network and sends a conversion request for converting the text data to speech data to the speech conversion device, In a speech synthesis system having a speech conversion support device that acquires speech data output from the speech conversion device in response to a conversion request and sends back to the input source of text data,
The voice conversion support device includes:
The voice data previously converted by the voice converter, the text data from which the voice data is converted, and the accent information that specifies the strength of the sound when the text data is converted to voice are stored as past data. Cache data storage unit
An index information storage unit in which a plurality of pieces of index information with different narrowing down ranges are stored in order for searching past data stored in the cache data storage unit in descending order of affinity with the user;
A search unit that searches a plurality of pieces of index information in the index information storage unit based on text data input from a request source in the order of ranking;
As a result of the search by the search unit, the past voice data indicated by the index information in which the text data existed is read from the cache data storage unit and returned to the request source, while no text data exists in any index information. A data processing unit that sends the voice data to the voice conversion device as voice synthesis data together with the accent information corresponding to the text data, and returns the voice data converted by the voice conversion device to the request source ,
The index information storage unit
A user registration dictionary uniquely registered by a user who has logged into this device, a first usage history which is the user's usage history, and a second usage history which is the usage history of all users who have logged into the device,
The search unit
First, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the second usage history is searched second, and the text data is stored in the first usage history. If not, thirdly, the second usage history is searched . A speech synthesis system , wherein the second usage history is searched .
テキストデータを音声データに変換する音声変換装置とネットワークを介して接続される音声変換支援装置に処理を実行させるプログラムにおいて、
前記音声変換支援装置を、
前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとこのテキストデータを音声に変換する際に音の強弱を指定するアクセント情報とが対応して過去データとして保存されるキャッシュデータ保存部と、
前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部と、
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索部と、
前記検索部による検索の結果、前記テキストデータが存在したインデックス情報により示される過去の音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にもテキストデータが存在しない場合、前記テキストデータと対応するアクセント情報と共に音声合成用のデータとして前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理部として機能させ、
前記インデックス情報記憶部は、
この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、
前記検索部は、
第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索する
ことを特徴とするプログラム。
In a program that causes a speech conversion support device connected via a network to a speech conversion device that converts text data to speech data,
The voice conversion support device,
The voice data previously converted by the voice converter, the text data from which the voice data is converted, and the accent information that specifies the strength of the sound when the text data is converted to voice are stored as past data. Cache data storage unit
An index information storage unit in which a plurality of pieces of index information with different narrowing down ranges are stored in order for searching past data stored in the cache data storage unit in descending order of affinity with the user;
A search unit that searches a plurality of pieces of index information in the index information storage unit based on text data input from a request source in the order of ranking;
As a result of the search by the search unit, the past voice data indicated by the index information in which the text data existed is read from the cache data storage unit and returned to the request source, while no text data exists in any index information. The text data and the accent information corresponding to the text data is sent to the speech converter as speech synthesis data, and the speech data converted by the speech converter is functioned as a data processor that returns to the request source .
The index information storage unit
A user registration dictionary uniquely registered by a user who has logged into this device, a first usage history which is the user's usage history, and a second usage history which is the usage history of all users who have logged into the device,
The search unit
First, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the second usage history is searched second, and the text data is stored in the first usage history. If not, thirdly, the second usage history is searched .
テキストデータを音声データに変換する音声変換装置とネットワークを介して接続され、前記音声変換装置により以前に変換された音声データとこの音声データの変換元のテキストデータとこのテキストデータを音声に変換する際に音の強弱を指定するアクセント情報とが対応して過去データとして保存されるキャッシュデータ保存部と、前記キャッシュデータ保存部に保存されている過去データをユーザとの親和性の高い順に検索するための、絞り込み範囲の異なる複数のインデックス情報が順位付けして記憶されるインデックス情報記憶部とを備える音声変換支援装置における音声変換支援方法において、
要求元から入力されたテキストデータを基に前記インデックス情報記憶部の複数のインデックス情報を前記順位付けの順に検索する検索ステップと、
前記検索ステップによる検索の結果、前記テキストデータが存在したインデックス情報により示される過去の音声データを前記キャッシュデータ保存部から読み出して前記要求元へ返す一方、いずれのインデックス情報にもテキストデータが存在しない場合、前記テキストデータと対応するアクセント情報と共に音声合成用のデータとして前記音声変換装置へ送り、前記音声変換装置により変換された音声データを前記要求元へ返すデータ処理ステップと、
前記インデックス情報記憶部は、
この装置にログインしたユーザが独自に登録したユーザ登録辞書と、前記ユーザの使用履歴である第1使用履歴と、この装置にログインした全てのユーザの使用履歴である第2使用履歴とを備え、
検索ステップでは、第1に前記ユーザ登録辞書を検索し、前記ユーザ登録辞書に、入力されたテキストデータが存在しない場合に、第2に前記第1使用履歴を検索し、前記第1使用履歴に前記テキストデータが存在しない場合、第3に前記第2使用履歴を検索する
ことを特徴とする音声変換支援方法。
Connected via a network to a voice conversion device that converts text data into voice data, converts voice data previously converted by the voice conversion device, text data from which the voice data is converted, and the text data into voice. The cache data storage unit stores the past data stored in the cache data storage unit in correspondence with the accent information that specifies the strength of the sound, and searches the past data stored in the cache data storage unit in descending order of affinity with the user. And a speech conversion support method in a speech conversion support device comprising an index information storage unit in which a plurality of index information having different narrowing ranges are ranked and stored,
A search step of searching a plurality of index information in the index information storage unit in the order of ranking based on text data input from a request source;
As a result of the search in the search step, the past audio data indicated by the index information in which the text data existed is read from the cache data storage unit and returned to the request source, while no text data exists in any index information. A data processing step of sending the voice data together with the accent information corresponding to the text data to the voice conversion device as data for voice synthesis and returning the voice data converted by the voice conversion device to the request source;
The index information storage unit
A user registration dictionary uniquely registered by a user who has logged into this device, a first usage history which is the user's usage history, and a second usage history which is the usage history of all users who have logged into the device,
In the search step, first, the user registration dictionary is searched, and when the input text data does not exist in the user registration dictionary, the first usage history is searched second, and the first usage history is stored in the first usage history. The voice conversion support method , wherein, when the text data does not exist, thirdly, the second usage history is searched .
JP2011057229A 2011-03-15 2011-03-15 Voice conversion support device, program, and voice conversion support method Expired - Fee Related JP5502787B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011057229A JP5502787B2 (en) 2011-03-15 2011-03-15 Voice conversion support device, program, and voice conversion support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011057229A JP5502787B2 (en) 2011-03-15 2011-03-15 Voice conversion support device, program, and voice conversion support method

Publications (2)

Publication Number Publication Date
JP2012194284A JP2012194284A (en) 2012-10-11
JP5502787B2 true JP5502787B2 (en) 2014-05-28

Family

ID=47086264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011057229A Expired - Fee Related JP5502787B2 (en) 2011-03-15 2011-03-15 Voice conversion support device, program, and voice conversion support method

Country Status (1)

Country Link
JP (1) JP5502787B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5787794B2 (en) * 2012-03-05 2015-09-30 株式会社東芝 Speech synthesis system, speech conversion support device, and speech conversion support method
WO2023073949A1 (en) * 2021-10-29 2023-05-04 パイオニア株式会社 Voice output device, server device, voice output method, control method, program, and storage medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3446764B2 (en) * 1991-11-12 2003-09-16 富士通株式会社 Speech synthesis system and speech synthesis server
JPH07141000A (en) * 1993-11-16 1995-06-02 Sony Corp Device and method for synthesizing sound
US6327343B1 (en) * 1998-01-16 2001-12-04 International Business Machines Corporation System and methods for automatic call and data transfer processing
JP2004063001A (en) * 2002-07-29 2004-02-26 Pioneer Electronic Corp Information recording device, information reproducing method, program for reproducing information, and information recording medium
JP2005331550A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Voice-synthesizing method, its device and computer program
JP5228633B2 (en) * 2008-06-03 2013-07-03 カシオ計算機株式会社 Electronic dictionary apparatus and program

Also Published As

Publication number Publication date
JP2012194284A (en) 2012-10-11

Similar Documents

Publication Publication Date Title
US8156140B2 (en) Service oriented architecture enterprise service bus with advanced virtualization
US8938436B2 (en) System for and method of providing reusable software service information based on natural language queries
US10185741B2 (en) Smart navigation services
US8065152B2 (en) Platform for enabling voice commands to resolve phoneme based domain name registrations
JP4909334B2 (en) Service proposal apparatus and method, service proposal system, service proposal apparatus and method based on user&#39;s favorite base
US20020059370A1 (en) Method and apparatus for delivering content via information retrieval devices
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
US8600970B2 (en) Server-side search of email attachments
JP2015133151A (en) Federated community search
JP2009037501A (en) Information retrieval apparatus, information retrieval method and program
WO2017025938A1 (en) Bifurcated search
JP5502787B2 (en) Voice conversion support device, program, and voice conversion support method
JP5044707B1 (en) Information processing system, information processing apparatus, and program
JPH11272683A (en) Retrieval processor and storage medium
US20110072045A1 (en) Creating Vertical Search Engines for Individual Search Queries
JP5787794B2 (en) Speech synthesis system, speech conversion support device, and speech conversion support method
WO2014168774A1 (en) Smart navigation services
JP6117040B2 (en) Speech synthesis system and speech conversion support device
JP6246626B2 (en) Speech synthesis system, speech conversion support device, and speech conversion support method
US20170235827A1 (en) Vocalizing short responses to voice queries
EP2515575B1 (en) Method and device for searching personal network service
JP2014089692A (en) Information providing server
US20080021875A1 (en) Method and apparatus for performing a tone-based search
JP2005210513A (en) View access control method classified by domain name, dns server system device, view access control program classified by domain name, and storage medium storing view access control program classified by domain name
US8510286B1 (en) Method, architecture and platform for content takedown on the internet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140313

R151 Written notification of patent or utility model registration

Ref document number: 5502787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees