JP2000293187A - Device and method for synthesizing data voice - Google Patents

Device and method for synthesizing data voice

Info

Publication number
JP2000293187A
JP2000293187A JP11103207A JP10320799A JP2000293187A JP 2000293187 A JP2000293187 A JP 2000293187A JP 11103207 A JP11103207 A JP 11103207A JP 10320799 A JP10320799 A JP 10320799A JP 2000293187 A JP2000293187 A JP 2000293187A
Authority
JP
Japan
Prior art keywords
data
speech
speech synthesis
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11103207A
Other languages
Japanese (ja)
Inventor
Tatsuji Yahashi
達司 矢橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP11103207A priority Critical patent/JP2000293187A/en
Publication of JP2000293187A publication Critical patent/JP2000293187A/en
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data voice synthesizing device and a data voice synthesizing method in which a user is able to listen to the synthesized voice of a text without delay and a voice file is provided in accordance with the desire of the user. SOLUTION: The device is provided with a text input section 111 which extracts text data that are the voice synthesis object from a text database 12, a text dividing process section 112 which divides the data of the voice synthesis object extracted from the database 12 in accordance with punctuation marks, and a voice synthesis processing section 113 which conducts voice synthesis for every text data of the divided voice synthesis object.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ音声合成装
置及びデータ音声合成方法に関し、特に長いテキスト文
を素早く音声へ合成し読み上げを可能とする場合に好適
なデータ音声合成装置及びデータ音声合成方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data speech synthesizing apparatus and a data speech synthesizing method, and more particularly to a data speech synthesizing apparatus and a data speech synthesizing method suitable for quickly synthesizing a long text sentence into speech and reading it out. About.

【0002】[0002]

【従来の技術】従来より、テキストデータを音声合成
し、音声ファイル化して音声として出力する技術が開発
されている。従来のテキストデータの音声合成処理の方
式は、テキストデータを音声合成エンジンにそのまま渡
し、音声ファイル化するか、もしくはメモリ内で音声デ
ータ化することを行っていた。
2. Description of the Related Art Conventionally, there has been developed a technique for synthesizing text data by voice, converting the text data into a voice file, and outputting the voice as voice. In the conventional method of speech synthesis of text data, text data is passed to a speech synthesis engine as it is, and is converted into a voice file or converted into voice data in a memory.

【0003】しかし、情報量が大きくなりテキストデー
タサイズも大きくなるに伴い、音声合成処理に要する時
間が非常に長くなる。更に遅延が発生するために、利用
者の意図を取り入れながらの動作はできなかった。
However, as the amount of information increases and the text data size increases, the time required for speech synthesis processing becomes very long. In addition, the operation cannot be performed while taking the user's intention into account due to a further delay.

【0004】上記のような音声合成に関する従来例とし
ては、例えば特開平9−307658号公報に記載の技
術が提案されている。同公報は、電子メールの読み上げ
を簡単な操作で自在に行うことを目的としたものであ
り、所定のフォーマットで記述した応答メッセージを記
憶するメッセージデータファイルを利用し、前記記憶さ
れている応答メッセージの出力指示を入力し、前記入力
した出力指示に応答して対応する応答メッセージを音声
合成出力することを特徴とする情報処理方法が開示され
ている。
As a conventional example relating to the above-described speech synthesis, for example, a technique described in Japanese Patent Application Laid-Open No. 9-307658 has been proposed. The gazette is intended to freely read out an e-mail by a simple operation, and utilizes a message data file for storing a response message described in a predetermined format. An information processing method is disclosed in which an output instruction is input and a response message corresponding to the input output instruction is voice-synthesized and output.

【0005】また、上記のような音声合成に関する他の
従来例としては、例えば特開平10−149273号公
報に記載の技術が提案されている。同公報は、電子メー
ルの内容や意味を聞きとりやすい発声を実現することを
目的としたものであり、電子メールを記憶し、前記記憶
している電子メールのテキストを分析し、前記分析され
た結果に従って発声属性を決定し、前記決定された発声
属性に基づいて前記テキストを音声合成することを特徴
とする情報処理方法が開示されている。
As another conventional example relating to the above-described speech synthesis, a technique described in, for example, Japanese Patent Application Laid-Open No. H10-149273 has been proposed. The gazette aims to realize an utterance that makes it easy to hear the content and meaning of the e-mail, stores the e-mail, analyzes the text of the stored e-mail, and performs the analysis. There is disclosed an information processing method, wherein an utterance attribute is determined according to a result, and the text is speech-synthesized based on the determined utterance attribute.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上述し
た従来例においては次のような問題点があった。
However, the above-described prior art has the following problems.

【0007】第一の問題点は、音声合成処理をするテキ
ストデータのサイズが大きいため、長いテキストデータ
の音声合成処理には非常に長い時間がかかる。
The first problem is that since the size of text data to be subjected to speech synthesis processing is large, it takes a very long time to perform speech synthesis processing on long text data.

【0008】第二の問題点は、テキストの再生が終わる
まで処理を中断できないもしくは中断することができて
も次のテキストデータの音声合成処理が終了していない
ので再生する準備ができていないため、音声合成処理中
および再生中に利用者の指示を反映させることができな
いことである。
[0008] The second problem is that the processing cannot be interrupted until the reproduction of the text is completed, or even if the processing can be interrupted, the speech synthesis processing of the next text data is not completed, so that it is not ready for reproduction. Another problem is that the user's instruction cannot be reflected during the speech synthesis processing and the reproduction.

【0009】本発明の目的は、利用者が遅延なくテキス
トの音声合成された結果を聞くことを可能とし、利用者
の意図に応じた音声ファイルを提供可能としたデータ音
声合成装置及びデータ音声合成方法を提供するものであ
る。
SUMMARY OF THE INVENTION An object of the present invention is to provide a data speech synthesizer and a data speech synthesis apparatus which enable a user to listen to the result of text-to-speech synthesis without delay and provide a speech file according to the user's intention. It provides a method.

【0010】[0010]

【課題を解決するための手段】本発明は、データの音声
合成を行うデータ音声合成装置において、複数のデータ
を蓄積した蓄積手段と、該蓄積手段から音声合成対象デ
ータを抽出する抽出手段と、該抽出手段で前記蓄積手段
から抽出した前記音声合成対象データを所定の分割条件
に基づき分割する分割手段と、該分割手段で分割した前
記音声合成対象データ毎に音声合成を行う音声合成手段
とを具備することを特徴とする。
According to the present invention, there is provided a data-speech synthesizing device for synthesizing data, comprising: a storage means for storing a plurality of data; an extraction means for extracting data to be synthesized from the storage means; A dividing unit that divides the speech synthesis target data extracted from the storage unit by the extraction unit based on a predetermined division condition; and a speech synthesis unit that performs speech synthesis for each of the speech synthesis target data divided by the division unit. It is characterized by having.

【0011】また、本発明は、データの音声合成を行う
データ音声合成方法において、複数の音声合成対象デー
タを蓄積した蓄積手段から特定の音声合成対象データを
抽出し、該抽出工程で前記蓄積手段から抽出した前記音
声合成対象データを所定の分割条件に基づき分割し、該
分割工程で分割した前記音声合成対象データ毎に音声合
成を行うことを特徴とする。
The present invention also relates to a data speech synthesizing method for synthesizing data, in which specific speech synthesis target data is extracted from a storage unit storing a plurality of speech synthesis target data, and the storage unit is used in the extracting step. The speech synthesis target data extracted from the above is divided based on a predetermined division condition, and speech synthesis is performed for each of the speech synthesis target data divided in the dividing step.

【0012】また、本発明のデータ音声合成装置は、図
1を参照しつつ説明すれば、データの音声合成を行うデ
ータ音声合成装置において、複数のデータを蓄積した蓄
積手段(図1の12)と、該蓄積手段から音声合成対象
データを抽出する抽出手段(図1の111)と、該抽出
手段で前記蓄積手段から抽出した前記音声合成対象デー
タを所定の分割条件に基づき分割する分割手段(図1の
112)と、該分割手段で分割した前記音声合成対象デ
ータ毎に音声合成を行う音声合成手段(図1の113)
とを具備している。
The data-speech synthesizing apparatus according to the present invention, which will be described with reference to FIG. 1, is a data-speech synthesizing apparatus for synthesizing data. Extracting means (111 in FIG. 1) for extracting speech synthesis target data from the storage means; and dividing means for dividing the speech synthesis target data extracted from the storage means by the extraction means based on predetermined division conditions ( A speech synthesis unit (112 in FIG. 1) for performing speech synthesis for each of the speech synthesis target data divided by the division unit (113 in FIG. 1).
Is provided.

【0013】[作用]本発明のデータ音声合成装置は、
テキストを分割して音声合成をするように制御してい
る。このため、分割されたテキストの音声合成処理を短
い時間で行うことが可能となり、利用者が遅延なくテキ
ストの音声合成された結果を聞くことができる。また、
音声合成されたデータは利用者の指示を先読みした音声
合成スケジュールに従うように制御している。このた
め、利用者に「次の電子メール」など利用者の意図に応
じた音声ファイルを提供することができる。更に、音声
合成対象データがテキストデータだけでなく、広範なデ
ータを扱うことができるようにしている。このため、利
用者はデータが限定されないという利点を得ることがで
きる。
[Operation] The data-speech synthesizing apparatus of the present invention comprises:
It controls to divide text and synthesize speech. For this reason, the speech synthesis processing of the divided text can be performed in a short time, and the user can hear the result of the speech synthesis of the text without delay. Also,
The voice-synthesized data is controlled so as to follow a voice synthesis schedule in which a user's instruction is read ahead. For this reason, it is possible to provide the user with an audio file such as “next e-mail” according to the user's intention. Further, the speech synthesis target data can handle not only text data but also a wide range of data. Therefore, the user can obtain an advantage that data is not limited.

【0014】付言すれば、本発明のデータ音声合成装置
は、蓄積手段から抽出した音声合成対象データを句点/
読点などの分割条件に基づき幾つかのデータに分割し、
分割したデータを音声合成して出力する点が特徴であ
り、この点で上記従来例の音声合成方法とは相異するも
のである。
[0014] In addition, the data-speech synthesizing apparatus of the present invention converts the speech-synthesis target data extracted from the storage means to a period /
Divide into several data based on division conditions such as reading points,
The feature is that the divided data is synthesized and output as a voice, which is different from the above-described conventional voice synthesizing method.

【0015】[0015]

【発明の実施の形態】[第1実施形態]次に、本発明の
第1実施形態について図面を参照して詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment Next, a first embodiment of the present invention will be described in detail with reference to the drawings.

【0016】(1)構成の説明 図1は本発明の第1実施形態のテキスト音声合成処理シ
ステムの構成例を示すブロック図である。図1におい
て、本発明の第1実施形態のテキスト音声合成処理シス
テムは、音声合成処理装置11、テキストデータベース
12、指示装置13、音声出力装置14を具備してい
る。更に、音声合成処理装置11は、テキスト入力部1
11、テキスト分割処理部112、音声合成処理部11
3を具備している。
(1) Description of Configuration FIG. 1 is a block diagram showing a configuration example of a text-to-speech synthesis processing system according to a first embodiment of the present invention. In FIG. 1, the text-to-speech synthesis processing system according to the first embodiment of the present invention includes a speech synthesis processing device 11, a text database 12, an instruction device 13, and a voice output device 14. Further, the speech synthesis processing device 11 includes the text input unit 1
11, text division processing unit 112, speech synthesis processing unit 11
3 is provided.

【0017】上記構成を詳述すると、音声合成処理装置
11は、テキストデータベース12から抽出したテキス
トの分割を行うと共に、分割したテキスト毎に音声合成
を行い、音声合成したものをファイルとして記憶手段
(図示略)に保存し、読み上げの機会に適宜再生する。
音声合成処理装置11は、具体的にはコンピュータ内に
音声合成処理をソフトウェアによって行う音声合成エン
ジンに適用した装置である。音声合成処理装置11のテ
キスト入力部111は、指示装置13からの音声合成指
示に基づきテキストデータベース12から音声合成対象
のテキストを抽出する。音声合成処理装置11のテキス
ト分割処理部112は、音声合成対象テキストを予め決
められたサイズ内で読点/句点などを区切りに、幾つか
のテキストに分割する。予め決められたサイズとは実使
用では例えば500kバイトを初期値として保持してお
き、500kバイトを越えたところにある読点、句点ま
でというのが分割サイズとなる。この音声合成処理装置
11の音声合成処理分割処理部113は、分割されたテ
キスト毎に音声合成処理を行う。
More specifically, the speech synthesis processor 11 divides the text extracted from the text database 12, performs speech synthesis for each of the divided texts, and stores the synthesized speech as a file. (Not shown), and play it back at the occasion of reading out.
The speech synthesis processing device 11 is specifically a device applied to a speech synthesis engine that performs speech synthesis processing in software in a computer. The text input unit 111 of the speech synthesis processing device 11 extracts a text to be speech-synthesized from the text database 12 based on a speech synthesis instruction from the instruction device 13. The text segmentation processing unit 112 of the speech synthesis processing device 11 divides the text to be speech-synthesized into several texts within a predetermined size with a break at a reading point / punctuation mark or the like. In the actual use, the predetermined size is, for example, 500 kbytes held as an initial value, and the division size is up to the reading point and the period beyond 500 kbytes. The speech synthesis processing division processing unit 113 of the speech synthesis processing device 11 performs a speech synthesis process for each divided text.

【0018】テキストデータベース12は、具体的には
電子メールサーバに装備されており、テキスト(電子メ
ール)を蓄積している。指示装置13は、具体的には電
話機の数字ボタンもしくはコンピュータのキーボードで
あり、利用者ID、パスワード、音声合成指示の入力に
用いる。音声出力装置14は、具体的には電話機の受話
器もしくはコンピュータに接続されているスピーカであ
り、音声合成処理装置11で音声合成された音声ファイ
ルを音声出力する。
The text database 12 is specifically provided in an e-mail server and stores text (e-mail). The instruction device 13 is specifically a numeric button of a telephone or a keyboard of a computer, and is used to input a user ID, a password, and a voice synthesis instruction. The voice output device 14 is, specifically, a telephone receiver or a speaker connected to a computer, and outputs voice of a voice file synthesized by the voice synthesis processing device 11.

【0019】(2)動作の説明 次に、本発明の第1実施形態の動作について図1〜図4
を参照して詳細に説明する。図2は本発明の第1実施形
態の音声合成処理の流れを示すフローチャート、図3は
本発明の第1実施形態の音声合成スケジュールを示す説
明図、図4は本発明の第1実施形態の音声合成処理の具
体例を示す説明図である。
(2) Description of Operation Next, the operation of the first embodiment of the present invention will be described with reference to FIGS.
This will be described in detail with reference to FIG. FIG. 2 is a flowchart showing the flow of a speech synthesis process according to the first embodiment of the present invention, FIG. 3 is an explanatory diagram showing a speech synthesis schedule according to the first embodiment of the present invention, and FIG. FIG. 4 is an explanatory diagram illustrating a specific example of a speech synthesis process.

【0020】最初に、図2のフローチャートを参照して
本発明の第1実施形態の全体の動作について詳細に説明
する。
First, the overall operation of the first embodiment of the present invention will be described in detail with reference to the flowchart of FIG.

【0021】先ず、音声合成処理装置11のテキスト入
力部111は、利用者が指示装置13から入力した利用
者ID、パスワード、音声合成指示に基づき、音声合成
対象のテキストの取り出しを行う。テキストはテキスト
データベース12から参照される(ステップS21)。
次に、テキスト入力部111は、テキストの有無を判定
する(ステップS22)。この場合はテキストデータベ
ース12からテキストが取り出されているため、次に、
テキスト分割処理部112は、テキストの分割処理を行
い、分割処理したテキストを音声合成処理部113(音
声合成エンジン)に引き渡す(ステップS23)。これ
により、音声合成処理部113は、分割されたテキスト
毎に音声合成を行い音声ファイルを作成する(ステップ
S24)。
First, the text input unit 111 of the speech synthesis processing device 11 extracts a text to be speech-synthesized based on the user ID, password, and speech synthesis instruction input by the user from the instruction device 13. The text is referred to from the text database 12 (Step S21).
Next, the text input unit 111 determines whether there is text (step S22). In this case, since the text has been extracted from the text database 12, next,
The text division processing unit 112 performs text division processing, and delivers the divided text to the speech synthesis processing unit 113 (speech synthesis engine) (step S23). Thereby, the voice synthesis processing unit 113 performs voice synthesis for each of the divided texts to create a voice file (step S24).

【0022】音声合成処理部113は、作成した音声フ
ァイルを音声出力装置14を介して音声出力する。これ
により、出来上がった音声ファイルを利用者に音声とし
て聞かせる(ステップS25)。この後、テキスト入力
部111は、指示装置13からの利用者による音声合成
指示が終了したか否か判定する(ステップS26)。次
の利用者指示がある場合は上記ステップS21へ戻り上
記一連の処理を繰り返す。他方、次の利用者指示がない
場合は本処理を終了する。
The voice synthesis processing unit 113 outputs the generated voice file via the voice output device 14 as voice. This allows the user to hear the completed audio file as audio (step S25). Thereafter, the text input unit 111 determines whether or not the user has given a speech synthesis instruction from the instruction device 13 (step S26). If there is a next user instruction, the process returns to step S21 to repeat the above series of processing. On the other hand, if there is no next user's instruction, this processing ends.

【0023】次に、本発明の第1実施形態の具体例につ
いて図4を参照しながら説明する。上記図1に示すよう
に、利用者は指示装置12(本例では電話機)から音声
合成装置11に電話をかけて、テキスト(電子メール)
の聞き取り指示を出す。利用者が指示装置12から利用
者ID、パスワードを入力すると、音声合成処理装置1
1のテキスト入力部111は、テキスト(電子メール)
を電子メールサーバのテキストデータベース12から取
得する。テキスト分割処理部112は、テキスト入力部
111で取得したテキスト(電子メール)を句点や読点
に従って分割し、音声合成処理部113は、テキスト分
割処理部112で分割されたテキスト毎に音声合成処理
を行う。音声合成されたデータは、音声合成のスケジュ
ールに従う。
Next, a specific example of the first embodiment of the present invention will be described with reference to FIG. As shown in FIG. 1, the user makes a telephone call from the pointing device 12 (telephone in this example) to the voice synthesizer 11 and sends a text (e-mail).
Give a listening instruction. When the user inputs a user ID and a password from the instruction device 12, the speech synthesis processing device 1
1 text input unit 111 is a text (email)
From the text database 12 of the e-mail server. The text division processing unit 112 divides the text (e-mail) obtained by the text input unit 111 according to a period or a reading point. Do. The voice synthesized data follows the voice synthesis schedule.

【0024】音声合成スケジュールとは、図3に示すよ
うに分割されたテキストを利用者が次に必要になる順番
に配列し、利用者の指示どおりに再生を行うものであ
り、音声合成処理装置11の音声合成処理部113が指
示装置13からの入力に基づき予め作成し記憶している
ものである。音声合成スケジュールのルールを以下に示
す。
The speech synthesis schedule arranges the divided texts as shown in FIG. 3 in the order required by the user and reproduces the text as instructed by the user. Eleven voice synthesis processing units 113 are created and stored in advance based on the input from the instruction device 13. The rules for the speech synthesis schedule are shown below.

【0025】テキスト1−分割1を最初に音声合成を行
う。次に利用者が「次のテキスト」を指示したときに即
座に必要になるのはテキスト2−分割1であるため、こ
れを次に音声合成を行う。その次はテキスト1−分割1
の再生時間内でテキスト3−分割1とテキスト1−分割
2の二つの音声合成処理が終了するのなら、テキスト3
−分割1である。しかし、二つの音声合成処理ができな
いときは、先にテキスト1−分割2の音声合成を行う。
この時に音声合成するための時間は、利用者が「早送
り」や「読み飛ばし」を行うことで再生時間が少なくな
ることも考慮にいれなければいけない。このように、音
声合成スケジュールに基づき利用者の行動を先読みして
音声合成処理を行うことで遅延のない処理が可能とな
る。
First, speech synthesis is performed on text 1-division 1. Next, when the user instructs the "next text", the text 2 which is immediately required is the text 2-division 1, so this is subjected to speech synthesis next. Next is text 1-split 1
If the two voice synthesis processes of text 3 and division 1 and text 1 and division 2 are completed within the playback time of text 3
-Division 1. However, when two speech synthesis processes cannot be performed, speech synthesis of text 1-split 2 is performed first.
At this time, it is necessary to take into consideration that the time required for the speech synthesis is reduced when the user performs “fast-forward” or “skip” to reduce the reproduction time. As described above, by performing the voice synthesis processing by pre-reading the behavior of the user based on the voice synthesis schedule, it is possible to perform processing without delay.

【0026】作成された音声ファイルは、順番に利用者
に対して再生する。その間、利用者は「次のメール」
「早送り」「巻き戻し」などの指示を音声合成処理装置
11に対して送ったりすることが可能であり、その指示
に従って即座に音声ファイルを再生することが可能であ
る。
The created audio files are reproduced for the user in order. During that time, the user will receive the "Next Email"
It is possible to send an instruction such as “fast forward” or “rewind” to the voice synthesizing processing device 11, and it is possible to immediately reproduce the audio file according to the instruction.

【0027】上述した如く、利用者の指示を伝達する指
示装置13から音声合成処理装置11のテキスト入力部
111へ音声合成を行う指示が与えられると、テキスト
入力部111によりテキストデータベース12から抽出
された長いテキストは、テキスト分割処理部112で予
め決められたサイズ内で読点/句点などを区切りに幾つ
かの分割テキストに分けられる。分割されたテキスト
は、音声合成処理部113へ次々と引き渡される。小さ
く分割されたテキストの音声合成処理は短い時間で処理
され音声ファイル化され、音声出力装置14へ音声とし
て出力される。
As described above, when an instruction to perform speech synthesis is given from the instruction device 13 for transmitting the user's instruction to the text input unit 111 of the speech synthesis processing device 11, the text input unit 111 extracts the speech from the text database 12. The long text is divided by the text division processing unit 112 into several divided texts with a break at a reading point / punctuation mark or the like within a predetermined size. The divided texts are successively delivered to the speech synthesis processing unit 113. The speech synthesis processing of the text divided into small pieces is processed in a short time, converted into a speech file, and output to the speech output device 14 as speech.

【0028】また、上記図3に示したような音声合成ス
ケジュールを採用することで、遅延のない読み上げを可
能とする。「読み飛ばし」や「早送り」や「次のテキス
ト読む」を利用者が指示した場合でも即座に読み上げが
可能となる。
Further, by adopting the speech synthesis schedule as shown in FIG. 3, it is possible to read out without delay. Even if the user instructs "skip", "fast forward", or "read the next text", it is possible to immediately read out.

【0029】以上説明したように本発明の第1実施形態
によれば、テキストを分割して音声合成をするため、分
割されたテキストの音声合成処理を短い時間で行うこと
が可能となり、利用者が遅延なくテキストの音声合成さ
れた結果を聞くことができる。また、音声合成されたデ
ータは利用者の指示を先読みした音声合成スケジュール
に従うため、利用者に「次の電子メール」など利用者の
意図に応じた音声ファイルを提供することができる。
As described above, according to the first embodiment of the present invention, since the text is divided and the voice is synthesized, the voice synthesis processing of the divided text can be performed in a short time. Can hear the result of text-to-speech synthesis without delay. Further, since the voice-synthesized data follows the voice synthesis schedule in which the user's instruction is read ahead, a voice file according to the user's intention, such as “next e-mail”, can be provided to the user.

【0030】[第2実施形態]次に、本発明の第2実施
形態について図面を参照して詳細に説明する。
[Second Embodiment] Next, a second embodiment of the present invention will be described in detail with reference to the drawings.

【0031】(1)構成の説明 図5は本発明の第2実施形態のテキスト音声合成処理シ
ステムの構成例を示すブロック図である。図5におい
て、本発明の第2実施形態のテキスト音声合成処理シス
テムは、音声合成処理装置51、汎用データベース5
2、指示装置53、音声出力装置54を具備している。
更に、音声合成処理装置51は、テキスト入力部51
1、テキスト分割処理部512、音声合成処理部513
を具備している。更に、テキスト入力部511は、デー
タ検索部511Aとテキスト生成部511Bから構成さ
れている。
(1) Description of Configuration FIG. 5 is a block diagram showing a configuration example of a text-to-speech synthesis processing system according to a second embodiment of the present invention. In FIG. 5, a text-to-speech processing system according to a second embodiment of the present invention includes a speech
2, an instruction device 53 and an audio output device 54 are provided.
Further, the speech synthesis processing device 51 includes a text input unit 51.
1. Text division processing unit 512, speech synthesis processing unit 513
Is provided. Further, the text input unit 511 includes a data search unit 511A and a text generation unit 511B.

【0032】上記構成において第2実施形態が第1実施
形態と相異する点を説明すると、汎用データベース52
は、テキスト形式でない通常のデータを蓄積している。
音声合成処理装置51のデータ検索部511Aは、指示
装置53からの音声合成指示に基づき汎用データベース
52から音声合成対象のデータを検索する。音声合成処
理装置51のテキスト生成部511Bは、データ検索部
511Aにより検索されたデータに対しマージ等の処理
を行いテキスト化を行う。これ以外の構成は第1実施形
態と同様であり説明を省略する。
The difference between the second embodiment and the first embodiment in the above configuration will be described.
Stores ordinary data that is not in text format.
The data search unit 511A of the speech synthesis processing device 51 searches the general-purpose database 52 for data to be subjected to speech synthesis based on the speech synthesis instruction from the instruction device 53. The text generation unit 511B of the speech synthesis processing device 51 converts the data searched by the data search unit 511A into text by performing processing such as merging. The other configuration is the same as that of the first embodiment, and the description is omitted.

【0033】(2)動作の説明 次に、本発明の第2実施形態の動作について図5〜図7
を参照して詳細に説明する。図6は本発明の第2実施形
態の音声合成処理の流れを示すフローチャート、図7は
本発明の第2実施形態の音声合成処理の具体例を示す説
明図である。
(2) Description of Operation Next, the operation of the second embodiment of the present invention will be described with reference to FIGS.
This will be described in detail with reference to FIG. FIG. 6 is a flowchart showing the flow of the speech synthesis processing according to the second embodiment of the present invention, and FIG. 7 is an explanatory diagram showing a specific example of the speech synthesis processing according to the second embodiment of the present invention.

【0034】最初に、図6のフローチャートを参照して
本発明の第2実施形態の全体の動作について詳細に説明
する。
First, the overall operation of the second embodiment of the present invention will be described in detail with reference to the flowchart of FIG.

【0035】先ず、音声合成処理装置51のテキスト入
力部511のデータ検索部511Aは、利用者が指示装
置53から入力した利用者ID、パスワード、音声合成
指示に基づき、汎用データベース52から音声合成対象
データの検索を行う(ステップS61)。次に、テキス
ト入力部511のテキスト生成部511Bは、データ検
索部511Aで検索したデータをテキスト化する(ステ
ップS62)。次に、テキスト入力部511のテキスト
分割処理部511Bは、テキストの有無を判定する(ス
テップS63)。この場合は汎用データベース52のデ
ータがテキスト化されているため、次に、テキスト分割
処理部512は、テキストの分割処理を行い、分割処理
したテキストを音声合成処理部513(音声合成エンジ
ン)に引き渡す(ステップS64)。これにより、音声
合成処理部513は、分割されたテキスト毎に音声合成
を行い音声ファイルを作成する(ステップS65)。
First, the data retrieval unit 511A of the text input unit 511 of the speech synthesis processing unit 51 sends a speech synthesis target from the general-purpose database 52 based on the user ID, password, and speech synthesis instruction input by the user from the instruction device 53. Data search is performed (step S61). Next, the text generation unit 511B of the text input unit 511 converts the data searched by the data search unit 511A into text (Step S62). Next, the text division processing unit 511B of the text input unit 511 determines whether there is a text (Step S63). In this case, since the data in the general-purpose database 52 is converted into text, the text division processing unit 512 next performs text division processing, and delivers the divided text to the speech synthesis processing unit 513 (speech synthesis engine). (Step S64). Thus, the speech synthesis processing unit 513 performs speech synthesis for each of the divided texts to create a speech file (step S65).

【0036】音声合成処理部513は、作成した音声フ
ァイルを音声出力装置54を介して音声出力する。これ
により、出来上がった音声ファイルを利用者に音声とし
て聞かせる(ステップS66)。この後、テキスト入力
部511は、指示装置53からの利用者による音声合成
指示が終了したか否か判定する(ステップS67)。次
の利用者指示がある場合は上記ステップS61へ戻り上
記一連の処理を繰り返す。他方、次の利用者指示がない
場合は本処理を終了する。
The voice synthesis processing unit 513 outputs the generated voice file via the voice output device 54 as voice. This allows the user to hear the completed audio file as audio (step S66). Thereafter, the text input unit 511 determines whether or not the user has given a speech synthesis instruction from the instruction device 53 (step S67). If there is a next user instruction, the process returns to step S61 to repeat the series of processes. On the other hand, if there is no next user's instruction, this processing ends.

【0037】次に、第2実施形態と第1実施形態との相
異点を説明する。上記図1に示した第1実施形態のテキ
スト音声合成処理システムでは、元となるテキストが予
め準備されていないと、音声合成処理を行うことができ
ないという側面がある。
Next, differences between the second embodiment and the first embodiment will be described. The text-to-speech synthesis system of the first embodiment shown in FIG. 1 has an aspect that the speech synthesis process cannot be performed unless the original text is prepared in advance.

【0038】これに対し、第2実施形態のテキスト音声
合成処理システムでは、音声合成処理装置51のテキス
ト入力部511のデータ検索部511Aによるデータ検
索処理で、汎用データベース52からデータを検索し
(上記図6のステップS61)、テキスト生成部511
Bでデータをテキスト化する(図6のステップS62)
ことによって音声合成処理を行い、再生することが可能
となる。
On the other hand, in the text-to-speech processing system of the second embodiment, data is retrieved from the general-purpose database 52 by the data retrieval processing by the data retrieval unit 511A of the text input unit 511 of the speech synthesis processing unit 51 (see above). Step S61 in FIG. 6), text generator 511
Convert the data to text by B (step S62 in FIG. 6)
This makes it possible to perform a speech synthesis process and reproduce the speech.

【0039】次に、本発明の第2実施形態の具体例につ
いて図7を参照しながら説明する。汎用データベース5
2内のデータ構造を仮に以下のような場合を考察する。
[キー:数字列]、[設定値1:数字列]、[設定値
2:数字列]、[参照DBキー:別DBのキー] 図7では、キー「5489」という入力数字列を使って
データの検索を行うと、検索後のデータは「3、4、3
321」のようになる。このまま、音声合成処理部51
3で音声合成処理を行っても利用者にとって理解可能な
音声情報とはならない。そこで、テキスト入力部511
のデータ検索部511Aにて汎用データベース52の検
索を行い、[参照DBキー]の検索を行い、実データを適
用することで利用者に有効な情報として提供することが
できる。
Next, a specific example of the second embodiment of the present invention will be described with reference to FIG. General purpose database 5
Let us consider the following case, assuming that the data structure in 2 is as follows.
[Key: Numeric string], [Setting value 1: Numeric string], [Setting value 2: Numeric string], [Reference DB key: Key of another DB] In FIG. When a data search is performed, the data after the search is “3, 4, 3”.
321 ”. In this state, the voice synthesis processing unit 51
Even if speech synthesis processing is performed in step 3, the speech information is not understandable to the user. Therefore, the text input unit 511
The general-purpose database 52 is searched by the data search unit 511A, the [reference DB key] is searched, and by applying the actual data, it can be provided as effective information to the user.

【0040】別DBにて、キー:「3321」で検索さ
れるデータがテキストデータ「タイトル:データベース
の有効活用について…」の場合、利用者に必要なデータ
は「設定値1は3、設定値2は4、タイトル:データベ
ースの有効活用について…」というようなテキストデー
タとなって、利用者に有益な情報を提供することが可能
となる。
In another DB, if the data retrieved with key: “3321” is text data “title: effective use of database ...”, the data necessary for the user is “set value 1 is 3, set value 2 is 4, title: About effective use of database ... ", it is possible to provide useful information to the user.

【0041】上述した如く、汎用データベース52内の
データは、テキストの形式をしていなくても、音声合成
処理装置51の音声合成処理部513に渡るまでに、テ
キスト入力部511のデータ検索部511A及びテキス
ト生成部511Aにて検索やマージ等の処理を行いテキ
スト化をすれば、音声合成処理部513で音声合成が可
能となる。また、指示装置53からの指示もデータベー
ス操作を含めることが可能である。これにより、固定の
テキストだけでなく動的に生成されるテキストの音声合
成が可能となる。
As described above, even if the data in the general-purpose database 52 is not in the text format, the data search unit 511A of the text input unit 511 must be passed before the data is passed to the speech synthesis processing unit 513 of the speech synthesis processing unit 51. If the text generation unit 511A performs processing such as retrieval or merging to convert the text into text, the voice synthesis processing unit 513 can perform voice synthesis. Further, the instruction from the instruction device 53 can also include a database operation. This enables speech synthesis of dynamically generated text as well as fixed text.

【0042】以上説明したように、本発明の第2実施形
態によれば、第1実施形態のように音声合成処理対象デ
ータがテキストデータベース12のテキストデータだけ
でなく、汎用データベース52の広範なデータを扱うこ
とができるので、利用者はデータが限定されないという
利点を得ることができる。
As described above, according to the second embodiment of the present invention, not only the text data of the text database 12 but also the wide data Therefore, the user can obtain an advantage that data is not limited.

【0043】[0043]

【発明の効果】以上説明したように本発明によれば、テ
キストを分割して音声合成をするため、分割されたテキ
ストの音声合成処理を短い時間で行うことが可能とな
り、利用者が遅延なくテキストの音声合成された結果を
聞くことができる。また、音声合成されたデータは利用
者の指示を先読みした音声合成スケジュールに従うた
め、利用者に「次の電子メール」など利用者の意図に応
じた音声ファイルを提供することができる。更に、音声
合成対象データがテキストデータだけでなく、広範なデ
ータを扱うことができるため、利用者はデータが限定さ
れないという利点を得ることができる。
As described above, according to the present invention, the text is divided and the voice is synthesized, so that the voice synthesis processing of the divided text can be performed in a short time, and the user is not delayed. You can hear the result of text-to-speech synthesis. Further, since the voice-synthesized data follows the voice synthesis schedule in which the user's instruction is read ahead, a voice file according to the user's intention, such as “next e-mail”, can be provided to the user. Further, since the voice synthesis target data can handle not only text data but also a wide range of data, the user can obtain an advantage that data is not limited.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態のテキスト音声合成処理
システムの構成例を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration example of a text-to-speech synthesis processing system according to a first embodiment of the present invention.

【図2】本発明の第1実施形態の音声合成処理の流れを
示すフローチャートである。
FIG. 2 is a flowchart showing a flow of a speech synthesis process according to the first embodiment of the present invention.

【図3】本発明の第1実施形態の音声合成スケジュール
の例を示す説明図である。
FIG. 3 is an explanatory diagram showing an example of a speech synthesis schedule according to the first embodiment of the present invention.

【図4】本発明の第1実施形態の音声合成処理の具体例
を示す説明図である。
FIG. 4 is an explanatory diagram showing a specific example of a speech synthesis process according to the first embodiment of the present invention.

【図5】本発明の第2実施形態のテキスト音声合成処理
システムの構成例を示すブロック図である。
FIG. 5 is a block diagram illustrating a configuration example of a text-to-speech synthesis processing system according to a second embodiment of the present invention.

【図6】本発明の第2実施形態の音声合成処理の流れを
示すフローチャートである。
FIG. 6 is a flowchart illustrating a flow of a speech synthesis process according to a second embodiment of the present invention.

【図7】本発明の第2実施形態の音声合成処理の具体例
を示す説明図である。
FIG. 7 is an explanatory diagram showing a specific example of a speech synthesis process according to the second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

11、51 音声合成処理装置 12 テキストデータベース 13、53 指示装置 14、54 音声出力装置 52 汎用データベース 111、511 テキスト入力部 112、512 テキスト分割処理部 113、513 音声合成処理部 511A データ検索部 511B テキスト生成部 11, 51 voice synthesis processing device 12 text database 13, 53 pointing device 14, 54 voice output device 52 general-purpose database 111, 511 text input unit 112, 512 text division processing unit 113, 513 voice synthesis processing unit 511A data search unit 511B text Generator

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04L 12/58 H04L 11/20 101B H04M 3/50 Fターム(参考) 5B089 GA21 GB04 JA31 JB05 KB04 KH14 LB13 5D045 AA20 AB02 5K015 AA00 GA00 GA12 5K030 GA18 HA06 KA04 KA20 LB16 LD17 LE14 9A001 BZ03 FF03 HH18 JJ14 JZ19──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI theme coat ゛ (reference) H04L 12/58 H04L 11/20 101B H04M 3/50 F term (reference) 5B089 GA21 GB04 JA31 JB05 KB04 KH14 LB13 5D045 AA20 AB02 5K015 AA00 GA00 GA12 5K030 GA18 HA06 KA04 KA20 LB16 LD17 LE14 9A001 BZ03 FF03 HH18 JJ14 JZ19

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 データの音声合成を行うデータ音声合成
装置において、 複数の音声合成対象データを蓄積した蓄積手段と、該蓄
積手段から音声合成対象データを抽出する抽出手段と、
該抽出手段で前記蓄積手段から抽出した前記音声合成対
象データを所定の分割条件に基づき分割する分割手段
と、該分割手段で分割した前記音声合成対象データ毎に
音声合成を行う音声合成手段とを具備することを特徴と
するデータ音声合成装置。
1. A data-speech-synthesizing apparatus for performing data-speech-synthesis, comprising: a storage unit that stores a plurality of data to be voice-synthesized; an extraction unit that extracts data to be voice-synthesized from the storage unit;
A dividing unit that divides the speech synthesis target data extracted from the storage unit by the extraction unit based on a predetermined division condition; and a speech synthesis unit that performs speech synthesis for each of the speech synthesis target data divided by the division unit. A data speech synthesizer comprising:
【請求項2】 更に、前記音声合成対象データの音声合
成を指示する指示手段と、音声合成結果を音声出力する
音声出力手段とを具備し、前記抽出手段は、前記指示手
段からの指示に基づき前記蓄積手段から前記音声合成対
象データを抽出し、前記分割手段は、前記抽出手段で前
記蓄積手段から抽出した前記音声合成対象データを句点
や読点等を区切りに分割し、前記音声合成手段は、前記
分割手段で分割した前記音声合成対象データ毎に音声合
成を行い前記音声出力手段から前記音声合成結果を音声
出力させることを特徴とする請求項1に記載のデータ音
声合成装置。
2. An apparatus according to claim 1, further comprising: instruction means for instructing speech synthesis of the speech synthesis target data; and speech output means for outputting a speech synthesis result as speech. The voice synthesis target data is extracted from the storage unit, and the dividing unit divides the voice synthesis target data extracted from the storage unit by the extraction unit into breaks, punctuation marks, and the like, and the voice synthesis unit 2. The data speech synthesizer according to claim 1, wherein speech synthesis is performed for each of the speech synthesis target data divided by the division means, and the speech synthesis result is outputted as speech from the speech output means.
【請求項3】 前記音声合成手段は、音声合成スケジュ
ールに従い前記音声出力手段から前記音声合成結果を音
声出力させることを特徴とする請求項2に記載のデータ
音声合成装置。
3. The data speech synthesizer according to claim 2, wherein the speech synthesis means causes the speech output means to output the speech synthesis result according to a speech synthesis schedule.
【請求項4】 前記音声合成スケジュールとは、前記分
割手段で分割した前記音声合成対象データを利用者が次
に必要になる順番に配列されたスケジュールであること
を特徴とする請求項3に記載のデータ音声合成装置。
4. The voice synthesizing schedule according to claim 3, wherein the voice synthesizing target data divided by the dividing means is arranged in an order that a user needs next. Data speech synthesizer.
【請求項5】 前記音声合成対象データは、電子メール
等のテキストデータであり、前記蓄積手段は、複数の前
記テキストデータを蓄積することを特徴とする請求項1
又は2に記載のデータ音声合成装置。
5. The speech synthesis target data is text data such as an electronic mail, and the storage unit stores a plurality of the text data.
Or the data speech synthesizer according to 2.
【請求項6】 前記音声合成対象データは、テキスト形
式でないデータであり、前記蓄積手段は、複数の前記テ
キスト形式でないデータを蓄積し、前記抽出手段は、更
に、前記蓄積手段から前記テキスト形式でないデータを
検索するデータ検索手段と、該データ検索手段で検索し
た前記テキスト形式でないデータをテキスト化するテキ
スト生成手段とを具備することを特徴とする請求項1又
は2に記載のデータ音声合成装置。
6. The speech synthesis target data is data that is not in a text format, the storage unit stores a plurality of the data that is not in a text format, and the extraction unit is further configured to output the data that is not in the text format from the storage unit. 3. The data speech synthesizing apparatus according to claim 1, further comprising: a data search unit that searches data; and a text generation unit that converts the non-text data searched by the data search unit into text.
【請求項7】 データの音声合成を行うデータ音声合成
方法において、 複数の音声合成対象データを蓄積した蓄積手段から特定
の音声合成対象データを抽出する抽出工程と、該抽出工
程で前記蓄積手段から抽出した前記音声合成対象データ
を所定の分割条件に基づき分割する分割工程と、該分割
工程で分割した前記音声合成対象データ毎に音声合成を
行う音声合成工程とを有することを特徴とするデータ音
声合成方法。
7. A data speech synthesis method for performing speech synthesis of data, comprising: an extraction step of extracting specific speech synthesis target data from a storage unit that stores a plurality of speech synthesis target data; A data speech, comprising: a dividing step of dividing the extracted speech synthesis target data based on predetermined division conditions; and a speech synthesis step of performing speech synthesis for each of the speech synthesis target data divided in the division step. Synthesis method.
JP11103207A 1999-04-09 1999-04-09 Device and method for synthesizing data voice Pending JP2000293187A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11103207A JP2000293187A (en) 1999-04-09 1999-04-09 Device and method for synthesizing data voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11103207A JP2000293187A (en) 1999-04-09 1999-04-09 Device and method for synthesizing data voice

Publications (1)

Publication Number Publication Date
JP2000293187A true JP2000293187A (en) 2000-10-20

Family

ID=14348077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11103207A Pending JP2000293187A (en) 1999-04-09 1999-04-09 Device and method for synthesizing data voice

Country Status (1)

Country Link
JP (1) JP2000293187A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140085A (en) * 2000-08-25 2002-05-17 Fujitsu Ltd Device and method for reading document aloud, computer program, and storage medium
JP2013061591A (en) * 2011-09-15 2013-04-04 Hitachi Ltd Voice synthesizer, voice synthesis method and program
CN111916055A (en) * 2020-06-20 2020-11-10 中国建设银行股份有限公司 Speech synthesis method, platform, server and medium for outbound system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140085A (en) * 2000-08-25 2002-05-17 Fujitsu Ltd Device and method for reading document aloud, computer program, and storage medium
JP2013061591A (en) * 2011-09-15 2013-04-04 Hitachi Ltd Voice synthesizer, voice synthesis method and program
CN111916055A (en) * 2020-06-20 2020-11-10 中国建设银行股份有限公司 Speech synthesis method, platform, server and medium for outbound system

Similar Documents

Publication Publication Date Title
US6173259B1 (en) Speech to text conversion
US7257534B2 (en) Speech synthesis system for naturally reading incomplete sentences
US7487093B2 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
JP3340585B2 (en) Voice response device
WO2008001500A1 (en) Audio content generation system, information exchange system, program, audio content generation method, and information exchange method
GB2323693A (en) Speech to text conversion
JP2000081892A (en) Device and method of adding sound effect
JPH10274997A (en) Document reading-aloud device
JP2006323806A (en) System and method for converting text into speech
US20080201149A1 (en) Variable voice rate apparatus and variable voice rate method
JPH08212228A (en) Summarized sentence generation device and summarized voice generation device
JPH06161704A (en) Speech interface builder system
JPH117296A (en) Storage medium having electronic circuit and speech synthesizer having the storage medium
JP2000293187A (en) Device and method for synthesizing data voice
JP2001109487A (en) Voice reproduction device and voice reproduction method for electronic mail and recording medium recording voice reproduction program
JPH10274999A (en) Document reading-aloud device
WO2001033549A1 (en) Electronic mail reading device and method, and recorded medium for text conversion
JP2005326811A (en) Voice synthesizer and voice synthesis method
JPH05197384A (en) Voice reading out device
JPS63231493A (en) Reciting of sentence using voice rule synthesizer
JP7048141B1 (en) Programs, file generation methods, information processing devices, and information processing systems
JP3072449B2 (en) Media processing device
JP2001228897A (en) Speech input device and control method for the same, and memory medium stored with program code thereon
JPH05281987A (en) Portable document reading-out device
KR920010446B1 (en) Method for making sentence of guidance apparatus