JPH11344996A - Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded - Google Patents

Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded

Info

Publication number
JPH11344996A
JPH11344996A JP10154279A JP15427998A JPH11344996A JP H11344996 A JPH11344996 A JP H11344996A JP 10154279 A JP10154279 A JP 10154279A JP 15427998 A JP15427998 A JP 15427998A JP H11344996 A JPH11344996 A JP H11344996A
Authority
JP
Japan
Prior art keywords
pronunciation
accent
information
document
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10154279A
Other languages
Japanese (ja)
Inventor
Nobuhide Yamazaki
信英 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP10154279A priority Critical patent/JPH11344996A/en
Publication of JPH11344996A publication Critical patent/JPH11344996A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prepare and edit a pronunciation document including a pause, a metrical pattern based on converted accent, accent information and part of speech information by converting character information into the accent information and the part of speech information. SOLUTION: A pronunciation document creating device is provided with an input part 301 to input a character string, a converting part 302 to convert the inputted character string into the accent, the accent information and the part of speech information corresponding its reading, an accent phrase generating part 303 to generate an accent phrase based on the converted accent, the accent information and a part of speech, a pause setting part 304 to set pause information in what position between plural generated accent phrases, how long a silent section (pause) is inserted, etc., and a metrical pattern generating part 305 to generate the metrical patterns like a pitch pattern and time length of each syllable, etc., by the sentence to be constituted of the plural accent phrases in which the pause information is set.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書を構成する文
字列を、それぞれの文字列の読みに対応するアクセント
に変換して、さらに、ポーズ、韻律パタンが付加された
発音文書を作成する発音文書作成装置、発音文書作成方
法およびその方法をコンピュータに実行させるプログラ
ムを記録したコンピュータ読み取り可能な記録媒体に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pronunciation method for converting a character string constituting a document into an accent corresponding to the reading of each character string, and further creating a pronunciation document to which a pause and a prosodic pattern are added. The present invention relates to a document creation device, a pronunciation document creation method, and a computer-readable recording medium that records a program for causing a computer to execute the method.

【0002】[0002]

【従来の技術】情報の伝達・保管方法の一つとして文字
情報をもちいる方法が知られている。この文字情報をも
ちいる方法として、近年、日本語ワードプロセッサ、英
文ワードプロセッサ等の文書作成装置や、ワードプロセ
ッサ機能を有したパソコンをもちいて、文書作成者が所
望の文書を作成し、作成した文書をネットワークを介し
て転送したり、作成した文書を磁気ディスクや、光ディ
スク等の記録媒体に記憶させる方法が使用されるように
なっている。これは、コンピュータ関連技術の発展に伴
って文書作成装置自体が高機能化・低価格化を実現して
いると共に、オフィスのペーパレス化の推進や、通信網
の整備、電子メールの普及等による作業環境の変化に負
うところが大きい。
2. Description of the Related Art As one of information transmission and storage methods, a method using character information is known. As a method using this character information, in recent years, a document creator creates a desired document using a document creation device such as a Japanese word processor or an English word processor, or a personal computer having a word processor function, and transmits the created document to a network. Via the Internet, or a method of storing a created document in a recording medium such as a magnetic disk or an optical disk. This is due to the development of computer-related technology, which has realized higher functionality and lower cost of the document creation device itself, as well as the promotion of paperless offices, the development of communication networks, and the spread of e-mail. It depends heavily on environmental changes.

【0003】また、情報の伝達・保管等に使用される他
の方法として、音声情報をもちいる方法や、音声情報と
映像情報とをもちいる方法が知られている。たとえば、
音声情報をもちいる方法では、情報の伝達は電話等を介
して直接、音声情報を転送し、情報の保管は録音機器を
もちいてテープ等に録音して保管している。また、音声
情報と映像情報とをもちいる方法では、情報の伝達はモ
ニターとスピーカを有する通信装置をもちいて音声情報
と映像情報を転送し、情報の保管はビデオ装置等の録画
機器をもちいてビデオテープや、光ディスク等に保管し
ている。
As other methods used for transmitting and storing information, a method using audio information and a method using audio information and video information are known. For example,
In the method using voice information, the voice information is directly transmitted via a telephone or the like, and the information is stored and recorded on a tape or the like using a recording device. In the method using audio information and video information, information is transmitted using a communication device having a monitor and a speaker, and the audio information and video information are transferred, and information is stored using a recording device such as a video device. They are stored on video tapes, optical disks, etc.

【0004】なお、上述した情報の伝達・保管方法のう
ち、文字情報をもちいる方法は、他の方法と比較して、
データ量が少なく、情報の編集が容易であること、さら
にデジタル情報としてコンピュータ上で使用可能である
ことから、最も汎用性が高く、広く使用されている。
[0004] Among the above-mentioned methods of transmitting and storing information, the method using character information is different from other methods.
It is the most versatile and widely used because it has a small amount of data, is easy to edit information, and can be used as digital information on a computer.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来の文字情報をもちいる方法では、作成した文書が視覚
的な言語情報(すなわち、文字言語情報)に限定された
情報であるため、非言語情報にあたる感情等の表現を情
報として付加することはできなかった。なお、音声をも
ちいた言語情報(すなわち、音声言語情報)では、アク
セントや、声の大きさ(音量)、声の高さ等の喋り方を
変えることで、非言語情報にあたる感情等の表現を情報
として付加していた。
However, according to the above-described conventional method using character information, since the created document is information limited to visual linguistic information (that is, character linguistic information), non-linguistic information is not used. Expressions such as emotions could not be added as information. In the linguistic information using speech (that is, speech linguistic information), expressions such as emotions corresponding to non-linguistic information can be expressed by changing the way of speaking such as accent, loudness (volume), and pitch of voice. Was added as information.

【0006】また、従来の技術において、文字情報と音
声情報という2つの表現形態の情報を整合性の取れた形
で複合した情報を作成する装置および方法は提供されて
いなかった。
Further, in the prior art, there has not been provided an apparatus and a method for creating information in which information of two expression forms, that is, character information and audio information, is combined in a consistent manner.

【0007】また、音声情報の編集は、基本的に聴覚を
もちいて(すなわち、再生させた音声情報を耳で聞い
て)おこなうのが一般的であり、一々再生して所望の音
声情報の位置(場所)を確認する必要があるため、作業
が煩雑で、面倒であるという問題点もあった。
In general, audio information is basically edited by using the auditory sense (that is, by listening to the reproduced audio information with the ear). Since the (location) needs to be confirmed, the operation is complicated and troublesome.

【0008】なお、従来の音声合成技術の一つであるテ
キスト音声合成技術をもちいることにより、テキスト文
書(すなわち、文字情報)から音声を合成することも可
能であるが、テキストからの音声合成では、辞書に入っ
ていない固有名詞を読み間違えたり、違ったアクセント
で発音するという問題点があった。さらに非言語情報で
ある感情等の表現ができないことや、文書作成者の意図
する喋り方で正確に音声を合成することができないとい
う問題点もあった。
It is possible to synthesize speech from a text document (that is, character information) by using a text speech synthesis technique which is one of the conventional speech synthesis techniques. Then, there was a problem that proper nouns not included in the dictionary were misread or pronounced with different accents. Further, there are problems that it is not possible to express emotions or the like which are non-verbal information, and it is not possible to synthesize speech accurately according to the way the creator intends to speak.

【0009】本発明は上記に鑑みてなされたものであっ
て、文字情報をアクセント情報および品詞情報に変換す
ることにより、変換されたアクセントおよびアクセント
情報・品詞情報に基づいてポーズ、韻律パタンを含む発
音文書を作成・編集できるようにすることを目的とす
る。
The present invention has been made in view of the above, and includes a pause and a prosodic pattern based on converted accents and accent / part of speech information by converting character information into accent information and part of speech information. The purpose is to be able to create and edit pronunciation documents.

【0010】[0010]

【課題を解決するための手段】上述した課題を解決し、
目的を達成するために、請求項1に係る発音文書作成装
置は、文字列を入力する入力手段と、前記入力手段によ
り入力された文字列をその読みに対応するアクセントお
よびアクセント情報・品詞情報に変換する変換手段と、
前記変換手段により変換されたアクセントおよびアクセ
ント情報・品詞とに基づいてアクセント句を生成するア
クセント句生成手段と、前記アクセント句生成手段によ
り生成された複数のアクセント句の間のどの位置にどの
くらいの長さで無音区間(ポーズ)を挿入するか等のポ
ーズ情報を設定するポーズ設定手段と、前記ポーズ設定
手段によりポーズ情報が設定された複数のアクセント句
から構成される文単位でピッチパタン・各音節の時間長
等の韻律パタンを生成する韻律パタン生成手段と、を備
えたことを特徴とする。
Means for Solving the Problems The above-mentioned problems are solved,
In order to achieve the object, a pronunciation document creation device according to claim 1 includes an input unit for inputting a character string, and converting the character string input by the input unit into accent and accent information / speech information corresponding to the reading. Conversion means for converting;
An accent phrase generating means for generating an accent phrase based on the accent and the accent information / part of speech converted by the converting means; and at what position and how long between the plurality of accent phrases generated by the accent phrase generating means. A pause setting means for setting pause information such as whether a silent section (pause) is inserted, and a pitch pattern / each syllable in units of sentences composed of a plurality of accent phrases in which the pause information is set by the pause setting means. And a prosody pattern generating means for generating a prosody pattern such as a time length.

【0011】この請求項1の発明によれば、文字列を入
力し、アクセント句の区切り位置で変換することによ
り、自然音声の入力をすることなく、文書作成者の意図
する喋り方で正確に音声を合成するための発音文書の作
成をすることができ、発音文書の作成効率および利便性
の向上を図ることが可能である。
According to the first aspect of the present invention, by inputting a character string and converting the character string at a delimiter position of an accent phrase, it is possible to accurately input in a manner intended by the document creator without inputting natural speech. A pronunciation document for synthesizing speech can be created, and the efficiency and convenience of creating a pronunciation document can be improved.

【0012】また、請求項2に係る発音文書作成装置
は、請求項1の発明において、前記アクセント句生成手
段により生成されたアクセント句および/または前記ポ
ーズ設定手段により設定されたポーズ情報および/また
は前記韻律パタン生成手段により生成された韻律パタン
を表示する表示手段を備えたことを特徴とする。
According to a second aspect of the present invention, in the pronunciation document creating apparatus according to the first aspect, the accent phrase generated by the accent phrase generating means and / or the pause information and / or the pause information set by the pause setting means are set. A display means for displaying a prosody pattern generated by the prosody pattern generation means is provided.

【0013】この請求項2の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the second aspect of the present invention, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0014】また、請求項3に係る発音文書作成装置
は、請求項1または2の発明において、さらに、前記ア
クセント句生成手段により生成されたアクセント句と、
前記ポーズ設定手段により設定されたポーズ情報と、前
記韻律パタン生成手段により生成された韻律パタンとを
もちいて音声を合成する音声合成手段と、前記音声合成
手段により合成された音声を出力する音声出力手段と、
を備えたことを特徴とする。
According to a third aspect of the present invention, there is provided the pronunciation document creating apparatus according to the first or second aspect, further comprising: an accent phrase generated by the accent phrase generating means;
Voice synthesis means for synthesizing voice using the pause information set by the pause setting means and the prosody pattern generated by the prosody pattern generation means, and voice output for outputting the voice synthesized by the voice synthesis means Means,
It is characterized by having.

【0015】この請求項3の発明によれば、発音文書の
発音データを音声合成して出力するので、発音文書の内
容を容易に再生することができ、発音文書の作成効率お
よび利便性の向上を図ることが可能である。
According to the third aspect of the present invention, since the pronunciation data of the pronunciation document is synthesized and output, the contents of the pronunciation document can be easily reproduced, and the efficiency of creation of the pronunciation document and the convenience are improved. It is possible to achieve.

【0016】また、請求項4に係る発音文書作成装置
は、請求項1〜3のいずれか一つの発明においてさら
に、前記アクセント句生成手段により生成されたアクセ
ント句および/または前記ポーズ設定手段により設定さ
れたポーズ情報および/または前記韻律パタン生成手段
により生成された韻律パタンを編集する編集手段とを備
えたことを特徴とする。
According to a fourth aspect of the present invention, in the pronunciation document creating apparatus according to any one of the first to third aspects, the accent phrase generated by the accent phrase generating means and / or the pause setting means are set. Editing means for editing the generated pause information and / or the prosody pattern generated by the prosody pattern generation means.

【0017】この請求項4の発明によれば、発音文書を
編集することができるので、作成者の意図する喋り方に
より近い発音文書を容易に作成することができ、発音文
書の作成効率および利便性の向上を図ることが可能であ
る。
According to the fourth aspect of the present invention, the pronunciation document can be edited, so that a pronunciation document closer to the way of speech intended by the creator can be easily created, and the efficiency and convenience of creating the pronunciation document can be improved. It is possible to improve the performance.

【0018】また、請求項5に係る発音文書作成方法
は、文字列を入力する第1工程と、前記第1工程により
入力された文字列をその読みに対応するアクセントおよ
びアクセント情報・品詞情報に変換する第2工程と、前
記第2工程により変換されたアクセントおよびアクセン
ト情報と品詞とに基づいてアクセント句を生成する第3
工程と、前記第3工程により生成された複数のアクセン
ト句の間のどの位置にどのくらいの長さで無音区間(ポ
ーズ)を挿入するか等のポーズ情報を設定する第4工程
と、前記第4工程によりポーズ情報が設定された複数の
アクセント句から構成される文単位でピッチパタン・各
音節の時間長等の韻律パタンを生成する第5工程と、を
含んだことを特徴とする。
According to a fifth aspect of the present invention, in the pronunciation document creating method, a first step of inputting a character string and converting the character string input in the first step into accent and accent information / speech information corresponding to the reading. A second step of converting, and a third step of generating an accent phrase based on the accent and accent information converted by the second step and the part of speech.
And a fourth step of setting pose information such as a position and a length of a silent section (pause) between the plurality of accent phrases generated in the third step and at which position, A fifth step of generating a prosody pattern such as a pitch pattern and a time length of each syllable in a sentence unit composed of a plurality of accent phrases in which pause information is set in the step.

【0019】この請求項5の発明によれば、文字列を入
力し、アクセント句の区切り位置で変換することによ
り、自然音声の入力をすることなく、文書作成者の意図
する喋り方で正確に音声を合成するための発音文書の作
成をすることができ、発音文書の作成効率および利便性
の向上を図ることが可能である。
According to the fifth aspect of the present invention, by inputting a character string and converting the character string at a delimiter position of an accent phrase, it is possible to accurately input a character string intended by a document creator without inputting natural speech. A pronunciation document for synthesizing speech can be created, and the efficiency and convenience of creating a pronunciation document can be improved.

【0020】また、請求項6に係る発音文書作成方法
は、請求項5の発明において、さらに、前記第3工程に
より生成されたアクセント句および/または前記第4工
程により設定されたポーズ情報および/または前記第5
工程により生成された韻律パタンを表示する第6工程を
含んだことを特徴とする。
According to a sixth aspect of the present invention, there is provided the pronunciation document creating method according to the fifth aspect, further comprising the accent phrase generated in the third step and / or the pause information and / or the pause information set in the fourth step. Or the fifth
The method includes a sixth step of displaying the prosodic pattern generated by the step.

【0021】この請求項6の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the sixth aspect of the present invention, since the pronunciation document is displayed, the content of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0022】また、請求項7に係る発音文書作成方法
は、請求項5または6の発明において、さらに、前記第
3工程により生成されたアクセント句と、前記第4工程
により設定されたポーズ情報と、前記第5工程により生
成された韻律パタンとをもちいて音声を合成する第7工
程と、前記第7工程により合成された音声を出力する第
8工程と、を含んだことを特徴とする。
According to a seventh aspect of the present invention, there is provided the pronunciation document creating method according to the fifth or sixth aspect, further comprising: the accent phrase generated in the third step; and the pose information set in the fourth step. , A seventh step of synthesizing speech using the prosodic pattern generated in the fifth step, and an eighth step of outputting the speech synthesized in the seventh step.

【0023】この請求項7の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the seventh aspect of the present invention, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0024】また、請求項8に係る発音文書作成装置
は、請求項5〜7のいずれか一つの発明において、さら
に、前記第3工程により生成されたアクセント句および
/または前記第4工程により設定されたポーズ情報およ
び/または前記第5工程により生成された韻律パタンを
編集する第9工程とを含んだことを特徴とする。
According to an eighth aspect of the present invention, there is provided the pronunciation document creating apparatus according to any one of the fifth to seventh aspects, further comprising: an accent phrase generated in the third step and / or a setting in the fourth step. A ninth step of editing the generated pause information and / or the prosodic pattern generated in the fifth step.

【0025】この請求項8の発明によれば、発音文書を
編集することができるので、作成者の意図する喋り方に
より近い発音文書を容易に作成することができ、発音文
書の作成効率および利便性の向上を図ることが可能であ
る。
According to the eighth aspect of the present invention, since the pronunciation document can be edited, it is possible to easily create a pronunciation document that is closer to the way of speech intended by the creator, and the efficiency and convenience of creating the pronunciation document are improved. It is possible to improve the performance.

【0026】また、請求項9の発明に係る記憶媒体は、
請求項5〜8のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項5〜8のいずれか一つの動作をコンピュータによ
って実現することが可能である。
Further, a storage medium according to a ninth aspect of the present invention is:
By recording a program for causing a computer to execute the method according to any one of claims 5 to 8, the program becomes machine-readable, whereby
The operation of any one of claims 5 to 8 can be realized by a computer.

【0027】[0027]

【発明の実施の形態】以下、本発明の発音文書作成装
置、発音文書作成方法およびその方法をコンピュータに
実行させるプログラムを記録したコンピュータ読み取り
可能な記録媒体の好適な実施の形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of a pronunciation document creation apparatus, a pronunciation document creation method, and a computer-readable recording medium that records a program for causing a computer to execute the method according to the present invention will be described below in detail. .

【0028】(実施の形態1)図1は、実施の形態1の
発音文書作成装置100のハードウエア構成を示すブロ
ック図を示す。この発音文書作成装置100は、制御部
101と、アプリケーション記憶部102と、変換辞書
103と、韻律パタンモデル記憶部104と、声色記憶
部105と、キー入力装置106と、表示装置107
と、マイク108と、スピーカ109と、発音文書記憶
部110と、インタフェース(I/F)111と、フロ
ッピーディスクドライブ(FDドライブ)112と、C
D−ROMドライブ113と、通信部114と、から構
成される。
(Embodiment 1) FIG. 1 is a block diagram showing a hardware configuration of a pronunciation document creating apparatus 100 according to Embodiment 1. The pronunciation document creation device 100 includes a control unit 101, an application storage unit 102, a conversion dictionary 103, a prosody pattern model storage unit 104, a timbre storage unit 105, a key input device 106, and a display device 107.
, A microphone 108, a speaker 109, a pronunciation document storage unit 110, an interface (I / F) 111, a floppy disk drive (FD drive) 112,
It comprises a D-ROM drive 113 and a communication unit 114.

【0029】制御部101は、バスBSに結合された上
記各部を制御する中央処理ユニットであり、CPU10
1a、ROM101bおよびRAM101c等を備えて
いる。CPU101aはROM101bに格納されたO
S(オペレーティングシステム)プログラムやアプリケ
ーション記憶部102に格納されたアプリケーションプ
ログラムにしたがって動作する。また、ROM101b
はOSプログラムを格納するメモリであり、RAM10
1cは各種プログラムのワークエリアとして使用するメ
モリである。
The control unit 101 is a central processing unit for controlling the above-mentioned units connected to the bus BS.
1a, a ROM 101b, a RAM 101c, and the like. The CPU 101a stores the O stored in the ROM 101b.
It operates according to an S (operating system) program or an application program stored in the application storage unit 102. ROM 101b
Is a memory for storing an OS program.
1c is a memory used as a work area for various programs.

【0030】アプリケーション記憶部102には、読み
からアクセントへ変換する機能を実現する読みアクセン
ト変換アプリケーションや、ポーズを設定する機能を実
現するポーズ設定アプリケーションや、韻律パタンを生
成する機能を実現する韻律パタン生成アプリケーション
等の各種アプリケーションプログラムが記憶されてい
る。また、実施の形態1の発音文書作成装置100は、
かな漢字変換機能を有しており、このかな漢字変換機能
を実現するかな漢字変換アプリケーションもアプリケー
ション記憶部102に記憶されている。
The application storage unit 102 includes a reading accent conversion application that realizes a function of converting reading to accent, a pause setting application that realizes a function of setting a pause, and a prosody pattern that realizes a function of generating a prosody pattern. Various application programs such as a generation application are stored. Further, the pronunciation document creation device 100 according to the first embodiment includes:
It has a Kana-Kanji conversion function, and a Kana-Kanji conversion application that realizes the Kana-Kanji conversion function is also stored in the application storage unit 102.

【0031】変換辞書103は、文字列(単語)の読み
と対応する漢字を含む文字列が対応付けられて記憶され
た辞書であり、また同様に、文字列(単語)の読みとア
クセントおよびアクセント情報・品詞情報が対応付けら
れて記憶されているデータベース化された辞書でもあ
る。
The conversion dictionary 103 is a dictionary in which the reading of a character string (word) and the character string containing the corresponding kanji are stored in association with each other. It is also a database-based dictionary that stores information and part-of-speech information in association with each other.

【0032】韻律パタンモデル記憶部104は、韻律パ
タンのモデルをあらかじめ記憶し、データベース化され
たメモリである。韻律パタンモデル記憶部104に記憶
される韻律パタンの内容については後述する。
The prosody pattern model storage unit 104 is a memory that stores a model of the prosody pattern in advance and is made into a database. The contents of the prosody pattern stored in the prosody pattern model storage unit 104 will be described later.

【0033】声色記憶部105は、声色の種類別にアク
セント等の素片単位ごとの音響パラメータを表す声色デ
ータを選択可能に格納している。声色記憶部105は、
通信回線や、FD112a、CD−ROM113a等の
記憶媒体を通して声色データ等を追加したり、キー入力
装置106のキー操作によって削除することが可能であ
る。
The timbre storage unit 105 stores selectable timbre data representing acoustic parameters for each unit such as accent for each timbre type. The voice storage unit 105
Voice data or the like can be added through a communication line, a storage medium such as the FD 112a, the CD-ROM 113a, or the like, or can be deleted by a key operation of the key input device 106.

【0034】キー入力装置106は、キーボード、マウ
ス等の入力デバイスを備えており、文字列の入力や、発
音文書の再生指定、発音文書の作成・登録等の各種オペ
レーションをおこなうのに使用される。また、キー入力
装置106には、入力された文字列を漢字を含む文字列
に変換するための変換キーを備えている。
The key input device 106 includes an input device such as a keyboard and a mouse, and is used to perform various operations such as input of a character string, designation of reproduction of a pronunciation document, and creation / registration of a pronunciation document. . Further, the key input device 106 includes a conversion key for converting an input character string into a character string containing kanji.

【0035】表示装置107は、液晶表示装置またはC
RTディスプレイからなり、文字列の表示、発音文書の
表示、各種メッセージの表示等に使用される。
The display 107 is a liquid crystal display or C
An RT display is used for displaying character strings, displaying pronunciation documents, displaying various messages, and the like.

【0036】マイク108は、韻律パタンのモデルを作
成等する場合にもちいる元音声波形データとなるオリジ
ナルの肉声をサンプリングするのに使用される。
The microphone 108 is used to sample the original real voice which is the original voice waveform data used for creating a model of a prosody pattern.

【0037】スピーカ109は、音声合成部105で合
成した音声の再生出力や、各種音の再生に使用される。
The speaker 109 is used for reproducing and outputting the voice synthesized by the voice synthesizing unit 105 and reproducing various sounds.

【0038】発音文書記憶部110は、作成された発音
文書を記憶するメモリである。詳細は後述するが、発音
文書とはアクセント句に関するデータ、ポーズに関する
データ、韻律パタンに関するデータ等を含む入力文字列
に対応する文書データである。
The pronunciation document storage unit 110 is a memory for storing the created pronunciation document. As will be described in detail later, the pronunciation document is document data corresponding to an input character string including data related to accent phrases, data related to pauses, data related to prosodic patterns, and the like.

【0039】I/F111は、バスBSとFDドライブ
112やCD−ROMドライブ113との間でデータ授
受をおこなうユニットである。FDドライブ112は着
脱自在のFD112a(記録媒体)を装着してデータを
読み出したり書き込む動作を実施する。CD−ROMド
ライブ113は着脱自在のCD−ROM113a(記録
媒体)を装着してデータを読み出す動作を実施する。な
お、発音文書記憶部110に記憶されている発音文書
を、I/F111およびFDドライブ112を介してF
D112aに保存することも可能である。
The I / F 111 is a unit for exchanging data between the bus BS and the FD drive 112 or the CD-ROM drive 113. The FD drive 112 carries out an operation of reading and writing data by mounting a removable FD 112a (recording medium). The CD-ROM drive 113 carries out an operation of reading data by mounting a removable CD-ROM 113a (recording medium). The pronunciation document stored in the pronunciation document storage unit 110 is stored in the F / F drive 112 via the I / F 111 and the FD drive 112.
It is also possible to save it in D112a.

【0040】通信部114は、通信回線に接続されてお
り、その通信回線を介して外部装置との通信をおこなう
ものである。
The communication unit 114 is connected to a communication line and communicates with an external device via the communication line.

【0041】なお、実施の形態1では、キー入力装置1
06を介して文字列を入力する場合を例として説明する
が、特にこれに限定するものではなく、手書き入力装置
を接続して、手書きの文字を判別(文字認識)して文字
列を入力してもよく、さらにあらかじめ作成したワード
プロセッサ文書等から文字列を入力してもよい。
In the first embodiment, the key input device 1
A case of inputting a character string via the input line 06 will be described as an example. However, the present invention is not limited to this. A handwriting input device is connected, and a character string is input by determining (character recognition) a handwritten character. Alternatively, a character string may be input from a word processor document or the like created in advance.

【0042】図2は、実施の形態1の発音文書作成装置
100の外観図を示す。図示の如く、ハードウェアの構
成としては、マイク108およびスピーカ109を有し
たパソコンを使用することが可能である。
FIG. 2 is an external view of the pronunciation document creating apparatus 100 according to the first embodiment. As illustrated, as a hardware configuration, a personal computer having a microphone 108 and a speaker 109 can be used.

【0043】つぎに、実施の形態1の発音文書作成装置
100の構成を機能的に説明する。図3は、実施の形態
1の発音文書作成装置100の機能的構成を示す機能ブ
ロック図である。図3において、発音文書作成装置10
0は、入力部301と、変換部302と、アクセント句
生成部303と、ポーズ設定部304と、韻律パタン生
成部305と、表示部306と、音声合成部307と、
音声出力部308とを含む構成である。
Next, the configuration of the pronunciation document creating apparatus 100 according to the first embodiment will be functionally described. FIG. 3 is a functional block diagram illustrating a functional configuration of the pronunciation document creation device 100 according to the first embodiment. In FIG. 3, the pronunciation document creation device 10
0 indicates an input unit 301, a conversion unit 302, an accent phrase generation unit 303, a pause setting unit 304, a prosody pattern generation unit 305, a display unit 306, a speech synthesis unit 307,
The configuration includes an audio output unit 308.

【0044】入力部301は、かな文字列を入力するも
のである。具体的には、たとえば、キー入力装置106
により、または、通信部114により、かな文字を入力
することにより実現するものである。
The input section 301 is for inputting a kana character string. Specifically, for example, the key input device 106
Or by inputting kana characters through the communication unit 114.

【0045】変換部302は、入力部301により入力
されたかな文字列をその読みに対応する漢字を含む文字
列に変換するとともに、前記読みに対応するアクセント
に変換し、その際、アクセント情報および品詞情報を当
該アクセントに付加するものである。変換処理は、具体
的には、たとえば、キー入力装置106に備えられてい
る図示しない変換キーの押下によりおこなわれる。
The conversion unit 302 converts the kana character string input by the input unit 301 into a character string including a kanji corresponding to the reading, and also converts the character string into an accent corresponding to the reading. The part of speech information is added to the accent. The conversion process is specifically performed by, for example, pressing a not-shown conversion key provided on the key input device 106.

【0046】変換部302は、助詞の『は』あるいは
『へ』の読みを品詞情報に基づいてアクセントである
『ワ』あるいは『エ』に変換する。また、変換部302
は、読みの長音か機能も備えている。たとえば、『がっ
こう』と入力すると、より自然な喋り方に近いアクセン
トである『ガッコー』に変換する。
The conversion unit 302 converts the reading of the particles "wa" or "he" into accents "wa" or "e" based on the part of speech information. Also, the conversion unit 302
Also has a long reading or function. For example, if you enter "Gakuko", it will be converted to "Gacco" which is an accent closer to a more natural way of speaking.

【0047】アクセント句生成部303は、入力部30
1により入力された文字列中の単語の読みと変換部30
2により変換されたアクセント情報と品詞とに基づいて
複数のアクセントを結合することにより、アクセント句
を生成するものである。アクセント情報としては、たと
えばアクセント型等が含まれる。さらに、アクセント結
合属性等をアクセント情報に含めてもよい。
The accent phrase generation unit 303 includes the input unit 30
Reading and conversion unit 30 for words in the character string input by
The accent phrase is generated by combining a plurality of accents based on the accent information and the part of speech converted by step 2. The accent information includes, for example, an accent type. Further, an accent combination attribute or the like may be included in the accent information.

【0048】図4は、実施の形態1の発音文書作成装置
におけるアクセント句の生成を示す説明図である。図4
において、入力文字列『かぶしき』に対して、読みに対
応するアクセントと、アクセント情報として「2型アク
セント」と、品詞情報として「名詞」が変換辞書に記憶
されており、変換キーの押下等の操作により、変換部3
02によって、入力文字列『かぶしき』に対してアクセ
ント情報(アクセント型)である「2型アクセント」お
よび品詞情報である「名詞」が付加される。また同様
に、変換部302によって、入力文字列『がいしゃ』に
対してアクセント情報(アクセント型)である「0型ア
クセント」および品詞情報である「名詞」が付加され
る。さらに同様に、変換部302によって、入力文字列
『の』に対してはアクセント情報は特に付加されず、品
詞情報である「助詞」のみが付加される。
FIG. 4 is an explanatory diagram showing the generation of accent phrases in the pronunciation document creation device according to the first embodiment. FIG.
In the input character string "kabushiki", the accent corresponding to the reading, "type 2 accent" as accent information, and "noun" as part of speech information are stored in the conversion dictionary. Operation, the conversion unit 3
With 02, "2 type accent" as accent information (accent type) and "noun" as part of speech information are added to the input character string "kabushiki". Similarly, the conversion unit 302 adds “0-type accent” as accent information (accent type) and “noun” as part-of-speech information to the input character string “gaisha”. Similarly, the conversion unit 302 does not particularly add accent information to the input character string “no”, but adds only “particles” as part of speech information.

【0049】アクセント句生成部303が変換されたア
クセントをアクセント情報および品詞情報に基づいて結
合することにより、上記入力文字列『かぶしき』、『が
いしゃ』、『の』から『カブシキガ’イシャノ』という
アクセント句が生成されるものである。
The accent phrase generator 303 combines the converted accents based on the accent information and the part-of-speech information, thereby converting the input character strings "kabushiki", "gaisha", "no" to "kabushiga'ishana". Is generated.

【0050】ポーズ設定部304は、アクセント句生成
部303により生成された複数のアクセント句の間のど
の位置にどのくらいの長さで無音区間(ポーズ)を挿入
するか等のポーズ情報を設定するものである。ポーズ情
報の設定、すなわちポーズの挿入は手動によりおこなわ
れる。具体的には、たとえば、表示装置107により表
示されたアクセント句の所望の位置に所望の長さのポー
ズを挿入することにより実現するものである。ポーズの
挿入は手動でおこなわれるほか、定型のポーズ等であれ
ば、所定の条件にしたがって自動で挿入することも可能
である。また、挿入されたポーズも表示装置107に表
示される。
The pause setting section 304 sets pose information such as where and how long a silent section (pause) is to be inserted between a plurality of accent phrases generated by the accent phrase generation section 303. It is. The setting of the pose information, that is, the insertion of the pose, is performed manually. Specifically, for example, it is realized by inserting a pause of a desired length at a desired position of the accent phrase displayed by the display device 107. In addition to the manual insertion of the pose, it is also possible to automatically insert the pose according to a predetermined condition in a fixed pose or the like. The inserted pose is also displayed on the display device 107.

【0051】韻律パタン生成部305は、ポーズ設定部
304によりポーズ情報が設定された複数のアクセント
句から構成される文単位で、ピッチパタン・各音節の時
間長等の韻律パタンを生成するものである。具体的に
は、文単位でピッチパタンおよび各音節の時間長を求め
ることにより韻律パタンを生成する。
The prosody pattern generation unit 305 generates a prosody pattern such as a pitch pattern and a time length of each syllable in units of sentences composed of a plurality of accent phrases in which the pause information is set by the pause setting unit 304. is there. Specifically, a prosody pattern is generated by obtaining a pitch pattern and a time length of each syllable for each sentence.

【0052】韻律パタンの生成の方法としては、あらか
じめ用意された韻律パタンモデル記憶部104に記憶さ
れた複数種類の韻律パタンモデルをもちいる方法が考え
られる。当該複数種類の韻律パタンモデルの中から、ア
クセント情報、アクセントの位置、アクセント句の数等
の条件から、最適のモデルを抽出することにより、韻律
パタンを生成することができる。また、操作者が所望の
モデルを選択することにより、当該所望のモデルをもち
いるような韻律パタンとしてもよい。さらにまた、上記
の条件をもちいて、データベース化された韻律パタンの
中から選択することにより、韻律パタンを生成するよう
にしてもよい。
As a method of generating a prosody pattern, a method using a plurality of types of prosody pattern models stored in a prepared prosody pattern model storage unit 104 can be considered. A prosody pattern can be generated by extracting an optimal model from among the plurality of types of prosody pattern models from conditions such as accent information, accent positions, and the number of accent phrases. Further, the prosody pattern may be such that the operator selects a desired model and uses the desired model. Furthermore, a prosody pattern may be generated by selecting from prosody patterns in a database using the above conditions.

【0053】また、表示部306は、発音文書、すなわ
ち、アクセント句生成部303により生成されたアクセ
ント句および/またはポーズ設定部304により設定さ
れたポーズ情報および/または韻律パタン生成部305
手段により生成された韻律パタンを表示するものであ
る。具体的には、たとえば、表示装置107をもちいる
ことにより実現するものである。また、表示部306
は、変換された漢字を含む文字列の漢字の部分にその漢
字の読みをルビで表示するようにしてもよい。
The display unit 306 displays a pronunciation document, that is, an accent phrase generated by the accent phrase generation unit 303 and / or pause information set by the pause setting unit 304 and / or a prosody pattern generation unit 305.
The prosody pattern generated by the means is displayed. Specifically, for example, it is realized by using the display device 107. The display unit 306
May display the reading of the kanji in ruby at the kanji portion of the character string containing the converted kanji.

【0054】また、音声合成部307は、アクセント句
生成部303により生成されたアクセント句と、ポーズ
設定部304により設定されたポーズ情報と、韻律パタ
ン生成部305により生成された韻律パタンからなる発
音文書と声色記憶部105に格納された声色データとを
もちいて音声を合成するものである。また、音声出力部
308は、音声合成部307により合成された音声を出
力するものである。具体的には、スピーカ109等によ
り実現するものである。
Further, the speech synthesis unit 307 generates the accent phrase generated by the accent phrase generation unit 303, the pause information set by the pause setting unit 304, and the pronunciation composed of the prosody pattern generated by the prosody pattern generation unit 305. The voice is synthesized using the document and the timbre data stored in the timbre storage unit 105. The audio output unit 308 outputs the audio synthesized by the audio synthesis unit 307. Specifically, it is realized by the speaker 109 and the like.

【0055】なお、入力部301、変換部302、アク
セント句生成部303、ポーズ設定部304、韻律パタ
ン生成部305、表示部306、音声合成部307、音
声出力部308はそれぞれ、ROM101b、RAM1
01cまたはアプリケーション記憶部102、フロッピ
ーディスク112a、CD−ROM113a等の記録媒
体に記録されたプログラムに記載された命令にしたがっ
てCPU101a等が命令処理を実行することにより、
各部の機能を実現するものである。
The input unit 301, the conversion unit 302, the accent phrase generation unit 303, the pause setting unit 304, the prosody pattern generation unit 305, the display unit 306, the voice synthesis unit 307, and the voice output unit 308 are respectively ROM101b and RAM1.
01c or the application storage unit 102, the floppy disk 112a, the CD-ROM 113a, and the like.
The function of each part is realized.

【0056】以上の構成において、発音文書作成の一連
の処理の手順について説明する。図5は、実施の形態1
の発音文書作成装置の発音文書作成処理の手順を示すフ
ローチャートである。図5のフローチャートにおいて、
まず、キー入力装置106から文字の入力を待つ(ステ
ップS501)。文字の入力は、通常のワードプロセッ
サと同様の方法によりおこなわれる。
In the above configuration, a procedure of a series of processes for creating a pronunciation document will be described. FIG. 5 shows the first embodiment.
4 is a flowchart showing the procedure of a pronunciation document creation process of the pronunciation document creation device of FIG. In the flowchart of FIG.
First, the process waits for a character input from the key input device 106 (step S501). Input of characters is performed in the same manner as in a normal word processor.

【0057】文字の入力がなされた場合(ステップS5
01肯定)は、つぎに、変換キーが押下されたか否かを
判断する(ステップS502)。変換キーが押下される
のは、通常、文節の区切りの時点であったり、アクセン
ト句の区切りの時点であったりする。ここで、変換キー
が押下されない場合(ステップS502否定)は、未だ
文節等の区切りではなく、さらに文字の入力が有ると判
断し、ステップS501へ移行し、さらなる文字の入力
を待つ。
When a character is input (step S5)
(01 affirmative), it is determined whether or not the conversion key has been pressed (step S502). The conversion key is usually pressed at the time of a phrase break or at the time of an accent phrase break. Here, if the conversion key is not pressed (No at step S502), it is determined that there is still a character input, not a break of a clause or the like, and the process proceeds to step S501 to wait for further character input.

【0058】変換キーが押下された場合(ステップS5
02肯定)は、つぎに、キー入力装置106等からアク
セントの入力が有ったか否かを判断し(ステップS50
3)、直接アクセントの入力があった場合(ステップS
503肯定)は、何もせずにステップS506へ移行す
る。
When the conversion key is pressed (step S5)
(02 affirmative), it is determined whether or not an accent has been input from the key input device 106 or the like (step S50).
3) If there is a direct input of an accent (step S
(503 affirmative) shifts to step S506 without doing anything.

【0059】ステップS503において、アクセントの
入力がなかった場合は(ステップS503否定)は、入
力された文字列に対応するアクセントおよびアクセント
情報・品詞情報を変換辞書103から読み出して、それ
ぞれアクセントに変換し、アクセント情報・品詞情報を
付加する(ステップS504)。この際、文字列に対し
て複数のアクセント、アクセント情報・品詞情報の候補
が変換辞書103内に存在する場合は、従来技術のかな
漢字変換の方法と同様の方法により、それらの候補を表
示させ、選択させることにより変換を確定させることが
できる(ステップS505)。したが、変換が確定した
か否かを判断し(ステップS505)、確定しない場合
(ステップS505否定)は、ステップS504へ移行
し、変換が確定するまで、変換処理を繰り返しおこな
う。
If there is no input of an accent at step S503 (No at step S503), the accent and the accent information / speech information corresponding to the input character string are read out from the conversion dictionary 103 and converted into accents. Then, accent information and part of speech information are added (step S504). At this time, if a plurality of accents, accent information / speech information candidates exist for the character string in the conversion dictionary 103, the candidates are displayed by the same method as the conventional kana-kanji conversion method, By making the selection, the conversion can be determined (step S505). However, it is determined whether or not the conversion has been determined (step S505). If the conversion has not been determined (No at step S505), the process proceeds to step S504, and the conversion process is repeated until the conversion is determined.

【0060】変換が確定した場合(ステップS505肯
定)は、つぎに、入力された文字列の読みと、ステップ
S504において変換されたアクセントと、アクセント
に付加されたアクセント情報・品詞情報に基づいてアク
セント句を生成する(ステップS506)。アクセント
句の生成の方法については、上述のとおりである。その
後、ステップS507へ移行する。
If the conversion is determined (Yes at step S505), then, based on the reading of the input character string, the accent converted at step S504, and the accent information / part-of-speech information added to the accent, A phrase is generated (step S506). The method of generating the accent phrase is as described above. After that, the procedure moves to step S507.

【0061】ステップS507では、変換辞書103を
もちいて、ステップS501によって入力された文字列
に対応する漢字を含む文字列へ変換する。変換の方法は
従来のかな漢字変換の方法と同様である。変換が確定し
たか否かを判断し(ステップS508)、変換が確定し
ない場合(ステップS508否定)は、ステップS50
7へ移行し、変換が確定するまで、変換処理(ステップ
S507)を繰り返しおこなう。変換が確定した場合
(ステップS508肯定)は、ステップS509へ移行
する。
In step S507, the conversion dictionary 103 is used to convert the character string input in step S501 into a character string containing kanji. The conversion method is the same as the conventional Kana-Kanji conversion method. It is determined whether or not the conversion is determined (step S508), and if the conversion is not determined (No at step S508), step S50 is performed.
7 and the conversion process (step S507) is repeated until the conversion is determined. When the conversion is determined (Yes at Step S508), the process proceeds to Step S509.

【0062】なお、アクセントに変換し、アクセント情
報・品詞情報を付加した後、かな漢字変換をおこなうよ
うにしたが、この順序は逆であってもよい。また、変換
候補が有る場合、漢字を含む文字列の候補およびアクセ
ント、アクセント情報・品詞情報の候補を同時に表示
し、その中から、所望の組み合わせで選択させるように
し、変換を確定するようにしてもよい。
It is to be noted that the kana-kanji conversion is performed after conversion into accents and addition of accent information and part-of-speech information, but the order may be reversed. If there are conversion candidates, character string candidates including kanji and accents, accent information / speech information candidates are simultaneously displayed, and a desired combination is selected from among them to confirm the conversion. Is also good.

【0063】つぎに、ステップS509において、文の
区切りを示す句点またはリターンキーの入力があったか
否かを判断し、入力がなければ(ステップS509否
定)、ステップS501へ移行し、ステップS501〜
S509までを繰り返しおこなう。
Next, in step S509, it is determined whether or not there is an input of a punctuation mark indicating a sentence delimiter or a return key. If there is no input (step S509: No), the process proceeds to step S501, and the process proceeds to step S501.
Steps up to S509 are repeated.

【0064】ステップS509において、句点またはリ
ターンキーの入力があった場合(ステップS509肯
定)は、つぎに、ポーズの設定をおこなう(ステップS
510)。ポーズの設定の方法は上述のとおりである。
また、この処理ステップにおいて、離散的な韻律情報を
得ることができる。
In step S509, if there is an input of a period or a return key (Yes in step S509), a pause is set (step S509).
510). The method of setting the pose is as described above.
In this processing step, discrete prosody information can be obtained.

【0065】つぎに、韻律パタンの生成をおこなう(ス
テップS511)。韻律パタンの生成の方法は上述のと
おりである。さらに、韻律パタンの生成がおこなわれた
発音文書を発音文書記憶部110に記憶する(ステップ
S512)。
Next, a prosody pattern is generated (step S511). The method of generating the prosody pattern is as described above. Further, the pronunciation document in which the prosody pattern has been generated is stored in the pronunciation document storage unit 110 (step S512).

【0066】さらに、発音文書を表示装置107に表示
し(ステップS513)、すべての処理を終了する。
Further, the pronunciation document is displayed on the display device 107 (step S513), and all the processing ends.

【0067】つぎに、発音文書の音声出力処理について
説明する。図6は、実施の形態1による発音文書の作成
装置における発音文書の音声出力の処理の手順を示すフ
ローチャートである。図6のフローチャートにおいて、
音声出力の指示があったか否かを判断し(ステップS6
01)、出力指示を待って(ステップS601肯定)、
該当する発音文書を発音文書記憶部110から読み出す
(ステップS602)。
Next, the sound output processing of the pronunciation document will be described. FIG. 6 is a flowchart illustrating a procedure of a sound output process of a pronunciation document in the pronunciation document creation device according to the first embodiment. In the flowchart of FIG.
It is determined whether a voice output instruction has been given (step S6).
01), and waits for an output instruction (Yes at step S601).
The corresponding pronunciation document is read from the pronunciation document storage unit 110 (step S602).

【0068】つぎに、読み出された発音文書の発音デー
タと声色記憶部105に記憶された声色データをもちい
て音声合成をおこなう(ステップS603)。その後、
合成音声をスピーカ109をもちいて出力する(ステッ
プS604)。
Next, speech synthesis is performed using the read pronunciation data of the pronunciation document and the timbre data stored in the timbre storage unit 105 (step S603). afterwards,
The synthesized voice is output using the speaker 109 (step S604).

【0069】以上説明したように、この実施の形態1に
よれば、文字列を入力し、かな漢字変換をおこなうのと
同様に変換キーを押下するだけで、発音文書を作成する
ことができる。その際、かな漢字変換の変換キーのタイ
ミング情報をアクセント句の区切り位置として利用する
ことによりアクセント句の区切りの誤りを減少させるこ
とができる。また、当該作成された発音文書を表示する
ことができる。さらにまた、当該作成された発音文書の
内容を音声合成出力することができる。
As described above, according to the first embodiment, it is possible to create a pronunciation document simply by inputting a character string and pressing a conversion key in the same manner as when performing kana-kanji conversion. At this time, by using the timing information of the conversion key of the Kana-Kanji conversion as an accent phrase delimiter position, errors in accent phrase delimiter can be reduced. In addition, the created pronunciation document can be displayed. Furthermore, the contents of the created pronunciation document can be synthesized and output.

【0070】なお、実施の形態1においては、日本語の
発音文書作成の方法についてのみ説明したが、それには
限定されず、英文の発音文書作成法であってもよい。そ
の場合、単語のスペルを入力し、単語間のスペースキー
の入力に対応して、単語の読み(発音)に対応するアク
セントに変換するようにすれば、日本語の発音文書の作
成と同様に英語の発音文書の作成をおこなうことができ
る。
In the first embodiment, only the method of creating a Japanese pronunciation document has been described. However, the present invention is not limited to this, and an English pronunciation document creation method may be used. In that case, if you input the spelling of the word and convert it to an accent corresponding to the reading (pronunciation) of the word in response to the input of the space key between the words, you can create Can create English pronunciation documents.

【0071】(実施の形態2)さて、上述した実施の形
態1では、文字列を入力し、かな漢字変換をおこなうの
と同様に変換キーを押下することにより、発音文書を作
成するようにしたが、以下に説明する実施の形態2のよ
うに、一旦作成された発音文書をより自然な喋り方にな
るように変更するために発音文書を編集するようにして
もよい。
(Embodiment 2) In Embodiment 1 described above, a pronunciation string is created by inputting a character string and pressing a conversion key as in the case of performing kana-kanji conversion. However, as in the second embodiment described below, the pronunciation document may be edited in order to change the once created pronunciation document to a more natural way of speaking.

【0072】この発明の実施の形態2による発音文書作
成装置700のハードウエア構成および外観図について
は実施の形態1の図1および図2の発音文書作成装置1
00と同様であるので、その説明は省略する。また、図
7は、発音文書作成装置700の機能的構成を示す機能
ブロック図である。図7において、発音文書作成装置7
00は、編集部700をのぞく他の各部は実施の形態1
の図3の発音文書作成装置100の各部と同様の構成で
あるので、同一の符号を付してその説明を省略する。
For the hardware configuration and external view of the pronunciation document generation device 700 according to the second embodiment of the present invention, refer to FIG. 1 and FIG.
Since it is the same as 00, its description is omitted. FIG. 7 is a functional block diagram showing a functional configuration of the pronunciation document creation device 700. In FIG. 7, the pronunciation document creation device 7
00 is the same as in the first embodiment except for the editing unit 700.
3 has the same configuration as that of each part of the pronunciation document creating apparatus 100 shown in FIG.

【0073】図7において、編集部701は、アクセン
ト句生成部303により生成されたアクセント句および
/またはポーズ設定部304により設定されたポーズ情
報および/または韻律パタン生成部305により生成さ
れた韻律パタンを編集するものである。具体的には、読
みの修正、アクセント型の修正、アクセント句の区切り
の挿入・削除、ポーズ情報の変更、韻律パタンの変更等
をおこなうものである。
In FIG. 7, the editing unit 701 includes an accent phrase generated by the accent phrase generation unit 303 and / or pause information set by the pause setting unit 304 and / or a prosody pattern generated by the prosody pattern generation unit 305. Is to edit. Specifically, correction of reading, correction of accent type, insertion / deletion of a break of an accent phrase, change of pause information, change of prosody pattern, and the like are performed.

【0074】上記のように読みの修正もおこなうことか
ら、その読みに対応する漢字およびアクセント変換をお
こなうことができる変換部302の一部の機能も備えて
いる。
Since the reading is also corrected as described above, a part of the function of the conversion unit 302 capable of performing kanji and accent conversion corresponding to the reading is also provided.

【0075】編集の方法としては、表示装置107に表
示された発音文書を参照して、キー入力装置106をも
ちいて、変数データを入力することによりおこなう。こ
れは、ワードプロセッサにより作成した文書を編集する
のと同様の方法によりおこなうものである。
The editing method is performed by inputting variable data using the key input device 106 with reference to the pronunciation document displayed on the display device 107. This is performed by the same method as editing a document created by a word processor.

【0076】つぎに、編集処理の手順について説明す
る。図8は、実施の形態2の文書作成装置の編集部70
1の編集処理の手順を示すフローチャートである。図8
のフローチャートにおいて、まず、編集指示があったか
否かを判断し(ステップS801)、編集指示を待って
(ステップS801肯定)、該当する発音文書を発音文
書記憶部110から読み出す(ステップS802)。
Next, the procedure of the editing process will be described. FIG. 8 shows the editing unit 70 of the document creation device according to the second embodiment.
9 is a flowchart illustrating a procedure of one editing process. FIG.
First, it is determined whether or not there is an editing instruction (step S801), and after waiting for the editing instruction (Yes at step S801), the corresponding pronunciation document is read from the pronunciation document storage unit 110 (step S802).

【0077】つぎに、読み出された発音文書の編集をお
こなう(ステップS803)。その後、編集処理が終了
したか否かを判断し(ステップS804)、終了してい
ない場合(ステップS804否定)は、ステップS80
3へ移行し、編集処理を繰り返しおこなう。
Next, the read pronunciation document is edited (step S803). Thereafter, it is determined whether or not the editing process has been completed (step S804). If the editing process has not been completed (step S804: No), the process proceeds to step S80.
3 and the editing process is repeated.

【0078】ステップS804において、編集処理が終
了した場合(ステップS804肯定)は、編集処理がお
こなわれた発音文書の内容を確認するために、編集がお
こなわれた発音文書の発音データと声色記憶部105に
記憶された声色データをもちいて音声合成をおこなう
(ステップS805)。その後、合成音声をスピーカ1
09をもちいて出力する(ステップS806)。
If the editing process has been completed in step S804 (Yes at step S804), the pronunciation data of the edited pronunciation document and the timbre storage unit are checked in order to confirm the contents of the edited pronunciation document. Voice synthesis is performed using the timbre data stored in the memory 105 (step S805). Then, the synthesized voice is sent to the speaker 1
09 is output (step S806).

【0079】合成音声を確認した後、編集のやり直しを
する場合(ステップS807肯定)は、ステップS80
3へ移行し、ステップS803〜S807の各処理を繰
り返しおこなう。編集のやり直しをしない場合、すなわ
ち、編集の内容を確定する場合(ステップS807否
定)は、編集処理がおこなわれた発音文書を発音文書記
憶部110に書き込み(ステップS808)、すべての
処理は終了する。
After the synthesized speech is confirmed, if the editing is to be performed again (Yes at Step S807), Step S80 is performed.
Then, the process proceeds to step S3, and the processes in steps S803 to S807 are repeatedly performed. When the editing is not performed again, that is, when the content of the editing is determined (No at Step S807), the pronunciation document subjected to the editing process is written in the pronunciation document storage unit 110 (Step S808), and all the processing ends. .

【0080】以上説明したように、この発明の実施の形
態2によれば、一旦作成された発音文書を編集するの
で、より自然な喋り方で音声合成することができる発音
文書を得ることができる。
As described above, according to the second embodiment of the present invention, a pronunciation document that has been once created is edited, so that a pronunciation document that can be synthesized in a more natural way of speaking can be obtained. .

【0081】[0081]

【発明の効果】以上説明したように、請求項1の発明に
よれば、文字列を入力する入力手段と、前記入力手段に
より入力された文字列をその読みに対応するアクセント
およびアクセント情報・品詞情報に変換する変換手段
と、前記変換手段により変換されたアクセントおよびア
クセント情報・品詞とに基づいてアクセント句を生成す
るアクセント句生成手段と、前記アクセント句生成手段
により生成された複数のアクセント句の間のどの位置に
どのくらいの長さで無音区間(ポーズ)を挿入するか等
のポーズ情報を設定するポーズ設定手段と、前記ポーズ
設定手段によりポーズ情報が設定された複数のアクセン
ト句から構成される文単位でピッチパタン・各音節の時
間長等の韻律パタンを生成する韻律パタン生成手段と、
を備えたため、文字列を入力し、アクセント句の区切り
位置で変換することにより、自然音声の入力をすること
なく、文書作成者の意図する喋り方で正確に音声を合成
するための発音文書の作成をすることができ、発音文書
の作成効率および利便性の向上を図ることが可能な発音
文書作成装置が得られるという効果を奏する。
As described above, according to the first aspect of the present invention, the input means for inputting a character string, and the character string input by the input means are converted to the accent and accent information / part of speech corresponding to the reading. Conversion means for converting the information into information, accent phrase generation means for generating an accent phrase based on the accent and the accent information and part of speech converted by the conversion means, and a plurality of accent phrases generated by the accent phrase generation means. Pose setting means for setting pause information such as at which position and how long a silence section (pause) is to be inserted, and a plurality of accent phrases in which the pause information is set by the pause setting means. Prosody pattern generation means for generating a prosody pattern such as a pitch pattern and a time length of each syllable in sentence units;
By inputting a character string and converting it at the delimiter position of the accent phrase, it is possible to create a pronunciation document for synthesizing speech accurately in the way that the document creator intends without inputting natural speech. It is possible to obtain a pronunciation document creation device that can create the pronunciation document and can improve the efficiency and convenience of creating the pronunciation document.

【0082】また、請求項2の発明によれば、請求項1
の発明において、前記アクセント句生成手段により生成
されたアクセント句および/または前記ポーズ設定手段
により設定されたポーズ情報および/または前記韻律パ
タン生成手段により生成された韻律パタンを表示する表
示手段を備えたため、発音文書を表示するので、発音文
書の内容を容易に確認することができ、発音文書の作成
効率および利便性の向上を図ることが可能な発音文書作
成装置が得られるという効果を奏する。
Further, according to the invention of claim 2, according to claim 1
The invention according to the invention, further comprising display means for displaying the accent phrase generated by the accent phrase generation means and / or the pause information set by the pause setting means and / or the prosody pattern generated by the prosody pattern generation means. Since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the pronunciation document creation device capable of improving the efficiency and convenience of creating the pronunciation document can be obtained.

【0083】また、請求項3の発明によれば、請求項1
または2の発明において、さらに、前記アクセント句生
成手段により生成されたアクセント句と、前記ポーズ設
定手段により設定されたポーズ情報と、前記韻律パタン
生成手段により生成された韻律パタンとをもちいて音声
を合成する音声合成手段と、前記音声合成手段により合
成された音声を出力する音声出力手段と、を備えたた
め、発音文書の発音データを音声合成して出力するの
で、発音文書の内容を容易に再生することができ、発音
文書の作成効率および利便性の向上を図ることが可能な
発音文書作成装置が得られるという効果を奏する。
Further, according to the invention of claim 3, according to claim 1
Alternatively, in the invention according to the second aspect, further, a speech is generated by using the accent phrase generated by the accent phrase generation unit, the pose information set by the pause setting unit, and the prosody pattern generated by the prosody pattern generation unit. Since there is provided a voice synthesizing means for synthesizing and a voice output means for outputting a voice synthesized by the voice synthesizing means, the pronunciation data of the pronunciation document is synthesized and output, so that the contents of the pronunciation document can be easily reproduced This makes it possible to obtain a pronunciation document creation device capable of improving pronunciation document creation efficiency and convenience.

【0084】また、請求項4の発明によれば、請求項1
〜3のいずれか一つの発明においてさらに、前記アクセ
ント句生成手段により生成されたアクセント句および/
または前記ポーズ設定手段により設定されたポーズ情報
および/または前記韻律パタン生成手段により生成され
た韻律パタンを編集する編集手段とを備えたため、発音
文書を編集することができるので、作成者の意図する喋
り方により近い発音文書を容易に作成することができ、
発音文書の作成効率および利便性の向上を図ることが可
能な発音文書作成装置が得られるという効果を奏する。
According to the invention of claim 4, according to claim 1,
In the invention according to any one of the first to third aspects, the accent phrase and / or
Alternatively, since there is provided editing means for editing the pause information set by the pause setting means and / or the prosody pattern generated by the prosody pattern generation means, the pronunciation document can be edited, so that the creator's intention You can easily create pronunciation documents closer to how you speak,
There is an effect that a pronunciation document creation device capable of improving the efficiency and convenience of creating pronunciation documents can be obtained.

【0085】また、請求項5の発明によれば、文字列を
入力する第1工程と、前記第1工程により入力された文
字列をその読みに対応するアクセントおよびアクセント
情報・品詞情報に変換する第2工程と、前記第2工程に
より変換されたアクセントおよびアクセント情報と品詞
とに基づいてアクセント句を生成する第3工程と、前記
第3工程により生成された複数のアクセント句の間のど
の位置にどのくらいの長さで無音区間(ポーズ)を挿入
するか等のポーズ情報を設定する第4工程と、前記第4
工程によりポーズ情報が設定された複数のアクセント句
から構成される文単位でピッチパタン・各音節の時間長
等の韻律パタンを生成する第5工程と、を含むため、文
字列を入力し、アクセント句の区切り位置で変換するこ
とにより、自然音声の入力をすることなく、文書作成者
の意図する喋り方で正確に音声を合成するための発音文
書の作成をすることができ、発音文書の作成効率および
利便性の向上を図ることが可能な発音文書作成方法が得
られるという効果を奏する。
According to the fifth aspect of the present invention, the first step of inputting a character string and converting the character string input in the first step into accent and accent information / speech information corresponding to the reading. A second step, a third step of generating an accent phrase based on the accent and accent information and the part of speech converted in the second step, and a position between the plurality of accent phrases generated in the third step. A fourth step of setting pause information such as how long a silence section (pause) is to be inserted in the fourth step;
A fifth step of generating a prosody pattern such as a pitch pattern and a time length of each syllable in a sentence unit composed of a plurality of accent phrases in which pose information is set by the step. By converting at the phrase delimiter, it is possible to create a pronunciation document for synthesizing speech accurately according to the way the creator intends without inputting natural speech, and to create a pronunciation document There is an effect that a pronunciation document creation method capable of improving efficiency and convenience can be obtained.

【0086】また、請求項6の発明によれば、請求項5
の発明において、さらに、前記第3工程により生成され
たアクセント句および/または前記第4工程により設定
されたポーズ情報および/または前記第5工程により生
成された韻律パタンを表示する第6工程を含むため、発
音文書を表示するので、発音文書の内容を容易に確認す
ることができ、発音文書の作成効率および利便性の向上
を図ることが可能な発音文書作成方法が得られるという
効果を奏する。
Further, according to the invention of claim 6, according to claim 5,
And a sixth step of displaying the accent phrase generated in the third step and / or the pause information set in the fourth step and / or the prosodic pattern generated in the fifth step. Therefore, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the pronunciation document creation method capable of improving the efficiency and convenience of creating the pronunciation document is obtained.

【0087】また、請求項7の発明によれば、請求項5
または6の発明において、さらに、前記第3工程により
生成されたアクセント句と、前記第4工程により設定さ
れたポーズ情報と、前記第5工程により生成された韻律
パタンとをもちいて音声を合成する第7工程と、前記第
7工程により合成された音声を出力する第8工程と、を
含むため、発音文書を表示するので、発音文書の内容を
容易に確認することができ、発音文書の作成効率および
利便性の向上を図ることが可能な発音文書作成方法が得
られるという効果を奏する。
According to the invention of claim 7, according to claim 5,
Alternatively, in the invention according to the sixth aspect, speech is synthesized using the accent phrase generated in the third step, the pause information set in the fourth step, and the prosodic pattern generated in the fifth step. Since the method includes the seventh step and the eighth step of outputting the voice synthesized in the seventh step, the pronunciation document is displayed, so that the content of the pronunciation document can be easily confirmed, and the creation of the pronunciation document can be performed. There is an effect that a pronunciation document creation method capable of improving efficiency and convenience can be obtained.

【0088】また、請求項8の発明は、請求項5〜7の
いずれか一つの発明において、さらに、前記第3工程に
より生成されたアクセント句および/または前記第4工
程により設定されたポーズ情報および/または前記第5
工程により生成された韻律パタンを編集する第9工程と
を含むため、発音文書を編集することができるので、作
成者の意図する喋り方により近い発音文書を容易に作成
することができ、発音文書の作成効率および利便性の向
上を図ることが可能な発音文書作成方法が得られるとい
う効果を奏する。
The invention according to claim 8 is the invention according to any one of claims 5 to 7, further comprising the accent phrase generated in the third step and / or the pose information set in the fourth step. And / or the fifth
Since the method includes a ninth step of editing the prosodic pattern generated by the step, the pronunciation document can be edited, so that a pronunciation document closer to the way of speech intended by the creator can be easily created, and the pronunciation document can be easily created. There is an effect that a pronunciation document creation method capable of improving the creation efficiency and convenience of the pronunciation document can be obtained.

【0089】また、請求項9の発明に係る記憶媒体は、
請求項5〜8のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項5〜8のいずれか一つの動作をコンピュータによ
って実現することが可能な記録媒体が得られるという効
果を奏する。
The storage medium according to the ninth aspect of the present invention
By recording a program for causing a computer to execute the method according to any one of claims 5 to 8, the program becomes machine-readable, whereby
An advantage is obtained in that a recording medium capable of realizing the operation of any one of claims 5 to 8 by a computer is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明による実施の形態1の発音文書作成装
置の概略ブロック図である。
FIG. 1 is a schematic block diagram of a pronunciation document creation device according to a first embodiment of the present invention.

【図2】実施の形態1の発音文書作成装置の外観図であ
る。
FIG. 2 is an external view of a pronunciation document creation device according to the first embodiment.

【図3】実施の形態1の発音文書作成装置の機能的構成
を示す機能ブロック図である。
FIG. 3 is a functional block diagram illustrating a functional configuration of a pronunciation document creation device according to the first embodiment;

【図4】実施の形態1の発音文書作成装置におけるアク
セント句の生成を示す説明図である。
FIG. 4 is an explanatory diagram showing generation of an accent phrase in the pronunciation document creation device according to the first embodiment;

【図5】実施の形態1の発音文書作成装置における発音
文書の作成処理の手順を示すフローチャートである。
FIG. 5 is a flowchart illustrating a procedure of a pronunciation document creation process in the pronunciation document creation device according to the first embodiment;

【図6】実施の形態1の発音文書作成装置における音声
出力処理の手順を示すフローチャートである。
FIG. 6 is a flowchart illustrating a procedure of a sound output process in the pronunciation document creation device according to the first embodiment;

【図7】この発明による実施の形態2の発音文書作成装
置の機能的構成を示す機能ブロック図である。
FIG. 7 is a functional block diagram illustrating a functional configuration of a pronunciation document creation device according to a second embodiment of the present invention;

【図8】実施の形態2の発音文書作成装置における発音
文書の編集処理の手順を示すフローチャートである。
FIG. 8 is a flowchart illustrating a procedure of editing a pronunciation document in the pronunciation document creation device according to the second embodiment;

【符号の説明】[Explanation of symbols]

100,700 発音文書作成装置 101 制御部 101a CPU 101b ROM 101c RAM 102 アプリケーション記憶部 103 変換辞書 104 韻律パタンモデル記憶部 105 声色記憶部 106 キー入力装置 107 表示装置 108 マイク 109 スピーカ 110 発音文書記憶部 111 インタフェース(I/F) 112 FDドライブ 113 CD−ROMドライブ 114 通信部 301 入力部 302 変換部 303 アクセント句生成部 304 ポーズ設定部 305 韻律パタン生成部 306 表示部 307 音声合成部 308 音声出力部 701 編集部 Reference Signs List 100, 700 pronunciation document creation device 101 control unit 101a CPU 101b ROM 101c RAM 102 application storage unit 103 conversion dictionary 104 prosody pattern model storage unit 105 voice color storage unit 106 key input device 107 display device 108 microphone 109 speaker 110 pronunciation document storage unit 111 Interface (I / F) 112 FD drive 113 CD-ROM drive 114 Communication unit 301 Input unit 302 Conversion unit 303 Accent phrase generation unit 304 Pause setting unit 305 Prosody pattern generation unit 306 Display unit 307 Voice synthesis unit 308 Audio output unit 701 Editing Department

─────────────────────────────────────────────────────
────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成11年7月12日[Submission date] July 12, 1999

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】全文[Correction target item name] Full text

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【書類名】 明細書[Document Name] Statement

【発明の名称】 発音文書作成装置、発音文書作成方法
およびその方法をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体
Patent application title: Pronunciation document creation device, pronunciation document creation method, and computer-readable recording medium recording a program for causing a computer to execute the method

【特許請求の範囲】[Claims]

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書を構成する文
字列を、それぞれの文字列の読みに対応するアクセント
に変換して、さらに、ポーズ、韻律パタンが付加された
発音文書を作成する発音文書作成装置、発音文書作成方
法およびその方法をコンピュータに実行させるプログラ
ムを記録したコンピュータ読み取り可能な記録媒体に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pronunciation method for converting a character string constituting a document into an accent corresponding to the reading of each character string, and further creating a pronunciation document to which a pause and a prosodic pattern are added. The present invention relates to a document creation device, a pronunciation document creation method, and a computer-readable recording medium that records a program for causing a computer to execute the method.

【0002】[0002]

【従来の技術】情報の伝達・保管方法の一つとして文字
情報をもちいる方法が知られている。この文字情報をも
ちいる方法として、近年、日本語ワードプロセッサ、英
文ワードプロセッサ等の文書作成装置や、ワードプロセ
ッサ機能を有したパソコンをもちいて、文書作成者が所
望の文書を作成し、作成した文書をネットワークを介し
て転送したり、作成した文書を磁気ディスクや、光ディ
スク等の記録媒体に記憶させる方法が使用されるように
なっている。これは、コンピュータ関連技術の発展に伴
って文書作成装置自体が高機能化・低価格化を実現して
いると共に、オフィスのペーパレス化の推進や、通信網
の整備、電子メールの普及等による作業環境の変化に負
うところが大きい。
2. Description of the Related Art As one of information transmission and storage methods, a method using character information is known. As a method using this character information, in recent years, a document creator creates a desired document using a document creation device such as a Japanese word processor or an English word processor, or a personal computer having a word processor function, and transmits the created document to a network. Via the Internet, or a method of storing a created document in a recording medium such as a magnetic disk or an optical disk. This is due to the development of computer-related technology, which has realized higher functionality and lower cost of the document creation device itself, as well as the promotion of paperless offices, the development of communication networks, and the spread of e-mail. It depends heavily on environmental changes.

【0003】また、情報の伝達・保管等に使用される他
の方法として、音声情報をもちいる方法や、音声情報と
映像情報とをもちいる方法が知られている。たとえば、
音声情報をもちいる方法では、情報の伝達は電話等を介
して直接、音声情報を転送し、情報の保管は録音機器を
もちいてテープ等に録音して保管している。また、音声
情報と映像情報とをもちいる方法では、情報の伝達はモ
ニターとスピーカを有する通信装置をもちいて音声情報
と映像情報を転送し、情報の保管はビデオ装置等の録画
機器をもちいてビデオテープや、光ディスク等に保管し
ている。
As other methods used for transmitting and storing information, a method using audio information and a method using audio information and video information are known. For example,
In the method using voice information, the voice information is directly transmitted via a telephone or the like, and the information is stored and recorded on a tape or the like using a recording device. In the method using audio information and video information, information is transmitted using a communication device having a monitor and a speaker, and the audio information and video information are transferred, and information is stored using a recording device such as a video device. They are stored on video tapes, optical disks, etc.

【0004】なお、上述した情報の伝達・保管方法のう
ち、文字情報をもちいる方法は、他の方法と比較して、
データ量が少なく、情報の編集が容易であること、さら
にデジタル情報としてコンピュータ上で使用可能である
ことから、最も汎用性が高く、広く使用されている。
[0004] Among the above-mentioned methods of transmitting and storing information, the method using character information is different from other methods.
It is the most versatile and widely used because it has a small amount of data, is easy to edit information, and can be used as digital information on a computer.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来の文字情報をもちいる方法では、作成した文書が視覚
的な言語情報(すなわち、文字言語情報)に限定された
情報であるため、非言語情報にあたる感情等の表現を情
報として付加することはできなかった。なお、音声をも
ちいた言語情報(すなわち、音声言語情報)では、アク
セントや、声の大きさ(音量)、声の高さ等の喋り方を
変えることで、非言語情報にあたる感情等の表現を情報
として付加していた。
However, according to the above-described conventional method using character information, since the created document is information limited to visual linguistic information (that is, character linguistic information), non-linguistic information is not used. Expressions such as emotions could not be added as information. In the linguistic information using speech (that is, speech linguistic information), expressions such as emotions corresponding to non-linguistic information can be expressed by changing the way of speaking such as accent, loudness (volume), and pitch of voice. Was added as information.

【0006】また、従来の技術において、文字情報と音
声情報という2つの表現形態の情報を整合性の取れた形
で複合した情報を作成する装置および方法は提供されて
いなかった。
Further, in the prior art, there has not been provided an apparatus and a method for creating information in which information of two expression forms, that is, character information and audio information, is combined in a consistent manner.

【0007】また、音声情報の編集は、基本的に聴覚を
もちいて(すなわち、再生させた音声情報を耳で聞い
て)おこなうのが一般的であり、一々再生して所望の音
声情報の位置(場所)を確認する必要があるため、作業
が煩雑で、面倒であるという問題点もあった。
In general, audio information is basically edited by using the auditory sense (that is, by listening to the reproduced audio information with the ear). Since the (location) needs to be confirmed, the operation is complicated and troublesome.

【0008】なお、従来の音声合成技術の一つであるテ
キスト音声合成技術をもちいることにより、テキスト文
書(すなわち、文字情報)から音声を合成することも可
能であるが、テキストからの音声合成では、辞書に入っ
ていない固有名詞を読み間違えたり、違ったアクセント
で発音するという問題点があった。さらに非言語情報で
ある感情等の表現ができないことや、文書作成者の意図
する喋り方で正確に音声を合成することができないとい
う問題点もあった。
It is possible to synthesize speech from a text document (that is, character information) by using a text speech synthesis technique which is one of the conventional speech synthesis techniques. Then, there was a problem that proper nouns not included in the dictionary were misread or pronounced with different accents. Further, there are problems that it is not possible to express emotions or the like which are non-verbal information, and it is not possible to synthesize speech accurately according to the way the creator intends to speak.

【0009】本発明は上記に鑑みてなされたものであっ
て、文字情報をアクセント情報および品詞情報に変換す
ることにより、変換されたアクセントおよびアクセント
情報・品詞情報に基づいてポーズ、韻律パタンを含む発
音文書を作成・編集できるようにすることを目的とす
る。
The present invention has been made in view of the above, and includes a pause and a prosodic pattern based on converted accents and accent / part of speech information by converting character information into accent information and part of speech information. The purpose is to be able to create and edit pronunciation documents.

【0010】[0010]

【課題を解決するための手段】上述した課題を解決し、
目的を達成するために、請求項1に係る発音文書作成装
置は、かな文字列を入力する入力手段と、前記入力手段
により入力されたかな文字列をその読みに対応する漢字
を含む文字列に変換するとともに、前記読みに対応する
アクセントに変換し、その際、アクセント情報および品
詞情報を当該アクセントに付加する変換手段と、前記変
換手段により変換されたアクセントおよびアクセント情
報・品詞とに基づいてアクセント句を生成するアクセン
ト句生成手段と、前記アクセント句生成手段により生成
された複数のアクセント句の間のどの位置にどのくらい
の長さで無音区間(ポーズ)を挿入するか等のポーズ情
報を設定するポーズ設定手段と、前記ポーズ設定手段に
よりポーズ情報が設定された複数のアクセント句から構
成される文単位でピッチパタン・各音節の時間長等の韻
律パタンを生成する韻律パタン生成手段と、を備えたこ
とを特徴とする。
Means for Solving the Problems The above-mentioned problems are solved,
In order to achieve the object, a pronunciation document creation device according to claim 1 comprises: input means for inputting a kana character string; and converting the kana character string input by the input means into a character string containing kanji corresponding to the reading. Conversion means for converting the accent into an accent corresponding to the reading, and at this time, a conversion means for adding the accent information and the part of speech information to the accent, and an accent based on the accent and the accent information / part of speech converted by the conversion means. Accent phrase generation means for generating a phrase, and pose information such as where and how long a silent section (pause) is to be inserted between the plurality of accent phrases generated by the accent phrase generation means are set. A pause setting unit, and a sentence unit composed of a plurality of accent phrases in which the pause information is set by the pause setting unit. Prosodic pattern generating means for generating a Tchipatan-prosodic pattern time length of each syllable, and further comprising a.

【0011】この請求項1の発明によれば、文字列を入
力し、アクセント句の区切り位置で変換することによ
り、自然音声の入力をすることなく、文書作成者の意図
する喋り方で正確に音声を合成するための発音文書の作
成をすることができ、発音文書の作成効率および利便性
の向上を図ることが可能である。
According to the first aspect of the present invention, by inputting a character string and converting the character string at a delimiter position of an accent phrase, it is possible to accurately input in a manner intended by the document creator without inputting natural speech. A pronunciation document for synthesizing speech can be created, and the efficiency and convenience of creating a pronunciation document can be improved.

【0012】また、請求項2に係る発音文書作成装置
は、請求項1の発明において、前記アクセント句生成手
段により生成されたアクセント句および/または前記ポ
ーズ設定手段により設定されたポーズ情報および/また
は前記韻律パタン生成手段により生成された韻律パタン
を表示する表示手段を備えたことを特徴とする。
According to a second aspect of the present invention, in the pronunciation document creating apparatus according to the first aspect, the accent phrase generated by the accent phrase generating means and / or the pause information and / or the pause information set by the pause setting means are set. A display means for displaying a prosody pattern generated by the prosody pattern generation means is provided.

【0013】この請求項2の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the second aspect of the present invention, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0014】また、請求項3に係る発音文書作成装置
は、請求項1または2の発明において、さらに、前記ア
クセント句生成手段により生成されたアクセント句と、
前記ポーズ設定手段により設定されたポーズ情報と、前
記韻律パタン生成手段により生成された韻律パタンとを
もちいて音声を合成する音声合成手段と、前記音声合成
手段により合成された音声を出力する音声出力手段と、
を備えたことを特徴とする。
According to a third aspect of the present invention, there is provided the pronunciation document creating apparatus according to the first or second aspect, further comprising: an accent phrase generated by the accent phrase generating means;
Voice synthesis means for synthesizing voice using the pause information set by the pause setting means and the prosody pattern generated by the prosody pattern generation means, and voice output for outputting the voice synthesized by the voice synthesis means Means,
It is characterized by having.

【0015】この請求項3の発明によれば、発音文書の
発音データを音声合成して出力するので、発音文書の内
容を容易に再生することができ、発音文書の作成効率お
よび利便性の向上を図ることが可能である。
According to the third aspect of the present invention, since the pronunciation data of the pronunciation document is synthesized and output, the contents of the pronunciation document can be easily reproduced, and the efficiency of creation of the pronunciation document and the convenience are improved. It is possible to achieve.

【0016】また、請求項4に係る発音文書作成装置
は、請求項1〜3のいずれか一つの発明においてさら
に、前記アクセント句生成手段により生成されたアクセ
ント句および/または前記ポーズ設定手段により設定さ
れたポーズ情報および/または前記韻律パタン生成手段
により生成された韻律パタンを編集する編集手段とを備
えたことを特徴とする。
According to a fourth aspect of the present invention, in the pronunciation document creating apparatus according to any one of the first to third aspects, the accent phrase generated by the accent phrase generating means and / or the pause setting means are set. Editing means for editing the generated pause information and / or the prosody pattern generated by the prosody pattern generation means.

【0017】この請求項4の発明によれば、発音文書を
編集することができるので、作成者の意図する喋り方に
より近い発音文書を容易に作成することができ、発音文
書の作成効率および利便性の向上を図ることが可能であ
る。
According to the fourth aspect of the present invention, the pronunciation document can be edited, so that a pronunciation document closer to the way of speech intended by the creator can be easily created, and the efficiency and convenience of creating the pronunciation document can be improved. It is possible to improve the performance.

【0018】また、請求項5に係る発音文書作成方法
は、かな文字列を入力する第1工程と、前記第1工程に
より入力されたかな文字列をその読みに対応する漢字を
含む文字列に変換するとともに、前記読みに対応するア
クセントに変換し、その際、アクセント情報および品詞
情報を当該アクセントに付加する第2工程と、前記第2
工程により変換されたアクセントおよびアクセント情報
と品詞とに基づいてアクセント句を生成する第3工程
と、前記第3工程により生成された複数のアクセント句
の間のどの位置にどのくらいの長さで無音区間(ポー
ズ)を挿入するか等のポーズ情報を設定する第4工程
と、前記第4工程によりポーズ情報が設定された複数の
アクセント句から構成される文単位でピッチパタン・各
音節の時間長等の韻律パタンを生成する第5工程と、を
含んだことを特徴とする。
According to a fifth aspect of the present invention, there is provided a pronunciation document creation method, wherein a first step of inputting a kana character string and a kana character string input in the first step are converted into a character string containing a kanji corresponding to the reading. A second step of converting the accent into an accent corresponding to the reading, and adding accent information and part-of-speech information to the accent.
A third step of generating an accent phrase based on the accent and accent information converted by the step and the part of speech, and a silence section at which position and how long between the plurality of accent phrases generated by the third step A fourth step of setting pause information such as whether to insert a (pause), and a pitch pattern, a time length of each syllable, etc. in units of sentences composed of a plurality of accent phrases in which the pause information is set in the fourth step. And a fifth step of generating a prosodic pattern of

【0019】この請求項5の発明によれば、文字列を入
力し、アクセント句の区切り位置で変換することによ
り、自然音声の入力をすることなく、文書作成者の意図
する喋り方で正確に音声を合成するための発音文書の作
成をすることができ、発音文書の作成効率および利便性
の向上を図ることが可能である。
According to the fifth aspect of the present invention, by inputting a character string and converting the character string at a delimiter position of an accent phrase, it is possible to accurately input a character string intended by a document creator without inputting natural speech. A pronunciation document for synthesizing speech can be created, and the efficiency and convenience of creating a pronunciation document can be improved.

【0020】また、請求項6に係る発音文書作成方法
は、請求項5の発明において、さらに、前記第3工程に
より生成されたアクセント句および/または前記第4工
程により設定されたポーズ情報および/または前記第5
工程により生成された韻律パタンを表示する第6工程を
含んだことを特徴とする。
According to a sixth aspect of the present invention, there is provided the pronunciation document creating method according to the fifth aspect, further comprising the accent phrase generated in the third step and / or the pause information and / or the pause information set in the fourth step. Or the fifth
The method includes a sixth step of displaying the prosodic pattern generated by the step.

【0021】この請求項6の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the sixth aspect of the present invention, since the pronunciation document is displayed, the content of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0022】また、請求項7に係る発音文書作成方法
は、請求項5または6の発明において、さらに、前記第
3工程により生成されたアクセント句と、前記第4工程
により設定されたポーズ情報と、前記第5工程により生
成された韻律パタンとをもちいて音声を合成する第7工
程と、前記第7工程により合成された音声を出力する第
8工程と、を含んだことを特徴とする。
According to a seventh aspect of the present invention, there is provided the pronunciation document creating method according to the fifth or sixth aspect, further comprising: the accent phrase generated in the third step; and the pose information set in the fourth step. , A seventh step of synthesizing speech using the prosodic pattern generated in the fifth step, and an eighth step of outputting the speech synthesized in the seventh step.

【0023】この請求項7の発明によれば、発音文書を
表示するので、発音文書の内容を容易に確認することが
でき、発音文書の作成効率および利便性の向上を図るこ
とが可能である。
According to the seventh aspect of the present invention, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the efficiency of creation of the pronunciation document and the convenience can be improved. .

【0024】また、請求項8に係る発音文書作成装置
は、請求項5〜7のいずれか一つの発明において、さら
に、前記第3工程により生成されたアクセント句および
/または前記第4工程により設定されたポーズ情報およ
び/または前記第5工程により生成された韻律パタンを
編集する第9工程とを含んだことを特徴とする。
According to an eighth aspect of the present invention, there is provided the pronunciation document creating apparatus according to any one of the fifth to seventh aspects, further comprising: an accent phrase generated in the third step and / or a setting in the fourth step. A ninth step of editing the generated pause information and / or the prosodic pattern generated in the fifth step.

【0025】この請求項8の発明によれば、発音文書を
編集することができるので、作成者の意図する喋り方に
より近い発音文書を容易に作成することができ、発音文
書の作成効率および利便性の向上を図ることが可能であ
る。
According to the eighth aspect of the present invention, since the pronunciation document can be edited, it is possible to easily create a pronunciation document that is closer to the way of speech intended by the creator, and the efficiency and convenience of creating the pronunciation document are improved. It is possible to improve the performance.

【0026】また、請求項9の発明に係る記憶媒体は、
請求項5〜8のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項5〜8のいずれか一つの動作をコンピュータによ
って実現することが可能である。
Further, a storage medium according to a ninth aspect of the present invention is:
By recording a program for causing a computer to execute the method according to any one of claims 5 to 8, the program becomes machine-readable, whereby
The operation of any one of claims 5 to 8 can be realized by a computer.

【0027】[0027]

【発明の実施の形態】以下、本発明の発音文書作成装
置、発音文書作成方法およびその方法をコンピュータに
実行させるプログラムを記録したコンピュータ読み取り
可能な記録媒体の好適な実施の形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of a pronunciation document creation apparatus, a pronunciation document creation method, and a computer-readable recording medium that records a program for causing a computer to execute the method according to the present invention will be described below in detail. .

【0028】(実施の形態1)図1は、実施の形態1の
発音文書作成装置100のハードウエア構成を示すブロ
ック図を示す。この発音文書作成装置100は、制御部
101と、アプリケーション記憶部102と、変換辞書
103と、韻律パタンモデル記憶部104と、声色記憶
部105と、キー入力装置106と、表示装置107
と、マイク108と、スピーカ109と、発音文書記憶
部110と、インタフェース(I/F)111と、フロ
ッピーディスクドライブ(FDドライブ)112と、C
D−ROMドライブ113と、通信部114と、から構
成される。
(Embodiment 1) FIG. 1 is a block diagram showing a hardware configuration of a pronunciation document creating apparatus 100 according to Embodiment 1. The pronunciation document creation device 100 includes a control unit 101, an application storage unit 102, a conversion dictionary 103, a prosody pattern model storage unit 104, a timbre storage unit 105, a key input device 106, and a display device 107.
, A microphone 108, a speaker 109, a pronunciation document storage unit 110, an interface (I / F) 111, a floppy disk drive (FD drive) 112,
It comprises a D-ROM drive 113 and a communication unit 114.

【0029】制御部101は、バスBSに結合された上
記各部を制御する中央処理ユニットであり、CPU10
1a、ROM101bおよびRAM101c等を備えて
いる。CPU101aはROM101bに格納されたO
S(オペレーティングシステム)プログラムやアプリケ
ーション記憶部102に格納されたアプリケーションプ
ログラムにしたがって動作する。また、ROM101b
はOSプログラムを格納するメモリであり、RAM10
1cは各種プログラムのワークエリアとして使用するメ
モリである。
The control unit 101 is a central processing unit for controlling the above-mentioned units connected to the bus BS.
1a, a ROM 101b, a RAM 101c, and the like. The CPU 101a stores the O stored in the ROM 101b.
It operates according to an S (operating system) program or an application program stored in the application storage unit 102. ROM 101b
Is a memory for storing an OS program.
1c is a memory used as a work area for various programs.

【0030】アプリケーション記憶部102には、読み
からアクセントへ変換する機能を実現する読みアクセン
ト変換アプリケーションや、ポーズを設定する機能を実
現するポーズ設定アプリケーションや、韻律パタンを生
成する機能を実現する韻律パタン生成アプリケーション
等の各種アプリケーションプログラムが記憶されてい
る。また、実施の形態1の発音文書作成装置100は、
かな漢字変換機能を有しており、このかな漢字変換機能
を実現するかな漢字変換アプリケーションもアプリケー
ション記憶部102に記憶されている。
The application storage unit 102 includes a reading accent conversion application that realizes a function of converting reading to accent, a pause setting application that realizes a function of setting a pause, and a prosody pattern that realizes a function of generating a prosody pattern. Various application programs such as a generation application are stored. Further, the pronunciation document creation device 100 according to the first embodiment includes:
It has a Kana-Kanji conversion function, and a Kana-Kanji conversion application that realizes the Kana-Kanji conversion function is also stored in the application storage unit 102.

【0031】変換辞書103は、文字列(単語)の読み
と対応する漢字を含む文字列が対応付けられて記憶され
た辞書であり、また同様に、文字列(単語)の読みとア
クセントおよびアクセント情報・品詞情報が対応付けら
れて記憶されているデータベース化された辞書でもあ
る。
The conversion dictionary 103 is a dictionary in which the reading of a character string (word) and the character string containing the corresponding kanji are stored in association with each other. It is also a database-based dictionary that stores information and part-of-speech information in association with each other.

【0032】韻律パタンモデル記憶部104は、韻律パ
タンのモデルをあらかじめ記憶し、データベース化され
たメモリである。韻律パタンモデル記憶部104に記憶
される韻律パタンの内容については後述する。
The prosody pattern model storage unit 104 is a memory that stores a model of the prosody pattern in advance and is made into a database. The contents of the prosody pattern stored in the prosody pattern model storage unit 104 will be described later.

【0033】声色記憶部105は、声色の種類別にアク
セント等の素片単位ごとの音響パラメータを表す声色デ
ータを選択可能に格納している。声色記憶部105は、
通信回線や、FD112a、CD−ROM113a等の
記憶媒体を通して声色データ等を追加したり、キー入力
装置106のキー操作によって削除することが可能であ
る。
The timbre storage unit 105 stores selectable timbre data representing acoustic parameters for each unit such as accent for each timbre type. The voice storage unit 105
Voice data or the like can be added through a communication line, a storage medium such as the FD 112a, the CD-ROM 113a, or the like, or can be deleted by a key operation of the key input device 106.

【0034】キー入力装置106は、キーボード、マウ
ス等の入力デバイスを備えており、文字列の入力や、発
音文書の再生指定、発音文書の作成・登録等の各種オペ
レーションをおこなうのに使用される。また、キー入力
装置106には、入力された文字列を漢字を含む文字列
に変換するための変換キーを備えている。
The key input device 106 includes an input device such as a keyboard and a mouse, and is used to perform various operations such as input of a character string, designation of reproduction of a pronunciation document, and creation / registration of a pronunciation document. . Further, the key input device 106 includes a conversion key for converting an input character string into a character string containing kanji.

【0035】表示装置107は、液晶表示装置またはC
RTディスプレイからなり、文字列の表示、発音文書の
表示、各種メッセージの表示等に使用される。
The display 107 is a liquid crystal display or C
An RT display is used for displaying character strings, displaying pronunciation documents, displaying various messages, and the like.

【0036】マイク108は、韻律パタンのモデルを作
成等する場合にもちいる元音声波形データとなるオリジ
ナルの肉声をサンプリングするのに使用される。
The microphone 108 is used to sample the original real voice which is the original voice waveform data used for creating a model of a prosody pattern.

【0037】スピーカ109は、音声合成部105で合
成した音声の再生出力や、各種音の再生に使用される。
The speaker 109 is used for reproducing and outputting the voice synthesized by the voice synthesizing unit 105 and reproducing various sounds.

【0038】発音文書記憶部110は、作成された発音
文書を記憶するメモリである。詳細は後述するが、発音
文書とはアクセント句に関するデータ、ポーズに関する
データ、韻律パタンに関するデータ等を含む入力文字列
に対応する文書データである。
The pronunciation document storage unit 110 is a memory for storing the created pronunciation document. As will be described in detail later, the pronunciation document is document data corresponding to an input character string including data related to accent phrases, data related to pauses, data related to prosodic patterns, and the like.

【0039】I/F111は、バスBSとFDドライブ
112やCD−ROMドライブ113との間でデータ授
受をおこなうユニットである。FDドライブ112は着
脱自在のFD112a(記録媒体)を装着してデータを
読み出したり書き込む動作を実施する。CD−ROMド
ライブ113は着脱自在のCD−ROM113a(記録
媒体)を装着してデータを読み出す動作を実施する。な
お、発音文書記憶部110に記憶されている発音文書
を、I/F111およびFDドライブ112を介してF
D112aに保存することも可能である。
The I / F 111 is a unit for exchanging data between the bus BS and the FD drive 112 or the CD-ROM drive 113. The FD drive 112 carries out an operation of reading and writing data by mounting a removable FD 112a (recording medium). The CD-ROM drive 113 carries out an operation of reading data by mounting a removable CD-ROM 113a (recording medium). The pronunciation document stored in the pronunciation document storage unit 110 is stored in the F / F drive 112 via the I / F 111 and the FD drive 112.
It is also possible to save it in D112a.

【0040】通信部114は、通信回線に接続されてお
り、その通信回線を介して外部装置との通信をおこなう
ものである。
The communication unit 114 is connected to a communication line and communicates with an external device via the communication line.

【0041】なお、実施の形態1では、キー入力装置1
06を介して文字列を入力する場合を例として説明する
が、特にこれに限定するものではなく、手書き入力装置
を接続して、手書きの文字を判別(文字認識)して文字
列を入力してもよく、さらにあらかじめ作成したワード
プロセッサ文書等から文字列を入力してもよい。
In the first embodiment, the key input device 1
A case of inputting a character string via the input line 06 will be described as an example. However, the present invention is not limited to this. A handwriting input device is connected, and a character string is input by determining (character recognition) a handwritten character. Alternatively, a character string may be input from a word processor document or the like created in advance.

【0042】図2は、実施の形態1の発音文書作成装置
100の外観図を示す。図示の如く、ハードウェアの構
成としては、マイク108およびスピーカ109を有し
たパソコンを使用することが可能である。
FIG. 2 is an external view of the pronunciation document creating apparatus 100 according to the first embodiment. As illustrated, as a hardware configuration, a personal computer having a microphone 108 and a speaker 109 can be used.

【0043】つぎに、実施の形態1の発音文書作成装置
100の構成を機能的に説明する。図3は、実施の形態
1の発音文書作成装置100の機能的構成を示す機能ブ
ロック図である。図3において、発音文書作成装置10
0は、入力部301と、変換部302と、アクセント句
生成部303と、ポーズ設定部304と、韻律パタン生
成部305と、表示部306と、音声合成部307と、
音声出力部308とを含む構成である。
Next, the configuration of the pronunciation document creating apparatus 100 according to the first embodiment will be functionally described. FIG. 3 is a functional block diagram illustrating a functional configuration of the pronunciation document creation device 100 according to the first embodiment. In FIG. 3, the pronunciation document creation device 10
0 indicates an input unit 301, a conversion unit 302, an accent phrase generation unit 303, a pause setting unit 304, a prosody pattern generation unit 305, a display unit 306, a speech synthesis unit 307,
The configuration includes an audio output unit 308.

【0044】入力部301は、かな文字列を入力するも
のである。具体的には、たとえば、キー入力装置106
により、または、通信部114により、かな文字を入力
することにより実現するものである。
The input section 301 is for inputting a kana character string. Specifically, for example, the key input device 106
Or by inputting kana characters through the communication unit 114.

【0045】変換部302は、入力部301により入力
されたかな文字列をその読みに対応する漢字を含む文字
列に変換するとともに、前記読みに対応するアクセント
に変換し、その際、アクセント情報および品詞情報を当
該アクセントに付加するものである。変換処理は、具体
的には、たとえば、キー入力装置106に備えられてい
る図示しない変換キーの押下によりおこなわれる。
The conversion unit 302 converts the kana character string input by the input unit 301 into a character string including a kanji corresponding to the reading, and also converts the character string into an accent corresponding to the reading. The part of speech information is added to the accent. The conversion process is specifically performed by, for example, pressing a not-shown conversion key provided on the key input device 106.

【0046】変換部302は、助詞の『は』あるいは
『へ』の読みを品詞情報に基づいてアクセントである
『ワ』あるいは『エ』に変換する。また、変換部302
は、読みの長音化機能も備えている。たとえば、『がっ
こう』と入力すると、より自然な喋り方に近いアクセン
トである『ガッコー』に変換する。
The conversion unit 302 converts the reading of the particles "wa" or "he" into accents "wa" or "e" based on the part of speech information. Also, the conversion unit 302
Also has a function to lengthen the reading. For example, if you enter "Gakuko", it will be converted to "Gacco" which is an accent closer to a more natural way of speaking.

【0047】アクセント句生成部303は、入力部30
1により入力された文字列中の単語の読みと変換部30
2により変換されたアクセント情報と品詞とに基づいて
複数のアクセントを結合することにより、アクセント句
を生成するものである。アクセント情報としては、たと
えばアクセント型等が含まれる。さらに、アクセント結
合属性等をアクセント情報に含めてもよい。
The accent phrase generation unit 303 includes the input unit 30
Reading and conversion unit 30 for words in the character string input by
The accent phrase is generated by combining a plurality of accents based on the accent information and the part of speech converted by step 2. The accent information includes, for example, an accent type. Further, an accent combination attribute or the like may be included in the accent information.

【0048】図4は、実施の形態1の発音文書作成装置
におけるアクセント句の生成を示す説明図である。図4
において、入力文字列『かぶしき』に対して、読みに対
応するアクセントと、アクセント情報として「2型アク
セント」と、品詞情報として「名詞」が変換辞書に記憶
されており、変換キーの押下等の操作により、変換部3
02によって、入力文字列『かぶしき』に対してアクセ
ント情報(アクセント型)である「2型アクセント」お
よび品詞情報である「名詞」が付加される。また同様
に、変換部302によって、入力文字列『がいしゃ』に
対してアクセント情報(アクセント型)である「0型ア
クセント」および品詞情報である「名詞」が付加され
る。さらに同様に、変換部302によって、入力文字列
『の』に対してはアクセント情報は特に付加されず、品
詞情報である「助詞」のみが付加される。
FIG. 4 is an explanatory diagram showing the generation of accent phrases in the pronunciation document creation device according to the first embodiment. FIG.
In the input character string "kabushiki", the accent corresponding to the reading, "type 2 accent" as accent information, and "noun" as part of speech information are stored in the conversion dictionary. Operation, the conversion unit 3
With 02, "2 type accent" as accent information (accent type) and "noun" as part of speech information are added to the input character string "kabushiki". Similarly, the conversion unit 302 adds “0-type accent” as accent information (accent type) and “noun” as part-of-speech information to the input character string “gaisha”. Similarly, the conversion unit 302 does not particularly add accent information to the input character string “no”, but adds only “particles” as part of speech information.

【0049】アクセント句生成部303が変換されたア
クセントをアクセント情報および品詞情報に基づいて結
合することにより、上記入力文字列『かぶしき』、『が
いしゃ』、『の』から『カブシキガ’イシャノ』という
アクセント句が生成されるものである。
The accent phrase generator 303 combines the converted accents based on the accent information and the part-of-speech information, thereby converting the input character strings "kabushiki", "gaisha", "no" to "kabushiga'ishana". Is generated.

【0050】ポーズ設定部304は、アクセント句生成
部303により生成された複数のアクセント句の間のど
の位置にどのくらいの長さで無音区間(ポーズ)を挿入
するか等のポーズ情報を設定するものである。ポーズ情
報の設定、すなわちポーズの挿入は手動によりおこなわ
れる。具体的には、たとえば、表示装置107により表
示されたアクセント句の所望の位置に所望の長さのポー
ズを挿入することにより実現するものである。ポーズの
挿入は手動でおこなわれるほか、定型のポーズ等であれ
ば、所定の条件にしたがって自動で挿入することも可能
である。また、挿入されたポーズも表示装置107に表
示される。
The pause setting section 304 sets pose information such as where and how long a silent section (pause) is to be inserted between a plurality of accent phrases generated by the accent phrase generation section 303. It is. The setting of the pose information, that is, the insertion of the pose, is performed manually. Specifically, for example, it is realized by inserting a pause of a desired length at a desired position of the accent phrase displayed by the display device 107. In addition to the manual insertion of the pose, it is also possible to automatically insert the pose according to a predetermined condition in a fixed pose or the like. The inserted pose is also displayed on the display device 107.

【0051】韻律パタン生成部305は、ポーズ設定部
304によりポーズ情報が設定された複数のアクセント
句から構成される文単位で、ピッチパタン・各音節の時
間長等の韻律パタンを生成するものである。具体的に
は、文単位でピッチパタンおよび各音節の時間長を求め
ることにより韻律パタンを生成する。
The prosody pattern generation unit 305 generates a prosody pattern such as a pitch pattern and a time length of each syllable in units of sentences composed of a plurality of accent phrases in which the pause information is set by the pause setting unit 304. is there. Specifically, a prosody pattern is generated by obtaining a pitch pattern and a time length of each syllable for each sentence.

【0052】韻律パタンの生成の方法としては、あらか
じめ用意された韻律パタンモデル記憶部104に記憶さ
れた複数種類の韻律パタンモデルをもちいる方法が考え
られる。当該複数種類の韻律パタンモデルの中から、ア
クセント情報、アクセントの位置、アクセント句の数等
の条件から、最適のモデルを抽出することにより、韻律
パタンを生成することができる。また、操作者が所望の
モデルを選択することにより、当該所望のモデルをもち
いるような韻律パタンとしてもよい。さらにまた、上記
の条件をもちいて、データベース化された韻律パタンの
中から選択することにより、韻律パタンを生成するよう
にしてもよい。
As a method of generating a prosody pattern, a method using a plurality of types of prosody pattern models stored in a prepared prosody pattern model storage unit 104 can be considered. A prosody pattern can be generated by extracting an optimal model from among the plurality of types of prosody pattern models from conditions such as accent information, accent positions, and the number of accent phrases. Further, the prosody pattern may be such that the operator selects a desired model and uses the desired model. Furthermore, a prosody pattern may be generated by selecting from prosody patterns in a database using the above conditions.

【0053】また、表示部306は、発音文書、すなわ
ち、アクセント句生成部303により生成されたアクセ
ント句および/またはポーズ設定部304により設定さ
れたポーズ情報および/または韻律パタン生成部305
手段により生成された韻律パタンを表示するものであ
る。具体的には、たとえば、表示装置107をもちいる
ことにより実現するものである。また、表示部306
は、変換された漢字を含む文字列の漢字の部分にその漢
字の読みをルビで表示するようにしてもよい。
The display unit 306 displays a pronunciation document, that is, an accent phrase generated by the accent phrase generation unit 303 and / or pause information set by the pause setting unit 304 and / or a prosody pattern generation unit 305.
The prosody pattern generated by the means is displayed. Specifically, for example, it is realized by using the display device 107. The display unit 306
May display the reading of the kanji in ruby at the kanji portion of the character string containing the converted kanji.

【0054】また、音声合成部307は、アクセント句
生成部303により生成されたアクセント句と、ポーズ
設定部304により設定されたポーズ情報と、韻律パタ
ン生成部305により生成された韻律パタンからなる発
音文書と声色記憶部105に格納された声色データとを
もちいて音声を合成するものである。また、音声出力部
308は、音声合成部307により合成された音声を出
力するものである。具体的には、スピーカ109等によ
り実現するものである。
Further, the speech synthesis unit 307 generates the accent phrase generated by the accent phrase generation unit 303, the pause information set by the pause setting unit 304, and the pronunciation composed of the prosody pattern generated by the prosody pattern generation unit 305. The voice is synthesized using the document and the timbre data stored in the timbre storage unit 105. The audio output unit 308 outputs the audio synthesized by the audio synthesis unit 307. Specifically, it is realized by the speaker 109 and the like.

【0055】なお、入力部301、変換部302、アク
セント句生成部303、ポーズ設定部304、韻律パタ
ン生成部305、表示部306、音声合成部307、音
声出力部308はそれぞれ、ROM101b、RAM1
01cまたはアプリケーション記憶部102、フロッピ
ーディスク112a、CD−ROM113a等の記録媒
体に記録されたプログラムに記載された命令にしたがっ
てCPU101a等が命令処理を実行することにより、
各部の機能を実現するものである。
The input unit 301, the conversion unit 302, the accent phrase generation unit 303, the pause setting unit 304, the prosody pattern generation unit 305, the display unit 306, the voice synthesis unit 307, and the voice output unit 308 are respectively ROM101b and RAM1.
01c or the application storage unit 102, the floppy disk 112a, the CD-ROM 113a, and the like.
The function of each part is realized.

【0056】以上の構成において、発音文書作成の一連
の処理の手順について説明する。図5は、実施の形態1
の発音文書作成装置の発音文書作成処理の手順を示すフ
ローチャートである。図5のフローチャートにおいて、
まず、キー入力装置106から文字の入力を待つ(ステ
ップS501)。文字の入力は、通常のワードプロセッ
サと同様の方法によりおこなわれる。
In the above configuration, a procedure of a series of processes for creating a pronunciation document will be described. FIG. 5 shows the first embodiment.
4 is a flowchart showing the procedure of a pronunciation document creation process of the pronunciation document creation device of FIG. In the flowchart of FIG.
First, the process waits for a character input from the key input device 106 (step S501). Input of characters is performed in the same manner as in a normal word processor.

【0057】文字の入力がなされた場合(ステップS5
01肯定)は、つぎに、変換キーが押下されたか否かを
判断する(ステップS502)。変換キーが押下される
のは、通常、文節の区切りの時点であったり、アクセン
ト句の区切りの時点であったりする。ここで、変換キー
が押下されない場合(ステップS502否定)は、未だ
文節等の区切りではなく、さらに文字の入力が有ると判
断し、ステップS501へ移行し、さらなる文字の入力
を待つ。
When a character is input (step S5)
(01 affirmative), it is determined whether or not the conversion key has been pressed (step S502). The conversion key is usually pressed at the time of a phrase break or at the time of an accent phrase break. Here, if the conversion key is not pressed (No at step S502), it is determined that there is still a character input, not a break of a clause or the like, and the process proceeds to step S501 to wait for further character input.

【0058】変換キーが押下された場合(ステップS5
02肯定)は、つぎに、キー入力装置106等からアク
セントの入力が有ったか否かを判断し(ステップS50
3)、直接アクセントの入力があった場合(ステップS
503肯定)は、何もせずにステップS506へ移行す
る。
When the conversion key is pressed (step S5)
(02 affirmative), it is determined whether or not an accent has been input from the key input device 106 or the like (step S50).
3) If there is a direct input of an accent (step S
(503 affirmative) shifts to step S506 without doing anything.

【0059】ステップS503において、アクセントの
入力がなかった場合は(ステップS503否定)は、入
力された文字列に対応するアクセントおよびアクセント
情報・品詞情報を変換辞書103から読み出して、それ
ぞれアクセントに変換し、アクセント情報・品詞情報を
付加する(ステップS504)。この際、文字列に対し
て複数のアクセント、アクセント情報・品詞情報の候補
が変換辞書103内に存在する場合は、従来技術のかな
漢字変換の方法と同様の方法により、それらの候補を表
示させ、選択させることにより変換を確定させることが
できる(ステップS505)。したがって、変換が確定
したか否かを判断し(ステップS505)、確定しない
場合(ステップS505否定)は、ステップS504へ
移行し、変換が確定するまで、変換処理を繰り返しおこ
なう。
If there is no input of an accent at step S503 (No at step S503), the accent and the accent information / speech information corresponding to the input character string are read out from the conversion dictionary 103 and converted into accents. Then, accent information and part of speech information are added (step S504). At this time, if a plurality of accents, accent information / speech information candidates exist for the character string in the conversion dictionary 103, the candidates are displayed by the same method as the conventional kana-kanji conversion method, By making the selection, the conversion can be determined (step S505). Therefore, it is determined whether or not the conversion is determined (step S505). If the conversion is not determined (No at step S505), the process proceeds to step S504, and the conversion process is repeated until the conversion is determined.

【0060】変換が確定した場合(ステップS505肯
定)は、つぎに、入力された文字列の読みと、ステップ
S504において変換されたアクセントと、アクセント
に付加されたアクセント情報・品詞情報に基づいてアク
セント句を生成する(ステップS506)。アクセント
句の生成の方法については、上述のとおりである。その
後、ステップS507へ移行する。
If the conversion is determined (Yes at step S505), then, based on the reading of the input character string, the accent converted at step S504, and the accent information / part-of-speech information added to the accent, A phrase is generated (step S506). The method of generating the accent phrase is as described above. After that, the procedure moves to step S507.

【0061】ステップS507では、変換辞書103を
もちいて、ステップS501によって入力された文字列
に対応する漢字を含む文字列へ変換する。変換の方法は
従来のかな漢字変換の方法と同様である。変換が確定し
たか否かを判断し(ステップS508)、変換が確定し
ない場合(ステップS508否定)は、ステップS50
7へ移行し、変換が確定するまで、変換処理(ステップ
S507)を繰り返しおこなう。変換が確定した場合
(ステップS508肯定)は、ステップS509へ移行
する。
In step S507, the conversion dictionary 103 is used to convert the character string input in step S501 into a character string containing kanji. The conversion method is the same as the conventional Kana-Kanji conversion method. It is determined whether or not the conversion is determined (step S508), and if the conversion is not determined (No at step S508), step S50 is performed.
7 and the conversion process (step S507) is repeated until the conversion is determined. When the conversion is determined (Yes at Step S508), the process proceeds to Step S509.

【0062】なお、アクセントに変換し、アクセント情
報・品詞情報を付加した後、かな漢字変換をおこなうよ
うにしたが、この順序は逆であってもよい。また、変換
候補が有る場合、漢字を含む文字列の候補およびアクセ
ント、アクセント情報・品詞情報の候補を同時に表示
し、その中から、所望の組み合わせで選択させるように
し、変換を確定するようにしてもよい。
It is to be noted that the kana-kanji conversion is performed after conversion into accents and addition of accent information and part-of-speech information, but the order may be reversed. If there are conversion candidates, character string candidates including kanji and accents, accent information / speech information candidates are simultaneously displayed, and a desired combination is selected from among them to confirm the conversion. Is also good.

【0063】つぎに、ステップS509において、文の
区切りを示す句点またはリターンキーの入力があったか
否かを判断し、入力がなければ(ステップS509否
定)、ステップS501へ移行し、ステップS501〜
S509までを繰り返しおこなう。
Next, in step S509, it is determined whether or not there is an input of a punctuation mark indicating a sentence delimiter or a return key. If there is no input (step S509: No), the process proceeds to step S501, and the process proceeds to step S501.
Steps up to S509 are repeated.

【0064】ステップS509において、句点またはリ
ターンキーの入力があった場合(ステップS509肯
定)は、つぎに、ポーズの設定をおこなう(ステップS
510)。ポーズの設定の方法は上述のとおりである。
また、この処理ステップにおいて、離散的な韻律情報を
得ることができる。
In step S509, if there is an input of a period or a return key (Yes in step S509), a pause is set (step S509).
510). The method of setting the pose is as described above.
In this processing step, discrete prosody information can be obtained.

【0065】つぎに、韻律パタンの生成をおこなう(ス
テップS511)。韻律パタンの生成の方法は上述のと
おりである。さらに、韻律パタンの生成がおこなわれた
発音文書を発音文書記憶部110に記憶する(ステップ
S512)。
Next, a prosody pattern is generated (step S511). The method of generating the prosody pattern is as described above. Further, the pronunciation document in which the prosody pattern has been generated is stored in the pronunciation document storage unit 110 (step S512).

【0066】さらに、発音文書を表示装置107に表示
し(ステップS513)、すべての処理を終了する。
Further, the pronunciation document is displayed on the display device 107 (step S513), and all the processing ends.

【0067】つぎに、発音文書の音声出力処理について
説明する。図6は、実施の形態1による発音文書の作成
装置における発音文書の音声出力の処理の手順を示すフ
ローチャートである。図6のフローチャートにおいて、
音声出力の指示があったか否かを判断し(ステップS6
01)、出力指示を待って(ステップS601肯定)、
該当する発音文書を発音文書記憶部110から読み出す
(ステップS602)。
Next, the sound output processing of the pronunciation document will be described. FIG. 6 is a flowchart illustrating a procedure of a sound output process of a pronunciation document in the pronunciation document creation device according to the first embodiment. In the flowchart of FIG.
It is determined whether a voice output instruction has been given (step S6).
01), and waits for an output instruction (Yes at step S601).
The corresponding pronunciation document is read from the pronunciation document storage unit 110 (step S602).

【0068】つぎに、読み出された発音文書の発音デー
タと声色記憶部105に記憶された声色データをもちい
て音声合成をおこなう(ステップS603)。その後、
合成音声をスピーカ109をもちいて出力する(ステッ
プS604)。
Next, speech synthesis is performed using the read pronunciation data of the pronunciation document and the timbre data stored in the timbre storage unit 105 (step S603). afterwards,
The synthesized voice is output using the speaker 109 (step S604).

【0069】以上説明したように、この実施の形態1に
よれば、文字列を入力し、かな漢字変換をおこなうのと
同様に変換キーを押下するだけで、発音文書を作成する
ことができる。その際、かな漢字変換の変換キーのタイ
ミング情報をアクセント句の区切り位置として利用する
ことによりアクセント句の区切りの誤りを減少させるこ
とができる。また、当該作成された発音文書を表示する
ことができる。さらにまた、当該作成された発音文書の
内容を音声合成出力することができる。
As described above, according to the first embodiment, it is possible to create a pronunciation document simply by inputting a character string and pressing a conversion key in the same manner as when performing kana-kanji conversion. At this time, by using the timing information of the conversion key of the Kana-Kanji conversion as an accent phrase delimiter position, errors in accent phrase delimiter can be reduced. In addition, the created pronunciation document can be displayed. Furthermore, the contents of the created pronunciation document can be synthesized and output.

【0070】なお、実施の形態1においては、日本語の
発音文書作成の方法についてのみ説明したが、それには
限定されず、英文の発音文書作成法であってもよい。そ
の場合、単語のスペルを入力し、単語間のスペースキー
の入力に対応して、単語の読み(発音)に対応するアク
セントに変換するようにすれば、日本語の発音文書の作
成と同様に英語の発音文書の作成をおこなうことができ
る。
In the first embodiment, only the method of creating a Japanese pronunciation document has been described. However, the present invention is not limited to this, and an English pronunciation document creation method may be used. In that case, if you input the spelling of the word and convert it to an accent corresponding to the reading (pronunciation) of the word in response to the input of the space key between the words, you can create Can create English pronunciation documents.

【0071】(実施の形態2)さて、上述した実施の形
態1では、文字列を入力し、かな漢字変換をおこなうの
と同様に変換キーを押下することにより、発音文書を作
成するようにしたが、以下に説明する実施の形態2のよ
うに、一旦作成された発音文書をより自然な喋り方にな
るように変更するために発音文書を編集するようにして
もよい。
(Embodiment 2) In Embodiment 1 described above, a pronunciation string is created by inputting a character string and pressing a conversion key as in the case of performing kana-kanji conversion. However, as in the second embodiment described below, the pronunciation document may be edited in order to change the once created pronunciation document to a more natural way of speaking.

【0072】この発明の実施の形態2による発音文書作
成装置700のハードウエア構成および外観図について
は実施の形態1の図1および図2の発音文書作成装置1
00と同様であるので、その説明は省略する。また、図
7は、発音文書作成装置700の機能的構成を示す機能
ブロック図である。図7において、発音文書作成装置7
00は、編集部700をのぞく他の各部は実施の形態1
の図3の発音文書作成装置100の各部と同様の構成で
あるので、同一の符号を付してその説明を省略する。
For the hardware configuration and external view of the pronunciation document generation device 700 according to the second embodiment of the present invention, refer to FIG. 1 and FIG.
Since it is the same as 00, its description is omitted. FIG. 7 is a functional block diagram showing a functional configuration of the pronunciation document creation device 700. In FIG. 7, the pronunciation document creation device 7
00 is the same as in the first embodiment except for the editing unit 700.
3 has the same configuration as that of each part of the pronunciation document creating apparatus 100 shown in FIG.

【0073】図7において、編集部701は、アクセン
ト句生成部303により生成されたアクセント句および
/またはポーズ設定部304により設定されたポーズ情
報および/または韻律パタン生成部305により生成さ
れた韻律パタンを編集するものである。具体的には、読
みの修正、アクセント型の修正、アクセント句の区切り
の挿入・削除、ポーズ情報の変更、韻律パタンの変更等
をおこなうものである。
In FIG. 7, the editing unit 701 includes an accent phrase generated by the accent phrase generation unit 303 and / or pause information set by the pause setting unit 304 and / or a prosody pattern generated by the prosody pattern generation unit 305. Is to edit. Specifically, correction of reading, correction of accent type, insertion / deletion of a break of an accent phrase, change of pause information, change of prosody pattern, and the like are performed.

【0074】上記のように読みの修正もおこなうことか
ら、その読みに対応する漢字およびアクセント変換をお
こなうことができる変換部302の一部の機能も備えて
いる。
Since the reading is also corrected as described above, a part of the function of the conversion unit 302 capable of performing kanji and accent conversion corresponding to the reading is also provided.

【0075】編集の方法としては、表示装置107に表
示された発音文書を参照して、キー入力装置106をも
ちいて、変数データを入力することによりおこなう。こ
れは、ワードプロセッサにより作成した文書を編集する
のと同様の方法によりおこなうものである。
The editing method is performed by inputting variable data using the key input device 106 with reference to the pronunciation document displayed on the display device 107. This is performed by the same method as editing a document created by a word processor.

【0076】つぎに、編集処理の手順について説明す
る。図8は、実施の形態2の文書作成装置の編集部70
1の編集処理の手順を示すフローチャートである。図8
のフローチャートにおいて、まず、編集指示があったか
否かを判断し(ステップS801)、編集指示を待って
(ステップS801肯定)、該当する発音文書を発音文
書記憶部110から読み出す(ステップS802)。
Next, the procedure of the editing process will be described. FIG. 8 shows the editing unit 70 of the document creation device according to the second embodiment.
9 is a flowchart illustrating a procedure of one editing process. FIG.
First, it is determined whether or not there is an editing instruction (step S801), and after waiting for the editing instruction (Yes at step S801), the corresponding pronunciation document is read from the pronunciation document storage unit 110 (step S802).

【0077】つぎに、読み出された発音文書の編集をお
こなう(ステップS803)。その後、編集処理が終了
したか否かを判断し(ステップS804)、終了してい
ない場合(ステップS804否定)は、ステップS80
3へ移行し、編集処理を繰り返しおこなう。
Next, the read pronunciation document is edited (step S803). Thereafter, it is determined whether or not the editing process has been completed (step S804). If the editing process has not been completed (step S804: No), the process proceeds to step S80.
3 and the editing process is repeated.

【0078】ステップS804において、編集処理が終
了した場合(ステップS804肯定)は、編集処理がお
こなわれた発音文書の内容を確認するために、編集がお
こなわれた発音文書の発音データと声色記憶部105に
記憶された声色データをもちいて音声合成をおこなう
(ステップS805)。その後、合成音声をスピーカ1
09をもちいて出力する(ステップS806)。
If the editing process has been completed in step S804 (Yes at step S804), the pronunciation data of the edited pronunciation document and the timbre storage unit are checked in order to confirm the contents of the edited pronunciation document. Voice synthesis is performed using the timbre data stored in the memory 105 (step S805). Then, the synthesized voice is sent to the speaker 1
09 is output (step S806).

【0079】合成音声を確認した後、編集のやり直しを
する場合(ステップS807肯定)は、ステップS80
3へ移行し、ステップS803〜S807の各処理を繰
り返しおこなう。編集のやり直しをしない場合、すなわ
ち、編集の内容を確定する場合(ステップS807否
定)は、編集処理がおこなわれた発音文書を発音文書記
憶部110に書き込み(ステップS808)、すべての
処理は終了する。
After the synthesized speech is confirmed, if the editing is to be performed again (Yes at Step S807), Step S80 is performed.
Then, the process proceeds to step S3, and the processes in steps S803 to S807 are repeatedly performed. When the editing is not performed again, that is, when the content of the editing is determined (No at Step S807), the pronunciation document subjected to the editing process is written in the pronunciation document storage unit 110 (Step S808), and all the processing ends. .

【0080】以上説明したように、この発明の実施の形
態2によれば、一旦作成された発音文書を編集するの
で、より自然な喋り方で音声合成することができる発音
文書を得ることができる。
As described above, according to the second embodiment of the present invention, a pronunciation document that has been once created is edited, so that a pronunciation document that can be synthesized in a more natural way of speaking can be obtained. .

【0081】[0081]

【発明の効果】以上説明したように、請求項1の発明に
よれば、かな文字列を入力する入力手段と、前記入力手
段により入力されたかな文字列をその読みに対応する漢
字を含む文字列に変換するとともに、前記読みに対応す
るアクセントに変換し、その際、アクセント情報および
品詞情報を当該アクセントに付加する変換手段と、前記
変換手段により変換されたアクセントおよびアクセント
情報・品詞とに基づいてアクセント句を生成するアクセ
ント句生成手段と、前記アクセント句生成手段により生
成された複数のアクセント句の間のどの位置にどのくら
いの長さで無音区間(ポーズ)を挿入するか等のポーズ
情報を設定するポーズ設定手段と、前記ポーズ設定手段
によりポーズ情報が設定された複数のアクセント句から
構成される文単位でピッチパタン・各音節の時間長等の
韻律パタンを生成する韻律パタン生成手段と、を備えた
ため、文字列を入力し、アクセント句の区切り位置で変
換することにより、自然音声の入力をすることなく、文
書作成者の意図する喋り方で正確に音声を合成するため
の発音文書の作成をすることができ、発音文書の作成効
率および利便性の向上を図ることが可能な発音文書作成
装置が得られるという効果を奏する。
As described above, according to the first aspect of the present invention, an input means for inputting a kana character string and a character including a kanji corresponding to the reading of the kana character string input by the input means are provided. In addition to the conversion into a column, the conversion into an accent corresponding to the reading, the conversion means for adding accent information and part of speech information to the accent, and the accent and accent information / part of speech converted by the conversion means An accent phrase generating means for generating an accent phrase, and pose information such as where and how long a silent section (pause) is to be inserted between the plurality of accent phrases generated by the accent phrase generating means. A sentence unit composed of a pause setting unit to be set and a plurality of accent phrases for which pose information has been set by the pause setting unit Prosody pattern generation means for generating a prosody pattern such as a pitch pattern and a time length of each syllable, so that a character string is input and converted at an accent phrase delimiter without inputting natural speech. Thus, there is provided a pronunciation document creation apparatus capable of creating a pronunciation document for accurately synthesizing speech in a manner intended by the document creator and improving the efficiency and convenience of pronunciation document creation. The effect is that it can be done.

【0082】また、請求項2の発明によれば、請求項1
の発明において、前記アクセント句生成手段により生成
されたアクセント句および/または前記ポーズ設定手段
により設定されたポーズ情報および/または前記韻律パ
タン生成手段により生成された韻律パタンを表示する表
示手段を備えたため、発音文書を表示するので、発音文
書の内容を容易に確認することができ、発音文書の作成
効率および利便性の向上を図ることが可能な発音文書作
成装置が得られるという効果を奏する。
Further, according to the invention of claim 2, according to claim 1
The invention according to the invention, further comprising display means for displaying the accent phrase generated by the accent phrase generation means and / or the pause information set by the pause setting means and / or the prosody pattern generated by the prosody pattern generation means. Since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the pronunciation document creation device capable of improving the efficiency and convenience of creating the pronunciation document can be obtained.

【0083】また、請求項3の発明によれば、請求項1
または2の発明において、さらに、前記アクセント句生
成手段により生成されたアクセント句と、前記ポーズ設
定手段により設定されたポーズ情報と、前記韻律パタン
生成手段により生成された韻律パタンとをもちいて音声
を合成する音声合成手段と、前記音声合成手段により合
成された音声を出力する音声出力手段と、を備えたた
め、発音文書の発音データを音声合成して出力するの
で、発音文書の内容を容易に再生することができ、発音
文書の作成効率および利便性の向上を図ることが可能な
発音文書作成装置が得られるという効果を奏する。
Further, according to the invention of claim 3, according to claim 1
Alternatively, in the invention according to the second aspect, further, a speech is generated by using the accent phrase generated by the accent phrase generation unit, the pose information set by the pause setting unit, and the prosody pattern generated by the prosody pattern generation unit. Since there is provided a voice synthesizing means for synthesizing and a voice output means for outputting a voice synthesized by the voice synthesizing means, the pronunciation data of the pronunciation document is synthesized and output, so that the contents of the pronunciation document can be easily reproduced This makes it possible to obtain a pronunciation document creation device capable of improving pronunciation document creation efficiency and convenience.

【0084】また、請求項4の発明によれば、請求項1
〜3のいずれか一つの発明においてさらに、前記アクセ
ント句生成手段により生成されたアクセント句および/
または前記ポーズ設定手段により設定されたポーズ情報
および/または前記韻律パタン生成手段により生成され
た韻律パタンを編集する編集手段とを備えたため、発音
文書を編集することができるので、作成者の意図する喋
り方により近い発音文書を容易に作成することができ、
発音文書の作成効率および利便性の向上を図ることが可
能な発音文書作成装置が得られるという効果を奏する。
According to the invention of claim 4, according to claim 1,
In the invention according to any one of the first to third aspects, the accent phrase and / or
Alternatively, since there is provided editing means for editing the pause information set by the pause setting means and / or the prosody pattern generated by the prosody pattern generation means, the pronunciation document can be edited, so that the creator's intention You can easily create pronunciation documents closer to how you speak,
There is an effect that a pronunciation document creation device capable of improving the efficiency and convenience of creating pronunciation documents can be obtained.

【0085】また、請求項5の発明によれば、かな文字
列を入力する第1工程と、前記第1工程により入力され
たかな文字列をその読みに対応する漢字を含む文字列に
変換するとともに、前記読みに対応するアクセントに変
換し、その際、アクセント情報および品詞情報を当該ア
クセントに付加する第2工程と、前記第2工程により変
換されたアクセントおよびアクセント情報と品詞とに基
づいてアクセント句を生成する第3工程と、前記第3工
程により生成された複数のアクセント句の間のどの位置
にどのくらいの長さで無音区間(ポーズ)を挿入するか
等のポーズ情報を設定する第4工程と、前記第4工程に
よりポーズ情報が設定された複数のアクセント句から構
成される文単位でピッチパタン・各音節の時間長等の韻
律パタンを生成する第5工程と、を含むため、文字列を
入力し、アクセント句の区切り位置で変換することによ
り、自然音声の入力をすることなく、文書作成者の意図
する喋り方で正確に音声を合成するための発音文書の作
成をすることができ、発音文書の作成効率および利便性
の向上を図ることが可能な発音文書作成方法が得られる
という効果を奏する。
According to the fifth aspect of the present invention, the first step of inputting a kana character string and the kana character string input in the first step are converted into a character string containing a kanji corresponding to the reading. And a second step of converting the accent into an accent corresponding to the reading, and adding the accent information and the part of speech information to the accent, and an accent based on the accent, the accent information and the part of speech converted in the second step. A third step of generating a phrase, and a fourth step of setting pause information such as where and how long a silence section (pause) is to be inserted between the plurality of accent phrases generated in the third step. And generating a prosodic pattern such as a pitch pattern and a time length of each syllable in units of sentences composed of a plurality of accent phrases for which pause information is set in the fourth step. The fifth step includes inputting a character string and converting the character string at a delimiter position of an accent phrase, thereby accurately synthesizing a speech according to a speech style intended by a document creator without inputting a natural speech. Therefore, there is an effect that a pronunciation document creation method that can improve the efficiency and convenience of creating pronunciation documents can be obtained.

【0086】また、請求項6の発明によれば、請求項5
の発明において、さらに、前記第3工程により生成され
たアクセント句および/または前記第4工程により設定
されたポーズ情報および/または前記第5工程により生
成された韻律パタンを表示する第6工程を含むため、発
音文書を表示するので、発音文書の内容を容易に確認す
ることができ、発音文書の作成効率および利便性の向上
を図ることが可能な発音文書作成方法が得られるという
効果を奏する。
Further, according to the invention of claim 6, according to claim 5,
And a sixth step of displaying the accent phrase generated in the third step and / or the pause information set in the fourth step and / or the prosodic pattern generated in the fifth step. Therefore, since the pronunciation document is displayed, the contents of the pronunciation document can be easily confirmed, and the pronunciation document creation method capable of improving the efficiency and convenience of creating the pronunciation document is obtained.

【0087】また、請求項7の発明によれば、請求項5
または6の発明において、さらに、前記第3工程により
生成されたアクセント句と、前記第4工程により設定さ
れたポーズ情報と、前記第5工程により生成された韻律
パタンとをもちいて音声を合成する第7工程と、前記第
7工程により合成された音声を出力する第8工程と、を
含むため、発音文書を表示するので、発音文書の内容を
容易に確認することができ、発音文書の作成効率および
利便性の向上を図ることが可能な発音文書作成方法が得
られるという効果を奏する。
According to the invention of claim 7, according to claim 5,
Alternatively, in the invention according to the sixth aspect, speech is synthesized using the accent phrase generated in the third step, the pause information set in the fourth step, and the prosodic pattern generated in the fifth step. Since the method includes the seventh step and the eighth step of outputting the voice synthesized in the seventh step, the pronunciation document is displayed, so that the content of the pronunciation document can be easily confirmed, and the creation of the pronunciation document can be performed. There is an effect that a pronunciation document creation method capable of improving efficiency and convenience can be obtained.

【0088】また、請求項8の発明は、請求項5〜7の
いずれか一つの発明において、さらに、前記第3工程に
より生成されたアクセント句および/または前記第4工
程により設定されたポーズ情報および/または前記第5
工程により生成された韻律パタンを編集する第9工程と
を含むため、発音文書を編集することができるので、作
成者の意図する喋り方により近い発音文書を容易に作成
することができ、発音文書の作成効率および利便性の向
上を図ることが可能な発音文書作成方法が得られるとい
う効果を奏する。
The invention according to claim 8 is the invention according to any one of claims 5 to 7, further comprising the accent phrase generated in the third step and / or the pose information set in the fourth step. And / or the fifth
Since the method includes a ninth step of editing the prosodic pattern generated by the step, the pronunciation document can be edited, so that a pronunciation document closer to the way of speech intended by the creator can be easily created, and the pronunciation document can be easily created. There is an effect that a pronunciation document creation method capable of improving the creation efficiency and convenience of the pronunciation document can be obtained.

【0089】また、請求項9の発明に係る記憶媒体は、
請求項5〜8のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項5〜8のいずれか一つの動作をコンピュータによ
って実現することが可能な記録媒体が得られるという効
果を奏する。
The storage medium according to the ninth aspect of the present invention
By recording a program for causing a computer to execute the method according to any one of claims 5 to 8, the program becomes machine-readable, whereby
An advantage is obtained in that a recording medium capable of realizing the operation of any one of claims 5 to 8 by a computer is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明による実施の形態1の発音文書作成装
置の概略ブロック図である。
FIG. 1 is a schematic block diagram of a pronunciation document creation device according to a first embodiment of the present invention.

【図2】実施の形態1の発音文書作成装置の外観図であ
る。
FIG. 2 is an external view of a pronunciation document creation device according to the first embodiment.

【図3】実施の形態1の発音文書作成装置の機能的構成
を示す機能ブロック図である。
FIG. 3 is a functional block diagram illustrating a functional configuration of a pronunciation document creation device according to the first embodiment;

【図4】実施の形態1の発音文書作成装置におけるアク
セント句の生成を示す説明図である。
FIG. 4 is an explanatory diagram showing generation of an accent phrase in the pronunciation document creation device according to the first embodiment;

【図5】実施の形態1の発音文書作成装置における発音
文書の作成処理の手順を示すフローチャートである。
FIG. 5 is a flowchart illustrating a procedure of a pronunciation document creation process in the pronunciation document creation device according to the first embodiment;

【図6】実施の形態1の発音文書作成装置における音声
出力処理の手順を示すフローチャートである。
FIG. 6 is a flowchart illustrating a procedure of a sound output process in the pronunciation document creation device according to the first embodiment;

【図7】この発明による実施の形態2の発音文書作成装
置の機能的構成を示す機能ブロック図である。
FIG. 7 is a functional block diagram illustrating a functional configuration of a pronunciation document creation device according to a second embodiment of the present invention;

【図8】実施の形態2の発音文書作成装置における発音
文書の編集処理の手順を示すフローチャートである。
FIG. 8 is a flowchart illustrating a procedure of editing a pronunciation document in the pronunciation document creation device according to the second embodiment;

【符号の説明】 100,700 発音文書作成装置 101 制御部 101a CPU 101b ROM 101c RAM 102 アプリケーション記憶部 103 変換辞書 104 韻律パタンモデル記憶部 105 声色記憶部 106 キー入力装置 107 表示装置 108 マイク 109 スピーカ 110 発音文書記憶部 111 インタフェース(I/F) 112 FDドライブ 113 CD−ROMドライブ 114 通信部 301 入力部 302 変換部 303 アクセント句生成部 304 ポーズ設定部 305 韻律パタン生成部 306 表示部 307 音声合成部 308 音声出力部 701 編集部[Description of Signs] 100, 700 Pronunciation document creation device 101 Control unit 101a CPU 101b ROM 101c RAM 102 Application storage unit 103 Conversion dictionary 104 Prosody pattern model storage unit 105 Voice storage unit 106 Key input device 107 Display device 108 Microphone 109 Speaker 110 Pronunciation document storage unit 111 Interface (I / F) 112 FD drive 113 CD-ROM drive 114 Communication unit 301 Input unit 302 Conversion unit 303 Accent phrase generation unit 304 Pause setting unit 305 Prosodic pattern generation unit 306 Display unit 307 Voice synthesis unit 308 Voice output unit 701 Editing unit

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 文字列を入力する入力手段と、 前記入力手段により入力された文字列をその読みに対応
するアクセントおよびアクセント情報・品詞情報に変換
する変換手段と、 前記変換手段により変換されたアクセントおよびアクセ
ント情報・品詞とに基づいてアクセント句を生成するア
クセント句生成手段と、 前記アクセント句生成手段により生成された複数のアク
セント句の間のどの位置にどのくらいの長さで無音区間
(ポーズ)を挿入するか等のポーズ情報を設定するポー
ズ設定手段と、 前記ポーズ設定手段によりポーズ情報が設定された複数
のアクセント句から構成される文単位でピッチパタン・
各音節の時間長等の韻律パタンを生成する韻律パタン生
成手段と、 を備えたことを特徴とする発音文書作成装置。
An input unit for inputting a character string; a conversion unit for converting the character string input by the input unit into accent and accent information / part of speech information corresponding to the reading; An accent phrase generating means for generating an accent phrase based on the accent and the accent information / part of speech; And a pause setting unit for setting pause information such as whether to insert a pitch pattern.
A prosody pattern generating means for generating a prosody pattern such as a time length of each syllable.
【請求項2】 さらに、前記アクセント句生成手段によ
り生成されたアクセント句および/または前記ポーズ設
定手段により設定されたポーズ情報および/または前記
韻律パタン生成手段により生成された韻律パタンを表示
する表示手段を備えたことを特徴とする請求項1に記載
の発音文書作成装置。
2. A display means for displaying the accent phrase generated by the accent phrase generation means and / or the pause information set by the pause setting means and / or the prosody pattern generated by the prosody pattern generation means. The pronunciation document creating apparatus according to claim 1, further comprising:
【請求項3】 さらに、前記アクセント句生成手段によ
り生成されたアクセント句と、前記ポーズ設定手段によ
り設定されたポーズ情報と、前記韻律パタン生成手段に
より生成された韻律パタンとをもちいて音声を合成する
音声合成手段と、 前記音声合成手段により合成された音声を出力する音声
出力手段と、 を備えたことを特徴とする請求項1または2に記載の発
音文書作成装置。
3. A speech synthesizer using the accent phrase generated by the accent phrase generation unit, the pause information set by the pause setting unit, and the prosody pattern generated by the prosody pattern generation unit. 3. The pronunciation document creating device according to claim 1, further comprising: a voice synthesizing unit that performs voice synthesis;
【請求項4】 さらに、前記アクセント句生成手段によ
り生成されたアクセント句および/または前記ポーズ設
定手段により設定されたポーズ情報および/または前記
韻律パタン生成手段により生成された韻律パタンを編集
する編集手段とを備えたことを特徴とする請求項1〜3
のいずれか一つに記載の発音文書作成装置。
4. An editing means for editing the accent phrase generated by the accent phrase generating means and / or the pause information set by the pause setting means and / or the prosodic pattern generated by the prosodic pattern generating means. 4. The method according to claim 1, wherein
The pronunciation document creation device according to any one of the above.
【請求項5】 文字列を入力する第1工程と、 前記第1工程により入力された文字列をその読みに対応
するアクセントおよびアクセント情報・品詞情報に変換
する第2工程と、 前記第2工程により変換されたアクセントおよびアクセ
ント情報と品詞とに基づいてアクセント句を生成する第
3工程と、 前記第3工程により生成された複数のアクセント句の間
のどの位置にどのくらいの長さで無音区間(ポーズ)を
挿入するか等のポーズ情報を設定する第4工程と、 前記第4工程によりポーズ情報が設定された複数のアク
セント句から構成される文単位でピッチパタン・各音節
の時間長等の韻律パタンを生成する第5工程と、 を含んだことを特徴とする発音文書作成方法。
5. A first step of inputting a character string, a second step of converting the character string input in the first step into accent and accent information / speech information corresponding to the reading, and the second step A third step of generating an accent phrase based on the accent and accent information and the part-of-speech that have been converted by the first and second steps; A fourth step of setting pose information such as whether to insert a pause), and a pitch pattern, a time length of each syllable, and the like in a sentence unit composed of a plurality of accent phrases in which the pause information is set in the fourth step. A fifth step of generating a prosodic pattern; and a pronunciation document creating method.
【請求項6】 さらに、前記第3工程により生成された
アクセント句および/または前記第4工程により設定さ
れたポーズ情報および/または前記第5工程により生成
された韻律パタンを表示する第6工程を含んだことを特
徴とする請求項5に記載の発音文書作成方法。
6. A sixth step of displaying the accent phrase generated in the third step and / or the pause information set in the fourth step and / or the prosodic pattern generated in the fifth step. 6. The pronunciation document creation method according to claim 5, wherein the pronunciation document is included.
【請求項7】 さらに、前記第3工程により生成された
アクセント句と、前記第4工程により設定されたポーズ
情報と、前記第5工程により生成された韻律パタンとを
もちいて音声を合成する第7工程と、 前記第7工程により合成された音声を出力する第8工程
と、 を含んだことを特徴とする請求項5または6に記載の発
音文書作成方法。
7. A method of synthesizing speech using the accent phrase generated in the third step, the pause information set in the fourth step, and the prosodic pattern generated in the fifth step. 7. The pronunciation document creation method according to claim 5, further comprising: a seventh step; and an eighth step of outputting the voice synthesized in the seventh step.
【請求項8】 さらに、前記第3工程により生成された
アクセント句および/または前記第4工程により設定さ
れたポーズ情報および/または前記第5工程により生成
された韻律パタンを編集する第9工程とを含んだことを
特徴とする請求項5〜7のいずれか一つに記載の発音文
書作成方法。
A ninth step of editing the accent phrase generated in the third step and / or the pause information set in the fourth step and / or the prosodic pattern generated in the fifth step. The pronunciation document creation method according to any one of claims 5 to 7, further comprising:
【請求項9】 前記請求項5〜8に記載された方法をコ
ンピュータに実行させるプログラムを記録したことを特
徴とするコンピュータ読み取り可能な記録媒体。
9. A computer-readable recording medium on which a program for causing a computer to execute the method according to claim 5 is recorded.
JP10154279A 1998-06-03 1998-06-03 Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded Pending JPH11344996A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10154279A JPH11344996A (en) 1998-06-03 1998-06-03 Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10154279A JPH11344996A (en) 1998-06-03 1998-06-03 Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded

Publications (1)

Publication Number Publication Date
JPH11344996A true JPH11344996A (en) 1999-12-14

Family

ID=15580693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10154279A Pending JPH11344996A (en) 1998-06-03 1998-06-03 Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded

Country Status (1)

Country Link
JP (1) JPH11344996A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006349787A (en) * 2005-06-14 2006-12-28 Hitachi Information & Control Solutions Ltd Method and device for synthesizing voices

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006349787A (en) * 2005-06-14 2006-12-28 Hitachi Information & Control Solutions Ltd Method and device for synthesizing voices

Similar Documents

Publication Publication Date Title
US20190196666A1 (en) Systems and Methods Document Narration
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
US8793133B2 (en) Systems and methods document narration
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US20080027726A1 (en) Text to audio mapping, and animation of the text
JP2003295882A (en) Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor
JP2013072957A (en) Document read-aloud support device, method and program
JP2007271655A (en) System for adding affective content, and method and program for adding affective content
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP3270356B2 (en) Utterance document creation device, utterance document creation method, and computer-readable recording medium storing a program for causing a computer to execute the utterance document creation procedure
JP6003115B2 (en) Singing sequence data editing apparatus and singing sequence data editing method
JP4409279B2 (en) Speech synthesis apparatus and speech synthesis program
JPH11344996A (en) Pronunciation document creating device, pronunciation document creating method and recording medium readable by computer in which program to make computer execute the method is recorded
JP2001134283A (en) Device and method for synthesizing speech
JP2004145015A (en) System and method for text speech synthesis
JP3668583B2 (en) Speech synthesis apparatus and method
JP2002268664A (en) Voice converter and program
JP2006349787A (en) Method and device for synthesizing voices
JPH08272388A (en) Device and method for synthesizing voice
JP2007127994A (en) Voice synthesizing method, voice synthesizer, and program
JP2003208191A (en) Speech synthesis system
JP3414326B2 (en) Speech synthesis dictionary registration apparatus and method
JP2004258561A (en) Program and device for inputting data for singing synthesis
JPS5991497A (en) Voice synthesization output unit
JP3870583B2 (en) Speech synthesizer and storage medium