JP2007086404A - Speech synthesizer - Google Patents

Speech synthesizer Download PDF

Info

Publication number
JP2007086404A
JP2007086404A JP2005275086A JP2005275086A JP2007086404A JP 2007086404 A JP2007086404 A JP 2007086404A JP 2005275086 A JP2005275086 A JP 2005275086A JP 2005275086 A JP2005275086 A JP 2005275086A JP 2007086404 A JP2007086404 A JP 2007086404A
Authority
JP
Japan
Prior art keywords
speech
user
reading
dictionary database
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005275086A
Other languages
Japanese (ja)
Inventor
Yoshihiko Okada
世志彦 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Embedded Products Ltd
Original Assignee
NEC Embedded Products Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Embedded Products Ltd filed Critical NEC Embedded Products Ltd
Priority to JP2005275086A priority Critical patent/JP2007086404A/en
Publication of JP2007086404A publication Critical patent/JP2007086404A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech synthesizer which can easily perform a dictionary registration. <P>SOLUTION: A speech synthesis engine 21 refers to a dictionary database, producing a reading group from a text data representing a group of words and phrases, converting the reading group into speech, outputting the speech from a loudspeaker 25. A candidate selection part 41 selects a portion corresponding to different reading from the text data based on correct reading input from a microphone 35. A speech synthesis user dictionary registration part 42 registers the portion among two or more words and phrases in the dictionary database making them correspond to the correct reading. Thus, when the above text data is given to the speech synthesizer 1, the the speech synthesis engine 21 can correctly read out the above text data by referring to the dictionary database. Using the speech synthesizer 1, a user has only to input correct reading to the microphone 35 when the text data is read out erroneously. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、音声合成処理を実行する音声合成装置に関する。   The present invention relates to a speech synthesizer that performs speech synthesis processing.

音声合成処理を実行する装置が開発されている。音声合成(Text To Speech)処理とは、文が記載されたテキストデータを音声に変換し、その音声をスピーカから出力させる処理である。このような音声合成処理は、電子メールの読み上げなど一意でないテキストデータを音声に変換するときに、非常に役に立つ。しかしながら、音声合成処理では、テキストデータの読み上げが間違えている場合も少なくない。そのために、テキストデータの異なる読みを訂正する音声合成装置が開発されている。   Devices for executing speech synthesis processing have been developed. The speech synthesis (Text To Speech) process is a process of converting text data in which a sentence is described into speech and outputting the speech from a speaker. Such speech synthesis processing is very useful when converting non-unique text data into speech, such as reading out an e-mail. However, in speech synthesis processing, there are many cases where reading out text data is wrong. Therefore, a speech synthesizer that corrects different readings of text data has been developed.

音声合成処理を実行する音声合成装置を考えてみる。音声合成装置は、コンピュータに設けられ、音声合成エンジンと、辞書データベースと、スピーカとを備えている。辞書データベースは、複数の単語が登録されたメイン辞書データベースと、ユーザ辞書データベースとを含んでいる。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。   Consider a speech synthesizer that performs speech synthesis processing. The speech synthesizer is provided in a computer and includes a speech synthesis engine, a dictionary database, and a speaker. The dictionary database includes a main dictionary database in which a plurality of words are registered and a user dictionary database. Each of the plurality of words includes a plurality of phrases, a plurality of readings, and a plurality of accents.

語句群を表すテキストデータが音声合成装置に与えられたとき、音声合成エンジンは、テキストデータが表す語句群を読み上げる。即ち、音声合成エンジンは、辞書データベースを参照して、テキストデータが表す語句群から読み群を生成する。また、音声合成エンジンは、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。音声合成エンジンは、上記読み群を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカから出力する。ここで、テキストデータの読み上げが間違えているものとする。この場合、ユーザは、テキストデータを正しく読み上げさせるために、入力装置を用いて、辞書登録を行なう。即ち、ユーザは、入力装置(キーボード、ポインティングデバイス)を用いて、テキストデータの異なる読みに対応する語句と、正しい読みと、アクセントとを入力し、ユーザ辞書データベースに登録する。これにより、音声合成装置に上記のテキストデータが与えられたとき、音声合成エンジンは、テキストデータを正しく読み上げることができる。   When text data representing a phrase group is given to the speech synthesizer, the speech synthesis engine reads the phrase group represented by the text data. That is, the speech synthesis engine refers to the dictionary database and generates a reading group from the phrase group represented by the text data. Further, the speech synthesis engine determines a pronunciation accent corresponding to the reading group among a plurality of accents. The speech synthesis engine converts the reading group into speech, and outputs the speech from the speaker using the pronunciation accent. Here, it is assumed that reading of text data is wrong. In this case, the user performs dictionary registration using the input device in order to read the text data correctly. That is, the user inputs words / phrases corresponding to different readings of text data, correct readings, and accents using an input device (keyboard, pointing device) and registers them in the user dictionary database. Thus, when the above text data is given to the speech synthesizer, the speech synthesis engine can read the text data correctly.

しかしながら、そのような音声合成装置では、簡単に辞書登録を行なうことができない。例えば、ユーザは、コンピュータに不慣れであるものとする。この場合、ユーザが辞書登録を行なうときに入力装置を用いるため、その作業が煩雑になってしまう。例えば、ユーザは、目や手が不自由であるものとする。この場合、ユーザが入力装置を用いて辞書登録を行なうことは困難である。   However, such a speech synthesizer cannot easily register a dictionary. For example, it is assumed that the user is unfamiliar with the computer. In this case, since the input device is used when the user performs dictionary registration, the operation becomes complicated. For example, it is assumed that the user has difficulty in eyes and hands. In this case, it is difficult for the user to perform dictionary registration using the input device.

音声合成処理に関連する技術として、特開平5−143637号公報に韻律記号生成装置が開示されている(特許文献1参照)。韻律記号生成装置は、文字列の解析結果に基づいて韻律記号を生成する装置であり、未登録語検出手段と、未登録語提示手段と、語登録手段とを有していることを特徴としている。未登録語検出手段は、韻律記号を生成する際の解析対象となる文字列中に辞書登録されていない語があるか否かを調べ、辞書登録されていない語があるときにこれを未登録語として検出する。未登録語提示手段は、未登録語が検出されたときに該未登録語を操作者に提示する。語登録手段は、韻律記号を生成するための文字列解析に先立って所定の語を辞書に登録可能にする。この韻律記号生成装置では、語句群を表すテキストデータから読み群を生成する際に、辞書に登録されていない未登録語(語句)がテキストデータに含まれている場合、ユーザに辞書登録の入力を促している。   As a technique related to speech synthesis processing, Japanese Patent Laid-Open No. 5-143737 discloses a prosodic symbol generation apparatus (see Patent Document 1). The prosodic symbol generation device is a device that generates a prosodic symbol based on the analysis result of a character string, and includes unregistered word detection means, unregistered word presentation means, and word registration means. Yes. The unregistered word detection means checks whether there is a word that is not registered in the dictionary in the character string to be analyzed when generating the prosodic symbol, and if there is a word that is not registered in the dictionary, this is unregistered Detect as a word. The unregistered word presenting means presents the unregistered word to the operator when the unregistered word is detected. The word registration means enables a predetermined word to be registered in the dictionary prior to character string analysis for generating prosodic symbols. In this prosodic symbol generation device, when generating a reading group from text data representing a phrase group, if the text data includes unregistered words (phrases) that are not registered in the dictionary, the user is prompted to enter a dictionary registration. Prompts.

特開平5−233625号公報に文章読み上げ装置が開示されている(特許文献2参照)。文章読み上げ装置は、音声合成装置と、処理装置と、表記文字列、品詞、発音およびアクセント等からなる辞書を貯蔵した記憶装置と、任意の文章を入力するための入力装置を備え、前記辞書を参照して入力された文章から文章を構成する単語の発音およびアクセントを含む単語情報を得、前記単語情報を基に文章の音声出力を行う装置である。文章読み上げ装置では、処理装置に第1の手段と、第2の手段とを設けたことを特徴としている。前記第1の手段は、前記単語情報に含まれるアクセントが、アクセントが辞書に未登録であることを表わすあらかじめ決められた値をとる場合に、前記アクセントを前記単語情報より推定し、前記推定したアクセントと単語情報を基に文章の音声出力を行う。前記第2の手段は、前記入力された文章を構成する語句を示す範囲指定情報と前記範囲指定情報で示される語句を音声出力する場合のアクセントを前記入力装置から入力し、前記語句を構成する単語の単語情報が、前記アクセント未登録値をアクセントとして有する場合、前記入力されたアクセントと前記語句を構成する単語の単語情報から、前記アクセントが未登録である単語のアクセントを復元し、前記復元したアクセントを前記アクセント未登録値の代わりに前記辞書に登録する。この文章読み上げ装置では、アクセント未登録語のアクセントを推定することにより、アクセントにおける辞書登録を容易に行なっている。   Japanese Patent Laid-Open No. 5-233625 discloses a text-to-speech device (see Patent Document 2). The text-to-speech device includes a speech synthesizer, a processing device, a storage device storing a dictionary composed of written character strings, parts of speech, pronunciations, accents, and the like, and an input device for inputting arbitrary text, the dictionary This is an apparatus that obtains word information including pronunciation and accent of a word constituting a sentence from a sentence inputted by reference, and performs voice output of the sentence based on the word information. The text-to-speech device is characterized in that the processing device is provided with first means and second means. The first means estimates the accent from the word information when the accent included in the word information takes a predetermined value indicating that the accent is not registered in the dictionary, and the estimated Sentences are output based on accent and word information. The second means inputs the range designation information indicating the words constituting the inputted sentence and the accent when outputting the words indicated by the range designation information from the input device, and constitutes the words When the word information of the word has the accent unregistered value as an accent, the accent of the word whose accent is unregistered is restored from the input accent and the word information of the word constituting the phrase, and the restoration is performed. The registered accent is registered in the dictionary instead of the accent unregistered value. In this text-to-speech device, dictionary registration in an accent is easily performed by estimating the accent of an unaccented word.

特開平5−143637号公報Japanese Patent Laid-Open No. 5-143737 特開平5−233625号公報JP-A-5-233625

本発明の課題は、簡単に辞書登録を行なうことができる音声合成装置を提供することにある。
本発明の他の課題は、テキストデータを正しく読み上げることができる音声合成装置を提供することにある。
An object of the present invention is to provide a speech synthesizer that can easily perform dictionary registration.
Another object of the present invention is to provide a speech synthesizer capable of correctly reading text data.

以下に、[発明を実施するための最良の形態]で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。   Hereinafter, means for solving the problem will be described using the numbers and symbols used in [Best Mode for Carrying Out the Invention]. These numbers and symbols are added to clarify the correspondence between the description of [Claims] and the description of [Best Mode for Carrying Out the Invention]. It should not be used to interpret the technical scope of the invention described in “

本発明の音声合成装置(1)は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、格納部(図示しない)と、制御部(図示しない)と、スピーカ(25)と、マイク(35)とを具備している。前記格納部には、複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納されている。前記制御部は、前記コンピュータプログラムを実行する。
前記制御部は、音声合成エンジン(21)と、選択部(41)と、ユーザ辞書登録部(42)とを具備している。
前記音声合成エンジン(21)は、前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカ(25)から出力する。
前記選択部(41)は、マイク(35)から入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する。
前記ユーザ辞書登録部(42)は、前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録する。
これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、ユーザ辞書データベース(27)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置(1)によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク(35)により入力するだけでよい。このため、本発明の音声合成装置(1)は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。
The speech synthesizer (1) of the present invention is applied to a computer that can use e-mail and the Internet, for example. The computer includes a storage unit (not shown), a control unit (not shown), a speaker (25), and a microphone (35). The storage unit stores a dictionary database that associates a plurality of words with a plurality of readings, and a computer program. The control unit executes the computer program.
The control unit includes a speech synthesis engine (21), a selection unit (41), and a user dictionary registration unit (42).
The speech synthesis engine (21) refers to the dictionary database, generates a reading group from text data representing a phrase group, converts the reading group into speech, and outputs the speech from a speaker (25).
The selection unit (41) selects a part corresponding to a different reading from the text data based on a correct reading input from the microphone (35).
The user dictionary registration unit (42) registers the portion of the plurality of words in the dictionary database in association with the correct reading.
Thus, when the text data is given to the speech synthesizer (1) of the present invention, the speech synthesizer engine (21) refers to the dictionary database {main dictionary database (26), user dictionary database (27)}. Thus, the phrase group represented by the text data can be read out correctly.
Further, according to the speech synthesizer (1) of the present invention, when the reading of the text data is wrong, the user inputs the correct reading to the part corresponding to the different reading of the text data by the microphone (35). Just do it. For this reason, the speech synthesizer (1) of the present invention can perform dictionary registration more easily than when dictionary registration is performed using an input device. Therefore, even a user unfamiliar with a computer can easily register a dictionary. In addition, even a user with impaired eyes and hands can easily register a dictionary.

本発明の音声合成装置(1)は、更に、音声認識エンジン(31)を具備している。前記音声認識エンジン(31)は、前記正しい読みとして前記マイク(35)からユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する。
前記音声合成エンジン(21)は、前記テキストデータが表す語句群から複数の誤り候補を生成する。前記複数の誤り候補は、複数の読み方がある語句や、前記辞書データベースに登録されていない語句を含んでいる。
前記選択部(41)は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する。
このように、本発明の音声合成装置(1)では、テキストデータの異なる読みに対してユーザが正しい読みをマイク(35)により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置(1)は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
The speech synthesizer (1) of the present invention further includes a speech recognition engine (31). The voice recognition engine (31) inputs a user's voice from the microphone (35) as the correct reading, and generates a plurality of reading candidates from the user's voice.
The speech synthesis engine (21) generates a plurality of error candidates from the phrase group represented by the text data. The plurality of error candidates include a phrase having a plurality of readings and a phrase that is not registered in the dictionary database.
The selection unit (41) selects an error candidate corresponding to one of the plurality of reading candidates from the plurality of error candidates as the portion.
As described above, in the speech synthesizer (1) of the present invention, when the user inputs a correct reading for the different readings of the text data with the microphone (35), the part corresponding to the different readings of the text data is automatically set. Select and automatically register the dictionary for that part. For this reason, the speech synthesizer (1) of the present invention can perform dictionary registration more easily than when dictionary registration is performed using an input device.

本発明の音声合成装置(1)において、前記辞書データベースは、前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベース(26)と、ユーザ辞書データベース(27)とを含んでいる。
前記音声合成エンジン(21)は、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカ(25)から出力する。
前記ユーザ辞書登録部(42)は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベース(27)に登録する。
このように、本発明の音声合成装置(1)では、テキストデータの異なる読みに対してユーザが正しい読みをマイク(35)により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置(1)では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置(1)では、必須の単語(語句、読み、アクセント)をメイン辞書データベース(26)に予め辞書登録しておき、メイン辞書データベース(26)に登録されていない単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)をユーザ辞書データベース(27)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、ユーザ辞書データベース(27)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
In the speech synthesizer (1) of the present invention, the dictionary database includes a main dictionary database (26) in which the plurality of words, the plurality of readings, and a plurality of accents are registered in association with each other, and a user dictionary database (27). ).
The speech synthesis engine (21) outputs the speech from a speaker (25) using a pronunciation accent corresponding to the reading group among the plurality of accents.
The user dictionary registration unit (42) registers the part of the plurality of words, the correct reading, and the accent by the user's voice in the user dictionary database (27) in association with each other.
As described above, in the speech synthesizer (1) of the present invention, when the user inputs a correct reading for the different readings of the text data with the microphone (35), the portion corresponding to the different readings of the text data and the correct reading And the user's voice accent are associated and registered in the dictionary. Usually, it is not so easy to register a dictionary for an accent using an input device due to the user's own habit and dialect. In the speech synthesizer (1) according to the present invention, since the accent is directly registered in the dictionary by the user's voice, the dictionary can be registered more easily than when the dictionary is registered using the input device.
In the speech synthesizer (1) of the present invention, essential words (phrases, readings, accents) are registered in the dictionary in advance in the main dictionary database (26), and words that are not registered in the main dictionary database (26). It is preferable to register the above part of the plurality of words, the correct reading, and the accent by the user's voice in the user dictionary database (27). Thus, when the text data is given to the speech synthesizer (1) of the present invention, the speech synthesizer engine (21) refers to the dictionary database {main dictionary database (26), user dictionary database (27)}. Thus, the phrase group represented by the text data can be read out correctly.

本発明の音声合成装置(1)において、前記辞書データベースは、カテゴリ付ユーザ辞書データベース(54)を更に含んでいる。
前記テキストデータは、カテゴリを表す情報を含んでいる。
カテゴリ登録指示が発生した場合、以下の動作を行なう。
この場合、前記ユーザ辞書登録部(42)は、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベース(54)に登録する。
例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置(1)では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、メイン辞書データベース(26)に登録されていない単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)とを対応付けてカテゴリ付ユーザ辞書データベース(54)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、カテゴリ付ユーザ辞書データベース(54)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置(1)は、ユーザ辞書データベース(27)を参照する場合に比べて、読み誤りを更に低減することができる。
In the speech synthesizer (1) of the present invention, the dictionary database further includes a category-added user dictionary database (54).
The text data includes information representing a category.
When a category registration instruction is generated, the following operation is performed.
In this case, the user dictionary registration unit (42) associates the category, the portion of the plurality of words / phrases, the correct reading, and the accent by the user's voice with the category-added user dictionary database. Register at (54).
For example, when the text data is a web page representing an article, “sports”, “politics”, “music”,... Can be acquired relatively easily as information representing the category described in the article. In the speech synthesizer (1) of the present invention, when information representing a category is included in the text data, the category, a word that is not registered in the main dictionary database (26) (the portion of the plurality of words and phrases, It is preferable to register the dictionary in the category-added user dictionary database (54) by associating the correct reading with the accent by the user's voice. As a result, when the above text data is given to the speech synthesizer (1) of the present invention, the speech synthesis engine (21) uses the dictionary database {main dictionary database (26), category-added user dictionary database (54)}. Referring to the above, it is possible to correctly read out the phrase group represented by the text data. For this reason, the speech synthesizer (1) of the present invention can further reduce reading errors as compared with the case of referring to the user dictionary database (27).

本発明の音声合成装置(1)において、前記辞書データベースは、共起情報付ユーザ辞書データベース(64)を更に含んでいる。
共起情報登録指示が発生した場合、以下の動作を行なう。
この場合、前記音声認識エンジン(31)は、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイク(35)からユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成する。
前記音声合成エンジン(21)は、前記テキストデータから前記連結部分に対応する複数の共起候補を生成する。
前記選択部(41)は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択する。
前記ユーザ辞書登録部(42)は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベース(64)に登録する。
前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含んでいる。
例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置(1)では、第1単語(複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)と、第2単語(複数の語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント)と、第1単語と第2単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース(64)に辞書登録することが好ましい。これにより、本発明の音声合成装置(1)に上記のテキストデータが与えられたとき、音声合成エンジン(21)は、辞書データベース{メイン辞書データベース(26)、共起情報付ユーザ辞書データベース(64)}を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置(1)は、ユーザ辞書データベース(27)を参照する場合に比べて、読み誤りを更に低減することができる。
In the speech synthesizer (1) of the present invention, the dictionary database further includes a user dictionary database with co-occurrence information (64).
When a co-occurrence information registration instruction is generated, the following operation is performed.
In this case, the speech recognition engine (31) inputs a connected voice that is a user's voice from the microphone (35) as a reading of a connected portion connected to the portion of the text data, and a plurality of connected voices are connected from the connected speech. Generate reading candidates.
The speech synthesis engine (21) generates a plurality of co-occurrence candidates corresponding to the connected portion from the text data.
The selection unit (41) selects a co-occurrence candidate corresponding to one of the plurality of linked reading candidates from the plurality of co-occurrence candidates as the linked portion.
The user dictionary registration unit (42) registers the first word, the second word, and the co-occurrence information that associates the first word with the second word in the user dictionary database with co-occurrence information (64).
The first word includes the portion of the plurality of phrases, the correct reading, and an accent by the user's voice, and the second word includes the connected portion of the plurality of phrases; It includes a reading of the connected part and an accent by the connected voice.
For example, when a proper noun (such as a person's name) is read out by speech synthesis, there are many cases where the same word or phrase is read differently, and it is difficult to distinguish and read it out. When the proper noun is a person name, it is preferable to register the dictionary with the full name. In this case, in the speech synthesizer (1) of the present invention, the first word (the portion of the plurality of phrases, the correct reading, the accent by the user's voice), and the second word (the plurality of phrases). The above-mentioned connected portion, reading of the connected portion, accent by the connected speech), and co-occurrence information that associates the first word with the second word are registered in the user dictionary database with co-occurrence information (64). It is preferable to do. As a result, when the above text data is given to the speech synthesizer (1) of the present invention, the speech synthesis engine (21) reads the dictionary database {main dictionary database (26), user dictionary database with co-occurrence information (64). )}, The group of words represented by the text data can be read correctly. For this reason, the speech synthesizer (1) of the present invention can further reduce reading errors as compared with the case of referring to the user dictionary database (27).

本発明の音声合成装置は、簡単に辞書登録を行なうことができる。
本発明の音声合成装置は、テキストデータを正しく読み上げることができる。
The speech synthesizer of the present invention can easily perform dictionary registration.
The speech synthesizer of the present invention can read text data correctly.

以下に添付図面を参照して、本発明の音声合成装置について詳細に説明する。   The speech synthesizer of the present invention will be described below in detail with reference to the accompanying drawings.

(第1実施形態)
図1は、本発明の第1実施形態による音声合成装置の構成を示すブロック図である。第1実施形態による音声合成装置1は、例えば電子メールやインターネットを利用することができるコンピュータに適用される。コンピュータは、コンピュータプログラムが格納された格納部(図示しない)と、コンピュータプログラムを実行する制御部(図示しない)とを具備している。
音声合成装置1は、コンピュータに設けられたスピーカ25、マイク35を具備している。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a speech synthesis apparatus according to the first embodiment of the present invention. The speech synthesizer 1 according to the first embodiment is applied to a computer that can use e-mail or the Internet, for example. The computer includes a storage unit (not shown) that stores a computer program and a control unit (not shown) that executes the computer program.
The voice synthesizer 1 includes a speaker 25 and a microphone 35 provided in a computer.

音声合成装置1は、更に、コンピュータプログラムである文抽出部12、音声合成エンジン21、音声認識エンジン31、候補選択部41、合成音声ユーザ辞書登録部42を具備している。
音声合成エンジン21は、音声合成部22、構文解析部23、誤り候補生成部24を含んでいる。音声合成部22は、音声合成エンジン21の本体部であり、音声合成部22を音声合成エンジン21と称することもある。
音声認識エンジン31は、音声認識部32、読み候補生成部33、アクセント抽出部34を含んでいる。音声認識部32は、音声認識エンジン31の本体部であり、音声認識部32を音声認識エンジン31と称することもある。
The speech synthesizer 1 further includes a sentence extraction unit 12, which is a computer program, a speech synthesis engine 21, a speech recognition engine 31, a candidate selection unit 41, and a synthesized speech user dictionary registration unit 42.
The speech synthesis engine 21 includes a speech synthesis unit 22, a syntax analysis unit 23, and an error candidate generation unit 24. The voice synthesizer 22 is a main body of the voice synthesizer 21, and the voice synthesizer 22 may be referred to as the voice synthesizer 21.
The speech recognition engine 31 includes a speech recognition unit 32, a reading candidate generation unit 33, and an accent extraction unit 34. The voice recognition unit 32 is a main body of the voice recognition engine 31, and the voice recognition unit 32 may be referred to as the voice recognition engine 31.

音声合成装置1は、更に、コンピュータの格納部に格納された文書データベース11、音声合成辞書データベース、音声認識辞書データベース36を具備している。
音声合成辞書データベースは、音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27を含んでいる。
例えば、図2に示されるように、音声合成メイン辞書データベース26には、複数の単語が予め登録されている。複数の単語は、それぞれ、複数の語句と複数の読みと複数のアクセントとを含んでいる。図3に示されるように、音声合成ユーザ辞書データベース27には、音声合成メイン辞書データベース26に登録されていない単語が登録される。
図4に示されるように、音声認識辞書データベース36には、複数の照合用音声と複数の照合用読みとが予め登録されている。複数の照合用音声は、マイク35から入力される音声を照合するためのデータである。
The speech synthesizer 1 further includes a document database 11, a speech synthesis dictionary database, and a speech recognition dictionary database 36 stored in the storage unit of the computer.
The speech synthesis dictionary database includes a speech synthesis main dictionary database 26 and a speech synthesis user dictionary database 27.
For example, as shown in FIG. 2, a plurality of words are registered in advance in the speech synthesis main dictionary database 26. Each of the plurality of words includes a plurality of phrases, a plurality of readings, and a plurality of accents. As shown in FIG. 3, words that are not registered in the speech synthesis main dictionary database 26 are registered in the speech synthesis user dictionary database 27.
As shown in FIG. 4, a plurality of collation voices and a plurality of collation readings are registered in advance in the speech recognition dictionary database 36. The plurality of collation voices are data for collating voices input from the microphone 35.

文書データベース11には、図5に示されるように、電子メールあるいはインターネットのWebページで例示される文書を表すテキストデータが格納されている。例えば、そのテキストデータには、「7回裏に岡田秀喜が打点をあげた。」という文が記載されている。   As shown in FIG. 5, the document database 11 stores text data representing a document exemplified by an e-mail or an Internet web page. For example, in the text data, there is a sentence “Hideki Okada has scored at the end of the seventh.”

文抽出部12は、内蔵メモリ(図示しない)を備えている。ユーザの読上指示に応じて、文抽出部12は、文書データベース11に格納されたテキストデータを読み出して、内蔵メモリに格納する。あるいは、コンピュータが電子メール、Webページを表すテキストデータを取得して文書データベース11に格納したときに、文抽出部12は、文書データベース11に格納されたテキストデータを自動的に読み出して、内蔵メモリに格納する。   The sentence extraction unit 12 includes a built-in memory (not shown). In response to the user's reading instruction, the sentence extraction unit 12 reads the text data stored in the document database 11 and stores it in the built-in memory. Alternatively, when the computer acquires text data representing an e-mail or a web page and stores it in the document database 11, the sentence extraction unit 12 automatically reads out the text data stored in the document database 11, and stores the internal memory. To store.

音声合成エンジン21の構文解析部23は、文抽出部12の内蔵メモリからテキストデータを読み出し、そのテキストデータに記載された文を解析する。このとき、構文解析部23は、漢字、ひらがな、カタカナ、数字(回数や量を表す数字を含む)の並びにより、テキストデータ「7回裏に岡田秀喜が打点をあげた。」は、語句群として「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」を表していることを認識する。   The syntax analysis unit 23 of the speech synthesis engine 21 reads the text data from the built-in memory of the sentence extraction unit 12 and analyzes the sentence described in the text data. At this time, the syntax analysis unit 23 uses the kanji, hiragana, katakana, and numbers (including numbers representing the number of times and quantity) as text data “Hideki Okada scored at the end of the 7th”. It is recognized that “7 times”, “back”, “ni”, “Okada”, “Hideki”, “has”, “RBI”, “I” and “I gave”.

構文解析部23は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群「7回裏に岡田秀喜が打点をあげた。」から、読みを表す読み群「ななかいうらにおかだひでよしがだてんをあげた」を生成する。また、構文解析部23は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、複数のアクセントのうちの、上記読み群に対応する発音用アクセントを決定する。   The syntax analysis unit 23 refers to the speech synthesis dictionary database (the speech synthesis main dictionary database 26, the speech synthesis user dictionary database 27), and the phrase group represented by the text data “Hideki Okada gave a hit point on the back of the 7th.” From this, a group of readings representing readings is generated, "Nakanaka Hideyoshi was raised". In addition, the syntax analysis unit 23 refers to the speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27), and determines a pronunciation accent corresponding to the reading group among a plurality of accents. To do.

音声合成エンジン21の音声合成部22は、読み群が表す読み「ななかいうらにおかだひでよしがだてんをあげた」を音声に変換する。音声合成部22は、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する。   The speech synthesizer 22 of the speech synthesis engine 21 converts the reading represented by the reading group “Nakanaka Hideyoshi was raised” into speech. The voice synthesizer 22 outputs the voice from the speaker 25 using the above-mentioned pronunciation accent.

テキストデータ「7回裏に岡田秀喜が打点をあげた。」に対する本来の読みは、「ななかいうらにおかだひできがだてんをあげた」である。即ち、「秀喜」に対する読みは「ひでよし」ではなく「ひでき」である。ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。   The original reading for the text data “Hideki Okada scored at the back of the seventh episode” is “I've given you the best results”. That is, the reading for “Hideki” is not “Hideyoshi” but “Hide”. The user inputs the user's voice “Hide” using the microphone 35 in order to correct the portion “Hideki” corresponding to the different reading “Hideyoshi” of the text data to the correct reading “Hide”.

音声認識エンジン31の音声認識部32は、正しい読み「ひでき」としてマイク35からユーザの音声「ひでき」を入力する。候補選択部41は、マイク35から入力される正しい読み「ひでき」に基づいてテキストデータ80から異なる読み「ひでよし」に対応する部分「秀喜」を選択する。これについて具体的に説明する。   The voice recognition unit 32 of the voice recognition engine 31 inputs the user's voice “hidori” from the microphone 35 as correct reading “hidori”. The candidate selection unit 41 selects a portion “Hideki” corresponding to a different reading “Hideyoshi” from the text data 80 based on the correct reading “Hide” input from the microphone 35. This will be specifically described.

音声認識エンジン31は、内蔵メモリ(図示しない)を更に備えている。音声認識エンジン31の音声認識部32は、マイク35からユーザの音声「ひでき」を入力し、データとして内蔵メモリに格納する。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納されたユーザの音声「ひでき」から複数の読み候補を生成する。即ち、複数の照合用音声の中から、ユーザの音声「ひでき」に最も近い順に、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…を生成する。   The voice recognition engine 31 further includes a built-in memory (not shown). The voice recognition unit 32 of the voice recognition engine 31 inputs the user's voice “hidori” from the microphone 35 and stores it in the built-in memory as data. The reading candidate generation unit 33 of the voice recognition engine 31 refers to the voice recognition dictionary database 36 and generates a plurality of reading candidates from the user's voice “hidori” stored in the built-in memory. That is, among a plurality of collation voices, a plurality of reading candidates “hidashi” “hidashi” “hidashi” “iideshi”... Are generated in the order closest to the user's voice “hidori”.

音声合成エンジン21の誤り候補生成部24は、テキストデータ「7回裏に岡田秀喜が打点をあげた。」が表す上記の語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、複数の誤り候補を生成する。即ち、候補選択部41は、語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、複数の読み方がある語句「秀喜」「打点」や、上記の音声合成辞書データベース26、27に登録されていない語句を誤り候補として選択する。   The error candidate generation unit 24 of the speech synthesis engine 21 uses the above word groups “7 times”, “back”, “ni”, “Okada”, “Hideki” represented by the text data “Hideki Okada scored at the back of the seventh time”. A plurality of error candidates are generated from “G”, “RBI”, “Wa” and “Raised”. In other words, the candidate selection unit 41 uses a phrase “with 7”, “back”, “ni”, “Okada”, “Hideki”, “ga”, “batting point”, “a”, “raised”, and a phrase “with multiple readings”. “Hideki”, “RBI”, and words that are not registered in the speech synthesis dictionary databases 26 and 27 are selected as error candidates.

候補選択部41は、複数の誤り候補「秀喜」「打点」…と複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…とを比較する。比較の結果、候補選択部41は、複数の誤り候補「秀喜」「打点」…の中から、複数の読み候補「ひでき」「ひでし」「いでき」「いでし」…のうちの1つの読み候補「ひでき」に対応する誤り候補「秀喜」を選択する。即ち、候補選択部41は、上記の音声合成辞書データベース26、27を参照して、読み候補「ひでき」から漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…に変換する。候補選択部41は、複数の誤り候補「秀喜」「打点」…の中から、漢字「秀樹」「英樹」「英輝」「秀喜」「日出貴」…の1つに対応(一致)する誤り候補「秀喜」を選択する。このように、正しい読み「ひでき」に対応する誤り候補「秀喜」をテキストデータから選択する。この選択された誤り候補「秀喜」は、異なる読み「ひでよし」に対応する部分である。   The candidate selection unit 41 compares a plurality of error candidates “Hideki”, “dots”,... With a plurality of reading candidates “Hide”, “Hideshi”, “Ise”, “Ideshi”,. As a result of the comparison, the candidate selection unit 41 selects one of a plurality of reading candidates “Hide”, “Hideshi”, “Idei”, “Ideshi”,... The error candidate “Hideki” corresponding to the reading candidate “Hide” is selected. That is, the candidate selection unit 41 refers to the speech synthesis dictionary databases 26 and 27 described above, and converts the reading candidate “Hide” into the kanji characters “Hideki”, “Hideki”, “Hideki”, “Hideki”, “Hideki”,. . The candidate selection unit 41 corresponds to (matches) one of the kanji characters “Hideki”, “Hideki”, “Hideki”, “Hideki”, “Takashi Hiji”, etc. Select the candidate “Hideki”. In this way, the error candidate “Hideki” corresponding to the correct reading “Hide” is selected from the text data. The selected error candidate “Hideyoshi” corresponds to a different reading “Hideyoshi”.

候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分である語句「秀喜」を読み出し、上記語句「秀喜」と上記正しい読み「ひでき」とを音声合成ユーザ辞書登録部42に通知する。
同時に、音声認識エンジン31のアクセント抽出部34は、内蔵メモリに格納されたユーザの音声「ひでき」を読み出し、その音声「ひでき」からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する。
音声合成ユーザ辞書登録部42は、上記語句「秀喜」と上記正しい読み「ひでき」と上記アクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する。
As a result of the comparison, the candidate selection unit 41 reads out the phrase “Hideki”, which is the part of the plurality of phrases stored in the speech synthesis main dictionary database 26, and reads the phrase “Hideki” and the correct reading “Hideki”. To the speech synthesis user dictionary registration unit 42.
At the same time, the accent extraction unit 34 of the speech recognition engine 31 reads the user's voice “hidori” stored in the built-in memory, extracts the accent from the voice “hidori”, and notifies the voice synthesis user dictionary registration unit 42 of the accent.
The speech synthesis user dictionary registration unit 42 registers the phrase “Hideki”, the correct reading “hidori”, and the accent in the speech synthesis user dictionary database 27 in association with each other.

これにより、文書データベース11に上記のテキストデータが格納されたとき、音声合成エンジン21は、上記のテキストデータが表す語句群を正しく読み上げることができる。即ち、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群「7回裏に岡田秀喜が打点をあげた。」から、読み群「ななかいうらにおかだひできがだてんをあげた」を生成する。また、上記読み群に対応する発音用アクセントを決定する。音声合成エンジン21は、読み群「ななかいうらにおかだひできがだてんをあげた」を音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する。   Thereby, when the text data is stored in the document database 11, the speech synthesis engine 21 can correctly read out the word / phrase group represented by the text data. That is, the speech synthesis engine 21 refers to the speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27), and the word group “Hideki Okada scored the back of the 7th phrase represented by the text data. ”Is generated from the reading group“ Naka Nakadaka Gadgeten was raised ”. In addition, the accent for pronunciation corresponding to the reading group is determined. The speech synthesizing engine 21 converts the reading group “I have raised my name” to speech and outputs the speech from the speaker 25 using the above-mentioned accents for pronunciation.

次に、図6を参照して、本発明の第1実施形態による音声合成装置1の動作(音声合成方法・音声合成処理)について説明する。
ここで、文書データベース11には、インターネットのWebページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置1は、コンピュータがテキストデータを取得して文書データベース11に格納したときに、テキストデータに記載された文を音声に変換するものとする。
Next, the operation (speech synthesis method / speech synthesis process) of the speech synthesizer 1 according to the first embodiment of the present invention will be described with reference to FIG.
Here, the document database 11 stores text data representing an Internet Web page. In this text data, a plurality of sentences are described. In addition, the speech synthesizer 1 converts a sentence described in the text data into speech when the computer acquires the text data and stores it in the document database 11.

文抽出部12は、文書データベース11に格納されたテキストデータを読み出して、文抽出部12の内蔵メモリに格納する(ステップS1)。   The sentence extraction unit 12 reads the text data stored in the document database 11 and stores it in the built-in memory of the sentence extraction unit 12 (step S1).

音声合成エンジン21の構文解析部23は、文抽出部12の内蔵メモリからテキストデータに記載された「。」や改行などの文の区切りにより、複数の文を認識する。構文解析部23は、変数Nを1(N=1)とし、複数の文のうちの、第1番目の文を読み出す(ステップS2)。
構文解析部23は、上記文を解析する。このとき、構文解析部23は、漢字、ひらがな、カタカナ、数字の並びにより、上記文が表す語句群を認識する(ステップS3)。構文解析部23は、音声合成メイン辞書データベース26と音声合成ユーザ辞書データベース27とを参照する(ステップS4、S5)。このとき、構文解析部23は、上記文が表す語句群から、読み群を生成し、上記読み群に対応する発音用アクセントを決定する(ステップS6)。
The syntax analysis unit 23 of the speech synthesis engine 21 recognizes a plurality of sentences based on sentence delimiters such as “.” And line breaks written in the text data from the built-in memory of the sentence extraction unit 12. The syntax analysis unit 23 sets the variable N to 1 (N = 1), and reads the first sentence among the plurality of sentences (step S2).
The syntax analysis unit 23 analyzes the sentence. At this time, the syntax analysis unit 23 recognizes a word / phrase group represented by the sentence based on the kanji, hiragana, katakana, and numbers (step S3). The syntax analysis unit 23 refers to the speech synthesis main dictionary database 26 and the speech synthesis user dictionary database 27 (steps S4 and S5). At this time, the syntax analysis unit 23 generates a reading group from the phrase group represented by the sentence, and determines a pronunciation accent corresponding to the reading group (step S6).

音声合成エンジン21の音声合成部22は、上記文が表す語句群を読み上げる。即ち、読み群が表す読みを音声に変換し、上記の発音用アクセントを用いて、その音声をスピーカ25から出力する(ステップS7)。音声合成部22が上記の音声をスピーカ25から出力している間に、ユーザがマイク35を使用していない場合(ステップS8−NO、S9)、構文解析部23は、変数Nをインクリメント(N=N+1)し、次の文を読み出す(ステップS10−YES、S11)。次の文がない場合(ステップS10−NO)、音声合成装置1は音声合成処理を終了する。   The speech synthesizer 22 of the speech synthesis engine 21 reads out the phrase group represented by the sentence. That is, the readings represented by the reading group are converted into speech, and the speech is output from the speaker 25 using the above-mentioned accent for pronunciation (step S7). If the user does not use the microphone 35 while the voice synthesizer 22 outputs the above voice from the speaker 25 (steps S8-NO and S9), the syntax analyzer 23 increments the variable N (N = N + 1), and the next sentence is read (step S10-YES, S11). If there is no next sentence (step S10—NO), the speech synthesizer 1 ends the speech synthesis process.

一方、音声合成部22が上記の音声をスピーカ25から出力している間に、ユーザがマイク35を使用する(ステップS8−YES)。即ち、ユーザは、上記文から異なる読みに対応する部分を正しい読みに訂正するために、マイク35を用いてユーザの音声を入力する。このとき、音声認識エンジン31の音声認識部32は、マイク35からユーザの音声を入力し、音声認識エンジン31の内蔵メモリに格納する(ステップS12)。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納されたユーザの音声から複数の読み候補を生成する(ステップS13)。   On the other hand, the user uses the microphone 35 while the voice synthesizer 22 outputs the above voice from the speaker 25 (step S8—YES). That is, the user inputs the user's voice using the microphone 35 in order to correct a part corresponding to a different reading from the above sentence into a correct reading. At this time, the voice recognition unit 32 of the voice recognition engine 31 inputs the user's voice from the microphone 35 and stores it in the built-in memory of the voice recognition engine 31 (step S12). The reading candidate generation unit 33 of the voice recognition engine 31 refers to the voice recognition dictionary database 36 and generates a plurality of reading candidates from the user's voice stored in the built-in memory (step S13).

音声合成エンジン21の音声合成部22は、変数Iを1(I=1)とし、文抽出部12の内蔵メモリから上記文を再度読み出す(ステップS14)。音声合成エンジン21の構文解析部23は、上記文を解析して、上記文が表す語句群を認識する(ステップS15)。音声合成エンジン21の誤り候補生成部24は、上記文が表す上記の語句群から、複数の読み方がある語句や上記の音声合成辞書データベース26、27に登録されていない語句を含む複数の誤り候補を生成する(ステップS16)。候補選択部41は、複数の誤り候補と複数の読み候補とを比較する(ステップS17)。   The speech synthesizer 22 of the speech synthesizer 21 sets the variable I to 1 (I = 1), and reads the sentence again from the built-in memory of the sentence extractor 12 (step S14). The syntax analysis unit 23 of the speech synthesis engine 21 analyzes the sentence and recognizes a phrase group represented by the sentence (step S15). The error candidate generation unit 24 of the speech synthesis engine 21 includes a plurality of error candidates including a phrase having a plurality of readings and a phrase not registered in the speech synthesis dictionary databases 26 and 27 from the phrase group represented by the sentence. Is generated (step S16). The candidate selection unit 41 compares a plurality of error candidates with a plurality of reading candidates (step S17).

比較の結果、候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つの読み候補に対応する誤り候補を選択することができない(ステップS18−NO)。
このとき、変数Iが変数Nよりも小さい場合(ステップS19−NO)、音声合成装置1は、1つ前の文に対してステップS15〜S19を実行する。
また、変数Iが変数Nである場合、あるいは、変数Iが変数Nよりも小さいが、1つ前の文がない場合(ステップS19−YES)、ステップS14により読み出された文を文抽出部12の内蔵メモリから抽出する。即ち、音声合成エンジン21の音声合成部22は、文抽出部12の内蔵メモリから上記文を再度読み出す(ステップS23)。その後、音声合成装置1は、その上記文に対して上記のステップS3以降を実行する。
As a result of the comparison, the candidate selection unit 41 cannot select an error candidate corresponding to one reading candidate among the plurality of reading candidates from the plurality of error candidates (step S18—NO).
At this time, when the variable I is smaller than the variable N (step S19—NO), the speech synthesizer 1 executes steps S15 to S19 for the previous sentence.
If the variable I is the variable N, or if the variable I is smaller than the variable N but there is no previous sentence (step S19-YES), the sentence read out in step S14 is used as the sentence extraction unit. Extract from 12 internal memories. That is, the speech synthesis unit 22 of the speech synthesis engine 21 reads the sentence again from the built-in memory of the sentence extraction unit 12 (step S23). Thereafter, the speech synthesizer 1 executes the above step S3 and subsequent steps for the sentence.

一方、比較の結果、候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つの読み候補に対応する誤り候補を選択する。このとき、候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記誤り候補である語句を読み出し、上記読み出された語句と上記正しい読みとを音声合成ユーザ辞書登録部42に通知する(ステップS18−YES)。
同時に、音声認識エンジン31のアクセント抽出部34は、内蔵メモリに格納されたユーザの音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する(ステップS21)。
音声合成ユーザ辞書登録部42は、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS22)。
その後、音声合成装置1は、その上記文に対して上記のステップS23以降を実行する。
On the other hand, as a result of the comparison, the candidate selection unit 41 selects an error candidate corresponding to one reading candidate among the plurality of reading candidates from the plurality of error candidates. At this time, as a result of the comparison, the candidate selection unit 41 reads out the phrase that is the error candidate among the plurality of phrases stored in the speech synthesis main dictionary database 26, and reads the read phrase and the correct reading. Is notified to the speech synthesis user dictionary registration unit 42 (YES in step S18).
At the same time, the accent extraction unit 34 of the speech recognition engine 31 reads the user's voice stored in the built-in memory, extracts the accent from the voice, and notifies the voice synthesis user dictionary registration unit 42 (step S21).
The speech synthesis user dictionary registration unit 42 registers the phrase, correct reading notified from the candidate selection unit 41, and the accent notified from the accent extraction unit 34 in association with each other in the speech synthesis user dictionary database 27 (step S22). .
Thereafter, the speech synthesizer 1 executes the above step S23 and subsequent steps for the sentence.

上述のように、本発明の音声合成装置1では、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、テキストデータが表す語句群から読み群を生成し、上記読み群を音声に変換し、上記音声をスピーカ25から出力する。候補選択部41は、マイク35から入力される正しい読みに基づいて異なる読みに対応する部分を上記テキストデータから選択する。音声合成ユーザ辞書登録部42は、上記複数の語句のうちの上記部分を上記正しい読みに対応付けて音声合成ユーザ辞書データベース27に登録する。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
また、本発明の音声合成装置1によれば、ユーザは、テキストデータの読み上げが間違えている場合、テキストデータの異なる読みに対応する部分に対して、正しい読みをマイク35により入力するだけでよい。このため、本発明の音声合成装置1は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。したがって、コンピュータに不慣れなユーザでも簡単に辞書登録を行なうことができる。また、目や手が不自由なユーザでも簡単に辞書登録を行なうことができる。
As described above, in the speech synthesizer 1 of the present invention, the speech synthesis engine 21 refers to the speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27), and the phrase group represented by the text data. A reading group is generated from the voice, the reading group is converted into voice, and the voice is output from the speaker 25. The candidate selection unit 41 selects a part corresponding to a different reading from the text data based on the correct reading input from the microphone 35. The speech synthesis user dictionary registration unit 42 registers the part of the plurality of words in the speech synthesis user dictionary database 27 in association with the correct reading. Thus, when the text data is given to the speech synthesizer 1 of the present invention, the speech synthesis engine 21 refers to the speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27). The phrase group represented by the text data can be read correctly.
Also, according to the speech synthesizer 1 of the present invention, when the text data is read out incorrectly, the user only has to input the correct reading to the part corresponding to the different text data reading by the microphone 35. . For this reason, the speech synthesizer 1 of the present invention can easily perform dictionary registration as compared to the case of dictionary registration using an input device. Therefore, even a user unfamiliar with a computer can easily register a dictionary. In addition, even a user with impaired eyes and hands can easily register a dictionary.

上述のように、本発明の音声合成装置1では、音声認識エンジン31は、上記正しい読みとしてマイク35からユーザの音声を入力し、上記ユーザの音声から複数の読み候補を生成する。音声合成エンジン21は、上記テキストデータから複数の誤り候補を生成する。候補選択部41は、複数の誤り候補の中から、複数の読み候補のうちの1つに対応する誤り候補を上記部分として選択する。このように、本発明の音声合成装置1では、テキストデータの異なる読みに対してユーザが正しい読みをマイク35により入力したとき、テキストデータの異なる読みに対応する部分を自動的に選択し、その部分に対して自動的に辞書登録を行なう。このため、本発明の音声合成装置1は、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。   As described above, in the speech synthesizer 1 of the present invention, the speech recognition engine 31 inputs the user's voice from the microphone 35 as the correct reading and generates a plurality of reading candidates from the user's voice. The speech synthesis engine 21 generates a plurality of error candidates from the text data. The candidate selection unit 41 selects an error candidate corresponding to one of a plurality of reading candidates as a part from among a plurality of error candidates. Thus, in the speech synthesizer 1 of the present invention, when the user inputs a correct reading with the microphone 35 for different readings of the text data, the part corresponding to the different readings of the text data is automatically selected, The dictionary is automatically registered for the part. For this reason, the speech synthesizer 1 of the present invention can easily perform dictionary registration as compared to the case of dictionary registration using an input device.

上述のように、本発明の音声合成装置1では、音声合成エンジン21は、複数アクセントのうちの、上記読み群に対応する発音用アクセントを用いて、上記音声をスピーカ25から出力する。音声合成ユーザ辞書登録部42は、複数の語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する。このように、本発明の音声合成装置1では、テキストデータの異なる読みに対してユーザが正しい読みをマイク35により入力したとき、テキストデータの異なる読みに対応する部分と、正しい読みと、ユーザの音声によるアクセントとを対応付けて辞書登録する。通常、アクセントについて入力装置を用いて辞書登録を行なうことは、ユーザ自身の癖や方言などにより、それほど容易な作業ではない。本発明の音声合成装置1では、ユーザの音声によりアクセントをそのまま辞書登録するため、入力装置を用いて辞書登録を行なう場合に比べて、簡単に辞書登録を行なうことができる。
また、本発明の音声合成装置1では、必須の単語(語句、読み、アクセント)を音声合成メイン辞書データベース26に予め辞書登録しておき、音声合成メイン辞書データベース26に登録されていない単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)を音声合成ユーザ辞書データベース27に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。
As described above, in the speech synthesizer 1 of the present invention, the speech synthesis engine 21 outputs the speech from the speaker 25 using the accent for pronunciation corresponding to the reading group among a plurality of accents. The speech synthesis user dictionary registration unit 42 registers the portion of the plurality of words, the correct reading, and the accent by the user's speech in the speech synthesis user dictionary database 27 in association with each other. As described above, in the speech synthesizer 1 according to the present invention, when the user inputs a correct reading for the different readings of the text data with the microphone 35, the portion corresponding to the different readings of the text data, the correct reading, The dictionary is registered in association with the accent by voice. Usually, it is not so easy to register a dictionary for an accent using an input device due to the user's own habit and dialect. In the speech synthesizer 1 according to the present invention, since the accent is directly registered in the dictionary by the user's voice, the dictionary can be registered more easily than in the case where the dictionary is registered using the input device.
In the speech synthesizer 1 of the present invention, essential words (phrases, readings, accents) are registered in the dictionary in advance in the speech synthesis main dictionary database 26, and words (a plurality of words not registered in the speech synthesis main dictionary database 26) are registered. It is preferable to register the above part of the phrase, the above correct reading, and the accent by the user's voice) in the speech synthesis user dictionary database 27. Thus, when the text data is given to the speech synthesizer 1 of the present invention, the speech synthesis engine 21 refers to the speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27). The phrase group represented by the text data can be read correctly.

(第2実施形態)
本発明の第2実施形態による音声合成装置1について説明する。第2実施形態では、第1実施形態と異なる点のみ説明する。第2実施形態では、カテゴリ付辞書登録処理と、共起辞書登録処理とを実現する。
(Second Embodiment)
A speech synthesizer 1 according to a second embodiment of the present invention will be described. In the second embodiment, only differences from the first embodiment will be described. In the second embodiment, a category-added dictionary registration process and a co-occurrence dictionary registration process are realized.

カテゴリ付辞書登録処理では、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。読み上げる文書が、例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。この場合、音声合成装置1に音声合成辞書データベースの1つとしてカテゴリ付き辞書データベースを設け、辞書登録の際に、カテゴリと、語句と正しい読みとアクセントとを含む単語とを対応付けてカテゴリ付辞書に登録することにより、読み誤りを更に低減することができる。   In the dictionary registration process with categories, when reading proper nouns (person names, etc.) by speech synthesis, there are many cases where the same words and phrases are read differently, and it is difficult to distinguish them and read them out. If the document to be read is, for example, a Web page in which the text data represents an article, “sports”, “politics”, “music”,... Can be acquired relatively easily as information representing the category described in the article. . In this case, the speech synthesizer 1 is provided with a category-added dictionary database as one of the speech synthesis dictionary databases, and the category-added dictionary is created by associating categories with words including words, phrases, correct readings, and accents when registering the dictionary. By registering with, reading errors can be further reduced.

共起辞書登録処理では、例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、音声合成装置1に音声合成辞書データベースの1つとして共起情報付き辞書を設け、辞書登録の際に、その語句とその語句に連結する連結語句とを組み合わせる共起情報と、語句と正しい読みとアクセントとを含む単語と、連結語句(共起語)とその読みとそのアクセントとを含む単語とを対応付けて共起情報付辞書に登録することにより、読み誤りを更に低減することができる。   In the co-occurrence dictionary registration process, for example, when a proper noun (person name, etc.) is read out by speech synthesis, there are many cases where the same word / phrase is read differently, and it is difficult to distinguish and read it out. When the proper noun is a person name, it is preferable to register the dictionary with the full name. In this case, the speech synthesizer 1 is provided with a dictionary with co-occurrence information as one of the speech synthesis dictionary databases, and at the time of dictionary registration, co-occurrence information that combines the phrase and the linked phrase linked to the phrase, To further reduce reading errors by associating words including correct readings and accents, concatenated phrases (co-occurrence words), words including the readings and accents, and registering them in the dictionary with co-occurrence information Can do.

まず、カテゴリ付辞書への登録について説明する。
図7に示されるように、音声合成装置1は、更に、コンピュータに設けられたカテゴリ登録トリガ用スイッチ51を具備している。
音声合成装置1は、更に、コンピュータプログラムであるカテゴリ抽出部52を具備している。
音声合成装置1は、更に、コンピュータの格納部に格納されたカテゴリ抽出情報データベース53を具備している。カテゴリ抽出情報データベース53には、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…が登録されている。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成カテゴリ付きユーザ辞書データベース54を含んでいる。
First, registration in the dictionary with categories will be described.
As shown in FIG. 7, the speech synthesizer 1 further includes a category registration trigger switch 51 provided in the computer.
The speech synthesizer 1 further includes a category extraction unit 52 that is a computer program.
The speech synthesizer 1 further includes a category extraction information database 53 stored in the storage unit of the computer. In the category extraction information database 53, a plurality of reference categories “sports”, “politics”, “music”,... Are registered.
The above speech synthesis dictionary database stored in the storage unit of the computer further includes a user dictionary database 54 with a speech synthesis category.

テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「7回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン21の音声合成部22が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ25から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、カテゴリとを対応付けるために、カテゴリ登録トリガ用スイッチ51を操作する。
In the text data, information representing the category “sports” is described, and a sentence “Hideki Okada has scored a hit on the 7th time” is described. Consider the case where the speech synthesizer 22 of the speech synthesizer engine 21 outputs the speech “Nakadaka Hideyoshi Gaden” from the speaker 25 for this text data.
In this case, the user inputs the user's voice “Hide” using the microphone 35 in order to correct the portion “Hideyoshi” corresponding to the different reading “Hideyoshi” of the text data to the correct reading “Hide”. At this time, the user operates the category registration trigger switch 51 in order to associate the word “Hideki”, which is the above part, the word including the correct reading “hidori” and the accent with the category.

カテゴリ抽出部52は、カテゴリ登録トリガ用スイッチ51が操作されたことを表すカテゴリ登録指示を音声合成ユーザ辞書登録部42に通知する。図8に示されるように、まず、音声合成ユーザ辞書登録部42は、このカテゴリ登録指示に応じて、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語を音声合成カテゴリ付きユーザ辞書データベース54に登録する。カテゴリ抽出部52は、文抽出部12の内蔵メモリからテキストデータを読み出し、テキストデータに記載されたカテゴリ「スポーツ」を抽出する。即ち、カテゴリ抽出情報データベース53を参照して、複数の参照用カテゴリ「スポーツ」「政治」「音楽」…の中から、テキストデータに記載されたカテゴリに一致する参照用カテゴリ「スポーツ」を選択する。カテゴリ抽出部52は、上記のカテゴリ「スポーツ」を音声合成ユーザ辞書登録部42に通知する。図8に示されるように、音声合成ユーザ辞書登録部42は、上記のカテゴリ登録指示に応じて、上記のカテゴリ「スポーツ」を、語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース54に登録する。   The category extraction unit 52 notifies the speech synthesis user dictionary registration unit 42 of a category registration instruction indicating that the category registration trigger switch 51 has been operated. As shown in FIG. 8, first, the speech synthesis user dictionary registration unit 42, in response to the category registration instruction, converts a word including the phrase “Hideki”, a correct reading “Hide”, and an accent into a user dictionary with a speech synthesis category. Register in the database 54. The category extraction unit 52 reads the text data from the built-in memory of the sentence extraction unit 12 and extracts the category “sports” described in the text data. That is, referring to the category extraction information database 53, the reference category “sports” that matches the category described in the text data is selected from the plurality of reference categories “sports” “politics” “music”. . The category extraction unit 52 notifies the speech synthesis user dictionary registration unit 42 of the category “sports”. As shown in FIG. 8, the speech synthesis user dictionary registration unit 42 responds to the category registration instruction with the category “sports” including the word “Hideki”, the correct reading “hidori”, and the accent. Are registered in the user dictionary database 54 with a speech synthesis category in association with

次に、共起辞書への登録について説明する。
図7に示されるように、音声合成装置1は、更に、コンピュータに設けられた共起情報登録トリガ用スイッチ61を具備している。
音声合成装置1は、更に、コンピュータプログラムである共起情報抽出部62を具備している。
コンピュータの格納部に格納された上記の音声合成辞書データベースは、更に、音声合成共起情報付きユーザ辞書データベース64を含んでいる。
Next, registration in the co-occurrence dictionary will be described.
As shown in FIG. 7, the speech synthesizer 1 further includes a co-occurrence information registration trigger switch 61 provided in the computer.
The speech synthesizer 1 further includes a co-occurrence information extraction unit 62 that is a computer program.
The above speech synthesis dictionary database stored in the storage unit of the computer further includes a user dictionary database 64 with speech synthesis co-occurrence information.

テキストデータには、カテゴリ「スポーツ」を表す情報が記載されていて、「7回裏に岡田秀喜が打点をあげた。」という文が記載されているものとする。このテキストデータに対して、音声合成エンジン21の音声合成部22が音声「ななかいうらにおかだひでよしがだてんをあげた」をスピーカ25から出力した場合を考える。
この場合、ユーザは、テキストデータの異なる読み「ひでよし」に対応する部分「秀喜」を正しい読み「ひでき」に訂正するために、マイク35を用いてユーザの音声「ひでき」を入力する。このとき、ユーザは、上記部分である語句「秀喜」と正しい読み「ひでき」とアクセントとを含む単語と、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む単語とを対応付けるために、共起情報登録トリガ用スイッチ61を操作し、マイク35を用いてユーザの音声である連結音声「おかだ」を入力する。
In the text data, information representing the category “sports” is described, and a sentence “Hideki Okada has scored a hit on the 7th time” is described. Consider the case where the speech synthesizer 22 of the speech synthesizer engine 21 outputs the speech “Nakadaka Hideyoshi Gaden” from the speaker 25 for this text data.
In this case, the user inputs the user's voice “Hide” using the microphone 35 in order to correct the portion “Hideyoshi” corresponding to the different reading “Hideyoshi” of the text data to the correct reading “Hide”. At this time, the user associates the word including the phrase “Hideki”, the correct reading “Hide”, and the accent with the word “Okada”, the reading “Okada”, and the word including the accent. In addition, the co-occurrence information registration trigger switch 61 is operated, and the connected voice “Okada”, which is the voice of the user, is input using the microphone 35.

共起情報抽出部62は、共起情報登録トリガ用スイッチ61が操作されたことを表す共起情報登録指示を音声合成ユーザ辞書登録部42に通知する。図9に示されるように、音声合成ユーザ辞書登録部42は、この共起情報登録指示に応じて、上記語句「秀喜」と正しい読み「ひでき」とアクセントとを含む第1単語とを音声合成共起情報付きユーザ辞書データベース64に登録する。同時に、後述する第1共起情報を第1単語に対応付けて音声合成共起情報付きユーザ辞書データベース64に登録する。
また、共起情報抽出部62は、共起情報登録指示を音声認識エンジン31、音声合成エンジン21、候補選択部41に通知する。
The co-occurrence information extraction unit 62 notifies the speech synthesis user dictionary registration unit 42 of a co-occurrence information registration instruction indicating that the co-occurrence information registration trigger switch 61 has been operated. As shown in FIG. 9, in response to the co-occurrence information registration instruction, the speech synthesis user dictionary registration unit 42 synthesizes the first word including the word “Hideki”, the correct reading “hidashi”, and the accent. Register in the user dictionary database 64 with co-occurrence information. At the same time, first co-occurrence information to be described later is registered in the user dictionary database 64 with speech synthesis co-occurrence information in association with the first word.
The co-occurrence information extraction unit 62 notifies the co-occurrence information registration instruction to the speech recognition engine 31, the speech synthesis engine 21, and the candidate selection unit 41.

音声認識エンジン31の音声認識部32は、共起情報登録指示に応じて、テキストデータの上記部分「秀喜」に連結する連結部分「岡田」の読みとしてマイク35から上記の連結音声「おかだ」を入力し、データとして内蔵メモリに格納する。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納された連結音声「おかだ」から複数の連結読み候補を生成する。即ち、複数の照合用音声の中から、連結音声「おかだ」に最も近い順に、複数の連結読み候補「おかだ」…を生成する。   In response to the co-occurrence information registration instruction, the voice recognition unit 32 of the voice recognition engine 31 reads the above-mentioned connected voice “Okada” from the microphone 35 as a reading of the connected part “Okada” connected to the above-mentioned part “Hideki” of the text data. Input and store it in the built-in memory as data. The reading candidate generation unit 33 of the speech recognition engine 31 refers to the speech recognition dictionary database 36 and generates a plurality of linked reading candidates from the linked speech “okada” stored in the built-in memory. That is, a plurality of linked reading candidates “okada”... Are generated from the plurality of collation voices in the order closest to the linked speech “okada”.

音声合成エンジン21の誤り候補生成部24は、共起情報登録指示に応じて、テキストデータ「7回裏に岡田秀喜が打点をあげた。」が表す語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」から、上記の連結部分に対応する複数の共起候補を生成する。即ち、候補選択部41は、語句群「7回」「裏」「に」「岡田」「秀喜」「が」「打点」「を」「あげた」の中から、語句「秀喜」に連結する語句「岡田」「が」を共起候補として選択する。   In response to the co-occurrence information registration instruction, the error candidate generation unit 24 of the speech synthesis engine 21 selects the word groups “seven times”, “back”, and “represented by the text data“ Hideki Okada has scored at the end of 7 times ”. A plurality of co-occurrence candidates corresponding to the above-mentioned connected portions are generated from “Okada”, “Hideki”, “Ga”, “RBI”, “O”, and “Raised”. That is, the candidate selection unit 41 connects the phrase group “seven times”, “back”, “ni”, “Okada”, “Hideki”, “ga”, “batting point”, “raised”, and “raised” to the phrase “Hideki”. The words “Okada” and “ga” are selected as co-occurrence candidates.

候補選択部41は、共起情報登録指示に応じて、複数の共起候補「岡田」「が」と複数の連結読み候補「おかだ」…とを比較する。比較の結果、候補選択部41は、複数の共起候補「岡田」「が」の中から、複数の連結読み候補「おかだ」…のうちの1つの読み候補「おかだ」に対応する共起候補「岡田」を選択する。即ち、候補選択部41は、上記の音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成ユーザ辞書データベース27)を参照して、連結読み候補「おかだ」から漢字「岡田」…に変換する。候補選択部41は、複数の共起候補「岡田」「が」の中から、漢字「岡田」…の1つに対応(一致)する共起候補「岡田」を選択する。このように、正しい読み「ひでき」に対応する共起候補「岡田」を選択する。   The candidate selection unit 41 compares a plurality of co-occurrence candidates “Okada” “ga” with a plurality of linked reading candidates “okada”... According to the co-occurrence information registration instruction. As a result of the comparison, the candidate selection unit 41 selects a co-occurrence candidate corresponding to one reading candidate “Okada” from among a plurality of linked reading candidates “Okada”... Select “Okada”. That is, the candidate selection unit 41 refers to the above-described speech synthesis dictionary database (speech synthesis main dictionary database 26, speech synthesis user dictionary database 27), and converts the concatenated reading candidate “okada” to the kanji “Okada”. The candidate selection unit 41 selects a co-occurrence candidate “Okada” corresponding to (matching) one of the kanji characters “Okada”... From a plurality of co-occurrence candidates “Okada” and “ga”. In this way, the co-occurrence candidate “Okada” corresponding to the correct reading “hidori” is selected.

候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句「岡田」を読み出し、上記連結語句「岡田」とその読み「おかだ」とを音声合成ユーザ辞書登録部42に通知する。
同時に、音声認識エンジン31のアクセント抽出部34は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声「おかだ」を読み出し、その音声「おかだ」からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する。
音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、連結語句「岡田」とその読み「おかだ」とそのアクセントとを含む第2単語を音声合成共起情報付きユーザ辞書データベース64に登録する。同時に、後述する第2共起情報を第2単語に対応付けて音声合成共起情報付きユーザ辞書データベース64に登録する。第1共起情報と第2共起情報は、第1単語と第2単語とを対応付ける共起情報である。上述のように、連結語句「岡田」は、テキストデータの上記部分「秀喜」の1つ前に連結する連結部分である。このため、音声合成ユーザ辞書登録部42は、語句「岡田」、「秀喜」がこの順で音声合成共起情報付きユーザ辞書データベース64に登録されるように、第2共起情報、第1共起情報にそれぞれ語句の並びの順番を表す順番情報“1−1”、“1−2”を付加しておく。
As a result of the comparison, the candidate selection unit 41 reads out the concatenated phrase “Okada”, which is a concatenated part connected to the above part, from among a plurality of words stored in the speech synthesis main dictionary database 26, and the concatenated phrase “Okada” And the reading “Okada” to the speech synthesis user dictionary registration unit 42.
At the same time, the accent extraction unit 34 of the speech recognition engine 31 reads the connected speech “Okada” stored in the built-in memory in response to the co-occurrence information registration instruction, extracts the accent from the speech “Okada”, and generates a speech synthesis user. Notify the dictionary registration unit 42.
In response to the co-occurrence information registration instruction, the speech synthesis user dictionary registration unit 42 stores the second word including the concatenated phrase “Okada”, its reading “Okada” and its accent in the user dictionary database 64 with speech synthesis co-occurrence information. sign up. At the same time, second co-occurrence information to be described later is associated with the second word and registered in the user dictionary database 64 with speech synthesis co-occurrence information. The first co-occurrence information and the second co-occurrence information are co-occurrence information that associates the first word with the second word. As described above, the concatenated phrase “Okada” is a concatenated part that is concatenated before the part “Hideki” of the text data. For this reason, the speech synthesis user dictionary registration unit 42 registers the second co-occurrence information and the first co-occurrence information so that the words “Okada” and “Hideki” are registered in the user dictionary database 64 with speech synthesis co-occurrence information in this order. Order information “1-1” and “1-2” indicating the order of word arrangement is added to the origin information.

次に、図10を参照して、本発明の第2実施形態による音声合成装置1の動作(音声合成方法・音声合成処理)について説明する。
ここで、第1実施形態と同様に、文書データベース11には、インターネットのWebページを表すテキストデータが格納されている。このテキストデータには、複数の文が記載されている。また、音声合成装置1は、コンピュータがテキストデータを取得して文書データベース11に格納したときに、テキストデータに記載された文を音声に変換するものとする。
Next, the operation (speech synthesis method / speech synthesis process) of the speech synthesizer 1 according to the second embodiment of the present invention will be described with reference to FIG.
Here, as in the first embodiment, the document database 11 stores text data representing Internet web pages. In this text data, a plurality of sentences are described. In addition, the speech synthesizer 1 converts a sentence described in the text data into speech when the computer acquires the text data and stores it in the document database 11.

第2実施形態による音声合成装置1の動作は、第1実施形態に対してステップS22が異なる。音声合成装置1は、ステップS22を実行するとき、トリガとしてカテゴリ登録トリガ用スイッチ51や共起情報登録トリガ用スイッチ61が操作されたか否かを確認し(ステップS31)、ユーザ辞書登録処理、カテゴリ付辞書登録処理、共起辞書登録処理のいずれかが実行される。   The operation of the speech synthesizer 1 according to the second embodiment is different in step S22 from the first embodiment. When executing step S22, the speech synthesizer 1 checks whether or not the category registration trigger switch 51 or the co-occurrence information registration trigger switch 61 is operated as a trigger (step S31), and performs user dictionary registration processing, category Either an attached dictionary registration process or a co-occurrence dictionary registration process is executed.

ここで、音声合成ユーザ辞書登録部42は、カテゴリ登録指示、共起情報登録指示を受け付けない。この場合、音声合成ユーザ辞書登録部42は、カテゴリ登録トリガ用スイッチ51、共起情報登録トリガ用スイッチ61が操作されていないことを認識し(ステップS31−トリガなし)、ユーザ辞書登録処理が実行される。
このユーザ辞書登録処理では、第1実施形態と同様に、音声合成ユーザ辞書登録部42は、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS32)。
Here, the speech synthesis user dictionary registration unit 42 does not accept a category registration instruction and a co-occurrence information registration instruction. In this case, the speech synthesis user dictionary registration unit 42 recognizes that the category registration trigger switch 51 and the co-occurrence information registration trigger switch 61 are not operated (step S31—no trigger), and the user dictionary registration process is executed. Is done.
In this user dictionary registration process, as in the first embodiment, the speech synthesis user dictionary registration unit 42 associates the word / phrase notified from the candidate selection unit 41, the correct reading, and the accent notified from the accent extraction unit 34. At the same time, it is registered in the speech synthesis user dictionary database 27 (step S32).

ユーザは、マイク35を用いてユーザの音声を入力し(ステップS8−YES)、カテゴリ登録トリガ用スイッチ51を操作する。カテゴリ抽出部52は、カテゴリ登録トリガ用スイッチ51が操作されたことを表すカテゴリ登録指示を出力し、音声合成ユーザ辞書登録部42は、カテゴリ登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部42は、カテゴリ登録トリガ用スイッチ51が操作されたことを認識し、カテゴリ付辞書登録処理が実行される。
このカテゴリ付辞書登録処理では、音声合成ユーザ辞書登録部42は、カテゴリ登録指示に応じて、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS31−カテゴリトリガあり)。
カテゴリ抽出部52は、文抽出部12の内蔵メモリからテキストデータを読み出し(ステップS41)、カテゴリ抽出情報データベース53を参照して、テキストデータに記載されたカテゴリを抽出する(ステップS42、S43)。カテゴリ抽出部52は、このカテゴリを音声合成ユーザ辞書登録部42に通知する。音声合成ユーザ辞書登録部42は、上記のカテゴリ登録指示に応じて、上記のカテゴリを、上記の語句と正しい読みとアクセントとを含む単語に対応付けて音声合成カテゴリ付きユーザ辞書データベース54に登録する(ステップS44)。
The user inputs the user's voice using the microphone 35 (step S8—YES), and operates the category registration trigger switch 51. The category extraction unit 52 outputs a category registration instruction indicating that the category registration trigger switch 51 has been operated, and the speech synthesis user dictionary registration unit 42 receives the category registration instruction. In this case, the speech synthesis user dictionary registration unit 42 recognizes that the category registration trigger switch 51 has been operated, and executes a category-added dictionary registration process.
In this category-added dictionary registration process, the speech synthesis user dictionary registration unit 42 responds to the word / phrase notified from the candidate selection unit 41, the correct reading, and the accent notified from the accent extraction unit 34 according to the category registration instruction. At the same time, it is registered in the speech synthesis user dictionary database 27 (step S31—with category trigger).
The category extraction unit 52 reads the text data from the built-in memory of the sentence extraction unit 12 (step S41), refers to the category extraction information database 53, and extracts the category described in the text data (steps S42 and S43). The category extraction unit 52 notifies the speech synthesis user dictionary registration unit 42 of this category. In response to the category registration instruction, the speech synthesis user dictionary registration unit 42 registers the category in the user dictionary database 54 with the speech synthesis category in association with the word including the word, the correct reading, and the accent. (Step S44).

ユーザは、マイク35を用いてユーザの音声を入力した後(ステップS8−YES)、共起情報登録トリガ用スイッチ61を操作し、マイク35を用いてユーザの音声である連結音声を入力する。共起情報抽出部62は、共起情報登録トリガ用スイッチ61が操作されたことを表す共起情報登録指示を出力し、音声合成ユーザ辞書登録部42は、この共起情報登録指示を受け付ける。この場合、音声合成ユーザ辞書登録部42は、共起情報登録トリガ用スイッチ61が操作されたことを認識し、共起辞書登録処理が実行される。
この共起辞書登録処理では、音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、候補選択部41から通知された語句、正しい読みと、アクセント抽出部34から通知されたアクセントとを含む単語を第1単語として音声合成ユーザ辞書データベース27に登録する。同時に、音声合成ユーザ辞書登録部42は、第1共起情報を第1単語に対応付けて音声合成ユーザ辞書データベース27に登録する(ステップS31−共起語トリガあり)。
After inputting the user's voice using the microphone 35 (step S8—YES), the user operates the co-occurrence information registration trigger switch 61 and inputs the connected voice that is the user's voice using the microphone 35. The co-occurrence information extraction unit 62 outputs a co-occurrence information registration instruction indicating that the co-occurrence information registration trigger switch 61 has been operated, and the speech synthesis user dictionary registration unit 42 receives the co-occurrence information registration instruction. In this case, the speech synthesis user dictionary registration unit 42 recognizes that the co-occurrence information registration trigger switch 61 has been operated, and executes the co-occurrence dictionary registration process.
In this co-occurrence dictionary registration process, the speech synthesis user dictionary registration unit 42, in response to the co-occurrence information registration instruction, the phrase notified from the candidate selection unit 41, correct reading, and the accent notified from the accent extraction unit 34. Is registered in the speech synthesis user dictionary database 27 as the first word. At the same time, the speech synthesis user dictionary registration unit 42 registers the first co-occurrence information in the speech synthesis user dictionary database 27 in association with the first word (step S31—with co-occurrence word trigger).

音声認識エンジン31の音声認識部32は、共起情報登録指示に応じて、テキストデータに記載された上記文の上記部分に連結する連結部分の読みとしてマイク35から上記の連結音声を入力し、データとして内蔵メモリに格納する(ステップS51)。音声認識エンジン31の読み候補生成部33は、音声認識辞書データベース36を参照して、内蔵メモリに格納された連結音声から複数の連結読み候補を生成する(ステップS52)。   In response to the co-occurrence information registration instruction, the speech recognition unit 32 of the speech recognition engine 31 inputs the above connected speech from the microphone 35 as a reading of the connected portion connected to the above portion of the sentence described in the text data, Data is stored in the built-in memory (step S51). The reading candidate generation unit 33 of the speech recognition engine 31 refers to the speech recognition dictionary database 36 and generates a plurality of linked reading candidates from the linked speech stored in the built-in memory (step S52).

音声合成エンジン21の誤り候補生成部24は、共起情報登録指示に応じて、上記文が表す語句群から、上記の連結部分に対応する複数の共起候補を生成する(ステップS53)。   In response to the co-occurrence information registration instruction, the error candidate generation unit 24 of the speech synthesis engine 21 generates a plurality of co-occurrence candidates corresponding to the above-described connected portion from the word / phrase group represented by the sentence (step S53).

候補選択部41は、共起情報登録指示に応じて、複数の共起候補と複数の連結読み候補とを比較する(ステップS54)。
比較の結果、候補選択部41は、複数の共起候補の中から、複数の連結読み候補のうちの1つの読み候補に対応する共起候補を選択する。このとき、候補選択部41は、比較の結果として、音声合成メイン辞書データベース26に格納された複数の語句のうちの、上記部分に連結する連結部分である連結語句を読み出し、上記連結語句とその読みとを音声合成ユーザ辞書登録部42に通知する。同時に、音声認識エンジン31のアクセント抽出部34は、共起情報登録指示に応じて、内蔵メモリに格納された連結音声を読み出し、その音声からアクセントを抽出し、音声合成ユーザ辞書登録部42に通知する(ステップS55)。
音声合成ユーザ辞書登録部42は、共起情報登録指示に応じて、候補選択部41から通知された連結語句とその読みと、アクセント抽出部34から通知されたアクセントとを含む単語を第2単語として音声合成ユーザ辞書データベース27に登録する。同時に、音声合成ユーザ辞書登録部42は、第2共起情報を第2単語に対応付けて音声合成ユーザ辞書データベース27に登録する。このとき、音声合成ユーザ辞書登録部42は、第2共起情報、第1共起情報にそれぞれ語句の並びの順番を表す順番情報“1−1”、“1−2”を付加する(ステップS56)。
In response to the co-occurrence information registration instruction, the candidate selecting unit 41 compares the plurality of co-occurrence candidates with the plurality of linked reading candidates (step S54).
As a result of the comparison, the candidate selection unit 41 selects a co-occurrence candidate corresponding to one reading candidate among the plurality of linked reading candidates from the plurality of co-occurrence candidates. At this time, as a result of the comparison, the candidate selection unit 41 reads out a connected word / phrase that is a connected part connected to the above part from among a plurality of words / phrases stored in the speech synthesis main dictionary database 26, and The reading is notified to the speech synthesis user dictionary registration unit 42. At the same time, the accent extraction unit 34 of the speech recognition engine 31 reads the connected speech stored in the built-in memory in response to the co-occurrence information registration instruction, extracts the accent from the speech, and notifies the speech synthesis user dictionary registration unit 42 (Step S55).
In response to the co-occurrence information registration instruction, the speech synthesis user dictionary registration unit 42 selects a word including the connected phrase and the reading notified from the candidate selection unit 41 and the accent notified from the accent extraction unit 34 as the second word. Is registered in the speech synthesis user dictionary database 27. At the same time, the speech synthesis user dictionary registration unit 42 registers the second co-occurrence information in the speech synthesis user dictionary database 27 in association with the second word. At this time, the speech synthesis user dictionary registration unit 42 adds the order information “1-1” and “1-2” indicating the order of the arrangement of the words to the second co-occurrence information and the first co-occurrence information, respectively (step) S56).

上述のように、例えば、テキストデータが、記事を表すWebページである場合、その記事に記載されたカテゴリを表す情報として「スポーツ」「政治」「音楽」…を比較的容易に取得することができる。本発明の音声合成装置1では、カテゴリを表す情報がテキストデータに含まれる場合、カテゴリと、音声合成メイン辞書データベース26に登録されていない単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)とを対応付けて音声合成カテゴリ付ユーザ辞書データベース54に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成カテゴリ付ユーザ辞書データベース54)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置1は、音声合成ユーザ辞書データベース27を参照する場合に比べて、読み誤りを更に低減することができる。   As described above, for example, when the text data is a Web page representing an article, “sports”, “politics”, “music”,... Can be acquired relatively easily as information representing a category described in the article. it can. In the speech synthesizer 1 of the present invention, when information representing a category is included in the text data, the category and the words not registered in the speech synthesis main dictionary database 26 (the portion of the plurality of phrases and the correct reading) It is preferable to register the dictionary in the speech synthesis category-added user dictionary database 54 in association with the user's voice accent). Thus, when the text data is given to the speech synthesizer 1 of the present invention, the speech synthesis engine 21 refers to the speech synthesis dictionary database (the speech synthesis main dictionary database 26, the user dictionary database 54 with the speech synthesis category). Thus, the phrase group represented by the text data can be read out correctly. For this reason, the speech synthesizer 1 of the present invention can further reduce reading errors as compared with the case where the speech synthesis user dictionary database 27 is referred to.

上述のように、例えば、音声合成により固有名詞(人名など)を読み上げる場合、同じ語句でも違う読み方をする場合が多々あり、これを区別して読み上げさせるのは難しい。固有名詞が人名である場合、フルネームで辞書登録したほうが好ましい。この場合、本発明の音声合成装置1では、第1単語(複数語句のうちの上記部分と、上記正しい読みと、上記ユーザの音声によるアクセント)と、第2単語(複数語句のうちの上記連結部分と、上記連結部分の読みと、上記連結音声によるアクセント)と、第1単語と第2単語とを対応付ける共起情報とを共起情報付ユーザ辞書データベース64に辞書登録することが好ましい。これにより、本発明の音声合成装置1に上記のテキストデータが与えられたとき、音声合成エンジン21は、音声合成辞書データベース(音声合成メイン辞書データベース26、音声合成共起情報付ユーザ辞書データベース64)を参照して、上記のテキストデータが表す語句群を正しく読み上げることができる。このため、本発明の音声合成装置1は、音声合成ユーザ辞書データベース27を参照する場合に比べて、読み誤りを更に低減することができる。   As described above, for example, when a proper noun (person name, etc.) is read out by speech synthesis, there are many cases where the same word or phrase is read differently, and it is difficult to distinguish and read it out. When the proper noun is a person name, it is preferable to register the dictionary with the full name. In this case, in the speech synthesizer 1 of the present invention, the first word (the portion of the plurality of phrases, the correct reading, the accent by the user's voice), and the second word (the connection of the plurality of phrases). It is preferable to register the part, the reading of the connected part, the accent by the connected voice), and the co-occurrence information associating the first word with the second word in the user dictionary database 64 with co-occurrence information. As a result, when the above text data is given to the speech synthesizer 1 of the present invention, the speech synthesis engine 21 reads the speech synthesis dictionary database (speech synthesis main dictionary database 26, user dictionary database 64 with speech synthesis co-occurrence information). Referring to the above, it is possible to correctly read out the phrase group represented by the text data. For this reason, the speech synthesizer 1 of the present invention can further reduce reading errors as compared with the case where the speech synthesis user dictionary database 27 is referred to.

図1は、本発明の音声合成装置1の構成を示すブロック図である。(第1実施形態)FIG. 1 is a block diagram showing the configuration of the speech synthesizer 1 of the present invention. (First embodiment) 図2は、本発明の音声合成装置1の音声合成メイン辞書データベース26を示している。(第1実施形態)FIG. 2 shows the speech synthesis main dictionary database 26 of the speech synthesizer 1 of the present invention. (First embodiment) 図3は、本発明の音声合成装置1の音声合成ユーザ辞書データベース27を示している。(第1実施形態)FIG. 3 shows the speech synthesis user dictionary database 27 of the speech synthesizer 1 of the present invention. (First embodiment) 図4は、本発明の音声合成装置1の音声認識辞書データベース36を示している。(第1実施形態)FIG. 4 shows the speech recognition dictionary database 36 of the speech synthesizer 1 of the present invention. (First embodiment) 図5は、本発明の音声合成装置1の動作を説明するための図である。(第1実施形態、第2実施形態)FIG. 5 is a diagram for explaining the operation of the speech synthesizer 1 of the present invention. (First embodiment, second embodiment) 図6は、本発明の音声合成装置1の動作を示すフローチャートである。(第1実施形態、第2実施形態)FIG. 6 is a flowchart showing the operation of the speech synthesizer 1 of the present invention. (First embodiment, second embodiment) 図7は、本発明の音声合成装置1の構成を示すブロック図である。(第2実施形態)FIG. 7 is a block diagram showing the configuration of the speech synthesizer 1 of the present invention. (Second Embodiment) 図8は、本発明の音声合成装置1の音声合成カテゴリ付きユーザ辞書データベース54を示している。(第2実施形態)FIG. 8 shows a user dictionary database 54 with a speech synthesis category of the speech synthesizer 1 of the present invention. (Second Embodiment) 図9は、本発明の音声合成装置1の音声合成共起情報付きユーザ辞書データベース64を示している。(第2実施形態)FIG. 9 shows a user dictionary database 64 with speech synthesis co-occurrence information of the speech synthesizer 1 of the present invention. (Second Embodiment) 図10は、本発明の音声合成装置1の動作を示すフローチャートである。(第2実施形態)FIG. 10 is a flowchart showing the operation of the speech synthesizer 1 of the present invention. (Second Embodiment)

符号の説明Explanation of symbols

1 音声合成装置
11 文書データベース
12 文抽出部
21 音声合成エンジン
22 音声合成部
23 構文解析部
24 誤り候補生成部
25 スピーカ
26 音声合成メイン辞書データベース
27 音声合成ユーザ辞書データベース
31 音声認識エンジン
32 音声認識部
33 読み候補生成部
34 アクセント抽出部
35 マイク
36 音声認識辞書データベース
41 候補選択部
42 合成音声ユーザ辞書登録部
51 カテゴリ登録トリガ用スイッチ
52 カテゴリ抽出部
53 カテゴリ抽出情報データベース
54 音声合成カテゴリ付きユーザ辞書データベース
61 共起情報登録トリガ用スイッチ
62 共起情報抽出部
64 音声合成共起情報付きユーザ辞書データベース
DESCRIPTION OF SYMBOLS 1 Speech synthesizer 11 Document database 12 Sentence extraction part 21 Speech synthesis engine 22 Speech synthesizer 23 Syntax analysis part 24 Error candidate production | generation part 25 Speaker 26 Speech synthesis main dictionary database 27 Speech synthesis user dictionary database 31 Speech recognition engine 32 Speech recognition part 33 Reading candidate generation unit 34 Accent extraction unit 35 Microphone 36 Speech recognition dictionary database 41 Candidate selection unit 42 Synthetic speech user dictionary registration unit 51 Category registration trigger switch 52 Category extraction unit 53 Category extraction information database 54 User dictionary database with speech synthesis category 61 Co-occurrence information registration trigger switch 62 Co-occurrence information extraction unit 64 User dictionary database with speech synthesis co-occurrence information

Claims (16)

複数の語句を複数の読みに対応付ける辞書データベースと、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成エンジンと、
マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
を具備する音声合成装置。
A dictionary database that maps multiple words to multiple readings;
A speech synthesis engine that refers to the dictionary database, generates a reading group from text data representing a group of words, converts the reading group into speech, and outputs the speech from a speaker;
A selection unit for selecting a part corresponding to a different reading from the text data based on a correct reading input from a microphone;
A speech synthesizer comprising: a user dictionary registration unit that registers the portion of the plurality of phrases in the dictionary database in association with the correct reading.
請求項1に記載の音声合成装置において、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する
音声合成装置。
The speech synthesis apparatus according to claim 1,
Furthermore,
A voice recognition engine that inputs a user's voice from the microphone as the correct reading and generates a plurality of reading candidates from the user's voice;
The speech synthesis engine generates a plurality of error candidates from a group of phrases represented by the text data;
The plurality of error candidates include a phrase having a plurality of readings, a phrase not registered in the dictionary database,
The selection unit is a speech synthesizer that selects an error candidate corresponding to one of the plurality of reading candidates as the portion from the plurality of error candidates.
請求項1又は2のいずれかに記載の音声合成装置において、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
音声合成装置。
The speech synthesizer according to claim 1 or 2,
The dictionary database is
A main dictionary database in which the plurality of words and the plurality of readings and a plurality of accents are registered in association with each other;
A user dictionary database,
The speech synthesis engine outputs the speech from a speaker using a pronunciation accent corresponding to the reading group among the plurality of accents,
The said user dictionary registration part is a speech synthesizer which matches and registers the said part of the said several phrases, the said correct reading, and the accent by the said user's voice to the said user dictionary database.
請求項3に記載の音声合成装置において、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
音声合成装置。
The speech synthesizer according to claim 3.
The dictionary database is
It further includes a user dictionary database with categories,
The text data includes information representing a category,
In response to a category registration instruction, the user dictionary registration unit associates the category, the portion of the plurality of words, the correct reading, and the accent by the user's voice, with the category-added user dictionary. A speech synthesizer registered in a database.
請求項3又は4に記載の音声合成装置において、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択し、
前記ユーザ辞書登録部は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
音声合成装置。
The speech synthesizer according to claim 3 or 4,
The dictionary database is
It further includes a user dictionary database with co-occurrence information,
In response to the co-occurrence information registration instruction,
The speech recognition engine inputs a connected speech that is a user's speech from the microphone as a connected portion connected to the portion of the text data, and generates a plurality of connected reading candidates from the connected speech,
The speech synthesis engine generates a plurality of co-occurrence candidates corresponding to the connected portion from the text data,
The selection unit selects a co-occurrence candidate corresponding to one of the plurality of linked reading candidates from the plurality of co-occurrence candidates as the linked portion,
The user dictionary registration unit registers the first word, the second word, and the co-occurrence information that associates the first word with the second word in the user dictionary database with co-occurrence information,
The first word includes the portion of the plurality of phrases, the correct reading, and an accent by the user's voice, and the second word includes the connected portion of the plurality of phrases; A speech synthesizer including a reading of the connected portion and an accent by the connected speech.
複数の語句を複数の読みに対応付ける辞書データベースを具備するコンピュータに適用される音声合成方法であって、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声をスピーカから出力する音声合成ステップと、
マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択ステップと、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録ステップと
を具備する音声合成方法。
A speech synthesis method applied to a computer having a dictionary database that associates a plurality of phrases with a plurality of readings,
Referring to the dictionary database, generating a reading group from text data representing a group of phrases, converting the reading group into speech, and outputting the speech from a speaker;
A selection step of selecting, from the text data, a portion corresponding to a different reading based on a correct reading input from a microphone;
A speech synthesis method comprising: a user dictionary registration step of registering the portion of the plurality of words / phrases in the dictionary database in association with the correct reading.
請求項6に記載の音声合成方法において、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識ステップを具備し、
前記音声合成ステップは、前記テキストデータが表す語句群から複数の誤り候補を生成するステップを更に含み、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択ステップは、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択するステップ
を更に含む音声合成方法。
The speech synthesis method according to claim 6,
Furthermore,
A voice recognition step of inputting a user's voice from the microphone as the correct reading and generating a plurality of reading candidates from the user's voice;
The speech synthesis step further includes a step of generating a plurality of error candidates from a group of phrases represented by the text data,
The plurality of error candidates include a phrase having a plurality of readings, a phrase not registered in the dictionary database,
The speech synthesis method further includes the step of selecting, as the portion, an error candidate corresponding to one of the plurality of reading candidates from the plurality of error candidates.
請求項6又は7に記載の音声合成方法において、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録ステップは、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録するステップ
を更に含む音声合成方法。
The speech synthesis method according to claim 6 or 7,
The dictionary database is
A main dictionary database in which the plurality of words and the plurality of readings and a plurality of accents are registered in association with each other;
A user dictionary database,
The speech synthesis engine outputs the speech from a speaker using a pronunciation accent corresponding to the reading group among the plurality of accents,
The user dictionary registration step further includes a step of registering the portion of the plurality of phrases, the correct reading, and the accent by the user's voice in the user dictionary database in association with each other.
請求項8に記載の音声合成方法において、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録ステップは、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録するステップ
を更に含む音声合成方法。
The speech synthesis method according to claim 8.
The dictionary database is
It further includes a user dictionary database with categories,
The text data includes information representing a category,
The user dictionary registration step associates the category, the portion of the plurality of words, the correct reading, and the accent by the user's voice in accordance with a category registration instruction. A speech synthesis method further comprising the step of registering in a database.
請求項8又は9に記載の音声合成方法において、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識ステップは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成するステップを更に含み、
前記音声合成ステップは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成するステップを更に含み、
前記選択ステップは、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択するステップを更に含み、
前記ユーザ辞書登録ステップは、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録するステップを更に含み、
前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
音声合成方法。
The speech synthesis method according to claim 8 or 9,
The dictionary database is
It further includes a user dictionary database with co-occurrence information,
In response to the co-occurrence information registration instruction,
The speech recognition step further includes a step of inputting a connected speech that is a user's speech from the microphone as a connected portion connected to the portion of the text data, and generating a plurality of connected reading candidates from the connected speech. ,
The speech synthesis step further includes generating a plurality of co-occurrence candidates corresponding to the connected portion from the text data,
The selecting step further includes a step of selecting a co-occurrence candidate corresponding to one of the plurality of concatenated reading candidates as the concatenated portion from the plurality of co-occurrence candidates.
The user dictionary registration step further includes the step of registering the first word, the second word, and the co-occurrence information that associates the first word with the second word in the user dictionary database with co-occurrence information,
The first word includes the portion of the plurality of phrases, the correct reading, and an accent by the user's voice, and the second word includes the connected portion of the plurality of phrases; A speech synthesis method including reading of the connected portion and an accent by the connected speech.
請求項6〜10のいずれかに記載された音声合成方法の各ステップをコンピュータに実行させるコンピュータプログラム。   A computer program for causing a computer to execute each step of the speech synthesis method according to claim 6. 複数の語句を複数の読みに対応付ける辞書データベースと、コンピュータプログラムとが格納された格納部と、
前記コンピュータプログラムを実行する制御部と、
スピーカと、
マイクとを具備し、
前記制御部は、
前記辞書データベースを参照して、語句群を表すテキストデータから読み群を生成し、前記読み群を音声に変換し、前記音声を前記スピーカから出力する音声合成エンジンと、
前記マイクから入力される正しい読みに基づいて異なる読みに対応する部分を前記テキストデータから選択する選択部と、
前記複数の語句のうちの前記部分を前記正しい読みに対応付けて前記辞書データベースに登録するユーザ辞書登録部と
を具備するコンピュータ。
A dictionary database that maps a plurality of words to a plurality of readings, and a storage unit that stores a computer program;
A control unit for executing the computer program;
Speakers,
With a microphone,
The controller is
A speech synthesis engine that refers to the dictionary database, generates a reading group from text data representing a group of phrases, converts the reading group into speech, and outputs the speech from the speaker;
A selection unit that selects, from the text data, a part corresponding to a different reading based on a correct reading input from the microphone;
A computer comprising: a user dictionary registration unit that registers the part of the plurality of words in the dictionary database in association with the correct reading.
請求項12に記載のコンピュータにおいて、
更に、
前記正しい読みとして前記マイクからユーザの音声を入力し、前記ユーザの音声から複数の読み候補を生成する音声認識エンジンを具備し、
前記音声合成エンジンは、前記テキストデータが表す語句群から複数の誤り候補を生成し、
前記複数の誤り候補は、複数の読み方がある語句、前記辞書データベースに登録されていない語句を含み、
前記選択部は、前記複数の誤り候補の中から、前記複数の読み候補のうちの1つに対応する誤り候補を前記部分として選択する
コンピュータ。
The computer of claim 12, wherein
Furthermore,
A voice recognition engine that inputs a user's voice from the microphone as the correct reading and generates a plurality of reading candidates from the user's voice;
The speech synthesis engine generates a plurality of error candidates from a group of phrases represented by the text data;
The plurality of error candidates include a phrase having a plurality of readings, a phrase not registered in the dictionary database,
The selection unit is a computer that selects, as the part, an error candidate corresponding to one of the plurality of reading candidates from the plurality of error candidates.
請求項12又は13に記載のコンピュータにおいて、
前記辞書データベースは、
前記複数の語句と前記複数の読みと複数アクセントとが対応付けられて登録されたメイン辞書データベースと、
ユーザ辞書データベースとを含み、
前記音声合成エンジンは、前記複数アクセントのうちの、前記読み群に対応する発音用アクセントを用いて、前記音声をスピーカから出力し、
前記ユーザ辞書登録部は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記ユーザ辞書データベースに登録する
コンピュータ。
The computer according to claim 12 or 13,
The dictionary database is
A main dictionary database in which the plurality of words and the plurality of readings and a plurality of accents are registered in association with each other;
A user dictionary database,
The speech synthesis engine outputs the speech from a speaker using a pronunciation accent corresponding to the reading group among the plurality of accents,
The user dictionary registration unit is a computer that registers the portion of the plurality of words, the correct reading, and the accent by the voice of the user in the user dictionary database in association with each other.
請求項14に記載のコンピュータにおいて、
前記辞書データベースは、
カテゴリ付ユーザ辞書データベースを更に含み、
前記テキストデータは、カテゴリを表す情報を含み、
前記ユーザ辞書登録部は、カテゴリ登録指示に応じて、前記カテゴリと、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを対応付けて前記カテゴリ付ユーザ辞書データベースに登録する
コンピュータ。
The computer according to claim 14.
The dictionary database is
It further includes a user dictionary database with categories,
The text data includes information representing a category,
In response to a category registration instruction, the user dictionary registration unit associates the category, the portion of the plurality of words, the correct reading, and the accent by the user's voice, with the category-added user dictionary. The computer to register with the database.
請求項14又は15に記載のコンピュータにおいて、
前記辞書データベースは、
共起情報付ユーザ辞書データベースを更に含み、
共起情報登録指示に応じて、
前記音声認識エンジンは、前記テキストデータの前記部分に連結する連結部分の読みとして前記マイクからユーザの音声である連結音声を入力し、前記連結音声から複数の連結読み候補を生成し、
前記音声合成エンジンは、前記テキストデータから前記連結部分に対応する複数の共起候補を生成し、
前記選択部は、前記複数の共起候補の中から、前記複数の連結読み候補のうちの1つに対応する共起候補を前記連結部分として選択し、
前記ユーザ辞書登録部は、第1単語と、第2単語と、第1単語と第2単語とを対応付ける共起情報とを前記共起情報付ユーザ辞書データベースに登録し、
前記第1単語は、前記複数の語句のうちの前記部分と、前記正しい読みと、前記ユーザの音声によるアクセントとを含み、前記第2単語は、前記複数の語句のうちの前記連結部分と、前記連結部分の読みと、前記連結音声によるアクセントとを含む
コンピュータ。
The computer according to claim 14 or 15,
The dictionary database is
It further includes a user dictionary database with co-occurrence information,
In response to the co-occurrence information registration instruction,
The speech recognition engine inputs a connected speech that is a user's speech from the microphone as a connected portion connected to the portion of the text data, and generates a plurality of connected reading candidates from the connected speech,
The speech synthesis engine generates a plurality of co-occurrence candidates corresponding to the connected portion from the text data,
The selection unit selects a co-occurrence candidate corresponding to one of the plurality of linked reading candidates from the plurality of co-occurrence candidates as the linked portion,
The user dictionary registration unit registers the first word, the second word, and the co-occurrence information that associates the first word with the second word in the user dictionary database with co-occurrence information,
The first word includes the portion of the plurality of phrases, the correct reading, and an accent by the user's voice, and the second word includes the connected portion of the plurality of phrases; A computer including a reading of the connected portion and an accent by the connected voice.
JP2005275086A 2005-09-22 2005-09-22 Speech synthesizer Withdrawn JP2007086404A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005275086A JP2007086404A (en) 2005-09-22 2005-09-22 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005275086A JP2007086404A (en) 2005-09-22 2005-09-22 Speech synthesizer

Publications (1)

Publication Number Publication Date
JP2007086404A true JP2007086404A (en) 2007-04-05

Family

ID=37973448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275086A Withdrawn JP2007086404A (en) 2005-09-22 2005-09-22 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP2007086404A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248886A (en) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp Reading correcting device
WO2012172596A1 (en) * 2011-06-14 2012-12-20 三菱電機株式会社 Pronunciation information generating device, in-vehicle information device, and database generating method
JP2014085652A (en) * 2012-10-26 2014-05-12 Toshiba Corp Dialog system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248886A (en) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp Reading correcting device
JP4704254B2 (en) * 2006-03-16 2011-06-15 三菱電機株式会社 Reading correction device
WO2012172596A1 (en) * 2011-06-14 2012-12-20 三菱電機株式会社 Pronunciation information generating device, in-vehicle information device, and database generating method
JP2014085652A (en) * 2012-10-26 2014-05-12 Toshiba Corp Dialog system

Similar Documents

Publication Publication Date Title
JP4267101B2 (en) Voice identification device, pronunciation correction device, and methods thereof
JP4791984B2 (en) Apparatus, method and program for processing input voice
US7711562B1 (en) System and method for testing a TTS voice
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US7693716B1 (en) System and method of developing a TTS voice
US7630898B1 (en) System and method for preparing a pronunciation dictionary for a text-to-speech voice
US20070255567A1 (en) System and method for generating a pronunciation dictionary
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
US7742921B1 (en) System and method for correcting errors when generating a TTS voice
CN102640107A (en) Information processing device
US7742919B1 (en) System and method for repairing a TTS voice database
JP2008243080A (en) Device, method, and program for translating voice
JP4738847B2 (en) Data retrieval apparatus and method
JP5079718B2 (en) Foreign language learning support system and program
JP2007086404A (en) Speech synthesizer
JP5611270B2 (en) Word dividing device and word dividing method
JP2004271895A (en) Multilingual speech recognition system and pronunciation learning system
JP2009271117A (en) Voice retrieval device and voice retrieval method
JP2000056795A (en) Speech recognition device
JP3589972B2 (en) Speech synthesizer
JP2003162524A (en) Language processor
JP3378547B2 (en) Voice recognition method and apparatus
JP3865149B2 (en) Speech recognition apparatus and method, dictionary creation apparatus, and information storage medium
JP3881155B2 (en) Speech recognition method and apparatus
JP2011007862A (en) Voice recognition device, voice recognition program and voice recognition method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202