JP2010145873A - Text replacement device, text voice synthesizer, text replacement method, and text replacement program - Google Patents
Text replacement device, text voice synthesizer, text replacement method, and text replacement program Download PDFInfo
- Publication number
- JP2010145873A JP2010145873A JP2008324784A JP2008324784A JP2010145873A JP 2010145873 A JP2010145873 A JP 2010145873A JP 2008324784 A JP2008324784 A JP 2008324784A JP 2008324784 A JP2008324784 A JP 2008324784A JP 2010145873 A JP2010145873 A JP 2010145873A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- vocabulary
- storage unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、聞き手にとって理解し易い言葉に置き換えて合成音声を出力することができるテキスト置換装置、テキスト音声合成装置、テキスト置換方法、及び、テキスト置換プログラムに関する。 The present invention relates to a text replacement device, a text-to-speech synthesizer, a text replacement method, and a text replacement program that can output synthesized speech by replacing words that are easy for a listener to understand.
一般に、入力テキストから合成音声を生成するテキスト音声合成においては、入力テキストに書かれた言葉がそのまま音声に変えられて出力される。ところが、入力テキストは、書かれた文字が読者の目で直接読まれることを前提とした書き言葉で書かれていることが多い。そのため、比較的難解な語彙や表現が使われているなどの場合は、そのまま音声に変えられると、文字を直接目で見ないで耳だけで聞いている聞き手にとっては理解しにくくなる。そこで、書き言葉で書かれたテキストを、平易な表現による話し言葉に変換してから合成音声を生成するテキスト音声合成方法が開発されている。 In general, in text-to-speech synthesis that generates synthesized speech from input text, words written in the input text are directly converted into speech and output. However, the input text is often written in written language assuming that the written characters are read directly by the reader's eyes. For this reason, when relatively difficult vocabulary and expressions are used, it is difficult for a listener who is listening to the ears without directly looking at the characters if the voice is changed as it is. In view of this, a text-to-speech synthesis method has been developed in which text written in written language is converted into spoken language expressed in plain expression and then synthesized speech is generated.
しかしながら、従来の方法では、聞き手の語彙力の如何にかかわらず、一律に書き言葉を話し言葉に置き換えていたので、聞き手の語彙力が高い場合には、言葉の置き換えによって却って意味がわかりにくくなってしまう場合があった。例えば、書き言葉であれば簡潔に内容が伝えられるのに、回りくどい表現により、わかりにくくなるなどの場合である。 However, in the conventional method, regardless of the listener's vocabulary, the written words are uniformly replaced with spoken words, so if the listener's vocabulary is high, the meaning becomes difficult to understand by replacing the words. There was a case. For example, the written contents can be communicated in a concise manner, but they can be difficult to understand due to rounded expressions.
また、置き換えられた言葉がわかりやすいかどうかも聞き手の語彙力によって異なる。そのため、一義的な基準によって、一般的にわかりやすいとされる語彙及び表現に変えたとしても、聞き手によっては依然としてわからない場合もあった。 Also, whether the replaced word is easy to understand depends on the vocabulary of the listener. Therefore, even if it is changed to a vocabulary and expression that are generally easy to understand according to the unambiguous criteria, there are cases where it is still not understood by the listener.
本発明は、上記の問題を解決するためになされたものであり、単語を、語彙力に応じた単語に置換できるテキスト置換装置、テキスト音声合成装置、テキスト置換方法、及び、テキスト置換プログラムを提供することを目的とする。 The present invention has been made to solve the above problem, and provides a text replacement device, a text-to-speech synthesis device, a text replacement method, and a text replacement program that can replace a word with a word according to vocabulary. The purpose is to do.
上記目的を達成するために、本発明の第1の観点に係るテキスト置換装置は、
入力テキストから取得される単語を、所定の単語に置換するテキスト置換装置であって、
語彙力を設定して入力するユーザインタフェースと、
単語と、その単語と同等な単語と、前記語彙力と、を記憶する記憶部と、
前記入力テキストから単語を取得し、当該取得された単語を前記記憶部で検索し、検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定する処理手段と、
を備えたことを特徴とする。
In order to achieve the above object, a text replacement device according to a first aspect of the present invention provides:
A text replacement device that replaces a word acquired from input text with a predetermined word,
A user interface to set and input vocabulary,
A storage unit for storing a word, a word equivalent to the word, and the vocabulary
A word is acquired from the input text, the acquired word is searched in the storage unit, and it is determined according to the vocabulary whether to replace the searched word with a predetermined word equivalent to the word. Processing means to
It is provided with.
前記記憶部は、
単語ごとに、当該単語とともに、その単語の難易を指標する単語難易度を記憶し、
前記処理手段は、
前記検索された単語の単語難易度が、前記語彙力を上回るか否かを判定し、
前記単語難易度が前記語彙力を上回る場合に、前記入力テキストから取得され前記記憶部で検索された単語を、所定の単語に置換することが望ましい。
The storage unit
For each word, along with the word, store the word difficulty index that indicates the difficulty of the word,
The processing means includes
Determining whether the word difficulty of the searched word exceeds the vocabulary;
When the word difficulty level exceeds the vocabulary, it is desirable to replace a word acquired from the input text and searched in the storage unit with a predetermined word.
前記記憶部は、
単語ごとに、当該単語とともに、当該単語と置換するその単語と同等な単語の候補を、語彙力の各レベルごとに記憶し、
前記処理手段は、
前記記憶部で、前記入力テキストから取得された単語を検索するとともに、語彙力のレベルを検索し、置換する候補単語を決定するようにしてもよい。
The storage unit
For each word, a word candidate equivalent to the word to be replaced with the word is stored for each level of vocabulary,
The processing means includes
The storage unit may search for a word acquired from the input text and search for a vocabulary level to determine a candidate word to be replaced.
また、前記ユーザインタフェースは、
世代を設定して入力し、
前記記憶部は、
単語ごとに、当該単語とともに、その単語の各世代における常識度を記憶し、
前記処理手段は、
前記入力した世代における前記検索された単語の常識度が所定の閾値を下回るか否かを判定し、
前記検索された単語の常識度が前記所定の閾値を下回る場合に、前記入力テキストから取得され前記記憶部で検索された単語を、所定の単語に置換するようにしてもよい。
The user interface is
Set and enter the generation,
The storage unit
For each word, along with the word, remember the common sense of each word generation,
The processing means includes
Determining whether the common sense of the searched word in the input generation is below a predetermined threshold;
When the common sense of the searched word is lower than the predetermined threshold, the word acquired from the input text and searched in the storage unit may be replaced with a predetermined word.
上記目的を達成するために、本発明の第2の観点に係るテキスト音声合成装置は、
前記テキスト置換装置によって単語が置換されたテキストに基づいて音声を合成する、
ことを特徴とする。
In order to achieve the above object, a text-to-speech synthesizer according to a second aspect of the present invention provides:
Synthesizing speech based on text with words replaced by the text replacement device;
It is characterized by that.
上記目的を達成するために、本発明の第3の観点に係るテキスト置換方法は、
入力テキストから取得される単語を、所定の単語に置換するテキスト置換方法であって、
語彙力を設定して入力し、
単語と、その単語と同等な単語と、前記語彙力と、を記憶し、
前記入力テキストから単語を取得するステップと、
当該取得された単語を検索するステップと、
検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定するステップと、
を備えたことを特徴とする。
In order to achieve the above object, a text replacement method according to a third aspect of the present invention includes:
A text replacement method for replacing a word obtained from input text with a predetermined word,
Set and input vocabulary,
Storing a word, a word equivalent to the word, and the vocabulary
Obtaining a word from the input text;
Searching for the acquired word;
Determining whether to replace a searched word with a predetermined word equivalent to the word, according to the vocabulary; and
It is provided with.
上記目的を達成するために、本発明の第4の観点に係るテキスト置換プログラムは、
入力テキストから取得される単語を、所定の単語に置換するテキスト置換プログラムであって、
コンピュータに、
語彙力を設定して入力し、
単語と、その単語と同等な単語と、前記語彙力と、を記憶し、
前記入力テキストから単語を取得するステップと、
当該取得された単語を検索するステップと、
検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定するステップと、
を実行させることを特徴とする。
In order to achieve the above object, a text replacement program according to the fourth aspect of the present invention provides:
A text replacement program for replacing a word acquired from input text with a predetermined word,
On the computer,
Set and input vocabulary,
Storing a word, a word equivalent to the word, and the vocabulary
Obtaining a word from the input text;
Searching for the acquired word;
Determining whether to replace a searched word with a predetermined word equivalent to the word, according to the vocabulary; and
Is executed.
本発明によれば、単語を、語彙力に応じた単語に置換できるテキスト置換装置、テキスト音声合成装置、テキスト置換方法、及び、テキスト置換プログラムを提供することができる。 According to the present invention, it is possible to provide a text replacement device, a text-to-speech synthesizer, a text replacement method, and a text replacement program that can replace a word with a word according to vocabulary.
以下、図面を参照して本発明の実施の形態について説明する。
まず、本実施形態に係るテキスト置換装置の物理的構成について図1を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings.
First, the physical configuration of the text replacement device according to the present embodiment will be described with reference to FIG.
《実施形態1》
図1に示すテキスト置換装置100は、ユーザインタフェース101と、記憶部102と、CPU(Central Processing Unit)103と、を備えている。
A
ユーザインターフェース101は、例えば、キーボードやモニタから構成され、本装置のユーザが各種の情報を直接入力し得る。これは、インタフェース回路104を介して内部バス105に接続されている。
The
記憶部102は、ハードディスク106と、RAM(Random Access Memory)107とを備えている。
The
ハードディスク106は、磁気ディスクにより構成されており、大容量であり、電源の切断後も記憶内容を保持できる。
The
RAM107は、半導体メモリから成り、揮発性である。電源の投入中のみ記憶内容を保持するが、ハードディスク106より高速にアクセス可能であり、ハードディスク106の記憶内容を電源の投入中に一時的に読み出して処理するためのワークエリアとして使用される。
The RAM 107 is composed of a semiconductor memory and is volatile. The stored contents are retained only while the power is turned on, but can be accessed at a higher speed than the
CPU103は、内部バス105を介して記憶部102と相互に接続されており、記憶部102に記憶されたプログラムを逐次読み出してその命令に従ってデータを処理し、その結果を記憶部102に書き込む。
The
また、インタフェース回路104は、ネットワーク300と接続されており、ネットワーク300を介して、ネットワーク300に接続された図示しないデータ処理装置から記憶部102にデータを転送し、テキスト置換を行った結果、得られたデータを該データ処理装置に転送し得る。
Further, the
次に、本実施形態に係るテキスト音声合成装置の物理的構成について図1を参照して説明する。 Next, the physical configuration of the text-to-speech synthesizer according to this embodiment will be described with reference to FIG.
テキスト置換装置100に、スピーカ201と、サウンドボード202と、を追加することによって、テキスト音声合成装置200が構成される。
A text-to-
スピーカ201は、合成音声を出力できるもので足り、高性能であることを要しない。 サウンドボード202は、スピーカ201と内部バス105との間に設けられ、CPU103が出力する合成音声データに対応してスピーカ201を駆動する信号を出力する。
The
次に、実施形態1に係るテキスト置換装置100の動作について説明する。
図1の装置において、CPU103は、まず、記憶部102へテキスト置換辞書を記憶し、次に、記憶部102へ語彙力を記憶し、そして、記憶部102へ入力テキストを記憶する。そうして、記憶部102上でテキスト置換を行う。
Next, the operation of the
In the apparatus of FIG. 1, the
(記憶部102へのテキスト置換辞書の記憶)
ユーザがユーザインタフェース101により所定の指示を出すことにより、CPU103は、ネットワーク300を経由して外部からテキスト置換辞書を入力し、記憶部102に記憶する。テキスト置換辞書は、単語と、その単語と同等な単語と、を記憶している。例えば、図4に示す内容であるが、図4の具体的な内容については後述のテキスト置換において説明する。
(Storage of text replacement dictionary in storage unit 102)
When the user issues a predetermined instruction through the
(記憶部102への語彙力の記憶)
ユーザがユーザインタフェース101により語彙力を入力することにより、CPU103は、これを記憶部102に記憶する。ここで、語彙力とは、ユーザがどれだけ難解な語彙まで、その意味や使い方を理解できているかを指標するパラメータである。このパラメータは、その数値が高いほど語彙力が高いとする。
(Storing vocabulary in the storage unit 102)
When the user inputs vocabulary through the
(記憶部102への入力テキストの記憶)
ネットワーク300を経由して図示しない他のデータ処理装置から転送データを受信することにより、CPU103は、その受信した転送データを記憶部102に記憶させる。この受信により、CPU103は、テキスト置換を行う。
(Storage of input text to storage unit 102)
By receiving transfer data from another data processing apparatus (not shown) via the
(記憶部102上でのテキスト置換)
CPU103は、図2に示すテキスト置換(ステップS1)において、入力テキストから単語を取得して形態素解析(ステップS3)を行い、当該取得された単語を記憶部102で検索し、検索された単語をその単語と同等な所定の単語に置換する単語置換(ステップS4)を行うか否かを、語彙力レベルに応じて決定する。
(Text replacement on the storage unit 102)
In the text replacement shown in FIG. 2 (step S1), the
図3は、図2のステップS3の処理の詳細を示したものである。CPU103は、カウンタjを設定し、j=1に初期化設定する(ステップS14)。そして、記憶部102に記憶されている形態素解析辞書3を用いて、任意の既知の手法により、入力テキストに対し形態素解析を行う(ステップS15)。次に、形態素解析を行った結果からj番目の形態素情報morpheme(j)を抽出する(ステップS16)。
FIG. 3 shows details of the processing in step S3 of FIG. The
続いて、入力テキストの文末まで解析が終わったか否かを判別する(ステップS17)。終わっていないと判別された場合(ステップS17;No)、次の形態素情報を抽出するため、カウンタjを1増加してから(ステップS18)、ステップS16に戻る。
一方、ステップS17で、上記解析が終わったと判別された場合(ステップS17;Yes)、カウンタj値を数値Nmorphemeに移し(ステップS19)、形態素解析を終了する。
Subsequently, it is determined whether or not the analysis has been completed up to the end of the input text (step S17). If it is determined that it has not been completed (step S17; No), the counter j is incremented by 1 to extract the next morpheme information (step S18), and the process returns to step S16.
On the other hand, if it is determined in step S17 that the analysis has been completed (step S17; Yes), the counter j value is moved to the numerical value Nmorpheme (step S19), and the morphological analysis is terminated.
この結果、入力テキストが形態素情報列morpheme(k)(1≦k≦Nmorpheme)に変換される。そして、Nmorphemeが、入力テキストから抽出された形態素の数として取得される。 As a result, the input text is converted into a morpheme information string morpheme (k) (1 ≦ k ≦ Nmorpheme). Nmorpheme is acquired as the number of morphemes extracted from the input text.
次に、形態素情報列morpheme(k)(1≦k≦Nmorpheme)に対する単語置換(ステップS4)の詳細について図5を参照して説明する。 Next, details of word replacement (step S4) for the morpheme information string morpheme (k) (1 ≦ k ≦ Nmorpheme) will be described with reference to FIG.
CPU103は、カウンタkを設定し、k=1に初期化設定する(ステップS21)。そして、記憶部102に記憶されているテキスト置換辞書4で形態素情報morpheme(k)を検出する(ステップS22)。
The
続いて、CPU103は、形態素情報morpheme(k)に対応する単語難易度VocabularyDifficulty(k)を語彙力レベルVocabularyLevelと比較する(ステップS23)。そして、次式(1)
Subsequently, the
単語難易度VocabularyDifficulty(k)>語彙力レベルVocabularyLevel (1)
を満たす場合(ステップS23;Yes)、CPU103は、図4に示す置換前単語情報41である形態素情報morpheme(k)を、置換後単語情報43である形態素情報Morpheme(k)に置換する(ステップS24)。
Word difficulty VocabularyDifficulty (k)> VocabularyLevel (1)
When satisfy | filling (step S23; Yes), CPU103 substitutes the morpheme information Morpheme (k) which is the
前記式(1)を満たさない場合(ステップS23;No)、CPU103は、置換前単語情報41である形態素情報morpheme(k)を、置換後単語情報43である形態素情報Morpheme(k)に置換しない。
When the expression (1) is not satisfied (step S23; No), the
続いて、カウンタkがNmorphemeに達し、形態素解析で抽出されたすべての形態素情報について置換を終えたか否かが判別される(ステップS25)。すべての形態素情報について置換を終えていないと判別された場合(ステップS25;No)、カウンタkを1増加してから(ステップS26)、ステップS22に戻り、ステップS22以降の処理を再度行う。
一方、すべての形態素情報について置換を終えたと判別された場合(ステップS25;Yes)、単語置換の処理を終了する。
Subsequently, it is determined whether or not the counter k has reached Nmorpheme and all the morpheme information extracted by the morpheme analysis has been replaced (step S25). When it is determined that the replacement has not been completed for all morpheme information (step S25; No), the counter k is incremented by 1 (step S26), the process returns to step S22, and the processes after step S22 are performed again.
On the other hand, when it is determined that the replacement has been completed for all the morpheme information (step S25; Yes), the word replacement process is terminated.
以上の処理を行うことで、例えば、図6に示す「事実を歪曲して報告する。」という入力テキストの形態素情報列morpheme(k)(1≦k≦Nmorpheme)についてテキスト置換が施されたことになる。ここで、テキスト置換が施された形態素情報列をMorpheme(k)(1≦k≦Nmorpheme)とする。 By performing the above processing, for example, the text substitution has been performed on the morpheme information sequence morpheme (k) (1 ≦ k ≦ Nmorpheme) of the input text “distorted and reported fact” shown in FIG. become. Here, Morpheme (k) (1 ≦ k ≦ Nmorpheme) is assumed to be a morpheme information sequence subjected to text replacement.
次に、本実施形態に係るテキスト音声合成装置の動作について説明する。
テキスト音声合成装置の場合、図2において、テキスト置換(ステップS1)を行った後、音声合成(ステップS2)を行う。
Next, the operation of the text-to-speech synthesizer according to this embodiment will be described.
In the case of a text-to-speech synthesizer, in FIG. 2, after text substitution (step S1), speech synthesis (step S2) is performed.
CPU103は、音声合成(ステップS2)において、形態素情報列に対し、韻律設定を行う(ステップS5)。すなわち、テキスト置換が施された形態素情報列Morpheme(k)(1≦k≦Nmorpheme)に含まれる各Morpheme(k)に任意の既知の手法により韻律情報を付加して韻律情報付ラベル列Label(m)(1≦m≦NLabel)を生成する。
In the speech synthesis (step S2), the
そして、韻律情報付ラベル列Label(m)(1≦m≦NLabel)について音声合成辞書5を用いて、音声合成を行い、合成音声SynthesizeSpeechを出力する(ステップS6)。
Then, the
以上の処理により、図7に示すように、例えば、語彙力レベルが「1」の聞き手に対しては、次のように動作する。この聞き手に対し、「歪曲」と「報告」の単語難易度42が語彙力レベルを上回る。そして、「歪曲」は「ゆがめて」に、「報告」は「しらせる」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてしらせる。」という合成音声で出力されて語彙レベルが「1」の聞き手にとってわかりやすい音声が得られる。
With the above processing, as shown in FIG. 7, for example, the following operation is performed for a listener whose vocabulary level is “1”. For this listener, the
また、図7に示すように、例えば、語彙力レベルが「2」から「5」までの聞き手に対しては、「歪曲」の単語難易度42のみが語彙力レベルを上回り、「歪曲」のみが「ゆがめて」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてほうこくする。」という合成音声で出力される。よって、「報告」のような、語彙力レベルが「2」以上の者が話し言葉としても使っている書き言葉は、あえて言い換える必要がないので、そのまま残される。これにより、語彙力レベルが「2」から「5」までの聞き手にとってわかりやすい音声が得られる。
Also, as shown in FIG. 7, for example, for listeners with vocabulary level “2” to “5”, only the
さらに、図7に示すように、語彙力レベルが「6」の聞き手に対しては、すべての単語の単語難易度42が語彙力レベルを上回ることがなく、すべての単語がそのまま出力される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、そのまま読まれて「じじつをわいきょくしてほうこくする。」という合成音声で出力される。これにより、あえて言葉を言い換える必要のない語彙レベルが「6」の聞き手にとってわかりやすい音声が得られる。
Furthermore, as shown in FIG. 7, for a listener with a vocabulary level of “6”, the
このように、各語彙力レベルの聞き手に対してそれぞれ適合した合成音声が出力される。 In this way, synthesized speech that is suitable for each vocabulary level listener is output.
《実施形態2》
実施形態2は、図2に示す実施形態1におけるテキスト置換辞書4に代えて、図8に示すテキスト置換辞書6を用い、テキスト置換(図2のステップS1)において実施形態1とは異なる処理手順でテキスト置換を行う。
<<
In the second embodiment, a
実施形態2に係るテキスト音声合成装置の物理的構成については図1に示すものと同様である。
テキスト置換辞書6は、置換前単語情報61と、置換後単語情報62を格納している。
The physical configuration of the text-to-speech synthesizer according to the second embodiment is the same as that shown in FIG.
The
置換前単語情報61は、形態素解析により得られた置換前の単語情報であり、図示の例では、「事実」、「歪曲」、「報告」など、入力テキスト、例えば、「事実を歪曲して報告する。」に含まれる単語である。
置換後単語情報62は、置換前単語情報41に対応する置換後の単語である。この単語は、合成音声を受ける聞き手の語彙レベルに応じて複数又は単数の候補が決められている。
The
次に、実施形態2に係る装置の動作について図2及び図9を参照して説明する。なお、本実施形態の装置の構成については図1を参照する。 Next, the operation of the apparatus according to the second embodiment will be described with reference to FIGS. Note that FIG. 1 is referred to for the configuration of the apparatus of the present embodiment.
まず、上述のテキスト置換装置100は、記憶部102に記憶されている入力テキストに形態素解析を施す(図2のステップS3)。これは、図3に示す実施形態1に係る手順と同様の手順で行われる。
First, the
次に、該テキスト音声合成装置200は、図9に従って形態素情報列morpheme(k)(1≦k≦Nmorpheme)にテキスト置換を施す。まず、CPU103は、カウンタkを設定し、k=1に初期化設定する(ステップS31)。そして、記憶部102に記憶されているテキスト置換辞書6で形態素情報morpheme(k)を検出する(ステップS32)。
Next, the text-to-
続いて、CPU103は、形態素情報morpheme(k)を、語彙力レベルVocabularyLevelに対応する候補の形態素情報Morpheme(k)に置換する(ステップS33)。
Subsequently, the
続いて、カウンタkがNmorphemeに達したか否かが判別される(ステップS34)。達していないと判別された場合(ステップS34;No)、カウンタkを1増加してから(ステップS35)、ステップS32に戻り、達したと判別された場合(ステップS34;Yes)、終了する。 Subsequently, it is determined whether or not the counter k has reached Nmorpheme (step S34). If it is determined that it has not been reached (step S34; No), the counter k is incremented by 1 (step S35), then the process returns to step S32, and if it is determined that it has been reached (step S34; Yes), the process ends.
これにより、図7に示すように、例えば、語彙力レベルが「1」の聞き手に対しては、「歪曲」は「ゆがめて」に、「報告」は「しらせる」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてしらせる。」という合成音声で出力されて語彙力レベルが「1」の聞き手にとってわかりやすい音声が得られる。 As a result, as shown in FIG. 7, for a listener whose vocabulary level is “1”, for example, “distortion” is replaced with “distorted” and “report” is replaced with “she let”. As a result, the input text “Factual fact is distorted and reported” shown in FIG. 6 is output as a synthesized speech that “distorts the truth” and is easy to understand for a listener whose vocabulary level is “1”. Is obtained.
また、図7に示すように、例えば、語彙力レベルが「2」から「5」までの聞き手に対しては、「歪曲」のみが「ゆがめて」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてほうこくする。」という合成音声で出力される。よって、「報告」という、語彙力レベルが「2」以上の者が話し言葉としても使っているようなあえて言い換える必要のない書き言葉は、そのまま残される。これにより、語彙力レベルが「2」から「5」までの聞き手にとってわかりやすい音声が得られる。 Also, as shown in FIG. 7, for example, only “distortion” is replaced with “distorted” for listeners with vocabulary level “2” to “5”. As a result, the input text “Report the fact is distorted” shown in FIG. Therefore, a written word that does not need to be reworded, such as “report”, which is used as a spoken word by a person whose vocabulary level is “2” or higher, is left as it is. As a result, a voice that is easy to understand for listeners with vocabulary level "2" to "5" can be obtained.
さらに、図7に示すように、語彙力レベルが「6」の聞き手に対しては、すべての単語がそのまま出力される。その結果、図5に示す「事実を歪曲して報告する。」という入力テキストは、そのまま読まれて「じじつをわいきょくしてほうこくする。」という合成音声で出力され、あえて言葉を言い換える必要のない語彙力レベルが「6」の聞き手にとってわかりやすい音声が得られる。 Further, as shown in FIG. 7, all the words are output as they are to the listener whose vocabulary level is “6”. As a result, the input text “Report the fact is distorted and reported” shown in FIG. 5 is read as it is and is output with the synthesized speech “I am going to make a mess.” Voices that are easy to understand for listeners with a vocabulary level of "6" without speech.
このように、各語彙力レベルの聞き手に対してそれぞれ適合した合成音声が出力される。 In this way, synthesized speech that is suitable for each vocabulary level listener is output.
《実施形態3》
実施形態3は、図4に示す実施形態1におけるテキスト置換辞書4における単語難易度42に代えて、世代毎の単語に対する常識度という概念を用い、第1の実施形態と酷似した処理手順でテキスト置換(図2のステップS1)を行う。ここで、常識度とは、単語の語彙及び表現、意味及び用法が、同一世代の中で知られている割合をいう。
<<
In the third embodiment, instead of the
つまり、実施形態1では、世代にかかわらず、すべての人々の中で知られている割合で単語の難易度を指標して言葉の置き換えを行った。これに対し、本実施形態では、話す言葉を共有する世代毎に各単語についてその世代の人々の中でその単語を知っている人の数が異なることから、その世代毎に各単語を知っている人の割合を求める。そして、その割合をその世代におけるいわば常識度の指標として採用する。 That is, in the first embodiment, the word replacement is performed by indicating the difficulty level of the word at a rate known among all people regardless of the generation. On the other hand, in this embodiment, since the number of people who know the word among the people of that generation for each generation sharing the spoken word is different, it is necessary to know each word for each generation. Find the percentage of people who are. The ratio is adopted as an index of common sense in the generation.
図10に示すテキスト置換辞書7は、置換前単語情報71と、世代毎の常識度72と、置換後単語情報73と、を格納している。
The
置換前単語情報71は、形態素解析により得られた置換前の単語情報である。図10に示す例では、「事実」、「歪曲」、「報告」などであり、入力テキスト、例えば、「事実を歪曲して報告する。」に含まれる単語である。
世代毎の常識度72は、置換前単語情報71としてテキスト置換辞書7に格納されている各単語ごとに設けられる。この世代毎の常識度72は、単語の意味及び用法が、同一世代の中で知られている割合を、例えば、%値で示す。
The
置換後単語情報73は、置換前単語情報71に対応する、世代毎の常識度の高い単語である。図示の例では、「歪曲」という言葉に対し、いずれの世代においても、「ゆがめる」を置換後の単語としている。また、「報告」という言葉に対し、世代「A」と「B」で「しらせる」を置換後の単語とし、世代「C」で「ほうこくする」を置換後の単語としている。また、「事実」という言葉に対し、いずれの世代においても、「じじつ」を置換後の単語としており、言葉を置き換えないこととしている。
The
次に、実施形態3に係るテキスト置換装置の動作について図11を参照して説明する。なお、本実施形態の装置の構成については図1を参照する。 Next, the operation of the text replacement device according to the third embodiment will be described with reference to FIG. Note that FIG. 1 is referred to for the configuration of the apparatus of the present embodiment.
まず、CPU103は、カウンタkを設定し、k=1に初期化設定する(ステップS41)。そして、記憶部102に記憶されているテキスト置換辞書7で形態素情報morpheme(k)を検出する(ステップS42)。
First, the
続いて、CPU103は、形態素情報morpheme(k)に対応する世代毎における常識度CommonSenseRate[Generation](k)を所定の閾値THCommonSenseと比較する(ステップS43)。そして、次式(2)
Subsequently, the
世代毎における常識度CommonSenseRate[Generation](k)<所定の閾値THCommonSense(2)
を満たすか否かを判定する。これにより、常識度が所定の度合いよりも低いかどうかを判定する。例えば、図10の例で、THCommonSense=70%とすると、「歪曲」は、世代AとBで常識度が低いと判定され、世代Cで常識度が高いと判定される。また、「報告」は、世代Aで常識度が低いと判定され、世代BとCで常識度が高いと判定される。
Common sense rate for each generation CommonSenseRate [Generation] (k) <predetermined threshold TH CommonSense (2)
It is determined whether or not the above is satisfied. Thereby, it is determined whether the common sense level is lower than a predetermined degree. For example, in the example of FIG. 10, if THCommonSense = 70%, “distortion” is determined to be low in common sense in generations A and B, and is determined as high in common sense in generation C. In addition, “report” is determined to be low in common sense in generation A, and is determined to be high in common sense in generations B and C.
前記式(2)を満たす場合(ステップS43;Yes)、CPU103は、図10に示す置換前単語情報71である形態素情報morpheme(k)を、置換後単語情報73である形態素情報Morpheme(k)に置換する(ステップS44)。
When the expression (2) is satisfied (step S43; Yes), the
前記式(2)を満たさない場合(ステップS43;No)、CPU103は、置換前単語情報71である形態素情報morpheme(k)を、置換後単語情報73である形態素情報Morpheme(k)に置換しない。
When the expression (2) is not satisfied (step S43; No), the
続いて、カウンタkがNmorphemeに達したか否かが判別される(ステップS45)。達していないと判別された場合(ステップS45;No)、カウンタkを1増加してから(ステップS46)、ステップS42に戻り、達したと判別された場合(ステップS45;Yes)、終了する。 Subsequently, it is determined whether or not the counter k has reached Nmorpheme (step S45). If it is determined that it has not been reached (step S45; No), the counter k is incremented by 1 (step S46), then the process returns to step S42, and if it is determined that it has been reached (step S45; Yes), the process ends.
テキスト置換辞書7において、例えば、「歪曲」という置換前単語情報71に関しては、世代毎における常識度72が世代Aで10%、世代Bで50%、世代Cで80%に設定されている。「報告」という置換前単語情報71に関しては、世代Aで20%、世代Bで80%、世代Cで80%に設定されている。また、「事実」という置換前単語情報71に関しては、世代A,B,Cで90%に設定されている。
In the
これにより、図12に示すように、例えば、世代Aの聞き手に対しては、「歪曲」と「報告」の常識度72が所定の閾値70%を下回り、「歪曲」は「ゆがめて」に、「報告」は「しらせる」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてしらせる。」という合成音声で出力されて世代Aの聞き手にとってわかりやすい音声が得られる。
Accordingly, as shown in FIG. 12, for example, for a generation A listener, the
また、図12に示すように、例えば、世代Bの聞き手に対しては、「歪曲」の常識度72が所定の閾値70%を下回り、「歪曲」のみが「ゆがめて」に置換される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、「じじつをゆがめてほうこくする。」という合成音声で出力される。よって、「報告」という、世代Bの間で話し言葉としても使っている書き言葉は、あえて言い換える必要がなく、そのまま残される。これにより、世代Bの聞き手にとってわかりやすい音声が得られる。
As shown in FIG. 12, for example, for the listener of generation B, the
さらに、図12に示すように、世代Cの聞き手に対しては、すべての単語の常識度72が所定の閾値を下回ることがなく、すべての単語がそのまま出力される。その結果、図6に示す「事実を歪曲して報告する。」という入力テキストは、そのまま読まれて「じじつをわいきょくしてほうこくする。」という合成音声で出力され、あえて言葉を言い換える必要のない世代Cの聞き手にとってわかりやすい音声が得られる。
Furthermore, as shown in FIG. 12, for the listener of generation C, the
このように、各世代A,B,Cの聞き手に対してそれぞれ適合した合成音声が出力される。 In this way, synthesized speech adapted to each generation A, B, C listener is output.
以上、本発明の実施の形態について説明したが、本発明を実施するにあたっては、種々の変形及び応用が可能であり、上記実施の形態に限られるものではない。 While the embodiments of the present invention have been described above, various modifications and applications can be made in implementing the present invention, and the present invention is not limited to the above embodiments.
例えば、上記実施の形態では、形態素解析と、テキスト置換とを別々に行ったが、同時に行うようにしてもよい。これは、テキスト置換辞書4,6,7にそれぞれ格納されている置換前単語情報41,61,71に対応する単語難易度42、置換後単語情報43,62,73、世代ごとの常識度72を、形態素解析辞書3に格納されている登録言語に対応する情報として当該形態素解析辞書3に格納することにより、行える。
For example, in the above embodiment, morphological analysis and text replacement are performed separately, but they may be performed simultaneously. This is because the
また、上記各実施形態では、プログラムをCD−ROMなどの記録媒体から汎用のコンピュータにインストールして本発明装置を構成する場合について説明したが、プログラムを予め記憶したROM(Read Only Memory)等を内部バスに接続して本発明装置を構成するようにしてもよい。 In each of the above embodiments, the case where the apparatus of the present invention is configured by installing a program from a recording medium such as a CD-ROM into a general-purpose computer has been described. However, a ROM (Read Only Memory) that stores the program in advance is used. The device of the present invention may be configured by connecting to an internal bus.
3・・・形態素解析辞書、4、6、7・・・テキスト置換辞書、5・・・音声合成辞書、41,61,71・・・置換前単語情報、42・・・単語難易度、43,62,73・・・置換後単語情報、72・・・常識度、100・・・テキスト置換装置、200・・・テキスト音声合成装置、101・・・ユーザインターフェース、102・・・記憶部、103・・・CPU、104・・・インターフェース回路、105・・・内部バス、106・・・ハードディスク、107・・・RAM、200・・・テキスト音声合成装置、201・・・スピーカ、202・・・サウンドボード、300・・・ネットワーク
3 ... Morphological analysis dictionary, 4, 6, 7 ... Text substitution dictionary, 5 ... Speech synthesis dictionary, 41, 61, 71 ... Word information before substitution, 42 ... Word difficulty, 43 , 62, 73 ... Word information after substitution, 72 ... Common sense, 100 ... Text substitution device, 200 ... Text-to-speech synthesizer, 101 ... User interface, 102 ... Storage unit, DESCRIPTION OF
Claims (7)
語彙力を設定して入力するユーザインタフェースと、
単語と、その単語と同等な単語と、前記語彙力と、を記憶する記憶部と、
前記入力テキストから単語を取得し、当該取得された単語を前記記憶部で検索し、検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定する処理手段と、を備えた
ことを特徴とするテキスト置換装置。 A text replacement device that replaces a word acquired from input text with a predetermined word,
A user interface to set and input vocabulary,
A storage unit for storing a word, a word equivalent to the word, and the vocabulary
A word is acquired from the input text, the acquired word is searched in the storage unit, and it is determined according to the vocabulary whether to replace the searched word with a predetermined word equivalent to the word. And a processing means for performing the text replacement.
単語ごとに、当該単語とともに、その単語の難易を指標する単語難易度を記憶し、
前記処理手段は、
前記検索された単語の単語難易度が、前記語彙力を上回るか否かを判定し、
前記単語難易度が前記語彙力を上回る場合に、前記入力テキストから取得され前記記憶部で検索された単語を、所定の単語に置換する、
ことを特徴とする請求項1に記載のテキスト置換装置。 The storage unit
For each word, along with the word, store the word difficulty index that indicates the difficulty of the word,
The processing means includes
Determining whether the word difficulty of the searched word exceeds the vocabulary;
When the word difficulty level exceeds the vocabulary, the word retrieved from the input text and searched in the storage unit is replaced with a predetermined word.
The text replacement device according to claim 1, wherein:
単語ごとに、当該単語とともに、当該単語と置換するその単語と同等な単語の候補を、語彙力の各レベルごとに記憶し、
前記処理手段は、
前記記憶部で、前記入力テキストから取得された単語を検索するとともに、語彙力のレベルを検索し、置換する候補単語を決定する、
ことを特徴とする請求項1に記載のテキスト置換装置。 The storage unit
For each word, a word candidate equivalent to the word to be replaced with the word is stored for each level of vocabulary,
The processing means includes
In the storage unit, searching for a word acquired from the input text, searching for a level of vocabulary, and determining a candidate word to replace,
The text replacement device according to claim 1, wherein:
世代を設定して入力し、
前記記憶部は、
単語ごとに、当該単語とともに、その単語の各世代における常識度を記憶し、
前記処理手段は、
前記入力した世代における前記検索された単語の常識度が所定の閾値を下回るか否かを判定し、
前記検索された単語の常識度が前記所定の閾値を下回る場合に、前記入力テキストから取得され前記記憶部で検索された単語を、所定の単語に置換する、
ことを特徴とする請求項1に記載のテキスト置換装置。 The user interface is
Set and enter the generation,
The storage unit
For each word, along with the word, remember the common sense of each word generation,
The processing means includes
Determining whether the common sense of the searched word in the input generation is below a predetermined threshold;
When the common sense of the searched word is lower than the predetermined threshold, replace the word acquired from the input text and searched in the storage unit with a predetermined word,
The text replacement device according to claim 1, wherein:
ことを特徴とするテキスト音声合成装置。 Synthesizing speech based on text in which words are replaced by the text replacement device according to any one of claims 1 to 4;
A text-to-speech synthesizer characterized by the above.
語彙力を設定して入力し、
単語と、その単語と同等な単語と、前記語彙力と、を記憶し、
前記入力テキストから単語を取得するステップと、
当該取得された単語を検索するステップと、
検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定するステップと、を備えた
ことを特徴とするテキスト置換方法。 A text replacement method for replacing a word obtained from input text with a predetermined word,
Set and input vocabulary,
Storing a word, a word equivalent to the word, and the vocabulary
Obtaining a word from the input text;
Searching for the acquired word;
Determining whether or not to replace the searched word with a predetermined word equivalent to the word, according to the vocabulary ability.
コンピュータに、
語彙力を設定して入力し、
単語と、その単語と同等な単語と、前記語彙力と、を記憶し、
前記入力テキストから単語を取得するステップと、
当該取得された単語を検索するステップと、
検索された単語をその単語と同等な所定の単語に置換するか否かを、前記語彙力に応じて決定するステップと、を実行させる
ことを特徴とするテキスト置換プログラム。 A text replacement program for replacing a word acquired from input text with a predetermined word,
On the computer,
Set and input vocabulary,
Storing a word, a word equivalent to the word, and the vocabulary
Obtaining a word from the input text;
Searching for the acquired word;
And determining whether to replace the searched word with a predetermined word equivalent to the word according to the vocabulary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008324784A JP2010145873A (en) | 2008-12-19 | 2008-12-19 | Text replacement device, text voice synthesizer, text replacement method, and text replacement program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008324784A JP2010145873A (en) | 2008-12-19 | 2008-12-19 | Text replacement device, text voice synthesizer, text replacement method, and text replacement program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010145873A true JP2010145873A (en) | 2010-07-01 |
Family
ID=42566344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008324784A Pending JP2010145873A (en) | 2008-12-19 | 2008-12-19 | Text replacement device, text voice synthesizer, text replacement method, and text replacement program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010145873A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032996A (en) * | 2015-08-05 | 2017-02-09 | 富士通株式会社 | Provision of adaptive electronic reading support |
KR20180098654A (en) * | 2016-01-28 | 2018-09-04 | 구글 엘엘씨 | Adaptive text-to-speech output |
US10203845B1 (en) | 2011-12-01 | 2019-02-12 | Amazon Technologies, Inc. | Controlling the rendering of supplemental content related to electronic books |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335296A (en) * | 1989-06-30 | 1991-02-15 | Sharp Corp | Text voice synthesizing device |
JPH11175081A (en) * | 1997-12-11 | 1999-07-02 | Toshiba Corp | Device and method for speaking |
-
2008
- 2008-12-19 JP JP2008324784A patent/JP2010145873A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335296A (en) * | 1989-06-30 | 1991-02-15 | Sharp Corp | Text voice synthesizing device |
JPH11175081A (en) * | 1997-12-11 | 1999-07-02 | Toshiba Corp | Device and method for speaking |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10203845B1 (en) | 2011-12-01 | 2019-02-12 | Amazon Technologies, Inc. | Controlling the rendering of supplemental content related to electronic books |
JP2017032996A (en) * | 2015-08-05 | 2017-02-09 | 富士通株式会社 | Provision of adaptive electronic reading support |
KR20180098654A (en) * | 2016-01-28 | 2018-09-04 | 구글 엘엘씨 | Adaptive text-to-speech output |
JP2019511034A (en) * | 2016-01-28 | 2019-04-18 | グーグル エルエルシー | Adaptive text-to-speech output |
JP2020126262A (en) * | 2016-01-28 | 2020-08-20 | グーグル エルエルシー | Adaptive text-to-speech outputs |
US10923100B2 (en) | 2016-01-28 | 2021-02-16 | Google Llc | Adaptive text-to-speech outputs |
KR102219274B1 (en) * | 2016-01-28 | 2021-02-24 | 구글 엘엘씨 | Adaptive text-to-speech output |
JP2021144759A (en) * | 2016-01-28 | 2021-09-24 | グーグル エルエルシーGoogle LLC | Adaptive text-to-speech output |
JP7202418B2 (en) | 2016-01-28 | 2023-01-11 | グーグル エルエルシー | Adaptive text-to-speech output |
US11670281B2 (en) | 2016-01-28 | 2023-06-06 | Google Llc | Adaptive text-to-speech outputs based on language proficiency |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
WO2020062680A1 (en) | Waveform splicing method and apparatus based on double syllable mixing, and device, and storage medium | |
CN110264991A (en) | Training method, phoneme synthesizing method, device, equipment and the storage medium of speech synthesis model | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
JP2008268684A (en) | Voice reproducing device, electronic dictionary, voice reproducing method, and voice reproducing program | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP6806662B2 (en) | Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method | |
JP2007264503A (en) | Speech synthesizer and its method | |
JP4738847B2 (en) | Data retrieval apparatus and method | |
CN115101042A (en) | Text processing method, device and equipment | |
JP2010145873A (en) | Text replacement device, text voice synthesizer, text replacement method, and text replacement program | |
JP2020060642A (en) | Speech synthesis system and speech synthesizer | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
KR20050032759A (en) | Automatic expansion method and device for foreign language transliteration | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP6644141B2 (en) | Response device, control method of response device, and control program | |
JP6805927B2 (en) | Index generator, data search program, index generator, data search device, index generation method, and data search method | |
JP4741208B2 (en) | Speech text data selection program for speech synthesis and text data selection device for speech synthesis | |
JP4523312B2 (en) | Apparatus, method, and program for outputting text voice | |
JP2007249050A (en) | Language model generating device, language model generating method, program thereof, and recording medium thereof | |
JP4787686B2 (en) | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
JP7102986B2 (en) | Speech recognition device, speech recognition program, speech recognition method and dictionary generator | |
JP6002598B2 (en) | Emphasized position prediction apparatus, method thereof, and program | |
JP7367839B2 (en) | Voice recognition device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130402 |