JP6289950B2 - 読み上げ装置、読み上げ方法及びプログラム - Google Patents

読み上げ装置、読み上げ方法及びプログラム Download PDF

Info

Publication number
JP6289950B2
JP6289950B2 JP2014056667A JP2014056667A JP6289950B2 JP 6289950 B2 JP6289950 B2 JP 6289950B2 JP 2014056667 A JP2014056667 A JP 2014056667A JP 2014056667 A JP2014056667 A JP 2014056667A JP 6289950 B2 JP6289950 B2 JP 6289950B2
Authority
JP
Japan
Prior art keywords
unit
expression
speech
text
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014056667A
Other languages
English (en)
Other versions
JP2015179198A (ja
Inventor
山崎 智弘
智弘 山崎
勇詞 清水
勇詞 清水
山中 紀子
紀子 山中
真人 矢島
真人 矢島
祐一 宮村
祐一 宮村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014056667A priority Critical patent/JP6289950B2/ja
Priority to US14/644,389 priority patent/US9570067B2/en
Publication of JP2015179198A publication Critical patent/JP2015179198A/ja
Application granted granted Critical
Publication of JP6289950B2 publication Critical patent/JP6289950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は読み上げ装置、読み上げ方法及びプログラムに関する。
近年、音声合成(TTS:Text To Speech)を利用した文書の読み上げが注目を浴びるようになっている。例えば書籍の読み上げは従来から存在するが、TTSを利用すればナレーション収録が不要となるため、容易に朗読音声を楽しむことができる。またブログやツイッタ(登録商標)のようにほぼリアルタイムに更新されるテキストに対しても、TTSを利用した読み上げサービスが行なわれつつある。TTSを利用した読み上げサービスを利用すれば、ほかの作業を行ないながらテキストの読み上げを聞くことができる。
特開2006−235916号公報 特開2006−017819号公報
しかしながらユーザがブログやツイッタのようなテキストを書く場合、一部のユーザは通常の表現では用いられない表現(以下、「特殊表現」という。)を用いることがある。テキストの発信者は意図をもって、特殊表現により何らかの雰囲気を表現している。しかしながら通常のテキストとは全く異なった表現となってしまっているため、従来の読み上げ装置は、特殊表現を含むテキストを正しく解析できなかった。そのため従来の読み上げ装置が、特殊表現を含むテキストを音声合成すると、発信者が表現したかった雰囲気が再現できないだけでなく、全くわけのわからない読み上げとなっていた。
実施形態の読み上げ装置は、受付部と、正規化部と、選択部と、生成部と、変形部と、出力部と、を備える。受付部は、特殊表現を含む入力テキストの入力を受け付ける。正規化部は、前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する。選択部は、それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する。生成部は、前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する。変形部は、前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する。出力部は、変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する。
実施形態の読み上げ装置の構成の例を示す図。 特殊表現を含むテキストの例を示す図。 実施形態の正規化ルールの例を示す図。 実施形態の正規化ルールの変形例(条件式を用いる場合)を示す図。 テキストの同一箇所に複数の正規化ルールがマッチする例を示す図。 実施形態の正規化テキストリストの例を示す図。 テキストに含まれる複数の特殊表現の例を示す図。 実施形態の音声パラメタの系列の例を示す図。 実施形態の言語解析辞書にない正規化テキストの例を示す図。 実施形態の特殊表現の音声パラメタの系列の例を示す図。 未知語としての小文字の例を示す図。 実施形態の音声パラメタの変形方法の例を示す図。 実施形態の正規化テキストの決定方法の例を示すフローチャート。 実施形態の音声パラメタを変形して読み上げる方法の例を示すフローチャート。 実施形態の読み上げ装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、読み上げ装置、読み上げ方法及びプログラムの実施形態を詳細に説明する。図1は実施形態の読み上げ装置10の構成の例を示す図である。読み上げ装置10はテキストを受け付けて当該テキストの言語解析を行い、当該言語解析の結果に基づく音声合成を利用して読み上げを行なう装置である。実施形態の読み上げ装置10は、解析部20及び合成部30を備える。
解析部20は読み上げ装置10が受け付けたテキストを言語解析する。解析部20は、受付部21、正規化部22、正規化ルール23、選択部24、及び言語解析辞書25を備える。
合成部30は解析部20の言語解析の結果に基づいて音声波形を生成する。合成部30は、生成部31、音声波形生成用データ32、変形部33、変形ルール34、及び出力部35を備える。
なお正規化ルール23、言語解析辞書25、音声波形生成用データ32、及び変形ルール34は、図1では図示されていない記憶部に記憶されている。
まず解析部20の構成について説明する。受付部21は特殊表現を含むテキストの入力を受け付ける。ここで特殊表現を含むテキストの具体例について説明する。
図2は特殊表現を含むテキストの例を示す図である。テキスト1は通常は小文字としない文字を小文字にする特殊表現を含む場合の例である。テキスト1は、例えば、おどけた女性らしさを表現している。テキスト2及び3は複数の文字の形を組み合わせる特殊表現により別の文字を表す場合の例である。テキスト2及び3には、例えば文字を目立たせる効果がある。テキスト4及び5は通常は濁点を付けない文字に濁点を付ける特殊表現と、ビブラートを表現する特殊表現101と、を含む場合の例である。テキスト4及び5は、例えば苦しそうな感じを表現している。テキスト6は、通常はビブラートを付与しない位置にビブラートを付与する特殊表現を含む場合の例である。テキスト6は、例えば大きな声で人を呼びかけるような感じを表現している。
なお受付部21は、日本語以外の言語で表されたテキストを受け付けてもよい。この場合の特殊表現は、例えば「ooo」(「o」が3つ以上連続する場合)等である。
図1に戻り、受付部21はテキストを正規化部22に入力する。正規化部22は受付部21からテキストを受け付ける。正規化部22は正規化ルールに基づいて、一以上の正規化テキストを含む正規化テキストリストを生成する。正規化テキストはテキストを正規化したデータである。すなわち正規化テキストは正規化ルールに基づいてテキストを変換したデータである。ここで正規化ルールについて説明する。
図3は実施形態の正規化ルールの例を示す図である。実施形態の正規化ルールは、特殊表現と、通常表現と、表現方法(非言語的意味)と、第1コストと、が関連付けられた情報である。特殊表現は通常の表現では用いられない表現である。通常表現は特殊表現を通常の表現で表した場合の表現である。表現方法は特殊表現を音声で読み上げるときの表現方法を表し、非言語的な意味を有する。
第1コストは正規化ルールを適用する場合に加算される値である。複数の正規化ルールをテキストに適用できる場合、非常に多数の正規化テキストが生成される。そのため正規化部22はテキストに複数の正規化ルールが適用できる場合に、当該第1コストの合計を算出する。すなわち正規化部22は予め設定された合計第1コストの第1閾値までの正規化ルールをテキストに適用することで、生成する正規化テキストの数を抑える。
図3の例では、例えば特殊表現101を正規化して得られる通常表現は通常表現201である。特殊表現101の表現方法は「音声を震わせながら伸ばす」である。テキストに特殊表現101が含まれる場合に、特殊表現101を正規化する場合の第1コストは1である。また例えば特殊表現102を正規化して得られる通常表現は通常表現202である。特殊表現102の表現方法は「音声を猫っぽくする」である。テキストに特殊表現102が含まれる場合に、特殊表現102を正規化する場合の第1コストは3である。
なお正規化ルールの特殊表現は、文字単位ではなく正規表現や条件式等により定義してもよい。また通常表現は正規化後のデータではなく、正規化する処理を表す正規表現や条件式により定義してもよい。
図4は実施形態の正規化ルールの変形例(条件式を用いる場合)を示す図である。特殊表現103は、通常表現では濁点が付くことがない任意の文字に濁点を付けた表現を表す。条件式203は特殊表現103を通常表現に正規化する処理を表し、「元の表現から濁点を取り除く」処理を表している。
また図3の例の場合は、特殊表現「「o」が3つ以上連続」及び特殊表現「「e」が3つ以上連続」が条件式により特殊表現を表した例である。特殊表現「「o」が3つ以上連続」を正規化して得られる通常表現は「oo」又は「o」である。特殊表現「「o」が3つ以上連続」の表現方法は「音声を叫び声にする」である。テキストに特殊表現「「o」が3つ以上連続」が含まれる場合に、特殊表現「「o」が3つ以上連続」を正規化する場合の第1コストは2である。特殊表現「「e」が3つ以上連続」を正規化して得られる通常表現は「ee」又は「e」である。特殊表現「「e」が3つ以上連続」の表現方法は「音声を叫び声にする」である。テキストに特殊表現「「e」が3つ以上連続」が含まれる場合に、特殊表現「「e」が3つ以上連続」を正規化する場合の第1コストは2である。このような正規化ルールにより、読み上げ装置10は、例えば「goooo toooo sleeeep!」の通常表現は「go to sleep!」であり、「goooo toooo sleeeep!」の表現方法は「音声を叫び声にする」であることを認識することができる。
また、一般的にはテキストの同一箇所に複数の正規化ルールがマッチする可能性がある。そのような場合、当該箇所にいずれか1つの正規化ルールを適用して正規化を行なってもよいし、互いに相反するものでなければ複数の正規化ルールを同時に適用して正規化を行なってもよい。
図5はテキストの同一箇所に複数の正規化ルールがマッチする例を示す図である。正規化部22が特殊表現104の濁点を取り除く正規化ルールを適用する場合、特殊表現104から通常表現204が生成される。また正規化部22が特殊表現102から通常表現202を生成する正規化ルールを適用する場合(図3参照)、特殊表現104から通常表現304が生成される。また正規化部22が両方の正規化ルールを同時に適用する場合、特殊表現104から通常表現404が生成される。
図1に戻り、正規化部22は一以上の正規化テキストを含む正規化テキストリストと、入力テキストに含まれる特殊表現の表現方法と、を選択部24に入力する。選択部24は、それぞれの正規化テキストを、言語解析辞書25を使用して言語解析し、当該言語解析の結果(後述する形態素列)に基づいて一の正規化テキストを選択する。言語解析辞書25は、単語と、単語の品詞等の情報と、が関連付けられて定義されている辞書である。なお正規化部22から受信した表現方法は、選択部24では参照せずに、選択した正規化テキストと共に生成部31に入力する。なお表現方法は生成部31から変形部33に入力され変形部33で使用される。ここで正規化テキストリストの例を参照して、選択部24が正規化テキストリストから一の正規化テキストを選択する方法について具体的に説明する。
図6は実施形態の正規化テキストリストの例を示す図である。図6の例は、読み上げ装置10に入力されたテキスト5(図2参照)の正規化テキストリストの例を示している。また図7はテキスト5に含まれる複数の特殊表現の例を示す図である。テキスト5に含まれる特殊表現は、特殊表現105で1箇所、及び特殊表現108で2箇所である。なお特殊表現106は通常表現でも濁点が付くが、特殊表現107と結合しているため発音を濁らせる「特殊表現」とみなされている。したがって合計3箇所に正規化ルールを適用できるので、正規化ルールを適用する場合の組み合わせの合計は7つである。そのため7つの正規化テキストを含む正規化テキストリストが、正規化部22により生成されている。
正規化テキストリストには、実際には特殊表現ではないにもかかわらず、条件式等に当てはまり、正規化ルールが適用されてしまった結果、生成された正規化テキストも含む。そのため選択部24は正規化テキストリストから、最も尤もらしい正規化テキストを選択するために第2コストを算出する。具体的には、選択部24は正規化テキストの言語解析を行い、正規化テキストを形態素列に分解する。そして選択部24は形態素列に応じて第2コストを算出する。
図6の正規化テキストリストの例では、例えば正規化テキスト205は、形態素列305に分解される。正規化テキスト205の形態素列には、未知語、及び記号を含む。そのため選択部24は正規化テキスト205の第2コストを大きい値(例えば21)として算出する。一方、正規化テキスト206は、形態素列306に分解される。正規化テキスト206の形態素列には、未知語及び記号等が含まれていないため、選択部24は正規化テキスト206の第2コストを小さい値(例えば1)として算出する。以上のような第2コストの算出方法により、言語的に不適切である可能性が高い正規化テキストの第2コストは大きくなる。したがって選択部24が、第2コストが最も小さい正規化テキストを選択することにより、正規化テキストリストから最も尤もらしい正規化テキストを選択しやすくなる。すなわち選択部24はコスト最小法により正規化テキストリストから、一の正規化テキストを選択する。
なお一般に、言語解析処理において最適な形態素列を求める場合の手法としては、コスト最小法の他にも、最長一致法、及び文節数最少法等のさまざまな方法が知られている。しかしながら選択部24は、正規化部22で生成された正規化テキストのうち最も尤もらしい正規化テキストを選択する必要があるので、実施形態の選択部24では形態素列のコスト(実施形態の第2コストに相当)も同時に得られるコスト最小法が利用されている。
なお選択部24が正規化テキストの選択に利用する方法はコスト最小法に限られない。例えば予め設定された第2閾値よりも第2コストが小さい正規化テキストの中から、正規化ルールによるテキストの書き換えが最も少ないものを選択する方法でもよい。また正規化テキスト生成時に算出される上述の第1コスト(の合計)と、正規化テキストの形態素列から算出される第2コストと、の積が最も小さいものを選択する方法等でもよい。
図1に戻り、選択部24は選択した正規化テキストの読み、及び当該正規化テキストのアクセント型を、当該正規化テキストの形態素列から決定する。そして選択部24は選択した正規化テキスト、当該正規化テキストの読み、当該正規化テキストのアクセント型、及び当該正規化テキストのうち入力テキストの特殊表現に対応する箇所の表現方法を生成部31に入力する。
生成部31は、音声波形生成用データ32を使用して選択部24により選択された正規化テキストの読みを表す音声パラメタの系列を生成する。音声波形生成用データ32は、例えば音声素片や、音響パラメタ等である。音声パラメタの系列の生成に音声素片を使用する場合、例えば音声素片辞書に登録されている音声素片IDを使用する。また音声パラメタの系列の生成に音響パラメタを使用する場合、例えばHMM(Hidden Markov Model)に基づく音響パラメタを使用する。
実施形態の生成部31では、音声パラメタとして音声素片辞書に登録されている音声素片IDを利用した場合について説明する。なおHMMに基づく音響パラメタの場合はIDのように1つの数値ではないが、数値の組み合わせをIDと見なせば基本的には音声素片IDの場合と同じように扱うことができる。
生成部31は、例えば正規化テキスト206の場合、読みは/ijada:/、アクセント型は2型であるので、正規化テキスト206の音声パラメタの系列は図8のようになる。図8の音声パラメタの系列の例は、音声素片i、j、a、d、a、:に対応する音声波形を、曲線で示す強度で並べることを示している。
なお上述の選択部24は言語解析辞書25に登録されていない正規化テキストを、最も尤もらしい正規化テキストとして選択する場合がある。
図9は実施形態の言語解析辞書25にない正規化テキスト207の例を示す図である。選択部24が正規化テキスト207を最も尤もらしい正規化テキストとして選択した場合、正規化テキスト207は言語解析辞書25にない単語(未知語)なので読みやアクセントに関する情報は存在しない。また表現208は通常は発声することができない。このような場合は、生成部31は例えば図10に示すように通常表現209の音声素片と、通常表現210の音声素片と、を通常の時間間隔の半分で並べることで中間に聞こえるように、音声パラメタを生成する。また生成部31は、より直接的に通常表現209の波形と通常表現210の波形とを合成した波形となるように音声パラメタを生成してもよい。
表現208のように正規化テキストが未知語としての小文字を含む場合がある。図11は未知語としての小文字の例を示す図である。小文字109、小文字110、及び小文字111は結合する文字によっては、表現208のように未知語になりうる。また小文字112は通常では小文字とならないため常に未知語である。正規化テキストに未知語としての小文字が含まれる場合、小文字の直前の音素を口蓋化、又は円唇化させた音声パラメタを生成してもよい。なお、このような未知語としての小文字が特殊表現として正規化ルールに定義されている場合は、後述の変形部33が表現方法に応じて音声パラメタを変形する。
生成部31は正規化テキストの音声を表す音声パラメタの系列と、当該正規化テキストのうち入力テキストの特殊表現に対応する箇所の表現方法と、を変形部33に入力する。
変形部33は入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、特殊表現の正規化ルールに応じた音声パラメタの変形方法に基づいて変形する。具体的には、入力テキストの特殊表現に対応する箇所の音声を表す音声パラメタを、正規化ルールの表現方法に基づいて変形する。なお表現方法に基づく音声パラメタの変形方法は複数あってもよい。
図12は実施形態の音声パラメタの変形方法の例を示す図である。図12の例では、表現方法に応じた音声パラメタの変形方法が、それぞれの表現方法に対して一以上定められている。例えば「音声を濁らせる」という表現方法を実現するためには、声門を緊張させて発声した音声素片に置換する場合、女声で読み上げる設定にしてあっても男声(ダミ声等)の音声素片に置換する場合、有声無声の区別がある音素の音声パラメタの差分を逆に適用する場合があることを示している。
図12に例示した音声パラメタの変形方法により、後述の出力部35が出力する音声の基本周波数、各音の長さ、ピッチ、及び音量等が変更される。
なお読み上げ装置10が、特殊表現の表現方法を常に読み上げに反映すると、音声が聞きづらいこともあるので、ユーザが予め「反映不要」と設定していた表現方法については音声パラメタに反映しないようにしてもよい。
また入力テキストに含まれる特殊表現に対応する正規化テキストの箇所の音声パラメタのみを変形すると不自然な音声となる可能性があるため、変形部33は正規化テキストの音声を表す音声パラメタの系列全体を変形するようにしてもよい。この場合は音声パラメタの同一区間に対して複数の変形を行なう必要が出てくる可能性がある。そのため複数の変形方法を適用する必要がある場合は、変形部33は互いに相反しない変形方法を選択することが望ましい。
例えば音声パラメタに特殊表現の表現方法を反映させる音声パラメタの変形方法として、「設定年齢を引き上げる」場合と、「設定年齢を引き下げる」場合とは互いに相反する。一方、音声パラメタに特殊表現の表現方法を反映させる音声パラメタの変形方法として、「設定年齢を引き上げる」場合と、「音量を大きくかつ継続時間を長くする」場合とは互いに相反しない。
なお変形部33が、相反しない変形方法を選べない場合は、予めユーザに設定させておいた優先順位に基づいて変形方法を決定してもよいし、ランダムに変形方法を選択するようにしてもよい。
図1に戻り、変形部33は変形ルール34を参照して変形した音声パラメタの系列を出力部35に入力する。出力部35は、変形部33により変形された音声パラメタの系列に基づいて音声を出力する。
実施形態の読み上げ装置10は、以上の構成を備えることにより、通常では用いられない特殊表現を含む入力テキストに対しても、雰囲気を汲んだ柔軟な音声合成が可能となり、様々な入力テキストを読み上げることができる。
次に実施形態の読み上げ装置10の読み上げ方法についてフローチャートを参照して説明する。まず解析部20が、特殊表現を含む入力テキストに対応する一の正規化テキストを決定する方法について説明する。
図13は実施形態の正規化テキストの決定方法の例を示すフローチャートである。受付部21は特殊表現を含むテキストの入力を受け付ける(ステップS1)。受付部21はテキストを正規化部22に入力する。次に、正規化部22はテキストに含まれる特殊表現の箇所を特定する(ステップS2)。具体的には、正規化部22は正規化ルールで定義されている特殊表現と一致するテキストの箇所があるか否かを判定することにより、テキストに含まれる特殊表現の箇所を特定する。
次に、正規化部22は正規化ルールを適用する箇所の組み合わせを算出する(ステップS3)。次に、正規化部22はそれぞれの組み合わせについて、正規化ルールを適用した場合の第1コストの合計を算出する(ステップS4)。次に、正規化部22は第1コストの合計が第1閾値よりも大きい組み合わせを削除する(ステップS5)。これにより正規化テキストの生成数を抑えることができ、選択部24が一の正規化テキストを決定する処理の負荷を低減することができる。
次に、正規化ルールを適用するテキストの箇所の組み合わせから、一の組み合わせを選択し、当該組み合わせでテキストの該当箇所に正規化ルールを適用する(ステップS6)。次に、正規化部22は正規化ルールを適用する場合の組み合わせを全て処理したか否かを判定する(ステップS7)。全て処理していない場合(ステップS7、No)、処理はステップS6に戻る。全て処理した場合(ステップS7、Yes)、選択部24は、正規化部22により生成された一以上の正規化テキストを含む正規化テキストリストから、一の正規化テキストを選択する(ステップS8)。具体的には、選択部24は言語解析処理により上述の第2コストを算出し、第2コストが最も小さい正規化テキストを選択する。
次に、合成部30が、正規化テキストの読みから決定される音声パラメタを、特殊表現の表現方法に応じて変形して読み上げる方法について説明する。
図14は実施形態の音声パラメタを変形して読み上げる方法の例を示すフローチャートである。生成部31は、音声波形生成用データ32を使用して選択部24により選択された正規化テキストの読みを表す音声パラメタの系列を生成する(ステップS11)。次に、変形部33は、受付部21に入力されたテキストに含まれる特殊表現に対応する正規化テキストの音声パラメタを特定する(ステップS12)。次に、変形部33は特殊表現の表現方法に応じた音声パラメタの変形方法を取得する(ステップS13)。
次に、変形部33はステップS12により特定した音声パラメタについて、ステップS13で取得した変形方法により音声パラメタを変形する(ステップS14)。次に、変形部33は、受付部21に入力されたテキストに含まれる特殊表現に対応する正規化テキストの箇所の全ての音声パラメタを変形したか否かを判定する(ステップS15)。全ての音声パラメタを変形していない場合(ステップS15、No)、処理はステップS12に戻る。全ての音声パラメタを変形した場合(ステップS15、Yes)、出力部35は、変形部33により変形された音声パラメタの系列に基づいて音声を出力する(ステップS16)。
最後に、実施形態の読み上げ装置10のハードウェア構成の例について説明する。図15は実施形態の読み上げ装置10のハードウェア構成の例を示す図である。実施形態の読み上げ装置10は、制御装置41、主記憶装置42、補助記憶装置43、表示装置44、入力装置45、通信装置46及び出力装置47を備える。制御装置41、主記憶装置42、補助記憶装置43、表示装置44、入力装置45、通信装置46及び出力装置47は、バス48を介して互いに接続されている。読み上げ装置10は上述のハードウェア構成を有する任意の装置でよい。例えば読み上げ装置10はPC(Personal Computer)、タブレット端末、スマートフォン等である。
制御装置41は補助記憶装置43から主記憶装置42に読み出されたプログラムを実行する。主記憶装置42はROMやRAM等のメモリである。補助記憶装置43はHDD(Hard Disk Drive)やメモリカード等である。表示装置44は読み上げ装置10の状態等を表示する。入力装置45はユーザからの操作入力を受け付ける。通信装置46は読み上げ装置10が他の装置と通信するためのインタフェースである。出力装置47は音声を出力するスピーカ等の装置である。出力装置47は上述の出力部35に対応する。
実施形態の読み上げ装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。
また、実施形態の読み上げ装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態の読み上げ装置10が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また、実施形態の読み上げ装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
実施形態の読み上げ装置10で実行されるプログラムは、上述した各機能ブロック(受付部21、正規化部22、選択部24、生成部31、及び変形部33)を含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置41が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置42上にロードされる。すなわち、上記各機能ブロックは、主記憶装置42上に生成される。
なお、上述した各部(受付部21、正規化部22、選択部24、生成部31、及び変形部33)の一部又は全部を、ソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
以上説明したとおり、実施形態の読み上げ装置10は、特殊表現と、当該特殊表現の通常表現と、当該特殊表現の表現方法とを関連付けた正規化ルールを備える。そして特殊表現に関連付けられた正規化ルールの表現方法に基づいて、特殊表現に対応する正規化テキストの箇所の読みを表す音声パラメタを変形する。これにより実施形態の読み上げ装置10は通常の表現では用いられない特殊表現によってユーザが何らかの意図を表したテキストについても、ユーザの意図を汲んで適切な読み上げを行うことができる。
なお実施形態の読み上げ装置10はブログやツイッタ等に限らず、マンガやライトノベル等の読み上げにも適用が可能である。特に実施形態の読み上げ装置10に、文字認識技術を組み合わせれば、マンガ等の絵の中に手書きされている擬音等の読み上げにも適用が可能である。また正規化ルール23、解析部20、及び合成部30を英語や中国語等について用意すれば、それらの言語についても実施形態の読み上げ装置10を用いることが可能である。
本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 読み上げ装置
20 解析部
21 受付部
22 正規化部
23 正規化ルール
24 選択部
25 言語解析辞書
30 合成部
31 生成部
32 音声波形生成用データ
33 変形部
34 変形ルール
35 出力部
41 制御装置
42 主記憶装置
43 補助記憶装置
44 表示装置
45 入力装置
46 通信装置
47 出力装置
48 バス

Claims (9)

  1. 特殊表現を含む入力テキストの入力を受け付ける受付部と、
    前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する正規化部と、
    それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する選択部と、
    前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する生成部と、
    前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する変形部と、
    変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する出力部と、
    を備える読み上げ装置。
  2. 前記生成部は、音声素片辞書から音声素片を選択することにより前記音声パラメタの系列を生成し、
    前記変形部は、前記生成部により選択された前記音声素片を、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する
    請求項1に記載の読み上げ装置。
  3. 前記生成部は、HMM(Hidden Markov Model)に基づく音響パラメタにより前記音声パラメタの系列を生成し、
    前記変形部は、前記生成部により選択された前記音響パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する
    請求項1に記載の読み上げ装置。
  4. 前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声の基本周波数を変更する
    請求項1乃至3のいずれか1項に記載の読み上げ装置。
  5. 前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声に含まれる各音の長さを変更する
    請求項1乃至4のいずれか1項に記載の読み上げ装置。
  6. 前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声のピッチを変更する
    請求項1乃至5のいずれか1項に記載の読み上げ装置。
  7. 前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声の音量を変更する
    請求項1乃至6のいずれか1項に記載の読み上げ装置。
  8. 受付部が、特殊表現を含む入力テキストの入力を受け付けるステップと、
    正規化部が、前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成するステップと、
    選択部が、それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択するステップと、
    生成部が、前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成するステップと、
    変形部が、前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形するステップと、
    出力部が、変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力するステップと、
    を含む読み上げ方法。
  9. コンピュータを、
    特殊表現を含む入力テキストの入力を受け付ける受付部と、
    前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する正規化部と、
    それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する選択部と、
    前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する生成部と、
    前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する変形部と、
    変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する出力部、
    として機能させるためのプログラム。
JP2014056667A 2014-03-19 2014-03-19 読み上げ装置、読み上げ方法及びプログラム Active JP6289950B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014056667A JP6289950B2 (ja) 2014-03-19 2014-03-19 読み上げ装置、読み上げ方法及びプログラム
US14/644,389 US9570067B2 (en) 2014-03-19 2015-03-11 Text-to-speech system, text-to-speech method, and computer program product for synthesis modification based upon peculiar expressions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014056667A JP6289950B2 (ja) 2014-03-19 2014-03-19 読み上げ装置、読み上げ方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015179198A JP2015179198A (ja) 2015-10-08
JP6289950B2 true JP6289950B2 (ja) 2018-03-07

Family

ID=54142706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014056667A Active JP6289950B2 (ja) 2014-03-19 2014-03-19 読み上げ装置、読み上げ方法及びプログラム

Country Status (2)

Country Link
US (1) US9570067B2 (ja)
JP (1) JP6289950B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
CN111445384B (zh) * 2020-03-23 2021-07-30 杭州小影创新科技股份有限公司 一种通用人像照片漫画风格化方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200554A (ja) * 1993-12-28 1995-08-04 Toshiba Corp 文章読み上げ装置
JPH0836395A (ja) * 1994-05-20 1996-02-06 Toshiba Corp 音声データの生成方法及び文書読上装置
US6064383A (en) * 1996-10-04 2000-05-16 Microsoft Corporation Method and system for selecting an emotional appearance and prosody for a graphical character
US6032111A (en) * 1997-06-23 2000-02-29 At&T Corp. Method and apparatus for compiling context-dependent rewrite rules and input strings
JP2001337688A (ja) * 2000-05-26 2001-12-07 Canon Inc 音声合成装置及び音声合成方法並びに記憶媒体
US8856236B2 (en) * 2002-04-02 2014-10-07 Verizon Patent And Licensing Inc. Messaging response system
US20050119890A1 (en) * 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
JP4260071B2 (ja) * 2004-06-30 2009-04-30 日本電信電話株式会社 音声合成方法、音声合成プログラム及び音声合成装置
JP2006235916A (ja) * 2005-02-24 2006-09-07 Mitsubishi Electric Corp テキスト解析装置およびテキスト解析方法ならびに音声合成装置
US20060224385A1 (en) * 2005-04-05 2006-10-05 Esa Seppala Text-to-speech conversion in electronic device field
US20070027673A1 (en) * 2005-07-29 2007-02-01 Marko Moberg Conversion of number into text and speech
US20070143410A1 (en) * 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
CA2648617C (en) * 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
JP2007316916A (ja) * 2006-05-25 2007-12-06 Nippon Telegr & Teleph Corp <Ntt> 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2007334144A (ja) 2006-06-16 2007-12-27 Oki Electric Ind Co Ltd 音声合成方法、音声合成装置及び音声合成プログラム
CN101617303B (zh) * 2006-12-05 2013-02-20 诺昂世通讯公司 基于无线服务器的文本到语音电子邮件
WO2008114453A1 (ja) 2007-03-20 2008-09-25 Fujitsu Limited 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US20110173001A1 (en) * 2010-01-14 2011-07-14 Cleverspoke, Inc Sms messaging with voice synthesis and recognition
WO2011131785A1 (en) * 2010-04-21 2011-10-27 Université Catholique de Louvain Normalisation of noisy typewritten texts
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
JP5106608B2 (ja) 2010-09-29 2012-12-26 株式会社東芝 読み上げ支援装置、方法、およびプログラム
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US8781836B2 (en) * 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US9159314B2 (en) * 2013-01-14 2015-10-13 Amazon Technologies, Inc. Distributed speech unit inventory for TTS systems
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis

Also Published As

Publication number Publication date
US9570067B2 (en) 2017-02-14
JP2015179198A (ja) 2015-10-08
US20150269927A1 (en) 2015-09-24

Similar Documents

Publication Publication Date Title
US9916825B2 (en) Method and system for text-to-speech synthesis
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
EP3151239A1 (en) Method and system for text-to-speech synthesis
US20100042410A1 (en) Training And Applying Prosody Models
CN110197655B (zh) 用于合成语音的方法和装置
US20130080160A1 (en) Document reading-out support apparatus and method
JP7228998B2 (ja) 音声合成装置及びプログラム
KR101160193B1 (ko) 감성적 음성합성 장치 및 그 방법
CN104899192B (zh) 用于自动通译的设备和方法
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
CN106471569B (zh) 语音合成设备、语音合成方法及其存储介质
JP2007264284A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
US20220189455A1 (en) Method and system for synthesizing cross-lingual speech
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
Ghimire et al. Enhancing the quality of nepali text-to-speech systems
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
CN113192484A (zh) 基于文本生成音频的方法、设备和存储介质
Janokar et al. Text-to-Speech and Speech-to-Text Converter—Voice Assistant
JP2006139162A (ja) 語学学習装置
Narvani et al. Text-to-Speech Conversion Using Concatenative Approach for Gujarati Language

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180207

R151 Written notification of patent or utility model registration

Ref document number: 6289950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350