JP2009139677A - 音声処理装置及びそのプログラム - Google Patents

音声処理装置及びそのプログラム Download PDF

Info

Publication number
JP2009139677A
JP2009139677A JP2007316637A JP2007316637A JP2009139677A JP 2009139677 A JP2009139677 A JP 2009139677A JP 2007316637 A JP2007316637 A JP 2007316637A JP 2007316637 A JP2007316637 A JP 2007316637A JP 2009139677 A JP2009139677 A JP 2009139677A
Authority
JP
Japan
Prior art keywords
phoneme
text
speech
word
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007316637A
Other languages
English (en)
Other versions
JP5198046B2 (ja
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Noriko Yamanaka
紀子 山中
Masato Yajima
真人 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007316637A priority Critical patent/JP5198046B2/ja
Priority to US12/210,338 priority patent/US8170876B2/en
Publication of JP2009139677A publication Critical patent/JP2009139677A/ja
Application granted granted Critical
Publication of JP5198046B2 publication Critical patent/JP5198046B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

【課題】文法的、音韻的、韻律的に言語らしさを保存しつつ意味が不明であるような合成音声を生成する。
【解決手段】単語を表記する文字列と、単語の読みを表す音韻列と、単語の品詞との組から構成される単語辞書を参照して、入力テキストを解析し、入力テキストを1つ以上の部分テキストに分割し、部分テキスト毎に音韻列と品詞列とを生成し、この部分テキストの品詞列と、品詞列のリストとを照合して、部分テキストの音韻の変換を行うかどうかを判定し、音韻の変換を行うと判定された部分テキストの音韻列の各音韻を変換する。
【選択図】 図2

Description

本発明は、任意のテキストから音声を合成する音声合成装置に係わり、特に、ビデオゲームなどのエンターテインメント応用のための音声処理装置に関する。
従来から、任意の文章(テキスト)から人工的に音声信号を作り出すテキスト音声合成の技術が提案されている。このようなテキスト音声合成を実現する音声合成装置は、一般に言語処理部、韻律処理部及び音声合成部の3つの要素によって構成される。
この音声合成装置の動作は次の通りである。
まず、言語処理部において、入力されたテキストの形態素解析や構文解析などが行われ、テキストを形態素、単語、アクセント句などの単位に区切ると共に、各単位の音韻列や品詞列などを生成する。
次に、韻律処理部においてアクセントやイントネーションの処理が行われ、基本周波数及び音韻継続時間長などの情報が算出される。
最後に、音声合成部において、予め合成音声を生成する際の音声の接続単位である合成単位(例えば、音素や音節など)毎に記憶されている音声素片データと呼ばれる特徴パラメータや音声波形を、韻律処理部で算出された基本周波数や音韻継続時間長などに基づいて接続することで合成音声が生成される。
このようなテキスト音声合成技術は、ビデオゲームのキャラクタの音声メッセージ出力にも用いられている(例えば、特許文献1参照)。従来の録音音声の再生による音声メッセージ出力では、予め録音しておいた言葉しか発声することができなかったが、テキスト音声合成を用いることにより、プレイヤーが入力した名前など、事前の録音が不可能な言葉も発声することが可能となった。
特開2001−34282号公報
上記したように、ビデオゲームのキャラクタ、特に人間や人間型ロボットなどのキャラクタの音声メッセージには、テキスト音声合成を用いることができる。
しかしながら、ゲームに登場する様々なキャラクタの中には、人間と同じ言語(例えば日本語)を話すことが適当でない場合がある。例えば「知能の発達したエイリアン」のような設定のキャラクタの場合、言葉を話すことは合理的だが、それが日本語や他の実在する言語では真実味に欠けるという問題点がある。
このときに音声の代わりに、無意味な効果音で代用することも可能であるが、この場合は言語らしくなく真実味に欠けるという問題点がある。
そこで本発明は、意味は不明であるが、言語らしく真実味のある音声合成に用いることができる音韻列を生成する音声処理装置を提供する。
本発明は、テキストを入力する入力部と、単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、前記辞書に基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成部と、前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定部と、(1)前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、(2)前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理部と、を備える音声処理装置である。
また、本発明は、テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報を入力する入力部と、単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、前記辞書と前記判別情報とに基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成部と、(1)前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、(2)前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理部と、を備える音声処理装置である。
さらに、本発明は、テキストを入力する入力部と、音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第1の辞書と、音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第2の辞書と、(1)前記第1の辞書と前記第2の辞書とに基づいて、前記テキストを1つ以上の部分テキストに分割し、(2)前記第1の辞書に含まれる前記部分テキストは、前記第1の辞書に基づいて前記変換音韻列を生成して出力し、(3)前記第2の辞書に含まれる前記部分テキストは、前記第2の辞書に基づいて前記無変換音韻列を生成して出力する処理部と、を備える音声処理装置である。
本発明によれば、文法的、音韻的、韻律的に言語らしさを保存しつつ意味が不明であるような合成音声を生成できる。
以下、本発明の一実施形態の音声合成装置について説明する。
(第1の実施形態)
第1の実施形態の音声合成装置について図1〜図7に基づいて説明する。
(1)音声合成装置の構成
本実施形態の音声合成装置の構成について図1に基づいて説明する。図1は、音声合成装置を示すブロック図である。
音声合成装置は、テキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストから単語毎の音韻列や品詞を生成する音韻列生成部109と、それらの情報から各音韻の声の高さと継続時間長などの韻律情報を生成する韻律処理部103と、音韻列と韻律情報とから合成音声を生成する音声合成部104と、音声合成部104で生成された合成音声を出力する合成音声出力部105とを備えている。
なお、この音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音韻生成部109、韻律処理部103、音声合成部104は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、テキスト入力部101は、上記コンピュータ装置に内臓あるいは外付けされたキーボードなどを適宜利用して実現することができる。また、合成音声出力部105は、上記コンピュータ装置に内臓あるいは外付けされたスピーカやヘッドホンなどを適宜利用して実現することができる。
(2)韻律処理部103、音声合成部104
韻律処理部103及び音声合成部104は、従来からある公知の韻律処理手法及び音声合成手法をそれぞれ用いて実現することができる。
例えば、韻律処理における声の高さの生成には、典型的なアクセント句単位の声の高さの変化パターンを選択、接続して1文の声の高さの変化パターンを生成する方法、音韻の継続時間長の生成には、数量化1類による推定モデルを用いる方法などがある。
音声合成手法には、音素単位や音節単位の音声波形(音声素片)を音韻列にしたがって選択し、韻律情報にしたがって韻律を変形して接続する方法などがある。
(3)音韻列生成部109の構成
次に、音韻列生成部109について図1に基づいて説明する。
音韻列生成部109は、図1に示すように、言語処理部102、言語辞書記憶部107、音韻変換部106、無変換リスト記憶部108、変換規則記憶部110から構成されている。
言語辞書記憶部107は、多数の日本語の単語の情報を記憶しており、各単語の情報は、漢字かな混じりの表記(文字列)、読みを表す音韻列、品詞、活用、アクセント位置などから構成されている。
言語処理部102は、言語辞書記憶部107に記憶されている単語情報を参照して入力テキストを解析し、入力テキストを単語に区切ると共に、各単語の音韻列、品詞、アクセント位置などの音声情報を出力する。
音韻変換部106は、無変換リスト記憶部108に記憶されている音声情報のリストを参照して、前記単語の音韻列の変換を行うか否かを判定し、変換を行うと判定された場合には、変換規則記憶部110に記憶されている変換規則に従って前記単語の音韻列の変換を行い、変換された音韻列を出力する。
(4)音韻列生成部109の動作
次に、音韻生成部109の詳細な動作について図2〜図7に基づいて説明する。図2は、音韻生成部109の動作を示すフローチャートである。
(4−1)言語処理部102
言語処理部102では、テキスト入力部101で入力されたテキストの形態素解析が行なわれる(ステップS101)。例として「太郎さんお早う」というテキストの解析について説明する。
まず、言語辞書記憶部107の単語情報を参照して、入力テキストを単語列で表現する。単語列は1通りに決定されるとは限らず、例えば図3に表されるようなネットワークで表現される。この例では、単語「さん」に接尾と数詞の2通りがあるため、2通りの解析結果がありうることを表している。
次に、単語の品詞などを用いた、単語間の接続のし易さについてのルールを参照して、解析結果の候補(ネットワークのパス)に点数付けを行う。
最後に、各候補の点数を比較して、最も確からしいパスを選択し、各単語の文字列、音韻列、品詞を解析結果として出力する。この例では、固有名詞と接尾は接続し易いため、図4の結果が出力される。
(4−2)音韻変換部106
次に、音韻変換部106では、形態素解析の結果を参照して、各単語の音韻の変換を行うか否かを判定する(ステップS102)。
判定は、無変換リスト記憶部108に記憶されている音声情報リストに基づいて行われる。音声情報リストは、音声情報を要素とするリストである。また、音声情報とは入力テキストを単語に区切ると共に、単語情報を参照して解析した結果として単語毎に得られる情報であり、例えば、音韻列・文字列・品詞・アクセント位置などがある。いずれか1種類(例えば、文字列)のリストとしてもよいし、複数種類が混在したリスト(例えば文字列と品詞)としてもよい。あるいは、「文字列が『千葉』で品詞が『人名』」のように、複数種類の組合せを要素とするリストとしてもよい。音声情報リストが、文字列リストである場合の例を図5に示す。
入力された単語列の各単語の文字列を、文字列リストと照合し、一致するものがある場合は前記単語の音韻変換は行わず、一致するものが無い場合は音韻変換を行うものと判定する。この例では、単語「太郎」は文字列リストに存在するため変換は行わず、「さん」「お早う」は存在しないため変換を行うものと判定する。
次に、変換を行うと判定された単語について、変換規則110に記憶されている変換規則に従って音韻の変換を行う(ステップS103)。
音韻の変換とは、少なくとも入力された音韻と変換規則とに基づいて、入力音韻とは異なる音韻を出力する操作である。ここで、変換規則とは少なくとも入力された音韻を、入力された音韻とは異なる音韻に変換する際に用いるもので、ある入力された音韻を異なる音韻に変換する規則を表したものである。
本実施形態における音韻の変換は、単語内での音韻の位置を置換することによって実現する。変換規則の例を図6に示す。このテーブルは、入力の単語内の音韻の位置と、置換された出力での音韻の位置の関係を表しており、Nは単語の音韻の数である。この変換規則を用いて、単語「さん」及び「お早う」の音韻列を変換した出力を図7に示す。
(5)効果
本実施形態の音声合成装置では、「太郎さんお早う」というテキスト入力に対して、「タローンサハヨーオ」という音声が合成される。
このように、音韻や抑揚は日本語と同じ特徴を持つことから、意味不明でありながら「言葉らしさ」を備えた音声を合成することが可能で、ゲームのキャラクタの音声に利用することができる。
また、人名などは、言語が異なっても同じように発音されることから、プレイヤーが入力した名前など、特定の単語は変換しないようにすることで、より現実味が増すという効果がある。
また、用いる変換の方法によっては、変換前のテキストを類推することができ、ゲームのキャラクタのセリフの意味を推理するという娯楽性を提供することができる。
(6)変更例
本実施形態の音韻変換部106では、文字列リストを参照して変換するか否かを判定したが、判定方法はこれに限られるものではなく、音韻列リストや品詞リストを参照するようにしてもよい。
例えば、音韻列リストに「ヒロシ」という登録があれば、入力テキストの「博」「浩」「寛」などは、全て変換されずにそのままの音韻で合成される。
また、品詞リストに「固有名詞」という登録があれば、人名などの固有名詞は全て変換されない。ゲームの入力インターフェースで漢字入力ができず、仮名入力のみの場合は、音韻列で照合する方が実装が容易となる。
また、品詞で変換の判定を制御することにより、変換部分の割合を容易に制御することが可能で、例えば無変換リストの品詞を増やしていくことで、変換部分をだんだんと少なくし、「キャラクタが日本語を覚えてきた」という演出できる。
(第2の実施形態)
次に、本発明の第2の実施形態の音声合成装置について、図8〜図12に基づいて説明する。
(1)音声合成装置の構成
図8は、音声合成装置を示すブロック図であり、図1と同様の機能を持つ構成要素には同一符号を付与して説明を省略する。
本実施形態の音声合成装置には、テキスト合成部201、変換文記憶部203、無変換文記憶部204が付加されている。
変換文記憶部203には、音韻の変換を行うテキストが記憶されており、無変換文記憶部104には、音韻の変換を行わないテキストが記憶されている。例えば、ゲームキャラクタのセリフのうち、既定の部分のテキストは予め変換文記憶部203に記憶されており、プレイヤーが入力した名前などが無変換文記憶部に登録される。
(2)音声合成装置の動作
次に、本実施形態の音声合成装置における音韻生成部209の詳細な動作について図9〜図11に基づいて説明する図11は、音韻生成部209の動作を示すフローチャートである。
(2−1)テキスト合成部201
テキスト合成部201は、変換文記憶部203と無変換文記憶部204の中の指定されたテキストを組み合わせて入力テキストを生成する(ステップS201)。
さらに、入力テキストの中で、音韻を変換する部分と変換しない部分を表す情報である判別情報を生成する(ステップS202)。
判別情報は、入力テキストにタグとして挿入したり、変換、無変換の境界位置と各区間の変換、無変換の別を表すデータを入力テキストとは別に出力したりするなどの実現方法がある。
例えば、図9で表されるようなテキストのリストが変換文記憶部203に記憶されており、図10で表されるようなテキストのリストが無変換文記憶部104に記憶されている場合について説明する。
図9の[可変部分]に、図10で指定されたテキストを挿入することにより、入力テキストを生成する。図9から「[可変部分]さんお早う」が、図10から「太郎」が指定された場合は、これらを組み合わせた結果「<無変換>太郎</無変換>さんお早う」という入力テキストが生成される。ここで、<無変換>及び</無変換>は、入力テキストの中で音韻の変換を行わない区間の始めと終わりをそれぞれ表すタグである。無変換区間ではなく、変換区間を表すタグを用いても良い。
また、タグの代わりに、「1文字目から2文字の長さの区間が無変換区間」という情報を変換部分判定情報として出力するようにしても良い。
(2−2)言語処理部202
次に、言語処理部202では、第1の実施形態における形態素解析(ステップS102)と同様に、入力テキストを単語に分割し、各単語の文字列、音韻列、品詞を生成する。
さらに、変換部分判定情報を参照して、各単語に変換、無変換の属性を付与する。言語処理部202の出力の例を図12に示す。
(2−3)音韻変換部206
次に、音韻変換部206では、言語処理部202の出力の変換、無変換の属性を参照して、音韻の変換を行う単語を決定する(ステップS204)。
次に、音韻の変換を行うと決定された単語に対して、変換規則110に記憶されている変換規則に従って音韻の変換を行う(ステップS205)。
音韻の変換は、第1の実施形態と同様に、単語内での音韻の位置を置換することによって実現する。入力テキストが、「<無変換>太郎</無変換>さんお早う」である場合、生成された音韻列は「タローンサハヨーオ」となる。
さらに、この音韻列に基づいて韻律処理部103で韻律情報が生成され、音声合成部104で「タローンサハヨーオ」という合成音声が生成されて、合成音声出力部105から出力される。
(3)効果
本実施形態の音声合成装置でも、「太郎さんお早う」というテキストに対して、「タローンサハヨーオ」という音声が合成され、第1の実施形態と同様の効果がある。
(第3の実施形態)
次に、本発明の第3の実施形態の音声合成装置について、図13〜図16に基づいて説明する。
(1)音声合成装置の構成
本実施形態の音声合成装置の構成について図13に基づいて説明する。図13は、音声合成装置を示すブロック図であり、図1及び図8と同様の機能を持つ構成要素には同一符号を付与して説明を省略する。
本実施形態の音韻列生成部309は、言語処理部302、変換言語辞書記憶部307、無変換言語辞書記憶部308、音韻変換部306、変換規則記憶部110、言語辞書記憶部107から構成されている。
言語処理部302は、変換言語辞書記憶部307と無変換言語辞書記憶部308の2つの言語辞書を参照して動作する。変換言語辞書記憶部307に記憶されている単語の情報は、言語辞書記憶部107と同様であるが、音韻列情報は予め変換規則に基づいて変換されたものとなっている。
すなわち、音韻変換部306は、言語辞書記憶部107の全ての単語について、音韻列情報を変換規則記憶部110に記憶されている変換規則に基づいて変換し、変換した音韻列とそのほかの情報(文字列、品詞、活用、アクセント位置など)を変換言語辞書記憶部307に記憶する。
(2)音声合成装置の動作
次に、本実施形態の音声合成装置の動作について説明する。
言語辞書記憶部107に記憶されている単語情報の例を図14(a)に示す。また、変換規則記憶部110には、図5で表される音韻入換えテーブルが記憶されている。
(2−1)音韻変換部306
音韻変換部306は、音韻入換えテーブルに基づいて言語辞書記憶部107の音韻列を変換して図14(b)で表される単語情報を生成し、変換言語辞書記憶部307に記憶する。
無変換言語辞書記憶部308には、図14(c)で表される単語情報が記憶されているものとする。
(2−2)言語処理部302
言語処理部302は、テキスト入力部101より「太郎さんお早う」というテキストが入力されたとすると、第1の実施形態の言語処理部102と同様に形態素解析処理を行って、各単語の文字列、音韻列、品詞列を解析結果として出力する。但し、本実施形態の言語処理部302は、変換言語辞書記憶部307と、無変換言語辞書記憶部308の2つの言語辞書を参照する。
もし、同一文字列の単語が2つの辞書の両方に存在した場合は、無変換言語辞書記憶部308の登録内容を優先して解析に用いるものとする。
その結果、図15で表される解析結果が出力される。出力された音韻列は、「タローンサハヨーオ」となる。
(2−3)韻律処理部103
さらに、韻律処理部103では、この音韻列に基づいて韻律情報が生成され、音声合成部104で「タローンサハヨーオ」という合成音声が生成されて、合成音声出力部105から出力される。
(3)効果
本実施形態の音声合成装置でも、「太郎さんお早う」というテキストに対して、「タローンサハヨーオ」という音声が合成され、第1の実施形態と同様の効果がある。
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
(1)変更例1
上記各実施形態では、音韻の変換は単語内の音韻の位置の置換によって実現するものとして説明したが、その他の変換規則を用いても良い。
例えば、図16(a)で表されるような音韻の変換テーブルを用いても良い。これは、入力音韻を出力音韻に変換することを意味しており、音韻の対で構成されている。
また、音韻の置換、変換のいずれの場合においても、変換のテーブルは固定である必要は無く、例えば複数のテーブルを切り替えて用いるようにしてもよい。
また、これらのテーブルは、入力に対して出力が常に一意に決定される必要は無く、例えば図16(b)のテーブルのように、入力音韻1つに対して複数の出力音韻が対応し、出力が周期的に変化するようにしても良い。この例では、「あ」の入力に対しては、「い」と「お」が交互に出力されることになる。
また、必ずしも周期的に変化する必要は無く、図16(c)のテーブルのように、1つの入力音韻に対応する複数の出力音韻に出力確率が付与されており、確率的に出力が決定されるようにしてもよい。この例では、「あ」の入力に対しては、「い」と「お」がそれぞれ50%の確率で出力されることを表している。
このように、音韻の変換の方法に応じて、変換された合成音声から、元のテキストを類推できる度合いが変化するため、ゲームのキャラクタの設定や進行状況に適した変換を行うことができるという効果がある。
(2)変更例2
また、上記各実施形態では、言語処理部102における処理の結果、単語の列が出力されるものとして説明したが、これに限られるものではなく、例えば形態素やアクセント句などの単位で出力するようにしても良い。
第1の実施形態において、単位をアクセント句とした例を図17に示す。
無変換リストの登録は「太郎」であり、アクセント句の文字列「太郎さん」とは完全には一致しないが、この場合は無変換リストの登録単語を含んでいる場合に変換しないものと判定したため、アクセント句「太郎さん」全体を変換していない。
また、複数の単語から構成されるアクセント句の場合は、1アクセント句に複数の品詞が割り当てられる場合があるため、品詞の無変換リストによって判定する場合は、リストへの登録を品詞列(例えば「固有名詞+接尾」)としてアクセント句の品詞列と一致するかどうかを判定しても良いし、文字列と同様に、リストへの登録は一つの品詞とし、アクセント句の品詞列に含まれるかどうかによって判定するようにしてもよい。
(3)変更例3
また、上記各実施形態では、音韻は音節であるとして説明したが、これに限定されるものではなく、例えば音韻としてモーラや音素などの単位を用いてもよい。
音素を単位とした場合、日本語では連続しない子音が変換によって連続する場合があり、外国語のような雰囲気を出すことができる。
本発明の第1の実施形態の音声合成装置を示すブロック図である。 音韻生成部の動作を示すフローチャートである。 単語列を表すネットワークである。 各単語の文字列、音韻列、品詞の解析結果の例である。 無変換リスト記憶部に記憶されている文字列リストの例である。 変換規則の例である。 音韻列を変換した出力の例である。 第2の実施形態の音声合成装置を示すブロック図である。 変換文記憶部に記憶されているテキストのリストである。 無変換文記憶部に記憶されているテキストのリストである。 音韻生成部の動作を示すフローチャートである。 言語処理部の出力の例を示す図である。 第3の実施形態の音声合成装置を示すブロック図である。 (a)は言語辞書記憶部に記憶されている単語情報の例であり、(b)は音韻変換部が音韻入換えテーブルに基づいて言語辞書記憶部の音韻列を変換した例であり、(c)は無変換言語辞書記憶部に記憶されている単語情報の例である。 解析結果の出力の例である。 変更例1における変換テーブルである。 変更例2における単位をアクセント句としたテーブルである。
符号の説明
101 テキスト入力部
102 言語処理部
103 韻律処理部
104 音声合成部
105 合成音声出力部
107 言語辞書記憶部
106 音韻変換部
108 無変換リスト記憶部
109 音韻列生成部
110 変換規則記憶部

Claims (11)

  1. テキストを入力する入力部と、
    単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、
    前記辞書に基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成部と、
    前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定部と、
    (1)前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、(2)前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理部と、
    を備える音声処理装置。
  2. テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報を入力する入力部と、
    単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書と、
    前記辞書と前記判別情報とに基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成部と、
    (1)前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、(2)前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理部と、
    を備える音声処理装置。
  3. テキストを入力する入力部と、
    音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第1の辞書と、
    音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第2の辞書と、
    (1)前記第1の辞書と前記第2の辞書とに基づいて、前記テキストを1つ以上の部分テキストに分割し、(2)前記第1の辞書に含まれる前記部分テキストは、前記第1の辞書に基づいて前記変換音韻列を生成して出力し、(3)前記第2の辞書に含まれる前記部分テキストは、前記第2の辞書に基づいて前記無変換音韻列を生成して出力する処理部と、
    を備える音声処理装置。
  4. 前記部分テキスト毎の音韻列に基づいて、前記音韻列の各音韻の継続時間及び声の高さで構成される韻律情報を生成する韻律生成部と、
    前記部分テキスト毎の前記音韻列と前記韻律情報とから合成音声を生成する合成部と、
    をさらに備える請求項1から3の少なくとも一項に記載の音声処理装置。
  5. 前記音声情報が、文字列、音韻列、または、品詞列であり、
    前記判定部は、
    前記部分テキストの文字列が、予め記憶した文字列リスト中の文字列を含むかどうか、
    前記部分テキストの音韻列が、予め記憶した音韻列リスト中の音韻列を含むかどうか、
    または、前記部分テキストの品詞列が、予め記憶した品詞列リスト中の品詞列を含むかどうかのいずれかに基づいて、
    前記部分テキストの前記音韻の変換を行うかどうかを判定する、
    請求項1記載の音声処理装置。
  6. 前記処理部は、
    前記変換規則を、変換元の音韻と変換先の音韻との組で表される音韻交換テーブル、または、変換元の音韻列内での音韻の位置と、変換先の音韻列内での音韻の位置との組で表される音韻置換テーブルに記憶している、
    請求項1または2記載の音声処理装置。
  7. 前記部分テキストは、単語単位、形態素単位、または、アクセント句単位である、
    請求項1〜3の少なくとも一項に記載の音声処理装置。
  8. 前記音韻は、音節単位、モーラ単位、または、音素単位である、
    請求項1〜3の少なくとも一項に記載の音声処理装置。
  9. 単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書を有し、
    テキストが入力する入力機能と、
    前記辞書に基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に音韻列を含む音声情報を生成する生成機能と、
    前記部分テキストの音声情報と、予め記憶された音声情報のリストとを照合して、前記部分テキストの前記音韻列に属する音韻の変換を行うかどうかを判定する判定機能と、
    (1)前記音韻の変換を行うと判定された前記部分テキストの前記音韻列の前記各音韻を予め記憶した変換規則に従って異なる音韻に変換して出力し、(2)前記音韻の変換を行わないと判定された前記部分テキストの前記音韻列は、無変換で出力する処理機能と、
    をコンピュータによって実現する音声処理プログラム。
  10. 単語を表記する文字列と、前記単語の読みを表す音韻列と、前記単語の品詞との組から構成される辞書を有し、
    テキスト、及び、前記テキストにおける各音韻のそれぞれについて、異なる音韻へ変換を行う部分と変換を行わない部分を表す判別情報が入力する入力機能と、
    前記辞書と前記判別情報とに基づいて、前記テキストを1つ以上の部分テキストに分割し、分割した前記部分テキスト毎に、音韻列と前記変換の要否を表す属性とを生成する生成機能と、
    (1)前記属性が変換が必要となっている前記部分テキストの前記音韻列の前記各音韻を、予め記憶した変換規則に基づいて、異なる音韻に変換して出力し、(2)前記属性が変換が不要となっている前記部分テキストの前記音韻列は、無変換で出力する処理機能と、
    をコンピュータによって実現する音声処理プログラム。
  11. 音韻の変換を行う単語について、前記単語を表記する文字列と、前記単語の読みを表す音韻の組合せが任意の変換規則に基づいて異なる音韻の組合せに変換された変換音韻列と、前記単語の品詞との組とから構成される第1の辞書と、
    音韻の変換を行わない単語について、前記単語を表記する文字列と、前記単語の読みをそのまま表す無変換音韻列と、前記単語の品詞との組から構成される第2の辞書と、
    を有し、
    テキストを入力する入力機能と、
    (1)前記第1の辞書と前記第2の辞書とに基づいて、前記テキストを1つ以上の部分テキストに分割し、(2)前記第1の辞書に含まれる前記部分テキストは、前記第1の辞書に基づいて前記変換音韻列を生成して出力し、(3)前記第2の辞書に含まれる前記部分テキストは、前記第2の辞書に基づいて前記無変換音韻列を生成して出力する処理機能と、
    をコンピュータによって実現する音声処理プログラム。
JP2007316637A 2007-12-07 2007-12-07 音声処理装置及びそのプログラム Expired - Fee Related JP5198046B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007316637A JP5198046B2 (ja) 2007-12-07 2007-12-07 音声処理装置及びそのプログラム
US12/210,338 US8170876B2 (en) 2007-12-07 2008-09-15 Speech processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007316637A JP5198046B2 (ja) 2007-12-07 2007-12-07 音声処理装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2009139677A true JP2009139677A (ja) 2009-06-25
JP5198046B2 JP5198046B2 (ja) 2013-05-15

Family

ID=40722540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007316637A Expired - Fee Related JP5198046B2 (ja) 2007-12-07 2007-12-07 音声処理装置及びそのプログラム

Country Status (2)

Country Link
US (1) US8170876B2 (ja)
JP (1) JP5198046B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044463A1 (en) * 2019-08-29 2022-02-10 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089400A1 (en) * 2010-10-06 2012-04-12 Caroline Gilles Henton Systems and methods for using homophone lexicons in english text-to-speech
JP6245846B2 (ja) * 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP6320397B2 (ja) * 2013-09-20 2018-05-09 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
CN109285537B (zh) * 2018-11-23 2021-04-13 北京羽扇智信息科技有限公司 声学模型建立、语音合成方法、装置、设备及存储介质
CN109582775B (zh) * 2018-12-04 2024-03-26 平安科技(深圳)有限公司 信息录入方法、装置、计算机设备及存储介质
US20220215683A1 (en) * 2019-09-06 2022-07-07 Tata Consultancy Services Limited Method and system for keypoint extraction from images of documents
KR102392904B1 (ko) * 2020-09-25 2022-05-02 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196198A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH06289889A (ja) * 1993-03-31 1994-10-18 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0728825A (ja) * 1993-07-12 1995-01-31 Matsushita Electric Ind Co Ltd 音声合成装置
JPH07121537A (ja) * 1993-10-26 1995-05-12 Canon Inc 文書処理装置及びその方法
JPH07129619A (ja) * 1993-10-29 1995-05-19 Hiuka Sangyo Kk 音声電子ブック
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JP2002175094A (ja) * 2000-05-31 2002-06-21 Matsushita Electric Ind Co Ltd 音声による情報提供装置、及び音声による情報提供方法
JP2004301968A (ja) * 2003-03-31 2004-10-28 Clarion Co Ltd 発話処理装置、発話処理方法及び発話処理用プログラム
JP2006243133A (ja) * 2005-03-01 2006-09-14 Canon Inc 音声読上げ方法および装置
JP2007086309A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法および音声合成プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots
JP2001034282A (ja) 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2003016008A (ja) * 2001-07-03 2003-01-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US8073696B2 (en) * 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196198A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JPH06289889A (ja) * 1993-03-31 1994-10-18 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0728825A (ja) * 1993-07-12 1995-01-31 Matsushita Electric Ind Co Ltd 音声合成装置
JPH07121537A (ja) * 1993-10-26 1995-05-12 Canon Inc 文書処理装置及びその方法
JPH07129619A (ja) * 1993-10-29 1995-05-19 Hiuka Sangyo Kk 音声電子ブック
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JP2002175094A (ja) * 2000-05-31 2002-06-21 Matsushita Electric Ind Co Ltd 音声による情報提供装置、及び音声による情報提供方法
JP2004301968A (ja) * 2003-03-31 2004-10-28 Clarion Co Ltd 発話処理装置、発話処理方法及び発話処理用プログラム
JP2006243133A (ja) * 2005-03-01 2006-09-14 Canon Inc 音声読上げ方法および装置
JP2007086309A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法および音声合成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044463A1 (en) * 2019-08-29 2022-02-10 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence

Also Published As

Publication number Publication date
JP5198046B2 (ja) 2013-05-15
US8170876B2 (en) 2012-05-01
US20090150157A1 (en) 2009-06-11

Similar Documents

Publication Publication Date Title
JP5198046B2 (ja) 音声処理装置及びそのプログラム
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
EP1668628A1 (en) Method for synthesizing speech
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JPWO2008056590A1 (ja) テキスト音声合成装置、そのプログラム及びテキスト音声合成方法
JPH08335096A (ja) テキスト音声合成装置
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP2000187495A (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2006030384A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP4736524B2 (ja) 音声合成装置及び音声合成プログラム
JPH06318094A (ja) 音声規則合成装置
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
JP3571925B2 (ja) 音声情報処理装置
JP2002123281A (ja) 音声合成装置
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP3870583B2 (ja) 音声合成装置および記憶媒体
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
JPH08160983A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees