JPH11338498A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH11338498A
JPH11338498A JP10139371A JP13937198A JPH11338498A JP H11338498 A JPH11338498 A JP H11338498A JP 10139371 A JP10139371 A JP 10139371A JP 13937198 A JP13937198 A JP 13937198A JP H11338498 A JPH11338498 A JP H11338498A
Authority
JP
Japan
Prior art keywords
morpheme
parameter
unit
section
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10139371A
Other languages
English (en)
Other versions
JP3366253B2 (ja
Inventor
Mitsuru Ebihara
充 海老原
Yasushi Ishikawa
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP13937198A priority Critical patent/JP3366253B2/ja
Publication of JPH11338498A publication Critical patent/JPH11338498A/ja
Application granted granted Critical
Publication of JP3366253B2 publication Critical patent/JP3366253B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 仮名漢字混じりテキストから得られた形態素
列が複数かつ曖昧である場合に、その事実又は正解の可
能性のある複数候補の内容をユーザに伝える。 【解決手段】 複数形態素出力言語解析部47は、仮名
漢字混じりテキスト40から得た最尤形態素列49を言
語尤度判定部37へ送り、言語尤度判定部37がその中
に曖昧性の高い形態素列の区間について複数の読み候補
が存在すると判定した場合には複数形態素提示指令部4
8からの複数形態素提示指令51に従い複数形態素列5
2をパラメータ生成部36へ送る。一方、パラメータ変
更部55は、当該区間に対応する韻律パラメータ43の
変更を行うパラメータ変更指令56をパラメータ生成部
36へ指示する。パラメータ生成部36は、複数の音響
パラメータ42の抽出及び韻律パラメータ43の決定を
行う。音声合成部39は、各パラメータ42,43によ
り複数の合成音声44を生成し、スピーカ等により出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力されたテキス
トを音声へ変換する音声合成装置に関する。
【0002】
【従来の技術】音声合成技術、中でも規則合成技術は、
任意の文字列からなるテキストを音声に変換して提示す
る技術であり、音声による情報サービス、電子メールの
読み上げ、身障者向け朗読器、新聞校閲などの用途に用
いられている。
【0003】一般的な規則合成技術に基づいたテキスト
音声変換システムの構成は、古井「デジタル音声処理」
(東京大学出版会、1985年)の第146頁に示され
ている。これに記載されているシステムは、文章解析
部、音声規則合成部、音声合成部の3つのモジュールか
ら構成されている。文章解析部では、辞書を参照して入
力した日本語テキストを形態素と呼ばれる単位に分割す
る形態素解析処理を行う。形態素には読み、アクセント
型、品詞等が付与される。音声規則合成部は、音響処理
部と韻律生成部から構成される。音響処理部では、文章
解析部で得られた読みとアクセントを基にLSP(Li
ne Spectrum Pair)やメルケプストラ
ム等の音声波形を分析して得られる特徴量、あるいは音
声波形そのものなどで構成される音響パラメータを生成
する。韻律生成部では、韻律規則に基づいてピッチ、ポ
ーズ、継続時間長などの韻律パラメータを生成する。音
声合成部では、上記音響パラメータと上記韻律パラメー
タを基に合成音声を生成し、出力する。音響パラメータ
がLSP等の特徴量の場合には、ボコーダーと呼ばれる
分析合成手法に基づいて合成音声を生成し、音声波形の
場合はPSOLA(Pitch Synchronous OverLap and Ad
d:ピッチ同期波形重畳法)と呼ばれる方式で合成を行
う。
【0004】ここで、文章解析部の出力結果としては、
漢字によって複数の読みが発生する場合や、日本語特有
の文法により複数の読みが可能となる場合がある。その
ため形態素解析の結果も曖昧となり、音声出力の結果が
一意に決められなかったり、読みの誤った音声を提示し
てしまう問題がある。そこで、辞書を作成する際に漢字
に対して読みの優先度を予め設定し、この優先度に基づ
き形態素の読みを決定する技術が従来提案されている。
このような従来技術として特開平6−176023号公
報に記載の「音声合成システム」(以下、「文献1」と
する)に開示されている技術がある。
【0005】図13は、文献1で示される手法に基づく
音声合成装置の一構成例(以下、「第1の従来例」)で
ある。この音声合成装置は、仮名漢字変換部1を有する
文書作成装置2、辞書3及び形態素解析部4を有する言
語解析部5、仮名漢字変換情報制御部6、読みアクセン
ト付与部7、音響処理部8及び韻律生成部9を有するパ
ラメータ生成部10及び音声合成部11で構成されてい
る。以下、第1の従来例による音声合成装置について説
明する。
【0006】文書作成装置2は、仮名漢字変換部1にお
いて入力された仮名文字列12を仮名漢字文字列13に
変換する。仮名漢字変換情報制御部6は、仮名漢字変換
部1の変換結果である仮名漢字変換情報14に基づき優
先度変更指令15を生成する。言語解析部5は、入力さ
れたテキスト16を解析して言語尤度を含む形態素列1
7を得ることになるが、この際、優先度変更指令15に
従い、辞書3中の同一表記で異なる読みに対して優先度
18を設定する。読みアクセント付与部7は、辞書3を
参照して形態素列17に含まれる各形態素に対して優先
度18に基づき選択された読みを付与する。音響処理部
8は、選択された優先形態素19の読みに基づいて音響
パラメータ20を決定する。また、韻律処理部9は、優
先形態素19の読み、アクセント型、カテゴリー情報等
に基づいてピッチや時間長、ポーズ等の韻律パラメータ
21を決定する。音声合成部11は、音響パラメータ2
0と韻律パラメータ21により合成音声22を生成す
る。
【0007】一方、複数の読みが存在したり、アクセン
ト型や複合語境界に誤りが存在する場合に、ユーザの入
力によって修正を行い、その修正結果を基に学習を行う
方式も提案されている。このような従来技術として特開
平6−202685号公報に記載の「音声合成装置」
(以下、「文献2」とする)に開示されている技術があ
る。
【0008】図14は、文献2で示される手法に基づく
音声合成装置の一構成例(以下、「第2の従来例」)で
ある。なお、第1の従来例と同様の構成要素及び情報に
は、同じ符号を付け説明を省略する。第2の従来例で
は、異なる構成要素として表示部23、範囲指定部2
4、次候補表示選択部25及び次候補音声合成選択部2
6が設けられている。以下、第2の従来例による音声合
成装置について説明する。
【0009】表示部23が仮名漢字混じり文からなる入
力されたテキスト16を表示すると、範囲指定部24
は、表示したテキスト中の修正箇所の部分をユーザに指
定させる。次候補表示選択部25は、表示部23に韻律
記号表示で次候補群を表示させ、次候補群の中から所望
の記号列をユーザに選択させる。あるいは、次候補音声
合成選択部26の指示により、次候補の各候補に対応し
た音声を音声合成部11に出力させ、音声出力された次
候補群の中から所望の記号列を選択させる。このような
選択操作により修正された韻律記号列により辞書の読み
の優先度更新を行う。
【0010】以上のようにして、第1及び第2の従来技
術では、形態素の優先度を外部から設定することで、形
態素の読みの曖昧さや複合語の読み誤りを回避すること
ができる。
【0011】
【発明が解決しようとする課題】しかしながら、第1及
び第2の従来技術ではユーザの指定により読みの選択を
するので、一度優先度を指定したら次にユーザからの指
定があるまでは読みが一意に決定され、誤った音声内容
のみを提供してしまう可能性がある。例えば、テキスト
中の単語が漢字で「清水」と表されている場合、この単
語は文章によって「しみず」あるいは「きよみず」と読
まれるであろうが、辞書中の「清水」の読みの優先度が
予め決められていたら、常に片方の読みが選択されると
考えられる。各従来技術においてこれを回避するために
は、常時優先度の変更を行わなくてはならない。
【0012】また、第1の従来技術では、文書作成装置
が不可欠な構成要素となってしまうため装置コスト等を
考慮すると必ずしも好ましいものではない。
【0013】また、第2の従来技術では、ユーザが範囲
を指定することが必須となり、遠隔地から送られてきた
電子メールの読み上げなどの用途や、視覚的情報が与え
られない状況では操作が困難になるなどの問題があっ
た。
【0014】本発明は以上のような問題を解決するため
になされたものであり、その目的は、仮名漢字混じりテ
キストを入力して合成音を出力する音声合成方式におい
て、得られた形態素列が複数かつ曖昧である場合に、そ
の事実をユーザに的確に伝えることのできる音声合成装
置を提供することにある。
【0015】更に、正解の可能性のある複数候補の内容
をユーザに提示することができる音声合成装置を提供す
ることにある。
【0016】
【課題を解決するための手段】以上のような目的を達成
するために、第1の発明に係る音声合成装置は、入力さ
れたテキストを解析して言語尤度を含む形態素列を得る
言語解析手段と、前記言語解析手段が得た形態素列の読
み、アクセント型等の付加情報に基づいて音響パラメー
タ及びピッチや時間長、ポーズ等の韻律パラメータを決
定するパラメータ生成手段と、前記パラメータ生成手段
が決定したパラメータに基づき合成音声を生成する音声
合成手段と、前記言語解析手段が得た形態素列の言語尤
度が曖昧性の判断指標となる所定の閾値を下回るかどう
かの判定を行う言語尤度判定手段と、前記言語尤度判定
手段による判定の結果、言語尤度が閾値を下回った区間
が判定対象となる形態素列に存在した場合には、当該区
間に対応する前記パラメータの変更を前記パラメータ生
成手段へ指示するパラメータ変更手段とを有し、形態素
解析の結果、曖昧性の高い形態素列の区間の音声を他の
区間の音声と判別可能に生成するものである。
【0017】第2の発明に係る音声合成装置は、入力さ
れたテキストを解析して言語尤度を含む形態素列を得る
言語解析手段と、前記言語解析手段が得た形態素列の読
み、アクセント型等の付加情報に基づいて音響パラメー
タ及びピッチや時間長、ポーズ等の韻律パラメータを決
定するパラメータ生成手段と、前記パラメータ生成手段
が決定したパラメータに基づき合成音声を生成する音声
合成手段と、前記言語解析手段が得た形態素列の言語尤
度が曖昧性の判断指標となる所定の閾値を下回るかどう
かの判定を行う言語尤度判定手段と、前記言語尤度判定
手段による判定の結果、言語尤度が閾値を下回った区間
が判定対象となった形態素列に存在した場合には、当該
区間について複数の形態素を得るよう前記言語解析手段
へ指示する複数形態素提示指令手段とを有し、曖昧性の
高い形態素列の区間においては複数の読み候補の合成音
声を生成するものである。
【0018】第3の発明に係る音声合成装置は、第2の
発明において、前記複数形態素提示指令手段が複数の形
態素を得るよう指示した場合には、曖昧性の高い形態素
列の区間又は当該区間の形態素の候補数の少なくともい
ずれか一方の情報の合成音声を生成するよう前記音声合
成手段へ指示する複数形態素情報通知手段を有するもの
である。
【0019】第4の発明に係る音声合成装置は、第2の
発明において、前記言語尤度判定手段による判定の結
果、言語尤度が閾値を下回った区間が判定対象となる形
態素列に存在した場合には、当該区間に対応する韻律パ
ラメータの変更を前記パラメータ生成手段へ指示するパ
ラメータ変更手段を有するものである。
【0020】第5の発明に係る音声合成装置は、第1又
は第4の発明において、前記パラメータ変更手段は、韻
律パラメータの変更を前記パラメータ生成手段へ指示す
ることによって、曖昧性の高い形態素列の区間の韻律的
特徴を変化させた合成音声を生成させるものである。
【0021】第6の発明に係る音声合成装置は、第1又
は第4の発明において、前記パラメータ変更手段は、音
響パラメータの変更を前記パラメータ生成手段へ指示す
ることによって、曖昧性の高い形態素列の区間が他の区
間と異なる音声となる音響パラメータを用いて合成音声
を生成させるものである。
【0022】第7の発明に係る音声合成装置は、第1乃
至第6のいずれかの発明において、前記言語尤度判定手
段は、連続する複数の形態素の連鎖及びその生起確率を
組にした連鎖確率情報を記憶する連鎖確率情報記憶部
と、前記連鎖確率情報記憶部を参照し、入力されたテキ
ストを解析して得た形態素列の連鎖確率を得る連鎖確率
抽出部と、前記連鎖確率抽出部が得た連鎖確率が曖昧性
の判断指標となる所定の閾値を下回るかどうかの判定を
行う連鎖確率判定部とを有し、連鎖確率情報を参照する
ことによって複数の形態素をまとめて一区間として取扱
い可能としたものである。
【0023】第8の発明に係る音声合成装置は、第1乃
至第6のいずれかの発明において、前記言語尤度判定手
段は、前記形態素列に意味素性情報が含まれている場
合、意味素性間の関連の強さの度合を共起関係として記
憶する共起関係記憶部と、連続する複数の形態素の連鎖
及びその生起確率を組にした連鎖確率情報を記憶する連
鎖確率情報記憶部と、連続する形態素間の共起関係を前
記共起関係記憶手段を参照して決定する共起関係抽出部
と、前記連鎖確率情報記憶部を検索して前記形態素列の
連鎖確率と共起関係との積を共起重み付き連鎖確率とし
て抽出する重み付き連鎖確率抽出部と、前記重み付き連
鎖確率抽出部が抽出した共起重み付き連鎖確率が曖昧性
の判断指標となる所定の閾値を下回るかどうかを判定す
る重み付き連鎖判定部とを有し、連鎖確率情報と共に共
起関係を曖昧性の判定基準として用いるものである。
【0024】
【発明の実施の形態】以下、図面に基づいて、本発明の
好適な実施の形態について説明する。
【0025】実施の形態1.図1は、本発明に係る音声
合成装置の実施の形態1を示したブロック構成図であ
る。本実施の形態における音声合成装置は、辞書31及
び形態素解析部32を含む言語解析部33、音響処理部
34及び韻律生成部35を含むパラメータ生成部36、
言語尤度判定部37、パラメータ変更部38及び音声合
成部39を有している。言語解析部33は、入力された
テキスト40を解析して言語尤度を含む形態素列を得
る。パラメータ生成部36は、言語解析部33が得た形
態素列41の読み、アクセント型等の付加情報に基づい
て音響パラメータ42及びピッチや時間長、ポーズ等の
韻律パラメータ43を決定する。音声合成部39は、パ
ラメータ生成部36が決定したパラメータ42,43に
基づき合成音声44を生成する。言語尤度判定部37
は、言語解析部33が得た形態素列41の言語尤度が曖
昧性の判断指標となる所定の閾値を下回るかどうかの判
定を行う。パラメータ変更部38は、言語尤度判定部3
7による判定の結果、言語尤度が閾値を下回った区間が
判定対象となる形態素列に存在した場合には、当該区間
に対応するパラメータ42,43の変更をパラメータ生
成部36へ指示する。上記構成のうち言語解析部33、
パラメータ生成部36及び音声合成部39は、従来から
あるものとほぼ同様の機能を持つもので構成することが
できる。
【0026】本実施の形態において特徴的なことは、形
態素解析の結果、曖昧性の高い形態素列の区間の音声を
他の区間の音声と判別可能に生成するようにしたことで
ある。具体的には、曖昧性の高い形態素列の区間の韻律
的特徴を変化させることにより読み誤りを含む可能性が
あることをユーザに的確に伝えることができる。
【0027】次に、本実施の形態における動作について
図2に示したフローチャートを用いて説明する。
【0028】日本語仮名漢字混じり文からなるテキスト
40は、言語解析部33へ入力される(ステップ10
0)。このテキスト40は、キーボードからのキー入力
や端末上で受信した電子メール、音声認識が出力する認
識結果など入力形態はどのようなものでも構わない。言
語解析部33が有している辞書31には、単語の読み、
品詞、アクセント型などを記憶する単語辞書や、接頭接
尾語を記憶する接辞辞書、単語や品詞などの言語的カテ
ゴリーの意味素性を記憶する意味辞書などがある。形態
素解析部32は、この辞書31を参照してテキスト40
を言語の最小単位である形態素単位に分解する。形態素
解析では辞書31の見出しと一致する形態素を全て抽出
し、更に活用規則、接辞規則、複合語規則、付属語規
則、アクセント規則等を適用することにより、多様な形
態素列を得る。形態素列には読み、アクセント型、品詞
などの言語的カテゴリーの他に、言語尤度が含まれる。
言語尤度の例としては、各規則適用時のコスト値や、形
態素の優先度などが用いられる。形態素解析部32で
は、多くの形態素列の中から、言語尤度が最大となる基
準により最適な形態素列41を得て(ステップ11
0)、言語尤度判定部37及びパラメータ生成部36へ
送る。
【0029】言語尤度判定部37では、言語解析部33
から出力された形態素列41の言語尤度について判定を
行う(ステップ120)。形態素列のある区間(本実施
の形態の場合は一形態素)の言語尤度が曖昧性の判断指
標となる所定の閾値を越えない場合(ステップ13
0)、当該区間は、曖昧性が高いと判定し、曖昧形態素
区間45としてパラメータ変更部38へ伝える。パラメ
ータ変更部38は、曖昧形態素区間45について韻律パ
ラメータ43の変更を行うパラメータ変更指令46を韻
律生成部35へ出す(ステップ140)。なお、上記所
定の閾値は、運用や過去の実績に基づいて適当な値に設
定すればよい。以下、同様とする。
【0030】一方、パラメータ生成部36において、音
響処理部34は、言語解析部33から出力された形態素
列41に基づいて音響辞書(図示せず)を参照して、形
態素の読みに対応した音響パラメータ42を抽出して出
力する(ステップ150)。音響パラメータ42は、音
声波形の形態、あるいは音声から予め抽出したLPC係
数、メルケプストラム、LSP係数などの特徴量の形態
で、CV(子音・母音の組み)、VCV(母音・子音・
母音の組)などの単位からなる音声素片の形で用意さ
れ、音響辞書に記憶されている。韻律生成部35は、形
態素列41に基づいてピッチパターン生成規則、継続時
間長生成規則、ポーズ挿入規則などの韻律制御規則を適
用して、ピッチパターン、継続時間長、ポーズ挿入位置
などの韻律パラメータ43を決定し、出力する(ステッ
プ160)。このとき、韻律生成部35は、パラメータ
変更部38からパラメータ変更指令46を受け取ってい
る場合には、韻律パラメータ43の変更を行う。韻律パ
ラメータ43の変更の例としては、当該区間についての
モーラ速度を一律に低下させる方法があり、この方法に
よると、曖昧形態素区間45については合成音声がゆっ
くりかつ明確に生成することができる。
【0031】音声合成部39は、パラメータ生成部36
から送られてきた音響パラメータ42と韻律パラメータ
43により合成音声44を生成し、図示しないスピーカ
や受話器等により出力する(ステップ170)。
【0032】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列が曖昧な場合でも、対象となる形態素区間の韻律的特
徴を変化させることで、その区間では読みが曖昧であ
り、場合によっては読み誤りを含む可能性があることを
ユーザに的確に伝えることができ、よりユーザに負担を
かけないテキスト読み上げや情報提供をすることができ
る。
【0033】実施の形態2.図3は、本発明に係る音声
合成装置の実施の形態2を示したブロック構成図であ
る。なお、上記実施の形態1と同様の構成要素及びデー
タには、同じ符号を付けて説明を省略する。本実施の形
態における音声合成装置は、実施の形態1と同様のパラ
メータ生成部36、言語尤度判定部37及び音声合成部
39に加えて複数形態素出力言語解析部47、複数形態
素提示指令部48を具備した構成を有している。複数形
態素出力言語解析部47は、機能的には実施の形態1の
言語解析部33と同様の言語解析手段であるが、複数の
形態素を出力可能である点が異なる。複数形態素提示指
令部48は、言語尤度判定部37による判定の結果、言
語尤度が閾値を下回った区間が判定対象となった形態素
列に存在した場合には、当該区間について複数の形態素
を得るよう複数形態素出力言語解析部47へ指示する。
【0034】本実施の形態において特徴的なことは、形
態素解析の結果、曖昧性の高い形態素列の区間について
複数の読み候補の合成音声を生成するようにしたことで
ある。具体的には、曖昧性の高い形態素の上位候補すな
わち正解の可能性の高い内容を音声提示するようにした
ので、ユーザに負担をかけないテキスト読み上げや情報
提供をすることができる。
【0035】次に、本実施の形態における動作について
図4に示したフローチャートを用いて説明する。なお、
上記実施の形態1と同様の処理には同じ符号を付ける。
以降の実施の形態においても同様とする。
【0036】日本語仮名漢字混じり文からなるテキスト
40は、複数形態素出力言語解析部47へ入力される
(ステップ100)。このテキスト40は、実施の形態
1と同じものとする。複数形態素出力言語解析部47
は、辞書(図示せず)を参照して、テキスト40に含ま
れる形態素を決定し、形態素毎の読み、品詞、アクセン
ト型及び言語尤度を抽出する形態素解析処理を行う。形
態素解析の動作は実施の形態1と同じものとする。複数
形態素出力言語解析部47は、多くの形態素列の中から
言語尤度が最大となる基準により最尤形態素列49を得
て(ステップ110)、言語尤度判定部37へ送る。
【0037】言語尤度判定部37では、最尤形態素列4
9の言語尤度について判定を行う(ステップ120)。
最尤形態素列49のある区間(本実施の形態の場合は一
形態素)の言語尤度が曖昧性の判断指標となる所定の閾
値を越えない場合(ステップ131)、当該区間は、曖
昧性が高いと判定し、曖昧形態素区間50として複数形
態素提示指令部48へ伝える。複数形態素提示指令部4
8は、曖昧形態素区間50について複数の形態素列を一
つ一つ音声提示する複数形態素提示指令51を複数形態
素出力言語解析部47へ伝える。本実施の形態における
複数形態素出力言語解析部47は、複数形態素提示指令
51を受け取ると、当該区間における言語尤度の上位2
つの形態素列を複数形態素列52として抽出し(ステッ
プ132)、言語尤度の高い順に一つずつ音声提示する
指示と共にパラメータ生成部36へ送る。
【0038】パラメータ生成部36においては、上記実
施の形態1と同様にして複数形態素列52に基づき音響
パラメータ42の抽出及び韻律パラメータ43の決定を
行い、音声合成部11へ出力する(ステップ161,1
71)。本実施の形態においては、複数形態素列52に
は曖昧性が高い区間における言語尤度の上位2つの形態
素列が含まれているので、2組のパラメータ42,43
が出力されることになる。
【0039】音声合成部39は、パラメータ生成部36
から送られてきた音響パラメータ42と韻律パラメータ
43により2組の合成音声44を生成し、図示しないス
ピーカや受話器等により出力する(ステップ171)。
【0040】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列が曖昧な場合でも、対象となる形態素列の上位2つま
でを音声提示することができるようにした。このよう
に、形態素列のある区間で内容が曖昧な場合は、正解の
可能性の高い音声内容を複数提示することができ、更に
ユーザに優先度更新の作業の負担をかけないテキスト読
み上げや情報提供をすることができる。なお、本実施の
形態においては、複数形態素出力言語解析部47で上位
2つの候補からなる複数形態素列52を生成するように
したが、上位2つでなくても3以上でもよい。
【0041】実施の形態3.図5は、本発明に係る音声
合成装置の実施の形態3を示したブロック構成図であ
る。なお、上記各実施の形態と同様の構成要素及びデー
タには、同じ符号を付けて説明を省略する。以降の各実
施の形態においても同様とする。本実施の形態における
音声合成装置は、実施の形態2と同様のパラメータ生成
部36、言語尤度判定部37、音声合成部39、複数形
態素出力言語解析部47及び複数形態素提示指令部48
に加えて複数形態素アナウンス部53を具備した構成を
有している。複数形態素アナウンス部53は、複数形態
素提示指令部48が複数の形態素を得るよう指示した場
合には、曖昧性の高い形態素列の区間又は当該区間の形
態素の候補数の少なくともいずれか一方の情報の合成音
声を生成するよう前記音声合成手段へ指示する複数形態
素情報通知手段として設けられている。
【0042】本実施の形態において特徴的なことは、複
数形態素アナウンス部53を設けて、形態素解析の結
果、曖昧性の高い形態素列の区間に関する情報つまりそ
の区間の範囲をその区間における形態素の候補の数と共
に明示するようにしたことである。このような情報をユ
ーザに提示することにより、ユーザに負担をかけないテ
キスト読み上げ等をさせることができる。
【0043】次に、本実施の形態における動作について
図6に示したフローチャートを用いて説明するが、複数
形態素出力言語解析部47が形態素解析処理により得た
最尤形態素列49を言語尤度判定部37へ送り、この結
果複数形態素提示指令部48から送られてきた複数形態
素提示指令51に従い複数形態素列52をパラメータ生
成部36へ送り、更にパラメータ生成部36がその複数
形態素列52に基づき音響パラメータ42及び韻律パラ
メータ43を出力する処理(ステップ100〜132,
151,161)に関しては、実施の形態2と同じなの
で詳細な説明は省略する。
【0044】本実施の形態においては、更に次の処理が
行われる。すなわち、複数形態素提示指令部48は、言
語尤度判定部37から送られてきた曖昧形態素区間50
に基づき複数形態素提示指令51を複数形態素出力言語
解析部47へ伝えるが、この複数形態素提示指令51を
更に複数形態素アナウンス部53へ伝える。
【0045】複数形態素アナウンス部53は、複数形態
素列52に対応する音声合成部39による合成音声の提
示の直前に、形態素列における読みの曖昧な範囲(つま
り区間)と形態素の候補数を明示するためのアナウンス
指示54を音声合成部39へ送る(ステップ133)。
明示の例としては、予めガイダンス音声を用意し、数字
の部分のみを編集合成的に音声を変更する。そして、提
示直前に複数の音声出力が行われるテキスト上の文字数
と提示する数をアナウンスさせる。
【0046】音声合成部39では、上記実施の形態2と
同様に音響パラメータ42と韻律パラメータ43により
合成音声を生成すると共にアナウンス指示54に従いテ
キスト上の文字数等を提示するための音声を生成する。
そして、テキスト上の文字数等に続けて入力されたテキ
スト40に基づく合成音声をスピーカや受話器等により
出力する(ステップ172)。
【0047】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列が曖昧な場合には、対象となる複数の形態素列を音声
提示することができるようにしたが、この音声提示の際
に形態素列の範囲及び候補数を共に明示できるようにし
たので、正解の可能性の高い音声内容をユーザによりわ
かりやすく提示することができ、有効なテキスト読み上
げや音声による情報提供をすることができる。
【0048】なお、本実施の形態において、複数形態素
情報通知手段として設けた複数形態素アナウンス部53
は、曖昧性の高い形態素列の区間又は当該区間の形態素
の候補数の双方を音声提示することができるようにした
が、少なくともいずれか一方の情報のみを音声提示でき
るようにしてもよい。また、視覚的情報が与えられる環
境が整っていれば、音声でなくても文字情報として提供
することも可能である。
【0049】また、複数形態素提示指令手段は、複数形
態素区間の履歴を記憶し、その内容と重複する複数形態
素区間が現れた場合には、複数形態素アナウンス手段か
ら複数提示を省略するアナウンス指令を出すように指令
を送ることができる。
【0050】また、複数形態素情報通知手段として設け
た複数形態素アナウンス部53は、音声提示する複数形
態素の前後にガイド音声を挿入することもできる。ま
た、音声合成手段にアナウンス指示を送る代りに、ディ
スプレイ上に複数形態素列に関する情報を表示すること
もできる。
【0051】実施の形態4.図7は、本発明に係る音声
合成装置の実施の形態4を示したブロック構成図であ
る。本実施の形態における音声合成装置は、実施の形態
2と同様のパラメータ生成部36、言語尤度判定部3
7、音声合成部39、複数形態素出力言語解析部47及
び複数形態素提示指令部48に加えてパラメータ変更部
55を具備した構成を有している。パラメータ変更部5
5は、言語尤度判定部37による判定の結果、言語尤度
が閾値を下回った区間が判定対象となる形態素列に存在
した場合には、当該区間に対応する韻律パラメータ43
の変更をパラメータ生成部36の韻律生成部35へ指示
する。
【0052】本実施の形態において特徴的なことは、形
態素解析の結果、曖昧性の高い区間を含む複数の形態素
列を音声提示する際、各区間の韻律的特徴を変化させて
合成音声を生成するようにしたことである。これによ
り、正解の可能性の高い音声内容かつ読み誤りを含む形
態素をユーザによりわかりやすく提示することができる
ので、ユーザに負担をかけないテキスト読み上げや情報
提供をすることができる。
【0053】次に、本実施の形態における動作について
説明するが、基本的には、複数の形態素の候補を音声提
示させるという実施の形態2で示した処理に、曖昧性の
高い形態素列の区間の韻律的特徴を変化させるために実
施の形態1で示した韻律パラメータ43を変更させる処
理(ステップ140)を組み合わせたものである。従っ
て、本実施の形態の動作における、複数形態素出力言語
解析部47が形態素解析処理により得た最尤形態素列4
9を言語尤度判定部37へ送り、この結果複数形態素提
示指令部48から送られてきた複数形態素提示指令51
に従い複数形態素列52をパラメータ生成部36へ送る
処理に関しては、実施の形態2と同じとなる。この詳細
な説明は省略する。本実施の形態においては、これらの
処理に次の処理が加わる。すなわち、複数形態素提示指
令部48は、言語尤度判定部37から送られてきた曖昧
形態素区間50に基づき複数形態素提示指令51を複数
形態素出力言語解析部47へ伝えるが、この複数形態素
提示指令51を更にパラメータ変更部55にも伝える。
【0054】パラメータ変更部55は、複数形態素提示
指令51と共に通知される曖昧形態素区間に対応する韻
律パラメータ43の変更を行うパラメータ変更指令56
をパラメータ生成部36へ指示する。パラメータ生成部
36においては、実施の形態2と同様にして複数形態素
列52に基づき複数組の音響パラメータ42の抽出及び
韻律パラメータ43の決定を行い、音声合成部39へ出
力する。但し、本実施の形態における韻律生成部35で
は、パラメータ変更指令56に従い当該区間の2つの形
態素列について韻律パラメータ43の変更を行う。韻律
パラメータ43の変更の例としては、当該区間について
のモーラ速度を一律に低下させる方法があり、この方法
によると、曖昧形態素区間50については合成音声をゆ
っくりかつ明確に生成することができる。
【0055】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列が曖昧な場合でも、対象となる形態素列の上位2つま
でを音声提示することにより、正解の可能性の高い音声
内容を提示することができ、更に対象となる形態素列の
韻律パラメータを変化させることで、ユーザにより明確
に提示することができ、有効なテキスト読み上げや情報
提供をすることができる。なお、本実施の形態において
も実施の形態2と同様に3以上の候補で複数形態素列5
2を生成できることは、いうまでもない。
【0056】実施の形態5.図8は、本発明に係る音声
合成装置の実施の形態5を示したブロック構成図であ
る。基本的には、実施の形態1と同様の構成である。但
し、本実施の形態におけるパラメータ変更部57は、パ
ラメータ生成部36へ向けて出力するパラメータ変更指
令58に、韻律パラメータ43の変更を行う指示のみな
らず音響パラメータ42の変更を行う指示を含めたこと
を特徴としている。これにより、曖昧性の高い形態素列
の区間が他の区間と異なる音声となる音響パラメータ4
2を用いて合成音声を生成させることができる。
【0057】次に、本実施の形態における動作について
説明するが、基本的には上記実施の形態1と同様にな
る。但し、本実施の形態においては、これらの処理に次
の処理が加わる。すなわち、パラメータ変更部57は、
言語尤度判定部37から曖昧性が高い区間を曖昧形態素
区間45として通知されるが、本実施の形態において
は、この曖昧形態素区間45について韻律パラメータ4
3のみならず音響パラメータ42の変更を行うパラメー
タ変更指令58をパラメータ生成部36に出すことにな
る。
【0058】そして、パラメータ生成部36において、
音響処理部34は、言語解析部33から出力された形態
素列41に基づいて音響パラメータ42を抽出して出力
するが、パラメータ変更部57からパラメータ変更指令
58が通知された場合には、通常話者の音響辞書と別の
話者の音響辞書をそれぞれ検索し、曖昧性の高い形態素
列の区間に対しては別話者による音響パラメータ42の
生成を行う。例えば、通常は女声による音声合成を行う
場合に、曖昧な形態素区間については男声話者によって
音声合成を行う。あるいはその逆を行う。一方、韻律生
成部35は、実施の形態1と同様に動作し、パラメータ
変更指令58を受け取っている場合には、韻律パラメー
タ43の変更を行う。そして、音声合成部39は、パラ
メータ生成部36から送られてきた音響パラメータ42
と韻律パラメータ43により合成音声44を生成し、図
示しないスピーカや受話器等により出力する。
【0059】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列が曖昧な場合でも、対象となる形態素区間について別
の話者による合成音声を提示することで、その区間では
内容が曖昧なことを的確にユーザに伝えることができ、
よりユーザに負担をかけないテキスト読み上げや情報提
供をすることができる。
【0060】実施の形態6.図9は、本発明に係る音声
合成装置の実施の形態6を示したブロック構成図であ
る。本実施の形態における音声合成装置は、基本的には
実施の形態5と同様であるが、言語尤度判定手段を実施
の形態5の言語尤度判定部ではなく連鎖確率情報記憶部
59、連鎖確率抽出部60及び連鎖確率判定部61で構
成するようにした。連鎖確率情報記憶部59には、連続
する複数の形態素の連鎖及びその生起確率を組にした連
鎖確率情報が記憶されている。図10には、連鎖確率情
報記憶部59に記憶された連鎖確率テーブルの内容例が
示されている。連鎖確率テーブルは、形態素w1,w
2,・・・,wnのうち連続する形態素の組に対する生
起確率の形で記述する。連続する形態素の生起確率は、
学習テキストデータにおける形態素連鎖の出現頻度の、
先行する形態素の出現頻度に対する比、すなわちバイグ
ラムを事前に計算して連鎖確率として記憶する。連鎖確
率抽出部60は、連鎖確率情報記憶部59を参照し、入
力されたテキストを解析して得た形態素列の連鎖確率を
得る。連鎖確率判定部61は、連鎖確率抽出部60が得
た連鎖確率が曖昧性の判断指標となる所定の閾値を下回
るかどうかの判定を行う。
【0061】本実施の形態において特徴的なことは、以
上の構成としたことで上記連鎖確率を曖昧性の判断指標
として用いることができるようにしたことである。これ
により、言語解析結果として抽出された形態素列の連鎖
確率を尺度として長い区間での形態素の確定精度の向上
を図ることができる。
【0062】次に、本実施の形態における動作について
説明するが、基本的には実施の形態5と同様であるの
で、連鎖確率抽出部60及び連鎖確率判定部61の動作
についてのみ詳述する。
【0063】言語解析部33は、入力されたテキスト4
0に対して形態素解析処理を行い、最適な形態素列41
を得ると連鎖確率抽出部60及びパラメータ生成部36
へ送る。
【0064】連鎖確率抽出部60は、言語解析部33か
ら出力された形態素列41の中から連続した形態素の組
の全てを順番に取り出し、その組に対して連鎖確率情報
記憶部59の連鎖確率テーブル62を検索して生起確率
を引き出し、連鎖確率63として出力する。連鎖確率判
定部61は、連鎖確率63が曖昧性の判断指標となる所
定の閾値を越えない場合、この形態素列の区間は曖昧性
が高いと判定し、当該区間を曖昧連鎖区間64としてパ
ラメータ変更部57へ伝える。パラメータ変更部57
は、曖昧連鎖区間64について音響パラメータ42と韻
律パラメータ43の変更を行うパラメータ変更指令58
をパラメータ生成部36へ伝える。
【0065】その後、パラメータ生成部36は、通知さ
れたパラメータ変更指令58に従い変更を加えた音響パ
ラメータ42及び韻律パラメータ43を出力し、音声合
成部39は、各パラメータ42,43により合成音声4
4を生成し、図示しないスピーカや受話器等により出力
する。
【0066】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列の連鎖確率を尺度として長い区間すなわち複数の形態
素をまとめて一区間とした中での形態素の確定精度の向
上を図り、その上で形態素列が曖昧であればその区間で
の韻律的特徴等を変化させることで、場合によっては読
み誤りを含む可能性があることをユーザに的確に伝える
ことができ、ユーザに負担をかけないテキスト読み上げ
や情報提供をすることができる。
【0067】なお、本実施の形態では、2連続の形態素
の組の例のみを示したが、3連続以上の形態素の組を扱
うようにしてもよい。
【0068】実施の形態7.図11は、本発明に係る音
声合成装置の実施の形態7を示したブロック構成図であ
る。本実施の形態における音声合成装置は、基本的には
実施の形態5と同様であるが、言語尤度判定手段を実施
の形態5の言語尤度判定部ではなく共起関係記憶部6
5、連鎖確率情報記憶部59、共起関係抽出部66、重
み付き連鎖確率抽出部67及び重み付き連鎖判定部68
で構成するようにした。共起関係記憶部65には、形態
素列に意味素性情報が含まれている場合、意味素性間の
関連の強さの度合が共起関係として記憶されている。図
12には、共起関係記憶部65に記憶された形態素に記
述されている意味素性間の共起確率を記述した共起テー
ブルが示されている。共起確率は、2つの意味素性間の
隣接頻度を学習データから求め、先行形態素の意味素性
の出現頻度との比の形で決定される。連鎖確率情報記憶
部59には、実施の形態6と同じく連鎖確率テーブルが
記憶されている。共起関係抽出部66は、連続する形態
素間の共起関係を共起関係記憶部65を参照して決定す
る。重み付き連鎖確率抽出部67は、連鎖確率情報記憶
部59を検索して形態素列の連鎖確率と共起関係との積
を共起重み付き連鎖確率として抽出する。重み付き連鎖
判定部68は、重み付き連鎖確率抽出部67が抽出した
共起重み付き連鎖確率が曖昧性の判断指標となる所定の
閾値を下回るかどうかを判定する。
【0069】本実施の形態において特徴的なことは、連
鎖確率情報と共に共起関係を曖昧性の判定基準として用
いるようにしたことである。これにより、更に、形態素
の確定精度の向上を図ることができる。
【0070】次に、本実施の形態における動作について
説明するが、基本的には実施の形態5と同様であるの
で、共起関係抽出部66、重み付き連鎖確率抽出部67
及び重み付き連鎖判定部68の動作についてのみ詳述す
る。
【0071】言語解析部33は、入力されたテキスト4
0に対して形態素解析処理を行い、最適な形態素列41
を得ると共起関係抽出部66、重み付き連鎖確率抽出部
67及びパラメータ生成部36へ送る。
【0072】共起関係抽出部66は、共起関係記憶部6
5の共起テーブル69を検索して言語解析部33から出
力された形態素列41の中から連続した形態素候補に対
応する形態素間の共起関係70を求める。一方、重み付
き連鎖確率抽出部67は、形態素列41の中から連続し
た形態素の組の全てを順番に取り出し、その組に対して
連鎖確率情報記憶部59の連鎖確率テーブル62を検索
して生起確率を引き出し、連鎖確率を得る。そして、こ
の連鎖確率と共起関係70との積を求め、重み付き連鎖
確率71として抽出する。重み付き連鎖判定部68は、
重み付き連鎖確率71が曖昧性の判断指標となる所定の
閾値を越えない場合、この形態素列の区間は曖昧性が高
いと判定し、当該区間を曖昧重み付き連鎖確率区間72
としてパラメータ変更部57へ伝える。パラメータ変更
部57は、曖昧重み付き連鎖確率区間72について音響
パラメータ42と韻律パラメータ43の変更を行うパラ
メータ変更指令58をパラメータ生成部36へ伝える。
【0073】その後、パラメータ生成部36は、通知さ
れたパラメータ変更指令58に従い変更を加えた音響パ
ラメータ42及び韻律パラメータ43を出力し、音声合
成部39は、各パラメータ42,43により合成音声4
4を生成し、図示しないスピーカや受話器等により出力
する。
【0074】本実施の形態によれば、このような構成を
とることにより、言語解析結果として抽出された形態素
列について、形態素間の連鎖確率と共に共起関係を用い
た意味的な制約を加えて候補を絞り込み、その上で曖昧
な形態素列があればその区間での韻律的特徴等を変化さ
せることで、場合によっては読み誤りを含む可能性があ
ることを的確にユーザに伝えることにより、ユーザに負
担をかけないテキスト読み上げや情報提供をすることが
できる。
【0075】なお、本実施の形態における共起関係抽出
部66は、隣接形態素間の共起関係を抽出するだけでな
く、一文中の離れた形態素間の共起関係も抽出すること
ができる。
【0076】また、本実施の形態における共起関係記憶
部65には、意味素性間の共起関係を学習データにおけ
る、修飾被修飾関係にある形態素の出現頻度から計算し
て記憶させておくことができる。
【0077】また、本実施の形態における重み付き連鎖
確率抽出部67は、形態素間の共起関係と連鎖確率との
加重和を重み付き連鎖確率とすることができる。
【0078】以上のように、各実施の形態においては、
本発明の各目的を達成するために様々な構成例について
説明したが、可能であれば、各実施の形態の特徴的な構
成要素を適当に組み合わせて使用することも可能であ
る。更に、各実施の形態において共通の構成要素を以下
のように変更し応用することができる。
【0079】例えば、上記実施の形態におけるテキスト
は、日本語の漢字仮名混じり文に限らず、仮名のみから
なることや、あるいは英語文などの外国語文を含むこと
もできる。
【0080】また、実施の形態において言語解析部33
若しくは複数形態素出力言語解析部47として設けた言
語解析手段は、形態素解析処理のみならず、文法を適用
して文の統語的構造を抽出する統語解析処理や、意味的
構造を抽出する意味解析処理を含めることができる。
【0081】また、各実施の形態における言語解析手段
は、最長一致基準または形態素数最小基準と、言語尤度
の基準の組合せにより選ばれた形態素列を出力すること
ができる。
【0082】また、実施の形態1、4〜7におけるパラ
メータ変更手段は、所望の区間のモーラ速度を変化させ
る他に、あるいは代りに、区間内パワーを増加させて強
調させることができる。
【0083】また、実施の形態1、4〜7におけるパラ
メータ変更手段は、所望の区間のモーラ速度を変化させ
る他に、あるいは代りに、区間内ピッチを低下させて強
調させることができる。
【0084】また、実施の形態5〜7におけるパラメー
タ変更手段は、男声話者と女性話者の変更を行う代り
に、韻律パラメータの変更は行わず、音声素片データベ
ースの中で話者間の平均スペクトル距離が最大となる話
者の間で音声素片の切替えを行うことができる。
【0085】また、実施の形態2〜4の複数形態素提示
指令手段は、言語尤度についての一定の下限を上回る形
態素列をすべて提示させる指令を送ることができる。
【0086】また、実施の形態2〜4の複数形態素提示
指令手段は、複数形態素区間の履歴を記憶し、その内容
と重複する複数形態素区間が現れた場合には、複数形態
素提示指令を省略することができる。
【0087】また、実施の形態2〜4の複数形態素提示
指令手段は、キーボードやプッシュホンのボタンをユー
ザからの入力手段として備え、複数形態素提示指令を発
する際にユーザから音声提示すべき形態素数を指定する
ことができる。
【0088】また、実施の形態5〜7において、言語解
析部33の代りに実施の形態2〜4の複数形態素出力言
語解析部47を用いることもでき、また、言語尤度判定
手段の出力側、すなわち実施の形態5の言語尤度判定部
37の出力側、実施の形態6の連鎖確率判定部61の出
力側、あるいは実施の形態7の重み付き連鎖判定部68
の出力側にそれぞれ複数形態素提示指令手段を備えるこ
ともできる。
【0089】また、実施の形態6〜7における連鎖確率
情報記憶手段は,連鎖確率を学習テキストデータにおけ
る3つ組の形態素連鎖の出現頻度の、先行する2つ組の
形態素連鎖の出現頻度に対する比、すなわちトライグラ
ムを事前に計算して記憶することができ,実施の形態6
の連鎖確率抽出部60又は実施の形態7の重み付き連鎖
確率抽出部67は、言語解析手段に含まれている形態素
解析部から出力された3つ組の形態素列により連鎖確率
を検索することができる。
【0090】また、実施の形態6〜7における連鎖確率
情報記憶手段は、学習テキストデータから抽出したユニ
グラム、バイグラム、トライグラム、または4つ以上の
形態素の連鎖確率のテーブルをそれぞれ記憶し、実施の
形態6の連鎖確率抽出部60又は実施の形態7の重み付
き連鎖確率抽出部67は、1つ以上の有限個の連続する
形態素連鎖を入力して連鎖確率を検索することができ、
実施の形態6の連鎖確率判定部61又は実施の形態7の
重み付き連鎖確率判定部68は、連鎖確率に形態素連鎖
の長さに応じた重み係数を乗じて判定に用いることがで
きる。特に、実施の形態6における連鎖確率抽出部60
は、各形態素列の生起確率の積を求めて文全体の連鎖確
率を計算し、それを基に連鎖確率判定部61で判定に用
いることもできる。
【0091】
【発明の効果】本発明によれば、形態素解析の結果が曖
昧な場合でも、対象となる形態素区間の音声を他の区間
の音声と判別可能に生成することにより、その区間では
読みが曖昧であって、場合によっては読み誤りを含む可
能性があることをユーザに的確に伝えることができ、よ
りユーザに負担をかけないテキスト読み上げや情報提供
をすることができる。
【0092】また、形態素解析の結果が曖昧な場合で
も、対象となる形態素の上位候補を音声提示することに
より、その区間では内容が曖昧であっても正解の可能性
の高い音声内容を提示することができ、ユーザに負担を
かけないテキスト読み上げや情報提供をすることができ
る。
【0093】また、形態素解析の結果が曖昧な場合でも
対象となる形態素の上位候補を、その区間の範囲及び候
補数と共に明示できるようにしたので、正解の可能性の
高い音声内容をユーザによりわかりやすく提示すること
ができ、有効なテキスト読み上げや音声による情報提供
をすることができる。
【0094】また、形態素解析の結果が曖昧な場合でも
対象となる形態素の上位候補を、その曖昧性の高い区間
の音声を他の区間の音声と判別可能に生成することによ
り、ユーザに正解の可能性の高い情報を明確に提示する
ことができ、有効なテキスト読み上げや情報提供をする
ことができる。
【0095】また、曖昧性の高い区間の韻律的特徴を変
化させることにより、その区間では場合によって読み誤
りを含む可能性があることをユーザに的確に伝えること
ができる。
【0096】また、曖昧性の高い区間については別の音
声による合成音声、例えば通常の音声と異性の音声で提
示することで、その区間では場合によって読み誤りを含
む可能性があることをユーザに的確に伝えることができ
る。
【0097】また、形態素列の連鎖確率を尺度として長
い区間での形態素の確定精度の向上を図り、その上で形
態素解析の結果が曖昧な場合でも、その区間では読みが
曖昧であることを明確に提示することができ、ユーザに
負担をかけないテキスト読み上げや情報提供をすること
ができる。
【0098】また、形態素列間の連鎖確率とともに共起
関係を判定基準に用いて形態素の確定精度の向上を図
り、その上で形態素解析の結果が曖昧な場合でも、その
区間では読みが曖昧であることを明確に提示することが
でき、ユーザに負担をかけないテキスト読み上げや情報
提供をすることができる。
【図面の簡単な説明】
【図1】 本発明に係る音声合成装置の実施の形態1を
示したブロック構成図である。
【図2】 実施の形態1における動作を示したフローチ
ャートである。
【図3】 本発明に係る音声合成装置の実施の形態2を
示したブロック構成図である。
【図4】 実施の形態2における動作を示したフローチ
ャートである。
【図5】 本発明に係る音声合成装置の実施の形態3を
示したブロック構成図である。
【図6】 実施の形態3における動作を示したフローチ
ャートである。
【図7】 本発明に係る音声合成装置の実施の形態4を
示したブロック構成図である。
【図8】 本発明に係る音声合成装置の実施の形態5を
示したブロック構成図である。
【図9】 本発明に係る音声合成装置の実施の形態6を
示したブロック構成図である。
【図10】 実施の形態6における連鎖確率情報記憶部
に記憶された連鎖確率テーブルの内容例を示した図であ
る。
【図11】 本発明に係る音声合成装置の実施の形態7
を示したブロック構成図である。
【図12】 実施の形態7における共起関係記憶部に記
憶された共起テーブルの内容例を示した図である。
【図13】 従来の音声合成装置のブロック構成図であ
る。
【図14】 従来の音声合成装置のブロック構成図であ
る。
【符号の説明】
31 辞書、32 形態素解析部、33 言語解析部、
34 音響処理部、35 韻律生成部、36 パラメー
タ生成部、37 言語尤度判定部、38,55,57
パラメータ変更部、39 音声合成部、47 複数形態
素出力言語解析部、48 複数形態素提示指令部、53
複数形態素アナウンス部、59 連鎖確率情報記憶
部、60 連鎖確率抽出部、61 連鎖確率判定部、6
5 共起関係記憶部、66 共起関係抽出部、67 重
み付き連鎖確率抽出部、68 重み付き連鎖判定部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストを解析して言語尤度
    を含む形態素列を得る言語解析手段と、 前記言語解析手段が得た形態素列の読み、アクセント型
    等の付加情報に基づいて音響パラメータ及びピッチや時
    間長、ポーズ等の韻律パラメータを決定するパラメータ
    生成手段と、 前記パラメータ生成手段が決定したパラメータに基づき
    合成音声を生成する音声合成手段と、 前記言語解析手段が得た形態素列の言語尤度が曖昧性の
    判断指標となる所定の閾値を下回るかどうかの判定を行
    う言語尤度判定手段と、 前記言語尤度判定手段による判定の結果、言語尤度が閾
    値を下回った区間が判定対象となる形態素列に存在した
    場合には、当該区間に対応する前記パラメータの変更を
    前記パラメータ生成手段へ指示するパラメータ変更手段
    と、 を有し、形態素解析の結果、曖昧性の高い形態素列の区
    間の音声を他の区間の音声と判別可能に生成することを
    特徴とする音声合成装置。
  2. 【請求項2】 入力されたテキストを解析して言語尤度
    を含む形態素列を得る言語解析手段と、 前記言語解析手段が得た形態素列の読み、アクセント型
    等の付加情報に基づいて音響パラメータ及びピッチや時
    間長、ポーズ等の韻律パラメータを決定するパラメータ
    生成手段と、 前記パラメータ生成手段が決定したパラメータに基づき
    合成音声を生成する音声合成手段と、 前記言語解析手段が得た形態素列の言語尤度が曖昧性の
    判断指標となる所定の閾値を下回るかどうかの判定を行
    う言語尤度判定手段と、 前記言語尤度判定手段による判定の結果、言語尤度が閾
    値を下回った区間が判定対象となった形態素列に存在し
    た場合には、当該区間について複数の形態素を得るよう
    前記言語解析手段へ指示する複数形態素提示指令手段
    と、 を有し、曖昧性の高い形態素列の区間においては複数の
    読み候補の合成音声を生成することを特徴とする音声合
    成装置。
  3. 【請求項3】 前記複数形態素提示指令手段が複数の形
    態素を得るよう指示した場合には、曖昧性の高い形態素
    列の区間又は当該区間の形態素の候補数の少なくともい
    ずれか一方の情報の合成音声を生成するよう前記音声合
    成手段へ指示する複数形態素情報通知手段を有すること
    を特徴とする請求項2記載の音声合成装置。
  4. 【請求項4】 前記言語尤度判定手段による判定の結
    果、言語尤度が閾値を下回った区間が判定対象となる形
    態素列に存在した場合には、当該区間に対応する韻律パ
    ラメータの変更を前記パラメータ生成手段へ指示するパ
    ラメータ変更手段を有することを特徴とする請求項2記
    載の音声合成装置。
  5. 【請求項5】 前記パラメータ変更手段は、韻律パラメ
    ータの変更を前記パラメータ生成手段へ指示することに
    よって、曖昧性の高い形態素列の区間の韻律的特徴を変
    化させた合成音声を生成させることを特徴とする請求項
    1又は4いずれかに記載の音声合成装置。
  6. 【請求項6】 前記パラメータ変更手段は、音響パラメ
    ータの変更を前記パラメータ生成手段へ指示することに
    よって、曖昧性の高い形態素列の区間が他の区間と異な
    る音声となる音響パラメータを用いて合成音声を生成さ
    せることを特徴とする請求項1又は4いずれかに記載の
    音声合成装置。
  7. 【請求項7】 前記言語尤度判定手段は、 連続する複数の形態素の連鎖及びその生起確率を組にし
    た連鎖確率情報を記憶する連鎖確率情報記憶部と、 前記連鎖確率情報記憶部を参照し、入力されたテキスト
    を解析して得た形態素列の連鎖確率を得る連鎖確率抽出
    部と、 前記連鎖確率抽出部が得た連鎖確率が曖昧性の判断指標
    となる所定の閾値を下回るかどうかの判定を行う連鎖確
    率判定部と、 を有し、連鎖確率情報を参照することによって複数の形
    態素をまとめて一区間として取扱い可能としたことを特
    徴とする請求項1乃至6いずれかに記載の音声合成装
    置。
  8. 【請求項8】 前記言語尤度判定手段は、 前記形態素列に意味素性情報が含まれている場合、意味
    素性間の関連の強さの度合を共起関係として記憶する共
    起関係記憶部と、 連続する複数の形態素の連鎖及びその生起確率を組にし
    た連鎖確率情報を記憶する連鎖確率情報記憶部と、 連続する形態素間の共起関係を前記共起関係記憶手段を
    参照して決定する共起関係抽出部と、 前記連鎖確率情報記憶部を検索して前記形態素列の連鎖
    確率と共起関係との積を共起重み付き連鎖確率として抽
    出する重み付き連鎖確率抽出部と、 前記重み付き連鎖確率抽出部が抽出した共起重み付き連
    鎖確率が曖昧性の判断指標となる所定の閾値を下回るか
    どうかを判定する重み付き連鎖判定部と、 を有し、連鎖確率情報と共に共起関係を曖昧性の判定基
    準として用いることを特徴とする請求項1乃至6いずれ
    かに記載の音声合成装置。
JP13937198A 1998-05-21 1998-05-21 音声合成装置 Expired - Fee Related JP3366253B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13937198A JP3366253B2 (ja) 1998-05-21 1998-05-21 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13937198A JP3366253B2 (ja) 1998-05-21 1998-05-21 音声合成装置

Publications (2)

Publication Number Publication Date
JPH11338498A true JPH11338498A (ja) 1999-12-10
JP3366253B2 JP3366253B2 (ja) 2003-01-14

Family

ID=15243778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13937198A Expired - Fee Related JP3366253B2 (ja) 1998-05-21 1998-05-21 音声合成装置

Country Status (1)

Country Link
JP (1) JP3366253B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132052A (ja) * 2001-10-19 2003-05-09 Nippon Hoso Kyokai <Nhk> 読みがな付与装置およびプログラム
JP2005208421A (ja) * 2004-01-23 2005-08-04 Aisin Aw Co Ltd 文章読み上げシステム及び方法
JP2007527555A (ja) * 2004-03-05 2007-09-27 レサック テクノロジーズ、インコーポレーテッド 韻律音声テキストコード及びコンピュータ化された音声システムへのその使用
JP2009223373A (ja) * 2008-03-13 2009-10-01 Nippon Hoso Kyokai <Nhk> 曖昧性評価装置およびプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132052A (ja) * 2001-10-19 2003-05-09 Nippon Hoso Kyokai <Nhk> 読みがな付与装置およびプログラム
JP2005208421A (ja) * 2004-01-23 2005-08-04 Aisin Aw Co Ltd 文章読み上げシステム及び方法
JP4539097B2 (ja) * 2004-01-23 2010-09-08 アイシン・エィ・ダブリュ株式会社 文章読み上げシステム及び方法
JP2007527555A (ja) * 2004-03-05 2007-09-27 レサック テクノロジーズ、インコーポレーテッド 韻律音声テキストコード及びコンピュータ化された音声システムへのその使用
US7877259B2 (en) 2004-03-05 2011-01-25 Lessac Technologies, Inc. Prosodic speech text codes and their use in computerized speech systems
JP2009223373A (ja) * 2008-03-13 2009-10-01 Nippon Hoso Kyokai <Nhk> 曖昧性評価装置およびプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム

Also Published As

Publication number Publication date
JP3366253B2 (ja) 2003-01-14

Similar Documents

Publication Publication Date Title
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US6490563B2 (en) Proofreading with text to speech feedback
US5949961A (en) Word syllabification in speech synthesis system
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
US6999918B2 (en) Method and apparatus to facilitate correlating symbols to sounds
JPH0916602A (ja) 翻訳装置および翻訳方法
WO2005034082A1 (en) Method for synthesizing speech
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP3366253B2 (ja) 音声合成装置
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
JPH07262191A (ja) 単語分割方法、および音声合成装置
JP2001229162A (ja) 中国語文書自動校正方法及び装置
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP2003005776A (ja) 音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JPH0229797A (ja) テキスト音声変換装置
JP2005534968A (ja) 漢字語の読みの決定
JPH05298364A (ja) 発音記号生成方式
JPH04350699A (ja) テキスト音声合成装置
KR0136423B1 (ko) 발음 제어 기호의 유효성 판정을 이용한 음운 변동 처리 방법
JP2003308084A (ja) 音声合成方法および音声合成装置
GB2292235A (en) Word syllabification.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071101

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081101

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081101

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091101

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091101

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101101

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees