JP4114888B2

JP4114888B2 - 声質変化箇所特定装置

Info

Publication number: JP4114888B2
Application number: JP2007525910A
Authority: JP
Inventors: 勝義山上; 弓子加藤; 信夫足立
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-07-20
Filing date: 2006-06-05
Publication date: 2008-07-09
Anticipated expiration: 2026-06-05
Also published as: US20090259475A1; CN101223571A; CN101223571B; JPWO2007010680A1; US7809572B2; WO2007010680A1

Description

本発明は、読み上げ用のテキストのうち、声質変化を起こす可能性のある箇所を特定する声質変化箇所特定装置等に関する。

従来提案されているテキスト編集装置、あるいは、テキスト編集方法として、テキストに含まれる表現（内容）に対して、読み手が受け取るであろう印象を評価し、書き手が所望する印象に沿わない部分を、書き手の所望する印象に合致する表現に書き換えるもの（例えば、特許文献１参照。）が知られている。

また、テキスト編集機能を有するテキスト読み上げ装置、あるいは、テキスト読み上げ方法として、読み上げ対象のテキストの読みの発音列の組み合わせに注目し、聞き取りにくい発音の組み合わせとなるテキスト中の表現箇所を、聞き取りやすい表現へ書き換えて読み上げるもの（例えば、特許文献２参照。）がある。

同じく、読み上げ音声の評価を行う方法として、「紛らわしさ」という観点で、音声の発音の組み合わせを評価する方法であって、連続して読み上げられる２つの文字列の仮名読み文字列としての類似度を評価し、ある条件を満たす場合に、２つの文字列を連続して読み上げると、発音が類似しているため紛らわしいとするもの（例えば、特許文献３参照。）がある。

ところで、テキストを読み上げた時の音声に対して評価した結果に基づいて、テキストを編集するという観点では、「聞きやすさ」や「紛らわしさ」とは異なる次のような課題も存在する。

人間がテキストを読み上げる際、読み手が意図しない発声器官の緊張や弛緩の結果、読み上げ音声の音質が部分的に変化することがある。発声器官の緊張や弛緩による音声の音質変化は、それぞれ、読み手の音声の「力み」や「緩み」として聞き手に知覚される。一方、音声における「力み」や「緩み」などの声質変化は、感情や表情を伴った音声において特徴的に観測される現象であり、それらの部分的な声質変化が、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば、非特許文献１参照。）。従って、あるテキストを読み手が読み上げた時に、聞き手は、読み上げているテキストの表現様式（文体・言葉遣い）や内容からとは別に、その読み上げ音声の中に現れる「力み」や「緩み」などの部分的な声質の変化そのものから、音声に対する印象、感情、表情などを受け取ることがある。これら聞き手が受け取る印象が、読み手の意図しないものである場合、あるいは、聞き手が受け取るよう意図した印象と異なる場合には問題となる。例えば、講演用の原稿のテキストを読み上げる場合、読み手が原稿を読み上げている途中で、読み手は冷静かつ落ち着いて読み上げているにも関わらず、読み手の意図とは関係なく声が裏返るという声質の変化が発生すると、聞き手は読み手が心理的に緊張状態にあり落ち着きを失っているという印象をもつ可能性がある。
特開２０００−２５０９０７号公報（第１１ページ、図１）特開２０００−１７２２８９号公報（第９ページ、図１）特許第３５８７９７６号公報（第１０ページ、図５）粕谷英樹・楊長盛、"音源から見た声質"、日本音響学会誌51巻11号(1995)，ｐｐ８６９−８７５

しかしながら、従来提案されている装置、あるいは、方法では、テキストを読み上げた時の音声のどの部分で前記声質変化が発生しやすいかの予測、あるいは、前記声質変化が発生するか否かの特定ができないという課題を有している。従って、前記聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができないという課題も有している。さらに、読み手が意図しない印象を与えうる前記声質の部分的変化を発生させやすいテキスト中の箇所を指摘し、かつ、同様の内容を表す他の表現を提示する、あるいは、他の表現に書き換えることができないという課題を有している。

本発明は、上述の課題を解決するためになされたものであり、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定を行なうことができる声質変化箇所特定装置等を提供することを目的とする。

また、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる声質変化箇所特定装置等を提供することも目的とする。

さらに、読み手が意図しない印象を与えうる前記声質の部分的変化を発生させやすいテキスト中の箇所を指摘し、かつ、同様の内容を表す他の表現を提示する、あるいは、他の表現に書き換えることができる声質変化箇所特定装置等を提供することも目的とする。

本発明のある局面に係る声質変化箇所特定装置は、テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報に基づいて、少なくとも１つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定する声質変化推定手段と、前記言語解析情報と前記声質変化推定手段による推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定する声質変化箇所特定手段とを備える。

この構成によると、テキスト中の声質変化が起こりやすい箇所が特定される。したがって、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定が可能な声質変化箇所特定装置を提供することができる。

好ましくは、前記声質変化推定手段は、同一ユーザの複数の少なくとも３種類以上の発話様態の各々のについて複数の音声についての分析および統計的学習をすることにより得られる、声質変化の種類ごとに設けられる複数の推定モデルを用いて、各声質変化の種類について、前記言語解析情報の前記所定の単位ごとに前記各発話様態に基づく声質変化の起こりやすさを推定する。

本構成によると、例えば、「力み」、「かすれ」、「感情なし」という３種類の発話様態で発話された音声の分析等を行なうことにより、「力み」および「かすれ」の推定モデルが得られ、２つの推定モデルから、どのような種類の声質変化がどのような箇所で起こるかを特定することができる。また、声質変化が発生した箇所での代替表現への置換も可能となる。

さらに好ましくは、前記声質変化推定手段は、複数ユーザにおける複数の音声について分析および統計的学習をすることによりそれぞれ得られる複数の声質変化の推定モデルを用いて、ユーザに対応した推定モデルを選択し、前記言語解析情報の前記所定の単位ごとに声質変化の起こりやすさを推定する。

このように、利用者ごとに声質変化の推定モデルを持つことにより、声質変化が起こりやすい箇所の特定をより正確に行なうことができる。

さらに好ましくは、上述の声質変化箇所特定装置は、さらに、言語表現の代替表現を記憶する代替表現記憶手段と、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所の代替表現を前記代替表現記憶手段より検索し、当該箇所を検索された代替表現で置換する声質変化箇所置換手段とを備える。

この構成によると、テキスト中の声質変化が起こりやすい箇所が特定され、その箇所が代替表現に変換される。したがって、予め声質変化が起こりにくい代替表現を用意しておくことにより、ユーザが、代替表現に変換されたテキストを読み上げた際に声質変化を起こしにくくなる。

さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記声質変化箇所置換手段において代替表現に置換されたテキストを読み上げた音声を生成する音声合成手段を備える。

この構成によると、音声合成手段が合成する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り（クセ）を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げることができるような音声を生成することができる。

好ましくは、上述の声質変化箇所特定装置は、さらに、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所をユーザに提示する声質変化箇所提示手段を備える。

この構成によると、声質変化の起こりやすい部分が提示されるため、ユーザは、提示された情報に基づいて、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる。

さらに好ましくは、上述の声質変化箇所特定装置は、さらに、ユーザのテキストの読み上げ速度を示す話速情報に基づいて、前記テキストの所定位置における前記テキストの先頭からの読み上げの経過時間を計測する経過時間算出手段を備え、前記声質変化推定手段は、さらに、前記経過時間を考慮することにより、前記所定の単位ごとに声質変化の起こりやすさを推定する。

この構成によると、テキストの読み上げにおいて、読み手の発声器官への読み上げの時間的経過による影響、すなわちのどの疲労等を考慮して、声質変化の起こりやすさを評価し、発生箇所の予測を行うことができる。このため、声質変化が起こりやすい箇所の特定をより正確に行なうことができる。

さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記テキストの全部または一部に対する、前記声質変化箇所特定手段において特定された声質変化の起こりやすい前記テキストの箇所の割合を判断する声質変化割合判断手段を備える。

この構成によると、ユーザは、テキストの全部または一部に対して、どの程度の割合で声質変化が起こる可能性があるかを知ることができる。このため、ユーザは、テキスト読み上げ時の、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる。

さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記テキストをユーザが読み上げた音声を認識する音声認識手段と、前記音声認識手段の音声認識結果に基づいて、利用者の音声の各音韻単位を含む所定の単位ごとに、声質変化の度合いを分析する音声分析手段と、前記声質変化箇所特定手段で特定された声質変化の起こりやすい前記テキスト中の箇所と前記音声分析手段での分析結果とに基づいて、声質変化の起こりやすい前記テキスト中の箇所とユーザの音声中で声質変化が起こった箇所との比較を行うテキスト評価手段とを備える。

この構成によると、読み上げの対象のテキストから予測される声質変化の箇所と、実際にユーザがテキストを読み上げた音声中で声質変化が発生した箇所とを比較することができる。このため、利用者が繰り返し読み上げの練習を重ねることで、声質変化が予測される箇所で声質変化が起こらないようにしようとするときの習熟の度合いを確認することができる。あるいは、利用者が繰り返し読み上げの練習を重ねることで、利用者が意図する印象を聞き手に与えうる声質変化の発生が予測される箇所に関して、利用者の実際の読み上げ音声中の同じ箇所で声質変化が起こるようにしようとするときの習熟の度合いを確認することができる。

さらに好ましくは、前記声質変化推定手段は、音韻ごとに声質変化の起こりやすさの程度を、数値によって表した音韻別声質変化テーブルを参照して、前記言語解析情報の前記所定の単位ごとに、当該所定の単位に含まれる音韻ごとに割り当てられた数値に基づいて、声質変化の起こりやすさを推定する。

この構成によると、推定モデルを用いずとも、予め用意した音韻別声質変化テーブルを使用しても、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定が可能な声質変化箇所特定装置を提供することができる。

なお、本発明は、このような特徴的な手段を備える声質変化部分提示装置として実現することができるだけでなく、声質変化部分提示装置に含まれる特徴的な手段をステップとする声質変化部分提示方法として実現したり、声質変化部分提示装置に含まれる特徴的な手段としてコンピュータを機能させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明によると、従来解決ができなかった、テキストの読み上げ音声に発生しうる部分的な声質変化の箇所および種類の予測および特定という課題を解決し、ユーザである読み手が、テキストの読み上げ音声に発生しうる声質変化の箇所および種類を把握し、読み上げに際して聞き手に与えると予想される読み上げ音声の印象を予測することを可能にし、さらに、実際に読み上げる際に留意すべき箇所を意識して読み上げることができるという効果を有する。

また、所望しない印象を与える声質変化が起こりうるテキスト中の箇所に関わる言語表現に対しては、同様の内容を表す代替表現の提示あるいは同様の内容を表す代替表現への自動変換が可能であるという効果も同時に有する。

さらに、ユーザである読み手が、自分の読み上げ音声中の声質変化箇所の確認、および、当該声質変化箇所とテキストから予測される声質変化の箇所との比較を行えるので、読み手が所望しない声質変化が起こらないように読み上げようと意図する場合、あるいは、適切な箇所での所望の声質変化を伴うように読み上げようと意図する場合に、読み上げの練習を重ねることで、声質変化の使い分けの習熟度をわかりやすく把握することができるという効果を有する。

さらにまた、入力テキストから声質変化が起こりやすい箇所を特定し、その箇所に関わる言語表現を代替表現に置き換えて読み上げることが可能なので、特に、声質変化箇所特定装置が生成する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り（クセ）を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げが可能になるという効果を有する。また、音韻レベルでの声質の変化は、音韻性を損なうことから明瞭度が低下する傾向がある。よって、読み上げ音声の明瞭度を優先させたい場合、声質変化が起こりやすい音韻を含む言語表現をなるべく避けることで、声質変化による明瞭度低下の問題を緩和することが可能であるという効果を有する。

以下、本発明の実施の形態について図面を参照しながら説明する。

（実施の形態１）
本発明の実施の形態１では、テキストに基づいて、声質の変化を推定し、声質が変化する部分の代替表現の候補を利用者に提示するテキスト編集装置について説明する。

図１は、本発明の実施の形態１におけるテキスト編集装置の機能ブロック図である。
図１において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３と、声質変化推定モデル１０４と、声質変化部分判定部１０５と、代替表現検索部１０６と、代替表現データベース１０７と、表示部１０８とを備えている。

テキスト入力部１０１は、処理対象のテキストを入力するための処理部である。言語解析部１０２は、テキスト入力部１０１から入力されたテキストに対して、言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報および構文情報を含む言語解析結果を出力する処理部である。声質変化推定部１０３は、あらかじめ統計的学習によって得た声質変化推定モデル１０４を用いて、前記言語解析結果のアクセント句単位ごとに、声質変化の起こりやすさを推定する処理部である。声質変化推定モデル１０４は、言語解析結果に含まれる各種の情報の一部を入力変数とし、言語処理結果に現れる各音韻の箇所について声質変化の起こりやすさの推定値を目的変数とする推定式と、その推定式に対応づけられた閾値との組み合わせからなるものである。

声質変化部分判定部１０５は、声質変化推定部１０３が推定した声質変化の推定値と、対応づけられた閾値とに基づいて、アクセント句単位ごとに声質変化の可能性がある箇所かどうかの判定を行う処理部である。代替表現検索部１０６は、代替表現データベース１０７に格納された代替表現セットから、声質変化部分判定部１０５により声質変化の可能性があると判定されたテキスト中の箇所に関わる言語表現の代替表現を検索し、見つかった代替表現のセットを出力する処理部である。表示部１０８は、入力されたテキスト全体の表示、および、声質変化部分判定部１０５が声質変化の可能性があると判定したテキスト中箇所のハイライト表示、および、代替表現検索部１０６が出力する代替表現のセットの表示を行う表示装置である。

このようなテキスト編集装置は、例えば、図２に示すようなコンピュータシステム上に構築されるものである。図２は、本発明の実施の形態１におけるテキスト編集装置を構築したコンピュータシステムの例を示す図である。

このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置(マウス)２０４とを含むシステムである。図１の声質変化推定モデル１０４、および、代替表現データベース１０７は、本体部２０１にセットされるＣＤ―ＲＯＭ２０７内，本体部２０１が内蔵するハードディスク（メモリ）２０６内，あるいは回線２０８で接続された他のシステムのハードディスク２０５内に格納される。なお、図１のテキスト編集装置における表示部１０８は、図２のシステムにおけるディスプレイ２０３に該当し、図１のテキスト入力部１０１は、図２のシステムにおけるディスプレイ２０３、キーボード２０２、および、入力装置２０４に該当する。

実施の形態１の構成によるテキスト編集装置の動作を説明する前に、声質変化推定部１０３が声質変化推定モデル１０４に基づいて、声質変化の起こりやすさを推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば、非特許文献１参照。）。本願では、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」のような感情の種類などがあげられる。

本願発明に先立って同一テキストに基づいて発話された５０文について表情を伴わない音声と感情を伴う音声の調査を行った。図３Ａは話者１について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化（あるいは、「力んだ」声質変化に含まれる「ざらざら声（harsh voice）」の声質変化）で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図３Ｂは話者２について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図３Ｃおよび図３Ｄはそれぞれ図３Ａおよび図３Ｂと同じ話者について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。これら声質変化の発生頻度は子音の種類によって偏りがあり、例えば「ｔ」「ｋ」「ｄ」「ｍ」「ｎ」あるいは子音無しの場合には発生頻度が高く、「ｐ」「ｃｈ」「ｔｓ」「ｆ」などでは発生頻度が低い。図３Ａおよび図３Ｂに示された２名の話者についてのグラフを比較すると、上記の子音の種類による声質変化の発生頻度の偏りの傾向は同じであることがわかる。話者に共通する偏りがあることは、人間が読み上げようとするテキストの読みの音韻列に対して、声質変化が発声しうる箇所は音韻の種類等の情報から推定できる可能性を示している。

図４は図３Ａ〜図３Ｄと同一のデータから統計的学習手法の１つである数量化ＩＩ類を用いて作成した推定式により、例１「じゅっぷんほどかかります。」と例２「あたたまりました」について「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されるモーラを推定した結果を示したものである。自然発話音声において声質変化を伴って発声されたモーラ、および、推定式により声質変化の発声が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。図４は結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類あるいは音韻のカテゴリといった音韻の種類を示す情報とアクセント句内のモーラ位置の情報を独立変数とし、「力んだ」声質、あるいは、「ざらざら声（harsh voice）」の声質が発生したか否かの２値を従属変数として、数量化ＩＩ類により推定式を作成し、学習用データの声質変化の発生箇所に対する正解率が約７５％になるように閾値を決定した場合の推定結果であり、声質変化の発声箇所は音韻の種類やアクセントにかかわる情報から高精度に推定可能であることを示している。

次に先に述べたように構成されたテキスト編集装置の動作を図５に従って説明する。図５は、本発明の実施の形態１におけるテキスト編集装置の動作を示すフローチャートである。

最初に、言語解析部１０２は、テキスト入力部１０１から受け取った入力テキストに対して、形態素解析、構文解析、読み生成、アクセント句処理という一連の言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する（Ｓ１０１）。

次に、声質変化推定部１０３は、アクセント句単位で、声質変化推定モデル１０４のもつ音韻ごとの声質変化の推定式の説明変数として前記言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する（Ｓ１０２）。本実施の形態では、「力み」の声質変化について判定するものとする。推定式は、声質変化を判定しようとする音韻ごとに、「力み」の声質変化が発生するか否かの２値を従属変数とし、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化ＩＩ類により作成したものである。「力み」の声質変化が発生するか否かの判定閾値は、学習用データの特殊音声の発生位置に対する正解率が約７５％になるように前記推定式の値に対して設定されているものとする。

図６は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。ここでは、声質変化として「力み」を選択した場合について説明する。

まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される（Ｓ２）。また、上述の各モーラについて、推定式の従属変数として、「力み」の声質変化が発生しているか否かを２値で表した変数が設定される（Ｓ４）。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化ＩＩ類に従い、算出される（Ｓ６）。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、「力み」の声質変化の発生のし易さである「力み易さ」が算出される（Ｓ８）。

図７は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフであり、「力み易さ」は、「−５」から「５」までの数値で示されており、数値が小さいほど、発声した際に力みやすいと推定される。ハッチングを施した棒グラフは、実際に発声した際に「力み」の声質変化が生じたモーラにおける頻度を示しており、ハッチングを施していない棒グラフは、実際に発声した際に「力み」の声質変化が生じなかったモーラにおける頻度を示している。

このグラフにおいて、実際に「力み」の声質変化が発生したモーラ群と「力み」の声質変化が発生しなかったモーラ群との「力み易さ」の値が比較され、「力み」の声質変化が発生したモーラ群と「力み」の声質変化が発生しなかったモーラ群との両群の正解率が共に７５％を超えるように、「力み易さ」から、「力み」の声質変化が発生すると判断するための閾値が設定される（Ｓ１０）。

以上のようにして、「怒り」に特徴的に現れる「力み」の音色に対応する推定式と判定閾値とが求められる。

なお、「喜び」や「悲しみ」といった他の感情に対応する特殊音声についても、特殊音声ごとに同様に推定式と閾値とが設定されているものとする。

次に、声質変化部分判定部１０５は、声質変化推定部１０３が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、声質変化推定部１０３が用いた推定式に対応付けられた声質変化推定モデル１０４の閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する（Ｓ１０３）。

引き続き、声質変化部分判定部１０５は、ステップＳ１０３で声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を、声質変化の可能性の高いテキスト中の表現箇所として特定する（Ｓ１０４）。

次に、代替表現検索部１０６は、ステップ１０４で特定された表現箇所に対して、代替表現データベース１０７から代替表現となりうる代替表現セットを検索する（Ｓ１０５）。

図８は、代替表現データベースに格納される代替表現のセットの例を示したものである。図８に示すセット３０１〜３０３は、それぞれ互いに代替表現として同様の意味をもつ言語表現文字列のセットである。代替表現検索部１０６は、ステップ１０４で特定された表現箇所の代替表現文字列を検索キーとして、各代替表現のセットに含まれる代替表現の文字列との文字列照合を行い、ヒットする文字列が含まれる代替表現セットを出力する。

次に、表示部１０８は、ステップＳ１０４で特定されたテキスト中の声質変化が起こりやすい箇所をハイライト表示して利用者に提示すると同時に、ステップＳ１０５で検索された代替表現のセットを利用者に提示する（Ｓ１０６）。

図９は、表示部１０８がステップＳ１０６において、図２のディスプレイ２０３に表示する画面内容の例を示す図である。表示エリア４０１は、入力テキスト、および、ステップＳ１０４で表示部１０８が声質変化の起こりやすい箇所の提示としてハイライト表示した箇所４０１１および４０１２を表示するエリアである。表示エリア４０２はステップＳ１０５で代替表現検索部１０６により検索された声質変化が起こりやすいテキスト中箇所の代替表現のセットを表示するエリアである。利用者が、エリア４０１内でハイライト表示された箇所４０１１または４０１２にマウスポインタ４０３をあわせ、マウス２０４のボタンをクリックすると、代替表現のセットの表示エリア４０２に、クリックしたハイライト箇所の言語表現の代替表現のセットが表示される。図９の例では、「掛かります」というテキスト中の箇所４０１１がハイライト表示されており、箇所４０１１をクリックしたときに、代替表現のセットの表示エリア４０２に、「掛かります、必要です、要します」という代替表現のセットが表示されている様子を表している。この代替表現のセットは、「掛かります」というテキスト中の箇所の言語表現文字列をキーにして代替表現検索部１０６が、代替表現セットを検索した結果、図８の代替表現データベースの代替表現のセット３０２が照合し、代替表現結果として表示部１０８へ出力された結果である。

かかる構成によれば、入力テキストの言語解析結果のアクセント句単位に対して、声質変化推定部１０３が、声質変化推定モデル１０４の推定式を用いて、声質変化の起こりやすさの推定値を求め、声質変化部分判定部１０５が、一定の閾値を超える推定値をもつアクセント句単位のテキスト中箇所を声質変化が起こりやすい箇所として特定するので、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという特別の効果を有するテキスト編集装置を提供することができる。

さらに、かかる構成によれば、声質変化部分判定部１０５が、一定の閾値を超える推定値をもつ代替表現検索部１０６が、声質変化が発生しうる箇所の判定結果に基づいて、該当の箇所に関わるテキスト中の表現と同様の内容をもつ代替表現を検索するので、テキストの読み上げ音声中で声質変化が起こりやすい箇所の代替表現を提示できるという特別な効果を有するテキスト編集装置を提供できる。

なお、本実施の形態において、声質変化推定モデル１０４は、「力み」の声質変化を判別するものとして構成したが、「かすれ」、「裏声」など他の種類の声質変化についても同様に声質変化推定モデル１０４が構成可能である。

例えば、図１０Ａは、話者１について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフであり、図１０Ｂは、話者２について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。このような、「かすれ」の声質変化においても、２名の話者についてのグラフを比較すると、声質変化の発生頻度の偏りの傾向は同じであることが分かる。すなわち、例えば、「ｔ」、「ｋ」、「ｈ」などの場合に「かすれ」の声質変化の発生頻度が高く、「ｔｓ」、「ｆ」、「ｚ」、「ｖ」、「ｎ」、「ｗ」などの場合に「かすれ」の声質変化の発生頻度が低い。このため、「かすれ」の声質変化についても当該声質変化を判別するための声質変化推定モデルを構成することが可能である。

なお、本実施の形態において、声質変化推定部１０３は、声質変化の起こりやすさの推定をアクセント句単位で行うよう構成したが、これはモーラ単位、形態素単位、文節単位、文単位など、テキストを分割する他の単位ごとに推定するようにしてもよい。

なお、本実施の形態において、声質変化推定モデル１０４の推定式は、声質変化が発生するか否かの２値を従属変数として、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化ＩＩ類により作成し、声質変化推定モデル１０４の判定閾値は、学習用データの声質変化の発生位置に対する正解率が約７５％になるように前記推定式の値に対して設定したが、声質変化推定モデル１０４は他の統計的学習モデルに基づく推定式、および、判別閾値であってもよい。例えば、Support Vector Machine による２値判別学習モデルを用いても本実施の形態と同等の効果をもつ声質変化の判別を行うことが可能である。Support Vector Machineは周知の技術である。このため、その詳細な説明はここでは繰り返さない。

なお、本実施の形態において、表示部１０８が声質変化の起こりやすい箇所の提示として、テキスト中の該当箇所のハイライト表示をもちいたが、これは他の視覚的に判別可能な手段によってもよい。例えば、該当箇所の文字フォントの色やサイズが他の箇所と異なるように表示するなどでもよい。

なお、本実施の形態において、代替表現検索部１０６が検索した代替表現のセットは、表示部１０８において、代替表現データベース１０７に格納されていた順序で、あるいは、ランダムな順序で提示されるが、代替表現検索部１０６の出力をある基準に従って並べ替えて、表示部１０８で表示するようにしてもよい。

図１１は、前記並べ替えを行うように構成したテキスト編集装置の機能ブロック図である。図１１に示すように、テキスト編集装置は、図１に示したテキスト編集装置の構成において代替表現検索部１０６の出力をソートする代替表現ソート部１０９を代替表現検索部１０６と表示部１０８との間に挿入した構成としている。図１１において、代替表現ソート部１０９以外の処理部については、図１を用いて説明したテキスト編集装置の処理部と同様の機能および動作を有するものである。このため、同一の参照番号を付与している。図１２は、代替表現ソート部１０９の内部構成を示す機能ブロック図である。代替表現ソート部１０９は、言語解析部１０２と、声質変化推定部１０３と、声質変化推定モデル１０４と、ソート部１０９１とから構成される。図１２においても、既に機能および動作について説明済みの処理部と同一の機能および動作をもつ処理部には、同一の参照番号および名称を付与している。

図１２において、ソート部１０９１は、声質変化推定部１０３が出力する推定値の大小比較によって代替表現のセットに含まれる複数の代替表現を推定値の大きい順にソートする。

図１３は、代替表現ソート部１０９の動作を示すフローチャートである。言語解析部１０２は、代替表現セットの各代替表現の文字列を言語解析する（Ｓ２０１）。次に、声質変化推定部１０３は、声質変化推定モデル１０４の推定式を用いて、ステップＳ２０１で求められた各代替表現の言語解析結果ごとに、声質変化の起こりやすさの推定値を計算する（Ｓ２０２）。次に、ソート部１０９１は、ステップＳ２０２において代替表現ごとに求められた推定値の大小比較により代替表現のソートを行う（Ｓ２０３）。

図１４は、図１１に示したテキスト編集装置の全体の動作を表すフローチャートである。図１４に示されるフローチャートは、図５に示したフローチャートにおいて、ステップＳ１０５とステップＳ１０６との間に、代替表現のセットをソートする処理（Ｓ１０７）が挿入されたものである。ステップＳ１０７の処理は、図１３を参照して説明したものである。また、ステップＳ１０７以外の処理については、図５を参照して説明した処理と同一であるため、同一の番号を付与している。

かかる構成によれば、図１に示したテキスト編集装置の効果に加え、声質変化が起こりやすい箇所に関わる言語表現に対して、複数の代替表現がある場合に、代替表現ソート部１０９によって、声質変化の起こりやすさという観点で代替表現を序列化して提示できる。このため、利用者が声質変化の観点から原稿を修正することが容易にできるという、さらなる特別の効果を有するテキスト編集装置を提供できる。

（実施の形態２）
本発明の実施の形態２では、実施の形態１に示したテキスト編集装置の構成を基本とし、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。

図１５は、本実施の形態２におけるテキスト編集装置の機能ブロック図である。
図１５において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３Ａと、声質変化推定モデルＡ１０４Ａと、声質変化推定モデルＢ１０４Ｂと、声質変化部分判定部１０５Ａと、代替表現検索部１０６Ａと、代替表現データベース１０７と、表示部１０８Ａとを備えている。

図１５において、図１を参照して説明した実施の形態１におけるテキスト編集装置と同一の機能をもつブロックについては、図１と同じ参照番号を付与している。同一の機能をもつブロックについては、説明を省略する。図１５において、声質変化推定モデルＡ１０４Ａと声質変化推定モデルＢ１０４Ｂとは、それぞれ、声質変化推定モデル１０４と同じ手順で推定式と閾値とを構成したものであるが、それぞれ、異なる種類の声質変化について統計的学習を行って作成したものである。声質変化推定部１０３Ａは、声質変化推定モデルＡ１０４Ａ、および、声質変化推定モデルＢ１０４Ｂを用いて、言語解析部１０２が出力する言語解析結果のアクセント句単位ごとに、声質変化の種類別に声質変化の起こりやすさを推定する。

声質変化部分判定部１０５Ａは、声質変化推定部１０３が声質変化の種類別に推定した声質変化の推定値と、その推定に用いた推定式に対応付けられた閾値とに基づいて、声質変化の種類別に声質変化の可能性があるかどうかの判定を行う。代替表現検索部１０６Ａは、声質変化部分判定部１０５Ａが、声質変化の種類別に声質変化の可能性があると判定したテキスト中箇所に関わる言語表現の代替表現を検索し見つかった代替表現のセットを出力する。表示部１０８Ａは、入力されたテキストの全体を表示し、また、声質変化部分判定部１０５Ａが声質変化があると判定したテキスト中箇所を、声質変化の種類別に表示し、さらに代替表現検索部１０６Ａが出力する代替表現のセットの表示を行う。

このようなテキスト編集装置は、図２に示すようなコンピュータシステム上に構築されるものである。このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置（マウス）２０４とを含むシステムである。図１の声質変化推定モデルＡ１０４Ａ、声質変化推定モデルＢ１０４Ｂ、および、代替表現データベース１０７は、本体部２０１にセットされるＣＤ−ＲＯＭ２０７内、本体部２０１が内蔵するハードディスク（メモリ）２０６内、あるいは回線２０８で接続された他のシステムのハードディスク２０５内に格納される。なお、図１５のテキスト編集装置における表示部１０８Ａは、図２のシステムにおけるディスプレイ２０３に該当し、図１５のテキスト入力部１０１は、図２のシステムにおけるディスプレイ２０３、キーボード２０２、および、入力装置２０４に該当する。

次に先に述べたように構成されたテキスト編集装置の動作を図１６に従って説明する。図１６は、本発明の実施の形態２におけるテキスト編集装置の動作を示すフローチャートである。図１６において、実施の形態１におけるテキスト編集装置と同一の動作ステップについては、図５と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。

言語解析処理（Ｓ１０１）を行ったのち、声質変化推定部１０３Ａは、アクセント句単位で、声質変化推定モデルＡ１０４Ａ、および、声質変化推定モデルＢ１０４Ｂのもつ音韻ごとの声質変化の推定式の説明変数として前記言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する（Ｓ１０２Ａ）。本実施の形態では、声質変化推定モデルＡ１０４Ａで「力み」の声質変化について判定し、声質変化推定モデルＢ１０４Ｂで「かすれ」の声質変化について判定するものとする。推定式は、声質変化を判定しようとする音韻ごとに、「力み」あるいは「かすれ」の声質変化が発生するか否かの２値を従属変数とし、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化ＩＩ類により作成したものである。「力み」あるいは「かすれ」の声質変化が発生するか否かの判定閾値は、学習用データの特殊音声の発生位置に対する正解率が約７５％になるように前記推定式の値に対して設定されているものとする。

次に、声質変化部分判定部１０５Ａは、声質変化推定部１０３Ａが出力する各アクセント句単位の声質変化の種類ごとの声質変化の起こりやすさの推定値と、声質変化推定部１０３Ａが用いた推定式に対応付けられた声質変化推定モデルＡ１０４Ａの閾値あるいは声質変化推定モデルＢ１０４Ｂの閾値とを比較し、閾値を越えるアクセント句に対して、声質変化の種類別に声質変化が起こりやすいというフラグを付与する（Ｓ１０３Ａ）。

引き続き、声質変化部分判定部１０５Ａは、ステップＳ１０３Ａで、声質変化の種類別に声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化の可能性の高いテキスト中の表現箇所として特定する（Ｓ１０４Ａ）。

次に、代替表現検索部１０６Ａは、ステップＳ１０４Ａで特定された各表現箇所に対して、代替表現データベース１０７から代替表現セットを検索する（Ｓ１０５）。

次に、表示部１０８Ａは、テキストの表示の各行の下部に、テキストの１行と同じ長さをもつ横長の矩形領域を声質変化の種類ごとに表示し、ステップＳ１０４Ａで特定されたテキスト中の声質変化が起こりやすい箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が起こりにくい箇所を示す矩形領域と区別可能な色に変更して、声質の種類ごとに声質変化が起こりやすいテキスト中の箇所を利用者に提示する。それと同時に、表示部１０８Ａは、ステップＳ１０５で検索された代替表現のセットを利用者に提示する（Ｓ１０６Ａ）。

図１７は、表示部１０８ＡがステップＳ１０６Ａにおいて、図２のディスプレイ２０３に表示する画面内容の例を示す図である。表示エリア４０１Ａは、入力テキスト、および、ステップＳ１０４Ａで表示部１０８Ａが声質変化の起こりやすい箇所の提示として、声質変化の種類ごとに声質変化が起こりやすいテキスト中の箇所に対応した部分の色を変化させて表示した矩形領域４０１１Ａおよび４０１２Ａを表示するエリアである。表示エリア４０２は、ステップＳ１０５で代替表現検索部１０６Ａにより検索された声質変化が起こりやすいテキスト中箇所の代替表現のセットを表示するエリアである。利用者が、表示エリア４０１Ａ内で矩形領域４０１１Ａおよび４０１２Ａの色を変えて表示されている部分にマウスポインタ４０３をあわせ、マウス２０４のボタンをクリックすると代替表現のセットの表示エリア４０２に、クリックした矩形領域部分に対応するテキスト中の箇所の言語表現の代替表現のセットが表示されるようにする。図１７の例では、「力み」の声質変化が起こりやすい箇所として「掛かります」と「温まりました」とが提示されており、「かすれ」の声質変化が起こりやすい箇所として「ほど」が提示されている。また、図１７の例では、矩形領域４０１１Ａの色が変化している部分をクリックしたときに、代替表現のセットの表示エリア４０２に、「掛かります、必要です、要します」という代替表現のセットが表示されている様子を表している。

かかる構成によれば、声質変化推定部１０３Ａが、声質変化推定モデルＡ１０４Ａ、および、声質変化推定モデルＢ１０４Ｂを用いて、異なる声質変化の種類について、同時に、声質変化の起こりやすさの推定値を求め、声質変化部分判定部１０５Ａが、声質変化の種類ごとに設定された閾値を超える推定値をもつアクセント句単位のテキスト中箇所を声質変化が起こりやすい箇所として特定する。このため、本発明の実施の形態１のテキスト編集装置が有する単一の声質変化種類について、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという効果に加え、複数の異なる声質変化について、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという各別の効果を有するテキスト編集装置を提供することができる。

さらに、かかる構成によれば、声質変化部分判定部１０５Ａが、声質変化の種類ごとに声質変化が発生しうる箇所と判定した結果に基づいて、代替表現検索部１０６が、該当の箇所に関わるテキスト中の表現と同様の内容をもつ代替表現を検索する。このため、テキストの読み上げ音声中で声質変化が起こりやすい箇所の代替表現を、声質変化の種類ごとに区別して提示できるという特別な効果を有するテキスト編集装置を提供できる。

なお、本実施の形態において、声質変化推定モデルＡ１０４Ａ、および、声質変化推定モデルＢ１０４Ｂの２つのモデルを用いて、「力み」および「かすれ」の２種類の異なる声質変化について判別可能な構成としたが、声質変化推定モデルの数、および、対応する声質変化の種類は２つ以上であっても、同様の効果を有するテキスト編集装置が提供可能である。

（実施の形態３）
本発明の実施の形態３では、実施の形態１および２に示したテキスト編集装置の構成を基本とし、複数の利用者の各々について、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。

図１８は、本実施の形態３におけるテキスト編集装置の機能ブロック図である。
図１８において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３Ａと、声質変化推定モデルセット１（１０４１）と、声質変化推定モデルセット２（１０４２）と、声質変化部分判定部１０５Ａと、代替表現検索部１０６Ａと、代替表現データベース１０７と、表示部１０８Ａと、利用者特定情報入力部１１０と、スイッチ１１１とを備えている。

図１８において、実施の形態１におけるテキスト編集装置、および、実施の形態２におけるテキスト編集装置と同一の機能をもつブロックについては、図１、および、図１５と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図１８において、声質変化推定モデルセット１（１０４１）、声質変化推定モデルセット２（１０４２）は、それぞれ、内部に２種類の声質変化推定モデルをもつ。

声質変化推定モデルセット１（１０４１）は、声質変化推定モデル１Ａ（１０４１Ａ）と声質変化推定モデル１Ｂ（１０４１Ｂ）とからなるが、この２つの声質変化推定モデルは、本発明の実施の形態２のテキスト編集装置における、声質変化推定モデル１０４Ａ、および、声質変化推定モデル１０４Ｂを構成したのと同様の手順により、同一人物の音声に対して、それぞれの声質変化推定モデルが異なる種類の声質変化について判別可能なモデルとして構成したものである。同様に、声質変化推定モデルセット２（１０４２）についても、内部の声質変化推定モデル（声質変化推定モデル２Ａ（１０４２Ａ）および声質変化推定モデル２Ｂ（１０４２Ｂ））を、それぞれ同一人物の音声に対して、異なる種類の声質変化について判別可能なモデルとして構成したものとする。本実施の形態では、声質変化推定モデルセット１が利用者１に、声質変化推定モデルセット２が利用者２に対応して構成されているものとする。

さらに図１８において、利用者特定情報入力部１１０は、利用者を特定する識別情報を利用者からの入力により受け取り、入力された利用者の識別情報に応じて、スイッチ１１１を切り替えて、識別情報から特定される利用者に対応した声質変化推定モデルセットを、声質変化推定部１０３Ａ、および、声質変化部分判定部１０５Ａが使用するようにする。

このように構成されたテキスト編集装置の動作を図１９に従って説明する。図１９は、本実施の形態３におけるテキスト編集装置の動作を示すフローチャートである。図１９において、実施の形態１におけるテキスト編集装置、あるいは、実施の形態２におけるテキスト編集装置と同一の動作を行うステップについては、図５、および、図１６と同じ番号を付与している。同一の動作を行うステップ部分については、詳細な説明を省略する。

まず、利用者特定情報入力部１１０から入力された利用者の識別情報に従って、スイッチ１１１を操作し、識別情報から特定される利用者に対応した声質変化推定モデルセットを選択する（Ｓ１００）。本実施の形態では、利用者１の利用者識別情報が入力され、スイッチ１１１により声質変化推定モデルセット１（１０４１）が選択されたものとする。

次に、言語解析部１０２が、言語解析処理を行う（Ｓ１０１）。声質変化推定部１０３Ａが、声質変化推定モデルセット１（１０４１）にある声質変化推定モデル１Ａ（１０４１Ａ）、および、声質変化推定モデル１Ｂ（１０４１Ｂ）の推定式の説明変数として、言語解析部１０２の出力である言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する（Ｓ１０２Ａ）。本実施の形態３においても、実施の形態２での声質変化推定モデルの設定と同様に、声質変化推定モデル１Ａ（１０４１Ａ）、および、声質変化推定モデル１Ｂ（１０４１Ｂ）に、それぞれ、「力み」と「かすれ」の声質変化の発生についての判定が可能なように推定式、および、判定閾値を設定するものとする。

これ以後のステップＳ１０３Ａ、ステップＳ１０４Ａ、ステップＳ１０５、ステップＳ１０６Ａの動作は、実施の形態１のテキスト編集装置、あるいは、実施の形態２のテキスト編集装置の動作ステップと同じであるので説明を省略する。

かかる構成によれば、利用者の識別情報によって、スイッチ１１１により、利用者の読み上げ音声に対する推定に関して最適な声質変化の推定モデルセットを選択できるので、実施の形態１、および、実施の形態２のテキスト編集装置が有する効果に加え、複数の利用者が、入力されたテキストの読み上げ音声の声質変化の起こりやすい箇所を、最も精度よく、予測、あるいは、特定できるという格別の効果を有するテキスト編集装置を提供できる。

なお、本実施の形態において、声質変化推定モデルセットは２つで、このうち１つをスイッチ１１１で選択する構成としたが、声質変化推定モデルセットは３つ以上であっても、先に述べたのと同様の効果を有するものである。

なお、本実施の形態において、声質変化推定モデルセットに含まれる声質変化推定モデルは２つであるように構成したが、声質変化推定モデルセットごとに１つ以上の任意個の個数の声質変化推定モデルをもつように構成してもよい。

（実施の形態４）
本発明の実施の形態４では、テキストを利用者が読み上げる際に、時間が経過するほど、のどの疲労等により声質の変化が起こりやすいという知見に基づいて構成されたテキスト編集装置について説明する。すなわち、利用者がテキストを読み進めるにつれて、声質変化が生じやすくなるようなテキスト編集装置について説明する。

図２０は、本実施の形態４におけるテキスト編集装置の機能ブロック図である。
図２０において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３と、声質変化推定モデル１０４と、声質変化部分判定部１０５Ｂと、代替表現検索部１０６と、代替表現データベース１０７と、表示部１０８Ｂと、話速入力部１１２と、経過時間測定部１１３と、総合判定部１１４とを備えている。

図２０において、実施の形態１におけるテキスト編集装置と同一の機能をもつブロックについては、図１と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図２０において、話速入力部１１２は、利用者が入力する話速に関する指定を平均モーラ時間長の単位の値（例えば、１秒間あたりのモーラ数）に変換し出力する。経過時間測定部１１３は、話速入力部１１２が出力した話速の値を、経過時間を計算する際の話速のパラメータとしてセットする。声質変化部分判定部１０５Ｂは、声質変化推定部１０３が推定した声質変化の推定値と、対応づけられた閾値とに基づいて、アクセント単位ごとに声質変化の可能性がある箇所かどうかの判定を行う。

総合判定部１１４は、声質変化部分判定部１０５Ｂが、各アクセント句単位について判定した声質変化が起こりやすいかどうかの判定結果を受け取り蓄積し、すべての判定結果を総合し、テキスト全体での声質変化の起こりやすい箇所の割合に基づいて、テキスト全体を読み上げた際の音声の声質変化の生じやすさを示す評価値を算出する。表示部１０８Ｂは、入力されたテキストの全体を表示するとともに、声質変化部分判定部１０５が声質変化があると判定したテキスト中の箇所をハイライト表示する。さらに、表示部１０８Ｂは、代替表現検索部１０６が出力する代替表現のセットの表示をするとともに、総合判定部１１４が算出した声質変化に関する評価値を表示する。

このようなテキスト編集装置は、例えば、図２に示すようなコンピュータシステム上に構築されるものである。このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置（マウス）２０４とを含むシステムである。図１の声質変化推定モデル１０４、および、代替表現データベース１０７は、本体部２０１にセットされるＣＤ−ＲＯＭ２０７内、本体部２０１が内蔵するハードディスク（メモリ）２０６内、あるいは回線２０８で接続された他のシステムのハードディスク２０５内に格納される。なお、図１のテキスト編集装置における表示部１０８は、図２のシステムにおけるディスプレイ２０３に該当し、図１のテキスト入力部１０１、および、話速入力部１１２は、図２のシステムにおけるディスプレイ２０３、および、キーボード２０２、および、入力装置２０４に該当する。

次に先に述べたように構成されたテキスト編集装置の動作を図２１に従って説明する。図２１は、本実施の形態４におけるテキスト編集装置の動作を示すフローチャートである。図２１において、実施の形態１におけるテキスト編集装置と同一の動作ステップについては、図５と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。

まず、話速入力部１１２は、利用者の指定による話速の入力を平均モーラ時間長の単位の値に変換し出力し、経過時間測定部１１３は、経過時間を算出する際の話速パラメータとして話速入力部１１２の出力結果をセットする（Ｓ１０８）。

言語解析処理を行った後（Ｓ１０１）、経過時間測定部１１３は、言語解析結果に含まれる読みのモーラ列の先頭からのモーラ数をカウントし、話速パラメータと除算することでテキスト中の各モーラ位置における先頭からの読み上げ時の経過時間を算出する（Ｓ１０９）。

声質変化推定部１０３で、アクセント句単位の声質変化の起こりやすさの推定値を求める（Ｓ１０２）。本実施の形態においては、声質変化推定モデル１０４を、「かすれ」の声質変化が判定可能なものとして統計的学習により構成しているものとする。声質変化部分判定部１０５Ｂでは、ステップ１０９で経過時間測定部１１３によって算出された当該アクセント句の先頭モーラ位置における読み上げ時の経過時間の値に基づいて、アクセント句ごとに声質変化の起こりやすいさの推定値と比較する閾値を修正した上で、当該アクセント句の声質変化の起こりやすさの推定値との比較を行い、閾値を超える推定値が付与されたアクセント句を声質変化が起こりやすいというフラグを付与する（Ｓ１０３Ｂ）。ここで、読み上げの経過時間の値による閾値の修正は、元の閾値をＳ、修正後の閾値をＳ’、経過時間をＴ（分）として、
Ｓ’＝Ｓ（１＋Ｔ）/（１＋２Ｔ）
とあらわされる式によって行うものとする。すなわち、時間が経過するにつれ、閾値が小さくなるように、閾値の修正が行なわれる。これは、上述したように、利用者がテキストを読み進めるにつれ、のどの疲労等により声質の変化が起こりやすくなるため、時間の経過につれ閾値を小さくし、声質変化が起こりやすいというフラグを付与しやすくするためである。

ステップＳ１０４、ステップＳ１０５を経て、総合判定部１１４は、声質変化部分判定部１０５Ｂが出力するアクセント句単位の声質変化の起こりやすさのフラグの状態を、テキスト全体のアクセント句にわたって蓄積し、テキスト中のアクセント句数に占める声質変化の起こりやすいフラグを付与されたアクセント句数の割合を算出する（Ｓ１１０）。

最後に、表示部１０８Ｂは、経過時間測定部１１３で計測された読み上げ時の経過時間をテキストの一定範囲ごとに表示し、ステップＳ１０４で特定されたテキスト中の声質変化が起こりやすい箇所をハイライト表示し、ステップＳ１０５で検索された代替表現のセットを表示し、同時に、総合判定部１１４で算出された、声質変化が起こりやすいアクセント句の割合を表示する（Ｓ１０６Ｃ）。

図２２は、表示部１０８ＢがステップＳ１０６Ｃにおいて、図２のディスプレイ２０３に表示する画面内容の例を示す図である。表示エリア４０１Ｂは、入力テキスト、ステップＳ１０９で算出された入力テキストを指定された話速で読み上げたときの経過時間４０４１〜４０４３、および、ステップＳ１０４で表示部１０８が声質変化の起こりやすい箇所の提示としてハイライト表示した箇所４０１１を表示するエリアであり、表示エリア４０２は、ステップＳ１０５で代替表現検索部１０６により検索された声質変化が起こりやすいテキスト中の箇所の代替表現のセットを表示するエリアである。利用者が、表示エリア４０１Ｂ内でハイライト表示された箇所４０１１にマウスポインタ４０３をあわせ、マウス２０４のボタンをクリックすると代替表現のセットの表示エリア４０２に、クリックしたハイライト箇所の言語表現の代替表現のセットが表示されるようにする。表示エリア４０５は、総合判定部１１４が算出した「かすれ」の声質変化が起こりやすいアクセント句の割合を表示するエリアである。図２２の例では、「６分ほど」というテキスト中の箇所がハイライト表示されており、当該箇所４０１１をクリックしたときに、代替表現のセットの表示エリア４０２に、「６分ぐらい、６分程度」という代替表現のセットが表示されている様子を表している。

「６分ほど」の読み上げ音声が「かすれ」と判定されるのは、ハ行の音が「かすれ」の変化を起こしやすいことに起因する。「ロップンホド」に含まれる「ホ」の音に関する「かすれ」の声質変化の起こりやすいさの推定値は、「ロップンホド」に含まれる他のモーラよりも大きく、「ホ」の音に関する声質変化の推定値が、このアクセント句を代表する声質変化の起こしやすさの推定値となる。しかし、「１０分ほど」の読み上げ音声も「ホ」の音を含むが、この箇所については声質変化が起きやすいという判定にはなっていない。

先に示した閾値の修正式
Ｓ’＝Ｓ（１＋Ｔ）/（１＋２Ｔ）
によれば、時間の経過にしたがって、つまり、Ｔの増大にしたがって、修正後の閾値Ｓ’がＳ／２に向かって減少していくことになる。今、「６分ほど」と「１０分ほど」との声質変化の起こりやすさの推定値がＳ＊３／５であったとすると、読み始めから２分を経過するまでは修正後の閾値Ｓ’がＳ＊３／５よりも大きいので、声質変化の起こりやすい箇所とは判定されないが、２分を超えると閾値Ｓ’がＳ＊３／５よりも小さくなるので、声質変化が起こりやすい箇所と判定される。したがって、図２２に示す例では、同じ声質変化の起こりやすさの推定値をもつアクセント句でも経過時間がある値より大きい場合にだけ声質変化の起こりやすい箇所として判断されるケースを表している。

かかる構成によれば、経過時間測定部１１３によって利用者が入力した話速にもとづいて、声質変化部分判定部１０５Ｂにおいて、判定の基準の閾値を修正するので、実施の形態１のテキスト編集装置が有する効果に加え、利用者の想定する話速での読み上げで、時間経過に対する声質変化の起こりやすさへの影響を考慮した上で、声質変化が起こりやすい箇所の予測、あるいは、特定ができるという格別の効果を有するテキスト編集装置を提供できる。

なお、本実施の形態においては、時間経過に対して閾値が減少するような閾値の修正式としたが、声質変化の種類によって、声質変化の起こりやすさと時間経過との関係を分析した結果にもとづいた閾値の修正式を用いてもよく、推定の精度を高める上で好ましい構成である。例えば、話し始めは、のどの緊張等により声質変化が生じやすいものの、ある一定の時間まで話し進めると、のどがリラックスして声質変化が起こりにくくなり、さらに話し進めると、のどの疲労等により、再度声質変化が生じやすくなるような場合を想定し、閾値の修正式を決定するようにしてもよい。

（実施の形態５）
本発明の実施の形態５では、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なうことができるテキスト編集装置について説明する。

図２３は、本実施の形態５におけるテキスト評価装置の機能ブロック図である。
図２３において、テキスト評価装置は、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なう装置であり、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３と、声質変化推定モデル１０４と、声質変化部分判定部１０５と、表示部１０８Ｃと、総合判定部１１４Ａと、音声入力部１１５と、音声認識部１１６と、音声分析部１１７とを備えている。

図２３において、実施の形態１におけるテキスト編集装置と同一の機能をもつブロックについては、図１と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図２３において、音声入力部１１５は、利用者がテキスト入力部１０１に入力したテキストを読み上げた音声を装置内部に音声信号として取り込む。音声認識部１１６は、言語解析部１０２が出力する言語解析結果の読みの音韻列の情報を用いて、音声入力部１１５から取り込んだ音声信号に対して、音声信号と音韻列とのアライメント処理を行い、取り込んだ音声信号の音声を認識する。音声分析部１１７は、利用者の読み上げの音声信号に対して、あらかじめ種類を指定した声質変化が起きているかどうかをアクセント句単位で判定する。

総合判定部１１４Ａは、音声分析部１１７が判定した各アクセント句単位で読み上げ音声の声質変化が起きていたかどうかの判定結果と、声質変化部分判定部１０５が判定した声質変化が起きやすい箇所の判定結果との比較を行い、声質変化が起こりやすいと判定された箇所における、利用者の読み上げ音声に現れた声質変化が起きた割合を算出する。表示部１０８Ｃは、入力されたテキストの全体を表示するとともに、声質変化部分判定部１０５が声質変化があると判定したテキスト中の箇所をハイライト表示する。さらに、表示部１０８Ｃは、総合判定部１１４Ａが算出した推定された声質変化の起こりやすい箇所に対する、利用者の読み上げ音声の声質変化が起こった箇所の割合を同時に表示する。

このようなテキスト評価装置は、例えば、図２４に示すようなコンピュータシステム上に構築されるものである。図２４は、本実施の形態５におけるテキスト評価装置を構築したコンピュータシステムの例を示す図である。

このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置(マウス)２０４とを含むシステムである。図２３の声質変化推定モデル１０４、および、代替表現データベース１０７は、本体部２０１にセットされるＣＤ―ＲＯＭ２０７内，本体部２０１が内蔵するハードディスク（メモリ）２０６内、あるいは回線２０８で接続された他のシステムのハードディスク２０５内に格納される。なお、図２３のテキスト編集装置における表示部１０８Ｃは、図２４のシステムにおけるディスプレイ２０３に該当し、図２３のテキスト入力部１０１は、図２３のシステムにおけるディスプレイ２０３、キーボード２０２、および、入力装置２０４に該当する。また、図２３の音声入力部１１５は、マイク２０９に該当する。スピーカ２１０は、音声入力部１１５が適正なレベルで音声信号を取り込めたかの確認のための音声再生用として利用される。

次に先に述べたように構成されたテキスト評価装置の動作を図２５に従って説明する。図２５は、本実施の形態５におけるテキスト評価装置の動作を示すフローチャートである。図２５において、実施の形態１におけるテキスト編集装置と同一の動作ステップについては、図５と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。

ステップＳ１０１での言語解析処理を経て、音声入力部１１５から取り込んだ利用者の音声信号に対して、言語解析部１０２が出力した言語解析結果に含まれる読みの音韻列とのアライメント処理を音声認識部１１６が行う（Ｓ１１０）。

次に音声分析部１１７は、利用者の読み上げの音声信号に対して、あらかじめ判別する声質変化の種類を特定した音声分析手法によって、特定の声質変化が起きているかどうかをアクセント句単位で判定し、声質変化が発声しているアクセント句に対して声質変化が発生した箇所のフラグを付与する（Ｓ１１１）。本実施の形態においては、音声分析部１１７は、「力み」の声質変化について音声分析可能な状態に設定されているものとする。非特許文献１の記述によれば、「力み」の声質変化として分類される「ざらざら声(harsh voice)」が持つ著しい特徴が、基本周波数の不規則性、具体的には、ジッタ（周期の速い変動成分）やシマ（振幅の速い変動成分）にあるとされている。したがって、「力み」の声質変化を判定可能な具体的な手法として、音声信号のピッチ抽出を行い、基本周波数のジッタ成分とシマ成分を抽出し、両成分が一定以上の強度であるかどうかで、「力み」の声質変化が生じているか否かを判定する手法が構成可能である。さらに、ここで声質変化推定モデル１０４についても、「力み」の声質変化が判定可能なように推定式および閾値が設定されているものとする。

引き続き、音声分析部１１７は、ステップＳ１１１で、声質変化が起こったというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化が発生したテキスト中の表現箇所として特定する（Ｓ１１２）。

次に、ステップＳ１０２において、テキストの言語解析結果のアクセント句単位の声質変化の起こりやすさの推定が行なわれた後、声質変化部分判定部１０５Ｂは、声質変化推定部１０３が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、声質変化推定部１０３が用いた推定式に対応付けられた声質変化推定モデル１０４の閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する（Ｓ１０３Ｂ）。

引き続き、声質変化部分判定部１０５は、ステップＳ１０３Ｂで、声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化が起こりやすいテキスト中の表現箇所として特定する（Ｓ１０４）。

次に、総合判定部１１４Ａは、ステップＳ１１２において特定した声質変化が発生したテキスト中の複数の表現箇所のうち、ステップ１０４で特定された声質変化が起こりやすいテキスト中の複数の表現箇所と文字列の範囲として重なりがある部分の表現箇所の個数をカウントする。また、総合判定部１１４Ａは、ステップＳ１１２において特定した声質変化が発生したテキスト中の表現箇所の個数に対する、前記重複箇所の個数の割合を算出する（Ｓ１１３）。

次に、表示部１０８Ｃは、テキストを表示し、テキスト表示の各行の下部に、テキストの１行と同じ長さをもつ横長の矩形領域を２つ設け、一方の矩形領域に対して、ステップＳ１０４で特定されたテキスト中の声質変化が起こりやすい箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が起こりにくい箇所を示す矩形領域と区別可能な色に変更し、同じくもう一方の矩形領域に対して、ステップＳ１１２で特定された利用者の読み上げ音声中の声質変化が発生した箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が発生していない箇所を示す矩形領域と区別可能な色に変更し、ステップ１１３で算出された声質変化が起こりやすいと推定された箇所のうち、利用者の読み上げ音声で声質変化が発生した割合を表示する（Ｓ１０６Ｄ）。

図２６は、表示部１０８ＣがステップＳ１０６Ｄにおいて、図２４のディスプレイ２０３に表示する画面内容の例を示す図である。表示エリア４０１Ｃは、入力テキスト、ステップＳ１０６Ｄで表示部１０８Ｃが声質変化の起こりやすい箇所の提示として、テキスト中の箇所に対応した部分の色を変化させて表示した矩形領域部分４０１３、および、同じくステップＳ１０６Ｄで表示部１０８Ｃが利用者の読み上げ音声で声質変化が発生した箇所の提示として、テキスト中箇所に対応した部分の色を変化させて表示した矩形領域部分４０１４の表示を行うためのエリアである。表示エリア４０６は、ステップＳ１０６Ｄにおいて表示部１０８Ｃが、ステップ１１３で算出された声質変化が起こりやすいと推定された箇所のうち、利用者の読み上げ音声で声質変化が発生した割合を表示するためのエリアである。図２６の例では、「力み」の声質変化が起こりやすい箇所として「掛かります」と「温まりました」とが提示されており、実際に利用者の読み上げ音声の分析から判定された声質変化が発声した箇所として「掛かります」が提示されている。声質変化が予測された箇所が２箇所に対して、実際に声質変化が生じた箇所で予測された箇所と重なるのが１箇所であるので、声質変化の発生割合として「１／２」が提示されている。

かかる構成によれば、ステップＳ１１０、ステップＳ１１１、ステップＳ１１２の一連の動作により、利用者の読み上げ音声中の声質変化の発声箇所を判定し、さらに、ステップＳ１１３において総合判定部１１４Ａが、ステップＳ１０４においてテキストの読み上げ音声中で声質変化が発生しやすいと判定された箇所のうち、ステップＳ１１２で実際に利用者が読み上げた音声中で実際に声質変化が発生した箇所と重なる箇所の割合を算出するので、本発明の実施の形態１のテキスト編集装置が有する単一の声質変化種類について、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生し得る箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという効果に加え、利用者が実際に読み上げた音声での声質変化の発生箇所の確認ができ、なおかつ、テキストから予測される声質変化が起こりやすい箇所に留意した上でテキストを読み上げた場合に、実際に留意した箇所で声質変化の発生がどれだけ抑えられたのかについての評価を、予測箇所に対する発生箇所の割合として提示することができるという格別の効果を有するテキスト評価装置を提供できる。

また、利用者は、本実施の形態に示したテキスト評価装置を、声質変化が起こらないような発声を訓練するための発声訓練装置として使用することもできる。すなわち、図２６に示した表示エリア４０１Ｃにおいて、声質変化が発生するであろう推定箇所と、実際に発生した発生箇所とを対比して見ることができる。このため、利用者は、推定箇所において、声質変化が起こらないように発生訓練をすることができる。また、表示エリア４０６に表示された数値は、利用者の得点に相当する。すなわち、当該数値が小さいほど、声質変化が起こらないように発声できたことを示している。

（実施の形態６）
本発明の実施の形態６では、上述した実施の形態１〜５とは異なる声質変化の推定方法を備えるテキスト編集装置について説明する。

図２７は、本実施の形態６におけるテキスト編集装置のうち、声質変化推定方法の処理に関連する主要な構成部分のみを示す機能ブロック図である。

図２７において、テキスト編集装置は、テキスト入力部１０１０と、言語解析部１０２０と、声質変化推定部１０３０と、音韻別声質変化情報テーブル１０４０と、声質変化部分判定部１０５０とを含む。なお、テキスト編集装置は、さらに、声質変化が起こっている箇所を判定した後の処理を実行する処理部（図示せず）を含む。これらの処理部については、実施の形態１〜５に示したものと同様であり、例えば、テキスト編集装置は、実施の形態１の図１に示した代替表現検索部１０６、代替表現データベース１０７および表示部１０８を含んでいてもよい。

図２７において、テキスト入力部１０１０は、処理対象のテキストを入力するための処理を行う処理部である。言語解析部１０２０は、テキスト入力部１０１０で入力されたテキストに対して、言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する処理部である。声質変化推定部１０３０は、音韻別に声質変化の発生の度合いを有限の値をもつ数値として表現した音韻別声質変化情報テーブル１０４０を参照し、前記言語解析結果のアクセント句単位ごとに、声質変化の起こりやすさの推定値を求める処理を行う。声質変化部分判定部１０５０は、声質変化推定部１０３０が推定した声質変化の推定値と、一定の閾値とに基づいて、アクセント単位ごとに声質変化の可能性がある箇所かどうかの判定処理を行う。

図２８は、音韻別声質変化情報テーブル１０４０の一例を示す図である。音韻別声質変化情報テーブル１０４０は、モーラの子音部ごとに声質変化の度合いがどの程度あるのかを示した表であり、例えば、子音「ｐ」における声質変化の度合いは「０．１」であることが示されている。

次に先に述べたように構成されたテキスト編集装置における声質変化の推定方法について図２９に従って説明する。図２９は、本実施の形態６における声質変化推定方法の動作を示すフローチャートである。

最初に、テキスト入力部１０１０から受け取った入力テキストに対して、言語解析部１０２０が、形態素解析、構文解析、読み生成、アクセント句処理という一連の言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する（Ｓ１０１０）。

次に、声質変化推定部１０３０は、Ｓ１０１０で出力された言語処理結果のアクセント句単位に対して、音韻別声質変化情報テーブル１０４０に格納されている音韻ごとの声質変化の度合いを表現した数値に従って、アクセント句に含まれる音韻ごとに声質変化の度合いの数値を求める。さらに、アクセント句内の音韻で最大の声質変化の度合いの数値を、当該アクセント句を代表する声質変化の起こりやすさの推定値とする（１０２０）。

次に、声質変化部分判定部１０５０では、声質変化推定部１０３０が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、所定の値に設定された閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する（Ｓ１０３０）。引き続き、声質変化部分判定部１０５０は、ステップＳ１０３０で、声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化の可能性の高いテキスト中の表現箇所として特定する（Ｓ１０４０）。

かかる構成によれば、声質変化推定部１０３０が、音韻別声質変化情報テーブル１０４０に記述された音韻ごとの声質変化の起こりやすさの度合いの数値から、アクセント句単位の声質変化の起こりやすさの推定値を求め、声質変化部分判定部１０５０が、その推定値と所定の閾値との比較により、閾値を越える推定値をもつアクセント句を声質変化が起こりやすい箇所として特定するので、読み上げようとするテキストのみから、そのテキストを読み上げた音声中の声質変化が起こりやすい箇所を予測、あるいは、特定することができる具体的方法を提供できる。

（実施の形態７）
本発明の実施の形態７では、入力されたテキストのうち、声質変化が生じやすい表現を声質変化が生じにくい表現に変換したり、逆に声質変化が生じにくい表現を声質変化が生じやすい表現に変換したりした後に、変換後のテキストの合成音声を生成するテキスト読み上げ装置について説明する。

図３０は、本実施の形態７におけるテキスト読み上げ装置の機能ブロック図である。
図３０において、テキスト読み上げ装置は、テキスト入力部１０１と、言語解析部１０２と、声質変化推定部１０３と、声質変化推定モデル１０４と、声質変化部分判定部１０５と、代替表現検索部１０６と、代替表現データベース１０７と、代替表現ソート部１０９と、表現変換部１１８と、音声合成用言語解析部１１９と、音声合成部１２０と、音声出力部１２１とを備えている。

図３０において、実施の形態１におけるテキスト編集装置と同一の機能をもつブロックについては、図１、あるいは、図１１と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。

図３０において、表現変換部１１８は、声質変化部分判定部１０５が声質変化が起こりやすいと判定したテキスト中の箇所を、代替表現ソート部１０９が出力したソート済みの代替表現セットの中で、一番声質変化の起こりにくい代替表現で置換する。音声合成用言語解析部１１９は、表現変換部１１８が出力する置換済みのテキストを言語解析する。音声合成部１２０は、音声合成用言語解析部１１９の出力である言語解析結果に含まれる発音情報、アクセント句情報、ポーズ情報に基づいて、音声信号を合成する。音声出力部１２１は、音声合成部１２０で合成された音声信号を出力する。

このようなテキスト読み上げ装置は、例えば、図３１に示すようなコンピュータシステム上に構築されるものである。図３１は、本実施の形態７におけるテキスト読み上げ装置を構築したコンピュータシステムの例を示す図である。このコンピュータシステムは、本体部２０１と、キーボード２０２と、ディスプレイ２０３と、入力装置(マウス)２０４とを含むシステムである。図３０の声質変化推定モデル１０４、および、代替表現データベース１０７は、本体部２０１にセットされるＣＤ−ＲＯＭ２０７内、本体部２０１が内蔵するハードディスク（メモリ）２０６内、あるいは回線２０８で接続された他のシステムのハードディスク２０５内に格納される。なお、図３０のテキスト入力部１０１は、図３１のシステムにおけるディスプレイ２０３、キーボード２０２、および、入力装置２０４に該当する。スピーカ２１０は、図３０の音声出力部１２１に該当する。

次に先に述べたように構成されたテキスト読み上げ装置の動作を図３２に従って説明する。図３２は、本実施の形態７におけるテキスト読み上げ装置の動作を示すフローチャートである。図３２において、実施の形態１におけるテキスト編集装置と同一の動作ステップについては、図５、あるいは、図１４と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。

ステップＳ１０１〜ステップＳ１０７までは、図１４に示されている実施の形態１におけるテキスト編集装置と同一の動作ステップである。入力テキストは図３３に示すように「１０分ほど掛かります。」であったとする。図３３は、本実施の形態７におけるテキスト読み上げ装置で入力テキストが置換される動作に関わる中間データの例を表したものである。

その次のステップＳ１１４として、表現変換部１１８は、声質変化部分判定部１０５がステップＳ１０４で特定した声質変化が起こりやすい箇所を、代替表現検索部１０６が検索して得た、その箇所の代替表現セットのうち、代替表現ソート部１０９が出力するソート済みの代替表現のセットから、最も声質変化が起こりにくい代替表現を１つ選んで置換する（Ｓ１１４）。図３３に示すように、ソート済み代替表現セットは、声質変化の起こりやすさの度合いによってソートされており、ここでは「要します」がもっとも声質変化が起こりにくい代替表現である。次に、ステップＳ１１４で置換されたテキストを、音声合成用言語解析部１１９が言語解析し、読みの情報、アクセント句区切り、アクセント位置、ポーズ位置、ポーズ長を含む言語解析結果を出力する（Ｓ１１５）。図３３に示すように、入力テキストの「１０分ほど掛かります。」の「掛かります」が「要します」に置換される。最後に、音声合成部１２０が、ステップＳ１１５で出力された言語解析結果に基づいて音声信号を合成し、音声出力部１２１から音声信号を出力する（Ｓ１１６）。

かかる構成によれば、声質変化推定部１０３と声質変化部分判定部１０５とにより、入力テキスト中の声質変化が起こりやすい箇所を特定し、代替表現検索部１０６と代替表現ソート部１０９と表現変換部１１８との一連の動作により、声質変化が起こりやすいテキスト中箇所を、声質変化が起こりにくい代替表現へ自動的に置換して、入力テキストを読み上げることができるので、テキスト読み上げ装置内の音声合成部１２０が発声する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り（クセ）を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げが可能になるという効果を有するテキスト読み上げ装置を提供することができる。

なお、本実施の形態では、声質変化の発生する可能性のある表現を声質変化の発声しにくい表現に置換して音声の読み上げを行なっているが、逆に、声質変化の発生する可能性が低い表現を声質変化の発声しやすい表現に置換して音声の読み上げを行うようにしてもよい。

なお、上述の実施の形態では、声質変化の起こりやすさ推定および声質が変化する部分の判定を推定値に基づいて行っていたが、推定式において閾値を超えやすいモーラが予め分かっている場合には、そのモーラでは常に声質変化が発生すると判定してもよい。

例えば、声質変化が「力み」の場合には、以下の（１）〜（４）に示すモーラで、推定式が閾値を超えやすい。

（１）子音が／ｂ／（両唇音でかつ有声破裂子音）であり、かつアクセント句の前から３番目のモーラ
（２）子音が／ｍ／（両唇音でかつ鼻音）であり、かつアクセント句の前から３番目のモーラ
（３）子音が／ｎ／（歯茎音でかつ鼻音）であり、かつアクセント句の先頭モーラ
（４）子音が／ｄ／（歯茎音でかつ有声破裂子音）であり、かつアクセント句の先頭モーラ
また、声質変化が「かすれ」の場合には、以下の（５）〜（８）に示すモーラで、推定式が閾値を超えやすい。
（５）子音が／ｈ／（喉頭音でかつ無声摩擦音）であり、かつアクセント句の先頭のモーラまたはアクセント句の前から３番目のモーラ
（６）子音が／ｔ／（歯茎音でかつ無声破裂音）であり、かつアクセント句の前から４番目のモーラ
（７）子音が／ｋ／（軟口蓋音でかつ無声破裂音）であり、かつアクセント句の前から５番目のモーラ
（８）子音が／ｓ／（歯音でかつ無声摩擦音）であり、かつアクセント句の前から６番目のモーラ

以上のように、子音とアクセント句との関係で声質変化が発生し易いテキスト中の位置を特定することができるが、英語や中国語の場合には、子音とアクセント句との関係以外の関係を用いて声質変化が発生し易い位置を特定することが可能である。例えば、英語の場合には、子音とストレス句の音節数またはストレス位置との関係を用いて声質変化が発生し易いテキスト中の位置を特定することが可能である。また、中国語の場合には、子音と、四声のピッチの上昇・下降パターンまたは呼気段落に含まれる音節数との関係を用いて声質変化が発生し易いテキスト中の位置を特定することが可能である。

また、上述の実施の形態におけるテキスト編集装置をＬＳＩ（集積回路）で実現することもできる。例えば、実施の形態１におけるテキスト編集装置をＬＳＩで実現すると、言語解析部１０２と、声質変化推定部１０３と、声質変化部分判定部１０５と、代替表現検索部１０６との全てを１つのＬＳＩで実現することができる。または、それぞれの処理部を１つのＬＳＩで実現することができる。さらに、それぞれの処理部を複数のＬＳＩで実現することもできる。

声質変化推定モデル１０４と、代替表現データベース１０７とは、ＬＳＩの外部の記憶装置により実現してもよいし、ＬＳＩの内部に備えられたメモリにより実現してもよい。ＬＳＩの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限られるものではなく、専用回路または汎用プロセッサにより実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

さらに、上述の実施の形態におけるテキスト編集装置をコンピュータで実現することもできる。図３４は、コンピュータの構成の一例を示す図である。コンピュータ１２００は、入力部１２０２と、メモリ１２０４と、ＣＰＵ１２０６と、記憶部１２０８と、出力部１２１０とを備えている。入力部１２０２は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信Ｉ／Ｆ部等から構成される。メモリ１２０４は、プログラムやデータを一時的に保持する記憶装置である。ＣＰＵ１２０６は、プログラムを実行する処理部である。記憶部１２０８は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部１２１０は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。

例えば、実施の形態１におけるテキスト編集装置をコンピュータで実現した場合には、言語解析部１０２と、声質変化推定部１０３と、声質変化部分判定部１０５と、代替表現検索部１０６とは、ＣＰＵ１２０６上で実行されるプログラムに対応し、声質変化推定モデル１０４と、代替表現データベース１０７とは、記憶部１２０８に記憶される。また、ＣＰＵ１２０６で計算された結果は、メモリ１２０４や記憶部１２０８に一旦記憶される。メモリ１２０４や記憶部１２０８は、声質変化部分判定部１０５等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ１２００のＣＰＵ１２０６に読み込まれてもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明のテキスト編集装置は、声質の観点からテキストを評価し、修正する機能を提供可能な構成をもつので、ワードプロセッサ装置、および、ワードプロセッサソフトウェアなどへの応用が有用である。他にも、人間が読み上げることを前提としたテキストを編集する機能をもつ装置、あるいは、ソフトウェアなどへの応用が可能である。

さらに、本発明のテキスト評価装置は、利用者がテキストの言語表現から予測される声質変化しやすい箇所に留意しながらテキストを読み上げることを可能にし、さらに、利用者が実際にテキストを読み上げた音声の声質変化箇所を確認し、声質変化がどれぐらい起こっているのかを評価することを可能にする構成をもつので、スピーチの訓練装置、語学の学習装置などへの応用が有用である。他にも、読み上げの練習を補助するような機能をもつ装置などへの応用が可能である。

本発明のテキスト読み上げ装置は、声質変化が起こりやすい言語表現を代替表現に置き換えて音声として読み上げることが可能なので、内容を保持したまま声質変化が少なく、明瞭度を高く保った音質でテキスト読み上げが可能な構成をもつので、ニュースなどの読み上げ装置などへの応用が有用である。他にも、テキストの内容には直接関係せず、読み上げ音声の声質変化に起因して聞き手が受け取る影響を排除したい場合の読み上げ装置などへの応用が可能である。

図１は、本発明の実施の形態１におけるテキスト編集装置の機能ブロック図である。図２は、本発明の実施の形態１におけるテキスト編集装置を構築したコンピュータシステムを示す図である。図３Ａは、話者１について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図３Ｂは、話者２について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図３Ｃは、話者１について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図３Ｄは、話者２について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声（harsh voice）」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図４は、実際の音声において観察された声質変化の発生位置と推定された声質変化の発生位置の時間位置の比較を示す図である。図５は、本発明の実施の形態１におけるテキスト編集装置の動作を示すフローチャートである。図６は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。図７は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフである。図８は、本発明の実施の形態１におけるテキスト編集装置の代替表現データベースの例を示す図である。図９は、本発明の実施の形態１におけるテキスト編集装置の画面表示例を示す図である。図１０Ａは、話者１について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図１０Ｂは、話者２について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図１１は、本発明の実施の形態１におけるテキスト編集装置の機能ブロック図である。図１２は、本発明の実施の形態１におけるテキスト編集装置の代替表現ソート部の内部機能ブロック図である。図１３は、本発明の実施の形態１におけるテキスト編集装置の代替表現ソート部の内部動作を示すフローチャートである。図１４は、本発明の実施の形態１におけるテキスト編集装置の動作を示すフローチャートである。図１５は、本発明の実施の形態２におけるテキスト編集装置の機能ブロック図である。図１６は、本発明の実施の形態２におけるテキスト編集装置の動作を示すフローチャートである。図１７は、本発明の実施の形態２におけるテキスト編集装置の画面表示例を示す図である。図１８は、本発明の実施の形態３におけるテキスト編集装置の機能ブロック図である。図１９は、本発明の実施の形態３におけるテキスト編集装置の動作を示すフローチャートである。図２０は、本発明の実施の形態４におけるテキスト編集装置の機能ブロック図である。図２１は、本発明の実施の形態４におけるテキスト編集装置の動作を示すフローチャートである。図２２は、本発明の実施の形態４におけるテキスト編集装置の画面表示例を示す図である。図２３は、本発明の実施の形態５におけるテキスト評価装置の機能ブロック図である。図２４は、本発明の実施の形態５におけるテキスト評価装置を構築したコンピュータシステムを示す図である。図２５は、本発明の実施の形態５におけるテキスト評価装置の動作を示すフローチャートである。図２６は、本発明の実施の形態５におけるテキスト評価装置の画面表示例を示す図である。図２７は、本実施の形態６におけるテキスト編集装置のうち、声質変化推定方法の処理に関連する主要な構成部分のみを示す機能ブロック図である。図２８は、音韻別声質変化情報テーブルの一例を示す図である。図２９は、本発明の実施の形態６における声質変化推定方法の処理動作を示すフローチャートである。図３０は、本発明の実施の形態７におけるテキスト読み上げ装置の機能ブロック図である。図３１は、本発明の実施の形態７におけるテキスト読み上げ装置を構築したコンピュータシステムを示す図である。図３２は、本発明の実施の形態７におけるテキスト読み上げ装置の動作を示すフローチャートである。図３３は、本発明の実施の形態７におけるテキスト読み上げ装置の動作を説明するための中間データ例を示す図である。図３４は、コンピュータの構成の一例を示す図である。

符号の説明

１０１，１０１０テキスト入力部
１０２，１０２０言語解析部
１０３，１０３Ａ，１０３０声質変化推定部
１０４，１０４Ａ，１０４Ｂ声質変化推定モデル
１０５，１０５Ａ，１０５Ｂ，１０５０声質変化部分判定部
１０６，１０６Ａ代替表現検索部
１０７代替表現データベース
１０８，１０８Ａ，１０８Ｂ表示部
１０９代替表現ソート部
１１０利用者特定情報入力部
１１１スイッチ
１１２話速入力部
１１３経過時間測定部
１１４，１１４Ａ総合判定部
１１５音声入力部
１１６音声認識部
１１７音声分析部
１１８表現変換部
１１９音声合成用言語解析部
１２０音声合成部
１２１音声出力部
１０４０音韻別声質変化情報テーブル
１０９１ソート部

Claims

テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則を記憶する記憶手段と、
テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報と、前記規則とに基づいて、少なくとも１つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定する声質変化推定手段と、
前記言語解析情報と前記声質変化推定手段による推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定する声質変化箇所特定手段とを備える
ことを特徴とする声質変化箇所特定装置。
前記規則は、ユーザの音声について分析および統計的学習をすることにより得られる声質変化の推定モデルである
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
前記声質変化推定手段は、ユーザの複数の発話様態の各々の音声について分析および統計的学習をすることにより得られる、声質変化の種類ごとに設けられる複数の推定モデルを用いて、前記言語解析情報の前記所定の単位ごとに前記各発話様態に基づく声質変化の起こりやすさを推定する
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
前記声質変化推定手段は、複数ユーザにおける複数の音声について分析および統計的学習をすることによりそれぞれ得られる複数の声質変化の推定モデルを用いて、ユーザに対応した推定モデルを選択し、前記言語解析情報の前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、
言語表現の代替表現を記憶する代替表現記憶手段と、
前記声質変化の起こりやすいテキスト中の箇所の代替表現を、前記代替表現記憶手段より検索し、提示する代替表現提示手段とを備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、
言語表現の代替表現を記憶する代替表現記憶手段と、
前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所の代替表現を前記代替表現記憶手段より検索し、当該箇所を検索された代替表現で置換する声質変化箇所置換手段とを備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、前記声質変化箇所置換手段において代替表現に置換されたテキストを読み上げた音声を生成する音声合成手段を備える
ことを特徴とする請求項６に記載の声質変化箇所特定装置。
さらに、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所をユーザに提示する声質変化箇所提示手段を備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、テキストを言語解析し、音韻列を含む言語解析結果の記号列である言語解析情報を出力する言語解析手段を備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
前記声質変化推定手段は、前記言語解析情報のうち、少なくとも、音韻の種類、アクセント句のモーラ数およびアクセント位置を入力として、前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、ユーザのテキストの読み上げ速度を示す話速情報に基づいて、前記テキストの所定位置における前記テキストの先頭からの読み上げの経過時間を計測する経過時間算出手段を備え、
前記声質変化推定手段は、さらに、前記経過時間を考慮することにより、前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、前記テキストの全部または一部に対する、前記声質変化箇所特定手段において特定された声質変化の起こりやすい前記テキストの箇所の割合を判断する声質変化割合判断手段を備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
さらに、
前記テキストをユーザが読み上げた音声を認識する音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、利用者の音声の各音韻単位を含む所定の単位ごとに、声質変化の度合いを分析する音声分析手段と、
前記声質変化箇所特定手段で特定された声質変化の起こりやすい前記テキスト中の箇所と前記音声分析手段での分析結果とに基づいて、声質変化の起こりやすい前記テキスト中の箇所とユーザの音声中で声質変化が起こった箇所との比較を行うテキスト評価手段とを備える
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
前記規則は、音韻ごとに声質変化の起こりやすさの程度を、数値によって表した音韻別声質変化テーブルであり、
前記声質変化推定手段は、前記音韻別声質変化テーブルを参照して、前記言語解析情報の前記所定の単位ごとに、当該所定の単位に含まれる音韻ごとに割り当てられた数値に基づいて、声質変化の起こりやすさを推定する
ことを特徴とする請求項１に記載の声質変化箇所特定装置。
テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
前記テキスト中で、（１）子音が／ｂ／（両唇音でかつ有声破裂子音）であり、かつアクセント句の前から３番目のモーラ、（２）子音が／ｍ／（両唇音でかつ鼻音）であり、かつアクセント句の前から３番目のモーラ、（３）子音が／ｎ／（歯茎音でかつ鼻音）であり、かつアクセント句の先頭モーラ、（４）子音が／ｄ／（歯茎音でかつ有声破裂子音）であり、かつアクセント句の先頭モーラを、声質変化が起こりやすい箇所であると特定し、（５）子音が／ｈ／（喉頭音でかつ無声摩擦音）であり、かつアクセント句の先頭のモーラまたはアクセント句の前から３番目のモーラ、（６）子音が／ｔ／（歯茎音でかつ無声破裂音）であり、かつアクセント句の前から４番目のモーラ、（７）子音が／ｋ／（軟口蓋音でかつ無声破裂音）であり、かつアクセント句の前から５番目のモーラ、（８）子音が／ｓ／（歯音でかつ無声摩擦音）であり、かつアクセント句の前から６番目のモーラを、声質変化が起こりやすい箇所であると特定する声質変化箇所特定手段を備える
ことを特徴とする声質変化箇所特定装置。
テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法であって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも１つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとを含む
ことを特徴とする声質変化箇所特定方法。
テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法のプログラムであって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも１つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとをコンピュータに実行させる
ことを特徴とするプログラム。