JP4114888B2 - 声質変化箇所特定装置 - Google Patents

声質変化箇所特定装置 Download PDF

Info

Publication number
JP4114888B2
JP4114888B2 JP2007525910A JP2007525910A JP4114888B2 JP 4114888 B2 JP4114888 B2 JP 4114888B2 JP 2007525910 A JP2007525910 A JP 2007525910A JP 2007525910 A JP2007525910 A JP 2007525910A JP 4114888 B2 JP4114888 B2 JP 4114888B2
Authority
JP
Japan
Prior art keywords
voice quality
quality change
text
voice
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007525910A
Other languages
English (en)
Other versions
JPWO2007010680A1 (ja
Inventor
勝義 山上
弓子 加藤
信夫 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4114888B2 publication Critical patent/JP4114888B2/ja
Publication of JPWO2007010680A1 publication Critical patent/JPWO2007010680A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、読み上げ用のテキストのうち、声質変化を起こす可能性のある箇所を特定する声質変化箇所特定装置等に関する。
従来提案されているテキスト編集装置、あるいは、テキスト編集方法として、テキストに含まれる表現(内容)に対して、読み手が受け取るであろう印象を評価し、書き手が所望する印象に沿わない部分を、書き手の所望する印象に合致する表現に書き換えるもの(例えば、特許文献1参照。)が知られている。
また、テキスト編集機能を有するテキスト読み上げ装置、あるいは、テキスト読み上げ方法として、読み上げ対象のテキストの読みの発音列の組み合わせに注目し、聞き取りにくい発音の組み合わせとなるテキスト中の表現箇所を、聞き取りやすい表現へ書き換えて読み上げるもの(例えば、特許文献2参照。)がある。
同じく、読み上げ音声の評価を行う方法として、「紛らわしさ」という観点で、音声の発音の組み合わせを評価する方法であって、連続して読み上げられる2つの文字列の仮名読み文字列としての類似度を評価し、ある条件を満たす場合に、2つの文字列を連続して読み上げると、発音が類似しているため紛らわしいとするもの(例えば、特許文献3参照。)がある。
ところで、テキストを読み上げた時の音声に対して評価した結果に基づいて、テキストを編集するという観点では、「聞きやすさ」や「紛らわしさ」とは異なる次のような課題も存在する。
人間がテキストを読み上げる際、読み手が意図しない発声器官の緊張や弛緩の結果、読み上げ音声の音質が部分的に変化することがある。発声器官の緊張や弛緩による音声の音質変化は、それぞれ、読み手の音声の「力み」や「緩み」として聞き手に知覚される。一方、音声における「力み」や「緩み」などの声質変化は、感情や表情を伴った音声において特徴的に観測される現象であり、それらの部分的な声質変化が、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば、非特許文献1参照。)。従って、あるテキストを読み手が読み上げた時に、聞き手は、読み上げているテキストの表現様式(文体・言葉遣い)や内容からとは別に、その読み上げ音声の中に現れる「力み」や「緩み」などの部分的な声質の変化そのものから、音声に対する印象、感情、表情などを受け取ることがある。これら聞き手が受け取る印象が、読み手の意図しないものである場合、あるいは、聞き手が受け取るよう意図した印象と異なる場合には問題となる。例えば、講演用の原稿のテキストを読み上げる場合、読み手が原稿を読み上げている途中で、読み手は冷静かつ落ち着いて読み上げているにも関わらず、読み手の意図とは関係なく声が裏返るという声質の変化が発生すると、聞き手は読み手が心理的に緊張状態にあり落ち着きを失っているという印象をもつ可能性がある。
特開2000−250907号公報(第11ページ、図1) 特開2000−172289号公報(第9ページ、図1) 特許第3587976号公報(第10ページ、図5) 粕谷英樹・楊長盛、"音源から見た声質"、日本音響学会誌51巻11号(1995),pp869−875
しかしながら、従来提案されている装置、あるいは、方法では、テキストを読み上げた時の音声のどの部分で前記声質変化が発生しやすいかの予測、あるいは、前記声質変化が発生するか否かの特定ができないという課題を有している。従って、前記聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができないという課題も有している。さらに、読み手が意図しない印象を与えうる前記声質の部分的変化を発生させやすいテキスト中の箇所を指摘し、かつ、同様の内容を表す他の表現を提示する、あるいは、他の表現に書き換えることができないという課題を有している。
本発明は、上述の課題を解決するためになされたものであり、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定を行なうことができる声質変化箇所特定装置等を提供することを目的とする。
また、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる声質変化箇所特定装置等を提供することも目的とする。
さらに、読み手が意図しない印象を与えうる前記声質の部分的変化を発生させやすいテキスト中の箇所を指摘し、かつ、同様の内容を表す他の表現を提示する、あるいは、他の表現に書き換えることができる声質変化箇所特定装置等を提供することも目的とする。
本発明のある局面に係る声質変化箇所特定装置は、テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報に基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定する声質変化推定手段と、前記言語解析情報と前記声質変化推定手段による推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定する声質変化箇所特定手段とを備える。
この構成によると、テキスト中の声質変化が起こりやすい箇所が特定される。したがって、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定が可能な声質変化箇所特定装置を提供することができる。
好ましくは、前記声質変化推定手段は、同一ユーザの複数の少なくとも3種類以上の発話様態の各々のについて複数の音声についての分析および統計的学習をすることにより得られる、声質変化の種類ごとに設けられる複数の推定モデルを用いて、各声質変化の種類について、前記言語解析情報の前記所定の単位ごとに前記各発話様態に基づく声質変化の起こりやすさを推定する。
本構成によると、例えば、「力み」、「かすれ」、「感情なし」という3種類の発話様態で発話された音声の分析等を行なうことにより、「力み」および「かすれ」の推定モデルが得られ、2つの推定モデルから、どのような種類の声質変化がどのような箇所で起こるかを特定することができる。また、声質変化が発生した箇所での代替表現への置換も可能となる。
さらに好ましくは、前記声質変化推定手段は、複数ユーザにおける複数の音声について分析および統計的学習をすることによりそれぞれ得られる複数の声質変化の推定モデルを用いて、ユーザに対応した推定モデルを選択し、前記言語解析情報の前記所定の単位ごとに声質変化の起こりやすさを推定する。
このように、利用者ごとに声質変化の推定モデルを持つことにより、声質変化が起こりやすい箇所の特定をより正確に行なうことができる。
さらに好ましくは、上述の声質変化箇所特定装置は、さらに、言語表現の代替表現を記憶する代替表現記憶手段と、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所の代替表現を前記代替表現記憶手段より検索し、当該箇所を検索された代替表現で置換する声質変化箇所置換手段とを備える。
この構成によると、テキスト中の声質変化が起こりやすい箇所が特定され、その箇所が代替表現に変換される。したがって、予め声質変化が起こりにくい代替表現を用意しておくことにより、ユーザが、代替表現に変換されたテキストを読み上げた際に声質変化を起こしにくくなる。
さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記声質変化箇所置換手段において代替表現に置換されたテキストを読み上げた音声を生成する音声合成手段を備える。
この構成によると、音声合成手段が合成する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り(クセ)を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げることができるような音声を生成することができる。
好ましくは、上述の声質変化箇所特定装置は、さらに、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所をユーザに提示する声質変化箇所提示手段を備える。
この構成によると、声質変化の起こりやすい部分が提示されるため、ユーザは、提示された情報に基づいて、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる。
さらに好ましくは、上述の声質変化箇所特定装置は、さらに、ユーザのテキストの読み上げ速度を示す話速情報に基づいて、前記テキストの所定位置における前記テキストの先頭からの読み上げの経過時間を計測する経過時間算出手段を備え、前記声質変化推定手段は、さらに、前記経過時間を考慮することにより、前記所定の単位ごとに声質変化の起こりやすさを推定する。
この構成によると、テキストの読み上げにおいて、読み手の発声器官への読み上げの時間的経過による影響、すなわちのどの疲労等を考慮して、声質変化の起こりやすさを評価し、発生箇所の予測を行うことができる。このため、声質変化が起こりやすい箇所の特定をより正確に行なうことができる。
さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記テキストの全部または一部に対する、前記声質変化箇所特定手段において特定された声質変化の起こりやすい前記テキストの箇所の割合を判断する声質変化割合判断手段を備える。
この構成によると、ユーザは、テキストの全部または一部に対して、どの程度の割合で声質変化が起こる可能性があるかを知ることができる。このため、ユーザは、テキスト読み上げ時の、聞き手が読み上げ音声に対して受け取るであろう声質の部分的な変化に起因する印象を予測することができる。
さらに好ましくは、上述の声質変化箇所特定装置は、さらに、前記テキストをユーザが読み上げた音声を認識する音声認識手段と、前記音声認識手段の音声認識結果に基づいて、利用者の音声の各音韻単位を含む所定の単位ごとに、声質変化の度合いを分析する音声分析手段と、前記声質変化箇所特定手段で特定された声質変化の起こりやすい前記テキスト中の箇所と前記音声分析手段での分析結果とに基づいて、声質変化の起こりやすい前記テキスト中の箇所とユーザの音声中で声質変化が起こった箇所との比較を行うテキスト評価手段とを備える。
この構成によると、読み上げの対象のテキストから予測される声質変化の箇所と、実際にユーザがテキストを読み上げた音声中で声質変化が発生した箇所とを比較することができる。このため、利用者が繰り返し読み上げの練習を重ねることで、声質変化が予測される箇所で声質変化が起こらないようにしようとするときの習熟の度合いを確認することができる。あるいは、利用者が繰り返し読み上げの練習を重ねることで、利用者が意図する印象を聞き手に与えうる声質変化の発生が予測される箇所に関して、利用者の実際の読み上げ音声中の同じ箇所で声質変化が起こるようにしようとするときの習熟の度合いを確認することができる。
さらに好ましくは、前記声質変化推定手段は、音韻ごとに声質変化の起こりやすさの程度を、数値によって表した音韻別声質変化テーブルを参照して、前記言語解析情報の前記所定の単位ごとに、当該所定の単位に含まれる音韻ごとに割り当てられた数値に基づいて、声質変化の起こりやすさを推定する。
この構成によると、推定モデルを用いずとも、予め用意した音韻別声質変化テーブルを使用しても、声質変化の発生しやすさの予測または声質変化が発生するか否かの特定が可能な声質変化箇所特定装置を提供することができる。
なお、本発明は、このような特徴的な手段を備える声質変化部分提示装置として実現することができるだけでなく、声質変化部分提示装置に含まれる特徴的な手段をステップとする声質変化部分提示方法として実現したり、声質変化部分提示装置に含まれる特徴的な手段としてコンピュータを機能させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明によると、従来解決ができなかった、テキストの読み上げ音声に発生しうる部分的な声質変化の箇所および種類の予測および特定という課題を解決し、ユーザである読み手が、テキストの読み上げ音声に発生しうる声質変化の箇所および種類を把握し、読み上げに際して聞き手に与えると予想される読み上げ音声の印象を予測することを可能にし、さらに、実際に読み上げる際に留意すべき箇所を意識して読み上げることができるという効果を有する。
また、所望しない印象を与える声質変化が起こりうるテキスト中の箇所に関わる言語表現に対しては、同様の内容を表す代替表現の提示あるいは同様の内容を表す代替表現への自動変換が可能であるという効果も同時に有する。
さらに、ユーザである読み手が、自分の読み上げ音声中の声質変化箇所の確認、および、当該声質変化箇所とテキストから予測される声質変化の箇所との比較を行えるので、読み手が所望しない声質変化が起こらないように読み上げようと意図する場合、あるいは、適切な箇所での所望の声質変化を伴うように読み上げようと意図する場合に、読み上げの練習を重ねることで、声質変化の使い分けの習熟度をわかりやすく把握することができるという効果を有する。
さらにまた、入力テキストから声質変化が起こりやすい箇所を特定し、その箇所に関わる言語表現を代替表現に置き換えて読み上げることが可能なので、特に、声質変化箇所特定装置が生成する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り(クセ)を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げが可能になるという効果を有する。また、音韻レベルでの声質の変化は、音韻性を損なうことから明瞭度が低下する傾向がある。よって、読み上げ音声の明瞭度を優先させたい場合、声質変化が起こりやすい音韻を含む言語表現をなるべく避けることで、声質変化による明瞭度低下の問題を緩和することが可能であるという効果を有する。
以下、本発明の実施の形態について図面を参照しながら説明する。
(実施の形態1)
本発明の実施の形態1では、テキストに基づいて、声質の変化を推定し、声質が変化する部分の代替表現の候補を利用者に提示するテキスト編集装置について説明する。
図1は、本発明の実施の形態1におけるテキスト編集装置の機能ブロック図である。
図1において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、代替表現検索部106と、代替表現データベース107と、表示部108とを備えている。
テキスト入力部101は、処理対象のテキストを入力するための処理部である。言語解析部102は、テキスト入力部101から入力されたテキストに対して、言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報および構文情報を含む言語解析結果を出力する処理部である。声質変化推定部103は、あらかじめ統計的学習によって得た声質変化推定モデル104を用いて、前記言語解析結果のアクセント句単位ごとに、声質変化の起こりやすさを推定する処理部である。声質変化推定モデル104は、言語解析結果に含まれる各種の情報の一部を入力変数とし、言語処理結果に現れる各音韻の箇所について声質変化の起こりやすさの推定値を目的変数とする推定式と、その推定式に対応づけられた閾値との組み合わせからなるものである。
声質変化部分判定部105は、声質変化推定部103が推定した声質変化の推定値と、対応づけられた閾値とに基づいて、アクセント句単位ごとに声質変化の可能性がある箇所かどうかの判定を行う処理部である。代替表現検索部106は、代替表現データベース107に格納された代替表現セットから、声質変化部分判定部105により声質変化の可能性があると判定されたテキスト中の箇所に関わる言語表現の代替表現を検索し、見つかった代替表現のセットを出力する処理部である。表示部108は、入力されたテキスト全体の表示、および、声質変化部分判定部105が声質変化の可能性があると判定したテキスト中箇所のハイライト表示、および、代替表現検索部106が出力する代替表現のセットの表示を行う表示装置である。
このようなテキスト編集装置は、例えば、図2に示すようなコンピュータシステム上に構築されるものである。図2は、本発明の実施の形態1におけるテキスト編集装置を構築したコンピュータシステムの例を示す図である。
このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204とを含むシステムである。図1の声質変化推定モデル104、および、代替表現データベース107は、本体部201にセットされるCD―ROM207内,本体部201が内蔵するハードディスク(メモリ)206内,あるいは回線208で接続された他のシステムのハードディスク205内に格納される。なお、図1のテキスト編集装置における表示部108は、図2のシステムにおけるディスプレイ203に該当し、図1のテキスト入力部101は、図2のシステムにおけるディスプレイ203、キーボード202、および、入力装置204に該当する。
実施の形態1の構成によるテキスト編集装置の動作を説明する前に、声質変化推定部103が声質変化推定モデル104に基づいて、声質変化の起こりやすさを推定する背景を説明する。これまで感情や表情に伴う音声の表現、特に声質の変化については発話全体にわたる一様な変化が注目され、これを実現する技術開発がなされてきた。しかし一方で、感情や表情を伴った音声においては、一定の発話スタイル中であっても、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば、非特許文献1参照。)。本願では、話者の状況や意図などが言語的意味以上にあるいは言語的意味とは別に聴取者に伝えられるような音声の表現を「発話様態」と呼ぶ。発話様態は、発声器官の緊張や弛緩といった解剖学的、生理的状況や、感情や情動といった心理状態や、表情のような心理状態を反映する現象や、発話スタイルや話し方といった話者の態度や行動様式といった概念を含む情報によって決定される。発話様態を決定する情報として、例えば「怒り」、「喜び」、「悲しみ」のような感情の種類などがあげられる。
本願発明に先立って同一テキストに基づいて発話された50文について表情を伴わない音声と感情を伴う音声の調査を行った。図3Aは話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化(あるいは、「力んだ」声質変化に含まれる「ざらざら声(harsh voice)」の声質変化)で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図3Bは話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。図3Cおよび図3Dはそれぞれ図3Aおよび図3Bと同じ話者について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。これら声質変化の発生頻度は子音の種類によって偏りがあり、例えば「t」「k」「d」「m」「n」あるいは子音無しの場合には発生頻度が高く、「p」「ch」「ts」「f」などでは発生頻度が低い。図3Aおよび図3Bに示された2名の話者についてのグラフを比較すると、上記の子音の種類による声質変化の発生頻度の偏りの傾向は同じであることがわかる。話者に共通する偏りがあることは、人間が読み上げようとするテキストの読みの音韻列に対して、声質変化が発声しうる箇所は音韻の種類等の情報から推定できる可能性を示している。
図4は図3A〜図3Dと同一のデータから統計的学習手法の1つである数量化II類を用いて作成した推定式により、例1「じゅっぷんほどかかります。」と例2「あたたまりました」について「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されるモーラを推定した結果を示したものである。自然発話音声において声質変化を伴って発声されたモーラ、および、推定式により声質変化の発声が予測されたモーラのそれぞれについて、かな書きの下に線分を引いて示した。図4は結果学習用データの各モーラについて、モーラに含まれる子音の種類および母音の種類あるいは音韻のカテゴリといった音韻の種類を示す情報とアクセント句内のモーラ位置の情報を独立変数とし、「力んだ」声質、あるいは、「ざらざら声(harsh voice)」の声質が発生したか否かの2値を従属変数として、数量化II類により推定式を作成し、学習用データの声質変化の発生箇所に対する正解率が約75%になるように閾値を決定した場合の推定結果であり、声質変化の発声箇所は音韻の種類やアクセントにかかわる情報から高精度に推定可能であることを示している。
次に先に述べたように構成されたテキスト編集装置の動作を図5に従って説明する。図5は、本発明の実施の形態1におけるテキスト編集装置の動作を示すフローチャートである。
最初に、言語解析部102は、テキスト入力部101から受け取った入力テキストに対して、形態素解析、構文解析、読み生成、アクセント句処理という一連の言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する(S101)。
次に、声質変化推定部103は、アクセント句単位で、声質変化推定モデル104のもつ音韻ごとの声質変化の推定式の説明変数として前記言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する(S102)。本実施の形態では、「力み」の声質変化について判定するものとする。推定式は、声質変化を判定しようとする音韻ごとに、「力み」の声質変化が発生するか否かの2値を従属変数とし、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化II類により作成したものである。「力み」の声質変化が発生するか否かの判定閾値は、学習用データの特殊音声の発生位置に対する正解率が約75%になるように前記推定式の値に対して設定されているものとする。
図6は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。ここでは、声質変化として「力み」を選択した場合について説明する。
まず、学習用の音声データ中の各モーラについて、推定式の独立変数として、子音の種類と、母音の種類と、アクセント句中の正順位置とが設定される(S2)。また、上述の各モーラについて、推定式の従属変数として、「力み」の声質変化が発生しているか否かを2値で表した変数が設定される(S4)。次に、各独立変数のカテゴリ重みとして、子音の種類毎の重み、母音の種類毎の重みおよびアクセント句中の正順位置ごとの重みが、数量化II類に従い、算出される(S6)。また、各独立変数のカテゴリ重みを音声データ中の各モーラの属性条件に当てはめることにより、「力み」の声質変化の発生のし易さである「力み易さ」が算出される(S8)。
図7は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフであり、「力み易さ」は、「−5」から「5」までの数値で示されており、数値が小さいほど、発声した際に力みやすいと推定される。ハッチングを施した棒グラフは、実際に発声した際に「力み」の声質変化が生じたモーラにおける頻度を示しており、ハッチングを施していない棒グラフは、実際に発声した際に「力み」の声質変化が生じなかったモーラにおける頻度を示している。
このグラフにおいて、実際に「力み」の声質変化が発生したモーラ群と「力み」の声質変化が発生しなかったモーラ群との「力み易さ」の値が比較され、「力み」の声質変化が発生したモーラ群と「力み」の声質変化が発生しなかったモーラ群との両群の正解率が共に75%を超えるように、「力み易さ」から、「力み」の声質変化が発生すると判断するための閾値が設定される(S10)。
以上のようにして、「怒り」に特徴的に現れる「力み」の音色に対応する推定式と判定閾値とが求められる。
なお、「喜び」や「悲しみ」といった他の感情に対応する特殊音声についても、特殊音声ごとに同様に推定式と閾値とが設定されているものとする。
次に、声質変化部分判定部105は、声質変化推定部103が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、声質変化推定部103が用いた推定式に対応付けられた声質変化推定モデル104の閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する(S103)。
引き続き、声質変化部分判定部105は、ステップS103で声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を、声質変化の可能性の高いテキスト中の表現箇所として特定する(S104)。
次に、代替表現検索部106は、ステップ104で特定された表現箇所に対して、代替表現データベース107から代替表現となりうる代替表現セットを検索する(S105)。
図8は、代替表現データベースに格納される代替表現のセットの例を示したものである。図8に示すセット301〜303は、それぞれ互いに代替表現として同様の意味をもつ言語表現文字列のセットである。代替表現検索部106は、ステップ104で特定された表現箇所の代替表現文字列を検索キーとして、各代替表現のセットに含まれる代替表現の文字列との文字列照合を行い、ヒットする文字列が含まれる代替表現セットを出力する。
次に、表示部108は、ステップS104で特定されたテキスト中の声質変化が起こりやすい箇所をハイライト表示して利用者に提示すると同時に、ステップS105で検索された代替表現のセットを利用者に提示する(S106)。
図9は、表示部108がステップS106において、図2のディスプレイ203に表示する画面内容の例を示す図である。表示エリア401は、入力テキスト、および、ステップS104で表示部108が声質変化の起こりやすい箇所の提示としてハイライト表示した箇所4011および4012を表示するエリアである。表示エリア402はステップS105で代替表現検索部106により検索された声質変化が起こりやすいテキスト中箇所の代替表現のセットを表示するエリアである。利用者が、エリア401内でハイライト表示された箇所4011または4012にマウスポインタ403をあわせ、マウス204のボタンをクリックすると、代替表現のセットの表示エリア402に、クリックしたハイライト箇所の言語表現の代替表現のセットが表示される。図9の例では、「掛かります」というテキスト中の箇所4011がハイライト表示されており、箇所4011をクリックしたときに、代替表現のセットの表示エリア402に、「掛かります、必要です、要します」という代替表現のセットが表示されている様子を表している。この代替表現のセットは、「掛かります」というテキスト中の箇所の言語表現文字列をキーにして代替表現検索部106が、代替表現セットを検索した結果、図8の代替表現データベースの代替表現のセット302が照合し、代替表現結果として表示部108へ出力された結果である。
かかる構成によれば、入力テキストの言語解析結果のアクセント句単位に対して、声質変化推定部103が、声質変化推定モデル104の推定式を用いて、声質変化の起こりやすさの推定値を求め、声質変化部分判定部105が、一定の閾値を超える推定値をもつアクセント句単位のテキスト中箇所を声質変化が起こりやすい箇所として特定するので、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという特別の効果を有するテキスト編集装置を提供することができる。
さらに、かかる構成によれば、声質変化部分判定部105が、一定の閾値を超える推定値をもつ代替表現検索部106が、声質変化が発生しうる箇所の判定結果に基づいて、該当の箇所に関わるテキスト中の表現と同様の内容をもつ代替表現を検索するので、テキストの読み上げ音声中で声質変化が起こりやすい箇所の代替表現を提示できるという特別な効果を有するテキスト編集装置を提供できる。
なお、本実施の形態において、声質変化推定モデル104は、「力み」の声質変化を判別するものとして構成したが、「かすれ」、「裏声」など他の種類の声質変化についても同様に声質変化推定モデル104が構成可能である。
例えば、図10Aは、話者1について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフであり、図10Bは、話者2について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。このような、「かすれ」の声質変化においても、2名の話者についてのグラフを比較すると、声質変化の発生頻度の偏りの傾向は同じであることが分かる。すなわち、例えば、「t」、「k」、「h」などの場合に「かすれ」の声質変化の発生頻度が高く、「ts」、「f」、「z」、「v」、「n」、「w」などの場合に「かすれ」の声質変化の発生頻度が低い。このため、「かすれ」の声質変化についても当該声質変化を判別するための声質変化推定モデルを構成することが可能である。
なお、本実施の形態において、声質変化推定部103は、声質変化の起こりやすさの推定をアクセント句単位で行うよう構成したが、これはモーラ単位、形態素単位、文節単位、文単位など、テキストを分割する他の単位ごとに推定するようにしてもよい。
なお、本実施の形態において、声質変化推定モデル104の推定式は、声質変化が発生するか否かの2値を従属変数として、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化II類により作成し、声質変化推定モデル104の判定閾値は、学習用データの声質変化の発生位置に対する正解率が約75%になるように前記推定式の値に対して設定したが、声質変化推定モデル104は他の統計的学習モデルに基づく推定式、および、判別閾値であってもよい。例えば、Support Vector Machine による2値判別学習モデルを用いても本実施の形態と同等の効果をもつ声質変化の判別を行うことが可能である。Support Vector Machineは周知の技術である。このため、その詳細な説明はここでは繰り返さない。
なお、本実施の形態において、表示部108が声質変化の起こりやすい箇所の提示として、テキスト中の該当箇所のハイライト表示をもちいたが、これは他の視覚的に判別可能な手段によってもよい。例えば、該当箇所の文字フォントの色やサイズが他の箇所と異なるように表示するなどでもよい。
なお、本実施の形態において、代替表現検索部106が検索した代替表現のセットは、表示部108において、代替表現データベース107に格納されていた順序で、あるいは、ランダムな順序で提示されるが、代替表現検索部106の出力をある基準に従って並べ替えて、表示部108で表示するようにしてもよい。
図11は、前記並べ替えを行うように構成したテキスト編集装置の機能ブロック図である。図11に示すように、テキスト編集装置は、図1に示したテキスト編集装置の構成において代替表現検索部106の出力をソートする代替表現ソート部109を代替表現検索部106と表示部108との間に挿入した構成としている。図11において、代替表現ソート部109以外の処理部については、図1を用いて説明したテキスト編集装置の処理部と同様の機能および動作を有するものである。このため、同一の参照番号を付与している。図12は、代替表現ソート部109の内部構成を示す機能ブロック図である。代替表現ソート部109は、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、ソート部1091とから構成される。図12においても、既に機能および動作について説明済みの処理部と同一の機能および動作をもつ処理部には、同一の参照番号および名称を付与している。
図12において、ソート部1091は、声質変化推定部103が出力する推定値の大小比較によって代替表現のセットに含まれる複数の代替表現を推定値の大きい順にソートする。
図13は、代替表現ソート部109の動作を示すフローチャートである。言語解析部102は、代替表現セットの各代替表現の文字列を言語解析する(S201)。次に、声質変化推定部103は、声質変化推定モデル104の推定式を用いて、ステップS201で求められた各代替表現の言語解析結果ごとに、声質変化の起こりやすさの推定値を計算する(S202)。次に、ソート部1091は、ステップS202において代替表現ごとに求められた推定値の大小比較により代替表現のソートを行う(S203)。
図14は、図11に示したテキスト編集装置の全体の動作を表すフローチャートである。図14に示されるフローチャートは、図5に示したフローチャートにおいて、ステップS105とステップS106との間に、代替表現のセットをソートする処理(S107)が挿入されたものである。ステップS107の処理は、図13を参照して説明したものである。また、ステップS107以外の処理については、図5を参照して説明した処理と同一であるため、同一の番号を付与している。
かかる構成によれば、図1に示したテキスト編集装置の効果に加え、声質変化が起こりやすい箇所に関わる言語表現に対して、複数の代替表現がある場合に、代替表現ソート部109によって、声質変化の起こりやすさという観点で代替表現を序列化して提示できる。このため、利用者が声質変化の観点から原稿を修正することが容易にできるという、さらなる特別の効果を有するテキスト編集装置を提供できる。
(実施の形態2)
本発明の実施の形態2では、実施の形態1に示したテキスト編集装置の構成を基本とし、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。
図15は、本実施の形態2におけるテキスト編集装置の機能ブロック図である。
図15において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103Aと、声質変化推定モデルA104Aと、声質変化推定モデルB104Bと、声質変化部分判定部105Aと、代替表現検索部106Aと、代替表現データベース107と、表示部108Aとを備えている。
図15において、図1を参照して説明した実施の形態1におけるテキスト編集装置と同一の機能をもつブロックについては、図1と同じ参照番号を付与している。同一の機能をもつブロックについては、説明を省略する。図15において、声質変化推定モデルA104Aと声質変化推定モデルB104Bとは、それぞれ、声質変化推定モデル104と同じ手順で推定式と閾値とを構成したものであるが、それぞれ、異なる種類の声質変化について統計的学習を行って作成したものである。声質変化推定部103Aは、声質変化推定モデルA104A、および、声質変化推定モデルB104Bを用いて、言語解析部102が出力する言語解析結果のアクセント句単位ごとに、声質変化の種類別に声質変化の起こりやすさを推定する。
声質変化部分判定部105Aは、声質変化推定部103が声質変化の種類別に推定した声質変化の推定値と、その推定に用いた推定式に対応付けられた閾値とに基づいて、声質変化の種類別に声質変化の可能性があるかどうかの判定を行う。代替表現検索部106Aは、声質変化部分判定部105Aが、声質変化の種類別に声質変化の可能性があると判定したテキスト中箇所に関わる言語表現の代替表現を検索し見つかった代替表現のセットを出力する。表示部108Aは、入力されたテキストの全体を表示し、また、声質変化部分判定部105Aが声質変化があると判定したテキスト中箇所を、声質変化の種類別に表示し、さらに代替表現検索部106Aが出力する代替表現のセットの表示を行う。
このようなテキスト編集装置は、図2に示すようなコンピュータシステム上に構築されるものである。このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204とを含むシステムである。図1の声質変化推定モデルA104A、声質変化推定モデルB104B、および、代替表現データベース107は、本体部201にセットされるCD−ROM207内、本体部201が内蔵するハードディスク(メモリ)206内、あるいは回線208で接続された他のシステムのハードディスク205内に格納される。なお、図15のテキスト編集装置における表示部108Aは、図2のシステムにおけるディスプレイ203に該当し、図15のテキスト入力部101は、図2のシステムにおけるディスプレイ203、キーボード202、および、入力装置204に該当する。
次に先に述べたように構成されたテキスト編集装置の動作を図16に従って説明する。図16は、本発明の実施の形態2におけるテキスト編集装置の動作を示すフローチャートである。図16において、実施の形態1におけるテキスト編集装置と同一の動作ステップについては、図5と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。
言語解析処理(S101)を行ったのち、声質変化推定部103Aは、アクセント句単位で、声質変化推定モデルA104A、および、声質変化推定モデルB104Bのもつ音韻ごとの声質変化の推定式の説明変数として前記言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する(S102A)。本実施の形態では、声質変化推定モデルA104Aで「力み」の声質変化について判定し、声質変化推定モデルB104Bで「かすれ」の声質変化について判定するものとする。推定式は、声質変化を判定しようとする音韻ごとに、「力み」あるいは「かすれ」の声質変化が発生するか否かの2値を従属変数とし、当該音韻の子音、母音、アクセント句内のモーラ位置を独立変数として数量化II類により作成したものである。「力み」あるいは「かすれ」の声質変化が発生するか否かの判定閾値は、学習用データの特殊音声の発生位置に対する正解率が約75%になるように前記推定式の値に対して設定されているものとする。
次に、声質変化部分判定部105Aは、声質変化推定部103Aが出力する各アクセント句単位の声質変化の種類ごとの声質変化の起こりやすさの推定値と、声質変化推定部103Aが用いた推定式に対応付けられた声質変化推定モデルA104Aの閾値あるいは声質変化推定モデルB104Bの閾値とを比較し、閾値を越えるアクセント句に対して、声質変化の種類別に声質変化が起こりやすいというフラグを付与する(S103A)。
引き続き、声質変化部分判定部105Aは、ステップS103Aで、声質変化の種類別に声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化の可能性の高いテキスト中の表現箇所として特定する(S104A)。
次に、代替表現検索部106Aは、ステップS104Aで特定された各表現箇所に対して、代替表現データベース107から代替表現セットを検索する(S105)。
次に、表示部108Aは、テキストの表示の各行の下部に、テキストの1行と同じ長さをもつ横長の矩形領域を声質変化の種類ごとに表示し、ステップS104Aで特定されたテキスト中の声質変化が起こりやすい箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が起こりにくい箇所を示す矩形領域と区別可能な色に変更して、声質の種類ごとに声質変化が起こりやすいテキスト中の箇所を利用者に提示する。それと同時に、表示部108Aは、ステップS105で検索された代替表現のセットを利用者に提示する(S106A)。
図17は、表示部108AがステップS106Aにおいて、図2のディスプレイ203に表示する画面内容の例を示す図である。表示エリア401Aは、入力テキスト、および、ステップS104Aで表示部108Aが声質変化の起こりやすい箇所の提示として、声質変化の種類ごとに声質変化が起こりやすいテキスト中の箇所に対応した部分の色を変化させて表示した矩形領域4011Aおよび4012Aを表示するエリアである。表示エリア402は、ステップS105で代替表現検索部106Aにより検索された声質変化が起こりやすいテキスト中箇所の代替表現のセットを表示するエリアである。利用者が、表示エリア401A内で矩形領域4011Aおよび4012Aの色を変えて表示されている部分にマウスポインタ403をあわせ、マウス204のボタンをクリックすると代替表現のセットの表示エリア402に、クリックした矩形領域部分に対応するテキスト中の箇所の言語表現の代替表現のセットが表示されるようにする。図17の例では、「力み」の声質変化が起こりやすい箇所として「掛かります」と「温まりました」とが提示されており、「かすれ」の声質変化が起こりやすい箇所として「ほど」が提示されている。また、図17の例では、矩形領域4011Aの色が変化している部分をクリックしたときに、代替表現のセットの表示エリア402に、「掛かります、必要です、要します」という代替表現のセットが表示されている様子を表している。
かかる構成によれば、声質変化推定部103Aが、声質変化推定モデルA104A、および、声質変化推定モデルB104Bを用いて、異なる声質変化の種類について、同時に、声質変化の起こりやすさの推定値を求め、声質変化部分判定部105Aが、声質変化の種類ごとに設定された閾値を超える推定値をもつアクセント句単位のテキスト中箇所を声質変化が起こりやすい箇所として特定する。このため、本発明の実施の形態1のテキスト編集装置が有する単一の声質変化種類について、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという効果に加え、複数の異なる声質変化について、テキストの読み上げ音声中で声質変化が発生しうる箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという各別の効果を有するテキスト編集装置を提供することができる。
さらに、かかる構成によれば、声質変化部分判定部105Aが、声質変化の種類ごとに声質変化が発生しうる箇所と判定した結果に基づいて、代替表現検索部106が、該当の箇所に関わるテキスト中の表現と同様の内容をもつ代替表現を検索する。このため、テキストの読み上げ音声中で声質変化が起こりやすい箇所の代替表現を、声質変化の種類ごとに区別して提示できるという特別な効果を有するテキスト編集装置を提供できる。
なお、本実施の形態において、声質変化推定モデルA104A、および、声質変化推定モデルB104Bの2つのモデルを用いて、「力み」および「かすれ」の2種類の異なる声質変化について判別可能な構成としたが、声質変化推定モデルの数、および、対応する声質変化の種類は2つ以上であっても、同様の効果を有するテキスト編集装置が提供可能である。
(実施の形態3)
本発明の実施の形態3では、実施の形態1および2に示したテキスト編集装置の構成を基本とし、複数の利用者の各々について、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。
図18は、本実施の形態3におけるテキスト編集装置の機能ブロック図である。
図18において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103Aと、声質変化推定モデルセット1(1041)と、声質変化推定モデルセット2(1042)と、声質変化部分判定部105Aと、代替表現検索部106Aと、代替表現データベース107と、表示部108Aと、利用者特定情報入力部110と、スイッチ111とを備えている。
図18において、実施の形態1におけるテキスト編集装置、および、実施の形態2におけるテキスト編集装置と同一の機能をもつブロックについては、図1、および、図15と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図18において、声質変化推定モデルセット1(1041)、声質変化推定モデルセット2(1042)は、それぞれ、内部に2種類の声質変化推定モデルをもつ。
声質変化推定モデルセット1(1041)は、声質変化推定モデル1A(1041A)と声質変化推定モデル1B(1041B)とからなるが、この2つの声質変化推定モデルは、本発明の実施の形態2のテキスト編集装置における、声質変化推定モデル104A、および、声質変化推定モデル104Bを構成したのと同様の手順により、同一人物の音声に対して、それぞれの声質変化推定モデルが異なる種類の声質変化について判別可能なモデルとして構成したものである。同様に、声質変化推定モデルセット2(1042)についても、内部の声質変化推定モデル(声質変化推定モデル2A(1042A)および声質変化推定モデル2B(1042B))を、それぞれ同一人物の音声に対して、異なる種類の声質変化について判別可能なモデルとして構成したものとする。本実施の形態では、声質変化推定モデルセット1が利用者1に、声質変化推定モデルセット2が利用者2に対応して構成されているものとする。
さらに図18において、利用者特定情報入力部110は、利用者を特定する識別情報を利用者からの入力により受け取り、入力された利用者の識別情報に応じて、スイッチ111を切り替えて、識別情報から特定される利用者に対応した声質変化推定モデルセットを、声質変化推定部103A、および、声質変化部分判定部105Aが使用するようにする。
このように構成されたテキスト編集装置の動作を図19に従って説明する。図19は、本実施の形態3におけるテキスト編集装置の動作を示すフローチャートである。図19において、実施の形態1におけるテキスト編集装置、あるいは、実施の形態2におけるテキスト編集装置と同一の動作を行うステップについては、図5、および、図16と同じ番号を付与している。同一の動作を行うステップ部分については、詳細な説明を省略する。
まず、利用者特定情報入力部110から入力された利用者の識別情報に従って、スイッチ111を操作し、識別情報から特定される利用者に対応した声質変化推定モデルセットを選択する(S100)。本実施の形態では、利用者1の利用者識別情報が入力され、スイッチ111により声質変化推定モデルセット1(1041)が選択されたものとする。
次に、言語解析部102が、言語解析処理を行う(S101)。声質変化推定部103Aが、声質変化推定モデルセット1(1041)にある声質変化推定モデル1A(1041A)、および、声質変化推定モデル1B(1041B)の推定式の説明変数として、言語解析部102の出力である言語解析結果を適用し、アクセント句内の各音韻について声質変化の推定値を求め、アクセント句内の音韻の推定値のうち最大の値をもつ推定値を、当該アクセント句の声質変化の起こりやすさの推定値として出力する(S102A)。本実施の形態3においても、実施の形態2での声質変化推定モデルの設定と同様に、声質変化推定モデル1A(1041A)、および、声質変化推定モデル1B(1041B)に、それぞれ、「力み」と「かすれ」の声質変化の発生についての判定が可能なように推定式、および、判定閾値を設定するものとする。
これ以後のステップS103A、ステップS104A、ステップS105、ステップS106Aの動作は、実施の形態1のテキスト編集装置、あるいは、実施の形態2のテキスト編集装置の動作ステップと同じであるので説明を省略する。
かかる構成によれば、利用者の識別情報によって、スイッチ111により、利用者の読み上げ音声に対する推定に関して最適な声質変化の推定モデルセットを選択できるので、実施の形態1、および、実施の形態2のテキスト編集装置が有する効果に加え、複数の利用者が、入力されたテキストの読み上げ音声の声質変化の起こりやすい箇所を、最も精度よく、予測、あるいは、特定できるという格別の効果を有するテキスト編集装置を提供できる。
なお、本実施の形態において、声質変化推定モデルセットは2つで、このうち1つをスイッチ111で選択する構成としたが、声質変化推定モデルセットは3つ以上であっても、先に述べたのと同様の効果を有するものである。
なお、本実施の形態において、声質変化推定モデルセットに含まれる声質変化推定モデルは2つであるように構成したが、声質変化推定モデルセットごとに1つ以上の任意個の個数の声質変化推定モデルをもつように構成してもよい。
(実施の形態4)
本発明の実施の形態4では、テキストを利用者が読み上げる際に、時間が経過するほど、のどの疲労等により声質の変化が起こりやすいという知見に基づいて構成されたテキスト編集装置について説明する。すなわち、利用者がテキストを読み進めるにつれて、声質変化が生じやすくなるようなテキスト編集装置について説明する。
図20は、本実施の形態4におけるテキスト編集装置の機能ブロック図である。
図20において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105Bと、代替表現検索部106と、代替表現データベース107と、表示部108Bと、話速入力部112と、経過時間測定部113と、総合判定部114とを備えている。
図20において、実施の形態1におけるテキスト編集装置と同一の機能をもつブロックについては、図1と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図20において、話速入力部112は、利用者が入力する話速に関する指定を平均モーラ時間長の単位の値(例えば、1秒間あたりのモーラ数)に変換し出力する。経過時間測定部113は、話速入力部112が出力した話速の値を、経過時間を計算する際の話速のパラメータとしてセットする。声質変化部分判定部105Bは、声質変化推定部103が推定した声質変化の推定値と、対応づけられた閾値とに基づいて、アクセント単位ごとに声質変化の可能性がある箇所かどうかの判定を行う。
総合判定部114は、声質変化部分判定部105Bが、各アクセント句単位について判定した声質変化が起こりやすいかどうかの判定結果を受け取り蓄積し、すべての判定結果を総合し、テキスト全体での声質変化の起こりやすい箇所の割合に基づいて、テキスト全体を読み上げた際の音声の声質変化の生じやすさを示す評価値を算出する。表示部108Bは、入力されたテキストの全体を表示するとともに、声質変化部分判定部105が声質変化があると判定したテキスト中の箇所をハイライト表示する。さらに、表示部108Bは、代替表現検索部106が出力する代替表現のセットの表示をするとともに、総合判定部114が算出した声質変化に関する評価値を表示する。
このようなテキスト編集装置は、例えば、図2に示すようなコンピュータシステム上に構築されるものである。このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204とを含むシステムである。図1の声質変化推定モデル104、および、代替表現データベース107は、本体部201にセットされるCD−ROM207内、本体部201が内蔵するハードディスク(メモリ)206内、あるいは回線208で接続された他のシステムのハードディスク205内に格納される。なお、図1のテキスト編集装置における表示部108は、図2のシステムにおけるディスプレイ203に該当し、図1のテキスト入力部101、および、話速入力部112は、図2のシステムにおけるディスプレイ203、および、キーボード202、および、入力装置204に該当する。
次に先に述べたように構成されたテキスト編集装置の動作を図21に従って説明する。図21は、本実施の形態4におけるテキスト編集装置の動作を示すフローチャートである。図21において、実施の形態1におけるテキスト編集装置と同一の動作ステップについては、図5と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。
まず、話速入力部112は、利用者の指定による話速の入力を平均モーラ時間長の単位の値に変換し出力し、経過時間測定部113は、経過時間を算出する際の話速パラメータとして話速入力部112の出力結果をセットする(S108)。
言語解析処理を行った後(S101)、経過時間測定部113は、言語解析結果に含まれる読みのモーラ列の先頭からのモーラ数をカウントし、話速パラメータと除算することでテキスト中の各モーラ位置における先頭からの読み上げ時の経過時間を算出する(S109)。
声質変化推定部103で、アクセント句単位の声質変化の起こりやすさの推定値を求める(S102)。本実施の形態においては、声質変化推定モデル104を、「かすれ」の声質変化が判定可能なものとして統計的学習により構成しているものとする。声質変化部分判定部105Bでは、ステップ109で経過時間測定部113によって算出された当該アクセント句の先頭モーラ位置における読み上げ時の経過時間の値に基づいて、アクセント句ごとに声質変化の起こりやすいさの推定値と比較する閾値を修正した上で、当該アクセント句の声質変化の起こりやすさの推定値との比較を行い、閾値を超える推定値が付与されたアクセント句を声質変化が起こりやすいというフラグを付与する(S103B)。ここで、読み上げの経過時間の値による閾値の修正は、元の閾値をS、修正後の閾値をS’、経過時間をT(分)として、
S’=S(1+T)/(1+2T)
とあらわされる式によって行うものとする。すなわち、時間が経過するにつれ、閾値が小さくなるように、閾値の修正が行なわれる。これは、上述したように、利用者がテキストを読み進めるにつれ、のどの疲労等により声質の変化が起こりやすくなるため、時間の経過につれ閾値を小さくし、声質変化が起こりやすいというフラグを付与しやすくするためである。
ステップS104、ステップS105を経て、総合判定部114は、声質変化部分判定部105Bが出力するアクセント句単位の声質変化の起こりやすさのフラグの状態を、テキスト全体のアクセント句にわたって蓄積し、テキスト中のアクセント句数に占める声質変化の起こりやすいフラグを付与されたアクセント句数の割合を算出する(S110)。
最後に、表示部108Bは、経過時間測定部113で計測された読み上げ時の経過時間をテキストの一定範囲ごとに表示し、ステップS104で特定されたテキスト中の声質変化が起こりやすい箇所をハイライト表示し、ステップS105で検索された代替表現のセットを表示し、同時に、総合判定部114で算出された、声質変化が起こりやすいアクセント句の割合を表示する(S106C)。
図22は、表示部108BがステップS106Cにおいて、図2のディスプレイ203に表示する画面内容の例を示す図である。表示エリア401Bは、入力テキスト、ステップS109で算出された入力テキストを指定された話速で読み上げたときの経過時間4041〜4043、および、ステップS104で表示部108が声質変化の起こりやすい箇所の提示としてハイライト表示した箇所4011を表示するエリアであり、表示エリア402は、ステップS105で代替表現検索部106により検索された声質変化が起こりやすいテキスト中の箇所の代替表現のセットを表示するエリアである。利用者が、表示エリア401B内でハイライト表示された箇所4011にマウスポインタ403をあわせ、マウス204のボタンをクリックすると代替表現のセットの表示エリア402に、クリックしたハイライト箇所の言語表現の代替表現のセットが表示されるようにする。表示エリア405は、総合判定部114が算出した「かすれ」の声質変化が起こりやすいアクセント句の割合を表示するエリアである。図22の例では、「6分ほど」というテキスト中の箇所がハイライト表示されており、当該箇所4011をクリックしたときに、代替表現のセットの表示エリア402に、「6分ぐらい、6分程度」という代替表現のセットが表示されている様子を表している。
「6分ほど」の読み上げ音声が「かすれ」と判定されるのは、ハ行の音が「かすれ」の変化を起こしやすいことに起因する。「ロップンホド」に含まれる「ホ」の音に関する「かすれ」の声質変化の起こりやすいさの推定値は、「ロップンホド」に含まれる他のモーラよりも大きく、「ホ」の音に関する声質変化の推定値が、このアクセント句を代表する声質変化の起こしやすさの推定値となる。しかし、「10分ほど」の読み上げ音声も「ホ」の音を含むが、この箇所については声質変化が起きやすいという判定にはなっていない。
先に示した閾値の修正式
S’=S(1+T)/(1+2T)
によれば、時間の経過にしたがって、つまり、Tの増大にしたがって、修正後の閾値S’がS/2に向かって減少していくことになる。今、「6分ほど」と「10分ほど」との声質変化の起こりやすさの推定値がS*3/5であったとすると、読み始めから2分を経過するまでは修正後の閾値S’がS*3/5よりも大きいので、声質変化の起こりやすい箇所とは判定されないが、2分を超えると閾値S’がS*3/5よりも小さくなるので、声質変化が起こりやすい箇所と判定される。したがって、図22に示す例では、同じ声質変化の起こりやすさの推定値をもつアクセント句でも経過時間がある値より大きい場合にだけ声質変化の起こりやすい箇所として判断されるケースを表している。
かかる構成によれば、経過時間測定部113によって利用者が入力した話速にもとづいて、声質変化部分判定部105Bにおいて、判定の基準の閾値を修正するので、実施の形態1のテキスト編集装置が有する効果に加え、利用者の想定する話速での読み上げで、時間経過に対する声質変化の起こりやすさへの影響を考慮した上で、声質変化が起こりやすい箇所の予測、あるいは、特定ができるという格別の効果を有するテキスト編集装置を提供できる。
なお、本実施の形態においては、時間経過に対して閾値が減少するような閾値の修正式としたが、声質変化の種類によって、声質変化の起こりやすさと時間経過との関係を分析した結果にもとづいた閾値の修正式を用いてもよく、推定の精度を高める上で好ましい構成である。例えば、話し始めは、のどの緊張等により声質変化が生じやすいものの、ある一定の時間まで話し進めると、のどがリラックスして声質変化が起こりにくくなり、さらに話し進めると、のどの疲労等により、再度声質変化が生じやすくなるような場合を想定し、閾値の修正式を決定するようにしてもよい。
(実施の形態5)
本発明の実施の形態5では、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なうことができるテキスト編集装置について説明する。
図23は、本実施の形態5におけるテキスト評価装置の機能ブロック図である。
図23において、テキスト評価装置は、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なう装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、表示部108Cと、総合判定部114Aと、音声入力部115と、音声認識部116と、音声分析部117とを備えている。
図23において、実施の形態1におけるテキスト編集装置と同一の機能をもつブロックについては、図1と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。図23において、音声入力部115は、利用者がテキスト入力部101に入力したテキストを読み上げた音声を装置内部に音声信号として取り込む。音声認識部116は、言語解析部102が出力する言語解析結果の読みの音韻列の情報を用いて、音声入力部115から取り込んだ音声信号に対して、音声信号と音韻列とのアライメント処理を行い、取り込んだ音声信号の音声を認識する。音声分析部117は、利用者の読み上げの音声信号に対して、あらかじめ種類を指定した声質変化が起きているかどうかをアクセント句単位で判定する。
総合判定部114Aは、音声分析部117が判定した各アクセント句単位で読み上げ音声の声質変化が起きていたかどうかの判定結果と、声質変化部分判定部105が判定した声質変化が起きやすい箇所の判定結果との比較を行い、声質変化が起こりやすいと判定された箇所における、利用者の読み上げ音声に現れた声質変化が起きた割合を算出する。表示部108Cは、入力されたテキストの全体を表示するとともに、声質変化部分判定部105が声質変化があると判定したテキスト中の箇所をハイライト表示する。さらに、表示部108Cは、総合判定部114Aが算出した推定された声質変化の起こりやすい箇所に対する、利用者の読み上げ音声の声質変化が起こった箇所の割合を同時に表示する。
このようなテキスト評価装置は、例えば、図24に示すようなコンピュータシステム上に構築されるものである。図24は、本実施の形態5におけるテキスト評価装置を構築したコンピュータシステムの例を示す図である。
このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204とを含むシステムである。図23の声質変化推定モデル104、および、代替表現データベース107は、本体部201にセットされるCD―ROM207内,本体部201が内蔵するハードディスク(メモリ)206内、あるいは回線208で接続された他のシステムのハードディスク205内に格納される。なお、図23のテキスト編集装置における表示部108Cは、図24のシステムにおけるディスプレイ203に該当し、図23のテキスト入力部101は、図23のシステムにおけるディスプレイ203、キーボード202、および、入力装置204に該当する。また、図23の音声入力部115は、マイク209に該当する。スピーカ210は、音声入力部115が適正なレベルで音声信号を取り込めたかの確認のための音声再生用として利用される。
次に先に述べたように構成されたテキスト評価装置の動作を図25に従って説明する。図25は、本実施の形態5におけるテキスト評価装置の動作を示すフローチャートである。図25において、実施の形態1におけるテキスト編集装置と同一の動作ステップについては、図5と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。
ステップS101での言語解析処理を経て、音声入力部115から取り込んだ利用者の音声信号に対して、言語解析部102が出力した言語解析結果に含まれる読みの音韻列とのアライメント処理を音声認識部116が行う(S110)。
次に音声分析部117は、利用者の読み上げの音声信号に対して、あらかじめ判別する声質変化の種類を特定した音声分析手法によって、特定の声質変化が起きているかどうかをアクセント句単位で判定し、声質変化が発声しているアクセント句に対して声質変化が発生した箇所のフラグを付与する(S111)。本実施の形態においては、音声分析部117は、「力み」の声質変化について音声分析可能な状態に設定されているものとする。非特許文献1の記述によれば、「力み」の声質変化として分類される「ざらざら声(harsh voice)」が持つ著しい特徴が、基本周波数の不規則性、具体的には、ジッタ(周期の速い変動成分)やシマ(振幅の速い変動成分)にあるとされている。したがって、「力み」の声質変化を判定可能な具体的な手法として、音声信号のピッチ抽出を行い、基本周波数のジッタ成分とシマ成分を抽出し、両成分が一定以上の強度であるかどうかで、「力み」の声質変化が生じているか否かを判定する手法が構成可能である。さらに、ここで声質変化推定モデル104についても、「力み」の声質変化が判定可能なように推定式および閾値が設定されているものとする。
引き続き、音声分析部117は、ステップS111で、声質変化が起こったというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化が発生したテキスト中の表現箇所として特定する(S112)。
次に、ステップS102において、テキストの言語解析結果のアクセント句単位の声質変化の起こりやすさの推定が行なわれた後、声質変化部分判定部105Bは、声質変化推定部103が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、声質変化推定部103が用いた推定式に対応付けられた声質変化推定モデル104の閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する(S103B)。
引き続き、声質変化部分判定部105は、ステップS103Bで、声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化が起こりやすいテキスト中の表現箇所として特定する(S104)。
次に、総合判定部114Aは、ステップS112において特定した声質変化が発生したテキスト中の複数の表現箇所のうち、ステップ104で特定された声質変化が起こりやすいテキスト中の複数の表現箇所と文字列の範囲として重なりがある部分の表現箇所の個数をカウントする。また、総合判定部114Aは、ステップS112において特定した声質変化が発生したテキスト中の表現箇所の個数に対する、前記重複箇所の個数の割合を算出する(S113)。
次に、表示部108Cは、テキストを表示し、テキスト表示の各行の下部に、テキストの1行と同じ長さをもつ横長の矩形領域を2つ設け、一方の矩形領域に対して、ステップS104で特定されたテキスト中の声質変化が起こりやすい箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が起こりにくい箇所を示す矩形領域と区別可能な色に変更し、同じくもう一方の矩形領域に対して、ステップS112で特定された利用者の読み上げ音声中の声質変化が発生した箇所の文字列の範囲が占める水平方向の位置および長さと同じ矩形領域を声質変化が発生していない箇所を示す矩形領域と区別可能な色に変更し、ステップ113で算出された声質変化が起こりやすいと推定された箇所のうち、利用者の読み上げ音声で声質変化が発生した割合を表示する(S106D)。
図26は、表示部108CがステップS106Dにおいて、図24のディスプレイ203に表示する画面内容の例を示す図である。表示エリア401Cは、入力テキスト、ステップS106Dで表示部108Cが声質変化の起こりやすい箇所の提示として、テキスト中の箇所に対応した部分の色を変化させて表示した矩形領域部分4013、および、同じくステップS106Dで表示部108Cが利用者の読み上げ音声で声質変化が発生した箇所の提示として、テキスト中箇所に対応した部分の色を変化させて表示した矩形領域部分4014の表示を行うためのエリアである。表示エリア406は、ステップS106Dにおいて表示部108Cが、ステップ113で算出された声質変化が起こりやすいと推定された箇所のうち、利用者の読み上げ音声で声質変化が発生した割合を表示するためのエリアである。図26の例では、「力み」の声質変化が起こりやすい箇所として「掛かります」と「温まりました」とが提示されており、実際に利用者の読み上げ音声の分析から判定された声質変化が発声した箇所として「掛かります」が提示されている。声質変化が予測された箇所が2箇所に対して、実際に声質変化が生じた箇所で予測された箇所と重なるのが1箇所であるので、声質変化の発生割合として「1/2」が提示されている。
かかる構成によれば、ステップS110、ステップS111、ステップS112の一連の動作により、利用者の読み上げ音声中の声質変化の発声箇所を判定し、さらに、ステップS113において総合判定部114Aが、ステップS104においてテキストの読み上げ音声中で声質変化が発生しやすいと判定された箇所のうち、ステップS112で実際に利用者が読み上げた音声中で実際に声質変化が発生した箇所と重なる箇所の割合を算出するので、本発明の実施の形態1のテキスト編集装置が有する単一の声質変化種類について、読み上げようとするテキストのみから、テキストの読み上げ音声中で声質変化が発生し得る箇所を予測、あるいは、特定し、利用者が確認可能な形で提示できるという効果に加え、利用者が実際に読み上げた音声での声質変化の発生箇所の確認ができ、なおかつ、テキストから予測される声質変化が起こりやすい箇所に留意した上でテキストを読み上げた場合に、実際に留意した箇所で声質変化の発生がどれだけ抑えられたのかについての評価を、予測箇所に対する発生箇所の割合として提示することができるという格別の効果を有するテキスト評価装置を提供できる。
また、利用者は、本実施の形態に示したテキスト評価装置を、声質変化が起こらないような発声を訓練するための発声訓練装置として使用することもできる。すなわち、図26に示した表示エリア401Cにおいて、声質変化が発生するであろう推定箇所と、実際に発生した発生箇所とを対比して見ることができる。このため、利用者は、推定箇所において、声質変化が起こらないように発生訓練をすることができる。また、表示エリア406に表示された数値は、利用者の得点に相当する。すなわち、当該数値が小さいほど、声質変化が起こらないように発声できたことを示している。
(実施の形態6)
本発明の実施の形態6では、上述した実施の形態1〜5とは異なる声質変化の推定方法を備えるテキスト編集装置について説明する。
図27は、本実施の形態6におけるテキスト編集装置のうち、声質変化推定方法の処理に関連する主要な構成部分のみを示す機能ブロック図である。
図27において、テキスト編集装置は、テキスト入力部1010と、言語解析部1020と、声質変化推定部1030と、音韻別声質変化情報テーブル1040と、声質変化部分判定部1050とを含む。なお、テキスト編集装置は、さらに、声質変化が起こっている箇所を判定した後の処理を実行する処理部(図示せず)を含む。これらの処理部については、実施の形態1〜5に示したものと同様であり、例えば、テキスト編集装置は、実施の形態1の図1に示した代替表現検索部106、代替表現データベース107および表示部108を含んでいてもよい。
図27において、テキスト入力部1010は、処理対象のテキストを入力するための処理を行う処理部である。言語解析部1020は、テキスト入力部1010で入力されたテキストに対して、言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する処理部である。声質変化推定部1030は、音韻別に声質変化の発生の度合いを有限の値をもつ数値として表現した音韻別声質変化情報テーブル1040を参照し、前記言語解析結果のアクセント句単位ごとに、声質変化の起こりやすさの推定値を求める処理を行う。声質変化部分判定部1050は、声質変化推定部1030が推定した声質変化の推定値と、一定の閾値とに基づいて、アクセント単位ごとに声質変化の可能性がある箇所かどうかの判定処理を行う。
図28は、音韻別声質変化情報テーブル1040の一例を示す図である。音韻別声質変化情報テーブル1040は、モーラの子音部ごとに声質変化の度合いがどの程度あるのかを示した表であり、例えば、子音「p」における声質変化の度合いは「0.1」であることが示されている。
次に先に述べたように構成されたテキスト編集装置における声質変化の推定方法について図29に従って説明する。図29は、本実施の形態6における声質変化推定方法の動作を示すフローチャートである。
最初に、テキスト入力部1010から受け取った入力テキストに対して、言語解析部1020が、形態素解析、構文解析、読み生成、アクセント句処理という一連の言語解析処理を行い、読みの情報である音韻列、アクセント句区切り情報、アクセント位置情報、品詞情報、構文情報を含む言語解析結果を出力する(S1010)。
次に、声質変化推定部1030は、S1010で出力された言語処理結果のアクセント句単位に対して、音韻別声質変化情報テーブル1040に格納されている音韻ごとの声質変化の度合いを表現した数値に従って、アクセント句に含まれる音韻ごとに声質変化の度合いの数値を求める。さらに、アクセント句内の音韻で最大の声質変化の度合いの数値を、当該アクセント句を代表する声質変化の起こりやすさの推定値とする(1020)。
次に、声質変化部分判定部1050では、声質変化推定部1030が出力する各アクセント句単位の声質変化の起こりやすさの推定値と、所定の値に設定された閾値とを比較し、閾値を越えるアクセント句に対して声質変化が起こりやすいというフラグを付与する(S1030)。引き続き、声質変化部分判定部1050は、ステップS1030で、声質変化が起こりやすいというフラグが付与されたアクセント句をカバーする最短の範囲の形態素列からなるテキスト中の文字列部分を声質変化の可能性の高いテキスト中の表現箇所として特定する(S1040)。
かかる構成によれば、声質変化推定部1030が、音韻別声質変化情報テーブル1040に記述された音韻ごとの声質変化の起こりやすさの度合いの数値から、アクセント句単位の声質変化の起こりやすさの推定値を求め、声質変化部分判定部1050が、その推定値と所定の閾値との比較により、閾値を越える推定値をもつアクセント句を声質変化が起こりやすい箇所として特定するので、読み上げようとするテキストのみから、そのテキストを読み上げた音声中の声質変化が起こりやすい箇所を予測、あるいは、特定することができる具体的方法を提供できる。
(実施の形態7)
本発明の実施の形態7では、入力されたテキストのうち、声質変化が生じやすい表現を声質変化が生じにくい表現に変換したり、逆に声質変化が生じにくい表現を声質変化が生じやすい表現に変換したりした後に、変換後のテキストの合成音声を生成するテキスト読み上げ装置について説明する。
図30は、本実施の形態7におけるテキスト読み上げ装置の機能ブロック図である。
図30において、テキスト読み上げ装置は、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、代替表現検索部106と、代替表現データベース107と、代替表現ソート部109と、表現変換部118と、音声合成用言語解析部119と、音声合成部120と、音声出力部121とを備えている。
図30において、実施の形態1におけるテキスト編集装置と同一の機能をもつブロックについては、図1、あるいは、図11と同じ番号を付与している。同一の機能をもつブロックについては、説明を省略する。
図30において、表現変換部118は、声質変化部分判定部105が声質変化が起こりやすいと判定したテキスト中の箇所を、代替表現ソート部109が出力したソート済みの代替表現セットの中で、一番声質変化の起こりにくい代替表現で置換する。音声合成用言語解析部119は、表現変換部118が出力する置換済みのテキストを言語解析する。音声合成部120は、音声合成用言語解析部119の出力である言語解析結果に含まれる発音情報、アクセント句情報、ポーズ情報に基づいて、音声信号を合成する。音声出力部121は、音声合成部120で合成された音声信号を出力する。
このようなテキスト読み上げ装置は、例えば、図31に示すようなコンピュータシステム上に構築されるものである。図31は、本実施の形態7におけるテキスト読み上げ装置を構築したコンピュータシステムの例を示す図である。このコンピュータシステムは、本体部201と、キーボード202と、ディスプレイ203と、入力装置(マウス)204とを含むシステムである。図30の声質変化推定モデル104、および、代替表現データベース107は、本体部201にセットされるCD−ROM207内、本体部201が内蔵するハードディスク(メモリ)206内、あるいは回線208で接続された他のシステムのハードディスク205内に格納される。なお、図30のテキスト入力部101は、図31のシステムにおけるディスプレイ203、キーボード202、および、入力装置204に該当する。スピーカ210は、図30の音声出力部121に該当する。
次に先に述べたように構成されたテキスト読み上げ装置の動作を図32に従って説明する。図32は、本実施の形態7におけるテキスト読み上げ装置の動作を示すフローチャートである。図32において、実施の形態1におけるテキスト編集装置と同一の動作ステップについては、図5、あるいは、図14と同じ番号を付与している。同一の動作であるステップについては、詳しい説明を省略する。
ステップS101〜ステップS107までは、図14に示されている実施の形態1におけるテキスト編集装置と同一の動作ステップである。入力テキストは図33に示すように「10分ほど掛かります。」であったとする。図33は、本実施の形態7におけるテキスト読み上げ装置で入力テキストが置換される動作に関わる中間データの例を表したものである。
その次のステップS114として、表現変換部118は、声質変化部分判定部105がステップS104で特定した声質変化が起こりやすい箇所を、代替表現検索部106が検索して得た、その箇所の代替表現セットのうち、代替表現ソート部109が出力するソート済みの代替表現のセットから、最も声質変化が起こりにくい代替表現を1つ選んで置換する(S114)。図33に示すように、ソート済み代替表現セットは、声質変化の起こりやすさの度合いによってソートされており、ここでは「要します」がもっとも声質変化が起こりにくい代替表現である。次に、ステップS114で置換されたテキストを、音声合成用言語解析部119が言語解析し、読みの情報、アクセント句区切り、アクセント位置、ポーズ位置、ポーズ長を含む言語解析結果を出力する(S115)。図33に示すように、入力テキストの「10分ほど掛かります。」の「掛かります」が「要します」に置換される。最後に、音声合成部120が、ステップS115で出力された言語解析結果に基づいて音声信号を合成し、音声出力部121から音声信号を出力する(S116)。
かかる構成によれば、声質変化推定部103と声質変化部分判定部105とにより、入力テキスト中の声質変化が起こりやすい箇所を特定し、代替表現検索部106と代替表現ソート部109と表現変換部118との一連の動作により、声質変化が起こりやすいテキスト中箇所を、声質変化が起こりにくい代替表現へ自動的に置換して、入力テキストを読み上げることができるので、テキスト読み上げ装置内の音声合成部120が発声する音声の声質が音韻によっては「力み」や「かすれ」などの声質変化が起こってしまうという声質バランス上の偏り(クセ)を有する場合、その偏りによる声質の不安定さをできるだけ回避しながら読み上げが可能になるという効果を有するテキスト読み上げ装置を提供することができる。
なお、本実施の形態では、声質変化の発生する可能性のある表現を声質変化の発声しにくい表現に置換して音声の読み上げを行なっているが、逆に、声質変化の発生する可能性が低い表現を声質変化の発声しやすい表現に置換して音声の読み上げを行うようにしてもよい。
なお、上述の実施の形態では、声質変化の起こりやすさ推定および声質が変化する部分の判定を推定値に基づいて行っていたが、推定式において閾値を超えやすいモーラが予め分かっている場合には、そのモーラでは常に声質変化が発生すると判定してもよい。
例えば、声質変化が「力み」の場合には、以下の(1)〜(4)に示すモーラで、推定式が閾値を超えやすい。
(1)子音が/b/(両唇音でかつ有声破裂子音)であり、かつアクセント句の前から3番目のモーラ
(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ
(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ
(4)子音が/d/(歯茎音でかつ有声破裂子音)であり、かつアクセント句の先頭モーラ
また、声質変化が「かすれ」の場合には、以下の(5)〜(8)に示すモーラで、推定式が閾値を超えやすい。
(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ
(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ
(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ
(8)子音が/s/(歯音でかつ無声摩擦音)であり、かつアクセント句の前から6番目のモーラ
以上のように、子音とアクセント句との関係で声質変化が発生し易いテキスト中の位置を特定することができるが、英語や中国語の場合には、子音とアクセント句との関係以外の関係を用いて声質変化が発生し易い位置を特定することが可能である。例えば、英語の場合には、子音とストレス句の音節数またはストレス位置との関係を用いて声質変化が発生し易いテキスト中の位置を特定することが可能である。また、中国語の場合には、子音と、四声のピッチの上昇・下降パターンまたは呼気段落に含まれる音節数との関係を用いて声質変化が発生し易いテキスト中の位置を特定することが可能である。
また、上述の実施の形態におけるテキスト編集装置をLSI(集積回路)で実現することもできる。例えば、実施の形態1におけるテキスト編集装置をLSIで実現すると、言語解析部102と、声質変化推定部103と、声質変化部分判定部105と、代替表現検索部106との全てを1つのLSIで実現することができる。または、それぞれの処理部を1つのLSIで実現することができる。さらに、それぞれの処理部を複数のLSIで実現することもできる。
声質変化推定モデル104と、代替表現データベース107とは、LSIの外部の記憶装置により実現してもよいし、LSIの内部に備えられたメモリにより実現してもよい。LSIの外部の記憶装置で当該データベースを実現する場合には、インターネット経由でデータベースのデータを取得しても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限られるものではなく、専用回路または汎用プロセッサにより実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて音声合成装置を構成する処理部の集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
さらに、上述の実施の形態におけるテキスト編集装置をコンピュータで実現することもできる。図34は、コンピュータの構成の一例を示す図である。コンピュータ1200は、入力部1202と、メモリ1204と、CPU1206と、記憶部1208と、出力部1210とを備えている。入力部1202は、外部からの入力データを受け付ける処理部であり、キーボード、マウス、音声入力装置、通信I/F部等から構成される。メモリ1204は、プログラムやデータを一時的に保持する記憶装置である。CPU1206は、プログラムを実行する処理部である。記憶部1208は、プログラムやデータを記憶する装置であり、ハードディスク等からなる。出力部1210は、外部にデータを出力する処理部であり、モニタやスピーカ等からなる。
例えば、実施の形態1におけるテキスト編集装置をコンピュータで実現した場合には、言語解析部102と、声質変化推定部103と、声質変化部分判定部105と、代替表現検索部106とは、CPU1206上で実行されるプログラムに対応し、声質変化推定モデル104と、代替表現データベース107とは、記憶部1208に記憶される。また、CPU1206で計算された結果は、メモリ1204や記憶部1208に一旦記憶される。メモリ1204や記憶部1208は、声質変化部分判定部105等の各処理部とのデータの受け渡しに利用されてもよい。また、本実施の形態に係る音声合成装置をコンピュータに実行させるためのプログラムは、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、不揮発性メモリ等に記憶されていてもよいし、インターネットを経由してコンピュータ1200のCPU1206に読み込まれてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明のテキスト編集装置は、声質の観点からテキストを評価し、修正する機能を提供可能な構成をもつので、ワードプロセッサ装置、および、ワードプロセッサソフトウェアなどへの応用が有用である。他にも、人間が読み上げることを前提としたテキストを編集する機能をもつ装置、あるいは、ソフトウェアなどへの応用が可能である。
さらに、本発明のテキスト評価装置は、利用者がテキストの言語表現から予測される声質変化しやすい箇所に留意しながらテキストを読み上げることを可能にし、さらに、利用者が実際にテキストを読み上げた音声の声質変化箇所を確認し、声質変化がどれぐらい起こっているのかを評価することを可能にする構成をもつので、スピーチの訓練装置、語学の学習装置などへの応用が有用である。他にも、読み上げの練習を補助するような機能をもつ装置などへの応用が可能である。
本発明のテキスト読み上げ装置は、声質変化が起こりやすい言語表現を代替表現に置き換えて音声として読み上げることが可能なので、内容を保持したまま声質変化が少なく、明瞭度を高く保った音質でテキスト読み上げが可能な構成をもつので、ニュースなどの読み上げ装置などへの応用が有用である。他にも、テキストの内容には直接関係せず、読み上げ音声の声質変化に起因して聞き手が受け取る影響を排除したい場合の読み上げ装置などへの応用が可能である。
図1は、本発明の実施の形態1におけるテキスト編集装置の機能ブロック図である。 図2は、本発明の実施の形態1におけるテキスト編集装置を構築したコンピュータシステムを示す図である。 図3Aは、話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図3Bは、話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図3Cは、話者1について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図3Dは、話者2について「弱の怒り」の感情表現を伴って音声中の「力んだ」声質変化、あるいは、「ざらざら声(harsh voice)」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図4は、実際の音声において観察された声質変化の発生位置と推定された声質変化の発生位置の時間位置の比較を示す図である。 図5は、本発明の実施の形態1におけるテキスト編集装置の動作を示すフローチャートである。 図6は、推定式および判定閾値を作成する方法について説明するためのフローチャートである。 図7は、横軸に「力み易さ」、縦軸に「音声データ中のモーラ数」を示したグラフである。 図8は、本発明の実施の形態1におけるテキスト編集装置の代替表現データベースの例を示す図である。 図9は、本発明の実施の形態1におけるテキスト編集装置の画面表示例を示す図である。 図10Aは、話者1について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図10Bは、話者2について「朗らか」な感情表現を伴った音声中の「かすれ」の声質変化で発声されたモーラの子音の種類別の頻度分布を示したグラフである。 図11は、本発明の実施の形態1におけるテキスト編集装置の機能ブロック図である。 図12は、本発明の実施の形態1におけるテキスト編集装置の代替表現ソート部の内部機能ブロック図である。 図13は、本発明の実施の形態1におけるテキスト編集装置の代替表現ソート部の内部動作を示すフローチャートである。 図14は、本発明の実施の形態1におけるテキスト編集装置の動作を示すフローチャートである。 図15は、本発明の実施の形態2におけるテキスト編集装置の機能ブロック図である。 図16は、本発明の実施の形態2におけるテキスト編集装置の動作を示すフローチャートである。 図17は、本発明の実施の形態2におけるテキスト編集装置の画面表示例を示す図である。 図18は、本発明の実施の形態3におけるテキスト編集装置の機能ブロック図である。 図19は、本発明の実施の形態3におけるテキスト編集装置の動作を示すフローチャートである。 図20は、本発明の実施の形態4におけるテキスト編集装置の機能ブロック図である。 図21は、本発明の実施の形態4におけるテキスト編集装置の動作を示すフローチャートである。 図22は、本発明の実施の形態4におけるテキスト編集装置の画面表示例を示す図である。 図23は、本発明の実施の形態5におけるテキスト評価装置の機能ブロック図である。 図24は、本発明の実施の形態5におけるテキスト評価装置を構築したコンピュータシステムを示す図である。 図25は、本発明の実施の形態5におけるテキスト評価装置の動作を示すフローチャートである。 図26は、本発明の実施の形態5におけるテキスト評価装置の画面表示例を示す図である。 図27は、本実施の形態6におけるテキスト編集装置のうち、声質変化推定方法の処理に関連する主要な構成部分のみを示す機能ブロック図である。 図28は、音韻別声質変化情報テーブルの一例を示す図である。 図29は、本発明の実施の形態6における声質変化推定方法の処理動作を示すフローチャートである。 図30は、本発明の実施の形態7におけるテキスト読み上げ装置の機能ブロック図である。 図31は、本発明の実施の形態7におけるテキスト読み上げ装置を構築したコンピュータシステムを示す図である。 図32は、本発明の実施の形態7におけるテキスト読み上げ装置の動作を示すフローチャートである。 図33は、本発明の実施の形態7におけるテキスト読み上げ装置の動作を説明するための中間データ例を示す図である。 図34は、コンピュータの構成の一例を示す図である。
符号の説明
101,1010 テキスト入力部
102,1020 言語解析部
103,103A,1030 声質変化推定部
104,104A,104B 声質変化推定モデル
105,105A,105B,1050 声質変化部分判定部
106,106A 代替表現検索部
107 代替表現データベース
108,108A,108B 表示部
109 代替表現ソート部
110 利用者特定情報入力部
111 スイッチ
112 話速入力部
113 経過時間測定部
114,114A 総合判定部
115 音声入力部
116 音声認識部
117 音声分析部
118 表現変換部
119 音声合成用言語解析部
120 音声合成部
121 音声出力部
1040 音韻別声質変化情報テーブル
1091 ソート部

Claims (17)

  1. テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
    音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則を記憶する記憶手段と、
    テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報と、前記規則とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定する声質変化推定手段と、
    前記言語解析情報と前記声質変化推定手段による推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定する声質変化箇所特定手段とを備える
    ことを特徴とする声質変化箇所特定装置。
  2. 前記規則は、ユーザの音声について分析および統計的学習をすることにより得られる声質変化の推定モデルである
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  3. 前記声質変化推定手段は、ユーザの複数の発話様態の各々の音声について分析および統計的学習をすることにより得られる、声質変化の種類ごとに設けられる複数の推定モデルを用いて、前記言語解析情報の前記所定の単位ごとに前記各発話様態に基づく声質変化の起こりやすさを推定する
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  4. 前記声質変化推定手段は、複数ユーザにおける複数の音声について分析および統計的学習をすることによりそれぞれ得られる複数の声質変化の推定モデルを用いて、ユーザに対応した推定モデルを選択し、前記言語解析情報の前記所定の単位ごとに声質変化の起こりやすさを推定する
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  5. さらに、
    言語表現の代替表現を記憶する代替表現記憶手段と、
    前記声質変化の起こりやすいテキスト中の箇所の代替表現を、前記代替表現記憶手段より検索し、提示する代替表現提示手段とを備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  6. さらに、
    言語表現の代替表現を記憶する代替表現記憶手段と、
    前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所の代替表現を前記代替表現記憶手段より検索し、当該箇所を検索された代替表現で置換する声質変化箇所置換手段とを備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  7. さらに、前記声質変化箇所置換手段において代替表現に置換されたテキストを読み上げた音声を生成する音声合成手段を備える
    ことを特徴とする請求項6に記載の声質変化箇所特定装置。
  8. さらに、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所をユーザに提示する声質変化箇所提示手段を備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  9. さらに、テキストを言語解析し、音韻列を含む言語解析結果の記号列である言語解析情報を出力する言語解析手段を備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  10. 前記声質変化推定手段は、前記言語解析情報のうち、少なくとも、音韻の種類、アクセント句のモーラ数およびアクセント位置を入力として、前記所定の単位ごとに声質変化の起こりやすさを推定する
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  11. さらに、ユーザのテキストの読み上げ速度を示す話速情報に基づいて、前記テキストの所定位置における前記テキストの先頭からの読み上げの経過時間を計測する経過時間算出手段を備え、
    前記声質変化推定手段は、さらに、前記経過時間を考慮することにより、前記所定の単位ごとに声質変化の起こりやすさを推定する
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  12. さらに、前記テキストの全部または一部に対する、前記声質変化箇所特定手段において特定された声質変化の起こりやすい前記テキストの箇所の割合を判断する声質変化割合判断手段を備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  13. さらに、
    前記テキストをユーザが読み上げた音声を認識する音声認識手段と、
    前記音声認識手段の音声認識結果に基づいて、利用者の音声の各音韻単位を含む所定の単位ごとに、声質変化の度合いを分析する音声分析手段と、
    前記声質変化箇所特定手段で特定された声質変化の起こりやすい前記テキスト中の箇所と前記音声分析手段での分析結果とに基づいて、声質変化の起こりやすい前記テキスト中の箇所とユーザの音声中で声質変化が起こった箇所との比較を行うテキスト評価手段とを備える
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  14. 前記規則は、音韻ごとに声質変化の起こりやすさの程度を、数値によって表した音韻別声質変化テーブルであり、
    前記声質変化推定手段は、前記音韻別声質変化テーブルを参照して、前記言語解析情報の前記所定の単位ごとに、当該所定の単位に含まれる音韻ごとに割り当てられた数値に基づいて、声質変化の起こりやすさを推定する
    ことを特徴とする請求項1に記載の声質変化箇所特定装置。
  15. テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
    前記テキスト中で、(1)子音が/b/(両唇音でかつ有声破裂子音)であり、かつアクセント句の前から3番目のモーラ、(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ、(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ、(4)子音が/d/(歯茎音でかつ有声破裂子音)であり、かつアクセント句の先頭モーラを、声質変化が起こりやすい箇所であると特定し、(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ、(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ、(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ、(8)子音が/s/(歯音でかつ無声摩擦音)であり、かつアクセント句の前から6番目のモーラを、声質変化が起こりやすい箇所であると特定する声質変化箇所特定手段を備える
    ことを特徴とする声質変化箇所特定装置。
  16. テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法であって、
    音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
    前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとを含む
    ことを特徴とする声質変化箇所特定方法。
  17. テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法のプログラムであって、
    音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
    前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2007525910A 2005-07-20 2006-06-05 声質変化箇所特定装置 Expired - Fee Related JP4114888B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005209449 2005-07-20
JP2005209449 2005-07-20
PCT/JP2006/311205 WO2007010680A1 (ja) 2005-07-20 2006-06-05 声質変化箇所特定装置

Publications (2)

Publication Number Publication Date
JP4114888B2 true JP4114888B2 (ja) 2008-07-09
JPWO2007010680A1 JPWO2007010680A1 (ja) 2009-01-29

Family

ID=37668567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007525910A Expired - Fee Related JP4114888B2 (ja) 2005-07-20 2006-06-05 声質変化箇所特定装置

Country Status (4)

Country Link
US (1) US7809572B2 (ja)
JP (1) JP4114888B2 (ja)
CN (1) CN101223571B (ja)
WO (1) WO2007010680A1 (ja)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JP4856560B2 (ja) * 2007-01-31 2012-01-18 株式会社アルカディア 音声合成装置
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
JP4914295B2 (ja) * 2007-06-21 2012-04-11 パナソニック株式会社 力み音声検出装置
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8145490B2 (en) * 2007-10-24 2012-03-27 Nuance Communications, Inc. Predicting a resultant attribute of a text file before it has been converted into an audio file
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
JP4769336B2 (ja) * 2009-07-03 2011-09-07 パナソニック株式会社 補聴器の調整装置、方法およびプログラム
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US20120016674A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9082414B2 (en) * 2011-09-27 2015-07-14 General Motors Llc Correcting unintelligible synthesized speech
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9251809B2 (en) * 2012-05-21 2016-02-02 Bruce Reiner Method and apparatus of speech analysis for real-time measurement of stress, fatigue, and uncertainty
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6413220B2 (ja) * 2013-10-15 2018-10-31 ヤマハ株式会社 合成情報管理装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9642087B2 (en) * 2014-12-18 2017-05-02 Mediatek Inc. Methods for reducing the power consumption in voice communications and communications apparatus utilizing the same
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9653096B1 (en) * 2016-04-19 2017-05-16 FirstAgenda A/S Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106384599B (zh) * 2016-08-31 2018-09-04 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3485586B2 (ja) * 1991-09-30 2004-01-13 三洋電機株式会社 音声合成方法
JPH0772900A (ja) 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP3384646B2 (ja) * 1995-05-31 2003-03-10 三洋電機株式会社 音声合成装置及び読み上げ時間演算装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3287281B2 (ja) * 1997-07-31 2002-06-04 トヨタ自動車株式会社 メッセージ処理装置
JP3587976B2 (ja) 1998-04-09 2004-11-10 日本電信電話株式会社 情報出力装置および方法と情報出力プログラムを記録した記録媒体
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP3706758B2 (ja) 1998-12-02 2005-10-19 松下電器産業株式会社 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2000250907A (ja) 1999-02-26 2000-09-14 Fuji Xerox Co Ltd 文書処理装置および記録媒体
EP1256932B1 (en) 2001-05-11 2006-05-10 Sony France S.A. Method and apparatus for synthesising an emotion conveyed on a sound
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
JP3738011B2 (ja) * 2001-11-20 2006-01-25 株式会社ジャストシステム 情報処理装置、情報処理方法、及び情報処理プログラム
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法

Also Published As

Publication number Publication date
US20090259475A1 (en) 2009-10-15
CN101223571A (zh) 2008-07-16
CN101223571B (zh) 2011-05-18
JPWO2007010680A1 (ja) 2009-01-29
US7809572B2 (en) 2010-10-05
WO2007010680A1 (ja) 2007-01-25

Similar Documents

Publication Publication Date Title
JP4114888B2 (ja) 声質変化箇所特定装置
JP4559950B2 (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP5120826B2 (ja) 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
Ten Bosch Emotions, speech and the ASR framework
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
JP4085130B2 (ja) 感情認識装置
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JPWO2006123539A1 (ja) 音声合成装置
GB2376394A (en) Speech synthesis apparatus and selection method
JP6720520B2 (ja) 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP2019179064A (ja) 音声合成装置、音声モデル学習装置およびそれらのプログラム
JP6806619B2 (ja) 音声合成システム、音声合成方法、及び音声合成プログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP3846300B2 (ja) 録音原稿作成装置および方法
Gibbon et al. Duration and speed of speech events: A selection of methods
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
JP2006330060A (ja) 音声合成装置、音声処理装置、およびプログラム
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
Meijs Generating natural narrative speech for the Virtual Storyteller
Mixdorff et al. Duration modeling in a vietnamese text-to-speech system

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4114888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees