JP5398295B2 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法及び音声処理プログラム Download PDF

Info

Publication number
JP5398295B2
JP5398295B2 JP2009033030A JP2009033030A JP5398295B2 JP 5398295 B2 JP5398295 B2 JP 5398295B2 JP 2009033030 A JP2009033030 A JP 2009033030A JP 2009033030 A JP2009033030 A JP 2009033030A JP 5398295 B2 JP5398295 B2 JP 5398295B2
Authority
JP
Japan
Prior art keywords
word
error
utterance
utterance error
error occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009033030A
Other languages
English (en)
Other versions
JP2010190995A (ja
Inventor
紀子 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009033030A priority Critical patent/JP5398295B2/ja
Priority to PCT/JP2009/068244 priority patent/WO2010092710A1/ja
Publication of JP2010190995A publication Critical patent/JP2010190995A/ja
Priority to US13/208,464 priority patent/US8650034B2/en
Application granted granted Critical
Publication of JP5398295B2 publication Critical patent/JP5398295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声処理装置、音声処理方法及び音声処理プログラムに関する。
与えられた文字列を読み上げる音声合成技術は、従来より知られている。そして、従来の音声合成技術では、与えられた文字列を間違わずに読み上げることが求められていた。しかし昨今は、音声合成が利用される用途も広がり、ペットロボットやゲームのキャラクターなど、人格を持ったキャラクターが発声する際にも利用されるようになってきた。例えば、特許文献1では、感情を持つペットロボットがその感情の状態によって合成音の出力を制御する提案がなされている。
しかしながら、音声合成で読み上げられた音声は、自然性の点で人間的でないと思われる場合が多い。それは、音質的な問題や、感情の見えない抑揚などの問題もあるが、絶対に間違えずよどみなく読む点でも、人間的でないと感じられる。
この点に関して、例えば、特許文献2では、吃りのある合成音を容易に生成することができる音声合成装置、特許文献3では、音声波形データ間の適切な個所に適切な長さの無音部分を挿入することにより、自然で違和感のない音声合成を行うことができる音声合成装置、特許文献4では、音として発音しにくい並びになったときに、発音しやすい単語に置き換えることができる音声合成装置がそれぞれ開示されている。
特開2002−268663号公報 特開2002−311979号公報 特開平11−288298号公報 特開2008−185805号公報
しかしながら、特許文献2〜4のいずれも、人間的な発声という点では依然として改善が必要である。
本発明は、上記に鑑みてなされたものであって、文字列を読み上げる際、文字列に表記されているそのままではなく、意図的に発声誤りを起こすことにより、より人間的な発声をすることができる音声処理装置、音声処理方法及び音声処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶発声誤り生起決定情報記憶部と、前記発声誤りを起こす単語ごとに、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段と、文字列を言語的に解析し、単語の列に分割する文字列解析部と、分割された前記単語の各々と前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定部と、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成部と、を備え、前記条件のいずれかに対応付けられた誤りパターンは、前記言い誤りであり、前記発声誤り生起決定部は、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に前記関連語情報から言い誤る単語を付与し、前記音韻列生成部は、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする。
また、本発明は、文字列解析部が、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、発声誤り生起決定部が、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、音韻列生成部が、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、を含み、前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする。
また、本発明は、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、をコンピュータに実行させ、前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成するためのものである
本発明によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報に基づいて、発声誤りを起こすと決定した場合には、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができるので、一律でないように意図的に誤った音声を合成することができ、機械的でない人間的な発声をすることができるという効果を奏する。
図1は、第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図2は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。 図3は、発声誤り生起決定部の動作を示すフローチャートである。 図4は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。 図5は、第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図6は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。 図7は、関連語情報記憶部に記憶されている関連語情報の一例を示す図である。 図8は、発声誤り生起決定部の動作を示すフローチャートである。 図9は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。 図10は、第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図11は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。 図12は、発声誤り生起確率情報記憶部に記憶されている発声誤り生起確率情報の一例を示す図である。 図13は、発声誤り生起決定部の動作を示すフローチャートである。 図14は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。 図15は、発声誤り生起決定部の動作の変形例を示すフローチャートである。 図16は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。 図17は、第4の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図18は、発生誤り生起調整部の動作を示すフローチャートである。 図19は、第5の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図20は、文脈情報記憶部に記憶されている文脈情報の一例を示す図である。 図21は、発声誤り生起決定部の動作を示すフローチャートである。 図22は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。 図23は、第6の実施の形態にかかる音声処理装置の構成を示すブロック図である。 図24は、音韻列生成部の動作を示すフローチャートである。 図25は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。
以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法及び音声処理プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置1は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声(発声)として出力する。さらに、音声処理装置1は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。
ここで、「言い淀み」とは、単語の発声前又は途中に、ポーズ又はフィラー(つなぎ言葉)の発声を行うこととする。また、「言い直し」とは、その単語を完全に又は途中まで発声してから、もう一度発声することとする。さらに、「言い誤り」とは、別の単語を完全に若しくは途中まで発声してから、正しい単語を発声する、又は、そのまま誤った単語を発声したままにすることとする。なお、ここでの「正しい」読み上げとは、文字列に書かれているものをそのまま読むことであり、それ以外の読み方を「発声誤り」とする。文字列にあらかじめ間違えて言い直したりする内容が含まれているものは対象としない。これらは、以後の実施の形態でも同様である。
音声処理装置1は、入力部2、文字列解析部3、発声誤り生起決定部4、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、音韻列生成部7、音声合成部8、及び、出力部9を備えて構成されている。
入力部2は、音声にしたい文字列を入力し、例えばキーボードなどが挙げられる。文字列解析部3は、入力された文字列を、例えば形態素解析などで言語的に解析し、単語列に分割する。発声誤り生起決定部4は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こすかどうかを決定する。なお、発声誤り生起決定部4の詳しい動作については、後ほど詳しく説明する。
発声誤り生起決定情報記憶部5は、発声誤り生起決定部4が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報を記憶する。図2は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の一例を示す図である。図2の(a)は、発声誤り生起決定情報が日本語の場合を示し、図2の(b)は、発声誤り生起決定情報が英語の場合を示している。発声誤り生起決定情報には、発声誤りを起こす条件と、その誤りパターンが記述されており、本例では、見出し語の条件と品詞の条件により、発声誤りを起こった場合の動作(誤りパターン)が決定される。なお、図中の「*」は、ワイルドカードであり、全ての接続詞について発声誤りを起こすことを意味する。
生起決定情報記憶制御部6は、発声誤り生起決定情報記憶部5が発声誤り生起決定情報を記憶するように制御する。音韻列生成部7は、発声誤り生起決定部4で決定された情報により、発声誤り又は正しい発声のための音韻列を生成する。音声合成部8は、生成された音韻列を音声データに変換する。出力部9は、音声データを音声として出力し、例えばスピーカなどが挙げられる。
音声処理装置1の音声処理の仕組みについて、まずその概要を説明する。初めに、入力部2により入力された文字列は、文字列解析部3において言語的に解析され、単語に分割される。ここで、各単語の品詞や読みも付与される。次に、発声誤り生起決定部4は、文字列解析部3で得られた単語列の各単語について、発声誤り生起決定情報に基づいて、発声誤りを起こすか起こさないか、さらに発声誤りを起こす場合にはどのパターンの発声誤りを起こすかを決定する。
次に、音韻列生成部7は、発声誤り生起決定部4による決定結果に基づいて、発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。次に、音声合成部8は、音韻列生成部7が生成した音韻列を音声波形のデータに変換し、出力部9に送る。最後に、出力部9は音声波形を音声として出力し、音声処理が終了する。
(発声誤り生起決定部の動作)
次に、発声誤り生起決定部4の動作について詳しく説明する。図3は、発声誤り生起決定部4の動作を示すフローチャートである。初めに、発声誤り生起決定部4は、文字列解析部3において解析され分割された単語列の最初の単語を特定する(ステップS301)。次に、発声誤り生起決定部4は、当該単語が発声誤りを起こすか否かを決定する(ステップS302)。具体的には、発声誤り生起決定部4は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。
発声誤り生起決定部4は、当該単語が発声誤りを起こすと決定した場合(ステップS302:Yes)、当該単語に発声誤り生起決定情報の該当する誤りパターンを付与する。(ステップS303)。発声誤り生起決定部4は、当該単語が発声誤りを起こさないと決定した場合(ステップS302:No)、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する(ステップS304)。
次に、発声誤り生起決定部4は、単語列に他の単語があるか否かを確認する(ステップS305)。発声誤り生起決定部4は、単語列に他の単語があると確認した場合(ステップS305:Yes)、ステップS301へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部4は、単語列に他の単語がないと確認した場合(ステップS305:No)、処理を終了する。
その後、音韻列生成部7は、発声誤り生起決定部4による決定結果に基づいて、入力文(単語列)の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。
図4は、入力部2により入力された文字列と、音韻列生成部7で作成された実際の音韻列の一例を示す図である。図4をみると、図2で示した発声誤り生起決定情報の内容の通り、接続詞の「しかし」は発声後に言い直すように、名詞の「アクセシビリティ」は第3音節後に言い直すように、サ変名詞の「取捨」は語頭で言い淀むように、それぞれ音韻列が作成されていることがわかる。
このように、第1の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報に基づいて、発声誤りを起こすと決定した場合には、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができるので、音声合成部が、一律でないように意図的に誤った音声を合成することができ、出力部が、機械的でない人間的な発声をすることが可能となる。
(第2の実施の形態)
第2の実施の形態では、発声誤りが言い誤りの場合に、各単語ごとに言い誤りを起こす可能性がある単語を集めた関連語情報を参照して、代わりに言い誤る単語を決定する。第2の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第1の実施の形態と異なる部分を説明する。他の部分については第1の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。
図5は、第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置11は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置11は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置11は、入力部2、文字列解析部3、発声誤り生起決定部12、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、関連語情報記憶部13、音韻列生成部7、音声合成部8、及び、出力部9を備えて構成されている。
発声誤り生起決定部12は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こすかどうかを決定する。さらに、発声誤り生起決定部12は、発声誤りが「言い誤り」の場合には、関連語情報を検索し、言い誤る単語を決定する。図6は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の一例を示す図である。本例では、第1の実施形態で説明した発声誤り生起決定情報に加えて、誤りパターンとして言い誤りが追加され、言い誤る単語をランダムで選択することが決められている。なお、発声誤り生起決定部12の詳しい動作については、後ほど詳しく説明する。
関連語情報記憶部13は、発声誤りが「言い誤り」の場合に、実際に各単語が言い誤りを起こす可能性がある単語をまとめ、どの様な言い誤りを起こすかが示されている関連語情報を記憶する。図7は、関連語情報記憶部13に記憶されている関連語情報の一例を示す図である。図7の(a)は、入力された単語と意味的に似ている又は反対の意味であるなどの類語の観点で分類(グルーピング)されたもの、図7の(b)は、入力された単語と音的に似ていて間違いやすい、又は、音の一部が逆転しているなど音的な観点で分類されたものである。なお、これらの情報をまとめて、1つの関連語情報として持つこともできる。また、日本語に限らず他の言語でも同様の情報を持つことができる。図7の(c)は、英語の例である。
(発声誤り生起決定部の動作)
次に、発声誤り生起決定部12の動作について詳しく説明する。図8は、発声誤り生起決定部12の動作を示すフローチャートである。初めに、発声誤り生起決定部12は、文字列解析部3において解析され分割された単語列の最初の単語を特定する(ステップS801)。次に、発声誤り生起決定部12は、当該単語が発声誤りを起こすか否かを決定する(ステップS802)。具体的には、発声誤り生起決定部12は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。
発声誤り生起決定部12は、当該単語が発声誤りを起こすと決定した場合(ステップS802:Yes)、当該単語に発声誤り生起決定情報の該当する誤りパターンを付与する(ステップS803)。
次に、発声誤り生起決定部12は、誤りパターン(発声誤り)が「言い誤り」か否かを確認する(ステップS804)。発声誤り生起決定部12は、誤りパターンが「言い誤り」であると確認した場合(ステップS804:Yes)、当該単語に関連語情報をさらに付与する(ステップS805)。具体的には、発声誤り生起決定部12は、関連語情報記憶部13に記憶されている当該単語の関連語情報を検索し、当該単語の発声誤り生起決定情報に記述された選択方法に従って言い誤る単語を決定する。その後、ステップS807へ進む。
発声誤り生起決定部12は、誤りパターンが「言い誤り」でないと確認した場合(ステップS804:No)、そのままステップS807へ進む。
一方、発声誤り生起決定部12は、当該単語が発声誤りを起こさないと決定した場合(ステップS802:No)、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し(ステップS806)、ステップS807へ進む。
次に、ステップS807で、発声誤り生起決定部12は、単語列に他の単語があるか否かを確認する。発声誤り生起決定部12は、単語列に他の単語があると確認した場合(ステップS807:Yes)、ステップS801へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部12は、単語列に他の単語がないと確認した場合(ステップS807:No)、処理を終了する。
その後、音韻列生成部7は、発声誤り生起決定部12による決定結果に基づいて、入力文(単語列)の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。
図9は、入力部2により入力された文字列と、音韻列生成部7で作成された実際の音韻列の一例を示す図である。図9をみると、第1の実施の形態で説明した図4に加えて、サ変名詞の「考慮」を図7の関連語情報記憶からランダムに選択された「配慮」に言い誤った後、「考慮」と訂正して発声するように音韻列が作成されていることがわかる。
このように、第2の実施の形態にかかる音声処理装置によれば、発声誤りが言い誤りの場合、発声誤り生起決定部は言い誤りを起こすと決定した場合には、各単語ごとに言い誤りを起こす可能性がある単語を集めた関連語情報を参照して当該単語から言い誤る単語を決定し、音韻列生成部が言い誤りの音韻列を生成することができるので、文字列には現れないが関連のある単語を用いて言い誤ることができ、より知識を持った発声誤りが可能となる。
(第3の実施の形態)
第3の実施の形態では、発声誤り生起決定部が発声誤り生起決定情報と発声誤り生起確率とに基づいて、発声誤りを起こすかどうかを決定する。第3の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第1の実施の形態と異なる部分を説明する。他の部分については第1の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。
図10は、第3の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置21は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置21は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置21は、入力部2、文字列解析部3、発声誤り生起決定部22、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、発声誤り生起確率情報記憶部23、音韻列生成部7、音声合成部8、及び、出力部9を備えて構成されている。
発声誤り生起決定部22は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こす可能性があるかどうかを決定する。さらに、発声誤り生起決定部22は、発声誤りを起こす可能性がある場合は、発声誤りが起こる確率を算出し、発声誤り生起確率情報と比較して、この単語が発声誤りを起こすかどうかを決定する。図11は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の一例を示す図である。本例では、第1の実施形態で説明した発声誤り生起決定情報と比べて、発声誤りを起こった場合の動作(誤りパターン)が複数存在する条件がある。なお、発声誤り生起決定部22の詳しい動作については、後ほど詳しく説明する。
発声誤り生起確率情報記憶部23は、発声誤りを起こす確率が示されている発声誤り生起確率情報を記憶する。図12は、発声誤り生起確率情報記憶部23に記憶されている発声誤り生起確率情報の一例を示す図である。各単語における発声誤り生起確率は、あらかじめ、その単語の難易度や、読みの発声しにくさなどにより、誤りパターンごとに決められている。複数の誤りパターンを持つ単語には、それぞれ生起確率が対応付けられている。例えば、図の「取捨」では、語頭で言い淀む確率が60%、第1音節後に言い淀む確率が30%、発声後に言い直す確率が40%となっている。
そして、これらの生起確率は、それぞれ独立に評価され、発声誤りを起こすか起こさないかを決定する際に利用される。つまり、発声誤り生起決定部22は、発声誤りが起こる確率を誤りパターンごとに算出し、それぞれの誤りパターンの発声誤り生起確率情報と比較するので、生起確率が高くてもそのパターンの誤りを起こさないと決定する場合もあるし、生起確率が低くてもそのパターンの誤りを起こすと決定する場合もある。
(発声誤り生起決定部の動作)
次に、発声誤り生起決定部22の動作について詳しく説明する。図13は、発声誤り生起決定部22の動作を示すフローチャートである。初めに、発声誤り生起決定部22は、文字列解析部3において解析され分割された単語列の最初の単語を特定する(ステップS1301)。次に、発声誤り生起決定部22は、当該単語が発声誤りを起こす可能性があるか否かを決定する(ステップS1302)。具体的には、発声誤り生起決定部22は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。
発声誤り生起決定部22は、当該単語が発声誤りを起こす可能性があると決定した場合(ステップS1302:Yes)、発声誤りが起こる確率、すなわち、発声誤りを起こすか否かを決定するための判定値を算出する(ステップS1303)。具体的には、発声誤り生起決定部22は、ランダムに発生させた0〜99の数値から1つを選択し、この値を発声誤りが起こる確率とする。
次に、発声誤り生起決定部22は、当該単語が発声誤りを起こすか否かを決定する(ステップS1304)。具体的には、発声誤り生起決定部12は、ステップS1303で算出した発声誤りが起こる確率値が、発声誤り生起確率情報記憶部23に記憶されている当該単語の発声誤り生起確率情報の確率値より小さいか否かにより、当該単語が発声誤りを起こすか否かを決定する。
発声誤り生起決定部22は、当該単語が発声誤りを起こすと決定した場合(ステップS1304:Yes)、すなわち、ステップS1303で算出した発声誤りが起こる確率値が、当該単語の発声誤り生起確率情報の確率値より小さい場合には、ステップS1305へ進む。
発声誤り生起決定部22は、当該単語が発声誤りを起こさないと決定した場合(ステップS1304:No)、すなわち、ステップS1303で算出した発声誤りが起こる確率値が、当該単語の発声誤り生起確率情報の確率値より大きい場合には、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し(ステップS1308)、ステップS1309へ進む。
なお、前述したように、発声誤り生起確率情報記憶部23に複数の誤りパターンが記憶されている単語については、誤りパターンごとにステップS1303とステップS1304とが行われるため、全ての誤りパターンについて発声誤りを起こさないと決定した場合にのみ、ステップS1308へ進むことになる。
ステップS1305で、発声誤り生起決定部22は、さらに、複数の発声誤り(誤りパターン)が選択されたか否かを確認する。発声誤り生起決定部22は、複数の発声誤りが選択されたことを確認した場合(ステップS1305:Yes)、発声誤り生起確率情報の確率値が最も大きい誤りパターンを選択し(ステップS1306)、当該単語に選択した誤りパターンを付与する(ステップS1307)。例えば、図12の「取捨」で、第1音節後の言い淀み(確率値30%)と、発声後の言い直し(確率値40%)の2つが選択された場合、確率値が高い発声後の言い直しが選択される。その後、ステップS1309へ進む。
発声誤り生起決定部22は、複数の発声誤りが選択されていないことを確認した場合(ステップS1305:No)、当該単語に選択した誤りパターンを付与する(ステップS1307)。その後、ステップS1309へ進む。
一方、ステップS1302で、発声誤り生起決定部22は、当該単語が発声誤りを起こす可能性がないと決定した場合(ステップS1302:No)、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し(ステップS1308)、ステップS1309へ進む。
次に、ステップS1309で、発声誤り生起決定部22は、単語列に他の単語があるか否かを確認する。発声誤り生起決定部22は、単語列に他の単語があると確認した場合(ステップS1309:Yes)、ステップS1301へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部22は、単語列に他の単語がないと確認した場合(ステップS1309:No)、処理を終了する。
その後、音韻列生成部7は、発声誤り生起決定部22による決定結果に基づいて、入力文(単語列)の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。
図14は、入力部2により入力された文字列と、音韻列生成部7で作成された実際の音韻列の一例を示す図である。図14をみると、接続詞の「しかし」は発声誤りを起こさないように、名詞の「アクセシビリティ」は第3音節後に言い淀むように、サ変名詞の「取捨」は発声後に言い直しするように、それぞれ音韻列が作成されていることがわかる。
なお、本例では、発声誤りが起こるかどうかを決める方法として、0〜99の数値をランダムに発生させて、その数値と発声誤り生起確率情報の確率値とを比較しているが、もちろんこの方法以外でも、大局的に確率情報に添った結果が出る方法であればかまわない。
また、本例では、複数の誤りパターンが選択された場合、その中から1つの誤りパターンを選択して発声誤りを起こしているが、複数の誤りパターンを同時に起こすようにしてもよい。
また、本例では、説明の簡略化のため発声誤り生起決定情報及び発声誤り生起確率情報に言い誤りの場合を記述していないが、言い誤りの場合も同様であり、第2の実施の形態と組み合わせて実施することができる。
(変形例)
本実施の形態にかかる音声処理装置の変形例では、発声誤り生起決定部22は、同じ単語列内で、以前に発生誤りを起こすと決定した単語と同じ単語が再び現れた場合には、発声誤りが起こる確率の算出方法を変更し発生誤りを起こし難くする。図15は、発声誤り生起決定部22の動作の変形例を示すフローチャートである。
初めに、発声誤り生起決定部22は、文字列解析部3において解析され分割された単語列の最初の単語を特定する(ステップS1501)。次に、発声誤り生起決定部22は、当該単語が発声誤りを起こす可能性があるか否かを決定する(ステップS1502)。具体的には、発声誤り生起決定部22は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。
発声誤り生起決定部22は、当該単語が発声誤りを起こす可能性があると決定した場合(ステップS1502:Yes)、発声誤りが起こる確率すなわち、発声誤りを起こすか否かを決定するための判定値を算出する(ステップS1503)。具体的には、発声誤り生起決定部22は、ランダムに発生させた0〜99の数値から1つを選択し、この値を発声誤りが起こる確率とする。
次に、発声誤り生起決定部22は、当該単語が以前に誤りパターンを付与した単語であるか否かを確認する(ステップS1504)。発声誤り生起決定部22は、当該単語が以前に誤りパターンを付与した単語であると確認した場合(ステップS1504:Yes)、発声誤りが起こる確率を再計算する(ステップS1505)。具体的には、発声誤り生起決定部22は、発声誤りが起こる確率を回数に応じて増やしたり、二度目は最大値に固定するなど、発生誤りを起こしやすくする。
一方、発声誤り生起決定部22は、当該単語が以前に誤りパターンを付与した単語ではないと確認した場合(ステップS1504:No)、ステップS1506へ進む。
なお、その後のステップS1506〜S1511は、図13で説明したステップS1304〜S1309と同じであるので説明を省略する。
図16は、入力部2により入力された文字列と、音韻列生成部7で作成された実際の音韻列の一例を示す図である。図をみると、文字列の最初に現れた名詞の「アクセシビリティ」は第3音節後に言い直すように音韻列が作成されているが、2番目に現れた名詞の「アクセシビリティ」は、発声誤りが発生しないように音韻列が作成されていることがわかる。
このように、第3の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報と、単語が発声誤りを起こす確率である発声誤り生起確率とに基づいて、発声誤りを起こすと決定することができるので、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができ、音声合成部が、一律でないように意図的により自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。
(第4の実施の形態)
第4の実施の形態はで、発生誤り生起調整部が文字列全体における発声誤りの発生回数を調整する。第4の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第3の実施の形態と異なる部分を説明する。他の部分については第3の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。
図17は、第4の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置31は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置31は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置31は、入力部2、文字列解析部3、発声誤り生起決定部22、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、発声誤り生起確率情報記憶部23、発生誤り生起調整部32、音韻列生成部7、音声合成部8、及び、出力部9を備えて構成されている。
発生誤り生起調整部32は、文字列全体における発声誤りの発生回数を調整する。発生誤り生起調整部32は、具体的には、文字列全体に対してあらかじめ決定されている、発声誤りの発生回数、発声誤りが発生する単語間の文字数、又は、単語の発声誤り生起確率の各条件に基づいて、発声誤りの発生回数を調整する。
(発生誤り生起調整部の動作)
図18は、発生誤り生起調整部32の動作を示すフローチャートである。ここでは、発声誤りの生起を調整する条件として、以下のような条件のうち、1つが指定されているものとする。
(A)1つの文字列内の発声誤りの回数を制限する。
(B)発声誤りの間には一定文字数以上の間隔がある。
(C)単語の発声誤り生起確率が一定以上の発声誤りのみ起こる。
さらに、それぞれの「1つの文字列内の発声誤りの回数」「一定の文字数の間隔」「一定の発声誤り生起確率」については、音声合成部8で出力音声を合成する際の、速度や話者、スタイルなどの合成パラメータに依存して変化する。例えば、速度が速い=早口でしゃべる=発声誤りを起こしやすい、と想定できるので、1つの文字列内の発声誤りの回数が増える、一定の文字数の間隔が減る、発声誤り生起確率が低くなる、などの調整を行う。この調整が、合成パラメータの何に依存しどのように変化するかは、ここでは限定しない。
初めに、発生誤り生起調整部32は、発声誤りの生起を調整する条件により、それぞれに応じた処理を行う(ステップS1801)。
発生誤り生起調整部32は、条件が(A)1つの文字列内の発声誤りの回数制限(ステップS1801:(A))の場合は、まず、合成パラメータにより制限する回数を調整する(ステップS1802)。次に、発生誤り生起調整部32は、1つの文字列全体にある発声誤りの回数を数える(ステップS1803)。次に、発生誤り生起調整部32は、発声誤りの回数が制限回数を超えているか否かを確認する(ステップS1804)。
発生誤り生起調整部32は、発声誤りの回数が制限回数を超えていると確認した場合(ステップS1804:Yes)、発声誤り生起確率の高い順に制限回数だけ発声誤りを残して、それ以外はキャンセルし(ステップS1805)、処理を終了する。発生誤り生起調整部32は、発声誤りの回数が制限回数を超えていないと確認した場合(ステップS1804:No)、そのまま何もせず処理を終了する。
発生誤り生起調整部32は、条件が(B)発声誤り間の一定文字数以上の間隔(ステップS1801:(B))の場合は、まず、合成パラメータにより間隔とする文字数を調整する(ステップS1806)。次に、発生誤り生起調整部32は、文字列の先頭から順次発声誤りがあるか否かを確認する(ステップS1807)。
発生誤り生起調整部32は、発声誤りがないと確認した場合(ステップS1807:No)、そのまま何もせず処理を終了する。一方、発生誤り生起調整部32は、発声誤りがあると確認した場合(ステップS1807:Yes)、次の発声誤りがあるか否かを確認する(ステップS1808)。
発生誤り生起調整部32は、次の発声誤りがないと確認した場合(ステップS1808:No)、そのまま何もせず処理を終了する。一方、発生誤り生起調整部32は、次の発声誤りがあると確認した場合(ステップS1808:Yes)、発声誤り間の文字数が一定数以上であるか否かを確認する(ステップS1809)。
発生誤り生起調整部32は、発声誤り間の文字数が一定数以上ではないと確認した場合(ステップS1809:No)、次の発声誤りをキャンセルし(ステップS1810)、ステップS1808へ戻る。一方、発生誤り生起調整部32は、発声誤り間の文字数が一定数以上であると確認した場合(ステップS1809:Yes)、そのまま、ステップS1808へ戻る。
発生誤り生起調整部32は、条件が(C)単語の発声誤り生起確率が一定以上(ステップS1801:(C))の場合は、まず、合成パラメータにより最低確率を調整する(ステップS1811)。次に、発生誤り生起調整部32は、文字列の先頭から順次発声誤りがあるか否かを確認する(ステップS1812)。
発生誤り生起調整部32は、発声誤りがないと確認した場合(ステップS1812:No)、そのまま何もせず処理を終了する。一方、発生誤り生起調整部32は、発声誤りがあると確認した場合(ステップS1812:Yes)、その単語の発声誤り生起確率が最低確率以上であるか否かを確認する(ステップS1813)。
発生誤り生起調整部32は、その単語の発声誤り生起確率が最低確率以上ではないと確認した場合(ステップS1813:No)、その単語の発声誤りをキャンセルし(ステップS1814)、ステップS1812へ戻り、次の発声誤りがあるか否かを確認する。一方、発生誤り生起調整部32は、その単語の発声誤り生起確率が最低確率以上であると確認した場合(ステップS1813:Yes)、そのまま、ステップS1812へ戻り、次の発声誤りがあるか否かを確認する。
その後、音韻列生成部7は、発声誤り生起決定部22による決定結果、及び、発生誤り生起調整部32による調整結果に基づいて、入力文(単語列)の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。
なお、第4の実施の形態では、発生誤り生起調整部32が単語の発声誤り生起確率を持った構成となっているが、1つの文字列内の発声誤り回数や一定以上の間隔を空ける条件については、第1の実施の形態や第2の実施の形態のように、発声誤り生起確率を持たない場合でも、条件に合うようにランダムに選ぶ、最初の発声誤りのみ選ぶ、などの方法により、同様の効果を得ることができる。
このように、第4の実施の形態にかかる音声処理装置によれば、発生誤り生起調整部が文字列全体における発声誤りの発生回数を調整するので、音韻列生成部が、不自然に発声誤りが連続して起こる音韻列を生成することを回避でき、音声合成部が、より自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。
(第5の実施の形態)
第5の実施の形態では、発声誤り生起決定部が発声誤り生起決定情報と文脈情報とに基づいて、発声誤りを起こすかどうかを決定する。第5の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第1の実施の形態と異なる部分を説明する。他の部分については第1の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。
図19は、第5の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置41は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置41は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置41は、入力部2、文字列解析部3、発声誤り生起決定部42、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、文脈情報記憶部43、音韻列生成部7、音声合成部8、及び、出力部9を備えて構成されている。
発声誤り生起決定部42は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こす可能性があるかどうかを決定する。さらに、発声誤り生起決定部42は、発声誤りを起こす可能性がある場合は、該当する単語の文脈情報を検索して、この単語が発声誤りを起こすかどうかを決定する。なお、発声誤り生起決定部42の詳しい動作については、後ほど詳しく説明する。
文脈情報記憶部43は、発声誤りを起こす可能性がある単語の前後に記述されている単語の種類などによって発声誤りが起こるか否かの決定を示し、発声誤りが起こる場合にはその具体的な動作を示している文脈情報を記憶する。図20は、文脈情報記憶部43に記憶されている文脈情報の一例を示す図である。図20の(a)は、発声誤り生起確率を持たない構成の場合の例であり、図20の(b)は、発声誤り生起確率を持つ構成の場合の例である。例えば、図20の(a)の「名誉」では、直後の単語が「挽回」の場合に「汚名」と言い誤り、図20の(b)の「名誉」では、直後の単語が「挽回」の場合に「汚名」と言い誤る確率が90%となっている。なお、日本語に限らず他の言語でも同様の情報を持つことができる。図20の(c)は、英語の例である。
(発声誤り生起決定部の動作)
次に、発声誤り生起決定部42の動作について詳しく説明する。図21は、発声誤り生起決定部42の動作を示すフローチャートである。初めに、発声誤り生起決定部42は、文字列解析部3において解析され分割された単語列の最初の単語を特定する(ステップS2101)。次に、発声誤り生起決定部42は、当該単語が発声誤りを起こす可能性があるか否かを決定する(ステップS2102)。具体的には、発声誤り生起決定部42は、発声誤り生起決定情報記憶部5に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。
発声誤り生起決定部42は、当該単語が発声誤りを起こす可能性がないと決定した場合(ステップS2102:No)、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する(ステップS2103)。発声誤り生起決定部42は、当該単語が発声誤りを起こす可能性があると決定した場合(ステップS2102:Yes)、文脈情報記憶部43に記憶されているその単語に該当する文脈情報を検索する(ステップS2104)。
次に、発声誤り生起決定部42は、文脈が合致しているが、すなわち、文脈情報の内容と入力文の内容(当該単語の前後に記述されている単語の種類)とが合致しているか否かを確認する(ステップS2105)。発声誤り生起決定部42は、文脈が合致していると確認した場合(ステップS2105:Yes)、当該単語に文脈情報の該当する誤りパターンを付与する。(ステップS2106)。発声誤り生起決定部42は、文脈が合致していないと確認した場合(ステップS2105:No)、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する(ステップS2103)。
次に、発声誤り生起決定部42は、単語列に他の単語があるか否かを確認する(ステップS2107)。発声誤り生起決定部42は、単語列に他の単語があると確認した場合(ステップS2107:Yes)、ステップS2101へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部42は、単語列に他の単語がないと確認した場合(ステップS2107:No)、処理を終了する。
その後、音韻列生成部7は、発声誤り生起決定部42による決定結果に基づいて、入力文(単語列)の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。
図22は、入力部2により入力された文字列と、音韻列生成部7で作成された実際の音韻列の一例を示す図である。図22をみると、「名誉」を「汚名」に言い誤るような音韻列や、「許可局」を言い淀むような音韻列は、文脈情報の条件に合致した場合のみ作成されていることがわかる。
なお、発生誤りが言い誤りの場合は、第2の実施の形態と組み合わせて実施することができる。
また、発声誤り生起確率を持つ構成の場合には、第3の実施の形態と組み合わせて実施することができる。
このように、第5の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報と文脈情報とに基づいて、発声誤りを起こすと決定することができるので、音韻列生成部が、文字列に表記されている同じ単語でも特定の文脈で使われた単語のみに発声誤りの音韻列を生成することができ、音声合成部が、一律でないように意図的により自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。
(第6の実施の形態)
第6の実施の形態では、音韻列生成部が言い直しの音韻列を生成する場合には、もう一度発声する単語を強調して発声するような音韻列を生成する。第6の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第1の実施の形態と異なる部分を説明する。他の部分については第1の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。
図23は、第6の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置51は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置51は、音声(発声)として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置51は、入力部2、文字列解析部3、発声誤り生起決定部4、発声誤り生起決定情報記憶部5、生起決定情報記憶制御部6、音韻列生成部52、音声合成部8、及び、出力部9を備えて構成されている。
音韻列生成部52は、発声誤り生起決定部4で決定された情報により、発声誤り又は正しい発声のための音韻列を生成する。さらに、音韻列生成部52は、発声誤りが「言い直し」の場合には、生成した発声誤りの音韻列に、強調して発声するためのタグを挿入する。
(音韻列生成部の動作)
次に、音韻列生成部52の動作について詳しく説明する。図24は、音韻列生成部52の動作を示すフローチャートである。初めに、音韻列生成部52は、発声誤り(誤りパターン)があるか否かを確認する(ステップS2401)。音韻列生成部52は、発声誤りがないと確認した場合(ステップS2401:No)、通常の音韻列を生成し(ステップS2402)、処理を終了する。
音韻列生成部52は、発声誤りがあると確認した場合(ステップS2401:Yes)、発声誤りが「言い直し」か否かを確認する(ステップS2403)。音韻列生成部52は、発声誤りが「言い直し」ではないと確認した場合(ステップS2403:No)、発声誤りの音韻列を生成し(ステップS2404)、処理を終了する。
音韻列生成部52は、発声誤りが「言い直し」であると確認した場合(ステップS2403:Yes)、発声誤りの音韻列を生成する(ステップS2405)。次に、音韻列生成部52は、強調して発声するためのタグを音韻列の言い直し部分に挿入し(ステップS2406)、処理を終了する。
図25は、入力部2により入力された文字列と、音韻列生成部52で作成された実際の音韻列の一例を示す図である。図25をみると、言い直しをする名詞の「アクセシビリティ」とサ変名詞の「考慮」について、強調のタグが挿入されていることがわかる。
なお、本例では、説明の簡略化のため言い誤りの場合を記述していないが、言い誤りの場合も同様であり、さらに第2の実施の形態と組み合わせて実施することができる。
また、本例では、発声誤り生起確率を持たない構成となっているが、第3の実施の形態と組み合わせて、発声誤り生起確率を持つ構成にすることもできる。
このように、第6の実施の形態にかかる音声処理装置によれば、音韻列生成部が言い直し(言い誤り)の音韻列を生成する場合には、もう一度発声する単語を強調して発声するような音韻列を生成することができるので、出力部が正しい単語を発声する時には強調して発声することができ、正しく訂正できたことを明確に示すことが可能となる。
なお、第1〜第6の実施の形態では、主に日本語の場合について説明しているが、日本語に限定されるものではなく、英語や他の言語についても同様の方法で同様の効果を得ることができる。
また、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。
本実施の形態の音声処理装置装置は、CPUなどの制御装置と、ROMやRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、スピーカーやLANインターフェースなどの出力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供又は配布するように構成しても良い。
また、本実施形態の音声処理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の音声処理装置で実行される音声処理プログラムは、上述した各部(文字列解析部、発声誤り生起決定部、音韻列生成部、音声合成部、及び、発声誤り生起調整部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、文字列解析部、発声誤り生起決定部、音韻列生成部、音声合成部、及び、発声誤り生起調整部が主記憶装置上に生成されるようになっている。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
本発明は、文字列を音声データに変換する全ての音声処理装置に有用である。
1、11、21、31、41、51 音声処理装置
2 入力部
3 文字列解析部
4、12、22、42 発声誤り生起決定部
5 発声誤り生起決定情報記憶部
6 生起決定情報記憶制御部
7、52 音韻列生成部
8 音声合成部
9 出力部
13 関連語情報記憶部
23 発声誤り生起確率情報記憶部
32 発声誤り生起調整部
43 文脈情報記憶部

Claims (19)

  1. 発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶発声誤り生起決定情報記憶部と、
    前記発声誤りを起こす単語ごとに、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段と、
    文字列を言語的に解析し、単語の列に分割する文字列解析部と、
    分割された前記単語の各々と前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定部と、
    前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成部と、
    を備え
    前記条件のいずれかに対応付けられた誤りパターンは、前記言い誤りであり、
    前記発声誤り生起決定部は、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に前記関連語情報から言い誤る単語を付与し、
    前記音韻列生成部は、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする音声処理装置。
  2. 前記条件のいずれかに対応付けられた誤りパターンは、単語の発声前又は発声途中に発声される言い淀みであること、を特徴とする請求項1に記載の音声処理装置。
  3. 前記条件のいずれかに対応付けられた誤りパターンは、単語を完全に又は途中まで発声してから、再度発声する言い直しであること、を特徴とする請求項1に記載の音声処理装置。
  4. 前記関連語情報は、意味的な関連がある単語を集めたグループ、又は、発音の関連がある単語を集めたグループであること、を特徴とする請求項に記載の音声処理装置。
  5. 前記条件は、前記発声誤りを起こす単語の品詞を示すこと、を特徴とする請求項に記載の音声処理装置。
  6. 前記発声誤りを起こす単語が前記発声誤りを起こす確率である発声誤り生起確率を記憶する発声誤り生起確率情報記憶部をさらに備え、
    前記発声誤り生起決定部は、更に、前記発声誤り生起確率を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項に記載の音声処理装置。
  7. 前記発声誤り生起確率は、前記発声誤りを起こす単語の使用頻度、意味的な難易度、又は、読みの発声しにくさに依存すること、を特徴とする請求項に記載の音声処理装置。
  8. 前記発声誤り生起決定部は、前記単語が既に前記発声誤りを起こした単語の場合、前記発声誤りを起こさないと決定すること、を特徴とする請求項に記載の音声処理装置。
  9. 前記発声誤りを起こす単語の前後に記述されている単語の種類により、前記発声誤りを起こす単語が前記発声誤りを起こすか起こさないかを定義した情報である文脈情報を記憶する文脈情報記憶部をさらに備え、
    前記発声誤り生起決定部は、更に、前記文脈情報を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項1に記載の音声処理装置。
  10. 前記発声誤りを起こす単語の前後に記述されている単語の種類により、前記発声誤りを起こす単語が前記発声誤りを起こすか起こさないかを定義した情報である文脈情報を記憶する文脈情報記憶部をさらに備え、
    前記発声誤り生起決定部は、更に、前記文脈情報を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項に記載の音声処理装置。
  11. 前記文字列全体における前記発声誤りの発生回数を調整する発生誤り生起調整部をさらに備えたこと、を特徴とする請求項に記載の音声処理装置。
  12. 前記発生誤り生起調整部は、前記発声誤りの発生回数が特定の回数以下になるように調整すること、を特徴とする請求項11に記載の音声処理装置。
  13. 前記発生誤り生起調整部は、前記発声誤りが発生した後、次の発声誤りが発生する単語まで一定数以上の間隔がない場合には、前記次の発声誤りが発生しないように調整すること、を特徴とする請求項11に記載の音声処理装置。
  14. 前記発生誤り生起調整部は、前記発声誤り生起確率が一定以下の場合には、前記発声誤りが発生しないように調整すること、を特徴とする請求項11に記載の音声処理装置。
  15. 前記音韻列生成部は、前記言い直しの音韻列を生成する場合には、再度発声する前記単語を強調して発声する音韻列を生成すること、を特徴とする請求項3に記載の音声処理装置。
  16. 前記音韻列生成部は、前記言い誤りで前記誤った単語を完全に又は途中まで発声してから前記正しい単語を発声する場合には、前記正しい単語を強調して発声する音韻列を生成すること、を特徴とする請求項に記載の音声処理装置。
  17. 前記単語の列の前記音韻列を音声データに変換する音声合成部をさらに備えたこと、を特徴とする請求項1に記載の音声処理装置。
  18. 文字列解析部が、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、
    発声誤り生起決定部が、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、
    音韻列生成部が、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、
    を含み、
    前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、
    前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、
    前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする音声処理方法。
  19. 文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、
    分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、
    前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、
    をコンピュータに実行させ
    前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、
    前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、
    前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成するための音声処理プログラム。
JP2009033030A 2009-02-16 2009-02-16 音声処理装置、音声処理方法及び音声処理プログラム Active JP5398295B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009033030A JP5398295B2 (ja) 2009-02-16 2009-02-16 音声処理装置、音声処理方法及び音声処理プログラム
PCT/JP2009/068244 WO2010092710A1 (ja) 2009-02-16 2009-10-23 音声処理装置、音声処理方法及び音声処理プログラム
US13/208,464 US8650034B2 (en) 2009-02-16 2011-08-12 Speech processing device, speech processing method, and computer program product for speech processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009033030A JP5398295B2 (ja) 2009-02-16 2009-02-16 音声処理装置、音声処理方法及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2010190995A JP2010190995A (ja) 2010-09-02
JP5398295B2 true JP5398295B2 (ja) 2014-01-29

Family

ID=42561559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009033030A Active JP5398295B2 (ja) 2009-02-16 2009-02-16 音声処理装置、音声処理方法及び音声処理プログラム

Country Status (3)

Country Link
US (1) US8650034B2 (ja)
JP (1) JP5398295B2 (ja)
WO (1) WO2010092710A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP2014048443A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、音声合成方法及び音声合成プログラム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP6327848B2 (ja) * 2013-12-20 2018-05-23 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
KR101614746B1 (ko) * 2015-02-10 2016-05-02 미디어젠(주) 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置
JP6134043B1 (ja) * 2016-11-04 2017-05-24 株式会社カプコン 音声生成プログラムおよびゲーム装置
JP7495125B2 (ja) * 2018-12-03 2024-06-04 Groove X株式会社 ロボット、音声合成プログラム、及び音声出力方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
JPH11288298A (ja) 1998-04-02 1999-10-19 Victor Co Of Japan Ltd 音声合成装置
US6182040B1 (en) * 1998-05-21 2001-01-30 Sony Corporation Voice-synthesizer responsive to panel display message
JP2001154685A (ja) 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6823311B2 (en) * 2000-06-29 2004-11-23 Fujitsu Limited Data processing system for vocalizing web content
JP2002268663A (ja) 2001-03-08 2002-09-20 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002311979A (ja) 2001-04-17 2002-10-25 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP3892302B2 (ja) * 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
JP4198403B2 (ja) * 2002-07-04 2008-12-17 株式会社デンソー 対話型しりとりシステム
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP2004118004A (ja) * 2002-09-27 2004-04-15 Asahi Kasei Corp 音声合成装置
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP4403284B2 (ja) * 2004-03-31 2010-01-27 株式会社国際電気通信基礎技術研究所 電子メール処理装置および電子メール処理プログラム
JP4260071B2 (ja) * 2004-06-30 2009-04-30 日本電信電話株式会社 音声合成方法、音声合成プログラム及び音声合成装置
US20070016421A1 (en) * 2005-07-12 2007-01-18 Nokia Corporation Correcting a pronunciation of a synthetically generated speech object
JPWO2008056590A1 (ja) * 2006-11-08 2010-02-25 日本電気株式会社 テキスト音声合成装置、そのプログラム及びテキスト音声合成方法
JP2008185805A (ja) 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP5269668B2 (ja) * 2009-03-25 2013-08-21 株式会社東芝 音声合成装置、プログラム、及び方法

Also Published As

Publication number Publication date
JP2010190995A (ja) 2010-09-02
US20120029909A1 (en) 2012-02-02
US8650034B2 (en) 2014-02-11
WO2010092710A1 (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
JP5398295B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP4559950B2 (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JP5198046B2 (ja) 音声処理装置及びそのプログラム
US20130080155A1 (en) Apparatus and method for creating dictionary for speech synthesis
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2008292587A (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2008176155A (ja) 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2005242231A (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP4872690B2 (ja) 音声合成方法、音声合成プログラム、音声合成装置
Balyan et al. Development and implementation of Hindi TTS
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置
EP1638080B1 (en) A text-to-speech system and method
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R151 Written notification of patent or utility model registration

Ref document number: 5398295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350