JP5398295B2

JP5398295B2 - 音声処理装置、音声処理方法及び音声処理プログラム

Info

Publication number: JP5398295B2
Application number: JP2009033030A
Authority: JP
Inventors: 紀子山中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-02-16
Filing date: 2009-02-16
Publication date: 2014-01-29
Anticipated expiration: 2029-02-16
Also published as: US8650034B2; US20120029909A1; WO2010092710A1; JP2010190995A

Description

本発明は、音声処理装置、音声処理方法及び音声処理プログラムに関する。

与えられた文字列を読み上げる音声合成技術は、従来より知られている。そして、従来の音声合成技術では、与えられた文字列を間違わずに読み上げることが求められていた。しかし昨今は、音声合成が利用される用途も広がり、ペットロボットやゲームのキャラクターなど、人格を持ったキャラクターが発声する際にも利用されるようになってきた。例えば、特許文献１では、感情を持つペットロボットがその感情の状態によって合成音の出力を制御する提案がなされている。

しかしながら、音声合成で読み上げられた音声は、自然性の点で人間的でないと思われる場合が多い。それは、音質的な問題や、感情の見えない抑揚などの問題もあるが、絶対に間違えずよどみなく読む点でも、人間的でないと感じられる。

この点に関して、例えば、特許文献２では、吃りのある合成音を容易に生成することができる音声合成装置、特許文献３では、音声波形データ間の適切な個所に適切な長さの無音部分を挿入することにより、自然で違和感のない音声合成を行うことができる音声合成装置、特許文献４では、音として発音しにくい並びになったときに、発音しやすい単語に置き換えることができる音声合成装置がそれぞれ開示されている。

特開２００２−２６８６６３号公報特開２００２−３１１９７９号公報特開平１１−２８８２９８号公報特開２００８−１８５８０５号公報

しかしながら、特許文献２〜４のいずれも、人間的な発声という点では依然として改善が必要である。

本発明は、上記に鑑みてなされたものであって、文字列を読み上げる際、文字列に表記されているそのままではなく、意図的に発声誤りを起こすことにより、より人間的な発声をすることができる音声処理装置、音声処理方法及び音声処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部と、前記発声誤りを起こす単語ごとに、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段と、文字列を言語的に解析し、単語の列に分割する文字列解析部と、分割された前記単語の各々と前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定部と、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成部と、を備え、前記条件のいずれかに対応付けられた誤りパターンは、前記言い誤りであり、前記発声誤り生起決定部は、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に前記関連語情報から言い誤る単語を付与し、前記音韻列生成部は、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする。

また、本発明は、文字列解析部が、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、発声誤り生起決定部が、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、音韻列生成部が、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、を含み、前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする。

また、本発明は、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、をコンピュータに実行させ、前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成するためのものである。

本発明によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報に基づいて、発声誤りを起こすと決定した場合には、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができるので、一律でないように意図的に誤った音声を合成することができ、機械的でない人間的な発声をすることができるという効果を奏する。

図１は、第１の実施の形態にかかる音声処理装置の構成を示すブロック図である。図２は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。図３は、発声誤り生起決定部の動作を示すフローチャートである。図４は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。図５は、第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。図６は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。図７は、関連語情報記憶部に記憶されている関連語情報の一例を示す図である。図８は、発声誤り生起決定部の動作を示すフローチャートである。図９は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。図１０は、第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。図１１は、発声誤り生起決定情報記憶部に記憶されている発声誤り生起決定情報の一例を示す図である。図１２は、発声誤り生起確率情報記憶部に記憶されている発声誤り生起確率情報の一例を示す図である。図１３は、発声誤り生起決定部の動作を示すフローチャートである。図１４は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。図１５は、発声誤り生起決定部の動作の変形例を示すフローチャートである。図１６は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。図１７は、第４の実施の形態にかかる音声処理装置の構成を示すブロック図である。図１８は、発生誤り生起調整部の動作を示すフローチャートである。図１９は、第５の実施の形態にかかる音声処理装置の構成を示すブロック図である。図２０は、文脈情報記憶部に記憶されている文脈情報の一例を示す図である。図２１は、発声誤り生起決定部の動作を示すフローチャートである。図２２は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。図２３は、第６の実施の形態にかかる音声処理装置の構成を示すブロック図である。図２４は、音韻列生成部の動作を示すフローチャートである。図２５は、入力部により入力された文字列と、音韻列生成部で作成された実際の音韻列の一例を示す図である。

以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法及び音声処理プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、第１の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声（発声）として出力する。さらに、音声処理装置１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。

ここで、「言い淀み」とは、単語の発声前又は途中に、ポーズ又はフィラー（つなぎ言葉）の発声を行うこととする。また、「言い直し」とは、その単語を完全に又は途中まで発声してから、もう一度発声することとする。さらに、「言い誤り」とは、別の単語を完全に若しくは途中まで発声してから、正しい単語を発声する、又は、そのまま誤った単語を発声したままにすることとする。なお、ここでの「正しい」読み上げとは、文字列に書かれているものをそのまま読むことであり、それ以外の読み方を「発声誤り」とする。文字列にあらかじめ間違えて言い直したりする内容が含まれているものは対象としない。これらは、以後の実施の形態でも同様である。

音声処理装置１は、入力部２、文字列解析部３、発声誤り生起決定部４、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、音韻列生成部７、音声合成部８、及び、出力部９を備えて構成されている。

入力部２は、音声にしたい文字列を入力し、例えばキーボードなどが挙げられる。文字列解析部３は、入力された文字列を、例えば形態素解析などで言語的に解析し、単語列に分割する。発声誤り生起決定部４は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こすかどうかを決定する。なお、発声誤り生起決定部４の詳しい動作については、後ほど詳しく説明する。

発声誤り生起決定情報記憶部５は、発声誤り生起決定部４が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報を記憶する。図２は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の一例を示す図である。図２の（ａ）は、発声誤り生起決定情報が日本語の場合を示し、図２の（ｂ）は、発声誤り生起決定情報が英語の場合を示している。発声誤り生起決定情報には、発声誤りを起こす条件と、その誤りパターンが記述されており、本例では、見出し語の条件と品詞の条件により、発声誤りを起こった場合の動作（誤りパターン）が決定される。なお、図中の「＊」は、ワイルドカードであり、全ての接続詞について発声誤りを起こすことを意味する。

生起決定情報記憶制御部６は、発声誤り生起決定情報記憶部５が発声誤り生起決定情報を記憶するように制御する。音韻列生成部７は、発声誤り生起決定部４で決定された情報により、発声誤り又は正しい発声のための音韻列を生成する。音声合成部８は、生成された音韻列を音声データに変換する。出力部９は、音声データを音声として出力し、例えばスピーカなどが挙げられる。

音声処理装置１の音声処理の仕組みについて、まずその概要を説明する。初めに、入力部２により入力された文字列は、文字列解析部３において言語的に解析され、単語に分割される。ここで、各単語の品詞や読みも付与される。次に、発声誤り生起決定部４は、文字列解析部３で得られた単語列の各単語について、発声誤り生起決定情報に基づいて、発声誤りを起こすか起こさないか、さらに発声誤りを起こす場合にはどのパターンの発声誤りを起こすかを決定する。

次に、音韻列生成部７は、発声誤り生起決定部４による決定結果に基づいて、発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。次に、音声合成部８は、音韻列生成部７が生成した音韻列を音声波形のデータに変換し、出力部９に送る。最後に、出力部９は音声波形を音声として出力し、音声処理が終了する。

（発声誤り生起決定部の動作）
次に、発声誤り生起決定部４の動作について詳しく説明する。図３は、発声誤り生起決定部４の動作を示すフローチャートである。初めに、発声誤り生起決定部４は、文字列解析部３において解析され分割された単語列の最初の単語を特定する（ステップＳ３０１）。次に、発声誤り生起決定部４は、当該単語が発声誤りを起こすか否かを決定する（ステップＳ３０２）。具体的には、発声誤り生起決定部４は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。

発声誤り生起決定部４は、当該単語が発声誤りを起こすと決定した場合（ステップＳ３０２：Ｙｅｓ）、当該単語に発声誤り生起決定情報の該当する誤りパターンを付与する。（ステップＳ３０３）。発声誤り生起決定部４は、当該単語が発声誤りを起こさないと決定した場合（ステップＳ３０２：Ｎｏ）、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する（ステップＳ３０４）。

次に、発声誤り生起決定部４は、単語列に他の単語があるか否かを確認する（ステップＳ３０５）。発声誤り生起決定部４は、単語列に他の単語があると確認した場合（ステップＳ３０５：Ｙｅｓ）、ステップＳ３０１へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部４は、単語列に他の単語がないと確認した場合（ステップＳ３０５：Ｎｏ）、処理を終了する。

その後、音韻列生成部７は、発声誤り生起決定部４による決定結果に基づいて、入力文（単語列）の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。

図４は、入力部２により入力された文字列と、音韻列生成部７で作成された実際の音韻列の一例を示す図である。図４をみると、図２で示した発声誤り生起決定情報の内容の通り、接続詞の「しかし」は発声後に言い直すように、名詞の「アクセシビリティ」は第３音節後に言い直すように、サ変名詞の「取捨」は語頭で言い淀むように、それぞれ音韻列が作成されていることがわかる。

このように、第１の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報に基づいて、発声誤りを起こすと決定した場合には、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができるので、音声合成部が、一律でないように意図的に誤った音声を合成することができ、出力部が、機械的でない人間的な発声をすることが可能となる。

（第２の実施の形態）
第２の実施の形態では、発声誤りが言い誤りの場合に、各単語ごとに言い誤りを起こす可能性がある単語を集めた関連語情報を参照して、代わりに言い誤る単語を決定する。第２の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第１の実施の形態と異なる部分を説明する。他の部分については第１の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。

図５は、第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置１１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置１１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置１１は、入力部２、文字列解析部３、発声誤り生起決定部１２、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、関連語情報記憶部１３、音韻列生成部７、音声合成部８、及び、出力部９を備えて構成されている。

発声誤り生起決定部１２は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こすかどうかを決定する。さらに、発声誤り生起決定部１２は、発声誤りが「言い誤り」の場合には、関連語情報を検索し、言い誤る単語を決定する。図６は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の一例を示す図である。本例では、第１の実施形態で説明した発声誤り生起決定情報に加えて、誤りパターンとして言い誤りが追加され、言い誤る単語をランダムで選択することが決められている。なお、発声誤り生起決定部１２の詳しい動作については、後ほど詳しく説明する。

関連語情報記憶部１３は、発声誤りが「言い誤り」の場合に、実際に各単語が言い誤りを起こす可能性がある単語をまとめ、どの様な言い誤りを起こすかが示されている関連語情報を記憶する。図７は、関連語情報記憶部１３に記憶されている関連語情報の一例を示す図である。図７の（ａ）は、入力された単語と意味的に似ている又は反対の意味であるなどの類語の観点で分類（グルーピング）されたもの、図７の（ｂ）は、入力された単語と音的に似ていて間違いやすい、又は、音の一部が逆転しているなど音的な観点で分類されたものである。なお、これらの情報をまとめて、１つの関連語情報として持つこともできる。また、日本語に限らず他の言語でも同様の情報を持つことができる。図７の（ｃ）は、英語の例である。

（発声誤り生起決定部の動作）
次に、発声誤り生起決定部１２の動作について詳しく説明する。図８は、発声誤り生起決定部１２の動作を示すフローチャートである。初めに、発声誤り生起決定部１２は、文字列解析部３において解析され分割された単語列の最初の単語を特定する（ステップＳ８０１）。次に、発声誤り生起決定部１２は、当該単語が発声誤りを起こすか否かを決定する（ステップＳ８０２）。具体的には、発声誤り生起決定部１２は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。

発声誤り生起決定部１２は、当該単語が発声誤りを起こすと決定した場合（ステップＳ８０２：Ｙｅｓ）、当該単語に発声誤り生起決定情報の該当する誤りパターンを付与する（ステップＳ８０３）。

次に、発声誤り生起決定部１２は、誤りパターン（発声誤り）が「言い誤り」か否かを確認する（ステップＳ８０４）。発声誤り生起決定部１２は、誤りパターンが「言い誤り」であると確認した場合（ステップＳ８０４：Ｙｅｓ）、当該単語に関連語情報をさらに付与する（ステップＳ８０５）。具体的には、発声誤り生起決定部１２は、関連語情報記憶部１３に記憶されている当該単語の関連語情報を検索し、当該単語の発声誤り生起決定情報に記述された選択方法に従って言い誤る単語を決定する。その後、ステップＳ８０７へ進む。

発声誤り生起決定部１２は、誤りパターンが「言い誤り」でないと確認した場合（ステップＳ８０４：Ｎｏ）、そのままステップＳ８０７へ進む。

一方、発声誤り生起決定部１２は、当該単語が発声誤りを起こさないと決定した場合（ステップＳ８０２：Ｎｏ）、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し（ステップＳ８０６）、ステップＳ８０７へ進む。

次に、ステップＳ８０７で、発声誤り生起決定部１２は、単語列に他の単語があるか否かを確認する。発声誤り生起決定部１２は、単語列に他の単語があると確認した場合（ステップＳ８０７：Ｙｅｓ）、ステップＳ８０１へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部１２は、単語列に他の単語がないと確認した場合（ステップＳ８０７：Ｎｏ）、処理を終了する。

その後、音韻列生成部７は、発声誤り生起決定部１２による決定結果に基づいて、入力文（単語列）の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。

図９は、入力部２により入力された文字列と、音韻列生成部７で作成された実際の音韻列の一例を示す図である。図９をみると、第１の実施の形態で説明した図４に加えて、サ変名詞の「考慮」を図７の関連語情報記憶からランダムに選択された「配慮」に言い誤った後、「考慮」と訂正して発声するように音韻列が作成されていることがわかる。

このように、第２の実施の形態にかかる音声処理装置によれば、発声誤りが言い誤りの場合、発声誤り生起決定部は言い誤りを起こすと決定した場合には、各単語ごとに言い誤りを起こす可能性がある単語を集めた関連語情報を参照して当該単語から言い誤る単語を決定し、音韻列生成部が言い誤りの音韻列を生成することができるので、文字列には現れないが関連のある単語を用いて言い誤ることができ、より知識を持った発声誤りが可能となる。

（第３の実施の形態）
第３の実施の形態では、発声誤り生起決定部が発声誤り生起決定情報と発声誤り生起確率とに基づいて、発声誤りを起こすかどうかを決定する。第３の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第１の実施の形態と異なる部分を説明する。他の部分については第１の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。

図１０は、第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置２１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置２１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置２１は、入力部２、文字列解析部３、発声誤り生起決定部２２、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、発声誤り生起確率情報記憶部２３、音韻列生成部７、音声合成部８、及び、出力部９を備えて構成されている。

発声誤り生起決定部２２は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こす可能性があるかどうかを決定する。さらに、発声誤り生起決定部２２は、発声誤りを起こす可能性がある場合は、発声誤りが起こる確率を算出し、発声誤り生起確率情報と比較して、この単語が発声誤りを起こすかどうかを決定する。図１１は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の一例を示す図である。本例では、第１の実施形態で説明した発声誤り生起決定情報と比べて、発声誤りを起こった場合の動作（誤りパターン）が複数存在する条件がある。なお、発声誤り生起決定部２２の詳しい動作については、後ほど詳しく説明する。

発声誤り生起確率情報記憶部２３は、発声誤りを起こす確率が示されている発声誤り生起確率情報を記憶する。図１２は、発声誤り生起確率情報記憶部２３に記憶されている発声誤り生起確率情報の一例を示す図である。各単語における発声誤り生起確率は、あらかじめ、その単語の難易度や、読みの発声しにくさなどにより、誤りパターンごとに決められている。複数の誤りパターンを持つ単語には、それぞれ生起確率が対応付けられている。例えば、図の「取捨」では、語頭で言い淀む確率が６０％、第１音節後に言い淀む確率が３０％、発声後に言い直す確率が４０％となっている。

そして、これらの生起確率は、それぞれ独立に評価され、発声誤りを起こすか起こさないかを決定する際に利用される。つまり、発声誤り生起決定部２２は、発声誤りが起こる確率を誤りパターンごとに算出し、それぞれの誤りパターンの発声誤り生起確率情報と比較するので、生起確率が高くてもそのパターンの誤りを起こさないと決定する場合もあるし、生起確率が低くてもそのパターンの誤りを起こすと決定する場合もある。

（発声誤り生起決定部の動作）
次に、発声誤り生起決定部２２の動作について詳しく説明する。図１３は、発声誤り生起決定部２２の動作を示すフローチャートである。初めに、発声誤り生起決定部２２は、文字列解析部３において解析され分割された単語列の最初の単語を特定する（ステップＳ１３０１）。次に、発声誤り生起決定部２２は、当該単語が発声誤りを起こす可能性があるか否かを決定する（ステップＳ１３０２）。具体的には、発声誤り生起決定部２２は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。

発声誤り生起決定部２２は、当該単語が発声誤りを起こす可能性があると決定した場合（ステップＳ１３０２：Ｙｅｓ）、発声誤りが起こる確率、すなわち、発声誤りを起こすか否かを決定するための判定値を算出する（ステップＳ１３０３）。具体的には、発声誤り生起決定部２２は、ランダムに発生させた０〜９９の数値から１つを選択し、この値を発声誤りが起こる確率とする。

次に、発声誤り生起決定部２２は、当該単語が発声誤りを起こすか否かを決定する（ステップＳ１３０４）。具体的には、発声誤り生起決定部１２は、ステップＳ１３０３で算出した発声誤りが起こる確率値が、発声誤り生起確率情報記憶部２３に記憶されている当該単語の発声誤り生起確率情報の確率値より小さいか否かにより、当該単語が発声誤りを起こすか否かを決定する。

発声誤り生起決定部２２は、当該単語が発声誤りを起こすと決定した場合（ステップＳ１３０４：Ｙｅｓ）、すなわち、ステップＳ１３０３で算出した発声誤りが起こる確率値が、当該単語の発声誤り生起確率情報の確率値より小さい場合には、ステップＳ１３０５へ進む。

発声誤り生起決定部２２は、当該単語が発声誤りを起こさないと決定した場合（ステップＳ１３０４：Ｎｏ）、すなわち、ステップＳ１３０３で算出した発声誤りが起こる確率値が、当該単語の発声誤り生起確率情報の確率値より大きい場合には、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し（ステップＳ１３０８）、ステップＳ１３０９へ進む。

なお、前述したように、発声誤り生起確率情報記憶部２３に複数の誤りパターンが記憶されている単語については、誤りパターンごとにステップＳ１３０３とステップＳ１３０４とが行われるため、全ての誤りパターンについて発声誤りを起こさないと決定した場合にのみ、ステップＳ１３０８へ進むことになる。

ステップＳ１３０５で、発声誤り生起決定部２２は、さらに、複数の発声誤り（誤りパターン）が選択されたか否かを確認する。発声誤り生起決定部２２は、複数の発声誤りが選択されたことを確認した場合（ステップＳ１３０５：Ｙｅｓ）、発声誤り生起確率情報の確率値が最も大きい誤りパターンを選択し（ステップＳ１３０６）、当該単語に選択した誤りパターンを付与する（ステップＳ１３０７）。例えば、図１２の「取捨」で、第１音節後の言い淀み（確率値３０％）と、発声後の言い直し（確率値４０％）の２つが選択された場合、確率値が高い発声後の言い直しが選択される。その後、ステップＳ１３０９へ進む。

発声誤り生起決定部２２は、複数の発声誤りが選択されていないことを確認した場合（ステップＳ１３０５：Ｎｏ）、当該単語に選択した誤りパターンを付与する（ステップＳ１３０７）。その後、ステップＳ１３０９へ進む。

一方、ステップＳ１３０２で、発声誤り生起決定部２２は、当該単語が発声誤りを起こす可能性がないと決定した場合（ステップＳ１３０２：Ｎｏ）、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与し（ステップＳ１３０８）、ステップＳ１３０９へ進む。

次に、ステップＳ１３０９で、発声誤り生起決定部２２は、単語列に他の単語があるか否かを確認する。発声誤り生起決定部２２は、単語列に他の単語があると確認した場合（ステップＳ１３０９：Ｙｅｓ）、ステップＳ１３０１へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部２２は、単語列に他の単語がないと確認した場合（ステップＳ１３０９：Ｎｏ）、処理を終了する。

その後、音韻列生成部７は、発声誤り生起決定部２２による決定結果に基づいて、入力文（単語列）の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。

図１４は、入力部２により入力された文字列と、音韻列生成部７で作成された実際の音韻列の一例を示す図である。図１４をみると、接続詞の「しかし」は発声誤りを起こさないように、名詞の「アクセシビリティ」は第３音節後に言い淀むように、サ変名詞の「取捨」は発声後に言い直しするように、それぞれ音韻列が作成されていることがわかる。

なお、本例では、発声誤りが起こるかどうかを決める方法として、０〜９９の数値をランダムに発生させて、その数値と発声誤り生起確率情報の確率値とを比較しているが、もちろんこの方法以外でも、大局的に確率情報に添った結果が出る方法であればかまわない。

また、本例では、複数の誤りパターンが選択された場合、その中から１つの誤りパターンを選択して発声誤りを起こしているが、複数の誤りパターンを同時に起こすようにしてもよい。

また、本例では、説明の簡略化のため発声誤り生起決定情報及び発声誤り生起確率情報に言い誤りの場合を記述していないが、言い誤りの場合も同様であり、第２の実施の形態と組み合わせて実施することができる。

（変形例）
本実施の形態にかかる音声処理装置の変形例では、発声誤り生起決定部２２は、同じ単語列内で、以前に発生誤りを起こすと決定した単語と同じ単語が再び現れた場合には、発声誤りが起こる確率の算出方法を変更し発生誤りを起こし難くする。図１５は、発声誤り生起決定部２２の動作の変形例を示すフローチャートである。

初めに、発声誤り生起決定部２２は、文字列解析部３において解析され分割された単語列の最初の単語を特定する（ステップＳ１５０１）。次に、発声誤り生起決定部２２は、当該単語が発声誤りを起こす可能性があるか否かを決定する（ステップＳ１５０２）。具体的には、発声誤り生起決定部２２は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。

発声誤り生起決定部２２は、当該単語が発声誤りを起こす可能性があると決定した場合（ステップＳ１５０２：Ｙｅｓ）、発声誤りが起こる確率すなわち、発声誤りを起こすか否かを決定するための判定値を算出する（ステップＳ１５０３）。具体的には、発声誤り生起決定部２２は、ランダムに発生させた０〜９９の数値から１つを選択し、この値を発声誤りが起こる確率とする。

次に、発声誤り生起決定部２２は、当該単語が以前に誤りパターンを付与した単語であるか否かを確認する（ステップＳ１５０４）。発声誤り生起決定部２２は、当該単語が以前に誤りパターンを付与した単語であると確認した場合（ステップＳ１５０４：Ｙｅｓ）、発声誤りが起こる確率を再計算する（ステップＳ１５０５）。具体的には、発声誤り生起決定部２２は、発声誤りが起こる確率を回数に応じて増やしたり、二度目は最大値に固定するなど、発生誤りを起こしやすくする。

一方、発声誤り生起決定部２２は、当該単語が以前に誤りパターンを付与した単語ではないと確認した場合（ステップＳ１５０４：Ｎｏ）、ステップＳ１５０６へ進む。

なお、その後のステップＳ１５０６〜Ｓ１５１１は、図１３で説明したステップＳ１３０４〜Ｓ１３０９と同じであるので説明を省略する。

図１６は、入力部２により入力された文字列と、音韻列生成部７で作成された実際の音韻列の一例を示す図である。図をみると、文字列の最初に現れた名詞の「アクセシビリティ」は第３音節後に言い直すように音韻列が作成されているが、２番目に現れた名詞の「アクセシビリティ」は、発声誤りが発生しないように音韻列が作成されていることがわかる。

このように、第３の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報と、単語が発声誤りを起こす確率である発声誤り生起確率とに基づいて、発声誤りを起こすと決定することができるので、音韻列生成部が、文字列に表記されているそのままではなく、一律でない発声誤りの音韻列を生成することができ、音声合成部が、一律でないように意図的により自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。

（第４の実施の形態）
第４の実施の形態はで、発生誤り生起調整部が文字列全体における発声誤りの発生回数を調整する。第４の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第３の実施の形態と異なる部分を説明する。他の部分については第３の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。

図１７は、第４の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置３１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置３１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置３１は、入力部２、文字列解析部３、発声誤り生起決定部２２、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、発声誤り生起確率情報記憶部２３、発生誤り生起調整部３２、音韻列生成部７、音声合成部８、及び、出力部９を備えて構成されている。

発生誤り生起調整部３２は、文字列全体における発声誤りの発生回数を調整する。発生誤り生起調整部３２は、具体的には、文字列全体に対してあらかじめ決定されている、発声誤りの発生回数、発声誤りが発生する単語間の文字数、又は、単語の発声誤り生起確率の各条件に基づいて、発声誤りの発生回数を調整する。

（発生誤り生起調整部の動作）
図１８は、発生誤り生起調整部３２の動作を示すフローチャートである。ここでは、発声誤りの生起を調整する条件として、以下のような条件のうち、１つが指定されているものとする。
（Ａ）１つの文字列内の発声誤りの回数を制限する。
（Ｂ）発声誤りの間には一定文字数以上の間隔がある。
（Ｃ）単語の発声誤り生起確率が一定以上の発声誤りのみ起こる。

さらに、それぞれの「１つの文字列内の発声誤りの回数」「一定の文字数の間隔」「一定の発声誤り生起確率」については、音声合成部８で出力音声を合成する際の、速度や話者、スタイルなどの合成パラメータに依存して変化する。例えば、速度が速い＝早口でしゃべる＝発声誤りを起こしやすい、と想定できるので、１つの文字列内の発声誤りの回数が増える、一定の文字数の間隔が減る、発声誤り生起確率が低くなる、などの調整を行う。この調整が、合成パラメータの何に依存しどのように変化するかは、ここでは限定しない。

初めに、発生誤り生起調整部３２は、発声誤りの生起を調整する条件により、それぞれに応じた処理を行う（ステップＳ１８０１）。

発生誤り生起調整部３２は、条件が（Ａ）１つの文字列内の発声誤りの回数制限（ステップＳ１８０１：（Ａ））の場合は、まず、合成パラメータにより制限する回数を調整する（ステップＳ１８０２）。次に、発生誤り生起調整部３２は、１つの文字列全体にある発声誤りの回数を数える（ステップＳ１８０３）。次に、発生誤り生起調整部３２は、発声誤りの回数が制限回数を超えているか否かを確認する（ステップＳ１８０４）。

発生誤り生起調整部３２は、発声誤りの回数が制限回数を超えていると確認した場合（ステップＳ１８０４：Ｙｅｓ）、発声誤り生起確率の高い順に制限回数だけ発声誤りを残して、それ以外はキャンセルし（ステップＳ１８０５）、処理を終了する。発生誤り生起調整部３２は、発声誤りの回数が制限回数を超えていないと確認した場合（ステップＳ１８０４：Ｎｏ）、そのまま何もせず処理を終了する。

発生誤り生起調整部３２は、条件が（Ｂ）発声誤り間の一定文字数以上の間隔（ステップＳ１８０１：（Ｂ））の場合は、まず、合成パラメータにより間隔とする文字数を調整する（ステップＳ１８０６）。次に、発生誤り生起調整部３２は、文字列の先頭から順次発声誤りがあるか否かを確認する（ステップＳ１８０７）。

発生誤り生起調整部３２は、発声誤りがないと確認した場合（ステップＳ１８０７：Ｎｏ）、そのまま何もせず処理を終了する。一方、発生誤り生起調整部３２は、発声誤りがあると確認した場合（ステップＳ１８０７：Ｙｅｓ）、次の発声誤りがあるか否かを確認する（ステップＳ１８０８）。

発生誤り生起調整部３２は、次の発声誤りがないと確認した場合（ステップＳ１８０８：Ｎｏ）、そのまま何もせず処理を終了する。一方、発生誤り生起調整部３２は、次の発声誤りがあると確認した場合（ステップＳ１８０８：Ｙｅｓ）、発声誤り間の文字数が一定数以上であるか否かを確認する（ステップＳ１８０９）。

発生誤り生起調整部３２は、発声誤り間の文字数が一定数以上ではないと確認した場合（ステップＳ１８０９：Ｎｏ）、次の発声誤りをキャンセルし（ステップＳ１８１０）、ステップＳ１８０８へ戻る。一方、発生誤り生起調整部３２は、発声誤り間の文字数が一定数以上であると確認した場合（ステップＳ１８０９：Ｙｅｓ）、そのまま、ステップＳ１８０８へ戻る。

発生誤り生起調整部３２は、条件が（Ｃ）単語の発声誤り生起確率が一定以上（ステップＳ１８０１：（Ｃ））の場合は、まず、合成パラメータにより最低確率を調整する（ステップＳ１８１１）。次に、発生誤り生起調整部３２は、文字列の先頭から順次発声誤りがあるか否かを確認する（ステップＳ１８１２）。

発生誤り生起調整部３２は、発声誤りがないと確認した場合（ステップＳ１８１２：Ｎｏ）、そのまま何もせず処理を終了する。一方、発生誤り生起調整部３２は、発声誤りがあると確認した場合（ステップＳ１８１２：Ｙｅｓ）、その単語の発声誤り生起確率が最低確率以上であるか否かを確認する（ステップＳ１８１３）。

発生誤り生起調整部３２は、その単語の発声誤り生起確率が最低確率以上ではないと確認した場合（ステップＳ１８１３：Ｎｏ）、その単語の発声誤りをキャンセルし（ステップＳ１８１４）、ステップＳ１８１２へ戻り、次の発声誤りがあるか否かを確認する。一方、発生誤り生起調整部３２は、その単語の発声誤り生起確率が最低確率以上であると確認した場合（ステップＳ１８１３：Ｙｅｓ）、そのまま、ステップＳ１８１２へ戻り、次の発声誤りがあるか否かを確認する。

その後、音韻列生成部７は、発声誤り生起決定部２２による決定結果、及び、発生誤り生起調整部３２による調整結果に基づいて、入力文（単語列）の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。

なお、第４の実施の形態では、発生誤り生起調整部３２が単語の発声誤り生起確率を持った構成となっているが、１つの文字列内の発声誤り回数や一定以上の間隔を空ける条件については、第１の実施の形態や第２の実施の形態のように、発声誤り生起確率を持たない場合でも、条件に合うようにランダムに選ぶ、最初の発声誤りのみ選ぶ、などの方法により、同様の効果を得ることができる。

このように、第４の実施の形態にかかる音声処理装置によれば、発生誤り生起調整部が文字列全体における発声誤りの発生回数を調整するので、音韻列生成部が、不自然に発声誤りが連続して起こる音韻列を生成することを回避でき、音声合成部が、より自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。

（第５の実施の形態）
第５の実施の形態では、発声誤り生起決定部が発声誤り生起決定情報と文脈情報とに基づいて、発声誤りを起こすかどうかを決定する。第５の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第１の実施の形態と異なる部分を説明する。他の部分については第１の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。

図１９は、第５の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置４１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置４１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置４１は、入力部２、文字列解析部３、発声誤り生起決定部４２、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、文脈情報記憶部４３、音韻列生成部７、音声合成部８、及び、出力部９を備えて構成されている。

発声誤り生起決定部４２は、発声誤り生起決定情報に基づいて、解析結果の各単語が発声誤りを起こす可能性があるかどうかを決定する。さらに、発声誤り生起決定部４２は、発声誤りを起こす可能性がある場合は、該当する単語の文脈情報を検索して、この単語が発声誤りを起こすかどうかを決定する。なお、発声誤り生起決定部４２の詳しい動作については、後ほど詳しく説明する。

文脈情報記憶部４３は、発声誤りを起こす可能性がある単語の前後に記述されている単語の種類などによって発声誤りが起こるか否かの決定を示し、発声誤りが起こる場合にはその具体的な動作を示している文脈情報を記憶する。図２０は、文脈情報記憶部４３に記憶されている文脈情報の一例を示す図である。図２０の（ａ）は、発声誤り生起確率を持たない構成の場合の例であり、図２０の（ｂ）は、発声誤り生起確率を持つ構成の場合の例である。例えば、図２０の（ａ）の「名誉」では、直後の単語が「挽回」の場合に「汚名」と言い誤り、図２０の（ｂ）の「名誉」では、直後の単語が「挽回」の場合に「汚名」と言い誤る確率が９０％となっている。なお、日本語に限らず他の言語でも同様の情報を持つことができる。図２０の（ｃ）は、英語の例である。

（発声誤り生起決定部の動作）
次に、発声誤り生起決定部４２の動作について詳しく説明する。図２１は、発声誤り生起決定部４２の動作を示すフローチャートである。初めに、発声誤り生起決定部４２は、文字列解析部３において解析され分割された単語列の最初の単語を特定する（ステップＳ２１０１）。次に、発声誤り生起決定部４２は、当該単語が発声誤りを起こす可能性があるか否かを決定する（ステップＳ２１０２）。具体的には、発声誤り生起決定部４２は、発声誤り生起決定情報記憶部５に記憶されている発声誤り生起決定情報の全てを参照して、当該単語が発声誤り生起決定情報中の発声誤りを起こす条件に該当するか否かを確認する。

発声誤り生起決定部４２は、当該単語が発声誤りを起こす可能性がないと決定した場合（ステップＳ２１０２：Ｎｏ）、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する（ステップＳ２１０３）。発声誤り生起決定部４２は、当該単語が発声誤りを起こす可能性があると決定した場合（ステップＳ２１０２：Ｙｅｓ）、文脈情報記憶部４３に記憶されているその単語に該当する文脈情報を検索する（ステップＳ２１０４）。

次に、発声誤り生起決定部４２は、文脈が合致しているが、すなわち、文脈情報の内容と入力文の内容（当該単語の前後に記述されている単語の種類）とが合致しているか否かを確認する（ステップＳ２１０５）。発声誤り生起決定部４２は、文脈が合致していると確認した場合（ステップＳ２１０５：Ｙｅｓ）、当該単語に文脈情報の該当する誤りパターンを付与する。（ステップＳ２１０６）。発声誤り生起決定部４２は、文脈が合致していないと確認した場合（ステップＳ２１０５：Ｎｏ）、当該単語に正しい発声のフラグを付与するなど、発声誤りを起こさないという情報を付与する（ステップＳ２１０３）。

次に、発声誤り生起決定部４２は、単語列に他の単語があるか否かを確認する（ステップＳ２１０７）。発声誤り生起決定部４２は、単語列に他の単語があると確認した場合（ステップＳ２１０７：Ｙｅｓ）、ステップＳ２１０１へ戻り、その単語を特定し以後のステップを繰り返す。発声誤り生起決定部４２は、単語列に他の単語がないと確認した場合（ステップＳ２１０７：Ｎｏ）、処理を終了する。

その後、音韻列生成部７は、発声誤り生起決定部４２による決定結果に基づいて、入力文（単語列）の各単語が発声誤りを起こす場合には決定した誤りパターンに応じた発声誤りの音韻列を、発声誤りを起こさない場合には正しい音韻列を、それぞれ生成する。

図２２は、入力部２により入力された文字列と、音韻列生成部７で作成された実際の音韻列の一例を示す図である。図２２をみると、「名誉」を「汚名」に言い誤るような音韻列や、「許可局」を言い淀むような音韻列は、文脈情報の条件に合致した場合のみ作成されていることがわかる。

なお、発生誤りが言い誤りの場合は、第２の実施の形態と組み合わせて実施することができる。

また、発声誤り生起確率を持つ構成の場合には、第３の実施の形態と組み合わせて実施することができる。

このように、第５の実施の形態にかかる音声処理装置によれば、発声誤り生起決定部が、文字列を分割した単語が発声誤りを起こすかどうかを決定するための情報である発声誤り生起決定情報と文脈情報とに基づいて、発声誤りを起こすと決定することができるので、音韻列生成部が、文字列に表記されている同じ単語でも特定の文脈で使われた単語のみに発声誤りの音韻列を生成することができ、音声合成部が、一律でないように意図的により自然に誤った音声を合成することができ、出力部が、より人間的な発声をすることが可能となる。

（第６の実施の形態）
第６の実施の形態では、音韻列生成部が言い直しの音韻列を生成する場合には、もう一度発声する単語を強調して発声するような音韻列を生成する。第６の実施の形態について、添付図面を参照して説明する。本実施の形態にかかる音声処理装置の構成について、第１の実施の形態と異なる部分を説明する。他の部分については第１の実施の形態と同様であるので、同一の符号が付された箇所については、上述した説明を参照し、ここでの説明を省略する。

図２３は、第６の実施の形態にかかる音声処理装置の構成を示すブロック図である。音声処理装置５１は、音声にしたい文字列を人間的な発声である音声データに変換し、実際の音声として出力する。さらに、音声処理装置５１は、音声（発声）として出力する際に、発声誤りとして、言い淀み、言い直し、言い誤りを意図的に発生させる。音声処理装置５１は、入力部２、文字列解析部３、発声誤り生起決定部４、発声誤り生起決定情報記憶部５、生起決定情報記憶制御部６、音韻列生成部５２、音声合成部８、及び、出力部９を備えて構成されている。

音韻列生成部５２は、発声誤り生起決定部４で決定された情報により、発声誤り又は正しい発声のための音韻列を生成する。さらに、音韻列生成部５２は、発声誤りが「言い直し」の場合には、生成した発声誤りの音韻列に、強調して発声するためのタグを挿入する。

（音韻列生成部の動作）
次に、音韻列生成部５２の動作について詳しく説明する。図２４は、音韻列生成部５２の動作を示すフローチャートである。初めに、音韻列生成部５２は、発声誤り（誤りパターン）があるか否かを確認する（ステップＳ２４０１）。音韻列生成部５２は、発声誤りがないと確認した場合（ステップＳ２４０１：Ｎｏ）、通常の音韻列を生成し（ステップＳ２４０２）、処理を終了する。

音韻列生成部５２は、発声誤りがあると確認した場合（ステップＳ２４０１：Ｙｅｓ）、発声誤りが「言い直し」か否かを確認する（ステップＳ２４０３）。音韻列生成部５２は、発声誤りが「言い直し」ではないと確認した場合（ステップＳ２４０３：Ｎｏ）、発声誤りの音韻列を生成し（ステップＳ２４０４）、処理を終了する。

音韻列生成部５２は、発声誤りが「言い直し」であると確認した場合（ステップＳ２４０３：Ｙｅｓ）、発声誤りの音韻列を生成する（ステップＳ２４０５）。次に、音韻列生成部５２は、強調して発声するためのタグを音韻列の言い直し部分に挿入し（ステップＳ２４０６）、処理を終了する。

図２５は、入力部２により入力された文字列と、音韻列生成部５２で作成された実際の音韻列の一例を示す図である。図２５をみると、言い直しをする名詞の「アクセシビリティ」とサ変名詞の「考慮」について、強調のタグが挿入されていることがわかる。

なお、本例では、説明の簡略化のため言い誤りの場合を記述していないが、言い誤りの場合も同様であり、さらに第２の実施の形態と組み合わせて実施することができる。

また、本例では、発声誤り生起確率を持たない構成となっているが、第３の実施の形態と組み合わせて、発声誤り生起確率を持つ構成にすることもできる。

このように、第６の実施の形態にかかる音声処理装置によれば、音韻列生成部が言い直し（言い誤り）の音韻列を生成する場合には、もう一度発声する単語を強調して発声するような音韻列を生成することができるので、出力部が正しい単語を発声する時には強調して発声することができ、正しく訂正できたことを明確に示すことが可能となる。

なお、第１〜第６の実施の形態では、主に日本語の場合について説明しているが、日本語に限定されるものではなく、英語や他の言語についても同様の方法で同様の効果を得ることができる。

また、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。

本実施の形態の音声処理装置装置は、ＣＰＵなどの制御装置と、ＲＯＭやＲＡＭなどの記憶装置と、ＨＤＤ、ＣＤドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、スピーカーやＬＡＮインターフェースなどの出力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。

本実施形態の音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供又は配布するように構成しても良い。

また、本実施形態の音声処理プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態の音声処理装置で実行される音声処理プログラムは、上述した各部（文字列解析部、発声誤り生起決定部、音韻列生成部、音声合成部、及び、発声誤り生起調整部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、文字列解析部、発声誤り生起決定部、音韻列生成部、音声合成部、及び、発声誤り生起調整部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

本発明は、文字列を音声データに変換する全ての音声処理装置に有用である。

１、１１、２１、３１、４１、５１音声処理装置
２入力部
３文字列解析部
４、１２、２２、４２発声誤り生起決定部
５発声誤り生起決定情報記憶部
６生起決定情報記憶制御部
７、５２音韻列生成部
８音声合成部
９出力部
１３関連語情報記憶部
２３発声誤り生起確率情報記憶部
３２発声誤り生起調整部
４３文脈情報記憶部

Claims

発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部と、
前記発声誤りを起こす単語ごとに、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段と、
文字列を言語的に解析し、単語の列に分割する文字列解析部と、
分割された前記単語の各々と前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定部と、
前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成部と、
を備え、
前記条件のいずれかに対応付けられた誤りパターンは、前記言い誤りであり、
前記発声誤り生起決定部は、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に前記関連語情報から言い誤る単語を付与し、
前記音韻列生成部は、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする音声処理装置。
前記条件のいずれかに対応付けられた誤りパターンは、単語の発声前又は発声途中に発声される言い淀みであること、を特徴とする請求項１に記載の音声処理装置。
前記条件のいずれかに対応付けられた誤りパターンは、単語を完全に又は途中まで発声してから、再度発声する言い直しであること、を特徴とする請求項１に記載の音声処理装置。
前記関連語情報は、意味的な関連がある単語を集めたグループ、又は、発音の関連がある単語を集めたグループであること、を特徴とする請求項１に記載の音声処理装置。
前記条件は、前記発声誤りを起こす単語の品詞を示すこと、を特徴とする請求項１に記載の音声処理装置。
前記発声誤りを起こす単語が前記発声誤りを起こす確率である発声誤り生起確率を記憶する発声誤り生起確率情報記憶部をさらに備え、
前記発声誤り生起決定部は、更に、前記発声誤り生起確率を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項１に記載の音声処理装置。
前記発声誤り生起確率は、前記発声誤りを起こす単語の使用頻度、意味的な難易度、又は、読みの発声しにくさに依存すること、を特徴とする請求項６に記載の音声処理装置。
前記発声誤り生起決定部は、前記単語が既に前記発声誤りを起こした単語の場合、前記発声誤りを起こさないと決定すること、を特徴とする請求項６に記載の音声処理装置。
前記発声誤りを起こす単語の前後に記述されている単語の種類により、前記発声誤りを起こす単語が前記発声誤りを起こすか起こさないかを定義した情報である文脈情報を記憶する文脈情報記憶部をさらに備え、
前記発声誤り生起決定部は、更に、前記文脈情報を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項１に記載の音声処理装置。
前記発声誤りを起こす単語の前後に記述されている単語の種類により、前記発声誤りを起こす単語が前記発声誤りを起こすか起こさないかを定義した情報である文脈情報を記憶する文脈情報記憶部をさらに備え、
前記発声誤り生起決定部は、更に、前記文脈情報を考慮して、前記単語の各々が前記発声誤りを起こすか起こさないかを決定すること、を特徴とする請求項６に記載の音声処理装置。
前記文字列全体における前記発声誤りの発生回数を調整する発生誤り生起調整部をさらに備えたこと、を特徴とする請求項６に記載の音声処理装置。
前記発生誤り生起調整部は、前記発声誤りの発生回数が特定の回数以下になるように調整すること、を特徴とする請求項１１に記載の音声処理装置。
前記発生誤り生起調整部は、前記発声誤りが発生した後、次の発声誤りが発生する単語まで一定数以上の間隔がない場合には、前記次の発声誤りが発生しないように調整すること、を特徴とする請求項１１に記載の音声処理装置。
前記発生誤り生起調整部は、前記発声誤り生起確率が一定以下の場合には、前記発声誤りが発生しないように調整すること、を特徴とする請求項１１に記載の音声処理装置。
前記音韻列生成部は、前記言い直しの音韻列を生成する場合には、再度発声する前記単語を強調して発声する音韻列を生成すること、を特徴とする請求項３に記載の音声処理装置。
前記音韻列生成部は、前記言い誤りで前記誤った単語を完全に又は途中まで発声してから前記正しい単語を発声する場合には、前記正しい単語を強調して発声する音韻列を生成すること、を特徴とする請求項１に記載の音声処理装置。
前記単語の列の前記音韻列を音声データに変換する音声合成部をさらに備えたこと、を特徴とする請求項１に記載の音声処理装置。
文字列解析部が、文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、
発声誤り生起決定部が、分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、
音韻列生成部が、前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、
を含み、
前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、
前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、
前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成することを特徴とする音声処理方法。
文字列を言語的に解析し、単語の列に分割する文字列解析ステップと、
分割された前記単語の各々と、発声誤りを起こす単語の条件ごとに誤りパターンを対応付けた発声誤り生起決定情報を記憶する発声誤り生起決定情報記憶部の前記条件とを比較して、前記条件に該当する前記単語には前記誤りパターンを付与し、前記条件に該当しない前記単語は前記発声誤りを起こさないことを決定する発声誤り生起決定ステップと、
前記誤りパターンが付与された前記単語には前記誤りパターンに応じた発声誤りの音韻列を生成し、前記発声誤りを起こさないと決定した前記単語には通常の音韻列を生成して、前記単語の列の音韻列を生成する音韻列生成ステップと、
をコンピュータに実行させ、
前記条件のいずれかに対応付けられた誤りパターンは、誤った単語を完全に若しくは途中まで発声してから正しい単語を発声する、又は、前記誤った単語を発声したままにする言い誤りであり、
前記発声誤り生起決定ステップでは、前記単語に付与した前記誤りパターンが前記言い誤りである場合には、更に、前記発声誤りを起こす単語ごとに前記言い誤りを起こす可能性がある単語を集めた関連語情報を記憶する関連語情報記憶手段の前記関連語情報から言い誤る単語を付与し、
前記音韻列生成ステップでは、前記言い誤る単語が付与された前記単語の前記誤りパターンに応じた発声誤りの音韻列として、前記言い誤る単語の少なくとも一部の後に当該言い誤る単語が付与された前記単語が続く音韻列を生成するための音声処理プログラム。