JP4327241B2

JP4327241B2 - 音声強調装置および音声強調方法

Info

Publication number: JP4327241B2
Application number: JP2008558565A
Authority: JP
Inventors: 弓子加藤; 孝浩釜井; 昌克星見
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-10-01
Filing date: 2008-09-29
Publication date: 2009-09-09
Anticipated expiration: 2028-09-29
Also published as: CN101627427B; US20100070283A1; WO2009044525A1; JPWO2009044525A1; US8311831B2; CN101627427A

Description

本発明は、人間の歌唱音声や人間が強調のために力を入れて話すときにあらわれる、だみ声、荒れた声、ざらざらした声（harsh voice）、例えば演歌等の歌唱時に現れる「こぶし」または「唸り」のような表現、ブルースおよびロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を生成する技術に関する。より特定的には、前記のような音声に含まれる怒り、強勢、力強さ、元気のよさのような感情や音声の表情、発話スタイルや話者の態度、状況、または発声器官の緊張状態を表現可能な音声の生成を可能にする音声強調装置に関する。

従来、感情、表情、態度および状況等を音声で表現する、特に音声の言語的表現ではなく、口調、話し方および声色といったパラ言語的表現によって感情等を表現することを目的とした音声変換または音声合成の技術が開発されている。これらの技術は、ロボットまたは電子秘書をはじめ、電子機器の音声対話インタフェースに必要不可欠である。また、カラオケまたは音楽用のエフェクタに使われる技術として、音声波形を加工してビブラート等の音楽的表現を加えるものや、音声の表現を強調するものが開発されている。

音声のパラ言語的表現または音楽的表現のうち、声質による表現を実現する方法としては、入力された音声を分析して合成パラメータを求め、そのパラメータを変更することにより声質を変更する音声変換方法が提案されている（例えば、特許文献１参照）。しかしながら、前記従来の方法では、感情ごとにあらかじめ定められた一様な変換規則に従ってパラメータ変換を行う。このため、自然発話に見られる部分的に力んだ声になったりするような声質のバリエーションを再現することはできない。また、入力音声全体に対して一様に変換規則を適用する。このため、話者が強調しようとした部分のみを変換したり、入力音声がもともと持っていた表情または表現の強弱を強調するような変換に対応することができない。

また、カラオケでは、ユーザの歌唱を、オリジナルの歌手の歌い方を模擬した歌唱に変更する方法も提案されている（例えば、特許文献２）。つまり、オリジナルの歌手の歌い方、すなわち楽曲のうちどの区間でどの程度ビブラートがかかったり、「力み」または「唸り」が入っていたかといった音楽的表現を記述した歌唱データに基づいて、ユーザの歌唱音声に対して振幅や基本周波数を変更したり、ノイズを付加するなどの変形処理を行う。

さらに、歌唱データとオリジナル歌手の歌唱タイミングのずれに対しては歌唱データと楽曲データとの比較を行う方法が提案されている（例えば、特許文献３）。これらの技術を組み合わせれば、歌唱データがオリジナル歌手の歌唱タイミングからずれた場合においてもおおよそのタイミングが合っていれば入力音声をオリジナル歌手の歌い方を模擬した歌唱に変換できる可能性がある。

音声の部分的な声質のバリエーションについては、本願が対象とする、興奮した際の発声または歌唱音声の表現としての「力み」または「唸り」音声とは異なる「りきみ」として、「きしる声」（creaky）または「フライ」（vocal fry）とも呼ばれる音声の研究がなされている。非特許文献１は「きしる声」の音響的特徴として、局所的なエネルギーの変化が激しく、基本周波数は通常発声よりも低く、不安定であり、通常発声の区間よりもパワーが小さいことを上げている。また、これらの特徴は喉頭を力むことにより、声帯振動の周期性が乱れるために生じる場合があることを示している。さらに、音節単位の平均持続時間に比べて長い区間に渡って「りきみ」が生じることが多いことを示している。「きしる声」は、関心もしくは嫌悪の感情的表現、または躊躇もしくは謙遜のような態度的表現において、話者の誠実性を高める効果を持つ声質であるとされる。非特許文献１に述べられる「りきみ」は、一般に文末または句末等の音声が消えていく過程、ことばを選んで話したり、考えながら話したりする際に語尾を引きずるように引き伸ばして発声する場合の引き伸ばされた語尾、および答えに窮した際に発せられる「えーっと」「うーん」というような感動詞または感嘆詞に多く見られるものである。さらに、非特許文献１には、「フライ」および「きしる声」には、ダブル・ビートまたは基本周期の倍数で新たな周期が起きる発声（diplophonia）が含まれていることが示されている。「フライ」に見られるdiplophoniaと呼ばれる音声を生成する方式としては、基本周波数の１／２周期分だけ位相をずらした音声を重ね合わせる方法が提案されている。
特許第３７０３３９４号公報特開２００４−１７７９８４号公報特許第３７６０８３３号公報石井カルロス寿憲、石黒浩および萩田紀博、「りきみの自動検出のための音響分析」、電子情報通信学会技術研究報告、ＳＰ２００６−０７巻、ｐｐ．１−６、２００６

しかしながら、前記従来の方法またはそれらの組み合わせでは、興奮、緊張、怒りまたは強調のために力を入れて話すときのだみ声、荒れた声およびざらざらした声（harsh voice）、ならびに歌唱時の「こぶし」、「唸り」または「シャウト」のような音声の一部に現れる「力み」音声を生成することはできない。ここでの「力み」音声は、力を入れて発話する際に、通常より発声器官に力が入るまたは発声器官が強く緊張するために起こるものである。具体的には、「力み」音声は力が入った発声であるため、音声の振幅はどちらかといえば大きい。また、「力み」音声は、感動詞または感嘆詞に限らず、自立語または付属語を問わず様々な品詞中に見られる。すなわち、「力み」は、前記の従来の方法が実現する「りきみ」とは異なる音声の現象である。このため、従来の方法では本願が対象とする「力み」音声を生成することはできない。すなわち、怒りもしくは興奮、勢い込んだ話し方もしくは元気のある話し方のような音声の表情を、発声器官の力の入り方、緊張のしかたを感じさせる「力み」音声を生成することで、声質の変化により豊かに表現することが困難であるという課題を有している。さらに、歌唱音声の変換においては、歌唱データがオリジナル歌手の歌唱のタイミングに固定されている。このため、ユーザがオリジナル歌手のタイミングとは大きく異なるタイミングで歌った場合の音楽表現の付加ができない。また、オリジナル歌手とは異なる、ユーザが思うタイミングで「力み」または「唸り」をつけて歌いたい場合、またはそもそも歌唱データがない場合に、「力み」をつけて歌いたいという欲求または意思を反映することができない。

すなわち、上記の従来の方法では、部分的な声質のバリエーションを自由なタイミングで付加することが困難で、音声にリアルな表情や豊かな音楽的表現を自由に付加することができないという課題がある。

本発明は、前記従来の課題を解決するもので、話者またはユーザが強調または音楽表現を意図した位置に、前記の「力み」音声を発生させる。このことにより、怒り、興奮、緊張、元気のある話し方による強調、または演歌、ブルースもしくはロック等の音楽表現を、ユーザの音声に付加して、豊かな音声表現を実現する音声強調装置を提供することを目的とする。

また本発明は、話者またはユーザの強調または音楽表現の意図を、その音声の特徴より推定して、話者またはユーザが強調または音楽表現を意図したと推定される音声区間に対して、「力み」音声を発生させる処理を行う。このことにより、怒り、興奮、緊張、元気のある話し方による強調、または演歌、ブルースもしくはロック等の音楽表現を、ユーザの音声に付加して豊かな音声表現を実現する音声強調装置を提供することを目的とする。

上記目的を達成するために、本発明に係る音声強調装置は、入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調部とを備え、前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出することを特徴とする。

この構成により、入力された音声波形中で話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間を検出し、検出された音声区間の音声を「力み音声」に変換して出力することができる。すなわち、話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を実現することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形が周期的な振幅変動を伴うように、前記音声波形に変調を施すことを特徴とする。

この構成により、音声波形を入れ替える等の処理により任意の入力音声に対応しうる大量の特徴的な音声波形を保持することなく、表情豊かな音声を生成することができる。また、入力音声に振幅変動を伴う変調処理を付加するだけで音声表現ができるため入力音声の特徴を維持したまま、単純な処理のみで強調や緊張を伝える表現の音声波形や、音楽的表現を付加することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の信号を用いて、周期的な振幅変動を伴うように前記音声波形に変調を施すことを特徴とする。

この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、「力み音声」に聞こえる周波数範囲の振幅変動を発生させることができる。これにより、強調もしくは緊張を伝える表現、または音楽的表現をより確実に聴取者に伝えることのできる音声波形を生成することができる。

好ましくは、前記音声強調部は、さらに、前記音声波形が周期的な振幅変動を伴うように前記音声波形に変調を施す際に用いられる信号の周波数を４０Ｈｚ−１２０Ｈｚの範囲内で変動させることを特徴とする。

この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、「力み音声」に聞こえる周波数範囲の振幅変動を発生させる際に、一定周波数でなく「力み音声」に聞こえる範囲内で振幅変動の周波数にゆらぎを与える。これにより、より自然な「力み音声」を生成することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に周期信号を乗ずることにより周期的な振幅変動を伴う変調を音声波形に付与することを特徴とする。

この構成により、より単純な処理によって入力音声に「力み音声」に聞こえる振幅変動を付加することができ、強調もしくは緊張を伝える表現、または音楽的表現を確実に付加して豊かな音声表現を実現することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の位相をずらすオールパスフィルタと、前記オールパスフィルタへ入力される前記強調区間に含まれる前記音声波形と、前記オールパスフィルタにより位相がずらされた後の音声波形とを加算する加算手段とを有することを特徴とする。

この構成により、周波数成分ごとに異なる振幅の変動を起こすことができ、すべての周波数成分が同一の振幅変化をする単純な変調に比べて複雑な振幅変動を起こすことができる。このため、強調もしくは緊張を伝える表現、または音楽的表現を持ち、かつ、聴感上より自然な音声を生成することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅のダイナミックレンジを拡大することを特徴とする。

この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、入力音声に含まれる振幅のダイナミックレンジを拡大することで、その音声がもともと持つ振幅変動の特徴を強調や音楽表現として聞き取れる大きさの振幅変動にして出力することができる。すなわち、話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を、元の音声の特徴を使ってより自然な表現として実現することができる。

好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形において、前記音声波形の振幅包絡の値が所定の値以下の場合には、前記音声波形の振幅を圧縮し、かつ前記音声波形の振幅包絡の値が前記所定の値よりも大きい場合には、前記音声波形の振幅を増幅することを特徴とする。

この構成により、より単純な処理によって入力音声に含まれる振幅のダイナミックレンジを拡大することができる。話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、より単純な処理により、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を、元の音声の特徴を使ってより自然な表現として実現することができる。

好ましくは、前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある時間区間であり、かつ前記入力音声波形の振幅包絡の振幅変動度合いを示す振幅変調度が０．０４未満である時間区間を前記強調区間として検出することを特徴とする。

この構成により、強調発声区間検出部は、話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間のうち、入力音声が未処理の状態で「力み音声」に聞こえる部分以外を強調区間として検出する。そして、話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間のうち、話者またはユーザの肉声による音声表現が十分である部分に強調処理を施さず、肉声による音声表現が不十分である部分についてのみ強調処理を施す。すなわち、肉声の音声表現をできるだけ保持した上で、話者またはユーザが「力み音声」を意図したにもかかわらず表現が付けられなかった部分についてのみ「力み音声」を付加する。よって、より自然な肉声の音声表現を保持しながら、強調もしくは緊張を伝える表現または音楽的表現を付加して豊かな音声表現を実現することができる。

好ましくは、前記強調発声区間検出部は、前記発話者の声門が閉鎖している時間区間に基づいて、前記強調区間を決定することを特徴とする。

この構成により、より正確に喉頭に力が入った状態を検出することができ、話者または歌唱者の表現の意図を正確に反映した強調区間を決定することができる。

好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者の動きにより生成される圧力を検知する圧センサを備え、前記強調発声区間検出部は、前記圧センサの出力値があらかじめ定められた値を越えるか否かを判断し、前記圧センサの出力値があらかじめ定められた値を越える時間区間を前記強調区間として検出することを特徴とする。

この構成により、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。

好ましくは、前記圧センサは、前記入力音声波形を受付けるマイクロフォンの把持部に取り付けられていることを特徴とする。

この構成により、発話時または歌唱時の自然な動作から、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。

好ましくは、前記圧センサは、支持部により前記発話者の腋または腕に取り付けられていることを特徴とする。

この構成により、発話時または歌唱時の特にハンドマイクを手に持った状態での自然な動作から、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。

好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者の動きを検知する動きセンサを備え、前記強調発声区間検出部は、前記動きセンサの出力値があらかじめ定められた値を超える時間区間を前記強調区間として検出することを特徴とする。

この構成により、発話時または歌唱時のジェスチャを捉えることができ、動作の大きさから話者または歌唱者が力を込めて発声している状態を簡易に検出できる。

好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者が動く際の加速度を検知する加速度センサを備え、前記強調発声区間検出部は、前記加速度センサの出力値があらかじめ定められた値を超える時間区間を前記強調区間として検出することを特徴とする。

なお、本発明は、このような特徴的な手段を備える音声強調装置として実現することができるだけでなく、音声強調装置に含まれる特徴的な手段をステップとする音声強調方法として実現したり、音声強調方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の音声強調装置によれば、人間が怒鳴ったとき、興奮もしくは緊張して話すとき、または強調のために力を入れて話すとき等に現れる、だみ声、荒れた声もしくはざらざらした声（harsh voice）、または、演歌等の歌唱時に現れる「こぶし」もしくは「唸り」のような表現、ブルースもしくはロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を、話者またはユーザが音声強調または音楽表現を意図した位置に生成することができる。それにより、入力音声を、話者または歌い手の、力の入り具合または感情移入の様子が伝わる表情豊かな音声に変換することができる。

まず、本発明の基礎となる、音声中の力み音声の特徴について述べる。

感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば、非特許文献：日本音響学会誌５１巻１１号（１９９５）、ｐｐ８６９−８７５、粕谷英樹・楊長盛“音源から見た声質”、特許文献：特開２００４−２７９４３６号公報）。「激怒」および「怒り」の感情を伴った音声では、だみ声、荒れた声またはざらざらした声と表現されるような「力み」音声が多く見られる。「力み」音声の波形の調査により、「力み」音声の波形の多くに振幅の周期的変動が見られることが明らかになった。図１（ａ）は、「特売（とくばい）してますよ」の「ばい」部分について、感情を伴わず「平静」に発声した音声より切り出した通常発声の音声波形とその振幅包絡の概形を示したものである。図１（ｂ）は、「激怒」の感情を伴って発声された、同じく「特売してますよ」中の「ばい」部分の波形とその振幅包絡の概形である。両波形とも、音素の境界を破線で示している。図１（ａ）の波形の／ａ／、／ｉ／を発声している部分では、振幅が滑らかに変動していく様子が見える。通常の発声においては、図１（ａ）の波形のように、母音の開始部で滑らかに振幅が大きくなり、音素の中央付近で最大値となり、音素境界に向けて小さくなる。母音の終了部がある場合には、振幅は、滑らかに、無音または後続子音の振幅に向けて小さくなる。図１（ａ）のように母音が続く場合は緩やかに後続の母音の振幅に向けて小さくまたは大きくなる。通常発声においては、１つの母音内において、図１（ｂ）のように振幅の増減を繰り返すことはほとんどなく、このような基本周波数との関係が一見してわからない振幅の変動を持つ音声についての報告はない。そこで、振幅変動が力み音声の特徴であると考え、力み音声であるとラベルされた音声について、以下の処理によって振幅包絡の変動周期を求める。

まず、音声波形を代表する正弦波成分を抽出するため、対象となる音声波形の基本周波数の第２高調波を中心周波数とするバンドパスフィルタを逐次に求め、そのフィルタに音声波形を通過させる。フィルタを通過した波形をヒルベルト変換して解析信号を求め、その絶対値によってヒルベルト包絡曲線を求めることで、音声波形の振幅包絡曲線を求める。求められた振幅包絡曲線をさらにヒルベルト変換し、瞬時角速度をサンプル点ごとに計算し、サンプリング周期に基づいて角速度を周波数に変換する。サンプル点ごとに求められた瞬時周波数について音韻ごとにヒストグラムを作成し、最頻値をその音韻の音声波形の振幅包絡の変動周波数と見なす。

図２は男性話者による「激怒」の感情を伴う発声を対象として、分析した力み音声の振幅包絡の変動周波数の分布を、ヒストグラムと累積度数で示したものである。表１は、図２に示した力み音声の振幅包絡の変動周波数の頻度および累積度数を示す表である。

力み音声でない通常の音声は、振幅包絡に周期的変動が無い。このため、「力み」音声と通常音声とを判別するためには周期的変動がない状態と周期的変動がある状態とを区別する必要がある。図２のヒストグラムにおいて、力み音声の頻度は、振幅変動の周波数が１０Ｈｚから２０Ｈｚの間で立ち上がり、４０Ｈｚから５０Ｈｚの範囲で急激に増加している。周波数の下限は、４０Ｈｚ付近が妥当であると考えられるが、より広い範囲で網羅的に力み音声を検出する際には、下限を１０Ｈｚとしても良い。累積度数より力みとラベルされた音韻のうち、９０％は４７．１Ｈｚ以上の周波数で振幅が変動している。これらより、周波数の下限として４７．１Ｈｚを用いることができる。振幅変動の周波数が高くなりすぎると人間の聴覚は振幅の変動を捉えることができなくなる特性を考えると、振幅変動によって力み音声を検出するためには、周波数に上限を設けるのが望ましい。聴覚の特性としては、７０Ｈｚ付近が「粗さ」を最もよく感じる周波数であり、変調を受ける元の音にもよるが、１００Ｈｚから２００Ｈｚにかけて「粗さ」の感覚は小さくなる。

図２のヒストグラムにおいて、力み音声の頻度は１１０Ｈｚから１２０Ｈｚの範囲で急激に減少しており、さらに１３０Ｈｚから１４０Ｈｚの範囲で半減している。力み音声を特徴付ける振幅変動の周波数の上限は、１３０Ｈｚ付近で設定されるべきである。さらに、下限同様に、より広い範囲で網羅的に力み音声を検出する際には、図２において１７０Ｈｚから１８０Ｈｚの範囲で一旦頻度が０まで低下することに基づいて、周波数の上限を１７０Ｈｚとしても良い。４７．１Ｈｚの下限とあわせて、累積度数より力みとラベルされた音韻のうち８０％が含まれることになる１２３．２Ｈｚを周波数の上限として用いることは有効である。

図３Ａおよび図３Ｂは、力み音声の振幅包絡の変調度を説明するための図である。振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なり、変調される信号である音声波形にもともと振幅の変化がある。このため、ここでは、振幅変動の変調度（振幅変調度）を以下のように定義する。図３Ａに示すように、第２高調波を中心周波数とするバンドパスフィルタを通過した波形のヒルベルト包絡曲線として求められた振幅包絡曲線を多項式近似し、多項式によるフィッティング関数を作成する。図３Ａは、３次関数によるフィッティングを行ったものである。フィッティング関数を変調前の波形の振幅包絡線と見なす。図３Ｂに示すように、振幅包絡線のピークごとにフィッティング関数との差分を求め、振幅変動量と見なす。フィッティング関数の値、振幅変動量共に一定ではないため、振幅変動量とフィッティング関数の値の両者について音韻内での中央値を求め、両中央値の比を変調度とする。

図４は、このようにして求めた変調度のヒストグラムと累積度数とを示す図である。表２は、図４に示した変調度の頻度および累積度数を示す表である。

図４に示すヒストグラムは、男性話者による「激怒」の感情を伴う発声中に見られた力み音声より求められた振幅変動の変調度の分布を示している。聴取者が振幅変動を知覚するためには、変動の大きさすなわち変調度が一定値以上である必要がある。図４のヒストグラムにおいて、振幅変動の変調度の頻度が０．０２から０．０４の範囲で急激に高くなっている。このため、力み音声を特徴付ける振幅変動の変調度の下限を０．０２付近とすることが妥当である。また、累積度数を見ると、９０％の音韻は変調度が０．０３８以上である。このため、変調度の下限として０．０３８を用いることもできる。さらに、０．０３８の下限とあわせて、累積度数より力みとラベルされた音韻のうち８０％が含まれることになる、０．２７６を振幅変動の変調度の上限として用いることは有効である。上記のことから、力み音声を検出するための１つの基準として、振幅包絡の周期変動が４０Ｈｚ−１２０Ｈｚ、変調度が０．０４以上という基準を用いることができる。

このような振幅変動によって「力み」音声に聞こえることを確認するための聴取実験をおこなった。まず、３つの通常発声の音声に振幅変動無しから２００Ｈｚまでの１５段階で振幅周波数を変えた振幅変動を伴う変調処理を行った音声を用意し、それぞれの音声が以下の３つの分類のうちどれに該当するかを、被験者に選択させる実験を行った。１３名の聴力正常な被験者は、３つの分類の中から、音声試料が当てはまるものを選択した。つまり、被験者は、通常の音声に聞こえる場合には「力みに聞こえない」を選択する。また、「力み」音声に聞こえる場合には「力みに聞こえる」を選択する。さらに、振幅変動が音声とは別の音を感じさせ、「力んだ声」とは聞こえない場合には「雑音に聞こえる」を選択する。各音声についての判断は２回ずつ行われた。

その結果、図５に示すように、振幅変動無しから振幅変動周波数３０Ｈｚまでは「力みに聞こえない」の回答が最も多かった。また、振幅変動周波数４０Ｈｚから１２０Ｈｚまでは「力みに聞こえる」の回答が最も多かった。さらに振幅周波数１３０Ｈｚ以上では「雑音に聞こえる」の回答が最も多かった。この結果より、「力み」音声と判断され易い振幅変動周波数の範囲は、実際の「力み」音声の振幅変動周波数の分布に近い、４０Ｈｚから１２０Ｈｚであることが示された。

一方、音声波形は音韻ごとの緩やかな振幅の変動をもつ。このため、振幅変動の変調度は、振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なる。しかし、振幅一定のキャリア信号に対する振幅変調に習って、図６のような変調信号を仮定する。変調の対象となる信号の振幅絶対値を１００％すなわち変更無しから、０％すなわち振幅０までの間で変調する場合を変調度１００％として、変調信号の変動幅を百分率で表現したものを変調度とする。図６に示した変調信号は、変調の対象の信号を変更無しから、０．４倍までの間で変調するものであり、変動幅は１−０．４すなわち０．６である。よって変調度は６０％となる。

このような変調信号を用いて「力み」音声に聞こえる変調度の範囲を確認する聴取実験を行った。２つの通常発声の音声に、変調度０％すなわち振幅変動無しから変調度１００％までの間で変調度を変えた振幅変動を伴う変調処理を行った音声を１２段階用意した。聴力正常な被験者１５名において、通常の音声に聞こえる場合には「力み」なし、力みに聞こえる場合には「力み」あり、力み以外の違和感のある音に聞こえる場合には「力み」に聞こえないの３つの分類の中から、音声試料が当てはまるものを選択する聴取実験を行った。各音声の判断は５回ずつ行われた。図７に示すように、聴取実験の結果、変調度３５％までは「力み」なしの回答が最も多く、４０％から８０％までは「力み」ありの回答が最も多かった。さらに９０％以上では力み以外の違和感のある音に聞こえるとの回答が最も多かった。この結果より、「力み」音声と判断され易い変調度の範囲は４０％から８０％であることが示された。

歌唱において、旋律にあわせて母音の時間長を長く伸ばす場合が多くあるが、時間長の長い（例えば、３秒を超える）母音に一定の変調周波数で振幅変動を付加すると、音声と共にブザー音が聞こえる等の不自然な音が生成される場合がある。振幅変動の変調周波数をランダムに変化させることで、ブザー音や雑音の重畳のような印象を減らせる場合もある。振幅変動の変調周波数を、平均８０Ｈｚ、標準偏差２０Ｈｚになるようランダムに変化させて振幅変調を行った音と、変調周波数を８０Ｈｚで一定にして振幅変調を行った音とについて、１５名の被験者で違和感を５段階で評価する実験を行った。そのところ、変調周波数が一定の場合とランダムに変化する場合とで違和感の評価値に有意な差は見られなかった。しかし、特定のサンプル音声については、図８に示すように、１５名中１２名が、変調周波数一定の場合に比べて、変調周波数がランダムな場合に、違和感が減少しているか変化がないと判断している。つまり、変調周波数をランダムにすることで不自然な音が生成されることなく、違和感を減らす効果が期待される場合もある。なお、実験で用いられた特定のサンプル音声とは、「あまりよく眠れなかったようですね」と発声している音声中の、「ま」、「よう」の箇所に、１００ｍｓを超える振幅変調を行った音が挿入され、「か」の箇所に、９０ｍｓの振幅変調を行った音が挿入された音声である。

さらに、歌唱音声に、平均８０Ｈｚ、標準偏差２０Ｈｚでランダムに変調周波数が変化するような振幅変動処理を行った音声を用意した。この音声に対して、聴力正常な被験者１５名が、「力んで歌っている」か否かを判断する聴取実験を行った。図９のように振幅変動処理を行うことにより、振幅変動処理を行わない場合に比べてより「力んで歌っている」と評価されている。これにより、歌唱における音楽表現である「力み」または「唸り」が、感情を伴う発話における「力み」と同様の変調処理によって生成できることが示された。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１０は、実施の形態１の音声強調装置の外観図であり、具体的にはカラオケ装置などである。

図１１は、実施の形態１の音声強調装置の機能ブロック図である。

図１１に示されるように、本発明の実施の形態１に係る音声強調装置は、入力音声中の力み音声を強調して出力する装置であり、音声入力部１１と、強調発声区間検出部１２と、音声強調部１３と、音声出力部１４とを備えている。

音声入力部１１は、音声波形を入力として受付ける処理部であり、例えばマイクロフォンなどにより構成される。

強調発声区間検出部１２は、音声入力部１１により入力された音声波形から話者またはユーザが「力み」による強調または音楽表現（「唸り」）を付加しようとする音声の区間を検出する処理部である。

音声強調部１３は、音声入力部１１により入力された音声波形のうち、強調発声区間検出部１２で検出された強調または音楽表現を付加しようとする区間に、振幅変動を伴う変調処理を施す処理部である。

音声出力部１４は、音声強調部１３により音声波形の一部または全部に変調処理が施された音声波形を出力する処理部であり、例えば、スピーカなどにより構成される。

図１２は、図１１に示した音声強調装置において、強調発声区間検出部１２および音声強調部１３の構成を詳細に説明した音声強調装置の構成を示す機能ブロック図である。

図１２に示されるように、強調発声区間検出部１２は、力み判定部１５と、力み付加処理判定部１６とを含む。音声強調部１３は、周期信号生成部１７と、振幅変調部１８とを含む。

力み判定部１５は、音声入力部１１より入力された音声波形を受付け、音声の振幅包絡より、一定範囲内の周波数の振幅変動を検出することにより、音声波形中の「力み」の有無を判定する処理部である。

力み付加処理判定部１６は、力み判定部１５で「力み」があると判定された音声区間について、振幅変動の変調度の大きさが「力み」を感じるのに十分であるか否かを判定する処理部である。

周期信号生成部１７は、音声の振幅変動を伴う変調処理に用いる周期信号を生成する処理部である。

振幅変調部１８は、力み判定部１５で「力み」ありと判定された音声区間のうち、力み付加処理判定部１６で変調度の大きさが不十分であると判定された区間について、当該区間に含まれる音声波形に周期信号生成部１７で生成した周期信号を乗じ、当該の音声波形に振幅変動を伴う周期的な変調処理を行う処理部である。

図１３は、力み判定部１５および力み付加処理判定部１６の詳細な構成を示す機能ブロック図である。

図１３に示すように、力み判定部１５は、周期性分析部１９と、第２高調波抽出部２０と、振幅包絡分析部２１と、変動周波数分析部２２と、変動周波数判定部２３とを含み、力み付加処理判定部１６は、振幅変調度計算部２４と、変調度判定部２５とを含む。

周期性分析部１９は、音声入力部１１から入力された音声波形の周期性を分析し周期性のある区間を有声区間として出力すると同時に、音声波形の基本周波数を出力する処理部である。

第２高調波抽出部２０は、周期性分析部１９より出力された基本周波数の情報に基づき、音声波形の第２高調波信号を抽出する処理部である。

振幅包絡分析部２１は、第２高調波抽出部２０で抽出された第２高調波信号の振幅包絡を求める処理部である。

変動周波数分析部２２は、振幅包絡分析部２１において求められた振幅包絡（包絡線）の変動周波数を求める処理部である。

変動周波数判定部２３は、変動周波数分析部２２より出力された包絡線の変動周波数があらかじめ定められた範囲内にあるか否かによって音声が「力み」音声であるか否かを判定する処理部である。

振幅変調度計算部２４は、変動周波数判定部２３で「力み」音声と判定された区間について、包絡線の振幅変調度を求める処理部である。

変調度判定部２５は、振幅変調度計算部２４で求められた「力み」区間の振幅包絡線の振幅変調の度合いが、あらかじめ定められた値以下である場合に、当該区間を力み処理対象区間とする処理部である。

次に、先に述べたような構成の音声強調装置の動作を図１４〜図１６に従って説明する。図１４は、音声強調装置の動作を示すフローチャートである。

まず、音声入力部１１は音声波形を取得する（ステップＳ１１）。音声入力部１１により取得された音声波形は、強調発声区間検出部１２の力み判定部１５へ入力され、力み判定部１５は、音声中の振幅変動区間の検出を行う（ステップＳ１２）。

図１５は、振幅変動区間検出処理（ステップＳ１２）の詳細を示すフローチャートである。

より詳細には、周期性分析部１９は、音声入力部１１に入力された音声波形を受け、当該音声波形の周期性の有無を分析すると同時に、周期性のある部分についてはその周波数を求める（ステップＳ１００１）。周期性および周波数の分析方法として、例えば入力音声の自己相関係数を求め、５０Ｈｚから５００Ｈｚに相当する周期で相関係数が一定値以上になる部分を周期性のある部分すなわち有声区間と見なし、相関係数が最大となる周期に対応する周波数を基本周波数とする方法がある。

さらに周期性分析部１９は、ステップＳ１００１において音声中の有声区間と見なされた区間を抽出する（ステップＳ１００２）。

第２高調波抽出部２０は、ステップＳ１００１で求められた有声区間の基本周波数の２倍の周波数を中心としたバンドパスフィルタを設定し、有声区間の音声波形をフィルタリングして第２高調波成分を抽出する（ステップＳ１００３）。

振幅包絡分析部２１は、ステップＳ１００３で抽出された第２高調波成分の振幅包絡を抽出する（ステップＳ１００４）。振幅包絡は全波整流を行ってそのピーク値をスムーシングして求める方法、またはヒルベルト変換を行ってその絶対値を求める方法等を用いて抽出する。

変動周波数分析部２２は、ステップＳ１００４で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。分析フレームは例えば５ｍｓとする。なお、分析フレームは１０ｍｓまたはそれ以上としても良い。変動周波数分析部２２は、さらに当該有声区間で求められた瞬時周波数の中央値を求め、これを変動周波数とする（ステップＳ１００５）。

変動周波数判定部２３は、ステップＳ１００５で求められた変動周波数があらかじめ定められた基準範囲内にあるか否かを判断する（ステップＳ１００６）。基準範囲は図２のヒストグラムに基づき、１０Ｈｚ以上１７０Ｈｚ未満とすることができるが、より好適には４０Ｈｚ以上１２０Ｈｚ未満である。変動周波数が基準範囲外であると判断された場合（ステップＳ１００６のＮＯ）、変動周波数判定部２３は、当該有声区間を力み音声でない、すなわち通常音声と判断する（ステップＳ１００７）。変動周波数が基準範囲内であると判断された場合（ステップＳ１００６のＹＥＳ）、変動周波数判定部２３は、当該有声区間を力み音声と判定し（ステップＳ１００８）、力み音声であると判定した区間と第２高調波の包絡線を力み付加処理判定部１６に出力する。

次に、力み付加処理判定部１６は、力み音声区間の振幅変動の変調度を分析する（ステップＳ１３）。

図１６は、変調度分析処理（ステップＳ１３）の詳細を示すフローチャートである。

力み付加処理判定部１６に入力された力み音声区間と第２高調波の包絡線とは振幅変調度計算部２４に入力される。振幅変調度計算部２４は、入力された力み音声区間の第２高調波の振幅包絡線を３次式で近似し、振幅変調前の音声の包絡線を推定する（ステップＳ１００９）。

さらに、振幅変調度計算部２４は、振幅包絡のピークごとに振幅包絡の値とステップＳ１００９で求めた３次式による近似値との差分を求める（ステップＳ１０１０）。

振幅変調度計算部２４は、当該分析区間中の全ピーク値の差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める（ステップＳ１０１１）。変調度は、振幅包絡の凸部分のピーク値の平均または中央値と、凹部分のピーク値の平均または中央値との比など、他の定義をすることも可能であるが、その際には変調度の基準値はその定義に基づいて設定される必要がある。

変調度判定部２５は、ステップＳ１０１１で求められた変調度があらかじめ定められた基準値、例えば０．０４よりも小さいか否かを判断する（ステップＳ１４）。図４のヒストグラムに示すとおり、力み音声の頻度は、変調度が０．０２から０．０４の間で急激に増加していることから、ここでは基準値を０．０４とする。変調度が基準値以上と判断された場合（ステップＳ１４のＮＯ）、変調度判定部２５は、当該力み音声区間の振幅変調度が十分であると判断し、当該区間を力み処理対象区間とせず振幅変調部１８へ区間情報を出力する。振幅変調部１８は入力音声に処理をせず音声出力部１４に音声波形を出力し、音声出力部１４は音声波形を出力する（ステップＳ１８）。

変調度が基準値よりも小さいと判断された場合（ステップＳ１４のＹＥＳ）、周期信号生成部１７は、８０Ｈｚの正弦波を生成し（ステップＳ１５）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ１６）。振幅変調部１８は、入力音声波形のうち力み処理対象区間として特定された区間について、周期信号生成部１７が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずることで振幅変調を行い（ステップＳ１７）、振幅の周期的変動を含む「力み」音声への変換を行う。音声出力部１４は、「力み」音声への変換が行われた音声波形を出力する（ステップＳ１８）。

以上説明した処理（ステップＳ１１〜Ｓ１８）が、例えば所定の時間間隔で繰り返し実行される。

かかる構成によれば、入力音声の振幅変動区間を検出し、その変調度が十分大きい場合は処理を施さず、変調度が不足する場合には音声波形に振幅変動を伴う変調を行って、音声の表現としては不十分な振幅変動を補う。このことにより、話者が強調、または「力み」もしくは「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を、聞き手に十分伝わるように強調し、かつ自然な強調または表現ができている部分については自然な音声を活かして、音声の表現力を高めることができる。

入力音声の振幅変動区変調度が不足する場合にのみ振幅変動を補う。このことにより、入力音声にもともと備わっていた、変調度が十分大きい振幅変動を処理によって打ち消したり、変動周波数を変更してしまうことにより入力音声本来の強調表現を弱めたり、ひずませたりすることは無い。その上で、入力音声の表現力をさらに高めることができる。

また、この構成により、音声波形を入れ替える等の処理のために任意の入力音声に対応しうる大量の特徴的な音声波形を保持する必要がなくなる。その上で、表情豊かな音声を生成することができる。また、入力音声に振幅変動を伴う変調処理を付加するだけで音声表現ができる。このため、入力音声の特徴を維持したまま、単純な処理のみで強調または緊張を伝える表現の音声波形、または音楽的表現を付加することができる。

「力み」または「唸り」は、人間が怒鳴ったとき、強調のために力を入れて話すとき、興奮または緊張して話すとき等に現れる、だみ声、荒れた声、ざらざらした声（harsh voice）などに見られる通常の発声とは異なる特徴を持った「力み」音声表現である。「力み」音声表現には、さらに、演歌等の歌唱時に現れる「こぶし」や「唸り」と呼ばれる表現が含まれる。また、「力み」音声表現には、ブルースやロック等の歌唱時に現れる「シャウト」のような表現も含まれる。「力み」または「唸り」は、話者の発声器官の緊張または力の入り具合をリアルに感じさせ、表情豊かな音声として聴取者に対し強い印象を与える。しかし、俳優、声優またはナレータのように発話訓練を行った人や、歌手のように歌唱訓練を行った人以外の多くの人は、これらの表現方法を使いこなすことは困難である。また、無理にこれらの発声を行うと喉を痛める危険もある。本発明の音声強調装置を拡声器またはカラオケ装置に用いれば、特別な訓練を積んでいないユーザであっても表現を付けたいところで身体または喉に力を込めて発話または歌うことで、俳優、声優、ナレータまたは歌手のような豊かな音声表現を実現できる。このため、本発明をカラオケ装置に用いれば、歌手のように歌うことができ歌う楽しみを増大させることができる。また、本発明を拡声器に用いれば、演説や講演時に強調したいところを「力み」音声で話すことができ、内容を印象付けることが可能となる。

なお、本実施の形態では、ステップＳ１５において周期信号生成部１７は８０Ｈｚの正弦波を出力するものとしたが、これに限定されるものではない。例えば、周波数は振幅包絡の変動周波数の分布に従い４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、周期信号生成部１７は正弦波以外の周期性信号を出力しても良い。

（実施の形態１の変形例）
図１７は、実施の形態１の音声強調装置の変形例の機能ブロック図であり、図１８は、本変形例に係る音声強調装置の動作の一部を示すフローチャートの一部である。図１２および図１４と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１７に示されるように、本変形例の音声強調装置の構成は実施の形態１の図１１に示す音声強調装置と同じ構成を有するが、音声強調部１３の内部構成が異なる。つまり、実施の形態１において周期信号生成部１７と振幅変調部１８とから構成されていた音声強調部１３を、周期信号生成部１７と、オールパスフィルタ２６と、スイッチ２７と、加算器２８とから構成されるものとする。

周期信号生成部１７は、実施の形態１の周期信号生成部１７と同様に周期変動信号の生成処理部である。

オールパスフィルタ２６は、振幅応答は一定であるが位相応答が周波数によって異なるフィルタである。オールパスフィルタは電気通信の分野では伝送路の遅延特性を補償するために用いられるものであり、電子楽器の分野ではフェーザーまたはフェーズシフターと呼ばれる（非特許文献：カーティス・ロード著、青柳龍也他訳・監修「コンピュータ音楽―歴史・テクノロジー・アート―」東京電機大学出版局、ｐ３５３）エフェクタ（音色に変化や効果を付加する装置）に用いられるものである。本変形例のオールパスフィルタ２６は、位相のシフト量が可変であるという特性を有する。

スイッチ２７は、強調発声区間検出部からの入力に従ってオールパスフィルタ２６の出力を加算器２８へ入力するか否かを切り替える。

加算器２８は、オールパスフィルタ２６の出力信号と入力音声信号とを加算する処理部である。

上記のような構成の音声強調装置の動作を図１８のフローチャートに従って説明する。

まず、音声入力部１１は、音声波形を取得し（ステップＳ１１）、音声波形を強調発声区間検出部１２へ出力する。

強調発声区間検出部１２は、実施の形態１と同様に入力音声の振幅変動区間を検出することにより力み音声区間を特定する（ステップＳ１２）。

力み付加処理判定部１６は、力み音声区間の変調度を求め（ステップＳ１３）、振幅変動の変調度があらかじめ定められた基準値よりも小さいか否かを判断する（ステップＳ１４）。振幅変動の変調度が基準値未満である場合には（ステップＳ１４のＹＥＳ）、力み付加処理判定部１６は、力み処理対象区間を切り替え信号としてスイッチ２７へ出力する。

スイッチ２７は、入力される音声信号が強調発声区間検出部１２より出力された力み処理対象区間に含まれる場合には、オールパスフィルタ２６と加算器２８とを接続する（ステップＳ２７）。

周期信号生成部１７は、８０Ｈｚの正弦波を生成し（ステップＳ１５）、オールパスフィルタ２６へ出力する。オールパスフィルタ２６は、周期信号生成部１７より出力された８０Ｈｚの正弦波に従って位相シフト量を制御する（ステップＳ２６）。

加算器２８は、入力音声信号にオールパスフィルタ２６の出力を加算する（ステップＳ２８）。音声出力部１４は、加算後の音声波形を出力する（ステップＳ１８）。

オールパスフィルタ２６より出力される音声信号は、位相シフトされている。このため、位相が逆転している高調波成分は、変形されていない入力音声信号と打ち消しあう。オールパスフィルタ２６は、周期信号生成部１７より出力された８０Ｈｚの正弦波信号に従って、位相のシフト量を周期的に変動させている。このため、オールパスフィルタ２６の出力と入力音声信号とを加算することで、信号が打ち消しあう量を８０Ｈｚで周期的に変動させることになる。これにより、加算結果の信号は８０Ｈｚで周期的に振幅が変動することになる。

一方、変調度が基準値以上の場合（ステップＳ１４のＮＯ）、スイッチ２７は、オールパスフィルタ２６と加算器２８との接続を遮断する。このため、入力音声信号は加工されずに音声出力部１４に音声波形が出力される。音声出力部１４は、当該音声波形を出力する（ステップＳ１８）。

かかる構成によれば、実施の形態１と同様、入力音声の振幅変動区間が検出される。検出された振幅変動区間における振幅変動の変調度が十分大きい場合は、入力音声の音声波形に処理は施されない。変調度が不足する場合には、音声波形に振幅変動を伴う変調が施され、音声の表現としては不十分な振幅変動が補われる。これにより、話者が、強調しようとした部分、「力み」もしくは「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を聞き手に十分伝わるように強調し、音声の表現力を高めることができる。

さらに、オールパスフィルタにより位相シフト量を周期的に変動させた信号を原波形に加算することにより振幅変動が生成される。このため、より自然な振幅変化を生成できる。すなわち、オールパスフィルタによる位相変化は周波数に対して一様でない。このため、音声に含まれる様々な周波数成分には強められるものと弱められるものとが混在する。実施の形態１では全ての周波数成分が同一の振幅変化をするのに対し、本変形例では周波数成分ごとに異なる振幅の変動が起こる。このため、より複雑な振幅変化を生み出すことができ、聴感上の自然さを損ねないという利点がある。

なお、本変形例ではステップＳ１５において周期信号生成部１７は８０Ｈｚの正弦波を出力するものとした。しかし、実施の形態１と同様、周波数は振幅包絡の変動周波数の分布に従い４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、周期信号生成部１７は、正弦波以外の周期性信号を出力しても良い。

（実施の形態２）
実施の形態２は、入力音声中の「力み」または「唸り」の音楽表現が不十分な部分の振幅変動を拡張する点が実施の形態１と異なる。

図１９は、実施の形態２の音声強調装置の機能ブロック図である。図２０は、本実施の形態の振幅ダイナミックレンジ拡張部３１の入出力特性を模式的に示したグラフである。図２１は、本実施の形態の音声強調装置の動作を示すフローチャートである。図１２および図１４と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。

図１９に示されるように、本発明の実施の形態２に係る音声強調装置は、音声入力部１１と、強調発声区間検出部１２と、振幅ダイナミックレンジ拡張部３１と、音声出力部１４とを備えている。本実施の形態に係る音声強調装置は、図１２に示した実施の形態１に係る音声強調装置と同様の構成を有する。ただし、音声強調部１３が、振幅ダイナミックレンジ拡張部３１に置き換わった点が、実施の形態１に係る音声強調装置とは異なる。このため、音声入力部１１と、強調発声区間検出部１２と、音声出力部１４とについては説明を繰り返さない。

振幅ダイナミックレンジ拡張部３１は、音声入力部１１が取得した音声波形を受付け、強調発声区間検出部１２より出力される力み処理対象区間情報と振幅変調度情報に従って入力音声波形の振幅ダイナミックレンジを拡張するよう入力音声波形の振幅を圧縮および増幅する処理部である。

図２０に例示するように、振幅ダイナミックレンジ拡張部３１は、強調発声区間検出部１２より出力された振幅変調度情報に基づいて設定された境界入力レベルより振幅が小さい入力に対しては、振幅圧縮処理を行い、境界入力レベルより振幅が大きい入力に対しては増幅処理を行うことにより振幅の変動を強調する。

次に、上記のような構成の音声強調装置の動作を図２１のフローチャートに従って説明する。

まず、音声入力部１１は音声波形を取得し（ステップＳ１１）、音声波形を強調発声区間検出部１２へ出力する。

強調発声区間検出部１２の力み判定部１５は、実施の形態１と同様に入力音声の振幅変動区間を検出することにより力み音声区間を特定する（ステップＳ１２）。

次いで、力み付加処理判定部１６は、力み音声区間の変調度を求める（ステップＳ１３）。力み付加処理判定部１６は、振幅変動の変調度があらかじめ定められた基準値よりも小さいか否かを判断する（ステップＳ１４）。

変調度が基準値よりも小さいと判断される場合（ステップＳ１４のＹＥＳ）、力み付加処理判定部１６は、当該力み音声区間の振幅変調度が十分でないと判断する。力み付加処理判定部１６は、当該区間を力み処理対象区間と判断する。また、力み付加処理判定部１６は、振幅ダイナミックレンジ拡張部３１へ、区間情報と、ステップＳ１３でフィッティングした多項式の値の中央値とを出力する。振幅ダイナミックレンジ拡張部３１は、入力音声波形のうち力み処理対象区間として特定された区間について、力み付加処理判定部１６で求められた多項式の中央値より、境界入力レベルを決定し、図２０のような入出力特性を設定する。振幅ダイナミックレンジ拡張部３１は、この入出力特性を適用して振幅の圧縮と伸長を行うことで入力音声の振幅ダイナミックレンジの拡張を行い（ステップＳ３１）、振幅の周期的変動を含む「力み」音声の変調度を十分な大きさに拡張する。音声出力部１４は、振幅が拡張された後の音声波形を出力する（ステップＳ１８）。

変調度が基準値以上であると判断される場合（ステップＳ１４のＮＯ）、振幅ダイナミックレンジ拡張部３１は、振幅の圧縮および伸長を行わない入出力特性を設定して、入力音声の振幅に対して変形処理をせず、音声出力部１４に音声波形を出力する。音声出力部１４は、音声波形を出力する（ステップＳ１８）。

ステップＳ３１において、振幅ダイナミックレンジ拡張部３１は、経験的に第２高調波の振幅が音声波形の振幅の１／１０程度であることを利用する。つまり、振幅ダイナミックレンジ拡張部３１は、力み付加処理判定部１６より出力された第２高調波の振幅包絡のフィッティング関数の中央値すなわち、図３Ａのフィッティング結果の値の中央値を１０倍して図２０に示した境界入力レベルとする。これにより、概ね、図３Ｂの曲線に示される振幅変動が正の場合には振幅を増幅し、振幅変動が負の場合には振幅を圧縮するように境界入力レベルが設定される。

図２２は、振幅ダイナミックレンジ拡張部３１による境界レベルの設定についてより詳細に説明するための図である。同図では破線で振幅ダイナミックレンジ拡張部３１に入力される音声波形１０２が示されている。また、音声波形１０２の第２高調波の振幅包絡１０４が破線で示されている。振幅包絡１０４の中央値を１０倍した値を境界入力レベル８８とすると、境界入力レベル８８は一点鎖線で示される。ここで、振幅包絡１０４の値と境界入力レベル８８とを比較した場合、振幅包絡１０４の値が境界入力レベル８８以下となる時刻においては、振幅ダイナミックレンジ拡張部３１は、音声波形１０２の振幅を圧縮する処理を行なう。また、振幅包絡１０４の値が境界入力レベル８８を越える時刻においては、振幅ダイナミックレンジ拡張部３１は、音声波形１０２の振幅を増幅する処理を行なう。振幅ダイナミックレンジ拡張部３１により音声波形１０２の振幅の圧縮および増幅が行なわれた結果、音声波形８６が生成される。音声波形８６と音声波形１０２とを比較した場合、振幅包絡１０４の値が小さい部分では音声波形８６の振幅は音声波形１０２の振幅に比べさらに小さくなっている。逆に、振幅包絡１０４の値が大きい部分では音声波形８６の振幅は音声波形１０２の振幅に比べさらに大きくなっている。このため、音声波形８６では振幅が大きい部分と振幅が小さい部分との振幅の差（ダイナミックレンジ）が、音声波形１０２のそれに比べて大きくなっている。このことは、音声波形８６の振幅包絡９０と音声波形１０２の振幅包絡１０４とを比較することによってもわかる。また、振幅ダイナミックレンジ拡張部３１は、単に音声波形１０２の振幅を増幅しているのではなく、音声波形１０２の振幅が小さい部分については音声波形１０２の振幅を圧縮している。このため、振幅ダイナミックレンジ拡張部３１は、単に音声波形１０２の振幅を増幅する場合に比べ、振幅の最大値と最小値との差（ダイナミックレンジ）がより大きい音声波形８６を生成することができる。

図２３は、振幅ダイナミックレンジ拡張部３１により実際の音声波形の振幅のダイナミックレンジを拡張した結果について説明する。図２３（ａ）は、／ｂａ／を発声した際の音声波形９２とその包絡線９４とを示す図である。図２３（ｂ）は、図２３（ａ）に示した音声波形９２の振幅のダイナミックレンジを振幅ダイナミックレンジ拡張部３１により拡張した後の音声波形９６とその包絡線９８とを示す図である。包絡線９４と包絡線９８とを比較してもわかるように、音声波形９６は音声波形９２に比べて、振幅のダイナミックレンジが拡張されていることがわかる。

かかる構成によれば、入力音声の振幅変動区間を検出し、その変調度が十分大きい場合には処理を施さず、変調度が不足する場合には音声波形の振幅変動を拡張する。このことで、音声の表現としては不十分な振幅変動を十分な大きさにする。これにより、話者が強調や「力み」または「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を聞き手に十分伝わるように拡大、強調することができる。さらに、力み処理として、発声者のオリジナルの音声波形の振幅変動を拡張する。このため、発声者個人の特性を保持したまま音声の表現力を高めることができる。よって、より自然な音声を生成することができる。すなわち単純な処理により、入力音声の特徴を活かした強調や緊張を伝える表現の音声波形や、音楽表現を付加することができる。

なお、本実施の形態ではステップＳ１４で変調度が基準値よりも小さい場合にはステップＳ３１において振幅ダイナミックレンジ拡張部３１は入出力特性を変更して振幅の圧縮と伸長を行って振幅ダイナミックレンジの拡張を行うものとした。また、ステップＳ１４で変調度が基準値以上の場合には振幅ダイナミックレンジ拡張部３１は入出力特性を変更して振幅の圧縮および伸長の処理を行わないものとした。しかし、音声入力部１１から音声出力部１４へ振幅ダイナミックレンジ拡張部３１を経ずにバイパスする経路を用意してもよい。その上で、入力音声波形を振幅ダイナミックレンジ拡張部３１に入力するか、バイパスして音声出力部１４へ入力するかを切り替えるスイッチを用意しても良い。ステップＳ１４で変調度が基準値よりも小さい場合には、スイッチを振幅ダイナミックレンジ拡張部３１に接続する側に切り替えて入力音声波形に振幅ダイナミックレンジ拡張処理を行なう。また、ステップＳ１４で変調度が基準値以上の場合にはスイッチを振幅ダイナミックレンジ拡張部３１をバイパスして音声出力部１４に接続する側に切り替え、入力音声に処理を施さずに出力する。この場合、振幅ダイナミックレンジ拡張部３１の入出力特性は図２０に示した特性に固定しても良い。

なお、本実施の形態ではステップＳ３１において振幅ダイナミックレンジ拡張部３１は、第２高調波の振幅包絡に対するフィッティング関数の値の中央値を基に、境界入力レベルを求めたが、これに限られない。例えば、力み判定部１５が音源波形または基本波を振幅変動周波数の分析に用いる場合には、振幅ダイナミックレンジ拡張部３１は、音源波形や基本波の振幅包絡曲線に対するフィッティング関数の値を用いて、境界入力レベルを求めても良い。また、振幅ダイナミックレンジ拡張部３１は、振幅包絡を音声波形の全波整流によって求める場合には、全波整流の結果に対するフィッティング関数の値、または全波整流の結果の平均値等、音声波形の振幅変動包絡曲線を上下２つに分割することができる値であれば何を用いて境界入力レベルを求めても良い。

（実施の形態３）
実施の形態３では、圧センサを用いて音声の「力み」部分または「唸り」部分を指示する。

図２４は、実施の形態３の音声強調装置の機能ブロック図である。図２５は、本実施の形態の動作を示すフローチャートである。図１２および図１４と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。

図２４に示されるように、本発明の実施の形態３に係る音声強調装置は、ハンドマイク４１と、強調発声区間検出部４４と、音声強調部１３と、音声出力部１４とを備えている。

音声強調部１３と音声出力部１４とは、実施の形態１と同様であるので説明を繰り返さない。

ハンドマイク４１は、ユーザがハンドマイク４１を把持する圧力を感知する圧センサ４３と、ユーザの音声入力を受け付けるマイクロフォン４２とを含む。

強調発声区間検出部４４は、標準値計算部４５と、標準値記憶部４６と、力み付加処理判定部４７とを含む。

標準値計算部４５は、圧センサ４３の出力を受け付けて、ユーザの把持圧の標準範囲を求め、その上限値を出力する処理部である。

標準値記憶部４６は、標準値計算部４５で計算されたユーザの把持圧の標準把持圧上限値を記憶する記憶装置であり、例えば、メモリやハードディスクなどにより構成される。

力み付加処理判定部４７は、圧センサ４３の出力を受付け、圧センサ４３から出力された値と、標準値記憶部４６に記憶された標準把持圧の上限値とを比較し、判定対象となっている区間に対応する入力音声を、力み処理の対象とするか否かを判定する処理部である。

次に、上記の構成の音声強調装置の動作を図２５のフローチャートに従って説明する。

まず、ユーザがハンドマイクを握ると、圧センサ４３が把持圧を測定する（ステップＳ４１）。

発話前および発話開始直後のあらかじめ定められた期間、楽曲開始前および歌唱開始前の前奏区間、および間奏区間を、標準値設定時間範囲と定め、標準値設定時間範囲内であれば（ステップＳ４３でＹＥＳ）、圧センサ４３で測定された把持圧情報は標準値計算部４５に入力され、蓄積される（ステップＳ４４）。

標準把持圧の計算に必要なデータの蓄積が完了している場合には（ステップＳ４５のＹＥＳ）、標準値計算部４５が標準把持圧の上限値を計算する（ステップＳ４６）。標準把持圧の上限値は、例えば、標準値設定時間範囲内の把持圧の平均値に標準偏差を加算した値である。また例えば、標準値設定時間範囲内の把持圧の最大値の９０％に当たる値である。標準値計算部４５は、ステップＳ４６で計算された標準把持圧の上限値を標準値記憶部４６に記憶する（ステップＳ４７）。ステップＳ４５において標準把持圧の計算に必要なデータの蓄積が完了していない場合には（ステップＳ４５のＮＯ）、ステップＳ４１に戻り圧センサ４３からの次の入力を受付ける。前奏区間および間奏区間の把持圧を利用して標準把持圧を計算する場合には、標準値計算部４５は、カラオケシステムの楽曲情報を参照し、前奏区間および間奏区間を特定して標準値設定時間範囲を設定して標準把持圧を計算する。

当該時刻が標準値設定時間範囲内でない場合（ステップＳ４３のＮＯ）、圧センサ４３で測定された把持圧情報は、力み付加処理判定部４７に入力される。

マイクロフォン４２は、ユーザの発声する音声を取得し（ステップＳ４２）、入力音声波形として振幅変調部１８へ出力する。

力み付加処理判定部４７は、標準値記憶部４６に記憶された標準把持圧の上限値と圧センサ４３より入力された値とを比較する（ステップＳ４８）。当該把持圧が標準把持圧の上限値より大きい場合には（ステップＳ４８のＹＥＳ）、力み付加処理判定部４７は、当該区間を力み処理対象区間として振幅変調部１８へ出力する。

また、周期信号生成部１７は８０Ｈｚの正弦波を生成し（ステップＳ１５）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ１６）。振幅変調部１８は、入力音声波形のうち同期する把持圧情報がステップＳ４８で標準把持圧の上限値より大きく力み処理対象区間とされた区間について、周期信号生成部１７が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずることで振幅変調を行い（ステップＳ１７）、振幅の周期的変動を含む「力み」音声への変換を行う。音声出力部１４は、変換後の音声波形を出力する（ステップＳ１８）。

当該把持圧が標準把持圧の上限値以下の場合には（ステップＳ４８のＮＯ）、振幅変調部１８は、当該把持圧情報と同期する入力音声に処理をせず、音声出力部１４に音声波形を出力する。音声出力部１４は、その音声波形を出力する（ステップＳ１８）。

ユーザごとに把持圧の標準化を行うため、ユーザの入れ替わりに伴って把持圧データの初期化が必要となる。これについては、ユーザ切り替えの入力を受付ける、マイクロフォン４２の動きをセンシングして、一定時間以上静止した場合に把持圧データを初期化する、またはカラオケの場合は楽曲の開始時に把持圧データを初期化する等の方法によって実現することができる。

以上説明した処理（ステップＳ４１〜Ｓ１８）が、例えば所定の時間間隔で繰り返し実行される。

かかる構成によれば、ユーザのハンドマイクを握る把持圧が標準時より高くなったタイミングを検出して音声波形に振幅変動を伴う変調を行って、「力み」による強調または「唸り」による音楽表現を付加する。このことにより、ユーザが力を入れて発話または歌唱をした強調または音楽表現がふさわしい部分に「力み」または「唸り」表現をつけることができる。これにより、ユーザが力を込めて発話または歌唱した自然なタイミングで強調または音楽表現を付加し音声の表現力を高めることができる。

なお、本実施の形態ではステップＳ１５において周期信号生成部１７は８０Ｈｚの正弦波を出力するものとしたが、これに限定されるものではない。例えば、周波数は振幅包絡の変動周波数の分布に従い４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、周期信号生成部１７は、正弦波以外の周期性信号を出力しても良い。また、実施の形態１の変形例のようにオールパスフィルタにより振幅変動を付加しても良い。

なお、本実施の形態では圧センサ４３をハンドマイク４１に備えるものとしたが、これに限定されるものではない。例えば、ハンドマイク４１とは別に、踏み台、靴または足裏等に圧センサを備え、足の踏み込む力を感知するものとしてもよい。また、上腕に装着するベルトに圧センサを備え、腋を締める力を感知するものとしても良い。

なお、本実施の形態ではハンドマイク４１から把持圧と同期した音声を直接入力するものとしたが、圧センサからの出力データと音声波形とが同期して記録されていれば、記録された把持圧と音声波形とを入力として受付けるものとしても良い。

（実施の形態４）
実施の形態４では、喉頭の動きを検知するセンサを用いて音声の「力み」部分または「唸り」部分を検知する。

図２６は、実施の形態４の音声強調装置の機能ブロック図である。図２７は、本実施の形態の動作を示すフローチャートである。図２４および図２５と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。

図２６に示されるように、本発明の実施の形態４に係る音声強調装置は、ＥＧＧ（Electroglottograph）センサ５１と、マイクロフォン４２と、強調発声区間検出部５２と、音声強調部１３と、音声出力部１４とを備えている。音声強調部１３と音声出力部１４とは実施の形態１と同様であるので説明を繰り返さない。

ＥＧＧセンサ５１は、首の皮膚上に接触させて喉頭の動きを感知するセンサである。マイクロフォン４２は実施の形態３と同様にユーザの音声を取得するものである。

強調発声区間検出部５２は、標準値計算部５５と、標準値記憶部５６と、力み付加処理判定部５７とを含む。

標準値計算部５５は、ＥＧＧセンサ５１の出力を受け付けて、ＥＧＧ波形より有声音発生中の声門閉鎖区間比率を求め、標準発声時の当該比率の下限値を出力する処理部である。

標準値記憶部５６は、標準値計算部５５で計算されたユーザの標準声門閉鎖区間比率の下限値を記憶する記憶装置であり、例えば、メモリやハードディスクなどにより構成される。

力み付加処理判定部５７は、ＥＧＧセンサ５１の出力を受付け、ＥＧＧセンサ５１から出力された値と標準値記憶部５６に記憶された標準声門閉鎖区間比率の下限値とを比較し、当該区間に対応する入力音声を力み処理の対象とするか否かを判定する処理部である。

次に、上記の構成の音声強調装置の動作を図２７のフローチャートに従って説明する。

まず、ユーザが発声するとＥＧＧセンサ５１により喉頭の動きを示すＥＧＧ波形が取得される(ステップＳ５１)。

標準値計算部５５は、ＥＧＧセンサ５１より出力されたＥＧＧ波形を受付け、音声波形の基本周期にあたる１周期分のＥＧＧ波形を取り出す（ステップＳ５２）。ＥＧＧ波形は図２８および図２９にそれぞれ示す特許文献：特開２００７−６８８４７号公報の図５および図６で示されるように、１周期に、１つの山と変化無く推移する部分とがある。１周期とは、この山の立ち上がり開始から次の山の立ち上がり開始までを指す。この山の部分が声門の開放期にあたり、変化のない部分が声門の閉鎖期にあたる。

標準値計算部５５は、１周期内の変化のない部分の時間幅が１周期の時間幅に占める割合を、声門閉鎖区間比率として計算する(ステップＳ５３)。発話または歌唱開始直後のあらかじめ定められた期間、例えば５秒間を標準値設定時間範囲とし、当該のＥＧＧ波形データの取得された時刻が標準値設定時間範囲内であれば（ステップＳ５４でＹＥＳ）、ステップＳ５３で計算された声門閉鎖区間比率は標準値計算部５５内に蓄積される(ステップＳ５５)。なお、５秒間は８秒間でもよくまたそれ以上でも良い。

さらに標準声門閉鎖区間比率の計算に必要なデータの蓄積が完了している場合には（ステップＳ５６のＹＥＳ）、標準値計算部５５が標準声門閉鎖区間比率の上限値を計算する（ステップＳ５７）。標準声門閉鎖区間比率の上限値は、例えば標準値設定時間範囲内の声門閉鎖区間比率の平均値に標準偏差を加算した値である。標準値計算部５５は、ステップＳ５７で計算された標準声門閉鎖区間比率の上限値を標準値記憶部５６に記憶する（ステップＳ５８）。

標準声門閉鎖区間比率の計算に必要なデータの蓄積が完了していない場合には(ステップＳ５６のＮＯ）、ステップＳ５１に戻り、標準値計算部５５は、ＥＧＧセンサ５１からの次の入力を受付ける。

当該時刻が標準値設定時間範囲内でない場合（ステップＳ５４のＮＯ）、マイクロフォン４２は、ユーザが発声した音声波形を取得し、入力音声波形として振幅変調部１８に出力する(ステップＳ４２)。また、ステップＳ５３で計算された声門閉鎖区間比率は、力み付加処理判定部５７に入力される。力み付加処理判定部５７は、標準値記憶部５６に記憶された標準声門閉鎖区間比率の上限値と標準値計算部５５で計算された声門閉鎖区間比率とを比較する（ステップＳ５９）。

当該声門閉鎖区間比率が標準声門閉鎖区間比率の上限値より大きい場合には（ステップＳ５９のＹＥＳ）、力み付加処理判定部５７は、当該区間を力み処理対象区間として振幅変調部１８へ出力する。喉頭に力が入っている状態では声門の閉鎖区間が長くなることが知られている（例えば、非特許文献：石井カルロス寿憲、石黒浩および萩田紀博、「ＥＧＧを用いた「りきみ」発声の音響分析」、２００７年春期日本音響学会講演論文集、ｐｐ．２２１−２２２、２００７）。声門閉鎖区間比率が標準声門閉鎖区間比率の上限値より大きいということは、声門に標準時以上の力が入っていることを示している。

周期信号生成部１７は、８０Ｈｚの正弦波信号を生成し（ステップＳ１５）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ１６）。振幅変調部１８は、入力音声波形のうち同期するＥＧＧ波形の声門閉鎖区間比率がステップＳ５９で標準声門閉鎖区間比率の上限値より大きく力み処理対象区間とされた区間について、周期信号生成部１７が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずる（ステップＳ１７）。この処理により、振幅変調を行い、振幅の周期的変動を含む「力み」音声への変換を行なう。音声出力部１４は、変換後の音声波形を出力する（ステップＳ１８）。

当該声門閉鎖区間比率が標準声門閉鎖区間比率の上限値以下の場合には（ステップＳ５９のＮＯ）、振幅変調部１８は、当該把持圧情報と同期する入力音声に対して処理を施さず、音声出力部１４に音声波形を出力し、音声出力部１４はその音声波形を出力する（ステップＳ１８）。

以上説明した処理（ステップＳ５１〜Ｓ１８）が、例えば所定の時間間隔で繰り返し実行される。

かかる構成によれば、発話中または歌唱中のユーザの声門閉鎖区間比率が標準時より高くなったタイミングを検出して、音声波形に振幅変動を伴う変調を行う。これにより、「力み」による強調または「唸り」による音楽表現を付加する。よって、ユーザが強調または音楽的表現をしようとして喉頭に力が入った部分に「力み」または「唸り」表現をつけることができる。これにより、ユーザが力を込めて発話または歌唱したタイミングで強調または音楽表現を付加することができる。また、たとえユーザの発声が力を込めた状態を聴取するには音声波形上での変化が不十分であったとしても、音声の表現力を高めることができる。

なお、本実施の形態では、声門閉鎖時間比率の標準値設定時間範囲を発話または歌唱開始後５秒間とした。ただし、カラオケシステムに適用する場合には、実施の形態３と同様に楽曲データを参照して楽曲中のサビ部分以外の歌唱区間を特定して定められた時間長を設定し、サビ以外の歌唱音声から声門閉鎖時間比率の標準値を設定するものとしても良い。これにより、サビに現れる音楽表現を強調しやすくし、音楽の盛り上がりを強調することができる。

なお、本実施の形態では、声門閉鎖区間比率をＥＧＧセンサ５１で取得したＥＧＧ波形から計算したが、特許文献：特開２００７−６８８４７号公報のように音声波形から第４ホルマントの帯域を抽出した波形の振幅があらかじめ定められた振幅を下回った区間を声門閉鎖区間とし、あらかじめ定められた振幅を上回った区間を声門開放区間として、隣接する、声門開放区間１つと声門閉鎖区間１つの組を１周期と見なし、声門閉鎖区間比率を計算するものとしても良い。

（実施の形態５）
図３０は、実施の形態５における音声強調システムの構成を示す図である。音声強調システムの具体例として、携帯電話機７１ｂにおいて用いられる着信報知用音声（着信報知用音楽、着信ボイス）、携帯型パーソナルコンピュータ７１ａにおいて用いられる音声メール用音声、またはネットワークゲーム機７１ｃにおいて用いられるゲームキャラクタもしくはアバター用音声のサービスシステムなどがある。音声強調システムは、ネットワーク７２を介して接続された、携帯型パーソナルコンピュータ７１ａ、携帯電話機７１ｂおよびネットワークゲーム機７１ｃなどの端末と、音声処理サーバ７３とを含む。各端末は、入力された音声データを、音声処理サーバ７３に対して送信する。音声処理サーバ７３は、送信された音声データに対して、力み箇所の強調を行い、音声データを送信した端末に返信する。

図３１は、実施の形態５における音声強調システムの構成を示す機能ブロック図である。図３２は、実施の形態５の音声強調システムのうち、端末７１の動作を示すフローチャートである。図３３は、実施の形態５の音声強調システムのうち、音声処理サーバ７３の動作を示すフローチャートである。

図３１に示されるように、本発明の実施の形態５に係る音声強調システムは、端末のマイクロフォンより入力され、ネットワークを介してサーバへ送信された音声中の力み音声を、サーバ内で強調して端末へ送り返し、端末で処理音声を出力するシステムである。音声強調システムは、端末７１、ネットワーク７２および音声処理サーバ７３を含む。

端末７１は図３０に示されるように、具体的には、携帯型パーソナルコンピュータ７１ａ、携帯電話機７１ｂまたはネットワークゲーム機７１ｃなどである。また、端末７１は、携帯型情報端末などでも良い。

図３１に示されるように、端末７１は、マイクロフォン７６、Ａ／Ｄ変換器７７、入力音声データ記憶部７８、音声データ送信部７９、音声データ受信部８０、強調音声データ記憶部８１、Ｄ／Ａ変換器８２、電気音響変換器８３、音声出力指示入力部８４および出力音声抽出部８５を含む。

Ａ／Ｄ変換器７７は、マイクロフォン７６より入力された音声のアナログ信号をデジタル信号に変換する処理部である。入力音声データ記憶部７８は、Ａ／Ｄ変換器７７によりデジタル信号に変換された入力音声データを格納する記憶部である。音声データ送信部７９は、デジタル信号に変換された入力音声データを端末識別子と合わせてネットワーク７２を介して音声処理サーバ７３へ送信する処理部である。

音声データ受信部８０は、音声処理サーバ７３より送信された、力み付加による強調処理が施された音声データを、ネットワーク７２を介して受信する処理部である。強調音声データ記憶部８１は、音声データ受信部８０により受信した、音声処理サーバ７３で強調処理が行われた音声データを格納する記憶部である。Ｄ／Ａ変換器８２は、音声データ受信部８０が受信した、デジタル信号で表現された音声信号を、アナログの電気信号に変換する処理部である。電気音響変換器８３は、電気信号を音響信号に変換する処理部であり、具体的にはスピーカなどである。

音声出力指示入力部８４は、ユーザが音声出力を指示するための入力処理装置であり、具体的にはボタン、スイッチ又は被選択項目をリスト表示可能なタッチパネルなどである。出力音声抽出部８５は、音声出力指示入力部８４より入力された音声出力指示に従って、強調音声データ記憶部８１に格納された強調処理が行われた音声データを抽出して、Ｄ／Ａ変換器８２へ入力する処理部である。

また、図３１に示されるように、音声処理サーバ７３は、音声データ受信部７４、音声データ送信部７５、強調発声区間検出部１２および音声強調部１３を含む。

音声データ受信部７４は、端末７１の音声データ送信部７９より送信された入力音声データを受信する処理部である。音声データ送信部７５は、端末７１の音声データ受信部８０に対して、力み付加による強調処理が施された音声データを送信する処理部である。

強調発声区間検出部１２は、力み判定部１５および力み付加処理判定部１６を含む。音声強調部１３は、振幅変調部１８および周期信号生成部１７を含む。強調発声区間検出部１２および音声強調部１３は、図１２に示したものと同様であるため、その詳細な説明はここでは繰り返さない。

次に、先に述べたような構成の音声強調システムのうち端末７１の動作を図３２、図３４のフローチャートに従って、音声処理サーバ７３の動作を図３３のフローチャートに従って、それぞれ説明する。図３３のフローチャートにおいて、実施の形態１の図１２に示した音声強調装置の動作と同様の動作には、同じ参照符号を付して説明する。同様の動作についてはその詳細な説明はここでは繰り返さない。

まず、端末７１による音声信号の取得と送信の動作について図３２に従って説明する。

マイクロフォン７６は、ユーザの発声した音声の入力によりアナログ電気信号として音声を取得する（ステップＳ７０１）。Ａ／Ｄ変換器７７は、マイクロフォン７６より入力されたアナログ音声信号をあらかじめ定められたサンプリング周波数でサンプリングしてデジタル信号に変換する（ステップＳ７０２）。サンプリング周波数は例えば２２０５０Ｈｚ等である。なお、サンプリング周波数は再生音声の精度および信号処理精度に必要な周波数以上であれば、いくつでも良い。Ａ／Ｄ変換器７７は、ステップＳ７０２でデジタル信号に変換した音声信号を入力音声データ記憶部７８に格納する（ステップＳ７０３）。音声データ送信部７９は、ステップＳ７０２でデジタル信号に変換した音声信号を、端末７１の端末識別子または処理音声を受信すべき別の端末の端末識別子と合わせて、ネットワーク７２を介して音声処理サーバ７３に送信する（ステップＳ７０４）。

次に、音声処理サーバ７３の動作について図３３に従って説明する。

音声データ受信部７４は、ネットワーク７２を介して、端末７１がステップＳ７０４で送信した端末識別子と音声信号を受信する（ステップＳ７１）。音声データ受信部７４により取得された音声信号すなわち音声波形は、強調発声区間検出部１２の力み判定部１５へ入力され、力み判定部１５は、音声中の振幅変動区間の検出を行う（ステップＳ１２）。次に、力み付加処理判定部１６は、力み音声区間の振幅変動の変調度を分析する（ステップＳ１３）。変調度判定部２５は、ステップＳ１３で求められた変調度があらかじめ定められた基準値よりも小さいか否かを判断する（ステップＳ１４）。変調度が基準値以上と判断された場合（ステップＳ１４のＮＯ）、変調度判定部２５は、当該力み音声区間の振幅変調度が十分であると判断し、当該区間を力み処理対象区間とせず、振幅変調部１８へ区間情報を出力する。振幅変調部１８は、入力音声に処理をせず、音声データ送信部７５に音声波形を出力する。音声データ送信部７５は、ネットワーク７２を介してステップＳ７１で受信した端末識別子を持つ端末へ、振幅変調部１８より出力された音声波形を送信する（ステップＳ７２）。

変調度が基準値よりも小さいと判断された場合（ステップＳ１４のＹＥＳ）、周期信号生成部１７は、８０Ｈｚの正弦波を生成し（ステップＳ１５）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ１６）。振幅変調部１８は、入力音声波形のうち力み処理対象区間として特定された区間について、周期信号生成部１７が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずることで振幅変調を行う。このことにより、振幅変調部１８は、入力音声から、振幅の周期的変動を含む「力み」音声への変換を行う（ステップＳ１７）。振幅変調部１８は、音声データ送信部７５へ変換後の音声波形を出力する。音声データ送信部７５は、ネットワーク７２を介して、ステップＳ７１で受信した端末識別子を持つ端末へ、ステップＳ１７で振幅変調部１８より出力された音声波形を送信する（ステップＳ７２）。

次いで、端末７１の音声信号の受信と音声出力の動作について図３４に従って説明する。

音声データ受信部８０は、ネットワークを介して音声処理サーバ７３より送信された音声波形を受信する（ステップＳ７０５）。音声データ受信部８０は、取得した音声波形を、強調音声データ記憶部８１に格納する（ステップＳ７０６）。受信時のアプリケーションソフトウェア等により音声出力指示がある場合（ステップＳ７０７でＹＥＳ）、出力音声抽出部８５は、強調音声データ記憶部８１に格納されている音声データのうち対象の音声波形を抽出してＤ／Ａ変換器８２へ入力する（ステップＳ７０８）。Ｄ／Ａ変換器８２は、Ａ／Ｄ変換器７７がステップＳ７０２においてサンプリングを行った周期と同じ周期で、デジタル信号をアナログの電気信号に変換する（ステップＳ７０９）。ステップＳ７０９でＤ／Ａ変換器８２より出力されたアナログ電気信号は、電気音響変換器８３を通して音声として出力される（ステップＳ７１０）。端末７１は、音声出力指示がない場合（ステップＳ７０７でＮＯ）、動作を終了する。

受信動作とは別に、音声出力指示入力部８４にユーザの音声出力指示が入力された場合（ステップＳ７１１）、出力音声抽出部８５は、音声出力指示入力部８４に入力された音声出力指示に従って、強調音声データ記憶部８１に格納された音声データのうち、対象の音声波形を抽出して、Ｄ／Ａ変換器８２へ入力する（ステップＳ７０８）。Ｄ／Ａ変換器８２は、デジタル信号をアナログの電気信号に変換する（ステップＳ７０９）。アナログ電気信号は、電気音響変換器８３を通して音声として出力される（ステップＳ７１０）。

かかる構成によれば、端末７１で入力された、ユーザまたは発話者の音声を、音声処理サーバ７３へ送信する。音声処理サーバ７３は、入力音声の振幅変動区間を検出し、音声の表現としては変調度が不足する部分に振幅変動を補った音声を、端末へ送信する。端末は、強調処理された音声を利用することができる。これにより、強調または力を込めて発話した「力み」または「唸り」の音楽表現を、聞き手に十分伝わるように強調して音声の表現力を高めることができる。それとともに、入力音声にもともと備わっていた、変調度が十分大きい振幅変動を活かして、より自然でかつ表現力の高い音声を生成することができる。本実施の形態による音声強調システムによれば、着信ボイス用音声、音声メールまたはアバター用音声等として、特別な訓練を受けていない一般の発話者またはユーザの肉声では実現困難な程の表現力の高い音声を利用することができる。この音声を発話者またはユーザ自身が利用するのみでなく、他者の端末へ送信することにより、より豊かな表現で他者へメッセージを伝えることもできる。また、端末で音声分析と信号処理という計算量の大きな処理を行う必要がない。このため、計算能力の低い端末であっても表現力の高い音声を利用することができる。

なお、本実施の形態では、サンプリング周波数は、端末７１内のＡ／Ｄ変換器７７とＤ／Ａ変換器８２とで同一とし、音声処理サーバ７３においては入力音声信号のサンプリング周波数は固定のものとして説明した。しかし、端末ごとにサンプリング周波数が異なる場合には、端末は音声信号と合わせてサンプリング周波数を音声処理サーバ７３に送信するものとしてもよい。これにより、音声処理サーバ７３は受信した音声信号を、受信したサンプリング周波数に応じて処理するものとする。または、音声処理サーバ７３は、リサンプル処理によりサンプリング周波数を信号処理時のサンプリング周波数に変換するものとする。また、未処理音声を送信する端末と強調処理された音声を受信する端末とが異なる場合や、音声処理サーバ７３が出力する音声信号のサンプリング周波数が端末のサンプリング周波数と異なる場合等には、音声処理サーバ７３は強調処理された音声波形と共にサンプリング周波数を端末に送信し、Ｄ／Ａ変換器８２は受信したサンプリング周波数に基づいてアナログ電気信号を生成するものとする。

なお、本実施の形態では、端末７１から音声処理サーバ７３にサンプリングされた波形データをそのまま送信するものとしたが、ネットワーク７２を介して通信するデータとして、ＭＰ３（MPEG Audio Layer-3）やＣＥＬＰ（Code-Excited Linear Prediction）などの波形圧縮符号化器により圧縮されたデータを用いても勿論構わない。同様に音声処理サーバ７３から端末７１に送信する音声データとして、圧縮されたデータを用いても良い。

なお、本実施の形態では、入力音声データ記憶部７８と強調音声データ記憶部８１とは独立のものとして説明したが、１つの記憶部に入力音声データおよび強調音声データをともに記憶するものとしても良い。その際には音声信号に合わせて入力音声データと強調音声データとを識別する情報を格納するものとする。また、入力音声データ記憶部７８と強調音声データ記憶部８１には、デジタル信号を格納するものとしたが、マイクロフォン７６より入力され、Ａ／Ｄ変換器７７によってデジタル信号に変換される以前のアナログ電気信号としての入力音声信号、およびＤ／Ａ変換器８２によってデジタル信号をアナログ信号に変換した後のアナログ電気信号である強調音声信号を格納するものとしても良い。その際には、音声信号は、テープやレコードといったアナログ媒体に記録されるものとする。

なお、本実施の形態では、端末７１においてＡ／Ｄ変換およびＤ／Ａ変換を行い、デジタル信号をネットワーク７２を介して送受信するものとしたが、アナログ信号を送受信し、音声処理サーバ７３でＡ／Ｄ変換およびＤ／Ａ変換を行うものとしても良い。その際には、ネットワークは、交換機を介したアナログ回線によって実現される必要がある。

なお、音声処理サーバ７３の音声強調部１３は、実施の形態１と同様に周期信号生成部１７と振幅変調部１８とにより、周期信号を音声波形に乗算して振幅変調を行うものとしたが、これに限られるものではない。例えば、実施の形態１の変形例のようにオールパスフィルタを用いるものとしても良いし、実施の形態２のように原波形の振幅変動のダイナミックレンジを拡張することにより振幅変調を強調するものとしても良い。さらに実施の形態２同様にダイナミックレンジを拡張するために、アナログ回路を用いてもよい。

以上、本発明について上述の実施の形態１〜５に基づいて説明を行ったが、本発明は上述の実施の形態に限定されるものではない。

例えば、実施の形態３、実施の形態４ではそれぞれ圧センサ４３より得られた把持圧、ＥＧＧセンサ５１によって得られたＥＧＧ波形から計算した声門閉鎖区間比率を利用して力み処理対象区間を判定した。しかし、力み処理対象区間の判定方法は、これに限定されるものではない。例えば、ハンドマイク内にジャイロスコープ等の加速度または動きの測定が可能なセンサをつける、または頭部にセンサを装着して、話者または歌唱者の動きの早さまたは動きの距離が一定値以上の場合に力み処理対象区間として判定するものとしても良い。

また、実施の形態１、実施の形態２において入力音声の振幅変動の変調度を分析し、変調度が不十分な区間に強調処理を施すものとした。しかし、変調度にかかわらず、入力音声に振幅変動があると判断された区間すべてについて強調処理を施すこともできる。これにより、多項式近似等の遅延が発生する変調度の分析処理が不要となる。また、遅延時間が削減される。このため、カラオケまたは拡声器等のリアルタイムの処理が必要なシステムに適用する場合に有効である。その際、実施の形態２の振幅ダイナミックレンジ拡張部３１は、図３５のように平均入力振幅計算部６１と振幅増幅圧縮部６２とから構成される。また、平均入力振幅計算部６１は、少なくとも力み音声の振幅包絡の変動１周期分の時間幅で、入力音声の振幅の平均を求める。例えば、振幅包絡変動が４０Ｈｚ以上であるものとして、１／４０秒すなわち２５ｍｓの時間幅で振幅の平均値を求めるものとする。振幅増幅圧縮部６２は、平均入力振幅計算部６１から出力された平均値を、図２０の境界入力レベルとして設定する。振幅増幅圧縮部６２は、平均値を上回る入力、すなわち振幅包絡の変動周期中の振幅の大きい部分は、より振幅が大きくなるように増幅する。また、振幅増幅圧縮部６２は、平均値を下回る入力、すなわち振幅包絡の変動周期中の振幅の小さい部分はより振幅を小さくなるように振幅を圧縮する。このことにより、入力音声の振幅変動を強調することができる。振幅の平均値を求める時間幅は２５ｍｓに限らず、振幅包絡変動の周波数を１２０Ｈｚに対応する８．３ｍｓ程度まで短くしても良い。一部のギターアンプで音を歪ませる際に類似の構成が使われている。かかる構成によれば、遅延の少ない単純な処理で、入力音声の振幅変動を強調することができる。また、入力音声の特徴を活かしたまま「力み」または「唸り」の豊かな表情を、入力音声に付加することができる。

また、実施の形態３、実施の形態４では「力み」または「唸り」の表現を付加するために実施の形態１と同様に入力音声に周期的な振幅変動を付加した。しかし、実施の形態２のように入力音声の振幅ダイナミックレンジを拡張することにより、音声に「力み」または「唸り」の表現をつけるものとしても良い。ただし、入力音声の振幅ダイナミックレンジを拡張する場合には、実施の形態１または実施の形態２のステップＳ１２のように、入力音声に「力み」または「唸り」に相当する変動周波数範囲内の振幅変動があることを判別する必要がある。

また、実施の形態１、実施の形態３、実施の形態４では周期信号生成部１７は８０Ｈｚの周期信号を生成するものとした。しかし、周期信号生成部１７は、変動を「力み」として聴取できる４０Ｈｚから１２０Ｈｚの間でランダムな周期変動をもつ信号を生成しても良い。変調周波数がランダムに変動することで、より実際の音声の振幅変動に近づき、自然な音声を生成することができる。

また、話者または歌唱者が力を込めている状態を検出し、力み付加処理区間を判定するために、実施の形態１、２では音声波形の振幅変動を用い、実施の形態３ではハンドマイクの把持圧を用い、実施の形態４ではＥＧＧ波形から観察される声門閉鎖区間比率を用いた。しかし、これらの情報を組み合わせて力み付加処理区間を判定するものとしても良い。

また、上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。ＲＡＭまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

さらに、上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしても良い。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしても良い。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしても良い。

また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。

さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、半導体メモリなどに記録したものとしても良い。また、これらの記録媒体に記録されている上記デジタル信号であるとしても良い。

また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。

また、上記プログラムまたは上記デジタル信号を上記記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。

さらに、上記実施の形態及び上記変形例をそれぞれ組み合わせるとしても良い。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明にかかる音声強調装置は、話者または歌唱者が力を入れて話したり、歌ったりした部分を検出し、話者または歌唱者が強い音声表現をしようとしていた部分を特定して、その部分の音声波形を加工して「力み」や「唸り」の表現を生成することができる。このため、本発明は、力み強調機能を有する拡声器やカラオケ等に利用可能である。また、本発明は、ゲーム機、通信機器、携帯電話機等にも利用可能である。つまり、ゲーム機や通信機器のキャラクタ音声、アバターの音声、音声メールの音声、携帯電話機の着信報知用音楽や着信ボイス、またはホームビデオ等によるムービーコンテンツ作成時のナレーション音声等の音声カスタマイズが可能である。

図１は、録音された音声において観察された、通常音声と力み音声の波形と振幅包絡の一例を示す図である。図２は、録音された音声において観察された力み音声で発声されたモーラの振幅包絡の変動周波数分布を示すヒストグラムと累積度数グラフである。図３Ａは、録音された音声において観察された、力み音声の第２高調波、振幅包絡線、および多項式によるフィッティングの一例を示す図である。図３Ｂは、振幅変動量の計算例を説明するための図である。図４は、録音された音声において観察された力み音声で発生されたモーラの振幅包絡の変調度の分布を示すヒストグラムと累積度数グラフである。図５は、聴取実験により確認された「力み」音声に聞こえる振幅変動周波数の範囲を示すグラフである。図６は、振幅変動を付加する際の変調度の定義を説明する変調信号の例を示す図である。図７は、聴取実験により確認された「力み」音声に聞こえる振幅変調度の範囲を示すグラフである。図８は、変調周波数が一定の場合とランダムの場合との違和感の大きさを示す表である。図９は、歌唱音声に振幅変動処理を行なった音声に対する聴取実験の結果を示すグラフである。図１０は、本発明の実施の形態１における音声強調装置の外観図である。図１１は、本発明の実施の形態１における音声強調装置の構成を示す機能ブロック図である。図１２は、本発明の実施の形態１における音声強調装置の構成を示す機能ブロック図である。図１３は、力み判定部および力み付加処理判定部の詳細な構成を示す機能ブロック図である。図１４は、本発明の実施の形態１における音声強調装置の動作を示すフローチャートである。図１５は、本発明の実施の形態１における音声強調装置の動作の一部を示すフローチャートである。図１６は、本発明の実施の形態１における音声強調装置の動作の一部を示すフローチャートである。図１７は、本発明の実施の形態１の変形例における音声強調装置の構成を示す機能ブロック図である。図１８は、本発明の実施の形態１の変形例における音声強調装置の動作を示すフローチャートである。図１９は、本発明の実施の形態２における音声強調装置の構成を示す機能ブロック図である。図２０は、本発明の実施の形態２における音声強調装置の振幅ダイナミックレンジ拡張部３１の入出力特性の一例を示す図である。図２１は、本発明の実施の形態２における音声強調装置の動作を示すフローチャートである。図２２は、振幅ダイナミックレンジ拡張部による境界レベルの設定についてより詳細に説明するための図である。図２３は、振幅ダイナミックレンジ拡張部により実際の音声波形の振幅のダイナミックレンジを拡張した結果について説明するための図である。図２４は、本発明の実施の形態３における音声強調装置の構成を示す機能ブロック図である。図２５は、本発明の実施の形態３における音声強調装置の動作を示すフローチャートである。図２６は、本発明の実施の形態４における音声強調装置の構成を示す機能ブロック図である。図２７は、本発明の実施の形態４における音声強調装置の動作を示すフローチャートである。図２８は、特開２００７−６８８４７号公報の図５に示された男性話者による音声波形とＥＧＧ波形と第４ホルマント波形の例を示す図である。図２９は、特開２００７−６８８４７号公報の図６に示された女性話者による音声波形とＥＧＧ波形と第４ホルマント波形の例を示す図である。図３０は、本発明の実施の形態５における音声強調システムの構成を示す図である。図３１は、本発明の実施の形態５における音声強調システムの構成を示す機能ブロック図である。図３２は、本発明の実施の形態５における端末７１による音声信号の取得と送信の動作を示すフローチャートである。図３３は、本発明の実施の形態５における音声処理サーバ７３の動作を示すフローチャートである。図３４は、本発明の実施の形態５における端末７１による音声信号の受信と音声出力との動作を示すフローチャートである。図３５は、本発明の実施の形態２における別の構成による音声強調装置の機能ブロック図である。

符号の説明

１１音声入力部
１２、４４、５２強調発声区間検出部
１３音声強調部
１４音声出力部
１５力み判定部
１６、４７、５７力み付加処理判定部
１７周期信号生成部
１８振幅変調部
１９周期性分析部
２０第２高調波抽出部
２１振幅包絡分析部
２２変動周波数分析部
２３変動周波数判定部
２４振幅変調度計算部
２５変調度判定部
２６オールパスフィルタ
２７スイッチ
２８加算器
３１振幅ダイナミックレンジ拡張部
４１ハンドマイク
４２、７６マイクロフォン
４３圧センサ
４５、５５標準値計算部
４６、５６標準値記憶部
５１ＥＧＧセンサ
６１平均入力振幅計算部
６２振幅増幅圧縮部
７１端末
７１ａ携帯型パーソナルコンピュータ
７１ｂ携帯電話機
７１ｃネットワークゲーム機
７２ネットワーク
７３音声処理サーバ
７４、８０音声データ受信部
７５、７９音声データ送信部
７７Ａ／Ｄ変換器
７８入力音声データ記憶部
８１強調音声データ記憶部
８２Ｄ／Ａ変換器
８３電気音響変換器
８４音声出力指示入力部
８５出力音声抽出部
８６、９２、９６、１０２音声波形
８８境界入力レベル
９０、１０４振幅包絡
９４、９８包絡線

Claims

入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、
前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調部と
を備え、
前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
ことを特徴とする音声強調装置。
前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形が周期的な振幅変動を伴うように、前記音声波形に変調を施す
ことを特徴とする請求項１に記載の音声強調装置。
前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の信号を用いて、周期的な振幅変動を伴うように前記音声波形に変調を施す
ことを特徴とする請求項２に記載の音声強調装置。
前記音声強調部は、さらに、前記音声波形が周期的な振幅変動を伴うように前記音声波形に変調を施す際に用いられる信号の周波数を４０Ｈｚ−１２０Ｈｚの範囲内で変動させる
ことを特徴とする請求項３に記載の音声強調装置。
前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に周期信号を乗ずることにより周期的な振幅変動を伴う変調を音声波形に付与する
ことを特徴とする請求項２に記載の音声強調装置。
前記音声強調部は、
前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の位相をずらすオールパスフィルタと、
前記オールパスフィルタへ入力される前記強調区間に含まれる前記音声波形と、前記オールパスフィルタにより位相がずらされた後の音声波形とを加算する加算手段とを有する
ことを特徴とする請求項２に記載の音声強調装置。
前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅のダイナミックレンジを拡大する
ことを特徴とする請求項１に記載の音声強調装置。
前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形において、前記音声波形の振幅包絡の値が所定の値以下の場合には、前記音声波形の振幅を圧縮し、かつ前記音声波形の振幅包絡の値が前記所定の値よりも大きい場合には、前記音声波形の振幅を増幅する
ことを特徴とする請求項７に記載の音声強調装置。
前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある時間区間であり、かつ前記入力音声波形の振幅包絡の振幅変動度合いを示す振幅変調度が０．０４未満である時間区間を前記強調区間として検出する
ことを特徴とする請求項１に記載の音声強調装置。
入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出ステップと、
前記入力音声波形のうち、前記強調発声区間検出ステップにおいて検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調ステップと
を含み、
前記強調発声区間検出ステップにおいて、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
ことを特徴とする音声強調方法。
入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出ステップと、
前記入力音声波形のうち、前記強調発声区間検出ステップにおいて検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調ステップと
をコンピュータに実行させ、
前記強調発声区間検出ステップにおいて、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
ことを特徴とするプログラム。
入力音声波形の一部に所定の変換処理を施すことにより出力音声波形を生成する音声強調装置と、
前記出力音声波形を再生する端末とを備え、
前記端末は、
前記入力音声波形を前記音声強調装置に送信する入力音声波形送信部と、
前記出力音声波形を前記音声強調装置から受信する出力音声波形受信部と、
前記出力音声波形受信部が受信した前記出力音声波形を再生する再生部とを備え、
前記音声強調装置は、
前記入力音声波形を前記端末から受信する入力音声波形受信部と、
前記入力音声波形受信部で受信された前記入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、
前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させることにより、前記出力音声波形を生成する音声強調部と、
前記出力音声波形を前記端末に送信する出力音声波形送信部とを備え、
前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が１０Ｈｚ以上かつ１７０Ｈｚ未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
ことを特徴とする音声強調システム。