JP4327241B2 - 音声強調装置および音声強調方法 - Google Patents

音声強調装置および音声強調方法 Download PDF

Info

Publication number
JP4327241B2
JP4327241B2 JP2008558565A JP2008558565A JP4327241B2 JP 4327241 B2 JP4327241 B2 JP 4327241B2 JP 2008558565 A JP2008558565 A JP 2008558565A JP 2008558565 A JP2008558565 A JP 2008558565A JP 4327241 B2 JP4327241 B2 JP 4327241B2
Authority
JP
Japan
Prior art keywords
speech
amplitude
waveform
voice
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008558565A
Other languages
English (en)
Other versions
JPWO2009044525A1 (ja
Inventor
弓子 加藤
孝浩 釜井
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4327241B2 publication Critical patent/JP4327241B2/ja
Publication of JPWO2009044525A1 publication Critical patent/JPWO2009044525A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Description

本発明は、人間の歌唱音声や人間が強調のために力を入れて話すときにあらわれる、だみ声、荒れた声、ざらざらした声(harsh voice)、例えば演歌等の歌唱時に現れる「こぶし」または「唸り」のような表現、ブルースおよびロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を生成する技術に関する。より特定的には、前記のような音声に含まれる怒り、強勢、力強さ、元気のよさのような感情や音声の表情、発話スタイルや話者の態度、状況、または発声器官の緊張状態を表現可能な音声の生成を可能にする音声強調装置に関する。
従来、感情、表情、態度および状況等を音声で表現する、特に音声の言語的表現ではなく、口調、話し方および声色といったパラ言語的表現によって感情等を表現することを目的とした音声変換または音声合成の技術が開発されている。これらの技術は、ロボットまたは電子秘書をはじめ、電子機器の音声対話インタフェースに必要不可欠である。また、カラオケまたは音楽用のエフェクタに使われる技術として、音声波形を加工してビブラート等の音楽的表現を加えるものや、音声の表現を強調するものが開発されている。
音声のパラ言語的表現または音楽的表現のうち、声質による表現を実現する方法としては、入力された音声を分析して合成パラメータを求め、そのパラメータを変更することにより声質を変更する音声変換方法が提案されている(例えば、特許文献1参照)。しかしながら、前記従来の方法では、感情ごとにあらかじめ定められた一様な変換規則に従ってパラメータ変換を行う。このため、自然発話に見られる部分的に力んだ声になったりするような声質のバリエーションを再現することはできない。また、入力音声全体に対して一様に変換規則を適用する。このため、話者が強調しようとした部分のみを変換したり、入力音声がもともと持っていた表情または表現の強弱を強調するような変換に対応することができない。
また、カラオケでは、ユーザの歌唱を、オリジナルの歌手の歌い方を模擬した歌唱に変更する方法も提案されている(例えば、特許文献2)。つまり、オリジナルの歌手の歌い方、すなわち楽曲のうちどの区間でどの程度ビブラートがかかったり、「力み」または「唸り」が入っていたかといった音楽的表現を記述した歌唱データに基づいて、ユーザの歌唱音声に対して振幅や基本周波数を変更したり、ノイズを付加するなどの変形処理を行う。
さらに、歌唱データとオリジナル歌手の歌唱タイミングのずれに対しては歌唱データと楽曲データとの比較を行う方法が提案されている(例えば、特許文献3)。これらの技術を組み合わせれば、歌唱データがオリジナル歌手の歌唱タイミングからずれた場合においてもおおよそのタイミングが合っていれば入力音声をオリジナル歌手の歌い方を模擬した歌唱に変換できる可能性がある。
音声の部分的な声質のバリエーションについては、本願が対象とする、興奮した際の発声または歌唱音声の表現としての「力み」または「唸り」音声とは異なる「りきみ」として、「きしる声」(creaky)または「フライ」(vocal fry)とも呼ばれる音声の研究がなされている。非特許文献1は「きしる声」の音響的特徴として、局所的なエネルギーの変化が激しく、基本周波数は通常発声よりも低く、不安定であり、通常発声の区間よりもパワーが小さいことを上げている。また、これらの特徴は喉頭を力むことにより、声帯振動の周期性が乱れるために生じる場合があることを示している。さらに、音節単位の平均持続時間に比べて長い区間に渡って「りきみ」が生じることが多いことを示している。「きしる声」は、関心もしくは嫌悪の感情的表現、または躊躇もしくは謙遜のような態度的表現において、話者の誠実性を高める効果を持つ声質であるとされる。非特許文献1に述べられる「りきみ」は、一般に文末または句末等の音声が消えていく過程、ことばを選んで話したり、考えながら話したりする際に語尾を引きずるように引き伸ばして発声する場合の引き伸ばされた語尾、および答えに窮した際に発せられる「えーっと」「うーん」というような感動詞または感嘆詞に多く見られるものである。さらに、非特許文献1には、「フライ」および「きしる声」には、ダブル・ビートまたは基本周期の倍数で新たな周期が起きる発声(diplophonia)が含まれていることが示されている。「フライ」に見られるdiplophoniaと呼ばれる音声を生成する方式としては、基本周波数の1/2周期分だけ位相をずらした音声を重ね合わせる方法が提案されている。
特許第3703394号公報 特開2004−177984号公報 特許第3760833号公報 石井カルロス寿憲、石黒浩および萩田紀博、「りきみの自動検出のための音響分析」、電子情報通信学会技術研究報告、SP2006−07巻、pp.1−6、2006
しかしながら、前記従来の方法またはそれらの組み合わせでは、興奮、緊張、怒りまたは強調のために力を入れて話すときのだみ声、荒れた声およびざらざらした声(harsh voice)、ならびに歌唱時の「こぶし」、「唸り」または「シャウト」のような音声の一部に現れる「力み」音声を生成することはできない。ここでの「力み」音声は、力を入れて発話する際に、通常より発声器官に力が入るまたは発声器官が強く緊張するために起こるものである。具体的には、「力み」音声は力が入った発声であるため、音声の振幅はどちらかといえば大きい。また、「力み」音声は、感動詞または感嘆詞に限らず、自立語または付属語を問わず様々な品詞中に見られる。すなわち、「力み」は、前記の従来の方法が実現する「りきみ」とは異なる音声の現象である。このため、従来の方法では本願が対象とする「力み」音声を生成することはできない。すなわち、怒りもしくは興奮、勢い込んだ話し方もしくは元気のある話し方のような音声の表情を、発声器官の力の入り方、緊張のしかたを感じさせる「力み」音声を生成することで、声質の変化により豊かに表現することが困難であるという課題を有している。さらに、歌唱音声の変換においては、歌唱データがオリジナル歌手の歌唱のタイミングに固定されている。このため、ユーザがオリジナル歌手のタイミングとは大きく異なるタイミングで歌った場合の音楽表現の付加ができない。また、オリジナル歌手とは異なる、ユーザが思うタイミングで「力み」または「唸り」をつけて歌いたい場合、またはそもそも歌唱データがない場合に、「力み」をつけて歌いたいという欲求または意思を反映することができない。
すなわち、上記の従来の方法では、部分的な声質のバリエーションを自由なタイミングで付加することが困難で、音声にリアルな表情や豊かな音楽的表現を自由に付加することができないという課題がある。
本発明は、前記従来の課題を解決するもので、話者またはユーザが強調または音楽表現を意図した位置に、前記の「力み」音声を発生させる。このことにより、怒り、興奮、緊張、元気のある話し方による強調、または演歌、ブルースもしくはロック等の音楽表現を、ユーザの音声に付加して、豊かな音声表現を実現する音声強調装置を提供することを目的とする。
また本発明は、話者またはユーザの強調または音楽表現の意図を、その音声の特徴より推定して、話者またはユーザが強調または音楽表現を意図したと推定される音声区間に対して、「力み」音声を発生させる処理を行う。このことにより、怒り、興奮、緊張、元気のある話し方による強調、または演歌、ブルースもしくはロック等の音楽表現を、ユーザの音声に付加して豊かな音声表現を実現する音声強調装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声強調装置は、入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調部とを備え、前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出することを特徴とする。
この構成により、入力された音声波形中で話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間を検出し、検出された音声区間の音声を「力み音声」に変換して出力することができる。すなわち、話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を実現することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形が周期的な振幅変動を伴うように、前記音声波形に変調を施すことを特徴とする。
この構成により、音声波形を入れ替える等の処理により任意の入力音声に対応しうる大量の特徴的な音声波形を保持することなく、表情豊かな音声を生成することができる。また、入力音声に振幅変動を伴う変調処理を付加するだけで音声表現ができるため入力音声の特徴を維持したまま、単純な処理のみで強調や緊張を伝える表現の音声波形や、音楽的表現を付加することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に40Hz以上でかつ120Hz以下の周波数の信号を用いて、周期的な振幅変動を伴うように前記音声波形に変調を施すことを特徴とする。
この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、「力み音声」に聞こえる周波数範囲の振幅変動を発生させることができる。これにより、強調もしくは緊張を伝える表現、または音楽的表現をより確実に聴取者に伝えることのできる音声波形を生成することができる。
好ましくは、前記音声強調部は、さらに、前記音声波形が周期的な振幅変動を伴うように前記音声波形に変調を施す際に用いられる信号の周波数を40Hz−120Hzの範囲内で変動させることを特徴とする。
この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、「力み音声」に聞こえる周波数範囲の振幅変動を発生させる際に、一定周波数でなく「力み音声」に聞こえる範囲内で振幅変動の周波数にゆらぎを与える。これにより、より自然な「力み音声」を生成することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に周期信号を乗ずることにより周期的な振幅変動を伴う変調を音声波形に付与することを特徴とする。
この構成により、より単純な処理によって入力音声に「力み音声」に聞こえる振幅変動を付加することができ、強調もしくは緊張を伝える表現、または音楽的表現を確実に付加して豊かな音声表現を実現することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の位相をずらすオールパスフィルタと、前記オールパスフィルタへ入力される前記強調区間に含まれる前記音声波形と、前記オールパスフィルタにより位相がずらされた後の音声波形とを加算する加算手段とを有することを特徴とする。
この構成により、周波数成分ごとに異なる振幅の変動を起こすことができ、すべての周波数成分が同一の振幅変化をする単純な変調に比べて複雑な振幅変動を起こすことができる。このため、強調もしくは緊張を伝える表現、または音楽的表現を持ち、かつ、聴感上より自然な音声を生成することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅のダイナミックレンジを拡大することを特徴とする。
この構成により、強調発声区間検出部で検出された話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間に対して、入力音声に含まれる振幅のダイナミックレンジを拡大することで、その音声がもともと持つ振幅変動の特徴を強調や音楽表現として聞き取れる大きさの振幅変動にして出力することができる。すなわち、話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を、元の音声の特徴を使ってより自然な表現として実現することができる。
好ましくは、前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形において、前記音声波形の振幅包絡の値が所定の値以下の場合には、前記音声波形の振幅を圧縮し、かつ前記音声波形の振幅包絡の値が前記所定の値よりも大きい場合には、前記音声波形の振幅を増幅することを特徴とする。
この構成により、より単純な処理によって入力音声に含まれる振幅のダイナミックレンジを拡大することができる。話者またはユーザが強調または音楽表現のために「力み音声」を発声しようとした意図に従って、より単純な処理により、強調もしくは緊張を伝える表現、または音楽的表現を付加して豊かな音声表現を、元の音声の特徴を使ってより自然な表現として実現することができる。
好ましくは、前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある時間区間であり、かつ前記入力音声波形の振幅包絡の振幅変動度合いを示す振幅変調度が0.04未満である時間区間を前記強調区間として検出することを特徴とする。
この構成により、強調発声区間検出部は、話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間のうち、入力音声が未処理の状態で「力み音声」に聞こえる部分以外を強調区間として検出する。そして、話者またはユーザが「力み音声」を発声して強調または音楽表現をしようと意図した音声区間のうち、話者またはユーザの肉声による音声表現が十分である部分に強調処理を施さず、肉声による音声表現が不十分である部分についてのみ強調処理を施す。すなわち、肉声の音声表現をできるだけ保持した上で、話者またはユーザが「力み音声」を意図したにもかかわらず表現が付けられなかった部分についてのみ「力み音声」を付加する。よって、より自然な肉声の音声表現を保持しながら、強調もしくは緊張を伝える表現または音楽的表現を付加して豊かな音声表現を実現することができる。
好ましくは、前記強調発声区間検出部は、前記発話者の声門が閉鎖している時間区間に基づいて、前記強調区間を決定することを特徴とする。
この構成により、より正確に喉頭に力が入った状態を検出することができ、話者または歌唱者の表現の意図を正確に反映した強調区間を決定することができる。
好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者の動きにより生成される圧力を検知する圧センサを備え、前記強調発声区間検出部は、前記圧センサの出力値があらかじめ定められた値を越えるか否かを判断し、前記圧センサの出力値があらかじめ定められた値を越える時間区間を前記強調区間として検出することを特徴とする。
この構成により、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。
好ましくは、前記圧センサは、前記入力音声波形を受付けるマイクロフォンの把持部に取り付けられていることを特徴とする。
この構成により、発話時または歌唱時の自然な動作から、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。
好ましくは、前記圧センサは、支持部により前記発話者の腋または腕に取り付けられていることを特徴とする。
この構成により、発話時または歌唱時の特にハンドマイクを手に持った状態での自然な動作から、話者または歌唱者が力を込めて発声している状態を簡易に直接的に検出できる。
好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者の動きを検知する動きセンサを備え、前記強調発声区間検出部は、前記動きセンサの出力値があらかじめ定められた値を超える時間区間を前記強調区間として検出することを特徴とする。
この構成により、発話時または歌唱時のジェスチャを捉えることができ、動作の大きさから話者または歌唱者が力を込めて発声している状態を簡易に検出できる。
好ましくは、前記音声強調装置は、さらに、前記入力音声波形の発声時刻と同期して前記発話者が動く際の加速度を検知する加速度センサを備え、前記強調発声区間検出部は、前記加速度センサの出力値があらかじめ定められた値を超える時間区間を前記強調区間として検出することを特徴とする。
この構成により、発話時または歌唱時のジェスチャを捉えることができ、動作の大きさから話者または歌唱者が力を込めて発声している状態を簡易に検出できる。
なお、本発明は、このような特徴的な手段を備える音声強調装置として実現することができるだけでなく、音声強調装置に含まれる特徴的な手段をステップとする音声強調方法として実現したり、音声強調方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音声強調装置によれば、人間が怒鳴ったとき、興奮もしくは緊張して話すとき、または強調のために力を入れて話すとき等に現れる、だみ声、荒れた声もしくはざらざらした声(harsh voice)、または、演歌等の歌唱時に現れる「こぶし」もしくは「唸り」のような表現、ブルースもしくはロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を、話者またはユーザが音声強調または音楽表現を意図した位置に生成することができる。それにより、入力音声を、話者または歌い手の、力の入り具合または感情移入の様子が伝わる表情豊かな音声に変換することができる。
まず、本発明の基礎となる、音声中の力み音声の特徴について述べる。
感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば、非特許文献:日本音響学会誌51巻11号(1995)、pp869−875、粕谷英樹・楊長盛“音源から見た声質”、特許文献:特開2004−279436号公報)。「激怒」および「怒り」の感情を伴った音声では、だみ声、荒れた声またはざらざらした声と表現されるような「力み」音声が多く見られる。「力み」音声の波形の調査により、「力み」音声の波形の多くに振幅の周期的変動が見られることが明らかになった。図1(a)は、「特売(とくばい)してますよ」の「ばい」部分について、感情を伴わず「平静」に発声した音声より切り出した通常発声の音声波形とその振幅包絡の概形を示したものである。図1(b)は、「激怒」の感情を伴って発声された、同じく「特売してますよ」中の「ばい」部分の波形とその振幅包絡の概形である。両波形とも、音素の境界を破線で示している。図1(a)の波形の/a/、/i/を発声している部分では、振幅が滑らかに変動していく様子が見える。通常の発声においては、図1(a)の波形のように、母音の開始部で滑らかに振幅が大きくなり、音素の中央付近で最大値となり、音素境界に向けて小さくなる。母音の終了部がある場合には、振幅は、滑らかに、無音または後続子音の振幅に向けて小さくなる。図1(a)のように母音が続く場合は緩やかに後続の母音の振幅に向けて小さくまたは大きくなる。通常発声においては、1つの母音内において、図1(b)のように振幅の増減を繰り返すことはほとんどなく、このような基本周波数との関係が一見してわからない振幅の変動を持つ音声についての報告はない。そこで、振幅変動が力み音声の特徴であると考え、力み音声であるとラベルされた音声について、以下の処理によって振幅包絡の変動周期を求める。
まず、音声波形を代表する正弦波成分を抽出するため、対象となる音声波形の基本周波数の第2高調波を中心周波数とするバンドパスフィルタを逐次に求め、そのフィルタに音声波形を通過させる。フィルタを通過した波形をヒルベルト変換して解析信号を求め、その絶対値によってヒルベルト包絡曲線を求めることで、音声波形の振幅包絡曲線を求める。求められた振幅包絡曲線をさらにヒルベルト変換し、瞬時角速度をサンプル点ごとに計算し、サンプリング周期に基づいて角速度を周波数に変換する。サンプル点ごとに求められた瞬時周波数について音韻ごとにヒストグラムを作成し、最頻値をその音韻の音声波形の振幅包絡の変動周波数と見なす。
図2は男性話者による「激怒」の感情を伴う発声を対象として、分析した力み音声の振幅包絡の変動周波数の分布を、ヒストグラムと累積度数で示したものである。表1は、図2に示した力み音声の振幅包絡の変動周波数の頻度および累積度数を示す表である。
Figure 0004327241
力み音声でない通常の音声は、振幅包絡に周期的変動が無い。このため、「力み」音声と通常音声とを判別するためには周期的変動がない状態と周期的変動がある状態とを区別する必要がある。図2のヒストグラムにおいて、力み音声の頻度は、振幅変動の周波数が10Hzから20Hzの間で立ち上がり、40Hzから50Hzの範囲で急激に増加している。周波数の下限は、40Hz付近が妥当であると考えられるが、より広い範囲で網羅的に力み音声を検出する際には、下限を10Hzとしても良い。累積度数より力みとラベルされた音韻のうち、90%は47.1Hz以上の周波数で振幅が変動している。これらより、周波数の下限として47.1Hzを用いることができる。振幅変動の周波数が高くなりすぎると人間の聴覚は振幅の変動を捉えることができなくなる特性を考えると、振幅変動によって力み音声を検出するためには、周波数に上限を設けるのが望ましい。聴覚の特性としては、70Hz付近が「粗さ」を最もよく感じる周波数であり、変調を受ける元の音にもよるが、100Hzから200Hzにかけて「粗さ」の感覚は小さくなる。
図2のヒストグラムにおいて、力み音声の頻度は110Hzから120Hzの範囲で急激に減少しており、さらに130Hzから140Hzの範囲で半減している。力み音声を特徴付ける振幅変動の周波数の上限は、130Hz付近で設定されるべきである。さらに、下限同様に、より広い範囲で網羅的に力み音声を検出する際には、図2において170Hzから180Hzの範囲で一旦頻度が0まで低下することに基づいて、周波数の上限を170Hzとしても良い。47.1Hzの下限とあわせて、累積度数より力みとラベルされた音韻のうち80%が含まれることになる123.2Hzを周波数の上限として用いることは有効である。
図3Aおよび図3Bは、力み音声の振幅包絡の変調度を説明するための図である。振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なり、変調される信号である音声波形にもともと振幅の変化がある。このため、ここでは、振幅変動の変調度(振幅変調度)を以下のように定義する。図3Aに示すように、第2高調波を中心周波数とするバンドパスフィルタを通過した波形のヒルベルト包絡曲線として求められた振幅包絡曲線を多項式近似し、多項式によるフィッティング関数を作成する。図3Aは、3次関数によるフィッティングを行ったものである。フィッティング関数を変調前の波形の振幅包絡線と見なす。図3Bに示すように、振幅包絡線のピークごとにフィッティング関数との差分を求め、振幅変動量と見なす。フィッティング関数の値、振幅変動量共に一定ではないため、振幅変動量とフィッティング関数の値の両者について音韻内での中央値を求め、両中央値の比を変調度とする。
図4は、このようにして求めた変調度のヒストグラムと累積度数とを示す図である。表2は、図4に示した変調度の頻度および累積度数を示す表である。
Figure 0004327241
図4に示すヒストグラムは、男性話者による「激怒」の感情を伴う発声中に見られた力み音声より求められた振幅変動の変調度の分布を示している。聴取者が振幅変動を知覚するためには、変動の大きさすなわち変調度が一定値以上である必要がある。図4のヒストグラムにおいて、振幅変動の変調度の頻度が0.02から0.04の範囲で急激に高くなっている。このため、力み音声を特徴付ける振幅変動の変調度の下限を0.02付近とすることが妥当である。また、累積度数を見ると、90%の音韻は変調度が0.038以上である。このため、変調度の下限として0.038を用いることもできる。さらに、0.038の下限とあわせて、累積度数より力みとラベルされた音韻のうち80%が含まれることになる、0.276を振幅変動の変調度の上限として用いることは有効である。上記のことから、力み音声を検出するための1つの基準として、振幅包絡の周期変動が40Hz−120Hz、変調度が0.04以上という基準を用いることができる。
このような振幅変動によって「力み」音声に聞こえることを確認するための聴取実験をおこなった。まず、3つの通常発声の音声に振幅変動無しから200Hzまでの15段階で振幅周波数を変えた振幅変動を伴う変調処理を行った音声を用意し、それぞれの音声が以下の3つの分類のうちどれに該当するかを、被験者に選択させる実験を行った。13名の聴力正常な被験者は、3つの分類の中から、音声試料が当てはまるものを選択した。つまり、被験者は、通常の音声に聞こえる場合には「力みに聞こえない」を選択する。また、「力み」音声に聞こえる場合には「力みに聞こえる」を選択する。さらに、振幅変動が音声とは別の音を感じさせ、「力んだ声」とは聞こえない場合には「雑音に聞こえる」を選択する。各音声についての判断は2回ずつ行われた。
その結果、図5に示すように、振幅変動無しから振幅変動周波数30Hzまでは「力みに聞こえない」の回答が最も多かった。また、振幅変動周波数40Hzから120Hzまでは「力みに聞こえる」の回答が最も多かった。さらに振幅周波数130Hz以上では「雑音に聞こえる」の回答が最も多かった。この結果より、「力み」音声と判断され易い振幅変動周波数の範囲は、実際の「力み」音声の振幅変動周波数の分布に近い、40Hzから120Hzであることが示された。
一方、音声波形は音韻ごとの緩やかな振幅の変動をもつ。このため、振幅変動の変調度は、振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なる。しかし、振幅一定のキャリア信号に対する振幅変調に習って、図6のような変調信号を仮定する。変調の対象となる信号の振幅絶対値を100%すなわち変更無しから、0%すなわち振幅0までの間で変調する場合を変調度100%として、変調信号の変動幅を百分率で表現したものを変調度とする。図6に示した変調信号は、変調の対象の信号を変更無しから、0.4倍までの間で変調するものであり、変動幅は1−0.4すなわち0.6である。よって変調度は60%となる。
このような変調信号を用いて「力み」音声に聞こえる変調度の範囲を確認する聴取実験を行った。2つの通常発声の音声に、変調度0%すなわち振幅変動無しから変調度100%までの間で変調度を変えた振幅変動を伴う変調処理を行った音声を12段階用意した。聴力正常な被験者15名において、通常の音声に聞こえる場合には「力み」なし、力みに聞こえる場合には「力み」あり、力み以外の違和感のある音に聞こえる場合には「力み」に聞こえないの3つの分類の中から、音声試料が当てはまるものを選択する聴取実験を行った。各音声の判断は5回ずつ行われた。図7に示すように、聴取実験の結果、変調度35%までは「力み」なしの回答が最も多く、40%から80%までは「力み」ありの回答が最も多かった。さらに90%以上では力み以外の違和感のある音に聞こえるとの回答が最も多かった。この結果より、「力み」音声と判断され易い変調度の範囲は40%から80%であることが示された。
歌唱において、旋律にあわせて母音の時間長を長く伸ばす場合が多くあるが、時間長の長い(例えば、3秒を超える)母音に一定の変調周波数で振幅変動を付加すると、音声と共にブザー音が聞こえる等の不自然な音が生成される場合がある。振幅変動の変調周波数をランダムに変化させることで、ブザー音や雑音の重畳のような印象を減らせる場合もある。振幅変動の変調周波数を、平均80Hz、標準偏差20Hzになるようランダムに変化させて振幅変調を行った音と、変調周波数を80Hzで一定にして振幅変調を行った音とについて、15名の被験者で違和感を5段階で評価する実験を行った。そのところ、変調周波数が一定の場合とランダムに変化する場合とで違和感の評価値に有意な差は見られなかった。しかし、特定のサンプル音声については、図8に示すように、15名中12名が、変調周波数一定の場合に比べて、変調周波数がランダムな場合に、違和感が減少しているか変化がないと判断している。つまり、変調周波数をランダムにすることで不自然な音が生成されることなく、違和感を減らす効果が期待される場合もある。なお、実験で用いられた特定のサンプル音声とは、「あまりよく眠れなかったようですね」と発声している音声中の、「ま」、「よう」の箇所に、100msを超える振幅変調を行った音が挿入され、「か」の箇所に、90msの振幅変調を行った音が挿入された音声である。
さらに、歌唱音声に、平均80Hz、標準偏差20Hzでランダムに変調周波数が変化するような振幅変動処理を行った音声を用意した。この音声に対して、聴力正常な被験者15名が、「力んで歌っている」か否かを判断する聴取実験を行った。図9のように振幅変動処理を行うことにより、振幅変動処理を行わない場合に比べてより「力んで歌っている」と評価されている。これにより、歌唱における音楽表現である「力み」または「唸り」が、感情を伴う発話における「力み」と同様の変調処理によって生成できることが示された。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図10は、実施の形態1の音声強調装置の外観図であり、具体的にはカラオケ装置などである。
図11は、実施の形態1の音声強調装置の機能ブロック図である。
図11に示されるように、本発明の実施の形態1に係る音声強調装置は、入力音声中の力み音声を強調して出力する装置であり、音声入力部11と、強調発声区間検出部12と、音声強調部13と、音声出力部14とを備えている。
音声入力部11は、音声波形を入力として受付ける処理部であり、例えばマイクロフォンなどにより構成される。
強調発声区間検出部12は、音声入力部11により入力された音声波形から話者またはユーザが「力み」による強調または音楽表現(「唸り」)を付加しようとする音声の区間を検出する処理部である。
音声強調部13は、音声入力部11により入力された音声波形のうち、強調発声区間検出部12で検出された強調または音楽表現を付加しようとする区間に、振幅変動を伴う変調処理を施す処理部である。
音声出力部14は、音声強調部13により音声波形の一部または全部に変調処理が施された音声波形を出力する処理部であり、例えば、スピーカなどにより構成される。
図12は、図11に示した音声強調装置において、強調発声区間検出部12および音声強調部13の構成を詳細に説明した音声強調装置の構成を示す機能ブロック図である。
図12に示されるように、強調発声区間検出部12は、力み判定部15と、力み付加処理判定部16とを含む。音声強調部13は、周期信号生成部17と、振幅変調部18とを含む。
力み判定部15は、音声入力部11より入力された音声波形を受付け、音声の振幅包絡より、一定範囲内の周波数の振幅変動を検出することにより、音声波形中の「力み」の有無を判定する処理部である。
力み付加処理判定部16は、力み判定部15で「力み」があると判定された音声区間について、振幅変動の変調度の大きさが「力み」を感じるのに十分であるか否かを判定する処理部である。
周期信号生成部17は、音声の振幅変動を伴う変調処理に用いる周期信号を生成する処理部である。
振幅変調部18は、力み判定部15で「力み」ありと判定された音声区間のうち、力み付加処理判定部16で変調度の大きさが不十分であると判定された区間について、当該区間に含まれる音声波形に周期信号生成部17で生成した周期信号を乗じ、当該の音声波形に振幅変動を伴う周期的な変調処理を行う処理部である。
図13は、力み判定部15および力み付加処理判定部16の詳細な構成を示す機能ブロック図である。
図13に示すように、力み判定部15は、周期性分析部19と、第2高調波抽出部20と、振幅包絡分析部21と、変動周波数分析部22と、変動周波数判定部23とを含み、力み付加処理判定部16は、振幅変調度計算部24と、変調度判定部25とを含む。
周期性分析部19は、音声入力部11から入力された音声波形の周期性を分析し周期性のある区間を有声区間として出力すると同時に、音声波形の基本周波数を出力する処理部である。
第2高調波抽出部20は、周期性分析部19より出力された基本周波数の情報に基づき、音声波形の第2高調波信号を抽出する処理部である。
振幅包絡分析部21は、第2高調波抽出部20で抽出された第2高調波信号の振幅包絡を求める処理部である。
変動周波数分析部22は、振幅包絡分析部21において求められた振幅包絡(包絡線)の変動周波数を求める処理部である。
変動周波数判定部23は、変動周波数分析部22より出力された包絡線の変動周波数があらかじめ定められた範囲内にあるか否かによって音声が「力み」音声であるか否かを判定する処理部である。
振幅変調度計算部24は、変動周波数判定部23で「力み」音声と判定された区間について、包絡線の振幅変調度を求める処理部である。
変調度判定部25は、振幅変調度計算部24で求められた「力み」区間の振幅包絡線の振幅変調の度合いが、あらかじめ定められた値以下である場合に、当該区間を力み処理対象区間とする処理部である。
次に、先に述べたような構成の音声強調装置の動作を図14〜図16に従って説明する。図14は、音声強調装置の動作を示すフローチャートである。
まず、音声入力部11は音声波形を取得する(ステップS11)。音声入力部11により取得された音声波形は、強調発声区間検出部12の力み判定部15へ入力され、力み判定部15は、音声中の振幅変動区間の検出を行う(ステップS12)。
図15は、振幅変動区間検出処理(ステップS12)の詳細を示すフローチャートである。
より詳細には、周期性分析部19は、音声入力部11に入力された音声波形を受け、当該音声波形の周期性の有無を分析すると同時に、周期性のある部分についてはその周波数を求める(ステップS1001)。周期性および周波数の分析方法として、例えば入力音声の自己相関係数を求め、50Hzから500Hzに相当する周期で相関係数が一定値以上になる部分を周期性のある部分すなわち有声区間と見なし、相関係数が最大となる周期に対応する周波数を基本周波数とする方法がある。
さらに周期性分析部19は、ステップS1001において音声中の有声区間と見なされた区間を抽出する(ステップS1002)。
第2高調波抽出部20は、ステップS1001で求められた有声区間の基本周波数の2倍の周波数を中心としたバンドパスフィルタを設定し、有声区間の音声波形をフィルタリングして第2高調波成分を抽出する(ステップS1003)。
振幅包絡分析部21は、ステップS1003で抽出された第2高調波成分の振幅包絡を抽出する(ステップS1004)。振幅包絡は全波整流を行ってそのピーク値をスムーシングして求める方法、またはヒルベルト変換を行ってその絶対値を求める方法等を用いて抽出する。
変動周波数分析部22は、ステップS1004で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。分析フレームは例えば5msとする。なお、分析フレームは10msまたはそれ以上としても良い。変動周波数分析部22は、さらに当該有声区間で求められた瞬時周波数の中央値を求め、これを変動周波数とする(ステップS1005)。
変動周波数判定部23は、ステップS1005で求められた変動周波数があらかじめ定められた基準範囲内にあるか否かを判断する(ステップS1006)。基準範囲は図2のヒストグラムに基づき、10Hz以上170Hz未満とすることができるが、より好適には40Hz以上120Hz未満である。変動周波数が基準範囲外であると判断された場合(ステップS1006のNO)、変動周波数判定部23は、当該有声区間を力み音声でない、すなわち通常音声と判断する(ステップS1007)。変動周波数が基準範囲内であると判断された場合(ステップS1006のYES)、変動周波数判定部23は、当該有声区間を力み音声と判定し(ステップS1008)、力み音声であると判定した区間と第2高調波の包絡線を力み付加処理判定部16に出力する。
次に、力み付加処理判定部16は、力み音声区間の振幅変動の変調度を分析する(ステップS13)。
図16は、変調度分析処理(ステップS13)の詳細を示すフローチャートである。
力み付加処理判定部16に入力された力み音声区間と第2高調波の包絡線とは振幅変調度計算部24に入力される。振幅変調度計算部24は、入力された力み音声区間の第2高調波の振幅包絡線を3次式で近似し、振幅変調前の音声の包絡線を推定する(ステップS1009)。
さらに、振幅変調度計算部24は、振幅包絡のピークごとに振幅包絡の値とステップS1009で求めた3次式による近似値との差分を求める(ステップS1010)。
振幅変調度計算部24は、当該分析区間中の全ピーク値の差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める(ステップS1011)。変調度は、振幅包絡の凸部分のピーク値の平均または中央値と、凹部分のピーク値の平均または中央値との比など、他の定義をすることも可能であるが、その際には変調度の基準値はその定義に基づいて設定される必要がある。
変調度判定部25は、ステップS1011で求められた変調度があらかじめ定められた基準値、例えば0.04よりも小さいか否かを判断する(ステップS14)。図4のヒストグラムに示すとおり、力み音声の頻度は、変調度が0.02から0.04の間で急激に増加していることから、ここでは基準値を0.04とする。変調度が基準値以上と判断された場合(ステップS14のNO)、変調度判定部25は、当該力み音声区間の振幅変調度が十分であると判断し、当該区間を力み処理対象区間とせず振幅変調部18へ区間情報を出力する。振幅変調部18は入力音声に処理をせず音声出力部14に音声波形を出力し、音声出力部14は音声波形を出力する(ステップS18)。
変調度が基準値よりも小さいと判断された場合(ステップS14のYES)、周期信号生成部17は、80Hzの正弦波を生成し(ステップS15)、その正弦波信号に直流成分を加えた信号を生成する(ステップS16)。振幅変調部18は、入力音声波形のうち力み処理対象区間として特定された区間について、周期信号生成部17が生成した80Hzで振動する周期信号を入力音声信号に乗ずることで振幅変調を行い(ステップS17)、振幅の周期的変動を含む「力み」音声への変換を行う。音声出力部14は、「力み」音声への変換が行われた音声波形を出力する(ステップS18)。
以上説明した処理(ステップS11〜S18)が、例えば所定の時間間隔で繰り返し実行される。
かかる構成によれば、入力音声の振幅変動区間を検出し、その変調度が十分大きい場合は処理を施さず、変調度が不足する場合には音声波形に振幅変動を伴う変調を行って、音声の表現としては不十分な振幅変動を補う。このことにより、話者が強調、または「力み」もしくは「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を、聞き手に十分伝わるように強調し、かつ自然な強調または表現ができている部分については自然な音声を活かして、音声の表現力を高めることができる。
入力音声の振幅変動区変調度が不足する場合にのみ振幅変動を補う。このことにより、入力音声にもともと備わっていた、変調度が十分大きい振幅変動を処理によって打ち消したり、変動周波数を変更してしまうことにより入力音声本来の強調表現を弱めたり、ひずませたりすることは無い。その上で、入力音声の表現力をさらに高めることができる。
また、この構成により、音声波形を入れ替える等の処理のために任意の入力音声に対応しうる大量の特徴的な音声波形を保持する必要がなくなる。その上で、表情豊かな音声を生成することができる。また、入力音声に振幅変動を伴う変調処理を付加するだけで音声表現ができる。このため、入力音声の特徴を維持したまま、単純な処理のみで強調または緊張を伝える表現の音声波形、または音楽的表現を付加することができる。
「力み」または「唸り」は、人間が怒鳴ったとき、強調のために力を入れて話すとき、興奮または緊張して話すとき等に現れる、だみ声、荒れた声、ざらざらした声(harsh voice)などに見られる通常の発声とは異なる特徴を持った「力み」音声表現である。「力み」音声表現には、さらに、演歌等の歌唱時に現れる「こぶし」や「唸り」と呼ばれる表現が含まれる。また、「力み」音声表現には、ブルースやロック等の歌唱時に現れる「シャウト」のような表現も含まれる。「力み」または「唸り」は、話者の発声器官の緊張または力の入り具合をリアルに感じさせ、表情豊かな音声として聴取者に対し強い印象を与える。しかし、俳優、声優またはナレータのように発話訓練を行った人や、歌手のように歌唱訓練を行った人以外の多くの人は、これらの表現方法を使いこなすことは困難である。また、無理にこれらの発声を行うと喉を痛める危険もある。本発明の音声強調装置を拡声器またはカラオケ装置に用いれば、特別な訓練を積んでいないユーザであっても表現を付けたいところで身体または喉に力を込めて発話または歌うことで、俳優、声優、ナレータまたは歌手のような豊かな音声表現を実現できる。このため、本発明をカラオケ装置に用いれば、歌手のように歌うことができ歌う楽しみを増大させることができる。また、本発明を拡声器に用いれば、演説や講演時に強調したいところを「力み」音声で話すことができ、内容を印象付けることが可能となる。
なお、本実施の形態では、ステップS15において周期信号生成部17は80Hzの正弦波を出力するものとしたが、これに限定されるものではない。例えば、周波数は振幅包絡の変動周波数の分布に従い40Hz−120Hzの間のいずれの周波数でもよく、周期信号生成部17は正弦波以外の周期性信号を出力しても良い。
(実施の形態1の変形例)
図17は、実施の形態1の音声強調装置の変形例の機能ブロック図であり、図18は、本変形例に係る音声強調装置の動作の一部を示すフローチャートの一部である。図12および図14と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。
図17に示されるように、本変形例の音声強調装置の構成は実施の形態1の図11に示す音声強調装置と同じ構成を有するが、音声強調部13の内部構成が異なる。つまり、実施の形態1において周期信号生成部17と振幅変調部18とから構成されていた音声強調部13を、周期信号生成部17と、オールパスフィルタ26と、スイッチ27と、加算器28とから構成されるものとする。
周期信号生成部17は、実施の形態1の周期信号生成部17と同様に周期変動信号の生成処理部である。
オールパスフィルタ26は、振幅応答は一定であるが位相応答が周波数によって異なるフィルタである。オールパスフィルタは電気通信の分野では伝送路の遅延特性を補償するために用いられるものであり、電子楽器の分野ではフェーザーまたはフェーズシフターと呼ばれる(非特許文献:カーティス・ロード著、青柳龍也他訳・監修「コンピュータ音楽―歴史・テクノロジー・アート―」東京電機大学出版局、p353)エフェクタ(音色に変化や効果を付加する装置)に用いられるものである。本変形例のオールパスフィルタ26は、位相のシフト量が可変であるという特性を有する。
スイッチ27は、強調発声区間検出部からの入力に従ってオールパスフィルタ26の出力を加算器28へ入力するか否かを切り替える。
加算器28は、オールパスフィルタ26の出力信号と入力音声信号とを加算する処理部である。
上記のような構成の音声強調装置の動作を図18のフローチャートに従って説明する。
まず、音声入力部11は、音声波形を取得し(ステップS11)、音声波形を強調発声区間検出部12へ出力する。
強調発声区間検出部12は、実施の形態1と同様に入力音声の振幅変動区間を検出することにより力み音声区間を特定する(ステップS12)。
力み付加処理判定部16は、力み音声区間の変調度を求め(ステップS13)、振幅変動の変調度があらかじめ定められた基準値よりも小さいか否かを判断する(ステップS14)。振幅変動の変調度が基準値未満である場合には(ステップS14のYES)、力み付加処理判定部16は、力み処理対象区間を切り替え信号としてスイッチ27へ出力する。
スイッチ27は、入力される音声信号が強調発声区間検出部12より出力された力み処理対象区間に含まれる場合には、オールパスフィルタ26と加算器28とを接続する(ステップS27)。
周期信号生成部17は、80Hzの正弦波を生成し(ステップS15)、オールパスフィルタ26へ出力する。オールパスフィルタ26は、周期信号生成部17より出力された80Hzの正弦波に従って位相シフト量を制御する(ステップS26)。
加算器28は、入力音声信号にオールパスフィルタ26の出力を加算する(ステップS28)。音声出力部14は、加算後の音声波形を出力する(ステップS18)。
オールパスフィルタ26より出力される音声信号は、位相シフトされている。このため、位相が逆転している高調波成分は、変形されていない入力音声信号と打ち消しあう。オールパスフィルタ26は、周期信号生成部17より出力された80Hzの正弦波信号に従って、位相のシフト量を周期的に変動させている。このため、オールパスフィルタ26の出力と入力音声信号とを加算することで、信号が打ち消しあう量を80Hzで周期的に変動させることになる。これにより、加算結果の信号は80Hzで周期的に振幅が変動することになる。
一方、変調度が基準値以上の場合(ステップS14のNO)、スイッチ27は、オールパスフィルタ26と加算器28との接続を遮断する。このため、入力音声信号は加工されずに音声出力部14に音声波形が出力される。音声出力部14は、当該音声波形を出力する(ステップS18)。
以上説明した処理(ステップS11〜S18)が、例えば所定の時間間隔で繰り返し実行される。
かかる構成によれば、実施の形態1と同様、入力音声の振幅変動区間が検出される。検出された振幅変動区間における振幅変動の変調度が十分大きい場合は、入力音声の音声波形に処理は施されない。変調度が不足する場合には、音声波形に振幅変動を伴う変調が施され、音声の表現としては不十分な振幅変動が補われる。これにより、話者が、強調しようとした部分、「力み」もしくは「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を聞き手に十分伝わるように強調し、音声の表現力を高めることができる。
さらに、オールパスフィルタにより位相シフト量を周期的に変動させた信号を原波形に加算することにより振幅変動が生成される。このため、より自然な振幅変化を生成できる。すなわち、オールパスフィルタによる位相変化は周波数に対して一様でない。このため、音声に含まれる様々な周波数成分には強められるものと弱められるものとが混在する。実施の形態1では全ての周波数成分が同一の振幅変化をするのに対し、本変形例では周波数成分ごとに異なる振幅の変動が起こる。このため、より複雑な振幅変化を生み出すことができ、聴感上の自然さを損ねないという利点がある。
なお、本変形例ではステップS15において周期信号生成部17は80Hzの正弦波を出力するものとした。しかし、実施の形態1と同様、周波数は振幅包絡の変動周波数の分布に従い40Hz−120Hzの間のいずれの周波数でもよく、周期信号生成部17は、正弦波以外の周期性信号を出力しても良い。
(実施の形態2)
実施の形態2は、入力音声中の「力み」または「唸り」の音楽表現が不十分な部分の振幅変動を拡張する点が実施の形態1と異なる。
図19は、実施の形態2の音声強調装置の機能ブロック図である。図20は、本実施の形態の振幅ダイナミックレンジ拡張部31の入出力特性を模式的に示したグラフである。図21は、本実施の形態の音声強調装置の動作を示すフローチャートである。図12および図14と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。
図19に示されるように、本発明の実施の形態2に係る音声強調装置は、音声入力部11と、強調発声区間検出部12と、振幅ダイナミックレンジ拡張部31と、音声出力部14とを備えている。本実施の形態に係る音声強調装置は、図12に示した実施の形態1に係る音声強調装置と同様の構成を有する。ただし、音声強調部13が、振幅ダイナミックレンジ拡張部31に置き換わった点が、実施の形態1に係る音声強調装置とは異なる。このため、音声入力部11と、強調発声区間検出部12と、音声出力部14とについては説明を繰り返さない。
振幅ダイナミックレンジ拡張部31は、音声入力部11が取得した音声波形を受付け、強調発声区間検出部12より出力される力み処理対象区間情報と振幅変調度情報に従って入力音声波形の振幅ダイナミックレンジを拡張するよう入力音声波形の振幅を圧縮および増幅する処理部である。
図20に例示するように、振幅ダイナミックレンジ拡張部31は、強調発声区間検出部12より出力された振幅変調度情報に基づいて設定された境界入力レベルより振幅が小さい入力に対しては、振幅圧縮処理を行い、境界入力レベルより振幅が大きい入力に対しては増幅処理を行うことにより振幅の変動を強調する。
次に、上記のような構成の音声強調装置の動作を図21のフローチャートに従って説明する。
まず、音声入力部11は音声波形を取得し(ステップS11)、音声波形を強調発声区間検出部12へ出力する。
強調発声区間検出部12の力み判定部15は、実施の形態1と同様に入力音声の振幅変動区間を検出することにより力み音声区間を特定する(ステップS12)。
次いで、力み付加処理判定部16は、力み音声区間の変調度を求める(ステップS13)。力み付加処理判定部16は、振幅変動の変調度があらかじめ定められた基準値よりも小さいか否かを判断する(ステップS14)。
変調度が基準値よりも小さいと判断される場合(ステップS14のYES)、力み付加処理判定部16は、当該力み音声区間の振幅変調度が十分でないと判断する。力み付加処理判定部16は、当該区間を力み処理対象区間と判断する。また、力み付加処理判定部16は、振幅ダイナミックレンジ拡張部31へ、区間情報と、ステップS13でフィッティングした多項式の値の中央値とを出力する。振幅ダイナミックレンジ拡張部31は、入力音声波形のうち力み処理対象区間として特定された区間について、力み付加処理判定部16で求められた多項式の中央値より、境界入力レベルを決定し、図20のような入出力特性を設定する。振幅ダイナミックレンジ拡張部31は、この入出力特性を適用して振幅の圧縮と伸長を行うことで入力音声の振幅ダイナミックレンジの拡張を行い(ステップS31)、振幅の周期的変動を含む「力み」音声の変調度を十分な大きさに拡張する。音声出力部14は、振幅が拡張された後の音声波形を出力する(ステップS18)。
変調度が基準値以上であると判断される場合(ステップS14のNO)、振幅ダイナミックレンジ拡張部31は、振幅の圧縮および伸長を行わない入出力特性を設定して、入力音声の振幅に対して変形処理をせず、音声出力部14に音声波形を出力する。音声出力部14は、音声波形を出力する(ステップS18)。
以上説明した処理(ステップS11〜S18)が、例えば所定の時間間隔で繰り返し実行される。
ステップS31において、振幅ダイナミックレンジ拡張部31は、経験的に第2高調波の振幅が音声波形の振幅の1/10程度であることを利用する。つまり、振幅ダイナミックレンジ拡張部31は、力み付加処理判定部16より出力された第2高調波の振幅包絡のフィッティング関数の中央値すなわち、図3Aのフィッティング結果の値の中央値を10倍して図20に示した境界入力レベルとする。これにより、概ね、図3Bの曲線に示される振幅変動が正の場合には振幅を増幅し、振幅変動が負の場合には振幅を圧縮するように境界入力レベルが設定される。
図22は、振幅ダイナミックレンジ拡張部31による境界レベルの設定についてより詳細に説明するための図である。同図では破線で振幅ダイナミックレンジ拡張部31に入力される音声波形102が示されている。また、音声波形102の第2高調波の振幅包絡104が破線で示されている。振幅包絡104の中央値を10倍した値を境界入力レベル88とすると、境界入力レベル88は一点鎖線で示される。ここで、振幅包絡104の値と境界入力レベル88とを比較した場合、振幅包絡104の値が境界入力レベル88以下となる時刻においては、振幅ダイナミックレンジ拡張部31は、音声波形102の振幅を圧縮する処理を行なう。また、振幅包絡104の値が境界入力レベル88を越える時刻においては、振幅ダイナミックレンジ拡張部31は、音声波形102の振幅を増幅する処理を行なう。振幅ダイナミックレンジ拡張部31により音声波形102の振幅の圧縮および増幅が行なわれた結果、音声波形86が生成される。音声波形86と音声波形102とを比較した場合、振幅包絡104の値が小さい部分では音声波形86の振幅は音声波形102の振幅に比べさらに小さくなっている。逆に、振幅包絡104の値が大きい部分では音声波形86の振幅は音声波形102の振幅に比べさらに大きくなっている。このため、音声波形86では振幅が大きい部分と振幅が小さい部分との振幅の差(ダイナミックレンジ)が、音声波形102のそれに比べて大きくなっている。このことは、音声波形86の振幅包絡90と音声波形102の振幅包絡104とを比較することによってもわかる。また、振幅ダイナミックレンジ拡張部31は、単に音声波形102の振幅を増幅しているのではなく、音声波形102の振幅が小さい部分については音声波形102の振幅を圧縮している。このため、振幅ダイナミックレンジ拡張部31は、単に音声波形102の振幅を増幅する場合に比べ、振幅の最大値と最小値との差(ダイナミックレンジ)がより大きい音声波形86を生成することができる。
図23は、振幅ダイナミックレンジ拡張部31により実際の音声波形の振幅のダイナミックレンジを拡張した結果について説明する。図23(a)は、/ba/を発声した際の音声波形92とその包絡線94とを示す図である。図23(b)は、図23(a)に示した音声波形92の振幅のダイナミックレンジを振幅ダイナミックレンジ拡張部31により拡張した後の音声波形96とその包絡線98とを示す図である。包絡線94と包絡線98とを比較してもわかるように、音声波形96は音声波形92に比べて、振幅のダイナミックレンジが拡張されていることがわかる。
かかる構成によれば、入力音声の振幅変動区間を検出し、その変調度が十分大きい場合には処理を施さず、変調度が不足する場合には音声波形の振幅変動を拡張する。このことで、音声の表現としては不十分な振幅変動を十分な大きさにする。これにより、話者が強調や「力み」または「唸り」の音楽表現をしようとした部分、または力を込めて発話した部分の「力み」表現を聞き手に十分伝わるように拡大、強調することができる。さらに、力み処理として、発声者のオリジナルの音声波形の振幅変動を拡張する。このため、発声者個人の特性を保持したまま音声の表現力を高めることができる。よって、より自然な音声を生成することができる。すなわち単純な処理により、入力音声の特徴を活かした強調や緊張を伝える表現の音声波形や、音楽表現を付加することができる。
なお、本実施の形態ではステップS14で変調度が基準値よりも小さい場合にはステップS31において振幅ダイナミックレンジ拡張部31は入出力特性を変更して振幅の圧縮と伸長を行って振幅ダイナミックレンジの拡張を行うものとした。また、ステップS14で変調度が基準値以上の場合には振幅ダイナミックレンジ拡張部31は入出力特性を変更して振幅の圧縮および伸長の処理を行わないものとした。しかし、音声入力部11から音声出力部14へ振幅ダイナミックレンジ拡張部31を経ずにバイパスする経路を用意してもよい。その上で、入力音声波形を振幅ダイナミックレンジ拡張部31に入力するか、バイパスして音声出力部14へ入力するかを切り替えるスイッチを用意しても良い。ステップS14で変調度が基準値よりも小さい場合には、スイッチを振幅ダイナミックレンジ拡張部31に接続する側に切り替えて入力音声波形に振幅ダイナミックレンジ拡張処理を行なう。また、ステップS14で変調度が基準値以上の場合にはスイッチを振幅ダイナミックレンジ拡張部31をバイパスして音声出力部14に接続する側に切り替え、入力音声に処理を施さずに出力する。この場合、振幅ダイナミックレンジ拡張部31の入出力特性は図20に示した特性に固定しても良い。
なお、本実施の形態ではステップS31において振幅ダイナミックレンジ拡張部31は、第2高調波の振幅包絡に対するフィッティング関数の値の中央値を基に、境界入力レベルを求めたが、これに限られない。例えば、力み判定部15が音源波形または基本波を振幅変動周波数の分析に用いる場合には、振幅ダイナミックレンジ拡張部31は、音源波形や基本波の振幅包絡曲線に対するフィッティング関数の値を用いて、境界入力レベルを求めても良い。また、振幅ダイナミックレンジ拡張部31は、振幅包絡を音声波形の全波整流によって求める場合には、全波整流の結果に対するフィッティング関数の値、または全波整流の結果の平均値等、音声波形の振幅変動包絡曲線を上下2つに分割することができる値であれば何を用いて境界入力レベルを求めても良い。
(実施の形態3)
実施の形態3では、圧センサを用いて音声の「力み」部分または「唸り」部分を指示する。
図24は、実施の形態3の音声強調装置の機能ブロック図である。図25は、本実施の形態の動作を示すフローチャートである。図12および図14と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。
図24に示されるように、本発明の実施の形態3に係る音声強調装置は、ハンドマイク41と、強調発声区間検出部44と、音声強調部13と、音声出力部14とを備えている。
音声強調部13と音声出力部14とは、実施の形態1と同様であるので説明を繰り返さない。
ハンドマイク41は、ユーザがハンドマイク41を把持する圧力を感知する圧センサ43と、ユーザの音声入力を受け付けるマイクロフォン42とを含む。
強調発声区間検出部44は、標準値計算部45と、標準値記憶部46と、力み付加処理判定部47とを含む。
標準値計算部45は、圧センサ43の出力を受け付けて、ユーザの把持圧の標準範囲を求め、その上限値を出力する処理部である。
標準値記憶部46は、標準値計算部45で計算されたユーザの把持圧の標準把持圧上限値を記憶する記憶装置であり、例えば、メモリやハードディスクなどにより構成される。
力み付加処理判定部47は、圧センサ43の出力を受付け、圧センサ43から出力された値と、標準値記憶部46に記憶された標準把持圧の上限値とを比較し、判定対象となっている区間に対応する入力音声を、力み処理の対象とするか否かを判定する処理部である。
次に、上記の構成の音声強調装置の動作を図25のフローチャートに従って説明する。
まず、ユーザがハンドマイクを握ると、圧センサ43が把持圧を測定する(ステップS41)。
発話前および発話開始直後のあらかじめ定められた期間、楽曲開始前および歌唱開始前の前奏区間、および間奏区間を、標準値設定時間範囲と定め、標準値設定時間範囲内であれば(ステップS43でYES)、圧センサ43で測定された把持圧情報は標準値計算部45に入力され、蓄積される(ステップS44)。
標準把持圧の計算に必要なデータの蓄積が完了している場合には(ステップS45のYES)、標準値計算部45が標準把持圧の上限値を計算する(ステップS46)。標準把持圧の上限値は、例えば、標準値設定時間範囲内の把持圧の平均値に標準偏差を加算した値である。また例えば、標準値設定時間範囲内の把持圧の最大値の90%に当たる値である。標準値計算部45は、ステップS46で計算された標準把持圧の上限値を標準値記憶部46に記憶する(ステップS47)。ステップS45において標準把持圧の計算に必要なデータの蓄積が完了していない場合には(ステップS45のNO)、ステップS41に戻り圧センサ43からの次の入力を受付ける。前奏区間および間奏区間の把持圧を利用して標準把持圧を計算する場合には、標準値計算部45は、カラオケシステムの楽曲情報を参照し、前奏区間および間奏区間を特定して標準値設定時間範囲を設定して標準把持圧を計算する。
当該時刻が標準値設定時間範囲内でない場合(ステップS43のNO)、圧センサ43で測定された把持圧情報は、力み付加処理判定部47に入力される。
マイクロフォン42は、ユーザの発声する音声を取得し(ステップS42)、入力音声波形として振幅変調部18へ出力する。
力み付加処理判定部47は、標準値記憶部46に記憶された標準把持圧の上限値と圧センサ43より入力された値とを比較する(ステップS48)。当該把持圧が標準把持圧の上限値より大きい場合には(ステップS48のYES)、力み付加処理判定部47は、当該区間を力み処理対象区間として振幅変調部18へ出力する。
また、周期信号生成部17は80Hzの正弦波を生成し(ステップS15)、その正弦波信号に直流成分を加えた信号を生成する(ステップS16)。振幅変調部18は、入力音声波形のうち同期する把持圧情報がステップS48で標準把持圧の上限値より大きく力み処理対象区間とされた区間について、周期信号生成部17が生成した80Hzで振動する周期信号を入力音声信号に乗ずることで振幅変調を行い(ステップS17)、振幅の周期的変動を含む「力み」音声への変換を行う。音声出力部14は、変換後の音声波形を出力する(ステップS18)。
当該把持圧が標準把持圧の上限値以下の場合には(ステップS48のNO)、振幅変調部18は、当該把持圧情報と同期する入力音声に処理をせず、音声出力部14に音声波形を出力する。音声出力部14は、その音声波形を出力する(ステップS18)。
ユーザごとに把持圧の標準化を行うため、ユーザの入れ替わりに伴って把持圧データの初期化が必要となる。これについては、ユーザ切り替えの入力を受付ける、マイクロフォン42の動きをセンシングして、一定時間以上静止した場合に把持圧データを初期化する、またはカラオケの場合は楽曲の開始時に把持圧データを初期化する等の方法によって実現することができる。
以上説明した処理(ステップS41〜S18)が、例えば所定の時間間隔で繰り返し実行される。
かかる構成によれば、ユーザのハンドマイクを握る把持圧が標準時より高くなったタイミングを検出して音声波形に振幅変動を伴う変調を行って、「力み」による強調または「唸り」による音楽表現を付加する。このことにより、ユーザが力を入れて発話または歌唱をした強調または音楽表現がふさわしい部分に「力み」または「唸り」表現をつけることができる。これにより、ユーザが力を込めて発話または歌唱した自然なタイミングで強調または音楽表現を付加し音声の表現力を高めることができる。
なお、本実施の形態ではステップS15において周期信号生成部17は80Hzの正弦波を出力するものとしたが、これに限定されるものではない。例えば、周波数は振幅包絡の変動周波数の分布に従い40Hz−120Hzの間のいずれの周波数でもよく、周期信号生成部17は、正弦波以外の周期性信号を出力しても良い。また、実施の形態1の変形例のようにオールパスフィルタにより振幅変動を付加しても良い。
なお、本実施の形態では圧センサ43をハンドマイク41に備えるものとしたが、これに限定されるものではない。例えば、ハンドマイク41とは別に、踏み台、靴または足裏等に圧センサを備え、足の踏み込む力を感知するものとしてもよい。また、上腕に装着するベルトに圧センサを備え、腋を締める力を感知するものとしても良い。
なお、本実施の形態ではハンドマイク41から把持圧と同期した音声を直接入力するものとしたが、圧センサからの出力データと音声波形とが同期して記録されていれば、記録された把持圧と音声波形とを入力として受付けるものとしても良い。
(実施の形態4)
実施の形態4では、喉頭の動きを検知するセンサを用いて音声の「力み」部分または「唸り」部分を検知する。
図26は、実施の形態4の音声強調装置の機能ブロック図である。図27は、本実施の形態の動作を示すフローチャートである。図24および図25と同じ構成要素およびステップについては同じ符号を用い、その詳細な説明は繰り返さない。
図26に示されるように、本発明の実施の形態4に係る音声強調装置は、EGG(Electroglottograph)センサ51と、マイクロフォン42と、強調発声区間検出部52と、音声強調部13と、音声出力部14とを備えている。音声強調部13と音声出力部14とは実施の形態1と同様であるので説明を繰り返さない。
EGGセンサ51は、首の皮膚上に接触させて喉頭の動きを感知するセンサである。マイクロフォン42は実施の形態3と同様にユーザの音声を取得するものである。
強調発声区間検出部52は、標準値計算部55と、標準値記憶部56と、力み付加処理判定部57とを含む。
標準値計算部55は、EGGセンサ51の出力を受け付けて、EGG波形より有声音発生中の声門閉鎖区間比率を求め、標準発声時の当該比率の下限値を出力する処理部である。
標準値記憶部56は、標準値計算部55で計算されたユーザの標準声門閉鎖区間比率の下限値を記憶する記憶装置であり、例えば、メモリやハードディスクなどにより構成される。
力み付加処理判定部57は、EGGセンサ51の出力を受付け、EGGセンサ51から出力された値と標準値記憶部56に記憶された標準声門閉鎖区間比率の下限値とを比較し、当該区間に対応する入力音声を力み処理の対象とするか否かを判定する処理部である。
次に、上記の構成の音声強調装置の動作を図27のフローチャートに従って説明する。
まず、ユーザが発声するとEGGセンサ51により喉頭の動きを示すEGG波形が取得される(ステップS51)。
標準値計算部55は、EGGセンサ51より出力されたEGG波形を受付け、音声波形の基本周期にあたる1周期分のEGG波形を取り出す(ステップS52)。EGG波形は図28および図29にそれぞれ示す特許文献:特開2007−68847号公報の図5および図6で示されるように、1周期に、1つの山と変化無く推移する部分とがある。1周期とは、この山の立ち上がり開始から次の山の立ち上がり開始までを指す。この山の部分が声門の開放期にあたり、変化のない部分が声門の閉鎖期にあたる。
標準値計算部55は、1周期内の変化のない部分の時間幅が1周期の時間幅に占める割合を、声門閉鎖区間比率として計算する(ステップS53)。発話または歌唱開始直後のあらかじめ定められた期間、例えば5秒間を標準値設定時間範囲とし、当該のEGG波形データの取得された時刻が標準値設定時間範囲内であれば(ステップS54でYES)、ステップS53で計算された声門閉鎖区間比率は標準値計算部55内に蓄積される(ステップS55)。なお、5秒間は8秒間でもよくまたそれ以上でも良い。
さらに標準声門閉鎖区間比率の計算に必要なデータの蓄積が完了している場合には(ステップS56のYES)、標準値計算部55が標準声門閉鎖区間比率の上限値を計算する(ステップS57)。標準声門閉鎖区間比率の上限値は、例えば標準値設定時間範囲内の声門閉鎖区間比率の平均値に標準偏差を加算した値である。標準値計算部55は、ステップS57で計算された標準声門閉鎖区間比率の上限値を標準値記憶部56に記憶する(ステップS58)。
標準声門閉鎖区間比率の計算に必要なデータの蓄積が完了していない場合には(ステップS56のNO)、ステップS51に戻り、標準値計算部55は、EGGセンサ51からの次の入力を受付ける。
当該時刻が標準値設定時間範囲内でない場合(ステップS54のNO)、マイクロフォン42は、ユーザが発声した音声波形を取得し、入力音声波形として振幅変調部18に出力する(ステップS42)。また、ステップS53で計算された声門閉鎖区間比率は、力み付加処理判定部57に入力される。力み付加処理判定部57は、標準値記憶部56に記憶された標準声門閉鎖区間比率の上限値と標準値計算部55で計算された声門閉鎖区間比率とを比較する(ステップS59)。
当該声門閉鎖区間比率が標準声門閉鎖区間比率の上限値より大きい場合には(ステップS59のYES)、力み付加処理判定部57は、当該区間を力み処理対象区間として振幅変調部18へ出力する。喉頭に力が入っている状態では声門の閉鎖区間が長くなることが知られている(例えば、非特許文献:石井カルロス寿憲、石黒浩および萩田紀博、「EGGを用いた「りきみ」発声の音響分析」、2007年春期日本音響学会講演論文集、pp.221−222、2007)。声門閉鎖区間比率が標準声門閉鎖区間比率の上限値より大きいということは、声門に標準時以上の力が入っていることを示している。
周期信号生成部17は、80Hzの正弦波信号を生成し(ステップS15)、その正弦波信号に直流成分を加えた信号を生成する(ステップS16)。振幅変調部18は、入力音声波形のうち同期するEGG波形の声門閉鎖区間比率がステップS59で標準声門閉鎖区間比率の上限値より大きく力み処理対象区間とされた区間について、周期信号生成部17が生成した80Hzで振動する周期信号を入力音声信号に乗ずる(ステップS17)。この処理により、振幅変調を行い、振幅の周期的変動を含む「力み」音声への変換を行なう。音声出力部14は、変換後の音声波形を出力する(ステップS18)。
当該声門閉鎖区間比率が標準声門閉鎖区間比率の上限値以下の場合には(ステップS59のNO)、振幅変調部18は、当該把持圧情報と同期する入力音声に対して処理を施さず、音声出力部14に音声波形を出力し、音声出力部14はその音声波形を出力する(ステップS18)。
以上説明した処理(ステップS51〜S18)が、例えば所定の時間間隔で繰り返し実行される。
かかる構成によれば、発話中または歌唱中のユーザの声門閉鎖区間比率が標準時より高くなったタイミングを検出して、音声波形に振幅変動を伴う変調を行う。これにより、「力み」による強調または「唸り」による音楽表現を付加する。よって、ユーザが強調または音楽的表現をしようとして喉頭に力が入った部分に「力み」または「唸り」表現をつけることができる。これにより、ユーザが力を込めて発話または歌唱したタイミングで強調または音楽表現を付加することができる。また、たとえユーザの発声が力を込めた状態を聴取するには音声波形上での変化が不十分であったとしても、音声の表現力を高めることができる。
なお、本実施の形態では、声門閉鎖時間比率の標準値設定時間範囲を発話または歌唱開始後5秒間とした。ただし、カラオケシステムに適用する場合には、実施の形態3と同様に楽曲データを参照して楽曲中のサビ部分以外の歌唱区間を特定して定められた時間長を設定し、サビ以外の歌唱音声から声門閉鎖時間比率の標準値を設定するものとしても良い。これにより、サビに現れる音楽表現を強調しやすくし、音楽の盛り上がりを強調することができる。
なお、本実施の形態では、声門閉鎖区間比率をEGGセンサ51で取得したEGG波形から計算したが、特許文献:特開2007−68847号公報のように音声波形から第4ホルマントの帯域を抽出した波形の振幅があらかじめ定められた振幅を下回った区間を声門閉鎖区間とし、あらかじめ定められた振幅を上回った区間を声門開放区間として、隣接する、声門開放区間1つと声門閉鎖区間1つの組を1周期と見なし、声門閉鎖区間比率を計算するものとしても良い。
なお、本実施の形態ではステップS15において周期信号生成部17は80Hzの正弦波を出力するものとしたが、これに限定されるものではない。例えば、周波数は振幅包絡の変動周波数の分布に従い40Hz−120Hzの間のいずれの周波数でもよく、周期信号生成部17は、正弦波以外の周期性信号を出力しても良い。また、実施の形態1の変形例のようにオールパスフィルタにより振幅変動を付加しても良い。
(実施の形態5)
図30は、実施の形態5における音声強調システムの構成を示す図である。音声強調システムの具体例として、携帯電話機71bにおいて用いられる着信報知用音声(着信報知用音楽、着信ボイス)、携帯型パーソナルコンピュータ71aにおいて用いられる音声メール用音声、またはネットワークゲーム機71cにおいて用いられるゲームキャラクタもしくはアバター用音声のサービスシステムなどがある。音声強調システムは、ネットワーク72を介して接続された、携帯型パーソナルコンピュータ71a、携帯電話機71bおよびネットワークゲーム機71cなどの端末と、音声処理サーバ73とを含む。各端末は、入力された音声データを、音声処理サーバ73に対して送信する。音声処理サーバ73は、送信された音声データに対して、力み箇所の強調を行い、音声データを送信した端末に返信する。
図31は、実施の形態5における音声強調システムの構成を示す機能ブロック図である。図32は、実施の形態5の音声強調システムのうち、端末71の動作を示すフローチャートである。図33は、実施の形態5の音声強調システムのうち、音声処理サーバ73の動作を示すフローチャートである。
図31に示されるように、本発明の実施の形態5に係る音声強調システムは、端末のマイクロフォンより入力され、ネットワークを介してサーバへ送信された音声中の力み音声を、サーバ内で強調して端末へ送り返し、端末で処理音声を出力するシステムである。音声強調システムは、端末71、ネットワーク72および音声処理サーバ73を含む。
端末71は図30に示されるように、具体的には、携帯型パーソナルコンピュータ71a、携帯電話機71bまたはネットワークゲーム機71cなどである。また、端末71は、携帯型情報端末などでも良い。
図31に示されるように、端末71は、マイクロフォン76、A/D変換器77、入力音声データ記憶部78、音声データ送信部79、音声データ受信部80、強調音声データ記憶部81、D/A変換器82、電気音響変換器83、音声出力指示入力部84および出力音声抽出部85を含む。
A/D変換器77は、マイクロフォン76より入力された音声のアナログ信号をデジタル信号に変換する処理部である。入力音声データ記憶部78は、A/D変換器77によりデジタル信号に変換された入力音声データを格納する記憶部である。音声データ送信部79は、デジタル信号に変換された入力音声データを端末識別子と合わせてネットワーク72を介して音声処理サーバ73へ送信する処理部である。
音声データ受信部80は、音声処理サーバ73より送信された、力み付加による強調処理が施された音声データを、ネットワーク72を介して受信する処理部である。強調音声データ記憶部81は、音声データ受信部80により受信した、音声処理サーバ73で強調処理が行われた音声データを格納する記憶部である。D/A変換器82は、音声データ受信部80が受信した、デジタル信号で表現された音声信号を、アナログの電気信号に変換する処理部である。電気音響変換器83は、電気信号を音響信号に変換する処理部であり、具体的にはスピーカなどである。
音声出力指示入力部84は、ユーザが音声出力を指示するための入力処理装置であり、具体的にはボタン、スイッチ又は被選択項目をリスト表示可能なタッチパネルなどである。出力音声抽出部85は、音声出力指示入力部84より入力された音声出力指示に従って、強調音声データ記憶部81に格納された強調処理が行われた音声データを抽出して、D/A変換器82へ入力する処理部である。
また、図31に示されるように、音声処理サーバ73は、音声データ受信部74、音声データ送信部75、強調発声区間検出部12および音声強調部13を含む。
音声データ受信部74は、端末71の音声データ送信部79より送信された入力音声データを受信する処理部である。音声データ送信部75は、端末71の音声データ受信部80に対して、力み付加による強調処理が施された音声データを送信する処理部である。
強調発声区間検出部12は、力み判定部15および力み付加処理判定部16を含む。音声強調部13は、振幅変調部18および周期信号生成部17を含む。強調発声区間検出部12および音声強調部13は、図12に示したものと同様であるため、その詳細な説明はここでは繰り返さない。
次に、先に述べたような構成の音声強調システムのうち端末71の動作を図32、図34のフローチャートに従って、音声処理サーバ73の動作を図33のフローチャートに従って、それぞれ説明する。図33のフローチャートにおいて、実施の形態1の図12に示した音声強調装置の動作と同様の動作には、同じ参照符号を付して説明する。同様の動作についてはその詳細な説明はここでは繰り返さない。
まず、端末71による音声信号の取得と送信の動作について図32に従って説明する。
マイクロフォン76は、ユーザの発声した音声の入力によりアナログ電気信号として音声を取得する(ステップS701)。A/D変換器77は、マイクロフォン76より入力されたアナログ音声信号をあらかじめ定められたサンプリング周波数でサンプリングしてデジタル信号に変換する(ステップS702)。サンプリング周波数は例えば22050Hz等である。なお、サンプリング周波数は再生音声の精度および信号処理精度に必要な周波数以上であれば、いくつでも良い。A/D変換器77は、ステップS702でデジタル信号に変換した音声信号を入力音声データ記憶部78に格納する(ステップS703)。音声データ送信部79は、ステップS702でデジタル信号に変換した音声信号を、端末71の端末識別子または処理音声を受信すべき別の端末の端末識別子と合わせて、ネットワーク72を介して音声処理サーバ73に送信する(ステップS704)。
次に、音声処理サーバ73の動作について図33に従って説明する。
音声データ受信部74は、ネットワーク72を介して、端末71がステップS704で送信した端末識別子と音声信号を受信する(ステップS71)。音声データ受信部74により取得された音声信号すなわち音声波形は、強調発声区間検出部12の力み判定部15へ入力され、力み判定部15は、音声中の振幅変動区間の検出を行う(ステップS12)。次に、力み付加処理判定部16は、力み音声区間の振幅変動の変調度を分析する(ステップS13)。変調度判定部25は、ステップS13で求められた変調度があらかじめ定められた基準値よりも小さいか否かを判断する(ステップS14)。変調度が基準値以上と判断された場合(ステップS14のNO)、変調度判定部25は、当該力み音声区間の振幅変調度が十分であると判断し、当該区間を力み処理対象区間とせず、振幅変調部18へ区間情報を出力する。振幅変調部18は、入力音声に処理をせず、音声データ送信部75に音声波形を出力する。音声データ送信部75は、ネットワーク72を介してステップS71で受信した端末識別子を持つ端末へ、振幅変調部18より出力された音声波形を送信する(ステップS72)。
変調度が基準値よりも小さいと判断された場合(ステップS14のYES)、周期信号生成部17は、80Hzの正弦波を生成し(ステップS15)、その正弦波信号に直流成分を加えた信号を生成する(ステップS16)。振幅変調部18は、入力音声波形のうち力み処理対象区間として特定された区間について、周期信号生成部17が生成した80Hzで振動する周期信号を入力音声信号に乗ずることで振幅変調を行う。このことにより、振幅変調部18は、入力音声から、振幅の周期的変動を含む「力み」音声への変換を行う(ステップS17)。振幅変調部18は、音声データ送信部75へ変換後の音声波形を出力する。音声データ送信部75は、ネットワーク72を介して、ステップS71で受信した端末識別子を持つ端末へ、ステップS17で振幅変調部18より出力された音声波形を送信する(ステップS72)。
次いで、端末71の音声信号の受信と音声出力の動作について図34に従って説明する。
音声データ受信部80は、ネットワークを介して音声処理サーバ73より送信された音声波形を受信する(ステップS705)。音声データ受信部80は、取得した音声波形を、強調音声データ記憶部81に格納する(ステップS706)。受信時のアプリケーションソフトウェア等により音声出力指示がある場合(ステップS707でYES)、出力音声抽出部85は、強調音声データ記憶部81に格納されている音声データのうち対象の音声波形を抽出してD/A変換器82へ入力する(ステップS708)。D/A変換器82は、A/D変換器77がステップS702においてサンプリングを行った周期と同じ周期で、デジタル信号をアナログの電気信号に変換する(ステップS709)。ステップS709でD/A変換器82より出力されたアナログ電気信号は、電気音響変換器83を通して音声として出力される(ステップS710)。端末71は、音声出力指示がない場合(ステップS707でNO)、動作を終了する。
受信動作とは別に、音声出力指示入力部84にユーザの音声出力指示が入力された場合(ステップS711)、出力音声抽出部85は、音声出力指示入力部84に入力された音声出力指示に従って、強調音声データ記憶部81に格納された音声データのうち、対象の音声波形を抽出して、D/A変換器82へ入力する(ステップS708)。D/A変換器82は、デジタル信号をアナログの電気信号に変換する(ステップS709)。アナログ電気信号は、電気音響変換器83を通して音声として出力される(ステップS710)。
かかる構成によれば、端末71で入力された、ユーザまたは発話者の音声を、音声処理サーバ73へ送信する。音声処理サーバ73は、入力音声の振幅変動区間を検出し、音声の表現としては変調度が不足する部分に振幅変動を補った音声を、端末へ送信する。端末は、強調処理された音声を利用することができる。これにより、強調または力を込めて発話した「力み」または「唸り」の音楽表現を、聞き手に十分伝わるように強調して音声の表現力を高めることができる。それとともに、入力音声にもともと備わっていた、変調度が十分大きい振幅変動を活かして、より自然でかつ表現力の高い音声を生成することができる。本実施の形態による音声強調システムによれば、着信ボイス用音声、音声メールまたはアバター用音声等として、特別な訓練を受けていない一般の発話者またはユーザの肉声では実現困難な程の表現力の高い音声を利用することができる。この音声を発話者またはユーザ自身が利用するのみでなく、他者の端末へ送信することにより、より豊かな表現で他者へメッセージを伝えることもできる。また、端末で音声分析と信号処理という計算量の大きな処理を行う必要がない。このため、計算能力の低い端末であっても表現力の高い音声を利用することができる。
なお、本実施の形態では、サンプリング周波数は、端末71内のA/D変換器77とD/A変換器82とで同一とし、音声処理サーバ73においては入力音声信号のサンプリング周波数は固定のものとして説明した。しかし、端末ごとにサンプリング周波数が異なる場合には、端末は音声信号と合わせてサンプリング周波数を音声処理サーバ73に送信するものとしてもよい。これにより、音声処理サーバ73は受信した音声信号を、受信したサンプリング周波数に応じて処理するものとする。または、音声処理サーバ73は、リサンプル処理によりサンプリング周波数を信号処理時のサンプリング周波数に変換するものとする。また、未処理音声を送信する端末と強調処理された音声を受信する端末とが異なる場合や、音声処理サーバ73が出力する音声信号のサンプリング周波数が端末のサンプリング周波数と異なる場合等には、音声処理サーバ73は強調処理された音声波形と共にサンプリング周波数を端末に送信し、D/A変換器82は受信したサンプリング周波数に基づいてアナログ電気信号を生成するものとする。
なお、本実施の形態では、端末71から音声処理サーバ73にサンプリングされた波形データをそのまま送信するものとしたが、ネットワーク72を介して通信するデータとして、MP3(MPEG Audio Layer-3)やCELP(Code-Excited Linear Prediction)などの波形圧縮符号化器により圧縮されたデータを用いても勿論構わない。同様に音声処理サーバ73から端末71に送信する音声データとして、圧縮されたデータを用いても良い。
なお、本実施の形態では、入力音声データ記憶部78と強調音声データ記憶部81とは独立のものとして説明したが、1つの記憶部に入力音声データおよび強調音声データをともに記憶するものとしても良い。その際には音声信号に合わせて入力音声データと強調音声データとを識別する情報を格納するものとする。また、入力音声データ記憶部78と強調音声データ記憶部81には、デジタル信号を格納するものとしたが、マイクロフォン76より入力され、A/D変換器77によってデジタル信号に変換される以前のアナログ電気信号としての入力音声信号、およびD/A変換器82によってデジタル信号をアナログ信号に変換した後のアナログ電気信号である強調音声信号を格納するものとしても良い。その際には、音声信号は、テープやレコードといったアナログ媒体に記録されるものとする。
なお、本実施の形態では、端末71においてA/D変換およびD/A変換を行い、デジタル信号をネットワーク72を介して送受信するものとしたが、アナログ信号を送受信し、音声処理サーバ73でA/D変換およびD/A変換を行うものとしても良い。その際には、ネットワークは、交換機を介したアナログ回線によって実現される必要がある。
なお、音声処理サーバ73の音声強調部13は、実施の形態1と同様に周期信号生成部17と振幅変調部18とにより、周期信号を音声波形に乗算して振幅変調を行うものとしたが、これに限られるものではない。例えば、実施の形態1の変形例のようにオールパスフィルタを用いるものとしても良いし、実施の形態2のように原波形の振幅変動のダイナミックレンジを拡張することにより振幅変調を強調するものとしても良い。さらに実施の形態2同様にダイナミックレンジを拡張するために、アナログ回路を用いてもよい。
以上、本発明について上述の実施の形態1〜5に基づいて説明を行ったが、本発明は上述の実施の形態に限定されるものではない。
例えば、実施の形態3、実施の形態4ではそれぞれ圧センサ43より得られた把持圧、EGGセンサ51によって得られたEGG波形から計算した声門閉鎖区間比率を利用して力み処理対象区間を判定した。しかし、力み処理対象区間の判定方法は、これに限定されるものではない。例えば、ハンドマイク内にジャイロスコープ等の加速度または動きの測定が可能なセンサをつける、または頭部にセンサを装着して、話者または歌唱者の動きの早さまたは動きの距離が一定値以上の場合に力み処理対象区間として判定するものとしても良い。
また、実施の形態1、実施の形態2において入力音声の振幅変動の変調度を分析し、変調度が不十分な区間に強調処理を施すものとした。しかし、変調度にかかわらず、入力音声に振幅変動があると判断された区間すべてについて強調処理を施すこともできる。これにより、多項式近似等の遅延が発生する変調度の分析処理が不要となる。また、遅延時間が削減される。このため、カラオケまたは拡声器等のリアルタイムの処理が必要なシステムに適用する場合に有効である。その際、実施の形態2の振幅ダイナミックレンジ拡張部31は、図35のように平均入力振幅計算部61と振幅増幅圧縮部62とから構成される。また、平均入力振幅計算部61は、少なくとも力み音声の振幅包絡の変動1周期分の時間幅で、入力音声の振幅の平均を求める。例えば、振幅包絡変動が40Hz以上であるものとして、1/40秒すなわち25msの時間幅で振幅の平均値を求めるものとする。振幅増幅圧縮部62は、平均入力振幅計算部61から出力された平均値を、図20の境界入力レベルとして設定する。振幅増幅圧縮部62は、平均値を上回る入力、すなわち振幅包絡の変動周期中の振幅の大きい部分は、より振幅が大きくなるように増幅する。また、振幅増幅圧縮部62は、平均値を下回る入力、すなわち振幅包絡の変動周期中の振幅の小さい部分はより振幅を小さくなるように振幅を圧縮する。このことにより、入力音声の振幅変動を強調することができる。振幅の平均値を求める時間幅は25msに限らず、振幅包絡変動の周波数を120Hzに対応する8.3ms程度まで短くしても良い。一部のギターアンプで音を歪ませる際に類似の構成が使われている。かかる構成によれば、遅延の少ない単純な処理で、入力音声の振幅変動を強調することができる。また、入力音声の特徴を活かしたまま「力み」または「唸り」の豊かな表情を、入力音声に付加することができる。
また、実施の形態3、実施の形態4では「力み」または「唸り」の表現を付加するために実施の形態1と同様に入力音声に周期的な振幅変動を付加した。しかし、実施の形態2のように入力音声の振幅ダイナミックレンジを拡張することにより、音声に「力み」または「唸り」の表現をつけるものとしても良い。ただし、入力音声の振幅ダイナミックレンジを拡張する場合には、実施の形態1または実施の形態2のステップS12のように、入力音声に「力み」または「唸り」に相当する変動周波数範囲内の振幅変動があることを判別する必要がある。
また、実施の形態1、実施の形態3、実施の形態4では周期信号生成部17は80Hzの周期信号を生成するものとした。しかし、周期信号生成部17は、変動を「力み」として聴取できる40Hzから120Hzの間でランダムな周期変動をもつ信号を生成しても良い。変調周波数がランダムに変動することで、より実際の音声の振幅変動に近づき、自然な音声を生成することができる。
また、話者または歌唱者が力を込めている状態を検出し、力み付加処理区間を判定するために、実施の形態1、2では音声波形の振幅変動を用い、実施の形態3ではハンドマイクの把持圧を用い、実施の形態4ではEGG波形から観察される声門閉鎖区間比率を用いた。しかし、これらの情報を組み合わせて力み付加処理区間を判定するものとしても良い。
また、上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。RAMまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの記録媒体に記録されている上記デジタル信号であるとしても良い。
また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
また、上記プログラムまたは上記デジタル信号を上記記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
さらに、上記実施の形態及び上記変形例をそれぞれ組み合わせるとしても良い。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかる音声強調装置は、話者または歌唱者が力を入れて話したり、歌ったりした部分を検出し、話者または歌唱者が強い音声表現をしようとしていた部分を特定して、その部分の音声波形を加工して「力み」や「唸り」の表現を生成することができる。このため、本発明は、力み強調機能を有する拡声器やカラオケ等に利用可能である。また、本発明は、ゲーム機、通信機器、携帯電話機等にも利用可能である。つまり、ゲーム機や通信機器のキャラクタ音声、アバターの音声、音声メールの音声、携帯電話機の着信報知用音楽や着信ボイス、またはホームビデオ等によるムービーコンテンツ作成時のナレーション音声等の音声カスタマイズが可能である。
図1は、録音された音声において観察された、通常音声と力み音声の波形と振幅包絡の一例を示す図である。 図2は、録音された音声において観察された力み音声で発声されたモーラの振幅包絡の変動周波数分布を示すヒストグラムと累積度数グラフである。 図3Aは、録音された音声において観察された、力み音声の第2高調波、振幅包絡線、および多項式によるフィッティングの一例を示す図である。 図3Bは、振幅変動量の計算例を説明するための図である。 図4は、録音された音声において観察された力み音声で発生されたモーラの振幅包絡の変調度の分布を示すヒストグラムと累積度数グラフである。 図5は、聴取実験により確認された「力み」音声に聞こえる振幅変動周波数の範囲を示すグラフである。 図6は、振幅変動を付加する際の変調度の定義を説明する変調信号の例を示す図である。 図7は、聴取実験により確認された「力み」音声に聞こえる振幅変調度の範囲を示すグラフである。 図8は、変調周波数が一定の場合とランダムの場合との違和感の大きさを示す表である。 図9は、歌唱音声に振幅変動処理を行なった音声に対する聴取実験の結果を示すグラフである。 図10は、本発明の実施の形態1における音声強調装置の外観図である。 図11は、本発明の実施の形態1における音声強調装置の構成を示す機能ブロック図である。 図12は、本発明の実施の形態1における音声強調装置の構成を示す機能ブロック図である。 図13は、力み判定部および力み付加処理判定部の詳細な構成を示す機能ブロック図である。 図14は、本発明の実施の形態1における音声強調装置の動作を示すフローチャートである。 図15は、本発明の実施の形態1における音声強調装置の動作の一部を示すフローチャートである。 図16は、本発明の実施の形態1における音声強調装置の動作の一部を示すフローチャートである。 図17は、本発明の実施の形態1の変形例における音声強調装置の構成を示す機能ブロック図である。 図18は、本発明の実施の形態1の変形例における音声強調装置の動作を示すフローチャートである。 図19は、本発明の実施の形態2における音声強調装置の構成を示す機能ブロック図である。 図20は、本発明の実施の形態2における音声強調装置の振幅ダイナミックレンジ拡張部31の入出力特性の一例を示す図である。 図21は、本発明の実施の形態2における音声強調装置の動作を示すフローチャートである。 図22は、振幅ダイナミックレンジ拡張部による境界レベルの設定についてより詳細に説明するための図である。 図23は、振幅ダイナミックレンジ拡張部により実際の音声波形の振幅のダイナミックレンジを拡張した結果について説明するための図である。 図24は、本発明の実施の形態3における音声強調装置の構成を示す機能ブロック図である。 図25は、本発明の実施の形態3における音声強調装置の動作を示すフローチャートである。 図26は、本発明の実施の形態4における音声強調装置の構成を示す機能ブロック図である。 図27は、本発明の実施の形態4における音声強調装置の動作を示すフローチャートである。 図28は、特開2007−68847号公報の図5に示された男性話者による音声波形とEGG波形と第4ホルマント波形の例を示す図である。 図29は、特開2007−68847号公報の図6に示された女性話者による音声波形とEGG波形と第4ホルマント波形の例を示す図である。 図30は、本発明の実施の形態5における音声強調システムの構成を示す図である。 図31は、本発明の実施の形態5における音声強調システムの構成を示す機能ブロック図である。 図32は、本発明の実施の形態5における端末71による音声信号の取得と送信の動作を示すフローチャートである。 図33は、本発明の実施の形態5における音声処理サーバ73の動作を示すフローチャートである。 図34は、本発明の実施の形態5における端末71による音声信号の受信と音声出力との動作を示すフローチャートである。 図35は、本発明の実施の形態2における別の構成による音声強調装置の機能ブロック図である。
符号の説明
11 音声入力部
12、44、52 強調発声区間検出部
13 音声強調部
14 音声出力部
15 力み判定部
16、47、57 力み付加処理判定部
17 周期信号生成部
18 振幅変調部
19 周期性分析部
20 第2高調波抽出部
21 振幅包絡分析部
22 変動周波数分析部
23 変動周波数判定部
24 振幅変調度計算部
25 変調度判定部
26 オールパスフィルタ
27 スイッチ
28 加算器
31 振幅ダイナミックレンジ拡張部
41 ハンドマイク
42、76 マイクロフォン
43 圧センサ
45、55 標準値計算部
46、56 標準値記憶部
51 EGGセンサ
61 平均入力振幅計算部
62 振幅増幅圧縮部
71 端末
71a 携帯型パーソナルコンピュータ
71b 携帯電話機
71c ネットワークゲーム機
72 ネットワーク
73 音声処理サーバ
74、80 音声データ受信部
75、79 音声データ送信部
77 A/D変換器
78 入力音声データ記憶部
81 強調音声データ記憶部
82 D/A変換器
83 電気音響変換器
84 音声出力指示入力部
85 出力音声抽出部
86、92、96、102 音声波形
88 境界入力レベル
90、104 振幅包絡
94、98 包絡線

Claims (12)

  1. 入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、
    前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調部と
    を備え、
    前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
    ことを特徴とする音声強調装置。
  2. 前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形が周期的な振幅変動を伴うように、前記音声波形に変調を施す
    ことを特徴とする請求項1に記載の音声強調装置。
  3. 前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に40Hz以上でかつ120Hz以下の周波数の信号を用いて、周期的な振幅変動を伴うように前記音声波形に変調を施す
    ことを特徴とする請求項2に記載の音声強調装置。
  4. 前記音声強調部は、さらに、前記音声波形が周期的な振幅変動を伴うように前記音声波形に変調を施す際に用いられる信号の周波数を40Hz−120Hzの範囲内で変動させる
    ことを特徴とする請求項3に記載の音声強調装置。
  5. 前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形に周期信号を乗ずることにより周期的な振幅変動を伴う変調を音声波形に付与する
    ことを特徴とする請求項2に記載の音声強調装置。
  6. 前記音声強調部は、
    前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の位相をずらすオールパスフィルタと、
    前記オールパスフィルタへ入力される前記強調区間に含まれる前記音声波形と、前記オールパスフィルタにより位相がずらされた後の音声波形とを加算する加算手段とを有する
    ことを特徴とする請求項2に記載の音声強調装置。
  7. 前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅のダイナミックレンジを拡大する
    ことを特徴とする請求項1に記載の音声強調装置。
  8. 前記音声強調部は、前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形において、前記音声波形の振幅包絡の値が所定の値以下の場合には、前記音声波形の振幅を圧縮し、かつ前記音声波形の振幅包絡の値が前記所定の値よりも大きい場合には、前記音声波形の振幅を増幅する
    ことを特徴とする請求項7に記載の音声強調装置。
  9. 前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある時間区間であり、かつ前記入力音声波形の振幅包絡の振幅変動度合いを示す振幅変調度が0.04未満である時間区間を前記強調区間として検出する
    ことを特徴とする請求項1に記載の音声強調装置。
  10. 入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出ステップと、
    前記入力音声波形のうち、前記強調発声区間検出ステップにおいて検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調ステップと
    を含み、
    前記強調発声区間検出ステップにおいて、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
    ことを特徴とする音声強調方法。
  11. 入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出ステップと、
    前記入力音声波形のうち、前記強調発声区間検出ステップにおいて検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させる音声強調ステップと
    をコンピュータに実行させ、
    前記強調発声区間検出ステップにおいて、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
    ことを特徴とするプログラム。
  12. 入力音声波形の一部に所定の変換処理を施すことにより出力音声波形を生成する音声強調装置と、
    前記出力音声波形を再生する端末とを備え、
    前記端末は、
    前記入力音声波形を前記音声強調装置に送信する入力音声波形送信部と、
    前記出力音声波形を前記音声強調装置から受信する出力音声波形受信部と、
    前記出力音声波形受信部が受信した前記出力音声波形を再生する再生部とを備え、
    前記音声強調装置は、
    前記入力音声波形を前記端末から受信する入力音声波形受信部と、
    前記入力音声波形受信部で受信された前記入力音声波形のうち、当該入力音声波形を発した発話者が音声波形を変化させることを意図する時間区間である強調区間を検出する強調発声区間検出部と、
    前記入力音声波形のうち、前記強調発声区間検出部により検出された前記強調区間に含まれる音声波形の振幅包絡の変動を増加させることにより、前記出力音声波形を生成する音声強調部と、
    前記出力音声波形を前記端末に送信する出力音声波形送信部とを備え、
    前記強調発声区間検出部は、前記入力音声波形の前記振幅変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある状態を声帯に力が入った状態として検出し、声帯に力が入った状態が検出された時間区間を前記強調区間として検出する
    ことを特徴とする音声強調システム。
JP2008558565A 2007-10-01 2008-09-29 音声強調装置および音声強調方法 Expired - Fee Related JP4327241B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007257931 2007-10-01
JP2007257931 2007-10-01
PCT/JP2008/002706 WO2009044525A1 (ja) 2007-10-01 2008-09-29 音声強調装置および音声強調方法

Publications (2)

Publication Number Publication Date
JP4327241B2 true JP4327241B2 (ja) 2009-09-09
JPWO2009044525A1 JPWO2009044525A1 (ja) 2011-02-03

Family

ID=40525957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008558565A Expired - Fee Related JP4327241B2 (ja) 2007-10-01 2008-09-29 音声強調装置および音声強調方法

Country Status (4)

Country Link
US (1) US8311831B2 (ja)
JP (1) JP4327241B2 (ja)
CN (1) CN101627427B (ja)
WO (1) WO2009044525A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT507844B1 (de) * 2009-02-04 2010-11-15 Univ Graz Tech Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx
EP2518723A4 (en) * 2009-12-21 2012-11-28 Fujitsu Ltd VOICE CONTROL DEVICE AND VOICE CONTROL METHOD
JP5489900B2 (ja) * 2010-07-27 2014-05-14 ヤマハ株式会社 音響データ通信装置
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
JP2013231944A (ja) * 2012-04-02 2013-11-14 Yamaha Corp 歌唱支援装置
JP6079119B2 (ja) 2012-10-10 2017-02-15 ティアック株式会社 録音装置
JP6056356B2 (ja) * 2012-10-10 2017-01-11 ティアック株式会社 録音装置
WO2014159854A1 (en) * 2013-03-14 2014-10-02 Levy Joel Method and apparatus for simulating a voice
US9852734B1 (en) * 2013-05-16 2017-12-26 Synaptics Incorporated Systems and methods for time-scale modification of audio signals
JP6110731B2 (ja) * 2013-05-31 2017-04-05 株式会社第一興商 ジェスチャーによるコマンド入力識別システム
CN106537500B (zh) * 2014-05-01 2019-09-13 日本电信电话株式会社 周期性综合包络序列生成装置、周期性综合包络序列生成方法、记录介质
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
CN104581347A (zh) * 2015-01-27 2015-04-29 苏州乐聚一堂电子科技有限公司 压感视觉特效系统及压感视觉特效处理方法
JP2015212845A (ja) * 2015-08-24 2015-11-26 株式会社東芝 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10854108B2 (en) * 2017-04-17 2020-12-01 Facebook, Inc. Machine communication system using haptic symbol set
US10818308B1 (en) * 2017-04-28 2020-10-27 Snap Inc. Speech characteristic recognition and conversion
CN107959906B (zh) * 2017-11-20 2020-05-05 英业达科技有限公司 音效增强方法及音效增强系统
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置
JP7147211B2 (ja) * 2018-03-22 2022-10-05 ヤマハ株式会社 情報処理方法および情報処理装置
US11443761B2 (en) * 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
AT521777B1 (de) * 2018-12-21 2020-07-15 Pascale Rasinger Verfahren und Vorrichtung zur Nachahmung von Katzenschnurren
CN110248264B (zh) * 2019-04-25 2021-01-15 维沃移动通信有限公司 一种声音传输控制方法和终端设备
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
JP6803494B2 (ja) * 2020-08-17 2020-12-23 良明 森田 音声処理装置および音声処理方法
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법
CN114759938B (zh) * 2022-06-15 2022-10-14 易联科技(深圳)有限公司 一种公网对讲设备音频延迟处理方法以及系统

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3855418A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by vibratto component assessment
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5748838A (en) * 1991-09-24 1998-05-05 Sensimetrics Corporation Method of speech representation and synthesis using a set of high level constrained parameters
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
FR2717294B1 (fr) * 1994-03-08 1996-05-10 France Telecom Procédé et dispositif de synthèse dynamique sonore musicale et vocale par distorsion non linéaire et modulation d'amplitude.
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
JPH1074098A (ja) * 1996-09-02 1998-03-17 Yamaha Corp 音声変換装置
JP3910702B2 (ja) * 1997-01-20 2007-04-25 ローランド株式会社 波形発生装置
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP3502247B2 (ja) * 1997-10-28 2004-03-02 ヤマハ株式会社 音声変換装置
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6289310B1 (en) * 1998-10-07 2001-09-11 Scientific Learning Corp. Apparatus for enhancing phoneme differences according to acoustic processing profile for language learning impaired subject
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
AUPQ366799A0 (en) * 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
US7558391B2 (en) * 1999-11-29 2009-07-07 Bizjak Karl L Compander architecture and methods
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
US6629076B1 (en) * 2000-11-27 2003-09-30 Carl Herman Haken Method and device for aiding speech
JP3703394B2 (ja) 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
US20020126861A1 (en) * 2001-03-12 2002-09-12 Chester Colby Audio expander
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
JP3760833B2 (ja) 2001-10-19 2006-03-29 ヤマハ株式会社 カラオケ装置
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
JP3706112B2 (ja) 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
US7561709B2 (en) * 2003-12-31 2009-07-14 Hearworks Pty Limited Modulation depth enhancement for tone perception
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
JP4033146B2 (ja) 2004-02-23 2008-01-16 ヤマハ株式会社 カラオケ装置
JP4701684B2 (ja) 2004-11-19 2011-06-15 ヤマハ株式会社 音声処理装置およびプログラム
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
JP4568826B2 (ja) 2005-09-08 2010-10-27 株式会社国際電気通信基礎技術研究所 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム
JP2007093795A (ja) 2005-09-27 2007-04-12 Yamaha Corp 楽音データ生成方法及び装置

Also Published As

Publication number Publication date
CN101627427B (zh) 2012-07-04
US20100070283A1 (en) 2010-03-18
WO2009044525A1 (ja) 2009-04-09
JPWO2009044525A1 (ja) 2011-02-03
US8311831B2 (en) 2012-11-13
CN101627427A (zh) 2010-01-13

Similar Documents

Publication Publication Date Title
JP4327241B2 (ja) 音声強調装置および音声強調方法
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US20070112570A1 (en) Voice synthesizer, voice synthesizing method, and computer program
JP4914295B2 (ja) 力み音声検出装置
JP2004522186A (ja) 音声合成器の音声固有化
JP6464703B2 (ja) 会話評価装置およびプログラム
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JPWO2008015800A1 (ja) 音声処理方法、音声処理プログラム、音声処理装置
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JPWO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
JP4627154B2 (ja) 人間の感情状態に応じた音楽出力装置及び音楽出力方法
JP2004021121A (ja) 音声対話制御装置
WO2020208926A1 (ja) 信号処理装置、信号処理方法及びプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP2017106989A (ja) 音声対話装置およびプログラム
JP2017106990A (ja) 音声対話装置およびプログラム
JP5092311B2 (ja) 音声評価装置
JP7432879B2 (ja) 発話トレーニングシステム
JP5052107B2 (ja) 音声再現装置及び音声再現方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090610

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4327241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees