JP5745453B2 - 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム - Google Patents

音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム Download PDF

Info

Publication number
JP5745453B2
JP5745453B2 JP2012089231A JP2012089231A JP5745453B2 JP 5745453 B2 JP5745453 B2 JP 5745453B2 JP 2012089231 A JP2012089231 A JP 2012089231A JP 2012089231 A JP2012089231 A JP 2012089231A JP 5745453 B2 JP5745453 B2 JP 5745453B2
Authority
JP
Japan
Prior art keywords
speech
periodic power
power
periodic
power ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012089231A
Other languages
English (en)
Other versions
JP2013218147A (ja
Inventor
歩相名 神山
歩相名 神山
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012089231A priority Critical patent/JP5745453B2/ja
Publication of JP2013218147A publication Critical patent/JP2013218147A/ja
Application granted granted Critical
Publication of JP5745453B2 publication Critical patent/JP5745453B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声の聞き取りやすさ(以下「音声明瞭度」ともいう)を変換する技術に関する。
近年、音声通信端末、音声合成技術などの開発、普及により、様々な場所で音声を聴取する機会が増えた。このような音声聴取は、静かな場所だけではなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境でも行われる。騒がしい環境で聴取する場合、周囲の雑音によって音声が聞き取りにくくなるという問題がある。一方で、不特定多数の人がいる場所では、できるだけ音声を周囲に聞かれたくない場合も存在し、周囲に音が漏れることで聴取の必要のない人にも音声が聞こえてしまうという問題がある。
このような雑音のあるオープンな環境下において、音声明瞭度を変えるために最も簡単な方法は、雑音に応じて音量を調整する方法である。しかし、音量を大きくする場合は、スピーカへの入力が過大となり、音声が歪んでしまい、かえって音質が劣化する場合がある。
音声を聞き取りやすくするために周波数スペクトルの特定の帯域のみ強調する音声強調方法として、特許文献1が知られている。一般に音声の周波数スペクトルには複数のピークが存在し、これをフォルマントと言う。音声の音韻性は、このフォルマントの位置によって特徴付けられることがわかっており、このフォルマント部分のみ強調することで、音量を過大に上げることなく、音声明瞭度を改善できることが知られている。一方、このフォルマント部分のパワーを抑制することで、音声明瞭度を下げることも可能である。
国際公開第WO2004/040555号パンフレット
音声は、声帯の振動を音源とする周期成分の音と、呼気の乱流等によって生じる非周期成分の音の混合音である。従来技術の音声強調方法は、この混合音に対してスペクトル制御することで、音声を聞き取りやすくしていた。しかし、従来技術によって強調された音と人間が発声できる音声とは違った音となり、自然性が劣化するという問題がある。例えば、混合音を強調すると非周期成分の音も過大に強調されてしまい、人間の発声可能なレベルを超えたノイズ感の増した音声となることがある。また、特許文献1は、スペクトルのフォルマントを一定の値に強調しているが、これは人間として発声できる音のスペクトル形状とは違っているため、自然性が劣化するという問題を解消することはできない。
本発明は、音声のノイズ感が増すことなく、音声の自然性を保ったまま、音声明瞭度を変換する技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音声明瞭度変換装置は、音声の聞き取りやすさである音声明瞭度を変更する。音声明瞭度変換装置は、音声分析を行い、対象音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)及び基本周波数を抽出する第一音声分析部と、非周期性指標を用いて、スペクトルパワーP(i,f)を非周期性パワーと周期性パワーP(i,f)とに分離する第一パラメータ変換部と、対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数を抽出するフォルマント抽出部と、目標とする音声明瞭度xを受け取り、その音声明瞭度xに対応する周期性パワー比である目標周期性パワー比を求める目標周期性パワー比推定部と、フォルマント周波数を用いて、目標周期性パワー比となるように、周期性パワーP(i,f)を変換する周期性パワー変換部と、変換後の周期性パワーP’(i,f)と非周期性パワーとを用いて、目標周期性パワー比に対応するスペクトルパワーP’(i,f)と非周期性指標A’(i,f)とを求める第二パラメータ変換部と、スペクトルパワーP’(i,f)、非周期性指標A’(i,f)及び基本周波数を用いて、変換後音声データs’(t)を合成する音声合成部とを含む。
上記の課題を解決するために、本発明の第二の態様によれば、音声明瞭度変換方法は、音声の聞き取りやすさである音声明瞭度を変更する。音声明瞭度変換方法は、音声分析を行い、対象音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)及び基本周波数を抽出する第一音声分析ステップと、非周期性指標を用いて、スペクトルパワーP(i,f)を非周期性パワーと周期性パワーP(i,f)とに分離する第一パラメータ変換ステップと、対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数を抽出するフォルマント抽出ステップと、目標とする音声明瞭度xを受け取り、その音声明瞭度xに対応する周期性パワー比である目標周期性パワー比を求める目標周期性パワー比推定ステップと、フォルマント周波数を用いて、目標周期性パワー比となるように、周期性パワーP(i,f)を変換する周期性パワー変換ステップと、変換後の周期性パワーP’(i,f)と非周期性パワーとを用いて、目標周期性パワー比に対応するスペクトルパワーP’(i,f)と非周期性指標A’(i,f)とを求める第二パラメータ変換ステップと、スペクトルパワーP’(i,f)、非周期性指標A’(i,f)及び基本周波数を用いて、変換後音声データs’(t)を合成する音声合成ステップとを含む。
本発明によれば、フォルマント部分の周期性パワー比と人間の自然音声の聞き取りやすさとに関する相関性に基づいたフォルマント部分の周期性パワーの変換によって、音声のノイズ感が増すことなく、音声の自然性を保ったまま、音声明瞭度を変換することができる。
第一実施形態に係る音声明瞭度変換装置の機能ブロック図。 第一実施形態に係る音声明瞭度変換装置の処理フローを示す図。 音声データの例を示す図。 図3の音声データに対するスペクトルパワーを示す図。 図3の音声データに対する非周期性指標を示す図。 図3の音声データに対する音声波形を示す図。 図3の音声データに対する基本周波数を示す図。 フォルマントを説明するための図。 目標周期性パワー比推定部の機能ブロック図。 目標周期性パワー比推定部の処理フローを示す図。 図11Aは第1フォルマントが存在する母音の音声区間の平均の周期性パワー比と音声明瞭度スコアとの相関図、図11Bは第2〜4フォルマントが存在する母音の音声区間の平均の周期性パワー比と音声明瞭度スコアとの相関図。 図11に対する相関係数を示す図。 音声データベースのデータ例を示す図。 第一パワー比計算部の処理フローを示す図。 周期性パワー変換部の機能ブロック図。 周期性パワー変換部の処理フローを示す図。 フィルタr(i,f)を説明するための図。 フィルタ生成部の処理フローを示す図。
[発明のポイント]
本発明では、雑音下において様々な話者が発声した音声の聞き取りやすさを評価し、音声明瞭度と話者毎に異なる音声のフォルマント部分の周期性パワー比との相関関係を求めることで、声質とフォルマントについて以下の関係があることを明らかにした。雑音下でも聞き取りやすい声質の話者は、最も低い周波数のフォルマント部分の周期性パワー比が相対的に弱く、それ以上のフォルマント部分の周期性パワー比が相対的に強い。一方、聞き取りづらい声質の話者は、最も低い周波数のフォルマント部分の周期性パワー比が相対的に強く、それ以上のフォルマント部分の周期性パワー比が相対的に弱い。
本発明では、フォルマント部分の周期性パワー比と音声明瞭度との相関性に基づいて、対象となる音声データのフォルマント部分の周期性パワーを変換することで、音声明瞭度を変換する。なお、目標とする音声明瞭度に対応するフォルマント部分の周期性パワー比を求め、その周期性パワー比と同じスペクトル形状になるように、フォルマント部分の周期性パワーを変換する。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
図1は音声明瞭度変換装置100の機能ブロック図を、図2はその処理フローを示す。音声明瞭度変換装置100は、第一音声分析部110、第一パラメータ変換部120、フォルマント抽出部130、周期性パワー変換部150、目標周期性パワー比推定部140、第二パラメータ変換部160及び音声合成部170を含む。
音声明瞭度変換装置100は、音声データs(t)と目標明瞭度xとを入力とし、音声明瞭度を変更して、音声明瞭度変換後の音声データs’(t)を出力する。なお、対象となる音声データs(t)は、サンプリング周波数f[Hz]でサンプリングした場合の、サンプリング時間t(Tをサンプリング数とし、t=0,1,…,T−1とする)における振幅を表す。なお、図3は、サンプリング周波数f=16,000、サンプリング数T=20,000であり、T/f=1.25秒分の音声データs(t)の例を示す。
<第一音声分析部110>
第一音声分析部110は、対象となる音声データs(t)を受け取り、音声分析を行い(s110)、音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)及び基本周波数f(i)を抽出し、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を第一パラメータ変換部120に、基本周波数f(i)を音声合成部170に出力する。例えば、参考文献1記載の音声分析方法を用いることができる。
(参考文献1)河原英紀,“聴覚の情景分析が生んだ高品質VOCODER: STRAIGHT”,日本音響学会誌,1998年7月,54巻,7号,pp.521-526
なお、iは所定のサンプル間隔pで分析した場合の分析番号(フレーム番号)であり、uはフレーム中のu番目のサンプルを表す番号であり、u=0,1,…,p−1であり、t=ip+uである。i=0,1,…,[(T−1)/p]であり、[・]は・以下の最大の整数を表す。また、f=0,1,…,N−1であり、fは(f/N)×(f/2)[Hz]以上、{(f+1)/N}×(f/2)[Hz]未満の周波数帯域を表す番号(帯域番号)である。スペクトルパワーP(i,f)はフレームiかつ帯域fの周波数スペクトルの強さ(密度分布)を、非周期性指標A(i,f)は周波数スペクトルを周期成分(周期的な振動をする音のスペクトル)と非周期成分(周期的な振動をしない音(雑音)のスペクトル)との和とみなしたときのフレームiかつ帯域fにおける非周期成分の割合を、基本周波数f(i)は声の高さを表す特徴量であり、フレームiの音声波形の周期をtとしたとき、その逆数1/t[Hz]である。図4、図5、図6及び図7は、それぞれ図3の音声データs(t)に対するスペクトルパワーP(i,f)、非周期性指標A(i,f)、フレームiの音声波形及び基本周波数f(i)を示す。
<フォルマント抽出部130>
フォルマントとは、図8のような音声スペクトルのピーク部分であり、低い周波数から第1フォルマント、第2フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。
フォルマント抽出部130は、音声データs(t)を受け取り、この値を用いて、所定のサンプル間隔pでフォルマント周波数F(i,j)[Hz]を抽出し(s130)、周期性パワー変換部150に出力する。例えば、参考文献2記載のフォルマント抽出方法を用いることができる。
(参考文献2)大塚貴弘,“音源パルス列を考慮した頑健なARX音声分析法”,日本音響学会誌,2002年7月,58巻,7号,pp.386-397
ただし、j=1,2,…,Jはフォルマント番号であり、フォルマント周波数F(i,j)はフレームiにおけるフォルマントjの位置(周波数)を表す。Jは抽出するフォルマントの数であり、3または4程度の値である。なお、フレームiが無声区間または無音区間のようなフォルマントが存在しない区間である場合、全てのフォルマントj(j=1,2,…,J)について、フォルマント周波数F(i,j)=0とする。
<第一パラメータ変換部120>
第一パラメータ変換部120は、スペクトルパワーP(i,f)と非周期性指標A(i,f)を受け取り、非周期性指標A(i,f)を用いて、スペクトルパワーP(i,f)を非周期性パワーP(i,f)と周期性パワーP(i,f)に分離し(s120)、それぞれ第二パラメータ変換部160と周期性パワー変換部150に出力する。なお、周期性パワーP(i,f)はスペクトルパワーP(i,f)に含まれる周期成分のスペクトルパワーであり、非周期性パワーP(i,f)はスペクトルパワーP(i,f)に含まれる非周期成分のスペクトルパワーである。
例えば、第一パラメータ変換部120は、全ての帯域f(f=0,1,…,N−1)の全てのフレームi(i=0,1,…,[T/p−1])について、下記の二つの式を計算する。
PA(i,f)=10A(i,f)/20・P(i,f)
PP(i,f)=P(i,f)-PA(i,f)
<目標周期性パワー比推定部140>
目標周期性パワー比推定部140は、目標とする音声明瞭度xを受け取り、その音声明瞭度に対応する周期性パワー比である目標周期性パワー比R(j)を求め(s140)、周期性パワー変換部150に出力する。以下詳細を説明する。
図9は目標周期性パワー比推定部140の機能ブロック図を、図10はその処理フローを示す。
目標周期性パワー比推定部140は、音声データベース141、第二音声分析部142、第三パラメータ変換部143、フォルマント抽出部144、第一パワー比計算部145、線形回帰分析部146及び線形回帰推定部147を含む。第二音声分析部142、第三パラメータ変換部143及びフォルマント抽出部144、は、それぞれ第一音声分析部110、第一パラメータ変換部120及びフォルマント抽出部130と同様の機能、構成を持つ。
本実施形態では、音声明瞭度として、以下の音声明瞭度スコアを用いる。音声明瞭度スコアとは、「1:全く聞き取れない」「2:ほとんど聞き取れない」「3:およそ半分程度聞き取れる」「4:ほとんど聞き取れる」「5:全てはっきりと聞き取れる」の5段階で、音声の聞き取りやすさを様々な雑音下で評価したスコアの平均値である。
また、周期性パワー比R(i,j)とは、各フレームiにおける各フォルマントjの部分のスペクトルが占めるパワーの割合である。言い換えると、フレーム毎に周期性パワーを正規化したものである。
フォルマントが存在する母音の音声区間の平均の周期性パワー比と20名の話者の雑音下における音声の音声明瞭度スコアとの相関図を図11に示す。また相関係数を図12に示す。
これからわかるように、雑音下における音声明瞭度スコアと周期性パワー比は非常に高い相関にあることがわかる。この周期性パワー比の相関性に基づいて、周期性パワーを変換することで音声明瞭度を変換することができる。
目標周期性パワー比推定部140は、この相関関係に基づく音声明瞭度の変換のために、予め、音声データベース141を用いて、周期性パワー比と音声明瞭度スコアの線形回帰係数を求めておき、これを周期性パワー比回帰モデルM(x,j)とする。その後、目標とする音声明瞭度スコアxから、目標周期性パワー比R(j)を求める。
(音声データベース141)
音声データベース141には、音声明瞭度変換に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度スコアxとが格納される。なお、音声明瞭度スコアxは、人手により、様々な雑音下で学習用音声データs(t)を聴取し、音声明瞭度スコアを付けたものの平均値である。なお、kは学習用音声データを表すインデックス番号(音声番号)であり、k=1,2,…,Kである。例えば、K=20程度あれば良い(図13参照)。
(第二音声分析部142、第三パラメータ変換部143及びフォルマント抽出部144)
第二音声分析部142、第三パラメータ変換部143及びフォルマント抽出部144は、このK個の学習用音声データs(t)それぞれについて、非周期性指標A(i,f)とスペクトルパワーP(i,f)、周期性パワーPP,k(i,f)及びフォルマント周波数F(i,j)を求める(s142、s143、s144)。なお、第二音声分析部142は第一音声分析部110と違い、基本周波数を抽出しなくともよく、第三パラメータ変換部143は第一パラメータ変換部120と違い、非周期性パワーPA,k(i,f)を出力しなくともよい。
(第一パワー比計算部145)
第一パワー比計算部145は、周期性パワーPP,k(i,f)及びフォルマント周波数F(i,j)を受け取り、これらの値を用いて、全ての音声k(k=1,2,…,K)について、各フォルマントj(j=1,2,…,J)部分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求め(s145)、線形回帰分析部146に出力する。
図14を用いて、第一パワー比計算部145の処理フローを説明する。なお、図中、ループ端子の上端には「変数=初期値,終値,増分値」を、下端には「変数」を記載する。
iに初期値を設定する(s145a)。
F(i,j)=0が、全てのj(j=1,2,…,J)について成り立つか否かを判定する(s145b)。
成り立つ場合、全てのjについて、周期性パワー比R(i,j)に0を代入する(s145c)。
成り立たない場合、全ての帯域fについての周期性パワーP(i,f)の総和PPSUM
として算出し(s145d)、以下の処理(s145e〜s145t)を行う。
jに初期値を設定する(s145e)。
次のf(j)及びf(j)を求める(s145f〜s145r)。
周期性パワー比R(i,j)を以下の式により求める(s145s)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s145f〜s145sを繰り返す(s145t)。
iをインクリメントし、iが[T/p−1]よりも大きくなるまで、s145b〜s145tを繰り返す(s145t)。
上述の処理(s145a〜s145u)を全ての音声kに対して行い、周期性パワー比RP,k(i,j)を生成する。
(線形回帰分析部146)
線形回帰分析部146は、音声明瞭度スコアxと周期性パワー比RP,k(i,j)とを受け取り、図11の相関性に基づいて、音声明瞭度スコアxと周期性パワー比RP,k(i,j)の線形回帰分析を行い、線形回帰係数M(j,m)を求める(s146)。ただし、mは求める線形回帰係数の次数を示し,mは0または1の値を取る。
例えば、線形回帰分析部146は,各フォルマントj(j=1,2,…,J)について
RP,k(i,j)≒RP,k’(i,j)=M(j,0)+xkM(j,1)
と仮定し、
{RP,k(i,j)-RP,k’(i,j)}2
の値が最小となるM(j,m)を求める。例えば、各j(j=1,2,…,J)について下記計算を行う。
(線形回帰推定部147)
線形回帰推定部147は、線形回帰係数M(j,m)と目標とする音声明瞭度スコアxとを受け取り、これらの値を用いて、目標周期性パワー比R(j)を求める。例えば全てのj(j=1,2,…,J)について、下記式を計算して求める。
RT(j)=M(x,j)=M(j,0)+xM(j,1)
ただし、M(x,j)は、周期性パワー比回帰モデルを表す。
<周期性パワー変換部150>
周期性パワー変換部150は、フォルマント周波数F(i,j)、周期性パワーP(i,f)及び目標周期性パワー比R(j)を受け取り、フォルマント周波数F(i,j)を用いて、目標周期性パワー比R(j)となるように、周期性パワーP(i,f)を変換し(s150)、変換後の周期性パワーP’(i,f)を第二パラメータ変換部160に出力する。
図15は周期性パワー変換部150の機能ブロック図を、図16はその処理フローを示す。
周期性パワー変換部150は、第二パワー比計算部151、フィルタ生成部152、乗算部153とを含む。なお、第二パワー比計算部151は、第一パワー比計算部145と同様の機能、構成を持つ。
第一パワー比計算部145は、周期性パワーP(i,f)及びフォルマント周波数F(i,j)を受け取り、これらの値を用いて、周期性パワー比R(i,j)を求め(s151)、フィルタ生成部152に出力する。
(フィルタ生成部152)
フィルタ生成部152は、周期性パワー比R(i,j)、フォルマント周波数F(i,j)及び目標周期性パワー比RT(j)を受け取り、これらの値を用いて、音声明瞭度を変換するために周期性パワーP(i,f)を変換するフィルタr(i,f)を生成し(s152)、乗算部153に出力する。
フィルタr(i,f)は、図12の相関性に基づいて、第二パワー比計算部151で求めた帯域[f(j),f(j)](j=1,2,…,J)において、周期性パワーを、q(j)=RT(j)/R(i,j)倍するものを構成すれば、周期性パワーを目標周期性パワー比そのものに変換することができる。
しかし、f(j)とf(j+1)との境界で周期性パワーが不連続になった場合、スペクトルの不連続部分で異音が発生し自然性が劣化してしまうことが考えられる。そのため、例えば、図17のように、フォルマントjの位置f=F’(j)=[2F(i,j)×N/F]においてフィルタr(i,f)=q(j)=R(j)/R(i,j)とし、その他の位置において線形補完されたフィルタr(i,f)を構成すれば、周期性パワー比を目標周期性パワー比に近づけながら自然な周期性パワーを求めることができると考えられる。このように、フィルタ生成部152では、下記アルゴリズムによって、各帯域でR(j)/R(i,j)倍するフィルタr(i,f)を構成する。以下、図18を用いてフィルタ生成部152の処理を説明する。
iに初期値を設定する(s152a)。
j=0,1,…,J,J+1について、以下のようにF’(j)、q(j)を求める(s152b〜s152m)。
s152b〜s152mの処理を終えると、各j(j=1,2,…,J)のf=F’(j−1),F’(j−1)+1,…,F’(j)−1について、フィルタr(i,f)を以下の式により求める(s152n〜s152r)。
iをインクリメントし、iが[T/p−1]よりも大きくなるまで、s152b〜s152rを繰り返す(s152s)。
(乗算部153)
乗算部153は、周期性パワーP(i,f)及びフィルタr(i,f)を受け取り、周期性パワーP(i,f)にフィルタr(i,f)を乗じ、変換後の周期性パワーP’(i,f)を算出する(s153)。
例えば、全てのフレームi(i=0,1,…,[T/p−1])、全ての帯域f(f=0,1,…,N−1)について、下記式を計算する。
PP’(i,f)=r(i,f)PP(i,f)
<第二パラメータ変換部160>
第二パラメータ変換部160は、変換後の周期性パワーP’(i,f)と非周期性パワーP(i,f)とを受け取り、これらの値を用いて、目標周期性パワー比R(j)に対応するスペクトルパワーP’(i,f)と非周期性指標A’(i,f)とを求め(s160)、音声合成部170に出力する。
スペクトルパワーは周期性パワーと非周期性パワーとを合わせた音声パワーであり、非周期性指標は音声スペクトル中の非周期成分の割合である。よって、全ての帯域f(f=0,1,…,N−1)、フレームi(i=0,1,…,[T/p−1])について以下の二つの式を計算する。
P’(i,f)=PP’(i,f)+PA(i,f)
A’(i,f)=20log10{PA(i,f)/P’(i,f)}
<音声合成部170>
音声合成部170は、スペクトルパワーP’(i,f)と非周期性指標A’(i,f)と基本周波数f(i)とを受け取り、これらの値を用いて、音声明瞭度変換後の音声データs’(t)を合成し(s170)、出力する。例えば、参考文献1記載の音声合成方法により音声データを合成する。音声合成部170は、第一音声分析部110と入出力の関係が逆となっており、スペクトルパワーP’(i,f)と非周期性指標A’(i,f)と基本周波数f(i)とに基づいて、音声明瞭度変換後の音声データs’(t)を合成する。
<効果>
このような構成により、音声のノイズ感が増すことなく、音声の自然性を保ったまま、音声明瞭度を変換することができる。例えば、雑音があるような騒がしい環境でも音声の自然性を保ったまま、音量を大きくすることなく、音声明瞭度を向上させることができる。また、不特定多数の人がいる環境でも、自然性を保ったまま、音量を小さくすることなく、音声明瞭度を低下させることができ、周囲に音が漏れることを防止できる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。
例えば、音声明瞭度として上述の音声明瞭度スコアを用いているが、音声の聞き取りやすさを表す指標であればどのようなものを用いてもよい。
また、本実施形態では、目標周期性パワー比推定部140の内部で、線形回帰係数M(j,m)を求めているが、他の装置で求めた線形回帰係数M(j,m)を図示しない記憶部に格納しておき、目標周期性パワー比R(j)のみを求める構成としてもよい。この場合、目標周期性パワー比推定部140には、線形回帰推定部147のみ備えればよい。さらに、必ずしも、以下の式
RT(j)=M(x,j)=M(j,0)+xM(j,1)
により、目標周期性パワー比R(j)を求めなくともよい。例えば、目標とする音声明瞭度xが1,2,3,4,5の何れかの数値を取ると分っている場合には、予めxに対応する目標周期性パワー比R(j)を予め計算しておき、xと紐付けて記憶部に記憶しておき、目標とする音声明瞭度xを入力されたときに対応する目標周期性パワー比R(j)を記憶部から取得する構成としてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した音声明瞭度変換装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
100 音声明瞭度変換装置
110 第一音声分析部
120 第一パラメータ変換部
130,144 フォルマント抽出部
140 目標周期性パワー比推定部
141 音声データベース
142 第二音声分析部
143 第三パラメータ変換部
145 第一パワー比計算部
145 第一パワー比計算部
146 線形回帰分析部
147 線形回帰推定部
150 周期性パワー変換部
151 第二パワー比計算部
152 フィルタ生成部
153 乗算部
160 第二パラメータ変換部
170 音声合成部

Claims (9)

  1. 音声の聞き取りやすさである音声明瞭度を変更する音声明瞭度変換装置であって、
    音声分析を行い、対象音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)及び基本周波数を抽出する第一音声分析部と、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)を非周期性パワーと周期性パワーP(i,f)とに分離する第一パラメータ変換部と、
    前記対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、
    目標とする音声明瞭度xを受け取り、その音声明瞭度xに対応する周期性パワー比である目標周期性パワー比 (j)を求める目標周期性パワー比推定部と、
    前記フォルマント周波数F(i,j)を用いて、前記目標周期性パワー比 (j)となるように、前記周期性パワーP(i,f)を変換する周期性パワー変換部と、
    変換後の周期性パワーP’(i,f)と前記非周期性パワーとを用いて、前記目標周期性パワー比 (j)に対応するスペクトルパワーP’(i,f)と非周期性指標A’(i,f)とを求める第二パラメータ変換部と、
    前記スペクトルパワーP’(i,f)、前記非周期性指標A’(i,f)及び前記基本周波数を用いて、変換後音声データs’(t)を合成する音声合成部とを含む、
    音声明瞭度変換装置。
  2. 請求項1記載の音声明瞭度変換装置であって、
    前記目標周期性パワー比推定部は、
    Kを1以上の整数とし、k=1,2,…Kとし、音声明瞭度変換に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度xとが格納される音声データベースと、
    音声分析を行い、学習用音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出する第二音声分析部と、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離する第三パラメータ変換部と、
    前記学習用音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と
    前記周期性パワーPP,k(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求める第一パワー比計算部と、
    前記音声明瞭度xと前記周期性パワー比RP,k(i,j)の線形回帰分析を行い、線形回帰係数M(j,m)を求める線形回帰分析部と、
    前記線形回帰係数M(j,m)と目標とする前記音声明瞭度xとを用いて、前記目標周期性パワー比R(j)を求める線形回帰推定部とを含む、
    音声明瞭度変換装置。
  3. 請求項1または請求項2記載の音声明瞭度変換装置であって、
    前記周期性パワー変換部は、
    前記周期性パワーP(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求める第二パワー比計算部と、
    前記周期性パワー比R(i,j)、前記フォルマント周波数F(i,j)及び前記目標周期性パワー比RT(j)を用いて、フィルタr(i,f)を生成するフィルタ生成部と、
    前記周期性パワーP(i,f)に前記フィルタr(i,f)を乗じ、変換後の周期性パワーP’(i,f)を算出する乗算部とを含む、
    音声明瞭度変換装置。
  4. 請求項記載の音声明瞭度変換装置であって、
    前記第一パワー比計算部において、前記周期性パワー比R,k (i,j)を



    として求める、
    音声明瞭度変換装置。
  5. 請求項3記載の音声明瞭度変換装置であって、
    前記第二パワー比計算部において、前記周期性パワー比R (i,j)を



    として求める、
    音声明瞭度変換装置。
  6. 音声の聞き取りやすさである音声明瞭度を変更する音声明瞭度変換方法であって、
    音声分析を行い、対象音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)及び基本周波数を抽出する第一音声分析ステップと、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)を非周期性パワーと周期性パワーP(i,f)とに分離する第一パラメータ変換ステップと、
    前記対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、
    目標とする音声明瞭度xを受け取り、その音声明瞭度xに対応する周期性パワー比である目標周期性パワー比 (j)を求める目標周期性パワー比推定ステップと、
    前記フォルマント周波数F(i,j)を用いて、前記目標周期性パワー比 (j)となるように、前記周期性パワーP(i,f)を変換する周期性パワー変換ステップと、
    変換後の周期性パワーP’(i,f)と前記非周期性パワーとを用いて、前記目標周期性パワー比 (j)に対応するスペクトルパワーP’(i,f)と非周期性指標A’(i,f)とを求める第二パラメータ変換ステップと、
    前記スペクトルパワーP’(i,f)、前記非周期性指標A’(i,f)及び前記基本周波数を用いて、変換後音声データs’(t)を合成する音声合成ステップとを含む、
    音声明瞭度変換方法。
  7. 請求項記載の音声明瞭度変換方法であって、
    前記目標周期性パワー比推定ステップは、
    Kを1以上の整数とし、k=1,2,…Kとし、音声明瞭度変換に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度xとが格納される音声データベースと、
    音声分析を行い、学習用音声データs(t)からスペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出する第二音声分析ステップと、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離する第三パラメータ変換ステップと、
    前記学習用音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと
    前記周期性パワーPP,k(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求める第一パワー比計算ステップと、
    前記音声明瞭度xと前記周期性パワー比RP,k(i,j)の線形回帰分析を行い、線形回帰係数M(j,m)を求める線形回帰分析ステップと、
    前記線形回帰係数M(j,m)と目標とする前記音声明瞭度xとを用いて、前記目標周期性パワー比R(j)を求める線形回帰推定ステップとを含む、
    音声明瞭度変換方法。
  8. 請求項または請求項記載の音声明瞭度変換方法であって、
    前記周期性パワー変換ステップは、
    前記周期性パワーP(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求める第二パワー比計算ステップと、
    前記周期性パワー比R(i,j)、前記フォルマント周波数F(i,j)及び前記目標周期性パワー比RT(j)を用いて、フィルタr(i,f)を生成するフィルタ生成ステップと、
    前記周期性パワーP(i,f)に前記フィルタr(i,f)を乗じ、変換後の周期性パワーP’(i,f)を算出する乗算ステップとを含む、
    音声明瞭度変換方法。
  9. 請求項1から請求項に記載の音声明瞭度変換装置として、コンピュータを機能させるためのプログラム。
JP2012089231A 2012-04-10 2012-04-10 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム Expired - Fee Related JP5745453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012089231A JP5745453B2 (ja) 2012-04-10 2012-04-10 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012089231A JP5745453B2 (ja) 2012-04-10 2012-04-10 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2013218147A JP2013218147A (ja) 2013-10-24
JP5745453B2 true JP5745453B2 (ja) 2015-07-08

Family

ID=49590301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012089231A Expired - Fee Related JP5745453B2 (ja) 2012-04-10 2012-04-10 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5745453B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5667963B2 (ja) * 2011-11-09 2015-02-12 日本電信電話株式会社 音声強調装置とその方法とプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468804A (en) * 1982-02-26 1984-08-28 Signatron, Inc. Speech enhancement techniques
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
WO2004068467A1 (en) * 2003-01-31 2004-08-12 Oticon A/S Sound system improving speech intelligibility
JP4630183B2 (ja) * 2005-12-08 2011-02-09 日本電信電話株式会社 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
JP5667963B2 (ja) * 2011-11-09 2015-02-12 日本電信電話株式会社 音声強調装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2013218147A (ja) 2013-10-24

Similar Documents

Publication Publication Date Title
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
EP2375785B1 (en) Stability improvements in hearing aids
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
EP3113183B1 (en) Speech intelligibility improving apparatus and computer program therefor
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
JP4654621B2 (ja) 音声処理装置およびプログラム
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2015161774A (ja) 音合成方法及び音合成装置
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
JP2007233284A (ja) 音声処理装置および音声処理方法
JP5830364B2 (ja) 韻律変換装置およびそのプログラム
US20090222268A1 (en) Speech synthesis system having artificial excitation signal
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
JP2001117600A (ja) 音声信号処理装置および音声信号処理方法
JP2006119647A (ja) ささやき声を通常の有声音声に擬似的に変換する装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP4900062B2 (ja) 音声信号処理装置、音声再生装置および音声信号処理方法
JP2016122157A (ja) 音声処理装置
JP5667963B2 (ja) 音声強調装置とその方法とプログラム
JP6159570B2 (ja) 音声強調装置、及びプログラム
Bollepalli et al. Effect of MPEG audio compression on HMM-based speech synthesis.
Lai et al. A discriminative post-filter for speech enhancement in hearing aids
JP5677137B2 (ja) 韻律変換装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150501

R150 Certificate of patent or registration of utility model

Ref document number: 5745453

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees