JP2013125084A - 発話速度検出装置及び発話速度検出プログラム - Google Patents
発話速度検出装置及び発話速度検出プログラム Download PDFInfo
- Publication number
- JP2013125084A JP2013125084A JP2011272619A JP2011272619A JP2013125084A JP 2013125084 A JP2013125084 A JP 2013125084A JP 2011272619 A JP2011272619 A JP 2011272619A JP 2011272619 A JP2011272619 A JP 2011272619A JP 2013125084 A JP2013125084 A JP 2013125084A
- Authority
- JP
- Japan
- Prior art keywords
- coherence
- utterance speed
- speech rate
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】非目的音声が混入した場合でも音声検出をせずに、目的音声の発話速度を正確にリアルタイムに検出できるようにする。
【解決手段】本発明の発話速度検出装置は、入力信号を時間領域から周波数領域に変換する周波数解析手段と、周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段と、指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、コヒーレンス計算手段により求められたコヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段とを備える。
【選択図】 図1
【解決手段】本発明の発話速度検出装置は、入力信号を時間領域から周波数領域に変換する周波数解析手段と、周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段と、指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、コヒーレンス計算手段により求められたコヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段とを備える。
【選択図】 図1
Description
本発明は、発話速度検出装置及び発話速度検出プログラムに関するものであり、例えば、電話やテレビ会議等で利用される音声通信装置における発話速度検出装置及び発話速度検出プログラムに適用し得るものである。
例えば、電話やテレビ会議等の音声通信において、通話相手の発話内容の了解度を高めるために、発話速度を聞き取りやすい速度に変換する発話速度変換技術が用いられている。
ところで、発話速度を正確に変換するためには、入力音声信号の発話速度を正確に検出することが必要となる。従来、このような発話速度を検出する技術として、特許文献1に記載の技術がある。
特許文献1の記載技術は、入力音声信号に線形予測分析を行い、線形予測係数の変化量の総和のエンベロープの単位時間当たりのピーク数と、音声信号の絶対値のエンベロープの単位時間当たりのピーク数とを重み付け加算して得た値から発話速度を算出している。
また、特許文献1には、背景雑音を排除して精度の高い発話速度検出を行うために、音声区間検出部と連動させて、入力音声信号から音声区間を検出した場合には、上述の発話速度検出処理を行うことにより、背景雑音の影響を排除する技術が記載されている。
しかしながら、上述した特許文献1に記載の発話速度検出方式は、発話者以外の音声(以下、妨害音声という)が混入したときには、線形予測係数の計算誤りが生じ得るため、発話速度が正確に検出することができないという問題がある。
また、上述した特許文献1に記載の発話速度検出方式は、入力音声信号に対して線形予測分析処理を行うものであるため、音声検出に係る処理負荷が大きくなってしまう。そのため、音声通信等に利用する場合には、リアルタイム性が損なわれてしまうという問題も生じ得る。
そのため、音声通信のリアルタイム性を維持しつつ、妨害音声が混入した場合でも正確に目的音声の速度を検出することができる発話速度検出装置及び発話速度検出プログラムが求められる。
かかる課題を解決するために、第1の本発明の発話速度検出装置は、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段と、(2)周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段と、(3)指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、(4)コヒーレンス計算手段により求められたコヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段とを備えることを特徴とする発話速度検出装置である。
第2の本発明の発話速度検出プログラムは、コンピュータを、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段、(2)周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段、(3)指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、(4)コヒーレンス計算手段により求められたコヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段として機能させることを特徴とする発話速度検出プログラムである。
本発明によれば、非目的音声が混入しても、音声検出を行うことなく、目的音声の正確な発話速度を検出することができる。また、本発明によれば、複雑な検出処理が不要であるから、音声通信等のリアルタイム性を維持することができる。
(A)本発明の基本概念
まず、本発明の基本概念を説明する。本発明に係る発話速度検出装置及び発話速度検出プログラムは、コヒーレンスという特徴量を導入し、コヒーレンスの変動に基づいて、妨害音声の影響を受けずに、又音声検出を行わずに背景雑音の影響を排除して、発話速度を正確に検出するものである。
まず、本発明の基本概念を説明する。本発明に係る発話速度検出装置及び発話速度検出プログラムは、コヒーレンスという特徴量を導入し、コヒーレンスの変動に基づいて、妨害音声の影響を受けずに、又音声検出を行わずに背景雑音の影響を排除して、発話速度を正確に検出するものである。
本発明の基本概念は、人間の発声機構を考慮し、発話速度の差異が、母音部の長短に大きく寄与するという特性を応用するものである。すなわち、本発明に係る発話速度検出装置及び発話速度検出プログラムは、目的音声の母音部におけるコヒーレンスの変動に基づいて発話速度を検出する。
ここで、コヒーレンスとは、異なる方位の指向性を有する2個の信号の相互相関である。
例えば、マイク等の入力部から入力した信号について、右方向(ここでは、マイクの正面方向に対する右方向)に指向性を有する信号を形成する第1の指向性形成部と、左方向に指向性を有する信号を形成する第2の指向性形成部とを有する。
このとき、入力信号から形成した、右方向に指向性を有する信号と左方向に指向性を有する信号とでコヒーレンスを計算するとき、正面方向から到来する信号に対しては、左右の信号成分は相関が高くなるため、コヒーレンスは大きな値となる。
一方、右方向又は左方向から到来する信号に対して、左右の信号成分に偏りが生じるので、コヒーレンスは小さい値となる。
このように、正面方向から到来した信号については大きな値となり、右方向又は左方向から到来した信号については小さい値というように、入力信号の到来方向に応じて、コヒーレンスは異なる振る舞いをする。
また、コヒーレンスは、入力音声の相関という意味をもつため、正面方向から到来した音声区間内であっても、相関の弱い子音か、相関が強い母音かで、コヒーレンスの挙動が異なる。
例えば、「さ:sa」と発話した場合、子音部「s」の信号は規則性が低く相関が弱いので、子音部におけるコヒーレンスは小さい値となり得る。これに対して、母音部「a」の信号波形は規則性が高く相関が強いので、母音部におけるコヒーレンスは大きな値となり得る。
従って、正面方向から音声が入力した場合でも、その音声区間において、子音部についてコヒーレンスは小さい値となり、母音部についてコヒーレンスは大きな値となる。さらに、音声ではなく背景雑音が入力された場合、背景雑音は信号の相関が弱いため、コヒーレンスは小さい値となる。
また、例えば、発話中に「さ:sa」と発音した場合に、発話速度が変化したときに、子音部「s」の部分の長さがかわるのではなく、母音部「a」の部分の長さが変わるという特性がある。例えば、発話速度が速い場合には、子音部「s」の持続時間は変化せず、母音部「a」の部分が短くなり、逆に、発話速度が遅い場合には、子音部「s」の持続時間は変化せず、母音部「a」の部分が長くなるという特性がある。
そこで、本発明に係る発話速度検出装置及び発話速度検出プログラムは、目的音声の母音部の長短に応じたコヒーレンスの挙動を利用して、発話速度を検出する。
まず、発話速度が遅い場合と速い場合とのコヒーレンスの大きさを観測すると、次のようなコヒーレンスの挙動の差異がある。
第1に、発話速度が遅い場合、母音が連続する区間で、例えば、「世界の愛:sekai no ai」と発話した場合、「ai」のように母音が連続する区間では、コヒーレンスがゆっくりと下降する。
第2に、発話速度が速い場合、上記のように母音が連続する区間でも、コヒーレンスが急速に下降する。
上記のことから、一定時間毎のコヒーレンスの大きさを求め、コヒーレンスの変動が大きければ発話速度が速く、コヒーレンスの変動が小さければ発話速度が遅いと判断することができる。
また、先述のように、コヒーレンスは入力信号の到来方位や信号の相関によって値の大小が変わる。この挙動を利用すれば、コヒーレンスが大きい場合には、入力信号は正面から到来している目的音声であり、コヒーレンスが小さい場合には正面以外から到来する妨害音声か背景雑音が入力されているといえる。ところで、非目的音区間(妨害音声や背景雑音)のようなコヒーレンス値が初めから小さい場合、コヒーレンスの変動幅が、発話速度が遅い区間よりも、さらに小さくなる。そこで、コヒーレンスの変動幅が一定幅未満の場合は、過去に検出した発話速度が出力されるようにしておき、発話速度検出に適さない区間での推定結果が反映されないようにすることで、検出精度を維持できるようにする。
このように、本発明に係る発話速度検出装置及び発話速度検出プログラムは、コヒーレンスの挙動を利用し、明示的に音声区間検出を行うことなく、目的音声区間の母音部におけるコヒーレンスの変動から発話速度を検出する。
(B)第1の実施形態
以下では、本発明の発話速度検出装置及び発話速度検出プログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
以下では、本発明の発話速度検出装置及び発話速度検出プログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
(B−1)第1の実施形態の構成
図1は、第1の実施形態の発話速度検出装置の内部構成を示す構成図である。なお、発話速度検出装置10は、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース等を有する。そして、発話速度検出装置10の機能は、CPUが、ROMに格納される発話速度検出プログラム等を実行することにより実現されるものである。なお、発話速度検出プログラムは、ネットワークを通じてインストールされるものであっても良く、その場合でも図1に示す構成要素を構成する。
図1は、第1の実施形態の発話速度検出装置の内部構成を示す構成図である。なお、発話速度検出装置10は、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース等を有する。そして、発話速度検出装置10の機能は、CPUが、ROMに格納される発話速度検出プログラム等を実行することにより実現されるものである。なお、発話速度検出プログラムは、ネットワークを通じてインストールされるものであっても良く、その場合でも図1に示す構成要素を構成する。
図1において、発話速度検出装置10は、2個のマイクロフォン(以下マイク)m1及びm2と、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、発話速度検出部15を少なくとも有して構成される。
第1の実施形態の発話速度検出装置10は、コヒーレンスという特徴量を導入し、コヒーレンスの変動に基づいて、妨害音声の影響を受けずに、又音声検出を行うことなく正確に発話速度を検出するものである。
マイクm1及びマイクm2は、到来した音波を捕捉し、捕捉した音波を音声信号に変換してFFT部11に与えるものである。ここで、図1には図示しないが、マイクm1及びマイクm2とFFT部11との間にAD変換部を備え、AD変換部が、マイクm1及びマイクm2の音声信号(アナログ信号)をディジタル信号に変換して、信号s1(n)及び信号s2(n)をFFT部11に与える。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中ではnが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
FFT部11は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するに当たり、入力信号s1(n)及びs2(n)から所定のN個のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成する。入力信号s1からFRAME1を構成する例を以下に記載する。
FRAME1(1)={s1(1)、s1(2)、・・、s1(i)、・・s1(N)}
・
・
FRAME1(K)={s1(N×K+1)、s1(N×K+2)、・・、s1(N×K+i)、・・s1(N×K+N)}
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中ではKが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはkであるとする。
・
・
FRAME1(K)={s1(N×K+1)、s1(N×K+2)、・・、s1(N×K+i)、・・s1(N×K+N)}
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中ではKが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはkであるとする。
FFT部11では、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f、K)、及び入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f、K)を、第1の指向性形成部12及び第2の指向性形成部13に与えるものである。なおfは周波数を表すインデックスである。またX1(f、K)は単一の値ではなく、
X1(f、K)={X1(f1、K)、X1(f2、K)、・・X1(fi、K)・・、X1(fm、K)}
というように複数の周波数f1〜fmのスペクトル成分から構成されるものであることを補足しておく。これはX2(f、K)及び、後段の指向性形成部で現れるB1(f、K),B2(f、K)も同様である。
X1(f、K)={X1(f1、K)、X1(f2、K)、・・X1(fi、K)・・、X1(fm、K)}
というように複数の周波数f1〜fmのスペクトル成分から構成されるものであることを補足しておく。これはX2(f、K)及び、後段の指向性形成部で現れるB1(f、K),B2(f、K)も同様である。
第1の指向性形成部12は、FFT部11から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B1(f、K)を形成し、その信号B1(f、K)をコヒーレンス計算部14に与える。
第2の指向性形成部13は、FFT部11から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B2(f、K)を形成し、その信号B2(f、K)をコヒーレンス計算部14に与える。
ここで、第1の指向性形成部12及び第2の指向性形成部13による特定方向に指向性の強い信号を形成する方法は、既存の技術の方法を適用することができ、例えば、式(1)及び式(2)に従った演算により求める方法を適用することができる(フレームインデックスKは演算には関与しないので、計算式には記載しない)。
このように、第1の指向性形成部12は、式(1)に従った演算を行い、特定方向に強い指向性を持つ信号B1(f、K)を形成する。また、第2の指向性形成部13は、式(2)に従った演算を行い、第1の指向性形成部とは異なる方向に強い指向性を持つ信号B2(f、K)を形成する。
ここで、第1の指向性形成部12及び第2の指向性形成部13が形成する信号の意味を図2〜図5を用いて説明する。
図2は、マイクm1及びマイクm2に入力する音波の到達の様子を説明する説明図である。
図2において、マイクm1とマイクm2とは、同一水平面上に所定の距離(図2では、距離「l」とする)だけ離れて設けられている。また、音源は、マイクm1及びマイクm2の正面方向に対して角度θの方向にあるとする。従って、音源からの音波は、図2に示すように、角度θの方向からマイクm1及びマイクm2に到達する。
このとき、マイクm1とマイクm2は、距離lだけ離れているため、音波がマイクm1とマイクm2に到達するまでには、時間差が生じる。この到達時間差τは、音の経路差をdとすると、d=l×sinθであるから、次式(2−1)で示すことができる。
τ=l×sinθ/c (c:音速) …(2−1)
ところで、入力信号s1(n)に到達時間差τだけ遅延を与えた信号s1(n−τ)は、s2(n)と同一の信号であるといえる。
ところで、入力信号s1(n)に到達時間差τだけ遅延を与えた信号s1(n−τ)は、s2(n)と同一の信号であるといえる。
したがって、両者の差をとった信号y(n)=s2(n)−s1(n−τ)は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーは図3のような指向特性を持つようになる。
なお、上記の説明では時間領域での演算を記したが、周波数領域で行っても同様な効果が得られ、式(1)及び式(2)が周波数領域での演算式の例である。
ここで、到来方向θ=90度とした場合には、図4及び図5のように前方向・後方向・右方向・左方向を定義すると、第1の指向性形成部12で形成される指向性は図4のように右方向に死角があり、第2の指向性形成部13で形成される指向性は図5のように左方向に死角を有するものとなる。
なお、以降の説明では、説明便宜上、θ=90度であることを想定して動作説明を行うが、本発明の実施の際はこの設定に限定されるものではない。
コヒーレンス計算部14は、第1の指向性形成部12から得られた信号B1(f、K)と、第2の指向性形成部13から得られた信号B2(f、K)とに基づいて、コヒーレンスCOH(K)を求め、算出したコヒーレンスCOH(K)を発話速度演算部15に与えるものである。
ここで、コヒーレンス計算部14によるコヒーレンスCOHの演算方法は、特に限定されるものではないが、式(3)及び式(4)に従ってコヒーレンスCOHを求めることができる(ここでもフレームインデックスKは計算に関与しないので、式中には記載しない)。
発話速度算出部15は、コヒーレンス計算部14からコヒーレンスCOH(K)を受け取り、コヒーレンスCOHの変動を求めて、そのコヒーレンスの変動に基づいて発話速度を求めるものである。
第1の実施形態の発話速度算出部15は、直前フレーム区間のコヒーレンス値と現在のフレーム区間のコヒーレンス値とを比較して、コヒーレンス値の差を求める。そして、そのコヒーレンス値の差に基づいて発話速度を求めるようにする。つまり、発話速度検出部15は、直前フレーム区間及び現在フレーム区間の母音部におけるコヒーレンス値の差に応じて発話速度を求める。
上述したように、発話速度が速い場合にはコヒーレンスが急速に小さくなるという特性がある。そこで、直前フレーム区間でのコヒーレンス値との比較により、コヒーレンス値の差が大きい場合には発話速度は比較的速く、逆にコヒーレンス値の差が小さい場合には、発話速度が比較的遅いといえる。
図6は、発話速度算出部15の内部構成を示す内部構成図である。図6において、発話速度検出部15は、コヒーレンス受信部51、コヒーレンス変動計算部52、コヒーレンス記憶部53、発話速度照合部54、発話速度記憶部55、発話速度出力部56を有する。
コヒーレンス受信部51は、コヒーレンス計算部14からコヒーレンスCOHを受信し、受信したコヒーレンスCOHをコヒーレンス変動計算部52に与えるものである。
コヒーレンス変動計算部52は、一つ前の分析フレームにおいて得られたコヒーレンス値COH(K−1)と現在の分析フレームで得られたコヒーレンス値COH(K)とを比較して、コヒーレンス値の差を求めるものである。
コヒーレンス記憶部53は、一つ前の分析フレームでのコヒーレンス値COH(K-1)を一時的に記憶するものである。コヒーレンス記憶部53が一時的にCOH (K-1)を記憶し、上記コヒーレンス値の差が求められるときに、コヒーレンス変動計算部52からCOH(K-1)が読み出される。
発話速度記憶部55は、コヒーレンス値の差に応じた発話速度を記憶するものである。ここで、発話速度記憶部55は、コヒーレンス値の差と発話速度とを対応させた対応テーブルを記憶する。
図7は、第1の実施形態のコヒーレンス値の差と発話速度とを対応させた対応テーブルの構成例を示す構成図である。図7に例示する対応テーブルは、コヒーレンス値の差が小さいときは発話速度が遅く、コヒーレンス値の差が大きいときには発話速度が速くなる関係が設定されている。
発話速度照合部54は、発話速度記憶部55を参照し、コヒーレンス値の差に応じて発話速度を求めるものである。
なお、この実施形態では、発話速度照合部54は、発話速度記憶部55に記憶される対応テーブルを用いて、コヒーレンス値の差に応じた発話速度を求める場合を例示するが、これ以外の方法を用いてもよい。例えば、発話速度照合部54は、コヒーレンス値の差に応じた関係式に従って発話速度を求めるようにしてもよい。これにより、より精度の高い発話速度を求めることができ、加えて、発話速度記憶部における対応テーブルが不要となるので、装置に必要なメモリを削減することができるため、装置を省電力化、小型化できる。
発話速度出力部56は、発話速度照合部54により求められた発話速度を後段の構成要素に出力するものである。なお、後段の構成要素は図示しないが、発話速度に応じて出力音声の再生速度を変換する発話速度変換手段などを適用することができる。
(B−2)第1の実施形態の動作
次に、第1の実施形態の発話速度検出装置10における発話速度検出処理の動作を、図面を参照しながら説明する。
次に、第1の実施形態の発話速度検出装置10における発話速度検出処理の動作を、図面を参照しながら説明する。
まず、音源から発生した音波信号はマイクm1及びマイクm2に捕捉され、マイクm1及びマイクm2からの音声信号s1(n)及びs2(n)は、FFT部11に入力される。
このとき、マイクm1及びマイクm2からの信号はAD変換部によりディジタル信号に変換された信号s1(n)及びs2(n)が、FFT部11に出力される。
信号s1(n)及び信号s2(n)は、FFT部11により高速フーリエ変換が行なわれ、時間領域から周波数領域に変換されて信号X1(f、K)及びX2(f、K)が生成される。そして、周波数領域に変換された信号X1(f、K)及びX2(f、K)は、第1の指向性形成部12及び第2の指向性形成部13に与えられる。
第1の指向性形成部12及び第2の指向性形成部13では、式(1)及び式(2)に従って、特定方向に死角を有する指向性信号B1(f、K)及びB2(f、K)が形成され、その信号B1(f、K)及びB2(f、K)がコヒーレンス計算部14n与えられる。
コヒーレンス計算部14では、取得した信号B1(f、K)及びB2(f、K)を式(3)及び(4)に適用することで、当該フレーム区間におけるコヒーレンスCOH(K)を求める。そして、コヒーレンス計算部14により求められたコヒーレンスCOH(K)は、発話速度検出部15に与えられる。
発話速度検出部15において、コヒーレンス計算部14により求められた当該フレームでのコヒーレンスCOH(K)は、発話速度検出部15のコヒーレンス計算部53に記憶される。
次のフレーム区間において、コヒーレンス計算部14により求められたフレーム区間におけるコヒーレンスCOH(K)が与えられると、発話速度検出部15のコヒーレンス変動計算部52により、直前の分析フレームでのコヒーレンスCOH(K−1)と、現在の分析フレームにおけるコヒーレンスCOH(K)とが比較され、そのコヒーレンスの差delが求められる。
そして、発話速度照合部54は、発話速度記憶部55に記憶される対応テーブルを参照して、コヒーレンスの差delと対応する発話速度を求め、発話速度出力部56が、求められた発話速度v(K)を出力する。
発話速度照合部54は、例えば図7に例示する対応テーブルを参照して、コヒーレンス差(すなわち、コヒーレンスの変動)に応じた発話速度を求める。これは、発話速度が速い場合には、コヒーレンスが急激に小さくなり、逆に発話速度が遅い場合には、コヒーレンスがゆっくりと小さくなるという特性を利用して、連続するフレーム区間のコヒーレンスの変動を観測することで、コヒーレンス値の差が小さい場合には発話速度が速くなり、コヒーレンス値の差が大きい場合には発話速度が遅くなるということがいえる。
そこで、第1の実施形態では、図7に例示するように、例えば、コヒーレンス値の差が0.1〜0.2のときには発話速度がxであり、コヒーレンス値の差が0.2〜0.3のときにはy(x<y)である等のように、コヒーレンス値の差に応じて発話速度を決定する。
なお、上述したように、発話速度が変化する場合、子音部には規則的な変化はないが、母音部には規則的な変化がある。つまり、発話速度が速くなると母音部が短くなり、逆に発話速度が遅くなると母音部が長くなるという特性がある。また、子音部のコヒーレンスは小さいが、母音部のコヒーレンスは大きくなるという特性もある。
そこで、第1の実施形態では、母音部のコヒーレンスの変動に基づいて、発話速度を検出するものとする。つまり、発話速度照合部54は、コヒーレンス値の差delが所定閾値以下の場合には、母音部のコヒーレンスの特徴的な挙動でないとして、今回求めたコヒーレンス値の差delに応じた発話速度を無効にしてもよい。この場合、発話速度照合部54は、過去の発話速度を今回の発話速度として扱うようにしてもよい。例えば、発話速度照合部54は、一つ前の分析フレームにおける発話速度v(K-1)を今回の発話速度としてもよいし、過去の複数の分析フレームで得られた発話速度の平均値を現分析フレームにおける発話速度としてもよいし、あるいは、過去の分析フレームで得られた発話速度の中で最小の発話速度を現在の発話速度としてもよい。
(B−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、妨害音声の影響を受けることなく、発話速度を検出することができる。
以上のように、第1の実施形態によれば、妨害音声の影響を受けることなく、発話速度を検出することができる。
また、第1の実施形態によれば、音声区間を明示的に検出することなく妨害音声や背景雑音の影響による誤推定を防止する構成となっているので、従来のような音声検出処理に係る処理の複雑化を避け、処理負荷を軽減することができる。
さらに、第1の実施形態によれば、音声検出処理が不要となり、処理負荷も軽減されるので、音声通信装置に利用する場合でも、音声通信のリアルタイム性を維持することができる。
(C)第2の実施形態
次に、本発明の発話速度検出装置及び発話速度検出プログラムの第2の実施形態を、図面を参照しながら詳細に説明する。
次に、本発明の発話速度検出装置及び発話速度検出プログラムの第2の実施形態を、図面を参照しながら詳細に説明する。
(C−1)第2の実施形態の構成及び動作
第2の実施形態が第1の実施形態と異なる点は、発話速度検出部15の内部構成及び処理動作であり、それ以外のFFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14の処理動作は第1の実施形態と同じである。そこで、第2の実施形態でも、図1に示す発話速度検出装置10の構成を示す構成図を用いて説明する。
第2の実施形態が第1の実施形態と異なる点は、発話速度検出部15の内部構成及び処理動作であり、それ以外のFFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14の処理動作は第1の実施形態と同じである。そこで、第2の実施形態でも、図1に示す発話速度検出装置10の構成を示す構成図を用いて説明する。
第2の実施形態の発話速度検出部15は、各分析フレームにおけるコヒーレンスCOHが所定の閾値を連続して上回った区間長に基づいて、発話速度を検出するものである。
この構成の背景を説明する。発話速度が速い場合には、母音部のコヒーレンスは急速に小さくなるが、発話速度が遅い場合には、母音部のコヒーレンスがゆっくりと小さくなるという特性により、発話速度が遅い場合には、大きいコヒーレンス値をとる区間が長く続くことがいえる。
そこで、第2の実施形態では、発話速度検出部15が、コヒーレンスCOH(K)が連続して所定の閾値を上回った区間長に応じて発話速度を検出する。
図8は、第2の実施形態の発話速度検出部15の内部構成を示す内部構成図である。図8において、第2の実施形態の発話速度検出部15は、コヒーレンス受信部61、コヒーレンス区間長監視部62、発話速度照合部63、発話速度記憶部64、発話速度出力部65を有する。
コヒーレンス受信部61は、コヒーレンス計算部14からコヒーレンスCOH(K)を受信し、コヒーレンス区間長監視部62に与えるものである。
コヒーレンス区間長監視部62は、コヒーレンスCOH(K)の値が連続して所定の閾値Φを上回った区間長を求めるものである。
ここで、コヒーレンスCOH(K)の値が連続して所定の閾値Φを上回った区間長を求める方法は、種々の方法によって実現できる。例えば、第2の実施形態では、コヒーレンス区間長監視部62が、コヒーレンスCOH(K)の値が閾値Φを上回ったときに、変数lengthをインクリメントしていき、コヒーレンスCOH(K)の値が閾値Φ以下となると、それまでのlengthを発話速度照合部63に与え、lengthを初期化する。これにより、連続して閾値Φを上回る区間長を求めることができる。
発話速度記憶部64は、コヒーレンスが閾値Φを連続して上回った区間長と発話速度を対応付けた、対応テーブルが記憶される。
図9は、第2の実施形態のコヒーレンスCOHが閾値Φを上回った区間長lengthと発話速度とを対応付けた対応テーブルの構成例を示す構成図である。図9に例示する対応テーブルは、コヒーレンスCOHが閾値Φを上回った区間長が長くなると発話速度が遅く、同区間長が短くなると発話速度が速くなるように設定されている。
発話速度照合部63は、発話速度記憶部64に記憶される対応テーブルを参照し、コヒーレンス区間長監視部62からのlengthに対応する発話速度v(K)を求めるものである。
発話速度照合部63で発話速度を求めるにあたり、各分析フレームでのコヒーレンスCOHの大きさを、所定のフレーム区間に亘って観測することが必要となるので、発話速度照合部63は、1フレーム毎に発話速度を求めるのではなく、所定数のフレームを照合周期とし、照合周期毎(例えば、10フレーム毎)に発話速度を求め、その照合周期においては同じ発話速度を出力するようにしてもよい。これにより、発話速度の大小による区間長lengthの差が更に際立つので、発話速度の検出精度を高めることができる。さらに、発話速度の照合は照合周期毎に行えばよいので、1フレームごとに照合する場合と比較すると、発話速度の検出に係る処理負荷も更に軽減される。
また、閾値Φ以下のコヒーレンスCOH(K)はコヒーレンス区間長観測部62により観測されないので、コヒーレンス値が小さくなる子音部を除くことができる。さらに、妨害音声や背景雑音成分も除外される。すなわち、第1の実施形態と同様に、検出手段を別途設けることなく、母音部のコヒーレンスのみを参照に発話速度を推定することができる。
発話速度出力部65は、発話速度照合部63により求められた発話速度v(K)を後段の構成要素に出力するものである。
(C−2)第2の実施形態の効果
以上のように、第2の実施形態によれば、第1の実施形態と同じ効果を得ることができる。また、第2の実施形態によれば、コヒーレンス値の大きな区間長を求めるだけでよいので、第1の実施形態よりも更に処理負荷を軽減することができる。
以上のように、第2の実施形態によれば、第1の実施形態と同じ効果を得ることができる。また、第2の実施形態によれば、コヒーレンス値の大きな区間長を求めるだけでよいので、第1の実施形態よりも更に処理負荷を軽減することができる。
(D)第3の実施形態
次に、本発明の発話速度検出装置及び発話速度検出プログラムの第3の実施形態を、図面を参照しながら詳細に説明する。
次に、本発明の発話速度検出装置及び発話速度検出プログラムの第3の実施形態を、図面を参照しながら詳細に説明する。
(D−1)第3の実施形態の構成及び動作
第3の実施形態が第1の実施形態と異なる点は、発話速度検出部15の内部構成及び処理動作であり、それ以外のFFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14の処理動作は第1の実施形態と同じである。そこで、第3の実施形態でも、図1に示す発話速度検出装置10の構成を示す構成図を用いて説明する。
第3の実施形態が第1の実施形態と異なる点は、発話速度検出部15の内部構成及び処理動作であり、それ以外のFFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14の処理動作は第1の実施形態と同じである。そこで、第3の実施形態でも、図1に示す発話速度検出装置10の構成を示す構成図を用いて説明する。
図10は、第3の実施形態の発話速度検出部15の内部構成を示す内部構成図である。図10において、第3の実施形態の発話速度検出部15は、コヒーレンス受信部71、コヒーレンス長期平均計算部72、発話速度照合部73、発話速度記憶部74、発話速度出力部75を有する。
コヒーレンス受信部71は、コヒーレンス計算部14からコヒーレンスCOH(K)を受信し、受信したコヒーレンス長期平均計算部72に与えるものである。
コヒーレンス長期平均計算部72は、過去のコヒーレンスを加重平均するなどの公知の手法によって所定の数フレーム期間のコヒーレンスCOHの平均値ave_coh(K)を求め、求めたコヒーレンスCOHの平均値ave_coh(K)を発話速度照合部73に与えるものである。
発話速度記憶部74は、コヒーレンスの長期平均値ave_cohと発話速度とを対応させた対応テーブルを記憶するものである。
図11は、第3の実施形態のコヒーレンスの長期平均値ave_cohと発話速度とを対応付けた対応テーブルの構成例を示す構成図である。
図11に例示する対応テーブルは、コヒーレンスの長期平均値ave_cohが大きいほど発話速度は遅く、長期平均値ave_cohが小さいほど発話速度が速くなるように設定されている。なお、図11において、コヒーレンスの長期平均値A、B、Cの関係は、A>B>C>…の関係にある。
ここで、図11のような対応テーブルを設定した背景を述べる。発話速度が遅い場合、子音部の区間長は変わらないが、母音部の区間長が長くなるという特性から、発話速度が遅くなると、コヒーレンスが大きい値をとる母音部が発話信号に占める比率が相対的に高くなる。そのため、発話速度が遅くなると、コヒーレンスの長期平均値は、発話速度が速い場合よりも大きい値をとるようになる。このような関係を考慮し、図11に示すような対応テーブルを設定する。
発話速度照合部73は、発話速度記憶部74の対応テーブルを参照して、現在の分析フレームにおけるコヒーレンスの長期平均値ave_coh(K)に応じた発話速度を求めるものである。
なお、発話速度照合部73による発話速度の照合は、1フレーム毎に実施するのではなく、例えば10フレーム毎にするなど、照合周期を長くしてもよい。これにより発話速度の大小による長期平均値の差がさらに際立ちやすくなるので、発話速度の検出精度を高めることができる。
発話速度出力部75は、発話速度照合部73により求められた発話速度v(n)を後段の構成要素に出力するものである。
(D−2)第3の実施形態の効果
以上のように、第3の実施形態によれば、第1の実施形態と同様の効果を得ることができる。
以上のように、第3の実施形態によれば、第1の実施形態と同様の効果を得ることができる。
(E)他の実施形態
(E−1)上述した第1〜第3の実施形態で説明した発話速度検出装置は、電話、インターホン、テレビ会議等の音声通信を行なう音声通信装置に広く適用することができる。
(E−1)上述した第1〜第3の実施形態で説明した発話速度検出装置は、電話、インターホン、テレビ会議等の音声通信を行なう音声通信装置に広く適用することができる。
(E−2)上述した第1〜第3の実施形態では、音声通信装置に本発明を適用する場合を例示したが、音声信号を入力し、その入力された音声信号を利用することができる装置であれば、例えば、ICレコーダーや動画の音声再生装置等の装置に、本発明を適用するようにしてもよい。
(E−3)上述した第1の実施形態では、発話速度照合部54は、一つ前の分析フレームでのコヒーレンスCOH(K−1)と現在のフレームでのコヒーレンスCOH(K)との差を求めることとした。しかし、現フレームでのコヒーレンスCOH(K)と比較する対象は、一つ前のフレームでのコヒーレンスCOH(K-1)に限定するものではなく、例えば、過去2フレームで得られたコヒーレンスCOH(K-1)とCOH(K-2)の平均値を比較対象とするなど、過去の複数フレームで得られたコヒーレンスの平均値と、現分析フレームでのコヒーレンス値COH(K)との差を求め、この差に応じた発話速度を求めるようにしてもよい。これにより、コヒーレンスの瞬間的な変動の影響を軽減した安定的な発話速度検出が可能となる。
また、発話速度照合部54は、例えば、直近の数フレーム区間(例えば10フレーム区間)のコヒーレンスの平均値と、過去のフレーム区間のコヒーレンスの平均値との差を求め、この差に応じた発話速度を求めるようにしてもよい。
さらに、発話速度検出部ではコヒーレンスの差に基づいて発話速度を求めていたが、差ではなく商、あるいは、その他の演算方法によってコヒーレンス変動量を求めてもよい。その際、発話速度記憶部55には演算方法に応じたデータテーブルに変更すればよい。
(E−4)上述した第1の実施形態はコヒーレンスの差、第2の実施形態は閾値を上回ったコヒーレンスの連続区間長、第3の実施形態はコヒーレンスの長期平均値に基づいて発話速度を求める場合を例示したが、上記3種類の値のうち、いずれか2つ以上の組み合わせにより発話速度を求めるようにしてもよい。
(E−5)上述した第1〜第3の実施形態では、発話速度検出装置が2個のマイクm1及びマイクm2を備え、右方向に死角、左方向に死角を備える指向性信号B1(f、K)及びB2(f、K)に基づいてコヒーレンスを求める場合を例示した。
しかし、これに限定されず、4個のマイクと上下左右の4個の指向性信号を形成する第1〜第4の指向性形成部とを備え、右方向に死角を有する信号B1(f、K)、左方向に死角を有する信号B2(f、K)、上方向に死角を有する信号B3(f、K)、下方向に死角を有する信号B4(f、K)に基づいて、コヒーレンスCOHを求めるようにしてもよい。
10…発話速度検出装置、m1及びm2…マイク、
11…FFT部、12…第1の指向性形成部、13…第2の指向性形成部、
14…コヒーレンス計算部、15…発話速度検出部、
51、61及び71…コヒーレンス受信部、
52…コヒーレンス変動計算部、53…コヒーレンス記憶部、
62…コヒーレンス区間長監視部、72…コヒーレンス長期平均計算部、
54、63及び73…発話速度照合部、
55、64及び74…発話速度記憶部、
56、65及び75…発話速度出力部。
11…FFT部、12…第1の指向性形成部、13…第2の指向性形成部、
14…コヒーレンス計算部、15…発話速度検出部、
51、61及び71…コヒーレンス受信部、
52…コヒーレンス変動計算部、53…コヒーレンス記憶部、
62…コヒーレンス区間長監視部、72…コヒーレンス長期平均計算部、
54、63及び73…発話速度照合部、
55、64及び74…発話速度記憶部、
56、65及び75…発話速度出力部。
Claims (7)
- 入力信号を時間領域から周波数領域に変換する周波数解析手段と、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段と、
上記指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段と
を備えることを特徴とする発話速度検出装置。 - 上記発話速度検出手段が、
コヒーレンス値の変動量と発話速度とを対応付けた変動量対応テーブルを管理する変動量対応テーブル管理部と、
上記コヒーレンス計算手段により求められた分析フレームから得たコヒーレンス値と、上記分析フレームの1つまたは2つ以上前の分析フレームで得たコヒーレンス値とを比較して、コヒーレンス値の変動量を求めるコヒーレンス変動検出部と、
上記変動量対応テーブルを参照して、上記コヒーレンス値の変動量に対応する発話速度を求める発話速度決定部と
を有することを特徴とする請求項1に記載の発話速度検出装置。 - 上記コヒーレンス変動検出部は分析フレームから得たコヒーレンス値と、上記分析フレームの1つまたは2つ以上前の分析フレームで得たコヒーレンス値との差または商をコヒーレンス変動量とすることを特徴とする請求項2に記載の発話速度検出装置。
- 上記コヒーレンス変動検出部は分析フレームから得たコヒーレンス値と、上記分析フレームの1つまたは2つ以上前の分析フレームで得たコヒーレンス値の長期平均値との差または商をコヒーレンス変動量とすることを特徴とする請求項2に記載の発話速度検出装置。
- 上記発話速度検出手段が、
コヒーレンスが連続して所定の閾値を上回った区間の長さである、区間長と発話速度とを対応付けた区間長対応テーブルを管理する区間長対応テーブル管理部と、
上記コヒーレンス計算手段から得られるコヒーレンス値を監視し、コヒーレンス値が上記閾値を連続して超えた区間数をカウントすることで区間長を求める区間長監視部と、
上記区間長対応テーブルを参照して、上記区間長監視部により求められた上記区間長に対応付けられた発話速度を求める発話速度決定部と
を有することを特徴とする請求項1〜4のいずれかに記載の発話速度検出装置。 - 上記発話速度検出手段が、
長期平均のコヒーレンス値と発話速度とを対応付けた長期平均値対応テーブルを管理する長期平均値対応テーブル管理部と、
上記コヒーレンス計算手段からコヒーレンス値を受け取り、長期平均処理を施すことでコヒーレンス長期平均値を求める長期平均計算部と、
上記長期平均値対応テーブルを参照して、上記コヒーレンス長期平均値に対応する発話速度を求める発話速度決定部と
を有することを特徴とする請求項1〜5のいずれかに記載の発話速度検出装置。 - コンピュータを、
入力信号を時間領域から周波数領域に変換する周波数解析手段、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を形成する複数の指向性形成手段、
上記指向性形成手段により形成された所定の方位に死角を有する複数の信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、
上記コヒーレンス計算手段により求められた上記コヒーレンス値の変動に基づいて、発話速度を求める発話速度検出手段
として機能させることを特徴とする発話速度検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011272619A JP2013125084A (ja) | 2011-12-13 | 2011-12-13 | 発話速度検出装置及び発話速度検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011272619A JP2013125084A (ja) | 2011-12-13 | 2011-12-13 | 発話速度検出装置及び発話速度検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013125084A true JP2013125084A (ja) | 2013-06-24 |
Family
ID=48776368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011272619A Pending JP2013125084A (ja) | 2011-12-13 | 2011-12-13 | 発話速度検出装置及び発話速度検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013125084A (ja) |
-
2011
- 2011-12-13 JP JP2011272619A patent/JP2013125084A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11825279B2 (en) | Robust estimation of sound source localization | |
JP5706513B2 (ja) | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
JP2012150237A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP2009288215A (ja) | 音響処理装置及びその方法 | |
JP5838861B2 (ja) | 音声信号処理装置、方法及びプログラム | |
JP2016042613A (ja) | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
EP3606092A1 (en) | Sound collection device and sound collection method | |
CN106847299B (zh) | 延时的估计方法及装置 | |
JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN113284504A (zh) | 姿态检测方法、装置、电子设备及计算机可读存储介质 | |
JP6711205B2 (ja) | 音響信号処理装置、プログラム及び方法 | |
JP6314475B2 (ja) | 音声信号処理装置及びプログラム | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
JP2013125084A (ja) | 発話速度検出装置及び発話速度検出プログラム | |
JP5772562B2 (ja) | 目的音抽出装置及び目的音抽出プログラム | |
JP5970985B2 (ja) | 音声信号処理装置、方法及びプログラム | |
JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
JP6763319B2 (ja) | 非目的音判定装置、プログラム及び方法 | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP2018142822A (ja) | 音響信号処理装置、方法及びプログラム | |
JP6263890B2 (ja) | 音声信号処理装置及びプログラム | |
JP6903947B2 (ja) | 非目的音抑圧装置、方法及びプログラム | |
JP6221463B2 (ja) | 音声信号処理装置及びプログラム |