JP6106618B2 - 音声区間検出装置、音声認識装置、その方法、及びプログラム - Google Patents

音声区間検出装置、音声認識装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6106618B2
JP6106618B2 JP2014031276A JP2014031276A JP6106618B2 JP 6106618 B2 JP6106618 B2 JP 6106618B2 JP 2014031276 A JP2014031276 A JP 2014031276A JP 2014031276 A JP2014031276 A JP 2014031276A JP 6106618 B2 JP6106618 B2 JP 6106618B2
Authority
JP
Japan
Prior art keywords
speech
voice
noise
signal
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014031276A
Other languages
English (en)
Other versions
JP2015155982A (ja
Inventor
記良 鎌土
記良 鎌土
雅清 藤本
雅清 藤本
慶介 木下
慶介 木下
裕司 青野
裕司 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014031276A priority Critical patent/JP6106618B2/ja
Publication of JP2015155982A publication Critical patent/JP2015155982A/ja
Application granted granted Critical
Publication of JP6106618B2 publication Critical patent/JP6106618B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声ディジタル信号から音声区間を検出する技術、及び検出した音声区間に対して行う音声認識技術に関する。
特許文献1が、音声信号区間推定技術と雑音除去技術との間でパラメータ等の情報を密に共有し、音声信号区間推定技術と雑音除去技術とを統合的に扱うことにより、高精度な音声信号区間推定及び雑音除去を行うことを可能にする雑音除去技術として知られている。しかし、特許文献1では、主話者音声、他話者音声が考慮されていなかった。なお、主話者とは、対象とする人を意味し、主話者音声とはその音声である。また、他話者とは、主話者以外の人を意味し、他話者音声とはその音声である。
また、非特許文献1が、モバイル環境において他話者音声の直接音と反射音のエネルギー比に着目し、マルチステップ線形予測に基づき推定された残響成分から主話者音声区間の検出を行う技術として知られている。
特開2009−210647号公報
鎌土記良、小橋川哲、木下慶介、政瀧浩和、高橋敏、「モバイル音声認識における主話者音声区間検出への残響除去法の応用」、日本音響学会研究発表会講演論文集、2013年、pp.145-146
しかしながら、特許文献1では、音声とそうでない音との区別はつくが、他話者の音声と主話者の音声とを分離することができず、全ての音声を「音声区間」として判定してしまうため、主話者音声区間を推定することはできない。
また、非特許文献1では、入力信号に雑音が含まれる場合、雑音の影響により残響推定の精度が下がってしまい、結果として主話者音声の抽出精度が下がることがある。また、残響推定の前段において、雑音抑圧を行う構成も考えられるが、その場合、雑音抑圧と残響抑圧と音声区間検出とを独立に行うため雑音を抑え過ぎて残響推定の精度が下がってしまい、結果として主話者音声の検出精度が下がることがある。
本発明は、実環境下における単一マイクへの複数話者混入音声(主話者音声に加え他話者音声も含む)に対し、静音環境下のみならず、高雑音環境下でも高い精度で主話者音声の認識を行うことができる音声区間検出技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音声区間検出装置は、音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧部と、雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定部と、雑音抑圧音声ディジタル信号と残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調部と、音声モデルを用いて、雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別部を含む。
上記の課題を解決するために、本発明の他の態様によれば、音声区間検出方法は、雑音抑圧部が、音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧ステップと、残響推定部が、雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定ステップと、
主話者音声特徴強調部が、雑音抑圧音声ディジタル信号と残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調ステップと、主話者識別部が、音声モデルを用いて、雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別ステップを含む。
実環境下における単一マイクへの複数話者混入音声に対し、静音環境下のみならず、高雑音環境下でも高い精度で主話者音声の認識を行うことができるという効果を奏する。
第一実施形態に係る音声区間検出装置の機能ブロック図。 第一実施形態に係る音声区間検出装置の処理フローの例を示す図。 第一実施形態に係る音声区間検出雑音抑圧部の機能ブロック図。 第一実施形態に係る音声区間検出雑音抑圧部の処理フローの例を示す図。 図5Aは主話者の音声に対応する音声アナログ信号のイメージを表す図、図5Bは主話者外音に対応する音声アナログ信号のイメージを表す図。 図6Aは主話者の音声に対応する残響信号をベクトルで表わしたイメージを表す図、図6Bは主話者外音に対応する残響信号をベクトルで表わしたイメージを表す図。 図7Aは主話者の音声に対応する差分をベクトルで表わしたイメージを表す図、図7Bは主話者外音に対応する差分をベクトルで表わしたイメージを表す図。 第一実施形態に係る音声区間検出装置と、第二実施形態に係る音声認識装置との配置を説明するための図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
特許文献1にて処理された雑音成分を抑圧した信号に含まれる主話者音声を、残響推定法を用いて強調する。例えば、参考文献1の残響推定法を用いることができる。
[参考文献1]国際公開第WO2007/100137号パンフレット
参考文献1では、モバイル環境において、単一マイクで収録される主話者音声と他話者音声とにそれぞれ含まれる残響成分の差分が大きいことを利用して、主話者の音声を高精度に強調できる。また、単一マイクで収録される信号をそのまま利用するのではなく、そこから雑音成分を抑圧した信号を使用するため、残響推定の精度が元の信号をそのまま処理した場合より向上する。
さらに、本実施形態では元の信号から雑音と残響とを抑圧した信号を特許文献1の雑音除去装置に入力することで、再度、音声区間の判定をを行う。
このような構成により、主話者の音声が精度良く強調された信号の音声特徴量を基に、音声モデルを用いて、音声区間を統計的に計算することが可能となり、非特許文献1のように残響信号(のパワーをスムージングした対数信号)を閾値判定する場合と比較して精度の高い主話者音声区間検出が可能となる。
<第一実施形態に係る音声区間検出装置>
図1は音声区間検出装置10の機能ブロック図、図2はその処理フローの例を示す図である。音声区間検出装置10は、例えば、音声認識処理に用いる入力音声(以下「音声アナログ信号」ともいう)から他話者音声・無音・雑音区間を除去することで主話者の音声を高精度に認識することができる。
まず、単一マイクへの入力信号に含まれる主話者の音声区間を、入力信号に含まれる残響成分から抽出する。さらに主話者音声を音声特徴量に変換し、これを入力として音声区間検出のための音声モデルと共に音声尤度計算を行うことにより統計的な枠組みで高精度な主話者の音声区間を抽出する。さらに、この主話者の音声区間を用いることで、高精度に主話者音声の音声認識が可能となる。通常、主話者以外の音声や雑音は、非音声とは判定されずに音声認識されてしまい音声認識結果が誤認識として湧き出す事になる。そのため、主話者の音声区間のみを高精度に抽出することで、認識対象外の音声や雑音による音声認識システムへの悪影響を低減する事ができる。
音声区間検出装置10は、音声信号取得部100、音声区間検出雑音抑圧部110、残響推定部120、ゲイン調整部130、主話者音声特徴強調部140及び主話者音声区間抽出部160を含む。また、音声区間検出雑音抑圧部110は、主話者識別部150を含む。音声区間検出装置10は、マイクロホン90で収音した音声アナログ信号を受け取り、主話者の発話区間に対応し、雑音成分の抑圧された音声ディジタル信号(以下「雑音抑圧音声ディジタル信号」ともいう)を出力する。以下、各部の詳細を説明する。
<音声信号取得部100>
入力:音声アナログ信号
出力:音声ディジタル信号
音声信号取得部100は、アナログの音声信号(音声アナログ信号)を受け取り、ディジタルの音声信号(音声ディジタル信号)に変換し(s100)、出力する。
<音声区間検出雑音抑圧部110>
入力:音声ディジタル信号
出力:雑音抑圧音声ディジタル信号
音声区間検出雑音抑圧部110は、音声ディジタル信号を受け取り、音声モデルを用いて、音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求め(s110)、主話者音声特徴強調部140、残響推定部120、主話者音声区間抽出部160に出力する。
例えば、音声区間検出雑音抑圧部110は、雑音抑圧と音声区間検出を同時に行い、特許文献1の雑音除去装置により実現される。音声区間検出雑音抑圧部110の処理の概要を説明する。
図3は音声区間検出雑音抑圧部110の機能ブロック図、図4はその処理フローの例を示す図である。
音声区間検出雑音抑圧部110は、音響信号分析部111と、モデルパラメータ記憶部112と、前向き推定部113と、後向き推定部114と、パラメータ記憶部115と、状態確率比算出部116と、音声信号区間推定部117と、雑音除去部118とを含む。
音響信号分析部111は、音声ディジタル信号を受け取り、音声ディジタル信号の音声特徴量を一定時間区間であるフレームごとに抽出して出力する(s111)。
モデルパラメータ記憶部112は、クリーン音声信号と無音信号の各出力確率を、それぞれ、複数の正規分布を含有する混合正規分布で表現した確率モデルの確率モデルパラメータを前述の音声モデルとして利用に先立ち記憶しておく。
前向き推定部113は、音声特徴量と、モデルパラメータ記憶部112に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、過去のフレームから現在のフレームに向かって並列非線形カルマンフィルタにより現在のフレームの雑音モデルパラメータを逐次推定して出力する(s113)。
後向き推定部114は、前向き推定部113から出力された雑音モデルパラメータと、モデルパラメータ記憶部112に記憶されたクリーン音声信号と無音信号の各確率モデルパラメータとが入力され、未来のフレームから現在のフレームに向かって並列カルマンスムーザにより現在フレームの雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき、音声(雑音+クリーン音声)信号と非音声(雑音+無音)信号の各出力確率をそれぞれ混合正規分布で表現した確率モデルの確率モデルパラメータを逐次推定し、音声信号と非音声信号それぞれの出力確率を算出して出力する(s114)。
パラメータ記憶部115は、前向き推定部113及び後向き推定部114における処理の過程で得られた計算結果を記憶する(s115)。
状態確率比算出部116は、音声信号及び非音声信号それぞれの出力確率が入力され、音声状態確率と、非音声状態確率と、非音声状態確率に対する音声状態確率の比とを算出し、これらを出力する(s116)。
音声信号区間推定部117は、状態確率の比が入力され、フレームごとに状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を出力する(s117)。
雑音除去部118は、音声信号及び非音声信号の各確率モデルパラメータである正規分布ごとの平均と、クリーン音声信号及び無音信号の各確率モデルパラメータである正規分布ごとの平均と、音声状態確率及び非音声状態確率とが入力される。雑音除去部118は、音声信号と非音声信号の各確率モデルパラメータである正規分布ごとの平均に対する、クリーン音声信号と無音信号の各確率モデルパラメータである正規分布ごとの平均の各相対値を、音声状態確率及び非音声状態確率を用いて加重平均し、雑音信号を除去する周波数応答フィルタを生成し、周波数応答フィルタをインパルス応答フィルタに変換し、音声ディジタル信号に対してインパルス応答フィルタを畳み込んで雑音抑圧音声ディジタル信号を生成して出力する(s118)。
なお、特許文献1では、音声信号区間推定部117の判定結果に基づき、音声状態に属するフレームのみ雑音除去を行うため、音声信号区間推定部117における処理が必要であるが、全てのフレームに対して雑音除去を行う場合には、音声信号区間推定部117における処理を省略してもよい。
音声区間検出雑音抑圧部110は、主話者識別部150を含む。主話者識別部150の処理内容は後述する。
<残響推定部120>
入力:雑音抑圧音声ディジタル信号
出力:残響信号
残響推定部120は、雑音抑圧音声ディジタル信号に含まれる残響成分を推定し(s120)、残響信号を取得する。以下、残響成分を推定する方法の概要を説明する。
原音声信号s(z)は、式(1)のように、白色信号u(z)に短い自己回帰(Auto-Regressive:以下「AR」ともいう)過程がかかったものである。AR過程のZ変換をv(z)=1/(1-b(z))とし、1-b(z)を多項式とする。
Figure 0006106618
この原音声信号s(z)が空間を伝達し、マイクで観測される信号x(z)は、式(1)より、以下のように表される。
Figure 0006106618
ここで、h(z)は、音源からマイクまでの室内伝達関数を表す。音声信号は、v(z)に従って強い短期的な相関を有する。そこで、式(3)による短期的な相関を取り除く線形予測によるPre-whitening処理を施すことにより、v(z)は、ほぼ白色信号とみなせ、v(z)≒1が成り立つ。
Figure 0006106618
ここで、b(p)は、v(z)を効果的に抑圧するための線形予測係数であり、式(4)により求められる。
Figure 0006106618
ここで、r(i)は、マイクで観測された信号x(z)がiサンプルずれた場合の自己相関係数)を示す。この線形予測は、30msのフィルタ長で実施し、30ms以内に含まれる初期反射音成分及び音声の短期的な相関が取り除かれることが期待される。
Dをステップサイズ(遅延)、Lをフィルタ長とすると、残響信号d(n)は以下のように定式化することができる。
Figure 0006106618
ここで、a(l)(ローマ字のエル)は線形予測係数、x~(n)は式(3)により求められたPre-whitening処理された観測音を表す。a(l)をz変換したa(z)は、式(6)で求められる。
Figure 0006106618
ここで、hmin(z)とhmax(z)は、それぞれh(z)の最小位相成分(Z平面上の単位円内の零点に対応する成分)と最大位相成分(Z平面上の単位円外の零点に対応する成分)を表す。また、min[hmax(z)]は、hmax(z)を最小位相化する関数を表す。
一般に、Dは10〜200msに相当する値を、Lは100ms〜500msに相当する値を設定する。
本手法は、例えば参考文献1に詳しい。
上述の方法や、他の既存の残響推定技術を用いて、残響推定部120は、雑音抑圧音声ディジタル信号x(n)に含まれる残響成分を推定し、残響信号d(n)を取得する。
<ゲイン調整部130>
入力:残響信号
出力:ゲイン調整された残響信号
ゲイン調整部130は、残響信号を受け取り、残響信号にゲインGを乗算し(s130)、ゲイン調整された残響信号を得、出力する。ゲインGは、1よりも小さく0より大きな値を用いる。例えば、0.8〜1.0の値を用いる。これにより、後述する主話者音声特徴強調部140において、雑音抑圧音声ディジタル信号と残響信号との差分を求める際に生じる歪を低減させることができる。
<主話者音声特徴強調部140>
入力:雑音抑圧音声ディジタル信号、ゲイン調整された残響信号
出力:雑音残響抑圧音声ディジタル信号
主話者音声特徴強調部140は、雑音抑圧音声ディジタル信号とゲイン調整された残響信号とを受け取り、これらの信号の差を算出し(s140)、雑音残響抑圧音声ディジタル信号として出力する。なお、雑音残響抑圧音声ディジタル信号は、主話者音声が強調された音声ディジタル信号といってもよい。
図5Aは主話者の音声に対応する音声アナログ信号のイメージを表す図、図5Bは他話者の音声に対応する音声アナログ信号のイメージを表す図である。図5Aに示すように、主話者の音声に対応する音声アナログ信号は、直接音Dが大きく、反射音R(残響成分)が小さい。一方、図5Bに示すように、他話者の音声に対応する音声アナログ信号は、直接音Dが小さく、反射音R(残響成分)が大きい。図6Aは主話者の音声に対応する残響信号をベクトルで表わしたイメージを表す図、図6Bは他話者の音声に対応する残響信号をベクトルで表わしたイメージを表す図である。図7Aは主話者の音声に対応する差分をベクトルで表わしたイメージを表す図、図7Bは他話者の音声に対応する差分をベクトルで表わしたイメージを表す図である。なお、図7中の小さい矢印は除去しきれなかった残響成分R’を表す。
主話者音声特徴強調部140では、ゲイン調整された残響信号と雑音抑圧音声ディジタル信号の差分を計算することにより、残響抑圧を行う。この減算処理の結果、主話者音声の特徴が強調され(図7参照)、音声ディジタル信号中の主話者音声の特徴量を高精度に抽出することができるようになる。
ここで言う、主話者音声の特徴とは、残響抑圧後の信号と残響抑圧前の信号とのメルスペクトル上での特徴量の差分が小さいことを指している。一方、他話者音声の特徴量は、これに比べて残響抑圧により大きく変化するか、もしくは残響抑圧法の特性上、直接波が不明瞭な場合は残響推定ができず無音化される。そのため、残響抑圧後の信号の特徴量、メルスペクトル表現においては、主話者と他話者との差が強調されることとなる。なお、メルスペクトルは公知の技術であるため、ここでの説明は省略する。別の言い方をすると、他話者音声の場合、残響抑圧後の信号と残響抑圧前の信号とのメルスペクトル上での特徴量の差分が大きくなるか(残響抑圧により大きく変化するため)、または、差分が0(残響推定ができず残響が無音化されるため、0となり、残響抑圧前後の信号が全く同じ信号になるため)になる。差分が小さい場合(主話者)と、差分が大きい場合や0の場合(他話者)とは明らかに異なるため、主話者と他話者との差が強調されることとなる。
ゲイン調整部130及び主話者音声特徴強調部140の処理を合わせて、スペクトルサブトラクション法という既知の手法で実現することができる(参考文献2参照)。
[参考文献2] BOLL, S. F., "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoust., Speech, Signal Processing, 1979, vol. ASSP-27, pp. 113-120
<主話者識別部150>
入力:雑音残響抑圧音声ディジタル信号
出力:区間情報
主話者識別部150は、雑音残響抑圧音声ディジタル信号を受け取り、音声モデルを用いて、雑音残響抑圧音声ディジタル信号から主話者音声区間を識別し(s150)、識別結果を区間情報として出力する。例えば、主話者識別部150は、音響信号分析部111と、モデルパラメータ記憶部112と、前向き推定部113と、後向き推定部114と、パラメータ記憶部115と、状態確率比算出部116と、音声信号区間推定部117とを含む。音声ディジタル信号に代えて雑音残響抑圧音声ディジタル信号を用いて、s111〜s117を行い(図4参照)、主話者識別部150内の音声信号区間推定部117は、状態確率の比が入力され、フレームごとに状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を区間情報として出力する(s117)。
なお、雑音残響抑圧音声ディジタル信号は、主話者音声が強調されているため、主話者音声に対応するフレームだけが音声状態に属すると判断され、他話者音声を含む主話者外音に対応するフレームは非音声状態に属すると判断されやすくなる。なお、主話者外音とは、主話者音声以外の音を意味し、他話者音声や雑音、無音等を含む。
これにより、主話者音声の特徴が強調された信号である雑音残響抑圧音声ディジタル信号が特許文献1の雑音除去装置(より詳しく言えば、音響信号分析部111)に入力されることとなり、主話者音声が精度良く強調された音声特徴量を基に、音声モデルを用いて、音声区間を統計的に再度計算することが可能となり、単なる閾値計算と比較して精度の高い主話者音声区間検出が可能となる。
なお、残響推定部120における残響計算の際に遅延が生じているため、この遅延分を考慮し、出力される音声区間の時間を遅延分巻き戻す処理を行う。
このように、雑音抑圧処理時の音声モデルと同様のモデルを利用することで、音声信号区間推定技術と雑音抑圧技術とを統合的に扱い、高精度な音声区間推定及び雑音抑圧を行う。
<主話者音声区間抽出部160>
入力:雑音抑圧音声ディジタル信号、区間情報
出力:主話者の音声に対応する雑音抑圧音声ディジタル信号
主話者音声区間抽出部160は、雑音抑圧音声ディジタル信号と区間情報とを受け取り、区間情報を用いて、雑音抑圧音声ディジタル信号から主話者の音声に対応する部分を抽出し(s160)、音声区間検出装置10の出力値として出力する。
例えば、区間情報として、開始時間と終了時間を用いる場合、開始時間と終了時間との間のサンプルに1を、さらに、開始時間と終了時間のマージンを確保するため、主話者音声区間から主話者外音区間へと切り替わる開始時間の前にNサンプル(0.1〜0.4msに対応するサンプル長)の1を、1から0へと切り替わる終了時間の後にMサンプル(0.1〜0.4msに対応するサンプル長)の1を付加するマージン処理を行う。このマージン処理をした主話者音声区間(つまり、開始時間前Nサンプルから終了時間後Mサンプルに対応する部分までが1であり、他の部分が0である時間サンプル列)を雑音抑圧音声ディジタル信号に時間サンプル毎に乗算することで主話者音声を抽出することができる。
また、雑音抑圧音声ディジタル信号に主話者音声区間のフラグを付与した信号を区間情報として用いた場合、その信号にマージン処理を行い(つまり、始端と終端のそれぞれNサンプルとMサンプルの雑音抑圧音声ディジタル信号に主話者音声区間のフラグを付与する)、主話者音声区間のフラグを付与した部分に対応する雑音抑圧音声ディジタル信号を抽出する。また、雑音抑圧音声ディジタル信号に主話者外音区間のフラグを付与した信号を区間情報として用いた場合、主話者外音区間のフラグを付与していない雑音抑圧音声ディジタル信号にマージン処理を行い、主話者外音区間のフラグを付与していない部分に対応する雑音抑圧音声ディジタル信号を抽出する。
<効果>
実環境下における単一マイクへの複数話者混入音声に対し、静音のみならず、高雑音環境下でも高い精度で主話者音声の認識を行うことができる。また、その結果、マイクロホンの数を少なくすることができ、ハードウェアの構成も軽量化できる。
<変形例>
主話者音声区間抽出部160では、雑音抑圧音声ディジタル信号に代えて、元の音声ディジタル信号や、雑音残響抑圧音声ディジタル信号を用いてもよい。その場合であっても、主話者音声を抽出することができる。ただし、後段において、音声認識処理を行う場合には、雑音抑圧音声ディジタル信号を用いたときに最も認識精度が高まると考えられる。
音声区間検出装置10は、入力信号として音声ディジタル信号を受け取る場合には、必ずしも音声信号取得部100を備えなくともよい。
音声区間検出装置10は、必ずしもゲイン調整部130を備えなくともよい。この場合、主話者音声特徴強調部140では、ゲイン調整されていない残響信号をそのまま用いる。
音声区間検出装置10は、必ずしも主話者音声抽出部170を備えなくともよい。主話者識別部150の出力値(区間情報)を、音声区間検出装置10の出力値として出力する。
主話者識別部150は、必ずしも音声区間検出雑音抑圧部110の一部である必要はない。要は、雑音抑圧処理時の音声モデルと同様のモデルを利用することで、音声信号区間推定技術と雑音抑圧技術とを統合的に扱うことができればよい。
<第二実施形態>
図8は、音声区間検出装置10と、音声認識装置800との配置を説明するための図である。音声認識装置800の前段に音声区間検出装置10を配置する。
音声認識装置800は、音声信号を入力として前述の音声区間検出装置10によって得られた信号を用いて、音声認識を行う。なお、音声信号とは、音声アナログ信号、音声ディジタル信号、雑音抑圧音声ディジタル信号及び雑音残響抑圧音声ディジタル信号を含む概念である。
例えば、前述の音声区間検出装置10によって得られた主話者の音声に対応する雑音抑圧音声ディジタル信号を受け取り、その音声認識結果を出力する。
また、例えば区間情報を音声区間検出装置10の出力値として出力し(第一実施形態の変形例参照)、区間情報として主話者音声区間または主話者外音区間の少なくとも一方の開始時間と終了時間等を用いる場合、区間情報に対応する雑音抑圧音声ディジタル信号に対して音声認識を行い、音声認識結果を出力する。
また、例えば、区間情報を音声区間検出装置10の出力値として出力し(第一実施形態の変形例参照)、区間情報として音声ディジタル信号に主話者音声区間または主話者外音区間の少なくとも一方のフラグを付与した信号等を区間情報として用いる場合、主話者音声区間のフラグを付与された雑音抑圧音声ディジタル信号に対して音声認識を行い、その音声認識結果を出力する。
このように、音声区間検出装置10によって得られた主話者の音声に対応する音声ディジタル信号(雑音抑圧音声ディジタル信号、雑音残響抑圧音声ディジタル信号)や区間情報を用いることで、音声認識処理に用いる入力音声(音声信号)から主話者外音・無音・雑音等を除去し、主話者の音声に対してのみ音声認識処理を行うことができ、その精度を向上させることができる。通常、主話者外音や雑音は、非音声とは判定されずに音声認識されてしまい音声認識結果が誤認識として湧き出すことになるが、音声区間検出装置10により、主話者音声区間のみを高精度に検出することで、認識対象外の音声や雑音による音声認識システムへの悪影響を低減する事が出来る。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (4)

  1. 音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧部と、
    前記雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定部と、
    前記雑音抑圧音声ディジタル信号と前記残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調部と、
    前記音声モデルを用いて、前記雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別部を含む、
    音声区間検出装置。
  2. 音声信号を入力として請求項1の音声区間検出装置から出力される信号を用いて、前記音声信号に対して音声認識を行う音声認識装置。
  3. 雑音抑圧部が、音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧ステップと、
    残響推定部が、前記雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定ステップと、
    主話者音声特徴強調部が、前記雑音抑圧音声ディジタル信号と前記残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調ステップと、
    主話者識別部が、前記音声モデルを用いて、前記雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別ステップを含む、
    音声区間検出方法。
  4. 請求項1の音声区間検出装置、または、請求項2の音声認識装置として、コンピュータを機能させるためのプログラム。
JP2014031276A 2014-02-21 2014-02-21 音声区間検出装置、音声認識装置、その方法、及びプログラム Active JP6106618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014031276A JP6106618B2 (ja) 2014-02-21 2014-02-21 音声区間検出装置、音声認識装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014031276A JP6106618B2 (ja) 2014-02-21 2014-02-21 音声区間検出装置、音声認識装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015155982A JP2015155982A (ja) 2015-08-27
JP6106618B2 true JP6106618B2 (ja) 2017-04-05

Family

ID=54775315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014031276A Active JP6106618B2 (ja) 2014-02-21 2014-02-21 音声区間検出装置、音声認識装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6106618B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6536320B2 (ja) * 2015-09-28 2019-07-03 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN110853622B (zh) * 2019-10-22 2024-01-12 深圳市本牛科技有限责任公司 语音断句方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
JP4856662B2 (ja) * 2008-02-29 2012-01-18 日本電信電話株式会社 雑音除去装置、その方法、そのプログラム及び記録媒体
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus

Also Published As

Publication number Publication date
JP2015155982A (ja) 2015-08-27

Similar Documents

Publication Publication Date Title
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
EP2381702B1 (en) Systems and methods for own voice recognition with adaptations for noise robustness
KR20170060108A (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
CN111370014A (zh) 多流目标-语音检测和信道融合
JPH09212196A (ja) 雑音抑圧装置
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP4975025B2 (ja) クリーン音声の事前分布を使用した多感覚応用の音声強調
JP5156043B2 (ja) 音声判別装置
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP2011191423A (ja) 発話認識装置、発話認識方法
JP6151236B2 (ja) 雑音抑圧装置、その方法及びプログラム
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
CN112309417A (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP6265903B2 (ja) 信号雑音減衰
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP2005258158A (ja) ノイズ除去装置
JP4098647B2 (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
US11977855B2 (en) System and method for automatic speech translation based on zero user interface
JP6125953B2 (ja) 音声区間検出装置、その方法、及びプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170306

R150 Certificate of patent or registration of utility model

Ref document number: 6106618

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150