JP6106618B2 - 音声区間検出装置、音声認識装置、その方法、及びプログラム - Google Patents
音声区間検出装置、音声認識装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6106618B2 JP6106618B2 JP2014031276A JP2014031276A JP6106618B2 JP 6106618 B2 JP6106618 B2 JP 6106618B2 JP 2014031276 A JP2014031276 A JP 2014031276A JP 2014031276 A JP2014031276 A JP 2014031276A JP 6106618 B2 JP6106618 B2 JP 6106618B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- noise
- signal
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
主話者音声特徴強調部が、雑音抑圧音声ディジタル信号と残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調ステップと、主話者識別部が、音声モデルを用いて、雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別ステップを含む。
特許文献1にて処理された雑音成分を抑圧した信号に含まれる主話者音声を、残響推定法を用いて強調する。例えば、参考文献1の残響推定法を用いることができる。
[参考文献1]国際公開第WO2007/100137号パンフレット
参考文献1では、モバイル環境において、単一マイクで収録される主話者音声と他話者音声とにそれぞれ含まれる残響成分の差分が大きいことを利用して、主話者の音声を高精度に強調できる。また、単一マイクで収録される信号をそのまま利用するのではなく、そこから雑音成分を抑圧した信号を使用するため、残響推定の精度が元の信号をそのまま処理した場合より向上する。
図1は音声区間検出装置10の機能ブロック図、図2はその処理フローの例を示す図である。音声区間検出装置10は、例えば、音声認識処理に用いる入力音声(以下「音声アナログ信号」ともいう)から他話者音声・無音・雑音区間を除去することで主話者の音声を高精度に認識することができる。
入力:音声アナログ信号
出力:音声ディジタル信号
音声信号取得部100は、アナログの音声信号(音声アナログ信号)を受け取り、ディジタルの音声信号(音声ディジタル信号)に変換し(s100)、出力する。
入力:音声ディジタル信号
出力:雑音抑圧音声ディジタル信号
音声区間検出雑音抑圧部110は、音声ディジタル信号を受け取り、音声モデルを用いて、音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求め(s110)、主話者音声特徴強調部140、残響推定部120、主話者音声区間抽出部160に出力する。
入力:雑音抑圧音声ディジタル信号
出力:残響信号
残響推定部120は、雑音抑圧音声ディジタル信号に含まれる残響成分を推定し(s120)、残響信号を取得する。以下、残響成分を推定する方法の概要を説明する。
本手法は、例えば参考文献1に詳しい。
入力:残響信号
出力:ゲイン調整された残響信号
ゲイン調整部130は、残響信号を受け取り、残響信号にゲインGを乗算し(s130)、ゲイン調整された残響信号を得、出力する。ゲインGは、1よりも小さく0より大きな値を用いる。例えば、0.8〜1.0の値を用いる。これにより、後述する主話者音声特徴強調部140において、雑音抑圧音声ディジタル信号と残響信号との差分を求める際に生じる歪を低減させることができる。
入力:雑音抑圧音声ディジタル信号、ゲイン調整された残響信号
出力:雑音残響抑圧音声ディジタル信号
主話者音声特徴強調部140は、雑音抑圧音声ディジタル信号とゲイン調整された残響信号とを受け取り、これらの信号の差を算出し(s140)、雑音残響抑圧音声ディジタル信号として出力する。なお、雑音残響抑圧音声ディジタル信号は、主話者音声が強調された音声ディジタル信号といってもよい。
[参考文献2] BOLL, S. F., "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoust., Speech, Signal Processing, 1979, vol. ASSP-27, pp. 113-120
入力:雑音残響抑圧音声ディジタル信号
出力:区間情報
主話者識別部150は、雑音残響抑圧音声ディジタル信号を受け取り、音声モデルを用いて、雑音残響抑圧音声ディジタル信号から主話者音声区間を識別し(s150)、識別結果を区間情報として出力する。例えば、主話者識別部150は、音響信号分析部111と、モデルパラメータ記憶部112と、前向き推定部113と、後向き推定部114と、パラメータ記憶部115と、状態確率比算出部116と、音声信号区間推定部117とを含む。音声ディジタル信号に代えて雑音残響抑圧音声ディジタル信号を用いて、s111〜s117を行い(図4参照)、主話者識別部150内の音声信号区間推定部117は、状態確率の比が入力され、フレームごとに状態確率の比としきい値とを比較して、各フレームが音声状態に属するか非音声状態に属するかを示す判定結果を区間情報として出力する(s117)。
入力:雑音抑圧音声ディジタル信号、区間情報
出力:主話者の音声に対応する雑音抑圧音声ディジタル信号
主話者音声区間抽出部160は、雑音抑圧音声ディジタル信号と区間情報とを受け取り、区間情報を用いて、雑音抑圧音声ディジタル信号から主話者の音声に対応する部分を抽出し(s160)、音声区間検出装置10の出力値として出力する。
<効果>
実環境下における単一マイクへの複数話者混入音声に対し、静音のみならず、高雑音環境下でも高い精度で主話者音声の認識を行うことができる。また、その結果、マイクロホンの数を少なくすることができ、ハードウェアの構成も軽量化できる。
<変形例>
主話者音声区間抽出部160では、雑音抑圧音声ディジタル信号に代えて、元の音声ディジタル信号や、雑音残響抑圧音声ディジタル信号を用いてもよい。その場合であっても、主話者音声を抽出することができる。ただし、後段において、音声認識処理を行う場合には、雑音抑圧音声ディジタル信号を用いたときに最も認識精度が高まると考えられる。
図8は、音声区間検出装置10と、音声認識装置800との配置を説明するための図である。音声認識装置800の前段に音声区間検出装置10を配置する。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (4)
- 音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧部と、
前記雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定部と、
前記雑音抑圧音声ディジタル信号と前記残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調部と、
前記音声モデルを用いて、前記雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別部を含む、
音声区間検出装置。 - 音声信号を入力として請求項1の音声区間検出装置から出力される信号を用いて、前記音声信号に対して音声認識を行う音声認識装置。
- 雑音抑圧部が、音声モデルを用いて、音声と雑音と残響とを含む音声ディジタル信号に含まれる雑音を抑圧して雑音抑圧音声ディジタル信号を求める雑音抑圧ステップと、
残響推定部が、前記雑音抑圧音声ディジタル信号に含まれる残響成分を推定して残響信号を求める残響推定ステップと、
主話者音声特徴強調部が、前記雑音抑圧音声ディジタル信号と前記残響信号との差である雑音残響抑圧音声ディジタル信号を求める主話者音声特徴強調ステップと、
主話者識別部が、前記音声モデルを用いて、前記雑音残響抑圧音声ディジタル信号から主話者が話している区間である主話者音声区間を識別する主話者識別ステップを含む、
音声区間検出方法。 - 請求項1の音声区間検出装置、または、請求項2の音声認識装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014031276A JP6106618B2 (ja) | 2014-02-21 | 2014-02-21 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014031276A JP6106618B2 (ja) | 2014-02-21 | 2014-02-21 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015155982A JP2015155982A (ja) | 2015-08-27 |
JP6106618B2 true JP6106618B2 (ja) | 2017-04-05 |
Family
ID=54775315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014031276A Active JP6106618B2 (ja) | 2014-02-21 | 2014-02-21 | 音声区間検出装置、音声認識装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6106618B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6536320B2 (ja) * | 2015-09-28 | 2019-07-03 | 富士通株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
CN110853622B (zh) * | 2019-10-22 | 2024-01-12 | 深圳市本牛科技有限责任公司 | 语音断句方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385386B (zh) * | 2006-03-03 | 2012-05-09 | 日本电信电话株式会社 | 混响除去装置和混响除去方法 |
JP4856662B2 (ja) * | 2008-02-29 | 2012-01-18 | 日本電信電話株式会社 | 雑音除去装置、その方法、そのプログラム及び記録媒体 |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
-
2014
- 2014-02-21 JP JP2014031276A patent/JP6106618B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015155982A (ja) | 2015-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
EP2381702B1 (en) | Systems and methods for own voice recognition with adaptations for noise robustness | |
KR20170060108A (ko) | 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 | |
CN111370014A (zh) | 多流目标-语音检测和信道融合 | |
JPH09212196A (ja) | 雑音抑圧装置 | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP4975025B2 (ja) | クリーン音声の事前分布を使用した多感覚応用の音声強調 | |
JP5156043B2 (ja) | 音声判別装置 | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
JP6151236B2 (ja) | 雑音抑圧装置、その方法及びプログラム | |
JP6374936B2 (ja) | 音声認識方法、音声認識装置及びプログラム | |
CN112309417A (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP6265903B2 (ja) | 信号雑音減衰 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP4891805B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
JP2005258158A (ja) | ノイズ除去装置 | |
JP4098647B2 (ja) | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 | |
US11977855B2 (en) | System and method for automatic speech translation based on zero user interface | |
JP6125953B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6106618 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |