JP6633579B2 - 音響信号処理装置、方法及びプログラム - Google Patents
音響信号処理装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6633579B2 JP6633579B2 JP2017148356A JP2017148356A JP6633579B2 JP 6633579 B2 JP6633579 B2 JP 6633579B2 JP 2017148356 A JP2017148356 A JP 2017148356A JP 2017148356 A JP2017148356 A JP 2017148356A JP 6633579 B2 JP6633579 B2 JP 6633579B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- voice
- time
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
音響信号処理装置は、予め定められた音である特定音についての情報が与えられているとして、その特定音についての情報を用いて音響信号処理を行うものである。事前に与えられた特定音についての情報を用いることにより、使える情報が増えるため、より精度の高い音響信号処理を行うことができる。
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
図2に例示するように、音響信号処理装置は、推定頻度計測部16及び選択部17を更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部16が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部16は、TV等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。
図3に例示するように、音響信号処理装置は、第二指向性集音部18を更に備えていてもよい。
図4に例示するように、第一実施形態の変形例2において、第一実施形態の変形例1で説明した推定頻度計測部16及び選択部17を音響信号処理装置は更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
図23に例示するように、音響信号処理装置は、第一指向性集音部14にかえて第三指向性集音部52を備えるとともに、雑音方向記憶部51をさらに備えてもよい。
(参考文献5)浅野太著, 「音のアレイ信号処理」, pp.82-85,コロナ社, 2011.
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
図8に例示するように、音響信号処理装置は、推定頻度計測部227及び選択部228を更に備えていてもよい。
図9に例示するように、音響信号処理装置は、第二指向性集音部24を更に備えていてもよい。
図10に例示するように、第二実施形態の変形例2において、推定頻度計測部26及び選択部27を音響信号処理装置は更に備えていてもよい。この場合、方向推定部22は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部22は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
第三実施形態の音響信号処理装置及び方法は、音響信号処理として音声区間の検出を行う。
本実施形態では、利用者の発話内容を絞り込むことで、利用環境(雑音など)の情報をより正しく得る。例えば、利用者が発話を始める前に特定の単語(キーワード)を発するように制限する。その際に、その特定の単語音声のみを高精度に検出できるようにしておき、「その区間は音声」「その前の区間は雑音」と仮定する。そして、その雑音区間と音声区間の音声を利用して、「音声/非音声」の判定のための情報を更新する。
図13は第三実施形態に係る音響信号処理装置の機能ブロック図を、図14はその処理フローを示す。
(参考文献1)「センサリ社音声技術説明」、[online]、2010年、[平成29年7月24日検索]、インターネット<URL:http://www.sensory.co.jp/Parts/Docs/SensoryTechnologyJP1003B.pdf>
なお、特定音の検出時刻を示す情報は、少なくとも特定音(例えばキーワード)を言い終わった時刻を示す情報であり、(1-i)特定音を言い終わった時刻そのものを出力してもよいし、(1-ii)特定音を言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(1-iii)特定音を言い終わった時刻以外のフレーム時刻において検出していないことを示す情報(例えば「0」)を出力し、特定音を言い終わった時刻において検出したことを示す情報(例えば「1」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。また、特定音の検出時刻を示す情報は、特定音を言い始めた時刻を示す情報を含んでもよく、(2-i)特定音を言い始めた時刻及び言い終わった時刻そのものを出力してもよいし、(2-ii)特定音を言い始めた時刻及び言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(2-iii)特定音を言い始めた時刻から言い終わった時刻までにおいて検出したことを示す情報(例えば「1」)を出力し、それ以外の時刻において検出していないことを示す情報(例えば「0」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報と時系列音響信号とを入力とし、フレーム単位で特定音音声区間に対応する時系列音響信号の特徴量と、非音声区間に対応する時系列音響信号の特徴量とを求め(S330)、出力する。なお、音声区間検出情報蓄積部330を含む各部において各処理はフレーム単位で行われる。
音声蓄積部331は、音声区間検出対象の時系列音響信号を受け取り、蓄積する。
特定音音声区間算出部332は、特定音の検出時刻を示す情報を入力とし、検出時刻に基づき特定音に対応する区間と推定される時系列音響信号の区間を特定音音声区間とし、検出時刻に基づき特定音に対応する区間ではないと推定される時系列音響信号の区間を非音声区間と判定し、特定音音声区間を示す情報、非音声区間を示す情報を出力する。例えば、特定音の検出時刻(この例では、特定音を言い終わった時刻)の前のt1秒間を特定音音声区間とし、特定音音声区間の前のt2秒間を非音声区間と判定する(図16参照)。
特徴量算出部333は、特定音音声区間算出部332から特定音音声区間を示す情報、非音声区間を示す情報を受け取り、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取る。そして、特徴量算出部333は、時系列音響信号と特定音音声区間とを対応付け、時系列音響信号と非音声区間とを対応付け、特定音音声区間に対応する時系列音響信号からその特徴量である音声区間特徴量を算出し、非音声区間に対応する時系列音響信号からその特徴量である非音声区間特徴量を算出し、音声区間特徴量及び非音声区間特徴量を出力する。特徴量としては、例えば、対数メルスペクトルやケプストラム係数などを用いることができる。但し、第二音響信号分析部322が用いる音響特徴量(基本周波数)以外の音響特徴量とするのがよい。特徴量の算出方法としては、どのような方法を用いてもよい。例えば、参考文献4に記載の方法を用いる。
(参考文献4)特開2009−63700号公報
音声区間検出部320は、マイクロホン310から時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
第一音響信号分析部321は、図18に示すように、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出に用いる音響特徴量を抽出するための特徴量算出部3211と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号の確率計算を行うための、確率推定部3212とを含む。
特徴量算出部3211は、特徴量算出部333と同様の方法により、入力信号からその特徴量を算出し、出力する。例えば、24次元の対数メルスペクトルを要素に持つベクトルGt={gt,0,…,gt,φ,…,gt,23}を算出し、これを出力する。ベクトルGtは、切り出しの始点の時刻がtのフレームにおける音響特徴量を表す。φはベクトルの要素番号を示す。以下、tをフレーム時刻と呼ぶことにする。
特徴量算出部3211の出力である24次元の対数メルスペクトルは、確率推定部3212の入力となる。確率推定部3212は、入力されたフレームに対して並列非線形カルマンフィルタ、および並列カルマンスムーザを適用し、雑音パラメータを推定する。推定された雑音パラメータを用いて、非音声(雑音+無音)、および、音声(雑音+クリーン音声)の確率モデルを生成し、対数メルスペクトルを各確率モデルに入力した際の確率を計算する。
前向き推定部3212−1における処理内容が参考文献4とは異なる。
以上の構成により、対象者(ユーザ)の特定の発話に対してキーワード検出を行った結果を利用して、目的音声を含む周囲の音響環境に関する情報をより正確に知ることができ、音声区間検出の信号処理が頑健になる。特に、認識したい音声と雑音とが近しい特性を持つ場合であっても、従来よりも高精度で音声区間と非音声区間との少なくとも何れかを検出することができる。
第三実施形態と異なる部分を中心に説明する。
音声区間検出部320は、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
P(n)>γV、 かつ P(n)>δN
を満たす場合に、その区間を音声区間と判定する方法が考えられる。nはフレーム時刻を表すインデックス、N,Vはそれぞれ非音声レベル記憶部328、音声レベル記憶部329に格納されている非音声区間のパワー閾値、音声区間のパワー閾値、γは0以上1以下、δは1以上の実数とする。音声区間の信号のレベルにある程度近い値(γV)より大きく、非音声区間(例えば雑音)の信号のレベルより十分大きい値(δN)よりも大きい場合に音声区間である、と判定する。この場合、あらかじめ格納してある非音声と音声の情報(V、N)と実際の音声区間、非音声区間の信号のレベルが異なる場合に正しく動作しない。またそれぞれの情報(V、N)を時系列音響信号に応じて逐次更新をしていくことも考えられるが、どの区間が非音声または音声かわからないまま更新をするため誤った方向へ値が更新されるリスクがある。
N’ = (1-α)N + αPn
V’ = (1-β)V + βPv
なおα、βは検出した音声・非音声区間の寄与率を決定するパラメータ(0<α<1、 0<β<1)を表す。音声/非音声判定部327は、
P(n)>γV'、 かつ P(n)>δN'
を満たす場合に、そのフレームnに対応する区間を音声区間として検出し、満たさない場合に、そのフレームnに対応する区間を非音声区間として検出し、検出結果を出力する。
以上の構成により、より実際の状況に即したレベル判定が行うことができ、第三実施形態と同様の効果を得ることができる。
第三実施形態と異なる部分を中心に説明する。
前処理部350は、時系列音響信号を入力とし、時系列音響信号に含まれる音声を強調する処理(音声強調処理)を行い(S350)、強調後の時系列音響信号を出力する。音声強調処理としては、どのような方法を用いてもよい。例えば、参考文献2に記載の雑音抑圧方法を用いる。
(参考文献2)特開2009−110011号公報
以上の構成により、第三実施形態と同様の効果を得ることができる。さらに、音声強調処理を施した時系列音響信号を用いて後段の処理(S330、S320)を行うことで、その検出精度を向上させることができる。
第三実施形態と異なる部分を中心に説明する。
ビームフォーミング部360は、M個の時系列音響信号を入力とし、M個の時系列音響信号をL個の方向へそれぞれ指向性を高めたL個の時系列信号(時系列音響信号であり、例えばビームフォーミング出力信号)に変換し(S360)、特定音声区間検出部340、音声区間検出情報蓄積部330、音声区間検出部320に出力する。例えば、ビームフォーミング技術を用いてL個の時系列ビームフォーミング出力信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよい。例えば、参考文献3に記載の方法を用いる。
(参考文献3)特開2017−107141号公報
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報とL個の時系列信号とを入力とし、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを求め(S330)、出力する。なお、特定音が検出されたチャンネル全てについて特徴量を求める。
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出されたチャンネル全ての音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出されたチャンネル全ての非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて、L個の時系列信号それぞれから音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。本変形例では、L個の時系列信号に対して1つの(共通の)音声パラメータ及び1つの(共通の)非音声パラメータを用いる。
このような構成により、第三実施形態と同様の効果を得ることができる。なお、ビームフォーミング部360を別装置とし、音響信号処理装置は、L個の時系列信号を入力とする構成としてもよい。また、L個の方向へそれぞれ指向性を高めたL個の指向性のマイクロホン310−m(m=1,2,…,Lであり、Lは2以上の整数の何れか)でそれぞれ収音されたL個の時系列音響信号を入力とし、ビームフォーミング部360を用いない構成としてもよい。
第三変形例と異なる部分を中心に説明する。
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出された1つのチャンネルの音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出された1つのチャンネルの非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、特定音が検出されたチャンネル毎に求めた音声パラメータと非音声パラメータとを用いて、特定音が検出された時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。
このような構成により、第三実施形態と同様の効果を得ることができ、チャンネル毎に詳細な音声パラメータ、非音声パラメータを求めることができる。
音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号として、上記雑音音響信号と、上記特定音に対応する音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。
各音響信号処理装置の各部における処理をコンピュータによって実現する場合、これらの装置の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。
Claims (5)
- 予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号が強調されるように集音を行う第一指向性集音部と、
複数のマイクロホンで集音された信号である上記音響信号から音の到来方向を推定する方向推定部と、
上記特定音が検出された時刻における上記推定された到来方向が記憶される方向記憶部と、を含み、
前記第一指向性集音部は、上記方向記憶部から読み込んだ到来方向からの音が強調されるように集音を行い、
過去の所定の時間区間における、上記推定された到来方向の頻度を計測する推定頻度計測部と、
上記計測された頻度の中で最も低い頻度の到来方向を選択する選択部と、を更に含み、
上記方向記憶部には、上記選択された到来方向が記憶される、
音響信号処理装置。 - 請求項1の音響信号処理装置であって、
上記推定された到来方向からの音が強調されるように集音を行う第二指向性集音部と、
上記第二指向性集音部により集音された信号に基づいて上記特定音を検出する特定音検出部と、
を更に含む音響信号処理装置。 - 請求項2の音響信号処理装置であって、
上記第二指向性集音部は、上記方向推定部で推定された到来方向のそれぞれを強調されるよう集音する、
音響信号処理装置。 - 第一指向性集音部が、予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号が強調されるように集音を行う第一指向性集音ステップと、
方向推定部が、複数のマイクロホンで集音された信号である上記音響信号から音の到来方向を推定する方向推定ステップと、を含み、
前記第一指向性集音部は、上記特定音が検出された時刻における上記推定された到来方向が記憶される方向記憶部から読み込んだ到来方向からの音が強調されるように集音を行い、
推定頻度計測部が、過去の所定の時間区間における、上記推定された到来方向の頻度を計測する推定頻度計測ステップと、
選択部が、上記計測された頻度の中で最も低い頻度の到来方向を選択する選択ステップと、を更に含み、
上記方向記憶部には、上記選択された到来方向が記憶される、
音響信号処理方法。 - 請求項1から3の何れかの音響信号処理装置の各部としてコンピュータを機能させるためのコンピュータ読み取り可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017148356A JP6633579B2 (ja) | 2017-07-31 | 2017-07-31 | 音響信号処理装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017148356A JP6633579B2 (ja) | 2017-07-31 | 2017-07-31 | 音響信号処理装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019028301A JP2019028301A (ja) | 2019-02-21 |
JP6633579B2 true JP6633579B2 (ja) | 2020-01-22 |
Family
ID=65478356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017148356A Active JP6633579B2 (ja) | 2017-07-31 | 2017-07-31 | 音響信号処理装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6633579B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660201B (zh) * | 2019-09-23 | 2021-07-09 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2007221300A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
JP2017034490A (ja) * | 2015-08-03 | 2017-02-09 | パナソニックIpマネジメント株式会社 | インターホン装置 |
WO2017029044A1 (en) * | 2015-08-19 | 2017-02-23 | Retune DSP ApS | Microphone array signal processing system |
JP6584930B2 (ja) * | 2015-11-17 | 2019-10-02 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2017
- 2017-07-31 JP JP2017148356A patent/JP6633579B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019028301A (ja) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
US9536523B2 (en) | Method and system for identification of speech segments | |
Wolf et al. | Channel selection measures for multi-microphone speech recognition | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6501260B2 (ja) | 音響処理装置及び音響処理方法 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP2009527801A (ja) | 話者適応を用いた音声認識とピッチによる登録 | |
WO2012036305A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP6723120B2 (ja) | 音響処理装置および音響処理方法 | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP2009139894A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP2015070321A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
Moore et al. | Say What? A Dataset for Exploring the Error Patterns That Two ASR Engines Make. | |
Gowda et al. | Quasi-closed phase forward-backward linear prediction analysis of speech for accurate formant detection and estimation | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6969597B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2021001949A (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6633579 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |