JP6802145B2 - Snr推定装置、snr推定方法、プログラム - Google Patents

Snr推定装置、snr推定方法、プログラム Download PDF

Info

Publication number
JP6802145B2
JP6802145B2 JP2017251645A JP2017251645A JP6802145B2 JP 6802145 B2 JP6802145 B2 JP 6802145B2 JP 2017251645 A JP2017251645 A JP 2017251645A JP 2017251645 A JP2017251645 A JP 2017251645A JP 6802145 B2 JP6802145 B2 JP 6802145B2
Authority
JP
Japan
Prior art keywords
section
snr
signal
pose
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017251645A
Other languages
English (en)
Other versions
JP2019117317A (ja
Inventor
弘章 伊藤
弘章 伊藤
翔一郎 齊藤
翔一郎 齊藤
登 原田
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017251645A priority Critical patent/JP6802145B2/ja
Publication of JP2019117317A publication Critical patent/JP2019117317A/ja
Application granted granted Critical
Publication of JP6802145B2 publication Critical patent/JP6802145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、マイクデバイスで収録された信号のSNRを推定するSNR推定装置、SNR推定方法、プログラムに関する。
マイクデバイスの性能評価において、しばしばスピーカで再生された音声をマイクデバイスで収録したデータを評価試験に用いることがある。このような場合、収録されたデータが実利用環境では想定しないようなデータになっていないか確認することは、評価試験の妥当性を担保する上で重要である。
従来は、例えばITU−T G.160(非特許文献1)で定義されるSNRの値を用いて収録データのSNRを推定し、評価用データを選定する、という方法が知られている。
従来技術では、図1に示すように無音声区間をポーズとサイレントの2種類に分類し、発話区間内の無音声区間(ポーズ)を用いて、雑音のパワーを算出し、発話区間内の音声区間を用いて音声のパワーを計算し、SNR値を求めている。
International Telecommunication Union, " G.160 : Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms", [online], International Telecommunication Union, [平成 29年 12月 19日検索]、インターネット〈URL:https://www.itu.int/rec/T-REC-G.160-201103-S!Amd2/en〉
音声認識性能評価のために用意されたデータセットの場合、1つの音声データに含まれる発話が1単語のみ(例えば「おはよう」のみ)の場合など、極端に短い場合が考えられる。このような音声では、図2に示すように、発話区間内の短時間無音声区間(ポーズ)が全く存在しないか、あるいは十分な長さ存在しないため、ポーズを用いてSNR値を算出することができない。
また、発話区間内の無音声区間(ポーズ)が算出できない場合に、発話区間外の全区間を短時間無音区間として割り当ててSNRを算出する方法が考えられるが、割り当てられた無音声区間に雑音パワーが小さい区間と大きい区間が混ざっていると、実態のSNR値からの推定誤差が大きくなってしまう。
そこで本発明では、発話区間内の無音声区間(ポーズ)が少ない場合であっても、マイクデバイスで収録された信号のSNRを推定することができるSNR推定装置を提供することを目的とする。
本発明のSNR推定装置は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定装置である。
SNR推定装置は、音声区間検出部と、無音声区間分類部と、第1ポーズフレーム数判定部と、SNR算出部を含む。
音声区間検出部は、クリーン音声信号の音声区間と無音声区間を検出する。無音声区間分類部は、無音声区間を、音声区間に挟まれた無音声区間である第1ポーズ、それ以外の無音声区間であるサイレントの何れかに分類し、サイレントのうち、クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する。第1ポーズフレーム数判定部は、クリーン音声信号に第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する。SNR算出部は、第1ポーズのフレームが所定のフレーム数以上存在する場合に、第1ポーズに基づいて収録信号のSNRを算出し、第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第2ポーズに基づいて収録信号のSNRを算出する。
本発明のSNR推定装置によれば、発話区間内の無音声区間(ポーズ)が少ない場合であっても、マイクデバイスで収録された信号のSNRを推定することができる。
音声信号の例と従来技術における無音声区間の分類例を示す図。 十分なフレーム数のポーズが存在しない場合の音声信号の例を示す図。 実施例1のSNR推定装置の構成を示すブロック図。 実施例1のSNR推定装置の動作を示すフローチャート。 第2ポーズの区間を決定する方法の具体例その1を示す図。 第2ポーズの区間を決定する方法の具体例その2を示す図。 収録信号のSNR値の分布の例を示すグラフ。 実利用環境に則さないSNRとなる収録信号を除去した場合の音声認識率の変化の例を示すグラフ。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施例1のSNR推定装置1は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を対応させて用いることで、収録信号のSNRを算出(推定)する装置である。
以下、図3を参照して本実施例のSNR推定装置1の構成を説明する。同図に示すように、本実施例のSNR推定装置1は、音声区間検出部11と、無音声区間分類部12と、第1ポーズフレーム数判定部13と、SNR算出部14を含む。以下、図4を参照して、各部の動作について説明する。
<音声区間検出部11>
音声区間検出部11は、クリーン音声信号を受信し、クリーン音声信号の音声区間と無音声区間を検出する(S11、図5参照)。例えば、音声区間検出部11は、クリーン音声信号の各フレームのパワーを算出し、予め規定されたしきい値を元に、各フレームを無音、パワー小、パワー中、パワー大に分類し、無音と分類されたフレーム(複数フレーム連続している場合にはその区間)を無音声区間とし、それ以外のフレーム(複数フレーム連続している場合にはその区間)を音声区間として検出してもよい。
<無音声区間分類部12>
無音声区間分類部12は、ステップS11における検出結果を取得し、無音声区間を、音声区間に挟まれた無音声区間(別の表現では、発話区間内の短時間無音声区間)である第1ポーズ、それ以外の無音声区間であるサイレントの何れかに分類する(S12、図5参照)。さらに、無音声区間分類部12はサイレントと分類されたフレームのうち、所定の区間(例えば、発話区間の直前直後の数十ミリ秒、数十フレームの区間、図5、図6におけるドットハッチングの区間)を第2ポーズと分類する(S12)。
例えば、第2ポーズは、クリーン音声信号の最初のフレームと最後のフレーム(図5における斜線ハッチングを参照)に該当するフレームを除く所定の区間としてもよい。また第2ポーズは、サイレントのうち、音声区間に隣接するフレーム(別の表現では、発話区間の直前と直後で発話区間に隣接するフレーム、図6における斜線ハッチングを参照)を含む所定の区間としてもよい。
<第1ポーズフレーム数判定部13>
第1ポーズフレーム数判定部13は、ステップS12における分類結果を取得し、クリーン音声信号に第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する(S13)。具体的には、第1ポーズフレーム数判定部13は、第1ポーズがG.160に規定されるフレーム数以上存在するか否かを判定する。
<SNR算出部14>
SNR算出部14は、ステップS11における検出結果、ステップS12における分類結果、ステップS13における判定結果を取得し、第1ポーズのフレームが所定のフレーム数以上存在する場合に、第1ポーズに基づいて収録信号のSNRを算出し、第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第2ポーズに基づいて収録信号のSNRを算出する(S14)。
第1ポーズのフレームが所定のフレーム数以上存在しない場合、SNR算出部14は、SNRの値を下式により求める。なおx(n)は収録信号、nはフレームインデックス、Nは第1ポーズの区間数の判定しきい値、speech,pause,pauseは、フレームの分類情報を示し、それぞれ、音声、第1ポーズ、第2ポーズを表す。
Figure 0006802145
図7、図8を参照して、本実施例のSNR推定装置1によりSNRを推定し、実利用環境に則さないSNRとなった収録信号を除外して音声認識を行った場合の音声認識率の変化について説明する。本実施例のSNR推定装置1によりリビング雑音環境下において収録信号のSNRを推定したところ、図7のようにそのSNR分布を得ることができた。同図の左側に寄っている分布は実利用環境に則さないSNR値となっているため、該当する収録信号をSNRに対するしきい値を適宜変更しながら除外したところ、図8に示すように、収録信号を適宜除外することで評価データ数(同図の四角形の凡例、右軸の数値)が減少するにつれ、音声認識率(同図の三角形の凡例、左軸の数値)が向上していることが分かる。
本実施例のSNR推定装置1によれば、音声認識性能評価のための音声を収録した際に、収録された音声信号(収録信号)に含まれる発話区間内の無音声区間(第1ポーズ)が少ない場合であっても、実態に即したSNR値を推定することができる。
また、収録信号、SNR値、音声認識結果を突合することで、収録信号のSNRに対する音声認識性能の変化を確認することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (4)

  1. スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定装置であって、
    前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出部と、
    前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第1ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する無音声区間分類部と、
    前記クリーン音声信号に前記第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第1ポーズフレーム数判定部と、
    前記第1ポーズのフレームが所定のフレーム数以上存在する場合に、前記第1ポーズに基づいて前記収録信号のSNRを算出し、前記第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第2ポーズに基づいて前記収録信号の前記SNRを算出するSNR算出部を含む
    SNR推定装置。
  2. 請求項1に記載のSNR推定装置であって、
    前記無音声区間分類部は、
    前記サイレントのうち、前記音声区間に隣接するフレームを含む所定の区間を前記第2ポーズに分類する
    SNR推定装置。
  3. スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定方法であって、
    前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出ステップと、
    前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第1ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する無音声区間分類ステップと、
    前記クリーン音声信号に前記第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第1ポーズフレーム数判定ステップと、
    前記第1ポーズのフレームが所定のフレーム数以上存在する場合に、前記第1ポーズに基づいて前記収録信号のSNRを算出し、前記第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第2ポーズに基づいて前記収録信号の前記SNRを算出するSNR算出ステップを含む
    SNR推定方法。
  4. コンピュータを請求項1または2に記載のSNR推定装置として機能させるプログラム。
JP2017251645A 2017-12-27 2017-12-27 Snr推定装置、snr推定方法、プログラム Active JP6802145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017251645A JP6802145B2 (ja) 2017-12-27 2017-12-27 Snr推定装置、snr推定方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017251645A JP6802145B2 (ja) 2017-12-27 2017-12-27 Snr推定装置、snr推定方法、プログラム

Publications (2)

Publication Number Publication Date
JP2019117317A JP2019117317A (ja) 2019-07-18
JP6802145B2 true JP6802145B2 (ja) 2020-12-16

Family

ID=67304375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017251645A Active JP6802145B2 (ja) 2017-12-27 2017-12-27 Snr推定装置、snr推定方法、プログラム

Country Status (1)

Country Link
JP (1) JP6802145B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
JP2013062609A (ja) * 2011-09-12 2013-04-04 Yawata Electric Industrial Co Ltd 放送音声の音量制御装置、及びその音量制御方法

Also Published As

Publication number Publication date
JP2019117317A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
US20200357427A1 (en) Voice Activity Detection Using A Soft Decision Mechanism
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP4972107B2 (ja) 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
JP6958723B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
Ragano et al. Adapting the quality of experience framework for audio archive evaluation
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
US11037583B2 (en) Detection of music segment in audio signal
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP6802145B2 (ja) Snr推定装置、snr推定方法、プログラム
JP7151606B2 (ja) コマンド解析装置、コマンド解析方法、プログラム
Yadava et al. Performance evaluation of spectral subtraction with VAD and time–frequency filtering for speech enhancement
JP6257537B2 (ja) 顕著度推定方法、顕著度推定装置、プログラム
JP6538002B2 (ja) 目的音集音装置、目的音集音方法、プログラム、記録媒体
JP6618885B2 (ja) 音声区間検出装置、音声区間検出方法、プログラム
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP6695830B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2020052611A (ja) タグ推定装置、タグ推定方法、プログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JP7218810B2 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
JP7026358B2 (ja) 回帰関数学習装置、回帰関数学習方法、プログラム
JP2017207546A (ja) 残響環境判定装置、残響環境判定方法、プログラム
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201126

R150 Certificate of patent or registration of utility model

Ref document number: 6802145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150