JP2018013683A - 音声区間検出装置、音声区間検出方法、及びプログラム - Google Patents

音声区間検出装置、音声区間検出方法、及びプログラム Download PDF

Info

Publication number
JP2018013683A
JP2018013683A JP2016144057A JP2016144057A JP2018013683A JP 2018013683 A JP2018013683 A JP 2018013683A JP 2016144057 A JP2016144057 A JP 2016144057A JP 2016144057 A JP2016144057 A JP 2016144057A JP 2018013683 A JP2018013683 A JP 2018013683A
Authority
JP
Japan
Prior art keywords
change point
segment
voice
speech
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016144057A
Other languages
English (en)
Inventor
林太郎 池下
Rintaro Ikeshita
林太郎 池下
本間 健
Takeshi Honma
健 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016144057A priority Critical patent/JP2018013683A/ja
Publication of JP2018013683A publication Critical patent/JP2018013683A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】頑健に音声区間を検出することができるようにする。【解決手段】音声区間検出装置10は、音響信号について時間が進む方向に変化点を検出する前向き変化点検出部113と、上記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部114と、前向き変化点検出部113により検出された上記変化点である前向き変化点、及び後向き変化点検出部114により検出された上記変化点である後向き変化点によって上記音響信号を時間軸に沿って複数のセグメントに分割するセグメンテーション部120と、上記セグメントのタイプを判定して音声区間を示す情報を生成する音声区間判定部130(セグメントタイプ判定部131、音声区間情報生成部132)と、を備える。【選択図】図2

Description

本発明は、音声区間検出装置、音声区間検出方法、及びプログラムに関する。
特許文献1には、「音声検出装置は、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定手段と、特徴量算出手段が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新手段とを備える」と記載されている。
特許文献2には、「応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備える」と記載されている。
特許文献3には、「音声区間判定装置は、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレーム毎に上記入力信号の強度を増加させるパワー操作部と、上記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有する」と記載されている。
特許第5621786号公報 特開2015−4928号公報 特許第5732976号公報
音響信号から音声区間を検出する技術(以下、音声区間検出(Voice Activity Detection)と称する。)は、音声符号化における音声圧縮率の向上、通信における音声伝送効率の向上、雑音抑圧における非音声区間からの雑音量推定、音声認識システムにおける音声認識性能の向上と計算処理量の低減、インターネットや会議などの音声記録からの音声区間抽出等、幅広い分野でニーズがあり、各方面で技術研究や製品開発が進められている。
ここで特許文献1では、上記の音声区間検出として、観測信号を分割したフレーム毎に特徴量を算出し、算出した特徴量に基づきフレーム毎に音声区間か否かを識別している。しかし非定常雑音環境下や低SNR環境下では、特徴量が雑音によって大きく劣化し、フレーム毎に音声区間か否かを識別する方法は多様な音響信号に対して必ずしも頑健ではない。
また特許文献2では、出力される音声区間が断続的になってしまうのを防ぐため、検出した音声区間が断続的にならないようにハングオーバー処理を行っている。また特許文献3では、非音声区間を音声区間であると誤検出する「湧き出し」が発生するリスクより音声区間を非音声区間であると誤検出する「脱落」が発生するリスクを軽減したいというニーズに応えるべく、ハングオーバー処理を行っている。しかしこれらのハングオーバー処理はヒューリスティック(heuristic)な方法で行われるため、非定常雑音環境下や低S
NR環境下では音声区間の検出精度を高めることができない。
また雑音による特徴量の劣化を緩和するため、例えば、音声モデルや雑音モデルに基づき音響信号に含まれている雑音を抑圧し、抑圧後の信号に対して特徴量を算出して音声区間を検出することが行われている。しかしこの方法は仮定した音声モデルまたは雑音モデルのモデル化誤差やモデルパラメータの推定誤りに対して頑健ではない。
本発明は、こうした背景に鑑みてなされたものであり、頑健に音声区間を検出することが可能な、音声区間検出装置、音声区間検出方法、及びプログラムを提供することを目的とする。
上記目的を達成するための本発明の一つは、音声区間検出装置であって、音響信号について時間が進む方向に変化点を検出する前向き変化点検出部と、前記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部と、前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する音声区間検出部と、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、頑健に音声区間を検出することができる。
第1実施形態の音声区間検出装置10のハードウェア構成である。 第1実施形態の音声区間検出装置10の機能ブロック図である。 前向き変化点検出処理を説明する図であり、(a)は、横軸を時間、縦軸を前向き変化点スコアとして表したグラフであり、(b)は、(a)に示した前向き変化点スコアについて前向き変化点を検出した結果を示す図である。 後向き変化点検出処理を説明する図であり、(a)は、横軸を時間、縦軸を後向き変化点スコアとして表したグラフであり、(b)は、(a)に示した後向き変化点スコアについて後向き変化点を検出した結果を示す図である。 セグメンテーション処理を説明する図である。 第2実施形態の音声区間検出装置10の機能ブロック図である。
以下、図面を参照しつつ発明を実施するための形態について説明する。以下の説明において、同一の又は類似する構成に共通の符号を付して重複した説明を省略することがある。
[第1実施形態]
図1は第1実施形態として示す音声区間検出装置10のハードウェア構成である。音声区間検出装置10は、入力される音響信号を対象として音声区間検出を行う。同図に示すように、音声区間検出装置10は、プロセッサ11、メモリ12、入力装置13、及び出力装置14を有し、情報処理装置として機能する。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、等を用いて構成され、メモリ12に格納されているプログラムを読み出して実行する。プロセッサ11は、例えば、ASIC(Application Specific LSI)として実現されるものであってもよい。またプロセッサ11は、例えば、DSP(Digital Signal Processor)として機能するものであってもよい。
メモリ12は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、NVRAM(Non Volatile RAM)等の記憶素子を用いて構成される。音声区間検出装置10は、更にハードディスクドライブ、SSD(Solid State Drive)等の補助記憶装
置を備えるものであってもよい。
入力装置13は、音響信号を取り込むインタフェースであり、例えば、マイクロフォン、音声信号増幅回路、A/Dコンバータ等である。入力装置13は、ユーザから情報を取得するユーザインタフェース(キーボード、マウス、タッチパネル等)として機能するものであってもよい。また入力装置13は、バス(Bus)や通信ネットワーク等を介して他
の装置と有線通信又は無線通信を行う通信インタフェースとして機能するものであってもよい。尚、以下の説明において、入力装置13には、音声区間検出の対象となる音響信号として、デジタル化された音声データ(例えば、マイクロフォンによってアナログデータとして取得される信号を所定のサンプリング周波数、量子化ビット数でサンプリングした所定フォーマット(例えば、linear PCM(Pulse Code Modulation))のデジタルデータ)が入力されるものとする。
出力装置14は、音声区間の検出結果(後述する音声区間情報(セグメントタイプ、音声区間))を出力するインタフェースである。出力装置14は、例えば、バス(Bus)や
通信ネットワーク等を介して他の装置と有線通信又は無線通信を行う通信インタフェースとして機能するものであってもよい。また出力装置14は、情報を出力するユーザインタフェース(ディスプレイ、印字装置等)として機能するものであってもよい。
尚、音声区間検出装置10は、例えば、スマートフォン、タブレット、携帯電話機等の携帯型の電子機器において実現されるものであってもよい。また音声区間検出装置10は、例えば、ロボット、サイネージ、カーナビゲーションシステム、各種産業機器等、音声認識や音声分析等の音声処理が行われる機器に組み込まれるものであってもよい。また音声区間検出装置10は、例えば、インターネット上のクラウドシステムが提供する仮想的な情報処理装置によって実現されるものであってもよい。
図2は、音声区間検出装置10の機能ブロック図(ソフトウェア構成)である。尚、図中の矢線は、音声区間検出装置10が音声区間検出を行う際のデータの流れを示す。
同図に示すように、音声区間検出装置10は、変化点検出部110、セグメンテーション部120、及び音声区間判定部130の各機能を有する。このうち変化点検出部110は、フレーム処理部111、特徴量算出部112、前向き変化点検出部113、及び後向き変化点検出部114を有する。また音声区間判定部130は、セグメントタイプ判定部131及び音声区間情報生成部132の各機能を有する。これらの機能は、例えば、音声区間検出装置10が備えるハードウェアによって実現される。またこれらの機能は、例えば、音声区間検出装置10のプロセッサ11が、メモリ12に格納されているプログラム
を読み出して実行することにより実現される。
フレーム処理部111は、音声区間検出装置10に入力される音声データを複数のフレーム(例えば、20〜40ms程度の長さの固定長のフレーム)に分割する。
特徴量算出部112は、フレーム処理部111によって分割された各フレームについて、前向き変化点検出部113、後向き変化点検出部114、及び音声区間判定部130によって参照される特徴量を算出する。尚、特徴量算出部112が算出するフレーム毎の特徴量は一つでもよいし複数でもよい。前向き変化点検出部113、後向き変化点検出部114、及び音声区間判定部130の夫々について異なる種類の特徴量を算出するようにしてもよい。
前向き変化点検出部113は、以下に説明する処理(以下、前向き変化点検出処理と称する。)を行う。
図3とともに前向き変化点検出処理について説明する。図3(a)は、上記音声データについて時間軸に沿って(過去から未来に向かう方向)時系列に求めた変化点スコア(以下、前向き変化点スコアと称する。)を表したグラフである。尚、変化点スコアは、入力された音声データに対して変化が生じたことの確信度を示す値である。前向き変化点スコアは、前向き変化点検出部113が、音声データについて所定の変化点スコア算出アルゴリズムを時間が進む方向に実行することにより求める。図中、音声区間検出装置10が検出しようとする音声区間(真の音声区間)を点線で示している。本例では、T1〜T2とT3〜T4の区間が真の音声区間である。
前向き変化点検出部113は、以上のようにして求めた前向き変化点スコアが予め定められた閾値Sを超えた時点を前向き変化点として検出する。
図3(b)は、図3(a)に示した前向き変化点スコアについて、前向き変化点検出部113が前向き変化点を検出した結果である。本例では、前向き変化点検出部113は、上向き黒塗三角で示す4つの時点(t1,t2,t3,t4)を前向き変化点として検出している。
図2に戻り、後向き変化点検出部114は、以下に説明する処理(以下、後向き変化点検出処理と称する。)を行う。
図4とともに後ろ向き変化点検出処理について説明する。図4(a)は、上記音声データについて時間を遡る方向(未来から過去に向かう方向)に時系列に求めた変化点スコア(以下、後ろ向き変化点スコアと称する。)を表したグラフである。後ろ向き変化点スコアは、後向き変化点検出部114が、音声データについて所定の変化点算出アルゴリズムを時間を遡る方向に実行することにより求める。尚、後向き変化点検出部114が、例えば、前向き変化点検出部113が求めた最後の前向き変化点(図3(a)ではt4)を起点として変化点算出アルゴリズムを時間を遡る方向に実行するようにしてもよい。
後向き変化点検出部114は、以上のようにして求めた後向き変化点スコアが予め定められた閾値S’を超えた時点を後向き変化点として検出する。
図4(b)は、図4(a)に示した後向き変化点スコアについて、後向き変化点検出部114が後向き変化点を検出した結果である。本例では、後向き変化点検出部114は、下向き黒塗三角で示す4つの時点(t1’,t2’,t3’,t4’)を後向き変化点として検出している。
尚、上記の閾値Sと閾値S’は同じでもよいし異なっていてもよい。閾値Sと閾値S’の値は音声区間検出装置10が音声区間を精度よく特定できるように設定される。
図2に戻り、セグメンテーション部120は、前向き変化点と後向き変化点とによって音声データを時間軸に沿って複数のセグメントに分割する(以下、セグメンテーション処理と称する。)。
図5とともにセグメンテーション処理について説明する。セグメンテーション部120は、音声データを複数のセグメント(t1’以前(始点は省略)、t1’〜t1、t1〜t2’、t2’〜t2、t2〜t3’、t3’〜t3、t3〜t4’、t4’〜t4、t4以降(終点は省略))に分割している。尚、検出された複数の変化点(前向き変化点、後向き変化点)をどのように組み合わせてセグメントを構成するかは、例えば、多数の音声データについて音声区間を検出した結果に基づく経験的なアルゴリズムによって決定する。本例では、セグメンテーション部120は、後ろ向き変化点を始点とし、当該後ろ向き変化点に最も近い未来(時間的に後の)の前向き変化点を終点とする区間を1つのセグメントとしている。そしてその結果、真の音声区間T1〜T2の始点T1についてはt1’〜t1のセグメントに、真の音声区間T1〜T2の終点T2についてはt2’〜t2のセグメントに、真の音声区間T3〜T4の始点T3についてはt3’〜t3のセグメントに、真の音声区間T3〜T4の終点T4についてはt4’〜t4のセグメントに、夫々収容されている。尚、例えば、閾値S及び閾値S’の双方又は一方を調節することで、真の音声区間の始点や終点が収容されるセグメントを調節することができ、これにより、例えば、音響信号の性質に応じて「脱落」の発生を低減することができる。
尚、例えば、前向き変化点検出部113が、変化点tと、変化点tから所定時間進んだ変化点tを検出し、一方、後向き変化点検出部114が、変化点t(変化点t及び変化点tのいずれよりも過去の時点)を検出した場合に、例えば、セグメンテーション部120が、変化点tを始点とすることで、変化点tを音声区間の始端と判定した場合に生じる「脱落」を防ぐことができる。そのため、ヒューリスティックなハングオーバー処理を行う装置に比べて頑健な音声区間検出装置10を実現することができる。
図2に戻り、音声区間判定部130のセグメントタイプ判定部131は、特徴量算出部112が求めた特徴量に基づき、セグメンテーション部120によって分割された各セグメントのタイプ(「雑音区間(非音声区間)」(以下、「雑音」とも表記する。)、「雑音区間から音声区間への変化点を含む区間」(以下、「雑to音」とも表記する。)、「音声区間」(以下、「音声」とも表記する。)、「音声区間から雑音区間への変化点を含む区間」(以下、「音to雑」とも表記する。)のいずれか)を判定する。音声区間判定部130は、セグメントタイプ判定部131による各セグメントのタイプの判定結果を音声区間情報として出力装置14から出力する。上記音声区間情報は、例えば、セグメントの識別子と当該セグメントのタイプを示す情報とを対応づけた情報を含む。
図5に示す例では、セグメントタイプ判定部131は、t1’以前のセグメントについては「雑音」と、t1’〜t1のセグメントについては「雑to音」と、t1〜t2’のセグメントについては「音声」と、t2’〜t2のセグメントについては「音to雑」と、t2〜t3’のセグメントについては「雑音」と、t3’〜t3のセグメントについては「雑to音」と、t3〜t4’のセグメントについては「音声」と、t4’〜t4のセグメントについては「音to雑」と、t4以降のセグメントについては「雑音」と判定している。セグメントタイプ判定部131によるセグメントのタイプの具体的な判定方法については後述する。
音声区間情報生成部132は、セグメントタイプ判定部131の判定結果に基づき音声区間を特定し、特定した情報を音声区間情報として出力装置14から出力する。例えば、音声区間情報生成部132は、セグメントタイプ判定部131が「音声区間」と判定したセグメントを音声区間とし、セグメントタイプ判定部131が「雑音区間(非音声区間)」と判定したセグメントを雑音区間として特定した情報を、上記の音声区間情報として生成する。
また例えば、音声区間情報生成部132は、セグメントタイプ判定部131が「雑音区間(非音声区間)」以外のセグメント、即ち、セグメントタイプ判定部131が、「雑音区間から音声区間への変化点を含む区間」、「音声区間」、及び「音声区間から雑音区間への変化点を含む区間」と判定した各セグメントを音声区間として特定した情報を、上記の音声区間情報として生成する。尚、この場合、ヒューリスティックなハングオーバー処理に頼らずに「脱落」のリスクを軽減することを重視した音声区間検出を実現することができる。
また上記とは逆に、例えば、セグメントタイプ判定部131が「音声区間」と判定したセグメントのみを音声区間とし、セグメントタイプ判定部131が、「音声区間から雑音区間への変化点を含む区間」、及び「雑音区間から音声区間への変化点を含む区間」と判定したセグメントを雑音区間として特定した情報を、上記の音声区間情報として生成するようにしてもよい。この場合、ヒューリスティックなハングオーバー処理に頼らずに「湧き出し」のリスクを軽減することを重視した音声区間検出を実現することができる。
尚、例えば、既存の音声区間の検出アルゴリズムや変化点の検出アルゴリズムを用い、「音声区間から雑音区間への変化点を含む区間」と判定されるセグメント、又は「雑音区間から音声区間への変化点を含む区間」と判定されるセグメントの時間幅を縮めるようにする(例えば、雑音区間と音声区間の変化点を一点(無限小)にする)ことで、「脱落」の損失と「湧き出し」の損失の双方が適切な状態で(例えば、両者の損失が均等に)低減されるようにしてもよい。
続いて、前述した変化点検出部110による変化点の検出方法の具体例を示す。
変化点検出部110による変化点の検出方法の一つとして、公知の音声区間検出アルゴリズムを利用する方法がある。その場合、例えば、公知の音声区間検出アルゴリズムにより音声区間と雑音区間(非音声区間)を検出し、検出した音声区間と雑音区間の変わり目を変化点として出力するようにする。
また変化点検出部110による変化点の検出方法の他の一つとして、公知の変化点検出アルゴリズムを利用する方法がある。この場合、例えば、変化点検出アルゴリズムとして、参考文献1(S. Liu, M. Yamada, N. Collier, and M. Sugiyama, Change-point detection in time-series data by relative density-ratio estimation, Neural Networks, vol. 43, pp.72-83, 2013.)に示されている手法を用いてもよい。また参考文献2(M. Sugiyama, T. Suzuki, T. Kanamori, M. C. du Plessis, S. Liu, and I. Takeuchi, Density-difference estimation, Neural Computation, vol.25, pp. 2734-2775, 2013.)に
示されている密度差の直接推定に基づく変化点検出アルゴリズムを用いてもよい。密度差の直接推定に基づく変化点検出アルゴリズムは、音声モデルおよび雑音モデルを仮定することなく変化点を検出することができるため、音声モデルまたは雑音モデルのモデル化誤差による変化点検出性能の劣化の影響を受けないという利点がある。
尚、参考文献1及び参考文献2の方法において、変化点の検出に用いる特徴量は、例えば、入力音響信号のパワー、SNR、零交差数、基本周波数(F)、メル周波数ケプス
トラム係数(MFCC)、メルフィルタバンク、自己相関関数のピーク値、尖度や歪度といった高次統計量等である。変化点の検出に際しては、こうした特徴量の一つを用いてもよいし、これらの特徴量の複数を組み合わせたものを用いてもよい。
前向き変化点検出処理で用いる変化点検出アルゴリズムと後向き変化点検出処理で用いる変化点検出アルゴリズムとは、同じであってもよいし異なっていてもよい。また前向き変化点検出処理と後向き変化点検出処理とで異なる特徴量を用いてもよい。また変化点には、音声から雑音に変化する変化点と雑音から音声に変化する変化点とがあるが、例えば、音声から雑音に変化する変化点を検出する場合は特徴量Aと変化点検出アルゴリズムBを用い、雑音から音声に変化する変化点を検出する場合は特徴量Cと変化点検出アルゴリズムDを用いる等、検出対象とする変化点に対して検出性能の優れた特徴量及び変化点検出アルゴリズムを適宜選択するようにしてもよい。
続いて、セグメントタイプ判定部131によるセグメントのタイプの判定方法の具体例を示す。
前述したセグメントタイプ判定部131によるセグメントのタイプの判定方法の一つとして、フレーム毎に音声か雑音(非音声)かを判定する既存の音声区間検出アルゴリズムを適用する方法がある。この場合、例えば、セグメントタイプ判定部131は、タイプの判定対象とするセグメントのフレーム数をNとして、既存の音声区間検出アルゴリズムが
判定した音声フレームの数がN×0.1以下のときは「雑音」と判定し、音声フレームの数がN×0.5以上のときは「音声」と判定し、それ以外のときは「音to雑」又は「雑to音」と判定する。尚、「音to雑」又は「雑to音」のいずれであるかの判定は、例えば、判定対象のセグメントの直前のセグメントのタイプが「音声」であれば「音to雑」と判定し、それ以外のときは「雑to音」と判定することにより行う。フレーム毎に音声区間検出アルゴリズムを適用するのではなく、複数のフレーム(フレーム群)に対して音声区間検出アルゴリズムを適用するようにしてもよい。
以上に説明したように、本実施形態の音声区間検出装置10は、前向き変化点及び後向き変化点に基づき、音響信号(音声データ)に含まれている音声区間を検出するので、様々な環境下で頑健に音声区間を検出することができる。とくに実環境において稼働し続けるロボットやサイネージが自動音声認識を行うためには、絶え間なく入力される音響信号から音声認識の対象となる人間の発話区間(音声区間)の始端と終端を正確に検出する必要があるが、音声区間検出装置10はこうしたニーズにも対応することができる。
また音声区間検出装置10は、強度が弱い音声区間の始点についても精度よく検出することができ、「脱落」を効果的に防ぐことができる。そのため、例えば、音声区間検出装置10を会話型ロボットに適用した場合、ロボットが急に話かけられた場合でも会話を聞き逃すことなく応答することができる。また音声区間の終端では音声区間検出の検出位置が遅れることにより生じる「湧き出し」も防ぐことができる。
また音声区間検出装置10は、前向き変化点と後向き変化点とによって音響信号を時間軸に沿って複数のセグメントに分割するセグメンテーション処理を行い、分割されたセグメント毎に夫々が音声区間であるか否かを判定するので、セグメントに含まれている多くの情報(>1つのフレームに含まれている情報)に基づき音声区間を特定することができ、フレーム毎に音声区間か否かの判定を行う場合に比べて効率よくかつ精度よく音声区間を検出することができる。このため、非定常雑音環境下や低SNR環境下においても頑健に音声区間検出を行うことができる。
[第2実施形態]
図6に第2実施形態として説明する音声区間検出装置10の機能ブロック図(ソフトウェア構成)を示している。第2実施形態の音声区間検出装置10は、第1実施形態の音声区間検出装置10の機能に加えて、更に雑音サンプル格納部151、音声サンプル格納部152、及び音声信号サンプル生成部153の各機能を備える。変化点検出部110、セグメンテーション部120、及び音声区間情報生成部132の内容は、基本的に第1実施形態の音声区間検出装置10と同様であるのでここでは説明を省略する。以下、第1実施形態との相違点を中心として説明する。
第2実施形態の音声区間検出装置10は、音声区間判定部130のセグメントタイプ判定部131が行うセグメントのタイプの判定に、分類問題におけるクラスバランス変化に対する適応学習法(テストクラスバランスの半教師付き推定)の枠組みを用いる。分類問題におけるクラスバランス変化とは、クラス事前確率は変化するが各クラスの入力分布は変化しない状況をいう。音声区間検出におけるクラスとは、対象としているフレームが雑音区間(H0)であるか音声区間(H1)であるかのいずれかである。
まず現時刻Ttmpにおいてセグメントタイプ判定部131が対象とするセグメントの特徴量系列を
Figure 2018013683
とおく。ここで、Ltmpは、現時刻にセグメントタイプ判定部131が対象とするセグメントに属するフレーム数、X’i(i=1,・・・,Ltmp)は、対象のセグメントにおけるi番目のフレームのd次元特徴量ベクトル、dはセグメントタイプ判定部131が用いる特徴量の数をあらわす。以下、Xtmpのことを入力特徴量系列と称する。
また現時刻Ttmpにセグメントタイプ判定部131が対象とするセグメントよりも過去のセグメントであって、セグメントのタイプが「雑音」であるもののうち、最も現時刻Ttmpに近い時刻をTpre、また時刻Tpreにおけるセグメントの特徴量系列(雑音特徴量系列)を
Figure 2018013683
とおく。ここで、Lpreは、時刻Tpreのセグメントに属するフレーム数、ni(i=1,・・・、Lpre)は、時刻Tpreのセグメントにおけるi番目のフレームのd次元特徴量ベクトルである。雑音サンプル格納部151は、現時刻Ttmpにおいて、時刻Tpreの雑音特徴量系列Nを保存
する。
音声サンプル格納部152は、教師データとして、任意の長さのクリーン音声(雑音が重畳されていない音声)をセグメントタイプ判定部131が用いる特徴量系列(クリーン音声特徴量系列)に変換したものを記憶する。
音声信号サンプル生成部153は、現時刻Ttmpにおいて雑音サンプル格納部151が記憶している時刻Tpreのセグメントの雑音特徴量系列Nと、音声サンプル格納部152が記
憶している任意のクリーン音声特徴量系列であって系列の長さをLpreに変換したもの
Figure 2018013683
を加算することで、雑音が重畳された音声信号サンプルである音声特徴量系列
Figure 2018013683
を生成する。尚、音声信号サンプル生成部153が、音声サンプル格納部152からクリーン音声特徴量系列をランダムに複数サンプリングすることで、複数の音声特徴量系列を算出するようにしてもよい。また音声信号サンプル生成部153が、サンプルされたクリーン音声特徴量系列Sの振幅を増幅し、任意のSNR値をもつ音声特徴量系列Xを算出する
ようにしてもよい。音声信号サンプル生成部153は雑音特徴量系列Nも記憶する。
セグメントタイプ判定部131は、現時刻Ttmpのセグメンテーション部120の出力である入力特徴量系列Xtmpと、音声信号サンプル生成部153が記憶する雑音特徴量系列N
と、音声信号サンプル生成部153が生成した一つ又は複数の音声特徴量系列Xを用いて
、分類問題におけるクラスバランス変化に対する適応学習法の枠組みを適用し、入力特徴量系列Xtmpのセグメントのタイプを判定する。
セグメントタイプ判定部131は、例えば、雑音特徴量系列Nと一つの音声特徴量系列Xとを並べた特徴量系列である
Figure 2018013683
を訓練データとし、入力特徴量系列Xtmpをテストデータとする。但し、訓練データXpreの要素である各特徴量には、その特徴量が雑音のものであるH0か雑音が重畳された音声H1のものであるかを示す情報が紐付いていることに注意する。従って、訓練データとしては
Figure 2018013683
を考えていることに等しい。尚、アルゴリズムの演算量を削減する観点から、Xpreから任意個の特徴量を捨てて、集合Xpreの濃度を小さくしたものを用いてもよい。
セグメントタイプ判定部131は、以上のようにして分類問題におけるクラスバランス変化に対する適応学習法(テストクラスバランスの半教師付き推定)の枠組みを用い、セグメントのタイプの判定を行う。例えば、参考文献3(M. C. du Plessis and M. Sugiyama, Semi-supervised learning of class balance under class-prior change by distribution matching, Neural Networks, Vol. 50, pp. 110-119, 2014.)に記載されている
、密度比の直接推定によるテストクラスバランスの半教師付き推定の枠組みを用いてセグメントのタイプの判定を行うことができる。また例えば、テストクラスバランスの半教師付き推定には、既述の参考文献2や参考文献4(T. D. Nguyen, M. C. du Plessis, T. Kanamori, M. Sugiyama, Constrained least-squares density-difference estimation, IEICE Transactions on Information and Systems, vol. E97-D, no. 7, pp. 1822-1829, 2014.)でに記載されている密度差の直接推定に基づく解法を用いてよい。以下では、一
例として、参考文献2に記述がある密度差の直接推定に基づいたテストクラスバランスの半教師付き推定によるセグメントのタイプの判定方法について説明する。
テストクラスバランスの半教師付き推定の問題設定では、訓練データのクラス事前確率p(H0)=1-p(H1)とテストデータのクラス事前確率p’(H0)=1-p’(H1)は異なってよいが、クラスH0又はクラスH1で条件付けられたd次元特徴量yが従う確率密度は等しいと仮定する。即ち、各j=0,1について
Figure 2018013683
が成り立つと仮定する。
このとき、密度差の直接推定に基づいたテストクラスバランスの半教師付き推定では、訓練データの密度関数であるp(x|H0)とp(x|H1)を混合した密度関数
Figure 2018013683
を、テストデータの密度関数p’(x)に適合させることにより、テストデータのクラス事前確率であるp’(H0)とp’(H1)とを推定する。具体的には、p’(H0)=πかつp’(H1)=1-πと推定する。qπ(x)とp’(x)の適合は、qπ(x)とp’(x)のL2距離を最小化するようなπを求めることで達成できる。即ち、密度差f(x):=qπ(x)-p’(x)としたとき
Figure 2018013683
を最小化するπを求めることが目標である。
密度差の直接推定に基づいたテストクラスバランスの半教師付き推定では、qπ(x)とp
’(x)を推定することなしに密度差f(x)を直接推定することを試みる。ここでは、密度差f(x)の近似にガウスカーネルモデル
Figure 2018013683
を用いることにする。ここで、
Figure 2018013683
はガウスカーネルの中心であり、α=(α1,・・・,α2・Lpre+Ltmp)Tは密度差のパラメー
タである。パラメータαの学習は、参考文献2と同じく、二乗誤差基準
Figure 2018013683
を最小化することで求められる。ここでは、J(α)を経験分布で近似したJ~(α)に、パラ
メータαに対する正則化項を導入した
J~(α)+λ||α||2
を最小化するαを求めることにする。すると、推定値α~は次のように解析的に表示でき
る。
α~=(H+λ・I)-1・h
ここで、Hは(i,j)要素が
Figure 2018013683
の(2・Lpre+Ltmp)×(2・Lpre+Ltmp)行列、Iは(2・Lpre+Ltmp)×(2・Lpre+Ltmp)の単位行
列、hは、第j要素が
Figure 2018013683
で与えられる(2・Lpre+Ltmp)次元のベクトルである。
以上より、密度差の近似f~(x)として
f~(x)=α~TΨ(x)
が得られた。但し、
Figure 2018013683
とした。
上記の密度差の近似f~(x)=α~TΨ(x)を求める上で、モデルパラメータである正則化係
数λとガウスカーネルモデルのバンド幅σ2は、交差検証(クロスバリデーション)を用
いて経験誤差J~(α)が最小となるように決めることができる。
確率密度qπ(x)とp’(x)のL2距離
Figure 2018013683
においてf(x)を上で求めたf~(x)に置き換えることで、L2距離の推定値として参考文献2
で提案されたものと同じ
L~2(qπ,p’):=2hTα~-α~THα~
が得られる。セグメントタイプ判定部131は、このL~2(qπ,p’)を最小にするπを算出して記憶する。アルゴリズムの演算量の観点から、予め定めたπの候補(例えば、{0.0,0.2,0.4,0.6,0.8,1.0})の中から、L~2(qπ,p’)を最小にするπを選ぶという方法にして
もよい。
セグメントタイプ判定部131によるセグメントのタイプの判定方法の一つとして、セグメントタイプ判定部131が、上記のπが0.8以上のときは雑音タイプ、πが0.4以下のときは「音声」、その以外のときは「音to雑」又は「雑to音」と判定することが考えられる。尚、「音to雑」又は「雑to音」のいずれであるかの判定は、例えば、判定対象のセグメントの直前のセグメントのタイプが「音声」であれば「音to雑」と判定し、それ以外は「雑to音」と判定する。
セグメントタイプ判定部131によるセグメントのタイプの判定方法の他の一つとして、セグメントタイプ判定部131が、音声信号サンプル生成部153が生成する複数の音声特徴量系列の夫々に対して、上述の密度差の直接推定に基づくテストクラスバランスの半教師付き推定の枠組みを用いてL2距離推定量L~2(qπ,p’)を算出し、その中でL~2(qπ,p’)を最も小さくするπを与える音声特徴量系列を用いて、上記と同様の方法でセグメントのタイプ判定を行うことが考えられる。
尚、実施形態2の音声区間検出装置10においても、セグメントタイプ判定部131が「雑音区間(非音声区間)」以外のセグメント、即ち、セグメントタイプ判定部131が「音声区間」、「音声区間から雑音区間への変化点を含む区間」、及び「雑音区間から音声区間への変化点を含む区間」と判定したセグメントを音声区間として特定した情報を音声区間情報として生成することで、ヒューリスティックなハングオーバー処理に頼らずに脱落のリスクを軽減することを重視した音声区間検出を実現することができる。
以上に説明した第2実施形態の構成において、セグメントタイプ判定部131は、セグメントタイプの判定において雑音モデルと音声モデルを必要としない。即ち音声区間検出装置10は、雑音モデルと音声モデルを仮定すること無く、セグメントが音声区間であるか否かの判定を行うので、モデル化誤差やモデルパラメータの推定誤りによる性能劣化の影響を受けることなく、精度よく音声区間を検出することができる。
ところで、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。以上の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり
、必ずしも説明した全ての構成を備えるものに限定されるものではない。またある実施形態の構成の一部を他の実施形態の構成に置き換えることも可能であり、またある実施形態の構成に他の実施形態の構成を加えることも可能である。また各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。
また上記の各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、S
Dカード、DVD等の記録媒体に置くことができる。
また図面に示した制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
10 音声区間検出装置、11 プロセッサ、12 メモリ、13 入力装置、14 出力装置、110 変化点検出部、111 フレーム処理部、112 特徴量算出部、113 前向き変化点検出部、114 後向き変化点検出部、120 セグメンテーション部、130 音声区間判定部、131 セグメントタイプ判定部、132 音声区間生成部、151 雑音サンプル格納部、152 音声サンプル格納部、153 音声信号サンプル生成部

Claims (15)

  1. 音響信号について時間が進む方向に変化点を検出する前向き変化点検出部と、
    前記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部と、
    前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する音声区間検出部と、
    を備える、音声区間検出装置。
  2. 請求項1に記載の音声区間検出装置であって、
    前記前向き変化点検出部は、音響信号について時間が進む方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Sを超えた時点を前記前向き変化点として検出し、
    前記後向き変化点検出部は、前記音響信号について時間を遡る方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値S’を超えた時点を前記後向き変化点として検出する、
    音声区間検出装置。
  3. 請求項2に記載の音声区間検出装置であって、
    前記前向き変化点と前記後向き変化点とによって前記音響信号を時間軸に沿って区切ることにより複数のセグメントに分割するセグメンテーション部を更に備え、
    前記音声区間判定部は、前記セグメントの夫々が音声区間であるか否かを判定する、
    音声区間検出装置。
  4. 請求項3に記載の音声区間検出装置であって、
    前記音声区間判定部は、前記セグメントが、音声区間又は雑音区間(非音声区間)のいずれのタイプであるかを判定するセグメントタイプ判定部を含む、
    音声区間検出装置。
  5. 請求項3に記載の音声区間検出装置であって、
    前記音声区間判定部は、前記セグメントが、音声区間、雑音区間(非音声区間)、音声区間から雑音区間への変化点を含む区間、雑音区間から音声区間への変化点を含む区間のうちいずれのタイプであるかを判定するセグメントタイプ判定部を含む、
    音声区間検出装置。
  6. 請求項4又は5に記載の音声区間検出装置であって、
    前記セグメントタイプ判定部は、前記セグメントにおける、音声信号が含まれている期間と音声信号が含まれていない期間との割合に基づき、前記セグメントの前記タイプを判定する、
    音声区間検出装置。
  7. 請求項1〜5のいずれか一項に記載の音声区間検出装置であって、
    前記前向き変化点検出部が前記変化点を検出する際のアルゴリズムは、前記後向き変化点検出部が前記変化点を検出する際のアルゴリズムと異なる、
    音声区間検出装置。
  8. 請求項1〜5のいずれか一項に記載の音声区間検出装置であって、
    前記前向き変化点検出部は、音響特徴量を用いた密度差の直接推定アルゴリズムにより変化点検出を行う、
    音声区間検出装置。
  9. 請求項1〜5のいずれか一項に記載の音声区間検出装置であって、
    前記後向き変化点検出部は、音響特徴量を用いた密度差の直接推定アルゴリズムにより変化点検出を行う、
    音声区間検出装置。
  10. 請求項2〜5のいずれか一項に記載の音声区間検出装置であって、
    前記閾値Sと前記閾値S’は異なる値である、
    音声区間検出装置。
  11. 請求項4又は5に記載の音声区間検出装置であって、
    前記セグメントタイプ判定部は、前記セグメントの前記タイプを、音響特徴量を用いたクラスバランス変化に対する適応学習法(テストクラスバランスの半教師付き推定)により判定する、
    音声区間検出装置。
  12. 情報処理装置が、
    入力される音響信号について時間が進む方向に変化点を検出する第1ステップ、
    前記音響信号について時間を遡る方向に変化点を検出する第2ステップ、
    前記第1ステップを実行により検出された前記変化点である前向き変化点、及び前記第2ステップにより検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する第3ステップ、
    を実行する、音声区間検出方法。
  13. 請求項12に記載の音声区間検出方法であって、
    前記情報処理装置が、
    前記第1ステップにおいて、入力される音響信号について時間が進む方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Sを超えた時点を前記前向き変化点として検出し、
    前記第2ステップにおいて、前記音響信号について時間を遡る方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値S’を超えた時点を前記後向き変化点として検出する、
    音声区間検出方法。
  14. 請求項13に記載の音声区間検出方法であって、
    前記情報処理装置が、
    前記前向き変化点と前記後向き変化点とによって前記音響信号を時間軸に沿って区切ることにより複数のセグメントに分割する第4ステップを更に実行し、
    前記第3ステップにおいて、前記セグメントの夫々が音声区間であるか否かを判定する、
    音声区間検出方法。
  15. 情報処理装置に、
    入力される音響信号について時間が進む方向に変化点を検出する機能と、
    前記音響信号について時間を遡る方向に変化点を検出する機能と、
    前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する機能と、
    を実現するためのプログラム。
JP2016144057A 2016-07-22 2016-07-22 音声区間検出装置、音声区間検出方法、及びプログラム Pending JP2018013683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016144057A JP2018013683A (ja) 2016-07-22 2016-07-22 音声区間検出装置、音声区間検出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016144057A JP2018013683A (ja) 2016-07-22 2016-07-22 音声区間検出装置、音声区間検出方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2018013683A true JP2018013683A (ja) 2018-01-25

Family

ID=61020227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016144057A Pending JP2018013683A (ja) 2016-07-22 2016-07-22 音声区間検出装置、音声区間検出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2018013683A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004468A (zh) * 2018-02-23 2020-11-27 波士顿科学国际有限公司 用连续生理测量值评估脉管的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004468A (zh) * 2018-02-23 2020-11-27 波士顿科学国际有限公司 用连续生理测量值评估脉管的方法
CN112004468B (zh) * 2018-02-23 2023-11-14 波士顿科学国际有限公司 用连续生理测量值评估脉管的方法

Similar Documents

Publication Publication Date Title
US11670325B2 (en) Voice activity detection using a soft decision mechanism
US9536547B2 (en) Speaker change detection device and speaker change detection method
US9875739B2 (en) Speaker separation in diarization
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
US9489965B2 (en) Method and apparatus for acoustic signal characterization
US20160071520A1 (en) Speaker indexing device and speaker indexing method
US20130035933A1 (en) Audio signal processing apparatus and audio signal processing method
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
CN112397093A (zh) 一种语音检测方法与装置
US11335332B2 (en) Trigger to keyword spotting system (KWS)
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2018013683A (ja) 音声区間検出装置、音声区間検出方法、及びプログラム
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
Yoshida et al. Audio-visual voice activity detection based on an utterance state transition model
CN111081264B (zh) 一种语音信号处理方法、装置、设备及存储介质
WO2022068675A1 (zh) 发声者语音抽取方法、装置、存储介质及电子设备
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム