JP2018013683A

JP2018013683A - 音声区間検出装置、音声区間検出方法、及びプログラム

Info

Publication number: JP2018013683A
Application number: JP2016144057A
Authority: JP
Inventors: 林太郎池下; Rintaro Ikeshita; 本間　健; Takeshi Honma; 健本間
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2018-01-25

Abstract

【課題】頑健に音声区間を検出することができるようにする。【解決手段】音声区間検出装置１０は、音響信号について時間が進む方向に変化点を検出する前向き変化点検出部１１３と、上記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部１１４と、前向き変化点検出部１１３により検出された上記変化点である前向き変化点、及び後向き変化点検出部１１４により検出された上記変化点である後向き変化点によって上記音響信号を時間軸に沿って複数のセグメントに分割するセグメンテーション部１２０と、上記セグメントのタイプを判定して音声区間を示す情報を生成する音声区間判定部１３０（セグメントタイプ判定部１３１、音声区間情報生成部１３２）と、を備える。【選択図】図２

Description

本発明は、音声区間検出装置、音声区間検出方法、及びプログラムに関する。

特許文献１には、「音声検出装置は、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定手段と、特徴量算出手段が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新手段とを備える」と記載されている。

特許文献２には、「応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備える」と記載されている。

特許文献３には、「音声区間判定装置は、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレーム毎に上記入力信号の強度を増加させるパワー操作部と、上記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有する」と記載されている。

特許第５６２１７８６号公報特開２０１５−４９２８号公報特許第５７３２９７６号公報

音響信号から音声区間を検出する技術（以下、音声区間検出（Voice Activity Detection）と称する。）は、音声符号化における音声圧縮率の向上、通信における音声伝送効率の向上、雑音抑圧における非音声区間からの雑音量推定、音声認識システムにおける音声認識性能の向上と計算処理量の低減、インターネットや会議などの音声記録からの音声区間抽出等、幅広い分野でニーズがあり、各方面で技術研究や製品開発が進められている。

ここで特許文献１では、上記の音声区間検出として、観測信号を分割したフレーム毎に特徴量を算出し、算出した特徴量に基づきフレーム毎に音声区間か否かを識別している。しかし非定常雑音環境下や低ＳＮＲ環境下では、特徴量が雑音によって大きく劣化し、フレーム毎に音声区間か否かを識別する方法は多様な音響信号に対して必ずしも頑健ではない。

また特許文献２では、出力される音声区間が断続的になってしまうのを防ぐため、検出した音声区間が断続的にならないようにハングオーバー処理を行っている。また特許文献３では、非音声区間を音声区間であると誤検出する「湧き出し」が発生するリスクより音声区間を非音声区間であると誤検出する「脱落」が発生するリスクを軽減したいというニーズに応えるべく、ハングオーバー処理を行っている。しかしこれらのハングオーバー処理はヒューリスティック（heuristic）な方法で行われるため、非定常雑音環境下や低Ｓ
ＮＲ環境下では音声区間の検出精度を高めることができない。

また雑音による特徴量の劣化を緩和するため、例えば、音声モデルや雑音モデルに基づき音響信号に含まれている雑音を抑圧し、抑圧後の信号に対して特徴量を算出して音声区間を検出することが行われている。しかしこの方法は仮定した音声モデルまたは雑音モデルのモデル化誤差やモデルパラメータの推定誤りに対して頑健ではない。

本発明は、こうした背景に鑑みてなされたものであり、頑健に音声区間を検出することが可能な、音声区間検出装置、音声区間検出方法、及びプログラムを提供することを目的とする。

上記目的を達成するための本発明の一つは、音声区間検出装置であって、音響信号について時間が進む方向に変化点を検出する前向き変化点検出部と、前記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部と、前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する音声区間検出部と、を備える。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、頑健に音声区間を検出することができる。

第１実施形態の音声区間検出装置１０のハードウェア構成である。第１実施形態の音声区間検出装置１０の機能ブロック図である。前向き変化点検出処理を説明する図であり、（ａ）は、横軸を時間、縦軸を前向き変化点スコアとして表したグラフであり、（ｂ）は、（ａ）に示した前向き変化点スコアについて前向き変化点を検出した結果を示す図である。後向き変化点検出処理を説明する図であり、（ａ）は、横軸を時間、縦軸を後向き変化点スコアとして表したグラフであり、（ｂ）は、（ａ）に示した後向き変化点スコアについて後向き変化点を検出した結果を示す図である。セグメンテーション処理を説明する図である。第２実施形態の音声区間検出装置１０の機能ブロック図である。

以下、図面を参照しつつ発明を実施するための形態について説明する。以下の説明において、同一の又は類似する構成に共通の符号を付して重複した説明を省略することがある。

[第１実施形態]
図１は第１実施形態として示す音声区間検出装置１０のハードウェア構成である。音声区間検出装置１０は、入力される音響信号を対象として音声区間検出を行う。同図に示すように、音声区間検出装置１０は、プロセッサ１１、メモリ１２、入力装置１３、及び出力装置１４を有し、情報処理装置として機能する。

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、等を用いて構成され、メモリ１２に格納されているプログラムを読み出して実行する。プロセッサ１１は、例えば、ＡＳＩＣ（Application Specific LSI）として実現されるものであってもよい。またプロセッサ１１は、例えば、ＤＳＰ（Digital Signal Processor）として機能するものであってもよい。

メモリ１２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＮＶＲＡＭ（Non Volatile RAM）等の記憶素子を用いて構成される。音声区間検出装置１０は、更にハードディスクドライブ、ＳＳＤ（Solid State Drive）等の補助記憶装
置を備えるものであってもよい。

入力装置１３は、音響信号を取り込むインタフェースであり、例えば、マイクロフォン、音声信号増幅回路、Ａ／Ｄコンバータ等である。入力装置１３は、ユーザから情報を取得するユーザインタフェース（キーボード、マウス、タッチパネル等）として機能するものであってもよい。また入力装置１３は、バス（Bus）や通信ネットワーク等を介して他
の装置と有線通信又は無線通信を行う通信インタフェースとして機能するものであってもよい。尚、以下の説明において、入力装置１３には、音声区間検出の対象となる音響信号として、デジタル化された音声データ（例えば、マイクロフォンによってアナログデータとして取得される信号を所定のサンプリング周波数、量子化ビット数でサンプリングした所定フォーマット（例えば、linear ＰＣＭ（Pulse Code Modulation））のデジタルデータ）が入力されるものとする。

出力装置１４は、音声区間の検出結果（後述する音声区間情報（セグメントタイプ、音声区間））を出力するインタフェースである。出力装置１４は、例えば、バス（Bus）や
通信ネットワーク等を介して他の装置と有線通信又は無線通信を行う通信インタフェースとして機能するものであってもよい。また出力装置１４は、情報を出力するユーザインタフェース（ディスプレイ、印字装置等）として機能するものであってもよい。

尚、音声区間検出装置１０は、例えば、スマートフォン、タブレット、携帯電話機等の携帯型の電子機器において実現されるものであってもよい。また音声区間検出装置１０は、例えば、ロボット、サイネージ、カーナビゲーションシステム、各種産業機器等、音声認識や音声分析等の音声処理が行われる機器に組み込まれるものであってもよい。また音声区間検出装置１０は、例えば、インターネット上のクラウドシステムが提供する仮想的な情報処理装置によって実現されるものであってもよい。

図２は、音声区間検出装置１０の機能ブロック図（ソフトウェア構成）である。尚、図中の矢線は、音声区間検出装置１０が音声区間検出を行う際のデータの流れを示す。

同図に示すように、音声区間検出装置１０は、変化点検出部１１０、セグメンテーション部１２０、及び音声区間判定部１３０の各機能を有する。このうち変化点検出部１１０は、フレーム処理部１１１、特徴量算出部１１２、前向き変化点検出部１１３、及び後向き変化点検出部１１４を有する。また音声区間判定部１３０は、セグメントタイプ判定部１３１及び音声区間情報生成部１３２の各機能を有する。これらの機能は、例えば、音声区間検出装置１０が備えるハードウェアによって実現される。またこれらの機能は、例えば、音声区間検出装置１０のプロセッサ１１が、メモリ１２に格納されているプログラム
を読み出して実行することにより実現される。

フレーム処理部１１１は、音声区間検出装置１０に入力される音声データを複数のフレーム（例えば、２０〜４０ｍｓ程度の長さの固定長のフレーム）に分割する。

特徴量算出部１１２は、フレーム処理部１１１によって分割された各フレームについて、前向き変化点検出部１１３、後向き変化点検出部１１４、及び音声区間判定部１３０によって参照される特徴量を算出する。尚、特徴量算出部１１２が算出するフレーム毎の特徴量は一つでもよいし複数でもよい。前向き変化点検出部１１３、後向き変化点検出部１１４、及び音声区間判定部１３０の夫々について異なる種類の特徴量を算出するようにしてもよい。

前向き変化点検出部１１３は、以下に説明する処理（以下、前向き変化点検出処理と称する。）を行う。

図３とともに前向き変化点検出処理について説明する。図３（ａ）は、上記音声データについて時間軸に沿って（過去から未来に向かう方向）時系列に求めた変化点スコア（以下、前向き変化点スコアと称する。）を表したグラフである。尚、変化点スコアは、入力された音声データに対して変化が生じたことの確信度を示す値である。前向き変化点スコアは、前向き変化点検出部１１３が、音声データについて所定の変化点スコア算出アルゴリズムを時間が進む方向に実行することにより求める。図中、音声区間検出装置１０が検出しようとする音声区間（真の音声区間）を点線で示している。本例では、Ｔ１〜Ｔ２とＴ３〜Ｔ４の区間が真の音声区間である。

前向き変化点検出部１１３は、以上のようにして求めた前向き変化点スコアが予め定められた閾値Ｓを超えた時点を前向き変化点として検出する。

図３（ｂ）は、図３（ａ）に示した前向き変化点スコアについて、前向き変化点検出部１１３が前向き変化点を検出した結果である。本例では、前向き変化点検出部１１３は、上向き黒塗三角で示す４つの時点（ｔ１，ｔ２，ｔ３，ｔ４）を前向き変化点として検出している。

図２に戻り、後向き変化点検出部１１４は、以下に説明する処理（以下、後向き変化点検出処理と称する。）を行う。

図４とともに後ろ向き変化点検出処理について説明する。図４（ａ）は、上記音声データについて時間を遡る方向（未来から過去に向かう方向）に時系列に求めた変化点スコア（以下、後ろ向き変化点スコアと称する。）を表したグラフである。後ろ向き変化点スコアは、後向き変化点検出部１１４が、音声データについて所定の変化点算出アルゴリズムを時間を遡る方向に実行することにより求める。尚、後向き変化点検出部１１４が、例えば、前向き変化点検出部１１３が求めた最後の前向き変化点（図３（ａ）ではｔ４）を起点として変化点算出アルゴリズムを時間を遡る方向に実行するようにしてもよい。

後向き変化点検出部１１４は、以上のようにして求めた後向き変化点スコアが予め定められた閾値Ｓ’を超えた時点を後向き変化点として検出する。

図４（ｂ）は、図４（ａ）に示した後向き変化点スコアについて、後向き変化点検出部１１４が後向き変化点を検出した結果である。本例では、後向き変化点検出部１１４は、下向き黒塗三角で示す４つの時点（ｔ１’，ｔ２’，ｔ３’，ｔ４’）を後向き変化点として検出している。

尚、上記の閾値Ｓと閾値Ｓ’は同じでもよいし異なっていてもよい。閾値Ｓと閾値Ｓ’の値は音声区間検出装置１０が音声区間を精度よく特定できるように設定される。

図２に戻り、セグメンテーション部１２０は、前向き変化点と後向き変化点とによって音声データを時間軸に沿って複数のセグメントに分割する（以下、セグメンテーション処理と称する。）。

図５とともにセグメンテーション処理について説明する。セグメンテーション部１２０は、音声データを複数のセグメント（ｔ１’以前（始点は省略）、ｔ１’〜ｔ１、ｔ１〜ｔ２’、ｔ２’〜ｔ２、ｔ２〜ｔ３’、ｔ３’〜ｔ３、ｔ３〜ｔ４’、ｔ４’〜ｔ４、ｔ４以降（終点は省略））に分割している。尚、検出された複数の変化点（前向き変化点、後向き変化点）をどのように組み合わせてセグメントを構成するかは、例えば、多数の音声データについて音声区間を検出した結果に基づく経験的なアルゴリズムによって決定する。本例では、セグメンテーション部１２０は、後ろ向き変化点を始点とし、当該後ろ向き変化点に最も近い未来（時間的に後の）の前向き変化点を終点とする区間を１つのセグメントとしている。そしてその結果、真の音声区間Ｔ１〜Ｔ２の始点Ｔ１についてはｔ１’〜ｔ１のセグメントに、真の音声区間Ｔ１〜Ｔ２の終点Ｔ２についてはｔ２’〜ｔ２のセグメントに、真の音声区間Ｔ３〜Ｔ４の始点Ｔ３についてはｔ３’〜ｔ３のセグメントに、真の音声区間Ｔ３〜Ｔ４の終点Ｔ４についてはｔ４’〜ｔ４のセグメントに、夫々収容されている。尚、例えば、閾値Ｓ及び閾値Ｓ’の双方又は一方を調節することで、真の音声区間の始点や終点が収容されるセグメントを調節することができ、これにより、例えば、音響信号の性質に応じて「脱落」の発生を低減することができる。

尚、例えば、前向き変化点検出部１１３が、変化点ｔ_Ａと、変化点ｔ_Ａから所定時間進んだ変化点ｔ_Ｂを検出し、一方、後向き変化点検出部１１４が、変化点ｔ_Ｃ（変化点ｔ_Ａ及び変化点ｔ_Ｂのいずれよりも過去の時点）を検出した場合に、例えば、セグメンテーション部１２０が、変化点ｔ_Ｃを始点とすることで、変化点ｔ_Ｂを音声区間の始端と判定した場合に生じる「脱落」を防ぐことができる。そのため、ヒューリスティックなハングオーバー処理を行う装置に比べて頑健な音声区間検出装置１０を実現することができる。

図２に戻り、音声区間判定部１３０のセグメントタイプ判定部１３１は、特徴量算出部１１２が求めた特徴量に基づき、セグメンテーション部１２０によって分割された各セグメントのタイプ（「雑音区間（非音声区間）」（以下、「雑音」とも表記する。）、「雑音区間から音声区間への変化点を含む区間」（以下、「雑ｔｏ音」とも表記する。）、「音声区間」（以下、「音声」とも表記する。）、「音声区間から雑音区間への変化点を含む区間」（以下、「音ｔｏ雑」とも表記する。）のいずれか）を判定する。音声区間判定部１３０は、セグメントタイプ判定部１３１による各セグメントのタイプの判定結果を音声区間情報として出力装置１４から出力する。上記音声区間情報は、例えば、セグメントの識別子と当該セグメントのタイプを示す情報とを対応づけた情報を含む。

図５に示す例では、セグメントタイプ判定部１３１は、ｔ１’以前のセグメントについては「雑音」と、ｔ１’〜ｔ１のセグメントについては「雑ｔｏ音」と、ｔ１〜ｔ２’のセグメントについては「音声」と、ｔ２’〜ｔ２のセグメントについては「音ｔｏ雑」と、ｔ２〜ｔ３’のセグメントについては「雑音」と、ｔ３’〜ｔ３のセグメントについては「雑ｔｏ音」と、ｔ３〜ｔ４’のセグメントについては「音声」と、ｔ４’〜ｔ４のセグメントについては「音ｔｏ雑」と、ｔ４以降のセグメントについては「雑音」と判定している。セグメントタイプ判定部１３１によるセグメントのタイプの具体的な判定方法については後述する。

音声区間情報生成部１３２は、セグメントタイプ判定部１３１の判定結果に基づき音声区間を特定し、特定した情報を音声区間情報として出力装置１４から出力する。例えば、音声区間情報生成部１３２は、セグメントタイプ判定部１３１が「音声区間」と判定したセグメントを音声区間とし、セグメントタイプ判定部１３１が「雑音区間（非音声区間）」と判定したセグメントを雑音区間として特定した情報を、上記の音声区間情報として生成する。

また例えば、音声区間情報生成部１３２は、セグメントタイプ判定部１３１が「雑音区間（非音声区間）」以外のセグメント、即ち、セグメントタイプ判定部１３１が、「雑音区間から音声区間への変化点を含む区間」、「音声区間」、及び「音声区間から雑音区間への変化点を含む区間」と判定した各セグメントを音声区間として特定した情報を、上記の音声区間情報として生成する。尚、この場合、ヒューリスティックなハングオーバー処理に頼らずに「脱落」のリスクを軽減することを重視した音声区間検出を実現することができる。

また上記とは逆に、例えば、セグメントタイプ判定部１３１が「音声区間」と判定したセグメントのみを音声区間とし、セグメントタイプ判定部１３１が、「音声区間から雑音区間への変化点を含む区間」、及び「雑音区間から音声区間への変化点を含む区間」と判定したセグメントを雑音区間として特定した情報を、上記の音声区間情報として生成するようにしてもよい。この場合、ヒューリスティックなハングオーバー処理に頼らずに「湧き出し」のリスクを軽減することを重視した音声区間検出を実現することができる。

尚、例えば、既存の音声区間の検出アルゴリズムや変化点の検出アルゴリズムを用い、「音声区間から雑音区間への変化点を含む区間」と判定されるセグメント、又は「雑音区間から音声区間への変化点を含む区間」と判定されるセグメントの時間幅を縮めるようにする（例えば、雑音区間と音声区間の変化点を一点（無限小）にする）ことで、「脱落」の損失と「湧き出し」の損失の双方が適切な状態で（例えば、両者の損失が均等に）低減されるようにしてもよい。

続いて、前述した変化点検出部１１０による変化点の検出方法の具体例を示す。

変化点検出部１１０による変化点の検出方法の一つとして、公知の音声区間検出アルゴリズムを利用する方法がある。その場合、例えば、公知の音声区間検出アルゴリズムにより音声区間と雑音区間（非音声区間）を検出し、検出した音声区間と雑音区間の変わり目を変化点として出力するようにする。

また変化点検出部１１０による変化点の検出方法の他の一つとして、公知の変化点検出アルゴリズムを利用する方法がある。この場合、例えば、変化点検出アルゴリズムとして、参考文献１（S. Liu, M. Yamada, N. Collier, and M. Sugiyama, Change-point detection in time-series data by relative density-ratio estimation, Neural Networks, vol. 43, pp.72-83, 2013.）に示されている手法を用いてもよい。また参考文献２（M. Sugiyama, T. Suzuki, T. Kanamori, M. C. du Plessis, S. Liu, and I. Takeuchi, Density-difference estimation, Neural Computation, vol.25, pp. 2734-2775, 2013.）に
示されている密度差の直接推定に基づく変化点検出アルゴリズムを用いてもよい。密度差の直接推定に基づく変化点検出アルゴリズムは、音声モデルおよび雑音モデルを仮定することなく変化点を検出することができるため、音声モデルまたは雑音モデルのモデル化誤差による変化点検出性能の劣化の影響を受けないという利点がある。

尚、参考文献１及び参考文献２の方法において、変化点の検出に用いる特徴量は、例えば、入力音響信号のパワー、ＳＮＲ、零交差数、基本周波数（Ｆ_０）、メル周波数ケプス
トラム係数（ＭＦＣＣ）、メルフィルタバンク、自己相関関数のピーク値、尖度や歪度といった高次統計量等である。変化点の検出に際しては、こうした特徴量の一つを用いてもよいし、これらの特徴量の複数を組み合わせたものを用いてもよい。

前向き変化点検出処理で用いる変化点検出アルゴリズムと後向き変化点検出処理で用いる変化点検出アルゴリズムとは、同じであってもよいし異なっていてもよい。また前向き変化点検出処理と後向き変化点検出処理とで異なる特徴量を用いてもよい。また変化点には、音声から雑音に変化する変化点と雑音から音声に変化する変化点とがあるが、例えば、音声から雑音に変化する変化点を検出する場合は特徴量Ａと変化点検出アルゴリズムＢを用い、雑音から音声に変化する変化点を検出する場合は特徴量Ｃと変化点検出アルゴリズムＤを用いる等、検出対象とする変化点に対して検出性能の優れた特徴量及び変化点検出アルゴリズムを適宜選択するようにしてもよい。

続いて、セグメントタイプ判定部１３１によるセグメントのタイプの判定方法の具体例を示す。

前述したセグメントタイプ判定部１３１によるセグメントのタイプの判定方法の一つとして、フレーム毎に音声か雑音（非音声）かを判定する既存の音声区間検出アルゴリズムを適用する方法がある。この場合、例えば、セグメントタイプ判定部１３１は、タイプの判定対象とするセグメントのフレーム数をNとして、既存の音声区間検出アルゴリズムが
判定した音声フレームの数がN×0.1以下のときは「雑音」と判定し、音声フレームの数がN×0.5以上のときは「音声」と判定し、それ以外のときは「音ｔｏ雑」又は「雑ｔｏ音」と判定する。尚、「音ｔｏ雑」又は「雑ｔｏ音」のいずれであるかの判定は、例えば、判定対象のセグメントの直前のセグメントのタイプが「音声」であれば「音ｔｏ雑」と判定し、それ以外のときは「雑ｔｏ音」と判定することにより行う。フレーム毎に音声区間検出アルゴリズムを適用するのではなく、複数のフレーム（フレーム群）に対して音声区間検出アルゴリズムを適用するようにしてもよい。

以上に説明したように、本実施形態の音声区間検出装置１０は、前向き変化点及び後向き変化点に基づき、音響信号（音声データ）に含まれている音声区間を検出するので、様々な環境下で頑健に音声区間を検出することができる。とくに実環境において稼働し続けるロボットやサイネージが自動音声認識を行うためには、絶え間なく入力される音響信号から音声認識の対象となる人間の発話区間（音声区間）の始端と終端を正確に検出する必要があるが、音声区間検出装置１０はこうしたニーズにも対応することができる。

また音声区間検出装置１０は、強度が弱い音声区間の始点についても精度よく検出することができ、「脱落」を効果的に防ぐことができる。そのため、例えば、音声区間検出装置１０を会話型ロボットに適用した場合、ロボットが急に話かけられた場合でも会話を聞き逃すことなく応答することができる。また音声区間の終端では音声区間検出の検出位置が遅れることにより生じる「湧き出し」も防ぐことができる。

また音声区間検出装置１０は、前向き変化点と後向き変化点とによって音響信号を時間軸に沿って複数のセグメントに分割するセグメンテーション処理を行い、分割されたセグメント毎に夫々が音声区間であるか否かを判定するので、セグメントに含まれている多くの情報（＞１つのフレームに含まれている情報）に基づき音声区間を特定することができ、フレーム毎に音声区間か否かの判定を行う場合に比べて効率よくかつ精度よく音声区間を検出することができる。このため、非定常雑音環境下や低ＳＮＲ環境下においても頑健に音声区間検出を行うことができる。

[第２実施形態]
図６に第２実施形態として説明する音声区間検出装置１０の機能ブロック図（ソフトウェア構成）を示している。第２実施形態の音声区間検出装置１０は、第１実施形態の音声区間検出装置１０の機能に加えて、更に雑音サンプル格納部１５１、音声サンプル格納部１５２、及び音声信号サンプル生成部１５３の各機能を備える。変化点検出部１１０、セグメンテーション部１２０、及び音声区間情報生成部１３２の内容は、基本的に第１実施形態の音声区間検出装置１０と同様であるのでここでは説明を省略する。以下、第１実施形態との相違点を中心として説明する。

第２実施形態の音声区間検出装置１０は、音声区間判定部１３０のセグメントタイプ判定部１３１が行うセグメントのタイプの判定に、分類問題におけるクラスバランス変化に対する適応学習法（テストクラスバランスの半教師付き推定）の枠組みを用いる。分類問題におけるクラスバランス変化とは、クラス事前確率は変化するが各クラスの入力分布は変化しない状況をいう。音声区間検出におけるクラスとは、対象としているフレームが雑音区間（H₀）であるか音声区間（H₁）であるかのいずれかである。

まず現時刻T_tmpにおいてセグメントタイプ判定部１３１が対象とするセグメントの特徴量系列を

とおく。ここで、L_tmpは、現時刻にセグメントタイプ判定部１３１が対象とするセグメントに属するフレーム数、X’_i(i=1,・・・,L_tmp)は、対象のセグメントにおけるi番目のフレームのd次元特徴量ベクトル、dはセグメントタイプ判定部１３１が用いる特徴量の数をあらわす。以下、X_tmpのことを入力特徴量系列と称する。

また現時刻T_tmpにセグメントタイプ判定部１３１が対象とするセグメントよりも過去のセグメントであって、セグメントのタイプが「雑音」であるもののうち、最も現時刻T_tmpに近い時刻をT_pre、また時刻T_preにおけるセグメントの特徴量系列（雑音特徴量系列）を

とおく。ここで、L_preは、時刻T_preのセグメントに属するフレーム数、n_i(i=1,・・・、L_pre)は、時刻T_preのセグメントにおけるi番目のフレームのd次元特徴量ベクトルである。雑音サンプル格納部１５１は、現時刻T_tmpにおいて、時刻T_preの雑音特徴量系列Nを保存
する。

音声サンプル格納部１５２は、教師データとして、任意の長さのクリーン音声（雑音が重畳されていない音声）をセグメントタイプ判定部１３１が用いる特徴量系列（クリーン音声特徴量系列）に変換したものを記憶する。

音声信号サンプル生成部１５３は、現時刻T_tmpにおいて雑音サンプル格納部１５１が記憶している時刻T_preのセグメントの雑音特徴量系列Nと、音声サンプル格納部１５２が記
憶している任意のクリーン音声特徴量系列であって系列の長さをL_preに変換したもの

を加算することで、雑音が重畳された音声信号サンプルである音声特徴量系列

を生成する。尚、音声信号サンプル生成部１５３が、音声サンプル格納部１５２からクリーン音声特徴量系列をランダムに複数サンプリングすることで、複数の音声特徴量系列を算出するようにしてもよい。また音声信号サンプル生成部１５３が、サンプルされたクリーン音声特徴量系列Sの振幅を増幅し、任意のＳＮＲ値をもつ音声特徴量系列Xを算出する
ようにしてもよい。音声信号サンプル生成部１５３は雑音特徴量系列Nも記憶する。

セグメントタイプ判定部１３１は、現時刻T_tmpのセグメンテーション部１２０の出力である入力特徴量系列X_tmpと、音声信号サンプル生成部１５３が記憶する雑音特徴量系列N
と、音声信号サンプル生成部１５３が生成した一つ又は複数の音声特徴量系列Xを用いて
、分類問題におけるクラスバランス変化に対する適応学習法の枠組みを適用し、入力特徴量系列Xtmpのセグメントのタイプを判定する。

セグメントタイプ判定部１３１は、例えば、雑音特徴量系列Nと一つの音声特徴量系列Xとを並べた特徴量系列である

を訓練データとし、入力特徴量系列X_tmpをテストデータとする。但し、訓練データX_preの要素である各特徴量には、その特徴量が雑音のものであるH₀か雑音が重畳された音声H₁のものであるかを示す情報が紐付いていることに注意する。従って、訓練データとしては

を考えていることに等しい。尚、アルゴリズムの演算量を削減する観点から、X_preから任意個の特徴量を捨てて、集合X_preの濃度を小さくしたものを用いてもよい。

セグメントタイプ判定部１３１は、以上のようにして分類問題におけるクラスバランス変化に対する適応学習法（テストクラスバランスの半教師付き推定）の枠組みを用い、セグメントのタイプの判定を行う。例えば、参考文献３（M. C. du Plessis and M. Sugiyama, Semi-supervised learning of class balance under class-prior change by distribution matching, Neural Networks, Vol. 50, pp. 110-119, 2014.）に記載されている
、密度比の直接推定によるテストクラスバランスの半教師付き推定の枠組みを用いてセグメントのタイプの判定を行うことができる。また例えば、テストクラスバランスの半教師付き推定には、既述の参考文献２や参考文献４（T. D. Nguyen, M. C. du Plessis, T. Kanamori, M. Sugiyama, Constrained least-squares density-difference estimation, IEICE Transactions on Information and Systems, vol. E97-D, no. 7, pp. 1822-1829, 2014.）でに記載されている密度差の直接推定に基づく解法を用いてよい。以下では、一
例として、参考文献２に記述がある密度差の直接推定に基づいたテストクラスバランスの半教師付き推定によるセグメントのタイプの判定方法について説明する。

テストクラスバランスの半教師付き推定の問題設定では、訓練データのクラス事前確率p(H₀)=1-p(H₁)とテストデータのクラス事前確率p’(H₀)=1-p’(H₁)は異なってよいが、クラスH₀又はクラスH₁で条件付けられたd次元特徴量yが従う確率密度は等しいと仮定する。即ち、各j=0,1について

が成り立つと仮定する。

このとき、密度差の直接推定に基づいたテストクラスバランスの半教師付き推定では、訓練データの密度関数であるp(x|H₀)とp(x|H₁)を混合した密度関数

を、テストデータの密度関数p’(x)に適合させることにより、テストデータのクラス事前確率であるp’(H₀)とp’(H₁)とを推定する。具体的には、p’(H₀)=πかつp’(H₁)=1-πと推定する。q_π(x)とp’(x)の適合は、q_π(x)とp’(x)のL²距離を最小化するようなπを求めることで達成できる。即ち、密度差f(x):=q_π(x)-p’(x)としたとき

を最小化するπを求めることが目標である。

密度差の直接推定に基づいたテストクラスバランスの半教師付き推定では、q_π(x)とp
’(x)を推定することなしに密度差f(x)を直接推定することを試みる。ここでは、密度差f(x)の近似にガウスカーネルモデル

を用いることにする。ここで、

はガウスカーネルの中心であり、α=(α₁,・・・,α_{2・Lpre+Ltmp})^Tは密度差のパラメー
タである。パラメータαの学習は、参考文献２と同じく、二乗誤差基準

を最小化することで求められる。ここでは、J(α)を経験分布で近似したJ~(α)に、パラ
メータαに対する正則化項を導入した
J~(α)+λ||α||²
を最小化するαを求めることにする。すると、推定値α~は次のように解析的に表示でき
る。
α~=(H+λ・I)^-1・h
ここで、Hは(i,j)要素が

の(2・L_pre+L_tmp)×(2・L_pre+L_tmp)行列、Iは(2・L_pre+L_tmp)×(2・L_pre+L_tmp)の単位行
列、hは、第j要素が

で与えられる(2・L_pre+L_tmp)次元のベクトルである。

以上より、密度差の近似f~(x)として
f~(x)=α~^TΨ(x)
が得られた。但し、

とした。

上記の密度差の近似f~(x)=α~^TΨ(x)を求める上で、モデルパラメータである正則化係
数λとガウスカーネルモデルのバンド幅σ²は、交差検証（クロスバリデーション）を用
いて経験誤差J~(α)が最小となるように決めることができる。

確率密度q_π(x)とp’(x)のL²距離

においてf(x)を上で求めたf~(x)に置き換えることで、L²距離の推定値として参考文献２
で提案されたものと同じ
L~²(q_π,p’):=2h^Tα~-α~^THα~
が得られる。セグメントタイプ判定部１３１は、このL~²(q_π,p’)を最小にするπを算出して記憶する。アルゴリズムの演算量の観点から、予め定めたπの候補（例えば、{0.0,0.2,0.4,0.6,0.8,1.0}）の中から、L~²(q_π,p’)を最小にするπを選ぶという方法にして
もよい。

セグメントタイプ判定部１３１によるセグメントのタイプの判定方法の一つとして、セグメントタイプ判定部１３１が、上記のπが0.8以上のときは雑音タイプ、πが0.4以下のときは「音声」、その以外のときは「音ｔｏ雑」又は「雑ｔｏ音」と判定することが考えられる。尚、「音ｔｏ雑」又は「雑ｔｏ音」のいずれであるかの判定は、例えば、判定対象のセグメントの直前のセグメントのタイプが「音声」であれば「音ｔｏ雑」と判定し、それ以外は「雑ｔｏ音」と判定する。

セグメントタイプ判定部１３１によるセグメントのタイプの判定方法の他の一つとして、セグメントタイプ判定部１３１が、音声信号サンプル生成部１５３が生成する複数の音声特徴量系列の夫々に対して、上述の密度差の直接推定に基づくテストクラスバランスの半教師付き推定の枠組みを用いてL²距離推定量L~²(q_π,p’)を算出し、その中でL~²(q_π,p’)を最も小さくするπを与える音声特徴量系列を用いて、上記と同様の方法でセグメントのタイプ判定を行うことが考えられる。

尚、実施形態２の音声区間検出装置１０においても、セグメントタイプ判定部１３１が「雑音区間（非音声区間）」以外のセグメント、即ち、セグメントタイプ判定部１３１が「音声区間」、「音声区間から雑音区間への変化点を含む区間」、及び「雑音区間から音声区間への変化点を含む区間」と判定したセグメントを音声区間として特定した情報を音声区間情報として生成することで、ヒューリスティックなハングオーバー処理に頼らずに脱落のリスクを軽減することを重視した音声区間検出を実現することができる。

以上に説明した第２実施形態の構成において、セグメントタイプ判定部１３１は、セグメントタイプの判定において雑音モデルと音声モデルを必要としない。即ち音声区間検出装置１０は、雑音モデルと音声モデルを仮定すること無く、セグメントが音声区間であるか否かの判定を行うので、モデル化誤差やモデルパラメータの推定誤りによる性能劣化の影響を受けることなく、精度よく音声区間を検出することができる。

ところで、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。以上の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり
、必ずしも説明した全ての構成を備えるものに限定されるものではない。またある実施形態の構成の一部を他の実施形態の構成に置き換えることも可能であり、またある実施形態の構成に他の実施形態の構成を加えることも可能である。また各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。

また上記の各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、Ｓ
Ｄカード、ＤＶＤ等の記録媒体に置くことができる。

また図面に示した制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０音声区間検出装置、１１プロセッサ、１２メモリ、１３入力装置、１４出力装置、１１０変化点検出部、１１１フレーム処理部、１１２特徴量算出部、１１３前向き変化点検出部、１１４後向き変化点検出部、１２０セグメンテーション部、１３０音声区間判定部、１３１セグメントタイプ判定部、１３２音声区間生成部、１５１雑音サンプル格納部、１５２音声サンプル格納部、１５３音声信号サンプル生成部

Claims

音響信号について時間が進む方向に変化点を検出する前向き変化点検出部と、
前記音響信号について時間を遡る方向に変化点を検出する後向き変化点検出部と、
前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する音声区間検出部と、
を備える、音声区間検出装置。
請求項１に記載の音声区間検出装置であって、
前記前向き変化点検出部は、音響信号について時間が進む方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Ｓを超えた時点を前記前向き変化点として検出し、
前記後向き変化点検出部は、前記音響信号について時間を遡る方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Ｓ’を超えた時点を前記後向き変化点として検出する、
音声区間検出装置。
請求項２に記載の音声区間検出装置であって、
前記前向き変化点と前記後向き変化点とによって前記音響信号を時間軸に沿って区切ることにより複数のセグメントに分割するセグメンテーション部を更に備え、
前記音声区間判定部は、前記セグメントの夫々が音声区間であるか否かを判定する、
音声区間検出装置。
請求項３に記載の音声区間検出装置であって、
前記音声区間判定部は、前記セグメントが、音声区間又は雑音区間（非音声区間）のいずれのタイプであるかを判定するセグメントタイプ判定部を含む、
音声区間検出装置。
請求項３に記載の音声区間検出装置であって、
前記音声区間判定部は、前記セグメントが、音声区間、雑音区間（非音声区間）、音声区間から雑音区間への変化点を含む区間、雑音区間から音声区間への変化点を含む区間のうちいずれのタイプであるかを判定するセグメントタイプ判定部を含む、
音声区間検出装置。
請求項４又は５に記載の音声区間検出装置であって、
前記セグメントタイプ判定部は、前記セグメントにおける、音声信号が含まれている期間と音声信号が含まれていない期間との割合に基づき、前記セグメントの前記タイプを判定する、
音声区間検出装置。
請求項１〜５のいずれか一項に記載の音声区間検出装置であって、
前記前向き変化点検出部が前記変化点を検出する際のアルゴリズムは、前記後向き変化点検出部が前記変化点を検出する際のアルゴリズムと異なる、
音声区間検出装置。
請求項１〜５のいずれか一項に記載の音声区間検出装置であって、
前記前向き変化点検出部は、音響特徴量を用いた密度差の直接推定アルゴリズムにより変化点検出を行う、
音声区間検出装置。
請求項１〜５のいずれか一項に記載の音声区間検出装置であって、
前記後向き変化点検出部は、音響特徴量を用いた密度差の直接推定アルゴリズムにより変化点検出を行う、
音声区間検出装置。
請求項２〜５のいずれか一項に記載の音声区間検出装置であって、
前記閾値Ｓと前記閾値Ｓ’は異なる値である、
音声区間検出装置。
請求項４又は５に記載の音声区間検出装置であって、
前記セグメントタイプ判定部は、前記セグメントの前記タイプを、音響特徴量を用いたクラスバランス変化に対する適応学習法（テストクラスバランスの半教師付き推定）により判定する、
音声区間検出装置。
情報処理装置が、
入力される音響信号について時間が進む方向に変化点を検出する第１ステップ、
前記音響信号について時間を遡る方向に変化点を検出する第２ステップ、
前記第１ステップを実行により検出された前記変化点である前向き変化点、及び前記第２ステップにより検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する第３ステップ、
を実行する、音声区間検出方法。
請求項１２に記載の音声区間検出方法であって、
前記情報処理装置が、
前記第１ステップにおいて、入力される音響信号について時間が進む方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Ｓを超えた時点を前記前向き変化点として検出し、
前記第２ステップにおいて、前記音響信号について時間を遡る方向に変化点スコアを求め、前記変化点スコアが予め定められた閾値Ｓ’を超えた時点を前記後向き変化点として検出する、
音声区間検出方法。
請求項１３に記載の音声区間検出方法であって、
前記情報処理装置が、
前記前向き変化点と前記後向き変化点とによって前記音響信号を時間軸に沿って区切ることにより複数のセグメントに分割する第４ステップを更に実行し、
前記第３ステップにおいて、前記セグメントの夫々が音声区間であるか否かを判定する、
音声区間検出方法。
情報処理装置に、
入力される音響信号について時間が進む方向に変化点を検出する機能と、
前記音響信号について時間を遡る方向に変化点を検出する機能と、
前向き変化点検出部により検出された前記変化点である前向き変化点、及び前記後向き変化点検出部により検出された前記変化点である後向き変化点に基づき、前記音響信号に含まれている音声区間を検出する機能と、
を実現するためのプログラム。