JP2023041843A

JP2023041843A - 音声区間検出装置、音声区間検出方法及びプログラム

Info

Publication number: JP2023041843A
Application number: JP2023014052A
Authority: JP
Inventors: 寛基富田; Hiroki Tomita
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-03-22
Filing date: 2023-02-01
Publication date: 2023-03-24
Also published as: US11276390B2; US20190295529A1; CN110299153B; CN110299153A

Abstract

【課題】音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出するときの検出精度を向上させる音声区間検出装置、音声区間検出方法及びプログラムを提供する。【解決手段】音声区間検出装置は、特定音声区間検出部と、発話音声区間検出部と、を備えている。特定音声区間検出部は、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する。発話音声区間検出部は、特定音声区間検出部による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、ターゲット音声信号から検出する。【選択図】図５

Description

本発明は、音声区間検出装置、音声区間検出方法及びプログラムに関する。

音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出する技術が知られている。

例えば、非特許文献１は、音声信号から、ＤＢＮ（Deep Belief Network）を用いて発話音声区間を検出する手法を開示している。

Zhang, X.-L., Wu, J., "Deep Belief Networks Based Voice Activity Detection", IEEE Transactions on Audio, Speech, and Language Processing, Vol.21, No.4, pp 697-710, (2013) 藤田悠哉，磯健一，"音素エントロピーを利用した背景発話に頑健なＤＮＮに基づく音声区間検出"，研究報告音声言語情報処理（ＳＬＰ），Ｖｏｌ．２０１６－ＳＬＰ－１１２，Ｎｏ．９，ｐｐ．１－６，（２０１６．７）大淵康成，武田龍，神田直之，"統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出"，電子情報通信学会技術研究報告：信学技報，Ｖｏｌ．２０１２－ＳＬＰ－９４，Ｎｏ．１８，ｐｐ．１０１－１０６，（２０１２．１２）

非特許文献１に開示された手法を用いて音声信号から発話音声区間を検出したときに、当該音声信号中の区間であり、話者以外の音源によって発音された雑音音声を表す雑音音声信号を含む一方で発話音声信号を含まない区間が、発話音声区間として誤って検出されてしまう場合がある。

発話音声区間が誤って検出されてしまうことで、次のような問題が生じていた。例えば、長時間録音した音声データの中から、人が話している部分だけを検出し、検出された音声データだけを再生したい場合に、発話音声区間が誤って検出されてしまうと、不必要な音声データまで再生する必要が生じてしまう。また、例えば、音声を録音（入力）しながら、リアルタイムで発話音声の音声認識を実行したい場合、発話音声区間が誤って検出されてしまうことで、発話音声ではないときも音声認識を実行してしまうこととなり、必要以上にリソース（計算量）を多く消費することとなる。

また、発話音声区間の検出精度が低い場合には、次のような問題が生じていた。例えば、検出した対象が音声ではなく雑音や環境音だけになることがあるので、検出された音声データの聞き直し時に、無駄な時間を使うことになる。また、例えば、音声を喋っている部分が検出されずに検出結果より抜け落ちてしまい、聞き直しが必要な音声データを聞き逃してしまうことになる。さらに、発話音声区間の検出精度が低いために、発話区間の先頭や一部が検出されずに検出結果より抜け落ちてしまうことがあり、その場合、その検出結果の音声データを入力データとして音声認識を行ったときに、認識精度が低下してしまう理由の一つとなっていた。
そのため、発話音声区間の検出精度を向上させることが求められていた。

本発明は、上記事情に鑑み、音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出するときの検出精度を向上させる音声区間検出装置、音声区間検出方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明に係る音声区間検出装置は、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする。

本発明によれば、音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出するときの検出精度を向上させる音声区間検出装置、音声区間検出方法及びプログラムを提供することができる。

本発明の実施形態に係る音声区間検出装置の物理的構成を示す図である。本発明の実施形態に係る音声区間検出装置の機能的構成を示す図である。本発明の実施形態に係る音声区間検出装置が実行するフレームの設定及び候補区間の設定を説明するための図である。本発明の実施形態に係るＮＮ（Neural Network）の構成例を示す図である。本発明の実施形態に係る音声区間検出装置が実行する特定音声区間の検出及び発話音声区間の検出を説明するための図である。本発明の実施形態に係る音声区間検出装置が実行する検出情報の出力を説明するための図である。本発明の実施形態に係る音声区間検出装置が実行する音声区間検出処理を説明するためのフローチャートである。本発明の実施形態に係る音声区間検出装置が実行する候補区間取得処理を説明するためのフローチャートである。本発明の実施形態に係る音声区間検出装置が実行する発話音声区間取得処理を説明するためのフローチャートである。

以下、本発明の実施形態に係る音声区間検出装置について、図面を参照しながら説明する。図中、互いに同一又は同等の構成には、互いに同一の符号を付す。

図１に示す音声区間検出装置１は、ターゲット音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出する。ターゲット音声信号の具体例としては、会議の音声を表す音声信号、講演の音声を表す音声信号、テレビ放送の音声を表す音声信号、ラジオ放送の音声を表す音声信号等が挙げられる。

音声区間検出装置１は、制御部１０と、記憶部１１と、入力部１２と、出力部１３と、通信部１４と、電源部１５と、を備えている。

制御部１０は、ＣＰＵ（Central Processing Unit）を備え、記憶部１１に記憶されたプログラム及びデータに従って、後述する音声区間検出処理を含む各種処理を実行する。制御部１０は、コマンド及びデータの伝送経路である図示しないシステムバスを介して音声区間検出装置１の各部に接続されており、音声区間検出装置１全体を統括制御する。

記憶部１１は、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等の不揮発性の外部記憶装置と、を備え、制御部１０が各種処理を実行するために用いるプログラム及びデータを記憶すると共に、制御部１０が各種処理を実行することによって生成又は取得したデータを記憶する。具体的に、記憶部１１は、制御部１０が実行する制御プログラムを記憶している。また、記憶部１１は、ターゲット音声信号を表すターゲット音声データを記憶している。音声区間検出装置１は、ＰＣ（Personal Computer）、スマートフォン等の外部の情報処理装置が、マイクロフォンを用いてターゲット音声信号を録音することにより生成したターゲット音声データを当該情報処理装置から取得し、記憶部１１が備える外部記憶装置に格納する。

記憶部１１が備えるＲＡＭは、制御部１０のワークエリアとして機能する。すなわち、制御部１０は、記憶部１１に記憶されたプログラム及びデータをＲＡＭへ読み出し、読み出されたプログラム及びデータを参照することによって各種処理を実行する。

入力部１２は、キーボード、タッチパネル、操作ボタン等の入力装置を備え、ユーザによる操作に従って各種指示を受け付け、受け付けた指示を制御部１０へ供給する。具体的に、入力部１２は、ターゲット音声データを指定するための指示や、発話音声区間の検出を開始させるための指示を、ユーザによる操作に従って受け付ける。

出力部１３は、ディスプレイ１３ａと、スピーカ１３ｂと、を備え、制御部１０による制御に従い、発話音声区間の検出結果に対応する検出情報を含む各種情報を、ユーザが認識可能な形態で出力する。具体的に、出力部１３は、制御部１０による制御に従い、ディスプレイ１３ａに、検出情報として、発話音声区間の検出結果を表す検出画像を表示し、スピーカ１３ｂから、検出情報として、検出された発話音声区間が含む音声信号を出力する。

通信部１４は、制御部１０による制御に従い、ＰＣ、スマートフォン等の外部の情報処理装置との間で、ＬＡＮ（Local Area Network）、インターネット等の通信網を介して無線通信を行い、当該外部の情報処理装置との間でデータを送受信する。具体的に、通信部１４は、ＰＣ、スマートフォン等の外部の情報処理装置によって生成されたターゲット音声データを、当該情報処理装置から受信し、受信したターゲット音声データを記憶部１１へ供給する。

電源部１５は、蓄電池等の電源と、当該電源を制御する電源制御回路と、を備え、制御部１０による制御に従い、音声区間検出装置１の各部へ電力を供給する。

上述した物理的構成を備える音声区間検出装置１は、機能的に、図２に示すように、ターゲット音声データ取得部１００と、フレーム設定部１０１と、候補区間取得部１０２と、ＮＮ記憶部１０３と、確率情報記憶部１０４と、発話音声区間取得部１０５と、検出情報出力部１０６と、を備えている。

ターゲット音声データ取得部１００、フレーム設定部１０１、候補区間取得部１０２、発話音声区間取得部１０５及び検出情報出力部１０６は、制御部１０によって実現される。具体的に、制御部１０は、記憶部１１に記憶された制御プログラムを実行して音声区間検出装置１を制御することにより、これらの各部として機能する。ＮＮ記憶部１０３及び確率情報記憶部１０４は、記憶部１１によって実現される。具体的に、ＮＮ記憶部１０３及び確率情報記憶部１０４は、記憶部１１が備える外部記憶装置の記憶領域に構築される。

ターゲット音声データ取得部１００は、記憶部１１が備える外部記憶装置から、当該外部記憶装置によって記憶されたターゲット音声データを取得する。

フレーム設定部１０１は、ターゲット音声データ取得部１００によって取得されたターゲット音声データが表すターゲット音声信号中に、時間的に連続する複数のフレームを設定する。フレームは、時間長がフレーム長の時間窓である。フレーム長は、予め設定された時間長である。以下、フレーム設定部１０１が実行するフレームの設定について図３を参照して説明する。

図３には、ターゲット音声信号の音声波形を表す波形図が示されている。図３に示す波形図において、縦軸は音声波形の振幅の大きさを表し、横軸は時間ｔを表している。以下、図３に示すように、ターゲット音声信号の先頭から末尾までの時間長がＴである場合を例に用いて説明する。

フレーム設定部１０１は、開始時刻がターゲット音声信号の先頭と一致し、時間長がフレーム長Ｆである時間窓を、ターゲット音声信号中の最初のフレームである第０フレームとして設定する。ターゲット音声信号中の最初のフレームは、当該ターゲット音声信号中のフレームのうち開始時刻が最も古いフレームである。第０フレームを設定した後、フレーム設定部１０１は、開始時刻が一のフレームの開始時刻よりシフト長Ｇだけ後の時刻であり、時間長がフレーム長Ｆである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であるか否かを判定し、当該終了時刻がターゲット音声信号の末尾よりも後の時刻ではないと判定したときに、当該時間窓を当該一のフレームの直後のフレームとして設定する処理を、当該終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定されるまで繰り返し実行することにより、ターゲット音声信号中に、時間的に連続する複数のフレームを設定する。フレーム設定部１０１は、開始時刻が一のフレームの開始時刻よりシフト長Ｇだけ後の時刻であり、時間長がフレーム長Ｆである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定したときに、ターゲット音声信号中にフレームを設定する処理を終了する。シフト長Ｇは、予め設定された時間長である。ターゲット音声信号中の一のフレームの直後のフレームは、当該ターゲット音声信号中のフレームのうち当該一のフレームに次いで開始時刻が新しいフレームである。

以下、図３に示すように、フレーム設定部１０１によって、ターゲット音声信号中に、第０フレーム～第（Ｍ－１）フレームのＭ個のフレームが設定された場合を例に用いて説明する。第０フレーム～第（Ｍ－１）フレームは、何れも、時間長がフレーム長Ｆである。図３に示すように、第１フレーム～第（Ｍ－１）フレームの各フレームは、開始時刻が、直前のフレームの開始時刻よりもシフト長Ｇだけ後の時刻である。ターゲット音声信号中の一のフレームの直前のフレームは、当該ターゲット音声信号中のフレームのうち当該一のフレームに次いで開始時刻が古いフレームである。例えば、第１フレームの開始時刻は、第１フレームの直前のフレームである第０フレームの開始時刻よりもシフト長Ｇだけ後の時刻である。

フレーム長Ｆ及びシフト長Ｇは、実験等の任意の手法を用いて、フレーム長Ｆがシフト長Ｇよりも長くなるように予め設定されている。本実施形態では、フレーム長Ｆは、２５ｍｓに設定されており、シフト長Ｇは、１０ｍｓに設定されている。フレーム長Ｆがシフト長Ｇよりも長いため、各フレームは、直後のフレームと時間長（Ｆ－Ｇ）だけ重複している。

図２に戻り、候補区間取得部１０２は、ターゲット音声信号中に、候補区間を設定する。後述するように、音声区間検出装置１は、候補区間取得部１０２によって設定された候補区間から発話音声区間を検出する。候補区間取得部１０２は、図２に示すように、事後確率取得部１０２ａと、第１フレーム判定部１０２ｂと、候補区間設定部１０２ｃと、を備えている。

事後確率取得部１０２ａは、フレーム設定部１０１によって設定されたフレーム毎に、フレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する。

音素の状態は、音素を時間方向に細分化した単位である。音素毎に、音素の状態の数が予め設定されている。以下、各音素の状態の数が３に設定されている場合を例に用いて設定する。例えば、音素「ａ」は、当該音素の発音開始時を含む第１状態「ａ１」と、当該音素の発音終了時を含む第３状態「ａ３」と、当該第１状態「ａ１」と当該第３状態「ａ３」との中間状態である第２状態「ａ２」と、の３つの状態に分けられる。

以下、音響モデルとしてモノフォンモデルを用いる場合を例に説明する。音響モデルは、音素の周波数特性をモデル化したものである。モノフォンモデルは、１音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素の状態との状態遷移を固定化した音響モデルである。事後確率取得部１０２ａは、フレーム毎に、フレームに含まれる音声信号が、モノフォンモデルにおける各音素の３状態それぞれを表している事後確率を取得する。モノフォンモデルで利用される全音素の数をＱ個とした場合、（３×Ｑ）個の状態が存在する。事後確率取得部１０２ａは、（３×Ｑ）個の状態それぞれに対応する事後確率を取得する。

本実施形態では、各音素の各状態に、識別子であるインデックスが一意的に対応付けられている。

事後確率取得部１０２ａは、ＮＮ記憶部１０３によって記憶された、図４に示すＮＮ１０３ａを用いて事後確率を取得する。ＮＮ１０３ａは、音声信号がモノフォンモデルにおける各音素の各状態を表している事後確率を出力する。具体的に、ＮＮ１０３ａの入力層の各ユニットＩＮ１～ＩＮｖは、それぞれ、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）の各次元に予め対応付けられており、ＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗは、それぞれ、モノフォンモデルにおける各音素の各状態に対応付けられている。ＮＮ１０３ａは、音声信号の音響特徴量としてＭＦＣＣが入力層に入力されたことに応答して、出力層から、当該音声信号が各音素の各状態を表している事後確率を出力する。

事後確率取得部１０２ａは、一のフレームに含まれる音声信号をＭＦＣＣへ変換し、当該ＭＦＣＣを当該音声信号の音響特徴量として取得し、取得したＭＦＣＣの各次元の値を、各次元に対応付けられたＮＮ１０３ａの入力層のユニットＩＮ１～ＩＮｖにそれぞれ入力し、当該入力に応答してＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗによって出力された出力値をソフトマックス関数に入力することにより、当該音声信号がモノフォンモデルにおける各音素の各状態を表している事後確率を取得する。

事後確率取得部１０２ａは、各フレームに含まれる音声信号が各音素の各状態を表している事後確率を示す確率情報を、確率情報記憶部１０４へ供給し、記憶させる。また、事後確率取得部１０２ａは、確率情報を、第１フレーム判定部１０２ｂへ供給する。

図２に戻り、第１フレーム判定部１０２ｂは、ターゲット音声信号中のフレーム毎に、予め設定された第１判定条件がフレームにおいて成立しているか否かを判定する。第１判定条件は、フレームに含まれる音声信号が音声に対応する各音素の各状態を表している事後確率の総和が、当該音声信号が無音に対応する各音素の各状態を表している事後確率の総和より大きい場合に成立する。すなわち、第１判定条件は、下記の式（１）が成立している場合に成立する。第１フレーム判定部１０２ｂは、式（１）が成立しているか否かを判定することにより、第１判定条件が成立しているか否かを判定する。非特許文献２に記載されているように、一のフレームにおいて第１判定条件が成立している場合、当該一のフレームに発話音声信号が含まれている可能性が高い。一方、一のフレームにおいて第１判定条件が成立していない場合、当該一のフレームに発話音声信号が含まれている可能性は低い。

式（１）中、Ｓは、各音素の各状態に識別子として対応付けられたインデックスのうち、音声に対応する音素の状態に対応付けられたインデックスを要素として有する集合を表す。Ｎは、各音素の各状態に識別子として対応付けられたインデックスのうち、無音に対応する音素の状態に対応付けられたインデックスを要素として有する集合を表す。p(i|x(t_j))は、音響特徴量x(t_j)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(t_j)は、開始時刻が時刻t_jであるフレームに含まれる音声信号の音響特徴量を表す。

第１フレーム判定部１０２ｂは、事後確率取得部１０２ａから供給された確率情報に基づいて事後確率p(i|x(t_j))を取得し、取得した事後確率p(i|x(t_j))に基づいて式（１）が成立しているか否かを判定する。式（１）中の音響特徴量x(t_j)は、事後確率取得部１０２ａが、開始時刻が時刻t_jであるフレームに含まれる音声信号を変換することによって取得したＭＦＣＣであり、事後確率p(i|x(t_j))は、事後確率取得部１０２ａが、当該ＭＦＣＣをＮＮ１０３ａに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。第１フレーム判定部１０２ｂは、判定結果を示す情報を、候補区間設定部１０２ｃへ供給する。

候補区間設定部１０２ｃは、ターゲット音声信号中に、候補区間を設定する。具体的に、候補区間設定部１０２ｃは、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第１判定条件が成立していると第１フレーム判定部１０２ｂによって判定された区間を、候補区間として設定する。なお、非特許文献３に記載された手法を用いて候補区間の先頭及び末尾を設定してもよい。

上述したように、一のフレームにおいて第１判定条件が成立している場合、当該一のフレームに発話音声信号が含まれている可能性が高く、当該一のフレームにおいて第１判定条件が成立していない場合、当該一のフレームに発話音声信号が含まれている可能性は低い。候補区間に含まれているフレームは、何れも、第１判定条件が成立していると第１フレーム判定部１０２ｂによって判定されているため、候補区間には発話音声信号が含まれている可能性が高い。一方、ターゲット音声信号中の候補区間以外の区間に発話音声信号が含まれている可能性は低い。

以下、図３に示すように、候補区間設定部１０２ｃが、ターゲット音声信号中に、第１候補区間～第Ｐ候補区間のＰ個の候補区間を設定した場合を例に用いて説明する。第１候補区間～第Ｐ候補区間に含まれているフレームは、何れも、当該フレームにおいて第１フレーム判定部１０２ｂによって第１判定条件が成立していると判定されたフレームである。例えば、第１候補区間は、図３に示すように、第１フレーム～第ＫフレームのＫ個のフレームを含んでおり、第１フレーム～第Ｋフレームは、何れも、第１判定条件が成立していると第１フレーム判定部１０２ｂによって判定されたフレームである。

図２に戻り、ＮＮ記憶部１０３は、ＮＮ１０３ａを表すデータを記憶する。ＮＮ１０３ａは、ＰＣ、スマートフォン等の外部の情報処理装置において、音声コーパスを教師データとして用いて、誤差逆伝搬法等の任意の手法による機械学習を行うことによって生成される。音声コーパスは、複数の話者によって発音された音声を表す大量の音声データの集合体である。音声区間検出装置１は、外部の情報処理装置によって生成されたＮＮ１０３ａを表すデータを、通信部１４を介して当該外部の情報処理装置から受信し、受信したデータをＮＮ記憶部１０３に格納する。

確率情報記憶部１０４は、事後確率取得部１０２ａから供給された確率情報を記憶する。確率情報記憶部１０４は、記憶している確率情報を、発話音声区間取得部１０５へ供給する。

発話音声区間取得部１０５は、候補区間取得部１０２によって取得された候補区間から、発話音声区間を検出する。

上述したように、候補区間には発話音声信号が含まれている可能性が高い一方、ターゲット音声信号中の候補区間以外の区間に発話音声信号が含まれている可能性は低い。発話音声区間取得部１０５は、候補区間から発話音声区間を検出することにより、ターゲット音声信号全体から発話音声区間を検出する場合に比べて、検出精度の低下を抑制しつつ、処理負荷を軽減することができる。

候補区間には、発話音声信号が含まれている可能性が高い一方、話者以外の音源によって発音された雑音音声を表す雑音音声信号が含まれている可能性がある。雑音音声の具体例としては、換気扇の動作音、空調装置の動作音、冷蔵庫の動作音等が挙げられる。

発話音声区間取得部１０５は、候補区間中の、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い区間以外の区間を発話音声区間として検出する。

具体的に、発話音声区間取得部１０５は、候補区間から、予め設定された特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を検出し、候補区間中の検出された特定音声区間以外の区間を発話音声区間として検出する。

特定時間は、任意の手法により、各子音の音素の各状態の継続長の平均値に応じて予め設定されている。各子音の音素の各状態の継続長は、各子音の音素の各状態が話者によって発音される時間長である。具体的に、特定時間は、下記の式（２）に従って設定されている。
Ｌ＝ＡＡ＋２×ＳＤ・・・（２）

式（２）中、Ｌは、特定時間を表す。ＡＡは、各子音の音素の各状態の継続長の平均値を表す。ＳＤは、各子音の音素の各状態の継続長の標準偏差を表す。各子音の音素の各状態の継続長の平均値ＡＡ及び各子音の音素の各状態の継続長の標準偏差ＳＤは、音声コーパスにおける各子音の音素の各状態の継続長の分布に従って取得される。

候補区間に雑音音声信号が含まれている場合、当該雑音音声信号は、子音の音素である可能性が高く、母音の音素である可能性は低い。また、話者が子音の音素を発音する場合、話者が、当該子音の音素を、特定時間より長い時間にわたって継続して発音する可能性は低い。従って、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号は、雑音音声信号である可能性が高く、特定音声区間は、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い。発話音声区間取得部１０５は、候補区間中の特定音声区間以外の区間を発話音声区間として検出することにより、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。

発話音声区間取得部１０５は、候補区間中の特定音声区間以外の区間のうち、時間長が予め設定された判定時間以上である区間を、発話音声区間として検出する。

判定時間は、実験等の任意の手法によって予め設定されている。具体的に、本実施形態では、各音素の継続長の平均値に０．１を乗じることによって得られた時間長が、判定時間として設定されている。各音素の継続長の平均値は、音声コーパスにおける各音素の継続長の分布に従って取得される。

話者が発話音声を発音する場合、話者が、当該発音音声を、判定時間よりも短い時間にわたって発音する可能性は低い。従って、候補区間中の特定音声区間以外の区間のうち、時間長が判定時間よりも短い区間は、発音音声区間である可能性は低く、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い。発話音声区間取得部１０５は、候補区間中の特定音声以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出することにより、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。

図２に示すように、発話音声区間取得部１０５は、相関係数算出部１０５ａと、第２フレーム判定部１０５ｂと、特定音声区間検出部１０５ｃと、発話音声区間検出部１０５ｄと、を備えている。

相関係数算出部１０５ａは、各候補区間中のフレーム毎に、フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を算出する。具体的に、相関係数算出部１０５ａは、下記の式（３）に従って相関係数を算出する。なお、各候補区間中の最初のフレームについては、当該最初のフレームの直前のフレームが存在しないため、相関係数算出部１０５ａによる相関係数の算出対象から除外される。

式（３）中、ρ(t_j)は、開始時刻が時刻t_jであるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数である。Ｃは、各音素の各状態に識別子として対応付けられたインデックスのうち、子音の音素の状態に対応付けられたインデックスを要素として有する集合を表す。p(i|x(t_j))は、音響特徴量x(t_j)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(t_j)は、開始時刻が時刻t_jであるフレームに含まれる音声信号の音響特徴量を表す。AV(p(t_j))は、開始時刻が時刻t_jであるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の相加平均を表す。p(i|x(t_j-1))は、音響特徴量x(t_j-1)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(t_j-1)は、開始時刻が時刻t_j-1であるフレームに含まれる音声信号の音響特徴量を表す。時刻t_j-1は、開始時刻がt_jであるフレームの直前のフレームの開始時刻である。すなわち、開始時刻が時刻t_j-1であるフレームは、開始時刻がt_jであるフレームの直前のフレームである。AV(p(t_j-1))は、開始時刻が時刻t_j-1であるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の相加平均を表す。

相関係数算出部１０５ａは、確率情報記憶部１０４によって記憶された確率情報を確率情報記憶部１０４から取得し、取得した確率情報に基づいて事後確率p(i|x(t_j))、事後確率p(i|x(t_j-1))、相加平均AV(p(t_j-1))及び相加平均AV(p(t_j))を取得し、相関係数を算出する。

具体的に、音響特徴量x(t_j)は、事後確率取得部１０２ａが、開始時刻が時刻t_jであるフレームに含まれる音声信号を変換することによって取得したＭＦＣＣであり、事後確率p(i|x(t_j))は、事後確率取得部１０２ａが、当該ＭＦＣＣをＮＮ１０３ａに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。また、音響特徴量x(t_j-1)は、事後確率取得部１０２ａが、開始時刻が時刻t_j-1であるフレームに含まれる音声信号を変換することによって取得したＭＦＣＣであり、事後確率p(i|x(t_j-1))は、事後確率取得部１０２ａが、当該ＭＦＣＣをＮＮ１０３ａに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。

相加平均AV(p(t_j))は、事後確率取得部１０２ａが、開始時刻が時刻t_jであるフレームに含まれる音声信号を変換することによって取得したＭＦＣＣをＮＮ１０３ａに入力することで取得した、当該音声信号が各子音の音素の各状態を表している事後確率の相加平均を算出することによって取得される。相加平均AV(p(t_j-1))は、事後確率取得部１０２ａが、開始時刻が時刻t_j-1であるフレームに含まれる音声信号を変換することによって取得したＭＦＣＣをＮＮ１０３ａに入力することで取得した、当該音声信号が各子音の音素の各状態を表している事後確率の相加平均を算出することによって取得される。

相関係数算出部１０５ａは、算出した相関係数を示す情報を、第２フレーム判定部１０５ｂへ供給する。

第２フレーム判定部１０５ｂは、各候補区間中のフレーム毎に、フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含むか否かを、予め設定された第２判定条件が成立しているか否かに基づいて判定する。第２判定条件は、相関係数算出部１０５ａによって算出された相関係数が、予め設定された判定閾値以上である場合に成立する。判定閾値は、実験等の任意の手法によって予め設定されている。一のフレームにおいて第２判定条件が成立している場合、当該一のフレームは、当該一のフレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいる。一方、一のフレームにおいて第２判定条件が成立していない場合、当該一のフレームは、当該一のフレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいない。

なお、相関係数算出部１０５ａによる相関係数の算出対象から除外された各候補区間中の最初のフレームは、第２フレーム判定部１０５ｂによる判定の対象から除外される。第２フレーム判定部１０５ｂは、判定結果を示す情報を、特定音声区間検出部１０５ｃへ供給する。

特定音声区間検出部１０５ｃは、候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第２判定条件が成立していると第２フレーム判定部１０５ｂによって判定された区間のうち、予め設定された特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する。特定個数は、下記の式（４）に従い、特定時間に応じて予め設定されている。
Ｌ＝Ｆ＋（Ｙ－１）×Ｇ・・・（４）

式（４）中、Ｙは、特定個数を表す。Ｌは、特定時間を表す。Ｆは、フレーム長を表す。Ｇは、シフト長を表す。特定個数は、特定時間の時間長を有する区間に含まれる時間的に連続するフレームの数に相当する。従って、候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第２判定条件が成立していると第２フレーム判定部１０５ｂによって判定された区間が、特定個数よりも多い個数のフレームを含んでいる場合、当該区間は、特定時間よりも長い時間にわたって継続して発音された同一の子音の状態を表す特定音声信号を含んでいる。

以下、図５に示すように、候補区間取得部１０２によって設定された第１候補区間～第Ｐ候補区間に、第２判定条件が成立していると判定された特定個数よりも多い個数のフレームを含む区間と、第２判定条件が成立していると判定された特定個数以下の個数のフレームを含む区間と、が含まれている場合を例に用いて説明する。特定音声区間検出部１０５ｃは、図５に示すように、これらの区間のうち、第２判定条件が成立していると判定された特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する。

図２に戻り、発話音声区間検出部１０５ｄは、候補区間中の特定音声区間検出部１０５ｃによって検出された特定音声区間以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出する。

以下、図５に示すように、第１候補区間～第Ｐ候補区間中の特定音声以外の区間が、時間長が判定時間以上である区間と、時間長が判定時間よりも短い区間と、を含んでいる場合を例に用いて説明する。発話音声区間検出部１０５ｄは、図５に示すように、これらの区間のうち、時間長が判定時間以上である区間を特定音声区間として検出する。

図２に戻り、検出情報出力部１０６は、出力部１３に、発話音声区間検出部１０５ｄによる発話音声区間の検出結果に対応する検出情報を出力させる。具体的に、検出情報出力部１０６は、図６に示すように、出力部１３が備えるディスプレイ１３ａに、検出情報として、発話音声区間検出部１０５ｄによる発話音声区間の検出結果を表す検出画像ＷＷを表示させ、出力部１３が備えるスピーカ１３ｂに、検出情報として、発話音声区間検出部１０５ｄによって検出された発話音声区間が含む音声信号を出力させる。

図６に示すように、検出画像ＷＷは、ターゲット音声信号の音声波形を表す画像と、検出された発話音声区間を表す画像と、を含んでいる。発話音声区間検出部１０５ｄによって複数の発話音声区間が検出された場合、検出情報出力部１０６は、スピーカ１３ｂに、検出された各発話音声区間が含む音声信号を、開始時刻が新しい発話音声区間が含む音声信号から順に、連続して出力させる。

なお、発話音声区間検出部１０５ｄによって発話音声区間が検出されなかった場合、検出情報出力部１０６は、出力部１３に、発話音声区間が検出されなかった旨を報知する非検出情報を出力させる。具体的に、検出情報出力部１０６は、ディスプレイ１３ａに、非検出情報として、「発話音声区間が検出されませんでした。」というメッセージを表す画像を表示させ、スピーカ１３ｂに、非検出情報として、「発話音声区間が検出されませんでした。」というメッセージを表す音声信号を出力させる。

以下、上述した物理的・機能的構成を備える音声区間検出装置１が実行する音声区間検出処理について、図７～図９のフローチャートを参照して説明する。

音声区間検出装置１は、ＰＣ、スマートフォン等の外部の情報処理装置によって生成されたターゲット音声データを、当該外部の情報処理装置から通信部１４を介して受信し、記憶部１１に予め記憶している。

この状態において、ユーザが、入力部１２を操作することによって発話音声区間の検出開始を指示すると、制御部１０は、図７のフローチャートに示す音声区間検出処理を開始する。

音声区間検出処理が開始されると、まず、ターゲット音声データ取得部１００が、記憶部１１に記憶されたターゲット音声データを取得する（ステップＳ１０１）。フレーム設定部１０１は、ステップＳ１０１で取得されたターゲット音声データが表すターゲット音声信号中に、時間的に連続する複数のフレームを設定する（ステップＳ１０２）。具体的に、ステップＳ１０２において、フレーム設定部１０１は、開始時刻がターゲット音声信号の先頭と一致し、時間長がフレーム長Ｆである時間窓を、ターゲット音声信号中の最初のフレームである第０フレームとして設定した後、開始時刻が一のフレームの開始時刻よりシフト長Ｇだけ後の時刻であり、時間長がフレーム長Ｆである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であるか否かを判定し、当該終了時刻がターゲット音声信号の末尾よりも後の時刻ではないと判定したときに、当該時間窓を当該一のフレームの直後のフレームとして設定する処理を、当該終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定されるまで繰り返し実行することにより、ターゲット音声信号中に、時間的に連続する複数のフレームを設定する。

ステップＳ１０２の処理が実行された後、候補区間取得部１０２が、候補区間取得処理を実行する（ステップＳ１０３）。以下、ステップＳ１０３の候補区間取得処理について、図８のフローチャートを参照して説明する。

候補区間取得処理が開始されると、まず、候補区間取得部１０２が、ステップＳ１０１において取得されたターゲット音声データが表すターゲット音声信号中の最初のフレームを処理対象のフレームとして指定する（ステップＳ２０１）。

ステップＳ２０１の処理が実行された後、事後確率取得部１０２ａが、指定された処理対象のフレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する（ステップＳ２０２）。具体的に、事後確率取得部１０２ａは、処理対象のフレームに含まれる音声信号をＭＦＣＣへ変換し、当該ＭＦＣＣをＮＮ記憶部１０３によって記憶されたＮＮ１０３ａの入力層に入力し、当該入力に応答してＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗによって出力された出力値をソフトマックス関数に入力することによって当該処理対象のフレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する。事後確率取得部１０２ａは、取得した事後確率を表す確率情報を確率情報記憶部１０４に記憶させる。

第１フレーム判定部１０２ｂは、指定された処理対象のフレームにおいて第１判定条件が成立しているか否かを、上述した式（１）が成立しているか否かをステップＳ２０２で取得された事後確率に基づいて判定することによって判定する（ステップＳ２０３）。

ステップＳ２０３の処理が実行された後、候補区間取得部１０２が、ステップＳ１０１において取得されたターゲット音声データが表すターゲット音声信号中の全てのフレームを処理対象のフレームとして指定済みであるか否かを判定する（ステップＳ２０４）。ターゲット音声信号中のフレームのうち処理対象のフレームとして未だ指定されていないフレームがあると判定すると（ステップＳ２０４；Ｎｏ）、候補区間取得部１０２は、ターゲット音声信号中のフレームのうち処理対象のフレームとして現在指定されているフレームの直後のフレームを処理対象のフレームとして指定し（ステップＳ２０６）、処理はステップＳ２０２へ戻る。

候補区間取得部１０２は、処理対象のフレームとして指定されるフレームを変更しつつ、ステップＳ２０４においてＹｅｓと判定されるまでステップＳ２０２～Ｓ２０４の処理を繰り返すことにより、ターゲット音声信号中のフレーム毎に、フレームに含まれる音声信号が各音素の各状態を表している事後確率を取得し、フレームにおいて第１判定条件が成立しているか否かを判定する。

ステップＳ２０４において、ターゲット音声信号中の全てのフレームを処理対象のフレームとして指定済みであると判定されると（ステップＳ２０４；Ｙｅｓ）、候補区間設定部１０２ｃが、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第１判定条件が成立しているとステップＳ２０３において判定された区間を、候補区間として設定し（ステップＳ２０５）、候補区間取得処理を終了する。なお、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第１判定条件が成立していると判定された区間が存在しない場合、候補区間設定部１０２ｃは、発話音声区間が検出されなかったと判定して、音声区間検出処理を終了する。

図７に戻り、ステップＳ１０３において候補区間取得処理が実行された後、発話音声区間取得部１０５が、発話音声区間取得処理を実行する（ステップＳ１０４）。以下、ステップＳ１０４の発話音声区間取得処理について、図９のフローチャートを参照して説明する。

発話音声区間取得処理が開始されると、まず、発話音声区間取得部１０５が、ステップＳ２０５においてターゲット音声信号中に設定された候補区間のうち最初の候補区間を処理対象の候補区間として指定する（ステップＳ３０１）。ターゲット音声信号中の候補区間のうち最初の候補区間は、当該ターゲット音声信号中の候補区間のうち開始時刻が最も古い候補区間である。ステップＳ３０１の処理が実行された後、発話音声区間取得部１０５が、指定された処理対象の候補区間中のフレームのうち最初のフレームの直後のフレームを処理対象のフレームとして指定する（ステップＳ３０２）。

ステップＳ３０２の処理が実行された後、相関係数算出部１０５ａが、指定された処理対象のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該処理対象のフレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を、上述した式（３）に従って算出する（ステップＳ３０３）。

ステップＳ３０３の処理が実行された後、第２フレーム判定部１０５ｂが、指定された処理対象のフレームにおいて第２判定条件が成立しているか否かを、ステップＳ３０３において算出された相関係数が判定閾値以上であるか否かを判定することによって判定する（ステップＳ３０４）。

ステップＳ３０４の処理が実行された後、発話音声区間取得部１０５は、指定された処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外の全てのフレームを処理対象のフレームとして指定済みであるか否かを判定する（ステップＳ３０５）。処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外に処理対象のフレームとして未だ指定されていないフレームがあると判定すると（ステップＳ３０５；Ｎｏ）、発話音声区間取得部１０５は、当該処理対象の候補区間中のフレームのうち処理対象のフレームとして現在指定されているフレームの直後のフレームを処理対象のフレームとして指定し（ステップＳ３０９）、処理はステップＳ３０３へ戻る。

発話音声区間取得部１０５は、処理対象のフレームとして指定されるフレームを変更しつつ、ステップＳ３０５においてＹｅｓと判定されるまでステップＳ３０３～Ｓ３０５の処理を繰り返すことにより、指定された処理対象の候補区間中の最初のフレーム以外のフレーム毎に、フレームに係る相関係数を算出し、フレームにおいて第２判定条件が成立しているか否かを判定する。

ステップＳ３０５において、指定された処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外の全てのフレームを処理対象のフレームとして指定済みであると判定されると（ステップＳ３０５；Ｙｅｓ）、特定音声区間検出部１０５ｃが、当該処理対象の候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第２判定条件が成立しているとステップＳ３０４において判定され、特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する（ステップＳ３０６）。

ステップＳ３０６の処理が実行された後、発話音声区間検出部１０５ｄは、指定された処理対象の候補区間中のステップＳ３０６において検出された特定音声区間以外の区間のうち、時間長が判定時間より長い区間を発話音声区間として検出する（ステップＳ３０７）。

ステップＳ３０７の処理が実行された後、発話音声区間取得部１０５は、ステップＳ２０５において設定された候補区間のうち全ての候補区間を処理対象の候補区間として指定済みであるか否かを判定する（ステップＳ３０８）。ステップＳ２０５において設定された候補区間のうち処理対象の候補区間として未だ指定されていない候補区間があると判定すると（ステップＳ３０８；Ｎｏ）、発話音声区間取得部１０５は、ステップＳ２０５において設定された候補区間のうち、処理対象の候補区間として現在指定されている候補区間の直後の候補区間を処理対象の候補区間として指定し（ステップＳ３１０）、処理はステップＳ３０２へ戻る。一の候補区間の直後の候補区間は、当該一の候補区間に次いで開始時刻が新しい候補区間である。

発話音声区間取得部１０５は、処理対象の候補区間として指定される候補区間を変更しつつ、ステップＳ３０８においてＹｅｓと判定されるまでステップＳ３０２～Ｓ３０８の処理を繰り返すことにより、ステップＳ２０５において設定された候補区間毎に、候補区間に含まれる発話音声区間を検出する。

ステップＳ３０８において、ステップＳ２０５において設定された全ての候補区間を処理対象の候補区間として指定済みであると判定すると（ステップＳ３０８；Ｙｅｓ）、発話音声区間取得部１０５は、発話音声区間取得処理を終了する。

図７に戻り、ステップＳ１０４において発話音声区間取得処理が実行された後、検出情報出力部１０６が、出力部１３に、ステップＳ１０４における発話音声区間の検出結果に対応する検出情報を出力させ（ステップＳ１０５）、音声区間検出処理を終了する。具体的に、ステップＳ１０５において、検出情報出力部１０６は、出力部１３が備えるディスプレイ１３ａに、検出情報として、ステップＳ１０４における発話音声区間の検出結果を表す検出画像ＷＷを表示させ、出力部１３が備えるスピーカ１３ｂに、検出情報として、ステップＳ１０４において検出された発話音声区間が含む音声信号を出力させる。なお、ステップＳ１０４において発話音声区間が検出されなかった場合、検出情報出力部１０６は、出力部１３に、非検出情報を出力させる。

以上説明したとおり、音声区間検出装置１は、ターゲット音声信号中の候補区間から、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を検出し、候補区間中の検出された特定音声区間以外の区間を発話音声区間として検出する。このような構成によれば、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。

また、音声区間検出装置１は、候補区間中の特定音声区間以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出する。このような構成によれば、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。

以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。

例えば、上記実施形態では、ターゲット音声データ取得部１００が、記憶部１１に予め記憶されたターゲット音声データを、記憶部１１から取得するものとして説明した。しかし、これは一例に過ぎず、ターゲット音声データ取得部１００は、任意の方法によってターゲット音声データを取得できる。例えば、音声区間検出装置１が、マイクロフォンを備えるように構成し、ターゲット音声データ取得部１００が、当該マイクロフォンに、ターゲット音声信号を録音することによってターゲット音声データを生成させ、生成されたターゲット音声データを当該マイクロフォンから取得するようにしてもよい。

また、上記実施形態では、事後確率取得部１０２ａが、ＮＮ記憶部１０３によって記憶されたＮＮ１０３ａを用いて事後確率を取得するものとして説明した。しかし、これは一例に過ぎず、事後確率取得部１０２ａは、任意の方法によって事後確率を取得できる。例えば、事後確率取得部１０２ａは、ＨＭＭ（Hidden Markov Model）を用いて事後確率を取得してもよい。ＨＭＭは、音声信号に基づいて、当該音声信号が出力される元になった音素の状態を確率的に推定するためのモデルである。ＨＭＭは、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された音響特徴量を出力する事後確率と、をパラメータとした標準パターンを用いる。ＨＭＭは、フレームに含まれる音声信号の音響特徴量が入力されると、当該音響特徴量が各音素の各状態から出力される事後確率の確率分布を、複数のガウス分布を重み付きで加算した混合ガウス分布の形式で出力する。

また、上記実施形態では、音響モデルとしてモノフォンモデルを用いるものとして説明した。しかし、これは一例に過ぎず、任意の音響モデルを用いることができる。例えば、音響モデルとして、バイフォンモデルを用いてもよい。バイフォンモデルは、２音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。バイフォンモデルは、前後片方の音素の状態との状態遷移を考慮した音響モデルである。或いは、音響モデルとして、トライフォンモデルを用いてもよい。トライフォンモデルは、３音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。トライフォンモデルは、前後両方の音素の状態との状態遷移を考慮した音響モデルである。

また、上記実施形態では、事後確率取得部１０２ａは、フレーム毎に、フレームに含まれる音声信号が、モノフォンモデルにおける各音素の３状態それぞれを表している事後確率を取得するものとして説明した。しかし、これは一例に過ぎず、事後確率取得部１０２ａは、各フレームに含まれる音声信号が、バイフォンモデルにおける各音素の３状態それぞれを表している事後確率を取得してもよい。なお、この場合、ＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗを、それぞれ、バイフォンモデルにおける各音素の各状態に対応付けておけばよい。或いは、事後確率取得部１０２ａは、各フレームに含まれる音声信号が、トライフォンモデルにおける各音素の３状態それぞれを表している事後確率を取得してもよい。なお、この場合、ＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗを、それぞれ、トライフォンモデルにおける各音素の各状態に対応付けておけばよい。或いは、事後確率取得部１０２ａは、各フレームに含まれる音声信号が、各音素を表している事後確率を取得してもよい。なお、この場合、ＮＮ１０３ａの出力層の各ユニットＩＯ１～ＩＯｗを、それぞれ、各音素に対応付けておけばよい。

また、上記実施形態では、特定時間が、上述した式（２）に従って設定されるものとして説明した。しかし、これは一例に過ぎず、特定時間は、各子音の音素の各状態の継続長の平均値に応じて、任意の方法で設定できる。例えば、各子音の音素の各状態の継続長の平均値の２倍の時間長を特定時間として設定してもよい。

また、上記実施形態では、相関係数算出部１０５ａが、候補区間中のフレーム毎に、フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を、上述した式（３）に従って算出するものとして説明した。しかし、これは一例に過ぎず、相関係数算出部１０５ａは、任意の方法で相関係数を算出することができる。

また、上記実施形態では、検出情報出力部１０６が、ディスプレイ１３ａに、検出情報として検出画像ＷＷを表示させ、スピーカ１３ｂに、検出情報として、検出された発話音声区間が含む音声信号を出力させるものとして説明した。しかし、これは一例に過ぎず、検出情報出力部１０６は、任意の方法によって検出情報を出力することができる。例えば、音声区間検出装置１が、紙、プラスチック等の印刷媒体に印刷画像を印刷する印刷装置を備えるように構成し、検出情報出力部１０６が、当該印刷装置に、検出情報として、発話音声区間検出部１０５ｄによる発話音声区間の検出結果を表す印刷画像を印刷媒体に印刷させることにより、検出情報を出力するようにしてもよい。発話音声区間検出部１０５ｄによる発話音声区間の検出結果を表す印刷画像の具体例としては、ターゲット音声信号の音声波形を表す画像と、検出された発話音声区間を表す画像と、を含む印刷画像が挙げられる。

また、上記実施形態では、音声区間検出装置１は、発話音声区間の検出を行った後、当該検出の結果に対応する検出情報を出力するものとして説明した。しかし、これは一例に過ぎず、音声区間検出装置１は、発話音声区間の検出を行った後、当該検出の結果に応じた任意の処理を実行できる。例えば、音声区間検出装置１は、発話音声区間の検出を行った後、検出された発話音声区間に含まれた音声信号を対象として音声認識を実行してもよい。或いは、音声区間検出装置１は、発話音声区間の検出を行った後、検出された発話音声区間に含まれた音声信号を対象として、音声信号に基づく話者の感情認識を実行してもよい。

なお、本発明に係る機能を実現するための構成を予め備えた音声区間検出装置として提供できることはもとより、プログラムの適用により、ＰＣ、スマートフォン等の既存の情報処理装置を、本発明に係る音声区間検出装置として機能させることもできる。すなわち、本発明に係る音声区間検出装置の各機能構成を実現させるためのプログラムを、既存の情報処理装置を制御するＣＰＵ等が実行できるように適用することで、当該既存の情報処理装置を本発明に係る音声区間検出装置として機能させることができる。

なお、このようなプログラムの適用方法は任意である。プログラムを、例えば、フレキシブルディスク、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ、メモリーカード等のコンピュータ読み取り可能な記憶媒体に格納して適用できる。さらに、プログラムを搬送波に重畳し、インターネットなどの通信媒体を介して適用することもできる。例えば、通信ネットワーク上の掲示板（ＢＢＳ：Bulletin Board System）にプログラムを掲示して配信してもよい。そして、このプログラムを起動し、ＯＳ（Operating System）の制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする音声区間検出装置。

（付記２）
前記特定音声区間検出手段は、前記特定音声区間を、前記ターゲット音声信号中の候補区間から検出し、
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間を、前記発話音声区間として検出することを特徴とする付記１に記載の音声区間検出装置。

（付記３）
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間のうち時間長が判定時間以上である区間を、前記発話音声区間として検出することを特徴とする付記２に記載の音声区間検出装置。

（付記４）
前記ターゲット音声信号中の時間的に連続する複数のフレームの各々について、各フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいるか否かを、当該フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数が閾値以上であるか否かに基づいて判定するフレーム判定手段をさらに備え、
前記特定音声区間検出手段は、前記ターゲット音声信号中の区間であり、特定個数より多い個数のフレームを含み、かつ、当該区間に含まれる全てのフレームの各々が、各フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいると前記フレーム判定手段によって判定された区間を、前記特定音声区間として検出することを特徴とする付記１乃至３の何れか一つに記載の音声区間検出装置。

（付記５）
前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする付記１乃至４の何れか一つに記載の音声区間検出装置。

（付記６）
前記発話音声区間検出手段による前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする付記１乃至５の何れか一つに記載の音声区間検出装置。

（付記７）
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出ステップと、
前記特定音声区間検出ステップにおける検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出ステップと、
を備えることを特徴とする音声区間検出方法。

（付記８）
コンピュータを、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段、
として機能させることを特徴とするプログラム。

１…音声区間検出装置、１０…制御部、１１…記憶部、１２…入力部、１３…出力部、１３ａ…ディスプレイ、１３ｂ…スピーカ、１４…通信部、１５…電源部、１００…ターゲット音声データ取得部、１０１…フレーム設定部、１０２…候補区間取得部、１０２ａ…事後確率取得部、１０２ｂ…第１フレーム判定部、１０２ｃ…候補区間設定部、１０３…ＮＮ記憶部、１０３ａ…ＮＮ、１０４…確率情報記憶部、１０５…発話音声区間取得部、１０５ａ…相関係数算出部、１０５ｂ…第２フレーム判定部、１０５ｃ…特定音声区間検出部、１０５ｄ…発話音声区間検出部、１０６…検出情報出力部、Ｆ…フレーム長、Ｇ…シフト長、Ｔ…ターゲット音声信号の時間長、ＷＷ…検出画像、ＩＮ１～ＩＮｖ…ＮＮの入力層のユニット、ＩＯ１～ＩＯｗ…ＮＮの出力層のユニット

上記目的を達成するため、本発明に係る音声区間検出装置は、
ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が判定時間以上である区間を、発話音声区間として検出する、制御部を備えることを特徴とする。

Claims

特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする音声区間検出装置。
前記特定音声区間検出手段は、前記特定音声区間を、前記ターゲット音声信号中の候補区間から検出し、
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間を、前記発話音声区間として検出することを特徴とする請求項１に記載の音声区間検出装置。
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間のうち時間長が判定時間以上である区間を、前記発話音声区間として検出することを特徴とする請求項２に記載の音声区間検出装置。
前記ターゲット音声信号中の時間的に連続する複数のフレームの各々について、各フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいるか否かを、当該フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数が閾値以上であるか否かに基づいて判定するフレーム判定手段をさらに備え、
前記特定音声区間検出手段は、前記ターゲット音声信号中の区間であり、特定個数より多い個数のフレームを含み、かつ、当該区間に含まれる全てのフレームの各々が、各フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいると前記フレーム判定手段によって判定された区間を、前記特定音声区間として検出することを特徴とする請求項１乃至３の何れか一項に記載の音声区間検出装置。
前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする請求項１乃至４の何れか一項に記載の音声区間検出装置。
前記発話音声区間検出手段による前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする請求項１乃至５の何れか一項に記載の音声区間検出装置。
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出ステップと、
前記特定音声区間検出ステップにおける検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出ステップと、
を備えることを特徴とする音声区間検出方法。
コンピュータを、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段、
として機能させることを特徴とするプログラム。