JP7409381B2

JP7409381B2 - 発話区間検出装置、発話区間検出方法、プログラム

Info

Publication number: JP7409381B2
Application number: JP2021534484A
Authority: JP
Inventors: 亮増村; 隆伸大庭; 清彰松井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2024-01-09
Anticipated expiration: 2039-07-24
Also published as: JPWO2021014612A1; US20220270637A1; WO2021014612A1

Description

本発明は、音響信号の発話区間検出に関し、発話区間検出装置、発話区間検出方法、プログラムに関する。

音声認識や話者認識、言語識別、音声対話等の音声アプリケーションにおいて、発話区間検出は重要な役割を担っている。例えば音声対話では、ユーザの音声に対し、発話区間ごとに音声認識を行い、音声認識結果に応じて発話区間ごとに応答を行うことで、ユーザとシステムの自然なインタラクションを実現することができる。発話区間検出を実現するにあたって考慮しなければいけない重要な点は、入力された音響信号から、正しい発話区間を頑健に切り出すことである。すなわち、本来の発話が途切れてしまったり、余分な非音声区間が過剰に含まれたりしないように、発話区間を検出することが重要となる。

従来の発話区間検出は、音声非音声判定という技術と、非音声区間の継続時間に対する閾値を用いたポストプロセシングにより実現されている。

音声非音声判定は、音響信号の音声区間と非音声区間を正確に判定するための技術である。音声非音声判定では一般的に、音響信号の短時間フレーム（例えば20msec）ごとに、音声であるか非音声であるかの２値を判定する構造がとられている。最も簡易な方法は、短時間フレームごとに音声パワーを計算して、音声パワーがあらかじめ人手で決定した閾値よりも大きいか小さいかを判断することにより、音声非音声判定を行う方法である。さらに発展的な方法としては、機械学習に基づく音声非音声判定が多く検討されている。機械学習に基づく音声非音声判定の場合、短時間フレームごとにメル周波数ケプストラム係数や基本周波数音響特徴量を抽出し、その情報から音声か非音声かのラベルを出力する識別器を用いて音声非音声判定を行う。例えば機械学習に基づく方法は非特許文献１などに開示されている。

続いて、非音声区間の継続時間に対する閾値を用いたポストプロセシングについて説明する。ポストプロセシング処理では、音声非音声判定を実施した後の出力情報である音声か非音声かのラベル系列に対して処理を行う。ポストプロセシングとして、あらかじめ人手で与えた非音声区間の継続時間の閾値σを用いて、閾値σ未満の時間長の非音声区間を「発話区間内の非音声区間」とみなし、閾値σ以上の時間長の非音声区間を「発話区間外の非音声区間」とみなすことで、「音声区間」および「発話区間内の非音声区間」を発話区間とみなす。この方法を用いた発話区間検出は、例えば非特許文献１などに開示されている。

S. Tong, H. Gu, and K. Yu, "A comparative study of robustness of deep learning approarches for VAD," In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 5695-5699, 2016.

従来技術では、音声非音声判定後のポストプロセシングとして、非音声区間の継続時間に固定の閾値を設けており、非音声区間直前の音声区間が発話終端であるか否かを考慮していない。そのため、特に話し言葉のような多様な音声現象を扱う際に発話区間をうまく検出することができない場合がある。例えば、ある音声区間の終端が「えーとー」等の言い淀みであれば、この終端は発話終端でない可能性が高く、これに続く非音声区間は「発話区間内の非音声区間」であると考えられる。一方、ある音声区間の終端が「です」や「ます」等の終助詞表現であれば、この終端は発話終端である可能性が高く、これに続く非音声区間は「発話区間外の非音声区間」であると考えられる。従来技術では、非音声区間直前の音声区間の終端が発話終端であるか否かを考慮せず、非音声区間の継続時間に固定の閾値を用いているため、期待された動作を実現できない場合があった。例えば、閾値σを2.0秒などと長めの時間に設定しておくと、発話の途中で発話区間が途切れてしまうことを一定程度防ぐことができるが、余分な非音声区間が発話区間内に過剰に含まれてしまう場合がある。一方、閾値σを0.2秒などと短めの時間に設定しておくと、余分な非音声区間が発話区間内に過剰に含まれてしまうことを一定程度防ぐことができるが、発話の途中で発話区間が途切れてしまう場合がある。

そこで本発明では、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる発話区間検出装置を提供することを目的とする。

本発明の音声非音声判定装置は、音声非音声判定部と、発話終端判定部と、非音声区間継続時間閾値決定部と、発話区間検出部を含む。

音声非音声判定部は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う。発話終端判定部は、音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う。非音声区間継続時間閾値決定部は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する。発話区間検出部は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する。

本発明の音声非音声判定装置によれば、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる。

実施例１の発話区間検出装置の構成を示すブロック図。実施例１の発話区間検出装置の動作を示すフローチャート。実施例１の発話区間検出装置の音声区間抽出部の動作例を示す概念図。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜発話区間検出装置１１の構成、動作＞
以下、図１を参照して実施例１の発話区間検出装置の構成を説明する。同図に示すように本実施例の発話区間検出装置１１は、音声非音声判定部１１１と、音声区間抽出部１１２と、発話終端判定部１１３と、非音声区間継続時間閾値決定部１１４と、発話区間検出部１１５を含む。

以下、図２を参照して各構成要件の動作を説明する。

音声非音声判定部１１１は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う（Ｓ１１１）。音声区間抽出部１１２は、音声非音声判定の結果が音声となる区間である音声区間を抽出する（Ｓ１１２）。発話終端判定部１１３は、音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う（Ｓ１１３）。非音声区間継続時間閾値決定部１１４は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する（Ｓ１１４）。発話区間検出部１１５は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する（Ｓ１１５）。このとき、非音声区間継続時間閾値決定部１１４は、音声区間の終端が発話終端である確率が高くなればなるほど対応する閾値を小さな値とし、音声区間の終端が発話終端である確率が低くなればなるほど対応する閾値を大きな値とする。発話区間検出部１１５は、音声区間に続く非音声区間の継続時間が対応する閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出し、音声区間に続く非音声区間の継続時間が対応する閾値未満である場合に対応する非音声区間を発話区間内の非音声区間として検出する。

すなわち、音声区間の終端が「えーとー」等の言い淀みであれば、ステップＳ１１３の発話終端判定に基づき、音声区間の終端が発話終端である確率が低いとの判定を行い、ステップＳ１１４において、非音声区間の継続時間に対して長めの閾値(例えば2.0秒)を与える。一方、直前の音声区間の終端部が「です」や「ます」等の終助詞表現であれば、ステップＳ１１３の発話終端判定に基づき該当の音声区間の終端が発話終端である可能性が高いとの判定を行い、ステップＳ１１４において、非音声区間の継続時間に対して短めの閾値(例えば0.2秒)を与える。

以下、各構成要件の動作をさらに詳細に説明する。

＜音声非音声判定部１１１＞
入力：短時間フレームごとの音響特徴量の系列(x₁,...,x_T)
出力：音声非音声ラベル系列(s₁,...,s_T)

音声非音声判定部１１１の入力は、短時間フレームごとの音響特徴量の系列で表される音響信号である。この音響特徴量としては、様々な情報が利用できるが、例えばメル周波数ケプストラム係数や基本周波数といった情報を用いることができる。これらは公知であるためここでは省略する。ここでは、入力の音響信号を(x₁,...,x_T)と表し、x_tはt番目のフレームの音響特徴量を表す。出力は音声非音声ラベル系列(s₁,...,s_T)であり、(s₁,...,s_T)は(x₁,...,x_T)に対応しており、s_tはt番目のフレームの状態を表し、「音声」か「非音声」のラベルを持つ。ここで、Tは音響信号に含まれるフレーム数である。

短時間フレームごとの音響特徴量の系列から音声非音声ラベル系列への変換方法は、上述の条件を満たす方法であればどんな方法でも良い。例えば参考非特許文献１や参考非特許文献２に開示されたDeep Neural Networkを用いた判定では、各フレームの音声非音声ラベルの生成確率をモデル化することで音声非音声判定を実現する。t番目のフレームの音声非音声ラベルの生成確率は次式で定義できる。
P(s_t)=VoiceActivityDetection(x₁,...,x_t;θ₁)

ここで、VoiceActivityDetection()は音声非音声判定を行うための関数であり、出力として音声非音声ラベルの生成確率を求めることができるものであれば、任意のネットワーク構造が適用できる。たとえば、リカレントニューラルネットワークや畳み込みニューラルネットワークなどと、ソフトマックス層を組み合わせることにより状態の生成確率を求めるネットワークを構成できる。θ₁はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、VoiceActivityDetection()の関数の定義に依存したものとなる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。

ここで、s^₁,...,s^_Tは予測結果の音声非音声状態である。

なお、上記以外の方法として、例えば参考非特許文献３に開示されたガウス混合分布を用いた方法なども用いることができる。
（参考非特許文献１：X.-L. Zhang and J. Wu, “Deep belief networks based voice activity detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013.）
（参考非特許文献２：N. Ryant, M. Liberman, and J. Yuan, “Speech activity detection on youtube using deep neural networks,” In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013.）
（参考非特許文献３：J. Sohn, N. S. Kim, and W. Sung, “A statistical model-based voice activity detection,” IEEE Signal Processing Letters, vol. 6, no. 1, pp.1-3, 1999.）

＜音声区間抽出部１１２＞
入力：短時間フレームごとの音響特徴量の系列(x₁,...,x_T)、音声非音声ラベル系列(s₁,...,s_T)
出力：音声と判定されたある区間の音響特徴量の系列(x_n,...,x_m)（1≦n, m≦T, n<m）

音声区間抽出部１１２は、音声非音声ラベル系列(s₁,...,s_T)の情報をもとにして、短時間フレームごとの音響特徴量の系列(x₁,...,x_T)から、音声と判定されたある区間の音響特徴量の系列(x_n,...,x_m)を抽出する（Ｓ１１２）。なお、1≦nかつ、m≦Tである。ここで何区間分の音声区間を抽出できるのかは、音声非音声ラベル系列に依存しており、ラベル系列が例えば全部「非音声」と判定されれば、音声区間は一つも抽出されない。図３に示すように、音声区間抽出部１１２は、音声非音声ラベル系列(s₁,s₂,...,s_T-1,s_T)中の音声ラベルが連続している区間に対応した区間を音響特徴量の系列から切り出す。図３の例では、(s₃,...,s_T-2)までが音声ラベルであって、その他が非音声ラベルであるため、音声区間抽出部１１２は、(x₃,...,x_T-2)を音声区間として抽出する。

＜発話終端判定部１１３＞
入力：音声と判定されたある区間の音響特徴量の系列(x_n,...,x_m)（1≦n and m≦T）
出力：対象の音声区間の終端が発話終端である確率p_n,m

発話終端判定部１１３は、音声と判定されたある区間の音響特徴量の系列(x_n,...,x_m)を入力として、その音声区間の終端が発話終端である確率p_n,mを出力する（Ｓ１１３）。ステップＳ１１３は、(x_n,...,x_m)に基づいて、対象の音声区間の終端が発話終端である確率p_n,mを出力する処理であれば、どんな処理であってもよい。例えばステップＳ１１３は、参考非特許文献４に記載のニューラルネットワークを用いた方法で実現してもよい。この場合、音声区間の終端が発話終端である確率は次式で定義できる。
p_n,m=EndOfUtterance(x_n,...,x_m;θ₂)

ここで、EndOfUtterance()は入力された音響特徴量系列の終端が発話終端である確率を出力するための関数であり、たとえば、リカレントニューラルネットワークとシグモイド関数を組み合わせることにより構成できる。θ₂はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、EndOfUtterance()の関数の定義に依存する。

なお、本実施例では、音声と判定されたある区間の音響特徴量の系列(x_n,...,x_m)のみを情報として用いたが、対象の音声区間よりも過去に得られた情報であれば、任意の情報を追加して用いることもできる。例えば、対象の音声区間よりも過去の音声区間の情報（音響特徴量の系列や、その際の発話終端判定の出力情報）を用いてもよい。
（参考非特許文献４：Ryo Masumura, Taichi Asami, Hirokazu Masataki, Ryo Ishii, Ryuichiro Higashinaka, "Online End-of-Turn Detection from Speech based on Stacked Time-Asynchronous Sequential Networks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1661-1665, 2017.）

＜非音声区間継続時間閾値決定部１１４＞
入力：対象の音声区間が発話終端である確率p_n,m
出力：対象の音声区間直後の非音声区間継続時間の閾値σ_n,m

非音声区間継続時間閾値決定部１１４は、対象の音声区間が発話終端である確率p_n,mに基づいて、対象の音声区間直後の非音声区間継続時間の閾値σ_n,mを決定する。入力される確率p_n,mは、値が大きいほど対象の音声区間の終端が発話終端である可能性が高いことを意味し、値が小さいほど対象の音声区間の終端が発話終端ではないことを意味している。この性質を活かして、例えば次式のように非音声区間継続時間の閾値を決定する。
σ_n,m=K-kp_n,m

ここで、Kおよびkは人手によりあらかじめ決定したハイパーパラメータであり、K≧k≧0.0である。例えば、K=1.0、k=1.0とした場合、p_n,mが0.9であれば、σ_n,mは0.1となり、対象の音声区間直後の非音声区間継続時間の閾値を短めに設定することができる。一方、p_n,mが0.1であれば、σ_n,mは0.9となり、対象の音声区間直後の非音声区間継続時間の閾値を長めに設定することができる。

なお、ステップＳ１１４の閾値決定方法は、対象の音声区間が発話終端である確率を用いて自動決定する方法であればどんな方法でも良い。例えばp_n,mの値に応じて固定した値を設定することもできる。例えばp_n,m≧0.5であればσ_n,m=0.3、p_n,m<0.5であればσ_n,m=1.0というルールをあらかじめ設定し、非音声区間継続時間閾値決定部１１４はこのルールに基づく閾値決定アルゴリズムを実行してもよい。

＜発話区間検出部１１５＞
入力：音声非音声ラベル系列(s₁,...,s_T)、各音声区間直後の非音声区間継続時間の閾値σ_n,m(n,mのペアは0以上含まれる)
出力：発話区間ラベル系列(u₁,...,u_T)

発話区間検出部１１５は、音声非音声ラベル系列(s₁,...,s_T)と各音声区間直後の非音声区間継続時間の閾値σ_n,mを用いて、発話区間ラベル系列(u₁,...,u_T)を出力する（Ｓ１１５）。(u₁,...,u_T)は(s₁,...,s_T)に対応した発話区間を表現するラベル系列を表し、u_tはt番目のフレームの音響信号が「発話区間内」か「発話区間外」を表す２値ラベルである。この処理は、(s₁,...,s_T)に対するポストプロセシングとして実現できる。

ここで、σ_n,mという閾値が与えられた場合は、m+1番目のフレームの音声非音声ラベルs_m+1より先に1フレーム以上の非音声区間が続くことを意味している。発話区間検出部１１５は、非音声区間の継続時間と閾値σ_n,mを比較して、非音声区間の継続時間が閾値未満であればその区間を「発話区間内の非音声区間」と判定する。一方発話区間検出部１１５は、非音声区間の継続時間が閾値以上であれば、その区間を「発話区間外の非音声区間」と判定する（Ｓ１１５）。発話区間検出部１１５は、この処理を、各音声区間直後の非音声区間継続時間の閾値ごとに実施することにより、発話区間ラベル系列(u₁,...,u_T)を決定する。すなわち発話区間検出部１１５は、「発話区間内の非音声区間」および「音声区間」のフレームに対して「発話区間内」のラベルを与え、「発話区間外の非音声区間」のフレームに対して「発話区間外」のラベルを与える。

なお、上述の実施例では、一定の(Tフレーム分の)音響信号をまとめて処理しているが、時系列順に新たなフレームの情報が得られるたびにこの処理を実施してもよい。例えば、s_T+1が得られたタイミングに、「s_T+1=音声」であれば、u_T+1は自動的に「発話区間内」のラベルを与えることができる。「s_T+1=非音声」であれば、直前の音声区間直後で算出した非音声区間継続時間の閾値が存在すれば、直前の音声区間からの経過時間を求めて、それに応じて発話区間か否かを決定できる。

＜効果＞
実施例１の発話区間検出装置１１によれば、入力された音響信号から、発話区間を頑健に切り出すことができる。実施例１の発話区間検出装置１１によれば、話し言葉のように多様な音声現象が音響信号に含まれる場合であっても、発話の途中で発話区間が途切れてしまったり、発話区間に余分な非音声区間が過剰に含まれることが発生したりすることなく、発話区間を検出することができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図４に示すコンピュータの記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声認識の前処理として発話区間を検出する発話区間検出装置であって、
音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定部と、
前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定部を含む
発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記音声区間に続く非音声区間の継続時間と対応する前記閾値とを比較して、発話区間を検出する発話区間検出部をさらに含む
発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定部をさらに含む
発話区間検出装置。
請求項２に記載の発話区間検出装置であって、
前記非音声区間継続時間閾値決定部は、
前記音声区間の終端が発話終端である確率が高くなればなるほど対応する前記閾値を小さな値とし、前記音声区間の終端が発話終端である確率が低くなればなるほど対応する前記閾値を大きな値とし、
前記発話区間検出部は、
前記音声区間に続く非音声区間の継続時間が対応する前記閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出する
発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記非音声区間継続時間閾値決定部は、
Kおよびkを人手によりあらかじめ決定したハイパーパラメータとし、K≧k≧0.0とし、前記確率をp _n,m とし、非音声区間の継続時間に関する閾値σ _n,m を
σ _n,m =K-kp _n,m
として決定する
発話区間検出装置。
請求項１に記載の発話区間検出装置であって、
前記発話終端判定部は、
音響特徴量に基づき、学習データを用いて学習を行ったニューラルネットワークにより前記確率を求める
発話化区間検出装置。
音声認識の前処理として発話区間を検出する発話区間検出方法であって、
音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定ステップと、
前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定ステップを含む
発話区間検出方法。
コンピュータを請求項１から６の何れかに記載の発話区間検出装置として機能させるプログラム。