JP2015102702A - 発話区間抽出装置とその方法とプログラム - Google Patents

発話区間抽出装置とその方法とプログラム Download PDF

Info

Publication number
JP2015102702A
JP2015102702A JP2013243503A JP2013243503A JP2015102702A JP 2015102702 A JP2015102702 A JP 2015102702A JP 2013243503 A JP2013243503 A JP 2013243503A JP 2013243503 A JP2013243503 A JP 2013243503A JP 2015102702 A JP2015102702 A JP 2015102702A
Authority
JP
Japan
Prior art keywords
speech
voice
utterance
section
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013243503A
Other languages
English (en)
Inventor
記良 鎌土
Noriyoshi Kamado
記良 鎌土
裕司 青野
Yuji Aono
裕司 青野
阪内 澄宇
Sumitaka Sakauchi
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013243503A priority Critical patent/JP2015102702A/ja
Publication of JP2015102702A publication Critical patent/JP2015102702A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】発話区間内における長時間特徴量の変動を考慮した発話区間を抽出する発話区間抽出装置を提供する。【解決手段】音声区間検出部が、音声信号を入力としてフレーム単位の短時間間隔で音声/非音声区間を表す音声区間情報を出力し、音声区間密度計算部が、音声区間情報を所定の時間保存し、保存した音声区間情報の総和と所定の時間との比に基づく長時間特徴量である音声区間密度を計算して当該音声区間密度と音声区間情報とを出力する。そして、発話始終端判定部が、音声区間情報と、長時間特徴量である音声区間密度とに基づいて人の発話モデルにリンクさせた発話区間情報を検出して、その間の音声信号を発話区間音声信号として外部に出力する。【選択図】図1

Description

この発明は、例えば音声認識の性能を向上させる目的で、その前処理に用いる発話区間抽出装置とその方法とプログラムに関する。
音声認識の性能を向上させるためには、認識対象の音声系列から音声区間を精度よく検出する必要がある。認識対象の音声系列は、一般的に、意味のある発話と雑音とで構成される。意味のある発話を構成する音声系列は、周波数特性のような短時間的な特徴だけでなく、ある程度の時間的継続長を持つため、長期間特徴も持ち合わせるのが一般的である。
従来から、その短時間特徴又は長期間特徴を用いて、音声区間を検出する方法が考えられている。短時間特徴を用いた方法は例えば特許文献1に、長時間特徴を用いた方法は例えば特許文献2に開示されている。
特許文献1に開示された短時間特徴を用いる方法を簡単に説明する。その方法は、入力信号の音響特徴量をフレームごとに抽出し、クリーン音声信号と無音信号の確率モデルを利用して、雑音モデルパラメータを、並列処理により時間軸に対し順方向だけでなく逆方向にも推定する。そして、フレーム毎に非音声状態/音声確率と非音声状態確率に対する音声確率の比を算出し、当該音声確率の比と閾値を比較して音声区間推定を行う。
図7に、特許文献2に開示された長期間特徴を用いた音声/非音声判定補正装置900の機能構成を示して、その動作を簡単に説明する。音声/非音声判定補正装置900は、補正判定制御部110、VADフラグ補正判定部120、音声情報取得部140、閾値更新部150、音声/非音声区間割合算出部160、を具備する。
補正判定制御部110は、現フレームに対応付けられた音声/非音声判定結果(以下、VADフラグ)と過去一定時間分の各フレームに対応付けられたVADフラグを用いて音声区間の割合/非音声区間の割合を計算し、補正のための判定処理を行うか否かを決定する。VADフラグ補正判定部120は、音声情報取得部140が出力する音声情報と、閾値更新部150の出力する閾値とを比較した結果に基づいて、現VADフラグを、当該現VADフラグが音声区間を示すものであれば、非音声区間を示すVADフラグに補正することの要否を判定し、補正要と判定した場合には補正した補正VADフラグを出力し、補正を要しないと判定した場合には現VADフラグを補正VADフラグとして出力する。
特開2009−210647号公報 特開2008−134565号公報
従来の短時間特徴を用いた方法は、音声の短時間特徴しか見ていないために、音声に似た短時間特徴を持つ雑音も音声と判定してしまう問題がある。また、長時間特徴(過去一定時間分のVADフラグ)を用いた方法では、発話の長さなどを考慮した音声の長時間特徴を利用して音声判定を行うため、音声に類似した雑音に対して一応の耐性がある。しかし、雑音環境下での特徴量は、推定困難な現フレームの音声信号のパワーやピッチの相関値であるため、雑音の存在する環境下では音声区間検出精度が大きく劣化する問題がある。
例えばモバイル分野における音声区間検出においては、単に音声の発声区間を検出だけではなく、モバイル端末がその利用者の意図したところを理解し、適切な反応を返す必要がある。適切な反応を返すためには、利用者が話しかけた音声において意味のある発話単位を含む区間、この区間をここでは「音声区間」と区別するため「発話区間」と称するが、この発話区間を精度よく検出しなければならない。発話区間では、例えば息継ぎや記憶の関係で音声の長時間特徴が変化する。特に人の声には、息継ぎの関係で発話の終端に向かって音声のパワーが弱くなる特徴がある。
しかし、従来の短時間特徴を用いた方法及び長時間特徴を用いた方法は、発話区間内における長時間特徴の変動を考慮していないため、適切な発話区間を検出することができない課題がある。
この発明は、このような課題に鑑みてなされたものであり、発話区間内における長時間特徴の変動を考慮して発話区間を抽出する発話区間抽出装置とその方法とプログラムを提供することを目的とする。
この発明の発話区間抽出装置は、音声区間検出部と、音声区間密度計算部と、発話始終端判定部と、を具備する。音声区間検出部は、音声信号から音声区間を検出して音声区間情報を出力する。音声区間密度計算部は、音声区間情報を所定の時間保存し、保存した音声区間情報の総和と所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と音声区間情報とを出力する。発話始終端判定部は、音声区間密度と音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の音声信号を発話区間音声信号として出力する。
本発明の発話区間抽出装置は、音声区間情報と音声区間密度とに基づいて発話区間音声情報を出力する。所定の時間の幅で計算される音声区間密度は、短時間(フレーム長)に対する長時間(所定の時間)の特徴量の指標である。この長時間特徴量を用いた本発明の発話区間抽出装置は、発話区間内における長時間特徴の変動を考慮した精度の良い発話区間の抽出を可能にする。
この発明の発話区間抽出装置100の機能構成例を示す図。 発話区間抽出装置100の動作フローを示す図。 音声信号Oと音声区間情報Osと音声区間密度Osdの一例を示す図。 発話始終端判定部30の機能構成例を示す図。 発話始終端判定部30の動作フローを示す図。 この発明の発話区間抽出装置200の機能構成例を示す図。 特許文献2に開示された音声/非音声判定補正装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の発話区間抽出装置100の機能構成例を示す。その動作フローを図2に示す。発話区間抽出装置100は、音声区間検出部10と、音声区間密度計算部20と、発話始終端判定部30と、を具備する。発話区間抽出装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
音声区間検出部10は、音声信号から音声区間を検出して音声区間情報を出力する(ステップS10)。音声信号は、連続的な信号であるアナログ信号、または離散的な信号であるディジタル信号のどちらであっても良い。以降の説明では、音声信号がディジタル信号の場合を例に説明するが、本発明の技術思想は、アナログ信号及びディジタル信号のどちらの音声信号に対しても適用することが可能である。
音声信号Oは、所定のサンプリング周波数(例えば、8000Hz)で離散値化された信号であり、目的信号である音声信号に雑音信号が重畳した信号である。添え字のvはサンプリング時刻を表す離散値である。
音声区間検出部10は、音声信号Oを時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音声信号Ot,0,…,Ot,m,…,Ot,M−1をフレームとして切り出す。例えば、サンプリング周波数8000Hzで時間長10msに相当する80サンプル点長の音声信号を40サンプル点ずつ始点を移動させながら切り出す。なお、tはフレーム番号を表す。フレーム番号の初期値は0であり、新たなフレームが切り出される度に直前のフレーム番号に1を加算した値が新たなフレーム番号として付与される。また、Mはフレーム毎に切り出されたサンプル数を表し、Ot,mはフレーム番号tのフレームが含むm+1番目の音声信号を表す。
そして、音声区間検出部10は、フレーム毎に音声信号O(Ot,0,…,Ot,m,…,Ot,M−1)を高速フーリエ変換して周波数領域の信号に変換し、更にメルフィルタバンク分析を適用してフレーム毎に音声特徴量を求めて音声区間検出を行い、音声区間情報Osを出力する。音声区間情報Osは0(非音声)か1(音声)の2値信号である。この音声区間検出部10の処理は、例えば特許文献1に開示された周知の方法を用いる。
音声区間密度計算部20は、音声区間検出部10が出力する音声区間情報Osを所定の時間保存し、保存した音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度Osdと音声区間情報Osとを出力する(ステップS20)。先ず、音声区間検出部10から出力された音声区間情報を保存(buffering)する。この保存手段(バッファ)は、キュー構造になっており、新たな音声区間情報が入力されると、最も古い音声区間情報Osは入力された音声区間情報Osの数だけ捨てられる構造になっている。保存中の各要素値は、その定義上、音声区間情報である0か1の2値信号である。そのため、音声区間情報Osが得られたたら即座に保存した各要素の総和を取り、所定の時間長で正規化することで、フレーム毎に、音声区間がどれだけ存在するかを意味する音声区間密度Osdを計算することができる(式(1))。
Figure 2015102702
図3に、音声信号Oと音声区間情報Osと音声区間密度Osdの一例を示す。図3に示す例は、フレーム長を10ms、所定の時間を100msとした場合である。1行目は音声信号である。2行目は音声区間情報Osであり、フレーム毎に非音声を0、音声を1として音声区間検出部10から出力される。3行目は音声区間密度Osdであり、0〜1の数値で表される。4行目は音声区間密度Osdを振幅で表す。このように音声区間密度Osdは、フレーム毎に徐々に変化する情報であり、複数のフレーム数に相当する長時間の所定の時間で評価した長時間特徴量である。所定の時間(バッファ長)は、例えばモバイル音声認識の用途を想定した場合、例えば500〜2000ms程度の時間が好ましい。
発話始終端判定部30は、音声区間密度計算部20が出力する音声区間密度Osdと音声区間情報Osとに基づいて発話区間情報を検出し、当該発話区間情報内の音声信号Oを発話区間音声信号として出力する(ステップS30)。図3に示した音声区間情報Osと音声区間密度Osdの場合は、音声信号O〜O13の範囲の何れかのフレームから発話区間が開始したと判定され、O16以降の図示しない何れかのフレームで非音声区間と判定されるまで発話区間が継続する。発話始終端判定部30は、その発話区間内の音声信号を発話区間音声信号として外部に出力する。
以上説明した音声区間検出部10と音声区間密度計算部20と発話始終端判定部30の処理は、全てのフレームについての処理が終了するまで、又は、図示しない動作停止の指示が外部から入力されるまで繰り返される(ステップS40のNo)。このステップS10とステップS20とステップS30の時系列動作の制御と動作終了の制御は、制御部40が行う。この制御部40の機能は、この実施例の特別な技術的特徴では無く一般的なものである。
発話区間抽出装置100は、始めに音声の短時間特徴である音声区間情報Osで音声区間の判定を行い、その後に、発話区間内の長時間特徴量である音声区間密度Osdの高い区間を音声区間として判定し直す。したがって、雑音の混入に対して頑健で、且つ高い精度で発話区間抽出を行うことができる。また、長時間特徴量を用いて音声区間を判定するので、人の発話モデルにリンクさせた発話区間の抽出を可能にする。
このように音声区間情報Osと音声区間密度Osdとに基づいて発話区間抽出を行うこの発明の考えは、上記したようにアナログ信号の音声信号に対しても適用することが可能である。その場合、音声区間情報Osは音声信号のパワーに基づいて判定すれば良い。
この発明のより具体的な機能構成例を参照して更に詳しく説明する。図4に、より具体的な発話始終端判定部30の機能構成例を示す。その動作フローを図5に示す。発話始終端判定部30は、始端判定手段31と、終端判定手段32と、発話区間情報生成手段33と、発話区間音声信号生成手段34と、を備える。
始端判定手段31は、音声区間情報Osが音声の場合に音声区間密度Osdと閾値1を比較して当該音声区間密度Osdが閾値1以上の時に発話区間の始端を検出する(ステップS31)。始端判定手段31は、非音声から音声状態への状態遷移を検出するものであるので、先ず、前のフレームが非音声状態で有ったか否かを発話区間フラグを参照して確認する(ステップS310)。前のフレームとは1フレーム過去のことである。この1フレーム過去の情報は、例えば始端判定手段31の内部に設けられるレジスタに記録しておく。その初期値は、非発話区間を表す0に設定される。レジスタは、発話区間抽出装置100を構成するコンピュータのRAMであっても良い。
前のフレームの発話区間フラグが0(ステップS310のYes)の時、始端判定手段31は、当該フレームの音声区間情報Osを確認する(ステップS311)。当該フレームの音声区間情報Osが非音声の場合(ステップS311の非音声)、発話区間フラグは0(ステップS340のNo)であるのでフレーム番号が更新されて次のフレームの処理を行う(ステップS40のNo)。当該フレームの音声区間情報Osが音声の場合(ステップS311の音声)、始端判定手段31は当該フレームの音声区間密度Osdと閾値1を比較する(ステップS312)。当該フレームの音声区間密度Osdが閾値1以上の時、始端判定手段31は、発話区間情報生成手段33の発話区間フラグを1にセットする(ステップS312のYes)。当該フレームの音声区間密度Osdが閾値1未満の時(ステップS312のNo)、この経路では発話区間フラグが0であるのでフレーム番号が更新されて次のフレームの処理を行う(ステップS40のNo)。
このように発話の始端判定は、音声区間密度を閾値処理することにより行う。例えばモバイル音声認識においては、0.7〜0.8程度の音声区間密度が有る場合に発話の始端と判定する。例えば所定の時間を1000msとした場合に、音声継続長が700〜800msである時を発話の始端として判定する。
発話区間フラグが1にセットされると、終端判定手段32が動作を開始する(ステップS310のNo)。終端判定手段32は、音声区間情報Osが音声の場合に音声区間密度Osdと閾値2を比較して当該音声区間密度Osdが閾値2未満で、且つ、閾値2未満の状態が所定時間経過した時に発話区間の終端を検出する(ステップS32)。
先ず、終端判定手段32は、当該フレームの音声区間情報Osを確認する(ステップS320)。当該フレームの音声区間情報Osが非音声の場合(ステップS320の非音声)、終端判定手段32は当該フレームの音声区間密度Osdと閾値2を比較する(ステップS321)。
音声区間密度Osdが閾値2未満の場合(ステップS321のNo)、終端判定手段32は許容ポーズ長計数を行う(ステップS322)。許容ポーズ長計数とは、音声区間密度Osdが閾値2未満のフレーム数を数える処理のことである。この例では、フレーム長が10msであるので、音声区間密度Osdが閾値2未満と判定される回数を、所定の回数数える。例えば、所定の回数を30と設定しておくと、許容ポーズ長計数が30回となると許容ポーズ長が所定長以上と判定され、発話区間情報生成手段33の発話区間フラグが0にリセットされる(ステップS323の所定長以上)。
発話区間の終端判定は、人の発話時の音声区間密度が息継ぎの間で段階的(シグモイド的)に減少することから、発話の始端判定に用いた閾値1より小さな閾値2で閾値処理することで行う。具体的には、0.1〜0.7未満の音声区間密度の場合に発話の終端と判定する。例えば所定の時間を1000msとした場合に、音声継続長が100〜700ms未満である時を発話の終端として判定する。
所定の回数は、音声区間密度Osdが閾値2未満となる時間が、300ms〜1500msに相当する回数に設定される。所定の回数は、例えばフレーム長を10msとすると30〜150回となる。
なお、時間経過に伴う音声区間密度Osdの変化が一方向で安定している状況は少ないと考えられる。実際のところ音声区間密度Osdの値は揺らぎを持って変化するので、フレームが更新される毎にステップS321のNoとYesを繰り返すことがある。その場合の許容ポーズ長計数は、所定の回数に達するまでに音声区間密度Osdが閾値2以上となった時に、許容ポーズ長の計数値をリセットするようにしても良い。または、許容ポーズ長の計数値をリセットしない場合は、許容ポーズ長の計数に対応させて閾値2の値を順次小さな値に変化させるようにしても良い。
終端判定手段32は、音声区間密度Osdが閾値2未満で、且つ、閾値2未満の状態が所定時間経過した時に発話区間の終端を検出して発話区間フラグを0にリセットする。それ以外の場合は、発話区間フラグは1にセットされた状態で維持される。
発話区間情報生成手段33は、始端判定手段31が発話区間の始端を検出した時から、終端検出手段32が発話区間の終端を検出するまでの間の区間を発話区間情報として出力する(ステップS33)。始端判定手段31が発話区間の始端を検出した時とは、当該フレームの音声区間密度Osdが閾値1以上と判定された時である(ステップS312のYes)。終端検出手段32が発話区間の終端を検出する時とは、当該フレームの音声区間密度Osdが閾値2未満で、且つ、閾値2未満の状態が所定時間経過した時である(ステップS323の所定長以上)。ステップS312で音声区間密度Osdが閾値1以上と判定された後、ステップS323で閾値2未満の状態が所定時間経過した時と判定されるまでの間、発話区間情報生成手段33は発話区間を表す発話区間情報を出力する。
発話区間情報とは、発話区間フラグが1にセットされた区間のことである。上記した閾値1と閾値2の関係を、閾値1>閾値2とすることで発話の終端に向かって音声区間密度が減って行く人の声の特徴に合わせて発話区間情報を検出することができる。
発話区間音声信号生成手段34は、発話区間情報のある間に音声信号を出力する(ステップS34)。発話区間音声信号生成手段34は、発話区間フラグが0にリセットされている状態では音声信号を出力しない(ステップS340のNo)。発話区間フラグが1にセットされている状態において音声信号が出力される(ステップS341)。
発話始終端判定部30を構成する始端判定手段31と終端判定手段32と発話区間情報生成手段33と発話区間音声信号生成手段34とは、フレーム毎に上記した処理を繰り返す。その結果、発話始終端判定部30は、発話区間フラグが1にセットされているフレームにおいて音声信号を外部に出力する。
図6に、この発明の発話区間抽出装置200の機能構成例を示す。発話区間抽出装置200は、発話区間抽出装置100の音声区間検出部10に代えて、音声区間検出雑音抑圧部210を備える点で異なる。音声区間密度計算部20と発話始終端判定部30は、その参照符号から明らかなように発話区間抽出装置100と同じものである。
音声区間検出雑音抑圧部210は、音声区間検出部10が出力する音声区間情報と、雑音信号を除去する周波数応答フィルタを音声信号に畳み込んだ雑音除去音声信号とを出力するものである。音声区間検出雑音抑圧部210は、雑音抑圧と音声区間検出を同時に行う。音声区間検出雑音抑圧部210は、特許文献1に記載された雑音除去装置1と同じ周知な処理を行うものである。
発話始終端判定部30は、発話区間情報内の雑音除去音声信号を発話区間音声信号として出力する。その結果、発話区間抽出装置200は、高騒音環境下においても雑音を抑圧した発話区間の抽出ができ、雑音を抑圧した発話区間音声信号を出力することができる。
以上説明した発話区間抽出装置100,200は、短時間(フレーム長)の発話区間情報と、長時間特徴量(所定の時間)である音声区間密度と、を用いて発話区間を抽出するものであり、発話の終端判定に用いる閾値2を発話の始端を判定する閾値1よりも小さな値にすることを特徴にしている。この特別な技術的特徴により発話区間抽出装置100,200は、人の発話区間を高い精度で抽出することを可能にする。
また、発話区間抽出装置100,200の出力する発話区間音声信号を、音声認識処理することで音声認識性能を向上させることができる。また、音声を録音する際のメモリの効率的な利用を可能にする効果を奏する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 音声信号から音声区間を検出して音声区間情報を出力する音声区間検出部と、
    上記音声区間情報を所定の時間保存し、保存した上記音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と上記音声区間情報とを出力する音声区間密度計算部と、
    上記音声区間密度と上記音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の上記音声信号を発話区間音声信号として出力する発話始終端判定部と、
    を具備する発話区間抽出装置。
  2. 請求項1に記載した発話区間抽出装置において、
    上記発話始終端判定部は、
    上記音声区間情報が音声の場合に上記音声区間密度と閾値1を比較して当該音声区間密度が上記閾値1以上の時に発話区間の始端を検出する始端判定手段と、
    上記音声区間情報が非音声の場合に上記音声区間密度と上記閾値1より小さな閾値2(閾値2<閾値1)とを比較して当該音声区間密度が上記閾値2未満で、且つ、上記閾値2未満の状態が所定時間経過した時に発話区間の終端を検出する終端判定手段と、
    上記始端判定手段が発話区間の始端を検出した時から、上記終端判定手段が発話区間の終端を検出するまでの間の区間を発話区間情報として出力する発話区間情報生成手段と、
    上記発話区間情報のある間に上記音声信号を出力する発話区間音声信号生成手段と、
    を備えることを特徴とする発話区間抽出装置。
  3. 請求項1又は2に記載した発話区間抽出装置において、
    上記発話始終端判定部は、
    上記発話区間情報を、発話の終端に向かって上記音声区間密度が減って行く特徴に基づいて検出するものであることを特徴とする発話区間抽出装置。
  4. 請求項1乃至3の何れかに記載した発話区間抽出装置において、
    上記音声区間検出部に代えて音声区間検出雑音抑圧部を備え、
    上記音声区間検出雑音抑圧部は、上記音声区間情報と、雑音信号を除去する周波数応答フィルタを上記音声信号に畳み込んだ雑音除去音声信号と、を出力するものであることを特徴とする発話区間抽出装置。
  5. 音声区間検出部が、音声信号から音声区間を検出して音声区間情報を出力する音声区間検出過程と、
    音声区間密度計算部が、上記音声区間情報を所定の時間保存し、保存した上記音声区間情報の総和と上記所定の時間との比に基づく音声区間密度を計算して当該音声区間密度と上記音声区間情報とを出力する音声区間密度計算過程と、
    発話始終端判定部が、上記音声区間密度と上記音声区間情報とに基づいて発話区間情報を検出し、当該発話区間情報内の上記音声信号を発話区間音声信号として出力する発話始終端判定過程と、
    を備える発話区間抽出方法。
  6. 請求項1乃至4の何れかに記載した発話区間抽出装置の各部の機能を、コンピュータに実行させるためのプログラム。
JP2013243503A 2013-11-26 2013-11-26 発話区間抽出装置とその方法とプログラム Pending JP2015102702A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013243503A JP2015102702A (ja) 2013-11-26 2013-11-26 発話区間抽出装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013243503A JP2015102702A (ja) 2013-11-26 2013-11-26 発話区間抽出装置とその方法とプログラム

Publications (1)

Publication Number Publication Date
JP2015102702A true JP2015102702A (ja) 2015-06-04

Family

ID=53378432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013243503A Pending JP2015102702A (ja) 2013-11-26 2013-11-26 発話区間抽出装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP2015102702A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04338800A (ja) * 1991-05-15 1992-11-26 Fujitsu Ltd 単語区間検出方法および装置
JPH064088A (ja) * 1992-06-17 1994-01-14 Matsushita Electric Ind Co Ltd 音声音楽判別装置
JPH0713585A (ja) * 1993-06-21 1995-01-17 Casio Comput Co Ltd 音声区間切出し装置
JPH09198077A (ja) * 1996-01-12 1997-07-31 Meidensha Corp 音声認識システム
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2008134565A (ja) * 2006-11-29 2008-06-12 Nippon Telegr & Teleph Corp <Ntt> 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体
JP2009210647A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 雑音除去装置、その方法、そのプログラム及び記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04338800A (ja) * 1991-05-15 1992-11-26 Fujitsu Ltd 単語区間検出方法および装置
JPH064088A (ja) * 1992-06-17 1994-01-14 Matsushita Electric Ind Co Ltd 音声音楽判別装置
JPH0713585A (ja) * 1993-06-21 1995-01-17 Casio Comput Co Ltd 音声区間切出し装置
JPH09198077A (ja) * 1996-01-12 1997-07-31 Meidensha Corp 音声認識システム
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2008134565A (ja) * 2006-11-29 2008-06-12 Nippon Telegr & Teleph Corp <Ntt> 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体
JP2009210647A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 雑音除去装置、その方法、そのプログラム及び記録媒体

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
KR101942521B1 (ko) 음성 엔드포인팅
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5883014B2 (ja) 録音の終了点自動検出のための方法及びシステム
CN108962227B (zh) 语音起点和终点检测方法、装置、计算机设备及存储介质
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
KR101805976B1 (ko) 음성 인식 장치 및 방법
JP5708155B2 (ja) 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
JP6654611B2 (ja) 成長型対話装置
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN112786052B (zh) 语音识别方法、电子设备和存储装置
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN111667834B (zh) 一种助听设备及助听方法
CN112002349B (zh) 一种语音端点检测方法及装置
CN109065026B (zh) 一种录音控制方法及装置
WO2013144946A1 (en) Method and apparatus for element identification in a signal
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
JP5473116B2 (ja) 音声認識装置およびその特徴量正規化方法
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2015102702A (ja) 発話区間抽出装置とその方法とプログラム
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151002

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160223