JP4282704B2 - 音声区間検出装置およびプログラム - Google Patents

音声区間検出装置およびプログラム Download PDF

Info

Publication number
JP4282704B2
JP4282704B2 JP2006263113A JP2006263113A JP4282704B2 JP 4282704 B2 JP4282704 B2 JP 4282704B2 JP 2006263113 A JP2006263113 A JP 2006263113A JP 2006263113 A JP2006263113 A JP 2006263113A JP 4282704 B2 JP4282704 B2 JP 4282704B2
Authority
JP
Japan
Prior art keywords
section
candidate
start end
detection
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006263113A
Other languages
English (en)
Other versions
JP2008083375A (ja
Inventor
幸一 山本
聡典 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006263113A priority Critical patent/JP4282704B2/ja
Priority to US11/725,566 priority patent/US8099277B2/en
Priority to CNA2007101471098A priority patent/CN101154378A/zh
Publication of JP2008083375A publication Critical patent/JP2008083375A/ja
Application granted granted Critical
Publication of JP4282704B2 publication Critical patent/JP4282704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、入力された音響信号から音声の始端および終端を検出する音声区間検出装置およびプログラムに関する。
従来の音声区間検出方法(音声区間検出装置)では、20〜40msのフレーム毎に抽出した短時間パワー(以後、パワーと呼ぶ。)の包絡の立ち上がり/立ち下がりにより、音声区間の始終端を検出している。そして、このような音声区間の始終端の検出は、特許文献1に記載されているような有限状態オートマトン(FSA:Finite State Automaton)を用いて行っている。
特許第3105465号公報
しかしながら、特許文献1に記載されている有限状態オートマトンによれば、始終端の検出にそれぞれ単一の時間制御パラメータを用いており、音声区間の正しい終端(正解終端)後に雑音が突発的に発生してしまったような場合には、この突発雑音のパワーの影響によって、検出される終端が正解終端より遅れて検出されるという問題が生じている。
なお、この対策としては、終端検出時間を正解終端から突発雑音までの時間長より短くする、という対策が考えられる。しかし、単純に終端検出時間を短くしてしまうと、例えば「さっぽろ」などのように促音を含むような単語を分割した区間として検出してしまう。つまり、語中の無音と発話終了後の無音の区別を行うことが出来ないという問題がある。
本発明は、上記に鑑みてなされたものであって、音声区間の正しい終端(正解終端)後に雑音が突発的に発生してしまったような場合においても、正確な音声終端を検出することを目的とする。
また、本発明は、音声認識の応答性を向上させることを目的とする。
上述した課題を解決し、目的を達成するために、本発明の音声区間検出装置は、入力された音響信号の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が始端検出時間長継続した場合に、当該区間の始端を音声区間の始端として検出する始端検出手段と、前記始端検出手段により前記音声区間の始端が検出された後、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の始端を音声区間の終端候補として検出する終端候補検出手段と、前記終端候補検出手段により音声区間の終端候補が検出された後、終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が所定時間長継続しなかった場合に、当該終端候補を音声区間の終端として確定し、該終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が該所定時間長継続した場合に、前記終端候補を棄却する終端候補確定手段と、を備え
また、本発明のプログラムは、コンピュータを、入力された音響信号の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が始端検出時間長継続した場合に、当該区間の始端を音声区間の始端として検出する始端検出手段と、前記始端検出手段により前記音声区間の始端が検出された後、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の始端を音声区間の終端候補として検出する終端候補検出手段と、前記終端候補検出手段により音声区間の終端候補が検出された後、終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が所定時間長継続しなかった場合に、当該終端候補を音声区間の終端として確定し、該終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が該所定時間長継続した場合に、前記終端候補を棄却する終端候補確定手段と、として機能させる
本発明によれば、音声区間の正しい終端(正解終端)後に雑音が突発的に発生してしまったような場合においても、正確な音声終端を検出することができる、という効果を奏する。
また、本発明によれば、音声認識の応答性を向上させることができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる音声区間検出装置およびプログラムの最良な実施の形態を詳細に説明する。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図4に基づいて説明する。図1は、本発明の第1の実施の形態にかかる音声区間検出装置1のハードウェア構成を示すブロック図である。本実施の形態の音声区間検出装置1は、概略的には、有限状態オートマトン(FSA:Finite State Automaton)を用いて音声区間の始終端を検出するものである。
図1に示すように、音声区間検出装置1は、例えばパーソナルコンピュータであり、コンピュータの主要部であって各部を集中的に制御するCPU(Central Processing Unit)2を備えている。このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random Access Memory)4とがバス5で接続されている。
さらにバス5には、各種のプログラム等を格納するHDD(Hard Disk Drive)6と、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構としてCD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、音声区間検出装置1とネットワーク9との通信を司る通信制御装置10と、各種操作指示を行うキーボードやマウスなどの入力装置11と、各種情報を表示するCRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの表示装置12とが、図示しないI/Oを介して接続されている。
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能してバッファ等の役割を果たす。
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、OS(Operating System)や各種のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
このシステム全体の動作を制御するCPU2は、このシステムの主記憶として使用されるHDD6上にロードされたプログラムに基づいて各種処理を実行する。
次に、音声区間検出装置1のHDD6にインストールされている各種のプログラムがCPU2に実行させる機能のうち、本実施の形態の音声区間検出装置1が備える特長的な機能について説明する。
図2は、音声区間検出装置1の機能構成を示すブロック図である。図2に示すように、音声区間検出装置1は、音声区間検出プログラムに従うことにより、所定のサンプリング周波数で入力信号をA/D変換するA/D変換部21と、A/D変換部21から出力されるディジタル信号をフレームに分割するフレーム分割部22と、フレーム分割部22で分割されたフレームからパワーを計算する特徴抽出手段である特徴抽出部23と、特徴抽出部23で得られたパワーを用いて音声の始終端を検出する有限状態オートマトン(FSA)部24と、FSA部24からの区間情報を用いて音声認識処理を行う音声認識部25とを備えている。
FSA部24は、特徴抽出部23で抽出された特徴量が閾値を超えた区間が一定時間継続した場合に、当該区間の始端を音声区間の始端として検出する始端検出手段241と、この始端検出手段241により音声区間の始端が検出された後、特徴抽出部23で抽出された特徴量が閾値を下回る区間が一定時間継続した場合に、当該区間の始端を音声区間の終端として検出する終端検出手段242と、を備えている。また、終端検出手段242は、音声終端の候補点を検出する終端候補検出手段243と、この終端候補検出手段243で検出された終端候補点を音声終端として確定する終端候補確定手段244と、を備えている。
以下、処理の手順について説明する。まず、音声区間検出を行う入力信号がA/D変換部21によってアナログ信号からディジタル信号に変換される。次に、フレーム分割部22において、A/D変換部21で変換されたディジタル信号を長さ20〜30ms,間隔10〜20ms程度のフレームに分割する。このとき、フレーム化処理を行う窓関数としてハミング窓を用いてもよい。次に、特徴抽出部23は、フレーム分割部22で分割され各フレームの音響信号からパワーを抽出する。その後、FSA部24において特徴抽出部23で抽出した各フレームのパワーを用いて音声の始終端を検出し、検出された区間について音声認識処理を行う。
ここで、FSA部24について詳述する。FSA部24の有限状態オートマトン(FSA)は、図3に示すように、雑音状態、始端検出状態、終端候補検出状態、終端候補確定状態の4つの状態を有している。また、FSA部24の有限状態オートマトン(FSA)は、音声の始終端の検出に、始端検出時間Ts、終端候補検出時間Te1、終端候補確定時間Te2を用いている。このようなFSA部24のFSAにおいては、観測されたパワーとあらかじめ設定した閾値との比較により状態間を遷移することになる。
図3に示すFSAは、雑音状態を初期状態としており、入力信号から抽出したパワーが始端検出用の閾値である閾値1以上となった場合、雑音状態から始端検出状態に遷移する。始端検出状態では、パワーが閾値1以上となる区間が第1の時間長である始端検出時間Ts継続した場合、その区間の始端を音声の始端として確定し、終端候補検出状態に遷移する。ここで、始端検出時間Tsは、音声以外の突発雑音による誤動作を避けるため、100ms程度に設定する。このとき、予め設定したオフセットを加えた位置を最終的な音声の始端位置としてもよい。つまり、オートマトンで検出された始端位置が処理開始位置からT秒後であった場合、それに始端オフセットFsを加えたT+Fs秒後を最終的な始端位置としても良い。始端オフセットFsが負であった場合は過去に遡った位置を、正であった場合は未来に進んだ位置を最終的な音声の始端として確定することになる。音声区間検出を音声認識の前処理として使用する場合、音声区間検出の段階で発声の語頭を取りこぼしてしまうと、その後情報を回復することが出来ずに音声認識性能が劣化してしまう。そこで、始端検出では負のオフセット値を与えることにより、音声の始端を過去方向に広く検出している。これにより、音声始端の取りこぼしを防ぎ、音声認識精度の向上を図ることができる。始端検出状態において、パワーが閾値1を下回った場合には、初期状態である雑音状態に遷移する。以上が音声の始端を検出するための一連の処理である。
次に、音声の終端検出について説明する。終端候補検出状態では、終端検出のための閾値である閾値2を用いてFSAの状態を遷移する。一般に、人の声は発声の後半になるにつれてその大きさは小さくなる。そこで、本実施の形態のように特徴量がパワーである場合には、閾値1>閾値2のように設定しておくことで、始端および終端検出にとって最適な閾値設定が可能になる。また、その他の閾値の設定方法として、予め固定値で設定しておくのではなく、フレーム毎に適応的に変化させるようにしてもよい。終端候補検出状態では、パワーが閾値2を下回る区間が第2の時間長である終端候補検出時間Te1以上継続した場合、その区間の始端を終端候補点とし、終端候補検出状態から終端候補確定状態に遷移する。この場合、候補点が検出された時点で後段の音声認識部25に終端候補情報を伝達することにより、システム全体の応答性の改善を行うことができる。
終端候補確定状態では、状態遷移後、終端候補点から計測して終端候補確定時間Te2経過する間、パワーが閾値2以上となる区間が始端検出時間Ts継続しなかった場合、終端候補点を音声の終端として確定する。それ以外の場合、つまりパワーが閾値2以上となる区間が始端検出時間Ts継続した場合は、終端候補検出状態で検出された終端候補点をキャンセルし、終端候補検出状態に遷移する。また、最終的に検出された音声区間長(終端時刻−始端時刻)が予め設定しておいた第3の時間長である最小音声区間長Tminよりも短かった場合、検出された区間は突発的な雑音である可能性が高いとして、検出された始端および終端位置をキャンセルし、雑音状態に遷移する。これにより、精度向上を図ることができる。発話の最小単位の目安として、最小音声区間長Tminは200ms程度に設定しておく。
上述したように本実施の形態では、音声の終端検出に候補点検出時間および候補点確定時間の2つの時間継続長パラメータを用いている。ここで、終端候補検出状態は、促音などの語中の無音区間を含めて検出することを目的としている。そして、終端候補確定状態において終端候補検出状態で検出された候補点が促音などの語中の無音か発話終了後の無音のどちらかを判定している。
なお、終端候補検出時間Te1は語中に含まれる無音区間(促音)以上の長さを目安として120ms程度、また終端候補確定時間Te2は発話単位の切れ目を表す長さとして400ms程度に設定しておく。
また、終端検出についても始端検出と同様に、終端オフセットFeを加えた位置を最終的な音声終端位置として確定することも可能である。音声区間検出を音声認識の前処理として使用する場合、通常、終端検出には正のオフセット値を与える。これにより、発声語尾の取りこぼしを防ぎ、音声認識精度の向上を図ることができる。
このように本実施の形態によれば、音声の終端検出に候補点検出時間および候補点確定時間の2つの時間継続長パラメータを用いて、音声終端の候補点検出および候補点確定の2つの状態を持つことにより、図4に示すように音声区間の正しい終端(正解終端)後に雑音が突発的に発生してしまったような場合においても、図4に示すような状態遷移により正確な音声終端を検出することができる。つまり、本実施の形態によれば、語中の無音と発話終了後の無音の区別を行うことができる。
このようにして高性能な音声区間検出を実現することにより、例えば音声認識の前処理として使用した場合、音声認識性能を向上させることが可能になる。また、正確な終端検出を行うことにより、音声認識の処理対象となる余計なフレームを削除することが可能になるため、音声の応答速度だけでなく演算量を削減することもできる。
なお、本実施の形態では、フレーム毎の特徴量として短時間パワーを用いているが、これに限るものではなく、その他の特徴量を用いてもよい。例えば、特許文献1では、音声モデルおよび非音声モデルの尤度比を一定時間毎の特徴量として用いている。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図5ないし図7に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態は、音声の始端検出について候補点検出および候補点確定のように2つの状態を有するようにしたものである。
図5は、本発明の第2の実施の形態の音声区間検出装置1の機能構成を示すブロック図である。図5に示すように、本実施の形態の音声区間検出装置1は、音声区間検出プログラムに従うことにより、所定のサンプリング周波数で入力信号をA/D変換するA/D変換部21と、A/D変換部21から出力されるディジタル信号をフレームに分割するフレーム分割部22と、フレーム分割部22で分割されたフレームからパワーを計算する特徴抽出部23と、特徴抽出部23で得られたパワーを用いて音声の始終端を検出する有限状態オートマトン(FSA)部30と、FSA部30からの区間情報を用いて音声認識処理を行う音声認識部25とを備えている。
FSA部30は、特徴抽出部23で抽出された特徴量が閾値を超えた区間が一定時間継続した場合に、その区間の始端を音声区間の始端として検出する始端検出手段301と、この始端検出手段301により音声区間の始端が検出された後、特徴抽出部23で抽出された特徴量が閾値を下回る区間が一定時間継続した場合に、当該区間の始端を音声区間の終端として検出する終端検出手段302と、を備えている。また、始端検出手段301は、音声始端の候補点を検出する始端候補検出手段303と、この始端候補検出手段303で検出された始端候補点を音声始端として確定する始端候補確定手段304と、を備えている。
以下、処理の手順について説明する。まず、音声区間検出を行う入力信号がA/D変換部21によってアナログ信号からディジタル信号に変換される。次に、フレーム分割部22において、A/D変換部21で変換されたディジタル信号を長さ20〜30ms,間隔10〜20ms程度のフレームに分割する。このとき、フレーム化処理を行う窓関数としてハミング窓を用いてもよい。次に、特徴抽出部23は、フレーム分割部22で分割され各フレームの音響信号からパワーを抽出する。その後、FSA部30において特徴抽出部23で抽出した各フレームのパワーを用いて音声の始終端を検出し、検出された区間について音声認識処理を行う。
ここで、FSA部30について詳述する。FSA部30の有限状態オートマトン(FSA)は、図6に示すように、雑音状態、始端検出状態、終端候補検出状態、終端候補確定状態の4つの状態を有している。また、FSA部30の有限状態オートマトン(FSA)は、音声の始終端の検出に、第1の時間長である始端候補検出時間Ts1、第4の時間長である始端確定時間Ts2、第2の時間長である終端検出時間Teを用いている。このようなFSA部30のFSAにおいては、観測されたパワーとあらかじめ設定した閾値との比較により状態間を遷移することになる。
図6に示すFSAは、雑音状態を初期状態としており、入力信号から抽出したパワーが始端検出用の閾値以上となった場合、始端候補検出状態に遷移する。ここで、パワーの閾値はあらかじめ固定値で設定しておくだけでなく、フレーム毎に適応的に変化させてもよい。
始端候補検出状態では、パワーが閾値以上となる区間が始端候補検出時間Ts1継続した場合、その区間の始端を音声の始端候補点として検出し、始端候補確定状態に遷移する。一方、始端候補検出状態においてパワーが閾値を下回った場合は、初期状態である雑音状態に遷移する。このとき、検出された始端候補点の情報を後段の音声認識部25に伝達し、始端候補点が検出されたフレームから音声認識処理を開始する。
次に、始端候補確定状態では、パワーが閾値以上となる区間が始端候補点からカウントして始端候補確定時間Ts2継続した場合、その始端候補点を音声の始端として確定し、終端検出状態に遷移する。一方、始端候補確定状態においてパワーが閾値を下回った場合、検出された始端候補点のキャンセルおよび後段の音声認識処理の停止と初期化を行い、始端候補検出状態に遷移する。ここで、始端候補検出時間Ts1は、20ms程度、始端候補確定時間Ts2は100ms程度に設定する。
上述したように、始端検出について候補点の検出および確定といった構成をとり、候補点が検出された時点で後段の音声認識処理を開始することにより、図7に示すように、従来手法と比較して(Ts2−Ts1)msの応答時間を稼ぐことが可能になる。一般に、音声区間検出は音声認識などの前処理として使用されることが多く、検出された音声区間情報を後段の音声認識部25に迅速に伝達することができれば、音声認識全体の応答性を向上させることが可能になる。なお、従来手法において始端検出時間Tsを単純に短くしてしまうと、突発雑音などの影響による始端の誤検出が増加する。
一方、終端検出状態では、パワーが閾値を下回る区間が終端検出時間Te継続した場合、その区間の始端を音声の終端として検出し、その情報を後段の音声認識部25に伝達する。音声認識部25では、FSA部30で検出された始端から終端までのフレームについて音声認識のための特徴量抽出およびデコーダ処理を行う。
なお、本実施の形態では、始端についてのみ候補点を検出しているが、本発明の第1の実施の形態に示すような手法により終端についても候補点を検出することも可能である。
本発明の第1の実施の形態にかかる音声区間検出装置のハードウェア構成を示すブロック図である。 音声区間検出装置の機能構成を示すブロック図である。 有限状態オートマトン部の有限状態オートマトンの構成を示す状態遷移図である。 観測されたパワー包絡と有限状態オートマトンの状態遷移の例を示すグラフである。 本発明の第2の実施の形態の音声区間検出装置の機能構成を示すブロック図である。 有限状態オートマトン部の有限状態オートマトンの構成を示す状態遷移図である。 観測されたパワー包絡と有限状態オートマトンの状態遷移の例を示すグラフである。
符号の説明
1 音声区間検出装置
23 特徴抽出手段
241 始端検出手段
242 終端検出手段
243 終端候補検出手段
244 終端候補確定手段
301 始端検出手段
302 終端検出手段
303 始端候補検出手段
304 始端候補確定手段

Claims (8)

  1. 入力された音響信号の特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が始端検出時間長継続した場合に、当該区間の始端を音声区間の始端として検出する始端検出手段と、
    前記始端検出手段により前記音声区間の始端が検出された後、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の始端を音声区間の終端候補として検出する終端候補検出手段と、
    前記終端候補検出手段により音声区間の終端候補が検出された後、終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が所定時間長継続しなかった場合に、当該終端候補を音声区間の終端として確定し、該終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が該所定時間長継続した場合に、前記終端候補を棄却する終端候補確定手段と、
    を備えことを特徴とする音声区間検出装置。
  2. 前記始端検出手段は、前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が前記始端検出時間長継続した場合に、当該区間の始端に負のオフセットを加えた位置を音声区間の始端とし、
    前記終端候補検出手段は、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の終端に正のオフセットを加えた位置を音声区間の終端候補とする、
    ことを特徴とする請求項1記載の音声区間検出装置。
  3. 前記終端候補確定手段における前記所定時間長が前記始端検出時間長と同じ長さである、
    ことを特徴とする請求項1または2記載の音声区間検出装置。
  4. 前記終端候補検出手段が、前記終端候補確定手段により終端候補が確定される前に該終端候補を音声認識部に伝達する、
    ことを特徴とする請求項1ないし3のいずれか一記載の音声区間検出装置。
  5. コンピュータを、
    入力された音響信号の特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が始端検出時間長継続した場合に、当該区間の始端を音声区間の始端として検出する始端検出手段と、
    前記始端検出手段により前記音声区間の始端が検出された後、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の始端を音声区間の終端候補として検出する終端候補検出手段と、
    前記終端候補検出手段により音声区間の終端候補が検出された後、終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が所定時間長継続しなかった場合に、当該終端候補を音声区間の終端として確定し、該終端候補確定時間長経過する前に前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が該所定時間長継続した場合に、前記終端候補を棄却する終端候補確定手段と、
    として機能させるためのプログラム。
  6. 前記始端検出手段は、前記特徴抽出手段で抽出された特徴量が閾値以上となる区間が前記始端検出時間長継続した場合に、当該区間の始端に負のオフセットを加えた位置を音声区間の始端とし、
    前記終端候補検出手段は、前記特徴抽出手段で抽出された特徴量が閾値を下回る区間が終端候補検出時間長継続した場合に、当該区間の終端に正のオフセットを加えた位置を音声区間の終端候補とする、
    ことを特徴とする請求項5記載のプログラム。
  7. 前記終端候補確定手段における前記所定時間長が前記始端検出時間長と同じ長さである、
    ことを特徴とする請求項5または6記載のプログラム。
  8. 前記終端候補検出手段が、前記終端候補確定手段により終端候補が確定される前に該終端候補を音声認識部に伝達する、
    ことを特徴とする請求項5ないし7のいずれか一記載のプログラム。
JP2006263113A 2006-09-27 2006-09-27 音声区間検出装置およびプログラム Active JP4282704B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006263113A JP4282704B2 (ja) 2006-09-27 2006-09-27 音声区間検出装置およびプログラム
US11/725,566 US8099277B2 (en) 2006-09-27 2007-03-20 Speech-duration detector and computer program product therefor
CNA2007101471098A CN101154378A (zh) 2006-09-27 2007-08-30 语音区间检测器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006263113A JP4282704B2 (ja) 2006-09-27 2006-09-27 音声区間検出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008083375A JP2008083375A (ja) 2008-04-10
JP4282704B2 true JP4282704B2 (ja) 2009-06-24

Family

ID=39226157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006263113A Active JP4282704B2 (ja) 2006-09-27 2006-09-27 音声区間検出装置およびプログラム

Country Status (3)

Country Link
US (1) US8099277B2 (ja)
JP (1) JP4282704B2 (ja)
CN (1) CN101154378A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361907B2 (en) 2011-01-18 2016-06-07 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
JPWO2010021035A1 (ja) * 2008-08-20 2012-01-26 パイオニア株式会社 情報生成装置及び情報生成方法並びに情報生成用プログラム
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
JP2015102702A (ja) * 2013-11-26 2015-06-04 日本電信電話株式会社 発話区間抽出装置とその方法とプログラム
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
JP6459330B2 (ja) * 2014-09-17 2019-01-30 株式会社デンソー 音声認識装置、音声認識方法、及び音声認識プログラム
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN105551491A (zh) * 2016-02-15 2016-05-04 海信集团有限公司 语音识别方法和设备
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
JP6794809B2 (ja) * 2016-12-07 2020-12-02 富士通株式会社 音声処理装置、音声処理プログラム及び音声処理方法
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
US11227117B2 (en) * 2018-08-03 2022-01-18 International Business Machines Corporation Conversation boundary determination
JP7035979B2 (ja) * 2018-11-19 2022-03-15 トヨタ自動車株式会社 音声認識装置
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法
CN112259108B (zh) * 2020-09-27 2024-05-31 中国科学技术大学 一种引擎响应时间的分析方法及电子设备、存储介质
CN113314113B (zh) * 2021-05-19 2023-11-28 广州大学 一种智能插座控制方法、装置、设备及存储介质
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1116300A (en) * 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS61156100A (ja) 1984-12-27 1986-07-15 日本電気株式会社 音声認識装置
JPS62211699A (ja) 1986-03-13 1987-09-17 株式会社東芝 音声区間検出回路
JPH0740200B2 (ja) 1986-04-08 1995-05-01 沖電気工業株式会社 音声区間検出方法
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
JP2536633B2 (ja) 1989-09-19 1996-09-18 日本電気株式会社 複合語抽出装置
CA2040025A1 (en) 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JP3034279B2 (ja) 1990-06-27 2000-04-17 株式会社東芝 有音検出装置および有音検出方法
JPH0416999A (ja) 1990-05-11 1992-01-21 Seiko Epson Corp 音声認識装置
US5201028A (en) * 1990-09-21 1993-04-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP2690027B2 (ja) 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
JP3716870B2 (ja) 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JP3537949B2 (ja) 1996-03-06 2004-06-14 株式会社東芝 パターン認識装置及び同装置における辞書修正方法
JP3105465B2 (ja) 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
EP0977172A4 (en) * 1997-03-19 2000-12-27 Hitachi Ltd METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
JP3677143B2 (ja) 1997-07-31 2005-07-27 株式会社東芝 音声処理方法および装置
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6327565B1 (en) 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6529872B1 (en) 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7089182B2 (en) 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
JP4292837B2 (ja) 2002-07-16 2009-07-08 日本電気株式会社 パターン特徴抽出方法及びその装置
US20040064314A1 (en) 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US20040102965A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Determining a pitch period
JP4497834B2 (ja) 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP3744934B2 (ja) 2003-06-11 2006-02-15 松下電器産業株式会社 音響区間検出方法および装置
JP4521673B2 (ja) 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
JP2007114413A (ja) 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
JP4791857B2 (ja) 2006-03-02 2011-10-12 日本放送協会 発話区間検出装置及び発話区間検出プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361907B2 (en) 2011-01-18 2016-06-07 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム

Also Published As

Publication number Publication date
CN101154378A (zh) 2008-04-02
US8099277B2 (en) 2012-01-17
JP2008083375A (ja) 2008-04-10
US20080077400A1 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
JP4282704B2 (ja) 音声区間検出装置およびプログラム
US11502859B2 (en) Method and apparatus for waking up via speech
US7756707B2 (en) Signal processing apparatus and method
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
CN107527630B (zh) 语音端点检测方法、装置和计算机设备
JP4798601B2 (ja) 音声区間検出装置および音声区間検出プログラム
KR20160106270A (ko) 음성 인식 장치 및 방법
KR20090049300A (ko) 음성 구간 검출 방법 및 장치
JP2008256802A (ja) 音声認識装置および音声認識方法
WO2006008810A1 (ja) 速度変換装置、速度変換方法及びプログラム
CN113053390A (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
US11495245B2 (en) Urgency level estimation apparatus, urgency level estimation method, and program
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
US20220199083A1 (en) Command analysis device, command analysis method, and program
JP5285326B2 (ja) 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP2007086554A (ja) 音声認識装置及び音声認識処理用プログラム
JP2012189829A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
JP2007206154A (ja) 実環境騒音下の音声区間の検出
JP2007156361A (ja) 音声処理装置及び音声処理用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090303

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090317

R151 Written notification of patent or utility model registration

Ref document number: 4282704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350