JP2016177474A - 検出装置、検出方法およびプログラム - Google Patents

検出装置、検出方法およびプログラム Download PDF

Info

Publication number
JP2016177474A
JP2016177474A JP2015056412A JP2015056412A JP2016177474A JP 2016177474 A JP2016177474 A JP 2016177474A JP 2015056412 A JP2015056412 A JP 2015056412A JP 2015056412 A JP2015056412 A JP 2015056412A JP 2016177474 A JP2016177474 A JP 2016177474A
Authority
JP
Japan
Prior art keywords
score
parameter
search pattern
local
cumulative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015056412A
Other languages
English (en)
Other versions
JP6461660B2 (ja
Inventor
悠 那須
Yu Nasu
悠 那須
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015056412A priority Critical patent/JP6461660B2/ja
Priority to US15/071,669 priority patent/US10572812B2/en
Publication of JP2016177474A publication Critical patent/JP2016177474A/ja
Application granted granted Critical
Publication of JP6461660B2 publication Critical patent/JP6461660B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

【課題】簡単な演算で精度良く、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出する。
【解決手段】実施形態に係る検出装置は、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する。検出装置は、局所スコア取得部と、差分スコア算出部と、累積スコア算出部と、判定部と、を備える。局所スコア取得部は、パラメータについて、検索パターンにおける発生のしやすさを表す局所スコアを取得する。差分スコア算出部は、パラメータについて、局所スコアから閾値を減算した差分スコアを算出する。累積スコア算出部は、差分スコアを累積した累積スコアを算出する。判定部は、累積スコアと基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。
【選択図】図1

Description

本発明の実施形態は、検出装置、検出方法およびプログラムに関する。
DNAの塩基配列、タンパク質のアミノ酸配列、文字列、音声を表す音響パラメータの配列および音楽データの配列等のパラメータ系列中から、指定された検索パターンに類似する部分系列を検出する検出装置が知られている。このような検出装置では、パラメータ系列中の部分系列と検索パターンとの類似度を算出し、算出した類似度が予め設定された閾値を超えている場合に、その部分系列が検索パターンと類似していると判定する。例えば、部分系列と検索パターンとの類似度は、部分系列に含まれるパラメータ毎に検索パターンにおける発生のしやすさを表す局所スコアを算出し、全ての局所スコアを累積した累積スコアにより表される。
ところで、検索パターンに隠れマルコフモデルが用いられる場合、通過するパスによって部分系列に含まれるパラメータ数が変動するので、部分系列に含まれるパラメータ数が多いほど累積スコアの絶対値が大きくなりやすい。部分系列に含まれるパラメータ数に応じて累積スコアが変動することが好ましくない場合には、部分系列と検索パターンとの類似度を、累積値を部分系列に含まれるパラメータ数により正規化した平均スコアとすればよい。しかしながら、このような平均スコアを簡単な演算で精度良く算出することは困難であった。
特許第3114468号公報
J. Junkawitsch, L. Neubauer, H. Hoge, G. Ruske, "A new keyword spotting algorithm with pre-calculated optimal thresholds", in Proc. ICSLP, pp.2067-2070, 1996
本発明が解決しようとする課題は、簡単な演算で精度良く、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出することにある。
実施形態に係る検出装置は、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する。前記検出装置は、局所スコア取得部と、差分スコア算出部と、累積スコア算出部と、判定部と、を備える。前記局所スコア取得部は、前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する。前記差分スコア算出部は、前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する。前記累積スコア算出部は、前記差分スコアを累積した累積スコアを算出する。前記判定部は、前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する。
実施形態に係る検出装置の構成図。 実施形態に係る検出装置の処理順序を示すフローチャート。 インデックスtを終端とする部分系列の位置を示す図。 HMMのパスの一例を示すトレリス図。 動的計画法を用いた場合の検出装置の処理順序を示すフローチャート。 評価値の算出処理の順序を示すフローチャート。 実施形態に係る検出装置のハードウェア構成図。
以下、図面を参照しながら実施形態に係る検出装置10について詳細に説明する。本実施形態に係る検出装置10は、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を、精度良く簡単な演算で検出することを目的とする。
図1は、実施形態に係る検出装置10の構成を示す図である。検出装置10は、分析部21と、入力部22と、モデル記憶部23と、検索パターン生成部24と、局所スコア取得部25と、差分スコア算出部26と、累積スコア算出部27と、判定部28とを備える。
分析部21は、対象となる信号を入力し、入力した信号を分析して、パラメータの配列であるパラメータ系列を生成する。分析部21は、例えば、音声信号を入力し、入力した音声信号を、音声の音響的な特徴を表すパラメータの系列に変換して出力する。より具体的には、例えば、分析部21は、一定期間毎に、MFCC(メル周波数ケプストラム係数)の系列を出力する。分析部21は、信号の入力開始時点から終了時点まで連続してパラメータ系列を出力してもよいし、逐次的にパラメータ系列を出力してもよい。また、分析部21は、信号を一旦全て蓄積したのちにオフラインで分析してパラメータ系列を出力してもよいし、入力される信号をリアルタイムで分析してパラメータ系列を出力してもよい。
入力部22は、ユーザにより入力された情報を取得し、取得した情報を検索パターンを生成するためのコード情報に変換して出力する。入力部22は、例えば、ユーザにより入力されたキーワード(文字列)を取得し、キーワードを音素列に変換して出力する。
モデル記憶部23は、コード情報から検索パターンを生成するためのモデルを記憶する。モデル記憶部23は、例えば、音素列とHMM(隠れマルコフモデル)とを対応付けた音響モデルを記憶する。
HMMは、複数の状態と、状態間の遷移とを含む有向グラフである。HMMは、それぞれの状態に、パラメータおよびパラメータの出力確率が割り当てられる。また、HMMは、それぞれの遷移に、遷移確率が割り当てられていてもよい。モデル記憶部23は、例えば、GMM(混合ガウス分布)またはニューラルネットワーク等を用いて生成された音響モデルを記憶する。パラメータの出力確率は、例えば、GMMを用いて生成された場合には対数尤度となり、ニューラルネットワークを用いて生成された場合には対数事後確率となる。なお、パラメータの出力確率は、他の尺度により算出された値であってもよい。また、モデル記憶部23は、HMMに限らず他の有向グラフを用いたモデルを記憶してもよい。
検索パターン生成部24は、モデル記憶部23に記憶されたモデルを参照して、入力部22からのコード情報に対応した検索パターンを生成する。検索パターン生成部24は、例えば、モデル記憶部23に記憶された音響モデルを参照して、入力部22からの音素列に対応したHMMを生成する。本実施形態においては、検索パターン生成部24は、left−to−right型のHMMを検索パターンとして生成する。なお、検索パターン生成部24は、left−to−right型のHMMに限らず、他の型のHMMを検索パターンとして生成してもよい。
局所スコア取得部25は、分析部21により出力されたパラメータ系列から部分系列を抽出する。そして、局所スコア取得部25は、抽出した部分系列に含まれるそれぞれのパラメータについて、検索パターンにおける発生のしやすさを表す局所スコアを取得する。例えば、検索パターンがHMMである場合、局所スコア取得部25は、HMMのそれぞれの状態について、抽出した部分系列に含まれるそれぞれのパラメータに対応する出力確率を取得して、局所スコアとして出力する。
差分スコア算出部26は、ユーザ等により予め設定された閾値を入力する。差分スコア算出部26は、抽出した部分系列に含まれるそれぞれのパラメータについて、局所スコアから予め設定された閾値を減算した差分スコアを算出する。例えば、検索パターンがHMMである場合、局所スコア取得部25は、HMMのそれぞれの状態について、抽出した部分系列に含まれるそれぞれのパラメータに対応する局所スコアから閾値を減算した差分スコアを算出する。
累積スコア算出部27は、部分系列に含まれるそれぞれのパラメータの差分スコアを累積した累積スコアを算出する。例えば、検索パターンがHMMである場合、累積スコア算出部27は、HMMのそれぞれのパスについて、部分系列に一致するパラメータの差分スコアを累積した累積スコアを算出する。なお、累積スコア算出部27は、HMMの遷移に遷移確率が対応付けられている場合には、パスに沿って通過する遷移に対応付けられた遷移確率も累積スコアに加算する。
判定部28は、予め設定された基準値を入力する。判定部28は、累積スコア算出部27により算出された累積スコアと、基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。例えば、検索パターンがHMMである場合、判定部28は、HMMのそれぞれのパスについて、累積スコアと基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。そして、判定部28は、判定結果を外部に出力する。
ここで、ユーザ等により予め設定される閾値は、部分系列が検索パターンに類似しているか否かを判別するための累積スコアの境界値である。この閾値は、ユーザ等により適宜調整されてもよい。また、入力されるキーワード等によって変更されてもよい。また、基準値は、例えば、0である。基準値は、0近傍の値であれば、0でなくても他の値であってもよい。
図2は、実施形態に係る検出装置10の処理順序を示すフローチャートである。検出装置10は、図2に示す手順で処理を実行する。
まず、ステップS101において、入力部22は、情報を取得し、取得した情報を検索パターンを生成するためのコード情報に変換して出力する。例えば、入力部22は、キーワード(文字列)を取得し、キーワードを音素列に変換して出力する。
続いて、ステップS102において、検索パターン生成部24は、モデル記憶部23に記憶されたモデルを参照して、入力部22からのコード情報に対応した検索パターンを生成する。例えば、検索パターン生成部24は、モデル記憶部23に記憶された音響モデルを参照して、入力部22からの音素列に対応したHMMを生成する。
続いて、ステップS103において、分析部21は、対象となる信号を入力する。例えば、分析部21は、例えば、音声信号を入力する。続いて、ステップS104において、分析部21は、入力した信号を分析してパラメータ系列を生成する。例えば、分析部21は、入力した音声信号を、音声の音響的な特徴を表すパラメータの系列に変換する。
続いて、局所スコア取得部25は、分析部21により出力されたパラメータ系列から部分系列を抽出し、抽出した部分系列毎にステップS106からステップS110までの処理を繰り返して実行させる(ステップS105とステップS111との間のループ処理)。
ステップS106において、局所スコア取得部25は、抽出した部分系列に含まれるそれぞれのパラメータについて、検索パターンにおける発生のしやすさを表す局所スコアを取得する。例えば、検索パターンがHMMである場合、局所スコア取得部25は、HMMのそれぞれの状態について、抽出した部分系列に含まれるそれぞれのパラメータに対応する出力確率を取得して、局所スコアとして出力する。
続いて、ステップS107において、差分スコア算出部26は、抽出した部分系列に含まれるそれぞれのパラメータについて、局所スコアから予め設定された閾値を減算した差分スコアを算出する。例えば、検索パターンがHMMである場合、局所スコア取得部25は、HMMのそれぞれの状態について、抽出した部分系列に含まれるそれぞれのパラメータに対応する局所スコアから閾値を減算した差分スコアを算出する。
続いて、ステップS108において、累積スコア算出部27は、部分系列に含まれるそれぞれのパラメータの差分スコアを累積した累積スコアを算出する。例えば、検索パターンがHMMである場合、累積スコア算出部27は、HMMのそれぞれのパスについて、部分系列に一致するパラメータの差分スコアを累積した累積スコアを算出する。
続いて、ステップS109において、判定部28は、累積スコアと基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。例えば、検索パターンがHMMである場合、判定部28は、HMMのそれぞれのパスについて、累積スコアと基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。
続いて、ステップS110において、判定部28は、判定結果を外部に出力する。そして、判定部28は、全ての部分系列について処理を終えているかを判断する(S111)。判定部28は、全ての部分系列について処理を終えていない場合には、処理をステップS106に戻して次の部分系列について処理を繰り返す。判定部28は、全ての部分系列について処理を終えた場合には、本フローを終了する。
以上のように本実施形態に係る検出装置10によれば、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出することができる。例えば、検出装置10によれば、パラメータ系列に含まれる部分系列が、HMMにより定義されるパスと類似しているかを検出することができる。
図3は、パラメータ系列中におけるインデックスtを終端とする部分系列の位置を示す図である。検出装置10は、検索パターンがHMMである場合、パラメータ系列のうちある1つのパラメータを特定し、その特定したパラメータを終端とした全ての部分系列の累積スコアのうち、最大の累積スコアを算出してもよい。そして、検出装置10は、算出した累積スコアと、基準値との大小関係を比較してもよい。これにより、検出装置10は、少なくとも特定した位置において、検索パターンに類似した部分系列が発生したことを検出することができる。
具体的には、検出装置10は、下記の式(1)に示す演算を実行する。
Figure 2016177474
式(1)において、tは、1以上の整数であって、パラメータ系列中における、部分系列の終端のパラメータの位置(インデックス)を示す。sは、1以上、t以下の整数であって、パラメータ系列中における部分系列の始端のパラメータのインデックスを示す。式(1)において、τは、s以上、t以下の整数であって、部分系列における任意のインデックスを表す。
式(1)において、score(τ,qτ)は、HMMの状態番号がqτの状態についての、インデックスτのパラメータの出力確率(局所スコア)を表す。また、thresholdは、予め設定された閾値を表す。
式(1)において、Qは、検索パターンであるHMMにより定義される状態列(パス)を表す。Qは、下記の式(2)のように制約される。
Figure 2016177474
ここで、HMMは、N個(Nは1以上の整数)の状態を含む。HMMに含まれるN個の状態には、1からNまでの整数の状態番号が割り当てられている。状態番号1は、開始状態である。また、状態番号Nは、終了状態である。
式(2)において、Qは、qからqまでの任意の数の状態を含む状態列を表す。qは、HMMの開始状態(状態番号が1の状態)を表す。qは、HMMの終了状態(状態番号がNの状態)を表す。また、式(2)において、τは、s以上、eより小さい任意の整数である。qτは、開始状態からτ−s回分遷移した状態の状態番号を表す。qτ+1は、qτまたはqτ+1である。
すなわち、式(2)においては、Qは、先頭が開始状態、末尾が終了状態であり、left−to−right型HMMの遷移に従った順序に配列された状態列であることを制約している。
そして、式(1)において、(score(τ,qτ)−threshold)で演算される値は、HMMの状態番号がqτの状態についての、インデックスτのパラメータの出力確率(局所スコア)から、閾値を減算した減算スコアを表す。また、式(1)において、Σ(score(τ,qτ)−threshold)で演算される値は、HMMにおける指定されたパスについて、インデックスsからtまでの部分系列と一致するパラメータの減算スコアを累積した累積スコアを表す。
式(1)において、maxQで演算される値(Qは、maxの下部に記載)は、HMMの全てのパス(つまり、式(2)で制約される全てのパス)のうちの、最大累積スコアを表す。また、式(1)において、max_s≦tで演算される値(s≦tは、maxの下部に記載)は、t以下の全てのsから開始される部分系列における最大累積スコアのうちの、さらに最大の累積スコアを表す。
そして、式(1)では、左辺で最終的に選択された最大の累積スコアと、基準値である0との大小を比較する。式(1)では、最大の累積スコアが0より大きい場合に、特定したパラメータを終端とする部分系列がHMMと類似すると判定する。
以上のように、検出装置10は、式(1)を演算することにより、特定したパラメータを終端とした全ての部分系列の中に、検索パターンに類似する部分系列が含まれているか否かを検出することができる。
なお、HMMは、値が小さいほど高い出力確率が割り当てられてもよい。この場合、検出装置10は、式(1)に代えて、下記の式(3)を演算する。
Figure 2016177474
式(3)の左辺は、式(1)のmax関数をmin関数に置き換えた式である。min関数は、全ての累積スコアのうちの、最小の累積スコアを選択する。そして、式(3)は、最小の累積スコアが0より小さいか否かを比較し、最小の累積スコアが0より小さい場合に、特定したパラメータを終端とした部分系列がHMMと類似すると判定する。
図4は、HMMのパスの一例を示すトレリス図である。図4のトレリス図は、縦軸がHMMの状態番号を表し、横軸がパラメータ系列のインデックスを表す。
検出装置10は、上述した式(1)の左辺に示す演算を、動的計画法に基づく方法(DPマッチング)により実行してもよい。つまり、検出装置10は、パラメータ系列に含まれるパラメータを先頭から1つずつ順次に選択し、選択したパラメータ毎に最大の累積スコアを算出してもよい。具体的には、検索パターンがleft−to−right型のHMMである場合、検出装置10は、下記の式(4)に示すビタビアルゴリズムに基づく漸化式を演算して最大の累積スコアを算出する。
Figure 2016177474
式(4)において、g(τ,j)は、インデックスτにおける、状態番号jの状態についての評価値を表す。τは、パラメータのインデックスを表す変数であり、0より大きく、T以下の整数である。Tは、パラメータ系列の終端のインデックスである。jは、HMMの状態番号を表す変数であり、0より大きく、N以下の整数である。HMMは、状態番号1から状態番号N(Nは1以上の整数)のN個の状態を含む。状態番号1は開始状態であり、状態番号Nは終了状態である。
式(4)の1行目は、図4に示すように、インデックス0、且つ、状態1からNまでの評価値(g(0,j))が−∞であることを表す。式(4)の2行目は、図4に示すように、任意のインデックスτにおいて、状態0の評価値が0であることを表す。状態0は、開始状態より前であることを表す。
式(4)の3行目において、max(g(τ−1,j−1),g(τ−1,j))は、g(τ−1,j−1)とg(τ−1,j)とのうち大きい方を選択する関数を表す。すなわち、max(g(τ−1,j−1),g(τ−1,j))は、インデックスτの直前のインデックスτ−1において、状態番号jの直前の状態(left−to−right型のHMMの場合、状態j−1または状態j)の評価値のうち、最大の評価値を表す。
式(4)の3行目において、(score(τ,j)−threshold)で演算される値は、状態番号jの状態についての、インデックスτのパラメータの出力確率(局所スコア)から、閾値を減算した減算スコアを表す。従って、式(4)の3行目は、図4に示すように、直前の状態の評価値のうちの最大値と減算スコアとを加算した値を、パラメータのインデックスτについての、状態番号jの評価値とすることを表す。
検出装置10は、パラメータ系列に含まれるパラメータを先頭から1つずつ順次に選択しながら、式(4)の3行目を演算する。
そして、検出装置10は、インデックスτの終了状態Nについての評価値g(τ,N)が0より大きいか否かを判定する。検出装置10は、評価値g(τ,N)が0より大きければ、インデックスτを終端とする何れかの部分系列が、HMMと類似することを検出する。これにより、検出装置10は、さらに効率良く、HMMに類似する部分系列を検出することができる。
なお、検出装置10は、HMMに遷移確率が割り当てられている場合には、式(4)における、直前の評価値g(τ−1,j−1)およびg(τ−1,j)に、対応する遷移に割り当てられた遷移確率を加算すればよい。
また、検出装置10は、上述した式(3)の左辺に示す演算を、動的計画法(DPマッチング)に基づき実行してもよい。この場合、検出装置10は、下記の式(5)に示すビタビアルゴリズムに基づく漸化式を演算して最小の累積スコアを算出する。
Figure 2016177474
式(5)は、式(4)のmax関数をmin関数に置き換え、−∞を∞に置き換えた式である。そして、この場合、検出装置10は、インデックスτの終了状態Nについての評価値g(τ,N)が0より小さいか否かを判定する。
図5は、動的計画法を用いた場合の検出装置10の処理順序を示すフローチャートである。なお、図5の例では、音声信号が入力され、累積スコアが大きい方が、類似度が高い場合を例にとって説明する。
まず、ステップS201において、入力部22は、キーワード(文字列)を取得し、キーワードを音素列に変換して出力する。続いて、ステップS202において、検索パターン生成部24は、音素列に対応したHMMを生成する。続いて、ステップS203において、累積スコア算出部27は、閾値(threshold)を取得する。
続いて、ステップS204において、累積スコア算出部27は、評価値g(0,0)に0を代入し、1以上N以下の整数jについて評価値g(0,j)に−∞を代入する。なお、累積スコア算出部27は、−∞に代えて、入力可能な最小の値を代入してもよい。続いて、ステップS205において、累積スコア算出部27は、パラメータのインデックスを表す変数τに1を代入する。
続いて、累積スコア算出部27は、変数τ毎に、すなわち、パラメータのインデックス毎に、ステップS207からステップS214までの処理を繰り返して実行する(ステップS206とステップS215との間のループ処理)。
ステップS207において、累積スコア算出部27は、評価値g(τ,0)に0を代入する。続いて、ステップS208において、累積スコア算出部27は、HMMの状態番号を表す変数jに1を代入する。
続いて、累積スコア算出部27は、変数j毎に、すなわち、HMMの状態毎に、ステップS210からステップS211までの処理を繰り返して実行する(ステップS209とステップS212との間のループ処理)。
ステップS210において、累積スコア算出部27は、パラメータτについて、状態番号jの評価値g(τ,j)を算出する。なお、ステップS210の処理の詳細は、図6においてさらに説明する。
続いて、ステップS211において、累積スコア算出部27は、変数jに、j+1を代入する。続いて、ステップS212において、累積スコア算出部27は、変数jがNより大きいか否かを判断する。累積スコア算出部27は、変数jがNより大きい場合、すなわち、HMMの全ての状態について処理を終えた場合には、ループを抜けて処理をステップS213に進める。また、累積スコア算出部27は、変数jがNより大きくない場合には処理をステップS210に戻して、ステップS210から処理を繰り返す。
続いて、ステップS213において、判定部28は、パラメータτについて、状態番号Nの評価値g(τ,N)が、基準値である0より大きいか否かを判定する。状態番号Nの状態は、HMMの終了状態である。HMMの終了状態における評価値は、パラメータτが終端となるパスの最大の累積スコアである。すなわち、ステップS213において、判定部28は、パラメータτが終端となる部分系列の最大の累積スコアが、基準値である0より大きいか否かを判定する。そして、判定部28は、状態番号Nの評価値g(τ,N)が0より大きい場合には、パラメータτを終端とする少なくとも1つの部分系列に、検索パターンと類似する部分系列が含まれると判定し、判定結果を出力する。
続いて、ステップS214において、累積スコア算出部27は、変数τに、τ+1を代入する。続いて、ステップS215において、累積スコア算出部27は、変数τがTより大きいか否かを判断する。累積スコア算出部27は、変数がTより大きい場合、すなわち、パラメータ系列の末尾のインデックスまで処理を終えた場合には、ループを抜けて本フローを終了する。また、累積スコア算出部27は、変数τがTより大きくない場合には処理をステップS207に戻して、ステップS207から処理を繰り返す。
図6は、評価値g(τ,j)の算出処理の順序を示すフローチャートである。検出装置10は、ステップS210の評価値算出処理において、図6に示す処理を実行する。
まず、ステップS221において、局所スコア取得部25は、HMMからscore(τ,j)を取得する。すなわち、局所スコア取得部25は、状態番号jの状態についての、インデックスτのパラメータの出力確率(局所スコア)を取得する。
続いて、ステップS222において、差分スコア算出部26は、score(τ,j)−thresholdを算出する。すなわち、差分スコア算出部26は、状態番号jの状態についてのインデックスτのパラメータの局所スコアから、閾値を減算して差分スコアを算出する。
続いて、ステップS223において、累積スコア算出部27は、状態番号jの状態の直前状態を特定する。すなわち、累積スコア算出部27は、状態番号jの状態に入ってくる遷移を逆方向に辿り、少なくとも1つの直前状態を特定する。本例では、検索パターンは、left−to−right型のHMMであるので、直前状態は、状態番号j、または、状態番号j−1となる。
続いて、ステップS224において、累積スコア算出部27は、直前のインデックスτ−1について、それぞれの直前状態の評価値を取得する。本例では、累積スコア算出部27は、評価値g(τ−1,j−1)およびg(τ−1,j)を取得する。
続いて、ステップS225において、累積スコア算出部27は、評価値が最大となる何れか1つのパスを選択する。本例では、累積スコア算出部27は、直前状態の評価値g(τ−1,j−1)またはg(τ−1,j)のうち、大きい方の直前状態の評価値を選択する。なお、累積スコア算出部27は、HMMに遷移確率が割り当てられている場合には、直前状態の評価値に対応する遷移確率を加算した値を選択する。
続いて、ステップS226において、累積スコア算出部27は、選択したパスの直前状態における評価値g(τ−1,j−1)またはg(τ−1,j)と、ステップS222で算出した差分スコアとを加算して、インデックスτについての状態番号jの評価値g(τ,j)を算出する。
続いて、ステップS227において、累積スコア算出部27は、算出した評価値g(τ,j)を保存する。
なお、ステップS227において、累積スコア算出部27は、評価値とともに、選択したパスの開始状態におけるパラメータのインデックスを保存してもよい。この場合、ステップS213において、判定部28は、検索パターンと類似する部分系列が含まれるとの判定結果とともに、評価値に対応して記憶したパラメータのインデックスを出力してもよい。これにより、判定部28は、検索パターンと類似する部分系列の、パラメータ系列中における開始位置および終了位置を特定することができる。
以上のように本実施形態に係る検出装置10は、部分系列に含まれるそれぞれのパラメータについて、局所スコアから閾値を減算した差分スコアを累積して累積スコアを算出する。そして、検出装置10は、累積スコアと基準値(例えば0)との大小を比較して、部分系列が検索パターンに類似しているか否かを判定する。これにより、検出装置10によれば、精度良く簡単な演算で、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出することができる。
(精度良く簡単な演算で部分系列の類似を検出できる理由)
つぎに、本実施形態に係る検出装置10が、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを、精度良く簡単に演算できる理由について説明する。
例えば、検索パターンに対する部分系列の類似度を評価する方法として、部分系列に含まれるそれぞれのパラメータについて局所スコアを算出し、部分系列の全体で局所パラメータを累積した値(累積局所スコア)を評価する方法が考えられる。また、累積局所スコアを部分系列の長さで正規化した値、すなわち、累積局所スコアを部分系列に含まれるパラメータの数で除算することによって平均化した値(平均局所スコア)を評価する方法も考えられる。平均局所スコアを評価する方法は、部分系列の長さ(パラメータの数)によってスコアの大小が変化しないので、部分系列の長さが変化する場合には、累積局所スコアを用いるよりも類似度を正確に評価することができる。
累積局所スコアは、動的計画法に基づく方法(DPマッチング)によって効率的に算出される。検索パターンがHMMである場合、動的計画法に基づく方法(DPマッチング)は、ビタビアルゴリズムと呼ばれる。以下、ビタビアルゴリズムによって累積局所スコアを算出する方法を説明する。なお、検索パターンは、left−to−right型のHMMである。
部分系列の始端および終端のパラメータのインデックスをそれぞれsおよびeとする。また、HMMの状態数をNとし、それぞれの状態のインデックスを1,2,…,Nとする。インデックスsからeまでに相当するHMMのパス(状態列Q)は、下記の式(11)の制約を満たす。
Figure 2016177474
部分系列の累積局所スコアS(s,e)は、下記の数(12)で示されるように、式(11)の制約下で取り得るHMMの全てのパスについて、局所スコアを累積した値のうちの最大値である。
Figure 2016177474
score(τ,qτ)は、状態qτについてのインデックスτのパラメータの出力確率(局所スコア)である。なお、ここでは、HMMの遷移確率は簡単のため省略する。
部分系列の累積局所スコアS(s,e)は、ビタビアルゴリズムによって、下記の式(13)の漸化式により算出される。
Figure 2016177474
式(13)を用いると、部分系列の始端および終端を固定した場合に、部分系列の累積局所スコアを効率良く算出することができる。また、平均局所スコアは、このように算出した累積局所スコアを部分系列の長さで正規化することにより算出される。
ところで、パラメータ系列に含まれる部分系列のうち、終端がtであって、且つ、累積局所スコアまたは平均局所スコアが予め定めた閾値thresholdを超える条件を満たす一つの部分系列を検出することを考える。
終端がtであって、且つ、条件を満たす部分系列が存在するか否かは、下記の式(14)により判定することができる。
Figure 2016177474
ここで、式(14)において、S(s,t)は、累積局所スコアまたは平均局所スコアである。
S(s,t)が累積局所スコアである場合、式(14)は、式(15)のように展開される。
Figure 2016177474
式(15)の左辺を漸化式に置き換えると下記の式(16)のようになる。
Figure 2016177474
式(15)の左辺は、式(16)の漸化式で算出されるg(t,N)に相当する。従って、式(15)の左辺は、動的計画法によって、効率良く算出することができる。
一方、S(s,t)が平均局所スコアである場合、式(14)は、式(17)のように展開される。
Figure 2016177474
式(17)の左辺を、例えば非特許文献1に記載された方法で漸化式に置き換えると下記の式(18)のようになる。なお、非特許文献1に記載された方法は、値が小さい方が類似度が高くなる局所スコアを用いている。しかし、説明の一貫性のため、ここでは、符号を反転し、値が大きい方が類似度が高くなる局所スコアを用いた式に置き換えて説明する。また、説明を簡単にするため、HMMの遷移確率に相当する項は省略する。
Figure 2016177474
式(17)の左辺は、式(18)の漸化式で算出されるg(t,N)に相当する。式(18)の漸化式では、それぞれのパラメータのインデックスτ、および、それぞれの状態jについて、その時点で平均局所スコアが最大となるパスを選択する。それぞれのパラメータのインデックスτにおいて、g(τ,N)が閾値を超えた場合に、部分系列が検索パターンに類似していると判定される。
ところで、式(18)の漸化式で算出したg(τ,N)は、式(17)の左辺に、必ず一致するとは限らない。式(18)のg(τ,N)が、式(17)の左辺に一致しない場合、すなわち、式(18)によって算出したg(τ,N)より、式(17)で算出した平均局所スコアが大きくなる場合について説明する。
パラメータのインデックスτ、状態N−1において、局所スコアの履歴がA={0.30,0.20}、B={0.20}となる長さが異なる2つのパスが、候補にあったとする。このとき、パスAを選択するとg(τ,N−1)=(0.30+0.20)/2=0.25、パスBを選択するとg(τ,N−1)=0.20となる。従って、この時点において、平均局所スコアが高いパスAが選択される。
ここで、パラメータのインデックスτ+1、状態Nにおける局所スコアがscore(τ+1,N)=0.50であったとする。この場合、平均局所スコアは、g(τ+1,N)=(0.30+0.20+0.50)/3=0.33となる。
しかし、パスAに代えてパスBを選択していたら、平均局所スコアは、g(τ+1,N)=(0.20+0.50)/2=0.35となり、パスAを選択するよりも高い平均局所スコアとなる。
このため、式(18)の漸化式を用いた場合、平均局所スコアが閾値を超える部分系列が存在するにもかかわらず、検出することができないという問題が生じる。この問題点は、非特許文献1の方法に限ったものではない。式(17)の左辺は、部分系列の長さによる正規化演算がmax関数の内側に存在している。従って、式(17)の左辺は、そのまま漸化式に置き換えても厳密に計算することができない。
そこで、本実施形態においては、式(17)を、下記の式(19)のように式変形する。
Figure 2016177474
式(19)の1行目から2行目への式変形は、右辺の定数thresholdを、左辺に移項して整理している。式(19)の2行目から3行目への式変形は、左辺のmax_s≦tの内側を、常に正である1/(t−s+1)で除算している。式(19)の2行目から3行目への式変形によって、左辺の値は変化するが、0を超えるかどうかの比較結果は変化しないので、式変形が成立する。
式(19)の3行目の式は、本実施形態に係る検出装置10が用いている式(1)と同一である。また、式(19)の3行目の式を漸化式に置き換えると下記の式(20)となる。
Figure 2016177474
式(20)は、本実施形態に係る検出装置10が用いている式(4)と同一である。式(19)の左辺は、部分系列の長さによる正規化演算がmax関数の内側にない。従って、式(19)の左辺を漸化式に置き換えた式(20)は、累積スコアg(τ,N)を厳密に計算することができる。そして、累積スコアを0と比較することによって、τを終端とし、平均局所スコアが閾値を超える部分系列が存在するか否かを厳密に判定することができる。
本実施形態に係る検出装置10は、以上説明した演算式を用いて、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出する。従って、本実施形態に係る検出装置10によれば、簡単な演算で精度良く、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを検出することができる。
図7は、実施形態に係る検出装置10のハードウェア構成の一例を示す図である。本実施形態に係る検出装置10は、例えば図7に示すようなハードウェア構成の情報処理装置により実現される。この情報処理装置は、CPU(Central Processing Unit)201と、RAM(Random Access Memory)202と、ROM(Read Only Memory)203と、操作入力装置204と、表示装置205と、記憶装置206と、通信装置207とを備える。そして、これらの各部は、バスにより接続される。
CPU201は、プログラムに従って演算処理および制御処理等を実行するプロセッサである。CPU201は、RAM202の所定領域を作業領域として、ROM203および記憶装置206等に記憶されたプログラムとの協働により各種処理を実行する。
RAM202は、SDRAM(Synchronous Dynamic Random Access Memory)等のメモリである。RAM202は、CPU201の作業領域として機能する。ROM203は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。
操作入力装置204は、マウスおよびキーボード等の入力デバイスである。操作入力装置204は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をCPU201に出力する。
表示装置205は、LCD(Liquid Crystal Display)等の表示デバイスである。表示装置205は、CPU201からの表示信号に基づいて、各種情報を表示する。
記憶装置206は、フラッシュメモリ等の半導体による記憶媒体、または、磁気的若しくは光学的に記録可能な記憶媒体等にデータを書き込みおよび読み出しをする装置である。記憶装置206は、CPU201からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。通信装置207は、CPU201からの制御に応じて外部の機器とネットワークを介して通信する。
本実施形態の検出装置10で実行されるプログラムは、分析モジュール、入力モジュール、検索パターン生成モジュール、局所スコア取得モジュール、差分スコア算出モジュール、累積スコア算出モジュールおよび判定モジュールを含むモジュール構成となっている。このプログラムは、CPU201(プロセッサ)によりRAM202上に展開して実行されることにより、情報処理装置を分析部21、入力部22、検索パターン生成部24、局所スコア取得部25、差分スコア算出部26、累積スコア算出部27および判定部28として機能させる。
なお、検出装置10は、このような構成に限らず、分析部21、入力部22、検索パターン生成部24、局所スコア取得部25、差分スコア算出部26、累積スコア算出部27および判定部28の少なくとも一部をハードウェア回路(例えば半導体集積回路)により実現した構成であってもよい。
また、本実施形態の検出装置10で実行されるプログラムは、コンピュータにインストール可能な形式または実行可能な形式のファイルで、CD−ROM、フレキシブルディスク、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の検出装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の検出装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、検出装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 検出装置
21 分析部
22 入力部
23 モデル記憶部
24 検索パターン生成部
25 局所スコア取得部
26 差分スコア算出部
27 累積スコア算出部
28 判定部

Claims (13)

  1. パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出装置であって、
    前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得部と、
    前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出部と、
    前記差分スコアを累積した累積スコアを算出する累積スコア算出部と、
    前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定部と、
    を備える検出装置。
  2. 前記閾値は、前記部分系列に含まれるそれぞれのパラメータの前記局所スコアを平均した値の境界値である
    請求項1に記載の検出装置。
  3. 前記基準値は、0である
    請求項2に記載の検出装置。
  4. 前記検索パターンは、状態にパラメータおよびパラメータの出力確率が割り当てられた有向グラフである
    請求項3に記載の検出装置。
  5. 前記検索パターンは、状態にパラメータおよびパラメータの出力確率が割り当てられた隠れマルコフモデルであり、
    前記局所スコア取得部は、前記隠れマルコフモデルのそれぞれの状態について、前記部分系列に含まれるそれぞれのパラメータに対応する前記出力確率を取得して、前記局所スコアとして出力し、
    前記差分スコア算出部は、前記隠れマルコフモデルのそれぞれの状態について、前記部分系列に含まれるそれぞれのパラメータに対応する前記局所スコアから前記閾値を減算した減算スコアを算出し、
    前記累積スコア算出部は、前記隠れマルコフモデルのそれぞれのパスについて、前記部分系列に一致するパラメータの前記差分スコアを累積した前記累積スコアを算出する
    請求項4に記載の検出装置。
  6. 前記累積スコア算出部は、
    前記パラメータ系列に含まれるパラメータを先頭から1つずつ順次に選択し、
    選択したパラメータ毎に、動的計画法に基づき最大の前記累積スコアを算出する
    請求項4または5に記載の検出装置。
  7. 前記検索パターンは、left−to−right型の隠れマルコフモデルであり、
    前記累積スコア算出部は、下記の式(100)に示す漸化式により最大の前記累積スコアを算出する
    請求項6に記載の検出装置。
    Figure 2016177474
    τは、前記パラメータのインデックスを表す変数であり、0より大きく、T以下の整数である。
    Tは、パラメータ系列の終端のパラメータのインデックスである。
    jは、前記隠れマルコフモデルの状態番号を表す変数であり、0より大きく、N以下の整数である。
    g(τ,j)は、インデックスτにおける、状態番号jの状態についての評価値を表す。
    score(τ,j)は、インデックスτのパラメータの前記局所スコアを表す。
    thresholdは、前記閾値を表す。
    max(g(τ−1,j−1),g(τ−1,j))は、g(τ−1,j−1)とg(τ−1,j)とのうち大きい方を選択する関数を表す。
  8. 前記判定部は、選択したパラメータ毎に、g(τ,N)が0より大きいか否かを判定する
    請求項7に記載の検出装置。
  9. 前記パラメータは、音声の音響的な特徴を表す
    請求項1から8の何れか1項に記載の検出装置。
  10. 音声信号を前記パラメータ系列に変換する分析部をさらに備える
    請求項8に記載の検出装置。
  11. 文字列を入力する入力部と、
    音素と隠れマルコフモデルとを対応付けた音響モデルを記憶するモデル記憶部と、
    前記音響モデルに基づき、前記文字列に対応する隠れマルコフモデルを前記検索パターンとして生成する検索パターン生成部と、
    をさらに備える請求項10に記載の検出装置。
  12. パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出方法であって、
    前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得ステップと、
    前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出ステップと、
    前記差分スコアを累積した累積スコアを算出する累積スコア算出ステップと、
    前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定ステップと、
    を含む検出方法。
  13. コンピュータを、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出装置として機能させるためのプログラムであって、
    前記コンピュータを、
    前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得部と、
    前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出部と、
    前記差分スコアを累積した累積スコアを算出する累積スコア算出部と、
    前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定部と
    して機能させるプログラム。
JP2015056412A 2015-03-19 2015-03-19 検出装置、検出方法およびプログラム Active JP6461660B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015056412A JP6461660B2 (ja) 2015-03-19 2015-03-19 検出装置、検出方法およびプログラム
US15/071,669 US10572812B2 (en) 2015-03-19 2016-03-16 Detection apparatus, detection method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015056412A JP6461660B2 (ja) 2015-03-19 2015-03-19 検出装置、検出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016177474A true JP2016177474A (ja) 2016-10-06
JP6461660B2 JP6461660B2 (ja) 2019-01-30

Family

ID=56925077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015056412A Active JP6461660B2 (ja) 2015-03-19 2015-03-19 検出装置、検出方法およびプログラム

Country Status (2)

Country Link
US (1) US10572812B2 (ja)
JP (1) JP6461660B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553206B2 (en) 2017-03-17 2020-02-04 Kabushiki Kaisha Toshiba Voice keyword detection apparatus and voice keyword detection method
US10964311B2 (en) 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
US11495235B2 (en) 2018-06-21 2022-11-08 Kabushiki Kaisha Toshiba System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
US11538475B2 (en) 2019-12-04 2022-12-27 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体
US20080114595A1 (en) * 2004-12-28 2008-05-15 Claudio Vair Automatic Speech Recognition System and Method
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JP3053512B2 (ja) 1993-09-22 2000-06-19 三菱電機株式会社 画像処理装置
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
JP2853731B2 (ja) 1995-06-02 1999-02-03 日本電気株式会社 音声認識装置
JPH11338492A (ja) 1998-05-28 1999-12-10 Matsushita Electric Ind Co Ltd 話者認識装置
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
JP3884006B2 (ja) 2002-12-06 2007-02-21 日本電信電話株式会社 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体
JP4459940B2 (ja) 2002-12-06 2010-04-28 日本電信電話株式会社 信号検索方法、装置、プログラムとその記録媒体
JP6261924B2 (ja) * 2013-09-17 2018-01-17 株式会社東芝 韻律編集装置、方法およびプログラム
JP6342428B2 (ja) * 2013-12-20 2018-06-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2016042626A1 (ja) * 2014-09-17 2016-03-24 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
JP6509694B2 (ja) * 2015-09-15 2019-05-08 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
JP6584930B2 (ja) * 2015-11-17 2019-10-02 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体
US20080114595A1 (en) * 2004-12-28 2008-05-15 Claudio Vair Automatic Speech Recognition System and Method
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553206B2 (en) 2017-03-17 2020-02-04 Kabushiki Kaisha Toshiba Voice keyword detection apparatus and voice keyword detection method
US10964311B2 (en) 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
US11495235B2 (en) 2018-06-21 2022-11-08 Kabushiki Kaisha Toshiba System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
US11538475B2 (en) 2019-12-04 2022-12-27 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Also Published As

Publication number Publication date
JP6461660B2 (ja) 2019-01-30
US20160275405A1 (en) 2016-09-22
US10572812B2 (en) 2020-02-25

Similar Documents

Publication Publication Date Title
JP6461660B2 (ja) 検出装置、検出方法およびプログラム
Ajmera et al. A robust speaker clustering algorithm
US7647224B2 (en) Apparatus, method, and computer program product for speech recognition
KR100925479B1 (ko) 음성 인식 방법 및 장치
Sigtia et al. A hybrid recurrent neural network for music transcription
US8175868B2 (en) Voice judging system, voice judging method and program for voice judgment
US11527259B2 (en) Learning device, voice activity detector, and method for detecting voice activity
JP2017058877A (ja) 学習装置、音声検出装置、学習方法およびプログラム
JPWO2009078093A1 (ja) 非音声区間検出方法及び非音声区間検出装置
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
US20180137353A1 (en) Recognition apparatus, recognition method, and computer program product
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
Szöke et al. BUT QUESST 2014 system description.
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2010286702A (ja) 話者照合装置、話者照合方法およびプログラム
JP6562698B2 (ja) ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
Fuchs et al. Spoken term detection automatically adjusted for a given threshold
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP6553584B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181226

R151 Written notification of patent or utility model registration

Ref document number: 6461660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151