JP2016177474A - 検出装置、検出方法およびプログラム - Google Patents
検出装置、検出方法およびプログラム Download PDFInfo
- Publication number
- JP2016177474A JP2016177474A JP2015056412A JP2015056412A JP2016177474A JP 2016177474 A JP2016177474 A JP 2016177474A JP 2015056412 A JP2015056412 A JP 2015056412A JP 2015056412 A JP2015056412 A JP 2015056412A JP 2016177474 A JP2016177474 A JP 2016177474A
- Authority
- JP
- Japan
- Prior art keywords
- score
- parameter
- search pattern
- local
- cumulative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 70
- 238000004364 calculation method Methods 0.000 claims abstract description 79
- 230000001186 cumulative effect Effects 0.000 claims description 104
- 238000011156 evaluation Methods 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 21
- 230000007704 transition Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
【解決手段】実施形態に係る検出装置は、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する。検出装置は、局所スコア取得部と、差分スコア算出部と、累積スコア算出部と、判定部と、を備える。局所スコア取得部は、パラメータについて、検索パターンにおける発生のしやすさを表す局所スコアを取得する。差分スコア算出部は、パラメータについて、局所スコアから閾値を減算した差分スコアを算出する。累積スコア算出部は、差分スコアを累積した累積スコアを算出する。判定部は、累積スコアと基準値との大小を比較して、部分系列が検索パターンに類似しているかを判定する。
【選択図】図1
Description
つぎに、本実施形態に係る検出装置10が、パラメータ系列に含まれる部分系列が検索パターンと類似しているかを、精度良く簡単に演算できる理由について説明する。
21 分析部
22 入力部
23 モデル記憶部
24 検索パターン生成部
25 局所スコア取得部
26 差分スコア算出部
27 累積スコア算出部
28 判定部
Claims (13)
- パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出装置であって、
前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得部と、
前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出部と、
前記差分スコアを累積した累積スコアを算出する累積スコア算出部と、
前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定部と、
を備える検出装置。 - 前記閾値は、前記部分系列に含まれるそれぞれのパラメータの前記局所スコアを平均した値の境界値である
請求項1に記載の検出装置。 - 前記基準値は、0である
請求項2に記載の検出装置。 - 前記検索パターンは、状態にパラメータおよびパラメータの出力確率が割り当てられた有向グラフである
請求項3に記載の検出装置。 - 前記検索パターンは、状態にパラメータおよびパラメータの出力確率が割り当てられた隠れマルコフモデルであり、
前記局所スコア取得部は、前記隠れマルコフモデルのそれぞれの状態について、前記部分系列に含まれるそれぞれのパラメータに対応する前記出力確率を取得して、前記局所スコアとして出力し、
前記差分スコア算出部は、前記隠れマルコフモデルのそれぞれの状態について、前記部分系列に含まれるそれぞれのパラメータに対応する前記局所スコアから前記閾値を減算した減算スコアを算出し、
前記累積スコア算出部は、前記隠れマルコフモデルのそれぞれのパスについて、前記部分系列に一致するパラメータの前記差分スコアを累積した前記累積スコアを算出する
請求項4に記載の検出装置。 - 前記累積スコア算出部は、
前記パラメータ系列に含まれるパラメータを先頭から1つずつ順次に選択し、
選択したパラメータ毎に、動的計画法に基づき最大の前記累積スコアを算出する
請求項4または5に記載の検出装置。 - 前記検索パターンは、left−to−right型の隠れマルコフモデルであり、
前記累積スコア算出部は、下記の式(100)に示す漸化式により最大の前記累積スコアを算出する
請求項6に記載の検出装置。
Tは、パラメータ系列の終端のパラメータのインデックスである。
jは、前記隠れマルコフモデルの状態番号を表す変数であり、0より大きく、N以下の整数である。
g(τ,j)は、インデックスτにおける、状態番号jの状態についての評価値を表す。
score(τ,j)は、インデックスτのパラメータの前記局所スコアを表す。
thresholdは、前記閾値を表す。
max(g(τ−1,j−1),g(τ−1,j))は、g(τ−1,j−1)とg(τ−1,j)とのうち大きい方を選択する関数を表す。 - 前記判定部は、選択したパラメータ毎に、g(τ,N)が0より大きいか否かを判定する
請求項7に記載の検出装置。 - 前記パラメータは、音声の音響的な特徴を表す
請求項1から8の何れか1項に記載の検出装置。 - 音声信号を前記パラメータ系列に変換する分析部をさらに備える
請求項8に記載の検出装置。 - 文字列を入力する入力部と、
音素と隠れマルコフモデルとを対応付けた音響モデルを記憶するモデル記憶部と、
前記音響モデルに基づき、前記文字列に対応する隠れマルコフモデルを前記検索パターンとして生成する検索パターン生成部と、
をさらに備える請求項10に記載の検出装置。 - パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出方法であって、
前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得ステップと、
前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出ステップと、
前記差分スコアを累積した累積スコアを算出する累積スコア算出ステップと、
前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定ステップと、
を含む検出方法。 - コンピュータを、パラメータの配列であるパラメータ系列から検索パターンと類似する部分系列を検出する検出装置として機能させるためのプログラムであって、
前記コンピュータを、
前記パラメータについて、前記検索パターンにおける発生のしやすさを表す局所スコアを取得する局所スコア取得部と、
前記パラメータについて、前記局所スコアから閾値を減算した差分スコアを算出する差分スコア算出部と、
前記差分スコアを累積した累積スコアを算出する累積スコア算出部と、
前記累積スコアと基準値との大小を比較して、前記部分系列が前記検索パターンに類似しているかを判定する判定部と
して機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015056412A JP6461660B2 (ja) | 2015-03-19 | 2015-03-19 | 検出装置、検出方法およびプログラム |
US15/071,669 US10572812B2 (en) | 2015-03-19 | 2016-03-16 | Detection apparatus, detection method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015056412A JP6461660B2 (ja) | 2015-03-19 | 2015-03-19 | 検出装置、検出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016177474A true JP2016177474A (ja) | 2016-10-06 |
JP6461660B2 JP6461660B2 (ja) | 2019-01-30 |
Family
ID=56925077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015056412A Active JP6461660B2 (ja) | 2015-03-19 | 2015-03-19 | 検出装置、検出方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10572812B2 (ja) |
JP (1) | JP6461660B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10553206B2 (en) | 2017-03-17 | 2020-02-04 | Kabushiki Kaisha Toshiba | Voice keyword detection apparatus and voice keyword detection method |
US10964311B2 (en) | 2018-02-23 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word detection system, word detection method, and storage medium |
US11495235B2 (en) | 2018-06-21 | 2022-11-08 | Kabushiki Kaisha Toshiba | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks |
US11538475B2 (en) | 2019-12-04 | 2022-12-27 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
US20080114595A1 (en) * | 2004-12-28 | 2008-05-15 | Claudio Vair | Automatic Speech Recognition System and Method |
WO2013163494A1 (en) * | 2012-04-27 | 2013-10-31 | Interactive Itelligence, Inc. | Negative example (anti-word) based performance improvement for speech recognition |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
JP3053512B2 (ja) | 1993-09-22 | 2000-06-19 | 三菱電機株式会社 | 画像処理装置 |
JP3114468B2 (ja) | 1993-11-25 | 2000-12-04 | 松下電器産業株式会社 | 音声認識方法 |
JP3536996B2 (ja) * | 1994-09-13 | 2004-06-14 | ソニー株式会社 | パラメータ変換方法及び音声合成方法 |
JP2853731B2 (ja) | 1995-06-02 | 1999-02-03 | 日本電気株式会社 | 音声認識装置 |
JPH11338492A (ja) | 1998-05-28 | 1999-12-10 | Matsushita Electric Ind Co Ltd | 話者認識装置 |
US7054811B2 (en) * | 2002-11-06 | 2006-05-30 | Cellmax Systems Ltd. | Method and system for verifying and enabling user access based on voice parameters |
JP3884006B2 (ja) | 2002-12-06 | 2007-02-21 | 日本電信電話株式会社 | 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体 |
JP4459940B2 (ja) | 2002-12-06 | 2010-04-28 | 日本電信電話株式会社 | 信号検索方法、装置、プログラムとその記録媒体 |
JP6261924B2 (ja) * | 2013-09-17 | 2018-01-17 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
JP6342428B2 (ja) * | 2013-12-20 | 2018-06-13 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
WO2016042626A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
JP6509694B2 (ja) * | 2015-09-15 | 2019-05-08 | 株式会社東芝 | 学習装置、音声検出装置、学習方法およびプログラム |
JP6584930B2 (ja) * | 2015-11-17 | 2019-10-02 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2015
- 2015-03-19 JP JP2015056412A patent/JP6461660B2/ja active Active
-
2016
- 2016-03-16 US US15/071,669 patent/US10572812B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
US20080114595A1 (en) * | 2004-12-28 | 2008-05-15 | Claudio Vair | Automatic Speech Recognition System and Method |
WO2013163494A1 (en) * | 2012-04-27 | 2013-10-31 | Interactive Itelligence, Inc. | Negative example (anti-word) based performance improvement for speech recognition |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10553206B2 (en) | 2017-03-17 | 2020-02-04 | Kabushiki Kaisha Toshiba | Voice keyword detection apparatus and voice keyword detection method |
US10964311B2 (en) | 2018-02-23 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word detection system, word detection method, and storage medium |
US11495235B2 (en) | 2018-06-21 | 2022-11-08 | Kabushiki Kaisha Toshiba | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks |
US11538475B2 (en) | 2019-12-04 | 2022-12-27 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP6461660B2 (ja) | 2019-01-30 |
US20160275405A1 (en) | 2016-09-22 |
US10572812B2 (en) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6461660B2 (ja) | 検出装置、検出方法およびプログラム | |
Ajmera et al. | A robust speaker clustering algorithm | |
US7647224B2 (en) | Apparatus, method, and computer program product for speech recognition | |
KR100925479B1 (ko) | 음성 인식 방법 및 장치 | |
Sigtia et al. | A hybrid recurrent neural network for music transcription | |
US8175868B2 (en) | Voice judging system, voice judging method and program for voice judgment | |
US11527259B2 (en) | Learning device, voice activity detector, and method for detecting voice activity | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
JPWO2009078093A1 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
JP6585022B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
US20180137353A1 (en) | Recognition apparatus, recognition method, and computer program product | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
Szöke et al. | BUT QUESST 2014 system description. | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2010286702A (ja) | 話者照合装置、話者照合方法およびプログラム | |
JP6562698B2 (ja) | ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム | |
KR100915638B1 (ko) | 고속 음성 인식 방법 및 시스템 | |
Fuchs et al. | Spoken term detection automatically adjusted for a given threshold | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP6553584B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181226 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6461660 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |