JP7482086B2 - キーワード検出装置、方法及びプログラム - Google Patents
キーワード検出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP7482086B2 JP7482086B2 JP2021110285A JP2021110285A JP7482086B2 JP 7482086 B2 JP7482086 B2 JP 7482086B2 JP 2021110285 A JP2021110285 A JP 2021110285A JP 2021110285 A JP2021110285 A JP 2021110285A JP 7482086 B2 JP7482086 B2 JP 7482086B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- detection
- keyword
- transitions
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 196
- 238000000034 method Methods 0.000 title description 23
- 239000013598 vector Substances 0.000 claims description 152
- 230000007704 transition Effects 0.000 claims description 118
- 239000000470 constituent Substances 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 41
- 238000009826 distribution Methods 0.000 description 32
- 230000009466 transformation Effects 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000012706 support-vector machine Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態では、本実施形態に係るキーワード検出装置が家電製品を操作するためのリモコン装置に搭載されているものとし、例として電気照明を操作する場合について説明する。リモコン装置は、「電気つけて」「暗くして」などのあらかじめ設定されたキーワード(以後、コマンドワードと呼ぶ)の音声に反応して電気照明を操作するものである。
第1実施形態に係る尤度特徴量ベクトルは、HMMの状態数に依存する次元数を有するものとした。第2実施形態に係るキーワード検出装置は、HMMの状態数に依存しない次元数を有する尤度特徴量ベクトルを使用して正解検出又は誤検出を判定する。以下、第2実施形態について説明する。なお以下の説明において、第1実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
第1及び第2実施形態に係る判定部115,152は、遷移回数に応じた尤度を要素に有する尤度特徴量ベクトルを用いて正解検出又は誤検出の判定を行うものとした。第3実施形態に係る判定部は、遷移回数を要素に有するベクトルを用いて正解検出又は誤検出の判定を行う。以下、第3実施形態について説明する。なお以下の説明において、第1及び第2実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
図20は、第1、第2及び第3実施形態に係るキーワード検出装置103のハードウェア構成例を示す図である。キーワード検出装置103は、処理回路201、主記憶装置202、補助記憶装置203、表示機器204及び入力機器205を備える。処理回路201、主記憶装置202、補助記憶装置203、表示機器204及び入力機器205は、バスを介して接続されている。
上記の実施形態に係るキーワード検出装置は、検出部、取得部及び判定部を有する。検出部は、音声信号から、コマンドワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、当該コマンドワードに対応する候補音声区間を検出する。取得部は、検出された候補音声区間について、隠れマルコフモデルの各状態の遷移回数又は当該遷移回数に応じた特徴量に関するベクトルを取得する。判定部は、取得されたベクトルに基づいて候補音声区間が正解検出か誤検出かを判定する。
Claims (4)
- 音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出する検出部と、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第1のベクトルを取得する取得部と、
前記第1のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第2のベクトルに変換する変換部と、
前記変換後の第2のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定する判定部と、
を具備するキーワード検出装置。 - 正解検出に対応する音声信号に関する前記遷移回数に応じた特徴量に関する第2のベクトルと、誤検出に対応する音声信号に関する前記遷移回数に応じた特徴量に関する第2のベクトルと、に基づいて正解検出及び誤検出を識別するように学習された識別器を記憶する識別器記憶部を更に備え、
前記判定部は、前記変換後の第2のベクトルを前記識別器に適用して正解検出か誤検出かを判定する、
請求項1記載のキーワード検出装置。 - キーワード検出装置が行うキーワード検出方法であって、
音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出する検出し、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第1のベクトルを取得し、
前記第1のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第2のベクトルに変換し、
前記変換後の第2のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定する、
ことを具備するキーワード検出方法。 - コンピュータに、
音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出させる機能と、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第1のベクトルを取得させる機能と、
前記第1のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第2のベクトルに変換させる機能と、
前記変換後の第2のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定させる機能と、
を実現させるキーワード検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021110285A JP7482086B2 (ja) | 2021-07-01 | 2021-07-01 | キーワード検出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021110285A JP7482086B2 (ja) | 2021-07-01 | 2021-07-01 | キーワード検出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023007190A JP2023007190A (ja) | 2023-01-18 |
JP7482086B2 true JP7482086B2 (ja) | 2024-05-13 |
Family
ID=85107729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021110285A Active JP7482086B2 (ja) | 2021-07-01 | 2021-07-01 | キーワード検出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7482086B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006470A1 (en) | 2002-07-03 | 2004-01-08 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
JP2004037799A (ja) | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
-
2021
- 2021-07-01 JP JP2021110285A patent/JP7482086B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006470A1 (en) | 2002-07-03 | 2004-01-08 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
JP2004037799A (ja) | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023007190A (ja) | 2023-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10297247B2 (en) | Phonotactic-based speech recognition and re-synthesis | |
EP3433855B1 (en) | Speaker verification method and system | |
US9600231B1 (en) | Model shrinking for embedded keyword spotting | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
EP2216775B1 (en) | Speaker recognition | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
KR100883657B1 (ko) | 음성 인식 기반의 음악 검색 방법 및 장치 | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US8996373B2 (en) | State detection device and state detecting method | |
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
JP2017513047A (ja) | 音声認識における発音予測 | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
JP2006510933A (ja) | センサ・ベース音声認識装置の選択、適応、および組合せ | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US20190392839A1 (en) | System for creating speaker model, recognition system, computer program product, and controller | |
US10199037B1 (en) | Adaptive beam pruning for automatic speech recognition | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
Polzehl et al. | Emotion classification in children's speech using fusion of acoustic and linguistic features | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP7482086B2 (ja) | キーワード検出装置、方法及びプログラム | |
JP4852129B2 (ja) | 音声認識装置とその方法と、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7482086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |