JP6729804B2 - パターン認識装置、方法及びプログラム - Google Patents
パターン認識装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6729804B2 JP6729804B2 JP2019521169A JP2019521169A JP6729804B2 JP 6729804 B2 JP6729804 B2 JP 6729804B2 JP 2019521169 A JP2019521169 A JP 2019521169A JP 2019521169 A JP2019521169 A JP 2019521169A JP 6729804 B2 JP6729804 B2 JP 6729804B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- feature
- class
- pattern recognition
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 73
- 238000000034 method Methods 0.000 title claims description 34
- 239000013598 vector Substances 0.000 claims description 132
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012567 pattern recognition method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 38
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000010365 information processing Effects 0.000 description 8
- 239000000470 constituent Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Description
図1は、本発明の第1の実施形態によるパターン認識装置100を説明するブロック図である。図1は、2つの段階、即ち、訓練段階と試験段階とを説明する。それぞれの段階を後に詳細に説明する。
数式1
ここで、xはクリーン特徴ベクトルである。zは雑音除去特徴ベクトルである。wsは総数Nクラスのうちの出力クラスsに対応する重みである。Dはxとzの次元である。Cはスカラー定数である。αは変換誤差の定数重みである。Nはクラスの数である。Tは訓練データサンプルの数である。||・||2 2は2−ノルムの二乗である。最大化(max i≠sj (w i≠sj ))に於いて:
a.sjはj番目の訓練サンプルが属するクラスであり、システムへの与えられた入力として既知のデータである。
b.iは(wizj)の最大値を与えるsを除く全ての可能なNクラスの中のクラスを意味する。(wizj)はwiとzjとの間の演算である。wiとzjとの間の演算は内積である。
c.パラメーター更新器(d)はiを決定する。
コサイン距離
ここで、lは入力特徴ベクトルが対応する特定のクラスを示す。oは分類器120によって推定された、推定されたラベルのクラスを示す。oは理想的には入力特徴ベクトルのlと等しくあるべきである。注目すべきは、それぞれのラベルはスカラー値であり、それぞれのクラスに指定されていることである。即ち、lとoとはスカラー値である。更に、対数の底は何れの値も取り得る。例えば、対数は自然対数であってもよい。
図2は、本発明の第2の実施形態によるパターン認識装置200を説明するブロック図である。
第1から第2までの実施形態によるパターン認識装置100及びパターン認識装置200は、以下に示す様に構成される。
以下、本発明の実施形態の概略を説明する。図10は、本発明の第1及び第2の実施形態のパターン認識装置300の概略を説明するブロック図である。
110 特徴変換器
120 分類器
130 目的関数計算機
131 変換誤差
132 分類誤差
133 コスト
134 加算器
140 パラメーター更新器
150 記憶装置
200 パターン認識装置
210 特徴変換器
220 分類器
230 目的関数計算機
240 パラメーター更新器
250 記憶装置
260 記憶装置
300 パターン認識装置
310 特徴変換器
320 分類器
330 目的関数計算機
340 パラメーター更新器
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力装置
670 表示装置
680 NIC
690 媒体
700 パターン認識装置
710 特徴変換器
730 目的関数計算機
740 パラメーター更新器
750 記憶装置
800 パターン認識装置
820 分類器
830 目的関数計算機
840 パラメーター更新器
850 記憶装置
860 特徴抽出器
Claims (10)
- 雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換手段と、
前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定する分類手段と、
前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算する目的関数計算手段と、
前記コストに従い前記特徴変換手段のパラメーターを更新するパラメーター更新手段と、を備えるパターン認識装置。 - 前記特徴変換手段が、前記特徴変換手段の更新された前記パラメーターを用いて、テスト特徴ベクトルを前記雑音除去特徴ベクトルに変換する、請求項1に記載のパターン認識装置。
- 前記パラメーター更新手段が、前記分類手段のパラメーターを更新し、前記分類手段が、前記分類手段の更新された前記パラメーターを用いて分類を行う、請求項2に記載のパターン認識装置。
- 前記目的関数計算手段が、前記雑音除去特徴ベクトルと前記クリーン特徴ベクトルとの間の変換誤差、及び、前記雑音重畳特徴ベクトルの推定された前記クラスと当該クラスの特徴ベクトルラベルとの間の分類誤差を用いて前記コストを計算する、請求項1から3の何れか1項に記載の装置。
- 前記特徴変換手段がデノイジングオートエンコーダである、請求項1から4の何れか1項に記載の装置。
- 前記分類手段がサポートベクターマシン或いはニューラルネットワークである、請求項1から5の何れか1項に記載の装置。
- 前記変換誤差が平均2乗誤差或いはコサイン距離である、請求項4に記載の装置。
- 前記分類誤差が交差エントロピー或いはマージン誤差である、請求項4に記載の装置。
- 雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換を行い、
前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定し、
前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算し、
前記コストに従い前記特徴変換のパラメーターを更新する
パターン認識方法。 - 雑音重畳特徴ベクトルを雑音除去特徴ベクトルに変換する特徴変換処理と、
前記雑音除去特徴ベクトルをそれらが対応するクラスに分類してクラスを推定する分類処理と、
前記雑音除去特徴ベクトルと、クリーン特徴ベクトルと、推定された前記クラスと、特徴ベクトルラベルと、を用いてコストを計算する目的関数計算処理と、
前記コストに従い前記特徴変換処理のパラメーターを更新するパラメーター更新処理と、
をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/081510 WO2018078712A1 (en) | 2016-10-25 | 2016-10-25 | Pattern recognition apparatus, method and medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019532439A JP2019532439A (ja) | 2019-11-07 |
JP6729804B2 true JP6729804B2 (ja) | 2020-07-22 |
Family
ID=62023207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019521169A Active JP6729804B2 (ja) | 2016-10-25 | 2016-10-25 | パターン認識装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190244064A1 (ja) |
JP (1) | JP6729804B2 (ja) |
WO (1) | WO2018078712A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7079445B2 (ja) * | 2018-09-25 | 2022-06-02 | 本田技研工業株式会社 | モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法 |
US11210673B2 (en) * | 2019-05-29 | 2021-12-28 | Advanced New Technologies Co., Ltd. | Transaction feature generation |
US20210192318A1 (en) * | 2019-12-23 | 2021-06-24 | Dts, Inc. | System and method for training deep-learning classifiers |
JP7504601B2 (ja) * | 2020-01-28 | 2024-06-24 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
JP7435883B1 (ja) | 2023-06-09 | 2024-02-21 | 富士電機株式会社 | ノイズ除去付き予測装置、ノイズ除去付き予測方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102288280B1 (ko) * | 2014-11-05 | 2021-08-10 | 삼성전자주식회사 | 영상 학습 모델을 이용한 영상 생성 방법 및 장치 |
-
2016
- 2016-10-25 US US16/344,096 patent/US20190244064A1/en not_active Abandoned
- 2016-10-25 JP JP2019521169A patent/JP6729804B2/ja active Active
- 2016-10-25 WO PCT/JP2016/081510 patent/WO2018078712A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018078712A1 (en) | 2018-05-03 |
JP2019532439A (ja) | 2019-11-07 |
US20190244064A1 (en) | 2019-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6729804B2 (ja) | パターン認識装置、方法及びプログラム | |
JP7028345B2 (ja) | パタン認識装置、パタン認識方法、及びプログラム | |
Gupta et al. | Feature extraction using MFCC | |
Guo et al. | Edge effect elimination in single-mixture blind source separation | |
Lee et al. | Many-to-many voice conversion using conditional cycle-consistent adversarial networks | |
Guo et al. | Single-mixture source separation using dimensionality reduction of ensemble empirical mode decomposition and independent component analysis | |
WO2023283823A1 (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
Shon et al. | Autoencoder based domain adaptation for speaker recognition under insufficient channel information | |
Baranwal et al. | An efficient gesture based humanoid learning using wavelet descriptor and MFCC techniques | |
CN108898181B (zh) | 一种图像分类模型的处理方法、装置及存储介质 | |
JP6620882B2 (ja) | ドメイン適応を用いたパターン認識装置、方法およびプログラム | |
Wang et al. | Spectral-temporal receptive fields and MFCC balanced feature extraction for robust speaker recognition | |
Sarria-Paja et al. | Fusion of bottleneck, spectral and modulation spectral features for improved speaker verification of neutral and whispered speech | |
Paleček et al. | Audio-visual speech recognition in noisy audio environments | |
US10446138B2 (en) | System and method for assessing audio files for transcription services | |
Lin et al. | Domestic activities clustering from audio recordings using convolutional capsule autoencoder network | |
Baranwal et al. | A speaker invariant speech recognition technique using HFCC features in isolated Hindi words | |
Shah et al. | Speech recognition using spectrogram-based visual features | |
Das et al. | Exploring kernel discriminant analysis for speaker verification with limited test data | |
Abel et al. | A data driven approach to audiovisual speech mapping | |
Al-Kaltakchi et al. | Closed-set speaker identification system based on MFCC and PNCC features combination with different fusion strategies | |
Wu | Speaker recognition based on i-vector and improved local preserving projection | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Lu et al. | Video analysis using spatiotemporal descriptor and kernel extreme learning machine for lip reading | |
Baranwal et al. | A speech recognition technique using mfcc with dwt in isolated hindi words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6729804 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |