JP5177561B2 - 認識器重み学習装置および音声認識装置、ならびに、システム - Google Patents
認識器重み学習装置および音声認識装置、ならびに、システム Download PDFInfo
- Publication number
- JP5177561B2 JP5177561B2 JP2008557047A JP2008557047A JP5177561B2 JP 5177561 B2 JP5177561 B2 JP 5177561B2 JP 2008557047 A JP2008557047 A JP 2008557047A JP 2008557047 A JP2008557047 A JP 2008557047A JP 5177561 B2 JP5177561 B2 JP 5177561B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognizer
- learning
- recognition
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 34
- 230000010354 integration Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 18
- 238000013500 data storage Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
100 認識器重み学習装置
101 音声データ記憶部
102 音声認識器記憶部
103 音声認識器選抜手段
104 音声認識部
105 認識結果統合手段
106 認識器重み学習手段
107 認識器重み記憶部
108 正解ラベル記憶部
110 音声認識装置
111 音声入力部
112 音声認識器選抜手段
113 音声認識部
114 認識結果統合手段
115 認識結果選択手段
116 認識結果出力部
Claims (17)
- 認識すべき音声の特性が異なる複数の音声認識器を保持する記憶装置に接続された認識器重み学習装置であって、
学習用音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記学習用音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記音声認識器の集合に関する重み値を学習処理により求める学習手段とを備え、
前記学習手段は、前記単語列ネットワークの各アーク集合から重み値候補を加味した多数決により単語を選定し、選定した単語から成る単語列の認識誤り率が最小となる重み値候補を学習結果として出力することを特徴とする認識器重み学習装置。 - 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記選抜手段は、学習用音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項1記載の認識器重み学習装置。
- 前記学習手段は、前記記憶装置から選抜された音声認識器の集合が共通する複数の学習用音声が存在するとき、学習結果として、前記複数の学習用音声の認識誤り率の和が最小となる重み値候補を求めることを特徴とする請求項1又は2記載の認識器重み学習装置。
- 前記認識手段は、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
前記学習手段は、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項1乃至3のいずれか1項に記載の認識器重み学習装置。 - コンピュータを請求項1乃至4のいずれか1項に記載の認識器重み学習装置として機能させることを特徴とするプログラム。
- 請求項1乃至4のいずれか1項に記載の認識器重み学習装置が用いる音声認識器と該認識器重み学習装置が出力した重み値を記憶する記憶装置とに接続された音声認識装置であって、
入力音声の特性に対応する音声認識器を前記記憶装置から選抜する選抜手段と、選抜した音声認識器の集合により前記入力音声の認識結果を求める認識手段と、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成する統合手段と、前記単語列ネットワークから最適認識結果の単語列を選択して出力する結果選択手段とを備え、
前記結果選択手段は、前記音声認識器の集合に対応する重み値を前記記憶装置から取得し、前記単語列ネットワークの各アーク集合から当該重み値を加味した多数決により単語を選定し、選定した単語から成る単語列を前記最適認識結果として出力することを特徴とする音声認識装置。 - 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記選抜手段は、入力音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項6記載の音声認識装置。
- 前記認識手段は、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
前記結果選択手段は、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項6又は7記載の音声認識装置。 - コンピュータを請求項6乃至8のいずれか1項に記載の音声認識装置として機能させることを特徴とするプログラム。
- 請求項1乃至4のいずれか1項に記載の認識器重み学習装置と、前記認識器重み学習装置が用いる音声認識器および該認識器重み学習装置が出力した重み値を記憶する記憶装置と、請求項6乃至8のいずれか1項に記載の音声認識装置とを備えることを特徴とするシステム。
- 認識すべき音声の特性が異なる複数の音声認識器を保持する記憶装置に接続された認識器重み学習装置が、
学習用音声の特性に対応する音声認識器を前記記憶装置から選抜するステップと、選抜した音声認識器の集合により前記学習用音声の認識結果を求めるステップと、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成するステップと、前記音声認識器の集合に関する重み値を学習処理により求めるステップとを実行し、
重み値を求める前記ステップにおいて、前記単語列ネットワークの各アーク集合から重み値候補を加味した多数決により単語を選定し、選定した単語から成る単語列の認識誤り率が最小となる重み値候補を学習結果として出力することを特徴とする認識器重み学習方法。 - 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記認識器重み学習装置が、学習用音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項11記載の認識器重み学習方法。
- 前記認識器重み学習装置が、重み値を求める前記ステップにおいて、
前記記憶装置から選抜された音声認識器の集合が共通する複数の学習用音声が存在するとき、学習結果として、前記複数の学習用音声の認識誤り率の和を最小とする重み値候補を求めることを特徴とする請求項11又は12記載の認識器重み学習方法。 - 前記認識器重み学習装置が、
学習用音声の認識結果を求める前記ステップにおいて、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
重み値を求める前記ステップにおいて、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項11乃至13のいずれか1項に記載の認識器重み学習方法。 - 請求項11乃至14のいずれか1項に記載の認識器重み学習方法にて用いる音声認識器および該認識器重み学習方法により出力した重み値を記憶する記憶装置に接続された音声認識装置が、
入力音声の特性に対応する音声認識器を前記記憶装置から選抜するステップと、選抜した音声認識器の集合により前記入力音声の認識結果を求めるステップと、前記音声認識器の集合による認識結果を統合して単語列ネットワークを生成するステップと、前記単語列ネットワークから最適認識結果の単語列を選択して出力するステップとを実行し、
最適認識結果の単語列を選択する前記ステップにおいて、前記音声認識器の集合に対応する重み値を前記記憶装置から取得し、前記単語列ネットワークの各アーク集合から当該重み値を加味した多数決により単語を選定し、選定した単語から成る単語列を前記最適認識結果として出力することを特徴とする音声認識方法。 - 音声の特性に関する複数のカテゴリに分類された複数の音声認識器が前記記憶装置に保持される場合、前記音声認識装置が、入力音声に対し複数のカテゴリの音声認識器を選抜することを特徴とする請求項15記載の音声認識方法。
- 前記音声認識装置が、
入力音声の認識結果を求める前記ステップにおいて、前記記憶装置から選抜された音声認識器により認識結果の信頼度を求め、
最適認識結果の単語列を選択する前記ステップにおいて、前記単語列ネットワークの各アーク集合から単語を選定するとき、前記多数決においてさらに当該信頼度を加味することを特徴とする請求項15又は16記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008557047A JP5177561B2 (ja) | 2007-02-06 | 2008-01-18 | 認識器重み学習装置および音声認識装置、ならびに、システム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007026786 | 2007-02-06 | ||
JP2007026786 | 2007-02-06 | ||
JP2008557047A JP5177561B2 (ja) | 2007-02-06 | 2008-01-18 | 認識器重み学習装置および音声認識装置、ならびに、システム |
PCT/JP2008/050586 WO2008096582A1 (ja) | 2007-02-06 | 2008-01-18 | 認識器重み学習装置および音声認識装置、ならびに、システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008096582A1 JPWO2008096582A1 (ja) | 2010-05-20 |
JP5177561B2 true JP5177561B2 (ja) | 2013-04-03 |
Family
ID=39681493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008557047A Active JP5177561B2 (ja) | 2007-02-06 | 2008-01-18 | 認識器重み学習装置および音声認識装置、ならびに、システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8428950B2 (ja) |
JP (1) | JP5177561B2 (ja) |
WO (1) | WO2008096582A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4890518B2 (ja) * | 2008-08-29 | 2012-03-07 | ヤフー株式会社 | 複数言語モデルによる統合音声認識装置 |
US8346549B2 (en) * | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
JPWO2011121978A1 (ja) * | 2010-03-29 | 2013-07-04 | 日本電気株式会社 | 音声認識システム、装置、方法、およびプログラム |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
JP5861649B2 (ja) * | 2011-02-03 | 2016-02-16 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US9530103B2 (en) * | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
US9653071B2 (en) | 2014-02-08 | 2017-05-16 | Honda Motor Co., Ltd. | Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages |
US10079020B2 (en) * | 2015-11-19 | 2018-09-18 | Panasonic Corporation | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition |
WO2018134916A1 (ja) * | 2017-01-18 | 2018-07-26 | 三菱電機株式会社 | 音声認識装置 |
JP6543755B1 (ja) * | 2018-04-13 | 2019-07-10 | 株式会社Tbsテレビ | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム |
US11605378B2 (en) * | 2019-07-01 | 2023-03-14 | Lg Electronics Inc. | Intelligent gateway device and system including the same |
CN111354344B (zh) * | 2020-03-09 | 2023-08-22 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0667698A (ja) * | 1992-06-19 | 1994-03-11 | Seiko Epson Corp | 音声認識装置 |
JPH06110500A (ja) * | 1992-09-25 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声記号化装置 |
JPH06309464A (ja) * | 1993-04-20 | 1994-11-04 | Fujitsu Ltd | 多判定器によるパターン認識装置 |
JPH08286695A (ja) * | 1995-01-25 | 1996-11-01 | Omron Corp | 音声認識装置および音声認識方法 |
JP2001051969A (ja) * | 1999-08-13 | 2001-02-23 | Kdd Corp | 正誤答判定機能を有するニューラルネットワーク手段 |
JP2005309920A (ja) * | 2004-04-23 | 2005-11-04 | Alliance Group Inc | 多数決装置及びその学習方法と多クラス識別装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60100197A (ja) | 1983-11-07 | 1985-06-04 | 日本電気株式会社 | 音声入力装置 |
JPS6368899A (ja) | 1986-09-10 | 1988-03-28 | 株式会社日立製作所 | 音声認識装置 |
US5794190A (en) * | 1990-04-26 | 1998-08-11 | British Telecommunications Public Limited Company | Speech pattern recognition using pattern recognizers and classifiers |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
JPH08202388A (ja) | 1995-01-24 | 1996-08-09 | Omron Corp | 音声認識装置及び音声認識方法 |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
JP3606982B2 (ja) * | 1996-01-08 | 2005-01-05 | 株式会社リコー | パターン認識装置 |
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
JP4538954B2 (ja) * | 1999-02-19 | 2010-09-08 | ソニー株式会社 | 音声翻訳装置、音声翻訳方法及び音声翻訳制御プログラムを記録した記録媒体 |
US6493667B1 (en) * | 1999-08-05 | 2002-12-10 | International Business Machines Corporation | Enhanced likelihood computation using regression in a speech recognition system |
US7054810B2 (en) * | 2000-10-06 | 2006-05-30 | International Business Machines Corporation | Feature vector-based apparatus and method for robust pattern recognition |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20050021337A1 (en) * | 2003-07-23 | 2005-01-27 | Tae-Hee Kwon | HMM modification method |
US20060069560A1 (en) * | 2004-08-31 | 2006-03-30 | Christopher Passaretti | Method and apparatus for controlling recognition results for speech recognition applications |
US7624006B2 (en) * | 2004-09-15 | 2009-11-24 | Microsoft Corporation | Conditional maximum likelihood estimation of naïve bayes probability models |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
US8296144B2 (en) * | 2008-06-04 | 2012-10-23 | Robert Bosch Gmbh | System and method for automated testing of complicated dialog systems |
-
2008
- 2008-01-18 JP JP2008557047A patent/JP5177561B2/ja active Active
- 2008-01-18 WO PCT/JP2008/050586 patent/WO2008096582A1/ja active Application Filing
- 2008-01-18 US US12/525,930 patent/US8428950B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0667698A (ja) * | 1992-06-19 | 1994-03-11 | Seiko Epson Corp | 音声認識装置 |
JPH06110500A (ja) * | 1992-09-25 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声記号化装置 |
JPH06309464A (ja) * | 1993-04-20 | 1994-11-04 | Fujitsu Ltd | 多判定器によるパターン認識装置 |
JPH08286695A (ja) * | 1995-01-25 | 1996-11-01 | Omron Corp | 音声認識装置および音声認識方法 |
JP2001051969A (ja) * | 1999-08-13 | 2001-02-23 | Kdd Corp | 正誤答判定機能を有するニューラルネットワーク手段 |
JP2005309920A (ja) * | 2004-04-23 | 2005-11-04 | Alliance Group Inc | 多数決装置及びその学習方法と多クラス識別装置 |
Also Published As
Publication number | Publication date |
---|---|
US20100318358A1 (en) | 2010-12-16 |
WO2008096582A1 (ja) | 2008-08-14 |
US8428950B2 (en) | 2013-04-23 |
JPWO2008096582A1 (ja) | 2010-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5177561B2 (ja) | 認識器重み学習装置および音声認識装置、ならびに、システム | |
CN106683677B (zh) | 语音识别方法及装置 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP4274962B2 (ja) | 音声認識システム | |
JP5066483B2 (ja) | 言語理解装置 | |
US7664643B2 (en) | System and method for speech separation and multi-talker speech recognition | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
JP5294086B2 (ja) | 重み係数学習システム及び音声認識システム | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
JPH07287592A (ja) | オーディオデータセグメントのクラスタリング方法 | |
JP2010170075A (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
CN111640456B (zh) | 叠音检测方法、装置和设备 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US20090055177A1 (en) | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method | |
Van Dalen et al. | Improving multiple-crowd-sourced transcriptions using a speech recogniser | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Barnard et al. | Real-world speech recognition with neural networks | |
Herbig et al. | Evaluation of two approaches for speaker specific speech recognition | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
Nahar et al. | Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment | |
JPH08241096A (ja) | 音声認識方法 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101020 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5177561 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |