JP2015530614A - 精度スコアを使用した音声認識性能を予測するための方法およびシステム - Google Patents
精度スコアを使用した音声認識性能を予測するための方法およびシステム Download PDFInfo
- Publication number
- JP2015530614A JP2015530614A JP2015529768A JP2015529768A JP2015530614A JP 2015530614 A JP2015530614 A JP 2015530614A JP 2015529768 A JP2015529768 A JP 2015529768A JP 2015529768 A JP2015529768 A JP 2015529768A JP 2015530614 A JP2015530614 A JP 2015530614A
- Authority
- JP
- Japan
- Prior art keywords
- input
- prediction
- feature vector
- phoneme
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000002452 interceptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 241000282326 Felis catus Species 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000036461 convulsion Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (26)
- 音声認識性能を予測するためのコンピュータ実装方法であって、
a)入力を受け付けるステップと、
b)前記入力についての少なくとも1つの特徴ベクトルを計算するステップと、
c)前記少なくとも1つの特徴ベクトルを予測モデルに入力するステップと、
d)前記予測モデルから前記入力についての予測を取得するステップと
を備える方法。 - 前記入力は少なくとも1つの単語を含む、請求項1に記載の方法。
- 前記予測は性能指数である、請求項1に記載の方法。
- 前記入力は音声発音を備える、請求項1に記載の方法。
- より多くの入力が提供されるように少なくともステップ(b)、(c)および(d)はリアルタイムで実行される、請求項1に記載の方法。
- e)前記予測モデルを作成するステップであって、
e.1)キーワードのセットを選択するステップと、
e.2)前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
e.3)コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
e.4)前記入力の性能指数の予測のための前記予測モデルとして前記モデル学習モジュールからの結果を保存するステップと
を備える作成するステップ
をさらに備える、請求項1に記載の方法。 - 前記コスト関数は予測誤差を備える、請求項6に記載の方法。
- ステップ(e.3)は、
e.3.1)前記特徴ベクトルを計算するステップであって、
e.3.1.1)前記入力を音素のシーケンスに変換するステップと、
e.3.1.2)言語内の単語の形態素解析を実行するステップと
を備える計算するステップ
をさらに備える、請求項6に記載の方法。 - ステップ(e.3.1.1)は音素の統計および音素混同行列を使用して実行される、請求項9に記載の方法。
- 音素認識器を使用して前記音素混同行列を計算するステップをさらに備える、請求項10に記載の方法。
- 音声認識性能を予測するためのシステムであって、
入力を受け付けるための手段と、
前記ユーザ入力についての少なくとも1つの特徴ベクトルを計算するための手段と、
前記少なくとも1つの特徴ベクトルを予測モデルに入力するため手段と、
前記予測モデルから前記入力についての性能指数の予測を取得するための手段と
を備えるシステム。 - 入力を受け付けるための前記手段はガイド付きのユーザインターフェイスを備える、請求項12に記載のシステム。
- 前記予測モデルを生成するための手段であって、
キーワードのセットを選択するための手段と、
前記セット内の各単語に対する大規模音声コーパス上の音声エンジンの精度を計算するための手段と、
所望の特徴の特徴ベクトルを計算するための手段と、
コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するための手段と、
前記入力の性能指数の予測として前記モデル学習モジュールからの結果を保存するための手段と
を備える生成するための手段
をさらに備える、請求項12に記載のシステム。 - 前記特徴ベクトルを計算するための手段であって、
入力を音素のシーケンスに変換することができるモジュールと、
言語内の接尾辞のためのエントリを含むモジュールと、
音素の統計を含むモジュールと、
音素混同行列を含むモジュールと
を備える計算するための手段
をさらに備える、請求項14に記載のシステム。 - 前記音素混同行列を計算するための音素認識器をさらに備える、請求項16に記載のシステム。
- 音声認識エンジンの内部スコアを調整する予測された音声認識性能を使用するためのコンピュータ実装方法であって、
a)入力を受け付けるステップと、
b)前記入力についての少なくとも1つの特徴ベクトルを計算するステップと、
c)前記少なくとも1つの特徴ベクトルを予測モデルに入力するステップと、
d)前記キーワードの性能指数の予測を取得するステップと、
e)前記予測に基づいて信頼値に対する前記内部スコアのマッピングを調整するステップと
を備える方法。 - 前記予測は前記入力に対して5FA/KW/時間に平均化している検出率を有する、請求項18に記載の方法。
- f)前記予測モデルを作成するステップであって、
f.1)キーワードのセットを選択するステップと、
f.2)前記キーワードの各々に対する所望の特徴の特徴ベクトルを計算するステップと、
f.3)コスト関数を最小化するためにパラメータを調整するモデル学習モジュールに前記特徴ベクトルを入力するステップと、
f.4)前記入力についての性能指数の予測のためのトレーニングされたモデルとして前記モデル学習モジュールからの結果を保存するステップと
を備える作成するステップ
をさらに備える、請求項18に記載の方法。 - 前記入力は少なくとも1つの単語を備える、請求項18に記載の方法。
- 前記入力は音声発音を備える、請求項18に記載の方法。
- 少なくともステップ(b)、(c)および(d)は、前記ユーザが追加入力を追加しながらリアルタイムで実行される、請求項18に記載の方法。
- g)前記特徴ベクトルを計算するステップであって、
g.1)前記入力を音素のシーケンスに変換するステップと、
g.2)音素の統計および音素混同行列を使用して言語内の単語の形態素解析を実行するステップと
を備える計算するステップ
をさらに備える、請求項20に記載の方法。 - 音素認識器を使用して前記音素混同行列を計算するステップをさらに備える、請求項25に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/053061 WO2014035394A1 (en) | 2012-08-30 | 2012-08-30 | Method and system for predicting speech recognition performance using accuracy scores |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015530614A true JP2015530614A (ja) | 2015-10-15 |
JP6230606B2 JP6230606B2 (ja) | 2017-11-15 |
Family
ID=50184032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015529768A Active JP6230606B2 (ja) | 2012-08-30 | 2012-08-30 | 精度スコアを使用した音声認識性能を予測するための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP2891147B1 (ja) |
JP (1) | JP6230606B2 (ja) |
AU (1) | AU2012388796B2 (ja) |
BR (1) | BR112015003830B1 (ja) |
CA (1) | CA2883076C (ja) |
WO (1) | WO2014035394A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018025717A (ja) * | 2016-08-12 | 2018-02-15 | 日本電信電話株式会社 | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613619B2 (en) | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
CN107464559B (zh) * | 2017-07-11 | 2020-12-15 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 |
US11158305B2 (en) | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
KR20220137437A (ko) * | 2021-04-02 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005017603A (ja) * | 2003-06-25 | 2005-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識率推定方法及び音声認識率推定プログラム |
JP2007199173A (ja) * | 2006-01-24 | 2007-08-09 | Asahi Kasei Corp | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
EP0907258B1 (en) * | 1997-10-03 | 2007-01-03 | Matsushita Electric Industrial Co., Ltd. | Audio signal compression, speech signal compression and speech recognition |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US7716226B2 (en) * | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
WO2007066297A1 (en) * | 2005-12-08 | 2007-06-14 | Koninklijke Philips Electronics N.V. | Speech recognition system with huge vocabulary |
CA2690174C (en) * | 2009-01-13 | 2014-10-14 | Crim (Centre De Recherche Informatique De Montreal) | Identifying keyword occurrences in audio data |
-
2012
- 2012-08-30 EP EP12883743.2A patent/EP2891147B1/en active Active
- 2012-08-30 WO PCT/US2012/053061 patent/WO2014035394A1/en active Application Filing
- 2012-08-30 AU AU2012388796A patent/AU2012388796B2/en active Active
- 2012-08-30 BR BR112015003830-1A patent/BR112015003830B1/pt active IP Right Grant
- 2012-08-30 JP JP2015529768A patent/JP6230606B2/ja active Active
- 2012-08-30 CA CA2883076A patent/CA2883076C/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005017603A (ja) * | 2003-06-25 | 2005-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識率推定方法及び音声認識率推定プログラム |
JP2007199173A (ja) * | 2006-01-24 | 2007-08-09 | Asahi Kasei Corp | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018025717A (ja) * | 2016-08-12 | 2018-02-15 | 日本電信電話株式会社 | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
AU2012388796B2 (en) | 2018-10-18 |
WO2014035394A1 (en) | 2014-03-06 |
EP2891147A4 (en) | 2016-07-13 |
JP6230606B2 (ja) | 2017-11-15 |
CA2883076C (en) | 2019-06-11 |
EP2891147B1 (en) | 2020-08-12 |
EP2891147A1 (en) | 2015-07-08 |
CA2883076A1 (en) | 2014-03-06 |
BR112015003830B1 (pt) | 2021-06-01 |
AU2012388796A1 (en) | 2015-03-05 |
NZ705071A (en) | 2017-01-27 |
BR112015003830A2 (pt) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10360898B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US5623609A (en) | Computer system and computer-implemented process for phonology-based automatic speech recognition | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
US8401840B2 (en) | Automatic spoken language identification based on phoneme sequence patterns | |
US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
Metze | Articulatory features for conversational speech recognition | |
KR102333029B1 (ko) | 발음 평가 방법 및 이를 이용한 디바이스 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
CA2896801C (en) | False alarm reduction in speech recognition systems using contextual information | |
NZ705071B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
NZ719961B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
Dzhambazov | Sentence Boundary Detection for Broadcast News Recordings | |
NZ704832B2 (en) | Method and system for real-time keyword spotting for speech analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6230606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |