JP2018045127A - 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 - Google Patents
音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2018045127A JP2018045127A JP2016180650A JP2016180650A JP2018045127A JP 2018045127 A JP2018045127 A JP 2018045127A JP 2016180650 A JP2016180650 A JP 2016180650A JP 2016180650 A JP2016180650 A JP 2016180650A JP 2018045127 A JP2018045127 A JP 2018045127A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- phoneme
- keyword
- phoneme sequence
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
Description
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部13が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。
なお、音声区間検出部21は、発話区間を検出する他の方法に従って、各フレームについてユーザが声を発しているフレームであるか否かを判定してもよい。
最尤音素系列探索部23は、求めた最尤音素系列を判定部24へ出力する。
図5に示した例では、矢印で示される経路501が最短パスとなり、また、各点502は、その最短パスにおいて、共通音素系列と着目するキーワードに対応する音素系列との間で一致した音素を表す。したがって、この例では、レーベンシュタイン距離D(I,J)は"7"となる。
なお、共通音素系列抽出部25は、ステップS201の処理とステップS202の処理の順序を入れ替えてもよい。
図10は、上記の何れかの実施形態またはその変形例による音声認識装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
(付記1)
ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、
前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことをコンピュータに実行させるための音声認識用コンピュータプログラム。
(付記2)
前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、付記1に記載の音声認識用コンピュータプログラム。
(付記3)
前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、付記1または2に記載の音声認識用コンピュータプログラム。
(付記4)
前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから前記第1の系列及び前記第2の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、付記1〜3の何れかに記載の音声認識用コンピュータプログラム。
(付記5)
前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、付記1〜4の何れかに記載の音声認識用コンピュータプログラム。
(付記6)
前記第1の音声信号中で前記ユーザが発声している第1の音声区間を検出し、かつ、前記第2の音声信号中で前記ユーザが発声している第2の音声区間を検出することをさらにコンピュータに実行させ、
前記第1の系列を抽出することは、前記第1の音声区間に含まれる音素の系列を前記第1の系列として抽出し、
前記第2の系列を抽出することは、前記第2の音声区間に含まれる音素の系列を前記第2の系列として抽出する、付記1〜5の何れかに記載の音声認識用コンピュータプログラム。
(付記7)
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、付記1〜6の何れかに記載の音声認識用コンピュータプログラム。
(付記8)
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値に基づいて前記類似度を算出する、付記7に記載の音声認識用コンピュータプログラム。
(付記9)
前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、動的計画法マッチングにより前記編集距離の最小値を求め、当該最小値となるときの当該キーワードに対応する音素の系列と前記共通する音素の系列間の一致度合に基づいて前記類似度を算出する、付記7に記載の音声認識用コンピュータプログラム。
(付記10)
前記ユーザの声が表された第3の音声信号から当該第3の音声信号中に含まれる音素の第3の系列を抽出することをさらにコンピュータに実行させ、
前記共通する音素の系列を抽出することは、前記第1の系列と、前記第2の系列と、前記第3の系列との間で共通する音素の系列を抽出する、付記1〜9の何れかに記載の音声認識用コンピュータプログラム。
(付記11)
選択された前記所定数のキーワードを前記ユーザに提示することをさらにコンピュータに実行させる、付記1〜7の何れかに記載の音声認識用コンピュータプログラム。
(付記12)
ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、
前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことを含む音声認識方法。
(付記13)
ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、かつ、前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出する音素系列抽出部と、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、
を有する音声認識装置。
11 インターフェース部
12 A/Dコンバータ
13 処理部
14 記憶部
15 通信インターフェース部
21 音声区間検出部
22 特徴抽出部
23 最尤音素系列探索部
24 判定部
25 共通音素系列抽出部
26 照合部
27 提示部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク
Claims (8)
- ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、
前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことをコンピュータに実行させるための音声認識用コンピュータプログラム。 - 前記所定数のキーワードを選択することは、前記複数のキーワードのうち、前記キーワードごとの前記類似度が大きい方から順に前記所定数のキーワードを選択する、請求項1に記載の音声認識用コンピュータプログラム。
- 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから無音を表す音素を削除してから前記共通する音素の系列を抽出する、請求項1または2に記載の音声認識用コンピュータプログラム。
- 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれから前記第1の系列及び前記第2の系列の何れか一方にのみ含まれる音素を削除してから前記共通する音素の系列を抽出する、請求項1〜3の何れか一項に記載の音声認識用コンピュータプログラム。
- 前記共通する音素の系列を抽出することは、前記第1の系列及び前記第2の系列のそれぞれについて、当該系列に含まれ、かつ、互いに置換され得る音素グループに属する音素を、当該音素グループと関連付けられた代表音素に置換してから前記共通する音素の系列を抽出する、請求項1〜4の何れか一項に記載の音声認識用コンピュータプログラム。
- 前記複数のキーワードのそれぞれについて前記類似度を算出することは、前記複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列間の編集距離を算出し、当該編集距離に基づいて前記類似度を算出する、請求項1〜5の何れか一項に記載の音声認識用コンピュータプログラム。
- ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、
前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出し、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出し、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する、
ことを含む音声認識方法。 - ユーザの第1の音声信号から当該第1の音声信号中に含まれる音素の第1の系列を抽出し、かつ、前記ユーザの第2の音声信号から当該第2の音声信号中に含まれる音素の第2の系列を抽出する音素系列抽出部と、
前記第1の系列と前記第2の系列間で共通する音素の系列を抽出する共通音素系列抽出部と、
登録されている複数のキーワードのそれぞれについて、当該キーワードに対応する音素の系列と前記共通する音素の系列との類似度を算出し、前記複数のキーワードの中から、前記キーワードごとの類似度に基づいて所定数のキーワードを選択する照合部と、
を有する音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016180650A JP6690484B2 (ja) | 2016-09-15 | 2016-09-15 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
US15/673,830 US10665227B2 (en) | 2016-09-15 | 2017-08-10 | Voice recognition device and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016180650A JP6690484B2 (ja) | 2016-09-15 | 2016-09-15 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045127A true JP2018045127A (ja) | 2018-03-22 |
JP6690484B2 JP6690484B2 (ja) | 2020-04-28 |
Family
ID=61560231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016180650A Active JP6690484B2 (ja) | 2016-09-15 | 2016-09-15 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10665227B2 (ja) |
JP (1) | JP6690484B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903751B (zh) * | 2017-12-08 | 2023-07-07 | 阿里巴巴集团控股有限公司 | 关键词确认方法和装置 |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
CN109493853B (zh) * | 2018-09-30 | 2022-03-22 | 福建星网视易信息系统有限公司 | 一种音频相似度的确定方法及终端 |
EP3915108B1 (en) * | 2019-01-25 | 2023-11-29 | Soul Machines Limited | Real-time generation of speech animation |
CN111489737B (zh) * | 2020-04-13 | 2020-11-10 | 深圳市友杰智新科技有限公司 | 语音命令识别方法、装置、存储介质及计算机设备 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001291060A (ja) * | 2000-04-04 | 2001-10-19 | Toshiba Corp | 単語列照合装置および単語列照合方法 |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
US6985861B2 (en) * | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
US7295967B2 (en) * | 2002-06-03 | 2007-11-13 | Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University | System and method of analyzing text using dynamic centering resonance analysis |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
JP2007248529A (ja) | 2006-03-13 | 2007-09-27 | Univ Of Tokushima | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
KR101587866B1 (ko) * | 2009-06-03 | 2016-01-25 | 삼성전자주식회사 | 음성 인식용 발음사전 확장 장치 및 방법 |
US8358747B2 (en) * | 2009-11-10 | 2013-01-22 | International Business Machines Corporation | Real time automatic caller speech profiling |
US8725508B2 (en) * | 2012-03-27 | 2014-05-13 | Novospeech | Method and apparatus for element identification in a signal |
DE112013007103T5 (de) * | 2013-05-21 | 2016-03-03 | Mitsubishi Electric Corporation | Spracherkennungssystem, Erkennungsergebnis-Anzeigevorrichtung und Anzeigeverfahren |
US10770060B2 (en) * | 2013-12-05 | 2020-09-08 | Lenovo (Singapore) Pte. Ltd. | Adaptively learning vocabulary for completing speech recognition commands |
DE102014017384B4 (de) * | 2014-11-24 | 2018-10-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung |
GB2535439A (en) * | 2015-01-06 | 2016-08-24 | What3Words Ltd | A method for suggesting candidate words as replacements for an input string received at an electronic device |
US10474706B2 (en) * | 2016-05-13 | 2019-11-12 | Avaya Inc. | Organizing speech search results |
-
2016
- 2016-09-15 JP JP2016180650A patent/JP6690484B2/ja active Active
-
2017
- 2017-08-10 US US15/673,830 patent/US10665227B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6690484B2 (ja) | 2020-04-28 |
US20180075843A1 (en) | 2018-03-15 |
US10665227B2 (en) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10522134B1 (en) | Speech based user recognition | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
KR20170011636A (ko) | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 | |
WO2014025682A2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JPWO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
JP2015082138A (ja) | 音声検索装置及び音声検索方法 | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
US20110218802A1 (en) | Continuous Speech Recognition | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6690484 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |