JP7418991B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP7418991B2 JP7418991B2 JP2019142153A JP2019142153A JP7418991B2 JP 7418991 B2 JP7418991 B2 JP 7418991B2 JP 2019142153 A JP2019142153 A JP 2019142153A JP 2019142153 A JP2019142153 A JP 2019142153A JP 7418991 B2 JP7418991 B2 JP 7418991B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- subword
- speech recognition
- subwords
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Description
202 デコーダ
203 音声特徴
204 符号化された特徴
301 テキストサブワードエンコーダ
302 ニューラルネットワーク
601 エンド・ツー・エンドエンコーダ及びデコーダ
602 テキストサブワードデコーダ
603 テキストサブワードエンコーダ
604 マッチングモジュール
605 言語モデル
606 リスコアリングモジュール
Claims (21)
- コンピュータにより実施される音声認識方法であって、
前記コンピュータのプロセッサが、認識しようとする入力音声から音声特徴を抽出するステップと、
前記プロセッサが、前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定するステップと、
前記プロセッサが、前記第1サブワードのうち少なくとも2つを結合し、前記第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換するステップと、
前記プロセッサが、前記第2シーケンスに基づいて前記入力音声の残りの一部を認識することによって前記入力音声を認識するステップと、
を含み、
前記第1シーケンスを前記第2シーケンスに変換するステップは、
テキストサブワードデコーダを使用して、前記第1シーケンスからテキストを生成すること、
テキストサブワードエンコーダを使用して前記テキストを符号化することによって、前記少なくとも1つの第2サブワードの前記第2シーケンスを生成すること、および、
前記第1シーケンスと前記第2シーケンスとが互いに異なると判断すること応答して、前記第1シーケンスを前記第2シーケンスに変換すること、
を含む、
音声認識方法。 - 前記第1シーケンスを推定するステップは、
ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ-デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第1サブワードをそれぞれ推定するステップ、を含み、
前記エンド・ツー・エンドエンコーダ-デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
請求項1に記載の音声認識方法。 - 前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
請求項2に記載の音声認識方法。 - 前記第1シーケンスを前記第2シーケンスに変換するステップは、
前記第1サブワードに基づいて、エンド・ツー・エンドエンコーダ-デコーダによって認識可能な単語を少なくとも1つの第2サブワードで生成するステップ、を含む、
請求項1乃至3いずれか一項に記載の音声認識方法。 - 前記認識可能な単語は、前記エンド・ツー・エンドエンコーダ-デコーダの学習に活用された単語である、
請求項4に記載の音声認識方法。 - 前記第1シーケンスを前記第2シーケンスに変換するステップは、
前記第1サブワードのうち少なくとも2つ以上を結合し、サブワード辞書内の第2サブワードを生成するステップ、を含む、
請求項1に記載の音声認識方法。 - 前記第1シーケンスを前記第2シーケンスに変換するステップは、
前記第1サブワードのシーケンスが単語を形成する場合、前記形成された単語に対応する少なくとも1つの第2サブワードを生成するステップ、を含む、
請求項1に記載の音声認識方法。 - 前記第1シーケンスを前記第2シーケンスに変換するステップは、
前記第1サブワードのうち最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップと、
を含む、請求項1に記載の音声認識方法。 - 前記最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップは、
前記最後に生成された第1サブワードの後で、分ち書きが存在するか否かに基づいて単語の形成が完成されたか否かを判断するステップ、を含む、
請求項8に記載の音声認識方法。 - 前記第1シーケンスを前記第2シーケンスに変換するステップは、
テキストサブワードデコーダを用いて、前記第1シーケンスからテキストを生成するステップと、
テキストサブワードエンコーダを用いて前記テキストを符号化することにより、少なくとも1つの第2サブワードの第2シーケンスを生成するステップと、
を含む、請求項1に記載の音声認識方法。 - 前記音声認識方法は、さらに、
前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定するステップであり、前記第1シーケンスは、前記複数の時点のうち現在の時点で推定される、ステップと、
前記第1シーケンスの長さから前記第2シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新するステップと、
を含む、請求項10に記載の音声認識方法。 - 前記第1シーケンスを推定するステップは、
前記入力音声の少なくとも一部に対応する第1シーケンス候補を生成するステップ、を含み、
前記第1シーケンスを前記第2シーケンスに変換するステップは、
前記第1シーケンス候補に対応する第2シーケンス候補を生成するステップと、
言語モデルを用いて、前記第2シーケンス候補に対応する認識結果を生成するステップと、
前記認識結果に基づいて、前記第2シーケンス候補のいずれか1つを第2シーケンスとして判断するステップと、
を含む、請求項1に記載の音声認識方法。 - ハードウェアと結合して請求項1ないし請求項12のいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
- 1つ又はそれ以上のプロセッサであって、
認識しようとする入力音声から音声特徴を抽出し、
前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定し、
前記第1サブワードのうち少なくとも2つを結合し、前記第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換し、
前記第2シーケンスに基づいて、前記入力音声の残りの一部を認識することによって、前記入力音声を認識する、
プロセッサ、
を含み、
前記第1シーケンスを前記第2シーケンスに変換することは、
テキストサブワードデコーダを使用して、前記第1シーケンスからテキストを生成すること、
テキストサブワードエンコーダを使用して前記テキストを符号化することによって、前記少なくとも1つの第2サブワードの前記第2シーケンスを生成すること、および、
前記第1シーケンスと前記第2シーケンスとが互いに異なると判断すること応答して、前記第1シーケンスを前記第2シーケンスに変換すること、
を含む、
音声認識装置。 - 前記音声認識装置は、さらに、
前記音声特徴を抽出し、前記第1シーケンスを推定し、前記第1シーケンスを変換し、前記入力音声の前記残りの一部を認識するように前記1つ又はそれ以上のプロセッサを制御する命令語を格納するメモリ、を含む、
請求項14に記載の音声認識装置。 - 前記1つ又はそれ以上のプロセッサは、
ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ-デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第1サブワードをそれぞれ推定し、
前記エンド・ツー・エンドエンコーダ-デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
請求項14または15に記載の音声認識装置。 - 前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
請求項16に記載の音声認識装置。 - 前記1つ又はそれ以上のプロセッサは、
前記第1サブワードのうち最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断し、
請求項14に記載の音声認識装置。 - 前記1つ又はそれ以上のプロセッサは、
テキストサブワードデコーダを用いて前記第1シーケンスからテキストを生成し、
テキストサブワードエンコーダを用いて前記テキストを符号化することで、少なくとも1つの第2サブワードの第2シーケンスを生成し、
請求項14に記載の音声認識装置。 - 前記1つ又はそれ以上のプロセッサは、
前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定し、かつ、前記第1シーケンスは、前記複数の時点のうち現在の時点で推定され、
前記第1シーケンスの長さから前記第2シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新する、
請求項19に記載の音声認識装置。 - 前記1つ又はそれ以上のプロセッサは、
前記入力音声の少なくとも一部に対応する第1シーケンス候補を生成し、
前記第1シーケンス候補に対応する第2シーケンス候補を生成し、
言語モデルを用いて、前記第2シーケンス候補に対応する認識結果を生成し、
前記認識結果に基づいて、前記第2シーケンス候補のいずれか1つを第2シーケンスとして判断する、
請求項14に記載の音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180109459A KR20200030789A (ko) | 2018-09-13 | 2018-09-13 | 음성 인식 방법 및 장치 |
KR10-2018-0109459 | 2018-09-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042257A JP2020042257A (ja) | 2020-03-19 |
JP7418991B2 true JP7418991B2 (ja) | 2024-01-22 |
Family
ID=66999750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019142153A Active JP7418991B2 (ja) | 2018-09-13 | 2019-08-01 | 音声認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200090642A1 (ja) |
EP (1) | EP3624114B1 (ja) |
JP (1) | JP7418991B2 (ja) |
KR (1) | KR20200030789A (ja) |
CN (1) | CN110895928A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11961522B2 (en) | 2018-11-28 | 2024-04-16 | Samsung Electronics Co., Ltd. | Voice recognition device and method |
KR20200091797A (ko) * | 2019-01-23 | 2020-07-31 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
WO2020153736A1 (en) | 2019-01-23 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method and device for speech recognition |
WO2020231181A1 (en) | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Method and device for providing voice recognition service |
KR20210095431A (ko) * | 2020-01-23 | 2021-08-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
JP5042799B2 (ja) * | 2007-04-16 | 2012-10-03 | ソニー株式会社 | 音声チャットシステム、情報処理装置およびプログラム |
US9818401B2 (en) * | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN104485105B (zh) * | 2014-12-31 | 2018-04-13 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
KR102413693B1 (ko) * | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
CN107301860B (zh) * | 2017-05-04 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
US10706840B2 (en) * | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US11335333B2 (en) * | 2018-07-20 | 2022-05-17 | Google Llc | Speech recognition with sequence-to-sequence models |
-
2018
- 2018-09-13 KR KR1020180109459A patent/KR20200030789A/ko active Search and Examination
-
2019
- 2019-04-16 CN CN201910303538.2A patent/CN110895928A/zh active Pending
- 2019-04-16 US US16/385,047 patent/US20200090642A1/en not_active Abandoned
- 2019-06-20 EP EP19181507.5A patent/EP3624114B1/en active Active
- 2019-08-01 JP JP2019142153A patent/JP7418991B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3624114B1 (en) | 2021-08-11 |
EP3624114A1 (en) | 2020-03-18 |
JP2020042257A (ja) | 2020-03-19 |
US20200090642A1 (en) | 2020-03-19 |
CN110895928A (zh) | 2020-03-20 |
KR20200030789A (ko) | 2020-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7418991B2 (ja) | 音声認識方法及び装置 | |
US10373610B2 (en) | Systems and methods for automatic unit selection and target decomposition for sequence labelling | |
US11798535B2 (en) | On-device custom wake word detection | |
US11158305B2 (en) | Online verification of custom wake word | |
US10878807B2 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US11049495B2 (en) | Method and device for automatically learning relevance of words in a speech recognition system | |
US10714076B2 (en) | Initialization of CTC speech recognition with standard HMM | |
Liu et al. | Gram-CTC: Automatic unit selection and target decomposition for sequence labelling | |
US11227579B2 (en) | Data augmentation by frame insertion for speech data | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN113574595A (zh) | 用于具有触发注意力的端到端语音识别的系统和方法 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
CN112700778A (zh) | 语音识别方法和语音识别设备 | |
Liu et al. | Graph-based semisupervised learning for acoustic modeling in automatic speech recognition | |
US20210312294A1 (en) | Training of model for processing sequence data | |
Shi et al. | End-to-end speech recognition using a high rank lstm-ctc based model | |
Soltau et al. | Reducing the computational complexity for whole word models | |
WO2021109856A1 (zh) | 一种针对认知障碍的语音识别系统 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
US20210174789A1 (en) | Automatic speech recognition device and method | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7418991 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |