JP7028203B2 - 音声認識装置、音声認識方法、プログラム - Google Patents
音声認識装置、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP7028203B2 JP7028203B2 JP2019020396A JP2019020396A JP7028203B2 JP 7028203 B2 JP7028203 B2 JP 7028203B2 JP 2019020396 A JP2019020396 A JP 2019020396A JP 2019020396 A JP2019020396 A JP 2019020396A JP 7028203 B2 JP7028203 B2 JP 7028203B2
- Authority
- JP
- Japan
- Prior art keywords
- word sequence
- recognized
- utterance
- sequence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 239000013598 vector Substances 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
入力1:L個の連続した発話の音響特徴量系列の系列X1,…,XL
入力2:モデルパラメータθ(別装置で学習し、本装置に入力)
出力:L個の連続した単語系列の系列W1^,…,WL^
入力:複数(2つ以上)の単語系列の系列と音響特徴量系列の系列の組の集合である学習データD=(A1,B1),…,(A|D|,B|D|)
出力:モデルパラメータθ
モデルパラメータ記憶部11aは、学習されたθ^を記憶する。
入力1:l番目の発話の音響特徴量系列Xl
入力2:既に音声認識結果として得られた1番目からl-1番目の発話までの単語系列W1^,…,Wl-1^
入力3:モデルパラメータθ
出力:l番目の発話の単語系列Wl^
単語系列記憶部12aは、発話音声認識部12が再帰的に用いる単語系列を記憶する。例えば、ステップS12において、単語系列W1^が認識された場合、単語系列記憶部12aは、当該単語系列W1^を記憶し、単語系列Wl^が認識された場合、単語系列記憶部12aは、当該単語系列Wl^を記憶し、単語系列WL^が認識された場合、単語系列記憶部12aは、当該単語系列WL^を記憶する。
図3に示すように、発話音声認識部12は、発話ベクトル計算部121と、発話系列埋め込みベクトル計算部122と、文脈ベクトル計算部123と、事後確率計算部124を含む。
入力1:l-1番目の発話の単語系列Wl-1^
入力2:モデルパラメータθ
出力:l-1番目の発話の発話ベクトルul-1
入力1:過去の発話についての発話ベクトルの系列u1,…,ul-1
入力2:モデルパラメータθ
出力:l-1番目の発話系列埋め込みベクトルvl-1
入力1:l番目の発話の単語系列Wlの中のn番目の単語wl nよりも過去の単語列wl 1,…,wl n-1
入力2:l番目の発話の音響特徴量系列Xl
入力3:モデルパラメータθ
出力:l番目の発話のn番目の単語向けの文脈ベクトルsl n
入力1:l-1番目の発話系列埋め込みベクトルvl-1
入力2:l番目の発話のn番目の単語向けの文脈ベクトルsl n
入力3:モデルパラメータθ
出力:l番目の発話のn番目の単語についての事後確率
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (5)
- 時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習部と、
時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部
を含む音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記発話音声認識部は、
認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換する発話ベクトル計算部と、
前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、
認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換する文脈ベクトル計算部と、
認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算する事後確率計算部を含む
音声認識装置。 - 時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習ステップと、
時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識ステップ
を含む音声認識方法。 - 請求項3に記載の音声認識方法であって、
前記発話音声認識ステップは、
認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換するステップと、
前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換するステップと、
認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換するステップと、
認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算するステップを含む
音声認識方法。 - コンピュータを請求項1または2に記載の音声認識装置として機能させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019020396A JP7028203B2 (ja) | 2019-02-07 | 2019-02-07 | 音声認識装置、音声認識方法、プログラム |
US17/428,959 US12057105B2 (en) | 2019-02-07 | 2020-01-27 | Speech recognition device, speech recognition method, and program |
PCT/JP2020/002648 WO2020162238A1 (ja) | 2019-02-07 | 2020-01-27 | 音声認識装置、音声認識方法、プログラム |
JP2021188475A JP7160170B2 (ja) | 2019-02-07 | 2021-11-19 | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019020396A JP7028203B2 (ja) | 2019-02-07 | 2019-02-07 | 音声認識装置、音声認識方法、プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021188475A Division JP7160170B2 (ja) | 2019-02-07 | 2021-11-19 | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020129015A JP2020129015A (ja) | 2020-08-27 |
JP7028203B2 true JP7028203B2 (ja) | 2022-03-02 |
Family
ID=71947641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019020396A Active JP7028203B2 (ja) | 2019-02-07 | 2019-02-07 | 音声認識装置、音声認識方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12057105B2 (ja) |
JP (1) | JP7028203B2 (ja) |
WO (1) | WO2020162238A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259079A (zh) * | 2020-10-19 | 2021-01-22 | 北京有竹居网络技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018109760A (ja) | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
JP2018132678A (ja) | 2017-02-16 | 2018-08-23 | 日本電信電話株式会社 | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 |
JP2018528458A (ja) | 2015-12-04 | 2018-09-27 | 三菱電機株式会社 | 発話を処理する方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7574358B2 (en) * | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
-
2019
- 2019-02-07 JP JP2019020396A patent/JP7028203B2/ja active Active
-
2020
- 2020-01-27 WO PCT/JP2020/002648 patent/WO2020162238A1/ja active Application Filing
- 2020-01-27 US US17/428,959 patent/US12057105B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018528458A (ja) | 2015-12-04 | 2018-09-27 | 三菱電機株式会社 | 発話を処理する方法 |
JP2018109760A (ja) | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
JP2018132678A (ja) | 2017-02-16 | 2018-08-23 | 日本電信電話株式会社 | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US12057105B2 (en) | 2024-08-06 |
WO2020162238A1 (ja) | 2020-08-13 |
US20220139374A1 (en) | 2022-05-05 |
JP2020129015A (ja) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US11276391B2 (en) | Generation of matched corpus for language model training | |
US20140365221A1 (en) | Method and apparatus for speech recognition | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US20220101835A1 (en) | Speech recognition transcriptions | |
JP2018072697A (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
JP2023033160A (ja) | コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング) | |
WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Viacheslav et al. | System of methods of automated cognitive linguistic analysis of speech signals with noise | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
US11798578B2 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
US20230360643A1 (en) | Ontology Driven Contextual Automated Speech Recognition | |
JP2022010410A (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
CN113763938B (zh) | 语音识别方法、介质、装置和计算设备 | |
JP6965846B2 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム | |
US20220319494A1 (en) | End to end spoken language understanding model | |
US20240071368A1 (en) | System and Method for Adapting Natural Language Understanding (NLU) Engines Optimized on Text to Audio Input | |
Sajjan et al. | Kannada speech recognition using decision tree based clustering | |
Sallagundla et al. | Voice Enabled Form Filling Using Hidden Markov Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210527 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7028203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |