JP2017058674A - 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 - Google Patents
音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 Download PDFInfo
- Publication number
- JP2017058674A JP2017058674A JP2016179329A JP2016179329A JP2017058674A JP 2017058674 A JP2017058674 A JP 2017058674A JP 2016179329 A JP2016179329 A JP 2016179329A JP 2016179329 A JP2016179329 A JP 2016179329A JP 2017058674 A JP2017058674 A JP 2017058674A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- acoustic
- conversion parameter
- speech recognition
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009466 transformation Effects 0.000 title claims abstract description 4
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 157
- 238000012790 confirmation Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000013480 data collection Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 4
- 229940050561 matrix product Drugs 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 239000011435 rock Substances 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
Abstract
【課題】 特有の発音的特徴に対応することが可能な音声認識のための装置及び方法等を提供すること。【解決手段】 一態様による音声認識装置は、音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、変換された音響点数を解析して、音声入力信号に対する認識結果を出力する解析部と、を含みうる。【選択図】 図1
Description
本発明は、音声認識のための装置及び方法等に関する。
音声認識技術において、音響モデル(Acoustic Model)は、人の音声信号から抽出された特徴を用いて、例えば、ユーザの音声に対する音素別の確率テーブルを計算する役割を果たす。音素別の確率テーブルは、解析(Decoding)過程を経ながら、最終認識結果を変換する。しかし、人は、発話をする時、異なる発音を有するために、同じ文章を読んでも、人ごとに互いに異なる音素確率テーブルが生じる。相違が大きくなければ、言語モデルによって補正することが可能であるが、著しい地域方言などの使用によって標準発音と大きく異なる場合には、言語モデルをもってしても補正できない場合が生じる。従って、そのような特有の発音的特徴を有する人に関する音声認識技術は改良の余地がある。
本発明が解決しようとする課題は、音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム、記録媒体及び電子機器等を提供することである。
一態様による音声認識装置は、音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、変換された音響点数を解析して、音声入力信号に対する認識結果を出力する解析部と、を含みうる。
また、言語モデルを用いて、音声入力に対する言語点数を出力する言語点数計算部をさらに含み、解析部は、言語点数に基づいて、計算された音響点数を解析し、認識結果を出力することができる。
また、ユーザのフィードバックに基づいて、認識結果に対する確認データを収集するフィードバック収集部をさらに含みうる。
音響点数計算部によって計算された音響点数、及び収集された確認データに基づいて変換パラメータを再学習して、変換パラメータを更新する学習部をさらに含みうる。
また、計算された音響点数及び収集された確認データを学習装置に伝送し、学習装置から再学習された変換パラメータを受信して、変換パラメータを更新する学習部を含みうる。
また、点数変換部は、変換パラメータを行列積、神経網及び線形回帰(linear regression)のうち、少なくとも1つの形態で計算された音響点数に適用することができる。
また、変換パラメータの適用形態は、ユーザ別、地域別、年齢別、方言及びユーザの性別のうち、少なくとも1つの基準によってあらかじめ決定されうる。
一態様による音声認識方法は、音響モデルを用いて、入力されたユーザの音声に対する音響点数を計算する段階と、変換パラメータを用いて、計算された音響点数を標準発音に対する音響点数に変換する段階と、変換された音響点数を解析して、音声入力に対する認識結果を出力する段階と、を含みうる。
また、言語モデルを用いて、音声入力に対する言語点数を出力する段階をさらに含み、認識結果を出力する段階は、言語点数に基づいて、計算された音響点数を解析することができる。
また、ユーザのフィードバックに基づいて、認識結果に対する確認データを収集する段階をさらに含みうる。
また、計算された音響点数及び収集された確認データに基づいて変換パラメータを再学習する段階と、再学習の結果に基づいて、変換パラメータを更新する段階と、をさらに含みうる。
また、計算された音響点数及び収集された確認データを学習装置に伝送する段階と、学習装置から再学習された変換パラメータを受信する段階と、受信された変換パラメータを用いて、変換パラメータを更新する段階と、をさらに含みうる。
また、音響点数を計算する段階、音響点数に変換する段階、及び認識結果を出力する段階は、1つ以上のプロセッサによって行われる。
この際、音声認識方法が、プロセッサによって実行されるための命令語を保存するコンピュータで読み取り可能な不揮発性記録媒体であり得る。
一態様による変換パラメータ学習装置は、学習用実際音声に対する音響点数データ、及び学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する学習データ収集部と、学習データを用いて変換パラメータを学習させる学習部と、学習された変換パラメータを音声認識装置に伝送するデータ伝送部と、を含みうる。
この際、学習データ収集部は、収集された学習データを既定の基準によって分類し、学習部は、分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成することができる。
ここで、既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも1つを含みうる。
また、学習データ収集部は、音声認識装置からユーザの音声に対する音響点数データ、及びユーザのフィードバックに基づいた確認データを学習データとしてさらに収集することができる。
一態様によるパラメータ学習方法は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する段階と、学習データを用いて変換パラメータを学習させる段階と、学習された変換パラメータを音声認識装置に伝送する段階と、を含みうる。
ここで、学習データを収集する段階は、収集された学習データを既定の基準によって分類する段階を含み、学習させる段階は、分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する段階を含みうる。
この際、既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも1つを含みうる。
また、学習データを収集する段階は、音声認識装置からユーザ音声の音響点数データ、及びユーザのフィードバックに基づいた補正認識データを学習データとしてさらに収集することができる。
また、音声入力に基づいて第1音響点数を計算し、変換パラメータを使って、第1音響点数を標準発音に対応する第2音声点数に変換し、第2音響点数を解析して、音声入力を認識するプロセッサを含みうる。
また、プロセッサは、標準発音に基づいた音響モデルを使って第1音響点数を計算し、標準発音から外れたユーザの発音特性を考慮した第2音響点数の生成のために、第1音響点数に変換パラメータを適用することができる。
一方、プロセッサは、ユーザ別、グループ別、年齢、地域別、方言及びユーザの性別のうち、少なくとも1つと関連したユーザの発音特性を調整するために、変換パラメータを使うことができる。
一態様による電子機器は、音声入力に対応する信号を検出するマイクロホンと、音声認識装置と、を含みうる。
その他の実施形態の具体的な事項は、詳しい説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。
以下、音声認識装置及び方法の実施形態を図面を参考にして詳しく説明する。
図1は、一実施形態による音声認識装置のブロック図である。この際、音声認識装置100は、プロセッサで実行されるソフトウェアモジュールとして具現されるか、ハードウェアチップの形態で製作されて電子装置に搭載されうる。
図1を参照すれば、音声認識装置100は、音響点数計算部110、音響点数変換部120、及び解析部130を含みうる。
音響点数計算部110は、入力されたユーザの音声を音響モデルに適用して音響点数を計算することができる。この際、音響モデルは、GMM(Gaussian Mixture Model)音響モデル、神経網(Neural Network)基盤の音響モデル、例えば、DNN(Deep Neural Network)、BRDNN(Bidirectional Recurrent Deep Network)のような音響モデルが使われ、これに特に限定されるものではない。また、音響点数計算部110は、音素、音節、形態素、句、単語、文章のような言語構造の基本単位のうちから既定の何れか1つの単位に対する確率を音響点数として計算することができる。ここで、言語構造の基本単位は、多様な言語別に異なりうる。したがって、既定の言語単位は、各言語によって多様に選択されうる。
一般的に、音響モデルは、標準音声信号を用いて学習され、その学習の結果に基づいて生成された音響モデルは、一般的な音声認識で共通して適用される。標準発音は、大量の練習データに対する平均化効果から決定される平均発音及び/またはアクセント(accents)のない従来に広く使われる発音であり得る。互いに異なるユーザは、同じ表現を異ならせて発音することができる。このように、音響モデルが、標準発音音声信号に基づいて生成されるので、同じ標準音声に対するユーザの発音が異なる場合には、その音響モデルの適用結果として算出される音響点数、例えば、音素確率は、各ユーザ別に異なるように計算されうる。
例えば、英語発話に対する音声認識を行う場合、ユーザの出身国家、出身地域、年齢、性別などによって、同じ単語や文章に対する発音は少しずつ異なりうる。例えば、一部のアジア国家のユーザは、英語アルファベット“r”を“l”と類似に発音する傾向がある。これにより、アジア国家のユーザが単語“rock”を発話する場合、そのユーザから入力された実際音声が音響モデルに適用された結果、計算された音響点数は、“r”よりも“l”がさらに高い確率を有する。その結果、最終認識された単語は、“lock”になりうる。
このように、音響点数計算部110によって計算された音響点数を直ちに解析部130に入力すれば、ユーザによって音声認識の結果が変わって正確ではない音声認識結果が出力される。また、標準発音と異なる発音特性を有したユーザが、共通音響モデルのみが適用されている音声認識装置を用いて音声認識を行う場合、引き続き誤った音声認識結果を提供されるので、ユーザに対する音声認識の信頼性が減少する。
このために、音響点数変換部120は、ユーザの発音特性によって異なるように算出される音響点数を標準音声信号に対する音響点数に変換することができる。この際、ユーザの区別される発音特性のために、標準発音の発話者に対応する音響点数に対して不正確な音響点数が算出される。例えば、音響点数は、個別ユーザの発音特性に基づいてあらかじめ生成された変換パラメータを用いて音響点数を変換することができる。また、ユーザ個人別、ユーザが属した地域別、年齢別、性別及び世襲などの多様な基準によって変換パラメータが生成され、該生成された変換パラメータを適用するアルゴリズムも、その基準によってあらかじめ設定しうる。
例えば、変換パラメータを適用するアルゴリズムは、行列積、神経網、線形回帰アルゴリズムなどになりうる。この際、音声認識装置100が搭載された電子装置のメモリ容量、保存容量、CPU性能などのコンピューティング性能によって適用する適切なアルゴリズムが決定されうる。ここで、音声認識装置が搭載された電子装置は、TV、ナビゲーション、自動車電子装置、スマートフォン、タブレットPC、スマートウォッチ、デスクトップコンピュータ、ノート型パソコン、ウェアラブル機器などを含むが、これらに制限されるものではない。
解析部130は、このようにユーザの発音特性を考慮した変換パラメータを用いて変換された音響点数を解析することができる。したがって、解析部130は、ユーザの実際音声を提供された標準音声に対する認識結果を出力することができる。
この際、変換パラメータは、図7を参照して詳しく後述するように、ユーザ別、グループ別、地域別、年齢別、方言及びユーザの性別のうちの何れか1つまたは2つ以上の組合わせによる基準によって分類された学習データを用いて学習されて、各分類基準別に生成されうる。例えば、変換パラメータは、ユーザによって使われるスマートフォンのアプリケーションのユーザ識別情報に基づいてユーザに対して特別に学習されうる。また、ユーザは、特定の発音特徴を有する一定のグループに属することができる。例えば、音響点数変換部120は、英語で音声認識を行うユーザがアジア地域出身のユーザである場合、このように多様な分類基準によって分類された学習データのうちからアジア地域学習データを用いて学習された変換パラメータを利用できる。例えば、そのアジア地域ユーザが“rock”を発音し、音響点数計算部110がアルファベット“r”に対して“l”を最も高い音響点数として計算しても、音響点数変換部120が、そのアジア地域ユーザに最適化された変換パラメータを使って変換することによって、“l”よりも“r”がさらに高い点数を有するように補正することができる。解析部130は、このように変換された結果を用いることによって、最終的な音声認識結果として“lock”ではない“rock”を出力することができる。
図2は、他の実施形態による音声認識装置のブロック図である。図2を参照すれば、音声認識装置200は、音響点数計算部210、音響点数変換部220、解析部230、及び言語点数計算部240を含みうる。
前述したように、音響点数計算部210は、ユーザから提供された実際音声入力に対して音響モデルを適用して音響点数を計算し、音響点数変換部220は、変換パラメータを用いて、その音響点数を標準発音に該当する音響点数に変換することができる。この際、変換パラメータは、そのユーザの年齢や、性別、地域などによって学習され、これにより、そのユーザの発音の特異性が考慮された音響点数変換することができる。
言語点数計算部240は、言語モデルを用いて、言語点数を計算することができる。この際、言語モデルは、N−Gramまたは神経網基盤の言語モデルであり得る。例えば、言語点数計算部240は、特定の単語や文章がどれほどよく使われるかに対する確率を言語点数として出力することができる。
解析部230は、ユーザから入力された実際音声に対して音響点数計算部210によって音響点数が計算され、音響点数変換部220によって標準発音で話す人に対する音響点数に変換されれば、該変換された音響点数及び言語モデル点数に基づいて解析して、音声認識結果を出力することができる。このように、解析部230は、変換された音響点数以外にも、言語点数をさらに考慮して音声を解析することによって、正確な音声認識が可能である。
図3は、さらに他の実施形態による音声認識装置のブロック図である。本実施形態による音声認識装置300は、ユーザのフィードバックに基づいて変換パラメータを更新させる機能を含みうる。本実施形態による音声認識装置300は、その音声認識装置300が搭載された電子装置を使うユーザに個人化された変換パラメータを生成して活用することができる。この際、その音声認識装置300が搭載された電子装置のユーザが複数である場合、各ユーザ別に個人化された複数の変換パラメータを生成することも可能である。
図3を参照すれば、音声認識装置300は、音響点数計算部310、音響点数変換部320、及び解析部330以外にも、フィードバック収集部340及び学習部350をさらに含みうる。
前述したところと同様に、音響点数計算部310は、ユーザの実際音声が入力されれば、音響モデルを用いて音響点数を計算し、音響点数変換部320は、計算された音響点数を変換パラメータを用いて標準音声に該当する音響点数に変換することができる。また、解析部330は、変換された音響点数を用いてユーザの実際音声に対する認識結果を出力することができる。
フィードバック収集部340は、ユーザから音声認識結果に対するフィードバックを受信し、該受信されたフィードバックに基づいてユーザの実際音声に対応する認識結果の確認データを収集することができる。確認データは、解析部330によって解析された発話された音声入力の単語、句または文章をユーザによって確認したデータであり得る。フィードバック収集部340は、ユーザがフィードバックを容易に入力できるように、ユーザとインタラクションする多様な方法のインターフェースを提供することができる。
例えば、フィードバック収集部340は、音声認識装置300が搭載される電子装置のスピーカーを活用してユーザの応答を要求する質疑を音声として出力することができる。一例として、単語“rock”に対して認識結果が“lock”である場合、“入力した単語がlockですか?”のような聴覚的要請を出力することができる。この場合、ユーザは、“はい”、または“いいえ”としてフィードバック応答を入力することができる。または、ユーザは、“いいえ、rockです。”のようなフィードバック応答を入力することもできる。
他の例として、フィードバック収集部340は、ユーザが正解をテキストで直接入力できるように、“正しい単語/句を入力してください”という要請と共にテキスト入力ボックスをディスプレイすることができる。
さらに他の例として、フィードバック収集部340は、音声認識結果に基づいて複数の認識候補を決定して、該決定された認識候補リストをスクリーンに提示することができる。例えば、“rock”と“lock”を認識候補としてユーザに提示し、ユーザが選択した何れか1つを、例えば、“rock”を音声認識結果に対するユーザ補正として収集することができる。このように、フィードバック収集部340は、音声認識結果が出力されれば、多様な方法でユーザとインタラクションを行って、ユーザ応答を収集し、例示されたものに制限されるものではない。
一方、フィードバック収集部340は、ユーザのフィードバックから確認データを抽出する過程をさらに行うことができる。例えば、ユーザが、確認された認識結果が含まれた語句や文章を入力する場合、当該語句や文章の分析、例えば、パージング(parsing)や個体名認識(Named Entity Recognition、NER)などの分析を通じて、ユーザから確認された認識結果を抽出することができる。前述したように、ユーザが、“いいえ、正確な単語はrockです。”のように入力する場合、フィードバック収集部340は、多様な分析技法を通じて正確な認識結果である“rock”を抽出することができる。
学習部350は、音声認識結果に対して収集された確認データを用いて、既存の変換パラメータを更新することができる。
一例によれば、学習部350は、変換パラメータを学習する機能を含みうる。この場合、学習部350は、ユーザが入力した音声に対して計算された音響点数及びフィードバック収集部340によって収集されたユーザの確認に基づいて変換パラメータを再び学習させることができる。学習部350は、このように変換パラメータの再学習を通じて既存の変換パラメータを更新することによって、そのユーザに最適化された変換パラメータを保持する。
他の例によれば、学習部350は、外部の変換パラメータ学習装置と有無線で連結して、変換パラメータ学習装置から学習された変換パラメータを受信し、該受信された変換パラメータを用いて、既存の変換パラメータを更新することができる。ここで、受信された変換パラメータは、有無線ネットワークを通じて連結された外部の変換パラメータ学習装置によって学習されたものである。この際、学習部350は、受信された変換パラメータに既存の変換パラメータ全体を代替することによって、変換パラメータを更新することができる。または、学習部350は、受信された変換パラメータと既存の変換パラメータとを比較して、他の部分のみをアップデートすることによって、既存の変換パラメータを更新することもできる。または、学習部350は、変換パラメータ学習装置から既存の変換パラメータと異なる部分のデータのみを受信し、該受信されたデータを用いて、既存の変換パラメータを更新することもできる。
図4は、一実施形態による音声認識方法のフローチャートである。図4は、図1の実施形態による音声認識装置100によって行われる音声認識方法の一実施形態であり得る。
音声認識装置100は、入力されたユーザの音声を音響モデルに提供して音響点数を計算することができる(410)。この際、音響モデルは、標準音声を用いて学習された音響モデルであって、GMM音響モデル、神経網基盤の音響モデル、例えば、DNN、BRDNNを基盤とする音響モデルが使われる。しかし、音響モデルの構成が、これらに制限されるものではない。また、音響点数は、言語単位の確率に対応する正確な認識結果であり得る。この際、言語単位は、音素、音節、形態素、句、単語、文章のような言語構造の基本単位のうち、何れか1つであり得る。
次いで、音声認識装置100は、計算された音響点数を変換パラメータを用いて標準発音信号に対する音響点数に変換することができる(420)。この際、音声認識装置100は、ユーザの性別、年齢、地域などの情報に基づいて適切な変換パラメータをあらかじめ搭載することができる。また、変換パラメータを適用するアルゴリズムも、行列積、神経網、線形回帰アルゴリズムなどの多様なアルゴリズムのうちから変換パラメータが学習された学習モデルに対応するアルゴリズムが適用可能である。
次いで、音声認識装置100は、変換された音響点数を解析して音声認識結果を出力することができる(430)。この際、音声認識結果は、テキスト形式で出力される。さらに他の例として、音声認識結果は、TV、ナビゲーターなどを操作するための命令として使われる。
図5は、他の実施形態による音声認識方法のフローチャートである。図5は、図2の音声認識装置200が行う音声認識方法の一実施形態である。
音声認識装置200は、ユーザから入力された実際音声に対して音響モデルを適用して音響点数を計算することができる(510)。
次いで、音声認識装置200は、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換することができる(520)。
次いで、音声認識装置200は、言語モデルを用いて、言語点数を計算することができる(530)。この際、言語モデルは、N−Gramや神経網基盤の言語モデルであり得る。
最後に、音声認識装置200は、変換された音響点数及び言語点数に基づいて解析して音声認識結果を出力することができる(540)。
図6Aは、さらに他の実施形態による音声認識方法のフローチャートである。図6Bは、図6Aの変換パラメータ更新段階(640)の詳細フローチャートである。図6A及び図6Bは、図3の音声認識装置300が行う音声認識方法の一実施形態である。
図6Aを参照すれば、音声認識装置300は、ユーザから入力された音声を音響モデルに適用して音響点数を計算することができる(610)。
次いで、ユーザの実際音声に対して計算された音響点数を変換パラメータを用いて標準音声信号に対する音響点数に変換することができる(620)。
次いで、変換された音響点数を解析して音声認識結果を出力することができる(630)。この際、音声認識結果は、テキスト形式で出力される。
次いで、ユーザのフィードバックに基づいて変換パラメータを更新することができる(640)。
図6Bを参照して、変換パラメータを更新する段階(640)の一実施形態をさらに詳細に説明すれば、音声認識装置300は、音声認識結果に対するフィードバックをユーザから受信することができる(641)。この際、音声認識装置300は、前述したように、多様な方法を通じて、ユーザからフィードバックを入力されるためのインタラクションを行うことができる。
次いで、ユーザから受信されたフィードバックに基づいてユーザの実際発話音声でユーザによって確認された単語、句、文章のようなユーザの確認結果に対応する確認データを収集することができる(642)。この際、音声認識装置300は、ユーザから受信されたフィードバックを分析して確認データを抽出することができる。
次いで、音声認識装置300は、段階(610)で計算された音響点数及び収集された確認データを用いて変換パラメータを再学習することができる(643)。または、音声認識装置300は、段階(610)で計算された音響点数及び収集された確認データを変換パラメータ学習装置に伝送しうる(643)。一方、音声認識装置300は、計算された音響点数及び受信された確認データを変換パラメータ学習装置に伝送しうる(644)。この際、音声認識装置300は、変換パラメータ学習装置から再学習された変換パラメータを受信することができる(645)。
次いで、音声認識装置300は、段階(643)で再学習の結果または段階(645)で変換パラメータ学習装置から受信された変換パラメータを用いて、既存の変換パラメータを更新することができる(646)。この際、音声認識装置300は、段階(643)で再学習された変換パラメータや段階(645)で変換パラメータ学習装置から受信された変換パラメータに既存のパラメータを代替するか、既存の変換パラメータのうちから変更された部分のみを更新することができる。
以下、音声認識のための変換パラメータ学習装置及び方法、実施形態を図面を参考にして詳しく説明する。
図7は、一実施形態による変換パラメータ学習装置のブロック図である。変換パラメータ学習装置700は、サーバに搭載されうるが、これに限定されるものではなく、コンピューティング性能によってデスクトップPC、ノート型パソコン及びスマートフォンなどのモバイル端末に搭載されることも可能である。
図7を参照すれば、変換パラメータ学習装置700は、学習データ収集部710、学習部720、及びデータ伝送部730を含みうる。
学習データ収集部710は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に対する確認データを学習データとして収集することができる。
一例によれば、学習データ収集部710は、特定の単語や語句、文章などに対する多数ユーザの発話の音声記録を含む実際音声データのような標準発音データを収集し、該収集された標準発音データを音響モデルに適用して音響点数データを獲得することができる。この際、女性と男性、年齢による世代間にも、発音特性が異なり、地域別の方言、出身国家によって互いに異なる発音特性を有しうるので、ユーザの年齢や、性別、地域別などの多様な分類基準によって実際音声データを収集することができる。ここで、分類基準は、例示されたものに限定されず、ユーザの区別される発音特性によって多様に定義される。
他の例によれば、学習データ収集部710は、音声認識装置からユーザの実際音声と、その実際音声に対する確認データを受信することができる。この際、音声認識装置は、ユーザの実際音声を認識した結果をユーザに提示し、ユーザからその認識結果に対するフィードバックを受信して、そのフィードバックに基づいて確認データを獲得して学習データ収集部710に伝送しうる。
学習データ収集部710は、収集された学習データを年齢、性別、地域などを含む分類基準によってグルーピングすることができる。
学習部720は、収集された学習データを用いて変換パラメータを学習させることができる。例えば、学習部720は、ユーザの実際音声に対する音響点数データを学習モデルに入力し、標準発音に対する確認データをその学習モデルのターゲットとしてマッピングして学習させることができる。この際、学習モデルの例は、神経網基盤のモデルであり得るが、これに限定されるものではない。
学習部720は、分類基準によって分類された学習データを各グループ別に学習させて、各グループ別に変換パラメータを生成することができる。
データ伝送部730は、学習の結果、生成された変換パラメータを音声認識装置に伝送しうる。データ伝送部730は、音声認識装置から変換パラメータ提供要請が受信されれば、該受信された変換パラメータ提供要請情報からその音声認識装置ユーザの年齢、地域、性別などの情報を獲得し、該獲得された情報を用いて、そのユーザに適した変換パラメータを決定し、該決定された変換パラメータを提供することができる。
図8は、一実施形態による変換パラメータ学習方法のフローチャートである。図8は、図7の変換パラメータ学習装置によって行われる学習方法の一実施形態であり得る。
図8を参照すれば、まず、変換パラメータ学習装置700は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に対する確認データを学習データとして収集することができる(810)。例えば、変換パラメータ学習装置700は、特定の標準発音に対するユーザの実際音声データを収集し、該収集された実際音声データを音響モデルに適用して音響点数データを獲得することができる。または、変換パラメータ学習装置700は、音声認識装置からユーザの実際音声と、その実際音声に対する確認データを受信することができる。
次いで、変換パラメータ学習装置700は、学習データを用いて変換パラメータを学習させることができる(820)。この際、学習データをユーザの年齢や、性別、地域別などの多様な分類基準によってグルーピングして、各グループ別に学習させて、各グループ別に変換パラメータを生成することができる。また、学習データのうちのユーザの実際音声に対する音響点数データを学習モデルの入力として、標準発音に対する確認データを学習モデルのターゲットとして学習させることができる。
次いで、変換パラメータ学習装置700は、変換パラメータを音声認識装置に伝送しうる(830)。この際、変換パラメータ学習装置700は、音声認識装置から変換パラメータ提供要請を受信すれば、該受信された変換パラメータ提供要請情報からそのユーザの発音特性を識別することができる年齢、地域、性別などの情報を獲得し、該獲得された情報を用いて、そのユーザに提供する変換パラメータを決定することができる。
図9は、一実施形態による電子装置のブロック図である。図9は、図1の音声認識装置100が搭載された電子装置であり得る。この際、電子装置900は、TV、セットトップボックス、デスクトップコンピュータ、ノート型パソコン、翻訳機器、スマートフォン、タブレットPC、スマートウォッチ(smart watch)、ウェアラブルデバイス(wearable device)、自動車の電子制御装置のような装置であって、搭載された音声認識技術を用いてユーザの多様な要求を処理することができる。但し、これらに制限されるものではなく、音声認識分野で活用可能なあらゆる電子機器を含むものと解析されねばならない。
図9を参照すれば、電子装置900は、音声入力部910、音声認識部920、及び処理部930を含みうる。
音声入力部910は、電子装置900に搭載されたマイクロホンなどを通じてユーザから入力される音声信号を受信することができる。この際、ユーザの音声信号は、他の言語への翻訳のための文章や、TV制御、自動車走行制御、電子装置900に設けられたアプリケーションの実行及び制御、ウェブブラウジングなどと関連した命令語であり得る。
音声入力部910は、アナログ形態で入力されるユーザの音声信号をデジタル信号に変換して、多数の音声フレームに分ける前処理過程を行い、音声フレームを音声認識部920に伝達することができる。
音声認識部920は、入力される音声フレームを音響モデルに入力して、音響点数を計算し、該計算された音響点数をそのユーザに適した変換パラメータを適用して、ユーザの発音特性を考慮して標準音声信号に対する音響点数に変換することができる。また、変換された音響点数を解析してテキスト形式で音声認識結果を出力することができる。この際、音声認識部920は、言語モデルが存在した場合、言語点数をさらに計算し、言語点数をさらに解析して、音声認識結果を出力することができる。
処理部930は、音声認識部920によって返還された音声認識結果に基づいて、それに相応する動作を行うことができる。例えば、ユーザが入力した音声の認識結果を単純にスピーカーを通じて音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、音声認識結果が、電子装置900で遂行可能な多様な命令語(例:電源オン/オフ、ボリューム調節、アプリケーション実行、モノのインターネット機器制御など)の処理動作を行うことができる。また、処理部930は、テキスト形式で出力された音声認識結果に多様な翻訳技術を適用して、他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。このような実施形態は、多様に確張し、特定の実施形態に限定されるものではない。
一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。
コンピュータで読み取り可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えば、インターネットを介した伝送)の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。
当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。
本発明は、音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム、記録媒体及び電子機器等の技術分野に適用可能である。
Claims (26)
- 音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、
変換パラメータを用いて、前記計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、
前記変換された音響点数を解析して、前記音声入力に対する認識結果を出力する解析部と、
を含む音声認識装置。 - 言語モデルを用いて、前記音声入力に対する言語点数を出力する言語点数計算部をさらに含み、
前記解析部は、
前記言語点数に基づいて、前記計算された音響点数を解析し、前記認識結果を出力する請求項1に記載の音声認識装置。 - ユーザのフィードバックに基づいて、前記認識結果に対する確認データを収集するフィードバック収集部をさらに含む請求項1に記載の音声認識装置。
- 前記音響点数計算部によって計算された音響点数、及び前記収集された確認データに基づいて変換パラメータを再学習して、前記変換パラメータを更新する学習部をさらに含む請求項3に記載の音声認識装置。
- 前記計算された音響点数及び収集された確認データを学習装置に伝送し、学習装置から再学習された変換パラメータを受信して、前記変換パラメータを更新する学習部を含む請求項3に記載の音声認識装置。
- 前記音響点数変換部は、
行列積、神経網及び線形回帰のうち、少なくとも1つの形態で前記変換パラメータを前記計算された音響点数に適用する請求項1ないし5のうち何れか一項に記載の音声認識装置。 - 前記変換パラメータの適用形態は、ユーザ別、地域別、年齢別、方言及びユーザの性別のうち、少なくとも1つの基準によってあらかじめ決定される請求項6に記載の音声認識装置。
- 音響モデルを用いて、入力されたユーザの音声に対する音響点数を計算する段階と、
変換パラメータを用いて、前記計算された音響点数を標準発音に対する音響点数に変換する段階と、
前記変換された音響点数を解析して、音声入力に対する認識結果を出力する段階と、
を含む音声認識方法。 - 言語モデルを用いて、前記音声入力に対する言語点数を出力する段階をさらに含み、
前記認識結果を出力する段階は、
前記言語点数に基づいて、前記計算された音響点数を解析する請求項8に記載の音声認識方法。 - ユーザのフィードバックに基づいて、前記認識結果に対する確認データを収集する段階をさらに含む請求項8又は9に記載の音声認識方法。
- 前記計算された音響点数、及び前記収集された確認データに基づいて変換パラメータを再学習する段階と、
前記再学習の結果に基づいて、前記変換パラメータを更新する段階と、
をさらに含む請求項10に記載の音声認識方法。 - 前記計算された音響点数及び収集された確認データを学習装置に伝送する段階と、
前記学習装置から再学習された変換パラメータを受信する段階と、
前記受信された変換パラメータを用いて、前記変換パラメータを更新する段階と、
をさらに含む請求項10に記載の音声認識方法。 - 前記音響点数を計算する段階、音響点数に変換する段階、及び認識結果を出力する段階は、1つ以上のプロセッサによって行われる請求項8に記載の音声認識方法。
- 請求項8ないし13のうち何れか一項に記載の音声認識方法を、音響認識装置のプロセッサに実行させるコンピュータプログラム。
- 学習用実際音声に対する音響点数データ、及び前記学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する学習データ収集部と、
前記学習データを用いて変換パラメータを学習させる学習部と、
前記学習された変換パラメータを音声認識装置に伝送するデータ伝送部と、
を含む変換パラメータ学習装置。 - 前記学習データ収集部は、
前記収集された学習データを既定の基準によって分類し、
前記学習部は、
前記分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する請求項15に記載の変換パラメータ学習装置。 - 前記既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも1つを含む請求項16に記載の変換パラメータ学習装置。
- 前記学習データ収集部は、
音声認識装置からユーザの音声に対する音響点数データ、及びユーザのフィードバックに基づいた確認データを学習データとしてさらに収集する請求項15ないし17のうちの何れか一項に記載の変換パラメータ学習装置。 - 学習用実際音声に対する音響点数データ及び前記学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する段階と、
前記学習データを用いて変換パラメータを学習させる段階と、
前記学習された変換パラメータを音声認識装置に伝送する段階と、
を含む変換パラメータ学習方法。 - 前記学習データを収集する段階は、
前記収集された学習データを既定の基準によって分類する段階を含み、
前記学習させる段階は、
前記分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する段階を含む請求項19に記載の変換パラメータ学習方法。 - 前記既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも1つを含む請求項20に記載の変換パラメータ学習方法。
- 前記学習データを収集する段階は、
音声認識装置からユーザ音声の音響点数データ、及びユーザのフィードバックに基づいた補正認識データを学習データとしてさらに収集する請求項19ないし21のうちの何れか一項に記載の変換パラメータ学習方法。 - 音声入力に基づいて第1音響点数を計算し、
変換パラメータを使って、前記第1音響点数を標準発音に対応する第2音響点数に変換し、
前記第2音響点数を解析して、前記音声入力を認識するプロセッサを含む音声認識装置。 - 前記プロセッサは、
標準発音に基づいた音響モデルを使って第1音響点数を計算し、
前記標準発音から外れたユーザの発音特性を考慮した第2音響点数の生成のために、第1音響点数に前記変換パラメータを適用する請求項23に記載の音声認識装置。 - 前記プロセッサは、ユーザ別、グループ別、年齢、地域別、方言及びユーザの性別のうち、少なくとも1つと関連したユーザの発音特性を調整するために、変換パラメータを使う請求項23又は24に記載の音声認識装置。
- 音声入力に対応する信号を検出するマイクロホンと、
請求項23ないし25のうち何れか一項に記載の音声認識装置と、
を含む電子機器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2015-0132626 | 2015-09-18 | ||
KR1020150132626A KR20170034227A (ko) | 2015-09-18 | 2015-09-18 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017058674A true JP2017058674A (ja) | 2017-03-23 |
Family
ID=56939906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016179329A Pending JP2017058674A (ja) | 2015-09-18 | 2016-09-14 | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170084268A1 (ja) |
EP (1) | EP3144930A1 (ja) |
JP (1) | JP2017058674A (ja) |
KR (1) | KR20170034227A (ja) |
CN (1) | CN106548774A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180118462A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
CN109616101A (zh) * | 2019-02-12 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法、装置、计算机设备和可读存储介质 |
JP2019197203A (ja) * | 2018-05-11 | 2019-11-14 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識モデルを個人化する方法及び装置 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019988B1 (en) * | 2016-06-23 | 2018-07-10 | Intuit Inc. | Adjusting a ranking of information content of a software application based on feedback from a user |
US10825445B2 (en) * | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US10446136B2 (en) * | 2017-05-11 | 2019-10-15 | Ants Technology (Hk) Limited | Accent invariant speech recognition |
KR102116047B1 (ko) * | 2017-05-17 | 2020-05-27 | 주식회사 에이아이리소프트 | 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법 |
KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
KR102441371B1 (ko) * | 2017-11-28 | 2022-09-07 | 한국전자통신연구원 | 동시통역 시스템 및 이의 실시간 청자 피드백 제공 방법 |
CN110070855B (zh) * | 2018-01-23 | 2021-07-23 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
KR20190136578A (ko) | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
WO2020014890A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
KR20200011796A (ko) * | 2018-07-25 | 2020-02-04 | 엘지전자 주식회사 | 음성 인식 시스템 |
KR20200033707A (ko) * | 2018-09-20 | 2020-03-30 | 삼성전자주식회사 | 전자 장치, 및 이의 학습 데이터 제공 또는 획득 방법 |
US11151986B1 (en) * | 2018-09-21 | 2021-10-19 | Amazon Technologies, Inc. | Learning how to rewrite user-specific input for natural language understanding |
KR20200044388A (ko) | 2018-10-19 | 2020-04-29 | 삼성전자주식회사 | 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법 |
KR102346026B1 (ko) * | 2019-02-11 | 2021-12-31 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
RU2731334C1 (ru) * | 2019-03-25 | 2020-09-01 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для формирования текстового представления фрагмента устной речи пользователя |
CN110211609A (zh) * | 2019-06-03 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种提升语音识别准确率的方法 |
CN110648681B (zh) * | 2019-09-26 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
KR102186641B1 (ko) * | 2019-11-06 | 2020-12-03 | 김정현 | 인공지능 기반 음성 답변 자동채점을 통한 지원자 평가방법 |
CN110853669B (zh) * | 2019-11-08 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及设备 |
CN113178197B (zh) * | 2021-04-27 | 2024-01-09 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN114267337B (zh) * | 2022-03-02 | 2022-07-19 | 合肥讯飞数码科技有限公司 | 一种语音识别系统及实现前向运算的方法 |
CN117873631B (zh) * | 2024-03-12 | 2024-05-17 | 深圳市微克科技股份有限公司 | 一种基于用户人群匹配的表盘图标生成方法、系统及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004529390A (ja) * | 2001-06-06 | 2004-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ユーザ・グループに固有のパターン処理システム |
JP2006337667A (ja) * | 2005-06-01 | 2006-12-14 | Ntt Communications Kk | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 |
JP2011048163A (ja) * | 2009-08-27 | 2011-03-10 | National Institute Of Information & Communication Technology | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
JP2011197410A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、音声認識システム、及び音声認識プログラム |
US20140372120A1 (en) * | 2013-06-14 | 2014-12-18 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Recognizing Speech |
US20150095026A1 (en) * | 2013-09-27 | 2015-04-02 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US7761296B1 (en) * | 1999-04-02 | 2010-07-20 | International Business Machines Corporation | System and method for rescoring N-best hypotheses of an automatic speech recognition system |
US6470314B1 (en) * | 2000-04-06 | 2002-10-22 | International Business Machines Corporation | Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
CN1453767A (zh) * | 2002-04-26 | 2003-11-05 | 日本先锋公司 | 语音识别装置以及语音识别方法 |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
CA2609247C (en) * | 2005-05-24 | 2015-10-13 | Loquendo S.P.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
KR100897553B1 (ko) * | 2007-01-04 | 2009-05-15 | 삼성전자주식회사 | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 |
JP4410265B2 (ja) * | 2007-02-19 | 2010-02-03 | 株式会社東芝 | 音声認識装置及び方法 |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
WO2010050414A1 (ja) * | 2008-10-31 | 2010-05-06 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US8738375B2 (en) * | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
US8571859B1 (en) * | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) * | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
US9196246B2 (en) * | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
US9613624B1 (en) * | 2014-06-25 | 2017-04-04 | Amazon Technologies, Inc. | Dynamic pruning in speech recognition |
US10019984B2 (en) * | 2015-02-27 | 2018-07-10 | Microsoft Technology Licensing, Llc | Speech recognition error diagnosis |
-
2015
- 2015-09-18 KR KR1020150132626A patent/KR20170034227A/ko unknown
-
2016
- 2016-09-13 CN CN201610820638.9A patent/CN106548774A/zh not_active Withdrawn
- 2016-09-13 US US15/263,977 patent/US20170084268A1/en not_active Abandoned
- 2016-09-14 JP JP2016179329A patent/JP2017058674A/ja active Pending
- 2016-09-16 EP EP16189096.7A patent/EP3144930A1/en not_active Ceased
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004529390A (ja) * | 2001-06-06 | 2004-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ユーザ・グループに固有のパターン処理システム |
JP2006337667A (ja) * | 2005-06-01 | 2006-12-14 | Ntt Communications Kk | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 |
JP2011048163A (ja) * | 2009-08-27 | 2011-03-10 | National Institute Of Information & Communication Technology | 音響モデルの話者適応装置及びそのためのコンピュータプログラム |
JP2011197410A (ja) * | 2010-03-19 | 2011-10-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、音声認識システム、及び音声認識プログラム |
US20140372120A1 (en) * | 2013-06-14 | 2014-12-18 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Recognizing Speech |
US20150095026A1 (en) * | 2013-09-27 | 2015-04-02 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180118462A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
KR102068182B1 (ko) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
US10657953B2 (en) | 2017-04-21 | 2020-05-19 | Lg Electronics Inc. | Artificial intelligence voice recognition apparatus and voice recognition |
US11183173B2 (en) | 2017-04-21 | 2021-11-23 | Lg Electronics Inc. | Artificial intelligence voice recognition apparatus and voice recognition system |
JP2019197203A (ja) * | 2018-05-11 | 2019-11-14 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識モデルを個人化する方法及び装置 |
JP7365121B2 (ja) | 2018-05-11 | 2023-10-19 | 三星電子株式会社 | 音声認識モデルを個人化する方法及び装置 |
CN109616101A (zh) * | 2019-02-12 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法、装置、计算机设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20170084268A1 (en) | 2017-03-23 |
EP3144930A1 (en) | 2017-03-22 |
CN106548774A (zh) | 2017-03-29 |
KR20170034227A (ko) | 2017-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
CN112002308B (zh) | 一种语音识别方法及装置 | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US11450313B2 (en) | Determining phonetic relationships | |
US10431203B2 (en) | Machine training for native language and fluency identification | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
US11093110B1 (en) | Messaging feedback mechanism | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
Yadava et al. | A spoken query system for the agricultural commodity prices and weather information access in Kannada language | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
US20120221335A1 (en) | Method and apparatus for creating voice tag | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
Ali et al. | DWT features performance analysis for automatic speech recognition of Urdu | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Sasmal et al. | Isolated words recognition of Adi, a low-resource indigenous language of Arunachal Pradesh | |
CN113053409B (zh) | 音频测评方法及装置 | |
US20190172446A1 (en) | Systems and methods for determining correct pronunciation of dicta ted words | |
AU2020103587A4 (en) | A system and a method for cross-linguistic automatic speech recognition | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
Bhagavathsingh et al. | Real time speech based integrated development environment for C program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200721 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210309 |