JP2016110087A - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP2016110087A JP2016110087A JP2015210588A JP2015210588A JP2016110087A JP 2016110087 A JP2016110087 A JP 2016110087A JP 2015210588 A JP2015210588 A JP 2015210588A JP 2015210588 A JP2015210588 A JP 2015210588A JP 2016110087 A JP2016110087 A JP 2016110087A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- speech recognition
- language model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims description 44
- 230000002457 bidirectional effect Effects 0.000 claims description 31
- 238000006467 substitution reaction Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000012937 correction Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
Description
Claims (27)
- 音声認識によって生成した文章を受信するステップと、
前記文章内の他の単語との関係に基づいて、前記文章に含まれた単語それぞれの適合度を算出するステップと、
前記単語それぞれの適合度に基づいて、前記単語のうち修正が求められる対象単語を検出するステップと、
前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替するステップと、
を含む、音声認識方法。 - 前記適合度を算出するステップは、双方向回帰神経網言語モデルを用いて前記単語それぞれの適合度を算出するステップを含む、請求項1に記載の音声認識方法。
- 前記対象単語を検出するステップは、
予め決定した閾値未満の適合度を有する単語を検出するステップと、
適合度が小さい順に予め決定した数の単語を検出するステップと、
のうち少なくとも1つを含む、請求項1又は2に記載の音声認識方法。 - 前記対象単語を代替するステップは、前記文章で前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定するステップを含む、請求項1〜3のうち何れか一項に記載の音声認識方法。
- 前記候補単語を決定するステップは、予め備えられた単語辞書から前記候補単語を取得するステップを含む、請求項4に記載の音声認識方法。
- 前記対象単語を代替するステップは、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出するステップを含む、請求項1に記載の音声認識方法。
- 前記対象単語を代替するステップは、前記第1モデルのための第1重み及び前記第2モデルのための第2重みを設定するステップをさらに含む、請求項6に記載の音声認識方法。
- 前記第1重み及び前記第2重みを設定するステップは、前記文章に関する第1モデル基盤確率分布に基づいて、前記第1重み及び前記第2重みを動的に制御するステップを含む、請求項7に記載の音声認識方法。
- ユーザの音声を受信するステップと、
前記音声から特徴を抽出するステップと、
音声モデルを用いて前記特徴から音素シーケンスを認識するステップと、
言語モデルを用いて前記音素シーケンスから単語を認識することによって前記文章を生成するステップと、
をさらに含む、請求項1〜8のうち何れか一項に記載の音声認識方法。 - 前記言語モデルはバイグラム(Bi−Gram)言語モデルを含む、請求項9に記載の音声認識方法。
- 請求項1〜請求項10のいずれか一項に記載の音声認識方法を、音声認識装置のコンピュータに実行させるコンピュータプログラム。
- ユーザの音声を認識することによって文章を生成する第1認識部と、
前記文章内の前後文脈に基づいた言語モデルに基づいて、前記文章内の少なくとも1つの単語を修正する第2認識部と、
を含む、音声認識装置。 - 前記第1認識部は、
前記音声を受信する受信部と、
前記音声から特徴を抽出する抽出部と、
前記特徴から音素シーケンスをデコーディングするデコーディング部と、
前記音素シーケンスから単語を認識することによって前記文章を生成する生成部と、
を含む、請求項12に記載の音声認識装置。 - 前記言語モデルは双方向回帰神経網言語モデルを含む、請求項12又は13に記載の音声認識装置。
- 前記第2認識部は、
前記文章内の他の単語との関係に基づいて前記文章に含まれた単語それぞれの適合度を算出する算出部と、
前記単語それぞれの適合度に基づいて前記単語のうち修正が求められる対象単語を検出する検出部と、
前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替する代替部と、
を含む、請求項12〜14のうち何れか一項に記載の音声認識装置。 - 前記検出部は、予め決定した閾値未満の適合度を有する単語を検出し、適合度が小さい順に予め決定した数の単語を検出する、請求項15に記載の音声認識装置。
- 前記代替部は、前記文章内前記対象単語の位置、前記文章から前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定する、請求項15又は16に記載の音声認識装置。
- 前記代替部は、予め備えられた単語辞書から前記候補単語を取得する、請求項17に記載の音声認識装置。
- 前記代替部は、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出する、請求項15〜18のうち何れか一項に記載の音声認識装置。
- 前記代替部は、前記文章に関する第1モデル基盤確率分布に基づいて前記第1モデルのための第1重み及び前記第2モデルのための第2重みを動的に制御する、請求項19に記載の音声認識装置。
- 第1言語モデルを用いてユーザによって表現された音声から文章を認識する第1認識装置と、
前記第1言語モデルよりも高い複雑度を有する第2言語モデルを用いて前記文章の正確度を向上させる第2認識装置と、
を含む、音声認識装置。 - 前記第1認識装置は、音声モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識する、請求項21に記載の音声認識装置。
- 前記第2認識装置は、
前記第2言語モデルを用いて前記文章内の単語のうち最も不正確なものとして予測される単語を識別し、
前記第2言語モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項21又は22に記載の音声認識装置。 - 前記第2認識装置は、前記第2言語モデルと音声モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項23に記載の音声認識装置。
- 前記第1認識装置は、前記言語モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識する、請求項24に記載の音声認識装置。
- 前記第2認識装置は、前記識別された単語に基づいて候補単語を取得し、前記候補単語から前記文章の正確度を向上させる単語を選択する、請求項23〜25のうち何れか一項に記載の音声認識装置。
- 前記第2認識装置は、前記第2言語モデル及び音声モデルのうち少なくとも1つ、前記識別された単語及び前記文章内の他の単語に基づいて予め備えられた辞書から前記候補単語を取得する、請求項26に記載の音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0170818 | 2014-12-02 | ||
KR1020140170818A KR102380833B1 (ko) | 2014-12-02 | 2014-12-02 | 음성 인식 방법 및 음성 인식 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016110087A true JP2016110087A (ja) | 2016-06-20 |
JP6762701B2 JP6762701B2 (ja) | 2020-09-30 |
Family
ID=54478654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015210588A Active JP6762701B2 (ja) | 2014-12-02 | 2015-10-27 | 音声認識方法及び音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9940933B2 (ja) |
EP (1) | EP3029669B1 (ja) |
JP (1) | JP6762701B2 (ja) |
KR (1) | KR102380833B1 (ja) |
CN (1) | CN105654946B (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180018031A (ko) * | 2016-08-12 | 2018-02-21 | 한국전자통신연구원 | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 |
WO2018135303A1 (ja) | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
WO2018135302A1 (ja) | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP2019507362A (ja) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | 外部データソースを用いた音声の再認識 |
JP2019526080A (ja) * | 2016-07-26 | 2019-09-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識結果の修正方法及び装置 |
JP2019537307A (ja) * | 2016-09-30 | 2019-12-19 | ロヴィ ガイズ, インコーポレイテッド | キャプションテキストにおける間違いを訂正するためのシステムおよび方法 |
JP2020518861A (ja) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、デバイス、及び記憶媒体 |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
KR102365757B1 (ko) * | 2015-09-09 | 2022-02-18 | 삼성전자주식회사 | 인식 장치, 인식 방법 및 협업 처리 장치 |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
JP6604836B2 (ja) * | 2015-12-14 | 2019-11-13 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
GB2552014B (en) * | 2016-07-07 | 2020-05-13 | Advanced Risc Mach Ltd | Reconfigurable artificial neural networks comprising programmable non-volatile memory elements |
CN106169094A (zh) * | 2016-07-07 | 2016-11-30 | 江苏大学 | 一种基于分布式神经元的rnnlm系统及其设计方法 |
KR102604552B1 (ko) * | 2016-07-15 | 2023-11-22 | 삼성전자주식회사 | 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치 |
US10019986B2 (en) * | 2016-07-29 | 2018-07-10 | Google Llc | Acoustic model training using corrected terms |
US9959861B2 (en) | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
KR102617717B1 (ko) * | 2016-10-18 | 2023-12-27 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US9984689B1 (en) * | 2016-11-10 | 2018-05-29 | Linearhub | Apparatus and method for correcting pronunciation by contextual recognition |
CN108073929B (zh) * | 2016-11-15 | 2023-11-24 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
KR102426435B1 (ko) * | 2016-11-29 | 2022-07-29 | 삼성전자주식회사 | 사용자 입력에 기반한 문장을 제공하는 장치 및 방법 |
KR20180068475A (ko) | 2016-12-14 | 2018-06-22 | 삼성전자주식회사 | 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치 |
KR20180071029A (ko) | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
KR102692670B1 (ko) | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR101881862B1 (ko) * | 2017-02-10 | 2018-07-25 | 한국외국어대학교 연구산학협력단 | 의료 영상 판독문 생성 장치 및 방법 |
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN108694163B (zh) * | 2017-04-06 | 2021-11-26 | 富士通株式会社 | 计算句子中的词的概率的方法、装置和神经网络 |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CA3064771A1 (en) * | 2017-06-01 | 2018-12-06 | Royal Bank Of Canada | System and method for test generation |
CN109144284B (zh) * | 2017-06-15 | 2022-07-15 | 百度在线网络技术(北京)有限公司 | 信息显示方法和装置 |
CN107240395B (zh) * | 2017-06-16 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法和装置、计算机设备、存储介质 |
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
US20190147855A1 (en) * | 2017-11-13 | 2019-05-16 | GM Global Technology Operations LLC | Neural network for use in speech recognition arbitration |
US10409898B2 (en) | 2017-11-17 | 2019-09-10 | Adobe Inc. | Generating a targeted summary of textual content tuned to a target audience vocabulary |
CN107978315B (zh) * | 2017-11-20 | 2021-08-10 | 徐榭 | 基于语音识别的对话式放射治疗计划系统及制定方法 |
KR102458244B1 (ko) * | 2017-11-23 | 2022-10-24 | 삼성전자주식회사 | 기계 번역 방법 및 장치 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN108417210B (zh) * | 2018-01-10 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
KR20190090646A (ko) * | 2018-01-25 | 2019-08-02 | 필아이티 주식회사 | 단어 예측을 수행하는 방법 및 모바일 장치 |
US11004453B2 (en) * | 2018-04-04 | 2021-05-11 | Sensory, Incorporated | Avoiding wake word self-triggering |
CN108664466B (zh) * | 2018-04-11 | 2022-07-08 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN109062888B (zh) * | 2018-06-04 | 2023-03-31 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
CN110689881B (zh) * | 2018-06-20 | 2022-07-12 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
KR20200030789A (ko) * | 2018-09-13 | 2020-03-23 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
KR102622350B1 (ko) * | 2018-10-12 | 2024-01-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN112997247A (zh) * | 2018-11-05 | 2021-06-18 | 株式会社赛斯特安国际 | 利用大数据的最佳语言模型生成方法及用于其的装置 |
CN109598002A (zh) * | 2018-11-15 | 2019-04-09 | 重庆邮电大学 | 基于双向循环神经网络的神经机器翻译方法和系统 |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN109767763B (zh) * | 2018-12-25 | 2021-01-26 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
CN109740126B (zh) * | 2019-01-04 | 2023-11-21 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
KR102181742B1 (ko) * | 2019-01-10 | 2020-11-24 | 주식회사 케이티 | 추천 문장을 제공하는 대화 분석 서버, 방법 및 컴퓨터 프로그램 |
US11615786B2 (en) * | 2019-03-05 | 2023-03-28 | Medyug Technology Private Limited | System to convert phonemes into phonetics-based words |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
KR20210016767A (ko) * | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112562675B (zh) * | 2019-09-09 | 2024-05-24 | 北京小米移动软件有限公司 | 语音信息处理方法、装置及存储介质 |
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20210060897A (ko) * | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
CN111933129B (zh) * | 2020-09-11 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112669845B (zh) * | 2020-12-25 | 2024-04-12 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
WO2022203167A1 (en) | 2021-03-25 | 2022-09-29 | Samsung Electronics Co., Ltd. | Speech recognition method, apparatus, electronic device and computer readable storage medium |
CN113378530A (zh) * | 2021-06-28 | 2021-09-10 | 北京七维视觉传媒科技有限公司 | 语音编辑方法及装置、设备和介质 |
CN113362809B (zh) * | 2021-07-02 | 2023-02-21 | 上海淇玥信息技术有限公司 | 语音识别方法、装置和电子设备 |
KR20230037804A (ko) * | 2021-09-10 | 2023-03-17 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 처리 방법 |
CN113707135B (zh) * | 2021-10-27 | 2021-12-31 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
CN114399998B (zh) * | 2021-12-03 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备、存储介质及程序产品 |
US20230245649A1 (en) * | 2022-02-03 | 2023-08-03 | Soundhound, Inc. | Token confidence scores for automatic speech recognition |
KR20230127783A (ko) * | 2022-02-25 | 2023-09-01 | 삼성전자주식회사 | 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치 |
US11657803B1 (en) * | 2022-11-02 | 2023-05-23 | Actionpower Corp. | Method for speech recognition by using feedback information |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100789A (ja) * | 1999-09-27 | 2001-04-13 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置の音素認識性能測定装置 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
JP2008064815A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2012003090A (ja) * | 2010-06-17 | 2012-01-05 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US6167377A (en) | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
EP1209659B1 (en) * | 2000-11-22 | 2005-10-05 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for text input utilizing speech recognition |
US7716050B2 (en) * | 2002-11-15 | 2010-05-11 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
ATE417346T1 (de) * | 2003-03-26 | 2008-12-15 | Koninkl Philips Electronics Nv | Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
US8204739B2 (en) | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US8612225B2 (en) * | 2007-02-28 | 2013-12-17 | Nec Corporation | Voice recognition device, voice recognition method, and voice recognition program |
CN101802812B (zh) * | 2007-08-01 | 2015-07-01 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8494835B2 (en) * | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
CA2787390A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US9262397B2 (en) * | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
KR101739531B1 (ko) | 2010-10-13 | 2017-05-25 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
JP5861649B2 (ja) * | 2011-02-03 | 2016-02-16 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US8738375B2 (en) * | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US9135237B2 (en) | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US9324323B1 (en) * | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
US9196246B2 (en) * | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
CN103745731B (zh) * | 2013-12-31 | 2016-10-19 | 科大讯飞股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US9971765B2 (en) * | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
-
2014
- 2014-12-02 KR KR1020140170818A patent/KR102380833B1/ko active IP Right Grant
-
2015
- 2015-09-30 US US14/870,963 patent/US9940933B2/en active Active
- 2015-10-27 JP JP2015210588A patent/JP6762701B2/ja active Active
- 2015-11-10 EP EP15193814.9A patent/EP3029669B1/en active Active
- 2015-12-02 CN CN201510872727.3A patent/CN105654946B/zh active Active
-
2018
- 2018-04-06 US US15/946,840 patent/US11176946B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100789A (ja) * | 1999-09-27 | 2001-04-13 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置の音素認識性能測定装置 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
JP2008064815A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2012003090A (ja) * | 2010-06-17 | 2012-01-05 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
Non-Patent Citations (1)
Title |
---|
小川厚徳他: "Bidirectional RNNを用いた音声認識誤り検出と認識率推定", 日本音響学会2014年秋季研究発表会講演論文集[CD−ROM], JPN6019046273, September 2014 (2014-09-01), pages 27 - 28, ISSN: 0004163440 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019507362A (ja) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | 外部データソースを用いた音声の再認識 |
JP2019526080A (ja) * | 2016-07-26 | 2019-09-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識結果の修正方法及び装置 |
US11024287B2 (en) | 2016-07-26 | 2021-06-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device, and storage medium for correcting error in speech recognition result |
KR20180018031A (ko) * | 2016-08-12 | 2018-02-21 | 한국전자통신연구원 | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 |
KR102033411B1 (ko) * | 2016-08-12 | 2019-10-17 | 한국전자통신연구원 | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 |
JP2019537307A (ja) * | 2016-09-30 | 2019-12-19 | ロヴィ ガイズ, インコーポレイテッド | キャプションテキストにおける間違いを訂正するためのシステムおよび方法 |
US11863806B2 (en) | 2016-09-30 | 2024-01-02 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
WO2018135303A1 (ja) | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
WO2018135302A1 (ja) | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP2020518861A (ja) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、デバイス、及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6762701B2 (ja) | 2020-09-30 |
US20180226078A1 (en) | 2018-08-09 |
US9940933B2 (en) | 2018-04-10 |
CN105654946B (zh) | 2022-03-01 |
KR102380833B1 (ko) | 2022-03-31 |
KR20160066441A (ko) | 2016-06-10 |
EP3029669B1 (en) | 2020-05-27 |
CN105654946A (zh) | 2016-06-08 |
EP3029669A1 (en) | 2016-06-08 |
US11176946B2 (en) | 2021-11-16 |
US20160155436A1 (en) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6762701B2 (ja) | 音声認識方法及び音声認識装置 | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
CN110148416B (zh) | 语音识别方法、装置、设备和存储介质 | |
US10467340B2 (en) | Grammar correcting method and apparatus | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
US8849668B2 (en) | Speech recognition apparatus and method | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
US20070100814A1 (en) | Apparatus and method for detecting named entity | |
CN110021293B (zh) | 语音识别方法及装置、可读存储介质 | |
Alon et al. | Contextual speech recognition with difficult negative training examples | |
CN112700778B (zh) | 语音识别方法和语音识别设备 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US10152298B1 (en) | Confidence estimation based on frequency | |
KR102117082B1 (ko) | 음성 인식 방법 및 음성 인식 장치 | |
CN112825249B (zh) | 语音处理方法和设备 | |
CN112331206A (zh) | 语音识别方法及设备 | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
KR20160059265A (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
WO2019126881A1 (en) | System and method for tone recognition in spoken languages | |
CN110991155B (zh) | 文本修正方法、设备及介质 | |
KR20180062859A (ko) | 음성 인식 장치 및 방법 | |
Ogawa et al. | Joint estimation of confidence and error causes in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6762701 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |