JP4705023B2 - 音声認識装置、音声認識方法、及びプログラム - Google Patents
音声認識装置、音声認識方法、及びプログラム Download PDFInfo
- Publication number
- JP4705023B2 JP4705023B2 JP2006514478A JP2006514478A JP4705023B2 JP 4705023 B2 JP4705023 B2 JP 4705023B2 JP 2006514478 A JP2006514478 A JP 2006514478A JP 2006514478 A JP2006514478 A JP 2006514478A JP 4705023 B2 JP4705023 B2 JP 4705023B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- unregistered
- unregistered word
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000003860 storage Methods 0.000 claims description 165
- 238000004364 calculation method Methods 0.000 claims description 63
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 13
- 238000011524 similarity measure Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 27
- 230000001419 dependent effect Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本発明の実施の形態1に係る音声認識装置の機能的な構成を示すブロック図である。
次に、本発明の実施の形態2に係る音声認識装置について説明する。
続いて、本発明の実施の形態3に係る音声認識装置について説明する。
さらに続いて、本発明の実施の形態4に係る音声認識装置について説明する。
101 音声認識部
102 音声認識語彙格納部
103 参照類似度計算部
104 未登録語判定部
105 未登録語候補検索部
106、301 未登録語単語格納部
107 結果表示部
111 音声片パタン格納部
112 単語辞書格納部
113 単語マッチング部
114 遷移確率格納部
115 音声系列マッチング部
116 候補スコア差計算部
117 候補・音素系列間類似度計算部
118 候補・音声系列スコア差計算部
119 候補・音声系列・音素系列類似度計算部
201、201a、201b 未登録語クラス判定部
202 未登録語クラス別単語格納部
211 単語列仮説生成部
221 クラスNグラム生成蓄積部
222 文表現コーパス蓄積部
223 文表現用形態素解析部
224 クラスNグラム生成部
225 クラスNグラム蓄積部
231 クラス依存単語Nグラム生成蓄積部
232 クラスコーパス蓄積部
233 クラス用形態素解析部
234 クラス依存単語Nグラム生成部
235 クラス依存単語Nグラム蓄積部
236 未登録語クラス定義生成部
237 未登録語クラス定義蓄積部
241 単語カテゴリ情報受信部
242 未登録語クラス決定部
302、402 ネットワーク(通信手段)
303 未登録語単語サーバ
401 未登録語検索要求送受信部
403 未登録語検索サーバ
404 未登録語検索部
405 未登録語単語格納部
Claims (17)
- 発話された音声を認識して当該認識の結果を提示する音声認識装置であって、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語を記憶する未登録語単語記憶手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備える
ことを特徴とする音声認識装置。 - 前記未登録語候補検索手段は、
複数の未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する
ことを特徴とする請求項1記載の音声認識装置。 - 前記未登録語単語記憶手段は、
前記未登録語の属するカテゴリに応じて、前記カテゴリごとに分類して前記未登録語を記憶している
ことを特徴とする請求項1または2記載の音声認識装置。 - 前記音声認識装置は、さらに、
前記発話された音声に基づいて、前記未登録語の属するカテゴリを判定する未登録語クラス判定手段を備える
ことを特徴とする請求項3記載の音声認識装置。 - 前記未登録語候補検索手段は、
前記未登録語クラス判定手段の判定結果に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索する
ことを特徴とする請求項4記載の音声認識装置。 - 前記音声認識装置は、さらに、
前記カテゴリに関する情報を取得する情報取得手段を備え、
前記未登録語候補検索手段は、
前記情報取得手段が取得した情報に基づいて、前記未登録語候補を、前記未登録語単語記憶手段における分類されたカテゴリの中から検索する
ことを特徴とする請求項3記載の音声認識装置。 - 前記結果表示手段は、
前記未登録語候補検索手段における検索結果から前記音声認識用単語記憶手段に記憶されている登録語を除外して、前記検索結果を表示する
ことを特徴とする請求項1記載の音声認識装置。 - 前記未登録語候補検索手段は、前記発話された音声との類似する度合いを数値化した未登録語スコアを計算することにより、前記未登録語候補を検索する
ことを特徴とする請求項1記載の音声認識装置。 - 前記結果表示部は、前記検索結果として、前記未登録語候補とその未登録語スコアとを表示する
ことを特徴とする請求項8記載の音声認識装置。 - 前記結果表示部は、前記未登録語スコアに応じて、前記未登録語候補の表示を変更する
ことを特徴とする請求項9記載の音声認識装置。 - 前記未登録語単語記憶手段に記憶されている未登録語は、所定の条件下で更新される
ことを特徴とする請求項1記載の音声認識装置。 - 前記音声認識装置は、さらに、
前記未登録語単語記憶手段に記憶されていない未登録語群を記憶する未登録語単語サーバと通信する通信手段を備え、
前記通信手段が前記未登録単語サーバから前記未登録語群を受信することによって、前記未登録語単語記憶手段に記憶されている未登録語を更新する
ことを特徴とする請求項11記載の音声認識装置。 - 前記音声認識用単語記憶手段に記憶されている登録語は、所定の条件下で更新される
ことを特徴とする請求項1記載の音声認識装置。 - 発話された音声を認識して当該認識の結果を提示する音声認識システムであって、
前記音声認識システムは、
発話された音声を認識する音声認識装置と、前記音声認識装置に登録されていない未登録語を検索する未登録語検索サーバとを備え、
前記音声認識装置は、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記未登録検索サーバに、前記発話された音声に対応すると思われる未登録語候補の検索を要求する検索要求送信手段と、
前記未登録語検索サーバから前記未登録語候補の検索結果を取得する検索結果受信手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備え、
前記未登録語検索サーバは、
前記未登録語を記憶する未登録語単語記憶手段と、
前記検索要求送信手段から前記検索要求を受信する検索要求受信手段と、
前記検索要求受信手段が前記検索要求を受信した場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語単語記憶手段に記憶されている未登録語の中から検索する未登録語候補検索手段と、
前記検索結果を前記音声認識装置に送信する検索結果送信手段とを備える
ことを特徴とする音声認識システム。 - 発話された音声を認識して当該認識の結果を提示する音声認識装置と、前記音声認識装置に登録されていない未登録語を検索する未登録語検索サーバとから構成される音声認識システムにおける音声認識装置であって、
音声認識のための語彙を定義し、登録語として記憶する音声認識用単語記憶手段と、
前記発話された音声と、前記音声認識用単語記憶手段に記憶されている登録語とを照合する音声認識手段と、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算手段と、
前記音声認識手段で照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算手段で求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語記憶手段に記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定手段と、
前記未登録語判定手段で未登録語と判定された場合に、前記未登録検索サーバに、前記発話された音声に対応すると思われる未登録語候補の検索を要求する検索要求送信手段と、
前記未登録語検索サーバから前記未登録語候補の検索結果を取得する検索結果受信手段と、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示手段とを備える
ことを特徴とする音声認識装置。 - 発話された音声を認識して当該認識の結果を提示する音声認識方法であって、
前記発話された音声と、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語データベースに記憶されている登録語とを照合する音声認識ステップと、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算ステップと、
前記音声認識ステップにおいて照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算ステップにおいて求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語データベースに記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定ステップと、
前記未登録語判定ステップで未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語を記憶する未登録語単語データベースに記憶されている未登録語の中から検索する未登録語候補検索ステップと、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示ステップとを含む
ことを特徴とする音声認識方法。 - 発話された音声を認識して当該認識の結果を提示する音声認識装置のためのプログラムであって、
前記発話された音声と、音声認識のための語彙を定義し、登録語として記憶する音声認識用単語データベースに記憶されている登録語とを照合する音声認識ステップと、
前記発話された音声との類似度が最も高くなる、音響の単位となるサブワードを組み合わせてなる系列を探索し、当該探索された系列に関する参照類似度を求める参照類似度計算ステップと、
前記音声認識ステップにおいて照合された前記登録語と前記発話された音声との類似度と、前記参照類似度計算ステップにおいて求められた前記参照類似度とを比較することで、前記発話された音声が、前記音声認識用単語データベースに記憶されている登録語であるか、記憶されていない未登録語であるかを判定する未登録語判定ステップと、
前記未登録語判定ステップで未登録語と判定された場合に、前記発話された音声に基づいて、前記発話された音声に対応すると思われる未登録語候補を、前記未登録語を記憶する未登録語単語データベースに記憶されている未登録語の中から検索する未登録語候補検索ステップと、
前記発話された音声が未登録語である旨とともに、前記検索結果を表示する結果表示ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006514478A JP4705023B2 (ja) | 2004-06-10 | 2005-06-02 | 音声認識装置、音声認識方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004173147 | 2004-06-10 | ||
JP2004173147 | 2004-06-10 | ||
PCT/JP2005/010183 WO2005122144A1 (ja) | 2004-06-10 | 2005-06-02 | 音声認識装置、音声認識方法、及びプログラム |
JP2006514478A JP4705023B2 (ja) | 2004-06-10 | 2005-06-02 | 音声認識装置、音声認識方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005122144A1 JPWO2005122144A1 (ja) | 2008-04-10 |
JP4705023B2 true JP4705023B2 (ja) | 2011-06-22 |
Family
ID=35503310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006514478A Expired - Fee Related JP4705023B2 (ja) | 2004-06-10 | 2005-06-02 | 音声認識装置、音声認識方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7813928B2 (ja) |
JP (1) | JP4705023B2 (ja) |
WO (1) | WO2005122144A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
JPWO2007097390A1 (ja) | 2006-02-23 | 2009-07-16 | 日本電気株式会社 | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
JPWO2007138875A1 (ja) * | 2006-05-31 | 2009-10-01 | 日本電気株式会社 | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
CN101558443B (zh) * | 2006-12-15 | 2012-01-04 | 三菱电机株式会社 | 声音识别装置 |
US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
EP2136358A4 (en) * | 2007-03-16 | 2011-01-19 | Panasonic Corp | LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT |
KR101300839B1 (ko) | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
US8756527B2 (en) * | 2008-01-18 | 2014-06-17 | Rpx Corporation | Method, apparatus and computer program product for providing a word input mechanism |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
KR101427686B1 (ko) * | 2008-06-09 | 2014-08-12 | 삼성전자주식회사 | 프로그램 선택 방법 및 그 장치 |
JP5050175B2 (ja) * | 2008-07-02 | 2012-10-17 | 株式会社国際電気通信基礎技術研究所 | 音声認識機能付情報処理端末 |
JP2010154397A (ja) * | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
JP5692493B2 (ja) * | 2009-02-05 | 2015-04-01 | セイコーエプソン株式会社 | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US8522283B2 (en) | 2010-05-20 | 2013-08-27 | Google Inc. | Television remote control data transfer |
JP5739718B2 (ja) * | 2011-04-19 | 2015-06-24 | 本田技研工業株式会社 | 対話装置 |
JP5642037B2 (ja) * | 2011-09-22 | 2014-12-17 | 株式会社東芝 | 検索装置、検索方法およびプログラム |
JP5853653B2 (ja) * | 2011-12-01 | 2016-02-09 | ソニー株式会社 | サーバ装置、情報端末及びプログラム |
JP5675722B2 (ja) * | 2012-07-23 | 2015-02-25 | 東芝テック株式会社 | 認識辞書処理装置及び認識辞書処理プログラム |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
US10170114B2 (en) * | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
JP6100101B2 (ja) * | 2013-06-04 | 2017-03-22 | アルパイン株式会社 | 音声認識を利用した候補選択装置および候補選択方法 |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US9653071B2 (en) * | 2014-02-08 | 2017-05-16 | Honda Motor Co., Ltd. | Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages |
JP5921601B2 (ja) * | 2014-05-08 | 2016-05-24 | 日本電信電話株式会社 | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
US9392324B1 (en) | 2015-03-30 | 2016-07-12 | Rovi Guides, Inc. | Systems and methods for identifying and storing a portion of a media asset |
JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
US9984688B2 (en) * | 2016-09-28 | 2018-05-29 | Visteon Global Technologies, Inc. | Dynamically adjusting a voice recognition system |
WO2018173295A1 (ja) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | ユーザインタフェース装置及び方法、並びに音操作システム |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN107240395B (zh) * | 2017-06-16 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法和装置、计算机设备、存储介质 |
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
US20190147855A1 (en) * | 2017-11-13 | 2019-05-16 | GM Global Technology Operations LLC | Neural network for use in speech recognition arbitration |
KR102455067B1 (ko) * | 2017-11-24 | 2022-10-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN109034040B (zh) * | 2018-07-19 | 2021-11-23 | 北京影谱科技股份有限公司 | 一种基于演员表的人物识别方法、装置、设备和介质 |
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
US11024310B2 (en) | 2018-12-31 | 2021-06-01 | Sling Media Pvt. Ltd. | Voice control for media content search and selection |
KR20210033167A (ko) * | 2019-09-18 | 2021-03-26 | 삼성전자주식회사 | 전자장치 및 그 음성인식 제어방법 |
WO2022198474A1 (en) * | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
US11875780B2 (en) * | 2021-02-16 | 2024-01-16 | Vocollect, Inc. | Voice recognition performance constellation graph |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2002297179A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 自動応答対話システム |
JP2002540479A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアントサーバ音声認識 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JP2808906B2 (ja) * | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
JPH06282293A (ja) | 1993-03-29 | 1994-10-07 | Sony Corp | 音声認識装置 |
JP3468572B2 (ja) | 1994-03-22 | 2003-11-17 | 三菱電機株式会社 | 対話処理装置 |
JP2886117B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
JPH09230889A (ja) | 1996-02-23 | 1997-09-05 | Hitachi Ltd | 音声認識応答装置 |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
WO2000058942A2 (en) | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2002215670A (ja) * | 2001-01-15 | 2002-08-02 | Omron Corp | 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム |
JP2002358095A (ja) | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
JP2003044091A (ja) | 2001-07-31 | 2003-02-14 | Ntt Docomo Inc | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
-
2005
- 2005-06-02 JP JP2006514478A patent/JP4705023B2/ja not_active Expired - Fee Related
- 2005-06-02 WO PCT/JP2005/010183 patent/WO2005122144A1/ja active Application Filing
- 2005-06-02 US US11/628,887 patent/US7813928B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002540479A (ja) * | 1999-03-26 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | クライアントサーバ音声認識 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2002297179A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 自動応答対話システム |
Also Published As
Publication number | Publication date |
---|---|
US7813928B2 (en) | 2010-10-12 |
US20080167872A1 (en) | 2008-07-10 |
WO2005122144A1 (ja) | 2005-12-22 |
JPWO2005122144A1 (ja) | 2008-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7124080B2 (en) | Method and apparatus for adapting a class entity dictionary used with language models | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
US8401840B2 (en) | Automatic spoken language identification based on phoneme sequence patterns | |
KR100998566B1 (ko) | 음성인식을 이용한 언어 번역 방법 및 장치 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
US20060009965A1 (en) | Method and apparatus for distribution-based language model adaptation | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
EP1551007A1 (en) | Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method | |
EP1617409B1 (en) | Multimodal method to provide input to a computing device | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8285542B2 (en) | Adapting a language model to accommodate inputs not found in a directory assistance listing | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
KR102580904B1 (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4705023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |