JP5282737B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP5282737B2 JP5282737B2 JP2009529074A JP2009529074A JP5282737B2 JP 5282737 B2 JP5282737 B2 JP 5282737B2 JP 2009529074 A JP2009529074 A JP 2009529074A JP 2009529074 A JP2009529074 A JP 2009529074A JP 5282737 B2 JP5282737 B2 JP 5282737B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- section
- prosodic
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 13
- 239000011295 pitch Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本発明にかかる音声認識装置の第1の実施形態について説明する。
図1は本発明にかかる音声認識装置の第1の実施形態の全体構成例を示したブロック図である。
次に、図1および図2を用いて本実施形態の動作について詳細に説明する。
次いで、単語サーチ部17内の単語仮説同定部18が、ステップS103でサーチされた単語仮説を同定し(ステップS104)、更に、音素仮説同定部19が、ステップS104で同定された各単語仮説中の音素を言語モデルに基づいて同定する(ステップS105)。その後、母音区間同定部20が、ステップS104で同定された単語仮説毎に、ステップS105で同定された音素と、ステップS103で単語サーチを行う際に利用した音素と入力音声との対応関係とに基づいて、入力音声における母音区間を同定し、同定した母音区間とそのトーンラベルとの対をトーン認識部21に対して出力する(ステップS106)。
本実施形態によれば、声調音声に対する音声認識を高精度で行うことが可能になる。その理由は、トーン認識の対象区間を、音響情報(特徴量)と言語情報とを最適に組み合わせることが可能な単語サーチの情報に基づいて求めた母音区間に限るようにしているからである。つまり、単純に音響情報のみからトーン認識の対象区間(母音区間)を求める場合に比較して母音区間以外の区間がトーン認識区間とされる危険性が少なくなり、トーン認識誤りの発生を抑えることができるので、認識精度を高いものとすることができる。
次に、第1の実施形態の実施例について説明する。
図3は本実施例にかかる音声認識装置10の全体構成例を示すブロック図である。
次に、本実施例の動作について詳細に説明する。
この結果、単語Aの母音部分「in2」「ao3」に対応する母音区間および単語Bの母音部分「i3」「ao3」に対応する母音区間が図6に示すように、時刻(フレーム)情報として得られる。
次に、本発明にかかる音声認識装置の第2の実施形態について詳細に説明する。本実施形態は、トーン認識を行う際、トーンモデルに加えて、トーンの履歴情報であるコンテクスト情報をモデル化したコンテクストモデルも利用してトーン認識を行うことを特徴とする。
図8は本実施形態にかかる音声認識装置の全体構成例を示したブロック図である。図8に示した音声認識装置1aと図1に示した音声認識装置1との相違点は、コンテクストモデル記憶部31が追加されている点およびトーン認識部21の代わりにトーン認識部21aを備えている点である。
次に、本実施形態の動作について説明する。なお、前述した第1の実施形態との動作上の相違点は、トーン認識部21aの動作だけであるので、ここでは、トーン認識部21aの動作だけを説明する。
本実施形態では、トーン認識時、トーンモデルに加えて、コンテクストモデルも利用してトーン認識を行うようにしているので、トーン認識精度を高めることができる。
次に、第2の実施形態の実施例について説明する。
図9は本実施例にかかる音声認識装置10aの全体構成例を示すブロック図であり、図3に示した第1の実施形態の実施例との相違点は、四声bigramモデルが登録された四声bigramモデル記憶部310が追加されている点、および四声認識部210の代わりに四声認識部210aを備えている点である。なお、四声bigramモデル記憶部310、四声認識部210aはそれぞれ図8に示したコンテクストモデル記憶部31、トーン認識部21aに対応するものである。
次に、本実施例の動作について説明する。今、例えば、ユーザが、入力部140に対して図10Aに示す連続単語を発声したとする。なお、以下の説明においては、図10Aに示す連続単語を連続単語A、同図Bに示す連続単語を連続単語Bと称す。
P(Ti)=P(Ti|Ti-1)
図12は本発明の第3の実施形態にかかる音声認識装置の全体構成例を示したブロック図である。同図を参照すると、音声認識装置1bは、単語サーチ部17bと、韻律認識部21bと、リスコア部22bとを備えている。
Claims (30)
- 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段と、
前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する韻律認識手段と、
前記韻律認識手段から出力された前記第2のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第1のスコアを補正するリスコア手段とを備え、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識装置。 - 請求項1記載の音声認識装置において、
前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行う音声認識装置。 - 請求項2記載の音声認識装置において、
前記中間結果は、Nbest候補およびワードグラフのいずれかである音声認識装置。 - 請求項1に記載の音声認識装置において、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識装置。 - 請求項4記載の音声認識装置において、
前記単語サーチ手段は、
単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
前記音素のうちの母音の区間を同定する母音区間同定手段と
を備える音声認識装置。 - 請求項5記載の音声認識装置において、
前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とする音声認識装置。 - 請求項4に記載の音声認識装置において、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行う音声認識装置。 - 請求項7記載の音声認識装置において、
前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立である音声認識装置。 - 請求項4に記載の音声認識装置において、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行う音声認識装置。 - 請求項9記載の音声認識装置において、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識装置。 - 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力するステップと、
前記入力音声の特徴量の内の、出力された韻律区間に対応する特徴量に基づいて、出力された韻律ラベルに対する確からしさを示す第2のスコアを出力するステップと、
出力された前記第2のスコアを用いて、出力された前記単語仮説に対する第1のスコアを補正するステップとを備え、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識方法。 - 請求項11記載の音声認識方法において、
補正するステップは、単語サーチにおいて処理中の単語仮説のスコアを補正するステップと、単語サーチの結果として得られる中間結果のスコアを補正するステップとのいずれかを備える音声認識方法。 - 請求項12記載の音声認識方法において、
前記中間結果は、Nbest候補およびワードグラフのいずれかである音声認識方法。 - 請求項11に記載の音声認識方法において、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識方法。 - 請求項14記載の音声認識方法において、
単語サーチを行うステップは、
単語および連続単語の少なくとも一方を同定するステップと、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定するステップと、
前記音素のうちの母音の区間を同定するステップと
を備える音声認識方法。 - 請求項15記載の音声認識方法において、
区間を同定するステップは、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするステップを備える音声認識方法。 - 請求項14に記載の音声認識方法において、
第2のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うステップを備える音声認識方法。 - 請求項17記載の音声認識方法において、
前記音響距離の計算に用いる音素モデルと前記トーンモデルとは独立である音声認識方法。 - 請求項14に記載の音声認識方法において、
第2のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うステップを備える音声認識方法。 - 請求項19記載の音声認識方法において、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識方法。 - 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段、
前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する韻律認識手段、
前記韻律認識手段から出力された前記第2のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第1のスコアを補正するリスコア手段
としてコンピュータを機能させるためのプログラムであって、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかであるプログラム。 - 請求項21記載のプログラムにおいて、
前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行うプログラム。 - 請求項22記載のプログラムにおいて、
前記中間結果は、Nbest候補およびワードグラフのいずれかであるプログラム。 - 請求項21に記載のプログラムにおいて、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間であるプログラム。 - 請求項24記載のプログラムにおいて、
前記単語サーチ手段は、
単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
前記音素のうちの母音の区間を同定する母音区間同定手段と
を備えるプログラム。 - 請求項25記載のプログラムにおいて、
前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするプログラム。 - 請求項24に記載のプログラムにおいて、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うプログラム。 - 請求項27記載のプログラムにおいて、
前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立であるプログラム。 - 請求項24に記載のプログラムにおいて、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うプログラム。 - 請求項29記載のプログラムにおいて、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものであるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009529074A JP5282737B2 (ja) | 2007-08-22 | 2008-08-22 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007215958 | 2007-08-22 | ||
JP2007215958 | 2007-08-22 | ||
PCT/JP2008/065008 WO2009025356A1 (ja) | 2007-08-22 | 2008-08-22 | 音声認識装置および音声認識方法 |
JP2009529074A JP5282737B2 (ja) | 2007-08-22 | 2008-08-22 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009025356A1 JPWO2009025356A1 (ja) | 2010-11-25 |
JP5282737B2 true JP5282737B2 (ja) | 2013-09-04 |
Family
ID=40378256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009529074A Active JP5282737B2 (ja) | 2007-08-22 | 2008-08-22 | 音声認識装置および音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8315870B2 (ja) |
JP (1) | JP5282737B2 (ja) |
CN (1) | CN101785051B (ja) |
WO (1) | WO2009025356A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2233110A1 (en) | 2009-03-24 | 2010-09-29 | orangedental GmbH & Co. KG | Methods and apparatus to determine distances for use in dentistry |
CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
US8386252B2 (en) * | 2010-05-17 | 2013-02-26 | Avaya Inc. | Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
US8401853B2 (en) | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
JP5179559B2 (ja) * | 2010-11-12 | 2013-04-10 | シャープ株式会社 | 画像処理システムを制御する制御装置、画像形成装置、画像読取装置、制御方法、画像処理プログラム及びコンピュータ読み取り可能な記録媒体 |
JP5716595B2 (ja) * | 2011-01-28 | 2015-05-13 | 富士通株式会社 | 音声補正装置、音声補正方法及び音声補正プログラム |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
CN102938252B (zh) * | 2012-11-23 | 2014-08-13 | 中国科学院自动化研究所 | 结合韵律和发音学特征的汉语声调识别系统及方法 |
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US9251202B1 (en) * | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
CN104464751B (zh) * | 2014-11-21 | 2018-01-16 | 科大讯飞股份有限公司 | 发音韵律问题的检测方法及装置 |
US9953644B2 (en) | 2014-12-01 | 2018-04-24 | At&T Intellectual Property I, L.P. | Targeted clarification questions in speech recognition with concept presence score and concept correctness score |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
US9754580B2 (en) | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
CN105869624B (zh) | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
US10607601B2 (en) * | 2017-05-11 | 2020-03-31 | International Business Machines Corporation | Speech recognition by selecting and refining hot words |
CN109145281B (zh) * | 2017-06-15 | 2020-12-25 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
CN110770819B (zh) * | 2017-06-15 | 2023-05-12 | 北京嘀嘀无限科技发展有限公司 | 语音识别系统和方法 |
EP3823306B1 (en) | 2019-11-15 | 2022-08-24 | Sivantos Pte. Ltd. | A hearing system comprising a hearing instrument and a method for operating the hearing instrument |
CN111862954B (zh) * | 2020-05-29 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63165900A (ja) * | 1986-12-27 | 1988-07-09 | 沖電気工業株式会社 | 会話音声認識方式 |
JPH04128899A (ja) * | 1990-09-20 | 1992-04-30 | Fujitsu Ltd | 音声認識装置 |
JPH07261778A (ja) * | 1994-03-22 | 1995-10-13 | Canon Inc | 音声情報処理方法及び装置 |
JP2001282282A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法および装置および記憶媒体 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0758839B2 (ja) | 1987-09-05 | 1995-06-21 | ティーディーケイ株式会社 | 電子部品挿入ヘッド |
JP2946219B2 (ja) | 1989-11-22 | 1999-09-06 | 九州日立マクセル株式会社 | スクリーン印刷用印刷版 |
SE514684C2 (sv) * | 1995-06-16 | 2001-04-02 | Telia Ab | Metod vid tal-till-textomvandling |
US5806031A (en) * | 1996-04-25 | 1998-09-08 | Motorola | Method and recognizer for recognizing tonal acoustic sound signals |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US6253178B1 (en) * | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
CN1160699C (zh) * | 1999-11-11 | 2004-08-04 | 皇家菲利浦电子有限公司 | 语音识别系统 |
US7043430B1 (en) * | 1999-11-23 | 2006-05-09 | Infotalk Corporation Limitied | System and method for speech recognition using tonal modeling |
CN1180398C (zh) * | 2000-05-26 | 2004-12-15 | 封家麒 | 一种语音辨识方法及系统 |
US6510410B1 (en) * | 2000-07-28 | 2003-01-21 | International Business Machines Corporation | Method and apparatus for recognizing tone languages using pitch information |
CN1187693C (zh) * | 2000-09-30 | 2005-02-02 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 |
JP4353202B2 (ja) * | 2006-05-25 | 2009-10-28 | ソニー株式会社 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
-
2008
- 2008-08-22 US US12/672,015 patent/US8315870B2/en active Active
- 2008-08-22 WO PCT/JP2008/065008 patent/WO2009025356A1/ja active Application Filing
- 2008-08-22 JP JP2009529074A patent/JP5282737B2/ja active Active
- 2008-08-22 CN CN2008801035918A patent/CN101785051B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63165900A (ja) * | 1986-12-27 | 1988-07-09 | 沖電気工業株式会社 | 会話音声認識方式 |
JPH04128899A (ja) * | 1990-09-20 | 1992-04-30 | Fujitsu Ltd | 音声認識装置 |
JPH07261778A (ja) * | 1994-03-22 | 1995-10-13 | Canon Inc | 音声情報処理方法及び装置 |
JP2001282282A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法および装置および記憶媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG199800698002; 胡志平 他: '"音素モデルと音節モデルを用いた中国語連続音声認識システムの作成"' 電子情報通信学会論文誌D-II Vol.J75-D-II,No.3, 19920325, p.459-469 * |
CSNG199801269004; 趙力 他: '"3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識"' 日本音響学会誌 Vol.54,No.7, 19980701, p.497-505 * |
CSNG200600972070; 小野寺栄 他: '"マルチパス方式を用いた雑音環境下での単語音声認識 -アクセント情報の利用-"' 日本音響学会2004年春季研究発表会講演論文集-I- , 20040317, p.161-162 * |
JPN6013018833; 小野寺栄 他: '"マルチパス方式を用いた雑音環境下での単語音声認識 -アクセント情報の利用-"' 日本音響学会2004年春季研究発表会講演論文集-I- , 20040317, p.161-162 * |
JPN6013018834; 趙力 他: '"3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識"' 日本音響学会誌 Vol.54,No.7, 19980701, p.497-505 * |
JPN6013018835; 胡志平 他: '"音素モデルと音節モデルを用いた中国語連続音声認識システムの作成"' 電子情報通信学会論文誌D-II Vol.J75-D-II,No.3, 19920325, p.459-469 * |
Also Published As
Publication number | Publication date |
---|---|
US8315870B2 (en) | 2012-11-20 |
US20110196678A1 (en) | 2011-08-11 |
WO2009025356A1 (ja) | 2009-02-26 |
CN101785051B (zh) | 2012-09-05 |
CN101785051A (zh) | 2010-07-21 |
JPWO2009025356A1 (ja) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JP6599914B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
JP3171107B2 (ja) | 音声認識装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JPH09114482A (ja) | 音声認識のための話者適応化方法 | |
JP2975542B2 (ja) | 音声認識装置 | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JP3277522B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5282737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |