JP5706384B2 - 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム - Google Patents
音声認識装置、音声認識システム、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP5706384B2 JP5706384B2 JP2012209151A JP2012209151A JP5706384B2 JP 5706384 B2 JP5706384 B2 JP 5706384B2 JP 2012209151 A JP2012209151 A JP 2012209151A JP 2012209151 A JP2012209151 A JP 2012209151A JP 5706384 B2 JP5706384 B2 JP 5706384B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- recognition
- result
- dictionary
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 description 27
- 230000004043 responsiveness Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の実施形態では、利用者の音声を、サーバを用いて認識する音声認識装置(クライアント)について説明する。この音声認識装置は、ネットワーク通信が不要な自装置内で認識処理を実行すると共に、音声信号をサーバに送信しサーバ側でも認識処理を実行させる。そして、音声認識装置での認識結果が先に生成された場合、サーバでの認識結果を待たずに認識結果を利用者に提示する。さらに、本実施形態の音声認識装置は、利用者が最近発声した語彙が自装置で認識され易くなるように、自装置側の認識辞書を更新する。これにより、応答性が高く高精度な音声認識装置を実現することができる。
本実施形態の音声認識装置100およびサーバ300は、図2に示すような通常のコンピュータ端末を利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の第1記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の第2記憶部203と、キーボード、マウス、タッチパネル等の操作部204と、外部装置との通信を制御する通信部205と、音声を取得するマイク206と、音声を再生するスピーカ207と、映像を表示するディスプレイ208と、これらを接続するバス209とを備えている。本実施形態の音声認識装置100は、携帯型あるいは据え置き型のコンピュータ端末のどちらであってもよい。
音声認識装置100における各ブロックの機能を説明する。
図3のフローチャートを利用して、本実施形態にかかる音声認識システムの処理を説明する。ステップS1からS6は音声認識装置100での処理を、ステップS7からS9はサーバ300での処理をそれぞれ表している。
図4のフローチャートを利用して、ステップS4における認識結果生成部105の処理を説明する。
図6のフローチャートを利用して、図3のステップS5の処理を説明する。
クライアント認識辞書102が、辞書更新部107で更新可能な可変辞書と更新不可能な固定辞書とで構成されてもよい。ここで、固定辞書には、別のアプリケーションに対するコマンドの起動など、応答性を重視したい語彙を登録しておく。
第2の実施形態にかかる音声認識装置について説明する。本実施形態の音声認識装置は、複数の認識結果を利用者に提示する機能を有しており、利用者は提示された認識結果から正しい認識結果を選択することにより、音声を利用したアプリケーションの起動やコンテンツの検索等を実行できる。
図10のフローチャートを利用して、本実施形態にかかる音声認識装置100の処理を説明する。本実施形態のクライアント認識処理部110は、信頼度スコア付きで第L位候補(L≧2)までの認識結果を生成するものとする。
Claims (14)
- 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する認識手段と、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する送信手段と、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する受信手段と、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成手段と、
前記第3の認識結果を記憶する認識結果記憶手段と、
前記第3の認識結果の履歴を利用して前記クライアント認識辞書を更新する辞書更新手段とを備え、
前記辞書更新手段が、前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新し、
利用者に前記第3の認識結果を提示する出力手段を更に備え、
前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成手段が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力手段が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識装置。 - 前記辞書更新手段が、前記認識記憶手段に記憶された直近の過去N回(N≧1)の前記第3の認識結果を利用して前記クライアント認識辞書を更新する請求項1に記載の音声認識装置。
- 前記認識結果記憶手段が、前記第3の認識結果と前記第3の認識結果が生成された時刻情報とを関連づけて記憶し、
前記辞書更新手段は、前記時刻情報が所定の時刻以降である前記第3の認識結果を利用して前記クライアント認識辞書を更新する請求項1または請求項2に記載の音声認識装置。 - 前記辞書更新手段が、前記第3の認識結果に含まれる語彙の出現頻度を算出し、前記出現頻度が所定の閾値を超える語彙が前記クライアント認識辞書に含まれるように前記クライアント認識辞書を更新する請求項1乃至請求項3のいずれかに記載の音声認識装置。
- 前記認識手段が、認識結果の尤もらしさを表す信頼度スコア付きで前記第1の認識結果を生成し、
前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得し、
かつ前記信頼度スコアが所定の閾値以上である場合、前記第1の認識結果を利用して前記第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する請求項1乃至請求項4のいずれかに記載に記載の音声認識装置。 - 前記クライアント認識辞書が、前記辞書更新手段で更新可能な可変辞書と更新不可能な固定辞書とで構成され、
前記認識手段が、前記可変辞書と前記固定辞書の両方を用いて前記音声信号を認識し、
前記辞書更新手段が、前記可変辞書を更新する請求項1乃至請求項5のいずれかに記載の音声認識装置。 - 前記辞書更新手段が、前記第3の認識結果の履歴に含まれる語彙のうち前記固定辞書に含まれる語彙以外の語彙を用いて、前記可変辞書を更新する請求項6に記載の音声認識装置。
- 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する認識手段と、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する送信手段と、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する受信手段と、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成手段と、
利用者に前記第3の認識結果を提示する出力手段とを備え、
前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成手段が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力手段が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識装置。 - 前記認識結果生成手段が、前記第2の認識結果から前記第3の認識結果に含まれる第1位候補を除いて、前記第4の認識結果を生成する請求項1または請求項8に記載の音声認識装置。
- 請求項1乃至請求項9のいずれかに記載の音声認識装置と、
前記音声認識装置とネットワークを介して接続する前記サーバと、
を備える音声認識システム。 - 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成するステップと、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信するステップと、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信するステップと、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成ステップと、
前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新するステップと、
利用者に前記第3の認識結果を提示する出力ステップを備え、
前記認識結果生成ステップが、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成ステップが、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力ステップが、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識方法。 - 音声認識装置に、
認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する機能と、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する機能と、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する機能と、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成機能と、
前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新する機能と、
利用者に前記第3の認識結果を提示する出力機能を実現させるための音声認識プログラムであって、
前記認識結果生成機能が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成機能が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力機能が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識プログラム。 - 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成するステップと、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信するステップと、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信するステップと、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成ステップと、
利用者に前記第3の認識結果を提示する出力ステップを備え、
前記認識結果生成ステップが、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成ステップが、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力ステップが、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識方法。 - 音声認識装置に、
認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する機能と、
前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する機能と、
前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する機能と、
前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成機能と、
利用者に前記第3の認識結果を提示する出力機能を実現させるための音声認識プログラムであって、
前記認識結果生成機能が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
前記認識結果生成機能が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
前記出力機能が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209151A JP5706384B2 (ja) | 2012-09-24 | 2012-09-24 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
US13/693,753 US9293137B2 (en) | 2012-09-24 | 2012-12-04 | Apparatus and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012209151A JP5706384B2 (ja) | 2012-09-24 | 2012-09-24 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015035108A Division JP2015143866A (ja) | 2015-02-25 | 2015-02-25 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014063088A JP2014063088A (ja) | 2014-04-10 |
JP5706384B2 true JP5706384B2 (ja) | 2015-04-22 |
Family
ID=50339727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012209151A Expired - Fee Related JP5706384B2 (ja) | 2012-09-24 | 2012-09-24 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9293137B2 (ja) |
JP (1) | JP5706384B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143866A (ja) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6054283B2 (ja) * | 2013-11-27 | 2016-12-27 | シャープ株式会社 | 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法 |
JP5816771B1 (ja) | 2015-06-08 | 2015-11-18 | 株式会社Preferred Networks | 学習装置ユニット |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
WO2017014721A1 (en) * | 2015-07-17 | 2017-01-26 | Nuance Communications, Inc. | Reduced latency speech recognition system using multiple recognizers |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
CN107452383B (zh) * | 2016-05-31 | 2021-10-26 | 华为终端有限公司 | 一种信息处理方法、服务器、终端及信息处理系统 |
CN106653031A (zh) * | 2016-10-17 | 2017-05-10 | 海信集团有限公司 | 语音唤醒方法及语音交互装置 |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
JP6611091B2 (ja) * | 2017-05-11 | 2019-11-27 | 株式会社村田製作所 | 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法 |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
CN108335696A (zh) | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US10984799B2 (en) * | 2018-03-23 | 2021-04-20 | Amazon Technologies, Inc. | Hybrid speech interface device |
US20210264904A1 (en) * | 2018-06-21 | 2021-08-26 | Sony Corporation | Information processing apparatus and information processing method |
CN109213469A (zh) * | 2018-08-27 | 2019-01-15 | 四川长虹电器股份有限公司 | 语音输入法词库优先级自动调整方法及系统 |
KR20210042520A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN112164392A (zh) * | 2020-11-13 | 2021-01-01 | 北京百度网讯科技有限公司 | 确定显示的识别文本的方法、装置、设备以及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142488A (ja) | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
JP2004012653A (ja) | 2002-06-05 | 2004-01-15 | Matsushita Electric Ind Co Ltd | 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム |
JP4601306B2 (ja) * | 2003-03-13 | 2010-12-22 | パナソニック株式会社 | 情報検索装置、情報検索方法、およびプログラム |
US7437296B2 (en) | 2003-03-13 | 2008-10-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation apparatus and information search apparatus |
JP2007033901A (ja) | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US20070162282A1 (en) * | 2006-01-09 | 2007-07-12 | Gilad Odinak | System and method for performing distributed speech recognition |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
US7933777B2 (en) | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US8140328B2 (en) * | 2008-12-01 | 2012-03-20 | At&T Intellectual Property I, L.P. | User intention based on N-best list of recognition hypotheses for utterances in a dialog |
CA2785081C (en) * | 2009-12-31 | 2021-03-30 | Volt Delta Resources, Llc | Method and system for processing multiple speech recognition results from a single utterance |
JP2011232619A (ja) * | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
-
2012
- 2012-09-24 JP JP2012209151A patent/JP5706384B2/ja not_active Expired - Fee Related
- 2012-12-04 US US13/693,753 patent/US9293137B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143866A (ja) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140088967A1 (en) | 2014-03-27 |
JP2014063088A (ja) | 2014-04-10 |
US9293137B2 (en) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
CN107039038B (zh) | 学习个性化实体发音 | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
US8170866B2 (en) | System and method for increasing accuracy of searches based on communication network | |
KR101770358B1 (ko) | 내장형 및 네트워크 음성 인식기들의 통합 | |
US11514916B2 (en) | Server that supports speech recognition of device, and operation method of the server | |
US10152298B1 (en) | Confidence estimation based on frequency | |
US8126715B2 (en) | Facilitating multimodal interaction with grammar-based speech applications | |
JP2020067658A (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
WO2007108500A1 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2017167270A (ja) | 音声処理装置および音声処理方法 | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
US11626107B1 (en) | Natural language processing | |
EP1899955B1 (en) | Speech dialog method and system | |
JP2015143866A (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
WO2019163242A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP2024512071A (ja) | 自動音声認識のための多言語再スコアリングモデル | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 | |
KR20240119458A (ko) | 다중 인공지능 음성 인식 모델 및 챗봇을 이용하여 인식 정확도가 개선된 음성 인식 처리 장치 및 그 동작 방법 | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
KR20240073991A (ko) | 음성 합성 서비스 제공 방법 및 그 시스템 | |
JP2010175869A (ja) | 音声認識用辞書作成装置及び音声認識用辞書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150226 |
|
LAPS | Cancellation because of no payment of annual fees |