JP2016500843A - 検索クエリ情報を使用する音声認識処理のための方法およびシステム - Google Patents
検索クエリ情報を使用する音声認識処理のための方法およびシステム Download PDFInfo
- Publication number
- JP2016500843A JP2016500843A JP2015537758A JP2015537758A JP2016500843A JP 2016500843 A JP2016500843 A JP 2016500843A JP 2015537758 A JP2015537758 A JP 2015537758A JP 2015537758 A JP2015537758 A JP 2015537758A JP 2016500843 A JP2016500843 A JP 2016500843A
- Authority
- JP
- Japan
- Prior art keywords
- words
- grouping
- sequence
- search query
- given
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 title abstract description 13
- 230000005540 biological transmission Effects 0.000 claims abstract description 25
- 238000013500 data storage Methods 0.000 claims description 18
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000003860 storage Methods 0.000 description 33
- 238000004891 communication Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 239000013598 vector Substances 0.000 description 20
- 230000007704 transition Effects 0.000 description 17
- 241000282326 Felis catus Species 0.000 description 16
- 238000003491 array Methods 0.000 description 11
- 238000012421 spiking Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 206010048669 Terminal state Diseases 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本願は、「検索クエリ情報を使用する音声認識処理のための方法およびシステム(Methods and Systems for Speech Recognition Processing Using Search Query Information)」という名称を有する2012年10月18日に出願された米国特許出願連続番号第61/715,365号の仮出願である、「検索クエリ情報を使用する音声認識処理のための方法およびシステム(Methods And Systems For Speech Recognition Processing Using Search Query Information)」という名称を有する2013年3月15日に出願された米国特許出願連続番号第13/832,136号への優先権を主張し、これらはすべてこの明細書において完全に記載されるように本願明細書において参照により援用される。
自動音声認識(automatic speech recognition(ASR))技術は、音声発声をそれらの発声のテキスト表現にマッピングするように使用され得る。いくつかのASRシステムは、個々の話者が音声認識システムにテキストのセクションを読み込む「トレーニング」を使用している。これらのシステムは、人の特定の声を分析し、当該音声を利用して、その人についてそのスピーチの認識を微調整し、より正確な転写(transcription)を得る。トレーニングを使用しないシステムは、「不特定話者(Speaker Independent)」システムと称され得る。トレーニングを使用するシステムは「特定話者(Speaker Dependent)」システムと称され得る。
本願は、音声認識処理のためのシステムおよび方法を開示する。1つの局面において方法が記載される。上記方法は、検索エンジンへの検索クエリの送信の頻度を示す情報をコンピューティングデバイスにて受け取ることを含み得る。検索クエリはワードのシーケンスを含み得る。上記方法はさらに、検索クエリの送信の頻度がしきい値を越えることに基づいて、検索クエリのワードのシーケンスについて、1つ以上のワードが検索クエリのワードのシーケンスに発生する順番に基づく検索クエリの1つ以上のワードのグルーピングを決定することを含み得る。上記方法はさらに、ワードの所与のシーケンスのコーパスを更新するよう、音声認識システムにグルーピングを示す情報を提供することを含み得る。音声認識システムは、ワードの所与のシーケンスのコーパスに基づいて、所与の話された発声をワードの所与のシーケンスに変換するように構成され得る。
以下の詳細な説明は、添付の図面を参照して、開示されるシステムおよび方法のさまざまな特徴および機能を記載する。これらの図において、文脈が他の態様を示していなければ、同様の符号は同様の構成要素を特定する。本願明細書に記載される例示的なシステムおよび方法の実施形態は限定的であるよう意図されない。開示されるシステムおよび方法のある局面は、すべて本願明細書において考えられるさまざまな異なる構成において構成および組み合わせられ得るということが容易に理解され得る。
Claims (20)
- 検索エンジンへの、ワードのシーケンスを含む検索クエリの送信の頻度を示す情報をコンピューティングデバイスにて受け取ることと、
前記検索クエリの送信の頻度がしきい値を越えることに基づいて、前記検索クエリのワードの前記シーケンスについて、1つ以上のワードが前記検索クエリのワードの前記シーケンスに発生する順番に基づく前記検索クエリの1つ以上のワードのグルーピングを決定することと、
ワードの所与のシーケンスのコーパスを更新するよう、音声認識システムに前記グルーピングを示す情報を提供することとを含み、前記音声認識システムは、ワードの所与のシーケンスの前記コーパスに基づいて、所与の話された発声をワードの所与のシーケンスに変換するように構成される、方法。 - 前記検索クエリは、テキストストリングおよび音声検索クエリの1つ以上を含む、請求項1に記載の方法。
- 前記音声認識システムはさらに、前記コーパスのワードの前記所与のシーケンスについての発生確率を含み、前記音声認識システムに前記グルーピングを提供することは、前記グルーピングと、前記検索エンジンへの前記検索クエリの送信の頻度を示す前記情報とに基づき前記発生確率を更新することを含む、請求項1に記載の方法。
- 前記音声認識システムに前記グルーピングを提供することは、
前記グルーピングを含むようワードの所与のシーケンスの前記コーパスを更新することと、
前記コーパスにおけるワードの他のシーケンスの所与の発生確率より高いそれぞれの発生確率を前記グルーピングに割り当てることとを含む、請求項3に記載の方法。 - 前記グルーピングを含むようワードの所与のシーケンスの前記コーパスを更新することと、
前記音声認識システムが前記所与の話された発声を転写するために、前記コーパスにおける検索スペースを少なくとも前記グルーピングに制限することとをさらに含む、請求項1に記載の方法。 - 前記コーパスにおける他のワードシーケンスに前記所与の話された発声をマッチングすることを試みる前に、前記グループピングのうちの1つに前記所与の話された発声をマッチングすることを、前記音声認識システムに試みさせることをさらに含む、請求項1に記載の方法。
- 前記検索クエリの送信の頻度を示す前記情報に基づいて前記グルーピングについてそれぞれの発生確率を割り当てることをさらに含み、前記それぞれの発生確率は時間変化する、請求項1に記載の方法。
- 前記検索クエリの送信の頻度を示す前記情報に基づいてそれぞれの発生確率を前記グルーピングに割り当てることと、
前記検索クエリの送信の頻度について更新された情報を連続的に受け取ることと、
前記更新された情報に基づいて前記それぞれの発生確率を更新することとをさらに含む、請求項1に記載の方法。 - 前記それぞれの発生確率は、前記更新された情報に基づいて、時間にわたって減衰する、請求項8に記載の方法。
- 前記コンピューティングデバイスは前記音声認識システムを含む、請求項1に記載の方法。
- 命令を格納したコンピュータ読取可能媒体であって、前記命令は、コンピューティングデバイスによって実行されると、前記コンピューティングデバイスに、
検索エンジンへの、ワードのシーケンスを含む検索クエリの送信の頻度を示す情報を受け取ることと、
前記検索クエリの送信の頻度がしきい値を越えることに基づいて、前記検索クエリのワードの前記シーケンスについて、1つ以上のワードが前記検索クエリのワードの前記シーケンスに発生する順番に基づく前記検索クエリの1つ以上のワードのグルーピングを決定することと、
ワードの所与のシーケンスのコーパスを更新するよう、音声認識システムに前記グルーピングを示す情報を提供することとを含む機能を行なわせ、前記音声認識システムは、ワードの所与のシーケンスの前記コーパスに基づいて、所与の話された発声をワードの所与のシーケンスに変換するように構成される、コンピュータ読取可能媒体。 - 前記グルーピングを決定する機能は、オートマトン状態およびオートマトン弧を含むファクタグラフを生成することを含み、前記オートマトン弧の各々は前記検索クエリのワードの前記シーケンスのワードに対応する、請求項11に記載のコンピュータ読取可能媒体。
- 前記グルーピングを決定する機能は、
第1のオートマトン状態に接続される第1のオートマトン弧によって表わされる第1のワードを選択することと、
前記第1のオートマトン状態に隣接する第2のオートマトン状態へと継続することと、
前記第2のオートマトン状態に接続される第2の弧によって表わされる第2のワードを選択することとを含み、前記第2のワードは、前記検索クエリのワードの前記シーケンスにおいて前記第1のワードに隣接する、請求項12に記載のコンピュータ読取可能媒体。 - 前記グルーピングの所与のグルーピングは、前記ファクタグラフにおいて任意の所与のオートマトン状態で始まるよう示される、請求項12に記載のコンピュータ読取可能媒体。
- デバイスであって、
少なくとも1つのプロセッサと、
データストレージと、
前記データストレージにおけるプログラム命令とを含み、前記プログラム命令は、前記少なくとも1つのプロセッサによる実行の際、前記デバイスに、
所与の期間における検索エンジンへの、ワードのシーケンスを含む検索クエリの送信の頻度を示す情報を受け取ることと、
前記所与の期間における前記検索エンジンへの前記検索クエリの送信の頻度を示す前記情報に基づいて、前記検索クエリのワードの前記シーケンスについて、1つ以上のワードが前記検索クエリのワードの前記シーケンスに発生する順番に基づく前記検索クエリの1つ以上のワードのグルーピングを決定することと、
ワードの所与のシーケンスのコーパスを更新するよう、音声認識システムに前記グルーピングを示す情報を提供することとを行わせ、前記音声認識システムは、ワードの所与のシーケンスの前記コーパスに基づいて、所与の話された発声をワードの所与のシーケンスに変換するように構成される、デバイス。 - 前記少なくとも1つのプロセッサによる実行の際の前記プログラム命令はさらに、前記デバイスに、前記所与の期間における前記検索エンジンへの前記検索クエリの送信の頻度を示す前記情報に基づいてメトリックを決定することを行わせ、
前記少なくとも1つのプロセッサによる実行の際の前記プログラム命令は、前記デバイスに、しきい値に対する前記メトリックの比較に基づいて前記グルーピングを決定することを行わせる、請求項15に記載のデバイス。 - 前記音声認識システムは、前記コーパスのワードの前記所与のシーケンスについての発生確率を含み、前記音声認識システムに前記グルーピングを提供するために、前記少なくとも1つのプロセッサによる実行の際の前記データストレージにおける前記プログラム命令は、前記デバイスに、前記グルーピングと、前記検索クエリの送信の頻度を示す前記情報とに基づいて前記発生確率を更新することを行わせる、請求項15に記載のデバイス。
- 前記音声認識システムは、前記コーパスのワードの前記所与のシーケンスについての発生確率を含み、前記音声認識システムに前記グルーピングを提供するために、前記少なくとも1つのプロセッサによる実行の際の前記データストレージにおける前記プログラム命令は、前記デバイスに、
前記グルーピングにより、ワードの所与のシーケンスの前記コーパスを増強することと、
前記コーパスにおけるワードの他のシーケンスの所与の発生確率より高いそれぞれの発生確率を前記グルーピングに割り当てることとを行わせる、請求項15に記載のデバイス。 - 前記グルーピングを決定するために、前記少なくとも1つのプロセッサによる実行の際の前記データストレージにおける前記プログラム命令は、前記デバイスに、オートマトン状態およびオートマトン弧を含むファクタグラフを生成することを行わせ、前記オートマトン弧の各々は前記検索クエリのワードの前記シーケンスのワードに対応する、請求項15に記載のデバイス。
- 前記グルーピングの所与のグルーピングを決定するために、前記少なくとも1つのプロセッサによる実行の際の前記データストレージにおける前記プログラム命令は、前記デバイスに、
第1のオートマトン状態に接続される第1のオートマトン弧によって表わされる第1のワードを選択することと、
前記第1のオートマトン状態に隣接する第2のオートマトン状態へと継続することと、
前記第2のオートマトン状態に接続される第2の弧によって表わされる第2のワードを選択することとを行わせ、前記第2のワードは、前記検索クエリのワードの前記シーケンスにおいて前記第1のワードに隣接し、前記所与のグルーピングは、前記ファクタグラフにおいて任意の所与のオートマトン状態で始まることを許容される、請求項19に記載のデバイス。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261715365P | 2012-10-18 | 2012-10-18 | |
US61/715,365 | 2012-10-18 | ||
US13/832,136 US8589164B1 (en) | 2012-10-18 | 2013-03-15 | Methods and systems for speech recognition processing using search query information |
US13/832,136 | 2013-03-15 | ||
PCT/US2013/064785 WO2014062545A1 (en) | 2012-10-18 | 2013-10-14 | Methods and systems for speech recognition processing using search query information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016500843A true JP2016500843A (ja) | 2016-01-14 |
JP6058807B2 JP6058807B2 (ja) | 2017-01-11 |
Family
ID=49555853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015537758A Active JP6058807B2 (ja) | 2012-10-18 | 2013-10-14 | 検索クエリ情報を使用する音声認識処理のための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (2) | US8589164B1 (ja) |
EP (1) | EP2909832B1 (ja) |
JP (1) | JP6058807B2 (ja) |
KR (1) | KR101585185B1 (ja) |
CN (2) | CN104854654B (ja) |
WO (1) | WO2014062545A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8914286B1 (en) * | 2011-04-14 | 2014-12-16 | Canyon IP Holdings, LLC | Speech recognition with hierarchical networks |
US9123333B2 (en) * | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US8589164B1 (en) * | 2012-10-18 | 2013-11-19 | Google Inc. | Methods and systems for speech recognition processing using search query information |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
US9697827B1 (en) * | 2012-12-11 | 2017-07-04 | Amazon Technologies, Inc. | Error reduction in speech processing |
KR101614756B1 (ko) * | 2014-08-22 | 2016-04-27 | 현대자동차주식회사 | 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10176219B2 (en) * | 2015-03-13 | 2019-01-08 | Microsoft Technology Licensing, Llc | Interactive reformulation of speech queries |
KR102437689B1 (ko) | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105416208A (zh) * | 2015-12-08 | 2016-03-23 | 延锋伟世通电子科技(上海)有限公司 | 车载语音识别电子娱乐控制系统 |
US10133821B2 (en) * | 2016-01-06 | 2018-11-20 | Google Llc | Search result prefetching of voice queries |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
US9959885B2 (en) * | 2016-03-08 | 2018-05-01 | Samsung Eletrônica Da Amazônia Ltda | Method for user context recognition using sound signatures |
US10037360B2 (en) * | 2016-06-20 | 2018-07-31 | Rovi Guides, Inc. | Approximate template matching for natural language queries |
CN106651517B (zh) * | 2016-12-20 | 2021-11-30 | 广东技术师范大学 | 一种基于隐半马尔可夫模型的药品推荐方法 |
KR102622356B1 (ko) | 2017-04-20 | 2024-01-08 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
CN107856499A (zh) * | 2017-11-07 | 2018-03-30 | 龙泉市日日新科技咨询服务有限公司 | 一种可语音控制的汽车空调 |
US10943603B2 (en) | 2018-01-31 | 2021-03-09 | Wells Fargo Bank, N.A. | Systems and methods for a neighborhood voice assistant |
US11200484B2 (en) * | 2018-09-06 | 2021-12-14 | International Business Machines Corporation | Probability propagation over factor graphs |
CN109388404B (zh) * | 2018-10-10 | 2022-10-18 | 北京如布科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
US12014740B2 (en) | 2019-01-08 | 2024-06-18 | Fidelity Information Services, Llc | Systems and methods for contactless authentication using voice recognition |
US12021864B2 (en) * | 2019-01-08 | 2024-06-25 | Fidelity Information Services, Llc. | Systems and methods for contactless authentication using voice recognition |
US11076219B2 (en) * | 2019-04-12 | 2021-07-27 | Bose Corporation | Automated control of noise reduction or noise masking |
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别系统 |
CN111326149A (zh) * | 2020-02-25 | 2020-06-23 | 青岛海尔空调器有限总公司 | 一种提高语音辨识率的优化方法及系统 |
CN111459960A (zh) * | 2020-03-31 | 2020-07-28 | 九牧厨卫股份有限公司 | 一种离线智能设备语料修改方法 |
CN111503855B (zh) * | 2020-04-29 | 2021-06-29 | 四川虹美智能科技有限公司 | 多联机空调的控制系统及控制方法 |
US11735180B2 (en) | 2020-09-24 | 2023-08-22 | International Business Machines Corporation | Synchronizing a voice reply of a voice assistant with activities of a user |
US11967306B2 (en) | 2021-04-14 | 2024-04-23 | Honeywell International Inc. | Contextual speech recognition methods and systems |
US20240062752A1 (en) * | 2022-08-22 | 2024-02-22 | Snap Inc. | Grouping similar words in a language model |
CN116682420B (zh) * | 2022-12-30 | 2024-04-05 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
JP2002245078A (ja) * | 2001-02-14 | 2002-08-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体 |
JP2006251298A (ja) * | 2005-03-10 | 2006-09-21 | Nissan Motor Co Ltd | 音声入力装置および音声入力方法 |
JP2007004281A (ja) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | 音声メール入力装置 |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
WO2008004663A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage |
JP2010146532A (ja) * | 2008-12-16 | 2010-07-01 | Yahoo Japan Corp | 音声検索装置、音声検索方法及び音声検索プログラム |
WO2012033820A2 (en) * | 2010-09-08 | 2012-03-15 | Nuance Communications, Inc. | Internet search related methods and apparatus |
JP2012093465A (ja) * | 2010-10-26 | 2012-05-17 | Yahoo Japan Corp | 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06250687A (ja) * | 1993-02-25 | 1994-09-09 | Nippondenso Co Ltd | 不特定話者用音声認識装置 |
DE19837102A1 (de) | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
US6266637B1 (en) | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
JP2000258653A (ja) * | 1999-03-04 | 2000-09-22 | Fuji Xerox Co Ltd | 光バス |
US7110945B2 (en) * | 1999-07-16 | 2006-09-19 | Dreamations Llc | Interactive book |
AU1767600A (en) * | 1999-12-23 | 2001-07-09 | Intel Corporation | Speech recognizer with a lexical tree based n-gram language model |
US20020087327A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented HTML pattern parsing method and system |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
AU2003272871A1 (en) * | 2002-10-18 | 2004-05-04 | Beijing Kexin Technology Co., Ltd. | Portable digital mobile communication apparatus, method for controlling speech and system |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7584098B2 (en) * | 2004-11-29 | 2009-09-01 | Microsoft Corporation | Vocabulary-independent search of spontaneous speech |
US20060190260A1 (en) * | 2005-02-24 | 2006-08-24 | Nokia Corporation | Selecting an order of elements for a speech synthesis |
CN1901041B (zh) * | 2005-07-22 | 2011-08-31 | 康佳集团股份有限公司 | 语音字典形成方法、语音识别系统及其方法 |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
CN101064105A (zh) * | 2006-04-25 | 2007-10-31 | 台达电子工业股份有限公司 | 字转音的使用者界面系统及修改方法 |
US7778837B2 (en) * | 2006-05-01 | 2010-08-17 | Microsoft Corporation | Demographic based classification for local word wheeling/web search |
US8694318B2 (en) * | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
CN101324806B (zh) * | 2007-06-14 | 2010-06-23 | 台达电子工业股份有限公司 | 用于移动搜寻的输入系统及其方法 |
CN101093478B (zh) * | 2007-07-25 | 2010-06-02 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
WO2009042148A1 (en) * | 2007-09-24 | 2009-04-02 | Jingle Networks, Inc. | Ordering directory assistance search results by local popularity of search results |
US8364694B2 (en) * | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
JP4691117B2 (ja) * | 2008-01-22 | 2011-06-01 | 日本電信電話株式会社 | テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体 |
US20090228280A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
US8037070B2 (en) * | 2008-06-25 | 2011-10-11 | Yahoo! Inc. | Background contextual conversational search |
US20090326947A1 (en) * | 2008-06-27 | 2009-12-31 | James Arnold | System and method for spoken topic or criterion recognition in digital media and contextual advertising |
CN101645066B (zh) * | 2008-08-05 | 2011-08-24 | 北京大学 | 一种互联网新颖词监测方法 |
US8131545B1 (en) | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
US8831944B2 (en) * | 2009-12-15 | 2014-09-09 | At&T Intellectual Property I, L.P. | System and method for tightly coupling automatic speech recognition and search |
US20120016671A1 (en) * | 2010-07-15 | 2012-01-19 | Pawan Jaggi | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions |
CN102467548B (zh) * | 2010-11-15 | 2015-09-16 | 腾讯科技(深圳)有限公司 | 一种新词的识别方法及系统 |
US20120290293A1 (en) * | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
CN102592595B (zh) * | 2012-03-19 | 2013-05-29 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
US8589164B1 (en) * | 2012-10-18 | 2013-11-19 | Google Inc. | Methods and systems for speech recognition processing using search query information |
-
2013
- 2013-03-15 US US13/832,136 patent/US8589164B1/en active Active
- 2013-09-24 US US14/035,083 patent/US8768698B2/en active Active
- 2013-10-14 CN CN201380064902.5A patent/CN104854654B/zh active Active
- 2013-10-14 KR KR1020157010022A patent/KR101585185B1/ko active IP Right Grant
- 2013-10-14 CN CN201610978352.3A patent/CN106847265B/zh active Active
- 2013-10-14 JP JP2015537758A patent/JP6058807B2/ja active Active
- 2013-10-14 EP EP13782920.6A patent/EP2909832B1/en active Active
- 2013-10-14 WO PCT/US2013/064785 patent/WO2014062545A1/en active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
JP2002245078A (ja) * | 2001-02-14 | 2002-08-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体 |
JP2006251298A (ja) * | 2005-03-10 | 2006-09-21 | Nissan Motor Co Ltd | 音声入力装置および音声入力方法 |
JP2007004281A (ja) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | 音声メール入力装置 |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
WO2008004663A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage |
JP2010146532A (ja) * | 2008-12-16 | 2010-07-01 | Yahoo Japan Corp | 音声検索装置、音声検索方法及び音声検索プログラム |
WO2012033820A2 (en) * | 2010-09-08 | 2012-03-15 | Nuance Communications, Inc. | Internet search related methods and apparatus |
JP2012093465A (ja) * | 2010-10-26 | 2012-05-17 | Yahoo Japan Corp | 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
Also Published As
Publication number | Publication date |
---|---|
WO2014062545A1 (en) | 2014-04-24 |
CN104854654B (zh) | 2016-12-21 |
US20140114661A1 (en) | 2014-04-24 |
JP6058807B2 (ja) | 2017-01-11 |
KR101585185B1 (ko) | 2016-01-13 |
US8768698B2 (en) | 2014-07-01 |
US8589164B1 (en) | 2013-11-19 |
CN104854654A (zh) | 2015-08-19 |
EP2909832A1 (en) | 2015-08-26 |
CN106847265B (zh) | 2020-08-18 |
KR20150048252A (ko) | 2015-05-06 |
CN106847265A (zh) | 2017-06-13 |
EP2909832B1 (en) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6058807B2 (ja) | 検索クエリ情報を使用する音声認識処理のための方法およびシステム | |
US9123333B2 (en) | Minimum bayesian risk methods for automatic speech recognition | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
US8805684B1 (en) | Distributed speaker adaptation | |
US8996366B2 (en) | Multi-stage speaker adaptation | |
US8423351B2 (en) | Speech correction for typed input | |
JP2018026127A (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US8965763B1 (en) | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training | |
US8849668B2 (en) | Speech recognition apparatus and method | |
US10152298B1 (en) | Confidence estimation based on frequency | |
US9972314B2 (en) | No loss-optimization for weighted transducer | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
CN117043859A (zh) | 查找表循环语言模型 | |
CN105632500B (zh) | 语音识别装置及其控制方法 | |
US11626107B1 (en) | Natural language processing | |
KR102699035B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
US11627185B1 (en) | Wireless data protocol | |
US20240185839A1 (en) | Modular Training for Flexible Attention Based End-to-End ASR | |
US20240185844A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text presentations | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20151007 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151019 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160923 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20161003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6058807 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |