JP3955880B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3955880B2 JP3955880B2 JP2006547696A JP2006547696A JP3955880B2 JP 3955880 B2 JP3955880 B2 JP 3955880B2 JP 2006547696 A JP2006547696 A JP 2006547696A JP 2006547696 A JP2006547696 A JP 2006547696A JP 3955880 B2 JP3955880 B2 JP 3955880B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- appearance probability
- acquired
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 22
- 238000005259 measurement Methods 0.000 claims description 14
- 239000013589 supplement Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 230000003442 weekly effect Effects 0.000 description 10
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 6
- 230000000153 supplemental effect Effects 0.000 description 6
- HEVGGTGPGPKZHF-UHFFFAOYSA-N Epilaurene Natural products CC1C(=C)CCC1(C)C1=CC=C(C)C=C1 HEVGGTGPGPKZHF-UHFFFAOYSA-N 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の実施の形態1に係る音声認識装置について、図1〜5を用いて説明する。実施の形態1における音声認識装置は、例えば、ユーザが携帯する情報端末に内蔵され、ユーザが店舗にて買い物を行う際の情報検索や音声通訳などの用途に応用され、ユーザが所望の商品に関する問合せを行う発声を認識する。この音声認識装置は、無線通信等によって、言語モデルの調整対象とする単語を外部から取得する。取得単語としては、各店舗にて扱う商品の商品名、ブランド名などが想定され、例えば、ユーザが店舗に入ったときに、その店舗に設置された情報提供サーバから無線通信等によってユーザの情報端末に提供される。
(1)第一の調整例は、言語モデル調整部110が特定した単語出現確率をNグラム言語モデルにおけるユニグラム値(確率)として用いる例である。
この第一の調整例では、言語モデル調整部110が特定した「マルフローレン」の単語出現確率を上記ユニグラム値P(マルフローレン)として言語モデル格納部104に格納する。
なお、P(これ|"文頭")は、文頭に単語「これ」が出現する確率を示し、P(は|これ)は、単語「これ」に続いて単語「は」が出現する確率を示し、P(マルフローレン|は)は、単語「は」に続いて単語「マルフローレン」が出現する確率を示す(以下、同様)。
ここで、上記式における左辺は、単語wnのNグラム値であり、右辺の第1項は、実際のサンプルデータから推定されたNグラム値に混合係数λ(0≦λ≦1)を乗じた値であり、右辺の第2項は、(N−1)グラム値に混合係数(1−λ)を乗じた値である。
この第二の調整例では、上記式におけるユニグラム値P(wn)として、言語モデル調整部110が特定した単語出現確率を用いる。これによって、バイグラム、あるいは、より高次のNグラムモデルに対応した言語モデルの調整が可能となる。
(3)第三の調整例は、言語モデル調整部110が特定した単語出現確率をNグラムクラスモデルにおけるクラスに属する語彙の単語出現確率として用いる調整例である。
ここで、上記式における左辺は、単語wnのNグラム値であり、右辺の第1項は、単語wnがクラスcnから生起される確率であり、下記式に示されるように、学習データ中に単語wnが出現した回数C(wn)をクラスcnの単語が出現した回数C(cn)で除した値であり、右辺の第2項は、クラスを対象としたNグラム値である。
この第三の調整例では、言語モデル調整部110は、特定した単語出現確率をそのクラスに属する語彙の単語出現確率値と相対化することによって上記確率P(wn|cn)を決定し、言語モデル格納部104に格納する。これによって、Nグラムクラスモデルに対応した言語モデルの調整が可能となる。
次に、本発明の実施の形態2に係る音声認識装置について、図1、および、図6〜7を用いて説明する。実施の形態2における音声認識装置は、デジタルテレビ受信録画装置に内蔵されており、ユーザがEPGを利用して所望のテレビ番組を検索、録画、または、再生するなどの用途に応用され、ユーザがこれら用途のために発声する番組名や出演者名含む音声を認識する。この音声認識装置の構成は、機能的には、先の実施の形態1と同様である。ただし、単語出現確率時間特性格納部106に格納されている単語出現確率時間特性等の具体的なデータがデジタルテレビ受信録画装置用のものになっている点で実施の形態1と異なる。以下、実施の形態1と異なる点を中心に説明する。
102 照合部
103 音響モデル格納部
104 言語モデル格納部
105 取得単語信号受信解析部
106 単語出現確率時間特性格納部
107 取得単語語彙記憶部
108 取得単語付帯情報記憶部
109 取得後経過時間計測部
110 言語モデル調整部
Claims (7)
- 音声信号を認識し、認識した結果を出力する音声認識装置であって、
単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段と、
入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識手段と、
外部から単語を取得する単語取得手段と、
前記単語取得手段によって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整手段とを備え、
前記認識手段は、前記言語モデル調整手段によって調整された言語モデルを用いて前記単語又は単語列を特定する
ことを特徴とする音声認識装置。 - 前記単語取得手段は、前記単語の意味カテゴリーを示す情報を前記単語付帯情報として取得し、
前記言語モデル調整手段は、前記単語付帯情報が示す意味カテゴリーごとに、前記言語モデルにおける前記出現確率を変化させる
ことを特徴とする請求項1記載の音声認識装置。 - 前記単語取得手段は、前記単語がいずれの場所で取得されたか示す情報を前記単語付帯情報として取得し、
前記言語モデル調整手段は、前記単語付帯情報が示す単語取得場所ごとに、前記言語モデルにおける前記出現確率を変化させる
ことを特徴とする請求項1記載の音声認識装置。 - 前記単語取得手段は、前記単語とともに、当該単語に付帯する事項を示す単語付帯情報を取得し、
前記言語モデル調整手段は、
単語付帯情報ごとに、単語が取得されてからの経過時間に伴って単語の出現確率がどのように変化するかを示す単語出現確率時間特性を格納している単語出現確率時間特性格納部と、
前記単語取得手段によって取得された単語と単語付帯情報とを対応づけて記憶する単語記憶部と、
前記単語取得手段によって単語が取得されてからの経過時間を単語ごとに計測する経過時間計測部と、
前記単語記憶部に記憶されている単語について、当該単語の単語付帯情報に対応する単語出現確率時間特性を前記単語出現確率時間特性格納部に格納されている単語出現確率時間特性の中から特定し、特定した単語出現確率時間特性を用いて前記経過時間計測部によって計測された当該単語の経過時間に対応する単語の出現確率を特定し、特定した出現確率を用いて前記言語モデルを調整する調整部とを有する
ことを特徴とする請求項1記載の音声認識装置。 - 前記調整部は、特定した前記単語の出現確率が一定のしきい値よりも小さい場合に、前記単語記憶部に記憶されている前記単語、前記単語の単語付帯情報、前記経過時間計測部に保持されている前記単語の経過時間、及び、前記言語モデル格納手段に格納されている前記単語の言語モデルのいずれか又は全てを削除する
ことを特徴とする請求項4記載の音声認識装置。 - 単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を用いて音声を認識する方法であって、
入力された音声信号の特徴量を抽出し、抽出した特徴量を前記言語モデル格納手段に格納された言語モデルと照合することによって前記音声信号に対応した単語又は単語列を特定し、特定した単語又は単語列を音声認識結果として出力する認識ステップと、
外部から単語を取得する単語取得ステップと、
前記単語取得ステップによって単語が取得されてからの経過時間に伴い前記言語モデルにおける前記出現確率が一定の経過時間後に最大となるように、前記出現確率を変化させることによって前記言語モデルを調整する言語モデル調整ステップとを含み、
前記認識ステップでは、前記言語モデル調整ステップによって調整された言語モデルを用いて前記単語又は単語列を特定する
ことを特徴とする音声認識方法。 - 単語又は単語列ごとの出現確率を示す言語モデルを格納している言語モデル格納手段を備える音声認識装置のためのプログラムであって、
請求項6記載の音声認識方法に含まれるステップをコンピュータに実行させる
ことを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004347420 | 2004-11-30 | ||
JP2004347420 | 2004-11-30 | ||
PCT/JP2005/020126 WO2006059451A1 (ja) | 2004-11-30 | 2005-11-01 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3955880B2 true JP3955880B2 (ja) | 2007-08-08 |
JPWO2006059451A1 JPWO2006059451A1 (ja) | 2008-06-05 |
Family
ID=36564888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006547696A Active JP3955880B2 (ja) | 2004-11-30 | 2005-11-01 | 音声認識装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7848927B2 (ja) |
JP (1) | JP3955880B2 (ja) |
WO (1) | WO2006059451A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015526797A (ja) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | 動的言語モデル |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
JP5196114B2 (ja) * | 2007-07-17 | 2013-05-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US10140983B2 (en) | 2015-08-28 | 2018-11-27 | International Business Machines Corporation | Building of n-gram language model for automatic speech recognition (ASR) |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
JP6833203B2 (ja) * | 2017-02-15 | 2021-02-24 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 |
CN110705279A (zh) * | 2018-07-10 | 2020-01-17 | 株式会社理光 | 一种词汇表的选择方法、装置及计算机可读存储介质 |
EP3644215A1 (en) | 2018-10-22 | 2020-04-29 | Verint Americas Inc. | Automated system and method to prioritize language model and ontology expansion and pruning |
US11138968B2 (en) * | 2018-11-30 | 2021-10-05 | Google Llc | Speech processing |
US11769012B2 (en) * | 2019-03-27 | 2023-09-26 | Verint Americas Inc. | Automated system and method to prioritize language model and ontology expansion and pruning |
CN113763938B (zh) * | 2021-10-27 | 2024-06-07 | 杭州网易智企科技有限公司 | 语音识别方法、介质、装置和计算设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3283359B2 (ja) | 1993-09-28 | 2002-05-20 | マツダ株式会社 | 音声対話式ナビゲーション装置 |
JP3836607B2 (ja) | 1998-09-02 | 2006-10-25 | 日本放送協会 | 音声認識のための統計的言語モデル作成装置 |
JP2001022374A (ja) | 1999-07-05 | 2001-01-26 | Victor Co Of Japan Ltd | 電子番組ガイドの操作装置および電子番組ガイドの送信装置 |
JP3563018B2 (ja) | 2000-07-21 | 2004-09-08 | シャープ株式会社 | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
JP2004198831A (ja) | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
WO2004075168A1 (ja) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置及び音声認識方法 |
US7734996B2 (en) * | 2003-09-08 | 2010-06-08 | Nec Corporation | Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program |
JP3923513B2 (ja) * | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
-
2005
- 2005-11-01 US US11/791,110 patent/US7848927B2/en active Active
- 2005-11-01 WO PCT/JP2005/020126 patent/WO2006059451A1/ja not_active Application Discontinuation
- 2005-11-01 JP JP2006547696A patent/JP3955880B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015526797A (ja) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | 動的言語モデル |
US10140362B2 (en) | 2012-06-21 | 2018-11-27 | Google Llc | Dynamic language model |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006059451A1 (ja) | 2008-06-05 |
WO2006059451A1 (ja) | 2006-06-08 |
US20080046244A1 (en) | 2008-02-21 |
US7848927B2 (en) | 2010-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3955880B2 (ja) | 音声認識装置 | |
US8666743B2 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP5697860B2 (ja) | 情報検索装置,情報検索方法及びナビゲーションシステム | |
JP3716870B2 (ja) | 音声認識装置および音声認識方法 | |
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
JP5266761B2 (ja) | 情報案内システムおよびその認識辞書データベース更新方法 | |
JP4816409B2 (ja) | 認識辞書システムおよびその更新方法 | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
JP4802434B2 (ja) | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US20010041977A1 (en) | Information processing apparatus, information processing method, and storage medium | |
Gauvain et al. | Large-vocabulary continuous speech recognition: advances and applications | |
US20010053974A1 (en) | Speech recognition apparatus, speech recognition method, and recording medium | |
US11705116B2 (en) | Language and grammar model adaptation using model weight data | |
US7912707B2 (en) | Adapting a language model to accommodate inputs not found in a directory assistance listing | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
Wang | Mandarin spoken document retrieval based on syllable lattice matching | |
JP2007187975A (ja) | 音声認識装置および音声認識方法 | |
JP4611823B2 (ja) | 音声認識候補文字列選択装置 | |
JP2003255980A (ja) | 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 | |
Koržinek et al. | Automatic transcription of Polish radio and television broadcast audio | |
CN116246611A (zh) | 用于确定车辆域的方法和用于车辆的语音识别系统 | |
JP2003263187A (ja) | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 | |
JP2013156360A (ja) | 音声認識装置、カーナビゲーション装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3955880 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110511 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110511 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130511 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130511 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |