JP5274191B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP5274191B2 JP5274191B2 JP2008259708A JP2008259708A JP5274191B2 JP 5274191 B2 JP5274191 B2 JP 5274191B2 JP 2008259708 A JP2008259708 A JP 2008259708A JP 2008259708 A JP2008259708 A JP 2008259708A JP 5274191 B2 JP5274191 B2 JP 5274191B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- language model
- result
- statistical language
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は上記課題を解決するためになされたもので、単語間の接続に確率情報を使用しない構文規則型の言語モデルと、単語トライグラム言語モデルのように言語尤度の算出基準が異なる複数個の言語モデルを用いて得られた複数個の認識結果から、最も適切な認識結果を選択し認識性能を改善した音声認識装置を得ることを目的とする。
入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果の単語列と認識スコアを入力し、統計言語モデル型認識手段の認識結果について、その表記、あるいは表記の上位概念である品詞またはクラスの系列が、前記統計言語モデル作成時に使用する学習データから抽出された学習例文中に存在するか否かにより言語的妥当性を評価し、その評価結果に基づいて前記入力された統計言語モデル型認識手段の認識結果の認識スコアを修正し、この修正された認識スコアと、前記構文規則型認識手段の認識結果の認識スコアを比較し、前記両音声認識手段の何れかの認識結果を選択する結果選択手段を備える。
本実施の形態では、カーナビゲーションシステム向けの音声認識を例にとり説明する。カーナビゲーションシステムでは「東京都千代田区丸の内」など住所発話のような定型発話と、「画面3次元表示」、「地図を立体表示に切り替え」など、比較的非定型なナビゲーション操作コマンドが音声認識対象となることが考えられる。そこで本実施の形態では音声認識手段として、構文規則型の言語モデルを用いる構文規則型認識手段と、統計言語モデルを用いる統計言語モデル型認識手段の2つを備えるものとする。
そして構文規則型認識では住所を認識対象、統計言語モデル型認識ではナビゲーションの画面表示切替やオーディオ、ラジオの操作等、カーナビゲーションシステムを制御するコマンドを認識対象とすることとして説明する。
同図において、1は音声の入力端、2は入力音声、3は音響分析手段、4は特徴ベクトルの時系列、5は統計言語モデル型認識手段、6は構文規則型認識手段、7は結果選択手段、8は統計言語モデル、9は構文規則、10は学習例文、11は音響モデル、12は認識結果である。
音響モデル11は音声の特徴をモデル化したデータであり、本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
音声の入力端1から音声2を入力すると音響分析手段3は音響分析を行い、音声2を特徴ベクトルの時系列4に変換して出力する。前記特徴ベクトルは例えばLPC(Linear Predictive Coding)ケプストラムとする。
例えば認識結果がWt=「地図,を,拡大,表示」である場合、前記単語列は図4に示すとおり、学習例文10中に存在するため、言語尤度の重み係数は0になる。
本実施の形態は前記実施の形態1に、単語カテゴリ変換テーブル13を新たに付加したものである。本実施の形態による音声認識装置の構成例を図7に示す。また単語カテゴリ変換テーブル13の内容例を図8に示す。単語カテゴリ変換テーブル13には単語の表記とカテゴリ名がペアで記述されている。
まず認識処理の開始する前に事前に、単語カテゴリ変換テーブル13を参照し、学習例文10の内容を単語から施設名や放送局名等のカテゴリに変換しておく。図4に示した学習例文10の内容の変換例を図9に示す。本実施の形態では単語カテゴリ変換テーブル13において「駐車場」のカテゴリが「施設」として登録されているので、元の例文「近くの駐車場までの経路を設定」が「近くの<施設>までの経路を設定」に変換されている。ここで<>はカテゴリに変換したことを示す記号である。
統計言語モデル8と構文規則9は、実施の形態1と同様に、認識処理の事前に作成しておく。
このようにすると、学習例文10も図9に示すとおり、「近くの駐車場までの経路を設定」という元の例文が「近くの<施設>までの経路を設定」という例文に事前に変換されているため、前記認識結果Wtが学習例文10中に存在することになり、学習例文10を少ない文で効率的に表現できる効果がある。
このようにネットワーク形式で表現すると、一部の単語のみが異なる複数の学習例文同士の共通部分をまとめて表現できるため、学習例文10の記憶領域を少なくできる効果がある。
本実施の形態は前記実施の形態1の音声認識装置から学習例文10を取り除き、結果選択手段7が学習例文10の代わりに統計言語モデル8を参照するようにしたものである。本実施の形態の音声認識装置の構成例を図11に示す。
統計言語モデル8と構文規則9は、実施の形態1と同様に、認識処理の事前に作成しておく。
一方、前記未知n-gram数Nuが1以上の場合は統計言語モデル型認識の結果は言語的に不自然である可能性があるため、前記言語重み係数をc=γ(但し,γはγ>βを満たす定数)とし、かつ未知n-gramペナルティPuを(5)式に従って計算する(図12のST204)。
また実施の形態1と比較すると、学習例文10中に存在するか否かを調べる必要がないので演算量・メモリ量を抑えることができる
Claims (3)
- 入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果の単語列と認識スコアを入力し、統計言語モデル型認識手段の認識結果について、その表記、あるいは表記の上位概念である品詞またはクラスの系列が、前記統計言語モデル作成時に使用する学習データから抽出された学習例文中に存在するか否かにより言語的妥当性を評価し、その評価結果に基づいて前記入力された統計言語モデル型認識手段の認識結果の認識スコアを修正し、この修正された認識スコアと、前記構文規則型認識手段の認識結果の認識スコアを比較し、前記両音声認識手段の何れかの認識結果を選択する結果選択手段を備えたことを特徴とする音声認識装置。 - 前記結果選択手段は、請求項1記載の結果選択手段に代え、前記統計言語モデル型認識手段の認識結果の表記中の形態素列の各n組連鎖が前記統計言語モデル中に存在するか否かを調べ、存在しないn組連鎖の個数を前記言語的妥当性の評価に用いる構成とされたことを特徴とする請求項1記載の音声認識装置。
- 前記結果選択手段は、前記存在しないn組連鎖の個数が0個の場合と1以上の場合とで、前記統計言語モデル型認識手段から出力される認識スコアの修正方法として異なる修正方法を用いることを特徴とする請求項2記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008259708A JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008259708A JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010091675A JP2010091675A (ja) | 2010-04-22 |
JP5274191B2 true JP5274191B2 (ja) | 2013-08-28 |
Family
ID=42254477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259708A Expired - Fee Related JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5274191B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101329281B1 (ko) * | 2010-10-26 | 2013-11-13 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
JP6155592B2 (ja) * | 2012-10-02 | 2017-07-05 | 株式会社デンソー | 音声認識システム |
DE112013006770B4 (de) | 2013-03-06 | 2020-06-18 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
CN107796415B (zh) * | 2016-09-07 | 2022-11-18 | 阿尔派株式会社 | 导航装置及其显示控制方法 |
CN110738989B (zh) * | 2019-10-21 | 2021-12-07 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN111144359B (zh) * | 2019-12-31 | 2023-06-30 | 安徽智恒信科技股份有限公司 | 一种展品评价装置和方法及展品推送方法 |
CN111986655B (zh) | 2020-08-18 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JP4244423B2 (ja) * | 1999-01-28 | 2009-03-25 | 株式会社デンソー | 適正単語列推定装置 |
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
US7475015B2 (en) * | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
-
2008
- 2008-10-06 JP JP2008259708A patent/JP5274191B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010091675A (ja) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5258959B2 (ja) | 音声認識装置 | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
WO2019116604A1 (en) | Speech recognition system | |
JP5274191B2 (ja) | 音声認識装置 | |
WO2013154010A1 (ja) | 音声認識サーバ統合装置および音声認識サーバ統合方法 | |
US20090099841A1 (en) | Automatic speech recognition method and apparatus | |
US20060064177A1 (en) | System and method for measuring confusion among words in an adaptive speech recognition system | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
EP1215662A1 (en) | Speech recognition device and speech recognition method, and recording medium | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2001249684A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
Neubig et al. | Learning a language model from continuous speech | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
Tanaka et al. | Neural speech-to-text language models for rescoring hypotheses of dnn-hmm hybrid automatic speech recognition systems | |
Réveil et al. | An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130514 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5274191 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |