JP2010091675A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2010091675A JP2010091675A JP2008259708A JP2008259708A JP2010091675A JP 2010091675 A JP2010091675 A JP 2010091675A JP 2008259708 A JP2008259708 A JP 2008259708A JP 2008259708 A JP2008259708 A JP 2008259708A JP 2010091675 A JP2010091675 A JP 2010091675A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- result
- language model
- speech
- statistical language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Traffic Control Systems (AREA)
- Instructional Devices (AREA)
- Navigation (AREA)
Abstract
【解決手段】入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、同じ入力音声に対し前記両音声認識手段が音声認識した認識結果を入力し、認識結果の表記の言語的妥当性を評価して、その評価結果に基づいて前記両音声認識手段から出力される認識スコアを修正し、修正結果により認識結果を選択する結果選択手段を備える。
【選択図】図1
Description
この発明は上記課題を解決するためになされたもので、単語間の接続に確率情報を使用しない構文規則型の言語モデルと、単語トライグラム言語モデルのように言語尤度の算出基準が異なる複数個の言語モデルを用いて得られた複数個の認識結果から、最も適切な認識結果を選択し認識性能を改善した音声認識装置を得ることを目的とする。
入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果を入力し、認識結果の表記の言語的妥当性を評価して、その評価結果に基づいて前記両音声認識手段から出力される認識スコアを修正し、修正結果により認識結果を選択する結果選択手段を備える。
本実施の形態では、カーナビゲーションシステム向けの音声認識を例にとり説明する。カーナビゲーションシステムでは「東京都千代田区丸の内」など住所発話のような定型発話と、「画面3次元表示」、「地図を立体表示に切り替え」など、比較的非定型なナビゲーション操作コマンドが音声認識対象となることが考えられる。そこで本実施の形態では音声認識手段として、構文規則型の言語モデルを用いる構文規則型認識手段と、統計言語モデルを用いる統計言語モデル型認識手段の2つを備えるものとする。
そして構文規則型認識では住所を認識対象、統計言語モデル型認識ではナビゲーションの画面表示切替やオーディオ、ラジオの操作等、カーナビゲーションシステムを制御するコマンドを認識対象とすることとして説明する。
同図において、1は音声の入力端、2は入力音声、3は音響分析手段、4は特徴ベクトルの時系列、5は統計言語モデル型認識手段、6は構文規則型認識手段、7は結果選択手段、8は統計言語モデル、9は構文規則、10は学習例文、11は音響モデル、12は認識結果である。
音響モデル11は音声の特徴をモデル化したデータであり、本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
音声の入力端1から音声2を入力すると音響分析手段3は音響分析を行い、音声2を特徴ベクトルの時系列4に変換して出力する。前記特徴ベクトルは例えばLPC(Linear Predictive Coding)ケプストラムとする。
例えば認識結果がWt=「地図,を,拡大,表示」である場合、前記単語列は図4に示すとおり、学習例文10中に存在するため、言語尤度の重み係数は0になる。
本実施の形態は前記実施の形態1に、単語カテゴリ変換テーブル13を新たに付加したものである。本実施の形態による音声認識装置の構成例を図7に示す。また単語カテゴリ変換テーブル13の内容例を図8に示す。単語カテゴリ変換テーブル13には単語の表記とカテゴリ名がペアで記述されている。
まず認識処理の開始する前に事前に、単語カテゴリ変換テーブル13を参照し、学習例文10の内容を単語から施設名や放送局名等のカテゴリに変換しておく。図4に示した学習例文10の内容の変換例を図9に示す。本実施の形態では単語カテゴリ変換テーブル13において「駐車場」のカテゴリが「施設」として登録されているので、元の例文「近くの駐車場までの経路を設定」が「近くの<施設>までの経路を設定」に変換されている。ここで<>はカテゴリに変換したことを示す記号である。
統計言語モデル8と構文規則9は、実施の形態1と同様に、認識処理の事前に作成しておく。
このようにすると、学習例文10も図9に示すとおり、「近くの駐車場までの経路を設定」という元の例文が「近くの<施設>までの経路を設定」という例文に事前に変換されているため、前記認識結果Wtが学習例文10中に存在することになり、学習例文10を少ない文で効率的に表現できる効果がある。
このようにネットワーク形式で表現すると、一部の単語のみが異なる複数の学習例文同士の共通部分をまとめて表現できるため、学習例文10の記憶領域を少なくできる効果がある。
本実施の形態は前記実施の形態1の音声認識装置から学習例文10を取り除き、結果選択手段7が学習例文10の代わりに統計言語モデル8を参照するようにしたものである。本実施の形態の音声認識装置の構成例を図11に示す。
統計言語モデル8と構文規則9は、実施の形態1と同様に、認識処理の事前に作成しておく。
一方、前記未知n-gram数Nuが1以上の場合は統計言語モデル型認識の結果は言語的に不自然である可能性があるため、前記言語重み係数をc=γ(但し,γはγ>βを満たす定数)とし、かつ未知n-gramペナルティPuを(5)式に従って計算する(図12のST204)。
また実施の形態1と比較すると、学習例文10中に存在するか否かを調べる必要がないので演算量・メモリ量を抑えることができる
Claims (4)
- 入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果を入力して、認識結果の表記の言語的妥当性を評価し、その評価結果に基づいて前記両音声認識手段から出力される認識スコアを修正し、修正結果により認識結果を選択する結果選択手段を備えたことを特徴とする音声認識装置。 - 前記統計言語モデル作成時に使用する学習データから抽出した学習例文を備え、前記結果選択手段は、前記統計言語モデル型認識手段の認識結果の表記、あるいは表記の上位概念である品詞またはクラスの系列が前記学習例文中に存在するか否かを、前記言語的妥当性の評価尺度として用いることを特徴とする請求項1記載の音声認識装置。
- 前記結果選択手段は、前記統計言語モデル型認識手段の認識結果の表記中の形態素列の各n組連鎖が前記統計言語モデル中に存在するか否かを調べ、存在しないn組連鎖の個数を前記言語的妥当性の評価尺度として用いることを特徴とする請求項1記載の音声認識装置。
- 前記結果選択手段は、前記存在しないn組連鎖の個数が0個の場合と1以上の場合とで、前記統計言語モデル型認識手段から出力される認識スコアの修正方法として異なる修正方法を用いることを特徴とする請求項3記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008259708A JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008259708A JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010091675A true JP2010091675A (ja) | 2010-04-22 |
JP5274191B2 JP5274191B2 (ja) | 2013-08-28 |
Family
ID=42254477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259708A Expired - Fee Related JP5274191B2 (ja) | 2008-10-06 | 2008-10-06 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5274191B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101329281B1 (ko) * | 2010-10-26 | 2013-11-13 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
WO2014136222A1 (ja) * | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN107796415A (zh) * | 2016-09-07 | 2018-03-13 | 阿尔派株式会社 | 导航装置及其显示控制方法 |
CN110738989A (zh) * | 2019-10-21 | 2020-01-31 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN111144359A (zh) * | 2019-12-31 | 2020-05-12 | 安徽智恒信科技股份有限公司 | 一种展品评价装置和方法及展品推送方法 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN117633225A (zh) * | 2023-11-30 | 2024-03-01 | 北京智谱华章科技有限公司 | 一种针对中文大语言模型的对齐测评方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JP2000221991A (ja) * | 1999-01-28 | 2000-08-11 | Denso Corp | 適正単語列推定装置 |
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005084681A (ja) * | 2003-09-05 | 2005-03-31 | Internatl Business Mach Corp <Ibm> | 意味的言語モデル化および信頼性測定のための方法およびシステム |
-
2008
- 2008-10-06 JP JP2008259708A patent/JP5274191B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JP2000221991A (ja) * | 1999-01-28 | 2000-08-11 | Denso Corp | 適正単語列推定装置 |
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005084681A (ja) * | 2003-09-05 | 2005-03-31 | Internatl Business Mach Corp <Ibm> | 意味的言語モデル化および信頼性測定のための方法およびシステム |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101329281B1 (ko) * | 2010-10-26 | 2013-11-13 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
US9293142B2 (en) | 2012-10-02 | 2016-03-22 | Denso Corporation | Voice recognition system |
WO2014136222A1 (ja) * | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN105009206A (zh) * | 2013-03-06 | 2015-10-28 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
JP5868544B2 (ja) * | 2013-03-06 | 2016-02-24 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9431010B2 (en) | 2013-03-06 | 2016-08-30 | Mitsubishi Electric Corporation | Speech-recognition device and speech-recognition method |
CN105009206B (zh) * | 2013-03-06 | 2018-02-09 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN107796415A (zh) * | 2016-09-07 | 2018-03-13 | 阿尔派株式会社 | 导航装置及其显示控制方法 |
CN110738989A (zh) * | 2019-10-21 | 2020-01-31 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN110738989B (zh) * | 2019-10-21 | 2021-12-07 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN111144359A (zh) * | 2019-12-31 | 2020-05-12 | 安徽智恒信科技股份有限公司 | 一种展品评价装置和方法及展品推送方法 |
CN111144359B (zh) * | 2019-12-31 | 2023-06-30 | 安徽智恒信科技股份有限公司 | 一种展品评价装置和方法及展品推送方法 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
WO2022037419A1 (zh) * | 2020-08-18 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN111986655B (zh) * | 2020-08-18 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
US11783808B2 (en) | 2020-08-18 | 2023-10-10 | Beijing Bytedance Network Technology Co., Ltd. | Audio content recognition method and apparatus, and device and computer-readable medium |
CN117633225A (zh) * | 2023-11-30 | 2024-03-01 | 北京智谱华章科技有限公司 | 一种针对中文大语言模型的对齐测评方法 |
CN117633225B (zh) * | 2023-11-30 | 2024-05-28 | 北京智谱华章科技有限公司 | 一种针对中文大语言模型的对齐测评方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5274191B2 (ja) | 2013-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6929466B2 (ja) | 音声認識システム | |
Rao et al. | Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer | |
JP5274191B2 (ja) | 音声認識装置 | |
JP5258959B2 (ja) | 音声認識装置 | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
US8311825B2 (en) | Automatic speech recognition method and apparatus | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2001249684A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
Tanaka et al. | Neural speech-to-text language models for rescoring hypotheses of dnn-hmm hybrid automatic speech recognition systems | |
Réveil et al. | An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JPH11143493A (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2012255867A (ja) | 音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Wang | Using graphone models in automatic speech recognition | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130514 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5274191 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |