JP2005221727A - 音声認識システム、音声認識方法および音声認識用プログラム - Google Patents
音声認識システム、音声認識方法および音声認識用プログラム Download PDFInfo
- Publication number
- JP2005221727A JP2005221727A JP2004029143A JP2004029143A JP2005221727A JP 2005221727 A JP2005221727 A JP 2005221727A JP 2004029143 A JP2004029143 A JP 2004029143A JP 2004029143 A JP2004029143 A JP 2004029143A JP 2005221727 A JP2005221727 A JP 2005221727A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- input speech
- model
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明の音声認識システムは、入力音声の先頭の所定区間においては、複数の音響モデルを全て用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部104と仮説処理部106で行う。なお、先頭の所定区間の音響尤度計算処理が終了した時点で音響尤度の計算結果が良い音響モデルがモデル判別部108で選択されている。それ以降の区間においては、モデル判別部108で選択された音響モデルのみを用いて音響尤度計算処理および仮説処理をそれぞれ音響尤度計算部104と仮説処理部106で行う。
【選択図】図1
Description
図3は、本発明の第1実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、図1に示した入力音声101の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図1に示したモデル判別部108を、話者のモデルを判別する話者判別部308に置き換え、また、音響モデル格納部105を、男性話者モデルを格納する男性話者モデル格納部305Aと女性話者モデルを格納する女性話者モデル格納部305Bとに置き換える。なお、図3において、マイクロフォン302、特徴抽出部303、音響尤度計算部304、仮説処理部306、言語モデル格納部307は、それぞれ、図1に示したマイクロフォン102、特徴抽出部103、音響尤度計算部104、仮説処理部106、言語モデル格納部107に相当する。
図4は、本発明の第2実施例による音声認識システムの構成を示すブロック図である。この音声認識システムは、第1の実施例と同様に、図1に示した入力音声101の具体例として不特定話者の音声を用いることにより、モデル判別の対象を話者とし、また、音響モデルの具体例として男性話者モデルと女性話者モデルとを用いることにより、話者判別の対象を性別とする。それに伴い、図1に示したモデル判別部108を、話者のモデルを判別する話者判別部408に置き換え、また、音響モデル格納部105を、男性話者モデルを格納する男性話者モデル格納部405Aと女性話者モデルを格納する女性話者モデル格納部405Bとに置き換える。なお、図4において、マイクロフォン402、特徴抽出部403、音響尤度計算部404、仮説処理部406、言語モデル格納部407は、それぞれ、図1に示したマイクロフォン102、特徴抽出部103、音響尤度計算部104、仮説処理部106、言語モデル格納部107に相当する。さらに、この音声認識システムは、話者判別部408で選択しようとしているモデルの平均音響尤度が所定の閾値を超えているか判定する閾値判定部410も新たに備えられている。
102 マイクロフォン
103 特徴抽出部
104 音響尤度計算部
105 音響モデル格納部
106 仮説処理部
107 言語モデル格納部
108 モデル判別部
109 音声認識結果
201〜208 ステップ
301 入力音声
302 マイクロフォン
303 特徴抽出部
304 音響尤度計算部
305A 男性話者モデル格納部
305B 女性話者モデル格納部
306 仮説処理部
307 言語モデル格納部
308 話者判別部
309 音声認識結果
401 入力音声
402 マイクロフォン
403 特徴抽出部
404 音響尤度計算部
405A 男性話者モデル格納部
405B 女性話者モデル格納部
406 仮説処理部
407 言語モデル格納部
408 話者判別部
409 音声認識結果
410 閾値判定部
Claims (15)
- 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムにおいて、
前記入力音声の特徴量に対し、前記複数の音響モデルとの音響尤度を計算する音響尤度計算手段と、
前記音響尤度計算手段にて前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記音響尤度計算手段にて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行うモデル判別手段と、
前記音響尤度計算手段にて前記入力音声の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記モデル判別手段にて選択された音響モデルに対して計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する仮説処理手段とを有し、
前記音響尤度計算手段は、前記入力音声の先頭の所定区間では、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算し、前記入力音声の先頭以降の所定区間では、前記入力音声の特徴量に対し、前記モデル判別手段にて選択された音響モデルのみとの音響尤度を計算することを特徴とする音声認識システム。 - 前記音響尤度計算手段は、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項1に記載の音声認識システム。
- 前記モデル判別手段によるモデル判別の対象が話者である、請求項1または2に記載の音声認識システム。
- 前記モデル判別手段による話者判別の対象が、性別、年齢別、または方言別である、請求項3に記載の音声認識システム。
- 前記モデル判別手段によるモデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項1または2に記載の音声認識システム。
- 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行う音声認識システムによる音声認識方法において、
音響尤度計算手段が、前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第1のステップと、
モデル判別手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第1のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第2のステップと、
仮説処理手段が、前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第1のステップで計算された音響尤度を用いて仮説処理を行う第3のステップと、
前記音響尤度計算手段が、前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第2のステップで選択された音響モデルのみとの音響尤度を計算する第4のステップと、
前記仮説処理手段が、前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第4のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第5のステップとを有することを特徴とする音声認識方法。 - 前記第1のステップおよび前記第4のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項6に記載の音声認識方法。
- 前記第2のステップでは、モデル判別の対象が話者である、請求項6または7に記載の音声認識方法。
- 前記第2のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項8に記載の音声認識方法。
- 前記第2のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項6または7に記載の音声認識方法。
- 複数の音響モデルの中から入力音声の音響モデルを判別、選択しながら、当該入力音声の音声認識を行うコンピュータに実行させる音声認識用プログラムにおいて、
前記入力音声の先頭の所定区間で、前記入力音声の特徴量に対し、前記複数の音響モデルの全てとの音響尤度を各々計算する第1のステップと、
前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第1のステップにて計算された音響尤度に基づいて、前記入力音声の音響モデルの判別、選択を行う第2のステップと、
前記入力音声の先頭の所定区間分の音響尤度計算が終了した時点で、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第1のステップで計算された音響尤度を用いて仮説処理を行う第3のステップと、
前記入力音声の先頭以降の所定区間で、前記入力音声の特徴量に対し、前記第2のステップで選択された音響モデルのみとの音響尤度を計算する第4のステップと、
前記入力音声の先頭以降の所定区間分の音響尤度計算が終了する度に、当該所定区間内に前記第2のステップで選択された音響モデルに対して前記第4のステップで計算された音響尤度を用いて仮説処理を行い、前記入力音声の全区間の仮説処理が終了した後に、仮説処理結果に基づく音声認識結果を出力する第5のステップとを前記コンピュータに実行させることを特徴とする音声認識用プログラム。 - 前記第1のステップおよび前記第4のステップでは、前記入力音声の特徴量に対する音響尤度計算を時間同期で行う、請求項11に記載の音声認識用プログラム。
- 前記第2のステップでは、モデル判別の対象が話者である、請求項11または12に記載の音声認識用プログラム。
- 前記第2のステップでは、話者判別の対象が、性別、年齢別、または方言別である、請求項13に記載の音声認識用プログラム。
- 前記第2のステップでは、モデル判別の対象が、雑音環境、伝送特性、言語、またはそれらの組み合わせである、請求項11または12に記載の音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029143A JP4583772B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システム、音声認識方法および音声認識用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029143A JP4583772B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システム、音声認識方法および音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005221727A true JP2005221727A (ja) | 2005-08-18 |
JP4583772B2 JP4583772B2 (ja) | 2010-11-17 |
Family
ID=34997414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004029143A Expired - Fee Related JP4583772B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システム、音声認識方法および音声認識用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4583772B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
JP2009300716A (ja) * | 2008-06-13 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラムとその記録媒体 |
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
JP2011527030A (ja) * | 2008-07-02 | 2011-10-20 | グーグル・インコーポレーテッド | 並列認識タスクを用いた音声認識 |
US8682668B2 (en) | 2008-05-16 | 2014-03-25 | Nec Corporation | Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium |
JP2014215578A (ja) * | 2013-04-30 | 2014-11-17 | 日本電信電話株式会社 | 音響モデル選択装置とその方法とプログラム |
JP2016520879A (ja) * | 2013-12-19 | 2016-07-14 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 地方なまりを区別する音声データ認識方法、装置及びサーバ |
JP2020060757A (ja) * | 2018-10-05 | 2020-04-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置、話者認識方法、及び、プログラム |
JP2021092817A (ja) * | 2019-03-28 | 2021-06-17 | 国立研究開発法人情報通信研究機構 | 言語識別装置及び言語を判定する方法 |
-
2004
- 2004-02-05 JP JP2004029143A patent/JP4583772B2/ja not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
JP4717872B2 (ja) * | 2006-12-06 | 2011-07-06 | 韓國電子通信研究院 | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
US8682668B2 (en) | 2008-05-16 | 2014-03-25 | Nec Corporation | Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium |
JP2009300716A (ja) * | 2008-06-13 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラムとその記録媒体 |
JP4729078B2 (ja) * | 2008-06-13 | 2011-07-20 | 日本電信電話株式会社 | 音声認識装置とその方法と、プログラムとその記録媒体 |
JP2017076139A (ja) * | 2008-07-02 | 2017-04-20 | グーグル インコーポレイテッド | 並列認識タスクを用いた音声認識 |
JP2011527030A (ja) * | 2008-07-02 | 2011-10-20 | グーグル・インコーポレーテッド | 並列認識タスクを用いた音声認識 |
JP2013238885A (ja) * | 2008-07-02 | 2013-11-28 | Google Inc | 並列認識タスクを用いた音声認識 |
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
JP2014215578A (ja) * | 2013-04-30 | 2014-11-17 | 日本電信電話株式会社 | 音響モデル選択装置とその方法とプログラム |
JP2016520879A (ja) * | 2013-12-19 | 2016-07-14 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 地方なまりを区別する音声データ認識方法、装置及びサーバ |
JP2020060757A (ja) * | 2018-10-05 | 2020-04-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置、話者認識方法、及び、プログラム |
JP7326033B2 (ja) | 2018-10-05 | 2023-08-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識装置、話者認識方法、及び、プログラム |
JP2021092817A (ja) * | 2019-03-28 | 2021-06-17 | 国立研究開発法人情報通信研究機構 | 言語識別装置及び言語を判定する方法 |
JP7454857B2 (ja) | 2019-03-28 | 2024-03-25 | 国立研究開発法人情報通信研究機構 | 言語識別装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4583772B2 (ja) | 2010-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6772198B2 (ja) | 言語モデルスピーチエンドポインティング | |
US8612224B2 (en) | Speech processing system and method | |
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
US10506088B1 (en) | Phone number verification | |
WO2017084334A1 (zh) | 一种语种识别方法、装置、设备及计算机存储介质 | |
EP1489598A1 (en) | Speech recognition and conversation control | |
JPH05197389A (ja) | 音声認識装置 | |
JP2000029495A (ja) | ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
EP3739583A1 (en) | Dialog device, dialog method, and dialog computer program | |
JP4583772B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP5549506B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2002149186A (ja) | 識別可能な適合に関する代替の単語列の選択 | |
US11348579B1 (en) | Volume initiated communications | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4475628B2 (ja) | 会話制御装置、会話制御方法並びにこれらのプログラム | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
JP2001092488A (ja) | 統計的言語モデル生成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090121 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090323 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090501 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090529 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4583772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |