JPH10274996A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10274996A
JPH10274996A JP9081700A JP8170097A JPH10274996A JP H10274996 A JPH10274996 A JP H10274996A JP 9081700 A JP9081700 A JP 9081700A JP 8170097 A JP8170097 A JP 8170097A JP H10274996 A JPH10274996 A JP H10274996A
Authority
JP
Japan
Prior art keywords
speech
recognition
vocabulary
input
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9081700A
Other languages
English (en)
Other versions
JP3825526B2 (ja
Inventor
Yasuyuki Masai
康之 正井
Shinichi Tanaka
信一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP08170097A priority Critical patent/JP3825526B2/ja
Publication of JPH10274996A publication Critical patent/JPH10274996A/ja
Application granted granted Critical
Publication of JP3825526B2 publication Critical patent/JP3825526B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】認識装置を使用するときの読みの記憶違い等に
よる誤認識の削減を図る。 【解決手段】入力音声を音響分析部102で音響分析し
て求めた特徴パラメータ系列を、音声モデル作成・記憶
部104にて予め作成して記憶しておいた各認識語彙を
構成する全てのキーワードの音声モデルとモデル照合部
102で照合して入力音声を認識する音声認識装置にお
いて、上記各キーワードのうち音としての類似性のある
キーワード相互間の変換を行う機能を持つキーワード変
換部105をキーワード拡張部107が利用して、モデ
ル照合部102での照合で認識されたキーワードを音と
しての類似性のある別のキーワードに変換することで当
該モデル照合部102で認識されたキーワードを拡張
し、ここで拡張されたキーワードから認識結果出力部1
08が認識結果を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声を音響分
析して求めた特徴パラメータ系列を予め作成しておいた
各認識語彙を構成するキーワードの音声モデルと照合し
て、入力音声を認識する音声認識装置に係り、特に認識
語彙の読みの登録間違いや、装置使用時の読みの記憶違
いによる誤認識を削減するのに好適な音声認識装置に関
する。
【0002】
【従来の技術】一般に、入力音声を認識する音声認識装
置では、当該装置での認識対象となる語彙(認識語彙)
の読みを入力することで、その読みから、対応する認識
語彙を構成するキーワードの音声モデルを予め作成し、
入力音声の認識のため記憶しておくようになっている。
この種の音声認識装置での入力音声の認識は、次のよう
に行われる。
【0003】まず入力音声を音響分析して特徴パラメー
タ系列を求める。次に、求めた入力音声の特徴パラメー
タ系列を予め作成しておいた各認識語彙を構成するキー
ワードの音声モデルと照合して、入力音声を認識する。
【0004】このような音声認識装置においては、従来
は、認識語彙の読みを誤って登録した場合には、使用時
に正しい読みを発声しても正しく認識できないという問
題があった。また、認識語彙の登録時には正しい読みを
登録しておいても、使用時に誤った読みを発声すると正
しく認識されないという問題もあった。
【0005】
【発明が解決しようとする課題】上記したように従来の
音声認識装置では、認識語彙の読みを誤って登録する
と、使用時に正しい読みを発声しても正しく認識でき
ず、逆に認識語彙の登録時に正しい読みを登録しておい
ても、使用時に誤った読みを発声すると正しく認識され
ないという問題があった。
【0006】本発明は上記事情を考慮してなされたもの
でその目的は、認識語彙の読みの登録間違いや、装置使
用時の読みの記憶違い等に起因する認識性能の低下を防
ぐことができる音声認識装置を提供することにある。
【0007】本発明の他の目的は、利用者が、認識語彙
の読みを誤って登録することを未然に防止でき、また、
使用時に誤った読みで発声しても正しく認識できる音声
認識装置を提供することにある。本発明の更に他の目的
は、利用者による認識候補の選択が誤りなく効率的に行
える音声認識装置を提供することにある。
【0008】
【課題を解決するための手段】本発明の第1の観点に係
る音声認識装置は、入力音声を音響分析して求めた特徴
パラメータ系列を予め作成しておいた各認識語彙を構成
するキーワードの音声モデルと照合して、入力音声を認
識する音声認識装置において、上記各キーワードのうち
音としての類似性のあるキーワード相互間の変換を行う
ためのキーワード変換手段と、上記認識したキーワード
を上記キーワード変換手段を用いて音としての類似性の
ある別のキーワードに変換することで認識したキーワー
ドを拡張するキーワード拡張手段と、上記拡張されたキ
ーワードから認識結果を決定する認識結果出力手段とを
備えたことを特徴とする。ここで、音としての類似性が
あることの判定条件として、上記各キーワードのうち、
キーワードの読みが異なる音節数が所定数以下、例えば
1音節以下のキーワード同士であることを適用するとよ
い。
【0009】このような構成においては、キーワードを
音としての類似性に着目して拡張することにより、キー
ワードの認識誤りや話者の言い間違いによる認識性能の
低下を効果的に防ぐことが可能となる。
【0010】本発明の第2の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた認識語彙の音声モデルと照合し
て、入力音声を認識する音声認識装置において、上記音
声モデルとの照合により得られる認識した音声の先頭の
音節と最後の音節が一致することを制約として、入力音
声の最初の音節を認識する認識結果出力手段を備えたこ
とを特徴とする。
【0011】このような構成においては、入力音声の先
頭の音節と最後の音節が一致するという制約のもとで入
力音声の先頭の音節を認識することにより、非常に精度
の高い音節認識を実現できる。また、各音節を入力する
ときに発声する言葉を覚える必要がないので、誰でもす
ぐに使用することができる。
【0012】本発明の第3の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた、認識語彙の別称の音声モデルを
含む各認識語彙の音声モデルと照合して、入力音声を認
識する音声認識装置において、登録する認識語彙の正し
い読みに加えて、誤読されやすい読みを別称として登録
する別称登録手段と、別称として登録される読みが認識
語彙の読みと類似しているか否かを判定する登録語彙類
似性判定手段と、この登録語彙類似性判定手段により類
似していると判定された場合に、その旨の警告を出力す
る警告出力手段と、上記別称登録手段により登録された
別称の読みの音声モデルとの照合で入力音声が認識され
た場合、その読みを別称とする語彙を認識する認識結果
出力手段とを備えたことを特徴とする。
【0013】このような構成においては、認識語彙入力
手段から入力して登録される認識語彙の別称を別称登録
手段により登録する際に、別称が他の語彙と類似してい
ないかを登録語彙類似性判定手段にて判断し、警告出力
手段から利用者に知らせることにより、別称登録による
認識性能の低下を未然に防ぐことができる。このとき、
該当する別称登録を中止させるとよい。
【0014】本発明の第4の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
を予め作成しておいた各認識語彙を構成するキーワード
の音声モデルと照合して、入力音声を認識する音声認識
装置において、複数のキーワードが組み合わされたキー
ワード列からなる音声の認識結果を複数候補出力する際
に、意味的に同じキーワード別に、そのキーワードの確
からしさ順にソートして出力するキーワード別認識結果
出力手段を備えたことを特徴とする。
【0015】このような構成においては、キーワード別
に複数の認識結果を類似度の大きい順(あるいは距離の
小さい順)に出力することにより、候補選択を効率よく
行うことができる。
【0016】本発明の第5の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
と予め作成しておいた、認識語彙の別称の音声モデルを
含む各認識語彙の音声モデルと照合して、入力音声を認
識する音声認識装置において、登録する認識語彙の正し
い読みに加えて、誤読されやすい読みを別称として登録
する別称登録手段と、別称として登録してある読みを認
識したときに、正しい読みを利用者に提示する認識結果
出力手段を備えたことを特徴とする。
【0017】このような構成においては、別称での読み
の音声モデルとの照合に基づく認識結果出力時に、正し
い読みを出力することにより、話者が別称で覚えていた
言葉の正しい読みを当該話者に覚えさせることができ、
以後正しい読みで入力できるようになる。
【0018】本発明の第6の観点に係る音声認識装置
は、認識語彙入力手段から入力される認識語彙の読みの
表記をもとに音声モデルを作成して記憶しておき、入力
音声を音響分析して求めた特徴パラメータ系列を上記記
憶しておいた各音声モデルと照合して、入力音声を認識
する音声認識装置において、上記認識語彙入力手段から
入力される認識語彙の読みの表記を音声に変換して出力
する音声出力手段を備えたことを特徴とする。
【0019】このような構成においては、認識語彙入力
手段から認識語彙として例えば「竹芝」の読みを登録す
るときに、誤って「たけしぱ」と入力すると、音声出力
手段により「たけしぱ」と音声で出力されるので、話者
(認識語彙登録者)は読みの入力間違いに容易に気づく
ことができ、読みの入力誤りによる認識性能の低下を未
然に防ぐことができる。
【0020】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識装置の概略構成を示すブロック図である。
【0021】図1の音声認識装置において、音声入力部
101から入力された音声は、音響分析部102で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、LPC(線形予測)分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。
【0022】音響分析部102は求めた入力音声の特徴
パラメータ系列をモデル照合部103に出力する。モデ
ル照合部103は、認識語彙入力部105から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部104に記憶しておいた認識対象とするキーワード
(認識語彙を構成するキーワード)の各音声モデルと上
記入力音声の特徴パラメータ系列との類似度あるいは距
離を求める演算を行う。
【0023】モデル照合部103の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0024】認識語彙入力部105は、認識語彙と、認
識語彙を構成する各キーワードの音声モデルを作成する
ために必要な、認識語彙の各キーワードへの分割情報
(キーワード分割情報)と、各キーワードの読み情報と
を入力するためのものであり、キーボードやファイルな
どで実現することができる。認識語彙入力部105から
入力された認識語彙は認識語彙記憶部109に登録され
る。
【0025】キーワード変換部106は、認識語彙入力
部105から入力されたキーワード分割情報から各キー
ワードを抽出し、キーワード間の音の類似性と品詞など
の属性に基づいて選択される、例えば音の類似性があっ
て且つ品詞が同じキーワードの変換テーブル(キーワー
ド変換テーブル)106aを作成し、記憶しておくため
のものである。
【0026】キーワード拡張部107は、モデル照合部
103で得られた(類似度あるいは距離付きの)キーワ
ードを、キーワード変換部106によりキーワード変換
テーブル106aに従って音の類似性のある他のキーワ
ードに変換させ、キーワードの拡張を行う。
【0027】認識結果出力部108は、モデル照合部1
03で求めた各音声モデルとキーワード拡張部107で
拡張して得られたキーワードが組み合わされたキーワー
ド列に対する類似度(あるいは距離)をある条件(例え
ば類似度の大きさ)のもとでソーティングして、認識語
彙記憶部109に記憶されている認識語彙の中で、類似
度が最大(あるいは距離が最小)となる認識対象のカテ
ゴリを認識結果として出力する。なお、上記ソーティン
グの制約として、例えば人の氏名は、会社名より優先さ
せるなどを適用してもよい。
【0028】以上に述べた図1の構成の音声認識装置の
具体的動作を、当該音声認識装置で認識対象とする語
彙、即ち認識語彙が、「佐藤商店」、「加籐食堂」、
「田中書店」の3種類である場合を例にとり説明する。
【0029】この場合、認識語彙入力部105から上記
3種類の認識語彙が入力されることになるが、本実施形
態では、その認識語彙を構成する各キーワードの音声モ
デルが(音声モデル作成・記憶部104にて)作成可能
なように、「佐藤‐商店」、「加籐‐食堂」、「田中‐
書店」のように、認識語彙中にキーワード分割記号(キ
ーワード分割情報)「‐」が挿入されて入力される。
【0030】音声モデル作成・記憶部104は、認識語
彙入力部105からキーワード分割記号「‐」が挿入さ
れた認識語彙「佐藤‐商店」、「加籐‐食堂」、「田中
‐書店」が入力されると、各認識語彙について、その語
彙中に挿入されたキーワード分割記号「‐」に従って、
その語彙を構成するキーワードに分割する。ここでは、
上記3種類の認識語彙が、「佐藤」、「加籐」、「田
中」、「商店」、「食堂」、「書店」の6つのキーワー
ドに分割される。音声モデル作成・記憶部104は、こ
の6つのキーワード「佐藤」、「加籐」、「田中」、
「商店」、「食堂」、「書店」について、それぞれ音声
モデルを作成し、記憶する。
【0031】これと同時に、キーワード変換部106
は、認識語彙入力部105から入力されたキーワード分
割記号付きの認識語彙「佐藤‐商店」、「加籐‐食
堂」、「田中‐書店」から得られる上記6つのキーワー
ド「佐藤」、「加籐」、「田中」、「商店」、「食
堂」、「書店」について音声の類似性を調べて、類似性
のあるキーワードを抽出し、キーワード変換テーブル1
06aを作成する。ここでは、キーワード変換テーブル
106aの作成規則を、キーワードの読みが異なる音節
数が所定数以下、例えば1音節以下のキーワード同士を
音声の類似性ありとして、当該テーブル106aに登録
するものとする。この場合、「佐藤」と「加藤」、「商
店」と「書店」が類似性ありと抽出され、図2に示すよ
うなキーワード変換テーブル106aが作成される。
【0032】すると、音声認識時に、例えば「佐藤商
店」と入力された場合に、モデル照合部103での照合
結果が「佐藤」と「書店」であったとすると、キーワー
ド拡張部107では、「佐藤」と「書店」について、キ
ーワード変換部106によりキーワード変換テーブル1
06aに従う「佐藤→加籐」、「書店→商店」のキーワ
ード変換を行わせ、モデル照合部103での照合結果と
して「佐藤」と「書店」の他に、「加籐」と「商店」も
あるかのように、キーワードの拡張を行う。
【0033】キーワード拡張部107により拡張された
キーワードの組み合わせの中には、認識語彙記憶部10
9に記憶されている認識語彙と一致するものとして、
「佐藤商店」がある。したがって、モデル照合部103
での照合結果が「佐藤」と「書店」であったにも拘ら
ず、認識結果出力部108では、「佐藤商店」を正しく
認識して出力することができる。
【0034】これに対し、キーワード変換部106とキ
ーワード拡張部107がなく、キーワードの拡張が行わ
れない場合には、モデル照合部103での照合結果であ
る「佐藤」と「書店」で構成される「佐藤書店」は認識
語彙記憶部109には存在しないので、「佐藤商店」を
正しく認識することはできない。
【0035】なお、キーワード変換により得られたキー
ワードの音声モデルとの照合では、類似度を一定値ある
いは一定割合低くするとよい。以上は、話者が「佐藤商
店」と発声したのに対して、モデル照合部103で「佐
藤」「書店」と誤った照合結果が得られた場合でも、音
の類似性に着目したキーワードの拡張により「佐藤商
店」を正しく認識できる例について述べた。本実施形態
では、同様にして、話者が「佐藤商店」を「佐藤書店」
と言い間違った場合にも、音の類似性に着目したキーワ
ードの拡張により「佐藤商店」を正しく認識することが
できる。
【0036】このように本実施形態においては、キーワ
ードを音としての類似性に着目して拡張することによ
り、キーワードの認識誤りや話者の言い間違いによる認
識性能の低下を効果的に防ぐことができる。 [第2の実施形態]図3は本発明の第2の実施形態に係
る音声認識装置の概略構成を示すブロック図である。
【0037】図3の音声認識装置において、音声入力部
201から入力された音声は、音響分析部202で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、LPC(線形予測)分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。
【0038】音響分析部202は求めた入力音声の特徴
パラメータ系列をモデル照合部203に出力する。モデ
ル照合部203は、音声モデル記憶部204に記憶され
ている全ての音節の任意の長さの音節列の音声モデルと
特徴パラメータ系列の類似度あるいは距離を求める演算
を行う。
【0039】モデル照合部203の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0040】認識結果出力部205は、モデル照合部2
03での照合結果をもとに、制約条件記憶部206に記
憶されている制約条件に従って、例えば先頭の音節と最
後の音節が一致する音節列について、類似度(あるいは
距離)をある条件のもとでソーティングして、類似度が
最大(あるいは距離が最小)となる音節列の先頭の音節
を認識結果として出力する。
【0041】以上に述べた図3の構成の音声認識装置の
具体的動作を、例えば、「あさひ(朝日)のあ」と発声
した場合を例にとり説明する。まず、話者が「あさひ
(朝日)のあ」と発声した結果、モデル照合部203に
て図4に示すような音節列と類似度、即ち類似度が86
の音節列「あ」「さ」「ひ」「の」「あ」と、類似度が
92の音節列「う」「さ」「ひ」「の」「あ」とが得ら
れたとする。
【0042】この場合、入力音声の先頭の音節と最後の
音節が一致するという制約を設けないで、認識結果出力
部205から類似度が最大となる音節列の先頭の音節を
認識結果として出力するならば、入力音声の先頭の音節
とは異なる誤った音節「う」が出力されることになる。
【0043】これに対して本実施形態では、制約条件記
憶部206に記憶されている制約条件により、先頭と最
後の音節が一致するという制約を設けてあるため、認識
結果出力部205での認識結果は音節「あ」となり、入
力音声の先頭の音節を正しく認識することができる。し
かも、先頭と最後の音節が一致するという制約のもと
で、入力音声の最初の音節を認識することから、この例
のように音節「あ」を入力するときに発声する音声は、
「朝日のあ」だけではなく、「あひるのあ」、更には
「あじあ(アジア)」など、単に先頭の音節と最後の音
節が同じであればよい。
【0044】このように本実施形態においては、入力音
声の先頭の音節と最後の音節が一致するという制約のも
とで入力音声の先頭の音節を認識することにより、非常
に精度の高い音節認識を実現できる。また、各音節を入
力するときに発声する言葉を覚える必要がないので、誰
でもすぐに使用することができる。 [第3の実施形態]図5は本発明の第3の実施形態に係
る音声認識装置の概略構成を示すブロック図である。
【0045】図5の音声認識装置において、音声入力部
301から入力された音声は、音響分析部302で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、LPC(線形予測)分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。
【0046】音響分析部302は求めた入力音声の特徴
パラメータ系列をモデル照合部203に出力する。モデ
ル照合部303は、認識語彙入力部305から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部304に記憶しておいた認識対象とするキーワードの
各音声モデルと上記入力音声の特徴パラメータ系列との
類似度あるいは距離を求める演算を行う。
【0047】モデル照合部303の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0048】認識結果出力部308は、モデル照合部3
03で求めた各認識語彙に対する類似度が最大(あるい
は距離が最小)となる語彙を認識結果として出力する。
認識語彙入力部305は、認識したい語彙とその読みを
登録するためのものであり、キーボードやファイルなど
で実現することができる。
【0049】一方、例えば登録したい地名として、認識
語彙入力部305から「神戸(かんべ)」を登録する際
に、「神戸」の読みとしては「こうべ」の方が一般的で
あり、「こうべ」と誤読される可能性が高いと判断した
場合には、「神戸(かんべ)」の誤読されやすい読み、
即ち別称として「こうべ」を別称登録部306から登録
する。この別称登録部306を、例えばキーボードで構
成して、利用者からの当該キーボードの操作により別称
を登録(入力)するようにするしてもよいし、語彙から
その読みを検索することができるテーブルを予め作成し
て別称登録部306に設けておき、複数の読みが存在す
る場合には、別称をそのテーブルから別称登録部306
内部で自動生成(入力)する構成としてもよい。
【0050】登録語彙類似性判定部307は、認識語彙
入力部305から登録された全ての語彙の読みと別称登
録部306での別称登録により登録される読みとの類似
性を判断する。もし、別称登録される読みとの類似性の
ある(読みが登録された)語彙が存在する場合には、登
録語彙類似性判定部307は警告出力部309により利
用者に警告したり、別称の登録の中止を行う。この登録
語彙類似性判定部307での読みの類似性の判定には、
例えば読みの音節の相違が1音節以下などの条件が適用
可能である。
【0051】このように本実施形態においては、認識語
彙入力部305から入力して登録される認識語彙の別称
を別称登録部306により登録する際に、別称が他の語
彙と類似していないかを登録語彙類似性判定部307に
て判断し、警告出力部309から利用者に知らせること
により、別称登録による認識性能の低下を未然に防ぐこ
とができる。例えば、上記した「神戸(かんべ)」では
なくて、一般的な神戸(こうべ)」が認識語彙として登
録されているにも拘らず、「神戸」の別称として「こう
べ」を登録した場合には、「神戸(かんべ)」と「神戸
(こうべ)」の識別はできなくなるが、図5の音声認識
装置では、このような問題を回避することができる。
【0052】なお、別称登録部306により登録される
別称に類似の認識語彙がない場合、例えば認識語彙「神
戸(かんべ)」の別称として「こうべ」を登録する場合
には、登録語彙類似性判定部307にて類似語彙がない
ものと判断されて別称登録が許可され、音声モデル作成
・記憶部304には、認識語彙「神戸(かんべ)」の音
声モデルとは別に、認識語彙「神戸(かんべ)」の別称
「こうべ」の音声モデルが記憶される。この場合、「神
戸(かんべ)」を誤って「こうべ」と発声しても、モデ
ル照合部303で(音声モデル作成・記憶部304内
の)「神戸(かんべ)」の別称の「こうべ」(の音声モ
デル)と照合されることで、「神戸(かんべ)」が認識
される。 [第4の実施形態]図6は本発明の第4の実施形態に係
る音声認識装置の概略構成を示すブロック図である。
【0053】図6の音声認識装置において、音声入力部
401から入力された音声は、音響分析部402で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、LPC(線形予測)分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。
【0054】音響分析部402は求めた入力音声の特徴
パラメータ系列をモデル照合部403に出力する。モデ
ル照合部403は、認識語彙入力部405から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部404に記憶しておいた認識対象とするキーワード
(認識語彙を構成するキーワード)の各音声モデルと上
記入力音声の特徴パラメータ系列との類似度あるいは距
離を求める演算を行う。
【0055】モデル照合部403の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0056】キーワード別認識結果出力部406は、モ
デル照合部403で求めた各キーワードに対する類似度
(あるいは距離)に従い、認識語彙入力部405から入
力されて認識語彙記憶部407に記憶されている語彙を
意味的に同じキーワード別にソーテイングし、類似度が
最大(あるいは距離が最小)となる複数の語彙を認識結
果として出力する。
【0057】例えば、認識語彙記憶部407内に、認識
語彙として「田中ホテル」、「佐藤ホテル」、「加籐ホ
テル」、「田中酒店」、「佐藤酒店」、「田中ガソリン
スタンド」の6種類が登録されている場合に、音声認識
するキーワードとして、「田中」「佐藤」「加籐」「ホ
テル」「酒店」、「ガソリンスタンド」の6つキーワー
ドを考える。
【0058】ここで、もし「田中ホテル」と発声された
場合に、モデル照合部403にて得られる認識結果と類
似度が図7に示すようになったものとする。この場合、
キーワード別認識結果出力部406が、図8(b)に示
すように、単純にキーワードが組み合わされた(認識語
彙記憶部407に記憶されている語彙に一致する)キー
ワード列に対する類似度の和の大きい順に複数の候補を
出力したのでは(従来の出力方式)、「ホテル」や「酒
店」が混在しているため候補選択時にわかりにくいとい
う問題がある。
【0059】これに対して本実施形態では、キーワード
別認識結果出力部406は、例えば業種を表すキーワー
ドの類似度が予め定められた閾値以上となるキーワード
列を、当該業種を表すキーワード別に出力する。例え
ば、類似度が100以上の業種を表すキーワード別(こ
こでは「ホテル」と「酒店」の各キーワード別)に表示
すると、図8(b)のように表示することができ、視認
性良く候補を表示することができる。
【0060】このように本実施形態においては、キーワ
ード別に複数の認識結果を類似度の大きい順(あるいは
距離の小さい順)に出力することにより、候補選択を効
率よく行うことができる。 [第5の実施形態]図9は本発明の第5の実施形態に係
る音声認識装置の概略構成を示すブロック図である。
【0061】図9の音声認識装置において、音声入力部
501から入力された音声は、音響分析部502で特徴
パラメータに変換される。音声認識に使用される代表的
な特徴パラメータとしては、バンドパスフィルタやフー
リエ変換によって求めることができるパワースペクトル
や、LPC(線形予測)分析によって求めたケプストラ
ム係数などがよく用いられるが、ここではその特徴パラ
メータの種類は問わない。
【0062】音響分析部502は求めた入力音声の特徴
パラメータ系列をモデル照合部503に出力する。モデ
ル照合部503は、認識語彙入力部505から入力され
た認識語彙に従って予め作成して音声モデル作成・記憶
部504に記憶しておいた認識対象とするキーワードの
各音声モデル(ここでは、認識語彙の別称の音声モデル
を含む各認識語彙の音声モデル)と上記入力音声の特徴
パラメータ系列の類似度あるいは距離を求める演算を行
う。
【0063】モデル照合部503の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0064】認識語彙入力部505は、認識したい語彙
とその読みを登録するためのものであり、キーボードや
ファイルなどで実現することができる。一方、例えば登
録したい地名として、認識語彙入力部505から「神戸
(かんべ)」を登録する際に、「神戸」の読みとしては
「こうべ」の方が一般的であり、「こうべ」と誤読され
る可能性が高いと判断した場合には、「神戸(かん
べ)」の誤読されやすい読み、即ち別称として「こう
べ」を別称登録部506から登録する。この別称登録部
506を、例えばキーボードで構成して、利用者からの
当該キーボードの操作により別称を登録(入力)するよ
うにするしてもよいし、語彙からその読みを検索するこ
とができるテーブルを予め作成して別称登録部506に
設けておき、複数の読みが存在する場合には、別称をそ
のテーブルから別称登録部506内部で自動生成(入
力)する構成としてもよい。
【0065】別称登録部506から認識語彙「神戸(か
んべ)」の別称として「こうべ」を登録すると、音声モ
デル作成・記憶部504には、認識語彙「神戸(かん
べ)」の音声モデルとは別に、認識語彙「神戸(かん
べ)」の別称「こうべ」の音声モデルが記憶される。こ
こで、「こうべ」の音声モデルには、「神戸(かん
べ)」の別称であることを示すフラグ情報が付される。
【0066】そこで、「神戸(かんべ)」を誤って「こ
うべ」と発声しても、モデル照合部503で(音声モデ
ル作成・記憶部504内の)「神戸(かんべ)」の別称
の「こうべ」の音声モデルと照合されることで、「神戸
(かんべ)」が認識される。ここで、「こうべ」の音声
モデルには、上記したように「神戸(かんべ)」の別称
であることを示すフラグ情報が付加されており、モデル
照合部503で「こうべ」の音声モデルとの照合が行わ
れた場合、その照合結果には当該フラグ情報が付されて
認識結果出力部507に渡される。これにより認識結果
出力部507は、モデル照合部503で認識されたキー
ワードは正しい読みでなくて別称であることを識別し、
認識結果「神戸」に正しい読み「かんべ」を付加して、
表示または音声で出力する。
【0067】このように本実施形態においては、認識結
果出力時に、正しい読みを出力することにより、話者が
別称で覚えていた言葉の正しい読みを当該話者に覚えさ
せることができ、以後正しい読みで入力できるようにな
る。 [第6の実施形態]図10は本発明の第6の実施形態に
係る音声認識装置の概略構成を示すブロック図である。
【0068】図10の音声認識装置において、音声入力
部601から入力された音声は、音響分析部602で特
徴パラメータに変換される。音声認識に使用される代表
的な特徴パラメータとしては、バンドパスフィルタやフ
ーリエ変換によって求めることができるパワースペクト
ルや、LPC(線形予測)分析によって求めたケプスト
ラム係数などがよく用いられるが、ここではその特徴パ
ラメータの種類は問わない。
【0069】音響分析部602は求めた入力音声の特徴
パラメータ系列をモデル照合部603に出力する。モデ
ル照合部603は、認識語彙入力部605から入力され
た認識語彙の読み(仮名、カタカナ、あるいはローマ字
などの表記で入力される認識語彙の読み)に従って予め
作成して音声モデル作成・記憶部604に記憶しておい
た認識対象とするキーワード(認識語彙を構成するキー
ワード)の各音声モデルと上記入力音声の特徴パラメー
タ系列との類似度あるいは距離を求める演算を行う。
【0070】モデル照合部603の照合方法としては、
音声モデルも特徴パラメータ系列で表現しておき、DP
(動的計画)法で音声モデルの特徴パラメータ系列と入
力音声の特徴パラメータ系列の距離を求める手法や、H
MM(隠れマルコフモデル)を用いて音声モデルを表現
しておき、入力音声の特徴パラメータ系列が入力された
ときの各音声モデルの確率を計算する手法などが広く使
用されているが、特に手法は問わない。
【0071】音声出力部607は、認識語彙入力部60
5から認識語彙の読みが入力された際に、その読みを音
声に変換して出力する。音声出力部607による音声出
力は、例えば日本語の全ての音節について音声を記憶し
ておき、上記入力された読みに従って、記憶された音声
を接続することにより実現することができる。
【0072】例えば、認識語彙「竹芝」の読みとして認
識語彙入力部605から誤って「たけしぱ」と入力した
とすると、その誤った読み「たけしぱ」の音声モデルが
音声モデル作成・記憶部604で作成・記憶されるた
め、認識時に「たけしば」と発声しても正しく認識でき
なくなる。
【0073】これに対して本実施形態によれば、認識語
彙入力部605から認識語彙「竹芝」の読みを登録する
ときに、誤って「たけしぱ」と入力すると、音声出力部
607により「たけしぱ」と音声で出力してくれるの
で、話者(認識語彙登録者)は読みの入力間違いに容易
に気づくことができ、読みの入力誤りによる認識性能の
低下を未然に防ぐことができる。
【0074】以上に述べた図1、図3、図5、図6、図
9、図10の構成の音声認識装置の各部の機能は、コン
ピュータ、例えば内蔵型マイクロホンが組み込まれた、
あるいはマイクロホン入力端子が設けられた音声入力機
能を持つパーソナルコンピュータを、上記音声認識装置
が持つ各処理部として機能させるためのプログラムを記
録した、CD‐ROM、フロッピーディスク、メモリカ
ード等の記録媒体を用い、当該記録媒体をパーソナルコ
ンピュータに装着して、当該記録媒体に記録されている
プログラムをパーソナルコンピュータで読み取り実行さ
せることにより実現される。また、上記プログラムは、
記録媒体に限らず、例えば通信回線からダウンロードさ
れるものであっても構わない。
【0075】
【発明の効果】以上詳述したように本発明によれば、キ
ーワードを音としての類似性に着目して拡張するように
したので、キーワードの認識誤りや話者の言い間違いに
よる認識性能の低下を効果的に防ぐことができる。
【0076】また、本発明によれば、入力音声の先頭の
音節と最後の音節が一致するという制約のもとで入力音
声の先頭の音節を認識するようにしたので、非常に精度
の高い音節認識を実現できる。また、各音節を入力する
ときに発声する言葉を覚える必要がないので、誰でもす
ぐに誤りなく使用することができる。
【0077】また、本発明によれば、認識語彙の別称を
登録する際に、その別称が他の登録語彙と類似していな
いかを調べて、類似している場合には利用者に知らせる
ことにより、別称登録による認識性能の低下を未然に防
ぐことができる。
【0078】また、本発明によれば、キーワード別に複
数の認識結果を一定の条件でソーティングして出力する
ようにしたので、候補選択を効率よく行うことができ、
候補選択誤り等の発生を防ぐことができる。
【0079】また、本発明によれば、認識結果出力時
に、正しい読みを出力するようにしたので、話者が別称
で覚えていた言葉の正しい読みを当該話者に覚えさせる
ことができ、以後正しい読みで入力できるようになる。
【0080】また、本発明によれば、認識語彙の登録の
ために、その読みの表記を入力する際には、その表記を
音声に変換して出力するようにしたので、話者は読みの
入力間違いがあった場合には、その読みを音声で出力す
るようにしたので、話者は、読みの表記の入力間違いが
あっても、その間違いを音声出力内容から直ちに気づく
ことができ、読みの入力誤りによる認識性能の低下を未
然に防ぐことができる。このように本発明においては、
認識語彙の読みの登録間違いや、装置使用時の読みの記
憶違い等に起因する認識性能の低下を防ぐことができ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の
概略構成を示すブロック図。
【図2】図1中のキーワード変換テーブル106aの内
容例を示す図。
【図3】本発明の第2の実施形態に係る音声認識装置の
概略構成を示すブロック図。
【図4】「あさひのあ」と発声された場合に図3中のモ
デル照合部203で得られる音節列と類似度の一例を示
す図。
【図5】本発明の第3の実施形態に係る音声認識装置の
概略構成を示すブロック図。
【図6】本発明の第4の実施形態に係る音声認識装置の
概略構成を示すブロック図。
【図7】「田中ホテル」と発声された場合に図6中のモ
デル照合部403にて得られる各キーワードと類似度の
一例を示す図。
【図8】図7の認識結果と類似度とに基づく認識結果表
示例を従来方式の認識結果表示例と対比させて示す図。
【図9】本発明の第5の実施形態に係る音声認識装置の
概略構成を示すブロック図。
【図10】本発明の第6の実施形態に係る音声認識装置
の概略構成を示すブロック図。
【符号の説明】
101,201,301,401,501,601…音
声入力部 102,202,302,402,502,602…音
響分析部 103,203,303,403,503,603…モ
デル照合部 104,304,404,504,604…音声モデル
作成・記憶部 105,305,405,505,605…認識語彙入
力部 106…キーワード変換部 107…キーワード拡張部 108,205,308,507,606…認識結果出
力部 109,407…認識語彙記憶部 204…音声モデル記憶部 206…制約条件記憶部 306,506…別称登録部 307…登録語彙類似性判定部 309…警告出力部 406…キーワード別認識結果出力部 607…音声出力部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた各認識語彙を構成する
    キーワードの音声モデルと照合して、入力音声を認識す
    る音声認識装置において、 前記各キーワードのうち音としての類似性のあるキーワ
    ード相互間の変換を行うためのキーワード変換手段と、 前記認識したキーワードを前記キーワード変換手段を用
    いて音としての類似性のある別のキーワードに変換する
    ことで認識したキーワードを拡張するキーワード拡張手
    段と、 前記拡張されたキーワードから認識結果を決定する認識
    結果出力手段とを具備することを特徴とする音声認識装
    置。
  2. 【請求項2】 前記キーワード変換手段は、前記各キー
    ワードのうち、キーワードの読みが異なる音節数が所定
    数以下のキーワード同士を音としての類似性ありとして
    扱うことを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた認識語彙の音声モデル
    と照合して、入力音声を認識する音声認識装置におい
    て、 前記音声モデルとの照合により得られる認識した音声の
    先頭の音節と最後の音節が一致することを制約として、
    入力音声の最初の音節を認識する認識結果出力手段を具
    備することを特徴とする音声認識装置。
  4. 【請求項4】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた、認識語彙の別称の音
    声モデルを含む各認識語彙の音声モデルと照合して、入
    力音声を認識する音声認識装置において、 登録する認識語彙の正しい読みに加えて、誤読されやす
    い読みを別称として登録する別称登録手段と、 前記別称登録手段により別称として登録される読みが認
    識語彙の読みと類似しているか否かを判定する登録語彙
    類似性判定手段と、 前記登録語彙類似性判定手段により類似していると判定
    された場合に、その旨の警告を出力する警告出力手段
    と、 前記別称登録手段により登録された前記別称の読みの音
    声モデルとの照合で入力音声が認識された場合、その読
    みを別称とする語彙を認識する認識結果出力手段とを具
    備することを特徴とする音声認識装置。
  5. 【請求項5】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた各認識語彙を構成する
    キーワードの音声モデルと照合して、入力音声を認識す
    る音声認識装置において、 複数のキーワードが組み合わされたキーワード列からな
    る音声の認識結果を複数候補出力する際に、意味的に同
    じキーワード別に、そのキーワード列の確からしさ順に
    ソートして出力するキーワード別認識結果出力手段を具
    備することを特徴とする音声認識装置。
  6. 【請求項6】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた、認識語彙の別称の音
    声モデルを含む各認識語彙の音声モデルと照合して、入
    力音声を認識する音声認識装置において、 登録する認識語彙の正しい読みに加えて、誤読されやす
    い読みを別称として登録する別称登録手段と、 別称として登録してある読みを認識したときに、正しい
    読みを利用者に提示する認識結果出力手段を具備するこ
    とを特徴とする音声認識装置。
  7. 【請求項7】 認識語彙入力手段から入力される認識語
    彙の読みの表記をもとに音声モデルを作成して記憶して
    おき、入力音声を音響分析して求めた特徴パラメータ系
    列を前記記憶しておいた各音声モデルと照合して、入力
    音声を認識する音声認識装置において、 前記認識語彙入力手段から入力される認識語彙の読みの
    表記を音声に変換して出力する音声出力手段を具備する
    ことを特徴とする音声認識装置。
  8. 【請求項8】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた各認識語彙を構成する
    キーワードの音声モデルと照合して、入力音声を認識す
    る音声認識装置に適用される音声認識方法であって、 前記認識したキーワードを、前記各認識語彙を構成する
    キーワードの中で音としての類似性のある別のキーワー
    ドに変換することで認識したキーワードを拡張し、 前記拡張したキーワードから認識結果を決定するように
    したことを特徴とする音声認識方法。
  9. 【請求項9】 入力音声を音響分析して求めた特徴パラ
    メータ系列を予め作成しておいた認識語彙の音声モデル
    と照合して、入力音声を認識する音声認識装置に適用さ
    れる音声認識方法であって、 前記音声モデルとの照合により得られる認識した音声の
    先頭の音節と最後の音節が一致することを制約として、
    入力音声の最初の音節を認識するようにしたことを特徴
    とする音声認識方法。
  10. 【請求項10】 入力音声を音響分析して求めた特徴パ
    ラメータ系列を予め作成しておいた、認識語彙の別称の
    音声モデルを含む各認識語彙の音声モデルと照合して、
    入力音声を認識する音声認識装置に適用される別称登録
    誤り検出方法であって、 前記認識語彙の音声モデルを予め作成する際に、当該認
    識語彙の正しい読みに加えて、誤読されやすい読みを別
    称として登録し、 前記別称の読みの登録時には、当該別称の読みが、既に
    登録済みの認識語彙の読みと類似しているか否かを判定
    し、 類似していると判定した場合には、別称登録誤りを示す
    警告を出力するようにしたことを特徴とする別称登録誤
    り検出方法。
  11. 【請求項11】 入力音声を音響分析して求めた特徴パ
    ラメータ系列を予め作成しておいた認識語彙の音声モデ
    ルと照合して、入力音声を認識する音声認識装置におけ
    る認識結果出力方法であって、 複数のキーワードが組み合わされたキーワード列からな
    る音声の認識結果を複数候補出力する際に、意味的に同
    じキーワード別に、そのキーワード列の確からしさ順に
    ソートして出力するようにしたことを特徴とする認識結
    果出力方法。
  12. 【請求項12】 入力音声を音響分析して求めた特徴パ
    ラメータ系列を予め作成しておいた、認識語彙の別称の
    音声モデルを含む各認識語彙の音声モデルと照合して、
    入力音声を認識する音声認識装置に適用される認識語彙
    の読みの提示方法であって、 別称として登録してある認識語彙の読みを認識したとき
    には、当該認識語彙の正しい読みを利用者に提示するよ
    うにしたことを特徴とする認識語彙の読みの提示方法。
  13. 【請求項13】 認識語彙入力手段から入力される認識
    語彙の読みの表記をもとに音声モデルを作成して記憶し
    ておき、入力音声を音響分析して求めた特徴パラメータ
    系列を前記記憶しておいた各認識語彙を構成するキーワ
    ードの音声モデルと照合して、入力音声を認識する音声
    認識装置に適用される認識語彙の読みの提示方法であっ
    て、 前記認識語彙入力手段から認識語彙の読みの表記が入力
    された際に、当該表記を音声に変換して出力するように
    したことを特徴とする認識語彙の読みの提示方法。
JP08170097A 1997-03-31 1997-03-31 音声認識装置 Expired - Lifetime JP3825526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08170097A JP3825526B2 (ja) 1997-03-31 1997-03-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08170097A JP3825526B2 (ja) 1997-03-31 1997-03-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPH10274996A true JPH10274996A (ja) 1998-10-13
JP3825526B2 JP3825526B2 (ja) 2006-09-27

Family

ID=13753665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08170097A Expired - Lifetime JP3825526B2 (ja) 1997-03-31 1997-03-31 音声認識装置

Country Status (1)

Country Link
JP (1) JP3825526B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
JP2007535692A (ja) * 2004-03-09 2007-12-06 ラオ、アシュウィン 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
WO2008004486A1 (fr) * 2006-07-06 2008-01-10 Panasonic Corporation Dispositif d'entrée vocale
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2010009446A (ja) * 2008-06-30 2010-01-14 Internatl Business Mach Corp <Ibm> 音声ファイルの検索システム、方法及びプログラム
JP2011007862A (ja) * 2009-06-23 2011-01-13 Fujitsu Ltd 音声認識装置、音声認識プログラム、および音声認識方法
JP2017026808A (ja) * 2015-07-22 2017-02-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP2019174509A (ja) * 2018-03-27 2019-10-10 クラリオン株式会社 サーバ装置およびpoi読み方通知方法
JP2021097386A (ja) * 2019-12-19 2021-06-24 Necプラットフォームズ株式会社 発信制御システム、発信制御方法及び発信制御プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510662A (ja) * 1999-09-29 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識器における綴りモード
JP4550207B2 (ja) * 2000-02-29 2010-09-22 クラリオン株式会社 音声認識装置および音声認識ナビゲーション装置
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2007535692A (ja) * 2004-03-09 2007-12-06 ラオ、アシュウィン 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
WO2008004486A1 (fr) * 2006-07-06 2008-01-10 Panasonic Corporation Dispositif d'entrée vocale
US8279171B2 (en) 2006-07-06 2012-10-02 Panasonic Corporation Voice input device
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2010009446A (ja) * 2008-06-30 2010-01-14 Internatl Business Mach Corp <Ibm> 音声ファイルの検索システム、方法及びプログラム
JP2011007862A (ja) * 2009-06-23 2011-01-13 Fujitsu Ltd 音声認識装置、音声認識プログラム、および音声認識方法
JP2017026808A (ja) * 2015-07-22 2017-02-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP2019174509A (ja) * 2018-03-27 2019-10-10 クラリオン株式会社 サーバ装置およびpoi読み方通知方法
JP2021097386A (ja) * 2019-12-19 2021-06-24 Necプラットフォームズ株式会社 発信制御システム、発信制御方法及び発信制御プログラム

Also Published As

Publication number Publication date
JP3825526B2 (ja) 2006-09-27

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
EP1936606B1 (en) Multi-stage speech recognition
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP3825526B2 (ja) 音声認識装置
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP3444108B2 (ja) 音声認識装置
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2000250593A (ja) 話者認識装置及び方法
JP3378547B2 (ja) 音声認識方法及び装置
JP4236502B2 (ja) 音声認識装置
EP1055228A1 (en) Speech operated automatic inquiry system
JP2000305590A (ja) 音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060630

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120707

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130707

Year of fee payment: 7

EXPY Cancellation because of completion of term