JP2005275348A

JP2005275348A - 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Info

Publication number: JP2005275348A
Application number: JP2004259584A
Authority: JP
Inventors: Yuichi Nakazawa; 裕一中澤; Katsutoshi Ofu; 克年大附; Nobuaki Hiroshima; 伸章廣嶋; Yoshihiko Hayashi; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-02-23
Filing date: 2004-09-07
Publication date: 2005-10-06

Abstract

【課題】単語系列における言語的妥当性を情報として使用して音声認識結果に対して精度の高い認識結果の信頼度を付与する音声認識方法、装置、プログラム、記録媒体。
【解決手段】入力される音声信号から抽出した音響特徴パラメータに対して、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、音声認識部１と、音声認識部１から得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部３と、信頼度付与部３で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部４とを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識装置。
【選択図】図１

Description

この発明は、音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関する。

音声認識では一般に、入力音声信号を分析して得られる音響的特徴量の系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において尤度の最も高い候補を認識結果として出力する。しかし、入力音声信号においては、発声に曖昧さがあり、ノイズ、音声以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声信号が未登録語である場合は正しい認識結果を出力することができない。
以上の問題に対して、音声認識結果に認識結果の信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。

ここで、認識結果の信頼度を計算するに、単語事後確率を用いて計算することが行われている（非特許文献１、２参照）。この計算方法においては、単語の音響尤度、単語の言語尤度、forward確率、backward確率を用いて文中の単語に対する信頼度を算出している。
そして、認識結果の信頼度を計算するに、N-best候補を用いて計算することが行われている（非特許文献１参照）。この方法は、音響尤度、言語尤度などを用いて認識結果候補をＮ位まで作成し、作成された候補を用いて信頼度を算出する。この方法は、複数の候補に多く出現している単語は信頼度が高いとしている。
また、認識結果の信頼度を決定するに、競合モデルを用いて決定することも行われている（特許文献１参照）。この方法は、音声認識に用いたモデルと競合モデルの２種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。

更に、認識結果の信頼度を決定するに、複数の音声認識モデルを用いて決定することも行われている（非特許文献３参照）。この方法は、音声認識モデルを２つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できる部分と判断するものである。
特開平１１−８５１８８号公報 Frank Wessel, Ralf Schluter, Klaus Macherey, Hermann Ney:"Confidence Measure for Large Vocabulary Continuous Speech Recognition"、IEEE Transactions Speech and Audio Process Vol.9 No.3 pp.288-298, 2001 Thomas Kemp, Thomas Schaaf: "Estimating confidence using word lattices", Proc.5th Eurospeech, pp. 827-830, 1997 宇津呂武仁、西崎博光、小玉康広、中川聖一：「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」、電子情報通信学会論文誌 D-II Vol. J86-D-II No.7 pp.974-987, 2003

上述した従来例においては、信頼度を計算するに際して、情報としては信頼度を付与する対象とする単語についての情報しか使用しないところから、文法的に不適切な単語系列であっても、単語系列に含まれる個々の単語に高い信頼度を付与するという問題があった。
ところで、誤認識された音声認識結果の様な文法的に誤りのある文章を読んだ場合、人間は認識した音声を聞かなくてもこの単語の系列を判別材料としてその文章が誤っていることを判別することができる。更に、その文章のどの部分が誤っているかを判別することができる場合も多く存在する。このことは、単語系列の言語的妥当性および／或いは意味的妥当性に各単語の信頼度の判別材料が含まれていることを意味している。

この発明は、以上のことから、一例として音声認識結果の単語系列に含まれる各単語の品詞情報、言語情報、意味情報の接続に着目する、ことにより単語系列の言語的妥当性を評価して信頼度を算出して、従来の音声認識と比較して音声認識結果に対してより精度の高い認識結果の信頼度を付与するものである。

請求項１：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、音声認識ステップから得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識方法を構成した。

そして、請求項２：請求項１に記載される音声認識方法において、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与する音声認識方法を構成した。
また、請求項３：請求項２に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識方法を構成した。
更に、請求項４：請求項１ないし請求項３の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。

ここで、請求項５：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、入力された音声を認識して認識結果として単語系列を得る音声認識部１と、音声認識部１から得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部３と、信頼度付与部３で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部４とを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識装置を構成した。

そして、請求項６：請求項５に記載される音声認識装置において、信頼度付与部３について、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与する音声認識装置を構成した。
また、請求項７：請求項６に記載される音声認識装置において、信頼度付与部３について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
更に、請求項８：請求項５ないし請求項７の内の何れかに記載される音声認識装置において、信頼度付与部３について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与する音声認識装置を構成した。

ここで、請求項９：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、前記音声認識ステップから得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、をコンピュータに実行させ、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識プログラムを構成した。

そして、請求項１０：請求項９に記載される音声認識プログラムにおいて、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
また、請求項１１：請求項９及び請求項１０に記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。

更に、請求項１２：請求項９及び請求項１０の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップにっいて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
そして、請求項１３：請求項９ないし請求項１２の内の何れかに記載される音声認識プログラムを記録した記録媒体を構成した。
請求項１４：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求める音声認識方法を構成した。
請求項１５：請求項２に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項１６：請求項２に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項１７：請求項２に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の１つ以上をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項１８：請求項１ないし請求項３、請求項１４ないし請求項１７の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。
請求項１９：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、入力された音声を認識して認識結果として単語系列を得る音声認識部と、音声認識部から得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求める音声認識装置を構成した。
請求項２０：請求項１９に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項２１：請求項１９に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項２２：請求項１９に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の１つ以上をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項２３：請求項５ないし請求項７、請求項１９ないし請求項２２の内の何れかに記載される音声認識装置において、信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項２４：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、前記音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、をコンピュータに実行させ、音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求める音声認識プログラムを構成した。
請求項２５：請求項２４に記載される音声認識プログラムにおいて、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項２６：請求項２４および請求項２５の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項２７：請求項２４および請求項２５の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。

この発明は、信頼度を算出するに際して、単語系列における言語的妥当性を情報として使用するところから、広い範囲の情報を用いることができ、従来の音声認識方法と比較して音声認識結果に対してより精度の高い認識結果の信頼度を付与することができる。
そして、以上の単語系列における言語的妥当性に代えて、単語系列における意味的妥当性或いは単語系列における言語的妥当性および意味的妥当性を使用することに依っても、同様に精度の高い認識結果の信頼度を付与することができる。

発明を実施するための最良の形態を図１、２を参照して説明する。図１はこの発明において使用される音声認識結果信頼性判別装置を説明する図であり、図２は音声認識部を説明する図である。
音声認識部１は、入力音声信号１１を音響分析部５１において音響特徴パラメータ１３に変換する。音響特徴パラメータとは、入力音声を数１０ｍｓｅｃのフレームと呼ばれる単位で分析して得られるＬＰＣケプストラム、ＭＦＣＣその他のパラメータである。この音響特徴パラメータ１３について、音響モデル格納部５と辞書・言語モデル格納部６とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部５２において行う。探索の結果、上位Ｎ位までのＮ−ｂｅｓｔ候補と候補に対するスコアを算出する。即ち、ＨＭＭを用いて音響スコア１５を算出し、単語n−gramを用いて言語スコア１６を算出し、音響スコア１５と言語スコア１６の和である単語スコア１７を出力する。その結果、認識結果の単語系列１２、及び単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７を出力する。但し、次の信頼度付与部３で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例１に示す。

例１:音声認識部から発話単位に出力される認識結果の単語系列
・『その辺ではかなり収益も上がるんじゃないかなと思います。』
・『なるほどね。』
・『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・『ん一』
信頼度付与部３では、音声認識部１で得られた単語系列１２の各単語に対して、先行若しくは後続単語の１語以上の並びとの接続を評価することで、言語的妥当性の評価を行い、信頼度を算出、付与し、信頼度付認識結果１３０を得る。信頼度を算出する要素の一例として、単語系列１２に含まれる各単語の、品詞情報１４、音響スコアユ５、言語スコア１６、単語スコア１７の全部または一部が入力される。また、信頼度を算出する要素の一例として、信頼度付与の対象となる当該単語の先行語及び後続語のそれぞれ少なくとも１語について当該単語と同様の要素を用いる。ここで、信頼度を付与する具体的な手法として、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することが行われる。シンボル化とは、一例として、「品詞」という観点から複数の単語に品詞を付与して複数の単語を品詞により表し、或いは、「文字数」という観点から各単語の文字数を数えて複数の各単語を文字数により表すことをいう。信頼度付与部３について、更に具体的に説明するに、信頼度付与部３において、単語系列においてｎ語目に位置する単語Ｗ_nの信頼度を算出する際に、音声認識部１から得た出力情報（認識結果の単語系列１２、及びこの単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７）について、信頼度を付与する当該単語Ｗ_nの音声認識部１から得た出力情報に加えて、先行語Ｍ語（Ｗ_n-M，・・・，Ｗ_n-1）及び後続語Ｌ語（Ｗ_n+1，・・・，Ｗ_n+L）それぞれの音声認識部１から得た出力情報を用いて特徴量ベクトルを作成する。ただし、音響スコア１５、言語スコア１６、単語スコア１７については、０〜１の値に正規化したものを用いる。また、単語Ｗ_nが単語系列において文頭からＭ語或いは文末からＬ語以内に位置する場合、音声認識部１から得た出力情報を得るために充分な数の先行語或いは後続語が存在しない状況となる。この場合、文頭処理或いは文末処理として、存在しない先行語或いは後続語の音響スコア、言語スコア、単語スコアとして予め定義した固定値を与える。

信頼度付認識結果出力部４では、音声認識部から得られた単語系列１２と信頼度付与部３で各単語に付与された信頼度とを合わせ、信頼度付認識結果の出力を行う。
以上の様にして得た特徴量ベクトルについて、機械学習を用いて分析を行う。１単語にいて、３７種類の品詞情報、音響スコア、言語スコア、単語スコアを用いた計４０次元の素性とし、信頼度の算出時には合計で[情報を使用する単語数×４０］次元の素性を用いて評価を行う。先ず、学習データを用意して上述の素性と単語の正誤を学習し、識別モデルを作成する。次に、評価データを用意し、識別モデルを用いて評価を行うことにより、単語系列における各単語の認識の正誤の判別結果を出力する。この実施例は、先行語および後続語共に１語づつ、計１２０次元を素性とする。

この発明による効果を４１本の放送ニュースデータ及び７本の会議音声データの連続単語認識において、語彙数約３万のｔｒｉｇｒａｍ言語モデル、性別非依存、状態数約５０００、各状態の混合数８（ニュース）及び１２（会議）の状態共有ｔｒｉｐｈｏｎｅ音響モデルを用いて評価した。用いたデータの概要を表１に示す。

放送ニュースデータについては、２ないし４本を１データセットとし、１データセットを評価用データ、残りの１３データセットを学習用データとする評価を行い、１４データセットのデータをそれぞれ１回ずつ評価用データとして計１４回の評価を行った。各評価で再現率、適合率を求め、平均値を算出した。会議音声データについても、同様に計７回の評価を行い、再現率、適合率の平均値を算出した。また、この発明は、言語的妥当性を評価する手段の一つとして、機械学習を用いた。文頭及び文末処理に与える固定値は１とした。

また、比較のために、上述の評価実験を表２に示す実験ＩＤ１〜ＩＤ４の４つの条件で行った。但し、表２中のスコアとは、正規化された音響スコア、言語スコア、単語スコアを指す。実験ＩＤ１は実施例で使用した情報を示し、実験ＩＤ４は従来技術に相当する手法で使用した情報を示す。評価結果を表３に示す。

表３の各結果を見るに、実施例の実験ＩＤ１と従来例の実験ＩＤ４を比較すると、連続単語認識において品詞情報を用いて先行語及び後続語の情報を素性として用いることから、単語系列の言語的妥当性に基づいた信頼度を用いると精度の高い結果を得ることができることが認識される。即ち、ニュース音声の再現率及び適合率、会議音声の再現率及び適合率の何れについても、実施例の実験ＩＤ１の評価結果は、従来例の実験ＩＤ４の評価結果と比較して、上回っていることを認識することができる。

また、表２および表３を参照して、実験ＩＤ３と実験ＩＤ４との間の比較、及び実験ＩＤ２と実験ＩＤ４との間の比較をしてみる。先ず、実験ＩＤ３と実験ＩＤ４についてみると、実験ＩＤ３の如く当該単語の他に先行語及び後続語を情報として使用しても、これらを情報として使用しない従来例の実験ＩＤ４と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。実験ＩＤ２と実験ＩＤ４についてみると、実験ＩＤ２の如く当該単語のみに着目してその品詞情報を使用してみても、この情報を使用しない従来例の実験ＩＤ４と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。以上の結果からみて、単語の並びと言語情報の双方に着目することがより高い再現率および適合率の向上を実現することができ、これが音声認識結果に対するより精度の高い信頼度の付与につながる。

発明を実施するための更なる形態を図３、４を参照して説明する。図３はこの発明において使用される音声認識結果信頼性判別装置を説明する図であり、図４は音声認識部を説明する図である。
音声認識部１は、入力音声信号１１を音響分析部５１において音響特徴パラメータ１３に変換する。音響特徴パラメータとは、入力音声を数１０ｍｓｅｃのフレームと呼ばれる単位で分析して得られるＬＰＣケプストラム、ＭＦＣＣその他のパラメータである。この音響特徴パラメータ１３について、音響モデル格納部５と辞書・言語モデル格納部６とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部５２において行う。探索の結果、上位Ｎ位までのＮ−ｂｅｓｔ候補と候補に対するスコアを算出する。即ち、ＨＭＭを用いて音響スコア１５を算出し、単語n-gramを用いて言語スコア１６を算出し、音響スコア１５と言語スコア１６の和である単語スコア１７を出力する。その結果、認識結果の単語系列１２、及び単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７、品詞細分類２０、意味カテゴリ２１を出力する。意味カテゴリ付与部５３では、探索部５２より得られた単語系列に含まれる各単語について、意味カテゴリ情報を意味情報格納部８より検索し、意味カテゴリ２１を付与する。但し、言語モデル・辞書格納部６に意味カテゴリ情報が含まれていてその意味カテゴリ情報を各単語に付与できる場合は、意味カテゴリ付与部５３を音声認識部１に含める必要および意味情報格納部８を使用する必要は無い。但し、次の信頼度付与部３で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例１に示す。
例１:音声認識部から発話単位に出力される認識結果の単語系列
・『その辺ではかなり収益も上がるんじゃないかなと思います。』
・『なるほどね。』
・『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・『ん一』

信頼度付与部３では、音声認識部１で得られた単語系列１２の各単語に対して、先行若しくは後続単語の１語以上の並びとの接続を評価することで、言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を算出、付与し、信頼度付認識結果１３０を得る。信頼度を算出する要素の一例として、単語系列１２に含まれる各単語の、品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７、品詞細分類２０、意味カテゴリ２１の全部または一部が入力される。また、信頼度を算出する要素の一例として、信頼度付与の対象となる当該単語の先行語及び後続語のそれぞれ少なくとも１語について当該単語と同様の要素を用いる。ここで、信頼度を付与する具体的な手法として、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することが行われる。シンボル化とは、一例として、「品詞」という観点から複数の単語に品詞を付与して複数の単語を品詞により表し、或いは、「文字数」という観点から各単語の文字数を数えて複数の各単語を文字数により表すことをいう。信頼度付与部３について、更に具体的に説明するに、信頼度付与部３において、単語系列においてｎ語目に位置する単語Ｗ_nの信頼度を算出する際に、音声認識部１から得た出力情報（認識結果の単語系列１２、及びこの単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７、品詞細分類２０、意味カテゴリ２１）について、信頼度を付与する当該単語Ｗ_nの音声認識部１から得た出力情報に加えて、先行語Ｍ語（Ｗ_n-M，・・・，Ｗ_n-1）及び後続語Ｌ語（Ｗ_n+1，・・・，Ｗ_n+L）それぞれの音声認識部１から得た出力情報を用いて特徴量ベクトルを作成する。ただし、音響スコア１５、言語スコア１６、単語スコア１７については、０〜１の値に正規化したものを用いる。また、単語Ｗ_nが単語系列において文頭からＭ語或いは文末からＬ語以内に位置する場合、音声認識部１から得た出力情報を得るために充分な数の先行語或いは後続語が存在しない状況となる。この場合、文頭処理或いは文末処理として、存在しない先行語或いは後続語の音響スコア、言語スコア、単語スコアとして予め定義した固定値を与える。

信頼度付認識結果出力部４では、音声認識部から得られた単語系列１２と信頼度付与部３で各単語に付与された信頼度とを合わせ、信頼度付認識結果の出力を行う。
この発明による効果を４１本の放送ニュースデータおよび7本の会議音声データの連続単語認識において、語彙数約３万のtrigram言語モデル、性別非依存、状態数約５０００、各状態の混合数８(ニュース)および１２(会議)の状態共有triphone音響モデルを用いて評価した。用いたデータの概要を表４に示す。

放送ニュースデータについては、２ないし４本を１データセットとし、１データセットを評価用データ、残りの１３データセットを学習用データとする評価を行い、１４データセットのデータをそれぞれ１回ずつ評価用データとして計１４回の評価を行った。各評価で再現率、適合率を求め、平均値を算出した。会議音声データについても、同様に計7回の評価を行い、再現率、適合率の平均値を算出した。また、この評価では、言語的妥当性を評価する手段の一つとして、機械学習を用いた。１単語につき、３7種類の品詞情報、音響スコア、言語スコア、単語スコアを用いた計４０次元の素性とし、信頼度の算出時には合計で[情報を使用する単語数×４０］次元の素性を用いて評価を行う。先ず、学習データを用意して上述の素性と単語の正誤を学習し、識別モデルを作成する。次に、評価データを用意し、識別モデルを用いて評価を行うことにより、単語系列における各単語の認識の正誤の判別結果を出力する。.本実施例では、先行語後続語共に１語ずつ、計１２０次元を素性とする。文頭および文末処理に与える固定値は１とした。

また、比較のために、上述の評価実験を表５に示す実験ＩＤ１〜ＩＤ４の４つの条件で行った。但し、表５中のスコアとは、正規化された音響スコア、言語スコア、単語スコアを指す。実験ＩＤ１は実施例で使用した情報を示し、実験ＩＤ４は従来技術に相当する手法で使用した情報を示す。評価結果を表６に示す。

表６の各結果を見るに、実施例の実験ＩＤ１と従来例の実験ＩＤ４を比較すると、連続単語認識において品詞情報を用いて先行語及び後続語の情報を素性として用いることから、単語系列の言語的妥当性に基づいた信頼度を用いると精度の高い結果を得ることができることが認識される。即ち、ニュース音声の再現率及び適合率、会議音声の再現率及び適合率の何れについても、実施例の実験ＩＤ１の評価結果は、従来例の実験ＩＤ４の評価結果と比較して、上回っていることを認識することができる。

また、表５および表６を参照して、実験ＩＤ３と実験ＩＤ４との間の比較、及び実験ＩＤ２と実験ＩＤ４との間の比較をしてみる。先ず、実験ＩＤ３と実験ＩＤ４についてみると、実験ＩＤ３の如く当該単語の他に先行語及び後続語を情報として使用しても、これらを情報として使用しない従来例の実験ＩＤ４と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。実験ＩＤ２と実験ＩＤ４についてみると、実験ＩＤ２の如く当該単語のみに着目してその品詞情報を使用してみても、この情報を使用しない従来例の実験ＩＤ４と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。以上の結果からみて、単語の並びと言語情報の双方に着目することがより高い再現率および適合率の向上を実現することができ、これが音声認識結果に対するより精度の高い信頼度の付与につながる。

入力音声信号に対応する文章の作成では、信頼度の低い部分を削除、若しくは信頼度め高い部分を強調するなどして、より効率的な活用が可能となる。
コンピュータと人間とが音声対話を用いてコミュニケーションを取る音声対話システムでは、認識した情報において、信頼度の高い部分に重みをつけて用いたり、信頼度の低い部分を再度確認したりなど、より効率的な対話を行うことができる。
上記例のように、この発明による音声認識方法を用いることにより、効率的な音声認識装置を開発することができる。

この発明において使用される音声認識結果信頼性判別装置を説明する図。音声認識部を説明するブロック図。他の音声認識結果信頼性判別装置を説明する図。音声認識部を説明するブロック図。

符号の説明

１音声認識部１１入力音声信号
１２単語系列１３音響特徴パラメータ
１４品詞情報１５音響スコア
１６言語スコア１７単語スコア
２０品詞細分類２１意味カテゴリ
３信頼度付与部４信頼度付認識結果出力部
５音響モデル格納部６辞書・言語モデル格納部
５２探索部５１音響分析部
１３０信頼度付認識結果

Claims

入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。
請求項１に記載される音声認識方法において、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識方法。
請求項２に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識方法。
請求項１ないし請求項３の内の何れかに記載される音声認識方法において、
信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
入力された音声を認識して認識結果として単語系列を得る音声認識部と、
音声認識部から得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。
請求項５に記載される音声認識装置において、
信頼度付与部について、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識装置。
請求項６に記載される音声認識装置において、
信頼度付与部について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識装置。
請求項５ないし請求項７の内の何れかに記載される音声認識装置において、
信頼度付与部について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識装置。
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
前記音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
をコンピュータに実行させ、
音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。
請求項９に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
請求項９及び請求項１０に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
請求項９及び請求項１０の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップにっいて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム、
請求項９ないし請求項１２の内の何れかに記載される音声認識プログラムを記録した記録媒体。
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。
請求項２に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法。
請求項２に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法。
請求項２に記載される音声認識方法において、
信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の１つ以上をシンボルとして用いて、信頼度を付与する音声認識方法。
請求項１ないし請求項３、請求項１４ないし請求項１７の内の何れかに記載される音声認識方法において、
信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
入力された音声を認識して認識結果として単語系列を得る音声認識部と、
音声認識部から得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。
請求項１９に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。
請求項１９に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。
請求項１９に記載される音声認識装置において、
信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の１つ以上をシンボルとして用いて信頼度を付与する音声認識装置。
請求項５ないし請求項７、請求項１９ないし請求項２２の内の何れかに記載される音声認識装置において、
信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置。
入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
前記音声認識ステップから得られた認識結果である１或いは複数の先行語および／或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および／或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
をコンピュータに実行させ、
音声認識結果の言語的妥当性および／或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。
請求項２４に記載される音声認識プログラムにおいて、
信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
請求項２４および請求項２５の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
請求項２４および請求項２５の内の何れかに記載される音声認識プログラムにおいて、
信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。