JP4528540B2

JP4528540B2 - 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体

Info

Publication number: JP4528540B2
Application number: JP2004059829A
Authority: JP
Inventors: 克年大附; 伸章廣嶋; 昭一松永; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-03-03
Filing date: 2004-03-03
Publication date: 2010-08-18
Anticipated expiration: 2024-03-03
Also published as: JP2005250071A

Description

本発明は、音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体に係り、特に、入力音声信号に対する音声認識処理により得られる認識結果に基づいて、入力音声に関連する単語を推定し、それらの単語を認識辞書に追加した上で再度認識処理を行い、最終的な認識結果を得るための音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体に関する。

音声認識においては、入力音声を分析して得られる音響特徴パラメータ系列と音声をモデル化した音響モデルとの間の尤度を計算し、認識すべき単語の集合である認識辞書、単語の接続のし易さ、規則を表す言語モデルという言語制約の中で、尤度の最も高い候補を認識結果として出力する。音響モデル及び言語モデルを高精度化することにより音声認識精度を改善することができるが、認識辞書に含まれない未登録語に関しては正しい認識結果を出力することができない。

一方、未登録語を減らすために予め用意されている認識辞書に含まれる単語数を大きくすると、認識処理に要する時間や記憶容量など多くのリソースを費やさなければならず、また、当該予め用意されている認識辞書に含まれる単語数が有限である限り未登録語の問題を完全に解決することはできない。

以上のような問題に対して、入力音声に未登録語が含まれるかどうかを推定することにより、音声対話システムにおいて未登録語の部分をユーザに再度問い合わせることができるようになる。また、未登録語の部分を音素や音節といったサブワードによって認識することにより、未登録語部分の音素系列を推定することができるようになる。入力音声を認識した結果に基づいて、関連する文書を検索し、取得した文書を用いて言語モデルに再構築することにより、入力音声に対する未登録語を少なくすることができる。

入力音声に未登録語が含まれるかどうかを推定する第1の方法では、対象カテゴリと非対象カテゴリ（対立モデル）からそれぞれ得られる確率の差を用いて得られる確率に基づいて入力音声が認識辞書に含まれる単語の発声であるか否かを判別する方法が開示されている（特許文献1参照）。

また、未登録語の区間、クラス、読みを推定するための言語モデル生成方法として、単語クラスN-gramモデルと、サブワード単位N-gramモデルとに基づいてサブワード単位に基づいた未登録語を含む統計的言語モデルの生成方法が開示されている（例えば、特許文献2、非特許文献1参照）。

また、認識辞書に含まれない単語の発声に対して認識結果を得る方法が開示されている（例えば、非特許文献２参照）。
特開平１１−８５１８８号公報特開２００１−２３６０８９号公報廣瀬良文、伊藤克亘、鹿野清宏、中村哲、"「読み」情報に基づく高被覆率言語モデルを用いた大語彙音声連続音声認識"、日本音響学会講演論文集、2-1-8, pp.69-70,1999-9 Thomas Kemp and Alex Waibel, "Reducing the OOV Rate in Broadcast News Speech Recognition", Proceedings of the ICSLP 98, pp. 1839-1842, December,1998

しかしながら、上記従来の入力音声に未登録語が含まれるかどうかを推定する方法では、入力音声が予め用意されている認識辞書に含まれる単語の発声であるかどうかを判別するものであり、当該予め用意されている認識辞書に含まれない単語の発声の場合には、その発声内容を認識結果として出力することができないという問題がある。

また、従来の未登録語の区間、クラス、読みを同定するための言語モデル生成方法では、予め用意されている認識辞書に含まれない単語の発声部分のサブワード系列、即ち、読みあるいは、仮名に相当する結果を出力することができるが、漢字を含んだ表記としての結果を出力することができない。

また、従来の、予め用意されている認識辞書に含まれない単語の発声に対して認識結果を得る方法では、新たに取得した文書を学習データに追加して認識辞書及び言語モデルを再構築するため、モデルの更新に必要な処理が多く、時間が係るという問題がある。また、取得した関連文書に出現した全ての単語を認識辞書に追加するため、被覆率向上に対して必要のない単語を多く追加することになり、単語追加の効率が悪いという問題がある。

本発明は、上記の点に鑑みなされたもので、認識結果に基づいて予め用意されている認識書を更新して、再び、認識処理を実行する音声認識方法において、当該認識辞書の更新処理を少ない処理で高速に行うことができ、更新の際の単語追加の効率のよい、音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアに基づいて計算されるスコアが最も高い言語単位系列を認識結果として出力する音声認識方法において、
音声が入力されると、予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップ（ステップ１）と、
単語間の関連性の情報を格納するデータベースを参照して、暫定的な音声認識結果の単語系列の各単語と関連性の高い単語である関連語彙を、該データベースから獲得する語彙獲得ステップ（ステップ２）と、
獲得した関連語彙を予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップ（ステップ３）と、
拡張辞書を用いて再度音声認識処理を行う第２の音声認識ステップ（ステップ４）と、を行う。

また、本発明（請求項２）は、語彙獲得ステップにおいて、
暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを含む。

図２は、本発明の原理構成図である。

本発明（請求項３）は、入力される音声信号をディジタル信号に変換し、該ディジタル信号から音響特徴パラメータ系列を抽出する音響分析手段と、音響モデルが格納されている音響モデル記憶手段と、言語モデルが格納されている言語モデル記憶手段と、予め用意されている認識辞書が格納されている辞書記憶手段と、該音響モデル記憶手段、該言語モデル記憶手段、該辞書記憶手段からそれぞれ音響モデル、言語モデル、該予め用意されている認識辞書を入力し、入力音声の該音響特徴パラメータ系列に対して、該言語モデルと該予め用意されている認識辞書により与えられた言語スコアと、該音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する探索手段とを有する音声認識装置であって、
入力された音声を前記辞書記憶手段の前記予め用意されている認識辞書を用いて求めた暫定的な第１の音声認識結果１８０から、その内容に対する関連語彙を、単語間の関連性の情報を格納する語彙データベース３８０を参照して、該暫定的な第1の音声認識結果１８０の単語系列の各単語と関連性の高い単語である関連語彙を該語彙データベース３８０から獲得し、獲得した関連語彙を該辞書記憶手段に追加した、拡張辞書２００を作成する語彙拡張手段１９０と、
拡張辞書２００を用いて求めた音声認識結果を出力する再探索手段２１０と、を有する。

また、本発明（請求項４）の音声認識装置の語彙拡張手段１９０は、
暫定的な第１の音声認識結果から関連語彙を獲得する際に、該暫定的な第１の音声認識結果１８０の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出手段を含む。

本発明（請求項５）は、請求項３または４に記載の音声認識装置を構成する各手段としてコンピュータを機能させるための音声認識プログラムである。

本発明（請求項６）は、請求項５に記載の音声認識プログラムを格納した音声認識プログラムを格納した記憶媒体である。

上記のように、本発明では、入力音声に対して得られた音声認識結果に基づいて、入力音声に関連する語彙を、単語間の関連性を蓄積したデータベース（語彙データベース）を用いて必要のない単語が含まれないように効率的に推定することが可能となる。

また、認識辞書の更新は、それらの関連語彙を予め用意されている認識辞書に追加するのみであるので、少ない処理で高速に実行することができる。更新した拡張認識辞書を用いて、再び音声認識処理を実行することにより、入力音声に対する未登録語の少ない拡張認識辞書による高精度な音声認識結果を求めることが可能となる。

上記のように本発明によれば、入力音声の認識結果に基づいて、関連文書ではなく関連語彙を獲得することにより、効率的に関連語彙を獲得することができる。また、認識辞書の更新は、関連語彙を予め用意されている認識辞書に追加するのみであるので、少ない処理量で高速に実行することができる。そのため、入力音声に対する認識結果に基づいて認識辞書を更新し拡張辞書を用いて再度認識を行う音声認識処理を高速、かつ高精度に行うことができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における音声認識装置の構成を示す。

同図に示す音声認識装置は、音響分析部１２０、探索部１７０、再探索部２１０、語彙拡張部１９０、音響モデル１４０、言語モデル１５０、認識辞書１６０、拡張認識辞書２００から構成される。

図４は、本発明の一実施の形態における音声認識装置の動作のフローチャートである。

音響分析部１２０は、入力音声１１０を音響特徴パラメータ系列１３０に変換する（ステップ１０１）。ここで、音響特徴パラメータ系列１３０は、入力音声１１０を数十msecのフレームと呼ばれる単位で分析して得られるLPCケプストラムやMFCCなどのパラメータ系列である。

探索部１７０は、音響モデル１４０、言語モデル１５０、及び予め用意されている認識辞書１６０を用いて、入力音声１１０に対する認識結果候補の探索を行い、暫定的な音声認識結果（１回目）１８０を得る(ステップ１０２)。

語彙拡張部１９０は、暫定的な音声認識結果（１回目）１８０に基づいて、入力音声に関連する語彙を推定し、予め用意されている認識認識辞書１６０に推定した語彙を追加した拡張認識辞書２００を生成する(ステップ１０３)。詳細については図５、図６において詳述する。

再探索部２１０は、音響モデル１４０、言語モデル１５０、及び拡張認識辞書２００を用いて、再び認識結果候補の探索を行い、最終的な音声認識結果２２０を出力する(ステップ１０４)。

次に、語彙拡張部１９０における拡張認識辞書２００を作成する過程を説明する。

図５は、本発明の一実施の形態における語彙拡張部の構成を示し、図６は、本発明の一実施の形態における語彙拡張部の動作のフローチャートを示す。

語彙拡張部１９０は、関連語彙獲得部３１０と拡張認識辞書生成部４１０を有する。

関連語彙獲得部３１０は、探索部１７０から暫定的な音声認識結果（１回目）１８０の単語系列が入力されると、入力された単語系列（文書）に対する関連語彙３２０を出力する語彙関連度算出部３７０、単語間の関連度の情報が格納されている語彙データベース３８０、及び予め定義された関連性の閾値あるいは、獲得する単語の数に基づいて関連語彙３２０を出力する関連語彙出力部４００とを有する。

なお、語彙データベース３８０の単語間の関連性の情報は、例えば、特開平８−１４７３２４に開示されているシソーラスを用いて求めることも可能であり、また、特開２０００−１３７７１８に開示されているような大量のテキストデータ中の単語の共起情報を用いて求めることも可能である。

関連語彙獲得部３１０の語彙関連度算出部３７０は、語彙データベース３８０を参照して、探索部１７０から入力された暫定的な音声認識結果（１回目）１８０の単語系列の各単語と関連性の高い単語の関連性の高さを表す値（関連度）を求め、関連性の高い単語と共に出力する（ステップ２０１）。

関連語彙出力部４００は、語彙関連度算出部３７０から出力された単語系列（文書）に対する関連語彙について、予め定義された関連性の閾値あるいは、獲得する単語の数に基づいて関連語彙を出力する(ステップ２０２)。

拡張認識辞書生成部４１０は、関連語彙３２０の単語うち予め用意されている認識辞書１６０を参照し、当該認識辞書１６０に含まれていない単語を抽出し（ステップ２０３）抽出された単語を認識辞書１６０に追加した拡張語彙辞書２００を作成する（ステップ２０５）。

上記の図４及び図６の動作をコンピュータによりプログラムを実行させて行うことも可能である。例えば、図７に示すように、各部がバス５１０に接続され、音声認識プログラムメモリ５２０に音声認識プログラムが、ＣＤ−ＲＯＭ、ハードディスクなどから、あるいは、通信回線を介してインストールされており、ＣＰＵ５３０がこの音声認識プログラムを実行することにより、音響モデル１４０、言語モデル１５０及び、予め用意されている認識辞書１６０を用いて入力音声１１０に対する音声認識結果（１回目）１８０を求め、その後、図６に示す方法で、拡張認識辞書２００を求める。そして、音響モデル１４０、言語モデル１５０及び、拡張認識辞書２００を用いて、最終的な音声認識結果２２０を出力する。記憶部５４０は、音響分析、探索や、拡張認識辞書作成時に一時的にデータを記憶するためなどに用いられる。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

上記の構成における音声認識処理の実験による評価について以下に示す。

実験では、放送ニュース音声を対象として評価した。

評価には、約２０分間のニュース番組を録音したものを用いた。９項目のニュースがふくまれており、全体の単語数は約２７００語である。ニュース項目毎に暫定的な認識結果を求めて拡張認識辞書を作成し、作成した当該拡張認識辞書を用いて再度認識を行った。

言語モデルは、ニュース番組の書き起こしなど約６０万文、１５００万単語の学習データを用いて単語トライグラムモデルを構築した。予め用意されている認識辞書は、学習データに１０回以上出現した単語からなり、語彙数は約２５０００語である。

音響モデルには、約３００時間の読み上げ音声及び、ニュース音声を用いて学習した３状態８混合の状態共有トライフォンHMMを用いた。

単語間の関連性を求めるための語彙データベースは、１年分の新聞記事の各文における単語共起に基づいて学習した。語彙データベースには、約１５万語が登録されており、それぞれの単語が１００次元の共起ベクトルを持っている。

語彙拡張は、各ニュース項目について１００語を獲得し、その中で予め用意されている認識辞書に含まれないものを追加して拡張認識辞書を作成した。認識処理において、追加した単語の言語的制約として未登録単語の出現確率を用いた。

実験結果を表１に示す。なお、表１に示す「予め用意された認識辞書」とは、従来技術に示す認識辞書を指す。未登録語率は、下記の式で求められる。

未登録語率＝（評価データに含まれる未登録語数／評価データの総単語数）×１００

上記の表１を見ると、本発明の方法による音声認識方法により、入力音声中の認識辞書に含まれない単語を関連語彙として獲得して、予め用意されている認識辞書に追加した拡張認識辞書を生成することで、入力音声に対する未登録語を削減することができ、音声認識精度が改善されることが確認できる。また、拡張認識辞書による音声認識には、予め用意された認識辞書と同じ言語モデルを用いるため、言語モデルをコンピュータのメモリ上に展開しておけば、拡張認識辞書を生成してメモリに展開するだけで、すぐに拡張認識辞書による認識処理を開始することができる。

本発明は、放送音声や会議音声などの書き起こしシステムにおいて、未登録語による認識誤りが少なく、入力された内容に関連する専門的な語彙を認識することができる音声認識システムの開発に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における音声認識装置の構成図である。本発明の一実施の形態における音声認識装置の動作のフローチャートである。本発明の一実施の形態における語彙拡張部の構成図である。本発明の一実施の形態における語彙拡張部の動作のフローチャートである。本発明の一実施の形態における音声認識処理をコンピュータで実行する場合の構成例である。

符号の説明

１１０入力音声
１２０音響分析部
１３０音響特徴パラメータ系列
１４０音響モデル
１５０言語モデル
１６０認識辞書
１７０探索部
１８０暫定的な第１の音声認識結果、音声認識結果（１回目）
１９０語彙拡張手段、語彙拡張部
２００拡張辞書、拡張認識辞書
２１０再探索手段、再探索部
２２０音声認識結果
３１０関連語彙獲得部
３２０関連語彙
３７０語彙関連度算出部
３８０語彙データベース
４１０拡張認識辞書生成部
５２０音声認識プログラムメモリ
５３０ CPU
５４０記憶部

Claims

入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアに基づいて計算されるスコアが最も高い言語単位系列を認識結果として出力する音声認識方法において、
音声が入力されると、前記予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第１の音声認識ステップと、
単語間の共起情報を単語間の関連性の情報とした、単語間の関連性の情報を格納するデータベースを参照して、前記暫定的な音声認識結果の単語系列の各単語と関連性の高い単語である関連語彙を、該データベースから獲得する語彙獲得ステップと、
獲得した前記関連語彙を前記予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
前記拡張辞書を用いて再度音声認識処理を行う第２の音声認識ステップと、を行うことを特徴とする音声認識方法。
前記語彙獲得ステップにおいて、
前記暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを含む請求項１記載の音声認識方法。
入力される音声信号をディジタル信号に変換し、該ディジタル信号から音響特徴パラメータ系列を抽出する音響分析手段と、音響モデルが格納されている音響モデル記憶手段と、言語モデルが格納されている言語モデル記憶手段と、予め用意されている認識辞書が格納されている辞書記憶手段と、該音響モデル記憶手段、該言語モデル記憶手段、該辞書記憶手段からそれぞれ音響モデル、言語モデル、該予め用意されている認識辞書を入力し、入力音声の該音響特徴パラメータ系列に対して、該言語モデルと該予め用意されている認識辞書により与えられた言語スコアと、該音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する探索手段とを有する音声認識装置であって、
入力された音声を前記辞書記憶手段の前記予め用意されている認識辞書を用いて求めた暫定的な第１の音声認識結果から、その内容に対する関連語彙を、単語間の共起情報を単語間の関連性の情報とした、単語間の関連性の情報を格納する語彙データベースを参照して、該暫定的な第１の音声認識結果の単語系列の各単語と関連性の高い単語である関連語彙を該語彙データベースから獲得し、獲得した関連語彙を該辞書記憶手段に追加した、拡張辞書を作成する語彙拡張手段と、
前記拡張辞書を用いて求めた音声認識結果を出力する再探索手段と、を有することを特徴とする音声認識装置。
前記語彙拡張手段は、
前記暫定的な第１の音声認識結果から関連語彙を獲得する際に、該暫定的な第１の音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出手段を含む請求項３記載の音声認識装置。
請求項３または４に記載の音声認識装置を構成する各手段としてコンピュータを機能させるための音声認識プログラム。
請求項５に記載の音声認識プログラムを格納したことを特徴とする音声認識プログラムを格納した記憶媒体。