JP6622856B2

JP6622856B2 - データ構造、雑音抑圧装置、雑音抑圧方法、プログラム

Info

Publication number: JP6622856B2
Application number: JP2018110903A
Authority: JP
Inventors: 智子川瀬; 隆朗福冨; 岡本　学; 学岡本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-12-18
Anticipated expiration: 2037-02-16
Also published as: JP2018136582A

Description

本発明は、スマートフォン等への発話内容を文字に書き起こす音声認識サービスに関し、音声認識サービスを多様な環境下で提供できるようにするために、事前に各環境に適した雑音抑圧パラメータセットを決定するために用いるデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムに関する。

本技術分野の背景技術として例えば特許文献１がある。特許文献１のパラメータ決定装置は、音声のデータセットに対し、帯域ごとの雑音レベルを特徴量としてグループ分けを実施し、各グループに対して音声認識率が最大となる雑音抑圧パラメータセットを選択する。

特開２０１６−１３９０２５号公報特許第３３０９８９５号公報

Y. Uemura, Y. Takahashi, H. Saruwatari, K. Shikano , K. Kondo, "AUTOMATIC OPTIMIZATION SCHEME OF SPECTRAL SUBTRACTION BASED ON MUSICAL NOISE ASSESSMENT VIA HIGHER-ORDER STATISTICS,"Seattle, 2008. M. Vondrasek , P. Pollak, "Methods for Speech SNR estimation: Evaluation Tool and Analysis of VAD Dependency," Radioengineering, 第巻14, 第 1, pp. 6-11, 2005.

最適な雑音抑圧パラメータセットは、音声信号の収音条件によって異なる場合がある。例えば収音した端末の機種が異なる場合は、マイクロホン素子やその構成が異なるため、雑音抑圧処理に最適なパラメータの値が大きく異なる可能性がある。従来技術では収音条件を考慮していなかったため、最適な雑音抑圧パラメータセットが選択されない可能性があった。

そこで本発明では、収音条件に基づいて雑音抑圧パラメータセットを設定することができるデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムを提供することを目的とする。

本発明のデータ構造は、雑音抑圧装置が、収音条件に基づいて雑音抑圧パラメータセットを設定する処理に用いられる。

本発明のデータ構造は、最適雑音抑圧パラメータセットと、音声ファイル収音時の条件を規定するラベルである収音条件と、グループ分け規準と、を対応付けてなる第３のエントリを含んで構成される。

第１のエントリを、音声ファイルと、収音条件とを対応付けてなるものとし、第２のエントリを、音声ファイルの雑音の特性を規定する特徴量と、収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなるものとする。グループ分け規準は、第２のエントリの特徴量に基づく基準である。最適雑音抑圧パラメータセットは、当該最適雑音抑圧パラメータセットに対応付けられたグループ分け基準により第２のエントリをグループ分けした各グループにおいて、当該グループに含まれる第２のエントリのうち所定の基準を満たす精度情報を有する第２のエントリの雑音抑圧パラメータセットである。第３のエントリは、雑音抑圧装置が、入力された音声ファイルの特徴量を入力された収音条件に基づいてグループ分けし、当該各グループの雑音抑圧パラメータを設定する際に、当該グループ分けの基準と入力された収音条件に基づいて第３のエントリの中から最適雑音抑圧パラメータを特定する処理に用いられる。

本発明のデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムによれば、収音条件に基づいて雑音抑圧パラメータセットを設定することができる。

実施例１の音声認識システムの構成を示すブロック図。変形例の音声認識システムの構成を示すブロック図。変形例の音声認識装置の構成を示すブロック図。実施例１の学習装置の動作を示すシーケンス図。実施例１の雑音抑圧・音声認識装置の動作を示すシーケンス図。音声認識結果データベース作成部の構成を示すブロック図。音声認識結果データベース作成部の動作を示すフローチャート。雑音抑圧パラメータセット切替規則学習部の構成を示すブロック図。雑音抑圧パラメータセット切替規則学習部の動作を示すフローチャート。雑音抑圧・音声認識装置の構成を示すブロック図。雑音抑圧・音声認識装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜音声認識システム１＞
図１を参照して、実施例１の音声認識システム１の構成を説明する。同図に示すように本実施例の音声認識システム１は、学習装置１０と、音声データベース１１と、音声認識結果データベース１３と、切替規則データベース１５と、雑音抑圧・音声認識装置１６を含み、学習装置１０は、音声認識結果データベース作成部１２と、雑音抑圧パラメータセット切替規則学習部１４を含む構成である。

なお、図２に示すように学習装置１０を二つの装置に分けて構成することもできる。具体的には、音声認識結果データベース作成部１２と同様の機能を有する独立した装置である音声認識結果データベース作成装置１２、雑音抑圧パラメータセット切替規則学習部１４と同様の機能を有する独立した装置である雑音抑圧パラメータセット切替規則学習装置１４を含む、音声認識システム１ａとして構成してもよい。

なお、図３に示すようにシステム全体を一つの装置として構成してもよい。具体的には、音声データベース１１と、音声認識結果データベース作成部１２と、音声認識結果データベース１３と、雑音抑圧パラメータセット切替規則学習部１４と、切替規則データベース１５と、雑音抑圧・音声認識装置１６と同様の機能を有する雑音抑圧・音声認識部１６を含む音声認識装置１ｂとして構成してもよい。この場合、三つのデータベースは、音声認識装置１ｂの外部に配置されることとしてもよい。以下では、図１に示した構成に従って説明を進めるものとする。

本実施例では、オンライン上で利用される音声認識サービスを想定している。音声認識サービスを提供、運用する者を運用者と呼び、スマートフォン等の端末から音声認識サービスを利用する者を利用者と呼ぶ。運用者は、運用者ａとして図示、および呼称される。利用者は、利用者ｂとして図示、および呼称される。

例えば、学習装置１０は、運用者ａの操作を契機に動作する装置を想定している。雑音抑圧・音声認識装置１６は、利用者ｂの操作を契機に動作する音声認識サービスにおけるオンライン処理装置を想定している。音声認識結果データベース作成部１２は、雑音抑圧パラメータセット切替規則学習のために用いる音声認識結果データベース１３を用意するための処理部である。雑音抑圧パラメータ切替規則学習部１４は、雑音抑圧・音声認識装置１６が利用される際に、どのような音声ファイルに対してどのような雑音抑圧パラメータセットを割当てるかの規則を事前に決定するための処理部である。

＜用語の定義＞
下表に本実施例で使用される用語を定義する。

＜学習装置１０の動作＞
以下、図４を参照して学習装置１０の動作であるステップＳ１２、ステップＳ１４を説明する。

＜音声認識結果データベース作成部１２の動作（Ｓ１２）＞
本ステップに先立ち、運用者ａは、予め雑音抑圧パラメータセット群を用意し、音声認識結果データベース作成部１２に入力する。これに加え、本ステップでは音声データベース１１が参照される。音声データベース１１には、音声ファイルと、正解文と、収音条件とが対応付けられて第１のエントリとして予め記憶されている。音声認識結果データベース作成部１２は、対象となる音声ファイルから特徴量を算出する。音声認識結果データベース作成部１２は、対象となる音声ファイルを雑音抑圧パラメータセットに基づいて雑音抑圧する。雑音抑圧の方法および雑音抑圧パラメータセットについては、特許文献１と同様の方法を用いることができる。音声認識結果データベース作成部１２は、雑音抑圧後の音声ファイルを音声認識する。音声認識結果データベース作成部１２は、音声認識結果と正解文とを比較することにより精度情報を算出する。

音声認識結果データベース作成部１２は、特徴量と、収音条件と、雑音抑圧パラメータセットと精度情報を対応付けて第２のエントリとして音声認識結果データベース１３に記憶する処理を、雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行する。

すなわち、雑音抑圧は運用者ａが予め用意したＮ個（Ｎは２以上の整数）の雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群を用いておこなわれる。雑音抑圧により一つの音声ファイルに対してＮ個の雑音抑圧後音声ファイルが生成され、それぞれに対応する音声認識結果が生成される。生成されたＮ個の音声認識結果は正解文と比較され、Ｎ個の音声認識結果に対してＮ個の精度情報が算出される。従ってこれらを対応付けたＮ個の第２のエントリが音声認識結果データベース１３に記憶されることになる。以上がステップＳ１２である。ステップＳ１２は、音声データベース１１中の各音声ファイルについて実行される。

特徴量は、例えば以下の値を一つ、または複数含んで構成すればよい。
・帯域ごとの雑音のパワー（特許文献２参照）
・雑音の尖度（非特許文献１参照）
・信号対雑音比（非特許文献２参照）
収音条件については、音声データベース１１に音声ファイルと対応付けて記憶されているものが、そのまま音声認識結果データベース１３に引き継がれる。収音条件として、たとえば下表に挙げる項目とラベルの例が考えられる。収音条件の項目として端末名を含んでいれば好適である。

精度情報は、以下の情報から計算することができる。
・正解文の文字数または単語数
・音声認識結果の正解文字数または正解単語数
・音声認識結果の誤り文字数または誤り単語数

＜雑音抑圧パラメータセット切替規則学習部１４の動作（Ｓ１４）＞
本ステップに先立ち、運用者ａは、切替規則を学習する収音条件を指定して、雑音抑圧パラメータセット切替規則学習部１４に入力する。雑音抑圧パラメータセット切替規則学習部１４は、運用者ａに指定された収音条件に基づいて音声認識結果データベース１３を検索する。雑音抑圧パラメータセット切替規則学習部１４は、検索された第２のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする。雑音抑圧パラメータセット切替規則学習部１４は、各グループにおける精度情報が所定の条件を充たすように各グループにおいて雑音抑圧パラメータセットを選択して、最適雑音抑圧パラメータセットとする。雑音抑圧パラメータセット切替規則学習部１４は、最適雑音抑圧パラメータセットと、グループ分け基準と、検索に用いた収音条件を対応付けて第３のエントリとして切替規則データベース１５に記憶する。以上がステップＳ１４である。本実施例では、収音条件による検索により、特徴量だけからは区別不能な雑音の特性が区別され、それぞれに適した雑音抑圧パラメータセットが選択されることが特徴である。

収音条件の指定方法について説明する。収音条件は運用者ａにより指定されるが、作業を軽減するために、収音条件の一項目に対して次のいずれの指定方法をとっても良いものとする。
・単一条件を指定する。
・複数条件をＯＲ条件で指定する。
・条件を指定しない（全条件のＯＲ条件）。

収音条件が複数項目を含む場合、全項目のＡＮＤ条件が指定される。項目数や項目ごとの条件数が多い場合、収音条件数はその組み合わせであるので、組み合わせ総数は非常に多くなると考えられる。従って、雑音抑圧パラメータセット切替規則を全収音条件に対して学習しても良いし、一部の収音条件に対してのみ学習しても良い。一部の収音条件に対してのみ学習する場合、利用者ｂが音声認識サービスを利用する時に指定する収音条件が、雑音抑圧パラメータ切替規則学習データベース１５に存在しない可能性がある。そのため、学習された雑音抑圧パラメータセット切替規則のうちの一つの規則を、前述の場合に用いられるデフォルトの規則として切替規則データベース１５上で指定しておけば好適である。

グループ分けと最適雑音抑圧パラメータセットの選択については、特許文献１と同様の方法を用いることができる。渡されたデータ全体の音声認識精度（精度情報）が最大となるように、グループ分け基準とグループごとの最適雑音抑圧パラメータセットが交互に繰り返し決定される。

＜雑音抑圧・音声認識装置１６の動作＞
以下、図５を参照して雑音抑圧・音声認識装置１６の動作であるステップＳ１６を説明する。本ステップに先立ち、利用者ｂは、音声認識対象となる音声ファイルと、当該音声ファイルの収音条件を指定して雑音抑圧・音声認識装置１６に入力しているものとする。

収音条件の指定方法として、例えば利用者ｂが、音声認識サービス利用時に、現在の収音条件を手動で指定してもよい。また、利用者ｂが利用する端末がソフトウェアなどを通じて現在の収音条件を指定してもよい。収音条件の指定・取得の方法として、収音条件の少なくとも一つの項目が指定・取得される場合と、いずれの項目も指定・取得されない場合が考えられる。収音条件検索指定・取得されない項目に対する検索では、全条件のＯＲ条件がヒットする。

雑音抑圧・音声認識装置１６は、利用者ｂから指定された収音条件に基づいて切替規則データベース１５を検索する。雑音抑圧・音声認識装置１６は、検索された第３のエントリのグループ分け基準に従って利用者ｂから取得した音声ファイルをグループ分けする。雑音抑圧・音声認識装置１６は、グループ分けされたグループに対応する最適雑音抑圧パラメータセットに基づいて利用者ｂから取得した音声ファイルを雑音抑圧する。雑音抑圧・音声認識装置１６は、雑音抑圧後の音声ファイルを音声認識して音声認識結果を出力する。以上がステップＳ１６である。

＜音声認識結果データベース作成部１２およびステップＳ１２の詳細＞
以下、図６、図７を参照して本実施例の音声認識結果データベース作成部１２およびステップＳ１２の詳細について説明する。図６に示すように、音声認識結果データベース作成部１２は、特徴量算出部１２１と、雑音抑圧部１２２と、音声認識部１２３と、音声認識精度評価部１２４を含む。特徴量算出部１２１は、対象となる音声ファイルから特徴量を算出する（Ｓ１２１）。雑音抑圧部１２２は、対象となる音声ファイルを運用者ａが指定した雑音抑圧パラメータセット群の中の任意の雑音抑圧パラメータセットに基づいて雑音抑圧する（Ｓ１２２）。音声認識部１２３は、雑音抑圧後の音声ファイルを音声認識する（Ｓ１２３）。音声認識精度評価部１２４は、音声認識結果と正解文とを比較することにより精度情報を算出する（Ｓ１２４）。音声認識結果データベース作成部１２は、特徴量と、収音条件と、雑音抑圧パラメータセットと精度情報を対応付けて第２のエントリとして音声認識結果データベース１３に記憶する処理を、運用者ａが指定した雑音抑圧パラメータセット群の、各雑音抑圧パラメータセットに対して実行する。以上がステップＳ１２の動作の詳細である。

＜雑音抑圧パラメータセット切替規則学習部１４およびステップＳ１４の詳細＞
以下、図８、図９を参照して本実施例の雑音抑圧パラメータセット切替規則学習部１４およびステップＳ１４の詳細について説明する。図８に示すように、雑音抑圧パラメータセット切替規則学習部１４は、収音条件検索部１４１と、グループ分け部１４２と、最適パラメータセット選択部１４３と、収束判定部１４４を含む。収音条件検索部１４１は、運用者ａが指定した収音条件に基づいて音声認識結果データベース１３を検索する（Ｓ１４１）。グループ分け部１４２は、検索された第２のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする（Ｓ１４２ａ）。最適パラメータセット選択部１４３は、各グループにおいて、各グループの精度情報が最大となるように各グループの雑音抑圧パラメータセットを選択する（Ｓ１４３ａ）。収束判定部１４４は、選択された各グループの雑音抑圧パラメータセットについて収束判定を行い（Ｓ１４４ａ）、雑音抑圧パラメータセットの最適化が収束していると判定した場合に（Ｓ１４４ｂ−Ｙ）、最適パラメータセット選択部１４３に出力指令を出力する（Ｓ１４４ｃ）。一方、収束判定部１４４は、雑音抑圧パラメータセットの最適化が未収束であると判定した場合に（Ｓ１４４ｂ−Ｎ）、グループ分け部１４２にグループ分け指令を出力する（Ｓ１４４ｄ）。出力指令を取得した最適パラメータセット選択部１４３は、最新の雑音抑圧パラメータセットを最適雑音抑圧パラメータセットとして、グループ分け基準と、検索に用いた収音条件と共に第３のエントリとして切替規則データベース１５に記憶する（Ｓ１４３ｂ）。一方、グループ分け指令を取得したグループ分け部１４２は、グループ分け基準を変更して、再度グループ分けを実行する（１４２ｂ）。以上がステップＳ１４の動作の詳細である。

＜雑音抑圧・音声認識装置１６およびステップＳ１６の詳細＞
以下、図１０、図１１を参照して本実施例の雑音抑圧・音声認識装置１６およびステップＳ１６の詳細について説明する。図１０に示すように、雑音抑圧・音声認識装置１６は、収音条件検索部１６１と、特徴量算出部１６２と、雑音抑圧パラメータセット導出部１６３と、雑音抑圧部１６４と、音声認識部１６５を含む。収音条件検索部１６１は、利用者ｂから指定された収音条件に基づいて切替規則データベース１５を検索する（Ｓ１６１）。特徴量算出部１６２は、利用者ｂから取得した音声ファイルから特徴量を算出する（Ｓ１６２）。雑音抑圧パラメータセット導出部１６３は、検索された第３のエントリのグループ分け基準に従って利用者ｂから取得した音声ファイルの特徴量をグループ分けし、これに対応する最適雑音抑圧パラメータセットを導出する（Ｓ１６３）。雑音抑圧部１６４は、導出された最適雑音抑圧パラメータセットに基づいて利用者ｂから取得した音声ファイルを雑音抑圧する（Ｓ１６４）。音声認識部１６５は、雑音抑圧後の音声ファイルを音声認識して音声認識結果を出力する（Ｓ１６５）。以上がステップＳ１６の動作の詳細である。

＜本実施例の音声認識システム１により生じる効果＞
本実施例の音声認識システム１によれば、収音条件が多様な場合にも、それぞれの収音条件に適した雑音抑圧パラメータセットを自動で選択可能になる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリ
であるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−
Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

雑音抑圧装置が、収音条件に基づいて雑音抑圧パラメータセットを設定する処理に用いるデータ構造であって、
最適雑音抑圧パラメータセットと、音声ファイル収音時の条件を規定するラベルである収音条件と、グループ分け規準と、を対応付けてなる第３のエントリを含んで構成され、
第１のエントリを、前記音声ファイルと、前記収音条件とを対応付けてなるものとし、
第２のエントリを、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなるものとし、
前記グループ分け規準は、前記第２のエントリの特徴量に基づく基準であり、
前記最適雑音抑圧パラメータセットは、当該最適雑音抑圧パラメータセットに対応付けられた前記グループ分け基準により前記第２のエントリをグループ分けした各グループにおいて、当該グループに含まれる前記第２のエントリのうち所定の基準を満たす前記精度情報を有する第２のエントリの前記雑音抑圧パラメータセットであり、
前記第３のエントリは、前記雑音抑圧装置が、入力された音声ファイルの特徴量を入力された収音条件に基づいてグループ分けし、当該各グループの雑音抑圧パラメータを設定する際に、当該グループ分けの基準と前記入力された収音条件に基づいて前記第３のエントリの中から最適雑音抑圧パラメータを特定する処理に用いられる
データ構造。
音声認識結果データベース作成部と、雑音抑圧パラメータセット切替規則学習部と、雑音抑圧・音声認識部と、音声データベースと、音声認識結果データベースと、切替規則データベースを含むコンピュータに用いられるデータ構造であって、
前記音声データベースに記憶される第１のエントリと、前記音声認識結果データベースに記憶される第２のエントリと、前記切替規則データベースに記憶される第３のエントリを含み、
前記第１のエントリは、
前記音声認識結果データベース作成部による前記第２のエントリの生成処理に用いられ、
音声ファイルと、前記音声ファイルに対応する正解文と、前記音声ファイルの収音時の条件を規定するラベルである収音条件とを対応付けてなり、
前記第２のエントリは、
前記雑音抑圧パラメータセット切替規則学習部による前記第３のエントリの生成処理に用いられ、
前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなり、
前記第３のエントリは、
前記雑音抑圧・音声認識部によるグループ分け処理、およびグループ分けされたグループに対応する雑音抑圧処理に用いられ、
指定された前記収音条件に基づいて検索された前記第２のエントリを前記特徴量に基づくグループ分け基準に従ってグループ分けし、各グループにおける前記精度情報が所定の条件を充たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け基準と、検索に用いた前記収音条件を対応付けてなる
データ構造。
音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第１のエントリとして記憶する音声データベースと、
雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第２のエントリの集合とする音声認識結果データベース作成部と、
前記第２のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第３のエントリの集合とする雑音抑圧パラメータセット切替規則学習部と、
入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第３のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する雑音抑圧パラメータセット導出部を含む
雑音抑圧装置。
請求項３に記載の雑音抑圧装置であって、
前記雑音抑圧パラメータセット導出部は、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
雑音抑圧装置。
雑音抑圧装置が実行する雑音抑圧方法であって、
音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第１のエントリとして記憶する第１のステップと、
雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第２のエントリの集合とする第２のステップと、
前記第２のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第３のエントリの集合とする第３のステップと、
入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第３のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する第４のステップを含む
雑音抑圧方法。
請求項５に記載の雑音抑圧方法であって、
前記第４のステップにおいて、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
雑音抑圧方法。
コンピュータを、請求項３または４に記載の雑音抑圧装置として機能させるプログラム。