JP6622856B2 - データ構造、雑音抑圧装置、雑音抑圧方法、プログラム - Google Patents

データ構造、雑音抑圧装置、雑音抑圧方法、プログラム Download PDF

Info

Publication number
JP6622856B2
JP6622856B2 JP2018110903A JP2018110903A JP6622856B2 JP 6622856 B2 JP6622856 B2 JP 6622856B2 JP 2018110903 A JP2018110903 A JP 2018110903A JP 2018110903 A JP2018110903 A JP 2018110903A JP 6622856 B2 JP6622856 B2 JP 6622856B2
Authority
JP
Japan
Prior art keywords
noise suppression
parameter set
entry
suppression parameter
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018110903A
Other languages
English (en)
Other versions
JP2018136582A (ja
Inventor
智子 川瀬
智子 川瀬
隆朗 福冨
隆朗 福冨
岡本 学
学 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018110903A priority Critical patent/JP6622856B2/ja
Publication of JP2018136582A publication Critical patent/JP2018136582A/ja
Application granted granted Critical
Publication of JP6622856B2 publication Critical patent/JP6622856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、スマートフォン等への発話内容を文字に書き起こす音声認識サービスに関し、音声認識サービスを多様な環境下で提供できるようにするために、事前に各環境に適した雑音抑圧パラメータセットを決定するために用いるデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムに関する。
本技術分野の背景技術として例えば特許文献1がある。特許文献1のパラメータ決定装置は、音声のデータセットに対し、帯域ごとの雑音レベルを特徴量としてグループ分けを実施し、各グループに対して音声認識率が最大となる雑音抑圧パラメータセットを選択する。
特開2016−139025号公報 特許第3309895号公報
Y. Uemura, Y. Takahashi, H. Saruwatari, K. Shikano , K. Kondo, "AUTOMATIC OPTIMIZATION SCHEME OF SPECTRAL SUBTRACTION BASED ON MUSICAL NOISE ASSESSMENT VIA HIGHER-ORDER STATISTICS,"Seattle, 2008. M. Vondrasek , P. Pollak, "Methods for Speech SNR estimation: Evaluation Tool and Analysis of VAD Dependency," Radioengineering, 第 巻14, 第 1, pp. 6-11, 2005.
最適な雑音抑圧パラメータセットは、音声信号の収音条件によって異なる場合がある。例えば収音した端末の機種が異なる場合は、マイクロホン素子やその構成が異なるため、雑音抑圧処理に最適なパラメータの値が大きく異なる可能性がある。従来技術では収音条件を考慮していなかったため、最適な雑音抑圧パラメータセットが選択されない可能性があった。
そこで本発明では、収音条件に基づいて雑音抑圧パラメータセットを設定することができるデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムを提供することを目的とする。
本発明のデータ構造は、雑音抑圧装置が、収音条件に基づいて雑音抑圧パラメータセットを設定する処理に用いられる。
本発明のデータ構造は、最適雑音抑圧パラメータセットと、音声ファイル収音時の条件を規定するラベルである収音条件と、グループ分け規準と、を対応付けてなる第3のエントリを含んで構成される。
第1のエントリを、音声ファイルと、収音条件とを対応付けてなるものとし、第2のエントリを、音声ファイルの雑音の特性を規定する特徴量と、収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなるものとする。グループ分け規準は、第2のエントリの特徴量に基づく基準である。最適雑音抑圧パラメータセットは、当該最適雑音抑圧パラメータセットに対応付けられたグループ分け基準により第2のエントリをグループ分けした各グループにおいて、当該グループに含まれる第2のエントリのうち所定の基準を満たす精度情報を有する第2のエントリの雑音抑圧パラメータセットである。第3のエントリは、雑音抑圧装置が、入力された音声ファイルの特徴量を入力された収音条件に基づいてグループ分けし、当該各グループの雑音抑圧パラメータを設定する際に、当該グループ分けの基準と入力された収音条件に基づいて第3のエントリの中から最適雑音抑圧パラメータを特定する処理に用いられる。
本発明のデータ構造、雑音抑圧装置、雑音抑圧方法、プログラムによれば、収音条件に基づいて雑音抑圧パラメータセットを設定することができる。
実施例1の音声認識システムの構成を示すブロック図。 変形例の音声認識システムの構成を示すブロック図。 変形例の音声認識装置の構成を示すブロック図。 実施例1の学習装置の動作を示すシーケンス図。 実施例1の雑音抑圧・音声認識装置の動作を示すシーケンス図。 音声認識結果データベース作成部の構成を示すブロック図。 音声認識結果データベース作成部の動作を示すフローチャート。 雑音抑圧パラメータセット切替規則学習部の構成を示すブロック図。 雑音抑圧パラメータセット切替規則学習部の動作を示すフローチャート。 雑音抑圧・音声認識装置の構成を示すブロック図。 雑音抑圧・音声認識装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<音声認識システム1>
図1を参照して、実施例1の音声認識システム1の構成を説明する。同図に示すように本実施例の音声認識システム1は、学習装置10と、音声データベース11と、音声認識結果データベース13と、切替規則データベース15と、雑音抑圧・音声認識装置16を含み、学習装置10は、音声認識結果データベース作成部12と、雑音抑圧パラメータセット切替規則学習部14を含む構成である。
なお、図2に示すように学習装置10を二つの装置に分けて構成することもできる。具体的には、音声認識結果データベース作成部12と同様の機能を有する独立した装置である音声認識結果データベース作成装置12、雑音抑圧パラメータセット切替規則学習部14と同様の機能を有する独立した装置である雑音抑圧パラメータセット切替規則学習装置14を含む、音声認識システム1aとして構成してもよい。
なお、図3に示すようにシステム全体を一つの装置として構成してもよい。具体的には、音声データベース11と、音声認識結果データベース作成部12と、音声認識結果データベース13と、雑音抑圧パラメータセット切替規則学習部14と、切替規則データベース15と、雑音抑圧・音声認識装置16と同様の機能を有する雑音抑圧・音声認識部16を含む音声認識装置1bとして構成してもよい。この場合、三つのデータベースは、音声認識装置1bの外部に配置されることとしてもよい。以下では、図1に示した構成に従って説明を進めるものとする。
本実施例では、オンライン上で利用される音声認識サービスを想定している。音声認識サービスを提供、運用する者を運用者と呼び、スマートフォン等の端末から音声認識サービスを利用する者を利用者と呼ぶ。運用者は、運用者aとして図示、および呼称される。利用者は、利用者bとして図示、および呼称される。
例えば、学習装置10は、運用者aの操作を契機に動作する装置を想定している。雑音抑圧・音声認識装置16は、利用者bの操作を契機に動作する音声認識サービスにおけるオンライン処理装置を想定している。音声認識結果データベース作成部12は、雑音抑圧パラメータセット切替規則学習のために用いる音声認識結果データベース13を用意するための処理部である。雑音抑圧パラメータ切替規則学習部14は、雑音抑圧・音声認識装置16が利用される際に、どのような音声ファイルに対してどのような雑音抑圧パラメータセットを割当てるかの規則を事前に決定するための処理部である。
<用語の定義>
下表に本実施例で使用される用語を定義する。
Figure 0006622856
<学習装置10の動作>
以下、図4を参照して学習装置10の動作であるステップS12、ステップS14を説明する。
<音声認識結果データベース作成部12の動作(S12)>
本ステップに先立ち、運用者aは、予め雑音抑圧パラメータセット群を用意し、音声認識結果データベース作成部12に入力する。これに加え、本ステップでは音声データベース11が参照される。音声データベース11には、音声ファイルと、正解文と、収音条件とが対応付けられて第1のエントリとして予め記憶されている。音声認識結果データベース作成部12は、対象となる音声ファイルから特徴量を算出する。音声認識結果データベース作成部12は、対象となる音声ファイルを雑音抑圧パラメータセットに基づいて雑音抑圧する。雑音抑圧の方法および雑音抑圧パラメータセットについては、特許文献1と同様の方法を用いることができる。音声認識結果データベース作成部12は、雑音抑圧後の音声ファイルを音声認識する。音声認識結果データベース作成部12は、音声認識結果と正解文とを比較することにより精度情報を算出する。
音声認識結果データベース作成部12は、特徴量と、収音条件と、雑音抑圧パラメータセットと精度情報を対応付けて第2のエントリとして音声認識結果データベース13に記憶する処理を、雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行する。
すなわち、雑音抑圧は運用者aが予め用意したN個(Nは2以上の整数)の雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群を用いておこなわれる。雑音抑圧により一つの音声ファイルに対してN個の雑音抑圧後音声ファイルが生成され、それぞれに対応する音声認識結果が生成される。生成されたN個の音声認識結果は正解文と比較され、N個の音声認識結果に対してN個の精度情報が算出される。従ってこれらを対応付けたN個の第2のエントリが音声認識結果データベース13に記憶されることになる。以上がステップS12である。ステップS12は、音声データベース11中の各音声ファイルについて実行される。
特徴量は、例えば以下の値を一つ、または複数含んで構成すればよい。
・帯域ごとの雑音のパワー(特許文献2参照)
・雑音の尖度(非特許文献1参照)
・信号対雑音比(非特許文献2参照)
収音条件については、音声データベース11に音声ファイルと対応付けて記憶されているものが、そのまま音声認識結果データベース13に引き継がれる。収音条件として、たとえば下表に挙げる項目とラベルの例が考えられる。収音条件の項目として端末名を含んでいれば好適である。
Figure 0006622856
精度情報は、以下の情報から計算することができる。
・正解文の文字数または単語数
・音声認識結果の正解文字数または正解単語数
・音声認識結果の誤り文字数または誤り単語数
<雑音抑圧パラメータセット切替規則学習部14の動作(S14)>
本ステップに先立ち、運用者aは、切替規則を学習する収音条件を指定して、雑音抑圧パラメータセット切替規則学習部14に入力する。雑音抑圧パラメータセット切替規則学習部14は、運用者aに指定された収音条件に基づいて音声認識結果データベース13を検索する。雑音抑圧パラメータセット切替規則学習部14は、検索された第2のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする。雑音抑圧パラメータセット切替規則学習部14は、各グループにおける精度情報が所定の条件を充たすように各グループにおいて雑音抑圧パラメータセットを選択して、最適雑音抑圧パラメータセットとする。雑音抑圧パラメータセット切替規則学習部14は、最適雑音抑圧パラメータセットと、グループ分け基準と、検索に用いた収音条件を対応付けて第3のエントリとして切替規則データベース15に記憶する。以上がステップS14である。本実施例では、収音条件による検索により、特徴量だけからは区別不能な雑音の特性が区別され、それぞれに適した雑音抑圧パラメータセットが選択されることが特徴である。
収音条件の指定方法について説明する。収音条件は運用者aにより指定されるが、作業を軽減するために、収音条件の一項目に対して次のいずれの指定方法をとっても良いものとする。
・単一条件を指定する。
・複数条件をOR条件で指定する。
・条件を指定しない(全条件のOR条件)。
収音条件が複数項目を含む場合、全項目のAND条件が指定される。項目数や項目ごとの条件数が多い場合、収音条件数はその組み合わせであるので、組み合わせ総数は非常に多くなると考えられる。従って、雑音抑圧パラメータセット切替規則を全収音条件に対して学習しても良いし、一部の収音条件に対してのみ学習しても良い。一部の収音条件に対してのみ学習する場合、利用者bが音声認識サービスを利用する時に指定する収音条件が、雑音抑圧パラメータ切替規則学習データベース15に存在しない可能性がある。そのため、学習された雑音抑圧パラメータセット切替規則のうちの一つの規則を、前述の場合に用いられるデフォルトの規則として切替規則データベース15上で指定しておけば好適である。
グループ分けと最適雑音抑圧パラメータセットの選択については、特許文献1と同様の方法を用いることができる。渡されたデータ全体の音声認識精度(精度情報)が最大となるように、グループ分け基準とグループごとの最適雑音抑圧パラメータセットが交互に繰り返し決定される。
<雑音抑圧・音声認識装置16の動作>
以下、図5を参照して雑音抑圧・音声認識装置16の動作であるステップS16を説明する。本ステップに先立ち、利用者bは、音声認識対象となる音声ファイルと、当該音声ファイルの収音条件を指定して雑音抑圧・音声認識装置16に入力しているものとする。
収音条件の指定方法として、例えば利用者bが、音声認識サービス利用時に、現在の収音条件を手動で指定してもよい。また、利用者bが利用する端末がソフトウェアなどを通じて現在の収音条件を指定してもよい。収音条件の指定・取得の方法として、収音条件の少なくとも一つの項目が指定・取得される場合と、いずれの項目も指定・取得されない場合が考えられる。収音条件検索指定・取得されない項目に対する検索では、全条件のOR条件がヒットする。
雑音抑圧・音声認識装置16は、利用者bから指定された収音条件に基づいて切替規則データベース15を検索する。雑音抑圧・音声認識装置16は、検索された第3のエントリのグループ分け基準に従って利用者bから取得した音声ファイルをグループ分けする。雑音抑圧・音声認識装置16は、グループ分けされたグループに対応する最適雑音抑圧パラメータセットに基づいて利用者bから取得した音声ファイルを雑音抑圧する。雑音抑圧・音声認識装置16は、雑音抑圧後の音声ファイルを音声認識して音声認識結果を出力する。以上がステップS16である。
<音声認識結果データベース作成部12およびステップS12の詳細>
以下、図6、図7を参照して本実施例の音声認識結果データベース作成部12およびステップS12の詳細について説明する。図6に示すように、音声認識結果データベース作成部12は、特徴量算出部121と、雑音抑圧部122と、音声認識部123と、音声認識精度評価部124を含む。特徴量算出部121は、対象となる音声ファイルから特徴量を算出する(S121)。雑音抑圧部122は、対象となる音声ファイルを運用者aが指定した雑音抑圧パラメータセット群の中の任意の雑音抑圧パラメータセットに基づいて雑音抑圧する(S122)。音声認識部123は、雑音抑圧後の音声ファイルを音声認識する(S123)。音声認識精度評価部124は、音声認識結果と正解文とを比較することにより精度情報を算出する(S124)。音声認識結果データベース作成部12は、特徴量と、収音条件と、雑音抑圧パラメータセットと精度情報を対応付けて第2のエントリとして音声認識結果データベース13に記憶する処理を、運用者aが指定した雑音抑圧パラメータセット群の、各雑音抑圧パラメータセットに対して実行する。以上がステップS12の動作の詳細である。
<雑音抑圧パラメータセット切替規則学習部14およびステップS14の詳細>
以下、図8、図9を参照して本実施例の雑音抑圧パラメータセット切替規則学習部14およびステップS14の詳細について説明する。図8に示すように、雑音抑圧パラメータセット切替規則学習部14は、収音条件検索部141と、グループ分け部142と、最適パラメータセット選択部143と、収束判定部144を含む。収音条件検索部141は、運用者aが指定した収音条件に基づいて音声認識結果データベース13を検索する(S141)。グループ分け部142は、検索された第2のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする(S142a)。最適パラメータセット選択部143は、各グループにおいて、各グループの精度情報が最大となるように各グループの雑音抑圧パラメータセットを選択する(S143a)。収束判定部144は、選択された各グループの雑音抑圧パラメータセットについて収束判定を行い(S144a)、雑音抑圧パラメータセットの最適化が収束していると判定した場合に(S144b−Y)、最適パラメータセット選択部143に出力指令を出力する(S144c)。一方、収束判定部144は、雑音抑圧パラメータセットの最適化が未収束であると判定した場合に(S144b−N)、グループ分け部142にグループ分け指令を出力する(S144d)。出力指令を取得した最適パラメータセット選択部143は、最新の雑音抑圧パラメータセットを最適雑音抑圧パラメータセットとして、グループ分け基準と、検索に用いた収音条件と共に第3のエントリとして切替規則データベース15に記憶する(S143b)。一方、グループ分け指令を取得したグループ分け部142は、グループ分け基準を変更して、再度グループ分けを実行する(142b)。以上がステップS14の動作の詳細である。
<雑音抑圧・音声認識装置16およびステップS16の詳細>
以下、図10、図11を参照して本実施例の雑音抑圧・音声認識装置16およびステップS16の詳細について説明する。図10に示すように、雑音抑圧・音声認識装置16は、収音条件検索部161と、特徴量算出部162と、雑音抑圧パラメータセット導出部163と、雑音抑圧部164と、音声認識部165を含む。収音条件検索部161は、利用者bから指定された収音条件に基づいて切替規則データベース15を検索する(S161)。特徴量算出部162は、利用者bから取得した音声ファイルから特徴量を算出する(S162)。雑音抑圧パラメータセット導出部163は、検索された第3のエントリのグループ分け基準に従って利用者bから取得した音声ファイルの特徴量をグループ分けし、これに対応する最適雑音抑圧パラメータセットを導出する(S163)。雑音抑圧部164は、導出された最適雑音抑圧パラメータセットに基づいて利用者bから取得した音声ファイルを雑音抑圧する(S164)。音声認識部165は、雑音抑圧後の音声ファイルを音声認識して音声認識結果を出力する(S165)。以上がステップS16の動作の詳細である。
<本実施例の音声認識システム1により生じる効果>
本実施例の音声認識システム1によれば、収音条件が多様な場合にも、それぞれの収音条件に適した雑音抑圧パラメータセットを自動で選択可能になる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリ
であるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 雑音抑圧装置が、収音条件に基づいて雑音抑圧パラメータセットを設定する処理に用いるデータ構造であって、
    最適雑音抑圧パラメータセットと、音声ファイル収音時の条件を規定するラベルである収音条件と、グループ分け規準と、を対応付けてなる第3のエントリを含んで構成され、
    第1のエントリを、前記音声ファイルと、前記収音条件とを対応付けてなるものとし、
    第2のエントリを、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなるものとし、
    前記グループ分け規準は、前記第2のエントリの特徴量に基づく基準であり、
    前記最適雑音抑圧パラメータセットは、当該最適雑音抑圧パラメータセットに対応付けられた前記グループ分け基準により前記第2のエントリをグループ分けした各グループにおいて、当該グループに含まれる前記第2のエントリのうち所定の基準を満たす前記精度情報を有する第2のエントリの前記雑音抑圧パラメータセットであり、
    前記第3のエントリは、前記雑音抑圧装置が、入力された音声ファイルの特徴量を入力された収音条件に基づいてグループ分けし、当該各グループの雑音抑圧パラメータを設定する際に、当該グループ分けの基準と前記入力された収音条件に基づいて前記第3のエントリの中から最適雑音抑圧パラメータを特定する処理に用いられる
    データ構造。
  2. 音声認識結果データベース作成部と、雑音抑圧パラメータセット切替規則学習部と、雑音抑圧・音声認識部と、音声データベースと、音声認識結果データベースと、切替規則データベースを含むコンピュータに用いられるデータ構造であって、
    前記音声データベースに記憶される第1のエントリと、前記音声認識結果データベースに記憶される第2のエントリと、前記切替規則データベースに記憶される第3のエントリを含み、
    前記第1のエントリは、
    前記音声認識結果データベース作成部による前記第2のエントリの生成処理に用いられ、
    音声ファイルと、前記音声ファイルに対応する正解文と、前記音声ファイルの収音時の条件を規定するラベルである収音条件とを対応付けてなり、
    前記第2のエントリは、
    前記雑音抑圧パラメータセット切替規則学習部による前記第3のエントリの生成処理に用いられ、
    前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなり、
    前記第3のエントリは、
    前記雑音抑圧・音声認識部によるグループ分け処理、およびグループ分けされたグループに対応する雑音抑圧処理に用いられ、
    指定された前記収音条件に基づいて検索された前記第2のエントリを前記特徴量に基づくグループ分け基準に従ってグループ分けし、各グループにおける前記精度情報が所定の条件を充たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け基準と、検索に用いた前記収音条件を対応付けてなる
    データ構造。
  3. 音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第1のエントリとして記憶する音声データベースと、
    雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第2のエントリの集合とする音声認識結果データベース作成部と、
    前記第2のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第3のエントリの集合とする雑音抑圧パラメータセット切替規則学習部と、
    入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第3のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する雑音抑圧パラメータセット導出部を含む
    雑音抑圧装置。
  4. 請求項3に記載の雑音抑圧装置であって、
    前記雑音抑圧パラメータセット導出部は、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
    雑音抑圧装置。
  5. 雑音抑圧装置が実行する雑音抑圧方法であって、
    音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第1のエントリとして記憶する第1のステップと、
    雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第2のエントリの集合とする第2のステップと、
    前記第2のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第3のエントリの集合とする第3のステップと、
    入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第3のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する第4のステップを含む
    雑音抑圧方法。
  6. 請求項5に記載の雑音抑圧方法であって、
    前記第4のステップにおいて、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
    雑音抑圧方法。
  7. コンピュータを、請求項3または4に記載の雑音抑圧装置として機能させるプログラム。
JP2018110903A 2018-06-11 2018-06-11 データ構造、雑音抑圧装置、雑音抑圧方法、プログラム Active JP6622856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018110903A JP6622856B2 (ja) 2018-06-11 2018-06-11 データ構造、雑音抑圧装置、雑音抑圧方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018110903A JP6622856B2 (ja) 2018-06-11 2018-06-11 データ構造、雑音抑圧装置、雑音抑圧方法、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017026705A Division JP6367993B1 (ja) 2017-02-16 2017-02-16 学習装置、雑音抑圧パラメータセット切替規則学習装置、音声認識装置、学習方法、雑音抑圧パラメータセット切替規則学習方法、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018136582A JP2018136582A (ja) 2018-08-30
JP6622856B2 true JP6622856B2 (ja) 2019-12-18

Family

ID=63365544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018110903A Active JP6622856B2 (ja) 2018-06-11 2018-06-11 データ構造、雑音抑圧装置、雑音抑圧方法、プログラム

Country Status (1)

Country Link
JP (1) JP6622856B2 (ja)

Also Published As

Publication number Publication date
JP2018136582A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
US20240028837A1 (en) Device and method for machine reading comprehension question and answer
US8275177B2 (en) System and method for media fingerprint indexing
JP4622808B2 (ja) 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
US7805389B2 (en) Information processing apparatus and method, program and recording medium
US20160092596A1 (en) Database migration method and apparatus
WO2012154470A1 (en) Generating a playlist
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
KR101942459B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN110490304B (zh) 一种数据处理方法及设备
JP6873805B2 (ja) 対話支援システム、対話支援方法、及び対話支援プログラム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
US20200184379A1 (en) Platform for developing data models
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
EP3779814A1 (en) Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level
CN108681564A (zh) 关键词和答案的确定方法、装置和计算机可读存储介质
JP2009535671A (ja) 一のユーザのカテゴリラベルを他のユーザにより規定されたカテゴリラベルで関連付けるシステム及び方法
JP5542729B2 (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP6622856B2 (ja) データ構造、雑音抑圧装置、雑音抑圧方法、プログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP6367993B1 (ja) 学習装置、雑音抑圧パラメータセット切替規則学習装置、音声認識装置、学習方法、雑音抑圧パラメータセット切替規則学習方法、音声認識方法、プログラム
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2020149369A (ja) 対話制御システム、対話制御方法及びプログラム
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
KR20190009821A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191122

R150 Certificate of patent or registration of utility model

Ref document number: 6622856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150