JP6622856B2 - データ構造、雑音抑圧装置、雑音抑圧方法、プログラム - Google Patents
データ構造、雑音抑圧装置、雑音抑圧方法、プログラム Download PDFInfo
- Publication number
- JP6622856B2 JP6622856B2 JP2018110903A JP2018110903A JP6622856B2 JP 6622856 B2 JP6622856 B2 JP 6622856B2 JP 2018110903 A JP2018110903 A JP 2018110903A JP 2018110903 A JP2018110903 A JP 2018110903A JP 6622856 B2 JP6622856 B2 JP 6622856B2
- Authority
- JP
- Japan
- Prior art keywords
- noise suppression
- parameter set
- entry
- suppression parameter
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1を参照して、実施例1の音声認識システム1の構成を説明する。同図に示すように本実施例の音声認識システム1は、学習装置10と、音声データベース11と、音声認識結果データベース13と、切替規則データベース15と、雑音抑圧・音声認識装置16を含み、学習装置10は、音声認識結果データベース作成部12と、雑音抑圧パラメータセット切替規則学習部14を含む構成である。
下表に本実施例で使用される用語を定義する。
以下、図4を参照して学習装置10の動作であるステップS12、ステップS14を説明する。
本ステップに先立ち、運用者aは、予め雑音抑圧パラメータセット群を用意し、音声認識結果データベース作成部12に入力する。これに加え、本ステップでは音声データベース11が参照される。音声データベース11には、音声ファイルと、正解文と、収音条件とが対応付けられて第1のエントリとして予め記憶されている。音声認識結果データベース作成部12は、対象となる音声ファイルから特徴量を算出する。音声認識結果データベース作成部12は、対象となる音声ファイルを雑音抑圧パラメータセットに基づいて雑音抑圧する。雑音抑圧の方法および雑音抑圧パラメータセットについては、特許文献1と同様の方法を用いることができる。音声認識結果データベース作成部12は、雑音抑圧後の音声ファイルを音声認識する。音声認識結果データベース作成部12は、音声認識結果と正解文とを比較することにより精度情報を算出する。
・帯域ごとの雑音のパワー(特許文献2参照)
・雑音の尖度(非特許文献1参照)
・信号対雑音比(非特許文献2参照)
収音条件については、音声データベース11に音声ファイルと対応付けて記憶されているものが、そのまま音声認識結果データベース13に引き継がれる。収音条件として、たとえば下表に挙げる項目とラベルの例が考えられる。収音条件の項目として端末名を含んでいれば好適である。
・正解文の文字数または単語数
・音声認識結果の正解文字数または正解単語数
・音声認識結果の誤り文字数または誤り単語数
本ステップに先立ち、運用者aは、切替規則を学習する収音条件を指定して、雑音抑圧パラメータセット切替規則学習部14に入力する。雑音抑圧パラメータセット切替規則学習部14は、運用者aに指定された収音条件に基づいて音声認識結果データベース13を検索する。雑音抑圧パラメータセット切替規則学習部14は、検索された第2のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする。雑音抑圧パラメータセット切替規則学習部14は、各グループにおける精度情報が所定の条件を充たすように各グループにおいて雑音抑圧パラメータセットを選択して、最適雑音抑圧パラメータセットとする。雑音抑圧パラメータセット切替規則学習部14は、最適雑音抑圧パラメータセットと、グループ分け基準と、検索に用いた収音条件を対応付けて第3のエントリとして切替規則データベース15に記憶する。以上がステップS14である。本実施例では、収音条件による検索により、特徴量だけからは区別不能な雑音の特性が区別され、それぞれに適した雑音抑圧パラメータセットが選択されることが特徴である。
・単一条件を指定する。
・複数条件をOR条件で指定する。
・条件を指定しない(全条件のOR条件)。
以下、図5を参照して雑音抑圧・音声認識装置16の動作であるステップS16を説明する。本ステップに先立ち、利用者bは、音声認識対象となる音声ファイルと、当該音声ファイルの収音条件を指定して雑音抑圧・音声認識装置16に入力しているものとする。
以下、図6、図7を参照して本実施例の音声認識結果データベース作成部12およびステップS12の詳細について説明する。図6に示すように、音声認識結果データベース作成部12は、特徴量算出部121と、雑音抑圧部122と、音声認識部123と、音声認識精度評価部124を含む。特徴量算出部121は、対象となる音声ファイルから特徴量を算出する(S121)。雑音抑圧部122は、対象となる音声ファイルを運用者aが指定した雑音抑圧パラメータセット群の中の任意の雑音抑圧パラメータセットに基づいて雑音抑圧する(S122)。音声認識部123は、雑音抑圧後の音声ファイルを音声認識する(S123)。音声認識精度評価部124は、音声認識結果と正解文とを比較することにより精度情報を算出する(S124)。音声認識結果データベース作成部12は、特徴量と、収音条件と、雑音抑圧パラメータセットと精度情報を対応付けて第2のエントリとして音声認識結果データベース13に記憶する処理を、運用者aが指定した雑音抑圧パラメータセット群の、各雑音抑圧パラメータセットに対して実行する。以上がステップS12の動作の詳細である。
以下、図8、図9を参照して本実施例の雑音抑圧パラメータセット切替規則学習部14およびステップS14の詳細について説明する。図8に示すように、雑音抑圧パラメータセット切替規則学習部14は、収音条件検索部141と、グループ分け部142と、最適パラメータセット選択部143と、収束判定部144を含む。収音条件検索部141は、運用者aが指定した収音条件に基づいて音声認識結果データベース13を検索する(S141)。グループ分け部142は、検索された第2のエントリを特徴量に基づくグループ分け基準に従ってグループ分けする(S142a)。最適パラメータセット選択部143は、各グループにおいて、各グループの精度情報が最大となるように各グループの雑音抑圧パラメータセットを選択する(S143a)。収束判定部144は、選択された各グループの雑音抑圧パラメータセットについて収束判定を行い(S144a)、雑音抑圧パラメータセットの最適化が収束していると判定した場合に(S144b−Y)、最適パラメータセット選択部143に出力指令を出力する(S144c)。一方、収束判定部144は、雑音抑圧パラメータセットの最適化が未収束であると判定した場合に(S144b−N)、グループ分け部142にグループ分け指令を出力する(S144d)。出力指令を取得した最適パラメータセット選択部143は、最新の雑音抑圧パラメータセットを最適雑音抑圧パラメータセットとして、グループ分け基準と、検索に用いた収音条件と共に第3のエントリとして切替規則データベース15に記憶する(S143b)。一方、グループ分け指令を取得したグループ分け部142は、グループ分け基準を変更して、再度グループ分けを実行する(142b)。以上がステップS14の動作の詳細である。
以下、図10、図11を参照して本実施例の雑音抑圧・音声認識装置16およびステップS16の詳細について説明する。図10に示すように、雑音抑圧・音声認識装置16は、収音条件検索部161と、特徴量算出部162と、雑音抑圧パラメータセット導出部163と、雑音抑圧部164と、音声認識部165を含む。収音条件検索部161は、利用者bから指定された収音条件に基づいて切替規則データベース15を検索する(S161)。特徴量算出部162は、利用者bから取得した音声ファイルから特徴量を算出する(S162)。雑音抑圧パラメータセット導出部163は、検索された第3のエントリのグループ分け基準に従って利用者bから取得した音声ファイルの特徴量をグループ分けし、これに対応する最適雑音抑圧パラメータセットを導出する(S163)。雑音抑圧部164は、導出された最適雑音抑圧パラメータセットに基づいて利用者bから取得した音声ファイルを雑音抑圧する(S164)。音声認識部165は、雑音抑圧後の音声ファイルを音声認識して音声認識結果を出力する(S165)。以上がステップS16の動作の詳細である。
本実施例の音声認識システム1によれば、収音条件が多様な場合にも、それぞれの収音条件に適した雑音抑圧パラメータセットを自動で選択可能になる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリ
であるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
Claims (7)
- 雑音抑圧装置が、収音条件に基づいて雑音抑圧パラメータセットを設定する処理に用いるデータ構造であって、
最適雑音抑圧パラメータセットと、音声ファイル収音時の条件を規定するラベルである収音条件と、グループ分け規準と、を対応付けてなる第3のエントリを含んで構成され、
第1のエントリを、前記音声ファイルと、前記収音条件とを対応付けてなるものとし、
第2のエントリを、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなるものとし、
前記グループ分け規準は、前記第2のエントリの特徴量に基づく基準であり、
前記最適雑音抑圧パラメータセットは、当該最適雑音抑圧パラメータセットに対応付けられた前記グループ分け基準により前記第2のエントリをグループ分けした各グループにおいて、当該グループに含まれる前記第2のエントリのうち所定の基準を満たす前記精度情報を有する第2のエントリの前記雑音抑圧パラメータセットであり、
前記第3のエントリは、前記雑音抑圧装置が、入力された音声ファイルの特徴量を入力された収音条件に基づいてグループ分けし、当該各グループの雑音抑圧パラメータを設定する際に、当該グループ分けの基準と前記入力された収音条件に基づいて前記第3のエントリの中から最適雑音抑圧パラメータを特定する処理に用いられる
データ構造。 - 音声認識結果データベース作成部と、雑音抑圧パラメータセット切替規則学習部と、雑音抑圧・音声認識部と、音声データベースと、音声認識結果データベースと、切替規則データベースを含むコンピュータに用いられるデータ構造であって、
前記音声データベースに記憶される第1のエントリと、前記音声認識結果データベースに記憶される第2のエントリと、前記切替規則データベースに記憶される第3のエントリを含み、
前記第1のエントリは、
前記音声認識結果データベース作成部による前記第2のエントリの生成処理に用いられ、
音声ファイルと、前記音声ファイルに対応する正解文と、前記音声ファイルの収音時の条件を規定するラベルである収音条件とを対応付けてなり、
前記第2のエントリは、
前記雑音抑圧パラメータセット切替規則学習部による前記第3のエントリの生成処理に用いられ、
前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットと、音声認識結果の精度を評価する値である精度情報を対応付けてなり、
前記第3のエントリは、
前記雑音抑圧・音声認識部によるグループ分け処理、およびグループ分けされたグループに対応する雑音抑圧処理に用いられ、
指定された前記収音条件に基づいて検索された前記第2のエントリを前記特徴量に基づくグループ分け基準に従ってグループ分けし、各グループにおける前記精度情報が所定の条件を充たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け基準と、検索に用いた前記収音条件を対応付けてなる
データ構造。 - 音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第1のエントリとして記憶する音声データベースと、
雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第2のエントリの集合とする音声認識結果データベース作成部と、
前記第2のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第3のエントリの集合とする雑音抑圧パラメータセット切替規則学習部と、
入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第3のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する雑音抑圧パラメータセット導出部を含む
雑音抑圧装置。 - 請求項3に記載の雑音抑圧装置であって、
前記雑音抑圧パラメータセット導出部は、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
雑音抑圧装置。 - 雑音抑圧装置が実行する雑音抑圧方法であって、
音声ファイルと、前記音声ファイルの収音時の条件を規定するラベルである収音条件と、を対応付けて第1のエントリとして記憶する第1のステップと、
雑音抑圧に用いるパラメータのセットである雑音抑圧パラメータセットからなる雑音抑圧パラメータセット群の、それぞれの雑音抑圧パラメータセットに対して実行した音声認識結果の精度を評価する値である精度情報と、前記音声ファイルの雑音の特性を規定する特徴量と、前記収音条件と、を対応付けて第2のエントリの集合とする第2のステップと、
前記第2のエントリを前記特徴量に基づくグループ分け規準に従ってグループ分けし、各グループにおける前記精度が所定の条件を満たすように各グループにおいて選択された前記雑音抑圧パラメータセットである最適雑音抑圧パラメータセットと、前記グループ分け規準と、前記収音条件と、を対応付けて第3のエントリの集合とする第3のステップと、
入力された音声ファイルの特徴量と、入力された収音条件に基づいて前記第3のエントリの集合を検索し最適雑音抑圧パラメータセットを特定する第4のステップを含む
雑音抑圧方法。 - 請求項5に記載の雑音抑圧方法であって、
前記第4のステップにおいて、さらに入力された音声ファイルの特徴量に基づいてグループ分けされたグループに対応する最適雑音抑圧パラメータセットを特定する
雑音抑圧方法。 - コンピュータを、請求項3または4に記載の雑音抑圧装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110903A JP6622856B2 (ja) | 2018-06-11 | 2018-06-11 | データ構造、雑音抑圧装置、雑音抑圧方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110903A JP6622856B2 (ja) | 2018-06-11 | 2018-06-11 | データ構造、雑音抑圧装置、雑音抑圧方法、プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017026705A Division JP6367993B1 (ja) | 2017-02-16 | 2017-02-16 | 学習装置、雑音抑圧パラメータセット切替規則学習装置、音声認識装置、学習方法、雑音抑圧パラメータセット切替規則学習方法、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136582A JP2018136582A (ja) | 2018-08-30 |
JP6622856B2 true JP6622856B2 (ja) | 2019-12-18 |
Family
ID=63365544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018110903A Active JP6622856B2 (ja) | 2018-06-11 | 2018-06-11 | データ構造、雑音抑圧装置、雑音抑圧方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6622856B2 (ja) |
-
2018
- 2018-06-11 JP JP2018110903A patent/JP6622856B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018136582A (ja) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240028837A1 (en) | Device and method for machine reading comprehension question and answer | |
US8275177B2 (en) | System and method for media fingerprint indexing | |
JP4622808B2 (ja) | 楽曲分類装置、楽曲分類方法、楽曲分類プログラム | |
US7805389B2 (en) | Information processing apparatus and method, program and recording medium | |
US20160092596A1 (en) | Database migration method and apparatus | |
WO2012154470A1 (en) | Generating a playlist | |
JP6812381B2 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
KR101942459B1 (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
JP6873805B2 (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
US20200184379A1 (en) | Platform for developing data models | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
EP3779814A1 (en) | Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level | |
CN108681564A (zh) | 关键词和答案的确定方法、装置和计算机可读存储介质 | |
JP2009535671A (ja) | 一のユーザのカテゴリラベルを他のユーザにより規定されたカテゴリラベルで関連付けるシステム及び方法 | |
JP5542729B2 (ja) | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム | |
JP6622856B2 (ja) | データ構造、雑音抑圧装置、雑音抑圧方法、プログラム | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP6367993B1 (ja) | 学習装置、雑音抑圧パラメータセット切替規則学習装置、音声認識装置、学習方法、雑音抑圧パラメータセット切替規則学習方法、音声認識方法、プログラム | |
JP4594992B2 (ja) | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 | |
JP2020149369A (ja) | 対話制御システム、対話制御方法及びプログラム | |
JP5211000B2 (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
KR20190009821A (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6622856 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |