JP2019105681A - 推定装置、推定方法および推定プログラム - Google Patents
推定装置、推定方法および推定プログラム Download PDFInfo
- Publication number
- JP2019105681A JP2019105681A JP2017236811A JP2017236811A JP2019105681A JP 2019105681 A JP2019105681 A JP 2019105681A JP 2017236811 A JP2017236811 A JP 2017236811A JP 2017236811 A JP2017236811 A JP 2017236811A JP 2019105681 A JP2019105681 A JP 2019105681A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- target sound
- observation
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
まず、図1を参照して、従来の音源分離を行う推定処理について説明する。図1は、従来の推定装置の概略構成を示す模式図である。従来、音源分離を行う推定装置200は、図1に示すように、時間周波数分析部201、特徴量抽出部202、目的音源推定部203を備える。まず、時間周波数分析部201が、N個の目的音源に対応する音響信号が混在する状況において、1つのマイクで収録された観測信号に短時間信号分析を適用し、時間周波数点ごとの観測音響信号を抽出する。
次に、図2を参照して、本実施形態に係る推定システム1について説明する。図2は、本実施形態に係る推定システム1の概略構成を示す模式図である。図2に示すように、推定システム1は、識別装置10と推定装置20とを含む。
本実施形態に係る識別装置10は、ワークステーションやパソコン等の汎用コンピュータで実現され、CPU(Central Processing Unit)等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図2に示すように、識別学習部12および識別部13として機能する。また、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、識別器11が保持される。
次に、図3を参照して、推定装置20について説明する。図3は、本実施形態に係る推定装置20の概略構成を示す模式図である。図3に示すように、推定装置20は、ワークステーションやパソコン等の汎用コンピュータで実現され、CPU等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図3に示すように、時間周波数分析部21、特徴量抽出部22、目的音源推定部23として機能する。また、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、分離器24が保持される。なお、記憶部に予め学習された上記の識別器11が保持されてもよい。
次に、図4を参照して、推定システム1の推定処理について説明する。図4は、本実施形態の推定処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
上記実施形態に係る推定システム1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合に、音声認識性能を確認する実験を行った。ここで、RMSPropの学習率は1×10−3とした。また、学習時のバッチサイズは40とした。
上記実施形態に係る推定システム1の識別装置10および推定装置20が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、識別装置10および推定装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を識別装置10または推定装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、推定装置20は、観測信号を入力とし、推定値を出力する推定処理サービスを提供するサーバ装置として実装される。この場合、推定装置20は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、識別装置10または推定装置20と同様の機能を実現する推定プログラムを実行するコンピュータの一例を説明する。
10 識別装置
11 識別器
12 識別学習部
13 識別部
20,200 推定装置
21,201 時間周波数分析部
22,202 特徴量抽出部
23,203 目的音源推定部
24,204 分離器
100 識別機能部
Claims (8)
- マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
を備えることを特徴とする推定装置。 - マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習部と、
を備えることを特徴とする推定装置。 - マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
を備えることを特徴とする推定装置。 - マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
前記識別器を学習により作成する際に、前記目的音源推定部が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習部と、
前記識別器を用いて、入力された音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別部と、
を備えることを特徴とする推定装置。 - 推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
を含んだことを特徴とする推定方法。 - 推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習工程と、
を含んだことを特徴とする推定方法。 - 推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定工程と、
を含んだことを特徴とする推定方法。 - コンピュータを請求項1〜4のいずれか1項に記載の推定装置として機能させるための推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017236811A JP6930408B2 (ja) | 2017-12-11 | 2017-12-11 | 推定装置、推定方法および推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017236811A JP6930408B2 (ja) | 2017-12-11 | 2017-12-11 | 推定装置、推定方法および推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019105681A true JP2019105681A (ja) | 2019-06-27 |
JP6930408B2 JP6930408B2 (ja) | 2021-09-01 |
Family
ID=67062408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017236811A Active JP6930408B2 (ja) | 2017-12-11 | 2017-12-11 | 推定装置、推定方法および推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6930408B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
-
2017
- 2017-12-11 JP JP2017236811A patent/JP6930408B2/ja active Active
Non-Patent Citations (2)
Title |
---|
DANIEL MICHELSANTI, ZHENG-HUA TAN: "Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verifica", PROC. INTERSPEECH 2017, JPN6020038506, August 2017 (2017-08-01), pages 2008 - 2012, ISSN: 0004457764 * |
SANTIAGO PASCUAL, 外2名: "SEGAN: Speech Enhancement Generative Adversarial Network", PROC. INTERSPEECH 2017, JPN6020038507, August 2017 (2017-08-01), pages 3642 - 3646, ISSN: 0004457765 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6930408B2 (ja) | 2021-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
JPWO2019017403A1 (ja) | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
JP2020034624A (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2020045313A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
KR20180025634A (ko) | 음성 인식 장치 및 방법 | |
JP2020071482A (ja) | 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体 | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2019144467A (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
Jiang et al. | An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
Girin et al. | Audio source separation into the wild | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP2020135485A (ja) | 拡張装置、拡張方法及び拡張プログラム | |
JPWO2017037830A1 (ja) | 音声認識装置および音声認識処理方法 | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6930408 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |