JP2019191558A - 音声を増幅する方法及び装置 - Google Patents

音声を増幅する方法及び装置 Download PDF

Info

Publication number
JP2019191558A
JP2019191558A JP2018247789A JP2018247789A JP2019191558A JP 2019191558 A JP2019191558 A JP 2019191558A JP 2018247789 A JP2018247789 A JP 2018247789A JP 2018247789 A JP2018247789 A JP 2018247789A JP 2019191558 A JP2019191558 A JP 2019191558A
Authority
JP
Japan
Prior art keywords
channel
frequency domain
domain audio
speech
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018247789A
Other languages
English (en)
Other versions
JP6889698B2 (ja
Inventor
リー,チャオ
Chao Li
スン,チエンウェイ
Jianwei Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019191558A publication Critical patent/JP2019191558A/ja
Application granted granted Critical
Publication of JP6889698B2 publication Critical patent/JP6889698B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

【課題】音声を増幅する方法と装置を提供する。【解決手段】マイクアレイで採集された複数のチャンネルの時間領域音声を取得することと、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成することと、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することと、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得することと、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得することを含む。対応性に優れた音声増幅を実現でき、音声におけるノイズと室内残響の除去、音声認識の正確度の向上に寄与する。【選択図】図2

Description

本願実施例は、コンピュータ技術分野に関し、具体的に音声を増幅する方法及び装置に関する。
近代科学の急速な発展に従って、通信又は情報交換は既に人類社会の存在に必要な条件になっている。音声は言語の音響学の表現として、人類による情報交流に対して最も自然で効果的かつ便利な手段の一つである。
ところが、音声通信において、周囲の環境、マスコミ媒体によるノイズ、室内残響、ひいては他の発言者からの干渉を受けることが回避不可である。これらのノイズにより音声の品質及び分かり易さに影響されるため、多くの通話応用において、効果的な音声増幅処理を行うことにより、ノイズを抑制し、室内残響を除去し、音声の明瞭度、分かり易さ及び快適性を向上する必要がある。
いままで常用的な音声増幅方法は、遅延−加算(delay−sum)に基づく音声増幅方法である。複数のマイクで音声信号を受信し、遅延−加算方法を採用して遅延補償を行い、指向性のある空間ビームを形成し、指定された方向における音声を増幅する。
本願実施例は、音声を増幅する方法及び装置を提出した。
第一局面として、本願実施例は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得することと、複数のチャンネルの時間領域音声に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することと、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することと、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得することと、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得すること、を含む音声を増幅する方法を提供する。
幾つかの実施例において、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成することは、複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することと、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得すること、を含む。
幾つかの実施例において、複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することは、複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出することと、算出された和に基づいて複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得すること、を含む。
幾つかの実施例において、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することは、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ことを含む。
幾つかの実施例において、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することは、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することと、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成することと、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得することと、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得すること、を含む。
幾つかの実施例において、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することは、少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ことを含む。
幾つかの実施例において、マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる。
幾つかの実施例において、マスク閾値推定モデルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値が含まれるトレーニングサンプルのセットを取得するステップと、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングによりマスク閾値推定モデルを取得するステップと、に従ってトレーニングして得られた。
第二局面として、本願実施例は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される取得ユニットと、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される変換ユニットと、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される解析ユニットと、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得するように配置される増幅ユニットと、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように配置される逆変換ユニットと、を備える音声を増幅する装置を提供する。
幾つかの実施例において、変換ユニットは、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと、を備える。
幾つかの実施例において、フィルタサブユニットは、複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出するように配置される算出モジュールと、算出された和に基づいて複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと、を備える。
幾つかの実施例において、変換サブユニットは更に、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ように配置される。
幾つかの実施例において、解析ユニットは、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと、を備える。
幾つかの実施例において、推定サブユニットは更に、少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ように配置される。
幾つかの実施例において、マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる。
幾つかの実施例において、マスク閾値推定モデルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値とが含まれるトレーニングサンプルのセットを取得するステップと、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングによりマスク閾値推定モデルを取得するステップと、に従って、トレーニングして得られた。
第三局面として、本願実施例は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶される記憶装置と、を備え、一つ又は複数のプログラムが一つ又は複数のプロセッサにより実行されると、一つ又は複数のプロセッサに第一局面の何れか一つの実現方式に記載の方法を実現させる電子デバイスを提供した。
第四局面として、本願実施例は、コンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行されると、第一局面の何れか一つの実現方式に記載の方法が実現されるコンピュータ読取可能な媒体を提供した。
本願実施例により提供された音声を増幅する方法及び装置は、マイクアレイで採集された複数のチャンネルの時間領域音声を変換して少なくとも一つのチャンネルの周波数領域音声を取得し、その後に少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、その後に少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、最後に少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。これにより、対応性に優れた音声増幅を実現でき、音声におけるノイズ及び室内残響の除去と音声認識の正確度の向上に寄与している。
以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本出願の他の特徴、目的及び利点はより明らかになる。
本願を適用可能な例示的なシステムアーキテクチャである。 本願の音声を増幅する方法による一つの実施例のフローチャートである。 図2により提供された音声を増幅する方法の一つの応用シナリオのフローチャートである。 本願の音声を増幅する方法による他の実施例のフローチャートである。 本願の音声を増幅する装置による一つの実施例の構成模式図である。 本願実施例の電子デバイスの実現に適するコンピュータシステムの構成模式図である。
以下、図面及び実施例を参照しながら、本出願をより詳細に説明する。ここで説明する具体的な実施例は、関連の発明を説明するものに過ぎず、当該発明を限定するものではないことは理解される。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、矛盾が生じない限り、本願の実施例及び実施例における特徴は相互に組み合せることができるものとする。以下、図面を参照しながら、実施例を併せて本出願を詳しく説明する。
図1は、本願の音声を増幅する方法或いは音声を増幅する装置の実施例を適用可能な例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末デバイス101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末デバイス101、102、103とサーバ105との間に通信リンクの媒体を提供する。ネットワーク104は、各種の接続タイプ、例えば有線、無線通信リンク又はファイバ、ケーブルなどを含んでも良い。
端末デバイス101、102、103は、ネットワーク104を介してサーバ105とやりとりしてメッセージなどを送受信することができる。端末デバイス101、102、103は、ハードウェアであっても良く、ソフトウェアであっても良い。端末デバイス101、102、103は、ハードウェアである場合に、マイクアレイが内蔵された各種の電子デバイスであっても良く、スマートサウンドボックス、スマートフォン、タブレット、ノードパソコン及びデスクトップコンピュータなどを含むが、それらに限定されない。端末デバイス101、102、103は、ソフトウェアである場合に、前記列挙された電子デバイスにインストールされても良い。それは、複数のソフトウェア又はソフトウェアモジュールとして実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。
サーバ105は、各種のサービスを提供するサーバ、例えば端末デバイス101、102、103からアップロードされた音声を増幅する音声増幅サーバであっても良い。音声増幅サーバは、受信されたマイクアレイで採集された複数のチャンネルの時間領域音声などに対して解析などの処理を行って処理結果(例えば少なくとも一つのチャンネルの増幅時間領域音声)を生成することができる。
なお、サーバ105はハードウェアであっても良く、ソフトウェアであっても良い。サーバ105は、ハードウェアである場合に、複数のサーバからなる分散的なサーバグループとして実現されても良く、単一のサーバとして実現されても良い。サーバ105は、ソフトウェアである場合に、複数のソフトウェア又はソフトウェアモジュール(例えば分散的なサービスを提供する)として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。
なお、本願実施例により提供される音声を増幅する方法は一般的にサーバ105により実行される。それに応じて、音声を増幅する装置は一般的にサーバ105に設置される。特別な場合に、本願実施例により提供される音声を増幅する方法は更に端末デバイス101、102、103により実行されても良い。それに応じて、音声を増幅する装置は端末デバイス101、102、103に設置される。この場合に、システムアーキテクチャ100においてサーバ105が設置されなくても良い。
図1における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解すべきである。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを具備しても良い。
続いて図2を参照する。図2は、本願の音声を増幅する方法による一つの実施例の手順200を示す。当該音声を増幅する方法は、以下のステップを含む。
ステップ201において、マイクアレイで採集された複数のチャンネルの時間領域音声を取得する。
本実施例において、音声を増幅する方法の実行主体(例えば図1に示されたサーバ105)は、有線接続方式又は無線接続方式により端末デバイス(例えば図1に示された端末デバイス101、102、103)からその内蔵のマイクアレイで採集された複数のチャンネルの時間領域音声を取得することができる。なお、マイクアレイ(Microphone Array)は、一定の数の音響学センサ(一般的にマイクである)で構成され、サウンドフィールドの空間特徴に対しサンプリングして処理するためのシステムであっても良い。一般的に、一つのマイクは一つのチャンネルの時間領域音声を採集することができる。時間領域音声は、時間に対する音声信号の関係を示すことができる。例えば、一つの音声信号の時間領域波形は、時間に従う音声信号の変化を示すことができる。
ステップ202において、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成する。
本実施例において、前記実行主体は、ステップ201において取得された複数のチャンネルの時間領域音声信号に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することができる。ここで、前記実行主体は、まず複数のチャンネルの時間領域音声から効果の良くないチャンネルの時間領域音声をフィルタ・アウトし、その後に保留されたチャンネルの時間領域音声に対してフーリエ変換を行うことにより、保留されたチャンネルの周波数領域音声を生成しても良い。勿論、前記実行主体は、複数のチャンネルの時間領域信号に対してそのままフーリエ変換を行うことにより、複数のチャンネルの周波数領域音声を生成しても良い。ただし、一つのチャンネルの時間領域音声は、一つのチャンネルの周波数領域音声へ変換することができる。周波数領域音声は、音声信号の周波数特性を示す場合に用いられる座標系である。音声信号は、時間領域から周波数領域への変換が主にフーリエ級数及びフーリエ変換により実現される。周期信号の場合はフーリエ級数により実現され、非周期信号の場合は、フーリエ変換により実現される。一般的に、音声信号は、時間領域が広いほど、周波数領域が短くなる。
ステップ203において、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することができる。例えば、前記実行主体は、少なくとも一つのチャンネルのそれぞれの周波数領域音声の周波数、振幅、位相などを解析して各チャンネルの周波数領域音声に具備される特徴を特定し、各チャンネルの周波数領域音声に具備される特徴を解析して音源の方位を特定し、音源の方位とマイクアレイにおけるマイクの方位との相対的な位置関係に基づいて、各チャンネルの周波数領域音声の正規化増幅係数を確定することができる。一般的な状況において、チャンネルの周波数領域音声の正規化増幅係数は、当該チャンネルの時間領域音声を採集するマイクの方位と一定の関係にある。例えば、マイクの方位が音源の方位の真向きにあると、当該マイクに対応するチャンネルの周波数領域音声の正規化増幅係数が大きくなる一方、マイクの方位が音源の方位の後向きにあると、当該マイクに対応するチャンネルの周波数領域音声の正規化増幅係数が小さくなる。
ステップ204において、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域を取得することができる。例示として、少なくとも一つのチャンネルのそれぞれについて、前記実行主体は、当該チャンネルの周波数領域音声の正規化増幅係数を当該チャンネルの周波数領域音声に作用させて(例えば正規化増幅係数×周波数領域音声)、当該チャンネルの増幅周波数領域音声を取得しても良い。
ステップ205において、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。
本実施例において、少なくとも一つのチャンネルのそれぞれの増幅周波数領域音声に対して逆フーリエ変換を行って各チャンネルの増幅時間領域音声を取得する。なお、一つのチャンネルの周波数領域音声は、一つのチャンネルの時間領域音声へ変換することができる。音声信号は、周波数領域から時間領域への変換が主に逆フーリエ変換により実現される。
続いて図3を参照する。図3は、本実施例の音声を増幅する方法による応用シナリオの手順300を示した。図3の応用シナリオにおいて、301に示すように、ユーザは部屋内においてスマートサウンドボックスに音声として「曲名が《AA》の歌を再生する」を言い出す。302に示すように、スマートサウンドボックスに内蔵されたマイクアレイは、ユーザから発した音声を採集して複数のチャンネルの時間領域音声へ変換する。303に示すように、スマートサウンドボックスは、複数のチャンネルの時間領域音声に対してフーリエ変換を行って複数のチャンネルの周波数領域音声を取得する。304に示すように、スマートサウンドボックスは、複数のチャンネルの周波数領域音声に具備される特徴を解析して複数のチャンネルの周波数領域音声の正規化増幅係数を取得する。305に示すように、スマートサウンドボックスは、複数のチャンネルの周波数領域音声の正規化増幅係数を利用して複数のチャンネルの周波数領域音声に対して増幅処理を行って複数のチャンネルの増幅周波数領域音声を取得する。306に示すように、スマートサウンドボックスは、複数のチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って複数のチャンネルの増幅時間領域音声を取得する。307に示すように、スマートサウンドボックスは、複数のチャンネルの増幅時間領域音声に対して音声認識を行うことにより、ユーザから言い出された音声、即ち「曲名が《AA》の歌を再生する」を正確に認識する。308に示すように、スマートサウンドボックスは、曲名が《AA》の歌を再生する。
本願実施例により提供される音声を増幅する方法及び装置は、マイクアレイで採集された複数のチャンネルの時間領域音声を変換して少なくとも一つのチャンネルの周波数領域音声を取得し、それから、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、その後、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、最後に、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。これにより、対応性に優れた音声増幅を実現し、音声におけるノイズと室内の残響の除去、音声認識の正確度の向上に寄与した。
続いて図4を参照する。図4は、本願の音声を増幅する方法による他の実施例の手順400を示した。当該音声を増幅する方法は、以下のステップを含む。
ステップ401において、マイクアレイで採集された複数のチャンネルの時間領域音声を取得する。
本実施例において、ステップ401の具体的な操作は図2に示された実施例におけるステップ201の操作とほぼ同じであるため、ここでは詳しく説明しない。
ステップ402において、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得する。
本実施例において、音声を増幅する方法の実行主体(例えば図1に示されたサーバ105)は、マイクアレイで採集された複数のチャンネルの時間領域音声をフィルタリングして効果の良くないチャンネルの時間領域音声をフィルタ・アウトし、効果の良い少なくとも一つのチャンネルの時間領域音声を保留しても良い。ここで、フィルタリング(Wave filtering)は、信号における特定の周波数領域を除去する操作であり、干渉を抑制し防止する重要な手段である。一般的に、特定の周波数領域にないチャンネルの時間領域音声が効果の良くないチャンネルの時間領域音声であり、特定の周波数領域にあるチャンネルの時間領域音声が効果の良いチャンネルの時間領域音声である。
本実施例の幾つかの選択的な実現方式において、前記実行主体は、複数のチャンネルの時間領域音声をウィーナーフィルタに入力することにより、少なくとも一つのチャンネルの時間領域音声を出力しても良い。ここで、ウィーナーフィルタ(wiener filter)は、最小二乗を最適な基準とするリニアフィルタである。このようなフィルタは、出力が所望出力との平均二乗誤差が最も小さいため、最適なフィルタシステムである。このようなフィルタは、定常ノイズにより汚染された信号の抽出に用いることができる。一般的に、平均二乗誤差を最も小さくするために、インパルス応答を求めることが肝心である。ウィーナー−ホフの方程式を満たしていれば、ウィーナーフィルタを最適にすることができる。ウィーナー−ホフの方程式によれば、最適なウィーナーフィルタのインパルス応答は、完全に入力の自己相関関数及び入力と所望出力との相互相関関数により決定される。例示として、前記実行主体は、まず二つのチャンネルの間の距離を相互相関関数として定義し、その後に複数のチャンネルのうち任意の二つのチャンネルの間の距離を算出し、その後に複数のチャンネルのうち各チャンネルと他のチャンネルとの間の距離の和を算出し、最後に算出された和に基づいて複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得しても良い。一般的に、一つのチャンネルと他のチャンネルの間の距離の和が大きいほど、当該チャンネルの時間領域音声の品質が高くなる。従って、フィルタ・アウトされる必要のあるチャンネルの数を予め設定し、そして算出された和の大きさに基づいて複数のチャンネルの時間領域音声をソートし、最後に算出された和の小さい側から予め定められた数のチャンネルの時間領域音声を削除して少なくとも一つのチャンネルの時間領域音声を保留しても良い。
ステップ403において、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することができる。
本実施例の幾つかの選択的な実現方式において、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、前記実行主体は、まず当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、その後、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得しても良い。例えば、フレームサイズとして400個のサンプル、ステップサイズとして160個のサンプルでフレーミング処理を行っても良く、ハミング窓(hamming)を利用してウィンドウイング処理を行っても良い。
ステップ404において、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値(mask)を取得しても良い。ここでは、前記実行主体は、周波数領域音声の聴覚マスキング効果を解析することにより、周波数領域音声のマスク閾値を確定することができる。なお、マスキング効果は、同一の種類(例えば音、画像)に属する複数の刺激が出現したため、被験者に全ての刺激の情報を完全に受けられないことを指す。聴覚におけるマスキング効果は、人間の耳は、顕著な音に対する反応が敏感であり、顕著ではない音に対する反応が敏感ではないことを指す。聴覚マスキング効果は、主にノイズ、人間の耳、周波数領域、時間領域及び時間マスキング効果を含む。
本実施例の幾つかの選択的な実現方式において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声を順に予めトレーニングされたマスク閾値推定モデルに入力して少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得しても良い。ここで、マスク閾値推定モデルは、周波数領域音声のマスク閾値の推定に用いることができる。一般的に、マスク閾値推定モデルは、各種のマシントレーニング方法とトレーニングサンプルを利用して既存のニューラルネットワークに対して監督的な訓練を行って得られたものであっても良い。ニューラルネットワークを利用して信号とノイズを区別することにより、ローブスト性を増加している。例えば、マスク閾値推定モデルには、二つの一次元畳み込み層(Conv1D)、二つのゲート付き回帰ユニット(Gated Recurrent Unit、GRU)及び一つの全結合層(Full−connect)が含まれても良い。具体的に、前記実行主体は、まずトレーニングサンプルのセットを取得し、そしてトレーニングサンプルのセットのうち周波数領域音声サンプルを入力し、入力された周波数領域音声サンプルのマスク閾値を出力とし、初期のマスク閾値推定モデルをトレーニングしてマスク閾値推定モデルを取得しても良い。ここで、トレーニングサンプルのセットにおいて、各トレーニングサンプルは、周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値を含んでも良い。初期のマスク閾値推定モデルは、トレーニングされていない、或いはトレーニングが未完成のマスク閾値推定モデルであっても良い。
ステップ405において、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックス(power spectral density、PSD)を生成することができる。ここで、パワースペクトル密度マトリックスはマトリックスであり、N(Nが正整数)個のチャンネルの周波数領域音声のマスク閾値を解析する場合に、生成されたN個のチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスはN行N列のマトリックスである。
例えば、前記実行主体は、下記の式でパワースペクトル密度マトリックスを算出することができる。
ただし、tは時間領域音声のタイミング、Tは時間領域音声のトータルのタイミング、且つ1≦t≦T、Mは周波数領域音声のマスク閾値、fは周波数領域音声の周波数、Y(t,f)は音声のスペクトル、Y(t,f)HはY(t,f)の共役転置である。
ステップ406において、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得することができる。
例えば、前記実行主体は、以下の式で最適化係数Cを算出して少なくとも一つのチャンネルの周波数領域音声の増幅係数Fを取得することができる。
ただし、maxは最大値を求める関数、FHはFの共役転置、
は信号のパワースペクトル密度マトリックス、
はノイズのパワースペクトル密度マトリックスである。
ステップ407において、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得する。
本実施例において、前記実行主体は、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することができる。なお、正規化は演算を簡略にする手段であり、即ち次元持ちの表現式を無次元の表現式へ変換してスカラーを形成する。
ステップ408において、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得する。
ステップ409において、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得する。
本実施例において、ステップ408〜409の具体的な操作は図2に示された実施例におけるステップ204〜205の操作とほぼ同じであるため、ここでは詳しく説明しない。
図4からわかるように、図2に対応する実施例と比べて、本実施例において音声を増幅する方法の手順400は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を生成するステップを強調した。これにより、本実施例に説明された技術案において、マスク閾値により生成されたパワースペクトル密度マトリックスを利用して周波数領域音声における信号対雑音比を最適化することにより、音源の方位を推定するため、音源の情報をより着目し、ノイズの干渉により角度に対する感度が高すぎる問題を回避する。
続いて図5を参照する。前記各図に示された方法の実現例として、本願は音声を増幅する装置の実施例を提供する。当該装置の実施例は、図2に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。
図5に示されたように、本実施例における音声を増幅する装置500は、取得ユニット501と、変換ユニット502と、解析ユニット503と、増幅ユニット504と、逆変換ユニット505とを備えても良い。なお、取得ユニット501は、マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される。変換ユニット502は、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される。解析ユニット503は、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される。増幅ユニット504は、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得するように配置される。逆変換ユニット505は、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように配置される。
本実施例において、音声を増幅する装置500において、取得ユニット501、変換ユニット502、解析ユニット503、増幅ユニット504及び逆変換ユニット505の具体的な処理、及びそれらの処理による技術効果は、図2に対応する実施例におけるステップ201、ステップ202、ステップ203、ステップ204及びステップ205の関連説明をそれぞれ参照できるため、ここでは詳しく説明しない。
本実施例の幾つかの選択的な実現方式において、変換ユニット502は、複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと(未図示)、少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと(未図示)、を備えても良い。
本実施例の幾つかの選択的な実現方式において、フィルタサブユニットは、複数のチャンネルのうちチャンネルと他のチャンネルとの間の距離の和を算出するように配置される算出モジュールと(未図示)、算出された和に基づいて複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと(未図示)、を備えても良い。
本実施例の幾つかの選択的な実現方式において、変換サブユニットは、更に、少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置されても良い。
本実施例の幾つかの選択的な実現方式において、解析ユニット503は、少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと(未図示)、少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと(未図示)、少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと(未図示)、少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと(未図示)、を備えても良い。
本実施例の幾つかの選択的な実現方式において、推定サブユニットは、更に、少なくとも一つのチャンネルの周波数領域音声を順に予めトレーニングされた、周波数領域音声のマスク閾値を推定するためのマスク閾値推定モデルに入力して少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置されても良い。
本実施例の幾つかの選択的な実現方式において、マスク閾値推定モデルは、二つの一次元畳み込み層、二つのゲート付き回帰ユニット、一つの全結合層を備えても良い。
本実施例の幾つかの選択的な実現方式において、マスク閾値推定モデルは、それぞれに周波数領域音声サンプルと周波数領域音声サンプルのマスク閾値を含むトレーニングサンプルのセットを取得し、トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力とし、トレーニングによりマスク閾値推定モデルを得るようにトレーニングされた。
以下に図6を参照する。図6は、本願実施例の電子デバイス(例えば図1に示されたサーバ105又は端末デバイス101、102、103)の実現に適するコンピュータシステム600の構成模式図を示した。図6に示された電子デバイスは例示に過ぎず、本出願の実施例の機能及び使用範囲に対する如何なる制限をしない。
図6に示されたように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム、又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて、様々な適当な動作および処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブル媒体611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ610に取り付けられることにより、ドライバ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に,本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムとして現実化されても良い。例えば、本開示の実施例はコンピュータ読取可能な媒体に搭載されているコンピュータプログラムを備えるコンピュータプログラム製品を含む。当該コンピュータプログラムは、フローチャートに示される方法を実行させるためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブル媒体611からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)601により実行されると、本願の方法に限定される前記機能が実行される。なお、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、装置又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、電気的消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンド実行システム、装置又は部品に使用され、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードが搭載されたデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式であっても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンド実行システム、装置又は部品に使用され又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、無線、電線、光ケーブル、RFなど、或いは前記の任意の適当の組み合わせを含む任意の適当の媒体で伝送されても良く、それらに限定されない。
一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングしても良い。前記プログラミング言語には、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語が含まれ、更にC言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ(例えばインターネットサービスプロバイダを介してインターネットにより接続する)に接続されても良い。
図面のうち、フローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示す。この点に関して、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表しても良い。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。ちなみに、幾つかの置換としての実現例において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、接続して表示される二つのブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、これは、関連の機能に従って決定される。ちなみに、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行させる専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。
本願実施例において説明したユニットは、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットはプロセッサに設置されても良い。例えば、取得ユニットと、変換ユニットと、解析ユニットと、増幅ユニットと、逆変換ユニットとを備えるプロセッサとして説明されても良い。なお、これらのユニットの名称は場合によって当該ユニットの自身に対する限定とされない。例えば、取得ユニットは、「マイクアレイで採集された複数のチャンネルの時間領域音声を取得するユニット」として記載されても良い。
他の局面として、本出願はコンピュータ読取可能な媒体を更に提供した。当該コンピュータ読取可能な媒体は、前記実施例に説明された電子デバイスに含まれたものであっても良く、当該電子デバイスに実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムが搭載され、前記一つ又は複数のプログラムが当該電子デバイスにより実行されると、当該電子デバイスに、マイクアレイで採集された複数のチャンネルの時間領域音声を取得し、複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成し、少なくとも一つのチャンネルの周波数領域音声を解析して少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得し、少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得し、少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように実行させる。
以上の記載は、本出願の好適な実施例及び使われている技術原理に対する説明にすぎない。当業者は、本出願にかかる発明範囲が、前記技術特徴の特定の組み合わせからなる技術案に限定されるものではなく、前記の発明の趣旨を逸脱しない範囲で、前記技術特徴又は均等の特徴による任意の組み合わせからなる他の技術案も含まれることを理解すべきである。例えば、前記特徴と本出願に開示された類似の機能を具備する技術特徴(それらに限定されない)とを互いに置き換えてなる技術案も含まれる。

Claims (18)

  1. 音声を増幅する方法であって、
    マイクアレイで採集された複数のチャンネルの時間領域音声を取得することと、
    前記複数のチャンネルの時間領域音声に基づいて、少なくとも一つのチャンネルの周波数領域音声を生成することと、
    前記少なくとも一つのチャンネルの周波数領域音声を解析して前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することと、
    前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して前記少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得することと、
    前記少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得すること、
    を含む方法。
  2. 前記複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成することは、
    前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することと、
    前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得すること、
    を含む請求項1に記載の方法。
  3. 前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得することは、
    前記複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出することと、
    算出された和に基づいて前記複数のチャンネルの時間領域音声に対してフィルタリングを行って少なくとも一つのチャンネルの時間領域音声を取得すること、
    を含む請求項2に記載の方法。
  4. 前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得することは、
    前記少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ことを含む請求項2に記載の方法。
  5. 前記少なくとも一つのチャンネルの周波数領域音声を解析して前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得することは、
    前記少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することと、
    前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成することと、
    前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して前記複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、前記少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得することと、
    前記少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得すること、
    を含む請求項1に記載の方法。
  6. 前記少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得することは、
    前記少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ことを含む請求項5に記載の方法。
  7. 前記マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる、請求項6に記載の方法。
  8. 前記マスク閾値推定モデルは、
    周波数領域音声サンプルと前記周波数領域音声サンプルのマスク閾値が含まれるトレーニングサンプルのセットを取得するステップと、
    前記トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングにより前記マスク閾値推定モデルを取得するステップと、
    に従ってトレーニングして得られた、請求項6又は7に記載の方法。
  9. 音声を増幅する装置であって、
    マイクアレイで採集された複数のチャンネルの時間領域音声を取得するように配置される取得ユニットと、
    前記複数のチャンネルの時間領域音声に基づいて少なくとも一つのチャンネルの周波数領域音声を生成するように配置される変換ユニットと、
    前記少なくとも一つのチャンネルの周波数領域音声を解析して前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される解析ユニットと、
    前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を利用して前記少なくとも一つのチャンネルの周波数領域音声に対して増幅処理を行って少なくとも一つのチャンネルの増幅周波数領域音声を取得するように配置される増幅ユニットと、
    前記少なくとも一つのチャンネルの増幅周波数領域音声に対して逆フーリエ変換を行って少なくとも一つのチャンネルの増幅時間領域音声を取得するように配置される逆変換ユニットと、を備える装置。
  10. 前記変換ユニットは、
    前記複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタサブユニットと、
    前記少なくとも一つのチャンネルの時間領域音声に対してフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得するように配置される変換サブユニットと、を備える請求項9に記載の装置。
  11. 前記フィルタサブユニットは、
    前記複数のチャンネルのうちチャンネルと他のチャンネルとの距離の和を算出するように配置される算出モジュールと、
    算出された和に基づいて前記複数のチャンネルの時間領域音声をフィルタリングして少なくとも一つのチャンネルの時間領域音声を取得するように配置されるフィルタモジュールと、を備える請求項10に記載の装置。
  12. 前記変換サブユニットは更に、
    前記少なくとも一つのチャンネルの時間領域音声のそれぞれについて、当該チャンネルの時間領域音声に対してウィンドウイング/フレーミング処理を行って当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントを取得し、当該チャンネルの時間領域音声のマルチフレームの時間領域音声セグメントに対してショートタイムフーリエ変換を行って少なくとも一つのチャンネルの周波数領域音声を取得する、ように配置される請求項10に記載の装置。
  13. 前記解析ユニットは、
    前記少なくとも一つのチャンネルの周波数領域音声に対してマスク閾値の推定を行って前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得するように配置される推定サブユニットと、
    前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を解析して、前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを生成するように配置される解析サブユニットと、
    前記少なくとも一つのチャンネルの周波数領域音声における信号とノイズのパワースペクトル密度マトリックスを利用して前記複数のチャンネルの時間領域音声に対応する出力音声の信号対雑音比を最小化して、前記少なくとも一つのチャンネルの周波数領域音声の増幅係数を取得するように配置される最小化サブユニットと、
    前記少なくとも一つのチャンネルの周波数領域音声の増幅係数に対して正規化処理を行って前記少なくとも一つのチャンネルの周波数領域音声の正規化増幅係数を取得するように配置される正規化サブユニットと、を備える請求項9に記載の装置。
  14. 前記推定サブユニットは更に、
    前記少なくとも一つのチャンネルの周波数領域音声を、予めトレーニングされた、周波数領域音声のマスク閾値を推定するマスク閾値推定モデルに順に入力して、前記少なくとも一つのチャンネルの周波数領域音声のマスク閾値を取得する、ように配置される請求項13に記載の装置。
  15. 前記マスク閾値推定モデルには、二つの一次元畳み込み層、二つのゲート付き回帰ユニット及び一つの全結合層が含まれる、請求項14に記載の装置。
  16. 前記マスク閾値推定モデルは、
    周波数領域音声サンプルと前記周波数領域音声サンプルのマスク閾値とが含まれるトレーニングサンプルのセットを取得するステップと、
    前記トレーニングサンプルのセットのうち周波数領域音声サンプルを入力とし、入力された周波数領域音声サンプルのマスク閾値を出力として、トレーニングにより前記マスク閾値推定モデルを取得するステップと、
    に従ってトレーニングして得られた、請求項14又は15に記載の装置。
  17. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜8の何れか一つに記載の方法を実現させる電子デバイス。
  18. コンピュータプログラムが記憶されており、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜8の何れか一つに記載の方法を実現されるコンピュータ読取可能な媒体。
JP2018247789A 2018-04-23 2018-12-28 音声を増幅する方法及び装置 Active JP6889698B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810367680.9A CN108564963B (zh) 2018-04-23 2018-04-23 用于增强语音的方法和装置
CN201810367680.9 2018-04-23

Publications (2)

Publication Number Publication Date
JP2019191558A true JP2019191558A (ja) 2019-10-31
JP6889698B2 JP6889698B2 (ja) 2021-06-18

Family

ID=63536046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018247789A Active JP6889698B2 (ja) 2018-04-23 2018-12-28 音声を増幅する方法及び装置

Country Status (3)

Country Link
US (1) US10891967B2 (ja)
JP (1) JP6889698B2 (ja)
CN (1) CN108564963B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021192433A1 (ja) * 2020-03-23 2021-09-30 ヤマハ株式会社 コンピュータにより実現される方法、処理システム、及び記憶媒体

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770063B2 (en) * 2018-04-13 2020-09-08 Adobe Inc. Real-time speaker-dependent neural vocoder
CN109697978B (zh) * 2018-12-18 2021-04-20 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN109448751B (zh) * 2018-12-29 2021-03-23 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN111862961A (zh) * 2019-04-29 2020-10-30 京东数字科技控股有限公司 识别语音的方法和装置
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN113808607A (zh) * 2021-03-05 2021-12-17 北京沃东天骏信息技术有限公司 基于神经网络的语音增强方法、装置及电子设备
CN113030862B (zh) * 2021-03-12 2023-06-02 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113421582B (zh) * 2021-06-21 2022-11-04 展讯通信(天津)有限公司 麦克语音增强方法及装置、终端和存储介质
CN114283832A (zh) * 2021-09-09 2022-04-05 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置
CN114898767B (zh) * 2022-04-15 2023-08-15 中国电子科技集团公司第十研究所 基于U-Net的机载语音噪音分离方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001144656A (ja) * 1999-11-16 2001-05-25 Nippon Telegr & Teleph Corp <Ntt> 多チャンネル反響消去方法及び装置並びにそのプログラムを記録した記録媒体
JP2009260948A (ja) * 2008-03-27 2009-11-05 Yamaha Corp 音声処理装置
JP2010085913A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 音補正装置
JP2013510481A (ja) * 2009-11-04 2013-03-21 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 仮想音源に関連するオーディオ信号についてスピーカ設備のスピーカの駆動係数を計算する装置および方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US7158933B2 (en) * 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
EP1425738A2 (en) * 2001-09-12 2004-06-09 Bitwave Private Limited System and apparatus for speech communication and speech recognition
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
US20080130914A1 (en) * 2006-04-25 2008-06-05 Incel Vision Inc. Noise reduction system and method
EP1947642B1 (en) * 2007-01-16 2018-06-13 Apple Inc. Active noise control system
WO2010091077A1 (en) * 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
CN101777349B (zh) * 2009-12-08 2012-04-11 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
TWI419149B (zh) * 2010-11-05 2013-12-11 Ind Tech Res Inst 抑制雜訊系統與方法
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
CN103325380B (zh) * 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN107393547A (zh) * 2017-07-03 2017-11-24 桂林电子科技大学 子带谱减与广义旁瓣抵消的双微阵列语音增强方法
CN107863099B (zh) * 2017-10-10 2021-03-26 成都启英泰伦科技有限公司 一种新型双麦克风语音检测和增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001144656A (ja) * 1999-11-16 2001-05-25 Nippon Telegr & Teleph Corp <Ntt> 多チャンネル反響消去方法及び装置並びにそのプログラムを記録した記録媒体
JP2009260948A (ja) * 2008-03-27 2009-11-05 Yamaha Corp 音声処理装置
JP2010085913A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 音補正装置
JP2013510481A (ja) * 2009-11-04 2013-03-21 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 仮想音源に関連するオーディオ信号についてスピーカ設備のスピーカの駆動係数を計算する装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021192433A1 (ja) * 2020-03-23 2021-09-30 ヤマハ株式会社 コンピュータにより実現される方法、処理システム、及び記憶媒体
JP7472575B2 (ja) 2020-03-23 2024-04-23 ヤマハ株式会社 処理方法、処理装置、及びプログラム

Also Published As

Publication number Publication date
JP6889698B2 (ja) 2021-06-18
US20190325889A1 (en) 2019-10-24
CN108564963B (zh) 2019-10-18
US10891967B2 (en) 2021-01-12
CN108564963A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
JP6889698B2 (ja) 音声を増幅する方法及び装置
US20210089967A1 (en) Data training in multi-sensor setups
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
EP3203473B1 (en) A monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
GB2548325A (en) Acoustic source seperation systems
CN108476072A (zh) 用于声音识别的众包数据库
CN111868823A (zh) 一种声源分离方法、装置及设备
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
CN110169082A (zh) 组合音频信号输出
US11670298B2 (en) System and method for data augmentation for multi-microphone signal processing
US11765522B2 (en) Speech-tracking listening device
CN111383629B (zh) 语音处理方法和装置、电子设备以及存储介质
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
Ceolini et al. Speaker Activity Detection and Minimum Variance Beamforming for Source Separation.
Küçük et al. Convolutional recurrent neural network based direction of arrival estimation method using two microphones for hearing studies
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Zhao et al. Frequency-domain beamformers using conjugate gradient techniques for speech enhancement
WO2024091378A1 (en) System and method for single channel distant speech processing
CN116953604A (zh) 声源方向估计方法、头戴式设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210303

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210303

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210311

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210521

R150 Certificate of patent or registration of utility model

Ref document number: 6889698

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150