JP2020034624A - 信号生成装置、信号生成システム、信号生成方法およびプログラム - Google Patents

信号生成装置、信号生成システム、信号生成方法およびプログラム Download PDF

Info

Publication number
JP2020034624A
JP2020034624A JP2018158776A JP2018158776A JP2020034624A JP 2020034624 A JP2020034624 A JP 2020034624A JP 2018158776 A JP2018158776 A JP 2018158776A JP 2018158776 A JP2018158776 A JP 2018158776A JP 2020034624 A JP2020034624 A JP 2020034624A
Authority
JP
Japan
Prior art keywords
neural network
amplitude
frequency
phase
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018158776A
Other languages
English (en)
Other versions
JP6903611B2 (ja
Inventor
大智 早川
Daichi Hayakawa
大智 早川
籠嶋 岳彦
Takehiko Kagoshima
岳彦 籠嶋
浩司 藤村
Koji Fujimura
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018158776A priority Critical patent/JP6903611B2/ja
Priority to US16/296,282 priority patent/US11282505B2/en
Publication of JP2020034624A publication Critical patent/JP2020034624A/ja
Application granted granted Critical
Publication of JP6903611B2 publication Critical patent/JP6903611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ニューラルネットワークが正しく処理されているかをより効率的に確認することができるようにする。【解決手段】信号生成装置は、変換部と、周波数取得部と、生成部と、を備える。変換部は、音響信号を変換し、複数の周波数における振幅および位相を出力する。周波数取得部は、振幅および位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、ノードの演算で用いられる複数の重みに基づいて周波数を取得する。生成部は、取得された複数の周波数と、複数のノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する。【選択図】図1

Description

本発明の実施形態は、信号生成装置、信号生成システム、信号生成方法およびプログラムに関する。
近年、ニューラルネットワークを利用した信号処理および音響モデルが多く提案されている。例えば、クリーン信号に雑音を重畳した音声から抽出されたメルフィルタバンク特徴量を入力とし、クリーン信号から抽出されたメルフィルタバンク特徴量を出力とするようにニューラルネットワークを学習させることで、ノイズ除去を実現するデノイジングオートエンコーダが提案されている。
Xugang Lu, et al., "Speech Enhancement Based on Deep Denoising Autoencoder", INTERSPEECH pp. 436−440, 2013.
しかしながら、従来技術では、ニューラルネットワークが正しく処理されているかを確認することが困難となる場合があった。
実施形態の信号生成装置は、変換部と、周波数取得部と、生成部と、を備える。変換部は、音響信号を変換し、複数の周波数における振幅および位相を出力する。周波数取得部は、振幅および位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、ノードの演算で用いられる複数の重みに基づいて周波数を取得する。生成部は、取得された複数の周波数と、複数のノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する。
第1の実施形態にかかる信号生成装置のブロック図。 複素ニューラルネットワークの構成例を示す図。 複素ニューラルネットワークの構成例を示す図。 第1の実施形態における信号生成処理のフローチャート。 複素層における時系列信号の生成処理の流れを示す図。 周波数取得部の詳細な機能構成の一例を示す図。 重みの絶対値の分布の一例を示す図。 第2の実施形態にかかる信号生成装置およびサーバ装置のブロック図。 信号生成装置(信号生成システム)の活用例を示す図。 第1または第2の実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる信号生成装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
ニューラルネットワークを用いた信号処理の一例として、複数の話者の音声を含む信号から一部の話者の音声を強調し、強調した音声に基づいて音声認識を行う処理が挙げられる。このような処理を行うニューラルネットワークでは、例えば前半の音声強調処理が正しく実行されているかを確認することが困難となる場合がある。
第1の実施形態にかかる信号生成装置は、ニューラルネットワークの中間層の出力から、時系列信号を生成する。例えば時系列信号として音響信号を生成するためには、振幅および位相の他に、周波数の情報が必要となる。しかし通常のニューラルネットワークでは、振幅と位相を扱う層に周波数の情報が保持されていない。そこで、第1の実施形態の信号生成装置は、ニューラルネットワークの層の重みから周波数の情報を取得可能とする。そして取得した周波数、振幅および位相の情報を用いて時系列信号を生成する。時系列信号は、例えば音声などの音響信号である。以下では、時系列信号として音声信号を用いる例を主に説明する。
図1は、第1の実施形態にかかる信号生成装置100の構成の一例を示すブロック図である。図1に示すように、信号生成装置100は、音声取得部101と、変換部102と、ニューラルネットワーク処理部103と、周波数取得部104と、生成部105と、記憶部121と、を備えている。
音声取得部101は、処理対象とする音声データを取得する。例えば音声取得部101は、マイクロホンなどの集音装置により集音された音声信号を取得する。
変換部102は、音声信号(音響信号)を変換し、複数の周波数における振幅および位相を出力する。例えば変換部102は、音声信号を短時間フーリエ変換(Short-Time Fourier Transform:STFT)により変換する。変換方法は短時間フーリエ変換に限られるものではない。例えば変換部102は、複素ウェーブレット変換を用いてもよい。
ニューラルネットワーク処理部103は、学習されたニューラルネットワークを用いた演算を実行する。ニューラルネットワークは、例えば、複素数を入出力する層を含む複素ニューラルネットワークである。
複素ニューラルネットワークは、入出力、並びに、重み、および、バイアスなどのパラメータが複素数値である層を持つニューラルネットワークである。入出力およびパラメータの要素には実数が含まれていてもよい。この場合、虚部が0の複素数として扱う。以下、入出力およびパラメータが複素数値である層を複素層といい、実数値である層を実数層という。複素ニューラルネットワークは、入力層、1層以上の中間層、および、出力層から構成される。
入力層には、変換部102が音声を変換することで得られた振幅および位相が入力される。例えば入力層には、音声の短時間フーリエ変換特徴量が入力される。短時間フーリエ変換特徴量X(j,n)の振幅Ajnおよび位相θjnは以下のように定義される。jは周波数ビンの番号を、nはフレームの番号を表す。
振幅:Ajn=|X(j、n)|
位相:θjn=tan−1(I{X(j、n)}/R{X(j、n)})
ただし、|・|は絶対値をとる演算、R{・}とI{・}はそれぞれ実部、虚部をとる演算、tan−1はタンジェント関数の逆関数を表す。
中間層および出力層は、複素層および実数層のいずれでもよい。図2および図3は、複素ニューラルネットワークの構成例を示す図である。図2に示すように、入力層から出力層まですべて複素層であってもよい。図3に示すように、2つの中間層の間に例えば、入力の絶対値を出力する絶対値層などを設けて、入力層から絶対値層までを複素層とし、絶対値層から出力層までを実数層としてもよい。
中間層は、複素層であるか実数層であるかによって処理が異なる。例えば、複素層は、層の入力に重みをかけた後、位相情報は変えずに、その絶対値に対して非線形関数を適用する。実数層は、層の入力に重みをかけた後、非線形関数を適用する。
以下、中間層が3層の場合の各層の演算の例を2つ挙げる。
(例1)中間層が複素層3層、出力が複素層で構成される場合
中間層1(複素):h1(n)=tanh(|C1X(n)|)exp(i arg(CX(n)))
中間層2(複素):h2(n)=tanh(|C2h1(n)|)exp(i arg(C2h1(n)))
中間層3(複素):h3(n)=tanh(|C3h2(n)|)exp(i arg(C3h2(n)))
出力層(複素):out(n)=tanh(|Coh3(n)|)exp(i arg(Coh3(n)))
(例2)中間層が複素層1層、絶対値層、実数層1層、出力が実数層で構成される場合
中間層1(複素):h1(n)=tanh(|C1X(n)|)exp(i arg(CX(n)))
絶対値層:h2(n)=|h(n)|
中間層3(実数):h3(n)=tanh(R3h2(n))
出力層(実数):out(n)=tanh(Roh3(n))
X(n)は、nフレーム目の短時間フーリエ変換特徴量であり、以下の(1)式に示すようにX(j,n)を要素とするベクトルである。Jは周波数ビンの総数を表す。
X(n)=[X(1,n),X(2,n),・・・,X(J,n)] ・・・(1)
(n)、h(n)、h(n)、および、h(n)は、中間層1層目、2層目、3層目、および、出力層の出力を表すベクトルである。C、C、C、および、Cは、それぞれ中間層1層目、2層目、3層目、および、出力層の重み(複素数)を表す行列(重み行列)である。R、および、Rは、それぞれ3層目、および、出力層の重み(実数)を表す行列(重み行列)である。iは虚数単位を表す。|・|は絶対値をとる演算を表す。tanhはハイパボリックタンジェント関数をベクトルの各要素に適用する演算を表す。argはベクトルの各要素の位相を取得する演算を表す。
入力層から出力層までがすべて複素層であるモデル(例1)を用いるか、入力層と出力層の間に絶対値層を設けて出力層を実数層にしたモデル(例2)を用いるかは、用途によって決めればよい。例えば、クリーン信号(雑音のない音声信号)に雑音を重畳した音声から抽出された短時間フーリエ変換特徴量を入力とし、クリーン信号から抽出された短時間フーリエ変換特徴量を出力とするようなデノイジングオートエンコーダを複素ニューラルネットワークで実現する場合には、入力層から出力層までが複素層であるモデルが用いられる。
一方、音声の短時間フーリエ変換特徴量を入力として、音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力するような音響モデルを複素ニューラルネットワークで実現する場合には、出力が実数で無ければならない。このため、入力層と出力層の間に絶対値層を設けて出力層を実数層にしたモデルが用いられる。
複素ニューラルネットワークの重みの学習は、実数層については以下の<参考文献1>、複素層については以下の<参考文献2>に示される手法により実現可能である。
<参考文献1>P.J.Werbos,“Backpropagation Through Time:What it Does and How to Do It”,Proceedings of the IEEE,vol.78,no.10,pp.1550-1560,Oct.1990.
<参考文献2>T.Nitta,“An extension of the back-propagation algorithm to complex numbers”,Neural Netw.,vol.10,no.8,pp.1391-1415,Nov.1997.
図1に戻り、周波数取得部104は、時系列信号の生成対象となる中間層(対象層)の複数のノードごとに、複数の重みに基づいて周波数を取得する。周波数取得部104による処理の詳細は後述する。
生成部105は、周波数取得部104により取得された、複数のノードごとの周波数と、複数のノードそれぞれに対応する振幅および位相とに基づいて、音響信号(時系列信号)を生成する。生成部105は、例えば以下の(2)式のようにフレームごとに各ノードの信号を合成し、1フレームから最終フレーム目まで生成された信号を順に繋げることにより、時系列信号を生成する。x out(t)、および、zk、n outは、それぞれ入力層にX(n)を入力したときの、生成された信号、および、k番目のノードにおける出力を表す。|・|は絶対値をとる演算、argはベクトルの各要素の位相を取得する演算を表す。|zk、n out|、および、arg(zk、n out)は、それぞれ入力層にX(n)を入力したときの、k番目のノードにおける振幅、および、位相に相当する。ωはk番目のノードにおける周波数、Kはノードの総数を表す。
Figure 2020034624
時系列信号の生成方法は、上記(2)式に限られるものではなく、周波数、振幅および位相に基づいて時系列信号を生成できればどのような方法であってもよい。例えば(2)式のコサイン(cos)をサイン(sin)に置き換えた式を適用してもよい。
記憶部121は、信号生成装置100による各種処理で用いられる各種情報を記憶する。例えば記憶部121は、ニューラルネットワーク処理部103が演算に用いるニューラルネットワークの学習済みのパラメータ(重みなど)を記憶する。記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
上記各部(音声取得部101、変換部102、ニューラルネットワーク処理部103、および、周波数取得部)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる信号生成装置100による信号生成処理について説明する。図4は、第1の実施形態における信号生成処理の一例を示すフローチャートである。
音声取得部101は、マイクロホンなどにより集音された処理対象とする音声データを取得する(ステップS101)。変換部102は、取得された音声を例えば短時間フーリエ変換により変換し、振幅および位相を出力する(ステップS102)。ニューラルネットワーク処理部103は、出力された振幅および位相を入力として、学習済みのニューラルネットワークによる演算を実行する(ステップS103)。周波数取得部104は、対象層の複数のノードごとに周波数を取得する(ステップS104)。生成部105は、取得された周波数、並びに、対象層の出力である振幅および位相から、時系列信号(音声信号)を生成して出力する(ステップS105)。
次に、複素ニューラルネットワークの複素層からの時系列信号の生成処理についてさらに詳細に説明する。
複素ニューラルネットワークの複素層からの時系列信号生成では、予め変換部102で変換した振幅および位相、並びに、学習された複素ニューラルネットワークが用いられる。例えば、以下のような複素ニューラルネットワークが学習されていることを前提とする。
・音声の短時間フーリエ変換特徴量を入力として、音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力とするような音響モデル
・クリーンな音声に雑音を重畳した雑音重畳音声から取得された短時間フーリエ変換特徴量を入力として、クリーンな音声の短時間フーリエ変換特徴量を出力とするデノイジングオートエンコーダ
時系列信号を生成する対象層は、例えば複素層とする。図5は、複素層における時系列信号の生成処理の流れを示す図である。
ニューラルネットワーク処理部103は、複素層については、複素数値の入力に対して、複素数の重み行列を用いて演算を行う。例えば上記の(例1)または(例2)で説明したような演算が実行される。対象層からの時系列信号の生成は、ニューラルネットワーク処理部103から出力された各ノードの振幅および位相の値、並びに、周波数取得部104により各ノードで取得された周波数を、生成部105に入力することで実現される。
次に、周波数取得部104による周波数取得処理の詳細について説明する。図6は、周波数取得部104の詳細な機能構成の一例を示す図である。
図6に示すように、周波数取得部104は、絶対値取得部601と、ピーク周波数算出部602と、を備えている。絶対値取得部601は、複素数の重み行列の各要素の絶対値を算出することにより、重みの絶対値を取得する。ピーク周波数算出部602は、対象層の複数のノードごとに、対応する複数の重みのうち絶対値が最大となる重みに対応する前層のノードを求め、求めたノードに対して定められる周波数(ピーク周波数)を取得する。
複素ニューラルネットワークが学習されると、複素層の出力における各ノードに、複素層の入力における一部のノードからの情報が重点的に出力されるように、重みの絶対値が分布する。図7は、重みの絶対値の分布の一例を示す図である。
図7は、音声の短時間フーリエ変換を入力として学習した複素ニューラルネットワークにおける、入力層の次層の複素層における重みの絶対値の分布を示したものである。横軸は入力側のノードのインデックス、縦軸は出力側のノードのインデックスを表す。図7の例では、グレースケールにより絶対値の大きさが示されている。黒に近いほど重みの絶対値が大きいことを示す。図7から、出力側の各ノードには、いずれの入力側のノードからの情報が重点的に出力されるかがわかる。例えば、出力側の60番目付近のノードでは、入力側の50番目付近のノードからの情報が重点的に出力される。従って、入力側の各ノードの周波数がわかれば、出力側の各ノードにいずれの周波数の信号が出力されるかがわかる。
図6に示す絶対値取得部601は、重みの絶対値を取得する。次に、ピーク周波数算出部602は、各ノードの周波数の情報を取得する。ピーク周波数算出部602には、絶対値取得部601によって取得された重みの絶対値、および、当該複素層より前の層に対して取得された、入力側のノードの周波数の情報が入力される。前の層が入力層の場合は、例えば短時間フーリエ変換の周波数ビンにおける中心周波数が、周波数の情報として取得される。このように、各層の各ノードの周波数は、対応する前の層の周波数を順次辿ることにより取得できる。
ピーク周波数算出部602は、出力側(対象層)の各ノードに対して、重みの絶対値のピーク(最大値)を取得する。ピーク周波数算出部602は、重みの絶対値のピークに対応する、入力側のノードを特定する。特定した入力側のノードは、当該ノードに対して情報が重点的に出力されるノードを表す。ピーク周波数算出部602は、特定した入力側のノードにおける周波数を、出力側の当該ノードの周波数として取得する。
時系列信号を生成する中間層(対象層)は、いずれの層であってもよい。対象層は1つに限られず、2以上の対象層についてそれぞれ時系列信号を生成してもよい。デノイジングオートエンコーダに適用する場合、出力層に近い中間層を対象層とすれば、ノイズが低減されているか否かを効率的に確認できる。音響モデルに適用する場合、出力層に近い層では、特徴量が正規化され、話者の特徴が消えることが想定される。従って、話者の特徴を確認する場合は、入力層に近い中間層を対象層としてもよい。
複数話者のうち一人の音声を強調するモデルに適用する場合、入力層に近い中間層を対象層とすれば、より自然な音声を確認することができる。一方、出力層に近い中間層を対象層とすれば、複数の話者の音声が分離しているか否かをより容易に確認することができる。このように、用途に応じて対象層とする中間層を決定してもよい。
これまでは、複素ニューラルネットワークの複素層から時系列信号を生成する場合を主に説明した。時系列信号は実数層の出力に基づいて生成してもよい。この場合も、周波数の情報は、前の層の各ノードから順次取得することができる。また、位相の情報は、例えば対応する前段の複素層から取得すればよい。
時系列信号の生成に用いる各ノードの周波数は、重みの絶対値のピークに対応する1つの周波数でなくてもよい。例えばノードごとに、ピークから予め定められた範囲内の複数の絶対値を特定し、複数の絶対値に対応する、入力側の複数のノードの周波数を取得してもよい。生成部105は、例えば、複数の周波数の平均値を時系列信号の生成に用いる。ノードごとに、取得した複数の周波数と、各周波数に対応するノードの振幅および位相とにより定められる複数の信号を、時系列信号の合成に用いてもよい。
変換部102がウェーブレット変換である場合、変換部102の出力Y(j、n)は以下の(3)式のようになる。
Figure 2020034624
j、nは自然数を表す。x(t)は入力する時系列信号を表す。ψ(t)はアナライジングウェーブレット関数と呼ばれ、例えば以下の(4)式のようなガウシアンウェーブレット関数が選ばれる。
Figure 2020034624
ただし、iは虚数単位であり、Fは正の定数である。sはアナライジングウェーブレット関数を拡大および縮小する倍率で、スケーリング係数と呼ばれており、例えば以下の(5)式が用いられる。
=2j/12 ・・・(5)
τは時間シフトであり、例えばTを0より大きい定数として、以下の(6)式が用いられる。
τ=nT ・・・(6)
このウェーブレット変換により、信号から特定の時間周波数における信号の成分を取得することが可能となる。例えば、(4)式のようなガウシアンウェーブレット関数を用いる場合、Y(j、n)は、中心周波数F/(2πs)、時間τにおける成分に相当する。
ウェーブレット変換特徴量Y(j、n)の振幅Bjn、位相φjnは以下のように定義される。
振幅:Bjn=|Y(j、n)|
位相:φjn=tan−1(I{Y(j、n)}/R{Y(j、n)})
ただし、|・|は絶対値をとる演算、R{・}とI{・}はそれぞれ実部、虚部をとる演算、tan−1はタンジェント関数の逆関数を表す。
ニューラルネットワークの入力層には、以下の(7)式に示すように、Y(j、n)を要素とするY(n)が入力される。Jは自然数であり、ユーザーが自由に決めることができる。
Y(n)=[Y(1,n),Y(2,n),・・・,Y(J,n)] ・・・(7)
ニューラルネットワークの演算は、上記(例1)、(例2)のX(n)をY(n)に置き換えて、同様に行うことができる。
変換部102がウェーブレット変換である場合、生成部105は、例えば以下の(8)式のように時系列信号を生成する。
Figure 2020034624
Kはノードの総数、Nはフレームの総数を表す。zn、k outは、入力層にY(n)を入力したときのk番目のノードにおける出力を表す。|・|は絶対値をとる演算、argはベクトルの各要素の位相を取得する演算を表す。|zn,k out|、arg(zn,k out)はそれぞれ、入力層にY(n)を入力したときのk番目のノードにおける振幅、位相に相当する。Ωはk番目のノードにおけるスケールで、ωをk番目のノードにおける周波数として以下の(9)式により求められる。
Ω=G/ω ・・・(9)
Gは定数で、アナライジングウェーブレット関数ψ(t)が例えばガウシアンウェーブレット関数の場合G=F/(2π)となる。
このように、第1の実施形態にかかる信号生成装置では、ニューラルネットワークの中間層から周波数、振幅および位相の情報を取得し、取得した各情報を用いて時系列信号を生成する。ニューラルネットワークの入力が音声から抽出された特徴量等である場合、音声信号を時系列信号として生成できる。生成された音声信号をスピーカなどの出力装置により音として出力すれば、ニューラルネットワークの状態(正しく学習されているかなど)を直感的に理解することが可能になる。音声信号以外の音響信号(例えば超音波)を時系列信号として生成した場合は、音響信号をディスプレイなどの出力装置に出力することにより、ニューラルネットワークの状態を理解することができる。
(第2の実施形態)
第2の実施形態にかかる信号生成システムは、第1の実施形態の信号生成装置の一部の機能を外部の装置(サーバ装置)で実行する。すなわち第2の実施形態にかかる信号生成システムは、信号生成処理を複数の装置で分散して実現する。
図8は、第2の実施形態にかかる信号生成装置100−2およびサーバ装置200−2の構成の一例を示すブロック図である。図8に示すように、信号生成装置100−2とサーバ装置200−2とは、ネットワーク300−2を介して接続される。ネットワーク300−2は、例えばインターネットであるが、どのような形態のネットワークであってもよい。
信号生成装置100−2は、音声取得部101と、変換部102と、周波数取得部104と、生成部105と、通信制御部111−2と、を備えている。サーバ装置200−2は、通信制御部211−2と、ニューラルネットワーク処理部103と、記憶部121と、を備えている。
第2の実施形態では、ニューラルネットワーク処理部103および記憶部121がサーバ装置200−2に備えられ、これら各部が信号生成装置100−2から削除される。また、各装置にそれぞれ通信制御部(通信制御部111−2、211−2)が備えられる。第1の実施形態と同じ機能については同一符号を付し、ここでの説明は省略する。
通信制御部111−2は、サーバ装置200−2などの外部装置との間の通信を制御する。例えば通信制御部111−2は、変換部102により出力された振幅および位相の情報をサーバ装置200−2に送信する。また通信制御部111−2は、ニューラルネットワークに関する情報(重み行列など)、および、ニューラルネットワーク処理部103による処理結果などの情報を、サーバ装置200−2から受信する。
通信制御部211−2は、信号生成装置100−2などの外部装置との間の通信を制御する。例えば通信制御部211−2は、信号生成装置100−2から送信された振幅および位相の情報を受信する。また通信制御部211−2は、ニューラルネットワークに関する情報、および、ニューラルネットワーク処理部103による処理結果などの情報を、信号生成装置100−2に送信する。
なお、機能の分散方法は図8の例に限られるものではなく、どのような分散方法であってもよい。例えば、サーバ装置200−2が周波数取得部104および生成部105の機能も備えてもよい。この場合はサーバ装置200−2が信号生成装置に相当する。また、この場合、音声取得部101および変換部102を備える情報処理装置(パーソナルコンピュータ、携帯端末など)が、サーバ装置200−2により生成された時系列信号を受信して出力してもよい。
サーバ装置200−2は、物理的に1つのハードウェアにより構成されてもよいし、1以上のハードウェアにより構成されてもよい。サーバ装置200−2は、クラウド環境上に構築されてもよい。
第2の実施形態における信号生成処理の全体の流れは、第1の実施形態の信号生成処理を示す図4と同様であるため説明を省略する。
このように、第2の実施形態では、複数の装置を備えるシステムにより、第1の実施形態と同様の機能を実現できる。
次に、各実施形態の活用例について説明する。図9は、信号生成装置(信号生成システム)の活用例を示す図である。
図9は、マイクロホンアレーを用いて音声を取得し、対象とする話者(対象者)の音声を強調し、対象者の音声を認識する音声認識システムに実施形態を適用した例を示す。図9に示すように、音声認識システムは、2つのマイクロホン901a、901b、変換部102a、102b、および、ニューラルネットワーク910を含む。
マイクロホン901a、901bは、マイクロホンアレーに含まれるマイクロホンである。
変換部102a、102bは、上記の変換部102と同様の機能により、それぞれマイクロホン901a、901bから取得された音声を変換する。1つの変換部102がマイクロホン901a、901bから取得された音声を変換するように構成してもよい。マイクロホン901a、901bで収録された音声波形は、変換部102a、102bによって、振幅と位相の情報に変換される。
ニューラルネットワーク処理部103は、変換された振幅と位相の情報をニューラルネットワーク910に入力して演算を実行する。ニューラルネットワーク910は、入力層から、時系列信号920を取得する中間層までを含む前半部、および、この中間層より後の後半部の2つの部分に分けられる。前半部は、対象者の音声を強調して出力するように学習するビームフォーマの役割を果たすニューラルネットワークに相当する。後半部は、前半部から出力される情報を受け取り、音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力するように学習する音響モデルの役割を果たすニューラルネットワークに相当する。
従来、このように統合されたニューラルネットワーク全体を学習するジョイントトレーニングという手法がある。しかしジョイントトレーニングでは、例えば対象者の音声が強調されているか否かを確認できなかった。
上記各実施形態によれば、このようなニューラルネットワークを用いる場合であっても、中間層から出力される情報等を用いて時系列信号を生成することができる。生成された時系列信号の波形を音にすれば、対象者の音声が強調されているかを、聴覚的に確かめることが可能になる。
以上説明したとおり、第1から第2の実施形態によれば、ニューラルネットワークが正しく処理されているかをより効率的に確認することが可能となる。
次に、第1または第2の実施形態にかかる各装置(信号生成装置、サーバ装置)のハードウェア構成について図10を用いて説明する。図10は、第1または第2の実施形態にかかる装置のハードウェア構成例を示す説明図である。
第1または第2の実施形態にかかる装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施形態にかかる装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1または第2の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
(変形例)
第1または第2の実施形態にかかる装置を用いて、特定話者の認識に用いることもできる。例えば、記者会見、講演会、および、学会発表など、一人で話す時間が長い場面において取得された音声から、雑音を抑制して、話者の声を強調するような場合を想定する。この場合、第1または第2の実施形態にかかる信号生成装置、信号生成システム、信号生成方法およびプログラムを用いて、取得した音声の雑音の抑制具合を具体的に音声として再生することができる。利用者は、再生した音声を実際にきくことで、十分雑音が抑制されているかなどを確認できる。さらに、音声取得のために設定されたマイクが可動な場合、雑音が強調されない、反響などが少ない、など、マイク自体の場所、集音方向など、試した結果を利用者が音で確認することができる。これらは演奏会の楽器などの音響でもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 信号生成装置
101 音声取得部
102 変換部
103 ニューラルネットワーク処理部
104 周波数取得部
105 生成部
111−2、211−2 通信制御部
121 記憶部
200−2 サーバ装置
300−2 ネットワーク
601 絶対値取得部
602 ピーク周波数算出部
901a、901b マイクロホン

Claims (9)

  1. 音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
    前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
    取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
    を備える信号生成装置。
  2. 前記ニューラルネットワークは、複素数を入出力する層を含む複素ニューラルネットワークである、
    請求項1に記載の信号生成装置。
  3. 前記周波数取得部は、複素数を入出力する中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みの絶対値に基づいて周波数を取得する、
    請求項2に記載の信号生成装置。
  4. 前記周波数取得部は、前記絶対値が最大となる重みに対応する前層のノードに対して定められる周波数を取得する、
    請求項3に記載の信号生成装置。
  5. 前記ニューラルネットワークは、音響信号の特徴量を入力して音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力するように学習された音響モデルである、
    請求項1に記載の信号生成装置。
  6. 前記ニューラルネットワークは、音響信号の特徴量を入力して雑音が除去された特徴量を出力するように学習されたデノイジングオートエンコーダである、
    請求項1に記載の信号生成装置。
  7. 音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
    前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
    取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
    を備える信号生成システム。
  8. 音響信号を変換し、複数の周波数における振幅および位相を出力する変換ステップと、
    前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得ステップと、
    取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成ステップと、
    を含む信号生成方法。
  9. コンピュータを、
    音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
    前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
    取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
    として機能させるためのプログラム。
JP2018158776A 2018-08-27 2018-08-27 信号生成装置、信号生成システム、信号生成方法およびプログラム Active JP6903611B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018158776A JP6903611B2 (ja) 2018-08-27 2018-08-27 信号生成装置、信号生成システム、信号生成方法およびプログラム
US16/296,282 US11282505B2 (en) 2018-08-27 2019-03-08 Acoustic signal processing with neural network using amplitude, phase, and frequency

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018158776A JP6903611B2 (ja) 2018-08-27 2018-08-27 信号生成装置、信号生成システム、信号生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020034624A true JP2020034624A (ja) 2020-03-05
JP6903611B2 JP6903611B2 (ja) 2021-07-14

Family

ID=69583753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158776A Active JP6903611B2 (ja) 2018-08-27 2018-08-27 信号生成装置、信号生成システム、信号生成方法およびプログラム

Country Status (2)

Country Link
US (1) US11282505B2 (ja)
JP (1) JP6903611B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6959420B1 (ja) * 2020-10-08 2021-11-02 株式会社小野測器 信号処理装置、及び、信号処理方法
JPWO2021220515A1 (ja) * 2020-05-01 2021-11-04
JP2022017170A (ja) * 2020-07-20 2022-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
WO2022018864A1 (ja) * 2020-07-22 2022-01-27 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム
JP2022062453A (ja) * 2020-10-08 2022-04-20 株式会社小野測器 推定装置、及び、推定方法
WO2024062626A1 (ja) * 2022-09-22 2024-03-28 富美男 大庭 演算装置、集積回路、機械学習装置、判別装置、制御方法、及び、制御装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US20200394994A1 (en) * 2019-06-12 2020-12-17 Nvidia Corporation Invertible neural network to synthesize audio signals
US11646009B1 (en) * 2020-06-16 2023-05-09 Amazon Technologies, Inc. Autonomously motile device with noise suppression
US11863221B1 (en) * 2020-07-14 2024-01-02 Hrl Laboratories, Llc Low size, weight and power (swap) efficient hardware implementation of a wide instantaneous bandwidth neuromorphic adaptive core (NeurACore)
US12057989B1 (en) * 2020-07-14 2024-08-06 Hrl Laboratories, Llc Ultra-wide instantaneous bandwidth complex neuromorphic adaptive core processor
US11742901B2 (en) * 2020-07-27 2023-08-29 Electronics And Telecommunications Research Institute Deep learning based beamforming method and apparatus
CN112201272B (zh) * 2020-09-29 2024-07-23 腾讯音乐娱乐科技(深圳)有限公司 音频数据降噪的方法、装置、设备及存储介质
CN113229842B (zh) * 2021-05-19 2022-10-14 苏州美糯爱医疗科技有限公司 一种基于复数深度神经网络的心肺音自动分离方法
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232986A (ja) * 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
US20170353789A1 (en) * 2016-06-01 2017-12-07 Google Inc. Sound source estimation using neural networks

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5692098A (en) * 1995-03-30 1997-11-25 Harris Real-time Mozer phase recoding using a neural-network for speech compression
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US9177550B2 (en) * 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US10564923B2 (en) * 2014-03-31 2020-02-18 Sony Corporation Method, system and artificial neural network
US9582753B2 (en) * 2014-07-30 2017-02-28 Mitsubishi Electric Research Laboratories, Inc. Neural networks for transforming signals
US10339921B2 (en) * 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US9813810B1 (en) * 2016-01-05 2017-11-07 Google Inc. Multi-microphone neural network for sound recognition
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
US10553207B2 (en) * 2017-12-29 2020-02-04 Facebook, Inc. Systems and methods for employing predication in computational models
US10832660B2 (en) * 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
JP7027365B2 (ja) * 2019-03-13 2022-03-01 株式会社東芝 信号処理装置、信号処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232986A (ja) * 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
US20170353789A1 (en) * 2016-06-01 2017-12-07 Google Inc. Sound source estimation using neural networks

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021220515A1 (ja) * 2020-05-01 2021-11-04
JP7422867B2 (ja) 2020-05-01 2024-01-26 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法及びプログラム
JP2022017170A (ja) * 2020-07-20 2022-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
JP7406521B2 (ja) 2020-07-20 2023-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
WO2022018864A1 (ja) * 2020-07-22 2022-01-27 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム
JPWO2022018864A1 (ja) * 2020-07-22 2022-01-27
JP7160264B2 (ja) 2020-07-22 2022-10-25 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム
JP6959420B1 (ja) * 2020-10-08 2021-11-02 株式会社小野測器 信号処理装置、及び、信号処理方法
JP2022062452A (ja) * 2020-10-08 2022-04-20 株式会社小野測器 信号処理装置、及び、信号処理方法
JP2022062453A (ja) * 2020-10-08 2022-04-20 株式会社小野測器 推定装置、及び、推定方法
WO2024062626A1 (ja) * 2022-09-22 2024-03-28 富美男 大庭 演算装置、集積回路、機械学習装置、判別装置、制御方法、及び、制御装置

Also Published As

Publication number Publication date
US20200066260A1 (en) 2020-02-27
JP6903611B2 (ja) 2021-07-14
US11282505B2 (en) 2022-03-22

Similar Documents

Publication Publication Date Title
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
US20210089967A1 (en) Data training in multi-sensor setups
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
JP6989951B2 (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
Eskimez et al. Adversarial training for speech super-resolution
Tian et al. TFGAN: Time and frequency domain based generative adversarial network for high-fidelity speech synthesis
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
Feng et al. Learning bandwidth expansion using perceptually-motivated loss
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
JP2021043264A (ja) 音声変換装置、音声変換学習装置、画像生成装置、画像生成学習装置、音声変換方法、音声変換学習方法、画像生成方法、画像生成学習方法及びコンピュータプログラム
Rice et al. General Purpose Audio Effect Removal
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
JPH1185194A (ja) 声質変換音声合成装置
Dwivedi et al. Spherical harmonics domain-based approach for source localization in presence of directional interference
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
Ai et al. Reverberation modeling for source-filter-based neural vocoder
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210623

R151 Written notification of patent or utility model registration

Ref document number: 6903611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151