JP2023009622A - 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 - Google Patents
1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 Download PDFInfo
- Publication number
- JP2023009622A JP2023009622A JP2021113056A JP2021113056A JP2023009622A JP 2023009622 A JP2023009622 A JP 2023009622A JP 2021113056 A JP2021113056 A JP 2021113056A JP 2021113056 A JP2021113056 A JP 2021113056A JP 2023009622 A JP2023009622 A JP 2023009622A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- signal
- discriminator
- samples
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000000306 recurrent effect Effects 0.000 title description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 242
- 230000005284 excitation Effects 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims description 46
- 230000003595 spectral effect Effects 0.000 claims description 37
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 230000004044 response Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 1
- 239000010410 layer Substances 0.000 description 62
- 238000012360 testing method Methods 0.000 description 22
- 230000004913 activation Effects 0.000 description 14
- 238000001994 activation Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 238000013213 extrapolation Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101000596016 Homo sapiens TLR adapter interacting with SLC15A4 on the lysosome Proteins 0.000 description 1
- 102100035166 TLR adapter interacting with SLC15A4 on the lysosome Human genes 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法に関する。
- 第1のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第1のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定するステップ、
- 狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するステップ、そして、
- 広帯域音声入力信号が、複数の外挿された信号包絡線のサンプルおよび前記複数の外挿励起信号サンプルに依存して、狭帯域音声入力信号に対して帯域幅を拡張するように前記広帯域音声出力信号を生成するステップ。
ここで、D()はディスクリミネーターの生の出力である。Lim et. al.[53]は、最初のGAN論文[36]で用いられた損失やワッサースタイン距離(Wasserstein distance)[54]と比較して、ヒンジ損失はモード崩壊が少なく、より安定した学習挙動を示すことを示した。
が、生成された音声に適用された。この理由は、生成された音声の中で高周波数があまり強調されなくなる可能性のある音声のスペクトルの傾きを補正するためである。12次のLPC包絡線は、ハニング窓でウィンドウ化された128サンプルのフレームに対して、時間領域の自己相関を計算した後、レビンソン再帰を用いて抽出される。その後、上記のLPC-GANに関して説明したように、例えばFIRフィルタに変換される。DNNは、8項目のバッチで学習され、各項目には1秒の音声が含まれる。
ここで、Sは置換数、Dは削除数、Iは挿入数、Cは転写の正しい単語の数である。
[1] International Telecommunication Union, "Pulse code modulation (pcm) of voice frequencies," ITU-T Recommendation G.711, November 1988.
[2] S. Bruhn, H. Pobloth, M. Schnell, B. Grill, J. Gibbs, L. Miao, K. Jaervinen, L. Laaksonen, N. Harada, N. Naka, S. Ragot, S. Proust, T. Sanda, I. Varga, C. Greer, M. Jelinek, M. Xie, and P. Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7179064
[3] S. Disch, A. Niedermeier, C. R. Helmrich, C. Neukam, K. Schmidt, R. Geiger, J. Lecomte, F. Ghido, F. Nagel, and B. Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016. [Online]. Available: http://www.aes.org/e-lib/browse.cfm?elib=18465
[4] 3GPP, "TS 26.090, Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions," 1999.
[5] P. Bauer, R. Fischer, M. Bellanova, H. Puder, and T. Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4. [Online]. Available: http://ieeexplore.ieee.org/document/6309632/
[6] P. Bauer, J. Jones, and T. Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, 2013, pp. 7039-7043. [Online]. Available: https://doi.org/10.1109/ICASSP.2013.6639027
[7] J. Abel, M. Kaniewska, C. Guillaume, W. Tirry, H. Pulakka, V. Myllylae, J. Sjoberg, P. Alku, I. Katsir, D. Malah, I. Cohen, M. A. T. Turan, E. Erzin, T. Schlien, P. Vary, A. H. Nour-Eldin, P. Kabal, and T. Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in english, chinese, german, and korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919. [Online]. Available: https://doi.org/10.1109/ICASSP.2016.7472812
[8] K. Schmidt and B. Edler, "Blind bandwidth extension based on convolutional and recurrent deep neural networks," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5444-5448.
[9] K. Schmidt, "Neubildung von unterdrueckten Sprachfrequenzen durch ein nichtlinear verzerrendes Glied," Dissertation, Techn. Hochsch. Berlin, 1933.
[10] M. Schroeder, "Recent progress in speech coding at bell telephone laboratories," in Proceedings of the third international congress on acoustics, Stuttgart, 1959.
[11] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, Nov 1998.
[12] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. P. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, "Photo-realistic single image super-resolution using a generative adversarial network," CoRR, vol. abs/1609.04802, 2016. [Online]. Available: http://arxiv.org/abs/1609.04802
[13] X. Li, V. Chebiyyam, and K. Kirchhoff, "Speech audio super-resolution for speech recognition," in Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, September 15-19, 2019, 09 2019.
[14] P. Jax and P. Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.
[15] K. Schmidt and B. Edler, "Deep neural network based guided speech bandwidth extension," in Audio Engineering Society Convention 147, Oct 2019. [Online]. Available: http://www.aes.org/e-lib/browse.cfm? elib=20627
[16] H. Carl and U. Heute, "Bandwidth enhancement of narrow-band speech signals," in Signal Processing VII: Theories and Applications: Proceedings of EUSIPCO-94 Seventh European Signal Processing Conference, September 1994, pp. 1178-1181.
[17] H. Pulakka and P. Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011. [Online]. Available: https://doi.org/10.1109/TASL.2011.2118206
[18] K. Li and C. Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7178801
[19] P. Bauer, J. Abel, and T. Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop on Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5. [Online]. Available: https://doi.org/10.1109/IWAENC.2014.6953304
[20] J. Sautter, F. Faubel, M. Buck, and G. Schmidt, "Artificial bandwidth extension using a conditional generative adversarial network with discriminative training," in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 7005-7009.
[21] J. Abel, M. Strake, and T. Fingscheidt, "A simple cepstral domain dnn approach to artificial speech bandwidth extension," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5469-5473.
[22] J. Abel and T. Fingscheidt, "Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 71-83, 2018.
[23] Z. Ling, Y. Ai, Y. Gu, and L. Dai, "Waveform modeling and generation using hierarchical recurrent neural networks for speech bandwidth extension," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 5, pp. 883-894, May 2018.
[24] A. Gupta, B. Shillingford, Y. M. Assael, and T. C. Walters, "Speech bandwidth extension with wavenet," ArXiv, vol. abs/1907.04927, 2019.
[25] S. Kim and V. Sathe, "Bandwidth extension on raw audio via generative adversarial networks," 2019.
[26] Y. Dong, Y. Li, X. Li, S. Xu, D. Wang, Z. Zhang, and S. Xiong, "A time-frequency network with channel attention and non-local modules for artificial bandwidth extension," in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6954-6958.
[27] J. Makhoul and M. Berouti, "High-frequency regeneration in speech coding systems," in ICASSP '79. IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1979, pp. 428-431.
[28] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, and K. Kavukcuoglu, "Efficient neural audio synthesis," CoRR, vol. abs/1802.08435, 2018. [Online]. Available: http://arxiv.org/abs/1802. 08435
[29] S. Li, S. Villette, P. Ramadas, and D. J. Sinder, "Speech bandwidth extension using generative adversarial networks," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5029-5033.
[30] S. E. Eskimez, K. Koishida, and Z. Duan, "Adversarial training for speech super-resolution," IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 347-358, 2019.
[31] X. Hao, C. Xu, N. Hou, L. Xie, E. S. Chng, and H. Li, "Time-domain neural network approach for speech bandwidth extension," in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 866-870.
[32] J. Valin and J. Skoglund, "Lpcnet: Improving neural speech synthesis through linear prediction," in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 5891-5895.
[33] K. Schmidt and B. Edler, "Blind bandwidth extension of speech based on lpcnet," in 2020 28th European Signal Processing Conference (EUSIPCO).
[34] L. Rabiner and R. Schafer, Digital Processing of Speech Signals. Englewood Cliffs: Prentice Hall, 1978.
[35] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.
[36] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial networks," 2014.
[37] Y. Gu and Z. Ling, "Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127. [Online]. Available: http: //www.isca-speech.org/archive/Interspeech 2017/abstracts/0336.html
[38] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997. [Online]. Available: https://doi.org/10.1162/neco.1997.9.8.1735
[39] Y. Gu, Z. Ling, and L. Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301. [Online]. Available: https://doi.org/10.21437/ Interspeech.2016-678
[40] J. Chung, C. Guelcehre, K. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014. [Online]. Available: http://arxiv.org/abs/1412.3555
[41] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and K. Kavukcuoglu, "Conditional image generation with pixelcnn decoders," CoRR, vol. abs/1606.05328, 2016. [Online]. Available: http://arxiv.org/abs/1606.05328
[42] W. B. Kleijn, F. S. C. Lim, A. Luebs, J. Skoglund, F. Stimberg, Q. Wang, and T. C. Walters, "Wavenet based low rate speech coding," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 676-680.
[43] Z. Jin, A. Finkelstein, G. J. Mysore, and J. Lu, "Fftnet: A real-time speaker-dependent neural vocoder," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 2251-2255.
[44] J.-M. Valin and J. Skoglund, "A real-time wideband neural vocoder at 1.6 kb/s using lpcnet," ArXiv, vol. abs/1903.12087, 2019.
[45] A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml, and A. Maier, "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding," in Proc. Interspeech, 2019, pp. 191-195. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2019-1195
[46] T. Salimans and D. P. Kingma, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," in Advances in NeurIPS, 2016, pp. 901-909.
[47] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778.
[48] Yao Tianren, Xiang Juanjuan, and Lu Wei, "The computation of line spectral frequency using the second chebyshev polynomials," in 6th International Conference on Signal Processing, 2002., vol. 1, Aug 2002, pp. 190-192 vol.1.
[49] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, and K. Kavukcuoglu, "Efficient neural audio synthesis," 2018.
[50] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, "Spectral normalization for generative adversarial networks," 2018.
[51] M. Mirza and S. Osindero, "Conditional generative adversarial nets," ArXiv, vol. abs/1411.1784, 2014.
[52] A. Salman, E. Muhammad, and K. Khurshid, "Speaker verification using boosted cepstral features with gaussian distributions," in 2007 IEEE International Multitopic Conference, 2007, pp. 1-5. [53] J. H. Lim and J. C. Ye, "Geometric gan," 2017.
[54] M. Arjovsky, S. Chintala, and L. Bottou, "Wasserstein gan," 2017.
[55] C. Veaux, J. Yamagishi, and K. Macdonald, "Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit," 2017.
[56] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7178964
[57] M. Soloducha, A. Raake, F. Kettler, and P. Voigt, "Lombard speech database for german language," in Proc. DAGA 2016 Aachen, 03 2016.
[58] "Webrtc vad v2.0.10," https://webrtc.org.
[59] D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," CoRR, vol. abs/1412.6980, 2014.
[60] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Kopf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai, and S. Chintala, "Pytorch: An imperative style, high-performance deep learning library," in Advances in Neural Information Processing Systems 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alche-Buc, E. Fox, and R. Garnett, Eds. Curran Associates, Inc., 2019, pp. 8024-8035. [Online]. Available: http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf
[61] ITU-T Study Group 12, Software tools for speech and audio coding standardization, Geneva, 2005.
[62] G. T. 26.445, "EVS codec; detailed algorithmic description; technical specification, release 12," Sep. 2014.
[63] ITU-T Study Group 12, P.863 : Perceptual objective listening quality prediction, Geneva, 2018.
[64] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, G. Klambauer, and S. Hochreiter, "Gans trained by a two time-scale update rule converge to a nash equilibrium," CoRR, vol. abs/1706.08500, 2017. [Online]. Available: http://arxiv.org/abs/1706.08500
[65] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford,X. Chen, and X. Chen, "Improved techniques for training gans," in Advances in Neural Information Processing Systems, D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, Eds., vol. 29. Curran Associates, Inc., 2016, pp. 2234-2242. [Online]. Available: https://proceedings.neurips.cc/paper/2016/file/8a3363abe792db2d8761d6403605aeb7-Paper.pdf
[66] M. Binkowski, J. Donahue, S. Dieleman, A. Clark, E. Elsen, N. Casagrande, L. C. Cobo, and K. Simonyan, "High fidelity speech synthesis with adversarial networks," CoRR, vol. abs/1909.11646, 2019. [Online]. Available: http://arxiv.org/abs/1909.11646
[67] D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos, E. Elsen, J. H. Engel, L. Fan, C. Fougner, T. Han, A. Y. Hannun, B. Jun, P. LeGresley, L. Lin, S. Narang, A. Y. Ng, S. Ozair, R. Prenger, J. Raiman, S. Satheesh, D. Seetapun, S. Sengupta, Y. Wang, Z. Wang, C. Wang, B. Xiao, D. Yogatama, J. Zhan, and Z. Zhu, "Deep speech 2: End-to-end speech recognition in english and mandarin," CoRR, vol. abs/1512.02595, 2015. [Online]. Available: http://arxiv.org/abs/1512.02595
[68] A. Y. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh, S. Sengupta, A. Coates, and A. Y. Ng, "Deep speech: Scaling up end-to-end speech recognition," CoRR, vol. abs/1412.5567, 2014. [Online]. Available: http://arxiv.org/abs/1412.5567
[69] A. Graves, S. Fernandez, and F. Gomez, "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks," in In Proceedings of the International Conference on Machine Learning, ICML 2006, 2006, pp. 369-376.
[70] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. M. Tyers, and G. Weber, "Common voice: A massively-multilingual speech corpus," CoRR, vol. abs/1912.06670, 2019. [Online]. Available: http://arxiv.org/abs/1912.06670
[71] ITU-R, Recommendation BS.1534-1 Method for subjective assessment of intermediate sound quality (MUSHRA), Geneva, 2003.
Claims (25)
- 狭帯域音声入力信号の帯域幅拡張を実行することによって前記狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置であって、前記装置は、
第1のニューラルネットワーク(125)を含む信号包絡線外挿器(120)であって、前記第1のニューラルネットワーク(125)は前記第1ニューラルネットワーク(125)の入力値として前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第1ニューラルネットワーク(125)の出力値として、複数の外挿された信号包絡線のサンプルを決定するように構成される、前記信号包絡線外挿器(120)と、
前記狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するように構成される、励起信号外挿器(130)と、
前記広帯域音声出力信号が、前記複数の外挿された信号サンプルおよび前記複数の外挿された励起信号サンプルに依存して、前記狭帯域音声入力信号に対して帯域幅を拡張するように、前記広帯域音声出力信号を生成するように構成されるコンバイナ(140)と、
を含む、装置。 - 前記第1のニューラルネットワーク(125)の前記入力値は、前記狭帯域音声入力信号の第1の複数の線スペクトル周波数であり、前記第1のニューラルネットワーク(125)は、前記第1のニューラルネットワーク(125)の前記出力値として、前記広帯域音声出力信号の第2の複数の線スペクトル周波数を決定するように構成され、1つ以上の前記第2の複数の線スペクトル周波数のそれぞれは、前記第1の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数と関連付けられる、請求項1に記載の装置。
- 前記第1のニューラルネットワーク(125)を学習させると、前記信号包絡線外挿器(120)は、インパルス応答を計算し、前記インパルス応答を切り捨てることによって、オリジナルの広帯域音声信号から導出される複数の広帯域線形予測符号化係数を有限インパルス応答フィルタ係数に変換するように構成される、請求項2に記載の装置。
- 前記第1のニューラルネットワーク(125)を学習させると、前記信号包絡線外挿器(120)が、前記広帯域音声出力信号と前記オリジナルの広帯域音声信号間の誤差または前記誤差の勾配をフィードバックするように構成される、請求項3に記載の装置。
- 前記第1のニューラルネットワーク(125)は、第1のディスクリミネーターニューラルネットワークを使用して学習し、前記第1のニューラルネットワーク(125)を学習させると、前記第1のニューラルネットワーク(125)と前記第1のディスクリミネーターニューラルネットワークは、敵対的生成ネットワークとして動作するように構成され、
前記第1のニューラルネットワーク(125)の学習中は、前記第1のディスクリミネーターニューラルネットワークは、前記第1のディスクリミネーターニューラルネットワークの入力値として前記第1のニューラルネットワーク(125)の前記出力値を受信するように構成される、または前記第1のディスクリミネーターネットワークの前記入力値として、前記第1のニューラルネットワーク(125)の前記出力値から導出される導出値を受信するように構成され、
ここで、前記第1のディスクリミネーターニューラルネットワークの前記入力値を受信する際には、前記第1のディスクリミネーターニューラルネットワークは、前記第1のディスクリミネーターニューラルネットワークの出力として、前記第1のディスクリミネーターニューラルネットワークの前記入力値の第1の品質表示を決定するように構成され、前記第1のニューラルネットワーク(125)は、前記第1の品質表示に依存して学習するように構成される、請求項1ないし請求項4のいずれかに記載の装置。 - 前記第1のディスクリミネーターニューラルネットワークの前記入力値を受信する際には、前記第1のディスクリミネーターニューラルネットワークは、前記第1のディスクリミネーターニューラルネットワークの前記入力値が、人工的に生成された音声信号ではなく記録音声信号に関係する確率を前記品質表示が示す、または前記第1のディスクリミネーターニューラルネットワークの前記出力値が記録信号と関係しているのか、人工的に生成された信号に関係しているのかを推定する値を前記品質表示が示すように、前記品質表示を決定するように構成される、請求項5に記載の装置。
- 前記第1のニューラルネットワーク(125)または前記第2のニューラルネットワーク(135)は、前記第1のディスクリミネーターニューラルネットワークによって決定された前記品質表示に依存する損失関数を使用して学習する、請求項5または請求項6に記載の装置。
- 前記損失関数は、ヒンジ損失、またはワッサースタイン距離、またはエントロピーベースの損失に依存する、請求項7に記載の装置。
- 前記損失関数は、追加Lp-lossに依存する、請求項7ないし請求項9のいずれかに記載の装置。
- 前記第1のディスクリミネーターニューラルネットワークは、記録音声を使用して学習する、請求項4ないし請求項11のいずれかに記載の装置。
- 前記励起信号外挿器(130)は第2のニューラルネットワーク(135)を含み、前記第2のニューラルネットワーク(135)は、前記第2のニューラルネットワーク(135)の入力値として、前記狭帯域音声入力信号の前記励起信号の複数のサンプルを受信するように構成される、および/または、前記狭帯域音声入力信号である、および/または、前記狭帯域音声入力信号の整形バージョンであり、前記第2のニューラルネットワーク(135)の出力値として、前記複数の外挿された励起信号サンプルを決定するように構成される、請求項1ないし請求項12のいずれかに記載の装置。
- 前記第2のニューラルネットワーク(135)の前記入力値は、前記狭帯域音声入力信号の前記励起信号の第1の複数の時間領域信号サンプルである、および/または前記狭帯域音声入力信号である、および/または、前記狭帯域音声入力信号の整形バージョンであり、ここで、前記第2のニューラルネットワーク(135)は、前記複数の外挿された励起信号のサンプルが、前記狭帯域音声入力信号の前記励起信号に対して、帯域幅が拡張された拡張時間領域励起信号の第2の複数の時間領域信号のサンプルであるように前記第2のニューラルネットワーク(135)の前記出力値を決定するように構成される、請求項13に記載の装置。
- 前記第2のニューラルネットワーク(135)は、第2のディスクリミネーターニューラルネットワークを使用して学習し、前記第2のニューラルネットワーク(135)の学習中は、前記第2のニューラルネットワーク(135)と前記第2のディスクリミネーターニューラルネットワークとは、第2の敵対的生成ネットワークとして動作するように構成され、
前記第2のニューラルネットワーク(135)の学習中は、前記第2のディスクリミネーターニューラルネットワークは、前記第2のディスクリミネーターニューラルネットワークの入力値として、
前記第2のニューラルネットワーク(135)の前記出力値を受信するように構成される、または前記第2のディスクリミネーターネットワークの前記入力値として、前記第2のニューラルネットワーク(135)の前記出力値から導出される導出値、および/または、
前記コンバイナ(140)の出力
を受信するように構成され、
前記第2のディスクリミネーターニューラルネットワークの前記入力値を受信すると、前記第2のディスクリミネーターニューラルネットワークは、前記第2のディスクリミネーターニューラルネットワークの出力として、前記第2のディスクリミネーターニューラルネットワークの前記入力値の第2の品質表示を決定するように構成され、ここで、前記第2のニューラルネットワーク(135)は前記第2の品質表示に依存して学習するように構成される、請求項13または請求項14に記載の装置。 - 前記装置は、前記狭帯域音声入力信号の前記信号包絡線の前記複数のサンプルおよび前記狭帯域音声入力信号の前記励起信号の前記複数のサンプルを前記狭帯域音声入力信号から生成するように構成される信号分析器(110)を含む、請求項1ないし請求項15のいずれかに記載の装置。
- 前記第1のニューラルネットワーク(125)は、1つ以上の畳み込みニューラルネットワークを含む、請求項1ないし請求項16のいずれかに記載の装置。
- 前記第1のニューラルネットワーク(125)は、1つ以上のディープニューラルネットワークを含む、請求項1ないし請求項17のいずれかに記載の装置。
- 狭帯域音声入力信号の帯域幅拡張を実行することによって前記狭帯域音声入力信号を処理して広帯域音声出力信号を得るための方法であって、前記方法は、
第1のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第1のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定するステップと、
前記狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するステップと、
前記広帯域音声入力信号が、前記複数の外挿された信号包絡線のサンプルおよび前記複数の外挿励起信号サンプルに依存して、前記狭帯域音声入力信号に対して帯域幅を拡張するように前記広帯域音声出力信号を生成するステップと、
を含む、方法。 - ニューラルネットワークを学習させるための方法であって、
前記ニューラルネットワークは前記ニューラルネットワークの入力値として、狭帯域音声入力信号の第1の複数の線スペクトル周波数を受信し、
前記ニューラルネットワークは、前記第1のニューラルネットワークの出力値として、前記広帯域音声出力信号の第2の複数の線スペクトル周波数を決定し、1つ以上の前記第2の複数の線スペクトル周波数のそれぞれは、前記第1の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数に関連付けられ、
前記広帯域音声出力信号の前記第2の複数の線スペクトル周波数は、前記広帯域音声出力信号の第2の複数の前記線形予測符号化係数を得るために、線スペクトル周波数領域から線形予測符号化領域に変換され、
前記広帯域音声出力信号の前記第2の複数の線形予測符号化係数を前記線形予測符号化領域から有限インパルス応答フィルタ領域に変換して、複数の有限インパルスフィルターで変換された線形予測符号化係数を得るために有限インパルス応答フィルタが用いられ、
前記方法は、前記複数の有限インパルスフィルターで変換された線形予測符号化係数に依存して、前記第1のニューラルネットワークを学習させるステップを含む、方法。 - 前記第1のニューラルネットワークが学習させると、前記複数の有限インパルスフィルターで変換された線形予測符号化係数、または前記複数の有限インパルスフィルターで変換された線形予測符号化係数から導出された値が、前記ニューラルネットワークにフィードバックされる、請求項20に記載の方法。
- 前記第1のニューラルネットワークが学習させると、前記複数の有限インパルスフィルターで変換された線形予測符号化係数および複数の外挿された励起信号サンプルに依存して、複数の前記広帯域音声出力信号のサンプルが生成され、前記複数の広帯域音声出力信号または前記複数の広帯域音声出力信号のサンプルから導出された値が前記ニューラルネットワークにフィードバックされる、請求項20に記載の方法。
- 第1および/または第2のニューラルネットワークを学習させるための方法であって、
前記第1のニューラルネットワークは、前記第1のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第1のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定する、および/または、前記第2のニューラルネットワークは前記第2のニューラルネットワークの入力値として、前記狭帯域音声入力信号の前記励起信号の複数のサンプルを受信し、前記第2のニューラルネットワークの出力値として、前記複数の外挿された励起信号サンプルを決定し、
前記第1および/または前記第2のニューラルネットワークは、ディスクリミネーターニューラルネットワークを使用して学習し、前記第1および/または前記第2のニューラルネットワークが学習すると、前記第1および/または前記第2のニューラルネットワークと前記ディスクリミネーターニューラルネットワークとは、敵対的生成ネットワークとして動作し、
前記第1および/または前記第2のニューラルネットワークの学習中は、前記ディスクリミネーターニューラルネットワークは、前記ディスクリミネーターニューラルネットワークの入力値として、前記第1および/または前記第2のニューラルネットワークの前記出力値を受信する、または、前記ディスクリミネーターネットワークの前記入力値として、前記第1および/または前記第2のニューラルネットワークの前記出力値から導出される導出値を受信し、
前記ディスクリミネーターニューラルネットワークの前記入力値を受信すると、前記ディスクリミネーターニューラルネットワークは、前記ディスクリミネーターニューラルネットワークの出力として、前記ディスクリミネーターニューラルネットワークの前記入力値の品質表示を決定し、そして前記第1および/または前記第2のニューラルネットワークは、前記品質表示に依存して学習する、方法。 - 前記ディスクリミネーターニューラルネットワークは、第1のディスクリミネーターニューラルネットワークであり、
前記第1のニューラルネットワークは、前記第1のディスクリミネーターニューラルネットワークを使用して学習し、前記第1のニューラルネットワークは、第1の品質表示である前記品質表示に依存して学習し、
前記第2のニューラルネットワークは第2のディスクリミネーターニューラルネットワークを使用して学習し、前記第2のニューラルネットワークの学習中は、前記第2のニューラルネットワークと前記第2のディスクリミネーターニューラルネットワークとは、第2の敵対的生成ネットワークとして動作し、
前記第2のニューラルネットワークの学習中は、前記第2のディスクリミネーターニューラルネットワークは、前記第2のディスクリミネーターニューラルネットワークの入力値として、前記第2のニューラルネットワークの前記出力値を受信する、または、前記第2のディスクリミネーターネットワークの前記入力値として、前記第2のニューラルネットワークの前記出力値から導出される導出値を受信し、
前記第2のディスクリミネーターニューラルネットワークの前記入力値を受信する際、前記第2のディスクリミネーターニューラルネットワークは、前記第2のディスクリミネーターニューラルネットワークの出力として、前記第2のディスクリミネーターニューラルネットワークの前記入力値の第2の品質表示を決定し、前記第2のニューラルネットワークは、前記第2の品質表示に依存して学習するように構成される、
請求項23に記載の方法。 - コンピュータ・プログラムがコンピュータ上またはシグナルプロセッサーで動作しているときに、請求項19ないし請求項24のいずれかに記載の前記方法を実行するためのコンピュータ・プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021113056A JP2023009622A (ja) | 2021-07-07 | 2021-07-07 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
JP2023146925A JP2023175767A (ja) | 2021-07-07 | 2023-09-11 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021113056A JP2023009622A (ja) | 2021-07-07 | 2021-07-07 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023146925A Division JP2023175767A (ja) | 2021-07-07 | 2023-09-11 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023009622A true JP2023009622A (ja) | 2023-01-20 |
Family
ID=85118808
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021113056A Pending JP2023009622A (ja) | 2021-07-07 | 2021-07-07 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
JP2023146925A Pending JP2023175767A (ja) | 2021-07-07 | 2023-09-11 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023146925A Pending JP2023175767A (ja) | 2021-07-07 | 2023-09-11 | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2023009622A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2956548B2 (ja) * | 1995-10-05 | 1999-10-04 | 松下電器産業株式会社 | 音声帯域拡大装置 |
JP2019008206A (ja) * | 2017-06-27 | 2019-01-17 | 日本放送協会 | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム |
-
2021
- 2021-07-07 JP JP2021113056A patent/JP2023009622A/ja active Pending
-
2023
- 2023-09-11 JP JP2023146925A patent/JP2023175767A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2956548B2 (ja) * | 1995-10-05 | 1999-10-04 | 松下電器産業株式会社 | 音声帯域拡大装置 |
JP2019008206A (ja) * | 2017-06-27 | 2019-01-17 | 日本放送協会 | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム |
Non-Patent Citations (1)
Title |
---|
SCHMIDT, KONSTANTIN ET. AL.: "BLIND BANDWIDTH EXTENSION OF SPEECH BASED ON LPCNET", 28TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO 2020), JPN6022032118, 21 October 2020 (2020-10-21), ISSN: 0004841094 * |
Also Published As
Publication number | Publication date |
---|---|
JP2023175767A (ja) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3701527B1 (en) | Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor | |
McLoughlin | Line spectral pairs | |
CN113409759B (zh) | 一种端到端实时语音合成方法 | |
Skoglund et al. | Improving Opus low bit rate quality with neural speech synthesis | |
Guo et al. | Didispeech: A large scale mandarin speech corpus | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
JP6148342B2 (ja) | 低または中ビットレートに対する知覚品質に基づくオーディオ分類 | |
US20230016637A1 (en) | Apparatus and Method for End-to-End Adversarial Blind Bandwidth Extension with one or more Convolutional and/or Recurrent Networks | |
CN103918028B (zh) | 基于自回归系数的有效表示的音频编码/解码 | |
US20240127832A1 (en) | Decoder | |
Okamoto et al. | Improving FFTNet vocoder with noise shaping and subband approaches | |
Lim et al. | Robust low rate speech coding based on cloned networks and wavenet | |
Jiang et al. | Latent-domain predictive neural speech coding | |
Gupta et al. | High‐band feature extraction for artificial bandwidth extension using deep neural network and H∞ optimisation | |
Yang et al. | PAAPLoss: A phonetic-aligned acoustic parameter loss for speech enhancement | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
Anees | Speech coding techniques and challenges: A comprehensive literature survey | |
Yang et al. | Neural feature predictor and discriminative residual coding for low-bitrate speech coding | |
Vali et al. | End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding | |
JP2023009622A (ja) | 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法 | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
Sankar et al. | Mel scale-based linear prediction approach to reduce the prediction filter order in CELP paradigm | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
Prakash et al. | Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification. | |
Gupta et al. | A new framework for artificial bandwidth extension using H∞ filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210929 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20220530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230911 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20231016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231016 |