WO2023100374A1 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法及び信号処理プログラム Download PDF

Info

Publication number
WO2023100374A1
WO2023100374A1 PCT/JP2021/044564 JP2021044564W WO2023100374A1 WO 2023100374 A1 WO2023100374 A1 WO 2023100374A1 JP 2021044564 W JP2021044564 W JP 2021044564W WO 2023100374 A1 WO2023100374 A1 WO 2023100374A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
observed
enhanced
speech recognition
signal processing
Prior art date
Application number
PCT/JP2021/044564
Other languages
English (en)
French (fr)
Inventor
翼 落合
マーク デルクロア
林太郎 池下
宏 佐藤
章子 荒木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/044564 priority Critical patent/WO2023100374A1/ja
Publication of WO2023100374A1 publication Critical patent/WO2023100374A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Definitions

  • the present invention relates to a signal processing device, a signal processing method, and a signal processing program.
  • the present invention has been made in view of the above, and it is an object of the present invention to provide a signal processing device, a signal processing method, and a signal processing program capable of improving speech recognition performance through speech enhancement.
  • a signal processing apparatus includes a speech enhancement unit that generates an enhanced signal in which a speaker's voice is enhanced from an observed signal; It is characterized by having an addition unit for adding, and a speech recognition unit for performing speech recognition on the enhanced signal to which the observation signal is added by the addition unit.
  • FIG. 1 is a diagram for explaining signal decomposition of an enhanced signal by orthogonal projection.
  • FIG. 2 is a diagram showing the word error rate (WER) with respect to the evaluation-emphasized signal.
  • FIG. 3 is a diagram for explaining signal decomposition of a modified emphasized signal obtained by adding an observed signal to an emphasized signal.
  • FIG. 4 is a diagram schematically showing an example of the configuration of the signal processing device according to the embodiment.
  • FIG. 5 is a flow chart showing the processing procedure of the signal processing method according to the embodiment.
  • FIG. 6 is a diagram showing SDR, SNR, and SAR for a modification enhancement signal.
  • FIG. 7 is a diagram showing WER scores for change-enhanced signals.
  • FIG. 8 is a diagram showing the WER score obtained by the signal processing device for observed signals from actual recordings.
  • FIG. 9 is a diagram showing an example of a computer that implements a signal processing device by executing a program.
  • a signal processing method for a speech signal (observed signal) recorded with a single microphone (single channel) will be described. It is also applicable to speech signals that have been processed.
  • y ⁇ R T denotes the T long-time domain waveform of the observed signal.
  • the observed signal y is modeled as equation (1).
  • s ⁇ R T denotes the sound source signal.
  • n ⁇ R T denotes the background noise signal.
  • SE aims to reduce the noise signal n from the observed signal y.
  • SE(•) denotes SE processing performed by, for example, a neural network.
  • FIG. 1 is a diagram for explaining signal decomposition of an enhanced signal by orthogonal projection.
  • s target indicates the target sound source element
  • e noise ⁇ R T indicates the noise element (error)
  • e artif ⁇ R T indicates the artifact element (error) (see FIG. 1).
  • the error in the SE is decomposed into a noise element and an artifact element by error decomposition by orthogonal projection.
  • the two components are obtained by projecting the SE error into a speech/noise subspace spanning the speech/noise signal and a subspace orthogonal to the speech/noise subspace.
  • the noise element e noise is expected to be a naturally observable signal because it consists of a linear combination of the speech signal and the noise signal. These are called natural signals. This natural signal may have limited impact on speech recognition performance, as similar noise components naturally appear in training samples.
  • the artifact element e artif consists of a signal that cannot be represented by a linear combination of the speech signal and the noise signal (see FIG. 1), and is an artificial/unnatural signal.
  • This unnatural signal can be very diverse and rarely appear in the training samples. Therefore, we hypothesize that speech recognition is more sensitive to artifact components than to noise components.
  • SDR Signal to distortion ratio
  • SNR signal to noise ratio
  • SAR Signal to Artifact Ratio
  • the enhanced signal ⁇ s ⁇ ⁇ R T was synthesized.
  • ⁇ noise is a parameter that controls the amount of the noise element e noise
  • ⁇ nartif is a parameter that controls the amount of the artifact element e artif .
  • FIG. 2 is a diagram showing the WER with respect to the evaluation weighted signal.
  • FIG. 2(a) is a 3D plot showing the speech recognition results for an evaluation weighted signal with a modified noise/artifact error ratio.
  • FIG. 2(b) is the corresponding 2D plot obtained by changing only one of the weights of ⁇ noise and ⁇ artif .
  • the baseline (obs.) in FIG. 2(b) represents the baseline WER score of the observed signal, and the square symbols represent the WER score of the original enhanced signal without modification. Note that the baseline (obs.) and square symbols in FIGS. 7 and 8 are the same.
  • the original enhanced signal actually degrades the speech recognition performance compared to the observed signal. It has been observed that a significant improvement in speech recognition performance is possible by reducing the artifact element e artif , as shown in FIG. On the other hand, the speech recognition performance was not significantly affected by increasing or decreasing the noise factor e noise . From these results, it was confirmed that, of the noise element e noise and the artifact element e artif , the artifact element e artif has a greater effect on the deterioration of the speech recognition performance.
  • this embodiment proposes a signal processing method for improving speech recognition performance.
  • a method of reducing the ratio of artifact components in the signal input to the speech recognition system was examined.
  • the original sound (observed signal) is added to the enhanced signal to reduce the ratio of artifact elements in the signal input to the speech recognition system.
  • a signal obtained by adding the scaled observed signal y to the enhanced signal ⁇ s is input to the speech recognition system as a modified enhanced signal ⁇ s.
  • the modified enhancement signal ⁇ s ⁇ R T is calculated as shown in Equation (7).
  • FIG. 3 is a diagram for explaining signal decomposition of a modified emphasized signal obtained by adding an observed signal to an emphasized signal.
  • the artifact element e artif corresponds to the normal of the enhanced signal ⁇ s to the Sn plane. Even if the observed signal y is added to the enhanced signal ⁇ s, the observed signal y is parallel to the Sn plane, so the vector length of the artifact element e artif is the modified enhanced signal ⁇ s and the enhanced signal ⁇ does not change between s.
  • the modified emphasized signal ⁇ s is obtained by adding the observed signal y to the emphasized signal ⁇ s, the target sound source element ⁇ s target and the noise element ⁇ e noise increase compared to the emphasized signal ⁇ s. Therefore, the modified enhancement signal ⁇ s can reduce the proportion of artifact elements e artif compared to the enhancement signal ⁇ s. Therefore, by using the modification emphasis signal ⁇ s, it is possible to reduce the influence of the artifact element e artif on speech recognition, and thus an improvement in speech recognition performance can be expected. In the following, it can be proved mathematically that the addition of the original sound contributes to the improvement of the speech recognition performance.
  • the SAR improvement value SARi is calculated as in Equation (8). If SARi>0, the ratio of the artifact element e artif decreases when the original sound is added.
  • FIG. 4 is a diagram schematically showing an example of the configuration of the signal processing device according to the embodiment.
  • the signal processing device 10 for example, a computer including ROM (Read Only Memory), RAM (Random Access Memory), CPU (Central Processing Unit), etc. is loaded with a predetermined program, and the CPU executes a predetermined program. It is realized by executing the program of The signal processing device 10 also has a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like. As shown in FIG. 1 , the signal processing device 10 has a speech enhancement section 11 , an original sound addition section 12 (addition section), and a speech recognition section 13 . The signal processing device 10 receives an observation signal y recorded in a single channel, and outputs, for example, a speech recognition result obtained by converting the message signal into text.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • CPU Central Processing Unit
  • the speech enhancement unit 11 accepts an input of observation signal y recorded in a single channel.
  • the speech enhancement unit 11 generates an enhanced signal ⁇ s that emphasizes the speaker's speech from the observed signal y for the purpose of reducing the noise signal n from the observed signal y.
  • the voice enhancement unit 11 performs voice enhancement processing using, for example, a neural network.
  • the original sound adding unit 12 adds the observed signal y (original sound) to the enhanced signal ⁇ s.
  • the original sound adding unit 12 inputs the signal obtained by adding the weighted observed signal y to the enhanced signal ⁇ s to the speech recognition unit 13 as a modified enhanced signal ⁇ s (see equation (7)).
  • the original sound addition unit 12 adjusts the weight ⁇ obs of the observed signal y to be added to the enhanced signal ⁇ s according to the ratio of the noise signal included in the observed signal y. For example, the original sound adding unit 12 may lower the value of the weight ⁇ obs below a specified value when the ratio of noise signals included in the observed signal y is lower than a certain value. Further, when the ratio of noise signals included in the observed signal y is higher than a certain value, the original sound adding unit 12 may increase the value of the weight ⁇ obs from the prescribed value. The original sound addition unit 12 may estimate the SNR of the observed signal y and determine the value of the weight ⁇ obs based on this estimation result.
  • the original sound adding unit 12 adds the weight of the observed signal y and the weight of the observed signal to be added to the enhanced signal ⁇ s so that the sum of the weight of the observed signal y and the weight of the observed signal to be added to the enhanced signal ⁇ s is 1, as shown in Equation (10). Weighting may be performed on both the observation signal added to ⁇ s.
  • the original sound adding unit 12 may appropriately set the weight ⁇ of the observed signal y and the weight ⁇ of the observed signal to be added to the enhanced signal ⁇ s, as shown in equation (11).
  • the speech recognition unit 13 performs speech recognition on the modification emphasis signal ______.
  • the speech recognition unit 13 outputs a speech recognition result obtained by converting a message signal into text, for example.
  • the speech recognition unit 13 performs speech enhancement processing using, for example, a trained deep learning model.
  • FIG. 5 is a flow chart showing the processing procedure of the signal processing method according to the embodiment.
  • the speech enhancement unit 11 performs speech enhancement processing to generate an enhanced signal ⁇ s that emphasizes the speaker's speech from the observed signal y.
  • the original sound addition unit 12 performs original sound addition processing for adding the observed signal y to the enhanced signal ⁇ s (step S2).
  • the original sound adding unit 12 inputs a signal obtained by adding the observed signal y to the enhanced signal ⁇ s to the speech recognition unit 13 as a modified enhanced signal ⁇ s.
  • the speech recognition unit 13 performs speech recognition processing on the modification emphasis signal s (step S3), and outputs the speech recognition result.
  • a neural network-based time-domain denoising network (Denoising-TasNet) was adopted as the speech enhancement unit 11 .
  • a deep neural network hidden Markov model (DNN-HMM) hybrid ASR (Automatic Speech Recognition) system based on Kaldi's standard method is adopted.
  • DNN-HMM deep neural network hidden Markov model
  • ASR Automatic Speech Recognition
  • FIG. 6 is a diagram showing SDR, SNR, and SAR for the modification emphasis signal s.
  • FIG. 7 shows the WER scores for the modified emphasis signal s. 6 and 7 are results obtained by varying the value of ⁇ obs in equation (7) between 0.0 and 1.5.
  • the signal processing device 10 was able to improve the speech recognition performance compared to the reference observed signal and the original enhanced signal ⁇ s.
  • the signal processor 10 was able to improve the speech recognition performance of the single-channel SE front-end by reducing the proportion of artifact elements in the modified enhanced signal s, i.e. by increasing the SAR.
  • FIG. 8 is a diagram showing WER scores obtained by the signal processing device 10 for observed signals from actual recordings.
  • the signal processing apparatus 10 adds the observed signal y to the enhanced signal ⁇ s and inputs it to the speech recognition unit 13 in order to reduce the influence of the artifact element on the speech recognition performance. This proved that the signal processing apparatus 10 can monotonically increase the SAR value and improve the speech recognition performance. In addition, it was found that the signal processing device 10 effectively improves speech recognition performance even in actual recording.
  • the signal processing apparatus 10 can improve speech recognition performance in single-channel speech enhancement simply by adding a simple process of adding an original sound (observed signal) to an enhanced signal to the front stage of speech recognition. Successful.
  • Each component of the signal processing device 10 is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution and integration of the functions of the signal processing device 10 is not limited to the illustrated one, and all or part of it can be functionally or physically distributed in arbitrary units according to various loads and usage conditions. can be distributed or integrated.
  • each process performed in the signal processing device 10 may be implemented entirely or in part by a CPU, a GPU (Graphics Processing Unit), and a program that is analyzed and executed by the CPU and GPU. Further, each process performed in the signal processing device 10 may be realized as hardware by wired logic.
  • FIG. 9 is a diagram showing an example of a computer that implements the signal processing device 10 by executing a program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores an OS (Operating System) 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, a program that defines each process of the signal processing device 10 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the signal processing device 10 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

信号処理装置(10)は、観測信号から、話者の音声を強調した強調信号を生成する音声強調部(11)と、強調信号に観測信号を付加する原音付加部(12)と、原音付加部(12)によって観測信号が付加された強調信号に対して、音声認識を行う音声認識部(13)と、を有する。

Description

信号処理装置、信号処理方法及び信号処理プログラム
 本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。
 背景雑音や残響などの音響干渉に対して頑健な音声認識システムを構築することは音声処理において課題となっている。ここで、複数のマイクを使用するマルチチャネルでの音声強調技術(ビームフォーマー)が音声認識性能を大きく向上させることが確認されている。
Szu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, and Shinji Watanabe, "Building state-of-the-art distant speech recognition using the chime-4 challenge with a setup of speech enhancement baseline", in Interspeech, 2018, pp. 1571-1575.
 一方、単一のマイクを使用するシングルチャネルでの音声強調技術は、雑音を除去した強調信号を用いても、雑音あり観測信号よりもむしろ音声認識性能が劣化する場合もあり、音声認識性能向上への効果は限定的であった。
 実際には、単一のマイクロホンしか備えていないデバイスも多い。したがって、頑強な音声認識システムを実現するためには、マルチチャネルでの音声強調技術とともに、シングルチャネルに対しても音声強調技術を開発することが重要である。
 本発明は、上記に鑑みてなされたものであって、音声強調による音声認識性能の向上を可能とする信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、強調信号に観測信号を付加する付加部と、付加部によって観測信号が付加された強調信号に対して、音声認識を行う音声認識部と、を有することを特徴とする。
 本発明によれば、音声強調による音声認識性能の向上を可能とする。
図1は、直交投影による強調信号の信号分解を説明する図である。 図2は、評価強調信号に対する単語誤り率(Word Error Rate:WER)を示す図である。 図3は、強調信号に観測信号を付加した変更強調信号の信号分解を説明する図である。 図4は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。 図5は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。 図6は、変更強調信号に対するSDR,SNR,SARを示す図である。 図7は、変更強調信号に対するWERのスコアを示す図である。 図8は、実録音による観測信号に対する信号処理装置によるWERのスコアを示す図である。 図9は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルまたは行列であるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同じであるとする。ベクトルまたは行列であるAに対し、“ ̄A”と記載する場合は「“A”の直上に“ ̄”が記された記号」と同じであるとする。
[実施の形態]
 本実施の形態では、一例として、シングルチャネル音声強調(Speech Enhancement:SE)による強調信号が、音声認識性能を劣化される要因を分析した分析結果を基に、音声認識性能を向上させる信号処理方法を提案する。なお、本実施の形態では、単一のマイクロホン(シングルチャネル)で録音された音声信号(観測信号)に対する信号処理方法について説明するが、シングルチャネルに限らず、複数のマイクロホン(マルチチャネル)で録音された音声信号にも適用可能である。
[強調信号の分析]
 まず、シングルチャネルSEによる強調信号に対して、音声認識性能を劣化させる要因を分析した。
 通常、シングルチャネルSEによって生じる処理歪みが音声認識性能低下の原因であると想定されることが多い。しかしながら、こうした歪み、特に、音声認識への影響について系統的な詳しい分析や解明はこれまでされてこなかった。音声認識に対するシングルチャネルSE推定誤差の影響について解明していくことがSEフロントエンド設計を改良する上で欠かせないと考える。
 ここで、シングルチャネルSEタスクに焦点を当てる。y∈RTは、観測信号のT長時間領域波形を示す。観測信号yは、式(1)としてモデル化される。s∈RTは、音源信号を示す。n∈RTは、背景の雑音信号を示す。
Figure JPOXMLDOC01-appb-M000001
 SEは、観測信号yから雑音信号nを減らすことを目的とする。観測信号yが入力された場合、強調信号^s∈RTは、^s=SE(y)と推定される。SE(・)は、例えば、ニューラルネットワークによって行われるSE処理を示す。
 続いて、SE推定誤差が音声認識性能に与える影響を分析するため、直交投影を用いてSE推定誤差分解を検討した。図1は、直交投影による強調信号の信号分解を説明する図である。
 強調信号^sは、推定処理を行うことで取得されるものであるため、推定誤差を含むことは避けられない。強調信号^sを式(2)のように直交投影を用いて分解する。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、stargetは、対象音源要素を示し、enoise∈RTは、雑音要素(誤差)を示し、eartif∈RTは、アーティファクト要素(誤差)を示す(図1参照)。
 具体的には、直交投影による誤差分解により、SEにおける誤差を雑音要素とアーティファクト要素とに分解する。この2つの要素は、SE誤差を、音声/雑音信号に跨る音声/雑音サブ空間、及び、音声/雑音サブ空間に直交するサブ空間に投影することにより得られる。
 雑音要素enoiseは、音声信号と雑音信号との線形結合で構成されるため、自然に観測可能な信号であると期待される。これらを自然信号と呼ぶ。訓練サンプルには類似する雑音要素が自然に現れるため、この自然信号が音声認識性能に与える影響は限定的である可能性がある。
 一方、アーティファクト要素eartifは、音声信号と雑音信号との線形結合では表すことのできない信号で構成され(図1参照)、人工的/不自然信号である。この不自然信号は、非常に多様であり、訓練サンプルに現れることはほとんどない可能性がある。したがって、音声認識は、雑音要素よりもアーティファクト要素に対して感度が高いという仮説を立てる。
 SE評価指標として、信号対歪比(Signal to Distortion Ratio:SDR)(式(3))、信号対雑音比(Signal to Noise Ratio:SNR)(式(4))、信号対アーティファクト比(Signal to  Artifact Ratio:SAR)(式(5))を使用する。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 次に、アーティファクト要素eartifの音声認識性能への誤差要素の影響を調べる実験を行った。実験では、アーティファクト要素eartif及び雑音要素enoiseの音声認識性能への影響を測定するため、誤差要素の大きさを変えることにより強調信号を変更し、変更強調信号を入力として音声認識を行った。
 具体的には、直交投影を用いて強調信号^sを分解した後、アーティファクト要素eartif及び雑音要素enoiseを、式(6)のように増減することにより、強調信号^sω∈RTを合成した。
Figure JPOXMLDOC01-appb-M000006
 ωnoiseは、雑音要素enoiseの量を制御するパラメータであり、ωnartifは、アーティファクト要素eartifの量を制御するパラメータである。今回の実験では、雑音要素やアーティファクト要素の割合が異なる多様な強調信号^sωを得るため、ωnoiseとωartifとの値を変更した。これにより、SNRとSARの値を制御しつつ同じ対象音源要素stargetを保持することができる。このような変更済みの強調信号を評価強調信号として音声認識システムに入力することにより、各誤差要素が音声認識性能に与える影響を直接測定した。
 図2は、評価強調信号に対するWERを示す図である。図2の(a)は、雑音/アーティファクト誤差の比率を変更された評価強調信号に対する音声認識結果を示す3Dプロットである。図2の(b)は、ωnoiseとωartifの重みのうち1つのみを変更することによって得られる対応する2Dプロットである。図2の(b)のbaseline(obs.)は、観測信号の基準WERスコアを表し、四角記号は、変更なしの元の強調信号のWERスコアを表す。なお、図7及び図8におけるbaseline(obs.)及び四角記号も同様である。
 図2に示すように、元の強調信号は、観測信号と比して、音声認識性能を実際には低下させるということが確認できる。図2に示すように、アーティファクト要素eartifを減らすことによって、音声認識性能の大幅な向上が可能であることが観測された。一方、音声認識性能は、雑音要素enoiseを増減してもそれほど影響を受けなかった。これらの結果により、雑音要素enoiseとアーティファクト要素eartifとのうち、アーティファクト要素eartifの方が音声認識性能の低下に大きな影響を及ぼすということが確認できた。
 そこで、この知見に基づいて、本実施の形態では、音声認識性能を向上させる信号処理方法を提案する。本実施の形態では、アーティファクト要素の影響を減らすアプローチとして、音声認識システムに入力される信号におけるアーティファクト成分の比率を減らす方法を検討した。
 本実施の形態では、強調信号に原音(観測信号)付加を行い、音声認識システムに入力される信号におけるアーティファクト要素の比率を減らした。具体的には、スケーリングした観測信号yを強調信号^sに付加した信号を、変更強調信号 ̄sとして、音声認識システムに入力する。変更強調信号 ̄s∈RTは、式(7)のように算出される。
Figure JPOXMLDOC01-appb-M000007
 ωobs≧0は、強調信号^sに付加する観測信号yの量を制御するパラメータである。図3は、強調信号に観測信号を付加した変更強調信号の信号分解を説明する図である。図1及び図3に示すように、アーティファクト要素eartifは、Sn平面に対する強調信号^sの垂線に相当する。強調信号^sに観測信号yを加算した場合であっても、観測信号yは、Sn平面と平行であるため、アーティファクト要素eartifのベクトルの長さは、変更強調信号 ̄sと強調信号^sとの間で変わらない。
 これに対し、変更強調信号 ̄sは、強調信号^sに観測信号yを付加したため、強調信号^sと比して、対象音源要素 ̄stargetと雑音要素 ̄enoiseとが増加する。したがって、変更強調信号 ̄sは、強調信号^sと比して、アーティファクト要素eartifの比率を減らすことができる。このため、変更強調信号 ̄sを用いることで、アーティファクト要素eartifの音声認識への影響を低減することができるため、音声認識性能の向上が期待できる。以下、数理的にも、原音付加が音声認識性能の向上に寄与することが証明できる。
 SARの改善値SARiは、式(8)のように算出される。SARi>0であれば、原音付加を行った場合に、アーティファクト要素eartifの比率が減ることとなる。なお、Ps∈RT×Tは、音源信号{sTL-1T=0(L-1は許容最大遅延の数)が跨るサブ空間上の直交投影行列を示す。Ps,n∈RT×Tは、音源信号と雑音信号{sT, nTL-1T=0とが跨るサブ空間上の直交投影行列を示す。
Figure JPOXMLDOC01-appb-M000008
 式(8)における2列目の等式では、Ps,ny=yと ̄eartif=^eartifとを使用した。式(8)の3列目に示すように、<Ps,ns,y>>0の場合に、SARi>0となる。このため、元の強調信号^s=SE(y)のSARを改善するには、<Ps,ns,y>>0が十分条件となる。この十分条件は、式(9)と書き換えることも可能であり、この緩い条件のもとであれば、原音付加によって、変更強調信号 ̄sにおけるアーティファクト成分の比率を減らすことを証明できる。
Figure JPOXMLDOC01-appb-M000009
[信号処理装置]
 原音付加を音声認識性能向上のために適用した信号処理装置について説明する。図4は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。
 実施の形態に係る信号処理装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、信号処理装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。図1に示すように、信号処理装置10は、音声強調部11、原音付加部12(付加部)及び音声認識部13を有する。信号処理装置10には、シングルチャネルで録音された観測信号yが入力され、例えば、音信信号をテキストに変換した音声認識結果を出力する。
 音声強調部11は、シングルチャネルで録音され観測信号yの入力を受け付ける。音声強調部11は、観測信号yから雑音信号nを減らすことを目的として、観測信号yから、話者の音声を強調した強調信号^sを生成する。音声強調部11は、例えば、ニューラルネットワークを用いて、音声強調処理を行う。
 原音付加部12は、強調信号^sに観測信号y(原音)を付加する。原音付加部12は、重み付けした観測信号yを強調信号^sに付加した信号を、変更強調信号 ̄sとして(式(7)参照)、音声認識部13に入力する。
 なお、原音付加部12は、観測信号yに含まれる雑音信号の比率に応じて、強調信号^sに付加する観測信号yの重みωobsを調整する。例えば、原音付加部12は、観測信号yに含まれる雑音信号の比率が一定値よりも低い場合は、重みωobsの値を規定していた値よりも下げてもよい。また、原音付加部12は、観測信号yに含まれる雑音信号の比率が一定値よりも高い場合は、重みωobsの値を規定していた値よりも上げてもよい。原音付加部12は、観測信号yのSNR推定し、この推定結果を基に、重みωobsの値を決めてもよい。
 また、原音付加部12は、式(10)に示すように、観測信号yの重みと強調信号^sに付加する観測信号の重みとの和が1となる関係で、観測信号yと強調信号^sに付加する観測信号との双方に重み付けを行ってもよい。
Figure JPOXMLDOC01-appb-M000010
 また、原音付加部12は、式(11)に示すように、観測信号yの重みαと強調信号^sに付加する観測信号の重みβとを適宜設定してもよい。
Figure JPOXMLDOC01-appb-M000011
 音声認識部13は、変更強調信号 ̄sに対して、音声認識を行う。音声認識部13は、例えば、音信信号をテキストに変換した音声認識結果を出力する。音声認識部13は、例えば、学習済みの深層学習モデルを用いて、音声強調処理を行う。
[信号処理方法]
 次に、信号処理装置10が実行する信号処理方法について説明する。図5は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。
 図5に示すように、信号処理装置10は、観測信号yの入力を受け付けると、音声強調部11が、観測信号yから、話者の音声を強調した強調信号^sを生成する音声強調処理を行う(ステップS1)。原音付加部12は、強調信号^sに観測信号yを付加する原音付加処理を行う(ステップS2)。原音付加部12は、観測信号yを強調信号^sに付加した信号を、変更強調信号 ̄sとして、音声認識部13に入力する。音声認識部13は、変更強調信号 ̄sに対して、音声認識処理を行い(ステップS3)、音声認識結果を出力する。
[評価実験]
 実際に、信号処理装置10の音声認識精度を評価した。音声強調部11として、ニューラルネットワーク基盤の時間領域雑音除去ネットワーク(Denoising-TasNet)を採用した。音声認識部13として、Kaldiの標準法に基づくディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)ハイブリッドASR(Automatic Speech Recognition)システムを採用した。音声音源のWall Street Journal(WSJ0)コーパスと雑音音源のCHiME-3コーパスから再現残響雑音下音声信号のデータセットを生成し、訓練セット、開発セット及び評価セットとした。
 図6は、変更強調信号 ̄sに対するSDR,SNR,SARを示す図である。図7は、変更強調信号 ̄sに対するWERのスコアを示す図である。図6及び図7は、式(7)のωobsの値を0.0から1.5の間で変化させることにより得られた結果である。
 図6及に示すように、ωobsが大きくなるにつれて、すなわち、観測信号を追加するごとに、SDRとSNRは低下する一方で、SARは単調的に上がる。言い換えると、ωobsが大きくなるにつれて、SARの改善が認められ、変更強調信号 ̄sに対するアーティファクト要素の比率が低下する。このSARの改善にしたがい、図7に示すように、WERが改善することが観測された。
 したがって、信号処理装置10は、原音付加を行うことで、基準観測信号や元の強調信号^sと比して、音声認識の性能を向上させることができた。言い換えると、信号処理装置10は、変更強調信号 ̄sにおけるアーティファクト要素の比率を下げることによって、すなわち、SARを上げることによって、シングルチャネルSEフロントエンドの音声認識性能を向上させることができた。
 続いて、実録音に対する評価を行った。実録音の結果を確認するためCHiME-3データセットの実際に録音された音声データ(et05_real)を使用した。図8は、実録音による観測信号に対する信号処理装置10によるWERのスコアを示す図である。
 図8に示すように、信号処理装置10によれば、実録音に適用した場合もWERを低下させることが観測された。すなわち、アーティファクト要素軽減による音声認識性能の向上効果が実録音にも当てはまることが証明できた。
[実施の形態の効果]
 このように、実施の形態に係る信号処理装置10は、音声認識性能に対するアーティファクト要素の影響を軽減するために、観測信号yを強調信号^sに付加し、音声認識部13に入力する。これによって、信号処理装置10は、SAR値を単調的に上げることができ、音声認識性能を向上することが実証された。また、信号処理装置10は、実録音においても音声認識性能を効果的に向上させることが分かった。
 従来、特に、シングルチャネル音声強調では、音声認識性能を向上させることが難しかった。また、音声認識のフロントエンドとして原音付加を行っているものは、これまでになかった。
 本実施の形態に係る信号処理装置10は、強調信号に原音(観測信号)を付加するという簡易な処理を音声認識の前段に追加するのみで、シングルチャネル音声強調での音声認識性能の向上に成功した。
[実施の形態のシステム構成について]
 信号処理装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置10の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、信号処理装置10においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図9は、プログラムが実行されることにより、信号処理装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 10 信号処理装置
 11 音声強調部
 12 原音付加部
 13 音声認識部

Claims (6)

  1.  観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
     前記強調信号に前記観測信号を付加する付加部と、
     前記付加部によって前記観測信号が付加された強調信号に対して、音声認識を行う音声認識部と、
     を有することを特徴とする信号処理装置。
  2.  前記観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項1に記載の信号処理装置。
  3.  前記付加部は、前記観測信号に含まれる雑音信号の比率に応じて、前記強調信号に付加する観測信号の重みを調整することを特徴とする請求項1または2に記載の信号処理装置。
  4.  前記付加部は、前記強調信号に付加する観測信号のみに重み付けし、または、前記観測信号の重みと前記強調信号に付加する観測信号の重みとの和が1となる関係で前記観測信号と前記強調信号に付加する観測信号との双方に重み付けすることを特徴とする請求項3に記載の信号処理装置。
  5.  信号処理装置が実行する方法であって、
     観測信号から、話者の音声を強調した強調信号を生成する工程と、
     前記強調信号に前記観測信号を付加する工程と、
     前記付加する工程において前記観測信号が付加された強調信号に対して、音声認識を行う工程と、
     を含んだことを特徴とする信号処理方法。
  6.  観測信号から、話者の音声を強調した強調信号を生成するステップと、
     前記強調信号に前記観測信号を付加するステップと、
     前記付加するステップにおいて前記観測信号が付加された強調信号に対して、音声認識を行うステップと、
     をコンピュータに実行させるための信号処理プログラム。
PCT/JP2021/044564 2021-12-03 2021-12-03 信号処理装置、信号処理方法及び信号処理プログラム WO2023100374A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044564 WO2023100374A1 (ja) 2021-12-03 2021-12-03 信号処理装置、信号処理方法及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044564 WO2023100374A1 (ja) 2021-12-03 2021-12-03 信号処理装置、信号処理方法及び信号処理プログラム

Publications (1)

Publication Number Publication Date
WO2023100374A1 true WO2023100374A1 (ja) 2023-06-08

Family

ID=86611797

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/044564 WO2023100374A1 (ja) 2021-12-03 2021-12-03 信号処理装置、信号処理方法及び信号処理プログラム

Country Status (1)

Country Link
WO (1) WO2023100374A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082999A (ja) * 1998-09-07 2000-03-21 Nippon Telegr & Teleph Corp <Ntt> 雑音低減処理方法、その装置及びプログラム記憶媒体
JP2001092491A (ja) * 1999-09-01 2001-04-06 Trw Inc 単一マイクロフォンを使用するノイズ減少のためのシステムおよび方法
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082999A (ja) * 1998-09-07 2000-03-21 Nippon Telegr & Teleph Corp <Ntt> 雑音低減処理方法、その装置及びプログラム記憶媒体
JP2001092491A (ja) * 1999-09-01 2001-04-06 Trw Inc 単一マイクロフォンを使用するノイズ減少のためのシステムおよび方法
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器

Similar Documents

Publication Publication Date Title
US10511908B1 (en) Audio denoising and normalization using image transforming neural network
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
CN107113521B (zh) 用辅助键座麦克风来检测和抑制音频流中的键盘瞬态噪声
Roman et al. Speech intelligibility in reverberation with ideal binary masking: Effects of early reflections and signal-to-noise ratio threshold
Tsao et al. Generalized maximum a posteriori spectral amplitude estimation for speech enhancement
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Elshamy et al. Instantaneous a priori SNR estimation by cepstral excitation manipulation
Dong et al. Speech intelligibility improvement in noisy reverberant environments based on speech enhancement and inverse filtering
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
CN114121029A (zh) 语音增强模型的训练方法和装置以及语音增强方法和装置
Morita et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments
CN104637490A (zh) 基于mmse语音概率存在的准确正向snr估计
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
WO2023100374A1 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
WO2023132018A1 (ja) 学習装置、信号処理装置、学習方法及び学習プログラム
Nisa et al. The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense
CN113571076A (zh) 信号处理方法、装置、电子设备和存储介质
Al-Karawi et al. The effects of distance and reverberation time on speaker recognition performance
JP7264282B2 (ja) 音声強調装置、学習装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21966452

Country of ref document: EP

Kind code of ref document: A1