JP2011059186A - Speech section detecting device and speech recognition device, program and recording medium - Google Patents
Speech section detecting device and speech recognition device, program and recording medium Download PDFInfo
- Publication number
- JP2011059186A JP2011059186A JP2009205990A JP2009205990A JP2011059186A JP 2011059186 A JP2011059186 A JP 2011059186A JP 2009205990 A JP2009205990 A JP 2009205990A JP 2009205990 A JP2009205990 A JP 2009205990A JP 2011059186 A JP2011059186 A JP 2011059186A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- feature amount
- image
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声発話区間を検出する音声区間検出装置及び音声をテキストに変換する音声認識装置、プログラム並びに記録媒体に関する。 The present invention relates to a speech section detection device that detects a speech utterance section, a speech recognition device that converts speech into text, a program, and a recording medium.
音声認識は、入力された音声信号を、音響処理・音響分析により時系列の音響特性に変換し、この音響特性、すなわち、特徴量を用いてパターンマッチングなどにより、テキストに変換する技術である。音声認識では、音響処理・音響分析を行う前に、音声区間検出により、入力音声を適切な区間で分割しつつ、分割したそれぞれの区間を音声区間又は非音声区間とラベル付けする処理を加えることが多い。この場合、音声区間検出により音声区間としてラベル付けされた音声信号のみ後段の音声認識処理を行う。 Speech recognition is a technique in which an input speech signal is converted into time-series acoustic characteristics by acoustic processing / analysis and converted into text by pattern matching using the acoustic characteristics, that is, feature quantities. In speech recognition, before performing acoustic processing / analysis, a process of labeling each divided segment as a speech segment or a non-speech segment while dividing the input speech into appropriate segments by speech segment detection. There are many. In this case, the subsequent speech recognition process is performed only for the voice signal labeled as the voice section by the voice section detection.
音声区間検出は、モデルベースの手法と非モデルベースの手法の2種類に大別される。モデルベースの手法では、事前に音声と非音声のモデルを構築しておく。そして、入力に対して、音声のモデルと非音声のモデルの両モデルを用いて音声と非音声のどちらに近いかを計算し、その結果により、ラベル付けを行う。 Speech segment detection is roughly divided into two types: model-based methods and non-model-based methods. In the model-based method, speech and non-speech models are built in advance. Then, for the input, the voice model or the non-speech model is used to calculate whether it is close to the voice or non-speech model, and labeling is performed based on the result.
非モデルベースの手法では、まず、入力信号からパワーなどの特徴を基にスコアを計算する。このスコアが一定の閾値を越えている場合は音声区間、そうでない場合には、非音声区間とする。例えば、非特許文献1では、入力信号を周期性・非周期性成分に分解し、両者のパワー比をスコアとして音声区間か否かを同定している。 In the non-model based method, first, a score is calculated based on characteristics such as power from an input signal. When this score exceeds a certain threshold, it is set as a voice section, and when not so, it is set as a non-voice section. For example, in Non-Patent Document 1, an input signal is decomposed into periodic and non-periodic components, and the power ratio between the two is used as a score to identify whether or not it is a speech section.
一方、音声認識の一手法として音声信号だけでなく、発声時の口唇動画像を用いる、マルチモーダル音声認識がある。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音響特徴量を連結して音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。 On the other hand, there is multimodal speech recognition that uses not only a speech signal but also a lip moving image at the time of speech as a speech recognition method. In multimodal speech recognition, an input moving image is converted into a time-series image feature amount, and the image feature amount and the acoustic feature amount are connected to generate an acoustic image feature amount. Then, voice recognition is performed by using the acoustic image feature amount.
マルチモーダル音声認識の例として、非特許文献2では、入力画像を予め用意しておいた主成分ベクトルにより主成分分析し、得られた主成分係数を画像特徴量として用いる。又、認識においては、マルチストリームHMM(Hidden Markov Model,HMM)を利用し、音声と画像の重み付けを適切に行うことで、音声認識の性能を向上させている。 As an example of multimodal speech recognition, in Non-patent Document 2, an input image is subjected to principal component analysis using a principal component vector prepared in advance, and the obtained principal component coefficient is used as an image feature amount. In recognition, a multi-stream HMM (Hidden Markov Model, HMM) is used and weighting of speech and images is appropriately performed to improve speech recognition performance.
音声区間検出においても、同様に画像情報を用いる手法が提案されている。例えば、特許文献1では、入力画像から口唇形状を求め、以前に抽出した口唇形状と比較することにより、動き形状を計算する。これをウェーブレット変換し、その高周波領域の値を閾値処理することにより、音声区間を検出している。 Similarly, a method using image information has been proposed for voice segment detection. For example, in Patent Document 1, a lip shape is obtained from an input image, and the motion shape is calculated by comparing with a previously extracted lip shape. This is wavelet transformed, and the voice section is detected by thresholding the value in the high frequency region.
又、特許文献2では、音声信号を一定時間毎にフレーム単位に分割し、各フレームでパワーとゼロ交差率を計算し、条件を満たしたものを音声区間候補とする。ついで入力画像から動き領域を検出し、動き領域の特徴と予め用意した特徴との類似度を求め、閾値により唇動き信号を生成する。その上で、音声区間候補において唇動き信号が検出された場合に、音声区間と判定している。 Also, in Patent Document 2, a speech signal is divided into frames at regular intervals, the power and zero crossing rate are calculated for each frame, and those satisfying the conditions are regarded as speech segment candidates. Next, a motion region is detected from the input image, a similarity between the feature of the motion region and a feature prepared in advance is obtained, and a lip motion signal is generated based on a threshold value. In addition, when a lip motion signal is detected in a speech segment candidate, it is determined as a speech segment.
なお、先行技術を調査した結果、音声区間検出装置として特許文献3の発明が提案されている。特許文献3の音声区間検出装置は、話者の音声波と口唇画像情報を音声認識のための情報源にするものである。 As a result of investigating the prior art, the invention of Patent Document 3 has been proposed as a speech segment detection device. The speech section detection apparatus of Patent Document 3 uses a speaker's speech wave and lip image information as an information source for speech recognition.
従来の音声認識技術は、背景雑音の存在する環境において、認識性能が著しく低下するという問題を抱えていた。
この問題の解決手法の一つとして、前処理として音声区間検出をもつ音声認識手法が提案されている。音声区間検出は、非音声区間での誤認識の抑制に有効であるという利点があり、広く用いられている。ところが、音声区間検出それ自体も、雑音による検出性能の低下は避けられないという課題を抱えている。音声信号に依存する限り、この問題を解決することは困難である。
The conventional speech recognition technology has a problem that the recognition performance is remarkably deteriorated in an environment where background noise exists.
As one of solutions to this problem, a speech recognition method having speech section detection as preprocessing has been proposed. Voice segment detection has the advantage of being effective in suppressing misrecognition in non-speech segments and is widely used. However, the speech section detection itself has a problem that the detection performance is inevitably lowered by noise. So long as it depends on the audio signal, this problem is difficult to solve.
音声認識の性能低下を抑制する手法として、マルチモーダル音声認識がある。マルチモーダル音声認識では、音声信号に加え、音響雑音の影響を受けない画像情報をあわせて用いるため、認識性能の低下を抑制することが可能である。 There is multimodal speech recognition as a technique for suppressing the performance degradation of speech recognition. In multimodal speech recognition, in addition to speech signals, image information that is not affected by acoustic noise is used together, so that degradation in recognition performance can be suppressed.
その一方、マルチモーダル音声認識においても、雑音が重畳した音声信号の影響により、非音声区間における誤認識の問題は依然として残り、この対処が課題となっていた。加えて、認識性能の改善には音声信号から得られる情報と画像情報から得られる情報を効果的に利用することが肝要であるが、従来のマルチモーダル音声認識の枠組みでは十分でないことも問題であった。 On the other hand, in multimodal speech recognition, the problem of misrecognition in the non-speech section still remains due to the influence of the speech signal on which noise is superimposed, and this countermeasure has been a problem. In addition, it is important to effectively use information obtained from speech signals and information obtained from image information in order to improve recognition performance. However, the conventional multimodal speech recognition framework is not sufficient. there were.
なお、特許文献3の音声区間検出装置は、単に音声波と口唇画像情報を音声認識のための情報源として組み合わせたことのみしか提案されておらず、この構成のみでは、音響雑音の影響を抑制して、音声区間検出の精度の向上を望むことは期待できない。 Note that the speech section detection device of Patent Document 3 has only been proposed only by combining speech waves and lip image information as information sources for speech recognition, and this configuration alone suppresses the influence of acoustic noise. Thus, it cannot be expected to improve the accuracy of voice segment detection.
本発明の目的は、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供することにある。 An object of the present invention is to provide a speech segment detection device capable of suppressing the influence of acoustic noise in speech segment detection by multimodal speech segment detection that uses speech information and image information comprehensively.
本発明の他の目的は、音声信号と口唇動画像信号を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能な利点を備えつつ、前処理として音声区間検出装置を備えることで、非音声区間での誤認識を抑制できる音声認識装置を提供することにある。 Another object of the present invention is to provide a voice section detection device as a pre-process while having the advantages of conventional multi-modal voice recognition using voice signals and lip moving image signals that enables robust voice recognition even under noise. Thus, an object of the present invention is to provide a speech recognition apparatus that can suppress erroneous recognition in a non-speech section.
又、本発明の他の目的は、コンピュータを、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置とすることができるプログラムを提供することにある。 Another object of the present invention is to provide a speech section detection apparatus that can suppress the influence of acoustic noise in speech section detection by multimodal speech section detection that uses speech information and image information in a comprehensive manner. It is to provide a program that can.
本発明の他の目的は、コンピュータを、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置とすることができるプログラムを記憶した記録媒体を提供することにある。 Another object of the present invention is to provide a computer as a speech segment detection device that can suppress the influence of acoustic noise in speech segment detection by multimodal speech segment detection that uses speech information and image information comprehensively. An object of the present invention is to provide a recording medium storing a program that can be recorded.
上記目的を達成するために、請求項1に記載の発明は、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段を備えた音声区間検出装置において、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とする音声区間検出装置を要旨とするものである。 In order to achieve the above object, according to the first aspect of the present invention, there is provided a voice input means for inputting a voice signal of a speaker and converting it into a digital signal, a lip moving image of the speaker, and a still image. Image input means for converting into time series (hereinafter referred to as image frames), acoustic feature quantity extracting means for extracting acoustic feature quantities for voice segment detection from a digitized voice signal output by the voice input means, and Image feature amount extraction means for extracting an image feature amount for speech section detection from an image frame, and speech section determination for performing speech section determination based on the acoustic feature amount for speech section detection and the image feature amount for speech section detection In the speech section detection device including the means, the speech section determination means generates an acoustic image feature amount that is a combination of the acoustic feature amount and the image feature amount, and based on the acoustic image feature amount, First determination means for determining voice section, second determination means for determining speech section using only the acoustic feature amount, third determination means for determining speech section using only the image feature amount, The determination result of at least the first and fourth determination means among the fourth determination means for determining the voice section by integrating the determinations of the second determination means and the third determination means, and the first to fourth determination means. The gist of the present invention is a speech segment detection device including a fifth determination means for performing speech segment determination in an integrated manner based on the majority rule.
請求項2の発明は、請求項1において、前記音響特徴量抽出手段、及び画像特徴量抽出手段は、モデルベース及び非モデルベースの手法により、音響特徴量及び画像特徴量をそれぞれ抽出し、前記第1乃至第4判定手段は、前記モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行うことを特徴とする。 According to a second aspect of the present invention, in the first aspect, the acoustic feature amount extraction unit and the image feature amount extraction unit respectively extract the acoustic feature amount and the image feature amount by a model-based and non-model-based method, and The first to fourth determination means determine a speech section based on feature amounts extracted by the model-based and non-model-based methods.
請求項3の発明は、請求項1又は請求項2に記載の音声区間検出装置が判定した音声区間の判定に基づいて前記音声入力手段が出力した音声信号の音声区間を切り出し、切り出した音声区間内の音声信号から音声認識用の音響特徴量を算出する音響特徴量算出手段と、前記音声区間検出装置が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量算出手段と、前記音声認識用の音響特徴量及び前記音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する特徴量生成手段と、生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識手段を備えたことを特徴とする音声認識装置を要旨とするものである。 According to a third aspect of the present invention, the voice section of the voice signal output by the voice input means is cut out based on the judgment of the voice section determined by the voice section detection device according to the first or second aspect, and the voice section is cut out. An acoustic feature amount calculating means for calculating an acoustic feature amount for speech recognition from a speech signal in the image, and an image feature amount for calculating an image feature amount for speech recognition from an image frame in the speech section determined by the speech section detecting device. Calculation means; feature quantity generating means for generating an acoustic image feature quantity for speech recognition using the acoustic feature quantity for speech recognition and the image feature quantity for speech recognition; and the generated acoustic sound for speech recognition The gist of the present invention is a speech recognition apparatus including multimodal speech recognition means for performing speech recognition based on image feature amounts.
請求項4の発明は、コンピュータに、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムであって、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするプログラムを要旨とするものである。 According to a fourth aspect of the present invention, a voice input means for inputting a speech signal of a speaker and converting it into a digital signal and a lip moving image of the speaker are input to a computer, and a still image time series (hereinafter referred to as an image frame) is input. An image input means for converting to the above, an acoustic feature quantity extracting means for extracting an acoustic feature quantity for voice section detection from a digitized voice signal output from the voice input means, and a voice section detection means from the image frame. Image feature amount extraction means for extracting the image feature amount, and voice segment determination means for performing voice segment determination based on the acoustic feature amount for voice segment detection and the image feature amount for voice segment detection. In the program, the speech section determination unit generates an acoustic image feature amount that is a combination of the acoustic feature amount and the image feature amount, and determines the speech section based on the acoustic image feature amount. First determination means that performs determination of a speech section using only the acoustic feature amount, third determination means that performs speech section determination using only the image feature amount, and second determination Among the fourth determination means for determining the speech section by integrating the determination of the means and the third determination means, and the decision result of at least the first and fourth determination means among the first to fourth determination means. The gist of the program is characterized in that it includes fifth determination means for determining a voice section by integrating them.
請求項5は、コンピュータに、発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムを記憶したコンピュータ読取り可能な記録媒体であって、前記音声区間判定手段は、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするコンピュータ読取り可能な記録媒体を要旨とするものである。 According to a fifth aspect of the present invention, a voice input means for inputting a voice signal of a speaker into a computer and converting it into a digital signal, and a lip moving image of the speaker are input, and a still image time series (hereinafter referred to as an image frame). An image input means for converting to sound, an acoustic feature quantity extracting means for extracting an acoustic feature quantity for voice section detection from a digitized voice signal output from the voice input means, and an image for voice section detection from the image frame. A program for functioning as an image feature amount extracting means for extracting a feature amount, and an audio section determining means for performing speech section determination based on the acoustic feature amount for detecting the speech section and the image feature amount for detecting the speech section. A computer-readable recording medium stored, wherein the speech section determination unit generates an acoustic image feature amount that is a combination of the acoustic feature amount and the image feature amount, and First determination means for determining a speech section based on a reverberation image feature amount, second determination means for determining a speech section using only the acoustic feature amount, and determination of a speech section using only the image feature amount At least a first determination unit, a fourth determination unit that determines a speech section by integrating the determinations of the third determination unit, the second determination unit, and the third determination unit. The gist of the present invention is a computer-readable recording medium characterized by including fifth determination means for determining the speech section by integrating the determination results of the fourth determination means by the majority rule.
請求項1の発明によれば、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供できる。すなわち、請求項1の発明によれば、音声信号のみならず、口唇動画像を用いることにより、音声区間検出における音響雑音の影響を抑制することができ、雑音環境下でも高い精度で音声区間を検出することができる。 According to the first aspect of the present invention, it is possible to provide a speech segment detection device capable of suppressing the influence of acoustic noise in speech segment detection by multimodal speech segment detection that uses speech information and image information comprehensively. That is, according to the first aspect of the present invention, by using not only the audio signal but also the lip moving image, it is possible to suppress the influence of the acoustic noise in the audio segment detection, and the audio segment can be accurately detected even in a noise environment. Can be detected.
請求項2の発明によれば、音響特徴量抽出手段、及び画像特徴量抽出手段は、モデルベース及び非モデルベースの手法により、抽出した音響特徴量及び画像特徴量を用いていることから、モデルベース及び非モデルベースの音響特徴量及び画像特徴量に基づいて、多様な情報に基づいて音声区間を検出でき、雑音環境下でも高い精度で音声区間を検出することができる。 According to the invention of claim 2, since the acoustic feature quantity extraction unit and the image feature quantity extraction unit use the acoustic feature quantity and the image feature quantity extracted by the model-based and non-model-based methods, Based on the base and non-model-based acoustic feature amounts and image feature amounts, speech segments can be detected based on various information, and speech segments can be detected with high accuracy even in a noisy environment.
請求項3の発明によれば、音声認識装置は、音声信号と口唇動画像を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能という利点を備えつつ、前処理を行う音声区間検出装置を備えることにより、非音声区間での誤認識を抑制することができる。この結果、雑音環境下でも高い音声認識性能を発揮できる。 According to the invention of claim 3, the speech recognition apparatus performs preprocessing while having the advantage that the conventional multimodal speech recognition using the speech signal and the lip moving image has the advantage that robust speech recognition is possible even under noise. By including the speech segment detection device, erroneous recognition in a non-speech segment can be suppressed. As a result, high speech recognition performance can be exhibited even in a noisy environment.
請求項4の発明によれば、プログラムを実行することによりコンピュータを請求項1に記載の音声区間検出装置として容易に実現することができる。
請求項5の発明によれば、コンピュータにこの記録媒体を読取りさせることにより、コンピュータを請求項1に記載の音声区間検出装置として容易に実現することができる。
According to invention of Claim 4, a computer can be easily implement | achieved as a speech area detection apparatus of Claim 1 by running a program.
According to the fifth aspect of the present invention, the computer can be easily realized as the voice section detecting device according to the first aspect by causing the computer to read the recording medium.
以下、本発明を具体化した音声区間検出装置、及び音声認識装置の一実施形態を図1〜図8を参照して説明する。
図1に示すように、音声区間検出装置100及び音声認識装置200は、共通のコンピュータ10からなる。該コンピュータ10は、図2に示すように、CPU20、ROM30、RAM40、及びハードディスク等の記憶装置50を備えている。ROM30には、音声区間検出プログラム及び音声認識プログラムが格納されている。コンピュータ10には、マイクロフォン60及び撮像手段70が接続され、発話者の音声及び口唇動画像が入力可能になっている。ROM30は、記録媒体に相当する。なお、音声区間検出プログラムをRAM40に格納している場合は、RAM40が記録媒体に相当する。
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, an embodiment of a speech section detection device and a speech recognition device embodying the present invention will be described with reference to FIGS.
As shown in FIG. 1, the speech
音声区間検出装置100は、前記コンピュータ10により、前記音声区間検出プログラムが実行されると、下記の各部の機能を実現する。すなわち、音声区間検出装置100は、図1に示すように、音声入力部101、音響特徴量抽出部102、画像入力部111、画像特徴量抽出部112、音響画像特徴量生成部121、初期統合型音声区間検出部(以下、第1マルチモーダルVAD部という)131、音声ユニモーダル音声区間検出部(以下、音声ユニモーダルVAD部という)132、画像ユニモーダル音声区間検出部(以下、画像ユニモーダルVAD部という)133、結果統合型音声区間検出部(以下、第2マルチモーダルVAD部という)134及び最終統合型音声区間検出部(以下、第3マルチモーダルVAD部という)135を備えている。なお、VADは、Voice Activity Detection (音声区間検出)の意味である。
When the voice section detection program is executed by the
又、音声認識装置200は、前記コンピュータ10により、前記音声認識プログラムが実行されると、下記の各部の機能を実現する。
すなわち、音声認識装置200は、図1に示すように、音声区間検出補償部201、音声切り出し部301、音声認識用の音響特徴量抽出部302、画像切り出し部311、音声認識用の画像特徴量抽出部312、音声認識用の音響画像特徴量生成部321、及びマルチモーダル音声認識部331を備える。
Further, when the voice recognition program is executed by the
That is, as shown in FIG. 1, the
以下、音声区間検出装置100及び音声認識装置200の作用を説明する。
音声区間検出装置100の音声入力部101は、発話者の音声がマイクロフォン60により電気信号に変換された音声信号(すなわち、アナログ信号)を入力し、該音声信号を標本化定理により原信号が復元できるように標本化を行うとともに、適当な量子化ステップで量子化を行い、ディジタル信号に変換する。音声入力部101は音声入力手段に相当する。
Hereinafter, the operation of the speech
The
音響特徴量抽出部102は、前記ディジタル信号から、音響特徴量を計算(すなわち、抽出)する。例えば、音響特徴量抽出部102は、一定時間長を持つ音声フレームを一定時間毎に抽出し、抽出したフレーム毎に、音声信号の対数パワー及びメル尺度ケプストラム係数(Mel-Frequency Cepstrum Coefficient、MFCC)を求め、対数パワー及びメル尺度ケプストラム係数の、それぞれについて一次微分係数、二次微分係数を算出する。なお、音声フレームには、フレーム番号(ID)が付与される。
The acoustic feature
ここで、本実施形態では、音響特徴量抽出部102が算出した音響特徴量のうちいずれか、又は複数を音声区間検出用の音響特徴量として使用する。
すなわち、音響特徴量抽出部102は、後述するモデルベースの手法及び非モデルベースの手法に使用される音響特徴量を算出する。
Here, in the present embodiment, one or more of the acoustic feature amounts calculated by the acoustic feature
That is, the acoustic feature
なお、非モデルベースの手法では、対数パワーのみが使用される。モデルベースの手法では、上記した全ての音響特徴量が使用される。すなわち、本実施形態のモデルベースの手法では、音響特徴量は、MFCC12次元及び対数パワー、並びに、MFCC12次元と対数パワーの動的特徴を示す一次微分係数、二次微分係数の計39次元が用いられる。音響特徴量抽出部102は、音声区間検出用の音響特徴量抽出手段に相当する。
Note that in the non-model based approach, only logarithmic power is used. In the model-based method, all the acoustic feature values described above are used. That is, in the model-based method of the present embodiment, the acoustic feature amount is 39 dimensions of MFCC 12 dimensions and logarithmic power, and primary and secondary differential coefficients indicating dynamic characteristics of MFCC 12 dimensions and logarithmic power. It is done. The acoustic feature
画像入力部111は、ビデオカメラ、或いはWEBカメラ等の動画像を撮像する撮像手段70を使用して発話者の口唇動画像を入力し、該口唇動画像を適切なフレームレート、及び適切な幅、高さを有した静止画像時系列に変換する。以下、この静止画像を画像フレームという。画像フレームは、W(横画素数)×H(縦画素数)からなる。画像入力部111は、画像入力手段に相当する。
The
画像特徴量抽出部112は、ある時点での画像フレームと、それよりも一つ前の画像フレームを用いて、図3に示すように、オプティカルフロー(Optical Flow)を計算する。オプティカルフローは、画像フレーム上の各画素の動きベクトルのことである。しかる後に、画像特徴量抽出部112は、画像フレーム全体におけるオプティカルフローの縦方向成分及び横方向成分の平均及び分散を計算する。
The image feature
ここで、下記は、縦方向成分及び横方向成分の平均及び分散の算出例である。 Here, the following is an example of calculating the average and variance of the vertical component and the horizontal component.
すなわち、画像特徴量抽出部112は、画像フレーム全体から、オプティカルフローの平均、及び分散を縦横それぞれ2次元ずつ合わせて4次元の画像特徴量を求める。
オプティカルフローでは、発話者が発話するときは、口が動くことで、フローベクトルが発生し、画像領域内の平均値が大きくなる。又、口が動くことでフローベクトルの発生の有無が生じ、フローベクトルの分散値が大きくなるため、それらを画像特徴量として求めるのである。
That is, the image feature
In the optical flow, when the speaker speaks, the mouth moves to generate a flow vector, and the average value in the image area increases. In addition, the presence or absence of a flow vector occurs due to the movement of the mouth, and the variance value of the flow vector becomes large. Therefore, they are obtained as image feature amounts.
後述するモデルベースの手法、及び非モデルベースの手法では、それぞれ、上記で得られた画像特徴量のうち、いずれか1つ、又は複数を音声区間検出用の画像特徴量として選択して採用される。 In the model-based method and the non-model-based method, which will be described later, one or more of the image feature values obtained above are selected and used as the image feature values for speech section detection. The
例えば、モデルベースの手法では、上記の全ての画像特徴量が使用される。又、非モデルベースの手法では、縦方向の分散が使用される。これは、発話者の口が動いていない場合には、絶対値の小さいオプティカルフローのみが観測されるため、分散値は小さくなり、口が動いている場合は、頬などの動きが小さい箇所と口唇など動きの大きい箇所が混在するため分散値が大きくなることを利用している。画像特徴量抽出部112は、音声区間検出用の画像特徴量抽出手段に相当する。
For example, in the model-based method, all the image feature amounts described above are used. Also, in the non-model based approach, longitudinal dispersion is used. This is because, when the speaker's mouth is not moving, only the optical flow with a small absolute value is observed, so the variance value is small, and when the mouth is moving, the movement of the cheek etc. is small. It uses the fact that the variance value is large because of the presence of large movements such as the lips. The image feature
音響画像特徴量生成部121は、音響特徴量抽出部102で得られた音響特徴量と、該音響特徴量のフレーム番号に対応して画像特徴量抽出部112で得られた画像特徴量を単純に連結して、音声区間検出用の音響画像特徴量を生成(すなわち、統合)する。音響特徴量と画像特徴量は、図4に示すようにフレームレートが異なることがある。この場合、音響画像特徴量生成部121は、フレームレートの調整(すなわち、フレームレート調整処理)を行う。例えば、音響画像特徴量生成部121は、より低いフレームレートをもつ特徴量に対しては、時間方向に3次元スプライン関数を用いて補間を行うことにより、低いフレームレートをもつ特徴量のフレームレートを上げ、他方の特徴量の高いフレームレートと合わせるフレームレートの調整を行う。調整されたフレームには、音響特徴量抽出部102で付与されたフレーム番号(ID)と同期するように、すなわち、一致するように付与される。
The acoustic image feature
図4の例では、音響画像特徴量生成部121は、フレームレートが30Hzの画像特徴量を、3次元スプライン関数で補間することにより、フレームレートが100Hzの画像特徴量にし、その後、フレームレートが100Hzの音響特徴量と連結することにより、フレームレートが100Hzの音響画像特徴量を生成している。
In the example of FIG. 4, the acoustic image feature
第1マルチモーダルVAD部131は、音響画像特徴量生成部121で得られた音響画像特徴量を用いて、モデルベースの手法及び非モデルベースの手法をそれぞれ実行し、初期統合による音声区間検出を行う。
The first
具体的には、第1マルチモーダルVAD部131は、モデルベースの手法の場合、隠れマルコフモデルの一種であるマルチストリームHMMを予め作成しておき、ビタビアルゴリズムによる前記音響画像特徴量と前記隠れマルコフモデル(マルチストリームHMM)とのマッチングを行い、最も類似度の高いと判定された音声区間・非音声区間の時系列を結果として出力する。なお、前記マルチストリームHMMは、記憶装置50に予め記憶されている。
Specifically, in the case of the model-based method, the first
ここで、音声区間・非音声区間の時系列、すなわち、順番に並んだフレームのうち、前記音声区間と判定された各フレームが、音声区間候補となる。
出力例を、図5に示す。
Here, among the time series of the voice segment and the non-voice segment, that is, among the frames arranged in order, each frame determined to be the voice segment is a voice segment candidate.
An output example is shown in FIG.
図5において、α,βは、音響画像特徴量のフレーム番号(ID)を示している。例えば、「0」は非音声区間(non−speech)の開始フレーム番号を示し、「44」は、当該非音声区間(non−speech)の終了フレーム番号である。又、図5において、「45」は、音声区間(speech)の開始フレーム番号を示し、「60」は、当該音声区間(speech)の終了フレーム番号である。ここで、「45」〜「60」が音声区間候補である。以下、同様である。 In FIG. 5, α and β indicate frame numbers (IDs) of acoustic image feature values. For example, “0” indicates the start frame number of the non-speech section (non-speech), and “44” is the end frame number of the non-speech section (non-speech). In FIG. 5, “45” indicates the start frame number of the speech section (speech), and “60” is the end frame number of the speech section (speech). Here, “45” to “60” are speech segment candidates. The same applies hereinafter.
なお、前記マルチストリームHMMは、画像と音響からそれぞれ抽出した前述の各種の特徴量を用いて、音声と非音声のそれぞれのHMMを教師有り学習をさせたものである。本実施形態では、マルチストリームHMMは、音声状態のHMM(音声HMM)、非音声状態のHMM(非音声HMM)間を交互に遷移する状態遷移モデルを構成する。そして、第1マルチモーダルVAD部131は、前記音響画像特徴量と、上記音声HMMと非音声HMMのマッチングを行い、上記音声HMMと非音声HMMのそれぞれの対数尤度によって音声/非音声状態の識別を行う。
The multi-stream HMM is obtained by supervised learning of each of the speech and non-speech HMMs using the above-described various feature amounts extracted from the image and the sound. In the present embodiment, the multi-stream HMM constitutes a state transition model in which transition is alternately performed between a voice state HMM (voice HMM) and a non-voice state HMM (non-voice HMM). Then, the first
本実施形態では、初期統合において、マルチストリームHMMを用いた場合、下記のようにストリーム重みを調整できる。このため、いずれか一方の特徴量の性能が悪くても、ストリーム重みを調整することにより、もう一方の特徴量でカバーして補うことができる。 In the present embodiment, when a multi-stream HMM is used in the initial integration, the stream weight can be adjusted as follows. For this reason, even if the performance of one of the feature quantities is bad, it can be covered and compensated for by the other feature quantity by adjusting the stream weight.
すなわち、マルチストリームHMMの出力対数尤度は式(1)でbAVと表わすことができる。式(1)において、OA ,OV は、それぞれ音響特徴量、画像特徴量を表わし、bA(OA ),bV (OV )はそれぞれに対応した対数尤度を表わしている。 That is, the output log likelihood of the multi-stream HMM can be expressed as b AV in equation (1). In Equation (1), O A and O V represent acoustic feature amounts and image feature amounts, respectively, and b A (O A ) and b V (O V ) represent log likelihoods corresponding to the respective features.
bAV=λA bA (OA )+λV bV (OV )………(1)
ここで、λA ,λV はそれぞれ音響特徴量、画像特徴量のストリーム重みを表わし、式(2)の関係を持つ。
b AV = λ A b A (O A ) + λ V b V (O V ) (1)
Here, λ A and λ V represent stream weights of the acoustic feature amount and the image feature amount, respectively, and have the relationship of Expression (2).
λA +λV =1 (0≦λA、λV ≦1) ………(2)
一方、非モデルベースの手法では、第1マルチモーダルVAD部131は、音響特徴量と画像特徴量を線形結合によりスコアに変換し、閾値処理(すなわち、閾値以上の値をもつものを選択(以下、同じ。))することにより、音声区間・非音声区間の時系列結果を出力する。前記線形結合の処理は、音声と画像の重み付けを行うパラメータを乗算して線形結合する。
λ A + λ V = 1 (0 ≦ λ A , λ V ≦ 1) (2)
On the other hand, in the non-model-based method, the first
モデルベースの手法、非モデルベースの手法のいずれにおいても、音声と画像の重み付けを行うパラメータ(すなわち、前記λA ,λV、及び前記線形結合に使用するパラメータ)があり、これらは、予め試験により、最も識別結果が良好となるように設定するものとする、又は、各モダリティの雑音状況などに応じて前記パラメータを設定するものとする。 In both the model-based method and the non-model-based method, there are parameters for weighting speech and images (that is, the parameters used for the λ A , λ V , and the linear combination), which are tested in advance. Thus, the parameter is set so that the identification result is the best, or the parameter is set according to the noise status of each modality.
音響画像特徴量生成部121、第1マルチモーダルVAD部131は、第1判定手段に相当する。
音声ユニモーダルVAD部132は、音響特徴量抽出部102で抽出した音響特徴量のみの情報に基づき、モデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。音声ユニモーダルVAD部132は、第2判定手段に相当する。
The acoustic image feature
The voice
すなわち、音声ユニモーダルVAD部132は、モデルベースの手法では、予め作成されて、記憶装置50に記憶したHMMを用いたり、或いは混合正規分布(Gaussian Mixture Model 、GMM)を用いて、HMMと音響特徴量とのマッチングを行い、或いは、GMMと音響特徴量とのマッチングを行うことにより、音響特徴量のみの情報に基づいて、音声区間候補を出力する。
That is, the voice
音声ユニモーダルVAD部132は非モデルベースの手法では、対数パワー(音響特徴量)から、公知の方法で音響スコアを計算して、閾値処理することにより、音声区間候補を出力する。
In the non-model-based method, the speech
音声ユニモーダルVAD部132は、前記音声区間候補を出力する際、該音声区間候補の開始フレーム番号及び終了フレーム番号、並びに、その音声区間候補の確からしさとして信頼度スコアを合わせて出力する。モデルベースの手法における信頼度スコアの算出例については後述する。
When the speech
非モデルベースの手法では、前記音響スコアを挙げることができる。音響スコアが高いほど、音声区間としての信頼度が高いことを意味する。すなわち、非モデルベースの手法では、各フレーム毎に、対数パワーの値を、音響スコアとし、得られた音響スコア(信頼度スコア)をモデルベースのときと同様に利用する。 Non-model-based techniques can include the acoustic score. It means that the higher the acoustic score, the higher the reliability as a speech section. That is, in the non-model-based method, the logarithmic power value is used as the acoustic score for each frame, and the obtained acoustic score (reliability score) is used in the same manner as in the model-based method.
画像ユニモーダルVAD部133は、画像特徴量抽出部112で抽出した画像特徴量のみの情報に基づき、モデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。画像ユニモーダルVAD部133は、第3判定手段に相当する。
The image
すなわち、画像ユニモーダルVAD部133は、モデルベースの手法では、予め作成されて、記憶装置50に記憶したHMMを用いたり、或いは混合正規分布(Gaussian Mixture Model 、GMM)を用いて、HMMと画像特徴量とのマッチングを行い、或いは、GMMと画像特徴量とのマッチングを行うことにより、画像特徴量のみの情報に基づいて、音声区間候補(音声区間候補の開始フレーム番号及び終了フレーム番号、以下、同じ。)を出力し、信頼度スコアを付与する。
That is, in the model-based method, the image
又、画像ユニモーダルVAD部133は、非モデルベースの手法では、画像特徴量(縦方向の分散)を閾値処理することにより、画像情報における音声区間候補を判定し、該音声区間候補を出力し、信頼度スコアを付与する。
Further, in the non-model based method, the image
前記信頼度スコアは、音声区間候補の確からしさを表わす。モデルベースの手法における信頼度スコアの算出例については後述する。
なお、前述したように、音響特徴量と画像特徴量は、フレームレートが異なることがある。この場合、画像ユニモーダルVAD部133は、音響画像特徴量生成部121と同様に画像のフレームレートの調整(すなわち、フレームレート調整処理)を行う。例えば、画像ユニモーダルVAD部133は、より低いフレームレートをもつ画像特徴量に対しては、時間方向に3次元スプライン関数を用いて補間を行うことにより、低いフレームレートをもつ特徴量のフレームレートを上げ、他方の音響特徴量の高いフレームレートと合わせることにより、フレームレートの調整を行った後、前述のモデルベースの手法、及び非モデルベースの手法でそれぞれ音声区間検出を行う。
The reliability score represents the likelihood of a speech segment candidate. A calculation example of the reliability score in the model-based method will be described later.
As described above, the frame rate may be different between the acoustic feature quantity and the image feature quantity. In this case, the image
次に、第2マルチモーダルVAD部134の統合処理について説明する。
第2マルチモーダルVAD部134における音声区間検出の処理は、信頼度スコアを使用する場合、信頼度スコアを使用しないで、論理演算を使用する場合、或いは、両方をともに行う場合がある。
Next, the integration process of the second
The speech section detection processing in the second
本実施形態の第2マルチモーダルVAD部134では、両方を行って、それぞれの場合における音声区間候補を出力する。第2マルチモーダルVAD部134は、第4判定手段に相当する。
In the second
(信頼度スコアの算出例)
ここで、モデルベースの手法における信頼度スコアの算出例について説明する。
前記音声ユニモーダルVAD部132では、非音声モデルが出力するフレームtにおける対数尤度La(t)の値又はその傾きに定数を乗じた値を、音声信頼度スコアCa(t)として出力する。
(Reliability score calculation example)
Here, a calculation example of the reliability score in the model-based method will be described.
The speech
又、同様に、画像ユニモーダルVAD部133では、非音声モデルが出力するフレーム毎の対数尤度Lv(t)の値又はその傾きに定数を乗じた値を、画像信頼度スコアCv(t)として出力する。
Similarly, in the image
これらの信頼度スコアは、正の値を持つ場合は、非音声区間としての信頼性が高く、負の値をもつ場合は、非音声区間としての信頼性が低いことを意味する。
これらの信頼度スコアは、正の値を持つ場合は、音声区間としての信頼性が高く、負の値をもつ場合は、音声区間としての信頼性が低いことを意味する。
When the reliability score has a positive value, it means that the reliability as a non-speech interval is high, and when the reliability score has a negative value, it means that the reliability as a non-speech interval is low.
When the reliability score has a positive value, it means that the reliability as a speech section is high, and when it has a negative value, it means that the reliability as a speech section is low.
次に、第2マルチモーダルVAD部134の統合処理について説明する。
(信頼度スコアを使用する場合)
第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133で得られた音声区間候補に対して、前記信頼度スコアに基づいて、これらを統合して、音声区間結果を出力する。
Next, the integration process of the second
(When using confidence score)
The second
第2マルチモーダルVAD部134は、例えば、音声、画像の信頼度スコアをそれぞれ正規化した後に、正規化した各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力する。なお、重みパラメータは、各モダリティの雑音状況などに応じて予め設定されている。
The second
下記は信頼度スコアC(t)の算出例である。
C(t)=Ca(t)+λCv(t)
λは、スケーリング係数(重みパラメータ)である。Ca(t)は正規化した音声信頼度スコア、Cv(t)は、正規化した画像信頼度スコアである。
The following is a calculation example of the reliability score C (t).
C (t) = C a (t) + λC v (t)
λ is a scaling coefficient (weight parameter). Ca (t) is a normalized voice reliability score, and C v (t) is a normalized image reliability score.
ここで、第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132が出力する音声区間候補と、画像ユニモーダルVAD部133が出力する音声区間候補の、少なくとも、一方を音声区間と判定したとき、C(t)が正の値をもつ場合は、そのまま音声区間候補として出力し、C(t)が負の値をもつ場合は、非音声区間候補として出力する。
Here, when the second
(信頼度スコアを使用しない場合)
第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間候補に対して、フレーム毎に論理演算を用いたAND統合と、OR統合を行う。
(When not using confidence score)
The second
モデルベースの手法で得られた音声区間候補に対するAND統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間検出の結果がともに音声区間であるフレームのみ、音声区間とする統合である。
In the AND integration for the speech segment candidates obtained by the model-based method, the speech
モデルベースの手法で得られた音声区間候補に対するOR統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれモデルベースの手法で得られた音声区間検出の結果のいずれか一方が音声区間であるフレームを、音声区間とする統合である。
In the OR integration for the speech segment candidates obtained by the model-based method, either of the speech segment detection results obtained by the model-based method in the speech
さらに、第2マルチモーダルVAD部134は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間候補に対して、論理演算に従ってAND統合と、OR統合を行う。すなわち、非モデルベースの手法で得られた音声区間候補に対するAND統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間検出の結果がともに音声区間であるフレームのみ、音声区間とする統合である。又、非モデルベースの手法で得られた音声区間候補に対するOR統合は、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133において、それぞれ非モデルベースの手法で得られた音声区間検出の結果のいずれか一方が音声区間であるフレームを、音声区間とする統合である。
Further, the second
第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補、並びに第2マルチモーダルVAD部134で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補を使用して、音声区間結果を最終的に統合処理する。
The third
この統合処理は、図6に示すように、音声区間候補のある時刻フレーム(すなわち、フレーム番号)が音声区間か否かを、それぞれの音声区間検出結果、すなわち、入力された第3マルチモーダルVAD部135に入力された全ての音声区間候補の多寡(多数決)により決定する処理(すなわち、多数決原理)である。 As shown in FIG. 6, this integration process determines whether or not a time frame (that is, a frame number) having a speech segment candidate is a speech segment, and determines each speech segment detection result, that is, the input third multimodal VAD. This is a process (namely, the principle of majority voting) determined by the number of all voice segment candidates input to the unit 135 (majority voting).
このようにして、第3マルチモーダルVAD部135では、多数決により決定された音声区間を音声認識装置200に出力する。
このように、初期統合型マルチモーダル音声区間検出と、結果統合型音声区間マルチモーダル音声区間検出のそれぞれが検出した音声区間候補を多数決原理で最終的に、第3マルチモーダルVAD部135により音声区間候補と決定することにより、音声区間検出における音響雑音の影響を抑制することができる。
In this way, the third
As described above, the third
第3マルチモーダルVAD部135は、第5判定手段に相当する。又、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、第2マルチモーダルVAD部134及び第3マルチモーダルVAD部135は、音声区間判定手段に相当する。
The third
音声区間検出補償部201は、第3マルチモーダルVAD部135により決定された音声区間に対して、音声認識の向上に特化した音声区間検出の識別誤りを補償する処理を行う。具体的には、図7に示すように、音声区間に挟まれた一定時間(閾値)に満たない非音声区間aがある場合、音声区間検出補償部201は、この非音声区間aを識別誤りであると判定して、この非音声区間を音声区間に組み入れる。
The speech segment detection /
音声切り出し部301は、音声区間検出補償部201で修正された音声区間検出の結果に基づいて、音声区間とラベル付けされた時間区間に対応する音声信号のみを切り出し、切り出した音声信号を音響特徴量抽出部302に出力する。
The
音響特徴量抽出部302は、音声切り出し部301で切り出された区間に対し、音声認識に供する音響特徴量を計算する。すなわち、音響画像特徴量のフレーム毎に対数パワーとMFCC、それらの一次微分係数、二次微分係数を計算する。音響特徴量抽出部302は、音響特徴量算出手段に相当する。
The acoustic feature
画像切り出し部311は、音声切り出し部301と同様に、音声区間検出補償部201から得られる音声区間に対応する画像フレームを画像特徴量抽出部312に出力する。
画像特徴量抽出部312は、画像切り出し部311から得られる画像フレームを用いて音声認識に供する画像特徴量を抽出する。画像特徴量抽出部312は、画像特徴量算出手段に相当する。
Similar to the
The image feature
具体的には、画像特徴量抽出部312は、まず、画像フレーム内の口唇の同定を行い、口唇の形状情報として、口唇の幅と高さ、及び検出された歯の画素数による情報を公知の技術により算出する。
Specifically, the image feature
次に、画像特徴量抽出部312は、動き情報として、オプティカルフローを計算し、口唇の周辺に設定した複数の窓(例えば、図8に示す領域A,B,C)におけるオプティカルフローベクトルの水平・垂直成分の平均値を求め、これらの平均値に基づいて式(3)、式(4)に示すように2種類のパラメータm1,m2を計算する。
Next, the image feature
なお、ここで説明した画像特徴量抽出の方法は例示であり、他の公知の方法で行ってもよい。
音響画像特徴量生成部321は、音響特徴量抽出部302で得られた音響特徴量と画像特徴量抽出部312で得られた画像特徴量を単純に連結(線形結合)して、音声認識用の音響画像特徴量を生成する。音響画像特徴量生成部321は、特徴量生成手段に相当する。
Note that the image feature extraction method described here is an example, and other known methods may be used.
The acoustic image feature quantity generation unit 321 simply connects (linearly combines) the acoustic feature quantity obtained by the acoustic feature
なお、音響画像特徴量と、画像特徴量のフレームレートが異なる場合には、連結前に、音響画像特徴量生成部121と同様に、フレームレート調整処理を、音響画像特徴量生成部321は行う。
If the frame rate of the acoustic image feature amount and the image feature amount are different, the acoustic image feature amount generation unit 321 performs the frame rate adjustment process, similar to the acoustic image feature
マルチモーダル音声認識部331は、音響画像特徴量生成部321で生成された音響画像特徴量を用いて音声認識を行う。モデルにマルチストリームHMMを使用し、ビタビアルゴリズムで特徴量とモデルとのマッチングを行い、最も類似度の高い単語仮説候補を認識結果として出力する。このとき、マルチストリームHMM内のパラメータであるストリーム重み係数は予め適切に設定しておくものとする。又、前記モデルであるマルチストリームHMMは、記憶装置50に予め記憶されている。
The multimodal
さて、上記の音声区間検出装置100、音声認識装置200、音声区間検出プログラム、及びROM30は、下記の特徴がある。
(1) 本実施形態の音声区間検出装置100は、音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131(第1判定手段)と、音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132(第2判定手段)と、画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133(第3判定手段)と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134(第4判定手段)と、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135(第5判定手段)を備えている。この結果、音声区間検出装置100は、第3マルチモーダルVAD部135において、音声情報と画像情報を総合的に用いて、多数決原理によるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる。すなわち、本実施形態の音声区間検出装置100は、音声信号のみならず、口唇動画像を用いることにより、音声区間検出における音響雑音の影響を抑制することができ、雑音環境下でも高い精度で音声区間を検出することができる。
Now, the above-described speech
(1) The speech
(2) 本実施形態の音声区間検出装置100では、音響特徴量抽出部102(音響特徴量抽出手段)、及び画像特徴量抽出部112(画像特徴量抽出手段)は、モデルベース及び非モデルベースの手法により、音響特徴量及び画像特徴量をそれぞれ抽出する。又、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、及び第2マルチモーダルVAD部134は、モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行う。
(2) In the speech
この結果、音響特徴量抽出部102(音響特徴量抽出手段)、及び画像特徴量抽出部112(画像特徴量抽出手段)は、モデルベース及び非モデルベースの手法により、抽出した音響特徴量及び画像特徴量を用いていることから、モデルベース及び非モデルベースの音響特徴量及び画像特徴量に基づいて、多様な情報に基づいて音声区間を検出でき、雑音環境下でも高い精度で音声区間を検出することができる。 As a result, the acoustic feature quantity extraction unit 102 (acoustic feature quantity extraction unit) and the image feature quantity extraction unit 112 (image feature quantity extraction unit) extract the acoustic feature quantity and image extracted by the model-based and non-model-based methods. Since feature values are used, voice segments can be detected based on various information based on model-based and non-model-based acoustic features and image features, and voice segments can be detected with high accuracy even in noisy environments. can do.
(3) 本実施形態の音声認識装置200は、音声区間検出装置100が判定した音声区間の判定に基づいて音声入力部101(音声入力手段)が出力した音声信号の音声区間を切り出し、切り出した音声区間内の音声信号から音声認識用の音響特徴量を算出する音響特徴量抽出部302(音響特徴量算出手段)と、音声区間検出装置100が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量抽出部312(画像特徴量算出手段)と、音声認識用の音響特徴量及び音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する音響画像特徴量生成部321(特徴量生成手段)と、生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識部331(マルチモーダル音声認識手段)を備える。この結果、本実施形態の音声認識装置200は、音声信号と口唇動画像を用いる従来のマルチモーダル音声認識が有する、雑音下でも頑健な音声認識が可能という利点を備えつつ、前処理を行う音声区間検出装置を備えることにより、非音声区間での誤認識を抑制することができる。この結果、雑音環境下でも高い音声認識性能を発揮できる。
(3) The
(4) 本実施形態の音声区間検出プログラムは、コンピュータ10に、発話者の音声信号を入力して、ディジタル信号に変換する音声入力部101(音声入力手段)と、発話者の口唇動画像を入力し、画像フレームに変換する画像入力部111(画像入力手段)として機能させる。又、前記プログラムは、コンピュータ10に、音声入力部101が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出部102(音響特徴量抽出手段)と、画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出部112(画像特徴量抽出手段)と、音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させる。
(4) The voice segment detection program of the present embodiment inputs a voice signal of a speaker into the
さらに、前記プログラムは、コンピュータ10に、音声区間判定手段として機能する際に、前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131(第1判定手段)と、前記音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132(第2判定手段)と、前記画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133(第3判定手段)と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134(第4判定手段)と、第1マルチモーダルVAD部131、及び第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135(第5判定手段)として機能させる。
Furthermore, the program generates an acoustic image feature amount that is a combination of the acoustic feature amount and the image feature amount when functioning as a speech interval determination unit in the
この結果、本実施形態の音声区間検出プログラムによれば、本プログラムを実行することによりコンピュータを上記(1)に記載の音声区間検出装置として容易に実現することができる。 As a result, according to the speech segment detection program of the present embodiment, the computer can be easily realized as the speech segment detection apparatus described in (1) above by executing this program.
(5) 本実施形態の記録媒体としてのROM30は、上記(4)に記載の音声区間検出プログラムを記録し、コンピュータ10により読取り可能となっている。この結果、コンピュータ10にこのROM30の記録した音声区間検出プログラムを読取りさせることにより、コンピュータを上記(1)に記載の音声区間検出装置として容易に実現することができる。
(5) The
なお、本発明の実施形態は前記実施形態に限定されるものではなく、前記実施形態を、この発明の趣旨から逸脱しない範囲で変更してもよい。
・ 前記実施形態では、音声区間検出装置100、及び音声認識装置200を単一のコンピュータで構成したが、音声区間検出装置100、及び音声認識装置200をそれぞれ独立したコンピュータで構成してもよい。
In addition, embodiment of this invention is not limited to the said embodiment, You may change the said embodiment in the range which does not deviate from the meaning of this invention.
In the embodiment, the speech
・ 前記実施形態の音声区間検出装置100の音響特徴量抽出部102では、音響特徴量は、MFCC12次元と、対数パワー、及び一次微分係数、二次微分係数の計39次元を使用したが、さらに、BCF(Block Cepstrum Flux)も音響特徴量に加えてもよい。BCFは、一定フレーム毎のケプストラムベクトル間の距離を平均化したものである。音声区間では、スペクトル変動が大きくなり、BCFの値も大きくなるため、区間検出のための音響特徴量として採用できる。
In the acoustic feature
・ なお、前述したように音響特徴量抽出部102で抽出する音響特徴量としてはMFCC)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワーなどが用いられるが、これらの組み合わせで、10〜100次元程度の音響特徴量ベクトルが構成される。代表例としては、前記実施形態で説明した39次元の他に、MFCCの12次元、ΔMFCCの12次元、対数パワーの一次微分係数の1次元を含む25次元のものであってもよい。このように、音響特徴量抽出部102では、種々の音響特徴量を抽出してもよく、前記実施形態の各種音響特徴量に限定されるものではない。
As described above, MFCC), ΔMFCC, ΔΔMFCC, logarithmic power, Δlogarithmic power, and the like are used as the acoustic feature amount extracted by the acoustic feature
・ 前記実施形態の音声区間検出装置100の画像特徴量抽出部112では、非モデルベース手法における画像特徴量は、オプティカルフローの縦方向成分及び横方向成分の平均及び分散のうち、縦方向の分散のみを用いているが、これ以外の上記の他の値のいずれかを用いたり、又は、複数用いたりしてもよい。
In the image feature
・ 前記実施形態では、第2マルチモーダルVAD部134は、音声、画像の信頼度スコアをそれぞれ正規化した後に、正規化した各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力するようにした。これに代えて、第2マルチモーダルVAD部134は、音声、画像の信頼度スコアをそれぞれ正規化することなく各信頼度スコアに重みパラメータλを乗算した上で線形結合し、線形結合した結果が予め設定された閾値を越えた音声区間のみを出力するようにしてもよい。この場合、重みパラメータλの値を適正に設定することにより、前記実施形態と同様の結果が得られる。
In the embodiment, the second
・ 前記実施形態では、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131及び第2マルチモーダルVAD部134で出力された音声区間候補で、最終統合した。これに替えて、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133で出力された音声区間候補を、多数決原理で決定するようにしてもよい。
In the embodiment, the third
・ 前記実施形態の第2マルチモーダルVAD部134における音声区間検出の処理は、信頼度スコアを使用する方法と、信頼度スコアを使用しないで、論理演算を使用する方法をともに行い、音声区間候補をそれぞれの場合において出力するようにした。この方法に代えて、第2マルチモーダルVAD部134における音声区間検出の処理を、信頼度スコアのみを使用したり、或いは、信頼度スコアを使用しないで論理演算のみを使用して、音声区間候補を第3マルチモーダルVAD部135に出力するようにしてもよい。
The speech segment detection processing in the second
この場合、第3マルチモーダルVAD部135では、第2マルチモーダルVAD部134が出力した音声区間候補、第1マルチモーダルVAD部131が出力した音声区間候補を使用して、最終的に多数決原理で音声区間候補を決定する。このようにしても、音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる。
In this case, the third
・ 前記実施形態において、音声ユニモーダルVAD部132が検出した音声区間候補、及び画像ユニモーダルVAD部133が検出した音声区間候補を、第3マルチモーダルVAD部135に入力するようにしてもよい。この場合、第3マルチモーダルVAD部135は、第1マルチモーダルVAD部131、音声ユニモーダルVAD部132、画像ユニモーダルVAD部133、及び第2マルチモーダルVAD部134が検出した音声区間候補を含む音声区間候補の中から第3マルチモーダルVAD部135は、多数決原理で最終的に音声区間候補を出力する。
In the embodiment, the speech segment candidate detected by the speech
・ 前記実施形態の第3マルチモーダルVAD部135では、第1マルチモーダルVAD部131で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補、並びに第2マルチモーダルVAD部134で出力されたモデルベースの音声区間候補及び非モデルベースの音声区間候補を使用している。このとき、第3マルチモーダルVAD部135に入力される、それぞれの音声区間候補は1つでもよいし、複数でもよい。複数の音声区間候補を生成するには、モデルベースでは例えばモデルパラメータを設定したり、非モデルベースでは閾値を変えたりすればよい。
In the third
・ 同様に、前記実施形態の第3マルチモーダルVAD部135において、音声ユニモーダルVAD部132が検出した音声区間候補、及び画像ユニモーダルVAD部133が検出した音声区間候補を入力する場合も、それぞれの音声区間候補は1つでもよいし、複数でもよい。複数の音声区間候補を生成するには、モデルベースでは識別で利用するパラメータを変更したり、非モデルベースでは閾値を変えたりすればよい。
Similarly, in the third
・ 前記音声認識装置200では、音声区間検出補償部201を設けたが、音声区間検出補償部201を省略した音声認識装置としてもよい。
・ 前記実施形態では、前記音声区間検出プログラムを記録媒体としてのROM30に記憶させたが、コンピュータが読取り可能な他の記録媒体であってもよい。このように記録媒体としては、ハードディスク、フレキシブルディスク(登録商標)、MO、CD、DVD、ブルーレイディスク(登録商標)、フラッシュメモリ(登録商標)、USBメモリ等を挙げることができる。
In the
In the embodiment, the voice segment detection program is stored in the
100…音声区間検出装置、
101…音声入力部(音声入力手段)、
102…音響特徴量抽出部(音声区間検出用の音響特徴量抽出手段)、
111…画像入力部(画像入力手段)、
112…画像特徴量生成部(音声区間検出用の画像特徴量抽出手段)、
121…音響画像特徴量生成部、
131…第1マルチモーダルVAD部(音響画像特徴量生成部とともに第1判定手段を構成する)、
132…音声ユニモーダルVAD部(第2判定手段)、
133…画像ユニモーダルVAD部(第3判定手段)、
134…第2マルチモーダルVAD部(第4判定手段)、
135…第3マルチモーダルVAD部(第5判定手段、第1〜第4判定手段とともに音声区間判定手段)、
200…音声認識装置、
201…音声区間検出補償部、
301…音声切り出し部、
302…音響特徴量抽出部(音響特徴量算出手段)、
311…画像切り出し部、
312…画像特徴量抽出部(画像特徴量算出手段)、
321…音響画像特徴量生成部(特徴量生成手段)、
331…マルチモーダル音声認識部(マルチモーダル音声認識手段)。
100 ... voice segment detection device,
101 ... voice input unit (voice input means),
102... Acoustic feature amount extraction unit (acoustic feature amount extraction means for voice section detection),
111... Image input unit (image input means)
112... Image feature value generation unit (image feature value extraction means for detecting a voice section),
121... Acoustic image feature value generation unit,
131 ... 1st multimodal VAD part (a sound image feature-value production | generation part is comprised with a 1st determination means),
132 ... voice unimodal VAD section (second determination means),
133 Image unimodal VAD part (third determination means),
134 ... 2nd multimodal VAD part (4th determination means),
135 ... third multimodal VAD section (fifth judging means, first to fourth judging means together with voice section judging means),
200 ... voice recognition device,
201 ... voice section detection compensation unit,
301 ... voice cutout unit,
302 ... acoustic feature amount extraction unit (acoustic feature amount calculation means),
311 ... Image cutout unit,
312 ... Image feature amount extraction unit (image feature amount calculation means),
321... Acoustic image feature value generation unit (feature value generation means),
331... Multimodal speech recognition unit (multimodal speech recognition means).
Claims (5)
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段を備えた音声区間検出装置において、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とする音声区間検出装置。 Voice input means for inputting a voice signal of a speaker and converting it into a digital signal;
An image input means for inputting the lip moving image of the speaker and converting it into a still image time series (hereinafter referred to as an image frame);
An acoustic feature quantity extraction means for extracting an acoustic feature quantity for voice section detection from a digitized voice signal output by the voice input means;
Image feature amount extraction means for extracting an image feature amount for voice segment detection from the image frame;
In a speech section detection device comprising speech section determination means for performing speech section determination based on the acoustic feature amount for speech section detection and the image feature amount for speech section detection,
The voice segment determination means includes
A first determination unit configured to generate an acoustic image feature amount obtained by combining the acoustic feature amount and the image feature amount, and to determine a voice section based on the acoustic image feature amount;
Second determination means for determining a speech section using only the acoustic feature amount;
Third determination means for determining a speech section using only the image feature amount;
A fourth determination unit that integrates the determinations of the second determination unit and the third determination unit to determine a speech section;
Among the first to fourth determination means, a speech section detection apparatus comprising fifth determination means for determining a speech section by integrating at least the determination results of the first and fourth determination means based on a majority rule. .
前記第1乃至第4判定手段は、前記モデルベース及び非モデルベースの手法で抽出した特徴量に基づいて音声区間の判定を行うことを特徴とする請求項1に記載の音声区間検出装置。 The acoustic feature amount extraction unit and the image feature amount extraction unit extract the acoustic feature amount and the image feature amount by a model-based and non-model-based method,
The speech section detection device according to claim 1, wherein the first to fourth determination units perform speech section determination based on feature amounts extracted by the model-based and non-model-based techniques.
前記音声区間検出装置が判定した音声区間内の画像フレームから音声認識用の画像特徴量を算出する画像特徴量算出手段と、
前記音声認識用の音響特徴量及び前記音声認識用の画像特徴量を用いて、音声認識用の音響画像特徴量を生成する特徴量生成手段と、
生成された音声認識用の音響画像特徴量に基づいて音声認識を行うマルチモーダル音声認識手段を備えたことを特徴とする音声認識装置。 The voice section of the voice signal output by the voice input means is cut out based on the judgment of the voice section determined by the voice section detection device according to claim 1 or 2, and voice recognition is performed from the voice signal in the cut out voice section. An acoustic feature amount calculating means for calculating an acoustic feature amount for use;
Image feature amount calculating means for calculating an image feature amount for speech recognition from an image frame in the speech section determined by the speech section detecting device;
Feature quantity generating means for generating an acoustic image feature quantity for voice recognition using the acoustic feature quantity for voice recognition and the image feature quantity for voice recognition;
A speech recognition apparatus comprising multimodal speech recognition means for performing speech recognition based on a generated acoustic image feature quantity for speech recognition.
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムであって、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするプログラム。 On the computer,
Voice input means for inputting a voice signal of a speaker and converting it into a digital signal;
An image input means for inputting the lip moving image of the speaker and converting it into a still image time series (hereinafter referred to as an image frame);
An acoustic feature quantity extraction means for extracting an acoustic feature quantity for voice section detection from a digitized voice signal output by the voice input means;
Image feature amount extraction means for extracting an image feature amount for voice segment detection from the image frame;
A program for functioning as a voice section determination unit that performs voice section determination based on the acoustic feature quantity for voice section detection and the image feature quantity for voice section detection,
The voice segment determination means includes
A first determination unit configured to generate an acoustic image feature amount obtained by combining the acoustic feature amount and the image feature amount, and to determine a voice section based on the acoustic image feature amount;
Second determination means for determining a speech section using only the acoustic feature amount;
Third determination means for determining a speech section using only the image feature amount;
A fourth determination unit that integrates the determinations of the second determination unit and the third determination unit to determine a speech section;
A program comprising: fifth determination means for determining a speech section by integrating at least the determination results of the first and fourth determination means based on the majority rule among the first to fourth determination means.
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段として、機能させるためのプログラムを記憶したコンピュータ読取り可能な記録媒体であって、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とするコンピュータ読取り可能な記録媒体。 On the computer,
Voice input means for inputting a voice signal of a speaker and converting it into a digital signal;
An image input means for inputting the lip moving image of the speaker and converting it into a still image time series (hereinafter referred to as an image frame);
An acoustic feature quantity extraction means for extracting an acoustic feature quantity for voice section detection from a digitized voice signal output by the voice input means;
Image feature amount extraction means for extracting an image feature amount for voice segment detection from the image frame;
A computer-readable recording medium storing a program for functioning as voice section determination means for performing voice section determination based on the acoustic feature quantity for voice section detection and the image feature quantity for voice section detection,
The voice segment determination means includes
A first determination unit configured to generate an acoustic image feature amount obtained by combining the acoustic feature amount and the image feature amount, and to determine a voice section based on the acoustic image feature amount;
Second determination means for determining a speech section using only the acoustic feature amount;
Third determination means for determining a speech section using only the image feature amount;
A fourth determination unit that integrates the determinations of the second determination unit and the third determination unit to determine a speech section;
Of the first to fourth determining means, the computer-readable means includes fifth determining means for determining a speech section by integrating at least the determination results of the first and fourth determining means based on the majority rule. recoding media.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009205990A JP2011059186A (en) | 2009-09-07 | 2009-09-07 | Speech section detecting device and speech recognition device, program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009205990A JP2011059186A (en) | 2009-09-07 | 2009-09-07 | Speech section detecting device and speech recognition device, program and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011059186A true JP2011059186A (en) | 2011-03-24 |
Family
ID=43946926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009205990A Pending JP2011059186A (en) | 2009-09-07 | 2009-09-07 | Speech section detecting device and speech recognition device, program and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011059186A (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013050604A (en) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | Acoustic processing device and program thereof |
JP2018156316A (en) * | 2017-03-16 | 2018-10-04 | 日立造船株式会社 | Information processing device, information processing method, and information processing program |
CN109859773A (en) * | 2019-02-14 | 2019-06-07 | 北京儒博科技有限公司 | A kind of method for recording of sound, device, storage medium and electronic equipment |
JP2019113820A (en) * | 2017-12-25 | 2019-07-11 | カシオ計算機株式会社 | Voice recognition device, robot, voice recognition method, and recording medium |
WO2020144857A1 (en) * | 2019-01-11 | 2020-07-16 | 三菱電機株式会社 | Information processing device, program, and information processing method |
CN111768760A (en) * | 2020-05-26 | 2020-10-13 | 云知声智能科技股份有限公司 | Multi-mode voice endpoint detection method and device |
CN111899723A (en) * | 2020-08-28 | 2020-11-06 | 北京地平线机器人技术研发有限公司 | Voice activation state detection method and device |
CN111916061A (en) * | 2020-07-22 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | Voice endpoint detection method and device, readable storage medium and electronic equipment |
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
CN112397093A (en) * | 2020-12-04 | 2021-02-23 | 中国联合网络通信集团有限公司 | Voice detection method and device |
JP2021105808A (en) * | 2019-12-26 | 2021-07-26 | 株式会社リコー | Speaker recognition system, speaker recognition method, and speaker recognition program |
JP2021162685A (en) * | 2020-03-31 | 2021-10-11 | グローリー株式会社 | Utterance section detection device, voice recognition device, utterance section detection system, utterance section detection method, and utterance section detection program |
JP2022173183A (en) * | 2021-05-08 | 2022-11-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice end point detection metho, device, electronic apparatus and storage medium |
-
2009
- 2009-09-07 JP JP2009205990A patent/JP2011059186A/en active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013050604A (en) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | Acoustic processing device and program thereof |
JP2018156316A (en) * | 2017-03-16 | 2018-10-04 | 日立造船株式会社 | Information processing device, information processing method, and information processing program |
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
JP2019113820A (en) * | 2017-12-25 | 2019-07-11 | カシオ計算機株式会社 | Voice recognition device, robot, voice recognition method, and recording medium |
CN110033790A (en) * | 2017-12-25 | 2019-07-19 | 卡西欧计算机株式会社 | Sound recognizes device, robot, sound means of identification and recording medium |
CN110033790B (en) * | 2017-12-25 | 2023-05-23 | 卡西欧计算机株式会社 | Voice recognition device, robot, voice recognition method, and recording medium |
WO2020144857A1 (en) * | 2019-01-11 | 2020-07-16 | 三菱電機株式会社 | Information processing device, program, and information processing method |
JPWO2020144857A1 (en) * | 2019-01-11 | 2021-03-11 | 三菱電機株式会社 | Information processing equipment, programs and information processing methods |
CN109859773A (en) * | 2019-02-14 | 2019-06-07 | 北京儒博科技有限公司 | A kind of method for recording of sound, device, storage medium and electronic equipment |
JP7388188B2 (en) | 2019-12-26 | 2023-11-29 | 株式会社リコー | Speaker recognition system, speaker recognition method, and speaker recognition program |
JP2021105808A (en) * | 2019-12-26 | 2021-07-26 | 株式会社リコー | Speaker recognition system, speaker recognition method, and speaker recognition program |
JP7511374B2 (en) | 2020-03-31 | 2024-07-05 | グローリー株式会社 | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program |
JP2021162685A (en) * | 2020-03-31 | 2021-10-11 | グローリー株式会社 | Utterance section detection device, voice recognition device, utterance section detection system, utterance section detection method, and utterance section detection program |
CN111768760B (en) * | 2020-05-26 | 2023-04-18 | 云知声智能科技股份有限公司 | Multi-mode voice endpoint detection method and device |
CN111768760A (en) * | 2020-05-26 | 2020-10-13 | 云知声智能科技股份有限公司 | Multi-mode voice endpoint detection method and device |
CN111916061A (en) * | 2020-07-22 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | Voice endpoint detection method and device, readable storage medium and electronic equipment |
CN111916061B (en) * | 2020-07-22 | 2024-05-07 | 北京地平线机器人技术研发有限公司 | Voice endpoint detection method and device, readable storage medium and electronic equipment |
CN111899723A (en) * | 2020-08-28 | 2020-11-06 | 北京地平线机器人技术研发有限公司 | Voice activation state detection method and device |
CN112397093A (en) * | 2020-12-04 | 2021-02-23 | 中国联合网络通信集团有限公司 | Voice detection method and device |
CN112397093B (en) * | 2020-12-04 | 2024-02-27 | 中国联合网络通信集团有限公司 | Voice detection method and device |
JP2022173183A (en) * | 2021-05-08 | 2022-11-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice end point detection metho, device, electronic apparatus and storage medium |
JP7408898B2 (en) | 2021-05-08 | 2024-01-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice endpoint detection method, device, electronic device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011059186A (en) | Speech section detecting device and speech recognition device, program and recording medium | |
KR102339594B1 (en) | Object recognition method, computer device, and computer-readable storage medium | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP5494468B2 (en) | Status detection device, status detection method, and program for status detection | |
US20120130716A1 (en) | Speech recognition method for robot | |
JP2011191423A (en) | Device and method for recognition of speech | |
JP5949550B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
CN109147763B (en) | Audio and video keyword identification method and device based on neural network and inverse entropy weighting | |
JP4964204B2 (en) | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium | |
JP6464005B2 (en) | Noise suppression speech recognition apparatus and program thereof | |
JP6246636B2 (en) | PATTERN IDENTIFICATION DEVICE, PATTERN IDENTIFICATION METHOD, AND PROGRAM | |
US9460714B2 (en) | Speech processing apparatus and method | |
JP5803125B2 (en) | Suppression state detection device and program by voice | |
JP2007316330A (en) | Rhythm identifying device and method, voice recognition device and method | |
Radha et al. | An analysis of the effect of combining standard and alternate sensor signals on recognition of syllabic units for multimodal speech recognition | |
Tao et al. | Improving Boundary Estimation in Audiovisual Speech Activity Detection Using Bayesian Information Criterion. | |
Sasou | Automatic identification of pathological voice quality based on the GRBAS categorization | |
JP2002366192A (en) | Method and device for recognizing voice | |
Yau et al. | Visual speech recognition using motion features and hidden markov models | |
JP6791816B2 (en) | Voice section detection device, voice section detection method, and program | |
JPH1185190A (en) | Device and method for voice recognition | |
JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program | |
KR20080052248A (en) | The method and system for high-speed voice recognition | |
Bratoszewski et al. | Comparison of acoustic and visual voice activity detection for noisy speech recognition | |
JP6653687B2 (en) | Acoustic signal processing device, method and program |