JP2004219918A - Speech recognition environment judging method - Google Patents

Speech recognition environment judging method Download PDF

Info

Publication number
JP2004219918A
JP2004219918A JP2003009683A JP2003009683A JP2004219918A JP 2004219918 A JP2004219918 A JP 2004219918A JP 2003009683 A JP2003009683 A JP 2003009683A JP 2003009683 A JP2003009683 A JP 2003009683A JP 2004219918 A JP2004219918 A JP 2004219918A
Authority
JP
Japan
Prior art keywords
speech recognition
speech
noise
environment
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003009683A
Other languages
Japanese (ja)
Inventor
Toshiaki Fukada
Makoto Hirota
Hiroki Yamamoto
寛樹 山本
誠 廣田
俊明 深田
Original Assignee
Canon Inc
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc, キヤノン株式会社 filed Critical Canon Inc
Priority to JP2003009683A priority Critical patent/JP2004219918A/en
Publication of JP2004219918A publication Critical patent/JP2004219918A/en
Application status is Withdrawn legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a speech recognition environment judging method capable of judging whether the environment in which a speech recognition device is used is suitable for speech recognition processing.
SOLUTION: The speech recognition device is equipped with a speech recognition environment judging function of judging the use environment of the speech recognition device performing speech recognition by using a sound model. A speech is inputted first and it is judged whether the inputted speech is a speech to be recognized. Then the similarity between the speech decided as an object of speech recognition and background noise when the sound model is generated is calculated and the use environment of the speech recognition device is judged according to the calculated similarity.
COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明は、音声認識装置による音声認識が適切に行える環境であるか、音声認識には厳しい環境であるかといった音声認識の使用環境の良否を判定する技術に関する。 The present invention, whether the speech recognition by the speech recognition device is an environment to appropriately perform, regarding a technique of determining acceptability of the use environment of the speech recognition, such as whether a harsh environment for voice recognition.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
音声認識は、従来、キーボードやボタン等を手で操作することによりデータ入力や指示を可能としていた入力手段に代わって、音声を使用することにより誰でも簡単に使える入力手段として様々な場面での利用が期待されている。 Speech recognition, conventionally, a keyboard or a button or the like in place of the input means are capable of data input and an instruction by operating hand, in various situations as anyone can use easily input means by using the voice utilization is expected. 例えば、近年、音声で文章を入力するディクテーションソフト、電話応答を自動で行う通話システム、呼びかけると返事をする玩具等に至るまで、実にさまざまな分野で、さまざまな使用者を対象にした音声認識技術が実用化され、利用されるようになってきている。 For example, in recent years, dictation software, telephone call system to perform the telephone answering automatically, up to the toy or the like for the the reply call, indeed in various fields, voice recognition technology that target a variety of user to enter text by voice There are practical, have come to be used.
【0003】 [0003]
このように、音声認識は、認識性能が高い場合には非常に便利な入力手段として利用できる反面、認識性能が低い場合には誤認識が発生して、従来の手で操作する入力手段よりも非効率的な場合がある。 Thus, speech recognition, while if recognition performance is high that can be used as a very convenient input means, and erroneous recognition occurs when recognition performance is lower than the input means for operating in a conventional hand there is a case in inefficient. 音声認識における認識率の低下の要因としては、様々な要因が考えられるが、なかでも使用環境の背景雑音による影響が極めて大きい。 Factors of decrease in the recognition rate in speech recognition, are conceivable various factors, is extremely large influence of background noise among them environment. 例えば、オフィス環境のような比較的静かで背景雑音が少ない環境では正しく認識できる音声認識装置であっても、人混みや騒音の激しい場所で利用すると認識率が極端に低下するといった場合がある。 For example, there are cases such a relatively quiet background noise is small environments such as an office environment even speech recognition apparatus which can correctly recognize a recognition rate utilized in place of great crowd and noise is extremely lowered.
【0004】 [0004]
また、音声認識装置の種類によっても雑音への耐性が異なっており、ある音声認識装置で認識できる場合であっても、別の音声認識装置では全く認識できないといった場合もある。 Further, depending on the type of speech recognition apparatus have different resistance to noise, even if that can be recognized by some speech recognition device, in some cases, such as not at all recognized by another speech recognition device. 例えば、カーナビゲーションシステム等で利用されている音声認識装置は走行中での自動車内でも十分な性能を発揮する場合が多いが、走行中の自動車内でディクテーションソフトによって文章を入力しようとしても正しく入力できない場合がある。 For example, although the voice recognition device which is used in car navigation systems and the like often exhibit sufficient performance even in a motor vehicle in the running, also entered correctly as you try to enter text by dictation software in a car while driving there is a case that can not be.
【0005】 [0005]
上述したように、音声認識装置における認識性能が使用環境によって劣化することから、音声認識にとって好ましくない環境であることが事前にわかっていれば、アプリケーションによっては当初からユーザに対して音声入力手段以外の手段で入力させるという選択をさせることが可能である。 As described above, since the degraded by recognition performance using environment in the speech recognition system, knowing it in advance is unfavorable environment for speech recognition, other than voice input means to the user by the application from the beginning it is possible to selectively that is entered in the unit. また、ユーザが音声認識装置の性能劣化の原因が背景雑音によるものであると予測可能な場合には、静かな場所へ移動したり、発声をより明瞭にしたり、雑音源を自力で除去する等の対応をとることができる。 Also, if the user is predictable cause of performance deterioration of the speech recognition apparatus to be due to background noise, move to a quiet place, or the utterance more clearly, etc. to remove the noise source by itself it is possible to take a correspondence. このように、ユーザが意図している装置への情報等の入力を音声で入力させたり、手入力で入力させるといった適切な指示を入力時の環境に応じて判定してユーザに通知することにより、ユーザは環境に応じた円滑な入力操作を実行することが可能となる。 Thus, or by inputting the input of such information to the device that the user intends voice, by notifying the user determined to depending on the environment at the time of entering the appropriate instructions like is entered manually input , the user can execute a smooth input operation corresponding to the environment.
【0006】 [0006]
従来から、音声認識装置のユーザに対して、音声入力が可能か否かを通知する方法がある(例えば、特許文献1参照)。 Conventionally, the user of the speech recognition apparatus, a method of notifying whether it is possible to voice input (e.g., see Patent Document 1). 特許文献1に記載の方法によれば、音声認識装置に音声入力用とノイズ入力用の二つのマイクロフォンを備え、入力音声と入力ノイズのパワーの大きさの差に基づいて音声入力可能か否かを判定している。 According to the method described in Patent Document 1, provided with two microphones for noise input speech input to the speech recognition device, whether the voice input possible based on the difference in magnitude of the power of the input speech and the input noise It has been determined. すなわち、入力音声のパワーが入力ノイズのパワーよりも大きく、その差が大きい場合は音声入力可能と判定し、両者の差が小さい場合は、さらに入力ノイズ波形の相関を調べ、入力ノイズのパワーの大きさと合わせて総合的に音声認識が可能か否かを判定している。 That is, greater than the power of the power of the input speech is input noise, if the difference is greater determines the possible audio input, if the difference therebetween is small, further investigated the correlation between the input noise waveform, the power of the input noise it is determined whether overall possible speech recognition in conjunction with the size.
【0007】 [0007]
【特許文献1】 [Patent Document 1]
特開平10−240291号公報【0008】 Japanese Unexamined Patent Publication No. 10-240291 [0008]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
しかしながら、一般に利用されているパーソナルコンピュータ(以下、「PC」と称す。)や音声入力を備えた機器では、複数のマイクロフォンを搭載することは少ないため、従来の方法を一般的なPC等に対してそのまま適用することはできない。 However, in general personal computer being used (hereinafter referred. To as "PC") in the apparatus comprising the or voice input, since it is less likely to mount a plurality of microphones, to common PC or the like conventional methods It can not be directly applied Te. すなわち、新たにマイクロフォンを増設するなどのコストが余分にかかることになる。 That is, the cost of such newly added microphone takes extra.
【0009】 [0009]
一方、従来から音声認識に用いる音響モデルを雑音の混入した音声から作成する方法が知られているように、入力音声の認識に音響モデルを使用することによって雑音の大きさが大きい場合であっても入力音声の認識が可能な場合があり、この音響モデルを使用する方法は背景雑音に強いという特性を有している。 On the other hand, as a method of creating an acoustic model from the mixed voice noise used conventionally for speech recognition are known, even if the magnitude of the noise is large by using the acoustic model to recognize the input speech also might be possible to recognize the input speech, methods of using the acoustic model has a characteristic that strong background noise.
【0010】 [0010]
本発明は、このような事情を考慮してなされたものであり、複数のマイクロフォンを必要とせず、音声認識装置の使用環境が音声認識処理にとって適切か否かを好適に判定することができる音声認識環境判定方法を提供することを目的とする。 The present invention has been made in view of such circumstances, speech can not require a plurality of microphones, use environment of the speech recognition device is suitably determine whether it is appropriate for the speech recognition process and to provide a recognition environment determination method.
【0011】 [0011]
【課題を解決するための手段】 In order to solve the problems]
上記目的を達成するため、本発明に係る音声認識環境判定方法は、音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定する音声認識環境判定方法であって、 To achieve the above object, the speech recognition environment determining method according to the present invention, there is provided a speech recognition environment determination method for determining a usage environment of a speech recognition apparatus for performing speech recognition using the acoustic model,
音声を入力する入力工程と、 An input step of inputting a voice,
入力された前記音声が音声認識対象の音声であるか否かを判定する音声判定工程と、 The voice input is a voice determination step of determining whether the speech of the speech recognition target,
音声認識対象の音声と判定された前記音声と前記音響モデル作成時の背景雑音との類似度を算出する類似度算出工程と、 A similarity calculation step of calculating a similarity between said voice it is determined that the voice of the speech recognition target and the acoustic model creation of background noise,
算出された前記類似度に基づいて前記音声認識装置の使用環境を判定する環境判定工程とを有することを特徴とする。 Calculated on the basis of the similarity and having a environmental determination step of determining the operating environment of the speech recognition device.
【0012】 [0012]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、図面を参照して、本発明に係る音声認識装置の使用環境を判定する方法に関する実施の形態について詳細に説明する。 Hereinafter, with reference to the drawings, embodiments relating to methods for determining the operating environment of the speech recognition apparatus according to the present invention will be described in detail.
【0013】 [0013]
<第1の実施形態> <First embodiment>
図1は、本発明の第1の実施形態に係る音声認識環境判定機能を備える音声認識装置の構成を示すブロック図である。 Figure 1 is a block diagram showing a configuration of a speech recognition apparatus comprising a speech recognition environment determination function according to the first embodiment of the present invention.
【0014】 [0014]
図1に示すように、第1の実施形態に係る音声認識装置において、100は、背景雑音やユーザの入力音声等を入力するマイクロフォンであり、本音声認識装置では背景雑音及び入力音声とも同一もマイクロフォンから入力される。 As shown in FIG. 1, the speech recognition apparatus according to the first embodiment, is 100, a microphone for inputting input speech or the like of the background noise and the user, in this speech recognition device is also identical with the background noise and the input speech is input from the microphone. また、200は、マイクロフォン100を通して入力された音声が、ユーザによる入力音声であるか否かを判定する音声判定部である。 Further, 200, voice input through the microphone 100, a determined sound determination section that judges whether the input speech by the user. 以下、本実施形態では、ユーザによる入力音声以外の音声を背景雑音とみなす。 Hereinafter, in the present embodiment is regarded as background noise speech other than the input speech by the user.
【0015】 [0015]
また、500は、本音声認識装置が音声認識環境判定機能を動作するためのプログラム及び音声認識環境判定機能を動作するために必要なデータや動作の過程で生成されるデータを一時的に格納するROM、RAM、ハードディスク等で構成される記憶装置である。 Also, 500 is the speech recognition apparatus temporarily stores data generated in the course of data and operations necessary to operate the program and speech recognition environment determination function for operating a speech recognition environment determination function ROM, RAM, a storage device a hard disk or the like. 尚、記憶装置500には、さらに、音響モデル作成時(学習時)の背景雑音の特徴が雑音モデル501として記憶されている。 Incidentally, the storage device 500, further features of the background noise at the time of creating an acoustic model (during learning) is stored as the noise model 501. 例えば、音響モデル学習時の雑音からFFT分析などの音響分析方法を用いてスペクトルを求めておき、それを予め記憶装置500に雑音モデル501として記憶しておく。 For example, to previously obtain the spectrum using the acoustic analysis methods, such as FFT analysis from the noise at the time of the acoustic model training, and stored as the noise model 501 it prestored device 500. 尚、音響モデル作成時の雑音のスペクトルについては、数秒〜数十秒程度の雑音から求めた時間平均スペクトルを求めておくことが望ましい。 Note that the spectrum of the noise at the time of creating an acoustic model, it is desirable to determine the time-averaged spectrum obtained from the noise of the order of several seconds to several tens of seconds.
【0016】 [0016]
また、記憶装置500には、雑音モデル501以外にも、音声認識環境判定機能を備える本音声認識装置が、一般的な音声認識装置として機能する際に必要な装置全体を制御するプログラム、音声認識に必要な音響モデル、認識辞書等も記憶されている。 The storage device 500, in addition to the noise model 501, a program is the speech recognition apparatus comprising a speech recognition environment determination function, and controls the entire apparatus required to function as a general voice recognition device, speech recognition acoustic model, the recognition dictionary, etc. are also stored required.
【0017】 [0017]
さらに、300は、入力された背景雑音と音響モデル学習時の背景雑音との類似度を算出する類似度算出部である。 Further, 300 is a similarity calculating section for calculating a similarity between the input background noise and the background noise at the time of the acoustic model training. さらにまた、400は、類似度算出部300で算出された類似度に基づいて、音声認識の使用環境を判定する環境判定部である。 Furthermore, 400 is based on the similarity calculated by the similarity calculation unit 300, a determining environment judging section the use environment of the speech recognition. さらにまた、600は、マイクロフォン100から入力された音声が雑音ではなくユーザによる入力音声であると音声判定部200で判定された場合、当該入力音声を認識する音声認識部である。 Furthermore, 600, if it is determined by the sound determination unit 200 when the voice input from the microphone 100 is an input speech by the user rather than noise, which recognizes the speech recognition unit the input speech. さらにまた、本音声認識装置は、本装置全体の制御を行う制御部700と、音声入力以外の手段でデータを入力したり、本装置に対して指示を付与するためのキーボード、マウス等で構成される入力装置800と、ディスプレイやスピーカ等で実現される音声認識実行可能性の判定結果や音声認識の実行結果等を出力する出力装置900とから構成される。 Furthermore, the speech recognition apparatus includes a control unit 700 for controlling the overall apparatus, a keyboard for imparting to enter data by means other than voice input, the instruction to the device, composed of a mouse, etc. It is an input device 800 is, an output device 900 for outputting the execution results of the speech recognition feasibility determination result and the speech recognition is realized by a display or a speaker.
【0018】 [0018]
すなわち、本実施形態に係る音声認識装置には、後述するように、音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定する音声認識環境判定機能が備わっており、音声を入力し、入力された音声が音声認識対象の音声であるか否かを判定し、音声認識対象の音声と判定された音声と音響モデル作成時の背景雑音との類似度を算出し、算出された類似度に基づいて音声認識装置の使用環境を判定することを特徴とする。 That is, the speech recognition apparatus according to the present embodiment, as described later, and are equipped with voice recognition environment determination function for determining usage environment of a speech recognition apparatus for performing speech recognition using the acoustic model, enter the voice , voice input is determined whether the speech of the speech recognition target, and calculates the similarity between the background noise during speech and acoustic models created it is determined that the voice of the speech recognition target, the calculated similarity and judging a usage environment of a speech recognition system based on time.
【0019】 [0019]
次に、図1に示すような構成を備えた本実施形態に係る音声認識環境判定機能を備える音声認識装置の動作例について説明する。 Next, an operation example of the speech recognition apparatus comprising a speech recognition environment determination function according to the present embodiment having the configuration as shown in FIG. 図2は、本発明の第1の実施形態に係る音声認識環境判定機能を備える音声認識装置の動作手順を説明するためのフローチャートである。 Figure 2 is a flow chart for explaining the operation procedure of the speech recognition apparatus comprising a speech recognition environment determination function according to the first embodiment of the present invention. 以下、図2に従って、本音声認識装置全体の処理の流れについて説明する。 Hereinafter, according to FIG. 2, illustrating the flow of processing of the entire speech recognition system.
【0020】 [0020]
まず、本装置が起動され(ステップS101)、マイクロフォン100を通じてユーザの音声又は背景雑音の取り込みが開始される(ステップS102)。 First, the apparatus is started (step S101), the user's voice or background noise uptake is initiated through the microphone 100 (step S102). この取り込み処理は、ユーザが入力装置800を用いて指示したり、音声を感知することによって自動的に感知した音声を取り込むようにしてもよい。 The uptake process, and instructs with a user input device 800, may be taken sound sensed automatically by sensing the sound.
【0021】 [0021]
そして、マイクロフォン100による音声取り込み開始後、音声判定部200において音声認識が開始されたかどうかが判断される(ステップS103)。 After audio capture initiation by the microphone 100, whether voice recognition is started in the sound determination unit 200 it is determined (step S103). 例えば、本実施形態では、キーボード、マウス、ボタン等の入力装置700を用いてユーザが予め決められた操作(例えば、スペースキーの押下等の操作)を行った場合に「音声認識開始」であると判断されるようにしておく。 For example, in this embodiment, it is a "voice recognition start" when performing keyboard, mouse, operation by the user has been determined in advance using the input device 700 such as a button (for example, operation such as pressing the space key) keep to be determined to. また、逆に、上記のような予め決められた操作以外の場合が音声認識可能状態であって、取り込んだ音声を自動的に認識するようにして、上記操作が行われた場合に取り込んだ音声を音声認識用以外の音声(例えば、背景雑音)と判定するようにしてもよい。 Conversely, as the case other than a predetermined operation as described above is a voice recognizable condition, automatically recognizing speech captured, taken when the operation is performed speech a voice other than for speech recognition (e.g., background noise) may be determined.
【0022】 [0022]
さらに、ユーザの発声を検出することによって音声認識を自動的に開始するようにしてもよい。 Furthermore, it is also possible to automatically start the speech recognition by detecting an utterance of a user. このような場合は、一般的な音声認識処理で用いられているような音声検出方法を用いて、音声認識部600が音声を検出した段階を音声認識開始と判断するようにすればよい。 In such cases, using the voice detection methods such as used in a typical speech recognition process may be a step of voice recognition unit 600 detects a speech to determine a speech recognition start. 一般に、音声認識では、15〜30ミリ秒分の音声データを一塊として5〜15ミリ秒ごとにオーバーラップさせながら処理が行われる。 In general, the speech recognition processing while overlapping is performed every 5-15 milliseconds 15-30 milliseconds audio data en bloc. ここで、一度に処理するデータの長さをフレーム長、オーバーラップする際にずらす長さをフレーム周期という。 Here, the length of the data to be processed at a time frame length, that the frame cycle length to shift the time of overlapping. 図4は、本実施形態に係る音声処理を実行する際のフレームの概念を説明するための図である。 Figure 4 is a diagram for explaining the concept of a frame in performing a speech processing according to the present embodiment. 例えば、音声認識の開始を検出する処理は、フレーム周期ごとに行っても良いし、数フレームごとに行って処理量を落とすようにしても良い。 For example, processing for detecting the start of the voice recognition may be performed for each frame period, may be decreasing the amount of processing performed every few frames.
【0023】 [0023]
ステップS103において、音声判定部200で音声認識開始を判断した結果、音声認識を開始したと判断された場合(Yes)、取り込んだ音声に対して音声認識部600によって音声認識が行われる(ステップS108)。 In step S103, a result of determining the speech recognition starts at the sound determination unit 200, when it is determined that the start voice recognition (Yes), the voice recognition performed by the speech recognition unit 600 for the voice captured (step S108 ). そして、制御部700は、音声認識の結果に基づいて、事前に決められた手順に従って本音声認識装置の各種制御を行う(ステップS109)。 Then, the control unit 700, based on the result of the speech recognition, performs various controls of the speech recognition apparatus in accordance with the procedure prearranged (step S109). ここで、各種制御とは、例えば、音声認識結果を出力装置900に出力したり、認識結果をアプリケーションに送るといった制御部700による制御がある。 Here, the various controls, for example, a control by the control unit 700 such and outputs a speech recognition result to an output device 900, and sends a recognition result to the application. そして、各種制御の後、ステップS103に戻って、再び音声認識が開始されたか否かを判断する。 After various control returns to step S103, it is determined whether the started speech recognition again.
【0024】 [0024]
一方、ステップS103において、音声判定部200によって音声認識が開始されていないと判断された場合(No)、マイクロフォン100から取り込んだ音声を雑音として取り込む(ステップS104)。 On the other hand, in step S103, if it is determined that the speech recognition is not initiated by the sound determination unit 200 (No), it captures the voice captured by the microphone 100 as noise (step S104). 次に、類似度算出部300において、入力された雑音と記憶装置500に雑音モデル501として予め記憶されている音響モデル作成時の雑音との類似度が算出される(ステップS105)。 Next, the similarity calculating unit 300, the degree of similarity between the noise at the time of creation acoustic model stored in advance as a noise model 501 in the storage device 500 and input noise is calculated (step S105).
【0025】 [0025]
ここで、本実施形態においては、ステップS105で算出される類似度として、例えば、 In the present embodiment, as the degree of similarity calculated in step S105, for example,
(1)入力された雑音と音響モデル学習時の雑音とのスペクトル距離の逆数、 (1) the inverse of the spectral distance between the input noise and noise at the time of the acoustic model training,
(2)音響モデル学習時の雑音をHMM(Hidden Markov Model)でモデル化したときの当該HMMに対する入力された雑音の尤度、 (2) acoustic model noise the HMM during learning (Hidden Markov Model) is input to the HMM when modeled with a noise of the likelihood,
等を用いることができる。 Or the like can be used.
【0026】 [0026]
次に、上述した(1)及び(2)に例示されるそれぞれの類似度を算出する場合の実施形態について詳述する。 Next, detailed embodiments of when calculating the respective similarity exemplified in the above (1) and (2).
【0027】 [0027]
[スペクトル距離の逆数を類似度として用いる場合] [When using the inverse of the spectral distance as similarity]
入力された雑音と音響モデル学習時の雑音とのスペクトル距離Dを求め、その逆数を類似度と定義する。 Calculated spectral distances D between the input noise and noise at the time of the acoustic model training, define its reciprocal similarity. すなわち、類似度Lは、 In other words, the degree of similarity L is,
【0028】 [0028]
【数1】 [Number 1]
で定義される。 In is defined.
【0029】 [0029]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS103の音声判定ステップにより音声認識対象の音声と判定されなかった音声(すなわち、入力された雑音)のスペクトルと音響モデル作成時の背景雑音のスペクトルとに基づいて算出されたスペクトル距離Dの逆数Lを類似度として、ステップS105の類似度算出ステップを実行することを特徴とする。 That is, the speech recognition environment determining method according to this embodiment, audio (i.e., the inputted noise) it is not determined that the speech of the voice recognized by the voice determination step of step S103 spectrum and the background noise at the time of the acoustic modeling as the similarity of the inverse L of the spectral distance D calculated based on the spectrum, and executes the similarity calculation step of step S105.
【0030】 [0030]
ここで、2つのスペクトル間の距離(スペクトル距離)Dを求める方法について説明する。 Here, the distance between the two spectra (spectral distance) describes a method of obtaining the D.
【0031】 [0031]
尚、以下では、2つのスペクトルをスペクトルA、Bとし、 In the following, the two spectra spectra A, is B,
I:スペクトルを構成する要素数、 I: number of elements that make up the spectrum,
(i):スペクトルKのi番目のスペクトル強度(1≦i≦I) x K (i): i-th spectral intensity of the spectrum K (1 ≦ i ≦ I)
μ (i):スペクトルKのi番目のスペクトル強度の平均(1≦i≦I) mu K (i): average of the i th spectral intensity of the spectrum K (1 ≦ i ≦ I)
σ (i):スペクトルKのi番目のスペクトル強度の分散(1≦i≦I) sigma K (i): dispersion of the i th spectral intensity of the spectrum K (1 ≦ i ≦ I)
とする。 To.
【0032】 [0032]
次に、スペクトルAに関しては、1フレーム分のスペクトルが求まる場合と、数フレーム分の時間平均スペクトルが求まる場合とについて説明する。 Next, with respect to spectrum A, and if the spectrum of one frame is obtained, for the case of time-average spectrum of several frames is obtained will be described. また、スペクトルBに関しては、時間平均スペクトルが求まっている場合について説明する。 As for the spectrum B, and describes the case where been obtained time average spectrum.
【0033】 [0033]
ここで、スペクトル距離として以下のような距離を用いることができる。 Here, it is possible to use the distance as follows as spectral distance.
(a)ユークリッド距離【0034】 (A) the Euclidean distance [0034]
【数2】 [Number 2]
(b)スペクトルBの分散を考慮した距離【0035】 (B) distance in consideration of dispersion of the spectrum B [0035]
【数3】 [Number 3]
(c)スペクトルA、スペクトルBの分散を考慮した距離【0036】 (C) spectrum A, the distance [0036] Considering the dispersion of the spectrum B
【数4】 [Number 4]
本実施形態では、上記(a)〜(c)のいずれかで定義されるスペクトル距離を用いる。 In the present embodiment, a spectral distance defined by any one of the above (a) ~ (c).
【0037】 [0037]
そして、音響モデル学習時の雑音のスペクトルを求めたときと同じ音響分析手法を用いて、入力された雑音のスペクトルを算出する。 Then, using the same acoustic analysis technique as when seeking the spectrum of the noise at the time of the acoustic model training, to calculate the spectrum of the input noise. ここで、入力された雑音のスペクトルをスペクトルA、学習時の雑音のスペクトルをスペクトルBとすると、上記(a)〜(c)のいずれかの方法でスペクトル距離Dを計算することができる。 Here, spectrum A spectrum of the input noise, when the spectrum B spectrum of the noise at the time of learning, it is possible to calculate the spectral distance D in any of the above methods (a) ~ (c).
【0038】 [0038]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップで、スペクトル距離を算出する際に、音響モデル作成時の背景雑音のスペクトル(スペクトルB)の分散、又は、音声認識用の音声と判定されなかった音声のスペクトル(スペクトルA)の分散及び音響モデル作成時の背景雑音のスペクトル(スペクトルB)の分散を考慮して、スペクトル距離を算出することを特徴とする。 That is, in the speech recognition environment determination method according to the present embodiment, in similarity calculation step of step S105, when calculating the spectral distance, the variance of the spectrum of the background noise at the time of creating an acoustic model (spectrum B), or the voice taking into account the dispersion of the spectrum of the background noise during dispersion and acoustic modeling spectrum it is not determined that the speech for speech recognition (spectrum a) (spectrum B), and calculates the spectral distance.
【0039】 [0039]
例えば、音声認識開始を検出する処理(ステップS103)をフレーム周期ごとに行う場合は、入力雑音のスペクトルは1フレームごとに求まるため、スペクトルAの時間平均や分散を用いないd a1 、d a2をスペクトル距離として用いる。 For example, when performing the every frame period processing (step S103) of detecting a speech recognition start, since the spectrum of the input noise which is obtained for each frame, the d a1, d a2 without using the time average and variance of the spectrum A used as a spectral distance.
【0040】 [0040]
一方、音声認識開始を検出する処理(ステップS103)をTフレームごとに行う場合は、Tフレーム分の入力雑音のスペクトルが求まる。 On the other hand, when performing the every T frame processing (step S103) of detecting a speech recognition start, the spectrum of the input noise of the T frames is obtained. この場合、Tフレーム分のスペクトルの時間平均及び分散を計算することによって、d a2 、d b2 、d c2のいずれかの方法でスペクトル距離を求めることができる。 In this case, by calculating the time mean and variance of the spectrum of T frames, it is possible to determine the spectral distance in one of two ways d a2, d b2, d c2 .
【0041】 [0041]
また別の方法として、各フレームごとにスペクトル距離をd a1 、d b1 、d c1のいずれかで求め、その平均値をスペクトル距離としてもよい。 As another method, the spectral distance for each frame calculated in either d a1, d b1, d c1 , may the average value as spectral distance. この場合のスペクトル距離Dは、次に示すようになる。 Spectral distance D in this case is as shown below.
【0042】 [0042]
【数5】 [Number 5]
【0043】 [0043]
ここで、d(t)はtフレームに入力された雑音スペクトルと学習時の雑音スペクトルの距離であり、各フレームにおけるスペクトル距離d(t)は、上述したd a1 、d b1 、d c1のいずれかの方法で求めたものである。 Here, d (t) is the distance of the noise spectrum during learning and noise spectrum input to the t frame, the spectral distance d in each frame (t) is any d a1, d b1, d c1 described above it is those obtained by the Kano method.
【0044】 [0044]
また、その他の方法として、次に示す距離Dを用いても良い。 As another method may be used the distance D shown below.
【0045】 [0045]
【数6】 [6]
【0046】 [0046]
これは、各フレームにおけるスペクトル距離のうち最も距離が遠く最大スペクトル距離、すなわち入力時と学習時の雑音が最も似ておらず、最小の類似度である時のスペクトル距離を用いるものである。 This is the most distance is farther maximum spectral distance of the spectral distance in each frame, i.e. the noise at the time of learning is not the most similar to the input, is to use a spectrum distance when the minimum similarity.
【0047】 [0047]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音声認識用の音声と判定されなかった音声(入力された雑音)の複数フレームの各フレームごとにスペクトル距離を算出し、各フレームごとに算出されたスペクトル距離の平均スペクトル距離又は最大スペクトル距離を算出し、平均スペクトル距離の逆数又は最大スペクトル距離の逆数を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, the spectral distances for each frame of a plurality of frames of speech has not been determined to be speech for speech recognition (input noise) is calculated, to calculate the average spectral distance or maximum spectral distance spectrum distances calculated for each frame, the inverse of or the maximum spectral distance mean spectral distance, characterized in that the degree of similarity.
【0048】 [0048]
次に、音響モデルの学習時雑音が複数種類存在する場合について説明する。 Next, the case where the learning time noise acoustic models exist a plurality of types. これは、いわゆるマルチコンディショントレーニングと言われる様々な環境で収録した音声で学習して雑音耐性を高めた音響モデルや、雑音環境ごとに用意した複数の音響モデルを使用する場合のスペクトル距離の計算方法である。 This method of calculating the spectral distance when using and acoustic models with increased noise immunity by learning speech was recorded in various environments so-called multi-condition training, a plurality of acoustic models prepared for noise environment it is.
【0049】 [0049]
例えば、学習時の雑音が、オフィス雑音、自動車内雑音及び人ごみの雑音の3種類の雑音であった場合、以下のようにしてスペクトル距離Dを求める。 For example, the noise at the time of learning, office noise, indicating an three noise of the noise of the motor vehicle in the noise and crowds, obtaining the spectrum distance D as follows. まず、 First of all,
スペクトルB1:オフィス雑音のスペクトルスペクトルB2:自動車内雑音のスペクトルスペクトルB3:人ごみの雑音のスペクトルとし、入力雑音のスペクトルAとスペクトルB1、B2、B3との間のスペクトル距離をそれぞれ前述したd a1 、d a2 、d b1 、d b2 、d c1 、d c2のいずれかの方法で求め、これらのうち最も近い距離をスペクトル距離Dとする。 Spectrum B1: spectrum spectrum of office noise B2: spectrum spectrum-car noise B3: the noise spectrum of the crowd, d a1 of spectral distance were respectively above between spectra A and spectral B1, B2, B3 of the input noise, obtained in d a2, d b1, d b2 , any method of d c1, d c2, the closest distance among these a spectrum distance D. すなわち、学習時にN種類の雑音を用いた場合のスペクトル距離Dは次のように算出する。 That is, spectral distance D in the case of using the N kinds of noise at the time of learning is calculated as follows.
【0050】 [0050]
【数7】 [Equation 7]
【0051】 [0051]
ここで、d(A,Bn)は入力雑音のスペクトルAと学習時のn番目のスペクトルBnとのスペクトル距離であり、それぞれd a1 、d a2 、d b1 、d b2 、d c1 、d c2のいずれかの方法で求める。 Here, d (A, Bn) is the spectral distance between the spectral A and n-th spectrum Bn upon learning of the input noise, the d a1, d a2, d b1 , d b2, d c1, d c2 , respectively seek in any way.
【0052】 [0052]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音響モデル作成時の背景雑音Bnが複数存在する場合に、背景雑音ごとに算出されたスペクトル距離d(A,Bn)のうちの最小スペクトル距離の逆数を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, if the background noise Bn when creating acoustic models there are a plurality of spectral distance d (A that is calculated for each background noise , characterized by the minimum spectral distance reciprocal similarities among Bn).
【0053】 [0053]
本実施形態では、上述したような様々なスペクトル距離Dの計算方法によって求めたものを使用することが可能である。 In the present embodiment, it is possible to use those obtained by calculation methods of different spectral distance D as described above.
【0054】 [0054]
ここで、上記いずれの計算方法においても、求めたスペクトル距離Dについて、さらに入力時雑音と音響モデルの学習に用いていない雑音とのスペクトル距離で正規化するようにしても良い。 Here, In any of the above calculation method, the spectral distance D determined, may be further normalized by the spectral distance between the input time of noise and not used to train the acoustic model noise. すなわち、音響モデルの学習に用いていない雑音のスペクトルをCとすると、正規化したスペクトル距離D'は以下のように定義できる。 That is, when the spectrum of the noise that is not used to train the acoustic model as C, spectral distance D normalized 'can be defined as follows.
【0055】 [0055]
【数8】 [Equation 8]
【0056】 [0056]
ここで、D(X,Y)はスペクトルXとスペクトルYのスペクトル距離であり、上述したいずれの方法を用いて計算しても良い。 Here, D (X, Y) is the spectral distance of the spectrum X spectral Y, may be calculated using any of the methods described above. また、この場合の類似度は同様にD'の逆数となる。 Furthermore, the similarity in this case is the inverse of likewise D '.
【0057】 [0057]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音声認識用の音声と判定されなかった音声(入力時雑音)と音響モデル作成時の背景雑音とのスペクトル距離を、入力時雑音と音響モデル作成時に用いていない背景雑音とのスペクトル距離を用いて正規化し、正規化されたスペクトル距離の逆数を類似度とすることを特徴とする。 In other words, the spectrum of the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, the voice that has not been determined that speech for speech recognition (Input Noise) and the background noise at the time of creation acoustic model distance, and normalized using the spectral distance between the input time of the noise and the background noise which is not used at the time of the acoustic model creation, characterized by a similarity reciprocal of the normalized spectral distance.
【0058】 [0058]
いずれの方法においても、使用するスペクトル距離計算に必要な学習時の雑音のスペクトルのパラメータを雑音モデル501として記憶しておく。 In either method, it stores the parameters of the spectrum of the noise at the time of learning required spectral distance calculation using a noise model 501. 例えば、d a1の場合は学習時の雑音の時間平均スペクトルを雑音モデル501として記憶する。 For example, in the case of d a1 storing time-averaged spectrum of the noise at the time of learning as noise model 501. また、学習時の分散を考慮したd b1で求める場合は、時間平均スペクトル及び分散を雑音モデル501として記憶する。 Also, if obtained by d b1 considering the distribution of the learning stores a time average spectral and variance as the noise model 501. さらに、N種類の雑音でマルチコンディショントレーニングした音響モデルを使用する場合においては、N種類分の平均スペクトル及び分散を雑音モデル501として記憶する。 Further, in the case of using the acoustic model having the multi-condition training N kinds of noise, which stores an average spectrum and variance of N type component as a noise model 501.
【0059】 [0059]
尚、以上述べた実施形態では、スペクトルの種類について特に定義していないが、振幅スペクトル、パワースペクトル、対数スペクトル、スペクトル包絡等の一般に音響分析で用いられているスペクトル表現のいずれの場合でも、上述の方法で距離を算出することができる。 In the embodiment described above, although not particularly defined for the type of spectrum, the amplitude spectrum, the power spectrum, log spectrum, in either case the spectral representation that is used in the acoustic analysis in general, such as spectral envelope, above it is possible to calculate the distance method. また、スペクトルに限らず、音声認識で用いられる他のパラメータ、例えば、ケプストラム(cepstrum)等を用いて同様の距離計算を行って類似度を定義できることは言うまでもない。 Further, not limited to the spectrum, other parameters used in speech recognition, for example, can of course be defined similarity by performing the same distance calculated using cepstrum (cepstrum) and the like.
【0060】 [0060]
[学習時の雑音をモデル化したHMMの尤度を類似度として用いる場合] [When using the likelihood of the HMM that models the noise at the time of learning the similarity]
次に、類似度として学習時の雑音をモデル化したHMMに対する入力雑音の対数尤度を用いる方法について説明する。 Next, a method of using the log-likelihood of the input noise for HMM that models the noise at the time of learning as the similarity. 以下では、学習時の雑音をモデル化したHMMをモデルB、モデルBに対するフレームtの入力雑音の対数尤度をP (t)とした場合の類似度Lの定義を示す。 Hereinafter, it indicates learning during noise modeling was HMM model B of the definition of similarity L when the log-likelihood of the input noise of the frame t to the model B was P B (t).
【0061】 [0061]
ここで、1フレームごとに類似度を求める場合は、 Here, when obtaining the similarity for each frame,
【0062】 [0062]
【数9】 [Equation 9]
で示すようにフレームtの対数尤度により類似度を定義する。 The log-likelihood of the frame t as shown by defining the degree of similarity.
【0063】 [0063]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音響モデル作成時の背景雑音をモデル化した隠れマルコフモデルHMMに対する入力雑音(音声認識用の音声と判定されなかった音声)の対数尤度を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, it is determined that input noise (sound for speech recognition for a hidden Markov model HMM that models the background noise at the time of creation acoustic model the log-likelihood of never been voice), characterized in that the degree of similarity.
【0064】 [0064]
また、Tフレームごとに類似度を求める場合であって、Tフレームの対数尤度和を類似度とする場合は、 Further, a case of obtaining the similarity for each T frame, when the log-likelihood sum of T frames and similarity,
【0065】 [0065]
【数10】 [Number 10]
により類似度を定義する。 By defining the degree of similarity.
【0066】 [0066]
さらに、Tフレームごとに類似度を求める場合であって、Tフレーム中の最小の対数尤度を類似度とする場合は、 Furthermore, a case of obtaining the similarity for each T frame, to a minimum log likelihood in the T frame and similarity,
【0067】 [0067]
【数11】 [Number 11]
により類似度を定義する。 By defining the degree of similarity.
【0068】 [0068]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、入力雑音(音声認識用の音声と判定されなかった音声)の複数フレームに対する類似度を算出する際に、各フレームごとに音響モデル作成時の背景雑音をモデル化したHMMに対する音声の対数尤度を求め、入力雑音の複数フレームの和又は当該複数フレーム中最小となる対数尤度を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, when calculating the similarity to a plurality of frames of input noise (sound has not been determined to be speech for speech recognition), obtains the log likelihood of the speech for HMM that models the background noise at the time of creating an acoustic model for each frame, to a similarity log likelihood to be the sum or the plural frames in a minimum of a plurality of frames of input noise and features.
【0069】 [0069]
さらにまた、学習時雑音がN種類ある場合は、 Furthermore, if the learning time of noise is N types,
【0070】 [0070]
【数12】 [Number 12]
により類似度を定義する。 By defining the degree of similarity.
【0071】 [0071]
ここでl(Bn)は、学習時のn番目の雑音Bnに対する入力雑音の類似度であって、前述したいずれの方法で求めても良い。 Here l (Bn) is a similarity of the input noise for the n-th noise Bn during learning, it may be obtained by any of the methods described above.
【0072】 [0072]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音響モデル作成時の背景雑音が複数存在する場合に、背景雑音ごとに求めた対数尤度のうち最大となる対数尤度を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, when the background noise at the time of creation acoustic model there are a plurality, and the maximum of the log likelihood obtained for each background noise the composed log likelihood, characterized in that the degree of similarity.
【0073】 [0073]
さらに、求めた類似度Lに対して、さらに音響モデルの学習に用いていない雑音に対する類似度で正規化しても良い。 Further, with respect to the obtained similarity L, may be normalized by similarity to the more noise is not used for learning of the acoustic model. この場合、音響モデルの学習に用いていない雑音のモデルをCとすると、正規化した類似度L'は以下のように定義できる。 In this case, when the model of the noise which is not used to train the acoustic model as C, normalized similarity L 'can be defined as follows.
【0074】 [0074]
【数13】 [Number 13]
【0075】 [0075]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS105の類似度算出ステップにおいて、音響モデル作成時の背景雑音をモデル化したHMMに対する入力雑音(音声認識用の音声と判定されなかった音声)の対数尤度を、当該音響モデル作成時に用いていない背景雑音をモデル化したHMMに対する入力雑音の対数尤度で正規化した値を類似度とすることを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, the similarity calculation step of step S105, is not determined that speech for input noise (speech recognition for HMM that models the background noise at the time of creating an acoustic model speech the log-likelihood of), characterized in that the said acoustic model creates a normalized value similarity background noise which is not a logarithmic likelihood of the input noise on the modeled HMM used when.
【0076】 [0076]
以上説明した類似度の計算に必要な雑音をモデル化したHMMを、雑音モデル501として記憶装置500に記憶しておく。 The HMM models the noise required to calculate the description similarity above and stored in memory 500 as a noise model 501.
【0077】 [0077]
そして、環境判定部400において、算出された類似度Lに基づいて、音声認識の使用環境を判定する(ステップS106)。 Then, the environment judgment unit 400, based on the calculated degree of similarity L, determines the use environment of the speech recognition (step S106). その結果、双方の雑音がよく似ている場合、すなわち、類似度Lが大きい場合は、使用されている環境が音響モデル作成時に想定していた環境に近いと考えられ、十分な音声認識性能が発揮できるので音声認識に良好な環境であると判定する。 As a result, if both of the noise is very similar, i.e., if the similarity L is large is considered to be close to the environment the environment being used has been assumed at the time of creating an acoustic model, sufficient speech recognition performance so can exert is determined to be a good environment to voice recognition. 一方、雑音が似ていない場合、すなわち、類似度Lが小さい場合は、入力音声の認識性能が劣化する可能性があるため音声認識の使用環境としては良好ではない(劣悪で認識できない)と判定する。 On the other hand, if the noise is not similar, i.e., if the similarity L is small, not as good as the use environment of the speech recognition for recognizing performance of the input speech may deteriorate with (does not recognize poor) determination to.
【0078】 [0078]
具体的には、類似度Lに対して閾値Thを設け、計算した類似度LがTh以上である場合には音声認識に良好な環境、Th以下である場合には音声認識には向いていない環境であると判定するようにする。 Specifically, the threshold value Th provided for similarity L, not suitable for speech recognition when the calculated degree of similarity L is in the case where more than Th or less favorable environment, Th in speech recognition so as to determine that the environment. 尚、1つの閾値を用いて環境の良否を判定するだけでなく、複数の閾値を用いて音声認識装置の使用環境の状態を複数の段階で判定することも可能である。 Incidentally, not only to determine the quality of the environment by using one threshold value, it is also possible to determine the condition of the environment of the speech recognition device in a plurality of stages by using a plurality of thresholds.
【0079】 [0079]
そして、ステップS106の判定結果に基づいて、出力装置900に判定結果を出力することによって使用者に通知することができる(ステップS107)。 Then, based on the determination result of step S106, it is possible to notify the user by outputting the determination result to the output unit 900 (step S107).
例えば、ディスプレイ上に表示しても良いし、機器に備えられたLEDの点滅として結果を出力するようにしても良い。 For example, may be displayed on a display, it may be output the result as blinking LED provided in the device.
【0080】 [0080]
図3は、音声認識環境の判定結果をディスプレイ上に表示する場合の一例を示す図である。 Figure 3 is a diagram showing an example of displaying the determination result of the speech recognition environment on the display. 例えば、図3(a)には、使用環境を3段階で判定し、ディスプレイ上に「◎」(良好)、「○」(普通)、「×」(劣悪)といったマークを用いて判定結果を表示する例を示す。 For example, in FIG. 3 (a), determines the operating environment in three stages, on the display "◎" (good), "○" (plain), the determination result using a mark such as "×" (poor) It shows an example of display. また、図3(b)には、使用環境を5段階に判定し、高さの異なるバーでを使ってグラフィカルに表示する場合の例である。 Further, in FIG. 3 (b), to determine the use environment into five stages, an example of a case of displaying graphically using at different heights bar. 例えば、4本のバーが全て表示された場合は音声認識の使用環境として良好、2本表示された場合は普通、全く表示されていない場合は劣悪であるようにする。 For example, four bars satisfactory as the use environment of the speech recognition when it is displayed all, when it is displayed two common, if not at all appear to make is poor. また、その他の判定結果の出力方法として、ビープ音や合成音声を使用することによって出力し、ユーザに通知するようにしても良い。 Further, as the output method of the other determination result, outputs by the use of beeps and synthesized speech may be notified to the user.
【0081】 [0081]
すなわち、本実施形態に係る音声認識環境判定方法では、ステップS107において、音声認識装置の使用環境の判定結果を表示するが、その際に、判定結果を図形又は記号を用いてグラフィカルに表示することを特徴とする。 That is, in the speech recognition environment determining method according to the present embodiment, in step S107, it displays the determination result of the use environment of the speech recognition device, in this case, be displayed graphically using the determination result figures or symbols the features.
【0082】 [0082]
<第2の実施形態> <Second Embodiment>
上述した第1の実施形態では、図2のステップS107の判定結果を出力する処理において、ディスプレイ等の出力装置に対して判定結果を出力する場合について示したが、本発明の適用はこれに限られるものではない。 In the first embodiment described above, in the process of outputting the judgment result of step S107 in FIG. 2, but shows the case of outputting the determination result to the output device such as a display, it applies limited thereto the present invention not intended to be. 例えば、音声認識の使用環境が劣悪、すなわち音声認識使用に適さない環境であると判定した場合は、制御部700によって、音声認識部600による音声認識処理自体を強制的に実行不可能な状態にしてもよい。 For example, poor use environment of the speech recognition, that is, when it is determined that the environment is not suitable for speech recognition using, by the controller 700, to force unworkable state speech recognition process itself by the voice recognition unit 600 it may be. すなわち、図2のステップS103で音声認識開始と判断された場合であってもステップS108の処理を行わないよう制御するようにすることも可能である。 That is, it is also possible to control not to perform the processing of step S108 even when it is determined that the speech recognition starts in step S103 in FIG.
【0083】 [0083]
<その他の実施形態> <Other embodiments>
尚、本発明は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。 The present invention is a plurality of devices (e.g., host computer, interface device, reader, printer, etc.) or an apparatus from an apparatus comprising a single device (e.g., copying machine, facsimile machine) it may be applied to.
【0084】 [0084]
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。 Another object of the present invention, a recording medium which records a program code of software for realizing the functions of the above (or storage medium) is supplied to a system or an apparatus, Ya computer of the system or apparatus (or CPU also by MPU) to retrieve and execute the program code stored in the recording medium, it is needless to say that is achieved. この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。 In this case, the program code itself read from the recording medium realizes the functions of the embodiments and the recording medium which records the program code constitutes the present invention. また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the read program by computer, as well as functions of the above embodiments are realized on the basis of the instructions of the program code, such as an operating system (OS) running on the computer It performs a part or entire process but also to a case where the functions of the above-described embodiments are realized by those processes.
【0085】 [0085]
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, the program codes read out from the recording medium are written in a memory of a function expansion unit connected to the function expansion card inserted into the computer or on the basis of the instructions of the program code, the function expansion running on the computer performs part or all of the actual processing CPU provided to the card or the function expansion unit but also to a case where the functions of the above-described embodiments are realized by those processes.
【0086】 [0086]
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。 When the present invention is applied to the recording medium, the recording medium, the program code corresponding to the flowcharts described above is stored.
【0087】 [0087]
本発明の実施態様の例を以下に列挙する。 Listed examples of embodiments of the present invention are described below.
【0088】 [0088]
[実施態様1] 音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定する音声認識環境判定方法であって、 EMBODIMENT 1] A speech recognition environment determination method for determining a usage environment of a speech recognition apparatus for performing speech recognition using the acoustic model,
音声を入力する入力工程と、 An input step of inputting a voice,
入力された前記音声が音声認識対象の音声であるか否かを判定する音声判定工程と、 The voice input is a voice determination step of determining whether the speech of the speech recognition target,
音声認識対象の音声と判定された前記音声と前記音響モデル作成時の背景雑音との類似度を算出する類似度算出工程と、 A similarity calculation step of calculating a similarity between said voice it is determined that the voice of the speech recognition target and the acoustic model creation of background noise,
算出された前記類似度に基づいて前記音声認識装置の使用環境を判定する環境判定工程とを有することを特徴とする音声認識環境判定方法。 Speech recognition environment determination method characterized by having a environmental determination step of determining the operating environment of the speech recognition apparatus based on the calculated similarity.
【0089】 [0089]
[実施態様2] 前記類似度算出工程が、前記音声判定工程により音声認識対象の音声と判定されなかった前記音声のスペクトルと前記音響モデル作成時の前記背景雑音のスペクトルとに基づいて算出されたスペクトル距離の逆数を前記類似度とすることを特徴とする実施態様1に記載の音声認識環境判定方法。 EMBODIMENT 2] The similarity calculation step, is calculated based on the spectrum of the background noise at the time of the spectrum of the speech is not determined that the speech recognition target speech acoustic models created by the sound determination process speech recognition environment determination method according to claim 1, characterized by the reciprocal of the spectral distance between the similarity.
【0090】 [0090]
[実施態様3] 前記類似度算出工程が、前記スペクトル距離を算出する際に、前記音響モデル作成時の前記背景雑音のスペクトルの分散、又は、音声認識用の音声と判定されなかった前記音声のスペクトルの分散及び前記音響モデル作成時の前記背景雑音のスペクトルの分散を考慮して、前記スペクトル距離を算出することを特徴とする実施態様2に記載の音声認識環境判定方法。 EMBODIMENT 3] The similarity calculation process, when calculating the spectral distance, the dispersion of the spectrum of the background noise at an acoustic model creation, or, the voice that has not been determined that speech for speech recognition considering the dispersion and the dispersion of the spectrum of the background noise at the time of creating the acoustic model of the spectrum, the speech recognition environment determining method according to claim 2, characterized in that calculating the spectral distance.
【0091】 [0091]
[実施態様4] 前記類似度算出工程が、 EMBODIMENT 4] The similarity calculation step,
音声認識用の音声と判定されなかった前記音声の複数フレームの各フレームごとに前記スペクトル距離を算出し、 Calculates the spectral distance for each frame of a plurality of frames of the speech is not determined as speech for speech recognition,
各フレームごとに算出されたスペクトル距離の平均スペクトル距離又は最大スペクトル距離を算出し、 The average spectral distance or maximum spectral distance spectrum distances calculated for each frame is calculated,
前記平均スペクトル距離の逆数又は前記最大スペクトル距離の逆数を前記類似度とすることを特徴とする実施態様2に記載の音声認識環境判定方法。 Speech recognition environment determining method according to claim 2, characterized in that the inverse or reciprocal of the maximum spectral distance of the mean spectral distance to the similarity.
【0092】 [0092]
[実施態様5] 前記類似度算出工程は、前記音響モデル作成時の前記背景雑音が複数存在する場合に、前記背景雑音ごとに算出されたスペクトル距離のうちの最小スペクトル距離の逆数を前記類似度とすることを特徴とする実施態様2から4までのいずれか1つに記載の音声認識環境判定方法。 EMBODIMENT 5] The similarity calculation step, wherein, when said background noise during the acoustic model creation there is a plurality, the similarity of the inverse of the smallest spectral distance of the spectral distance calculated for each of the background noise speech recognition environment determining method according to any one of embodiments 2, wherein up to 4 to be.
【0093】 [0093]
[実施態様6] 前記類似度算出工程が、音声認識用の音声と判定されなかった前記音声と前記音響モデル作成時の前記背景雑音とのスペクトル距離を、前記音声と前記音響モデル作成時に用いていない背景雑音とのスペクトル距離を用いて正規化し、 EMBODIMENT 6] The similarity calculation step, the spectral distance between the background noise at the time of the acoustic model created with the voice that has not been determined that speech for speech recognition, it uses the acoustic model created during said voice normalized by using a spectral distance of that there is no background noise,
正規化された前記スペクトル距離の逆数を前記類似度とすることを特徴とする実施態様2から5までのいずれか1つに記載の音声認識環境判定方法。 Normalized speech recognition environment determining method according to any one of Embodiments 2 to 5, characterized in that the reciprocal of the similarity of the spectral distance.
【0094】 [0094]
[実施態様7] 前記類似度算出工程が、前記音響モデル作成時の前記背景雑音をモデル化した隠れマルコフモデルHMMに対する音声認識用の音声と判定されなかった前記音声の対数尤度を前記類似度とすることを特徴とする実施態様1に記載の音声認識環境判定方法。 EMBODIMENT 7] The similarity calculation step, the acoustic model creation of the background noise and modeled Hidden Markov the log-likelihood of the similarity of the speech which is not determined as speech for speech recognition to the model HMM speech recognition environment determination method of claim 1, characterized in that a.
【0095】 [0095]
[実施態様8] 前記類似度算出工程が、 EMBODIMENT 8] The similarity calculation step,
音声認識用の音声と判定されなかった前記音声の複数フレームに対する前記類似度を算出する際に、各フレームごとに前記音響モデル作成時の前記背景雑音をモデル化したHMMに対する前記音声の対数尤度を求め、 When calculating the similarity to a plurality of frames of the speech it is not determined as speech for speech recognition, the log likelihood of the speech for HMM modeling the background noise at the time of the acoustic model created for each frame the request,
前記音声の前記複数フレームの和又は該複数フレーム中最小となる対数尤度を前記類似度とすることを特徴とする実施態様1又は7に記載の音声認識環境判定方法。 Speech recognition environment determination method according to claim 1 or 7, characterized in that the log likelihood as a sum or plurality of frames in a minimum of said plurality of frames of the speech and the degree of similarity.
【0096】 [0096]
[実施態様9] 前記類似度算出工程が、前記音響モデル作成時の背景雑音が複数存在する場合に、前記背景雑音ごとに求めた対数尤度のうち最大となる対数尤度を前記類似度とすることを特徴とする実施態様1、7、8のいずれか1つに記載の音声認識環境判定方法。 EMBODIMENT 9] The similarity calculation process, when the background noise at the time of the acoustic model creation there is a plurality, and the similarity of the log likelihood that the maximum of the log likelihood obtained for each of the background noise speech recognition environment determining method according to any one of embodiments 1, 7, 8, characterized by.
【0097】 [0097]
[実施態様10] 前記類似度算出工程が、前記音響モデル作成時の前記背景雑音をモデル化したHMMに対する音声認識用の音声と判定されなかった前記音声の対数尤度を、該音響モデル作成時に用いていない背景雑音をモデル化したHMMに対する前記音声の対数尤度で正規化した値を前記類似度とすることを特徴とする実施態様1、7、8、9のいずれか1つに記載の音声認識環境判定方法。 EMBODIMENT 10] The similarity calculation step, the log likelihood of the speech which is not determined as speech for speech recognition for HMM modeling the background noise at the time of creating the acoustic model, when creating the acoustic model according to any one of embodiments 1,7,8,9, characterized in that the normalized value in the log-likelihood of the speech and the similarity to HMM that models the background noise which is not used speech recognition environment determination method.
【0098】 [0098]
[実施態様11] 音声認識装置の使用環境の判定結果を表示する表示工程をさらに有し、 EMBODIMENT 11] further comprising a display step of displaying the determination result of the use environment of the speech recognition device,
前記判定結果を図形又は記号を用いてグラフィカルに表示することを特徴とする実施態様1から10までのいずれか1項に記載の音声認識環境判定方法。 Speech recognition environment determining method according to any one of embodiments 1 to 10, characterized by displaying graphically using graphical or symbols the determination result.
【0099】 [0099]
[実施態様12] 音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定する音声認識環境判定装置であって、 A determining speech recognition environment determination device usage environment of a speech recognition apparatus for performing speech recognition using the embodiment 12] an acoustic model,
音声を入力する入力手段と、 And input means for inputting a voice,
入力された前記音声が音声認識対象の音声であるか否かを判定する音声判定手段と、 The voice input and the sound determination means that determines whether an audio speech recognition target,
音声認識対象の音声と判定された前記音声と前記音響モデル作成時の背景雑音との類似度を算出する類似度算出手段と、 A similarity calculation means for calculating a similarity between said voice it is determined that the voice of the speech recognition target and the acoustic model creation of background noise,
算出された前記類似度に基づいて前記音声認識装置の使用環境を判定する環境判定手段とを備えることを特徴とする音声認識環境判定装置。 Speech recognition environment determination apparatus characterized by comprising a environment determination means for determining a usage environment of the speech recognition apparatus based on the calculated similarity.
【0100】 [0100]
[実施態様13] コンピュータに、音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定させるためのプログラムであって、 In the embodiment 13] computer, a program for determining a usage environment of a speech recognition apparatus for performing speech recognition using the acoustic model,
入力された音声が音声認識対象の音声であるか否かを判定する音声判定手順と、 A sound determination procedure for determining the speech entered is whether the speech of the speech recognition target,
音声認識対象の音声と判定された前記音声と前記音響モデル作成時の背景雑音との類似度を算出する類似度算出手順と、 A similarity calculation step of calculating a similarity between said voice it is determined that the voice of the speech recognition target and the acoustic model creation of background noise,
算出された前記類似度に基づいて前記音声認識装置の使用環境を判定する環境判定手順とを実行させるためのプログラム。 Program for executing the environment determination procedure for determining the use environment of the speech recognition apparatus based on the calculated similarity.
【0101】 [0101]
[実施態様14] 実施態様13に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。 EMBODIMENT 14] A computer-readable recording medium characterized by storing a program of claim 13.
【0102】 [0102]
【発明の効果】 【Effect of the invention】
以上説明したように、本発明によれば、複数のマイクロフォンを必要とせず、音声認識装置の使用環境が音声認識処理にとって適切か否かを好適に判定することができる。 As described above, according to the present invention, without requiring a plurality of microphones, use environment of the speech recognition device can be suitably determining whether it is appropriate for the speech recognition process.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の第1の実施形態に係る音声認識環境判定機能を備える音声認識装置の構成を示すブロック図である。 1 is a block diagram showing a configuration of a speech recognition apparatus comprising a speech recognition environment determination function according to the first embodiment of the present invention.
【図2】本発明の第1の実施形態に係る音声認識環境判定機能を備える音声認識装置の動作手順を説明するためのフローチャートである。 Is a flow chart for explaining the operation procedure of the speech recognition apparatus comprising a speech recognition environment determination function according to the first embodiment of the present invention; FIG.
【図3】音声認識環境の判定結果をディスプレイ上に表示する場合の一例を示す図である。 [3] the determination result of the speech recognition environment is a diagram showing an example of displaying on a display.
【図4】本実施形態に係る音声処理を実行する際のフレームの概念を説明するための図である。 It is a diagram for explaining the concept of a frame in performing a speech processing according to FIG. 4 embodiment.

Claims (1)

  1. 音響モデルを用いて音声認識を行う音声認識装置の使用環境を判定する音声認識環境判定方法であって、 A speech recognition environment determination method for determining a usage environment of a speech recognition apparatus for performing speech recognition using the acoustic model,
    音声を入力する入力工程と、 An input step of inputting a voice,
    入力された前記音声が音声認識対象の音声であるか否かを判定する音声判定工程と、 The voice input is a voice determination step of determining whether the speech of the speech recognition target,
    音声認識対象の音声と判定された前記音声と前記音響モデル作成時の背景雑音との類似度を算出する類似度算出工程と、 A similarity calculation step of calculating a similarity between said voice it is determined that the voice of the speech recognition target and the acoustic model creation of background noise,
    算出された前記類似度に基づいて前記音声認識装置の使用環境を判定する環境判定工程とを有することを特徴とする音声認識環境判定方法。 Speech recognition environment determination method characterized by having a environmental determination step of determining the operating environment of the speech recognition apparatus based on the calculated similarity.
JP2003009683A 2003-01-17 2003-01-17 Speech recognition environment judging method Withdrawn JP2004219918A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003009683A JP2004219918A (en) 2003-01-17 2003-01-17 Speech recognition environment judging method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003009683A JP2004219918A (en) 2003-01-17 2003-01-17 Speech recognition environment judging method

Publications (1)

Publication Number Publication Date
JP2004219918A true JP2004219918A (en) 2004-08-05

Family

ID=32899110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003009683A Withdrawn JP2004219918A (en) 2003-01-17 2003-01-17 Speech recognition environment judging method

Country Status (1)

Country Link
JP (1) JP2004219918A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
KR20140136964A (en) * 2012-03-02 2014-12-01 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Instant communication voice recognition method and terminal
CN105788598A (en) * 2014-12-19 2016-07-20 联想(北京)有限公司 Speech processing method and electronic device
JP2017129860A (en) * 2016-01-20 2017-07-27 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Voice wakeup method and device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (en) * 2006-09-13 2008-05-29 Honda Motor Co Ltd Speech recognition method for robot under motor noise thereof
KR20140136964A (en) * 2012-03-02 2014-12-01 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Instant communication voice recognition method and terminal
US9263029B2 (en) 2012-03-02 2016-02-16 Tencent Technology (Shenzhen) Company Limited Instant communication voice recognition method and terminal
KR101633208B1 (en) * 2012-03-02 2016-06-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Instant communication voice recognition method and terminal
CN105788598A (en) * 2014-12-19 2016-07-20 联想(北京)有限公司 Speech processing method and electronic device
JP2017129860A (en) * 2016-01-20 2017-07-27 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Voice wakeup method and device
US10482879B2 (en) 2016-01-20 2019-11-19 Baidu Online Network Technology (Beijing) Co., Ltd. Wake-on-voice method and device

Similar Documents

Publication Publication Date Title
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
Kim et al. Audio classification based on MPEG-7 spectral basis representations
Ward et al. Activity recognition of assembly tasks using body-worn microphones and accelerometers
EP0887788A2 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US7636662B2 (en) System and method for audio-visual content synthesis
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
JPWO2005069171A1 (en) Document association apparatus and document association method
JPWO2004111996A1 (en) Acoustic section detection method and apparatus
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
US20020116197A1 (en) Audio visual speech processing
US7769588B2 (en) Spoken man-machine interface with speaker identification
JP4401155B2 (en) Dialog management method and apparatus between user and agent
JP4478939B2 (en) Audio processing apparatus and computer program therefor
US8374870B2 (en) Methods and systems for assessing and improving the performance of a speech recognition system
US7117148B2 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US8115089B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP3232289B2 (en) Symbol insertion apparatus and method
JP3678421B2 (en) Voice recognition device and voice recognition method
US6772119B2 (en) Computationally efficient method and apparatus for speaker recognition
CA2382122A1 (en) Sound source classification
JPH05204394A (en) Word spotting method
EP2506252A3 (en) Topic specific models for text formatting and speech recognition
CN101031958A (en) Speech end-pointer

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404