JP4715738B2 - Utterance detection device and utterance detection method - Google Patents
Utterance detection device and utterance detection method Download PDFInfo
- Publication number
- JP4715738B2 JP4715738B2 JP2006341568A JP2006341568A JP4715738B2 JP 4715738 B2 JP4715738 B2 JP 4715738B2 JP 2006341568 A JP2006341568 A JP 2006341568A JP 2006341568 A JP2006341568 A JP 2006341568A JP 4715738 B2 JP4715738 B2 JP 4715738B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- deformation amount
- derived
- deriving
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 38
- 238000003384 imaging method Methods 0.000 claims description 45
- 238000000034 method Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Description
本発明は、発話検出装置及び発話検出方法に係り、特に、話者の唇を含んだ画像を連続的に撮像し、唇の形状の変形した度合いから話者の発話区間を検出する発話検出装置及び発話検出方法に関する。 The present invention relates to an utterance detection device and an utterance detection method, and in particular, an utterance detection device that continuously captures an image including a speaker's lips and detects the speaker's speech section from the degree of deformation of the shape of the lips. And an utterance detection method.
従来から話者が発話した音声をマイク等によって集音して文字データに変換したり、コンピュータを操作したりする音声認識技術が知られている。この音声認識技術では、周囲の騒音などに影響され、話者が発話をしていなくても騒音をもとに音声認識が行われて結果的に誤認識をしてしまう場合がある。 2. Description of the Related Art Conventionally, a voice recognition technique is known in which a voice spoken by a speaker is collected by a microphone or the like and converted into character data, or a computer is operated. In this voice recognition technology, there are cases where voice recognition is performed on the basis of noise even if the speaker is not speaking due to the influence of ambient noise and the like, resulting in erroneous recognition.
この誤認識を低減させる技術として、話者の唇を含んだ領域の画像をカメラにより連続的に撮像し、撮像された画像の唇の動きから話者が発話している発話区間を検出する技術が研究されている。例えば、特許文献1には、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値から口の開閉を検出し、複数の対象者の中から発話している話者を特定する技術が開示されており、この技術では、検出された差や曲率値が予め定められた閾値以上でれば発話区間であると判断している。
As a technology to reduce this misrecognition, a technology that continuously captures an image of the area including the speaker's lips with a camera and detects a speech section in which the speaker is speaking from the movement of the lips of the captured image Has been studied. For example,
また、非特許文献1には、現在の口唇パターンと、Nフレーム前の口唇パターンとの差から発話評価値を求めて発話状態を判定する技術が開示されており、現在の発話評価値が一定時間(非特許文献1では、1秒)前の発話評価値の2倍以上になると発話が開始されたと判断し、半分以下になると発話が終了したと判断している。
しかしながら、上記特許文献1及び非特許文献1の技術では、精度よく発話区間を判別できない場合がある、という問題点があった。
However, the techniques disclosed in
すなわち、発話する際の唇の動きには個人差があり、発話の際の口の開閉の大きさが異なる場合がある。このため、特許文献1の技術を適用した場合、唇の動きが小さい話者の発話区間を精度よく判別できない場合がある。そこで、唇の動きが小さい話者に合わせて閾値を定めた場合、発話時以外の唇の小さな動きも発話区間と誤判別してしまう場合がある。また、同じ話者が同じ唇の動きをした場合であっても、撮像時の明るさ等の撮像環境の違いによって、検出される前記基準値との差や前記曲率値が異なる場合があり、精度よく発話区間を判別できない場合がある。
That is, there are individual differences in the movement of the lips when speaking, and the size of opening and closing the mouth when speaking is sometimes different. For this reason, when the technique of
また、一般的な会話では、発話の途中で唇の動きが一時的に停止する場合がある。このため、非特許文献1の技術を適用した場合、発話の途中で頻繁に発話開始、発話終了の判定がなされてしまい、結果として精度よく発話区間を判別できない場合がある。
In general conversation, the movement of the lips may temporarily stop during the utterance. For this reason, when the technique of Non-Patent
本発明は、上記問題点を解消するためになされたものであり、精度よく発話区間を検出できる発話検出装置及び発話検出方法を提供することを目的とする。 The present invention has been made to solve the above problems, and an object thereof is to provide an utterance detection apparatus and an utterance detection method capable of detecting an utterance section with high accuracy.
上記目的を達成するため、請求項1に記載の発話検出装置は、話者の唇を含んだ画像を連続的に撮像する撮像手段と、前記話者が発話した音声を集音する音声集音手段と、前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、を備えている。
In order to achieve the above object, an utterance detection apparatus according to
請求項1記載の発明によれば、撮像手段により、話者の唇を含んだ画像が連続的に撮像され、音声集音手段により、話者が発話した音声が集音され、変形量導出手段により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量が導出され、話者状態導出手段により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きが導出される。 According to the first aspect of the present invention, the image including the speaker's lips is continuously captured by the imaging unit, and the voice uttered by the speaker is collected by the voice collecting unit, and the deformation amount deriving unit Thus, a deformation amount indicating the degree of deformation of the shape of the lips is derived based on the images continuously captured by the imaging unit, and the speaker state deriving unit extracts the deformation from the imaging unit based on the image captured by the imaging unit. The distance to the speaker and the orientation of the speaker's face relative to the imaging means are derived.
そして、本発明によれば、決定手段により、話者状態導出手段によって導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値が決定され、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間が検出される。 According to the present invention, the determination means determines that the distance derived by the speaker state deriving means is within a predetermined range and the derived face orientation is within a predetermined angle range with respect to the imaging means, and the sound collection When the intensity of the voice collected by the means is equal to or higher than a predetermined level, a threshold value of the deformation amount used for determining the utterance section in which the speaker is speaking based on the deformation amount derived by the deformation amount deriving means is The utterance section is detected from the deformation amount derived by the deformation amount deriving unit using the threshold determined by the determining unit.
このように、請求項1記載の発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる。 As described above, according to the first aspect of the present invention, the image including the speaker's lips is continuously captured by the imaging unit, and the voice uttered by the speaker is collected to obtain the continuously captured image. Based on the image, the amount of deformation indicating the degree of deformation of the lips is derived, and the distance from the imaging means to the speaker and the direction of the speaker's face relative to the imaging means are derived based on the image, and the derived distance is within a predetermined range. And the direction of the derived face is within a predetermined angle range with respect to the imaging means, and the speaker speaks based on the amount of deformation derived when the intensity of the collected voice is equal to or higher than a predetermined level. Since the threshold value of the deformation amount used for discrimination of the utterance section is determined and the utterance section is detected from the deformation amount derived using the determined threshold value, the utterance section can be detected with high accuracy.
なお、本発明は、請求項2記載の発明のように、周囲の騒音を集音する騒音集音手段をさらに備え、前記決定手段が、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。 Note that, as in the invention of claim 2, the present invention further includes noise collecting means for collecting ambient noise, and the determining means further includes the noise collected by the noise collecting means. When the strength is less than a predetermined level, the threshold value may be determined based on the deformation amount derived by the deformation amount deriving unit.
また、本発明は、請求項3記載の発明のように、前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、前記決定手段が、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。 Further, the present invention, as in the invention of claim 3, further comprises voice recognition means for performing voice recognition of the voice collected by the voice sound collection means and outputting accuracy information indicating the recognition accuracy, When the determination means further has a recognition accuracy indicated by the accuracy information output from the speech recognition means equal to or higher than a predetermined accuracy, the threshold value is based on the deformation amount derived by the deformation amount deriving device. May be determined.
また、本発明は、請求項4記載の発明のように、前記音声集音手段は、2つ以上のマイクにより構成され、各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。 Further, according to the present invention, as in the invention described in claim 4, the sound collecting means is composed of two or more microphones, and a sound source for the imaging means is based on sound information collected by each microphone. Sound source estimating means for estimating a direction; and speaker direction deriving means for deriving the direction of the speaker relative to the imaging means based on an image captured by the imaging means, and the determining means further includes the When the difference between the direction of the sound source estimated by the sound source estimation unit and the direction of the speaker derived by the speaker direction deriving unit is within a predetermined range, based on the deformation amount derived by the deformation amount deriving unit. The threshold may be determined.
一方、上記目的を達成するため、請求項5に記載の発話検出方法は、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した前記閾値を用いて導出した前記変形量から発話区間を検出する。 On the other hand, in order to achieve the above-described object, the speech detection method according to claim 5 continuously captures an image including a speaker's lips by an imaging means and collects a speech spoken by the speaker, Deriving a deformation amount indicating the degree of deformation of the shape of the lips based on the continuously captured images, and the distance from the imaging means to the speaker based on the images and the speaker's face relative to the imaging means The derived distance is within a predetermined range, the derived face direction is within a predetermined angle range with respect to the imaging means, and the intensity of the collected sound is equal to or higher than a predetermined level. A threshold value of the deformation amount used for discrimination of the utterance interval in which the speaker is speaking is determined based on the deformation amount derived in the case, and the utterance interval is detected from the deformation amount derived using the determined threshold value .
よって、請求項5に記載の発明は、請求項1記載の発明と同様に作用するので、請求項1記載の発明と同様に、精度よく発話区間を検出できる。
Therefore, since the invention described in claim 5 operates in the same manner as the invention described in
以上説明したように、本発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる、という優れた効果を有する。 As described above, according to the present invention, the image including the speaker's lips is continuously captured by the imaging unit, and the voice uttered by the speaker is collected and based on the continuously captured image. The amount of deformation indicating the degree of deformation of the lip shape is derived, and the distance from the imaging means to the speaker and the direction of the speaker's face relative to the imaging means are derived based on the image, and the derived distance is within a predetermined range. An utterance section in which the speaker speaks based on the amount of deformation derived when the derived face orientation is within a predetermined angle range with respect to the imaging means and the intensity of the collected voice is equal to or higher than a predetermined level. Since the utterance interval is detected from the deformation amount derived using the determined threshold value, the utterance interval can be detected with high accuracy.
以下、図面を参照して本発明の実施の形態について詳細に説明する。なお、以下では、本発明を音声認識装置に適用した場合について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Hereinafter, a case where the present invention is applied to a speech recognition apparatus will be described.
図1には、本実施の形態に係る音声認識装置10の構成を示すブロック図が示されている。 FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus 10 according to the present embodiment.
同図に示されるように、音声認識装置10は、CCD(Charge Coupled Device)イメージセンサを内蔵し、当該CCDイメージセンサ上に結像した画像を示す画像情報を出力するカメラ12と、入力した音声の強度に応じた音声信号を出力する2個のマイク14、16と、カメラ12より出力された画像情報に対して各種の画像処理を行う画像処理部18と、話者が発話している否かの判別に用いる閾値を決定する閾値決定部20と、画像処理部18によって処理された情報に基づいて撮像された話者が発話している発話区間の検出を行う発話区間検出部22と、マイク14から出力された音声信号に基づいて音声認識を行う音声認識部24と、を備えている。
As shown in the figure, the speech recognition apparatus 10 has a built-in CCD (Charge Coupled Device) image sensor, and outputs a
カメラ12は、話者が所定位置に位置した際に、当該話者の顔を所定サイズ範囲内で撮像可能な位置に設置されている。マイク14は、前記所定位置に位置した話者が発話した音声を集音可能な位置に設置されている。マイク16は、周囲の騒音を集音するため、前記所定位置から所定距離だけ離れた位置に設置されている。
The
カメラ12は、前記所定位置に位置した話者の顔を、例えば、毎秒30フレームで連続的に撮像するものとされており、撮像によって得られた各フレーム画像を示す画像情報を画像処理部18へ順次出力する。
The
マイク14は、所定位置に位置した話者が発声した音声を集音するものとされており、話者が発声した音声を示す音声信号を閾値決定部20及び音声認識部24へそれぞれ出力する。
The
マイク16は、周囲の騒音を集音するものとされており、騒音を示す音声信号を閾値決定部20へ出力する。
The
画像処理部18は、カメラ12から順次入力される各画像情報により示される各フレーム画像に基づいて唇の形状が変形した度合いを示す変形量を順次導出する。なお、本実施の形態に係る画像処理部18は、この変形量として、順次入力される各画像情報により示される各フレーム画像に含まれる話者の唇形状を特定し、入力された画像情報により示されるフレーム画像とその画像情報の直前に入力された1または複数の画像情報により示される各画像フレームの唇形状を比較することにより唇の変動量Eを導出している。この唇の変動量Eを導出する技術は、本出願人が特願2005−262751に提案しているので、ここでの詳細な説明を省略する。なお、画像処理部18は、唇の変動量Eに代えて、上述した特許文献1に記載のように、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値を上記変形量として導出するものとしてもよい。
The
画像処理部18は、導出した変動量Eを示す変動量情報を閾値決定部20及び発話区間検出部22へ順次出力する。
The
また、画像処理部18は、フレーム画像内での話者の顔領域のサイズに応じてカメラ12から話者までの距離を仮定した距離情報を不図示の記憶部に予め記憶しており、当該距離情報に基づいて、順次入力される画像情報により示される各フレーム画像内の話者の顔領域の大きさからカメラ12から話者までの距離dを導出する。なお、本実施の形態では、画像処理部18に距離情報を予め記憶しておき、フレーム画像内での話者の顔領域の大きさから距離dを導出するものとしたが、例えば、カメラ12の他に当該カメラ12から所定距離を隔てて同じ領域を撮像するカメラを設け、画像処理部18が当該2台のカメラにより撮像された画像からステレオ法により距離dを導出するものとしてもよく、また、例えば、レーザーレーダ等を用いて距離dを導出するものとしてもよい。
Further, the
さらに、画像処理部18は、カメラ12から順次入力される画像情報により示される各フレーム画像内での話者の顔領域に対して、固有空間法等によるパターンマッチングを行うことにより、カメラ12に対して話者の顔が正面を向いている場合を基準として、顔が水平方向に回転した水平回転角度θ(所謂、パン角。)及び垂直方向に回転した垂直回転角度φ(所謂、チルト角。)を導出している。なお、本実施の形態では、固有空間法によるパターンマッチングを行うことによりカメラ12に対する話者の顔の向きを導出しているが、その他のパターンマッチング技術等の技術を用いて話者の顔の向きを導出するものとしてもよい。
Furthermore, the
画像処理部18は、導出した距離d、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部20へ出力する。
The
閾値決定部20は、後述する閾値決定処理を行って、画像処理部18から入力された話者状態情報及び変動量情報によりそれぞれ示される距離d、水平回転角度θ、垂直回転角度φ、変動量Eや、マイク14から入力された話者の音声を示す音声信号の強度iv、マイク16より入力する騒音を示す音声信号の強度ie、後述する音声認識部24から入力される尤度情報により示される尤度pに基づいて、発話区間の判別に用いる閾値EThを決定するものとされており、決定した閾値EThを示す閾値情報を発話区間検出部22へ出力する。
The threshold
発話区間検出部22は、閾値決定部20より閾値情報を入力されたことをトリガーとして、閾値決定部20より入力した閾値情報により示される閾値EThを用いて、画像処理部18より入力される変動量情報により示される変動量Eを判定して発話区間検出信号の出力を開始する。発話区間検出部22は、変動量Eが閾値ETh以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部24へ出力し、変動量Eが閾値ETh未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部24へ出力する。
The utterance
音声認識部24は、発話区間検出部22から発話区間検出信号が入力している場合、当該発話区間検出信号が発話区間であることを示している間のみ、マイク14より入力される音声信号により示される音声の認識を行って文字データに変換し、発話区間検出部22からの発話区間検出信号が未入力の場合、音声信号により示される音声を順次認識して文字データに変換する。
When the speech segment detection signal is input from the speech
また、音声認識部24は、音声を認識して文字データに変換する際に、変換した文字データの認識精度を示す尤度pを導出する。この尤度pとは、認識した結果のもっともらしさを示す値である。本実施の形態に係る音声認識部24は、音声を認識すると、例えば、「私」「若い」「たわし」などの変換候補毎にそれぞれに尤度pを導出して最も尤度の高い変換候補に変換している。
Further, when the
音声認識部24は、変換した文字データを図示しない外部装置へ出力し、また、導出した尤度pを示す尤度情報を閾値決定部20へ出力する。
The
次に、本実施の形態に係る音声認識装置10の作用を説明する。 Next, the operation of the speech recognition apparatus 10 according to the present embodiment will be described.
カメラ12は、常時連続的に撮像を行っており、発話者の顔が撮像領域内に入ると、当該発話者の顔を含んだ各フレーム画像を示す画像情報を画像処理部18へ順次出力する。
The
画像処理部18は、カメラ12から順次入力された画像情報に対して各種の画像処理を行って、当該画像情報により示されるフレーム画像に含まれる話者の唇の変動量Eや、カメラ12から話者までの距離d、カメラ12に対する話者の顔の水平回転角度θ及び垂直回転角度φを導出し、変動量Eを閾値決定部20及び発話区間検出部22へそれぞれ出力する共に、距離d、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部20へ出力する。
。
The
.
一方、マイク14及びマイク16は、常時音声の集音を行っており、マイク14は話者が発声した音声を示す音声信号を閾値決定部20及び音声認識部24へそれぞれ出力し、マイク16は周囲の騒音を示す音声信号を閾値決定部20へ出力する。
On the other hand, the
音声認識部24は、マイク14より入力した音声信号により示される音声を認識して文字データに変換すると共に尤度pを導出し、尤度情報を閾値決定部20へ出力する。
The
閾値決定部20は、カメラ12によって話者が撮像されて画像処理部18から最初に話者状態情報及び変動量情報が入力されると、以下に示す閾値決定処理を実行する。
When the
図2には、閾値決定部20において実行される閾値決定処理の流れを示すフローチャートが示されている。
FIG. 2 shows a flowchart showing the flow of threshold determination processing executed in the
同図のステップ100では、初期処理として、カウンタC及び最大の変動量を記憶するための変数MEをそれぞれ0に初期化する。
In
次にステップ102では、話者状態情報、変動量情報、尤度情報、音声信号の入力待ちを行い、次のステップ104では、入力された話者状態情報により示される距離d、水平回転角度θ、垂直回転角度φが以下の(1)式〜(3)式に示される全ての条件を満たしているか否かを判定することにより、カメラ12によって撮像された話者の顔の位置が発話の検出に適した範囲内にあるか否かを判定し、肯定判定となった場合はステップ106へ移行し、否定判定となった場合は上記ステップ102へ戻る。
Next, in
DMIN<d かつ d<DMAX ・・・(1)
θMIN<θ かつ θ<θMAX ・・・(2)
φMIN<φ かつ φ<φMAX ・・・(3)
D MIN <d and d <D MAX (1)
θ MIN <θ and θ <θ MAX (2)
φ MIN <φ and φ <φ MAX (3)
すなわち、カメラ12から話者までの距離dが遠い場合、話者の唇の動きを精度良く検出できず、また、距離dが極端に近い場合、顔の輪郭などを捉えきれなくなるなどにより、画像処理で唇を識別できなくなる場合がある。
That is, when the distance d from the
また、カメラ12に対して顔を正面とした場合を基準として、顔が水平方向や垂直方向に大きく傾いていた場合、話者の唇の動きを精度良く検出できない場合がある。
Further, when the face is greatly inclined in the horizontal direction or the vertical direction with respect to the case where the face is the front with respect to the
このため、本実施の形態では、カメラ12の解像度や撮像範囲等に応じて、フレーム画像内での話者の唇のサイズが検出に適したサイズとなるように範囲DMIN、DMAXを予め定めており、また、フレーム画像内で唇が精度良く検出できるように角度範囲θMIN、θMAX及びφMIN、φMAXを予め定めている。
Therefore, in the present embodiment, the ranges D MIN and D MAX are set in advance so that the size of the speaker's lips in the frame image becomes a size suitable for detection according to the resolution of the
ステップ106では、マイク14より入力された音声信号の強度iv、マイク16より入力された音声信号の強度ie、尤度情報により示される尤度pが以下の(4)式〜(6)式に示される全ての条件を満たしているか否かを判定することにより、話者が実際に発話状態であるか否かを判定し、肯定判定となった場合はステップ108へ移行し、否定判定となった場合は上記ステップ102へ戻る。
In
iV>IV ・・・(4)
p>P0 ・・・(5)
ie<Ie ・・・(6)
i V > I V (4)
p> P 0 (5)
i e <I e (6)
すなわち、マイク14より入力される音声の強度iVが低い場合や、尤度pが低い場合、話者が実際には発話していない場合がある。また、マイク16より入力される騒音の強度ieが高い場合、話者が発話した音声を十分に集音できない場合がある。
That is, when the intensity i V of the voice input from the
このため、本実施の形態では、話者が実際には発話していると判別できる強度に発話判定レベルIV及び発話判定尤度P0を予め定めており、また、話者が発話した音声を十分に集音できる強度に騒音判定レベルIeを予め定めている。 For this reason, in this embodiment, the speech determination level I V and the speech determination likelihood P 0 are determined in advance to such an intensity that it can be determined that the speaker is actually speaking, and the voice spoken by the speaker The noise judgment level Ie is determined in advance so that the sound can be sufficiently collected.
ステップ108では、入力した変動量情報により示される変動量Eが変数MEの値よりも大きいか否かを判定し、肯定判定となった場合はステップ110へ移行し、否定判定となった場合はステップ112へ移行する。
In
ステップ110では、変数MEに変動量Eの値を代入し、次のステップ112では、カウンタCの値をインクリメントする。
In
次のステップ114では、カウンタCの値が所定値N(例えば、1000)よりも大きくなったか否かを判定し、肯定判定となった場合はステップ116へ移行し、否定判定となった場合は上記ステップ102へ戻る。 In the next step 114, it is determined whether or not the value of the counter C has become larger than a predetermined value N (for example, 1000). If the determination is affirmative, the process proceeds to step 116, and if the determination is negative. Return to step 102 above.
すなわち、上述したステップ102〜ステップ114の処理を繰り返すことにより、変数MEには、本閾値決定処理が開始した以降に話者が実際に発話した際の唇の変動量Eの最大値が記憶される。
That is, by repeating the above-described processing of
次のステップ116では、変数MEの値を以下の(7)式に代入することにより、閾値EThを算出し、算出した閾値EThを示す閾値情報を発話区間検出部22へ出力して、本閾値決定処理は終了となる。
In the
ETh=α×ME・・・(7)
ただし、0<α<1
E Th = α × ME (7)
However, 0 <α <1
このように、本閾値決定処理によれば、話者が実際に発話した際の唇の変動量Eの最大値に基づいて閾値EThを定めているので、話者の発話を精度良く検出することができる。なお、本実施の形態では、αを0.3としている。 As described above, according to the threshold value determination process, the threshold value E Th is determined based on the maximum value of the lip variation amount E when the speaker actually speaks. be able to. In the present embodiment, α is set to 0.3.
発話区間検出部22は、閾値決定部20より閾値情報が入力されると、入力された当該閾値情報により示される閾値EThを用いて画像処理部18より入力される変動量情報により示される変動量Eの判定を開始し、変動量Eが閾値ETh以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部24へ出力する一方、変動量Eが閾値ETh未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部24へ出力する。
When threshold information is input from the
音声認識部24は、発話区間検出信号が入力されると、入力された当該発話区間検出信号により発話区間と判定されている間のみ入力した音声信号により示される音声を順次認識して文字データに変換し、変換した文字データを図示しない外部装置へ出力する。
When the speech segment detection signal is input, the
以上のように本実施の形態によれば、撮像手段(ここでは、カメラ12)により、話者の唇を含んだ画像を連続的に撮像し、音声集音手段(ここでは、マイク14)により、話者が発話した音声を集音し、変形量導出手段(ここでは、画像処理部18)により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出し、話者状態導出手段(ここでは、画像処理部18)により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、決定手段(ここでは、閾値決定部20)により、話者状態導出手段により導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間を検出しているので、精度よく発話区間を検出できる。 As described above, according to the present embodiment, the image including the speaker's lips is continuously captured by the image capturing unit (here, the camera 12), and the sound collecting unit (here, the microphone 14) is captured. Deformation indicating the degree to which the shape of the lips is deformed by collecting the speech uttered by the speaker and deformed by the deformation amount deriving means (here, the image processing unit 18) based on the images continuously captured by the imaging means. And the distance from the imaging unit to the speaker and the orientation of the speaker's face relative to the imaging unit based on the image captured by the imaging unit by the speaker state deriving unit (here, the image processing unit 18). The distance derived by the speaker state deriving unit is within a predetermined range and the derived face orientation is within a predetermined angle range with respect to the imaging unit. Together with sound collection means When the intensity of the received voice is equal to or higher than a predetermined level, a threshold value of the deformation amount used for discrimination of the utterance section in which the speaker is speaking is determined and detected based on the deformation amount derived by the deformation amount deriving means. Since the utterance section is detected from the deformation amount derived by the deformation amount deriving means using the threshold value determined by the determining means, the utterance section can be detected with high accuracy.
また、本実施の形態によれば、周囲の騒音を集音する騒音集音手段(ここでは、マイク16)をさらに備え、決定手段は、さらに騒音集音手段により集音された騒音の強度が予め定められたレベル未満である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者の発話した音声を十分に集音して閾値が決定できる。 In addition, according to the present embodiment, noise collecting means (here, the microphone 16) that collects ambient noise is further provided, and the determining means further has the intensity of the noise collected by the noise collecting means. Since the threshold value is determined based on the deformation amount derived by the deformation amount deriving means when the level is lower than the predetermined level, the threshold value can be determined by sufficiently collecting the speech uttered by the speaker.
さらに、本実施の形態によれば、音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段(ここでは、音声認識部24)をさらに備え、決定手段は、さらに音声認識手段より出力された精度情報により示される認識精度が予め定められた精度以上である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者が発話した音声のうち認識精度の高い音声を発生した際の変動量に基づいて閾値が決定されるため、音声認識の精度が向上する。 Furthermore, according to the present embodiment, voice recognition means (here, voice recognition unit 24) is further provided that performs voice recognition of the voice collected by the voice sound collection means and outputs accuracy information indicating the recognition accuracy. The determining means further determines a threshold based on the deformation amount derived by the deformation amount deriving means when the recognition accuracy indicated by the accuracy information output from the speech recognition means is equal to or higher than a predetermined accuracy. Therefore, the threshold value is determined based on the amount of fluctuation when speech with high recognition accuracy is generated among the speech uttered by the speaker, so that the accuracy of speech recognition is improved.
ところで、マイク14により話者が発話した音声以外の音源からの音を集音してしまう場合がある。このため、話者に対して2つ以上のマイク14を所定間隔を隔て水平に配置して、閾値決定部20において各マイク14により集音された音声信号の強度の差からカメラ12に対する音源の水平方向の角度ψiを推定すると共に、画像処理部18において、カメラ12から順次入力される画像情報により示される各フレーム画像からカメラ12に対する話者の顔領域の水平方向の角度ψSをさらに導出して話者状態情報として閾値決定部20へ出力させるものとし、閾値決定部20において実行される閾値決定処理のステップ106において上述した(4)式〜(6)式に示される判定に加えて以下の(8)式の条件を満たしているか否かの判定を加えてもよい。
By the way, there is a case where sound from a sound source other than the voice uttered by the speaker is collected by the
|ψS−ψi|<Ψd ・・・(8) | Ψ S −ψ i | <ψ d (8)
すなわち、音源が話者であると判別できる角度に角度閾値Ψdを定めておき、推定された音源の角度ψiと導出された話者の顔領域の角度ψSとの差が当該角度閾値Ψd内である場合に音源が話者であると判定し、条件が満たされる場合の唇の変動量Eの値を変数MEに変動量Eに代入する。 That is, an angle threshold ψ d is set to an angle at which it can be determined that the sound source is a speaker, and the difference between the estimated angle ψ i of the sound source and the angle ψ S of the derived speaker face region is the angle threshold. If it is within Ψ d , it is determined that the sound source is a speaker, and the value of the amount of lip variation E when the condition is satisfied is substituted for the amount of variation E in the variable ME.
これにより、話者が発話した音声以外の音源からの音がマイク14で集音されて閾値EThを算出されてしまうことを防止することができる。
As a result, it is possible to prevent the threshold E Th from being calculated by collecting sound from the sound source other than the voice uttered by the speaker with the
さらに、画像処理部18は、各フレーム画像からカメラ12に対する話者の顔領域の水平方向の角度ψSに加えてカメラ12に対する話者の顔領域の垂直方向の角度ζSを導出することも可能であり、また、マイク14の個数や配置位置を変えることにより、閾値決定部20においてカメラ12に対する音源の垂直方向の角度ζiを推定するも可能である。このため、閾値決定処理のステップ106において、(8)式に代えて、あるいは、加えて以下の(9)式の条件を満たしているか否かの判定を行うようにしてもよい。
Further, the
|ζS−ζi|<Ζd ・・・(9) | Ζ S −ζ i | <Ζ d (9)
この角度閾値Ζdは、角度閾値Ψdと同様に、音源が話者であると判別できる角度に定めておけばよい。 The angle threshold Zeta d, similarly to the threshold angle [psi d, it is sufficient to set the angle that can be determined that the sound source is a speaker.
なお、本実施の形態では、閾値EThを唇の変動量Eの最大値の所定の割合とした場合について説明したが、本発明はこれに限定されるものではなく、例えば、閾値決定処理のステップ102〜ステップ114の1回のループ毎にそれぞれ求めらる変動量Eの平均値としてもよく、また、当該ループ毎にそれぞれ求めらる変動量Eの最小値としてもよい。
In the present embodiment, the case where the threshold value E Th is set to a predetermined ratio of the maximum value of the lip variation amount E has been described. However, the present invention is not limited to this, and for example, threshold value determination processing The average value of the fluctuation amount E obtained for each loop of
また、本実施の形態で説明した音声認識装置10の構成(図1参照。)は、一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。 The configuration of the speech recognition apparatus 10 described in this embodiment (see FIG. 1) is merely an example, and it goes without saying that the configuration can be appropriately changed without departing from the gist of the present invention.
また、本実施の形態で説明したる閾値決定処理の流れ(図2参照。)も一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。 Further, the flow of threshold value determination processing (see FIG. 2) described in the present embodiment is also an example, and it goes without saying that it can be changed as appropriate without departing from the gist of the present invention.
10 音声認識装置
12 カメラ
14 マイク
16 マイク
18 画像処理部
20 閾値決定部
22 発話区間判別部
24 音声認識部
DESCRIPTION OF SYMBOLS 10
Claims (5)
前記話者が発話した音声を集音する音声集音手段と、
前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、
前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、
前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、
前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、
を備えた発話検出装置。 Imaging means for continuously capturing images including the lips of the speaker;
Voice collecting means for collecting voice uttered by the speaker;
A deformation amount deriving unit for deriving a deformation amount indicating a degree of deformation of the shape of the lips based on images continuously captured by the image capturing unit;
Speaker state deriving means for deriving a distance from the imaging means to the speaker and an orientation of the speaker's face relative to the imaging means based on an image taken by the imaging means;
The distance derived by the speaker state deriving unit is within a predetermined range, and the direction of the derived face is within a predetermined angle range with respect to the imaging unit, and the sound collected by the sound collecting unit Determining means for deciding a threshold value of the deformation amount used for discrimination of the utterance section in which the speaker is speaking based on the deformation amount derived by the deformation amount deriving means when the intensity of the voice is equal to or higher than a predetermined level. When,
Detecting means for detecting an utterance section from the deformation amount derived by the deformation amount deriving means using the threshold value determined by the determining means;
An utterance detection device comprising:
前記決定手段は、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1記載の発話検出装置。 A noise collecting means for collecting ambient noise;
The determining means further sets the threshold based on the deformation amount derived by the deformation amount deriving means when the intensity of the noise collected by the noise sound collecting means is less than a predetermined level. The utterance detection device according to claim 1.
前記決定手段は、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1又は請求項2記載の発話検出装置。 Voice recognition means for performing voice recognition of the voice collected by the voice collection means and outputting accuracy information indicating the recognition accuracy;
The determining means is further configured based on the deformation amount derived by the deformation amount deriving means when the recognition accuracy indicated by the accuracy information output from the speech recognition means is equal to or higher than a predetermined accuracy. The utterance detection device according to claim 1 or 2, wherein a threshold value is determined.
各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、
前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、
前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項1乃至請求項3の何れか1項記載の発話検出装置。 The sound collecting means is composed of two or more microphones,
Sound source estimation means for estimating the direction of the sound source relative to the imaging means based on audio information collected by each microphone;
Speaker direction deriving means for deriving the direction of the speaker relative to the imaging means based on the image taken by the imaging means,
The determining means is further derived by the deformation amount deriving means when the difference between the direction of the sound source estimated by the sound source estimating means and the direction of the speaker derived by the speaker direction deriving means is within a predetermined range. The utterance detection device according to any one of claims 1 to 3, wherein the threshold is determined based on the deformed amount.
連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、
導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、
決定した前記閾値を用いて導出した前記変形量から発話区間を検出する
発話検出方法。 The image including the speaker's lips is continuously captured by the imaging means, and the voice spoken by the speaker is collected,
Deriving a deformation amount indicating the degree of deformation of the shape of the lips based on the continuously captured images, and the distance from the imaging means to the speaker based on the images and the speaker's face relative to the imaging means The direction of
Deformation amount derived when the derived distance is within a predetermined range, the orientation of the derived face is within a predetermined angle range with respect to the imaging means, and the intensity of the collected sound is greater than or equal to a predetermined level And determining a threshold value of the deformation amount used for discrimination of the utterance section in which the speaker is speaking,
An utterance detection method for detecting an utterance section from the deformation amount derived using the determined threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341568A JP4715738B2 (en) | 2006-12-19 | 2006-12-19 | Utterance detection device and utterance detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341568A JP4715738B2 (en) | 2006-12-19 | 2006-12-19 | Utterance detection device and utterance detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152125A JP2008152125A (en) | 2008-07-03 |
JP4715738B2 true JP4715738B2 (en) | 2011-07-06 |
Family
ID=39654327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006341568A Expired - Fee Related JP4715738B2 (en) | 2006-12-19 | 2006-12-19 | Utterance detection device and utterance detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4715738B2 (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101041039B1 (en) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | Method and Apparatus for space-time voice activity detection using audio and video information |
JP5323770B2 (en) * | 2010-06-30 | 2013-10-23 | 日本放送協会 | User instruction acquisition device, user instruction acquisition program, and television receiver |
JP6276132B2 (en) * | 2014-07-30 | 2018-02-07 | 株式会社東芝 | Utterance section detection device, speech processing system, utterance section detection method, and program |
JP6230726B2 (en) * | 2014-12-18 | 2017-11-15 | 三菱電機株式会社 | Speech recognition apparatus and speech recognition method |
CN105159111B (en) * | 2015-08-24 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | Intelligent interaction device control method and system based on artificial intelligence |
CN108154140A (en) | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | Voice awakening method, device, equipment and computer-readable medium based on lip reading |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
JP7351105B2 (en) * | 2018-06-21 | 2023-09-27 | カシオ計算機株式会社 | Voice period detection device, voice period detection method, program, voice recognition device, and robot |
JP7331523B2 (en) * | 2019-07-24 | 2023-08-23 | 富士通株式会社 | Detection program, detection method, detection device |
CN112578338B (en) * | 2019-09-27 | 2024-05-14 | 阿里巴巴集团控股有限公司 | Sound source positioning method, device, equipment and storage medium |
CN112581981B (en) * | 2020-11-04 | 2023-11-03 | 北京百度网讯科技有限公司 | Man-machine interaction method, device, computer equipment and storage medium |
CN113194333B (en) * | 2021-03-01 | 2023-05-16 | 招商银行股份有限公司 | Video editing method, device, equipment and computer readable storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844385A (en) * | 1994-08-02 | 1996-02-16 | Sanyo Electric Co Ltd | Noise section detecting device |
JP2000338987A (en) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | Utterance start monitor, speaker identification device, voice input system, speaker identification system and communication system |
JP2005276230A (en) * | 2005-04-18 | 2005-10-06 | Toshiba Corp | Image recognition apparatus |
JP2006039267A (en) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | Voice input device |
JP2006208751A (en) * | 2005-01-28 | 2006-08-10 | Kyocera Corp | Content of vocalization recognition device |
-
2006
- 2006-12-19 JP JP2006341568A patent/JP4715738B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844385A (en) * | 1994-08-02 | 1996-02-16 | Sanyo Electric Co Ltd | Noise section detecting device |
JP2000338987A (en) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | Utterance start monitor, speaker identification device, voice input system, speaker identification system and communication system |
JP2006039267A (en) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | Voice input device |
JP2006208751A (en) * | 2005-01-28 | 2006-08-10 | Kyocera Corp | Content of vocalization recognition device |
JP2005276230A (en) * | 2005-04-18 | 2005-10-06 | Toshiba Corp | Image recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2008152125A (en) | 2008-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4715738B2 (en) | Utterance detection device and utterance detection method | |
US6185529B1 (en) | Speech recognition aided by lateral profile image | |
JP4847022B2 (en) | Utterance content recognition device | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
KR100820141B1 (en) | Apparatus and Method for detecting of speech block and system for speech recognition | |
JP4204541B2 (en) | Interactive robot, interactive robot speech recognition method, and interactive robot speech recognition program | |
JP4286860B2 (en) | Operation content determination device | |
WO2016098228A1 (en) | Speech recognition apparatus and speech recognition method | |
WO2019044157A1 (en) | Sound pickup device, sound pickup method, and program | |
CN107221324B (en) | Voice processing method and device | |
JP2011191423A (en) | Device and method for recognition of speech | |
JP4825552B2 (en) | Speech recognition device, frequency spectrum acquisition device, and speech recognition method | |
JP2006251266A (en) | Audio-visual coordinated recognition method and device | |
JP2012242609A (en) | Voice recognition device, robot, and voice recognition method | |
JP7515121B2 (en) | Speech activity detection device, speech activity detection method, and speech activity detection program | |
JP2018087838A (en) | Voice recognition device | |
JP2014060491A (en) | Viewing situation determination device, identifier construction device, viewing situation determination method, identifier construction method, and program | |
JP2019049829A (en) | Target section determination device, model learning device and program | |
JP2005165887A (en) | Word recognition device | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
KR20170052082A (en) | Method and apparatus for voice recognition based on infrared detection | |
JP2021162685A (en) | Utterance section detection device, voice recognition device, utterance section detection system, utterance section detection method, and utterance section detection program | |
JP4017748B2 (en) | Speech rate measuring system, method and recording medium | |
JP5465166B2 (en) | Utterance content recognition device and utterance content recognition method | |
CN114586374A (en) | Sound collecting device and sound collecting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090703 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110314 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4715738 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |