JP7515121B2 - 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム - Google Patents
発話区間検出装置、発話区間検出方法、および発話区間検出プログラム Download PDFInfo
- Publication number
- JP7515121B2 JP7515121B2 JP2021526069A JP2021526069A JP7515121B2 JP 7515121 B2 JP7515121 B2 JP 7515121B2 JP 2021526069 A JP2021526069 A JP 2021526069A JP 2021526069 A JP2021526069 A JP 2021526069A JP 7515121 B2 JP7515121 B2 JP 7515121B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- lip
- speech
- acoustic data
- lip shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 83
- 230000000694 effects Effects 0.000 title claims description 65
- 230000001755 vocal effect Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000004704 glottis Anatomy 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
- G06F2218/10—Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Description
本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を検出するための装置、方法、およびプログラムに関する。
例えば、特許文献1には、カメラによって取得された画像(画像データ)に写る発話者の口唇形状の変化に基づいて、マイクによって集音された音響(音響データ)における発話者の音声の発話区間(発話区間)を検出する装置および方法が開示されている。
しかしながら、特許文献1に記載された装置および方法の場合、カメラの撮影範囲で発話者が、歩行している、頭部を動かしているなど運動している場合、そのカメラの撮影画像データにおける発話者の口唇領域を抽出する精度が低下する。その結果、発話者が音声を発声していない音響データの区間を発話区間として誤検出するなど、発話区間の検出精度が低下する可能性がある。
そこで、本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することを課題とする。
本開示の一態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇形状を推定する第11の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定する第2の口唇形状推定部と、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇形状を推定する第11の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定する第2の口唇形状推定部と、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
また、本開示の別の態様によれば、
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第1の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第2の口唇形状の変化を推定し、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおける前記発話区間を検出する、発話区間検出方法が提供される。
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第1の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第2の口唇形状の変化を推定し、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおける前記発話区間を検出する、発話区間検出方法が提供される。
さらに、本開示のさらに別の態様によれば、
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第1の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定させ、および
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラムが提供される。
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第1の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定させ、および
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラムが提供される。
加えて、本開示の異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の開口度を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の開口度を算出する第2の口唇形状推定部と、
前記第1の開口度の変化と前記第2の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
発話者の音声を含む音響データに基づいて前記発話者の第1の開口度を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の開口度を算出する第2の口唇形状推定部と、
前記第1の開口度の変化と前記第2の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
さらに加えて、本開示のさらに異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇運動量を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇運動量を算出する第2の口唇形状推定部と、
前記第1の口唇運動量と第2の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
発話者の音声を含む音響データに基づいて前記発話者の第1の口唇運動量を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇運動量を算出する第2の口唇形状推定部と、
前記第1の口唇運動量と第2の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。
本開示によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
以下に、本開示の一実施の形態に係る発話区間検出装置について図面を参照しながら説明する。
図1は、本開示の一実施の形態に係る発話区間検出装置の構成を概略的に示している。
図1に示す本実施の形態に係る発話区間検出装置10は、マイクデバイス12によって取得された複数の発話者P1、P2の音声を含む音響データSdにおいて、発話者P1、P2それぞれが音声を発声している区間である発話区間を検出するように構成されている。そのために、発話区間出装置10は、カメラデバイス14によって取得され、複数の発話者P1、P2の顔が少なくとも写る画像データIdを使用するように構成されている。
図1に示すように、本実施の形態に係る発話区間検出装置10には、マイクデバイス12とカメラデバイス14が接続される。発話区間検出装置10は、そのマイクデバイス12からの音響データSdが入力される音響データ入力部20と、カメラデバイス14からの画像データIdが入力される画像データ入力部22とを有する。
また、発話区間検出装置10は、音響データ入力部20に入力された音響データSdに基づいて、発話者P1、P2の口唇形状(第1の口唇形状)を推定する第1の口唇形状推定部24と、画像データ入力部22に入力された画像データIdに基づいて、発話者P1、P2の口唇形状(第2の口唇形状)を推定する第2の口唇形状推定部26とを有する。さらに、発話区間検出装置10は、第1の口唇形状推定部24によって推定された口唇形状の変化と第2の口唇形状推定部26によって推定された口唇形状の変化に基づいて音響データSdにおける発話区間を検出する発話区間検出部28とを有する。
本実施の形態の場合、発話区間検出装置10はさらに、検出した発話区間をユーザに対して出力する発話区間出力部30と、音響データSdのSN比を算出するSN比算出部32と、画像データIdに基づいて発話者P1、P2の運動量を算出する運動量算出部34とを有する。
このような発話区間検出装置10は、例えば、CPUなどのプロセッサとハードディスクなどの記憶デバイスとを備えるパーソナルコンピュータによって実現される。この場合、発話区間検出装置10は、マイクデバイス12とカメラデバイス14に接続するための外部接続端子を備える、または、マイクデバイス12とカメラデバイス14を備えている。その記憶デバイスには、プロセッサを、第1の口唇形状推定部24、第2の口唇形状推定部26、発話区間検出部28、SN比算出部32、および運動量算出部34として機能させるための発話区間検出プログラムが保存されている。また、記憶デバイスには、音響データSd、画像データId、および発話区間を検出するために作成された中間データなどが記憶される。
また例えば、発話区間検出装置10は、マイクデバイス12とカメラデバイス14とを一体的に備えるとともに、プロセッサとメモリなどの記憶デバイスとを備えるスマートフォンなどの携帯端末であってもよい。例えば、携帯端末を発話区間検出装置10として機能させるための発話区間検出プログラムが、携帯端末の記憶デバイスにインストールされる。
マイクデバイス12は、発話者P1、P2が居る空間(例えば会議室)内の音響を集音し、その集音した音響を音響データSdとして発話区間検出装置10に出力する。マイクデバイス12は、図2に示すように、音響データSdとして、波形データを出力する。なお、図2に一例として示す音響データは、発話者が順番に「a」、「i」、「u」、「e」、「o」と発声している発話区間を含んでいる。また、ノイズが波形データ全体に重畳している。
カメラデバイス14は、発話者P1、P2を撮影するデバイスであって、発話者P1、P2の顔が少なくとも撮影範囲に入るように設置されている。また、カメラデバイス14は、発話者P1、P2の顔が少なくとも写る複数の画像データIdを作成し、その作成した画像データIdを発話区間検出装置10に出力する。
ここからは、図1に示す本実施の形態に係る発話区間検出装置10の各構成要素の詳細について説明する。
発話区間検出装置10の音響データ入力部20は、マイクデバイス12から音響データSdを受け取り、その音響データSdを第1の口唇形状推定部24とSN比算出部32とに出力する。
発話区間検出装置10の第1の口唇形状推定部24は、音響データSdに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第1の口唇形状推定部24は、音響データSdに基づいて発話者の声道形状を分析する声道形状分析部24Aと、分析された声道形状に基づいて口唇の開口度を分析する開口度分析部24Bとを含んでいる。
数式1において、S(z)は、集音開始から経過時間tが経過したタイミングでの振幅S(t)をz変換して算出される。
声道音源モデルとして線形予測モデル(LPCモデル)を用いた場合、音声波形(音声信号)のある標本値s(n)は、それより前のp個の標本値から予測される。標本値s(n)は、下記の数式2のように表すことができる。
U(z)は、同一タイミングでの音源信号u(t)のz変換であり、S(z)A(z)により算出することができる。
以上の処理により集音開始から経過時間tが経過したタイミングでの声道形状1/A(z)が算出される。なお、本実施の形態の場合、声道形状1/A(z)には、PARCOR係数が用いられる。
数式4において、kiはi次のPARCOR係数であって、Aiはi番目の声道断面積である。なお、AN+1=1である。
図3は、発声中の声道の複数の領域における声道断面積の一例を示す図である。
開口度分析部24Bは、図3に示すように、まず、声門から口唇までの声道を11個の領域に分割し、口唇から数えてi番目の声道断面積Aiを算出する。A1が口唇での声道断面積を示し、A11が声門での声道断面積を示している。
数式5に示すように、開口度Csは、1番目(口唇)からT番目の領域それぞれについての声道断面積の和である。Tは1~5の範囲で設定され、本実施の形態の場合、T=3である。
図4は、第1の口唇形状推定部24によって算出された、すなわち音響データSdに基づいて算出された口唇の開口度の変化を示す図である。なお、図4に示す開口度の変化は、図2に示す音響データに基づいて算出されたものである。
図2および図4を比較すると、相対的に大きく口をあけて発声する「a」および「e」のタイミングでは開口度Csは大きく算出され、相対的に小さく口を開けて発声する「i」、「u」、および「o」のタイミングでは開口度Csが小さく算出されている。また、発声していないタイミングでは、開口度Csは、実質的にゼロである。したがって、音響データSdに基づいて口唇の開口度Csが適切に算出されていることが分かる。ただし、本実施の形態のように、複数の発話者P1、P2の音声が音響データSdに含まれている場合、算出された開口度Csがいずれの発話者のものであるかはわからない。
図1に戻って、第1の口唇形状推定部24によって算出された開口度Cs(そのデータ)は、詳細は後述する発話区間検出部28に出力される。
発話区間検出装置10の画像データ入力部22は、カメラデバイス14から画像データIdを受け取り、その画像データIdを第2の口唇形状推定部26と運動量算出部34とに出力する。
発話区間検出装置10の第2の口唇形状推定部26は、画像データIdに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第2の口唇形状推定部26は、画像データIdにおける発話者の口唇領域を抽出する口唇抽出部26Aと、抽出した口唇領域に基づいて口唇の開口度を算出する開口度算出部26Bとを含んでいる。
口唇抽出部26Aは、画像データId内で発話者P1、P2の口唇が写る領域(口唇領域)を特定して抽出する。
図5は、発話者の口唇が写る画像データの一例を示している。
図5に示すように、口唇抽出部26Aは、画像データIdにおいて発話者P1、P2の口唇Lが写る口唇領域Lrを特定して抽出し、図6に示すような口唇が全体にわたって写る口唇画像データLdを作成する。
なお、カメラデバイス14と発話者P1、P2それぞれとの間の距離によって画像データIdにおける口唇の大きさが異なるため、作成された口唇画像データLdの大きさを正規化してもよい。その正規化のために、口唇画像データLdは、例えば、画像データIdにおける発話者P1、P2の顔が写る顔領域Frを特定して抽出し、その顔領域Frの大きさと基準の顔領域の大きさとの比率を算出し、その比率に基づいてリサイズされてもよい。
開口度算出部26Bは、口唇抽出部26Aによって作成された口唇画像データLdに基づいて、口唇の開口度Ciを算出する。本実施の形態の場合、開口度Ciは、図6に示すように、口唇画像データLdにおける上唇Ltと下唇Lbとの間の距離d1と口角間距離d2との積である。あるいは、単に上唇Ltと下唇Lbとの間の距離d1により開口度Ciとしてもよい。
なお、上述したように、口唇画像データLdの大きさが正規化されている場合、口唇画像データLdにおいて上唇Ltと下唇Lbとに囲まれた領域内の画素数を、開口度Ciとして算出してもよい。
図7は、口唇形状算出部26によって算出された、すなわち画像データIdに基づいて算出された口唇の開口度の変化を示す図である。なお、図7に示す開口度の変化は、図2に示す音響データSdと同期するカメラデバイス14の画像データ(動画データ)に基づいて算出されたものである。
図2および図7を比較すると、相対的に大きく口をあけて発声する「a」および「e」のタイミングでは開口度Ciは大きく算出され、相対的に小さく口を開けて発声する「i」、「u」、および「o」のタイミングでは開口度Ciが小さく算出されている。したがって、開口度Ciが適切に算出されていることが分かる。
図1に戻って、第2の口唇形状推定部26によって算出された開口度Ci(そのデータ)は、発話区間検出部28に出力される。
なお、本実施の形態のように、複数の発話者P1、P2がカメラデバイス14によって撮影される場合、発話者P1、P2それぞれの口唇の開口度Ciが算出される。
発話区間検出部28は、第1の口唇形状推定部24によって算出された口唇の開口度Csと第2の口唇形状推定部26によって算出された口唇の開口度Ciとに基づいて、音響データSdにおける発話区間を検出する。そのために、発話区間検出部28は、相関値算出部28Aと、重み付け係数補正部28Bとを含んでいる。
数式6において、Cs(t)、Ci(t)、およびR(t)は、集音開始から経過時間tが経過したタイミングでの開口度Cs、Ci、およびRを示している。また、βおよびγは、重み付け係数(乗数)である。
発話区間検出部28は、音響データSdにおいて、相関値R(t)が所定のしきい値に比べて大きいタイミングを含む区間を、発話者P1、P2が口唇を動かして音声を発声している発話区間として検出する。例えば、図2に示すデータにおいては、集音開始をゼロ秒としたとき、約1.2~3.8秒の区間が発話区間として検出される。
相関値R(t)の値が所定のしきい値に比べて大きい場合には、すなわち、開口度Cs、Ciの両方が大きい場合には、発話者P1、P2が口唇を動かして音声を発声している確度が高い。
一方、相関値R(t)が所定のしきい値に比べて小さい場合、すなわち開口度Csおよび開口度Ciの少なくとも一方が小さい場合には、発話者P1、P2が口唇を動かして音声を発声している確度が低い。
例えば、開口度Csが大きく、開口度Ciが小さい場合には、カメラデバイス14の撮影範囲にいない人物の音声、例えば、発話者が居る部屋の外から聞こえる第三者の音声、テレビやラジオなどから聞こえる第三者の音声などを、マイクデバイス12が集音している可能性がある。
また例えば、開口度Csが小さく、開口度Ciが大きい場合には、発話者P1、P2が音声を発声することなく口唇を動かしている可能性がある。
したがって、相関値R(t)を用いることにより、発話区間検出部28は、音響データSdにおいて発話者P1、P2が音声を発声している発話区間を高い確度で検出することができる。
なお、図1に示すように、複数の発話者P1、P2がカメラデバイス14によって撮影される場合、それぞれの開口度Ciを用いて相関値Rを算出することにより、発話者P1、P2それぞれの発話区間を高い確度で検出することができる。
また、本実施の形態の場合、発話区間検出部28は、開口度Cs、Ciそれぞれの信頼度を考慮して相関値Rを算出するように構成されている。そのために、図1に示すように、SN比算出部32と運動量算出部34が、発話区間検出装置10に含まれている。
SN比算出部32は、音響データSdのSN比を算出し、その算出したSN比を発話区間検出部28に出力する。
発話区間検出部28の重み付け係数補正部28Bは、SN比が所定のしきいSN比に比べて低い場合、相関値R(t)を算出するための上述の数式6において、開口度Ciを開口度Csに比べて重み付けする。すなわち、SN比が低い音響データSdに基づいて算出された開口度Csは信頼度が低いので、画像データIdに基づいて算出された開口度Ciを重み付けする。例えば、上述の数式6における開口度Csの乗数である重み付け係数βを小さくする補正するとともに、開口度Ciの乗数である重み付け係数γを大きく補正する。これにより、発話区間検出部28は、高い信頼度を備えた相関値R(t)を算出することができる。
運動量算出部34は、画像データIdに写る発話者P1、P2の身体の少なくとも一部分に基づいて、発話者P1、P2の運動量を算出する。例えば、画像データIdにおける頭部の変位量を発話者P1、P2の運動量として、運動量算出部34は算出する。算出した運動量は、発話区間検出部28に出力される。
発話区間検出部28の重み付け係数補正部28Bは、運動量が所定のしきい運動量に比べて大きい場合、相関値R(t)を算出するための上述の数式6において、開口度Csを開口度Ciに比べて重み付けする。すなわち、運動量が大きい場合には、画像データIdにおける口唇領域の抽出精度が低下し、そのような口唇領域に基づいて算出された開口度Ciは信頼度が低い。そのため、音響データSdに基づいて算出された開口度Csを重み付けする。例えば、上述の数式6における開口度Csの乗数である重み付け係数βを大きく補正するとともに、開口度Ciの乗数である重み付け係数γを小さく補正する。これにより、発話区間検出部28は、高い信頼度を備えた相関値R(t)を算出することができる。
発話区間検出部28によって検出された発話区間は、発話区間出力部30を介してユーザに対して出力される。発話区間出力部30は、例えば、発話区間検出装置10に接続されたディスプレイなどの表示デバイスに、図2に示す音響データSd(波形データ)を表示するとともに、発話区間検出部28によって検出された発話区間を表示する。また例えば、発話区間出力部30は、発話区間検出部28によって検出された発話区間の部分を音響データSdからトリミングし、音声データを作成し、その作成した音声データを出力する。
ここからは、音響データにおいて発話区間を検出するフローについて図8を参照しながら説明する。
図8は、音響データにおいて発話区間を検出する一例のフローを示すフローチャートである。
図8に示すように、発話区間検出装置10(その音響データ入力部20)は、ステップS100において、発話者P1、P2の音声を含む音響データSdを取得する。
ステップS110において、発話区間検出装置10(その第1の口唇形状推定部24の声道形状分析部24A)は、ステップS100で取得した音響データSdに基づいて発話者P1、P2の声道形状を分析する。
ステップS120において、発話区間検出装置10(その第1の口唇形状推定部24の開口度分析部24B)は、ステップS110で分析された声道形状に基づいて発話者P1、P2の口唇の開口度Csを分析する。
続くステップS130において、発話区間検出装置10(その画像データ入力部22)は、発話者P1、P2の口唇が写る画像データIdを取得する。
ステップS140において、発話区間検出装置10(その第2の口唇形状推定部26の口唇抽出部26A)は、ステップS130で取得した画像データIdにおいて口唇領域を特定して抽出する。
ステップS150において、発話区間検出装置10(その第2の口唇形状推定部26の開口度算出部26B)は、ステップS140で抽出した口唇領域に基づいて発話者P1、P2の口唇の開口度Ciを算出する。
ステップS160において、発話区間検出装置10は、SN比算出部32によって算出された音響データSdのSN比が所定のしきいSN比に比べて低いか否かを判定する。また、発話区間検出装置10は、運動量算出部34によって算出された発話者P1、P2の運動量が所定のしきい運動量に比べて大きいか否かを判定する。SN比が低いまたは運動量が大きい場合、ステップS170に進む。そうでない場合、ステップS170をスキップしてステップS180に進む。
ステップS170において、SN比が低いまたは運動量が大きいため、発話区間検出装置10(その発話区間検出部28の重み付け係数補正部28B)は、相関値R(t)の算出式(数式6)の重み付け係数を補正する。
ステップS180において、発話区間検出装置10(その発話区間検出部28の相関値算出部28A)は、相関値R(t)を算出する。
ステップS190において、発話区間検出装置10(その発話区間検出部28)は、ステップS180で算出された相関値R(t)に基づいて、音響データSdにおける発話区間を検出する。
ステップS200において、発話区間検出装置10(その発話区間出力部30)は、ステップS190で検出された発話区間をユーザに対して出力する。
なお、音響データSdに基づいて開口度Csを算出するステップ(ステップS100~S120)の前にまたは同時に、画像データIdに基づいて開口度Ciを算出するステップ(ステップS130~S150)を実行してもよい。
以上のような本実施の形態によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。
具体的に説明すると、音響データにおける発話区間を判断するときに、音響データに基づいて推定された発話者の口唇形状(具体的には算出された開口度Cs)の変化と画像データに基づいて推定された発話者の口唇形状(具体的には算出された開口度Ci)の変化、すなわち2つの判断材料が用いられる。したがって、画像データに基づいて推定された発話者の口唇形状の変化のみを用いて音響データにおける発話区間を検出する場合に比べて、高い精度で発話区間を検出することができる。
以上、上述の実施の形態を挙げて本開示を説明したが、本開示の実施の形態はこれに限定されない。
例えば、上述の実施の形態の場合、数式6に示す算出式を用いて、音響データSdに基づいて算出された開口度Csと画像データIdに基づいて算出された開口度Ciとの相関を示す相関値Rが算出されている。しかしながら、相関値の算出式はこれに限らない。
数式8の算出式を用いる場合、まず、音響データSdが複数の区間に分割される。分割した各区間それぞれについて、相関値Rが算出される。そして、相関値Rが所定のしいき値に比べて高い少なくとも1つの区間が、発話区間として検出される。
なお、開口度Cs、Ciの信頼度が高い場合、例えば、発話者が居る空間が静かである場合、画像データにおいて口唇領域を抽出する精度が高い場合(画像処理能力が高い場合)などの場合には、重み付け係数β、γの少なくとも一方を省略してもよい。
また、上述の実施の形態の場合、音響データSdに基づいて算出された開口度Csと画像データIdに基づいて算出された開口度Ciの相関の程度を示す相関値Rを用いて、音響データSdにおける発話区間が検出されている。しかしながら、本開示の実施の形態はこれに限らない。
例えば、図4に示すような音響データSdに基づいて算出された開口度Csの波形と図7に示すような画像データに基づいて算出された開口度Ciの波形とを比較し、それらの一致の程度に基づいて発話区間を検出してもよい。
さらに、上述の実施の形態の場合、ノイズを含んだ状態の音響データSdに基づいて発話者の口唇形状が推定(具体的には開口度Csを算出)されている。これに代わって、ノイズフィルタなどによってノイズが除去された音響データを用いて発話者の口唇形状を推定してもよい。この場合、高い精度で口唇形状を推定することができる。また、図1に示すSN比算出部32および重み付け係数補正部30Bを省略することができる。
さらにまた、上述の実施の形態の場合、音響データSd全体にわたって、発話者の口唇形状が推定(具体的には開口度Csを算出)されている。すなわち、発話区間ではない範囲でも口唇形状が推定されている。これに代わって、口唇形状を推定する前に、音響データSdにおいて、発話区間が存在しうる範囲について見当をつけてもよい。例えば、音響データにおいて振幅が所定のしきい値に比べて大きい範囲に発話区間が存在しうると見当し、その範囲において口唇形状を推定してもよい。また例えば、音響データにおいて、周期性を有する範囲を発話区間が存在しうる範囲として見当してもよい。例えば自己相関関数が所定の値以上である範囲を、周期性を有する範囲としてもよい。
加えて、上述の実施の形態の場合、1つのマイクデバイス12で、複数の発話者P1、P2の音声を集音している。そのため、複数の発話者の音声がオーバーラップしてマイクデバイス12に集音される可能性がある。この対処として、マイクデバイスは、指向性が異なる複数の指向性マイクを含むマイクアレイであってもよい。指向性マイクそれぞれが一人の発話者に向いて集音し、複数の指向性マイクそれぞれが音響データを取得する。複数の音響データそれぞれから発話者の口唇形状が推定される。
加えてまた、上述の実施の形態の場合、音響データSdにおける発話区間は、音響データSdに基づいて算出された口唇の開口度Csと、画像データIdに基づいて算出された口唇の開口度Ciとを用いて検出される。しかしながら、本開示の実施の形態はこれに限らない。
例えば、画像データにおける発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、その発話者の口唇の動き量を算出してもよい。図2に示すように、発話者が複数の音を発声する場合、その音と音の間で口唇形状が変化する。また、複数の音からなるフレーズの場合、フレーズの開始(最初の音の開始タイミング)と終了後(最後の音の終了タイミング)にも口唇形状が変化する。したがって、画像データに基づいて、口唇形状を数値化したパラメータとして例えば上唇に対する下唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と音響データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。
また例えば、音響データから発話者の口唇の動き量を算出してもよい。図2を用いて説明すると、発話者が音を発すると、その音の開始タイミングと終了タイミングとで振幅が大きく変化する。その振幅の単位時間あたりの変化量は、口唇の単位時間あたりの動き量とみなすことができる。したがって、音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と画像データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。
さらに例えば、上述のように音響データに基づいて算出された口唇の動き量と画像データに基づいて算出された口唇の動き量とを用いて、音響データにおける発話区間を検出してもよい。
すなわち、本開示のある実施の形態は、広義には、発話者の音声を含む音響データに基づいて発話者の第1の口唇形状を推定し、また、発話者の顔が少なくとも写る画像データに基づいて発話者の第2の口唇形状を推定し、第1の口唇形状の変化と第2の口唇形状の変化に基づいて音響データにおいて発話者が音声を発声している発話区間を検出するものである。
なお、本実施の形態では開口度を線形予測分析に基づく声道形状により算出したが、これに限るものではなく、音声情報から口唇の開口度を算出する方法であればよい。例えば、ARX音声分析法により分析された伝達特性より開口度を算出するようにしてもよい。あるいは、発生された音声と口唇形状の関係をニューラルネット等の機械学習によりあらかじめ学習させておくことにより、音声から直接口唇形状を推定するようにしてもよい。
また、開口度分析部24Bは音響データから発話者の開口度の特徴量として開口度の変化量を運動量として算出してもよい。具体的には運動量は開口度の時間差分により算出することができる。同様に開口度算出部26Bは画像データから発話者の口唇の動き量を運動量として算出してもよい。具体的には口唇抽出部26Aにより抽出した口唇形状の時間差分により運動量を算出する。音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を運動量として算出し、算出した運動量としての時間変化と、画像データに基づいて算出された口唇の動き量である運動量の時間変化とを用いて、発話区間検出部28は発話区間を検出してもよい。具体的には相関算出部28Aは、開口度分析部24Bにより算出された音響データに基づく口唇の運動量の時間変化と、開口度算出部26Bにより算出された画像データに基づく口唇の運動量の時間変化の相関を所定の時間幅で算出することにより、時間変化の連動性を算出するようにしてもよい。
以上のように、本開示における技術の例示として、上述の実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、前記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、発話者の音声を含む音響データにおいて、その発話者が音声を発声している区間を特定する必要がある場合、例えば会議の議事録をとる必要がある場合などに適用可能である。
Claims (12)
- 発話者の音声を含む音響データに基づいて前記発話者の第1の口唇形状を推定する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定する第2の口唇形状推定部と、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。 - 前記第1の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第1の口唇形状を数値化した第1のパラメータとして口唇の開口度を算出し、
前記第2の口唇形状推定部が、前記画像データにおいて前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第2の口唇形状を数値化した第2のパラメータとして口唇の開口度を算出する、請求項1に記載の発話区間検出装置。 - 前記第1の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第1の口唇形状を数値化した第1のパラメータとして口唇の開口度を算出し、
前記第2の口唇形状推定部が、前記画像データにおける前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第2の口唇形状を数値化した第2のパラメータとして口唇の動き量を算出する、請求項1に記載の発話区間検出装置。 - 前記発話区間検出部が、前記第1のパラメータと前記第2のパラメータの相関の程度を示す相関値を算出し、算出された相関値が所定のしきい値に比べて大きい前記音響データの区間を前記発話区間として検出する、請求項2または3に記載の発話区間検出装置。
- 前記画像データには前記発話者の身体の少なくとも一部分が写り、
前記画像データにおける前記発話者の前記身体の少なくとも一部分に基づいて前記発話者の運動量を算出する運動量算出部をさらに有し、
前記発話区間検出部が、前記運動量が所定のしきい運動量に比べて大きい場合、前記第1のパラメータを前記第2のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項4に記載の発話区間検出装置。 - 前記音響データのSN比を算出するSN比算出部をさらに有し、
前記発話区間検出部が、前記SN比が所定のしきいSN比に比べて低い場合、前記第2のパラメータを前記第1のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項4に記載の発話区間検出装置。 - 前記音響データを取得するマイクデバイスと、
前記画像データを取得するカメラと、をさらに有する、請求項1から6のいずれか一項に記載の発話区間検出装置。 - 前記マイクデバイスが、指向性が異なる複数の指向性マイクを含むマイクアレイである、請求項7に記載の発話区間検出装置。
- 発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第1の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第2の口唇形状の変化を推定し、
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて、前記音響データにおける前記発話区間を検出する、発話区間検出方法。 - プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第1の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇形状を推定させ、および
前記第1の口唇形状の変化と前記第2の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラム。 - 発話者の音声を含む音響データに基づいて前記発話者の第1の開口度を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の開口度を算出する第2の口唇形状推定部と、
前記第1の開口度の変化と前記第2の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。 - 発話者の音声を含む音響データに基づいて前記発話者の第1の口唇運動量を算出する第1の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第2の口唇運動量を算出する第2の口唇形状推定部と、
前記第1の口唇運動量と第2の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019108910 | 2019-06-11 | ||
JP2019108910 | 2019-06-11 | ||
PCT/JP2020/022334 WO2020250828A1 (ja) | 2019-06-11 | 2020-06-05 | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020250828A1 JPWO2020250828A1 (ja) | 2020-12-17 |
JP7515121B2 true JP7515121B2 (ja) | 2024-07-12 |
Family
ID=73781425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021526069A Active JP7515121B2 (ja) | 2019-06-11 | 2020-06-05 | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220093102A1 (ja) |
JP (1) | JP7515121B2 (ja) |
CN (1) | CN113939871A (ja) |
WO (1) | WO2020250828A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7467370B2 (ja) * | 2021-03-05 | 2024-04-15 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
CN113345472B (zh) * | 2021-05-08 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP6301393B2 (ja) | 2016-04-28 | 2018-03-28 | 株式会社三共 | 遊技機 |
WO2019049494A1 (ja) | 2017-09-08 | 2019-03-14 | パナソニックIpマネジメント株式会社 | 収音装置、収音システム、収音方法、プログラム、及びキャリブレーション方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6332123B1 (en) * | 1989-03-08 | 2001-12-18 | Kokusai Denshin Denwa Kabushiki Kaisha | Mouth shape synthesizing |
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
US8831681B1 (en) * | 2010-01-04 | 2014-09-09 | Marvell International Ltd. | Image guided audio processing |
JP2013033103A (ja) * | 2011-08-01 | 2013-02-14 | Panasonic Corp | 声質変換装置および声質変換方法 |
US20170011554A1 (en) * | 2015-07-01 | 2017-01-12 | Survios, Inc. | Systems and methods for dynamic spectating |
US9853758B1 (en) * | 2016-06-24 | 2017-12-26 | Harman International Industries, Incorporated | Systems and methods for signal mixing |
JP7337699B2 (ja) * | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
TWI802115B (zh) * | 2021-11-30 | 2023-05-11 | 仁寶電腦工業股份有限公司 | 無人機的控制裝置及其控制方法 |
-
2020
- 2020-06-05 JP JP2021526069A patent/JP7515121B2/ja active Active
- 2020-06-05 CN CN202080042621.XA patent/CN113939871A/zh active Pending
- 2020-06-05 WO PCT/JP2020/022334 patent/WO2020250828A1/ja active Application Filing
-
2021
- 2021-12-01 US US17/539,499 patent/US20220093102A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP6301393B2 (ja) | 2016-04-28 | 2018-03-28 | 株式会社三共 | 遊技機 |
WO2019049494A1 (ja) | 2017-09-08 | 2019-03-14 | パナソニックIpマネジメント株式会社 | 収音装置、収音システム、収音方法、プログラム、及びキャリブレーション方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020250828A1 (ja) | 2020-12-17 |
CN113939871A (zh) | 2022-01-14 |
WO2020250828A1 (ja) | 2020-12-17 |
US20220093102A1 (en) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
Dov et al. | Audio-visual voice activity detection using diffusion maps | |
JP4715738B2 (ja) | 発話検出装置及び発話検出方法 | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
JP2011186351A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN112786052B (zh) | 语音识别方法、电子设备和存储装置 | |
JP7515121B2 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
Yoshinaga et al. | Audio-visual speech recognition using lip movement extracted from side-face images | |
WO2019171780A1 (ja) | 個人識別装置および特徴収集装置 | |
CN112071307A (zh) | 高龄老人不完整语音智能识别方法 | |
JP2010197998A (ja) | 音声信号処理システムおよび該システムを備えた自律ロボット | |
CN113921026A (zh) | 语音增强方法和装置 | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2019049829A (ja) | 目的区間判別装置、モデル学習装置、及びプログラム | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
Bredin et al. | Measuring audio and visual speech synchrony: methods and applications | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
Kratt et al. | Large vocabulary audio-visual speech recognition using the Janus speech recognition toolkit | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7515121 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |