JP7408898B2 - 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 - Google Patents

音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 Download PDF

Info

Publication number
JP7408898B2
JP7408898B2 JP2022043117A JP2022043117A JP7408898B2 JP 7408898 B2 JP7408898 B2 JP 7408898B2 JP 2022043117 A JP2022043117 A JP 2022043117A JP 2022043117 A JP2022043117 A JP 2022043117A JP 7408898 B2 JP7408898 B2 JP 7408898B2
Authority
JP
Japan
Prior art keywords
voice
lip movement
state
detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022043117A
Other languages
English (en)
Other versions
JP2022173183A (ja
Inventor
グオ、チハン
シュ、レンシン
ダイ、ニン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022173183A publication Critical patent/JP2022173183A/ja
Application granted granted Critical
Publication of JP7408898B2 publication Critical patent/JP7408898B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)

Description

本開示は、人工知能の技術分野に関し、特に、深層学習及びインテリジェント音声などの分野の音声エンドポイント検出方法、装置、電子機器、及び記憶媒体に関する。
近年、ヒューマンコンピュータインタラクション製品の応用がますます普及しており、銀行ホール、デパート、及び病院などで、ヒューマンコンピュータインタラクション製品がよく見られる。
正確な音声インタラクションを行うために、通常、収集された音声データに対して音声エンドポイント検出(VAD、Voice Activity Detection)を行う必要があり、音声エンドポイント検出結果の精度は、人間とコンピュータのインタラクションの成功率などに直接影響する。
現在、通常、トレーニングによって取得された音声検出モデルを使用して音声データに対して音声エンドポイント検出を行い、すなわち音声開始点と音声終了点の検出を行う。しかし、このような方式は、複雑なノイズ環境において、特に、ノイズが周囲の人の声(背景の人の声)である場合、検出効果は通常悪く、すなわち検出結果の精度が高くない。
本開示は、音声エンドポイント検出方法、装置、電子機器、及び記憶媒体を提供する。
音声エンドポイント検出方法は、
時間的に整列された音声データとビデオデータを取得するステップと、
トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うステップと、
前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップと、
第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするステップと、を含む。
音声エンドポイント検出装置は、取得モジュール、第1の検出モジュール、第2の検出モジュール、及び補正モジュールを含み、
前記取得モジュールは、時間的に整列された音声データとビデオデータを取得するために用いられ、
前記第1の検出モジュールは、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うために用いられ、
前記第2の検出モジュールは、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うために用いられ、
前記補正モジュールは、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするために用いられる。
電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行する。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体は、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
コンピュータプログラム製品は、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。
上記の開示された実施例は、以下のような利点または有益な効果を備え、音声検出モデルと唇の動き検出技術を組み合わせて、唇の動き検出結果を使用して音声検出モデルによって検出された音声開始点と音声終了点を補正することによって、音声エンドポイント検出結果の精度などを向上させる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の前記音声エンドポイント検出方法実施例のフローチャートである。 本開示の前記第1の検出に対応する各キーポイントの位置の概略図である。 図2に示す各キーポイントに対応する位置の概略図である。 本開示の前記音声あり状態と音声なし状態の変換方式の概略図である。 本開示の前記唇の動きあり状態と唇の動きなし状態の変換方式の概略図である。 本開示の前記音声エンドポイント検出方法の全体的な実現プロセスの概略図である。 本開示の前記音声エンドポイント検出装置の実施例700の構成構造の概略図である。 本開示の実施例を実施できる例示的な電子機器800の概略ブロック図である。
以下、図面に基づいて、本開示の例示な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び補正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
また、本明細書の用語「及び/又は」は、関連対象の関連関係のみを説明するものであり、3種類の関係が存在可能であることを表し、例えば、A及び/又はBは、Aのみが存在するか、A及びBが同時に存在するか、Bのみが存在するという3つの場合を表すことができる。符号「/」は、一般的に前後の関連対象が「又は」の関係であることを表すことを理解されたい。
図1は本開示の前記音声エンドポイント検出方法実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
ステップ101では、時間的に整列された音声データとビデオデータを取得する。
ステップ102では、トレーニングによって取得された音声検出モデルを使用して、音声データに対して音声開始点(vad_begin)と音声終了点(vad_end)の第1の検出を行う。
ステップ103では、ビデオデータに対して唇の動き開始点(lip_begin)と唇の動き終了点(lip_end)の第2の検出を行う。
ステップ104では、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とする。
分かることができることは、上記の方法の実施例に記載された解決策では、音声検出モデルと唇の動き検出技術を組み合わせて、唇の動き検出結果を使用して音声検出モデルによって検出された音声開始点と音声終了点を補正することによって、音声エンドポイント検出結果の精度などを向上させる。
実際の応用では、撮像装置(カメラなど)を備えた人間とコンピュータのインタラクション製品を使用して、同じシーンに対して音声データとビデオデータをそれぞれ収集することができ、例えば、ユーザaが人間とコンピュータのインタラクション製品と音声対話を行う場合、ユーザaの音声データ及びビデオデータをそれぞれ収集することができる。
収集された音声データとビデオデータについて、時間上からそれを整列することができる。また、音声データとビデオデータについて、異なる処理をそれぞれ行うことができる、その中、トレーニングによって取得された音声検出モデルを使用して、音声データに対して音声開始点と音声終了点の第1の検出を行い、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うことができる。
どのように第1の検出を行うのは、従来の技術である。図2は本開示の前記第1の検出に対応する各キーポイントの位置の概略図である。
図2に示すように、その中の21は音声開始点を表し、22は真の音声開始点(speech_begin)を表し、23は真の音声終了点(speech_end)を表し、24は音声終了点を表し、25は音声開始点が検出された時間/時刻(T_vad_begin_detected)を表し、26は音声終了点が検出された時間(T_vad_end_detected)を表し、音声開始点と音声終了点は、音声検出モデルを使用して検出された音声開始点と音声終了点を表し、真の音声開始点と比較すると、検出された音声開始点は、通常、300~500ms早くなり、当該値より大きい場合、導入された無効な音声が多くなり、インタラクション遅延などが多くなり、真の音声終了点と比較すると、検出された音声終了点は、通常、600~800ms遅くなり、当該値より小さい場合、誤判定しやすく、早期遮断をもたらし、当該値より大きい場合、無効な音声が増加して、インタラクション遅延が増加するなどになる。
図2に示すように、実際の応用では、音声開始点が検出された時間は、通常、真の音声開始点より約200ms遅れ、これは検出結果の精度を確保するために、一定の時間の音声を蓄積してそれに対して継続的に分析する必要があり、音声の開始点であるか否かを最終に決定して、短時間の突発的なノイズを音声などとして誤認することを避ける。音声開始点が検出された時間に、500~700(300+200~500+200)msをバックトラックし、検出された音声開始点として出力する。また、音声終了点が検出された時間に、検出された音声終了点を出力することができる。
音声データのヘッダにノイズが存在すると仮定し、当該ノイズは周囲の人の声であり、図3は図2に示す各キーポイントに対応する位置の概略図である。図3に示すように、その中の21~26が代表する意味は図2と同一であり、27はノイズを表す。第1の検出によって音声開始点と音声終了点を取得した後、ヘッダに周囲の人の声ノイズを導入し、そうすると、後続に音声開始点から音声終了点までの音声データを認識エンジンに送って認識する時、認識エラーを起こすことができ、人間とコンピュータのインタラクションの成功率などに影響を与えることを分かることができる。
このため、本開示に記載された解決策には唇の動き検出技術が導入され、音声検出モデルを使用して音声データに対して音声開始点と音声終了点の第1の検出を行う以外、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うこともできる。
本開示の一実施例では、トレーニングによって取得された唇の動き検出モデルを使用してビデオデータに対して第2の検出を行って、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得することができる。
どのようにトレーニングして唇の動き検出モデルを取得することは限定しない。例えば、人の顔検出技術などを使用して、ビデオデータ内の各フレーム画像内の人の顔画像を切り取ることができ、一般的に、各フレーム画像には1つの人の顔画像のみが含まれ、各人の顔画像内の人の顔唇部の唇形点をそれぞれ抽出することができ、各人の顔画像をそれぞれラベリングすることができ、動いている唇部は1としてラベリングし、そうでなければ0としてラベリングし、さらに、各人の顔画像の唇形点及び対応するラベリング結果を使用して唇の動き検出モデルのトレーニングを行うことができる。
第2の検出を行う時、同様な方式で唇形点を取得することができ、唇の動き検出モデルに入力することで、出力された1または0の検出結果を取得することができ、人の顔画像内の人の顔唇部が動いているかどうかを表すことができる。
一般的に、唇の動き開始点を決定することは、少なくとも5フレームの画像が必要であり、第1の検出の処理方式と類似し、これは誤判定を防止するためであり、すなわち唇の動きが一定時間持続することによって真の唇の動きとして見なされ、すなわち発話によって引き起こされる唇の動きは、他の原因によって短時間の唇の動きで検出エラーになることを防止する。
したがって、唇の動き開始点が検出された時間(T_lip_begin_detected)は、唇の動き開始点と比べて一定の遅延があり、前述の5フレームを例とし、フレーム率が20である場合、そうすると250msが遅延になり、バックトラックによって唇の動き開始点を取得することができる。
上記の方式で、唇の動き開始点と唇の動き終了点を正確かつ効率的に検出することができ、後続の処理に良好の基礎などを築くことができる。
取得された第1の検出結果と第2の検出結果について、第2の検出結果を使用して第1の検出結果を補正することができる。
このため、音声検出状態と唇の動き検出状態などのいくつかの状態を予め定義することができ、その中、音声検出状態は、音声あり状態(State_vad_speech)と音声なし状態(State_vad_no_speech)をさらに含むことができ、唇の動き検出状態は、唇の動きあり状態(State_lip)と唇の動きなし状態(State_no_lip)をさらに含むことができる。
具体的には、それぞれ以下のようである。
A、音声あり状態:音声開始点が検出された後から対応する音声終了点が検出される前までの時間内の状態であり、
B、音声なし状態:音声あり状態以外の時間内の状態、すなわち音声開始点が検出される前と音声終了点が検出された後の時間内の状態であり、
C、唇の動きあり状態:唇の動き開始点が検出された後から対応する唇の動き終了点が検出される前までの時間内の状態であり、
D、唇の動きなし状態:唇の動きあり状態以外の時間内の状態、すなわち唇の動き開始点が検出された前と唇の動き終了点が検出された後の時間内の状態である。
図4は本開示の前記音声あり状態と音声なし状態の変換方式の概略図である。図4に示すように、音声開始点が検出された場合、音声なし状態から音声あり状態に変換し、音声終了点が検出された場合、音声あり状態から音声なし状態に変換する。
図5は本開示の前記唇の動きあり状態と唇の動きなし状態の変換方式の概略図である。図5に示すように、唇の動き開始点が検出された場合、唇の動きなし状態から唇の動きあり状態に変換し、唇の動き終了点が検出された場合、唇の動きあり状態から唇の動きなし状態に変換する。
本開示の一実施例では、第2の検出結果を使用して第1の検出結果を補正する時、以下の処理方式を使用することができ、
1)音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出され、所定の時間要求に適合すると、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とすることができ、
2)音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である時、唇の動き終了点が検出された場合、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とすることができる。
方式1)では、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出された場合、そうすると所定の時間要求に適合するかどうかをさらに決定することができ、本開示の一実施例では、唇の動き開始点が検出された時間と、直前に音声開始点(すなわち現在の音声あり状態に対応する音声開始点)が検出された時間との間の差が所定の閾値より大きいかどうかを決定することができ、そうである場合、所定の時間要求に適合すると決定することができ、これに応じて、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とすることができる。
すなわち、強制的に切り分けることができ、検出された唇の動き開始点を直前に検出された音声開始点に対応する音声終了点及び新たな音声開始点とすることができる。
一般的に、上記の方式で処理した後に取得された直前に検出された音声開始点から対応する音声終了点までの音声データは、人間とコンピュータのインタラクションを行う人の声の前に出現されるノイズであり、ノイズを人間とコンピュータのインタラクションを行う人の声と切り分けることに相当し、音声開始点を再決定することによって、音声開始点検出結果の精度などを向上させる。
また、唇の動き開始点が検出されるため、唇の動き検出状態は、唇の動きなし状態から唇の動きあり状態に変換する。
方式2)では、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である時、唇の動き終了点が検出された場合、そうすると検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とすることができる。
すなわち強制的に切り分け、検出された唇の動き終了点を最新取得された音声開始点に対応する音声終了点及び新たな音声開始点とすることができる。
一般的に、上記の方式で処理した後に取得された最新の音声開始点から対応する音声終了点までの音声データは、人間とコンピュータのインタラクションを行う人の声であり、ノイズを人間とコンピュータのインタラクションを行う人の声と切り分けることに相当し、音声終了点を再決定することによって、音声終了点検出結果の精度などを向上させる。
方式1)と方式2)の処理で、唇の動き検出によって、検出された音声開始点と音声終了点を補正し、ヘッダノイズとテールノイズを除去することができ、音声エンドポイント検出結果の精度などを向上させることができる。
本開示に記載された解決策では、第2の検出の存在は、第1の検出の正常な進行に影響せず、すなわち従来の方式で音声開始点と音声終了点の検出を行うことができ、検出された音声開始点と音声終了点に基づいて音声検出状態を決定することができ、外部に出力する観点からは、第2の検出結果を使用して第1の検出結果を補正することができる。
本開示の一実施例では、ビデオ内の人の顔の唇部が遮蔽されていないと決定された場合、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うことができる。
つまり、ビデオ内の人の顔の唇部が遮蔽されると決定された場合、例えば、マスクを着用しているために唇部が遮蔽されると、第2の検出を行わず、すなわち第1の検出のみを行い、第1の検出結果を音声エンドポイント検出結果とすることができる。従来の実現方式との互換性が高く、様々な可能な状況を柔軟に対応することができ、人間とコンピュータのインタラクションの順序の進行などを確保することができる。
上記の説明を要約すると、図6は本開示の前記音声エンドポイント検出方法の全体的な実現プロセスの概略図である。図6に示すように、その中の「融合判決」とは、すなわち第2の検出結果を使用して第1の検出結果を補正し、各ステップの具体的な実現は、上記の関連説明を参照し、ここでは説明を省略する。
なお、前述の各方法の実施例について、簡単な説明のために、それをすべて一連の動作の組み合わせとして記載するが、本開示は、本開示に従って、いくつかのステップが他の順序を使用することができるか、または同時に行うことができるため、説明する動作順序によって制限されないことを当業者は認識すべきである。次に、本明細書に記載される実施例はいずれも好ましい実施例に属し、関連する動作およびモジュールは必ずしも本開示に必須ではない。ある実施例においては、詳細には記載されていないが、他の実施例の説明を参照することができる。
以上は方法の実施例に関する説明であり、以下は装置の実施例で、本開示に記載された解決策をさらに説明する。
図7は本開示の前記音声エンドポイント検出装置の実施例700の構成構造の概略図である。図7に示すように、取得モジュール701、第1の検出モジュール702、第2の検出モジュール703、及び補正モジュール704を含む。
取得モジュール701は、時間的に整列された音声データとビデオデータを取得するために用いられる。
第1の検出モジュール702は、トレーニングによって取得された音声検出モデルを使用して、音声データに対して音声開始点と音声終了点の第1の検出を行うために用いられる。
第2の検出モジュール703は、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うために用いられる。
補正モジュール704は、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするために用いられる。
取得された音声データとビデオデータについて、異なる処理をそれぞれ行うことができる、その中、第1の検出モジュール702は、トレーニングによって取得された音声検出モデルを使用して、音声データに対して音声開始点と音声終了点の第1の検出を行うことができ、第2の検出モジュール703は、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うことができる。すなわち唇の動き検出技術を導入し、音声検出モデルを使用して音声データに対して音声開始点と音声終了点の第1の検出を行う以外、ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うこともできる。
本開示の一実施例では、第2の検出モジュール703は、トレーニングによって取得された唇の動き検出モデルを使用してビデオデータに対して第2の検出を行って、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得することができる。
どのようにトレーニングして唇の動き検出モデルを取得することは限定しない。例えば、人の顔検出技術などを使用して、ビデオデータ内の各フレーム画像内の人の顔画像を切り取ることができ、一般的に、各フレーム画像には1つの人の顔画像のみが含まれ、各人の顔画像内の人の顔唇部の唇形点をそれぞれ抽出することができ、各人の顔画像をそれぞれラベリングすることができ、動いている唇部は1としてラベリングし、そうでなければ0としてラベリングし、さらに、各人の顔画像の唇形点及び対応するラベリング結果を使用して唇の動き検出モデルのトレーニングを行うことができる。
第2の検出を行う時、同様な方式で唇形点を取得することができ、唇の動き検出モデルに入力することで、出力された1または0の検出結果を取得することができ、人の顔画像内の人の顔唇部が動いているかどうかを表すことができる。
さらに、補正モジュール704は、第2の検出結果を使用して第1の検出結果を補正して、所望の音声エンドポイント検出結果を取得することができる。
このため、音声検出状態と唇の動き検出状態などのいくつかの状態を予め定義することができ、音声検出状態は、さらに、音声あり状態と音声なし状態を含むことができ、唇の動き検出状態は、さらに、唇の動きあり状態と唇の動きなし状態を含むことができる。
その中、音声あり状態は、音声開始点が検出された後から対応する音声終了点が検出される前までの時間内の状態であり、音声なし状態は、音声あり状態以外の時間内の状態、すなわち音声開始点が検出される前と音声終了点が検出された後の時間内の状態であり、唇の動きあり状態は、唇の動き開始点が検出された後から対応する唇の動き終了点が検出される前までの時間内の状態であり、唇の動きなし状態は、唇の動きあり状態以外の時間内の状態、すなわち唇の動き開始点が検出された前と唇の動き終了点が検出された後の時間内の状態である。
これに応じて、本開示の一実施例では、補正モジュール704は、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出され、所定の時間要求に適合すると、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とすることができる。
本開示の一実施例では、所定の時間要求に適合するとは、唇の動き開始点が検出された時間と直前に音声開始点が検出された時間との間の差が所定の閾値より大きいことを指すことができる。
つまり、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出された場合、そうすると唇の動き開始点が検出された時間と、直前に音声開始点(すなわち現在の音声あり状態に対応する音声開始点)が検出された時間との間の差が所定の閾値より大きいかどうかをさらに決定することができ、そうである場合、所定の時間要求に適合すると決定することができ、これに応じて、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とすることができる。すなわち強制的に切り分けることができ、検出された唇の動き開始点を直前に検出された音声開始点に対応する音声終了点及び新たな音声開始点とすることができる。
本開示の一実施例では、補正モジュール704は、さらに、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である時、唇の動き終了点が検出された場合、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とすることができる。
すなわち強制的に切り分け、検出された唇の動き終了点を最新取得された音声開始点に対応する音声終了点及び新たな音声開始点とすることができる。
本開示の一実施例では、第2の検出モジュール703は、さらに、決定ビデオ内の人の顔の唇部が遮蔽されていない時、ビデオデータに対して第2の検出を行うことができる。つまり、ビデオ内の人の顔の唇部が遮蔽されると決定された場合、例えば、マスクを着用しているために唇部が遮蔽されると、第2の検出を行わず、すなわち第1の検出のみを行い、第1の検出結果を音声エンドポイント検出結果とすることができる。
図7に示す装置の実施例の具体的なワークフローは前述方法の実施例の関連説明を参照し、ここでは説明を省略する。
要するに、本開示の装置の実施例に係る解決策を使用し、音声検出モデルと唇の動き検出技術を組み合わせて、唇の動き検出結果を使用して音声検出モデルによって検出された音声開始点と音声終了点を補正することによって、音声エンドポイント検出結果の精度などを向上させる。
本開示に記載された解決策は、人工知能の分野に適用することができ、特に、深層学習及びインテリジェント音声などの分野に関する。
人工知能は、人間のある思考プロセスと知能行為(たとえば、学習、推理、思考、計画など)をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含む。
本開示の実施例によれば、本開示は、さらに、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品を提供する。
図8は本開示の実施例を実施するための電子機器800の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図8に示すように、機器800は計算ユニット801を含み、計算ユニット801は、読み取り専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM803には、機器800が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット801、ROM802、およびRAM803は、バス804を介してお互いに接続される。入出力(I/O)インターフェース805もバス804に接続される。
機器800内の複数のコンポーネントは、I/Oインターフェース805に接続されており、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、ディスク、光ディスクなどの記憶ユニット808と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット809と、を含む。通信ユニット809は、機器800が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット801は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット801のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、本開示に記載された方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、本開示に記載された方法は、記憶ユニット808などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。 いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して機器800にロードおよび/またはインストールされる。コンピュータプログラムがRAM803にロードされて計算ユニット801によって実行される場合、上記の本開示に記載された方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット801は、他の任意の適切な方式(例えば、ファームウェアによって)を介して本開示に記載された方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサーバ(VPS)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。クラウドコンピューティングとは、ネットワークを介して柔軟で拡張可能な共有物理又は仮想リソースプールにアクセスし、リソースが、サーバ、操作システム、ネットワーク、ソフトウェア、アプリケーション及び記憶デバイスなどを含むことができ、必要に応じてセルフサービスの方式でリソースを配置及び管理できる技術体系を指す。クラウドコンピューティング技術によって、人工知能、ブロックチェーンなどの技術の適用、モデルトレーニングに効率的で強力なデータ処理能力を提供することができる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (11)

  1. コンピュータにより、時間的に整列された音声データとビデオデータを取得するステップと、
    コンピュータにより、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うステップと、
    コンピュータにより、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップと、
    コンピュータにより、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするステップと、を含み、
    第2の検出結果を使用して第1の検出結果を補正するステップは、
    音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出されて且つ所定の時間要求に適合すると、コンピュータにより、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とするステップを含み、
    前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きなし状態は、唇の動きあり状態以外の時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態であり、
    所定の時間要求に適合することは、
    唇の動き開始点が検出される時間と直前に音声開始点が検出される時間との間の差が所定の閾値より大きいことを含む、
    音声エンドポイント検出方法。
  2. 前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップは、
    コンピュータにより、トレーニングによって取得された唇の動き検出モデルを使用して、前記ビデオデータに対して前記第2の検出を行い、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得するステップを含む、
    請求項1に記載の音声エンドポイント検出方法。
  3. 第2の検出結果を使用して第1の検出結果を補正するステップは、
    音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である場合、コンピュータにより、唇の動き終了点が検出されると、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とするステップを含み、
    前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態である、
    請求項1に記載の音声エンドポイント検出方法。
  4. ビデオ内の人の顔の唇部が遮蔽されていないと決定される場合、コンピュータにより、前記ビデオデータに対して前記第2の検出を行うステップをさらに含む、
    請求項1~3のいずれか一項に記載の音声エンドポイント検出方法。
  5. 取得モジュール、第1の検出モジュール、第2の検出モジュール、及び補正モジュールを含み、
    前記取得モジュールは、時間的に整列された音声データとビデオデータを取得し、
    前記第1の検出モジュールは、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行い、
    前記第2の検出モジュールは、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行い、
    前記補正モジュールは、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とし、
    前記補正モジュールは、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出されて且つ所定の時間要求に適合すると、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とし、
    前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きなし状態は、唇の動きあり状態以外の時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態であり、
    所定の時間要求に適合することは、
    唇の動き開始点が検出される時間と直前に音声開始点が検出される時間との間の差が所定の閾値より大きいことを含む、
    音声エンドポイント検出装置。
  6. 前記第2の検出モジュールは、トレーニングによって取得された唇の動き検出モデルを使用して前記ビデオデータに対して前記第2の検出を行い、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得する、
    請求項5に記載の音声エンドポイント検出装置。
  7. 前記補正モジュールは、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である場合、唇の動き終了点が検出されると、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とし、
    前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態である、
    請求項5に記載の音声エンドポイント検出装置。
  8. 前記第2の検出モジュールは、さらに、ビデオ内の人の顔の唇部が遮蔽されていないと決定される場合、前記ビデオデータに対して前記第2の検出を行う、
    請求項5~7のいずれか一項に記載の音声エンドポイント検出装置。
  9. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実行する、
    電子機器。
  10. コンピュータに請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実行させるコンピュータ命令が記憶されている、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行される時に請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実現する、コンピュータプログラム。
JP2022043117A 2021-05-08 2022-03-17 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 Active JP7408898B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110502922.2 2021-05-08
CN202110502922.2A CN113345472B (zh) 2021-05-08 2021-05-08 语音端点检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022173183A JP2022173183A (ja) 2022-11-18
JP7408898B2 true JP7408898B2 (ja) 2024-01-09

Family

ID=77470193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022043117A Active JP7408898B2 (ja) 2021-05-08 2022-03-17 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US20220358929A1 (ja)
EP (1) EP4086905B1 (ja)
JP (1) JP7408898B2 (ja)
KR (1) KR20220152378A (ja)
CN (1) CN113345472B (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091466A (ja) 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
JP2011059186A (ja) 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
JP2014240856A (ja) 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US7894637B2 (en) * 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
JP2012003326A (ja) * 2010-06-14 2012-01-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
BR112015002920A2 (pt) * 2012-08-10 2017-08-08 Honda Access Kk método e dispositivo de reconhecimento de fala
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
CN103617801B (zh) * 2013-12-18 2017-09-29 联想(北京)有限公司 语音检测方法、装置及电子设备
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
WO2016148322A1 (ko) * 2015-03-19 2016-09-22 삼성전자 주식회사 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
CN107039035A (zh) * 2017-01-10 2017-08-11 上海优同科技有限公司 一种语音起始点和终止点的检测方法
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10910001B2 (en) * 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
US10846522B2 (en) * 2018-10-16 2020-11-24 Google Llc Speaking classification using audio-visual data
JP7515121B2 (ja) * 2019-06-11 2024-07-12 パナソニックIpマネジメント株式会社 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
CN111063354B (zh) * 2019-10-30 2022-03-25 云知声智能科技股份有限公司 人机交互方法及装置
CN111048066A (zh) * 2019-11-18 2020-04-21 云知声智能科技股份有限公司 一种儿童机器人上利用图像辅助的语音端点检测系统
CN111292723A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种语音识别系统
US20210407510A1 (en) * 2020-06-24 2021-12-30 Netflix, Inc. Systems and methods for correlating speech and lip movement
CN111916061B (zh) * 2020-07-22 2024-05-07 北京地平线机器人技术研发有限公司 语音端点检测方法、装置、可读存储介质及电子设备
CN112397093B (zh) * 2020-12-04 2024-02-27 中国联合网络通信集团有限公司 一种语音检测方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091466A (ja) 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
JP2011059186A (ja) 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
JP2014240856A (ja) 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム

Also Published As

Publication number Publication date
CN113345472A (zh) 2021-09-03
EP4086905B1 (en) 2023-12-13
JP2022173183A (ja) 2022-11-18
US20220358929A1 (en) 2022-11-10
KR20220152378A (ko) 2022-11-15
EP4086905A1 (en) 2022-11-09
CN113345472B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN113033622B (zh) 跨模态检索模型的训练方法、装置、设备和存储介质
CN113129868B (zh) 获取语音识别模型的方法、语音识别的方法及对应装置
WO2021041176A1 (en) Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment
CN110659600B (zh) 物体检测方法、装置及设备
CN113365146B (zh) 用于处理视频的方法、装置、设备、介质和产品
CN112330781A (zh) 生成模型和生成人脸动画的方法、装置、设备和存储介质
CN114267375B (zh) 音素检测方法及装置、训练方法及装置、设备和介质
CN112989987B (zh) 用于识别人群行为的方法、装置、设备以及存储介质
KR20220126264A (ko) 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체
CN112270246B (zh) 视频行为识别方法及装置、存储介质、电子设备
KR20220153667A (ko) 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN116611491A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN111027195B (zh) 仿真场景的生成方法、装置及设备
CN114863182A (zh) 图像分类方法、图像分类模型的训练方法及装置
CN114187392A (zh) 虚拟偶像的生成方法、装置和电子设备
CN113449148A (zh) 视频分类方法、装置、电子设备及存储介质
JP7408898B2 (ja) 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体
CN112669837A (zh) 智能终端的唤醒方法、装置及电子设备
JP7355295B2 (ja) データラベリング方法、装置、電子機器、及び読み取り可能な記憶媒体
CN114783454B (zh) 一种模型训练、音频降噪方法、装置、设备及存储介质
CN114399992B (zh) 语音指令响应方法、装置及存储介质
CN115312042A (zh) 用于处理音频的方法、装置、设备以及存储介质
CN114627556A (zh) 动作检测方法、动作检测装置、电子设备以及存储介质
KR20220129093A (ko) 타겟 분할 방법, 장치 및 전자 기기
CN114299612A (zh) 手势检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R150 Certificate of patent or registration of utility model

Ref document number: 7408898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150