JP7408898B2 - 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 - Google Patents
音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 Download PDFInfo
- Publication number
- JP7408898B2 JP7408898B2 JP2022043117A JP2022043117A JP7408898B2 JP 7408898 B2 JP7408898 B2 JP 7408898B2 JP 2022043117 A JP2022043117 A JP 2022043117A JP 2022043117 A JP2022043117 A JP 2022043117A JP 7408898 B2 JP7408898 B2 JP 7408898B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- lip movement
- state
- detection
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 205
- 238000012549 training Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 description 38
- 230000003993 interaction Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
Description
時間的に整列された音声データとビデオデータを取得するステップと、
トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うステップと、
前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップと、
第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするステップと、を含む。
前記取得モジュールは、時間的に整列された音声データとビデオデータを取得するために用いられ、
前記第1の検出モジュールは、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うために用いられ、
前記第2の検出モジュールは、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うために用いられ、
前記補正モジュールは、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするために用いられる。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行する。
A、音声あり状態:音声開始点が検出された後から対応する音声終了点が検出される前までの時間内の状態であり、
B、音声なし状態:音声あり状態以外の時間内の状態、すなわち音声開始点が検出される前と音声終了点が検出された後の時間内の状態であり、
C、唇の動きあり状態:唇の動き開始点が検出された後から対応する唇の動き終了点が検出される前までの時間内の状態であり、
D、唇の動きなし状態:唇の動きあり状態以外の時間内の状態、すなわち唇の動き開始点が検出された前と唇の動き終了点が検出された後の時間内の状態である。
1)音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出され、所定の時間要求に適合すると、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とすることができ、
2)音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である時、唇の動き終了点が検出された場合、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とすることができる。
Claims (11)
- コンピュータにより、時間的に整列された音声データとビデオデータを取得するステップと、
コンピュータにより、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行うステップと、
コンピュータにより、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップと、
コンピュータにより、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とするステップと、を含み、
第2の検出結果を使用して第1の検出結果を補正するステップは、
音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出されて且つ所定の時間要求に適合すると、コンピュータにより、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とするステップを含み、
前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きなし状態は、唇の動きあり状態以外の時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態であり、
所定の時間要求に適合することは、
唇の動き開始点が検出される時間と直前に音声開始点が検出される時間との間の差が所定の閾値より大きいことを含む、
音声エンドポイント検出方法。 - 前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行うステップは、
コンピュータにより、トレーニングによって取得された唇の動き検出モデルを使用して、前記ビデオデータに対して前記第2の検出を行い、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得するステップを含む、
請求項1に記載の音声エンドポイント検出方法。 - 第2の検出結果を使用して第1の検出結果を補正するステップは、
音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である場合、コンピュータにより、唇の動き終了点が検出されると、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とするステップを含み、
前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態である、
請求項1に記載の音声エンドポイント検出方法。 - ビデオ内の人の顔の唇部が遮蔽されていないと決定される場合、コンピュータにより、前記ビデオデータに対して前記第2の検出を行うステップをさらに含む、
請求項1~3のいずれか一項に記載の音声エンドポイント検出方法。 - 取得モジュール、第1の検出モジュール、第2の検出モジュール、及び補正モジュールを含み、
前記取得モジュールは、時間的に整列された音声データとビデオデータを取得し、
前記第1の検出モジュールは、トレーニングによって取得された音声検出モデルを使用して、前記音声データに対して音声開始点と音声終了点の第1の検出を行い、
前記第2の検出モジュールは、前記ビデオデータに対して唇の動き開始点と唇の動き終了点の第2の検出を行い、
前記補正モジュールは、第2の検出結果を使用して第1の検出結果を補正し、補正後の結果を音声エンドポイント検出結果とし、
前記補正モジュールは、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きなし状態である場合、唇の動き開始点が検出されて且つ所定の時間要求に適合すると、検出された唇の動き開始点を決定された音声終了点及び新たな音声開始点とし、
前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きなし状態は、唇の動きあり状態以外の時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態であり、
所定の時間要求に適合することは、
唇の動き開始点が検出される時間と直前に音声開始点が検出される時間との間の差が所定の閾値より大きいことを含む、
音声エンドポイント検出装置。 - 前記第2の検出モジュールは、トレーニングによって取得された唇の動き検出モデルを使用して前記ビデオデータに対して前記第2の検出を行い、ビデオ内の人の顔の唇の動き開始点と唇の動き終了点を取得する、
請求項5に記載の音声エンドポイント検出装置。 - 前記補正モジュールは、音声検出状態が音声あり状態であり、唇の動き検出状態が唇の動きあり状態である場合、唇の動き終了点が検出されると、検出された唇の動き終了点を決定された音声終了点及び新たな音声開始点とし、
前記音声あり状態は、音声開始点が検出されるから対応する音声終了点が検出されるまでの時間における状態であり、前記唇の動きあり状態は、唇の動き開始点が検出されるから対応する唇の動き終了点が検出されるまでの時間における状態である、
請求項5に記載の音声エンドポイント検出装置。 - 前記第2の検出モジュールは、さらに、ビデオ内の人の顔の唇部が遮蔽されていないと決定される場合、前記ビデオデータに対して前記第2の検出を行う、
請求項5~7のいずれか一項に記載の音声エンドポイント検出装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実行する、
電子機器。 - コンピュータに請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実行させるコンピュータ命令が記憶されている、
非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される時に請求項1~4のいずれかの一つに記載の音声エンドポイント検出方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502922.2 | 2021-05-08 | ||
CN202110502922.2A CN113345472B (zh) | 2021-05-08 | 2021-05-08 | 语音端点检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022173183A JP2022173183A (ja) | 2022-11-18 |
JP7408898B2 true JP7408898B2 (ja) | 2024-01-09 |
Family
ID=77470193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022043117A Active JP7408898B2 (ja) | 2021-05-08 | 2022-03-17 | 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220358929A1 (ja) |
EP (1) | EP4086905B1 (ja) |
JP (1) | JP7408898B2 (ja) |
KR (1) | KR20220152378A (ja) |
CN (1) | CN113345472B (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091466A (ja) | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
JP2011059186A (ja) | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2014240856A (ja) | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US7894637B2 (en) * | 2004-05-21 | 2011-02-22 | Asahi Kasei Corporation | Device, program, and method for classifying behavior content of an object person |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
JP2012003326A (ja) * | 2010-06-14 | 2012-01-05 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
BR112015002920A2 (pt) * | 2012-08-10 | 2017-08-08 | Honda Access Kk | método e dispositivo de reconhecimento de fala |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
CN103617801B (zh) * | 2013-12-18 | 2017-09-29 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
CN103745723A (zh) * | 2014-01-13 | 2014-04-23 | 苏州思必驰信息科技有限公司 | 一种音频信号识别方法及装置 |
WO2016148322A1 (ko) * | 2015-03-19 | 2016-09-22 | 삼성전자 주식회사 | 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치 |
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
US10846522B2 (en) * | 2018-10-16 | 2020-11-24 | Google Llc | Speaking classification using audio-visual data |
JP7515121B2 (ja) * | 2019-06-11 | 2024-07-12 | パナソニックIpマネジメント株式会社 | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム |
CN111063354B (zh) * | 2019-10-30 | 2022-03-25 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN111048066A (zh) * | 2019-11-18 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种儿童机器人上利用图像辅助的语音端点检测系统 |
CN111292723A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种语音识别系统 |
US20210407510A1 (en) * | 2020-06-24 | 2021-12-30 | Netflix, Inc. | Systems and methods for correlating speech and lip movement |
CN111916061B (zh) * | 2020-07-22 | 2024-05-07 | 北京地平线机器人技术研发有限公司 | 语音端点检测方法、装置、可读存储介质及电子设备 |
CN112397093B (zh) * | 2020-12-04 | 2024-02-27 | 中国联合网络通信集团有限公司 | 一种语音检测方法与装置 |
-
2021
- 2021-05-08 CN CN202110502922.2A patent/CN113345472B/zh active Active
-
2022
- 2022-03-01 EP EP22159459.1A patent/EP4086905B1/en active Active
- 2022-03-03 US US17/685,438 patent/US20220358929A1/en not_active Abandoned
- 2022-03-15 KR KR1020220032004A patent/KR20220152378A/ko unknown
- 2022-03-17 JP JP2022043117A patent/JP7408898B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091466A (ja) | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
JP2011059186A (ja) | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2014240856A (ja) | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN113345472A (zh) | 2021-09-03 |
EP4086905B1 (en) | 2023-12-13 |
JP2022173183A (ja) | 2022-11-18 |
US20220358929A1 (en) | 2022-11-10 |
KR20220152378A (ko) | 2022-11-15 |
EP4086905A1 (en) | 2022-11-09 |
CN113345472B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113033622B (zh) | 跨模态检索模型的训练方法、装置、设备和存储介质 | |
CN113129868B (zh) | 获取语音识别模型的方法、语音识别的方法及对应装置 | |
WO2021041176A1 (en) | Shuffle, attend, and adapt: video domain adaptation by clip order prediction and clip attention alignment | |
CN110659600B (zh) | 物体检测方法、装置及设备 | |
CN113365146B (zh) | 用于处理视频的方法、装置、设备、介质和产品 | |
CN112330781A (zh) | 生成模型和生成人脸动画的方法、装置、设备和存储介质 | |
CN114267375B (zh) | 音素检测方法及装置、训练方法及装置、设备和介质 | |
CN112989987B (zh) | 用于识别人群行为的方法、装置、设备以及存储介质 | |
KR20220126264A (ko) | 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체 | |
CN112270246B (zh) | 视频行为识别方法及装置、存储介质、电子设备 | |
KR20220153667A (ko) | 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN116611491A (zh) | 目标检测模型的训练方法、装置、电子设备和存储介质 | |
CN111027195B (zh) | 仿真场景的生成方法、装置及设备 | |
CN114863182A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114187392A (zh) | 虚拟偶像的生成方法、装置和电子设备 | |
CN113449148A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
JP7408898B2 (ja) | 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 | |
CN112669837A (zh) | 智能终端的唤醒方法、装置及电子设备 | |
JP7355295B2 (ja) | データラベリング方法、装置、電子機器、及び読み取り可能な記憶媒体 | |
CN114783454B (zh) | 一种模型训练、音频降噪方法、装置、设备及存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN115312042A (zh) | 用于处理音频的方法、装置、设备以及存储介质 | |
CN114627556A (zh) | 动作检测方法、动作检测装置、电子设备以及存储介质 | |
KR20220129093A (ko) | 타겟 분할 방법, 장치 및 전자 기기 | |
CN114299612A (zh) | 手势检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7408898 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |