CN113345472A - 语音端点检测方法、装置、电子设备及存储介质 - Google Patents
语音端点检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113345472A CN113345472A CN202110502922.2A CN202110502922A CN113345472A CN 113345472 A CN113345472 A CN 113345472A CN 202110502922 A CN202110502922 A CN 202110502922A CN 113345472 A CN113345472 A CN 113345472A
- Authority
- CN
- China
- Prior art keywords
- voice
- state
- detection
- lip movement
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 208
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 17
- 230000003993 interaction Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及深度学习以及智能语音等领域的语音端点检测方法、装置、电子设备及存储介质。
背景技术
近年来,人机交互类产品的应用越来越普及,比如,在银行大厅、百货商场以及医院等场合,经常能够看到人机交互类产品。
为进行准确的语音交互,通常需要对采集的语音数据进行语音端点检测(VAD,Voice Activity Detection),语音端点检测结果的准确性会直接影响到人机交互的成功率等。
目前,通常采用训练得到的语音检测模型来对语音数据进行语音端点检测,即进行语音起点和语音尾点的检测。但这种方式在复杂噪音环境下,尤其是当噪音为周围人声(背景人声)的情况下,检测效果通常较差,即检测结果的准确性不高。
发明内容
本公开提供了语音端点检测方法、装置、电子设备及存储介质。
一种语音端点检测方法,包括:
获取时间对齐的语音数据及视频数据;
利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
对所述视频数据进行唇动起点和唇动尾点的第二检测;
利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
一种语音端点检测装置,包括:获取模块、第一检测模块、第二检测模块以及修正模块;
所述获取模块,用于获取时间对齐的语音数据及视频数据;
所述第一检测模块,用于利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
所述第二检测模块,用于对所述视频数据进行唇动起点和唇动尾点的第二检测;
所述修正模块,用于利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
上述公开中的一个实施例具有如下优点或有益效果:结合了语音检测模型以及唇动检测技术,利用唇动检测结果来对语音检测模型检测到的语音起点和语音尾点进行修正,从而提升了语音端点检测结果的准确性等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开所述语音端点检测方法实施例的流程图;
图2为本公开所述第一检测对应的各关键点的位置示意图;
图3为对应于图2所示各关键点的位置示意图;
图4为本公开所述有语音状态和无语音状态的转换方式示意图;
图5为本公开所述有唇动状态和无唇动状态的转换方式示意图;
图6为本公开所述语音端点检测方法的整体实现过程示意图;
图7为本公开所述语音端点检测装置实施例700的组成结构示意图;
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本公开所述语音端点检测方法实施例的流程图。如图1所示,包括以下具体实现方式。
在步骤101中,获取时间对齐的语音数据及视频数据。
在步骤102中,利用训练得到的语音检测模型,对语音数据进行语音起点(vad_begin)和语音尾点(vad_end)的第一检测。
在步骤103中,对视频数据进行唇动起点(lip_begin)和唇动尾点(lip_end)的第二检测。
在步骤104中,利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
可以看出,上述方法实施例所述方案中,结合了语音检测模型以及唇动检测技术,利用唇动检测结果来对语音检测模型检测到的语音起点和语音尾点进行修正,从而提升了语音端点检测结果的准确性等。
在实际应用中,可利用带有摄像装置(如摄像头)的人机交互产品,针对相同场景分别采集语音数据和视频数据,比如,用户a在与人机交互产品进行语音对话时,可分别采集用户a的语音数据以及视频数据。
对于采集到的语音数据和视频数据,可从时间上将其对齐。并且,针对语音数据和视频数据,可分别进行不同的处理,其中,可利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测,对视频数据进行唇动起点和唇动尾点的第二检测。
如何进行第一检测为现有技术。图2为本公开所述第一检测对应的各关键点的位置示意图。
如图2所示,其中的21表示语音起点,22表示真正的语音起点(speech_begin),23表示真正的语音尾点(speech_end),24表示语音尾点,25表示检测到语音起点的时间/时刻(T_vad_begin_detected),26表示检测到语音尾点的时间(T_vad_end_detected),语音起点和语音尾点表示利用语音检测模型检测到的语音起点和语音尾点,相比于真正的语音起点,检测到的语音起点通常会早300~500ms,若大于该值,引入的无效语音就会越多,从而使得交互延迟变大等,相比于真正的语音尾点,检测到的语音尾点通常会晚600~800ms,若小于该值,会容易导致误判,造成提前截断,若大于该值,会造成无效语音增多,使得交互延迟变大等。
如图2所示,在实际应用中,检测到语音起点的时间通常会落后于真正的语音起点200ms左右,这是因为为了确保检测结果的准确性,需要积累一段时间的语音来对其进行持续分析,以最终确定是否为语音的起点,以避免将短时间内突发的噪音误认为语音等。在检测到语音起点的时间,会回溯500~700(300+200~500+200)ms,作为检测到的语音起点输出。另外,在检测到语音尾点的时间,可输出检测到的语音尾点。
假设在语音数据的头部存在噪音,该噪音为周围人声,图3为对应于图2所示各关键点的位置示意图。如图3所示,其中的21~26所代表的含义与图2中相同,27表示噪音。可以看出,通过第一检测得到语音起点和语音尾点后,在头部引入了周围人声噪音,那么,后续将语音起点到语音尾点间的语音数据送入识别引擎进行识别时,很可能会导致识别错误,从而影响人机交互的成功率等。
为此,本公开所述方案中引入了唇动检测技术,除了利用语音检测模型对语音数据进行语音起点和语音尾点的第一检测外,还会对视频数据进行唇动起点和唇动尾点的第二检测。
本公开的一个实施例中,可利用训练得到的唇动检测模型对视频数据进行第二检测,从而得到视频中的人脸的唇动起点和唇动尾点。
如何训练得到唇动检测模型不作限制。比如,可利用人脸检测技术等,将视频数据中的每帧图片中的人脸图片截取出来,通常来说,每帧图片中仅包括一张人脸图片,可分别提取各人脸图片中的人脸唇部的唇形点,并可分别对各人脸图片进行标注,唇部在动的标注为1,否则标注为0,进而可利用各人脸图片的唇形点及对应的标注结果进行唇动检测模型的训练。
在进行第二检测时,可按照同样的方式获取唇形点,并输入唇动检测模型,从而得到输出的1或0的检测结果,表示人脸图片中的人脸唇部是否在动。
通常来说,至少需要5帧图片才能确定出唇动起点,类似于第一检测中的处理方式,这也是为了防止出现误判,即唇动持续一段时间才会认为是真正的唇动,即由于说话引起的唇动,防止由于其它原因导致的短时间唇动造成检测错误。
因此,检测到唇动起点的时间(T_lip_begin_detected)相比于唇动起点会有一定的延迟,以前述5帧为例,如果帧率为20,那么会延迟250ms,可通过回溯得到唇动起点。
通过上述方式,可准确高效地检测出唇动起点和唇动尾点,从而为后续处理奠定了良好的基础等。
针对获取到的第一检测结果和第二检测结果,可利用第二检测结果来对第一检测结果进行修正。
为此,可预先定义几个状态,如语音检测状态和唇动检测状态,其中,语音检测状态可进一包括有语音状态(State_vad_speech)和无语音状态(State_vad_no_speech),唇动检测状态可进一步包括有唇动状态(State_lip)和无唇动状态(State_no_lip)。
具体分别如下:
A、有语音状态:检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态;
B、无语音状态:有语音状态之外的时间所处的状态,即检测到语音起点之前及检测到语音尾点之后的时间所处的状态;
C、有唇动状态:检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态;
B、无唇动状态:有唇动状态之外的时间所处的状态,即检测到唇动起点之前及检测到唇动尾点之后的时间所处的状态。
图4为本公开所述有语音状态和无语音状态的转换方式示意图。如图4所示,当检测到语音起点时,从无语音状态转换为有语音状态,当检测到语音尾点时,从有语音状态转换为无语音状态。
图5为本公开所述有唇动状态和无唇动状态的转换方式示意图。如图5所示,当检测到唇动起点时,从无唇动状态转换为有唇动状态,当检测到唇动尾点时,从有唇动状态转换为无唇动状态。
本公开的一个实施例中,在利用第二检测结果来对第一检测结果进行修正时,可采用以下处理方式:
1)当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则可将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;
2)当语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则可将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点。
方式1)中,当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到了唇动起点,那么可进一步确定是否符合预定的时间要求,本公开的一个实施例中,可确定检测到唇动起点的时间与最近一次检测到语音起点(即当前的有语音状态对应的语音起点)的时间之间的差值是否大于预定阈值,若是,则可确定符合预定的时间要求,相应地,可将检测到的唇动起点作为确定出的语音尾点以及新的语音起点。
即可进行强制切分,将检测到的唇动起点作为最近一次检测到的语音起点对应的语音尾点以及新的语音起点。
通常来说,按照上述方式处理后得到的最近一次检测到的语音起点到对应的语音尾点之间的语音数据为出现在进行人机交互的人声之前的噪音,相当于将噪音与进行人机交互的人声进行了切分,重新确定了语音起点,进而提升了语音起点检测结果的准确性等。
另外,由于检测到了唇动起点,因此唇动检测状态将从无唇动状态转换为有唇动状态。
方式2)中,当语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到了唇动尾点,那么可将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点。
即可进行强制切分,将检测到的唇动尾点作为最新得到的语音起点对应的语音尾点以及新的语音起点。
通常来说,按照上述方式处理后得到的最新的语音起点到对应的语音尾点之间的语音数据为进行人机交互的人声,相当于将噪音与进行人机交互的人声进行了切分,重新确定了语音尾点,进而提升了语音尾点检测结果的准确性等。
通过方式1)和方式2)中的处理,借助于唇动检测,对检测到的语音起点和语音尾点进行了修正,从而可去除头部噪音和尾部噪音,进而提升了语音端点检测结果的准确性等。
本公开所述方案中,第二检测的存在并不会影响第一检测的正常进行,即可按照现有方式进行语音起点和语音尾点的检测,并可根据检测到的语音起点和语音尾点确定出语音检测状态,只是从对外输出的角度来说,可利用第二检测结果对第一检测结果进行修正。
本公开的一个实施例中,若确定视频中的人脸的唇部未被遮挡,则可对视频数据进行唇动起点和唇动尾点的第二检测。
也就是说,当确定视频中的人脸的唇部被遮挡时,如由于佩戴了口罩导致唇部被遮挡,那么可不进行第二检测,即仅进行第一检测,将第一检测结果作为语音端点检测结果。从而很好地兼容了现有实现方式,并可灵活应对各种可能的情况,确保了人机交互的顺序进行等。
综合上述介绍,图6为本公开所述语音端点检测方法的整体实现过程示意图。如图6所示,其中的“融合判决”即指利用第二检测结果对第一检测结果进行修正,各步的具体实现请参照前述相关说明,不再赘述。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图7为本公开所述语音端点检测装置实施例700的组成结构示意图。如图7所示,包括:获取模块701、第一检测模块702、第二检测模块703以及修正模块704。
获取模块701,用于获取时间对齐的语音数据及视频数据。
第一检测模块702,用于利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测。
第二检测模块703,用于对视频数据进行唇动起点和唇动尾点的第二检测。
修正模块704,用于利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
针对获取到的语音数据和视频数据,可分别进行不同的处理,其中,第一检测模块702可利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测,第二检测模块703可对视频数据进行唇动起点和唇动尾点的第二检测。即引入了唇动检测技术,除了利用语音检测模型对语音数据进行语音起点和语音尾点的第一检测外,还会对视频数据进行唇动起点和唇动尾点的第二检测。
本公开的一个实施例中,第二检测模块703可利用训练得到的唇动检测模型对视频数据进行第二检测,从而得到视频中的人脸的唇动起点和唇动尾点。
如何训练得到唇动检测模型不作限制。比如,可利用人脸检测技术等,将视频数据中的每帧图片中的人脸图片截取出来,通常来说,每帧图片中仅包括一张人脸图片,可分别提取各人脸图片中的人脸唇部的唇形点,并可分别对各人脸图片进行标注,唇部在动的标注为1,否则标注为0,进而可利用各人脸图片的唇形点及对应的标注结果进行唇动检测模型的训练。
在进行第二检测时,可按照同样的方式获取唇形点,并输入唇动检测模型,从而得到输出的1或0的检测结果,表示人脸图片中的人脸唇部是否在动。
进一步地,修正模块704可利用第二检测结果对第一检测结果进行修正,以得到所需的语音端点检测结果。
为此,可预先定义几个状态,如语音检测状态和唇动检测状态,语音检测状态可进一包括有语音状态和无语音状态,唇动检测状态可进一步包括有唇动状态和无唇动状态。
其中,有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,无语音状态为有语音状态之外的时间所处的状态,即检测到语音起点之前及检测到语音尾点之后的时间所处的状态,有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态,无唇动状态为有唇动状态之外的时间所处的状态,即检测到唇动起点之前及检测到唇动尾点之后的时间所处的状态。
相应地,本公开的一个实施例中,修正模块704可在语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点。
本公开的一个实施例中,符合预定的时间要求可以是指:检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。
也就是说,当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到了唇动起点,那么可进一步确定检测到唇动起点的时间与最近一次检测到语音起点(即当前的有语音状态对应的语音起点)的时间之间的差值是否大于预定阈值,若是,则可确定符合预定的时间要求,相应地,可将检测到的唇动起点作为确定出的语音尾点以及新的语音起点。即可进行强制切分,将检测到的唇动起点作为最近一次检测到的语音起点对应的语音尾点以及新的语音起点。
本公开的一个实施例中,修正模块704还可在语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点。
即可进行强制切分,将检测到的唇动尾点作为最新得到的语音起点对应的语音尾点以及新的语音起点。
本公开的一个实施例中,第二检测模块703还可在确定视频中的人脸的唇部未被遮挡时,对视频数据进行第二检测。也就是说,当确定视频中的人脸的唇部被遮挡时,如由于佩戴了口罩导致唇部被遮挡,那么可不进行第二检测,即仅进行第一检测,将第一检测结果作为语音端点检测结果。
图7所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本公开装置实施例所述方案,结合了语音检测模型以及唇动检测技术,利用唇动检测结果来对语音检测模型检测到的语音起点和语音尾点进行修正,从而提升了语音端点检测结果的准确性等。
本公开所述方案可应用于人工智能领域,特别涉及深度学习以及智能语音等领域。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。云计算指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以以按需、自服务的方式对资源进行部署和管理的技术体系,通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种语音端点检测方法,包括:
获取时间对齐的语音数据及视频数据;
利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
对所述视频数据进行唇动起点和唇动尾点的第二检测;
利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
2.根据权利要求1所述的方法,其中,所述对所述视频数据进行唇动起点和唇动尾点的第二检测包括:
利用训练得到的唇动检测模型,对所述视频数据进行所述第二检测,得到视频中的人脸的唇动起点和唇动尾点。
3.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:
当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;
其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述无唇动状态为有唇动状态之外的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。
4.根据权利要求3所述的方法,其中,所述符合预定的时间要求包括:
检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。
5.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:
当语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点;
其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。
6.根据权利要求1~5中任一项所述的方法,还包括:
若确定视频中的人脸的唇部未被遮挡,则对所述视频数据进行所述第二检测。
7.一种语音端点检测装置,包括:获取模块、第一检测模块、第二检测模块以及修正模块;
所述获取模块,用于获取时间对齐的语音数据及视频数据;
所述第一检测模块,用于利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
所述第二检测模块,用于对所述视频数据进行唇动起点和唇动尾点的第二检测;
所述修正模块,用于利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
8.根据权利要求7所述的装置,其中,
所述第二检测模块利用训练得到的唇动检测模型对所述视频数据进行所述第二检测,得到视频中的人脸的唇动起点和唇动尾点。
9.根据权利要求7所述的装置,其中,
所述修正模块在语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;
其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述无唇动状态为有唇动状态之外的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。
10.根据权利要求9所述的装置,其中,所述符合预定的时间要求包括:
检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。
11.根据权利要求7所述的装置,其中,
所述修正模块在语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点;
其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。
12.根据权利要求7~11中任一项所述的装置,其中,
所述第二检测模块进一步用于,若确定视频中的人脸的唇部未被遮挡,则对所述视频数据进行所述第二检测。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502922.2A CN113345472B (zh) | 2021-05-08 | 2021-05-08 | 语音端点检测方法、装置、电子设备及存储介质 |
EP22159459.1A EP4086905B1 (en) | 2021-05-08 | 2022-03-01 | Voice activity detection method and apparatus, electronic device and storage medium |
US17/685,438 US20220358929A1 (en) | 2021-05-08 | 2022-03-03 | Voice activity detection method and apparatus, electronic device and storage medium |
KR1020220032004A KR20220152378A (ko) | 2021-05-08 | 2022-03-15 | 음성 엔드포인트 검출 방법, 장치, 전자 기기 및 기록 매체 |
JP2022043117A JP7408898B2 (ja) | 2021-05-08 | 2022-03-17 | 音声エンドポイント検出方法、装置、電子機器、及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110502922.2A CN113345472B (zh) | 2021-05-08 | 2021-05-08 | 语音端点检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345472A true CN113345472A (zh) | 2021-09-03 |
CN113345472B CN113345472B (zh) | 2022-03-25 |
Family
ID=77470193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110502922.2A Active CN113345472B (zh) | 2021-05-08 | 2021-05-08 | 语音端点检测方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220358929A1 (zh) |
EP (1) | EP4086905B1 (zh) |
JP (1) | JP7408898B2 (zh) |
KR (1) | KR20220152378A (zh) |
CN (1) | CN113345472B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69917361D1 (de) * | 1998-03-24 | 2004-06-24 | Matsushita Electric Ind Co Ltd | Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen |
US20070136071A1 (en) * | 2005-12-08 | 2007-06-14 | Lee Soo J | Apparatus and method for speech segment detection and system for speech recognition |
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
CN103745723A (zh) * | 2014-01-13 | 2014-04-23 | 苏州思必驰信息科技有限公司 | 一种音频信号识别方法及装置 |
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
CN111048066A (zh) * | 2019-11-18 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种儿童机器人上利用图像辅助的语音端点检测系统 |
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN111292723A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种语音识别系统 |
CN111916061A (zh) * | 2020-07-22 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 语音端点检测方法、装置、可读存储介质及电子设备 |
US20200357401A1 (en) * | 2017-03-14 | 2020-11-12 | Google Llc | Query endpointing based on lip detection |
CN112397093A (zh) * | 2020-12-04 | 2021-02-23 | 中国联合网络通信集团有限公司 | 一种语音检测方法与装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
JP2002091466A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
EP1748387B1 (en) * | 2004-05-21 | 2018-12-05 | Asahi Kasei Kabushiki Kaisha | Devices for classifying the arousal state of the eyes of a driver, corresponding method and computer readable storage medium |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2012003326A (ja) * | 2010-06-14 | 2012-01-05 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
JP6100263B2 (ja) * | 2012-08-10 | 2017-03-22 | 株式会社ホンダアクセス | 音声認識方法及び音声認識装置 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
JP2014240856A (ja) * | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
KR102351497B1 (ko) * | 2015-03-19 | 2022-01-14 | 삼성전자주식회사 | 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치 |
US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
US10846522B2 (en) * | 2018-10-16 | 2020-11-24 | Google Llc | Speaking classification using audio-visual data |
CN113939871A (zh) * | 2019-06-11 | 2022-01-14 | 松下知识产权经营株式会社 | 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序 |
US20210407510A1 (en) * | 2020-06-24 | 2021-12-30 | Netflix, Inc. | Systems and methods for correlating speech and lip movement |
-
2021
- 2021-05-08 CN CN202110502922.2A patent/CN113345472B/zh active Active
-
2022
- 2022-03-01 EP EP22159459.1A patent/EP4086905B1/en active Active
- 2022-03-03 US US17/685,438 patent/US20220358929A1/en active Pending
- 2022-03-15 KR KR1020220032004A patent/KR20220152378A/ko unknown
- 2022-03-17 JP JP2022043117A patent/JP7408898B2/ja active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69917361D1 (de) * | 1998-03-24 | 2004-06-24 | Matsushita Electric Ind Co Ltd | Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen |
US20070136071A1 (en) * | 2005-12-08 | 2007-06-14 | Lee Soo J | Apparatus and method for speech segment detection and system for speech recognition |
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
CN103745723A (zh) * | 2014-01-13 | 2014-04-23 | 苏州思必驰信息科技有限公司 | 一种音频信号识别方法及装置 |
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
US20200357401A1 (en) * | 2017-03-14 | 2020-11-12 | Google Llc | Query endpointing based on lip detection |
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN111048066A (zh) * | 2019-11-18 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种儿童机器人上利用图像辅助的语音端点检测系统 |
CN111292723A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种语音识别系统 |
CN111916061A (zh) * | 2020-07-22 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 语音端点检测方法、装置、可读存储介质及电子设备 |
CN112397093A (zh) * | 2020-12-04 | 2021-02-23 | 中国联合网络通信集团有限公司 | 一种语音检测方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4086905B1 (en) | 2023-12-13 |
CN113345472B (zh) | 2022-03-25 |
EP4086905A1 (en) | 2022-11-09 |
KR20220152378A (ko) | 2022-11-15 |
US20220358929A1 (en) | 2022-11-10 |
JP7408898B2 (ja) | 2024-01-09 |
JP2022173183A (ja) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3852008A2 (en) | Image detection method and apparatus, device, storage medium and computer program product | |
CN112887789B (zh) | 视频生成模型的构建和视频生成方法、装置、设备及介质 | |
CN113359995B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN113325954B (zh) | 用于处理虚拟对象的方法、装置、设备和介质 | |
CN113591864B (zh) | 文本识别模型框架的训练方法、装置及系统 | |
CN113691864A (zh) | 视频剪辑方法、装置、电子设备和可读存储介质 | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
CN115101069A (zh) | 语音控制方法、装置、设备、存储介质以及程序产品 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN113810765A (zh) | 视频处理方法、装置、设备和介质 | |
CN114267375A (zh) | 音素检测方法及装置、训练方法及装置、设备和介质 | |
CN116935287A (zh) | 视频理解方法和装置 | |
CN112669837A (zh) | 智能终端的唤醒方法、装置及电子设备 | |
CN113345472B (zh) | 语音端点检测方法、装置、电子设备及存储介质 | |
CN114220163B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN113379750A (zh) | 语义分割模型的半监督学习方法、相关装置及产品 | |
CN114549695A (zh) | 图像生成方法、装置、电子设备及可读存储介质 | |
CN115312042A (zh) | 用于处理音频的方法、装置、设备以及存储介质 | |
CN114283227B (zh) | 虚拟人物的驱动方法、装置、电子设备及可读存储介质 | |
CN115131562B (zh) | 三维场景分割方法、模型训练方法、装置和电子设备 | |
CN116012748A (zh) | 视频处理方法、装置、设备、存储介质和程序产品 | |
CN116778006B (zh) | 图片编码器的建模方法、装置、电子设备及存储介质 | |
CN113642469A (zh) | 嘴唇动作的检测方法、装置、设备和存储介质 | |
US20220188163A1 (en) | Method for processing data, electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |