CN114898755A - 语音处理方法及相关装置、电子设备、存储介质 - Google Patents
语音处理方法及相关装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN114898755A CN114898755A CN202210824381.XA CN202210824381A CN114898755A CN 114898755 A CN114898755 A CN 114898755A CN 202210824381 A CN202210824381 A CN 202210824381A CN 114898755 A CN114898755 A CN 114898755A
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- detection
- duration
- blank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 294
- 238000012545 processing Methods 0.000 claims abstract description 116
- 230000004044 response Effects 0.000 claims abstract description 42
- 230000003993 interaction Effects 0.000 claims abstract description 36
- 230000002045 lasting effect Effects 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 8
- 235000014510 cooky Nutrition 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音处理方法及相关装置、电子设备、存储介质,其中,语音处理方法包括:获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效。上述方案,能够提升语音交互的响应速度。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音处理方法及相关装置、电子设备、存储介质。
背景技术
随着信息技术的发展,智能语音技术已经在诸如智能家居、移动设备、车载设备等各种领域得到全面普及。在语音交互中,交互响应速度是用户体验的关键指标。
目前行业内,语音交互的普遍链路流程可以表示为:录音→后端点检测→识别→理解→反馈,即在录音过程中,若后端点检测的检测结果为当前已经不短于固定时长未输入语音,则可以判定说话人停止说话,此时即可执行后续识别、理解并反馈的过程。因此,对于说话人来说,在交互过程中,需要等待固定时长以及语音识别、理解等处理所需时长,交互响应速度较慢,从而影响用户体验。有鉴于此,如何提升语音交互的响应速度成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种语音处理方法及相关装置、电子设备、存储介质,能够提升语音交互的响应速度。
为了解决上述技术问题,本申请第一方面提供了一种语音处理方法,包括:S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长;S2:响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;S3:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;S4.1:若否,则舍弃语音处理结果,并基于语音采集的当前进度,重新执行S1至S3;S4.2:若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行S3;S4.3:若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效。
为了解决上述技术问题,本申请第二方面提供了一种语音处理装置,包括:第一判断模块、语音处理模块、第二判断模块、第一循环模块、第二循环模块和确定模块,第一判断模块,用于执行S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展得到串行排列的多个检测时长,且各检测时长均不大于门限时长;语音处理模块,用于执行S2:响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;第二判断模块,用于执行S3:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;第一循环模块,用于执行S4.1:在参考语音并非空白的情况下,舍弃语音处理结果,并基于语音采集的当前进度,重新执行S1至S3;第二循环模块,用于执行S4.2:在参考语音空白且尚有未使用的检测时长的情况下,基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行S3;确定模块,用于执行S4.3:在参考语音空白且所有检测时长均已使用的情况下,将最新获取的语音处理结果置为有效。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音处理方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音处理方法。
上述方案,在语音采集过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长,且用于检测语音输入是否停止的门限时长不小于首个检测时长,各检测时长均不大于门限时长,响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻。在此基础上,进一步将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白,若否则舍弃语音处理结果,并基于语音采集的当前进度,重新执行获取持续至当前时刻的空白语音的语音时长的步骤,若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行将最新使用的检测时长的下一检测时长,作为参考时长的步骤以及后续步骤,若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效,故通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将最新获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
附图说明
图1是本申请语音处理方法一实施例的流程示意图;
图2是本申请语音处理方法一实施例的框架示意图;
图3是本申请语音处理方法另一实施例的框架示意图;
图4a是单端点检测一实施例的示意图;
图4b是两端点检测一实施例的示意图;
图4c是多端点检测一实施例的示意图;
图5是本申请语音处理装置一实施例的框架示意图;
图6是本申请电子设备一实施例的框架示意图;
图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请语音处理方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S101:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长,若否,则执行步骤S102,若是执行步骤S103。
本公开实施例中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长。需要说明的是,串行排列的多个检测时长可以为两个检测时长,也可以为三个检测时长,还可以为三个以上的检测时长,在此不做限定。
在一个实施场景中,串行排列的多个检测时长之和等于门限时长。具体而言,可以将门限时长等分为多个检测时长,示例性地,以门限时长是6秒为例,可以将门限时长等分为6份,即各个检测时长均为1秒;或者,也可以将门限时长进行差异化划分,得到多个检测时长,且各检测时长可以不尽相同,即部分检测时长相同,部分检测时长不相同,示例性地,仍以门限时长是6秒为例,可以将门限时长进行差异化划分为6份,得到如下检测时长:0.5秒、0.5秒、1秒、1秒、1秒、2秒;当然,也可以将门限时长进行差异化划分,得到多个检测时长,且各检测时长可以完全不同,示例性地,仍以门限时长是6秒为例,可以将门限时长进行差异化划分为3份,得到如下检测时长:1秒、2秒、3秒。其他情况可以以此类推,在此不再一一举例。此外,在串行排列的多个检测时长之和等于门限时长的情况下,串行排列的多个检测时长可以按照一定顺序(如,由小到大,或由大到小)进行排序,当然,串行排列的多个检测时长也可以随机排序,在此不做限定。
在一个实施场景中,区别于前述方式,也可以将串行排列的多个检测时长中的最大者设置为门限时长,且串行排列的多个检测时长互不相同,并按照由小到大的顺序排列。示例性地,以门限时长是6秒为例,串行排列的多个检测时长可以为:1秒、2秒、3秒、4秒、5秒、6秒;或者,串行排列的多个检测时长也可以为:1秒、3秒、5秒、6秒;或者,串行排列的多个检测时长也可以为:1秒、3秒、6秒。也就是说,串行排列的多个检测时长,其具体数量,在此不做限定。
在一个实施场景中,由门限时长扩展为串行排列的多个检测时长,可以由执行语音交互的本端设备默认配置。当然,说话人也可以基于自身需要对本端设备所配置的多个检测时长进行自定义修改,在此不做限定。示例性地,在说话人期望语音交互的响应速度更快一些的情况下,可以将缩短首个检测时长;或者,在说话人期望语音交互的响应速度更慢一些的情况下,可以将加长首个检测时长,需要说明的是,在串行排列的多个检测时长之和等于门限时长的情况下,若说话人自定义修改首个检测时长,则相应地,可以自动调整后续检测时长,使多个检测时长的总时长仍等于门限时长。
在另一个实施场景中,响应于本端设备登录有注册账号,可以获取注册账号在其它设备登录后所同步的配置信息,并在本端设备加载配置信息,且配置信息包括:由所述门限时长扩展为串行排列的多个检测时长。需要说明的是,注册账号可以是说话人为享受语音交互服务(如,语音助手等)而注册的账号,且该注册账号可以在所有可运行该语音交互服务的设备上通用,如可以应用于诸如电视、车机、手机、平板电脑、智能音箱等,在此不做限定。示例性地,说话人可以在手机登录注册账号之后,对默认配置进行自定义修改,在此之后配置信息即可同步于服务器,后续说话人使用该注册账号在车机登录时,车机可以从服务器获取配置信息,并加载该配置信息,从而能够免于人工重复设置,有助于实现跨平台互通。
在一个实施场景中,当前时刻表征语音采集的当前进度,请参阅图2或图3,图2是本申请语音处理方法一实施例的框架示意图,图3是本申请语音处理方法另一实施例的框架示意图。如图2或图3所示,斜线阴影填充部分表示有效语音,白色填充部分表示空白语音。需要说明的是,在实际应用过程中,可以通过语音信号的幅度等判断是否为有效语音。示例性地,当幅度高于第一阈值时,可以判定为有效语音,当幅度不高于第一阈值时,可以判定为空白语音。具体可以参阅诸如端点检测(Voice Activity Detection,VAD)等技术细节,在此不再赘述。由于语音采集是一个持续过程,当前时刻具体表征何时刻,也会随着语音采集的进度而发生变化。请继续参阅图2或图3,当说话人短暂停顿(即第一段有效语音结束)时,语音采集的当前时刻即为t0时刻,类似地,当说话人长时停顿(即第二段有效语音结束)时,语音采集的当前时刻即为t3时刻,其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,对于不同类型的当前时刻而言,持续至当前时刻的空白语音的语音时长其计算方式,也会有所不同。例如,若当前时刻表征某段有效语音的结束时刻,或某段空白语音的开始时刻(如,上述t0时刻、t3时刻),持续至当前时刻(如,t0时刻、t3时刻)的空白语音的语音时长为0秒;反之,若当前时刻表征某段有效语音的开始时刻,或某段空白语音的结束时刻,则持续至当前时刻的空白语音的语音时长即为该段空白语音的总时长。当然,若当前时刻位于某段有效语音(如,t2时刻),则由于当前时刻说话人正在语音输入,故持续至当前时刻的空白语音的语音时长为0秒;类似地,若当前时刻位于某段空白语音(如,t1时刻、t4时刻、t5时刻、t6时刻),则由于当前时刻说话人不在语音输入,故持续至当前时刻的空白语音的语音时长为该段空白语音的起始点至当前时刻的总时长,如若当前时刻为t1时刻,则持续至当前时刻的空白语音的语音时长为t0时刻至t1时刻的总时长,若当前时刻为t4时刻,则持续至当前时刻的空白语音的语音时长为t3时刻至t4时刻的总时长,若当前时刻为t5时刻,则持续至当前时刻的空白语音的语音时长为t3时刻至t5时刻的总时长,若当前时刻为t6时刻,则持续至当前时刻的空白语音的语音时长为t3时刻至t6时刻的总时长。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于描述,可以将串行排列的多个检测时长分别记为T1、T2、T3。请结合参阅图2或图3,若当前时刻为t0时刻之前某个时刻,由于语音时刻为0秒,则可以确定语音时长小于首个检测时长T1;若当前时刻为t0时刻至t1时刻之间某个时刻,则可以确定语音时长小于首个检测时长T1;当语音采集的当前进度进展到t1时刻时,可以确定语音时长等于首个检测时长T1。其他情况可以以此类推,在此不再一一举例。
需要说明的是,由于在语音采集的过程中,可能会存在:说话人持续输入、说话人短时停顿、说话人停止输入等几种情况,且这几种情况出现空白的时长也不尽相同,故为了在持续至当前时刻的空白语音的语音时长小于首个检测时长的情况下,准确地区分说话人当前停止输入究竟是由于短时思考等原因导致的短时停顿,还是由于结束输入而产生的长时输入,有必要随着语音采集的不断进展,继续判断持续至当前时刻的空白语音的语音时长是否不小于首个检测时长。
步骤S102:基于语音采集的当前进度,重新执行步骤S101以及后续步骤。
具体地,当语音时长小于首个检测时长的情况下,可以随着语音采集的不断进展,继续重新执行前述步骤S101,直至根据语音采集的当前进度,可以确定语音时长不小于首个检测时长为止。请继续结合图2或图3,在当前时刻为位于t1时刻之前某个时刻的情况下,由于语音时长一直小于首个检测时长T1,故可以随着语音采集的不断进展,不断重复执行前述步骤S101,直至语音采集当前进展到t1时刻为止。其他情况可以以此类推,在此不再一一举例。
步骤S103:基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻。
具体地,在持续至当前时刻的空白语音的语音时长不小于首个检测时长的情况下,可以认为说话人停止语音输入,至于是短时停止(如,由于短暂思考等原因暂停说话,但马上还会继续说话),还是长时停止(即说话人真正停止语音输入),当前尚不明确。但是,为了确保在当前停止为长时停止的情况下,能够尽可能快速地响应说话人,可以先基于截止至当前时刻采集到的有效语音,得到语音处理结果。
在一个实施场景中,截止至当前时刻采集到的有效语音中所称的“当前时刻”指的是检测到语音时长不小于首个检测时长时的语音采集时刻。请继续结合参阅图2或图3,如前所述,在当前时刻为t1时刻时,持续至当前时刻的空白语音的语音长度不小于首个检测时长,则此时可以获取截止至t1时刻采集到的有效语音(即图2或图3中首段有效语音),并据此获取语音处理结果。为了便于描述,可以将此时获取到的语音处理结果记为P1。其他情况可以以此类推,在此不再一一举例。此外,有效语音的具体含义,可以参阅前述相关描述,在此不再赘述。
在一个实施场景中,对截止至当前时刻采集到的有效语音所做的处理可以包括但不限于:语音识别、语义理解等,在此不做限定。进一步地,语音处理结果可以包括但不限于:识别文本、语音意图等,在此不做限定。
在一个具体的实施场景中,在语音处理结果包括识别文本的情况下,可以采用诸如卷积神经网络、长短时记忆网络、循环神经网络等网络模型对有效语音进行识别,得到识别文本。对有效语音进行语音识别的具体过程,可以参阅前述语音识别的技术细节,在此不再赘述。
在一个具体的实施场景中,在语音处理结果包括语音意图的情况下,可以先对有效语音进行语音识别,得到识别文本,再对识别文本进行语义理解,得到语音意图。需要说明的是,语音意图可以包括但不限于:查天气、订票、订酒店、搜电影、搜音乐等,在此不做限定。示例性地,可以采用诸如规则模板匹配的方式对识别文本进行意图识别,或者也可以采用诸如卷积神经网络、长短时记忆网络等深度学习模型对识别文本进行意图识别,在此不做限定。对识别文本进行意图识别的具体过程,可以参阅意图识别的技术细节,在此不再赘述。
在一个实施场景中,在持续至当前时刻的空白语音的语音时长不小于首个检测时长的情况下,可以进一步基于该空白语音的端点时刻,确定参考时刻,以便下一阶段检测之用。参考时刻的具体用途,可以参阅下述相关描述,在此暂不赘述。具体地,在多个检测时长之和等于门限时长的情况下,端点时刻可以为末端时刻,而最大检测时长等于门限时长的情况下,端点时刻可以为首端时刻。
在一个具体的实施场景中,请结合参阅图2,在多个检测时长之和等于门限时长的情况下,由于持续至当前时刻t1的空白语音的语音时长不小于首个检测时长T1,故可以基于t0至t1的空白语音的末端时刻,即t1时刻,得到参考时刻。具体来说,可以直接将t0至t1的空白语音的末端时刻,即t1时刻,作为参考时刻。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,请结合参阅图3,不同于上述方式,在最大检测时长等于门限时长的情况下,由于持续至当前时刻t1的空白语音的语音时长不小于首个检测时长T1,故可以基于t0至t1的空白语音的首端时刻,即t0时刻,得到参考时刻。具体来说,可以直接将t0至t1的空白语音的首端时刻,即t0时刻,作为参考时刻。其他情况可以以此类推,在此不再一一举例。
步骤S104:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白,若否,则执行步骤S105,若是执行步骤S107。
具体地,如前所述,多个检测时长是串行排列的,故在确定参考时刻之后,可以直接将最新使用的检测时长的下一检测时长,作为参考时长。仍以多个检测时长为T1、T2和T3为例,由于持续至t1时刻的空白语音的语音时长不小于首个检测时长T1,故其下一个检测时长为T2,即可以将检测时长T2作为参考时长。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,请结合参阅图2,如前所述,在多个检测时长之和等于门限时长的情况下,参考时刻为t1时刻,则可以随着语音采集的不断进展,在t2时刻,即可获取到从t1时刻持续采集参考时长T2的参考语音(即图2中t1时刻至t2时刻的语音)。在此基础上,判断该参考语音是否仍为空白。
在一个实施场景中,请结合参阅图3,如前所述,在最大检测时长等于门限时长的情况下,参考时刻为t0时刻,则可以随着语音采集的不断进展,在t2时刻,即可获取到从t0时刻持续采集参考时长T2的参考语音(即图3中t0时刻至t2时刻的语音)。在此基础上,判断该参考语音是否仍为空白。
在一个实施场景中,空白语音的具体判断过程,可以参阅前述相关描述,在此不再赘述。示例性地,如图2中参考语音(即图2中t1时刻至t2时刻的语音)或图3中参考语音(即图3中t0时刻至t2时刻的语音)所示,由于其中含有说话人输入的语音信息,故在此情况下,可以确定参考语音并非空白。其他情况可以以此类推,在此不再一一举例。
步骤S105:舍弃语音处理结果。
具体地,在参考语音并非空白的情况下,可以舍弃前述语音处理结果。也就是说,由于参考语音并非空白,此时可以确认说话人当前是由于短暂思考等原因而短时停止语音输入,说话人并未真正停止输入,还不能与说话人进行交互,故可以舍弃语音处理结果。示例性地,说话人完整的语音输入为“帮我订一张明天去合肥的车票,算了,还是订后天吧”,由于“算了”之前有短时停顿,故从“车票”的结束时刻开始至“算了”之前为空白语音,则可以据此获得有效语音“帮我订一张明天去合肥的车票”的语音处理结果,但是由于从参考时刻开始持续采集参考时长的参考语音并非仍为空白,故可以舍弃“帮我订一张明天去合肥的车票”的语音处理结果,并继续执行后续步骤。
需要说明的是,在前述步骤S103获取语音识别结果之后,可以缓存语音识别结果,如可以将语音识别结果缓存于内存、硬盘等存储介质中,而在确定舍弃语音处理结果之后,可以将内存、硬盘等存储介质所缓存的语音处理结果删除。
步骤S106:基于语音采集的当前进度,重新执行步骤S101以及后续步骤。
具体地,由于说话人尚未结束语音输入,故此时语音采集也仍在继续,此时可以继续基于语音采集的当前进度,重新执行前述步骤S101以及后续步骤。示例性地,请结合参阅图2或图3,由于在t2时刻可以确定参考语音并非仍为空白,即说话人尚未停止语音输入,故可以基于语音采集的当前进度,继续获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长。具体来说,随着语音采集的不断进展,一直到t3时刻,持续至当前时刻的空白语音均为0秒,在当前时刻为t4时刻的情况下,由于持续至t4时刻的空白语音(即t3时刻至t4时刻的语音)的语音时长不小于首个检测时长T1,故可以截止至当期时刻(即t4时刻)的有效语音(即首段有效语音和第二段有效语音),获取语音处理结果,为了便于描述,可以将此时获取到的语音处理结果记为P2。在此基础上,可以继续将最新使用的检测时长(即检测时长T1)的下一检测时长(即检测时长T2),作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白。如图2所示,在多个检测时长之和等于门限时长的情况下,参考语音为t4时刻至t5时刻的语音,或者如图3所示,在最大检测时长等于门限时长的情况下,参考语音为t3时刻至t5时刻的语音。由于参考语音仍为空白,则可以继续执行下述相关步骤。需要说明的是,图2和图3仅仅是示例性地描述了语音交互的一种可能情况,并不因此而限定语音交互过程中可能出现的其他情况。
步骤S107:判断是否尚有未使用的检测时长,若是则执行步骤S108,否则执行步骤S110。
具体地,在参考语音并非空白的情况下,可以认为说话人当前真正停止语音输入的可能性又有所增加,但为了进一步确认,可以继续判断是否有尚未使用的检测时长,若有尚未使用的检测时长,则可以继续下一阶段的检测,若所有检测时长均已使用,则可以确认说话人确实停止语音输入。
步骤S108:基于最新采集的参考语音的端点时刻,更新参考时刻。
如前所述,在多个检测时长之和等于门限时长的情况下,端点时刻为末端时刻,而在最大检测时长等于门限时长的情况下,端点时刻为首端时刻。
在一个实施场景中,在多个检测时长之和等于门限时长的情况下,可以将最新采集的参考语音的末端时刻,作为更新后的参考时刻。示例性地,请结合参阅图2,由于语音采集当前进展到t5时刻,则此时最新采集的参考语音为t4时刻至t5时刻的语音,故可以将参考时刻更新为:参考语音的末端时刻,即t5时刻。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,在最大检测时长等于门限时长的情况下,可以将最新采集的参考语音的首端时刻,作为更新后的参考时刻。示例性地,请结合参阅图3,由于语音采集当前进展到t5时刻,则此时最新采集的参考语音为t3时刻至t5时刻的语音,故可以将参考时刻更新为:参考语音的首端时刻,即t3时刻。其他情况可以以此类推,在此不再一一举例。
步骤S109:重新执行步骤S104以及后续步骤。
具体地,可以将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白。请继续结合参阅图2或图3,在语音采集进展到t5时刻时,可以将最新使用的检测时长,即T2时长的下一检测时长,即T3时长,作为参考时长,并在多个检测时长之和等于门限时长的情况下,判断从参考时刻t5时刻开始持续采集参考时长T3的参考语音(即t5时刻至t6时刻的语音)是否仍为空白,或者,在最大检测时长等于门限时长的情况下,判断从参考时刻t3时刻开始持续采集参考时长T3的参考语音(即t3时刻至t6时刻的语音)是否仍为空白。其他情况可以以此类推,在此不再一一举例。
步骤S110:将最新获取的语音处理结果置为有效。
具体地,在从参考时刻开始持续采集参考时长的参考语音仍然空白且所有检测时长均已使用的情况下,可以认为各阶段检测均已执行完毕,此时可以确认说话人确已停止语音输入,则可以将最新获取的语音处理结果置为有效。需要说明的是,“置为有效”的含义为:不舍弃该语音处理结果,此时可以选择将最新获取的语音识别结果缓存于内存等易失性存储介质,以便后续快速调用该语音处理结果,或者,也可以选择将最新获取的语音识别结果存储于硬盘等非易失性存储介质,在此不做限定。在此基础上,可以响应于最新获取的语音处理结果满足预设条件,基于最新获取的语音处理结果,与说话人进行交互,或者,也可以响应于最新获取的语音处理结果不满足预设条件,拒绝与说话人进行交互。
在一个实施场景中,仍以串行排列的多个检测时长T1、T2和T3为例,请结合参阅图2或图3,在语音采集进展到t6时刻时,由于参考语音仍然空白且所有检测时长均已使用,故可以确认说话人确已停止语音输入,则可以将最新获取的语音处理结果,即语音处理结果P2,置为有效。
在一个实施场景中,仍以说话人完整的语音输入为“帮我订一张明天去合肥的车票,算了,还是订后天吧”为例,由于自“吧”之后,经首个检测时长,可以获取有效语音“帮我订一张明天去合肥的车票,算了,还是订后天吧”的语音处理结果,且经后续各个检测时长,均可确认语音持续空白,则可以将“帮我订一张明天去合肥的车票,算了,还是订后天吧”的语音处理结果,置为有效。
在一个实施场景中,最新获取的语音处理结果可以包括识别文本,则上述预设条件可以设置为包括以下任一者:识别文本包括预设唤醒词、识别文本的语义困惑度(perplexity,ppl)不高于预设阈值、基于识别文本能够进一步识别出语音意图等,在此不做限定。示例性地,在语音唤醒场景中,若识别文本包含预设唤醒词(如,小X小X等),则可以与说话人交互,如可以通过诸如“哎,你好”、“哎,我在”、“哎,我听着呢”等语音回应说话人,反之,若识别文本不包含预设唤醒词,则可以拒绝与说话人进行交互。其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,如前所述,语音处理结果包括识别文本,则在基于语音处理结果,与说话人进行交互过程中,可以向说话人展示识别文本。示例性地,在线上会议场景中,在得到识别文本之后,可以将识别文本显示于屏幕上,则说话人(如,当前说话人,与会的其他说话人)可以第一时间在屏幕上看到识别文本,从而能够尽可能地减少由于语音、视频等较大数据传输出现延迟时与会人员信息获取不及时的问题,进而能够提升用户体验。进一步地,语音处理结果还可以包括翻译文本,翻译文本可以由识别文本翻译得到,如识别文本为中文文本,则可以根据线上会议场景涉及中文和英文,语音处理结果可以进一步包括由中文文本翻译得到的英文文本,以此可以满足多语种会议的场景需求。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,如前所述,语音处理结果包括语音意图。语音意图可以对识别文本进行意图识别得到,具体可以参阅前述相关描述,在此不再赘述。在此基础上,在基于最新获取的语音处理结果,与说话人进行交互过程中,可以基于语音意图,回应说话人。具体地,在得到说话人的语音意图之后,可以通过输出语音、执行操作等方式响应该语音意图。示例性地,在智能车载场景中,若说话人的语音意图为“打开天窗”,则可以执行将天窗启动的操作,以响应说话人。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,如前所述,语音处理结果包括识别文本和语音意图。语音意图可以对识别文本进行意图识别得到,具体可以参阅前述相关描述,在此不再赘述。在此基础上,在基于最新获取的语音处理结果,与说话人进行交互过程中,可以向说话人展示识别文本,并基于语音意图,回应说话人。具体地,可以将识别文本显示于屏幕上,并通过输出语音、执行操作等方式响应该语音意图。示例性地,在智能家居场景中,若说话人完整的输入语音为“我要看小猪佩奇”,则可以在电视屏幕上显示识别文本“我要看小猪佩奇”或者识别文本中的关键字段“小猪佩奇”,并执行搜索关于小猪佩奇的操作,以响应说话人。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,请结合参阅图4a、图4b和图4c,图4a是单端点检测一实施例的示意图,图4b是两端点检测一实施例的示意图,图4c是多端点检测一实施例的示意图,需要说明的是,此处所指的“单端点检测”表示仅设置一个检测时长(即判断语音输入是否停止的门限时长),此处所指的“双端点检测”表示设置两个检测时长,此处所指的“多端点检测”表示设置三个以及三个以上的检测时长。如图4a至图4c所示,EOS()表示执行检测时长为括号内所示时长的说话结束端点检测。相同情况下,如图4a所示,单端点检测时,语音交互所花费的时长为T+Ta,其中,T为检测时长,Ta为语音处理所需时长;如图4b所示,两端点检测时,语音交互所花费的时长为T1+Ta;如图4c所示,多端点检测时,语音交互所花费时长为T1’+Ta。如前所述,本公开实施例中,在设置串行排列的多个检测时长的情况下,各检测时长均不大于门限时长,故无论如图4b所示的两端点检测,还是如图4c所示的多端点检测,相较于图4a所示的单端点检测而言,需要花费时长均得到大大减少。其中,两端点检测相较于单端点检测而言,理论上能够减少T2的时长花费,多端点检测相较于单端点检测而言,理论上能够减少T2’+…+Tn’的时长花费。此外,本公开实施例中,串行排列的多个检测时长设置地越多,理论上能够减少的时长花费越多。当然,考虑到串行排列的多个检测时长设置地越多,所需的计算负荷也随之增加,故为了平衡时长花费和计算负荷,可以将串行排列的多个检测时长其具体数量,设置地稍微适中一些,如可以设置为2个。当然,为平衡时长花费和计算负荷所设置的检测时长的具体数量,也不限于2个,如也可以设置为3个等,在此不做限定。
在一个实施场景中,考虑到不同说话人对语音交互的响应速度需求也不尽相同,在响应于最新获取的语音处理结果满足预设条件,基于最新获取的语音处理结果,与说话人进行交互之后,还可以获取说话人对本次交互关于响应速度的评价信息,并基于评价信息,调整由门限时长扩展得到的多个检测时长。需要说明的是,评价信息可以包括以下任一者:(1)响应速度快于预期,并期望慢一些,(2)响应速度慢于预期,并期望快一些,(3)响应速度适中,并期望保持不变。示例性地,若为第一种评价,则可以适当加长首个检测时长,具体可以通过减少对门限时长的平分数量、或增大首个检测时长并自适应减小后续检测时长等方式实现;或者,若为第二种评价,则可以适当缩短首个检测时长,具体可以通过增多对门限时长的平分数量、或减小首个检测时长并自适应增大后续检测时长等方式实现;或者,若为第三种评价,则可以保持目前检测时长不变。上述方式,通过根据说话人对本次交互关于响应速度的评价信息,自适应调整由所述门限时长扩展得到的多个检测时长,能够使响应速度尽可能地贴近用户使用习惯。
在一个实施场景中,考虑到不同说话人的说话习惯也不尽相同,如老年人说话时停顿时长通常略大一些,而青年人说话时停顿时长通常略小一些,故为了尽可能地避免由于停顿较长(总体还是短于门限时长),而在此过程中多次检测,从而消耗大量计算资源,还可以在将最新获取的语音处理结果置为有效之后,统计说话人在语音采集的过程中说话停顿时的平均时长。需要说明的是,关于说话人停顿时长的具体含义,可以参阅前述关于“短时停顿”的相关描述,在此不再赘述。此外,平均时长可以通过对说话人多次语音交互过程中所记录的短时停顿取均值得到。在此基础上,可以基于平均时长,调整由所述门限时长扩展得到的多个检测时长。具体而言,在多个检测时长之和等于门限时长的情况下,若平均时长不小于前i个(如,前2个、前3个等)检测时长的总时长,则可以加长第2个至第i个中至少一个检测时长,并对首个检测时长之外至少一个未加长的检测时长进行缩短,使所有检测时长的总时长仍等于门限时长,如此调整既能够尽可能地降低对响应速度的影响,也可以尽可能地避免由于停顿较长而导致多次检测所带来的计算负荷;或者,在最大检测时长等于所述门限时长的情况下,若平均时长不小于第j个(如,第2个、第3个等)检测时长,则可以加长第2个至第j个中至少一个检测时长,并确保加长之后,多个检测时长仍满足最大检测时长等于门限时长,且多个检测时长由小到大排序。上述方式,在将最新获取的语音处理结果置为有效之后,统计说话人在语音采集的过程中说话停顿时的平均时长,并基于平均时长,调整由所述门限时长扩展得到的多个检测时长,能够尽可能地避免由于停顿较长而导致多次检测所带来的计算负荷。
上述方案,通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将预先获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
请参阅图5,图5是语音处理装置50一实施例的框架示意图。语音处理装置50包括:第一判断模块51、语音处理模块52、第二判断模块53、第一循环模块54、第二循环模块55和确定模块56,第一判断模块51,用于执行S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展得到串行排列的多个检测时长,且各检测时长均不大于门限时长;语音处理模块52,用于执行S2:响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;第二判断模块53,用于执行S3:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;第一循环模块54,用于执行S4.1:在参考语音并非空白的情况下,舍弃语音处理结果,并基于语音采集的当前进度,重新执行S1至S3;第二循环模块55,用于执行S4.2:在参考语音空白且尚有未使用的检测时长的情况下,基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行S3;确定模块56,用于执行S4.3:在参考语音空白且所有检测时长均已使用的情况下,将最新获取的语音处理结果置为有效。
上述方案,通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将最新获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
在一些公开实施例中,多个检测时长之和等于门限时长;或者,最大检测时长等于门限时长,多个检测时长互不相同,并按照由小到大的顺序排列。
因此,将多个检测时长之和设置为等于门限时长,或者,最大检测时长设置为等于门限时长,多个检测时长互不相同,并按照由小到大的顺序排列,能够提升对串行排列的多个检测时长的设置灵活性。
在一些公开实施例中,语音处理模块52具体用于在多个检测时长之和等于门限时长的情况下,将空白语音的末端时刻,确定为参考时刻;第二循环模块55具体用于在多个检测时长之和等于门限时长的情况下,将最新采集的参考语音的末端时刻,作为更新后的参考时刻。
因此,在多个检测时长之和等于门限时长的情况下,将空白语音的末端时刻,确定为参考时刻,并将最新采集的参考语音的末端时刻,作为更新后的参考时刻。故此,能够针对多个检测时长设置为其总和等于门限时长,适应性地确定并更新参考时刻,有助于提升空白语音检测的准确性。
在一些公开实施例中,语音处理模块52具体用于在最大检测时长等于门限时长的情况下,将空白语音的首端时刻,确定为参考时刻;第二循环模块55具体用于在最大检测时长等于门限时长的情况下,将最新采集的参考语音的首端时刻,作为更新后的参考时刻。
因此,在最大检测时长等于门限时长的情况下,将空白语音的首端时刻,确定为参考时刻,并将最新采集的参考语音的首端时刻,作为更新后的参考时刻。故此,能够针对最大检测时长设置为等于门限时长,适应性地确定并更新参考时刻,有助于提升空白语音检测的准确性。
在一些公开实施例中,语音处理装置50还包括第三循环模块,用于在语音时长小于首个检测时长的情况下,基于语音采集的当前进度,重新执行S1以及后续步骤。
因此,在语音时长小于首个检测时长的情况下,基于语音采集的当前进度,重新执行在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长的步骤以及后续步骤,能够有助于准确地区分说话人当前停止输入究竟是由于短时思考等原因导致的短时停顿,还是由于结束输入而产生的长时输入。
在一些公开实施例中,确定模块56包括展示子模块,用于在语音处理结果包括识别文本的情况下,向说话人展示识别文本;确定模块56包括回应子模块,用于在语音处理结果包括语音意图的情况下,基于语音意图,回应说话人;确定模块56包括展示子模块和回应子模块,展示子模块,用于向说话人展示识别文本,回应子模块用于基于语音意图,回应说话人。
因此,在语音处理结果包括不同类别数据时,通过不同方式与说话人进行交互,有助于提升说话人的交互体验。
在一些公开实施例中,语音处理装置50还包括评价获取模块,用于获取说话人对本次交互关于响应速度的评价信息,语音处理装置50还包括第一调整模块,用于基于评价信息,调整由门限时长扩展得到的多个检测时长。
因此,通过根据说话人对本次交互关于响应速度的评价信息,自适应调整由所述门限时长扩展得到的多个检测时长,能够使响应速度尽可能地贴近用户使用习惯。
在一些公开实施例中,语音处理装置50还包括停顿统计模块,用于统计说话人在语音采集的过程中说话停顿时的平均时长;语音处理装置50还包括第二调整模块,用于基于平均时长,调整由门限时长扩展得到的多个检测时长。
因此,在将最新获取的语音处理结果置为有效,统计说话人在语音采集的过程中说话停顿时的平均时长,并基于平均时长,调整由所述门限时长扩展得到的多个检测时长,能够尽可能地避免由于停顿较长而导致多次检测所带来的计算负荷。
在一些公开实施例中,语音处理装置50还包括配置获取模块,用于响应于本端设备登录有注册账号,获取注册账号在其它设备登录后所同步的配置信息;语音处理装置50还包括配置加载模块,用于在本端设备加载配置信息;其中,所述配置信息包括:由门限时长扩展为串行排列的多个检测时长。
因此,响应于本端设备登录有注册账号,获取注册账号在其它设备登录后所同步的配置信息,并在本端设备加载配置信息;其中,配置信息包括:由门限时长扩展为串行排列的多个检测时长,能够免于人工重复设置,有助于实现跨平台互通。
在一些公开实施例中,门限时长扩展为串行排列的两个检测时长。
因此,由门限时长扩展为串行排列的两个检测时长,能够平衡时长花费和计算负荷。
请参阅图6,图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62,存储器61中存储有程序指令,处理器62用于执行程序指令以实现上述任一语音处理方法实施例中的步骤。具体地,电子设备60可以包括但不限于:台式计算机、笔记本电脑、手机、平板电脑、自助服务机、机器人等等,在此不做限定。此外,电子设备60还可以包括耦接至处理器62的拾音电路(未图示),拾音电路可以包括但不限于麦克风等。此外,电子设备60还可以包括耦接至处理器62的人机交互电路(未图示),人机交互电路可以包括但不限于:显示屏、扬声器等,在此不做限定。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一语音处理方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application SpecificIntegrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
上述方案,通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将预先获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
请参阅图7,图7是本申请计算机可读存储介质70一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令71,程序指令71用于实现上述任一语音处理方法实施例中的步骤。
上述方案,通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将预先获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (15)
1.一种语音处理方法,其特征在于,包括:
S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断所述语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各所述检测时长均不大于所述门限时长;
S2:响应于所述语音时长不小于首个检测时长,基于截止至所述当前时刻采集到的有效语音,获取语音处理结果,并基于所述空白语音的端点时刻,确定参考时刻;
S3:将最新使用的检测时长的下一所述检测时长,作为参考时长,并判断从所述参考时刻开始持续采集所述参考时长的参考语音是否仍空白;
S4.1:若否,则舍弃所述语音处理结果,并基于所述语音采集的当前进度,重新执行S1至S3;
S4.2:若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新所述参考时刻,并重新执行S3;
S4.3:若是且所有所述检测时长均已使用,则将最新获取的语音处理结果置为有效。
2.根据权利要求1所述的方法,其特征在于,所述多个检测时长之和等于所述门限时长;或者,
最大所述检测时长等于所述门限时长,所述多个检测时长互不相同,并按照由小到大的顺序排列。
3.根据权利要求1或2所述的方法,其特征在于,在所述多个检测时长之和等于所述门限时长的情况下,所述端点时刻为末端时刻;
和/或,在最大所述检测时长等于所述门限时长的情况下,所述端点时刻为首端时刻。
4.根据权利要求3所述的方法,其特征在于,在所述多个检测时长之和等于所述门限时长的情况下,所述基于所述空白语音的端点时刻,确定参考时刻,包括:
将所述空白语音的末端时刻,确定为参考时刻;
所述基于最新采集的参考语音的端点时刻,更新所述参考时刻,包括:
将最新采集的参考语音的末端时刻,作为更新后的参考时刻。
5.根据权利要求3所述的方法,其特征在于,在最大所述检测时长等于所述门限时长的情况下,所述基于所述空白语音的端点时刻,确定参考时刻,包括:
将所述空白语音的首端时刻,确定为参考时刻;
所述基于最新采集的参考语音的端点时刻,更新所述参考时刻,包括:
将最新采集的参考语音的首端时刻,作为更新后的参考时刻。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述语音时长小于首个检测时长,基于所述语音采集的当前进度,重新执行S1以及后续步骤。
7.根据权利要求1所述的方法,其特征在于,在所述将最新获取的语音处理结果置为有效之后,所述方法还包括:
响应于最新获取的语音处理结果满足预设条件,基于最新获取的语音处理结果,与说话人进行交互;或者,
响应于最新获取的语音处理结果不满足预设条件,拒绝与说话人进行交互。
8.根据权利要求7所述的方法,其特征在于,所述语音处理结果包括识别文本;所述基于最新获取的语音处理结果,与说话人进行交互,包括:向所述说话人展示所述识别文本;
或者,所述语音处理结果包括语音意图;所述基于最新获取的语音处理结果,与说话人进行交互,包括:基于所述语音意图,回应所述说话人;
或者,所述语音处理结果包括识别文本和所述语音意图,所述基于最新获取的语音处理结果,与说话人进行交互,包括:向所述说话人展示所述识别文本,并基于所述语音意图,回应所述说话人。
9.根据权利要求7所述的方法,其特征在于,在所述响应于最新获取的语音处理结果满足预设条件,基于最新获取的语音处理结果,与说话人进行交互之后,所述方法还包括:
获取所述说话人对本次交互关于响应速度的评价信息;
基于所述评价信息,调整由所述门限时长扩展得到的多个检测时长。
10.根据权利要求1所述的方法,其特征在于,在所述将最新获取的语音处理结果置为有效之后,所述方法还包括:
统计说话人在所述语音采集的过程中说话停顿时的平均时长;
基于所述平均时长,调整由所述门限时长扩展得到的多个检测时长。
11.根据权利要求1所述的方法,其特征在于,在所述判断所述语音时长是否不小于首个检测时长之前,所述方法还包括:
响应于本端设备登录有注册账号,获取所述注册账号在其它设备登录后所同步的配置信息,并在所述本端设备加载所述配置信息;其中,所述配置信息包括:由所述门限时长扩展为串行排列的多个检测时长。
12.根据权利要求1所述的方法,其特征在于,所述门限时长扩展为串行排列的两个检测时长。
13.一种语音处理装置,其特征在于,包括:
第一判断模块,用于执行S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断所述语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展得到串行排列的多个检测时长,且各所述检测时长均不大于所述门限时长;
语音处理模块,用于执行S2:响应于所述语音时长不小于首个检测时长,基于截止至所述当前时刻采集到的有效语音,获取语音处理结果,并基于所述空白语音的端点时刻,确定参考时刻;
第二判断模块,用于执行S3:将最新使用的检测时长的下一所述检测时长,作为参考时长,并判断从所述参考时刻开始持续采集所述参考时长的参考语音是否仍空白;
第一循环模块,用于执行S4.1:在所述参考语音并非空白的情况下,舍弃所述语音处理结果,并基于所述语音采集的当前进度,重新执行S1至S3;
第二循环模块,用于执行S4.2:在所述参考语音空白且尚有未使用的检测时长的情况下,基于最新采集的参考语音的端点时刻,更新所述参考时刻,并重新执行S3;
确定模块,用于执行S4.3:在所述参考语音空白且所有所述检测时长均已使用的情况下,将最新获取的语音处理结果置为有效。
14.一种电子设备,其特征在于,相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至12任一项所述的语音处理方法。
15.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至12任一项所述的语音处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824381.XA CN114898755B (zh) | 2022-07-14 | 2022-07-14 | 语音处理方法及相关装置、电子设备、存储介质 |
PCT/CN2023/107073 WO2024012501A1 (zh) | 2022-07-14 | 2023-07-12 | 语音处理方法及相关装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210824381.XA CN114898755B (zh) | 2022-07-14 | 2022-07-14 | 语音处理方法及相关装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898755A true CN114898755A (zh) | 2022-08-12 |
CN114898755B CN114898755B (zh) | 2023-01-17 |
Family
ID=82730434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210824381.XA Active CN114898755B (zh) | 2022-07-14 | 2022-07-14 | 语音处理方法及相关装置、电子设备、存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114898755B (zh) |
WO (1) | WO2024012501A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012501A1 (zh) * | 2022-07-14 | 2024-01-18 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091709A (ja) * | 2003-09-17 | 2005-04-07 | Renesas Technology Corp | 音声認識装置 |
US20080077400A1 (en) * | 2006-09-27 | 2008-03-27 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
US20130325475A1 (en) * | 2012-05-31 | 2013-12-05 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting end point using decoding information |
CN105139849A (zh) * | 2015-07-22 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105261357A (zh) * | 2015-09-15 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 基于统计模型的语音端点检测方法及装置 |
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
US20170270919A1 (en) * | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20180090127A1 (en) * | 2016-09-27 | 2018-03-29 | Intel Corporation | Adaptive speech endpoint detector |
WO2018078885A1 (ja) * | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
US20180357999A1 (en) * | 2017-06-07 | 2018-12-13 | Hyundai Motor Company | Voice end-point detection device, system and method |
CN109767792A (zh) * | 2019-03-18 | 2019-05-17 | 百度国际科技(深圳)有限公司 | 语音端点检测方法、装置、终端和存储介质 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110612567A (zh) * | 2017-05-12 | 2019-12-24 | 苹果公司 | 低延迟智能自动化助理 |
CN110800045A (zh) * | 2017-10-24 | 2020-02-14 | 北京嘀嘀无限科技发展有限公司 | 用于不间断应用唤醒和语音识别的系统和方法 |
CN112331198A (zh) * | 2020-10-27 | 2021-02-05 | 深圳Tcl新技术有限公司 | 语音数据传输方法、物联网设备及存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
US11056098B1 (en) * | 2018-11-28 | 2021-07-06 | Amazon Technologies, Inc. | Silent phonemes for tracking end of speech |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113362828A (zh) * | 2020-03-04 | 2021-09-07 | 北京百度网讯科技有限公司 | 用于识别语音的方法和装置 |
CN114664303A (zh) * | 2022-04-01 | 2022-06-24 | 深圳市轻生活科技有限公司 | 连续语音指令快速识别控制系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6350896A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
EP3956883A4 (en) * | 2019-04-19 | 2022-12-21 | Magic Leap, Inc. | VOICE RECOGNITION ENGINE INPUT IDENTIFICATION |
CN112002349B (zh) * | 2020-09-25 | 2022-08-12 | 北京声智科技有限公司 | 一种语音端点检测方法及装置 |
CN113393840B (zh) * | 2021-08-17 | 2021-11-05 | 硕广达微电子(深圳)有限公司 | 一种基于语音识别的移动终端控制系统及方法 |
CN114385800A (zh) * | 2021-12-17 | 2022-04-22 | 阿里巴巴(中国)有限公司 | 语音对话方法和装置 |
CN114708856A (zh) * | 2022-05-07 | 2022-07-05 | 科大讯飞股份有限公司 | 一种语音处理方法及其相关设备 |
CN114898755B (zh) * | 2022-07-14 | 2023-01-17 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
-
2022
- 2022-07-14 CN CN202210824381.XA patent/CN114898755B/zh active Active
-
2023
- 2023-07-12 WO PCT/CN2023/107073 patent/WO2024012501A1/zh unknown
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091709A (ja) * | 2003-09-17 | 2005-04-07 | Renesas Technology Corp | 音声認識装置 |
US20080077400A1 (en) * | 2006-09-27 | 2008-03-27 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
US20130325475A1 (en) * | 2012-05-31 | 2013-12-05 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting end point using decoding information |
CN105139849A (zh) * | 2015-07-22 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105261357A (zh) * | 2015-09-15 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 基于统计模型的语音端点检测方法及装置 |
CN105427870A (zh) * | 2015-12-23 | 2016-03-23 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
US20170270919A1 (en) * | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20180090127A1 (en) * | 2016-09-27 | 2018-03-29 | Intel Corporation | Adaptive speech endpoint detector |
WO2018078885A1 (ja) * | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
CN110612567A (zh) * | 2017-05-12 | 2019-12-24 | 苹果公司 | 低延迟智能自动化助理 |
US20180357999A1 (en) * | 2017-06-07 | 2018-12-13 | Hyundai Motor Company | Voice end-point detection device, system and method |
CN110800045A (zh) * | 2017-10-24 | 2020-02-14 | 北京嘀嘀无限科技发展有限公司 | 用于不间断应用唤醒和语音识别的系统和方法 |
US11056098B1 (en) * | 2018-11-28 | 2021-07-06 | Amazon Technologies, Inc. | Silent phonemes for tracking end of speech |
CN109767792A (zh) * | 2019-03-18 | 2019-05-17 | 百度国际科技(深圳)有限公司 | 语音端点检测方法、装置、终端和存储介质 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN113362828A (zh) * | 2020-03-04 | 2021-09-07 | 北京百度网讯科技有限公司 | 用于识别语音的方法和装置 |
CN112331198A (zh) * | 2020-10-27 | 2021-02-05 | 深圳Tcl新技术有限公司 | 语音数据传输方法、物联网设备及存储介质 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN114664303A (zh) * | 2022-04-01 | 2022-06-24 | 深圳市轻生活科技有限公司 | 连续语音指令快速识别控制系统 |
Non-Patent Citations (2)
Title |
---|
ROLAND MAAS 等: "Combining Acoustic Embeddings and Decoding Features for End-of-Utterance Detection in Real-Time Far-Field Speech Recognition Systems", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
郑海敏: "电网大数据分析工具的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012501A1 (zh) * | 2022-07-14 | 2024-01-18 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114898755B (zh) | 2023-01-17 |
WO2024012501A1 (zh) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108075892B (zh) | 一种语音处理的方法、装置和设备 | |
CN109147770B (zh) | 声音识别特征的优化、动态注册方法、客户端和服务器 | |
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
CN109994106B (zh) | 一种语音处理方法及设备 | |
CN110910887B (zh) | 语音唤醒方法和装置 | |
CN112651334B (zh) | 机器人视频交互方法和系统 | |
CN111428032B (zh) | 内容质量评价方法及装置、电子设备、存储介质 | |
CN112653902A (zh) | 说话人识别方法、装置及电子设备 | |
CN111968680B (zh) | 一种语音处理方法、装置及存储介质 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
CN114898755B (zh) | 语音处理方法及相关装置、电子设备、存储介质 | |
US20230410815A1 (en) | Transcription generation technique selection | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN112700768A (zh) | 语音识别方法以及电子设备、存储装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN111739534A (zh) | 一种辅助语音识别的处理方法、装置、电子设备及存储介质 | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
CN113241080A (zh) | 自动注册声纹识别方法和装置 | |
CN105551504B (zh) | 一种基于哭声触发智能移动终端功能应用的方法及装置 | |
CN114727119B (zh) | 直播连麦控制方法、装置及存储介质 | |
CN112735395B (zh) | 语音识别方法及电子设备、存储装置 | |
CN112863499B (zh) | 语音识别方法及装置、存储介质 | |
CN112750440B (zh) | 一种信息处理方法及装置 | |
CN111107400B (zh) | 数据收集方法、装置、智能电视及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |