CN110400576A - 语音请求的处理方法及装置 - Google Patents
语音请求的处理方法及装置 Download PDFInfo
- Publication number
- CN110400576A CN110400576A CN201910689032.XA CN201910689032A CN110400576A CN 110400576 A CN110400576 A CN 110400576A CN 201910689032 A CN201910689032 A CN 201910689032A CN 110400576 A CN110400576 A CN 110400576A
- Authority
- CN
- China
- Prior art keywords
- word speed
- mute duration
- history
- mute
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种语音请求的处理方法及装置,该方法包括:当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长;若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。由此可以看出:在存在与用户对应的历史静音时长的情况下,采用历史静音时长作为目标静音时长,可以实现为不同用户的语速自适应的匹配静音时长,以及在同一个用户在不同语速下自适应的匹配静音时长,提高语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及到一种语音请求的处理方法及装置。
背景技术
随着科学技术的不断进步,人机交互情景逐渐应用在多方面领域,作为一种人机交互的手段,语音识别技术在解放人类双手方面意义重大。语音端点检测(Voice ActivityDetection,VAD)被广泛应用于语音识别技术中,用于在噪声环境中检测语音的存在与否,并且检测出每段语音的前、后端点。用户正常发起语音请求时为语音检测的前端点,用户停止说话一段时间后即认为该段语音输入结束,该结束的时间点为语音检测后端点,处于语音检测后端点之后的一段等待时间的长度则称为静音时长。
现阶段,静音时长的取值通常采用经验值取固定值,即针对已有的音频数据集,通过实验或者统计实际运行的数据的方式,找到一个相对来说延迟较小、语音截断错误情况概率较小的静音长度取值,然后将该取值应用到后续的语音处理中。然而在实际运行环境中,不同用户,每个人说话语速快慢不同,哪怕是同一个人,在情绪状态发生改变时也会导致语速发生变化。固定取值只能反应平均语速,不能很好适应每个用户的说话习惯,如果静音时长设置得较长,用户说完话到机器能够理解并响应的这段延迟会变大,影响用户体验;如果静音长度设置过短,用户说话如果语速较慢,或者有停顿的情况下,容易提前判定为语音结束,导致语音内容被截断,影响语音识别的准确性。
发明内容
有鉴于此,本发明提供了一种语音请求的处理方法及装置,能够对不同用户的语速进行自适应,以及在同一用户的语速发生改变的情况下能够比较快速的适应变化,从而为用户实时匹配合适的静音时长,提高语音识别的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面提供了一种语音请求的处理方法,包括:
当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长;
若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
可选的,所述当接收到用户语音请求时,所述方法还包括:
根据所述用户的语音请求,获取所述语音请求的语速信息;
根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果;
根据所述处理结果更新当前用户的历史静音时长。
可选的,所述根据所述用户的语音请求,获取所述语音请求的语速信息,包括:
计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度;
利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述历史语音请求的语速信息。
可选的,所述根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果,包括:
对所述语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值;
在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
可选的,所述在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长,包括:
将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配;
若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;
若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长;
若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取预设静音时长。
可选的,所述判断是否存在与当前用户对应的历史静音时长之后,还包括:
若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为所述目标静音时长。
本发明实施例第二方面提供了一种语音请求的处理装置,包括:
判断单元,用于当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长;
第一设置单元,用于若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
可选的,还包括:
获取单元,用于根据所述用户的语音请求,获取所述语音请求的语速信息;
处理单元,用于根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果;
更新单元,用于根据所述处理结果更新当前用户的历史静音时长。
可选的,所述获取单元,包括:
第一计算单元,用于计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度;
第二计算单元,用于利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述历史语音请求的语速信息。
可选的,所述处理单元,包括:
第三计算单元,用于对所述语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值;
匹配单元,用于在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
可选的,所述匹配单元,包括:
匹配子单元,用于将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配;
获取子单元,用于若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长;以及若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取预设静音时长。
可选的,还包括:
第二设置单元,用于若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为目标静音时长。
本发明实施例第二方面提供了一种存储介质,包括:
用于存储程序,所述程序被执行时,用于实现如权利要求1至6中任意一项所述的语音请求的处理方法。
与现有技术相比,本发明包括以下优点:
当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长,若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。由此可以看出:在存在与用户对应的历史静音时长的情况下,采用历史静音时长作为目标静音时长,可以实现为不同用户的语速自适应的匹配静音时长,以及在同一个用户在不同语速下自适应的匹配静音时长,提高语音识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音请求的处理方法流程图;
图2为本发明实施例提供的一种语音请求的处理方法的另一方法流程图;
图3为本发明实施例提供的一种语音请求的处理方法的另一方法流程图;
图4为本发明实施例提供的一种语音请求的处理方法的另一方法流程图;
图5为本发明实施例提供的一种语音请求的处理方法的另一方法流程图;
图6为本发明实施例提供的一种语音请求的处理方法的另一方法流程图;
图7为本发明实施例提供的一种语音请求的处理装置的结构示意图;
图8为本发明实施例提供的一种语音请求的处理装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种语音请求的处理方法,该方法可以应用于语音识别技术领域中,从而提高语音识别的准确性,使得语音识别技术能更多的应用在人机交互领域上。
本发明实施例提供的语音请求的处理方法,可参照图1,具体包括:
S101、当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长。
本发明实施例提供的方法中,接收到用户发起的当前语音请求时,以当前语音请求为界限,在当前语音请求之前发起的语音请求统称为历史语音请求。
需要说明的是,用户与历史静音时长属于一对多的关系,而此处判断是否存在的历史静音时长,是在当前语音请求的上一次语音请求的静音时长中,通过计算得到的静音时长的值。需要说明的是,当站在当前语音请求的时间线上,该静音时长便是历史静音时长。
需要进一步说明的是,该历史静音时长是根据所述用户的多个历史语音请求的语速信息进行计算得到。历史静音时长的计算属于预先进行的操作,在当前语音请求的上一次语音请求中就已经计算得到。多个历史语音请求的具体数量可以自定义设置,但每一个历史语音请求的请求时间的间隔需满足预设要求;例如可以是当前语音请求之前的前十个历史语音请求、前二十个历史静语音请求等,还可以设定一个统计窗口,将属于该统计窗口内的语音请求作为历史语音请求。当然,该统计窗口的时长可以自定义设定。
具体的,根据用户的多个历史语音请求的语速信息计算得到的历史静音时长的方式,如图2所示,如下:
S201、对多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值。
其中,每一个历史语音请求的语速信息对应一个权重。例如,n次历史语音请求,各个历史语音请求的语速信息分别为Sn~S1,对应权重为Wn~W1,则语速加权平均值为(Sn*Wn+…+S1*W1)/(Wn+…+W1)。
一般情况下,在多个历史语音请求中,越靠近当前语音请求的历史语音请求,其语速信息的权重越高。这是因为越靠近当前语音请求的历史语音请求,其语速就有可能越接近当前语音请求的语速,因此被赋予的权重也越高。例如,假定用户当前语音请求的前一次语音请求发生一分钟前,而前十次语音请求发生在一天前;如此一来,一分钟前用户的语速相较于一天前的语速,势必会更接近当前请求的语速,因而在统计窗口内获取更高的权重。
可选地,计算得到每一个历史语音请求的语速信息的具体过程,可参照图3,包括:
S301、计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度。
其中,可以根据语音活动检测VAD技术对该历史语音请求进行检测,通过确定出语音的前后端点来确定该历史语音请求的时间长度。然后再根据自动语音识别ASR技术,获取该历史语音请求对应的文字长度。
S302、利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述语音请求的语速信息。
其中,将检测得到的时间长度和文字长度带入运算公式S=N/T,计算得到历史语音请求的语速信息。
运算公式中,S指代历史语音请求的语速信息,N为所述历史语音请求对应的文字长度,T指代历史语音请求的时间长度。
S202、在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
预先建立了一个由若干组语速加权平均结果和静音时长取值的对应表,这些语速加权平均结果对应的静音时长取值可可以是通过实验室提前测定,科学而系统的制定出不同的语速加权平均值应该对应的静音时长取值。采用该对应表,便能把最终计算得到的语速加权平均值转换成相应的静音时长值,并最终应用在当前语音请求上,实现配置与当前语音请求相符合的静音时长。
需要进一步说明的是,该应用于当前语音请求上的静音时长,通过计算用户历史发起多个语音请求的语速信息得到,因此相较于现有技术中的均值静音时长,更适合当做该用户语音请求的静音时长,具有将静音时长个性化的优势和特征。
可选地,在语速加权平均值和静音时长的对应表中匹配计算得到的语速加权平均值的方式,如图4所示,包括:
S401、将语速加权平均值与预先构建的语速加权平均值和静音时长的对应表进行匹配。
S402、若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长。
在将所述语速加权平均值与预先构建的语速加权平均值和静音时长的对应表进行匹配时,如果所述语速加权平均值与所述对应表的任意一个预设值相同,则执行步骤S402,获取与所述语速加权平均值相同的预设值对应的静音时长的值。
S403、若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长。
在将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配时,如果所述语速加权平均值处于所述对应表的两个预设值之间,则执行步骤S403,获取所述两个预设值对应比例的线性插值对应的静音时长。
例如,当所述语速加权平均值S处于一个预设值S1和一个预设值S2之间,S1对应的静音时长为V1,S2对应的静音时长为V2,则获取S对应的静音时长V的计算公式为:V=(S-S1)*V1+(S2-S)*V2/(S2-S1)。
S404、若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取所述预设静音时长。
在将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配时,如果所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则反推该用户的语音请求的语速存在异常,或是存在恶意亦时不可抗拒因素;因此执行步骤404,获取所述预设静音时长。
需要进一步说明的是,上述步骤S402~S404属于并列关系,并不存在先后级别。不同的语速加权平均值能够触发执行不同的步骤。
S102、若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
需要说明的是,判断出存在与所述用户对应的历史静音时长,进一步的可以是判断出存在与所述用户发起的当前语音请求对应的历史静音时长;将该历史静音时长赋予到当前语音请求,从而实现配置出合适该用户当前语音请求的静音时长,即为上述内容中的所述目标静音时长。
进一步的,将目标静音时长应用到当前语音请求中,用于在当前语音请求的说话间隔时长大于或等于目标静音时长时,系统能及时判定当前语音请求的语音输入已经结束。
可选的,本发明另一实施例中,步骤S101的判断结果是:若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为所述目标静音时长。
判断出不存在与所述用户对应的历史静音时长;该情景发生的一种原因可以是用户首次发起语音请求,不存在对应的历史语音请求;当不存在历史静音时长时,系统可以为用户的当前语音请求提供预设的静音时长。所述预设静音时长可以是现阶段采用基于经验值取的固定静音时长值。
例如,获取预设的静音时长的方式,可以是针对已有音频数据集,通过实验或者统计实际运行的数据的方式,找到一个相对来说延迟较小、语音截断错误情况概率较小的静音长度取值,然后将该取值应用到后续的语音请求处理当中。
本发明实施例提供的语音请求的处理方法中,当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长,若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。由此可以看出:在存在与用户对应的历史静音时长的情况下,采用历史静音时长作为目标静音时长,可以实现为不同用户的语速自适应的匹配静音时长,以及在同一个用户在不同语速下自适应的匹配静音时长,提高语音识别的准确性。
本发明另一实施例还提供了一种语音请求的处理方法,可参照图5,包括:
S501、接收用户的语音请求。
S502、当接收到用户语音请求时,判断是否存在与当前用户对应的历史静音时长。
S503、若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
S504、当接收到用户语音请求时,根据所述用户的语音请求,获取所述语音请求的语速信息。
可选地,步骤S504的一种实施方式,包括以下两个步骤:
计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度。
利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述语音请求的语速信息。
需要说明的是,上述两个步骤的具体实施方式如对应图3的实施例内容相同,可参见对应图3的实施例中的内容,此处不再赘述。
S505、根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果。
可选地,步骤S505的一种实施方式,如图6所示,包括:
S601、对当前语音请求的语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值。
本实施例中,以当前语音请求的语速信息为始,结合历史的若干个语音请求的语速信息,所有的语速信息的最大数量即为统计窗口;将统计窗口内的语速信息进行加权平均,便得到多个语音请求的语速加权平均值。
需要说明的是,针对当前语速信息和每一个历史语音请求的语速信息,在进行加权平均计算的过程中,也需要对每一个语速信息对应一个权重,不同的语速信息对应不同的权重。当然,语速信息对应的权重应该是最大的。
本步骤的具体计算过程可以参考对应图2的实施例中步骤S201的内容,此处不再赘述。
S602、在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
本步骤的具体计算过程可以参考对应图2的实施例中步骤S202的内容,此处不再赘述。
可选地,步骤S602的一种具体实施方式,包括以下步骤:
将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配。
若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长。
若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长。
若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取预设静音时长。
本实施例中,上述几个步骤的具体实现过程,可参见对应图4的实施例中,步骤S401至步骤S404的内容,此处不再赘述。
S506、根据所述处理结果更新当前用户的历史静音时长。
基于当前语音请求中计算得到静音时长,更新上一次语音请求中计算得到的静音时长。需要说明的是,站在当前语音请求的时间点上,上一次的语音请求即是历史语音请求,其对应的由计算得到的静音时长,同理也即为历史静音时长。
同理,在未来下一次发起的语音请求中,当前计算得到的静音时长也将成为历史静音时长,并作为未来下一次发起的语音请求中通过判断请求,得到的目标静音时长。
本发明实施例还提供了一种语音请求的处理装置,如图7所示,包括:
判断单元701,用于当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长。
第一设置单元702,用于若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
本实施例公开的语音请求的处理装置中,当接收到用户的语音请求时,判断单元701判断是否存在与所述用户对应的历史静音时长;若判断单元701判断出存在与所述用户对应的历史静音时长,则第一设置单元702将所述历史静音时长作为所述当前语音请求的静音时长。由此可以看出:在存在与用户对应的历史静音时长的情况下,采用历史静音时长作为目标静音时长,可以实现为不同用户的语速自适应的匹配静音时长,以及在同一个用户在不同语速下自适应的匹配静音时长,提高语音识别的准确性。
还需要说明的是,本实施例中,判断单元和第一设置单元的具体执行过程,可参见对应图1的方法实施例内容,此处不再赘述。
本发明另一实施例还提供了一种语音请求的处理装置,如图8所示,除了包括:判断单元801和第一设置单元802,还包括:
获取单元803,用于根据所述用户的语音请求,获取所述语音请求的语速信息。
可选的,本发明另一实施例,获取单元,包括:
第一计算单元,用于计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度。
第二计算单元,用于利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述历史语音请求的语速信息。
本实施例中,第一计算单元和第二计算单元的具体工作过程,可以参见对应图3的方法实施例的内容,此处不再赘述。
处理单元804,用于根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果。
更新单元805,用于根据所述处理结果更新当前用户的历史静音时长。
本实施例中,获取单元803、处理单元804和更新单元805的具体工作过程,可以参见对应图5的方法实施例的内容,此处不再赘述。
可选的,本发明另一实施例提供的装置中,所述处理单元包括:
第三计算单元,用于对所述语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值。
匹配单元,用于在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
其中,本实施例中,第三计算单元和匹配单元的具体工作过程,可以参见对应图2的方法实施例的内容,此处不再赘述。
可选的,本发明另一实施例提供的装置中,所述匹配单元包括:
匹配子单元,用于将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配。
获取子单元,用于若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;和用于若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;和用于若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长。
其中,本实施例中,匹配单元和静音时长获取单元的具体工作过程,可以参见对应图4的方法实施例的内容,此处不再赘述。
可选的,本发明另一实施例提供的装置中,还包括:
第二设置单元,用于若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为目标静音时长。
本发明的另一实施例公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行语音请求的处理方法。上述语音请求的处理方法的具体实现过程与实现原理和上述实施例示出的语音请求的处理方法一致,可参见对应方法实施例的内容,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (13)
1.一种语音请求的处理方法,其特征在于,包括:
当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长;
若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
2.根据权利要求1所述的方法,其特征在于,所述当接收到用户语音请求时,所述方法还包括:
根据所述用户的语音请求,获取所述语音请求的语速信息;
根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果;
根据所述处理结果更新当前用户的历史静音时长。
3.根据权利要求2所述的方法,其特征在于,所述根据所述用户的语音请求,获取所述语音请求的语速信息,包括:
计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度;
利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述历史语音请求的语速信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果,包括:
对所述语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值;
在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
5.根据权利要求4所述的方法,其特征在于,所述在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长,包括:
将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配;
若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;
若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长;
若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取预设静音时长。
6.根据权利要求1所述的方法,其特征在于,所述判断是否存在与当前用户对应的历史静音时长之后,还包括:
若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为所述目标静音时长。
7.一种语音请求的处理装置,其特征在于,包括:
判断单元,用于当接收到用户的语音请求时,判断是否存在与当前用户对应的历史静音时长;
第一设置单元,用于若存在与当前用户对应的所述历史静音时长,则将所述历史静音时长设置为目标静音时长。
8.根据权利要求7所述的装置,其特征在于,还包括:
获取单元,用于根据所述用户的语音请求,获取所述语音请求的语速信息;
处理单元,用于根据所述语速信息和多个历史语音请求的语速信息进行处理,得到处理结果;
更新单元,用于根据所述处理结果更新当前用户的历史静音时长。
9.根据权利要求8所述的装置,其特征在于,所述获取单元,包括:
第一计算单元,用于计算得到所述用户语音请求的时间长度和所述用户语音请求对应的文字长度;
第二计算单元,用于利用所述用户语音请求的时间长度和所述用户语音请求对应的文字长度,计算得到所述历史语音请求的语速信息。
10.根据权利要求8所述的装置,其特征在于,所述处理单元,包括:
第三计算单元,用于对所述语速信息和多个所述历史语音请求的语速信息进行加权平均计算,得到语速加权平均值;
匹配单元,用于在预先构建的语速加权平均值和静音时长的对应表中进行匹配,得到与计算得到的所述语速加权平均值相匹配的静音时长。
11.根据权利要求10所述的装置,其特征在于,所述匹配单元,包括:
匹配子单元,用于将所述语速加权平均值与预先建立的语速加权平均值和静音时长的对应表进行匹配;
获取子单元,用于若所述语速加权平均值与所述对应表的任意一个预设值相同,则获取与所述语速加权平均值相同的预设值对应的静音时长;若所述语速加权平均值处于所述对应表的两个预设值之间,则获取所述两个预设值对应比例的线性插值对应的静音时长;以及若所述语速加权平均值大于所述对应表中的最大预设值,或所述语速加权平均值小于所述对应表中的最小预设值,则获取预设静音时长。
12.根据权利要求7所述的装置,其特征在于,还包括:
第二设置单元,用于若不存在与当前用户对应的历史静音时长,则将预设静音时长设置为目标静音时长。
13.一种存储介质,其特征在于,用于存储程序,所述程序被执行时,用于实现如权利要求1至6中任意一项所述的语音请求的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689032.XA CN110400576B (zh) | 2019-07-29 | 2019-07-29 | 语音请求的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689032.XA CN110400576B (zh) | 2019-07-29 | 2019-07-29 | 语音请求的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110400576A true CN110400576A (zh) | 2019-11-01 |
CN110400576B CN110400576B (zh) | 2021-10-15 |
Family
ID=68326432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689032.XA Active CN110400576B (zh) | 2019-07-29 | 2019-07-29 | 语音请求的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400576B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402931A (zh) * | 2020-03-05 | 2020-07-10 | 云知声智能科技股份有限公司 | 一种利用声音画像辅助的语音边界检测方法及系统 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0583208A (ja) * | 1991-05-31 | 1993-04-02 | Kokusai Electric Co Ltd | 音声符号化通信方式及びその装置 |
US6728671B1 (en) * | 2000-03-29 | 2004-04-27 | Lucent Technologies Inc. | Automatic speech recognition caller input rate control |
US20050182625A1 (en) * | 2004-02-18 | 2005-08-18 | Misty Azara | Systems and methods for determining predictive models of discourse functions |
CN105869640A (zh) * | 2015-01-21 | 2016-08-17 | 上海墨百意信息科技有限公司 | 识别针对当前页面中的实体的语音控制指令的方法和装置 |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
CN109087633A (zh) * | 2018-08-23 | 2018-12-25 | 北京猎户星空科技有限公司 | 语音测评方法、装置及电子设备 |
CN109377998A (zh) * | 2018-12-11 | 2019-02-22 | 科大讯飞股份有限公司 | 一种语音交互方法及装置 |
CN109767792A (zh) * | 2019-03-18 | 2019-05-17 | 百度国际科技(深圳)有限公司 | 语音端点检测方法、装置、终端和存储介质 |
-
2019
- 2019-07-29 CN CN201910689032.XA patent/CN110400576B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0583208A (ja) * | 1991-05-31 | 1993-04-02 | Kokusai Electric Co Ltd | 音声符号化通信方式及びその装置 |
US6728671B1 (en) * | 2000-03-29 | 2004-04-27 | Lucent Technologies Inc. | Automatic speech recognition caller input rate control |
US20050182625A1 (en) * | 2004-02-18 | 2005-08-18 | Misty Azara | Systems and methods for determining predictive models of discourse functions |
CN105869640A (zh) * | 2015-01-21 | 2016-08-17 | 上海墨百意信息科技有限公司 | 识别针对当前页面中的实体的语音控制指令的方法和装置 |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
CN109087633A (zh) * | 2018-08-23 | 2018-12-25 | 北京猎户星空科技有限公司 | 语音测评方法、装置及电子设备 |
CN109377998A (zh) * | 2018-12-11 | 2019-02-22 | 科大讯飞股份有限公司 | 一种语音交互方法及装置 |
CN109767792A (zh) * | 2019-03-18 | 2019-05-17 | 百度国际科技(深圳)有限公司 | 语音端点检测方法、装置、终端和存储介质 |
Non-Patent Citations (2)
Title |
---|
JUNHEE JUNG ET AL.: "A Voice Activity Detection System Based on FPGA", 《AUTOMATION AND SYSTEMS 2010》 * |
苟先太等: "一种自适应IP语音缓冲算法的研究与应用", 《计算机研究与发展》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402931A (zh) * | 2020-03-05 | 2020-07-10 | 云知声智能科技股份有限公司 | 一种利用声音画像辅助的语音边界检测方法及系统 |
CN111402931B (zh) * | 2020-03-05 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种利用声音画像辅助的语音边界检测方法及系统 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110400576B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096191B (zh) | 一种人机对话方法、装置及电子设备 | |
EP3413305B1 (en) | Dual mode speech recognition | |
US9583102B2 (en) | Method of controlling interactive system, method of controlling server, server, and interactive device | |
US11430428B2 (en) | Method, apparatus, and storage medium for segmenting sentences for speech recognition | |
EP3477638A2 (en) | Dialog system with self-learning natural language understanding | |
US10269341B2 (en) | Speech endpointing | |
KR101605148B1 (ko) | 병렬 인식 태스크에 따른 음성 인식 | |
US20210327436A1 (en) | Voice Interaction Method, Device, and System | |
EP3232651A1 (en) | Method and apparatus for processing voice information | |
US11922951B2 (en) | Targeted voice separation by speaker conditioned on spectrogram masking | |
CN109313903A (zh) | 语音用户接口 | |
CN110392168B (zh) | 呼叫处理方法、装置、服务器、存储介质和系统 | |
JP6839333B2 (ja) | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 | |
CN110400576A (zh) | 语音请求的处理方法及装置 | |
CN1764946B (zh) | 分布式语音识别方法 | |
CN111429895A (zh) | 多轮交互的语义理解方法、装置及计算机存储介质 | |
US8532279B2 (en) | Method for increasing the efficiency of automated telephony systems | |
CN108962283A (zh) | 一种发问结束静音时间的确定方法、装置及电子设备 | |
EP2896194A2 (en) | Handling concurrent speech | |
US9177552B2 (en) | Method and apparatus for setting selected recognition parameters to minimize an application cost function | |
EP1678706A1 (en) | System and method enabling acoustic barge-in | |
CN110223697A (zh) | 人机对话方法及系统 | |
JP2018045202A (ja) | 音声対話システムおよび音声対話方法 | |
CN111128150A (zh) | 一种唤醒智能语音设备的方法及装置 | |
CN108897517A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |