CN113053403A - 一种语音评测方法及装置 - Google Patents
一种语音评测方法及装置 Download PDFInfo
- Publication number
- CN113053403A CN113053403A CN202110299646.4A CN202110299646A CN113053403A CN 113053403 A CN113053403 A CN 113053403A CN 202110299646 A CN202110299646 A CN 202110299646A CN 113053403 A CN113053403 A CN 113053403A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation
- voice
- speech
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 278
- 239000012634 fragment Substances 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000009467 reduction Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供一种语音评测方法及装置,涉及数据处理技术领域,该语音评测方法包括:在进行语音评测时,先获取至少一个语音片段数据;然后分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据;以及分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据;进一步地,将至少一个增益片段数据发送至目标服务器;最后接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种语音评测方法及装置。
背景技术
在机器辅助口语学习中,可以通过机器对用户进行口语评测,判断用户的发音是否标准,给出文本对应的每个音素的发音质量分数,以便用户进行及时改正。现有的语音评测方法,通常直接将待评测的语音文件上传至服务器做识别评测。在实践中发现,现有的语音评测方法中,上传数据方式单一,上传数据慢,导致语音识别效率低;另一方面,未经过处理的语音文件识别度,进而导致语音评测误差大,准确度低。可见,现有的语音评测方法,评测效率低,准确率低。
发明内容
本申请实施例的目的在于提供一种语音评测方法及装置,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
本申请实施例第一方面提供了一种语音评测方法,包括:
获取至少一个语音片段数据;
分别对每个所述语音片段数据进行降噪处理,得到至少一个降噪片段数据;
分别对每个所述降噪片段数据进行增益处理,得到至少一个增益片段数据;
将所述至少一个增益片段数据发送至目标服务器;
接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
在上述实现过程中,在进行语音评测时,先获取至少一个语音片段数据;然后分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据;以及分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据;进一步地,将至少一个增益片段数据发送至目标服务器;最后接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
进一步地,所述获取至少一个语音片段数据,包括:
接收用户输入的语音评测触发指令;
根据所述语音评测触发指令确定语音评测类型;
根据所述语音评测类型获取至少一个语音片段数据。
在上述实现过程中,通过语音评测触发指令确定相应的语音评测类型,并根据不同的语音评测类型获取相应的语音片段数据,针对不同的场景进行相应的处理,适用性强,进而有利于提升语音评测稳定性。
进一步地,所述根据所述语音评测类型获取至少一个语音片段数据,包括:
当所述语音评测类型为长连接评测类型时,接收录音控件产生的至少一个录音片段数据。
在上述实现过程中,当语音评测类型为长连接评测类型时,可以通过录音控件进行实时录音得到至少一个录音片段数据。
进一步地,所述根据所述语音评测类型获取至少一个语音片段数据,包括:
当所述语音评测类型为短连接评测类型时,获取待处理音频数据;
根据预设的音量分贝阈值对所述待处理音频数据进行过滤处理,以去除无用语音片段,得到过滤语音数据;
对所述过滤语音数据进行切片处理,得到至少一个语音片段数据。
在上述实现过程中,对过滤语音数据进行切片处理,之后分成多段数据发送给目标服务器,有利于提升数据传输效率和评测效率。
进一步地,所述将所述至少一个增益片段数据发送至目标服务器,包括:
当所述语音评测类型为长连接评测类型时,以长连接的方式按照时间推移顺序依次发送所述至少一个增益片段数据至目标服务器。
在上述实现过程中,通过长连接的方式发送增益片段数据至目标服务器,能够实现一边录音一边串行发送,提升数据传输效率。
进一步地,所述将所述至少一个增益片段数据发送至目标服务器,包括:
当所述语音评测类型为短连接评测类型时,根据所述至少一个增益片段数据生成完整的待评测语音数据;
以短连接的方式将所述待评测语音数据发送至目标服务器。
在上述实现过程中,使用短连接方式传输待评测语音数据,能够解决错误率高,服务端资源浪费的问题。
进一步地,接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果,包括:
判断在预设的第一时间段内所述目标服务器是否有返回语音评测结果;
如果否,则在预设的第二时间段内重复将所述至少一个增益片段数据发送至所述目标服务器;
在所述第二时间段之后判断所述目标服务器是否返回所述语音评测结果;
如果否,则输出报错提示信息;
如果是,则接收所述语音评测结果。
在上述实现过程中,通过在第一时间段和第二时间段进行语音评测结果的返回判断,能够避免客户端出现卡顿无响应等情况,进而有利于提升用户体验。
本申请实施例第二方面提供了一种语音评测装置,所述语音评测装置包括:
所述语音评测装置包括:
获取单元,用于获取至少一个语音片段数据;
降噪单元,用于分别对每个所述语音片段数据进行降噪处理,得到至少一个降噪片段数据;
增益单元,用于分别对每个所述降噪片段数据进行增益处理,得到至少一个增益片段数据;
发送单元,用于将所述至少一个增益片段数据发送至目标服务器;
结果接收单元,用于接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
在上述实现过程中,在进行语音评测时,获取单元先获取至少一个语音片段数据;然后降噪单元分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据;以及增益单元分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据;进一步地,发送单元将至少一个增益片段数据发送至目标服务器;最后结果接收单元接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的语音评测方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的语音评测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种语音评测方法的流程示意图;
图2为本申请实施例提供的另一种语音评测方法的流程示意图;
图3为本申请实施例提供又一种语音评测方法的流程示意图;
图4为本申请实施例提供的一种语音评测装置的结构示意图;
图5为本申请实施例提供的另一种语音评测装置的结构示意图;
图6为本申请实施例提供的又一种语音评测装置的结构示意图;
图7是本申请实施例提供的一种基于短连接评测类型的语音评测方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本申请实施例提供了一种语音评测方法的流程示意图。该方法的应用于基于客户端的语音评测场景中,具体应用于在线教育场景中。其中,该语音评测方法包括:
S101、获取至少一个语音片段数据。
本申请实施例中,该至少一个语音片段数据,按照时间推移顺序进行合并,进而可以得到一个完整的语音数据,该语音数据即为需要进行语音评测的数据。
本申请实施例中,该至少一个语音片段数据可以通过实时录音获取到,也可以通过对完整的语音数据进行切片处理得到,对此本申请实施例不作限定。
本申请实施例中,该语音片段数据的数据类型不作限定,具体可以为buffer数据(即缓存数据)等。
本申请实施例中,该语音片段数据的数据长度不作限定,具体可以根据实际情况进行划分,例如将预设时间长度内接收到的数据作为一个语音片段数据,其中,该预设时间长度可以为0.3秒等,例如,将每0.3秒接收到的一段数据作为一个语音片段数据,对此本申请实施例不作限定。
本申请实施例中,该方法的执行主体为客户端,该客户端可以运行于智能手机、平板电脑、学习机、可穿戴设备等电子设备上,对此本实施例中不作任何限定。
在步骤S101之后,还包括以下步骤:
S102、分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据。
作为一种可选的实施方式,在对每个语音片段数据进行降噪处理时,可以通过WebRtc库中的WebRtcNs_Process()对每个语音片段数据分别进行降噪处理。
S103、分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据。
作为一种可选的实施方式,可以通过预设的增益算法,对降噪处理后的降噪片段数据进行增益处理。
本申请实施例中,通过实施步骤S102~步骤S103,能够对至少一个语音片段数据进行预先降噪、增益处理,进而有利于提升语音评测的准确率。
S104、将至少一个增益片段数据发送至目标服务器。
本申请实施例中,在将至少一个增益片段数据发送至目标服务器时,可以通过长连接或者短连接的方式进行发送,对此本申请实施例不作限定。通过支持两种方式的评测数据进行传输,能够极大程度提高评测速率和成功率。
本申请实施例中,长连接,指在一个连接上可以连续发送多个数据包,在连接保持期间,如果没有数据包发送,需要双方发链路检测包。长连接多用于操作频繁,点对点的通讯,而且连接数不能太多情况。在实际使用中,该长连接具体可以为socket长连接,对此本申请实施例不作限定。
本申请实施例中,短连接(short connection)是相对于长连接而言的概念,指的是在数据传送过程中,只在需要发送数据时,才去建立一个连接,数据发送完成后,则断开此连接,即每次连接只完成一项业务的发送。不需要长期占用通道,对于业务频率不高的场合,能节省通道的使用。在实际使用中,该短连接具体可以为http短连接,对此本申请实施例不作限定。
本申请实施例中,客户端可以根据实际应用场景自动切换长连接或者短连接的传输方式,还可以根据用户的选择指令,采用选择指令指定的传输方式进行传输,对此本申请实施例不作限定。
作为一种可选的实施方式,在将至少一个增益片段数据发送至目标服务器时,还可以同步发送评测附加数据至目标服务器。
在上述实施方式中,该评测附加数据具体可以包括上述至少一个语音片段数据对应的评测文本数据、传送结束指令、个性化评测信息等,对此本申请实施例不作限定。
本申请实施例可应用在互联网、互联网+、在线教育、语音测评等领域。以在线教育为例,个性化评测信息可以包括评测难度级别、用户年级信息、用户地域信息、学习科目信息等,对此本申请实施例不作限定。
在上述实施方式中,个性化评测信息可以为预先设置,通过灵活设置个性化评测信息,能够根据用户不同评测需求进行个性化设置。举例来说,在实际使用中,可以根据用户的年龄设置不同的评测难度级别等。举例来说,当用户的年龄较小时,可以根据用户的年龄设置相应的个性化评测信息,进而有利于提升语音评测的准确率。
作为一种可选的实施方式,还可以通过添加后台接口预先配置备份域名,在将至少一个增益片段数据发送至目标服务器时,当检测到目标服务器的评测域名发生错误时,则从备份域名中选择新的域名,然后将至少一个增益片段数据发送到该新的域名对应的服务器,进而保证评测功能的正常使用,保证评测功能的稳定性。
在上述实施方式中,客户端可以设置后台接口,通过后台接口下发备份域名,当检测到目标服务器的评测域名发生错误时,能够灵活切换域名,对评测域名线上做兼容处理。
在步骤S104之后,还包括以下步骤:
S105、接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
作为一种可选的实施方式,在接收到语音评测结果之后,客户端还可以对评测结果进行数据解析和预处理,进而将其转换成客户端容易使用的数据类型,便于客户端进行后续的数据处理。
可见,实施图1所描述的语音评测方法,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
请参看图2,图2为本申请实施例提供的另一种语音评测方法的流程示意图。如图2所示,其中,该语音评测方法包括:
S201、接收用户输入的语音评测触发指令。
本申请实施例中,该语音评测触发指令具体可以为实时评测指令、低频率评测指令、长时间录音评测指令等,对此本申请实施例不作限定。
作为一种可选的实施方式,当用户需要进行实时评测、或者低频率评测、或者需要进行长时间录音的评测时,可以输入相应的语音评测触发指令。
本申请实施例中,图2所示的语音评测方法,具体应用于用户需要进行实时评测、或者低频率评测、或者需要进行长时间录音的评测场景中,对此本申请实施例不作限定。
S202、根据语音评测触发指令确定语音评测类型。
本申请实施例中,当接收到该语音评测触发指令时,则可以根据该语音评测触发指令确定对应的语音评测类型为长连接评测类型。
本申请实施例中,长连接评测类型针对于实时评测、或者评测频率不频繁、或者评测录音时间比较长的应用场景中,具体地,该长连接评测类型根据用户输入的语音评测触发指令进行确定,也可以为用户预先设置确定,对此本申请实施例不作限定。
S203、当语音评测类型为长连接评测类型时,接收录音控件产生的至少一个录音片段数据。
本申请实施例中,当语音评测类型为长连接评测类型时,至少一个录音片段数据的可以通过实时录音得到。
作为一种可选的实施方式,在实时录音过程中,录音控件产生录音buffer数据,这些buffer数据是以预设录音时长为单位,通过串行队列的方式进行输出。
在上述实施方式中,预设录音时长具体可以为0.3秒,对此本申请实施例不作限定。
在上述实施方式中,当buffer数据以0.3秒为单位时,则可以接收录音控件以串行队列方式输出的0.3秒为单位的buffer数据。
本申请实施例中,实施上述步骤S203,能够根据语音评测类型获取至少一个语音片段数据。
本申请实施例中,实施上述步骤S201~步骤S203,能够获取至少一个语音片段数据。
在步骤S203之后,还包括以下步骤:
S204、分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据。
S205、分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据。
在上述实施方式中,当buffer数据以0.3秒为单位时,在录音控件进行录音的同时,不断输出0.3秒为单位的buffer数据,然后对于接收到的每个buffer数据,执行步骤S204~步骤S205进行降噪和增益处理。
S206、当语音评测类型为长连接评测类型时,以长连接的方式按照时间推移顺序依次发送至少一个增益片段数据至目标服务器。
作为一种可选的实施方式,该录音控件具体可以为系统Audio Queue services自定义录音控件,在开始录音的同时,建立Socket长连接,用于发送评测附加数据和处理后的录音数据(即至少一个增益片段数据)。
本申请实施例中,实施上述步骤S206,能够将至少一个增益片段数据发送至目标服务器。
S207、判断在预设的第一时间段内目标服务器是否有返回语音评测结果,如果是,执行步骤S211;如果否,执行步骤S208。
作为一种可选的实施方式,在步骤S206之后,在将至少一个增益片段数据发送至目标服务器之后,并没有立即断开长连接,而是通过步骤S207~步骤S211,自动检测是否有语音评测结果返回,通过自定义容忍时间(包括第一时间段和第二时间段),在第一时间段内,如果录音数据(即所有的增益片段数据)没有发送完成会自动重复发送录音数据。
作为一种可选的实施方式,在录音结束后,语音评测结果没有立即返回,则容忍时间机制就会启动,如果录音数据还没发送成功,会重复发送直到成功返回语音评测结果为止,如果容忍时间已经到达设定的容忍时间,录音数据还没发送就会停止发送,此时会返回相应的错误提示信息。
在上述实施方式中,通过容忍时间机制,可以自定义录音结束后的容忍时间,在容忍时间内去尝试重新发送,有利于提高评测成功率。
在上述实施方式中,该容忍时间至少包括第一时间段和第二时间段等,对此本申请实施例不作限定。
在步骤S207之后,还包括以下步骤:
S208、在预设的第二时间段内重复将至少一个增益片段数据发送至目标服务器。
本申请实施例中,在录音结束后,即完成对所有增益片段数据的传输。通过步骤S207的容忍时间机制,在设置的第一时间段内,如果目标服务器没有返回语音评测结果,则在第二时间段内重复将至少一个增益片段数据发送至目标服务器,以进行语音评测,直到第二时间段结束。
作为一种可选的实施方式,在发送至少一个增益片段数据之后,还可以监听长连接关闭方法,当检测到长连接关闭时,先判断有没有接收到语音评测结果的返回,如果有返回语音评测结果,则按正常处理不做任何操作;如果没有返回语音评测结果,则认定为长连接异常关闭,客户端主动抛出错误,输出错误提示信息。
在上述实施方式中,在容忍时间机制内,客户端除了执行步骤S208进行尝试重复发送增益片段数据外,还可以执行在极端情况下的异常错误处理操作,当检测到长连接关闭时,且目标服务器未返回语音评测结果,则表示长连接异常关闭。
在上述实施方式中,当长连接异常关闭时,此时目标服务器无法给客户端返回任何信息数据,进而导致客户端出现卡顿无响应等情况,因此,通过上述实施方式,能够实现客户端对长连接异常关闭情况的兼容处理。
在上述实施方式中,在检测到长连接异常关闭时,则通过主动抛出错误,输出错误提示信息,能够自动输出错误信息,从而避免客户端出现卡顿无响应等情况,进而有利于提升用户体验。
在步骤S208之后,还包括以下步骤:
S209、在第二时间段之后判断目标服务器是否返回语音评测结果,如果是,执行步骤S211;如果否,执行步骤S210。
本申请实施例中,在第二时间段结束后,如果目标服务器仍未返回语音评测结果,表示识别失败,则返回错误,并执行步骤S210;如果目标服务器返回了语音评测结果,表示识别成功,返回成功信息,并执行步骤S211。
S210、输出报错提示信息,并结束本流程。
S211、接收语音评测结果。
本申请实施例中,实施上述步骤S207~步骤S211,能够接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
可见,实施图2所描述的语音评测方法,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
请参看图3,图3为本申请实施例提供的又一种语音评测方法的流程示意图。如图3所示,其中,该语音评测方法包括:
S301、接收用户输入的语音评测触发指令。
本申请实施例中,图3所示的语音评测方法,具体应用于针对本地录音好的音频数据、录音时长大于预设时长阈值的音频数据、上传的音频数据等的语音评测场景中,对此本申请实施例不作限定。
本申请实施例中,该语音评测触发指令还可以为文件上传指令、高频录音评测指令、文件选择指令等,对此本申请实施例不作限定。
作为一种可选的实施方式,当用户需要对本地录音好的音频数据、录音时长大于预设时长阈值的音频数据、上传的音频数据进行语音评测时,可以输入相应的语音评测触发指令。
S302、根据语音评测触发指令确定语音评测类型。
S303、当语音评测类型为短连接评测类型时,获取待处理音频数据。
本申请实施例中,待处理音频数据可以为本地录音好的音频数据、录音时长大于预设时长阈值的音频数据、上传的音频数据等,对此本申请实施例不作限定。
本申请实施例中,待处理音频数据的数据格式具体可以为WAV格式、MP3格式等,对此本申请实施例不作限定。
S304、根据预设的音量分贝阈值对待处理音频数据进行过滤处理,以去除无用语音片段,得到过滤语音数据。
本申请实施例中,通过预设的音量分贝阈值,可以对待处理音频数据进行过滤处理,以过滤无效数据,去除无用语音片段,进而有利于提升数据处理效率和输出传输效率。
作为一种可选的实施方式,在对待处理音频数据进行过滤处理时,可以先提取待处理音频数据对应的音频buffer数据,然后通过预设的算法获取该音频buffer数据的音量分贝,对低于预设的音量分贝阈值的确定为静音,以此对待处理音频数据进行过滤剪切处理,进而降低待处理音频数据的文件大小。
S305、对过滤语音数据进行切片处理,得到至少一个语音片段数据。
本申请实施例中,在实际使用中,当过滤语音数据的文件大小过大时,使用长连接方式一次性发送整个过滤语音数据至目标服务器,数据传输效率较低,同时,目标服务器的评测效率较低。通过步骤S305,对过滤语音数据进行切片处理,之后分成多段数据发送给目标服务器,有利于提升数据传输效率和评测效率。
本申请实施例中,语音片段数据的数据长度式不作限定,具体可以为预设时间长度的数据,其中,该预设时间长度可以为0.3秒等,对此本申请实施例不作限定。
作为一种可选的实施方式中,在频繁录音的语音评测场景中,则待处理音频数据为录音控件产生的数据,该待处理音频数据本身包括至少一个语音片段数据,不需要对其进行切片处理。
在上述实施方式中,支持边录边传,至少一个语音片段数据是以预设时间长度为节点切片式录音。
本申请实施例中,实施上述步骤S303~步骤S305,能够根据语音评测类型获取至少一个语音片段数据。
本申请实施例中,实施上述步骤S301~步骤S305,能够获取至少一个语音片段数据。
在步骤S305之后,还包括以下步骤:
S306、分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据。
作为一种可选的实施方式中,可以使用WebRtc库中的WebRtcNs_Process()对每个语音片段数据进行降噪处理。
S307、分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据。
作为一种可选的实施方式中,可以通过预设的增益算法,对每个降噪片段数据进行增益处理。
在步骤S307之后,还包括以下步骤:
S308、当语音评测类型为短连接评测类型时,根据至少一个增益片段数据生成完整的待评测语音数据。
S309、以短连接的方式将待评测语音数据发送至目标服务器。
作为一种可选的实施方式中,可以通过http短连接的方式将待评测语音数据发送至目标服务器。
在实际使用中,在频繁录音的语音评测场景中,频繁的评测使用长连接通信,短的数据连接频繁会造成socket错误,并且频繁的socket创建对服务端资源的浪费,错误率比较高。因此,在频繁录音的语音评测场景中,则使用http短连接方法,发送完整的待评测语音数据,能够解决错误率高,服务端资源浪费的问题。
本申请实施例中,实施上述步骤S308~步骤S309,能够将至少一个增益片段数据发送至目标服务器。
S310、判断在预设的第一时间段内目标服务器是否有返回语音评测结果,如果是,执行步骤314;如果否,执行步骤S311。
S311、在预设的第二时间段内重复将至少一个增益片段数据发送至目标服务器。
S312、在第二时间段之后判断目标服务器是否返回语音评测结果,如果是,执行步骤314;如果否,执行步骤S313。
S313、输出报错提示信息,并结束本流程。
S314、接收语音评测结果。
本申请实施例中,实施上述步骤S310~步骤S314,能够接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
本申请实施例中,实施图3所示的语音评测方法,能够实现外部大文件的待处理音频数据进行评测,同时也支持边录边对录音数据进行预先降噪和增益处理,进而有利于降低目标服务器的压力,提高识别的准确度,进一步有利于提升语音评测准确度。
请一并参阅图7,图7是本申请实施例提供的一种基于短连接评测类型的语音评测方法的流程示意图。如图7所示,在接收到语音评测触发指令之后,则开始读取外部文件录音数据(即获取待处理音频数据)或者开始录音。在频繁录音的语音评测场景中,待处理音频数据为录音控件产生的录音数据,则在录音控件产生录音片段buffer时(即语音片段数据),则会同时对该录音片段buffer进行降噪和增益优化处理,对于频繁录音的语音评测场景,可以不执行步骤S306~步骤S307对该语音片段数据进行重复的降噪和增益优化处理,直接发送录音控件产生的录音数据,从而减少重复的数据步骤,进而有利于提升语音评测效率。
如图7所示,录音控件产生的录音数据,即为待处理音频数据,该待处理音频数据可以写入指定本地文件供播放使用。
如图7所示,在第二时间段之后有返回语音评测结果时,则表示请求成功,则返回结果,接收语音评测结果;如果没有返回语音评测结果,表示请求失败,则返回错误。
可见,实施图3所描述的语音评测方法,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
请参看图4,图4为本申请实施例提供的一种语音评测装置的结构示意图。如图4所示,该语音评测装置包括:
获取单元410,用于获取至少一个语音片段数据;
降噪单元420,用于分别对每个语音片段数据进行降噪处理,得到至少一个降噪片段数据;
增益单元430,用于分别对每个降噪片段数据进行增益处理,得到至少一个增益片段数据;
发送单元440,用于将至少一个增益片段数据发送至目标服务器;
结果接收单元450,用于接收目标服务器对至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
可见,实施图4所描述的语音评测装置,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
请一并参阅图5,图5是本申请实施例提供的另一种语音评测装置的结构示意图。其中,图5所示的语音评测装置是由图4所示的语音评测装置进行优化得到的。如图5所示,获取单元410包括:
第一接收子单元411,用于接收用户输入的语音评测触发指令;
确定子单元412,用于根据语音评测触发指令确定语音评测类型;
获取子单元413,用于根据语音评测类型获取至少一个语音片段数据。
作为一种可选的实施方式,获取子单元413,具体用于当语音评测类型为长连接评测类型时,接收录音控件产生的至少一个录音片段数据。
作为一种可选的实施方式,发送单元440,具体用于当语音评测类型为长连接评测类型时,以长连接的方式按照时间推移顺序依次发送至少一个增益片段数据至目标服务器。
作为一种可选的实施方式,结果接收单元450包括:
判断子单元451,用于判断在预设的第一时间段内目标服务器是否有返回语音评测结果。
第一发送子单元452,用于在第一时间段内判断出未返回语音评测结果时,则在预设的第二时间段内重复将至少一个增益片段数据发送至目标服务器。
判断子单元451,还用于在第二时间段之后判断目标服务器是否返回语音评测结果。
输出子单元453,用于在第二时间段之后判断出未返回语音评测结果时,则输出报错提示信息。
第二接收子单元454,用于在第二时间段之后判断出返回语音评测结果时,则接收语音评测结果。
可见,实施图5所描述的语音评测装置,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
请一并参阅图6,图6是本申请实施例提供的又一种语音评测装置的结构示意图。其中,图6所示的语音评测装置是由图4所示的语音评测装置进行优化得到的。如图6所示,获取单元410包括:
第一接收子单元411,用于接收用户输入的语音评测触发指令。
确定子单元412,用于根据语音评测触发指令确定语音评测类型。
获取子单元413,用于根据语音评测类型获取至少一个语音片段数据。
作为一种可选的实施方式,获取子单元413包括:
获取模块,用于当语音评测类型为短连接评测类型时,获取待处理音频数据。
过滤模块,用于根据预设的音量分贝阈值对待处理音频数据进行过滤处理,以去除无用语音片段,得到过滤语音数据。
切片模块,用于对过滤语音数据进行切片处理,得到至少一个语音片段数据。
作为一种可选的实施方式,发送单元440包括:
生成子单元441,用于当语音评测类型为短连接评测类型时,根据至少一个增益片段数据生成完整的待评测语音数据。
第二发送子单元442,用于以短连接的方式将待评测语音数据发送至目标服务器。
作为一种可选的实施方式,结果接收单元450包括:
判断子单元451,用于判断在预设的第一时间段内目标服务器是否有返回语音评测结果。
第一发送子单元452,用于判断在第一时间段内未返回语音评测结果时,则在预设的第二时间段内重复将至少一个增益片段数据发送至目标服务器。
判断子单元451,还用于在第二时间段之后判断目标服务器是否返回语音评测结果。
输出子单元453,用于在第二时间段之后判断出未返回语音评测结果时,则输出报错提示信息。
第二接收子单元454,用于在第二时间段之后判断出返回语音评测结果时,则接收语音评测结果。
可见,实施图6所描述的语音评测装置,能够对需要评测的语音数据进行预先处理,增强识别度,同时能够提升上传效率,进而提升评测准确率和评测效率。
本申请实施例提供了一种电子设备,包括存储器以及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行本申请实施例1或实施例2中任一项语音评测方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项语音评测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种语音评测方法,其特征在于,包括:
获取至少一个语音片段数据;
分别对每个所述语音片段数据进行降噪处理,得到至少一个降噪片段数据;
分别对每个所述降噪片段数据进行增益处理,得到至少一个增益片段数据;
将所述至少一个增益片段数据发送至目标服务器;
接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
2.根据权利要求1所述的语音评测方法,其特征在于,所述获取至少一个语音片段数据,包括:
接收用户输入的语音评测触发指令;
根据所述语音评测触发指令确定语音评测类型;
根据所述语音评测类型获取至少一个语音片段数据。
3.根据权利要求2所述的语音评测方法,其特征在于,所述根据所述语音评测类型获取至少一个语音片段数据,包括:
当所述语音评测类型为长连接评测类型时,接收录音控件产生的至少一个录音片段数据。
4.根据权利要求2所述的语音评测方法,其特征在于,所述根据所述语音评测类型获取至少一个语音片段数据,包括:
当所述语音评测类型为短连接评测类型时,获取待处理音频数据;
根据预设的音量分贝阈值对所述待处理音频数据进行过滤处理,以去除无用语音片段,得到过滤语音数据;
对所述过滤语音数据进行切片处理,得到至少一个语音片段数据。
5.根据权利要求3所述的语音评测方法,其特征在于,所述将所述至少一个增益片段数据发送至目标服务器,包括:
当所述语音评测类型为长连接评测类型时,以长连接的方式按照时间推移顺序依次发送所述至少一个增益片段数据至目标服务器。
6.根据权利要求4所述的语音评测方法,其特征在于,所述将所述至少一个增益片段数据发送至目标服务器,包括:
当所述语音评测类型为短连接评测类型时,根据所述至少一个增益片段数据生成完整的待评测语音数据;
以短连接的方式将所述待评测语音数据发送至目标服务器。
7.根据权利要求1所述的语音评测方法,其特征在于,所述接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果,包括:
判断在预设的第一时间段内所述目标服务器是否有返回语音评测结果;
如果否,则在预设的第二时间段内重复将所述至少一个增益片段数据发送至所述目标服务器;
在所述第二时间段之后判断所述目标服务器是否返回所述语音评测结果;
如果否,则输出报错提示信息;
如果是,则接收所述语音评测结果。
8.一种语音评测装置,其特征在于,所述语音评测装置包括:
获取单元,用于获取至少一个语音片段数据;
降噪单元,用于分别对每个所述语音片段数据进行降噪处理,得到至少一个降噪片段数据;
增益单元,用于分别对每个所述降噪片段数据进行增益处理,得到至少一个增益片段数据;
发送单元,用于将所述至少一个增益片段数据发送至目标服务器;
结果接收单元,用于接收所述目标服务器对所述至少一个增益片段数据进行语音评测处理后返回的语音评测结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的语音评测方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至7任一项所述的语音评测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299646.4A CN113053403B (zh) | 2021-03-19 | 2021-03-19 | 一种语音评测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299646.4A CN113053403B (zh) | 2021-03-19 | 2021-03-19 | 一种语音评测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053403A true CN113053403A (zh) | 2021-06-29 |
CN113053403B CN113053403B (zh) | 2024-05-07 |
Family
ID=76514066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299646.4A Active CN113053403B (zh) | 2021-03-19 | 2021-03-19 | 一种语音评测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053403B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108234636A (zh) * | 2017-12-29 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 语音播报方法、装置、系统以及智能播报设备 |
CN109035085A (zh) * | 2018-07-10 | 2018-12-18 | 上海进馨网络科技有限公司 | 一种在线课程助教方法及计算机设备 |
CN109087633A (zh) * | 2018-08-23 | 2018-12-25 | 北京猎户星空科技有限公司 | 语音测评方法、装置及电子设备 |
CN110136721A (zh) * | 2019-04-09 | 2019-08-16 | 北京大米科技有限公司 | 一种评分生成方法、装置、存储介质及电子设备 |
CN110289015A (zh) * | 2019-05-27 | 2019-09-27 | 北京大米科技有限公司 | 一种音频处理方法、装置、服务器、存储介质及系统 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
-
2021
- 2021-03-19 CN CN202110299646.4A patent/CN113053403B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108234636A (zh) * | 2017-12-29 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 语音播报方法、装置、系统以及智能播报设备 |
US20200211064A1 (en) * | 2017-12-29 | 2020-07-02 | Alibaba Group Holding Limited | Smart broadcasting device |
CN109035085A (zh) * | 2018-07-10 | 2018-12-18 | 上海进馨网络科技有限公司 | 一种在线课程助教方法及计算机设备 |
CN109087633A (zh) * | 2018-08-23 | 2018-12-25 | 北京猎户星空科技有限公司 | 语音测评方法、装置及电子设备 |
CN110136721A (zh) * | 2019-04-09 | 2019-08-16 | 北京大米科技有限公司 | 一种评分生成方法、装置、存储介质及电子设备 |
CN110289015A (zh) * | 2019-05-27 | 2019-09-27 | 北京大米科技有限公司 | 一种音频处理方法、装置、服务器、存储介质及系统 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN113053403B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6651973B2 (ja) | 対話処理プログラム、対話処理方法および情報処理装置 | |
US10425365B2 (en) | System and method for relaying messages | |
US8527263B2 (en) | Method and system for automatically generating reminders in response to detecting key terms within a communication | |
US8909534B1 (en) | Speech recognition training | |
US20170125013A1 (en) | Language model training method and device | |
EP3353682B1 (en) | Apparatus, system, and method for responding to a user-initiated query with a context-based response | |
CN109979474B (zh) | 语音设备及其用户语速修正方法、装置和存储介质 | |
CN103577965B (zh) | 一种事务提醒方法和装置 | |
EP3857544B1 (en) | Speaker awareness using speaker dependent speech model(s) | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
JP2014513828A (ja) | 自動会話支援 | |
US11789695B2 (en) | Automatic adjustment of muted response setting | |
CN113223558A (zh) | 音频数据消音方法、装置、电子设备和存储介质 | |
JP6179971B2 (ja) | 情報提供装置及び情報提供方法 | |
CN110942772A (zh) | 一种语音样本收集方法及装置 | |
WO2012090196A1 (en) | Method and system for processing content | |
US20070088549A1 (en) | Natural input of arbitrary text | |
CN113053403B (zh) | 一种语音评测方法及装置 | |
CN110263135B (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN109634554B (zh) | 用于输出信息的方法和装置 | |
CN113413613B (zh) | 一种游戏内语音聊天的优化方法、装置、电子设备及介质 | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
WO2022213943A1 (zh) | 消息发送方法、消息发送装置、电子设备和存储介质 | |
JP2006304123A (ja) | 通信端末及び機能制御プログラム | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |