CN109493852A - 一种语音识别的评测方法及装置 - Google Patents
一种语音识别的评测方法及装置 Download PDFInfo
- Publication number
- CN109493852A CN109493852A CN201811512181.0A CN201811512181A CN109493852A CN 109493852 A CN109493852 A CN 109493852A CN 201811512181 A CN201811512181 A CN 201811512181A CN 109493852 A CN109493852 A CN 109493852A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- client
- corpus
- target detection
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 178
- 238000011156 evaluation Methods 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 abstract description 50
- 230000000694 effects Effects 0.000 abstract description 13
- 239000000463 material Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 108010001267 Protein Subunits Proteins 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000012092 media component Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0823—Network architectures or network communication protocols for network security for authentication of entities using certificates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种语音识别的评测方法及装置,首先由代理服务器触发具有语音识别功能的第一客户端启动语音识别模块,当代理服务器触发第二客户端从语料库中获取至少一条目标测试语料,并播放目标测试语料时,由语音识别模块对目标测试语料进行语音识别。代理服务器获取语音识别模块识别得到的语音识别文本,并将该语音识别文本与目标测试语料的标准文本进行比较,以确定第一客户端的语音识别评测结果,从而实现自动对第一客户端的语音识别效果评测,避免人工评测的主观性,提高评测效率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种语音识别的评测方法及装置。
背景技术
目前,有些应用程序中存在语音识别功能,例如,用户在应用程序中涉及输入文本时可以仅输入语音,由应用程序对语音进行识别后完成文本输入。在应用程序投入使用之前,需要对应用程序进行测试,对于包括语音识别功能的应用程序的测试,则需要对应用程序中语音识别效果进行评测。目前针对应用程序语音识别的评测主要由人工完成,人工评测需要花费大量的人力成本和时间成本,效率较为低下。
发明内容
有鉴于此,本申请实施例提供一种语音识别的评测方法及装置,以解决现有技术中针对应用程序语音识别的评测效率低下的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
本申请实施例第一方面,提供了一种语音识别的评测方法,所述方法包括:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在一种可能的实现方式中,所述触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,包括:
触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次触发所述第二客户端从语料库中获取目标测试语料并播放。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
识别所述第一客户端是否触发所述语音识别的后续操作,如果是,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
在获取所述第一客户端的语音识别模块识别得到的语音识别文本时,如果超过预设时间未获取新的识别内容,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,包括:
向所述第一客户端所在终端发送安全证书;
截获所述第一客户端的所述语音识别模块识别得到的语音识别文本。
在一种可能的实现方式中,所述当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号时,所述方法还包括:
为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
在一种可能的实现方式中,所述根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果,包括:
根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
本申请实施例的第二方面,提供了一种语音识别的评测装置,所述装置包括:
第一触发单元,用于触发第一客户端启动语音识别模块;
第二触发单元,用于触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
第一获取单元,用于获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
第一确定单元,用于根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在一种可能的实现方式中,所述第二触发单元,包括:
触发子单元,用于触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
判断子单元,用于确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
第一发送子单元,用于当所述判断子单元的判断结果为当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次执行所述触发子单元从语料库中获取目标测试语料并播放。
在一种可能的实现方式中,所述判断子单元,具体用于识别所述第一客户端是否触发所述语音识别模块的后续操作,如果所述第一客户端触发所述语音识别模块的后续操作,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述判断子单元,具体用于在获取所述第一客户端的语音识别模块的语音识别文本时,如果超过预设时间未继续获取所述语音识别文本,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述第一获取单元,包括:
第二发送子单元,用于向所述第一客户端所在终端发送安全证书;
截获子单元,用于截获所述第一客户端的所述语音识别模块的语音识别文本。
在一种可能的实现方式中,所述装置还包括:
设置单元,用于当所述第一发送子单元向客户端发送语音识别完成信号时,为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
在一种可能的实现方式中,所述第一确定单元,包括:
获取子单元,用于根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
确定子单元,用于根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
本申请实施例第三方面,提供了一种语音识别的评测装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条的目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
本申请实施例第四方面,提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述第一方面中一个或多个所述的语音识别的评测方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例首先由代理服务器触发具有语音识别功能的第一客户端启动语音识别模块,当代理服务器触发第二客户端从语料库中获取至少一条目标测试语料,并依次播放目标测试语料时,由第一客户端的语音识别模块对播放的目标测试语料进行语音识别。代理服务器获取第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,并将该语音识别文本与目标测试语料对应的标准文本进行比较,以确定第一客户端的语音识别评测结果,从而实现自动对第一客户端的语音识别效果评测,提高评测效率。
附图说明
图1为本申请实施例提供的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种语音识别的评测方法的流程图;
图3为本申请实施例提供的另一种语音识别的评测方法的流程图;
图4为本申请实施例提供的一种语音识别的评测装置结构图;
图5为本申请实施例提供的另一种语音识别的评测的装置结构图;
图6为本申请实施例提供的一种服务器设备结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请实施例提供的技术方案,下面先对本申请的背景技术进行说明。
针对具有语音识别功能的应用程序App,传统的语音评测技术主要采用人工评测,而人工评测需要大量的人力和时间,且无法给出客观地评测结果。尤其对于第三方开发的APP,由于无法直接获取第三方APP语音识别的内容,导致无法进行评测。
基于此,本申请实施例提供了一种语音识别的评测方法及装置,该评测方法可以用于代理服务器中,由代理服务器触发具有语音识别功能的第一客户端启动语音识别模块,同时触发第二客户端从语料库中获取至少一条目标测试语料并播放,以使得第一客户端的语音识别模块对目标测试语料进行语音识别;代理服务器获取第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,并将该语音识别文本与目标测试语料对应的标准文本进行对比,根据比对结果确定第一客户端的语音识别模块的识别评测结果,从而实现了自动评测第一客户端的语音识别效果,避免人工评测的主观性,同时提高评测效率。
另外,当待测试的第一客户端为第三方开发的应用程序时,可以在安装有第一客户端的终端上安装代理服务器的安全证书,以使得代理服务器可以获取第一客户端的语音识别模块识别到的语音识别文本,进而实现自动化评测过程。
参见图1,该图为本申请实施例提供的示例性应用场景的框架示意图。其中,本申请实施例提供的语音识别的评测方法可以应用于代理服务器30中。
实际应用时,代理服务器30触发第一客户端10启动语音识别模块,以及触发第二客户端20从语料库中获取至少一条目标测试语料并依次播放,以使得第一客户端10的语音识别模块对目标测试语料进行语音识别。然后,代理服务器30获取语音识别模块识别得到的每条目标测试语料对应的语音识别文本,并根据至少一条目标测试语料对应的标准文本以及识别得到的语音识别文本,通过比对确定该第一客户端的语音识别评测结果。
其中,第一客户端10为具有语音识别功能的应用程序,第二客户端20为具有播放功能的客户端。第一客户端和第二客户端可以为安装在同一终端设备上的客户端,也可以为安装在不同终端设备上的客户端。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,第一客户端10和第二客户端20可以承载于终端,终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是,本申请实施例中代理服务器30可以是现有的、正在研发的或将来研发的、能够提供评测服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。
为便于理解本申请实施例提供的技术方案,下面将结合附图对本申请实施例提供的评测方法进行说明。
参见图2,该图为本申请实施例提供的一种语音识别的评测方法的流程图,如图2所示,该方法可以包括:
S201:触发第一客户端启动语音识别模块。
本实施例中,当需要对具有语音识别功能的第一客户端的语音识别效果进行评测时,代理服务器可以触发第一客户端启动语音识别模块,以便利用该语音识别模块进行语音识别。
其中,第一客户端可以为现有的或正在研发的应用程序APP,当需要对该APP进行语音识别功能评测时,在终端上安装该APP的第一客户端,进而使得代理服务器自动触发APP启动语音识别模块。
S202:触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使第一客户端的语音识别模块对播放的目标测试语料进行语音识别。
本实施例中,当触发第一客户端启动语音识别模块时,代理服务器也需启动第二客户端从语料库中获取至少一条目标测试语料,并依次播放目标测试语料,以便第一客户端的语音识别模块可以对播放的目标测试语料进行语音识别,获得语音识别文本。
其中,第二客户端可以为具有语音播放功能的应用程序APP,安装于终端上。代理服务器可以触发第二客户端进行相应操作。
需要说明的是,第一客户端和第二客户端可以安装于同一终端,也可以安装在不同的终端。当两个客户端分别安装于不同的终端时,需要保证第一客户端的语音识别模块可以识别到第二客户端播放的目标测试语料。
其中,语料库可以包括大量的测试语料,语料库可以保存于代理服务器中,也可以保存于第二客户端所在终端中。第二客户端从语料库中获取至少一条测试语料,将其作为目标测试语料,并依次进行播放。
需要说明的是,第一客户端的语音识别模块在进行语音识别时,首先获取目标测试语料的语音信息,并将该目标测试语料的语音信息发送给第一客户端对应的服务器,由该服务器进行语音识别,以获得该目标测试语料的语音识别文本,然后将该得到的语音识别文本发送给第一客户端。
S203:获取第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本。
本实施例中,当第一客户端的语音识别模块识别出每条目标测试语料对应的语音识别文本后,代理服务器获取该语音识别文本。
需要说明的是,当第一客户端为第三方开发的应用程序时,代理服务器可以截获第一客户端从服务器获取的识别得到的每条目标测试语料对应的语音识别文本。也就是,当服务器将目标测试语料对应的语音识别文本发送给第一客户端时,代理服务器可以截获该语音识别文本,以利用截获的语音识别文本执行S204操作。在实际应用时,第一客户端与其对应的服务器进行通信时,二者之间相互发送通信报文,代理服务器可以截获服务器向第一客户端发送的通信报文,并通过解析该通信报文获得语音识别文本。
当第一客户端与代理服务器属于同一厂商时,代理服务器可以直接获取语音识别文本,具体为,当第一客户端从服务器获取到目标测试语料对应的语音识别文本,向代理服务器发送该语音识别文本。
在具体实现时,为保证代理服务器可以顺利截获语音识别文本,代理服务器可以向第一客户端所在的终端发送安全证书,以使得所述第一客户端从服务器获取的所述语音识别模块识别得到的语音识别文本可以被代理服务器获取。其中,第一客户端所在的终端可以安装安全证书。也就是,使得第一客户端所在的终端信任该代理服务器,使该代理服务器可以截获服务器向第一客户端发送的通信报文,从而以使得代理服务器可以获取的语音识别文本。
S204:根据至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定第一客户端的语音识别评测结果。
本实施例中,当代理服务器获取目标测试语料的语音识别文本后,可以从语料库中提取该目标测试语料对应的标准文本,将识别得到的语音识别文本与标准文本进行比对,以确定第一客户端对该目标测试语料的语音识别评测结果。
其中,标准文本为预先存储的目标测试语料对应的文本文件,可以存储在语料库中。当代理服务器获取到识别得到的目标测试语料的语音识别文本后,将标准文本与语音识别文本进行对比,得到第一客户端对该目标测试语料的语音识别评测结果。
在实际应用中,可以采用莱文斯坦算法进行比对,即计算每条目标测试语料对应的标准文本以及对应的语音识别文本之间的莱文斯坦距离,根据该莱文斯坦距离确定第一客户端的语音识别评测结果。
其中,莱文斯坦距离用于衡量两个字符串之间的相似度,具体是指将字符串a变换为字符串b所需的删除、插入、替换的次数。莱文斯坦距离越小,表明两个字符串之间越相似。也就是,当标准文本与语音识别文本之间的莱文斯坦距离越小时,表明二者之间越相近,进而表明语音识别模块的识别效果较好。
可以理解的是,当代理服务器获取多条目标测试语料对应的语音文本时,可以根据多条目标测试语料各自的标准文本以及对应的语音识别文本的莱文斯坦距离确定第一客户端的语音识别评测结果。
通过以上描述可知,本申请实施例中,代理服务器触发具有语音识别功能的第一客户端启动语音识别模块,同时触发第二客户端从语料库中获取至少一条目标测试语料并依次播放每条目标测试语料,以使得第一客户端的语音识别模块对播放的目标测试语料进行语音识别;代理服务器获取语音识别模块识别得到的语音识别文本,并将该语音识别文本与目标测试语料对应的标准文本进行对比,以确定第一客户端的语音识别评测结果,从而实现了自动评测第一客户端的语音识别结果,避免人工评测的主观性,同时提高评测效率。
可以理解的是,为实现准确测评第一客户端的语音识别效果,可以使得代理服务器循环触发第二客户端从语料库中获取测试语料,以使得第一客户端的语音识别模块多次识别第二客户端所播放的测试语料,并根据多次识别获得的语音文本综合评测第一客户端的语音识别效果。
为便于理解,下面将结合附图对评测第一客户端的语音识别的方法进行说明。
参见图3,该图为本申请实施例提供的另一种应用程序语音识别的评测方法的流程图,如图3所示,该方法可以包括:
S301:触发第一客户端启动语音识别模块。
S302:触发第二客户端从语料库中获取目标测试语料,并播放目标测试语料,以使第一客户端的语音识别模块对播放的目标测试语料进行语音识别。
S303:获取第一客户端的语音识别模块识别得到该条目标测试语料对应的语音识别文本。
需要说明的是,本实施例中,S301-303分别与S201-S203具有类似的实现,具体可以参见上述步骤的实现,本实施例在此不再赘述。
另外,由于本实施例可以通过大量测试语料来测评第一客户端的语音识别效果,为便于代理服务器区分每条测试语料,代理服务器在获取语音识别模块输出的语音识别文本之后,还可以为识别得到的语音识别文本设置识别序列号,该识别序列号与当前获取的目标测试语料的序号一一对应,以便利用该识别序列号与该目标测试语料序号之间的对应关系查找标准文本。例如,第二客户端播放第一条目标测试语料,可以设定第一条目标测试语料对应的语音识别文本的识别序列号为1;第二客户端播放第二条目标测试语料,则第二条目标测试语料对应的语音识别的识别序列号为2,以此累计,直至语音识别评测结束为止。
S304:确定第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;如果完成,则执行S305;否则执行S303。
本实施例中,代理服务器确定第一客户端的语音识别模块是否完成对当前目标测试语料的识别,如果对当前获取的目标测试语料的语音识别完成,则执行S305。如果尚未完成语音识别,则继续执行S303,继续获取语音识别模块识别得到的语音识别文本。
在本实施例中,提供了两种确定语音识别模块是否完成当前目标测试语料的语音识别的方案。
一种是,确定第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成包括:识别第一客户端是否触发语音识别的后续操作,如果第一客户端触发语音识别的后续操作,则确定语音识别模块对当前获取的目标测试语料的识别操作已完成。其中,语音识别的后续操作可以包括搜索操作、发送操作等等。例如,当第一客户端包括通过语音进行搜索功能时,第一客户端在通过语音识别模块进行语音识别后,会根据识别的结果进行搜索。因此,当识别到第一客户端触发搜索操作时,表明当前语音识别操作已完成,即可确定语音识别模块的语音识别完成。
另一种是,确定第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成包括:在获取语音识别模块识别得到的语音识别文本时,如果超过预设时间未获取到新的识别内容,则确定语音识别模块对当前获取的目标测试语料的语音识别完成。在具体实现时,可以预先设置时间阈值,当在时间阈值内未继续获取当前目标测试语料对应的语音识别文本时,则确定语音识别模块的语音识别完成。例如,预设时间为2秒,如果超过2秒未获取当前目标测试语料的语音识别文本,表明已经识别完毕,则确定语音识别模块的语音识别完成。
可以理解的是,语音识别是个持续识别的过程。当目标测试语料对应时间较长时,第一客户端的语音识别模块可以针对该目标测试语料的一个语音片段给出该语音片段对应的识别结果,然后继续接收其他语音片段,并持续给出对应的识别结果。当一定时间内第一客户端未给出新的识别结果,表明该目标测试语料识别完成。
需要说明的是,关于确定语音识别模块的语音识别是否完成,还可以通过其他方式进行确定,例如,由第一客户端向代理服务器发送语音识别完成信号,再由代理服务器向第二客户端发送语音识别完成信号,以触发第二客户端继续从语料库中获取下一条测试语料。
S305:确定语料库中待测试语料是否全部被播放完成,若否,执行S306,向第二客户端发送语音识别完成信号;若是,则执行S307;其中,待测试语料可以是语料库中包括的全部或部分测试语料。
本实施例中,为提高评测的准确性,可以预先设定评测所需的测试语料的条数。当确定语料库中待测试语料被播放完毕后,则执行S307;若未播放完毕,则再次触发第二客户端从语料库中获取目标测试语料,并播放目标测试语料。
在具体实现时,可以预先设置测试所需的待测试语料的数值,由于代理服务器在获取语音识别文本时,还可以获取待语音识别文本的识别序列号,因此,可以将获取的识别序列号与预先设置的数值进行比对,当二者相等时,表明播放完成,执行S307;如果二者不相等,则执行S306。
S306:向第二客户端发送语音识别完成信号,并为当前识别得到的语音识别文本设置识别序列号,并继续执行S302,获取下一条目标测试语料;其中,当前识别得到的语音识别文本的识别序列号与当前目标测试语料的序号一一对应。
本实施例中,当第二客户端完成当前目标测试语料的语音识别后,代理服务器向第二客户端发送语音识别完成信号,以使得第二客户端继续从语料库中获取下一条测试语料。同时为当前目标测试语料对应的语音识别文本设置识别序列号,且该语音识别文本的识别序列号与当前目标测试语料的序号一一对应,以便利用该识别序列号与目标测试文本的序号之间的对应关系,查找到该目标测试语料对应的标准文本。
S307:根据每条目标测试语料对应的标准文本以及对应的语音识别文本,确定第一客户端的语音识别评测结果。
本实施例中,当代理服务器获取每条目标测试语料的语音识别文本后,可以按照语音识别文本的识别序列号,从语料库中获取与识别序列号对应序号的目标测试语料的标准文本。然后将目标测试语料的标准文本以及语音识别文本进行比对,从而确定第一客户端的语音识别测试结果。
需要说明的是,本实施例可以是在获取全部待测试语料的语音识别文本后,再确定每条目标测试语料对应的语音识别文本与标准文本的比对结果。当然,也可以在每获取一条目标测试语料的语音识别文本时,确定该目标测试语料对应的语音识别文本与标准文本的比对结果。本实施例对于确定目标测试语料对应的语音识别文本与标准文本的比较结果的时机不进行限定。
在具体实现时,可以通过计算目标测试语料的标准文本与语音识别文本之间的莱文斯坦距离,根据该莱文斯坦距离确定第一客户端的语音识别评测结果。
具体可以为,通过计算所有目标测试语料对应的莱文斯坦距离的平均值,根据该平均值确定第一客户端的语音识别评测结果。由于莱文斯坦距离越小,表明目标测试语料的标准文本与语音识别文本越相似,进而表明第一客户端的识别效果良好。因此,可以预先设定距离阈值,当计算获得的莱文斯坦距离平均值小于距离阈值时,确定第一客户端的语音识别评测结果理想,否则语音识别评测结果不理想。
通过上述描述,当需要评测某应用程序的语音识别功能时,可以利用该应用程序识别语料库中大量目标测试语料,并根据识别得到的语音识别文本以及目标测试语料对应的标准文本的比对结果,确定该应用程序的语音识别效果,实现了自动化评测应用程序的语音识别功能,解决了人工评测导致的测评效率较低的问题。
另外,当需要对多个应用程序语音识别功能进行评测时,可以建立多个线程进行并行评测,进一步提高评测效率。而且,在进行并行评测时,多个线程可以使用同一个语料库,避免建立多个语料库造成资源浪费。
基于上述方法实施例,本申请还提供了一种评测装置,下面将结合附图对该装置进行说明。
参见图4,该图为本申请实施例提供的一种针对应用程序语音识别的评测装置,该装置可以包括:
第一触发单元401,用于触发第一客户端启动语音识别模块;
第二触发单元402,用于触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端语音识别模块对播放的所述目标测试语料进行语音识别;
第一获取单元403,用于获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
第一确定单元404,用于根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在一种可能的实现方式中,所述第二触发单元,包括:
触发子单元,用于触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
判断子单元,用于确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
第一发送子单元,用于当所述判断子单元的判断结果为当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次执行所述触发子单元从语料库中获取目标测试语料并播放。
在一种可能的实现方式中,所述判断子单元,具体用于识别所述第一客户端是否触发所述语音识别模块的后续操作,如果所述第一客户端触发所述语音识别模块的后续操作,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述判断子单元,具体用于在获取所述第一客户端的语音识别模块的语音识别文本时,如果超过预设时间未继续获取所述语音识别文本,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述第一获取单元,包括:
第二发送子单元,用于向所述第一客户端所在终端发送安全证书;
具体用于获取所述第一客户端发送的所述语音识别模块的语音识别文本,或者,截获子单元,用于截获所述第一客户端从服务器获取的所述语音识别模块的语音识别文本。
在一种可能的实现方式中,所述装置还包括:
设置单元,用于当所述第一发送子单元向客户端发送语音识别完成信号时,为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
在一种可能的实现方式中,所述第一确定单元,包括:
获取子单元,用于根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
确定子单元,用于根据所述至少一条目标测试语料对应的标准文本以及对应所述语音识别模块的语音识别文本,确定所述第一客户端目标测试语料对应的语音识别评测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5示出了一种针对应用程序语音识别评测的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在一种可能的实现方式中,所述触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,包括:
触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次触发所述第二客户端从语料库中获取目标测试语料并播放。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
识别所述第一客户端是否触发所述语音识别的后续操作,如果是,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
在获取所述第一客户端的语音识别模块识别得到的语音识别文本时,如果超过预设时间未获取新的识别内容,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,包括:
向所述第一客户端所在终端发送安全证书;
截获所述第一客户端的所述语音识别模块识别得到的语音识别文本。
在一种可能的实现方式中,所述当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号时,所述方法还包括:
为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
在一种可能的实现方式中,所述根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果,包括:
根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行评测的方法,所述方法包括:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
在一种可能的实现方式中,所述触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,包括:
触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次触发所述第二客户端从语料库中获取目标测试语料并播放。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
识别所述第一客户端是否触发所述语音识别的后续操作,如果是,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
在获取所述第一客户端的语音识别模块识别得到的语音识别文本时,如果超过预设时间未获取新的识别内容,确定所述语音识别模块的语音识别完成。
在一种可能的实现方式中,所述获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,包括:
向所述第一客户端所在终端发送安全证书;
截获所述第一客户端的所述语音识别模块识别得到的语音识别文本。
在一种可能的实现方式中,所述当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号时,所述方法还包括:
为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
在一种可能的实现方式中,所述根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果,包括:
根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
图6是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
终端700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音识别的评测方法,其特征在于,所述方法包括:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
2.根据权利要求1所述的方法,其特征在于,所述触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,包括:
触发所述第二客户端从语料库中获取一条目标测试语料,并播放;
确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成;
当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号,以再次触发所述第二客户端从语料库中获取目标测试语料并播放。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
识别所述第一客户端是否触发所述语音识别的后续操作,如果是,确定所述语音识别模块的语音识别完成。
4.根据权利要求2所述的方法,其特征在于,所述确定所述第一客户端的语音识别模块对当前获取的目标测试语料的语音识别是否完成,包括:
在获取所述第一客户端的语音识别模块识别得到的语音识别文本时,如果超过预设时间未获取新的识别内容,确定所述语音识别模块的语音识别完成。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本,包括:
向所述第一客户端所在终端发送安全证书;
截获所述第一客户端的所述语音识别模块识别得到的语音识别文本。
6.根据权利要求2所述的方法,其特征在于,所述当所述对当前获取的目标测试语料的语音识别完成,向所述第二客户端发送语音识别完成信号时,所述方法还包括:
为识别得到的所述语音识别文本设置识别序列号,所述语音识别文本的识别序列号与当前获取的目标测试语料的序号一一对应。
7.根据权利要求6所述的方法,其特征在于,所述根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果,包括:
根据所述语音识别文本的识别序列号,从所述语料库中获取与所述识别序列号对应序号的目标测试语料对应的标准文本;
根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
8.一种语音识别的评测装置,其特征在于,所述装置包括:
第一触发单元,用于触发第一客户端启动语音识别模块;
第二触发单元,用于触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
第一获取单元,用于获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
第一确定单元,用于根据所述至少一条目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
9.一种语音识别的评测装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
触发第一客户端启动语音识别模块;
触发第二客户端从语料库中获取至少一条目标测试语料并依次播放,以使所述第一客户端的语音识别模块对播放的所述目标测试语料进行语音识别;
获取所述第一客户端的语音识别模块识别得到的每条目标测试语料对应的语音识别文本;
根据所述至少一条的目标测试语料对应的标准文本以及对应的语音识别文本,确定所述第一客户端的语音识别评测结果。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的语音识别的评测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512181.0A CN109493852A (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别的评测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512181.0A CN109493852A (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别的评测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493852A true CN109493852A (zh) | 2019-03-19 |
Family
ID=65709734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811512181.0A Pending CN109493852A (zh) | 2018-12-11 | 2018-12-11 | 一种语音识别的评测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493852A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136721A (zh) * | 2019-04-09 | 2019-08-16 | 北京大米科技有限公司 | 一种评分生成方法、装置、存储介质及电子设备 |
CN110335628A (zh) * | 2019-06-28 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 智能设备的语音测试方法、装置及电子设备 |
CN110415681A (zh) * | 2019-09-11 | 2019-11-05 | 北京声智科技有限公司 | 一种语音识别效果测试方法及系统 |
CN110600006A (zh) * | 2019-10-29 | 2019-12-20 | 福建天晴数码有限公司 | 一种语音识别的评测方法及系统 |
CN110619868A (zh) * | 2019-08-29 | 2019-12-27 | 深圳市优必选科技股份有限公司 | 一种语音助手优化方法、语音助手优化装置及智能设备 |
CN110827794A (zh) * | 2019-12-06 | 2020-02-21 | 科大讯飞股份有限公司 | 语音识别中间结果的质量评测方法和装置 |
CN112017635A (zh) * | 2020-08-27 | 2020-12-01 | 北京百度网讯科技有限公司 | 用于检测语音识别结果的方法、装置 |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
CN113485914A (zh) * | 2021-06-09 | 2021-10-08 | 镁佳(北京)科技有限公司 | 一种车载语音sdk测试方法、装置及系统 |
CN115171657A (zh) * | 2022-05-26 | 2022-10-11 | 青岛海尔科技有限公司 | 语音设备的测试方法和装置、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085187A1 (en) * | 2004-10-15 | 2006-04-20 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
CN104599680A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 移动设备上的实时口语评价系统及方法 |
CN106228986A (zh) * | 2016-07-26 | 2016-12-14 | 北京奇虎科技有限公司 | 一种语音识别引擎的自动化测试方法、装置和系统 |
CN108231090A (zh) * | 2018-01-02 | 2018-06-29 | 深圳市酷开网络科技有限公司 | 文本朗读水平评估方法、装置及计算机可读存储介质 |
US20180315428A1 (en) * | 2017-04-27 | 2018-11-01 | 3Play Media, Inc. | Efficient transcription systems and methods |
CN108965958A (zh) * | 2018-07-20 | 2018-12-07 | 深圳创维-Rgb电子有限公司 | 一种蓝牙语音遥控器的语音识别率测试方法及系统 |
-
2018
- 2018-12-11 CN CN201811512181.0A patent/CN109493852A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085187A1 (en) * | 2004-10-15 | 2006-04-20 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
CN104599680A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 移动设备上的实时口语评价系统及方法 |
CN106228986A (zh) * | 2016-07-26 | 2016-12-14 | 北京奇虎科技有限公司 | 一种语音识别引擎的自动化测试方法、装置和系统 |
US20180315428A1 (en) * | 2017-04-27 | 2018-11-01 | 3Play Media, Inc. | Efficient transcription systems and methods |
CN108231090A (zh) * | 2018-01-02 | 2018-06-29 | 深圳市酷开网络科技有限公司 | 文本朗读水平评估方法、装置及计算机可读存储介质 |
CN108965958A (zh) * | 2018-07-20 | 2018-12-07 | 深圳创维-Rgb电子有限公司 | 一种蓝牙语音遥控器的语音识别率测试方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136721A (zh) * | 2019-04-09 | 2019-08-16 | 北京大米科技有限公司 | 一种评分生成方法、装置、存储介质及电子设备 |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
CN110335628A (zh) * | 2019-06-28 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 智能设备的语音测试方法、装置及电子设备 |
CN110335628B (zh) * | 2019-06-28 | 2022-03-18 | 百度在线网络技术(北京)有限公司 | 智能设备的语音测试方法、装置及电子设备 |
CN110619868B (zh) * | 2019-08-29 | 2021-12-17 | 深圳市优必选科技股份有限公司 | 一种语音助手优化方法、语音助手优化装置及智能设备 |
CN110619868A (zh) * | 2019-08-29 | 2019-12-27 | 深圳市优必选科技股份有限公司 | 一种语音助手优化方法、语音助手优化装置及智能设备 |
CN110415681A (zh) * | 2019-09-11 | 2019-11-05 | 北京声智科技有限公司 | 一种语音识别效果测试方法及系统 |
CN110415681B (zh) * | 2019-09-11 | 2022-02-18 | 北京声智科技有限公司 | 一种语音识别效果测试方法及系统 |
CN110600006A (zh) * | 2019-10-29 | 2019-12-20 | 福建天晴数码有限公司 | 一种语音识别的评测方法及系统 |
CN110600006B (zh) * | 2019-10-29 | 2022-02-11 | 福建天晴数码有限公司 | 一种语音识别的评测方法及系统 |
CN110827794A (zh) * | 2019-12-06 | 2020-02-21 | 科大讯飞股份有限公司 | 语音识别中间结果的质量评测方法和装置 |
CN112017635A (zh) * | 2020-08-27 | 2020-12-01 | 北京百度网讯科技有限公司 | 用于检测语音识别结果的方法、装置 |
CN113485914A (zh) * | 2021-06-09 | 2021-10-08 | 镁佳(北京)科技有限公司 | 一种车载语音sdk测试方法、装置及系统 |
CN115171657A (zh) * | 2022-05-26 | 2022-10-11 | 青岛海尔科技有限公司 | 语音设备的测试方法和装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493852A (zh) | 一种语音识别的评测方法及装置 | |
WO2022198853A1 (zh) | 任务调度方法及装置、电子设备、存储介质和程序产品 | |
CN109359056B (zh) | 一种应用程序测试方法及装置 | |
CN109189987A (zh) | 视频搜索方法和装置 | |
CN103944804B (zh) | 推荐联系人的方法及装置 | |
CN105069426B (zh) | 相似图片判断方法以及装置 | |
CN106921560A (zh) | 语音通信方法、装置及系统 | |
CN106375782A (zh) | 视频播放方法及装置 | |
CN107666536B (zh) | 一种寻找终端的方法和装置、一种用于寻找终端的装置 | |
CN110175223A (zh) | 一种实现问题生成的方法及装置 | |
CN106254467A (zh) | 文件分享方法及装置 | |
CN104933170A (zh) | 信息展示方法及装置 | |
CN105095081B (zh) | 应用程序的功能测试方法及装置 | |
WO2017181545A1 (zh) | 对象监控方法及装置 | |
CN105809174A (zh) | 识别图像的方法及装置 | |
CN106096009A (zh) | 消息生成方法及装置 | |
CN110020145A (zh) | 一种信息推荐方法及装置 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、系统和存储介质 | |
CN111696553A (zh) | 一种语音处理方法、装置及可读介质 | |
CN105550235A (zh) | 信息获取方法及装置 | |
CN105302335B (zh) | 词汇推荐方法和装置及计算机可读存储介质 | |
CN110033784A (zh) | 一种音频质量的检测方法、装置、电子设备及存储介质 | |
CN106656746A (zh) | 信息输出方法及装置 | |
CN111338971A (zh) | 应用测试方法、装置、电子设备及存储介质 | |
CN107819740A (zh) | 终端设备的验证方法、终端设备、音箱及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |