CN110600006B - 一种语音识别的评测方法及系统 - Google Patents

一种语音识别的评测方法及系统 Download PDF

Info

Publication number
CN110600006B
CN110600006B CN201911039536.3A CN201911039536A CN110600006B CN 110600006 B CN110600006 B CN 110600006B CN 201911039536 A CN201911039536 A CN 201911039536A CN 110600006 B CN110600006 B CN 110600006B
Authority
CN
China
Prior art keywords
evaluation
audio
content
result
evaluating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911039536.3A
Other languages
English (en)
Other versions
CN110600006A (zh
Inventor
刘德建
林剑锋
林小红
梁益冰
林琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian TQ Digital Co Ltd
Original Assignee
Fujian TQ Digital Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian TQ Digital Co Ltd filed Critical Fujian TQ Digital Co Ltd
Priority to CN201911039536.3A priority Critical patent/CN110600006B/zh
Publication of CN110600006A publication Critical patent/CN110600006A/zh
Application granted granted Critical
Publication of CN110600006B publication Critical patent/CN110600006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音识别的评测系统,所述评测系统包括:生成评测资源模块、监控模块、执行评测模块、以及评测报告模块;所述生成评测资源模块负责接收输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;所述监控模块负责监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令,再执行评测;所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。本发明节省了评测时间成本,提升了评测结果的可信度。

Description

一种语音识别的评测方法及系统
技术领域
本发明涉及语音识别评测技术领域,特别是一种语音识别的评测方法及系统。
背景技术
随着人工智能的发展,人工智能的技术已宽泛使用到人们的生活中,其中语音内容已是发展的趋势。目前针对语音识别评测主要是通过demo功能进行功能的验证,这过程中主要是以手工的方式去评测。
restful是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义。RESTFUL适用于移动互联网厂商作为业务使能接口的场景,实现第三方互联网公司越过运营商OTT调用移动网络资源的功能,动作类型为新增、变更、删除所调用资源。
现有的语音识别评测方式存在如下缺点:缺点一:目前针对语音识别的评测都是使用手工进行评测,评测出的结果更会是存在主观意识,缺乏客观的数据内容,评测的结果的精准性会失真。
缺点二:现有的语音识别评测更多是进行测试,输入的音频与输入的内容进行比对,再通过听录音去语音识别的评测是否准确,其实在语音识别的评测方面不单单只是从单纯的录音去分析的精准性,而是应从多个方面去考虑分析才能得出这个语音识别的能力是达到什么样子的水平。
缺点三:语音评测被广泛使用到Web、PC、Android、iOS上,在评测时基础的资源业务往往需要进行多个端进行,并且现有的录音评测技术的录音都是通过人为喊麦的方式来获取需要的音频,会出现人为喊麦在效率上很低;环境杂音,影响音质导致测试的真实效果。
缺点四:评测录音长度时,需要去人为计表计算输入的声音长度会存在时间浪费并且繁琐。
发明内容
为克服上述问题,本发明的目的是提供一种语音识别的评测方法,无需人员参与,在整个过程中节省了时间成本,提升了评测结果的可信度。
本发明采用以下方案实现:一种语音识别的评测系统,所述评测系统包括:生成评测资源模块、监控模块、执行评测模块、以及评测报告模块;所述生成评测资源模块负责接收输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;所述监控模块负责监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令,再执行评测;所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
进一步的,所述生成评测资源模块进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。
进一步的,所述监控模块进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令给所述执行评测模块处理,若无监控到执行评测的请求,就进行待机中。
进一步的,所述执行评测模块进一步包括:接收单元、读取单元、封装单元、评测单元以及保存单元;
所述接收单元,用于接收评测请求命令;
所述读取单元,用于读取存储库中存储的评测音频资源;
所述封装单元,使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容和评测音频资源,评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
所述评测单元,用于自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;
所述保存单元,把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存。
进一步的,所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段来得到精准性的值。
进一步的,所述评测报告模块进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度、流利度、声调得分、评分耗时、准确度的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
本发明还提供了一种语音识别的评测方法,所述评测方法包括如下步骤:步骤S1、接收用户输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;
步骤S2、监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;
步骤S3、接收所述执行评测的请求命令,再执行评测操作;
步骤S4、对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
进一步的,所述步骤S1进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。
进一步的,所述步骤S2进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令进入步骤S3处理,若无监控到执行评测的请求,就进行待机中。
进一步的,所述步骤S3进一步具体包括如下步骤:步骤S31、接收评测请求命令;
步骤S32、读取存储库中存储的评测音频资源;
步骤S33、使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容和评测音频资源,评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
步骤S34、自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;
步骤S35、把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存。
进一步的,所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段来得到精准性的值。
进一步的,所述步骤S4进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度、流利度、声调得分、评分耗时、准确度的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
本发明的有益效果在于:1、通过本发明提供的方式可以自动化完成语音识别能力评测,从多方面去考量了语音识别能力,提升了评测结果的可信度。
2、通过本发明提供的方式可以自动化完成语音识别评测的全部过程,无需人员参与,在整个过程中节省了时间成本。
3、通过本发明提供的方式相比与人工评测,自动化评测对人员的能力要求非常低,无经验人员就可以操作;在评测效率上会是人工评测以成倍的提升,有很大的价值。
4、通过本发明提供的方式可解决很多重复性评测内容及常年累计的评测用例执行,无需担心评测的内容过于庞大,只需要开启评测,就会把所有的常年存储的评测内容全部进行评测,并输出评测报告,让研究员进行查看甚至是自行进行新研究的模型评测,无需进过测试人员进行测试,节省了时间及效率。
附图说明
图1是本发明评测系统的示意图。
图2是本发明生成评测资源模块执行的流程图。
图3是本发明监控模块执行的流程图。
图4是本发明执行评测模块执行的流程图。
图5是本发明评测报告模块执行的流程图。
图6是本发明的流程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
请参阅图1至图5所示,本发明的一种语音识别的评测系统,所述评测系统包括:生成评测资源模块、监控模块、执行评测模块、以及评测报告模块;如图1所示,所述生成评测资源模块负责接收输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;所述监控模块负责监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令,再执行评测;所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
如图2所示,所述生成评测资源模块进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。比如:要评测的用例中的内容是【01.你好,今天天气不错】,【02.早上好!】,把这两条内容转为音频后按评测用例的编号01和02来命名。
如图3所示,所述监控模块进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令给所述执行评测模块处理,若无监控到执行评测的请求,就进行待机中。
如图4所示,所述执行评测模块进一步包括:接收单元、读取单元、封装单元、评测单元以及保存单元;
所述接收单元,用于接收评测请求命令;
所述读取单元,用于读取存储库中存储的评测音频资源;
所述封装单元,使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容【如:01.你好,今天天气不错】和评测音频资源【如:01.你好,今天天气不错的音频文件】,评测的结果返回的内容包括精准性【overall】、完整度【integrity】、流利度【fluency】、声调得分【tonesCore】、评分耗时【scoreTime】、音频文件下载【audioUrl】、以及评测内容【refText】;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
所述评测单元,用于自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度【accuracy】,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;其中,比对是将两段音频文件内容进行对比,如声音、内容、声调、背景环境的对比,得出两段音频文件相似概率,从而实现评测前与评测后的语音评测的准确度。
所述保存单元,把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存。
所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段(即完整度、声调得分、评测内容、流利度、评分耗时的字段)来得到精准性的值。
如图5所示,在本发明中,所述评测报告模块进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度【integrity】、流利度【fluency】、声调得分【tonesCore】、评分耗时【scoreTime】、准确度【accuracy】的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性【overall】;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
请参阅图6所示,本发明还提供了一种语音识别的评测方法,所述评测方法包括如下步骤:步骤S1、接收用户输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;
步骤S2、监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;
步骤S3、接收所述执行评测的请求命令,再执行评测操作;
步骤S4、对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
所述步骤S1进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。
所述步骤S2进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令进入步骤S3处理,若无监控到执行评测的请求,就进行待机中。
所述步骤S3进一步具体包括如下步骤:步骤S31、接收评测请求命令;
步骤S32、读取存储库中存储的评测音频资源;
步骤S33、使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容和评测音频资源,评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
步骤S34、自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;其中,比对是将两段音频文件内容进行对比,如声音、内容、声调、背景环境的对比,得出两段音频文件相似概率,从而实现评测前与评测后的语音评测的准确度。
步骤S35、把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存。
所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段(即完整度、声调得分、评测内容、流利度、评分耗时的字段)来得到精准性的值。
所述步骤S4进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度、流利度、声调得分、评分耗时、准确度的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
下面结合具体实施例对本发明作进一步说明:
场景一:
同学小A负责语音识别能力评测,使用手工评测,需要人为去判断评测的结果精准性,在这过程中,由于评测的环境及主观原因,会导致评测的精准性失真。
通过本专利的方案,同学小A可使用自动化方式只需要提供评测用例,平台就会自动进行评测,并输出评测结论。如同学小A在生成评测资源模块中输入评测用例,生成评测资源模块接收输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;所述监控模块发起执行评测的请求命令;所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令,再执行评测;所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
场景二:
同学小B负责语音识别能力评测提供评测结果为研究员对语音识别能力进行优化提供参考,仅能通过单一的人为的录音与评测内容进行比对,再通过录音文件去判断精准性,这种方式并不能判断语音识别的能力达到什么程度,无法多方面考量。
通过本专利的方案,同学小B可使用自动化方式只需要提供评测用例,该专利的方案就会从多方面去分析这个语音识别能力,如:完整度、流利度、评分耗时等去分析语音识别的能力,总评测结果的效果图、评测覆盖率、评测结果分析及建议,以图形化展示,让对方一目了然看到问题。
场景三:
同学小C在负责语音识别能力评测,需要评测Web、PC、Android、iOS多个端进行,人工评测费时费力。
通过本专利的方案,同学小C只需要传入评测用例,无需进行多端评测,仅先把基础的语音识别能力先进行评测,分析出结果。
场景四:
同学小D在负责语音识别能力评测,测试内容已积累上万条下,进行语音识别测试,需要把不同的测试内容的返回结果中的语音文件与原语音文件听一遍是否一致,并且把每条测试内容的测试结论进行分析记录,分析语音识别的正确性。这个工作量非常庞大,单靠人工无法完成。同学小D想要让机器完成这些工作,本人只需对最后的结果进行查看:图形化、测试覆盖度、测试结论等等。
通过本专利的方案,同学小D只需要查看评测报告:自动化生成总评测结果的效果图、测试覆盖率、测试结果分析及建议,都以图形化展示;展示每个每条内容的识别的正确率、效率;每个细项中都可以都可以转为json数据,提供给研究员进行数据分析。
总之,本发明通过系统平台化进行语音评测,实现从输入评测用例到生成评测需要的数据资源、监控评测线程、执行评测、评测结果数据分析并把评测结果按数据化、图形化的形式进行展示,使得评测的结论一目了然。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (10)

1.一种语音识别的评测系统,其特征在于:所述评测系统包括:生成评测资源模块、监控模块、执行评测模块、以及评测报告模块;所述生成评测资源模块负责接收输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;所述监控模块负责监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令,再执行评测;所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示;
所述执行评测模块进一步包括:接收单元、读取单元、封装单元、评测单元以及保存单元;
所述接收单元,用于接收评测请求命令;
所述读取单元,用于读取存储库中存储的评测音频资源;
所述封装单元,使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容和评测音频资源,评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
所述评测单元,用于自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;
所述保存单元,把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存。
2.根据权利要求1所述的一种语音识别的评测系统,其特征在于:所述生成评测资源模块进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。
3.根据权利要求1所述的一种语音识别的评测系统,其特征在于:所述监控模块进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令给所述执行评测模块处理,若无监控到执行评测的请求,就进行待机中。
4.根据权利要求1所述的一种语音识别的评测系统,其特征在于:所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段来得到精准性的值。
5.根据权利要求1所述的一种语音识别的评测系统,其特征在于:所述评测报告模块进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度、流利度、声调得分、评分耗时、准确度的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
6.一种语音识别的评测方法,其特征在于:所述评测方法包括如下步骤:步骤S1、接收用户输入的评测用例,并进行分类,生成对应需要的评测音频资源,按对应的序号进行标识,最后通过存储库存储起来;
步骤S2、监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令;
步骤S3、接收所述执行评测的请求命令,再执行评测操作;所述步骤S3进一步具体包括如下步骤:步骤S31、接收评测请求命令;
步骤S32、读取存储库中存储的评测音频资源;
步骤S33、使用restful的方式,把语音识别的能力以POST方法进行封装,传入的参数是存储库中存储的评测内容和评测音频资源,评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容;所述精准性为:对整个评测内容的发音的总体评价,所述完整度为:评测音频资源是否有读完,所述流利度为:评测音频是否流利,与朗读的内容无关,所述声调得分为:声调发音评价,所述评分耗时为:整个评测过程花费的时间,所述音频文件下载为:传入的音频保存下来的文件下载地址,评测内容为:需要评测的内容;
步骤S34、自动发起语音识别评测,启动多线程,去读取评测用例及对应的评测音频资源开始评测,并把评测的结果返回的内容进行保存;读取音频文件下载的地址并下载该音频文件,把该进行评测后的音频文件与原音频文件进行比对,并把比对结果保存下来为准确度,所述准确度为:评测产生的音频文件与原始的评测音频文件比对的结果;
步骤S35、把需要评测的用例分类统计,再把这些用例进行上万次的语音识别评测,并把评测的结果保存;
步骤S4、对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析,以数据化、图形化的方式进行展示。
7.根据权利要求6所述的一种语音识别的评测方法,其特征在于:所述步骤S1进一步具体为:提供一个输入口让用户输入评测用例,再把对应的内容进行分类并生成评测音频资源,存储评测音频资源,并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。
8.根据权利要求6所述的一种语音识别的评测方法,其特征在于:所述步骤S2进一步具体为:实时监控存储库中是否已有需要进行评测的内容,若有发起执行评测的请求命令,若监控到执行评测的请求命令,就下发评测命令进入步骤S3处理,若无监控到执行评测的请求,就进行待机中。
9.根据权利要求6所述的一种语音识别的评测方法,其特征在于:所述启动多线程,去读取评测用例及对应的评测音频资源,开始评测,进一具体为:多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测,语音识别服务会返回评测结果的原始数据回来,同时计算评测时消耗的时间;
把所述原始数据进行解析,并把解析后的内容进行json化,筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段;
结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时;
结果返回来的评测内容字段与用户输入的评测内容进行比对,输出评测前后是否一致,再结合上述的字段来得到精准性的值。
10.根据权利要求6所述的一种语音识别的评测方法,其特征在于:所述步骤S4进一步具体为:读取评测的结果进行分析,统计上万次的结果数据进行数据分析,分析包括:完整度、流利度、声调得分、评分耗时、准确度的数据进行分析,统计出最高值、最低值及分布值,获得每次的精准性;将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议,都以图形化展示,提供给操作人员进行数据分析。
CN201911039536.3A 2019-10-29 2019-10-29 一种语音识别的评测方法及系统 Active CN110600006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911039536.3A CN110600006B (zh) 2019-10-29 2019-10-29 一种语音识别的评测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911039536.3A CN110600006B (zh) 2019-10-29 2019-10-29 一种语音识别的评测方法及系统

Publications (2)

Publication Number Publication Date
CN110600006A CN110600006A (zh) 2019-12-20
CN110600006B true CN110600006B (zh) 2022-02-11

Family

ID=68851986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911039536.3A Active CN110600006B (zh) 2019-10-29 2019-10-29 一种语音识别的评测方法及系统

Country Status (1)

Country Link
CN (1) CN110600006B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306816A (zh) * 2020-11-20 2021-02-02 福建天晴数码有限公司 一种基于深度学习的评测实体机器人响应的方法及其系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
CN106205604A (zh) * 2016-07-05 2016-12-07 惠州市德赛西威汽车电子股份有限公司 一种应用端语音识别评测系统及评测方法
CN106228986A (zh) * 2016-07-26 2016-12-14 北京奇虎科技有限公司 一种语音识别引擎的自动化测试方法、装置和系统
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN108536601A (zh) * 2018-04-13 2018-09-14 腾讯科技(深圳)有限公司 一种评测方法、装置、服务器及存储介质
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109273023A (zh) * 2018-09-20 2019-01-25 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
CN109493852A (zh) * 2018-12-11 2019-03-19 北京搜狗科技发展有限公司 一种语音识别的评测方法及装置
CN110289015A (zh) * 2019-05-27 2019-09-27 北京大米科技有限公司 一种音频处理方法、装置、服务器、存储介质及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766294B2 (en) * 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
WO2014052326A2 (en) * 2012-09-25 2014-04-03 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
CN106205604A (zh) * 2016-07-05 2016-12-07 惠州市德赛西威汽车电子股份有限公司 一种应用端语音识别评测系统及评测方法
CN106228986A (zh) * 2016-07-26 2016-12-14 北京奇虎科技有限公司 一种语音识别引擎的自动化测试方法、装置和系统
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN108536601A (zh) * 2018-04-13 2018-09-14 腾讯科技(深圳)有限公司 一种评测方法、装置、服务器及存储介质
CN109273023A (zh) * 2018-09-20 2019-01-25 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109493852A (zh) * 2018-12-11 2019-03-19 北京搜狗科技发展有限公司 一种语音识别的评测方法及装置
CN110289015A (zh) * 2019-05-27 2019-09-27 北京大米科技有限公司 一种音频处理方法、装置、服务器、存储介质及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Including human expertise in speaker recognition systems: report on a pilot evaluation》;Craig S. Greenberg et al.;《 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20110531;全文 *
《嵌入式语音识别系统的测试方法研究》;陈春玲等;《计算机技术与发展》;20190731;全文 *

Also Published As

Publication number Publication date
CN110600006A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN107516510B (zh) 一种智能设备自动化语音测试方法及装置
US9164878B2 (en) Evaluating coverage of a software test
CN108874268B (zh) 用户行为数据的采集方法及装置
US20130263092A1 (en) Method of converting source code and source code conversion program
CN103745731A (zh) 一种语音识别效果自动化测试系统及测试方法
TW202036353A (zh) 錫膏印刷品質檢測方法、數據處理裝置及電腦存儲介質
CN108597494A (zh) 语音测试方法及装置
CN110379410A (zh) 语音响应速度自动分析方法及系统
CN111930617B (zh) 基于数据对象化的自动化测试方法及装置
CN110309498A (zh) 基于参数生成审查报告的实现方法及装置,以及利用其生成审查报告的方法
CN110503960A (zh) 语音识别结果的实时上载方法、装置、设备及存储介质
CN115328784A (zh) 一种面向敏捷接口的自动化测试方法及系统
CN110245077A (zh) 一种程序异常的响应方法及设备
CN110600006B (zh) 一种语音识别的评测方法及系统
CN115964272A (zh) 交易数据自动化测试方法、装置、设备及可读存储介质
CN116521512A (zh) 代码的精准测试方法、装置、电子设备及计算机可读介质
CN107562621A (zh) 确定手工测试用例与被测试代码关联关系的方法和装置
CN110502414A (zh) 终端设备性能测试方法、装置、终端设备及存储介质
CN112905451B (zh) 应用程序的自动化测试方法及装置
CN111400171A (zh) 一种接口测试方法、系统、装置及可读存储介质
CN115309661A (zh) 一种应用测试方法、装置、电子设备及可读存储介质
CN100570576C (zh) 一种嵌入式系统的测试方法及系统
KR101170478B1 (ko) 로그 데이터 분석 방법
CN114999457A (zh) 语音系统的测试方法、装置、存储介质及电子设备
CN114121038A (zh) 音响语音测试方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant