CN110600006B

CN110600006B - 一种语音识别的评测方法及系统

Info

Publication number: CN110600006B
Application number: CN201911039536.3A
Authority: CN
Inventors: 刘德建; 林剑锋; 林小红; 梁益冰; 林琛
Original assignee: Fujian TQ Digital Co Ltd
Current assignee: Fujian TQ Digital Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-02-11
Anticipated expiration: 2039-10-29
Also published as: CN110600006A

Abstract

本发明提供了一种语音识别的评测系统，所述评测系统包括：生成评测资源模块、监控模块、执行评测模块、以及评测报告模块；所述生成评测资源模块负责接收输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；所述监控模块负责监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令；所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令，再执行评测；所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示。本发明节省了评测时间成本，提升了评测结果的可信度。

Description

一种语音识别的评测方法及系统

技术领域

本发明涉及语音识别评测技术领域，特别是一种语音识别的评测方法及系统。

背景技术

随着人工智能的发展，人工智能的技术已宽泛使用到人们的生活中，其中语音内容已是发展的趋势。目前针对语音识别评测主要是通过demo功能进行功能的验证，这过程中主要是以手工的方式去评测。

restful是一种网络应用程序的设计风格和开发方式，基于HTTP，可以使用XML格式定义或JSON格式定义。RESTFUL适用于移动互联网厂商作为业务使能接口的场景，实现第三方互联网公司越过运营商OTT调用移动网络资源的功能，动作类型为新增、变更、删除所调用资源。

现有的语音识别评测方式存在如下缺点：缺点一：目前针对语音识别的评测都是使用手工进行评测，评测出的结果更会是存在主观意识，缺乏客观的数据内容，评测的结果的精准性会失真。

缺点二：现有的语音识别评测更多是进行测试，输入的音频与输入的内容进行比对，再通过听录音去语音识别的评测是否准确，其实在语音识别的评测方面不单单只是从单纯的录音去分析的精准性，而是应从多个方面去考虑分析才能得出这个语音识别的能力是达到什么样子的水平。

缺点三：语音评测被广泛使用到Web、PC、Android、iOS上，在评测时基础的资源业务往往需要进行多个端进行，并且现有的录音评测技术的录音都是通过人为喊麦的方式来获取需要的音频，会出现人为喊麦在效率上很低；环境杂音，影响音质导致测试的真实效果。

缺点四：评测录音长度时，需要去人为计表计算输入的声音长度会存在时间浪费并且繁琐。

发明内容

为克服上述问题，本发明的目的是提供一种语音识别的评测方法，无需人员参与，在整个过程中节省了时间成本，提升了评测结果的可信度。

本发明采用以下方案实现：一种语音识别的评测系统，所述评测系统包括：生成评测资源模块、监控模块、执行评测模块、以及评测报告模块；所述生成评测资源模块负责接收输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；所述监控模块负责监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令；所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令，再执行评测；所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示。

进一步的，所述生成评测资源模块进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。

进一步的，所述监控模块进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令给所述执行评测模块处理，若无监控到执行评测的请求，就进行待机中。

进一步的，所述执行评测模块进一步包括：接收单元、读取单元、封装单元、评测单元以及保存单元；

所述接收单元，用于接收评测请求命令；

所述读取单元，用于读取存储库中存储的评测音频资源；

所述封装单元，使用restful的方式，把语音识别的能力以POST方法进行封装，传入的参数是存储库中存储的评测内容和评测音频资源，评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容；所述精准性为：对整个评测内容的发音的总体评价，所述完整度为：评测音频资源是否有读完，所述流利度为：评测音频是否流利，与朗读的内容无关，所述声调得分为：声调发音评价，所述评分耗时为：整个评测过程花费的时间，所述音频文件下载为：传入的音频保存下来的文件下载地址，评测内容为：需要评测的内容；

所述评测单元，用于自动发起语音识别评测，启动多线程，去读取评测用例及对应的评测音频资源开始评测，并把评测的结果返回的内容进行保存；读取音频文件下载的地址并下载该音频文件，把该进行评测后的音频文件与原音频文件进行比对，并把比对结果保存下来为准确度，所述准确度为：评测产生的音频文件与原始的评测音频文件比对的结果；

所述保存单元，把需要评测的用例分类统计，再把这些用例进行上万次的语音识别评测，并把评测的结果保存。

进一步的，所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

把所述原始数据进行解析，并把解析后的内容进行json化，筛选出完整度、声调得分、评测内容、流利度、评分耗时的字段；

结果返回的完整度、声调得分、流利度、评分耗时的值可直接用来评测完整度、声调得分、流利度、评分耗时；

结果返回来的评测内容字段与用户输入的评测内容进行比对，输出评测前后是否一致，再结合上述的字段来得到精准性的值。

进一步的，所述评测报告模块进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度、流利度、声调得分、评分耗时、准确度的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。

本发明还提供了一种语音识别的评测方法，所述评测方法包括如下步骤：步骤S1、接收用户输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；

步骤S2、监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令；

步骤S3、接收所述执行评测的请求命令，再执行评测操作；

步骤S4、对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示。

进一步的，所述步骤S1进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。

进一步的，所述步骤S2进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令进入步骤S3处理，若无监控到执行评测的请求，就进行待机中。

进一步的，所述步骤S3进一步具体包括如下步骤：步骤S31、接收评测请求命令；

步骤S32、读取存储库中存储的评测音频资源；

步骤S33、使用restful的方式，把语音识别的能力以POST方法进行封装，传入的参数是存储库中存储的评测内容和评测音频资源，评测的结果返回的内容包括精准性、完整度、流利度、声调得分、评分耗时、音频文件下载、以及评测内容；所述精准性为：对整个评测内容的发音的总体评价，所述完整度为：评测音频资源是否有读完，所述流利度为：评测音频是否流利，与朗读的内容无关，所述声调得分为：声调发音评价，所述评分耗时为：整个评测过程花费的时间，所述音频文件下载为：传入的音频保存下来的文件下载地址，评测内容为：需要评测的内容；

步骤S34、自动发起语音识别评测，启动多线程，去读取评测用例及对应的评测音频资源开始评测，并把评测的结果返回的内容进行保存；读取音频文件下载的地址并下载该音频文件，把该进行评测后的音频文件与原音频文件进行比对，并把比对结果保存下来为准确度，所述准确度为：评测产生的音频文件与原始的评测音频文件比对的结果；

步骤S35、把需要评测的用例分类统计，再把这些用例进行上万次的语音识别评测，并把评测的结果保存。

进一步的，所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

进一步的，所述步骤S4进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度、流利度、声调得分、评分耗时、准确度的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。

本发明的有益效果在于：1、通过本发明提供的方式可以自动化完成语音识别能力评测，从多方面去考量了语音识别能力，提升了评测结果的可信度。

2、通过本发明提供的方式可以自动化完成语音识别评测的全部过程，无需人员参与，在整个过程中节省了时间成本。

3、通过本发明提供的方式相比与人工评测，自动化评测对人员的能力要求非常低，无经验人员就可以操作；在评测效率上会是人工评测以成倍的提升，有很大的价值。

4、通过本发明提供的方式可解决很多重复性评测内容及常年累计的评测用例执行，无需担心评测的内容过于庞大，只需要开启评测，就会把所有的常年存储的评测内容全部进行评测，并输出评测报告，让研究员进行查看甚至是自行进行新研究的模型评测，无需进过测试人员进行测试，节省了时间及效率。

附图说明

图1是本发明评测系统的示意图。

图2是本发明生成评测资源模块执行的流程图。

图3是本发明监控模块执行的流程图。

图4是本发明执行评测模块执行的流程图。

图5是本发明评测报告模块执行的流程图。

图6是本发明的流程示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

请参阅图1至图5所示，本发明的一种语音识别的评测系统，所述评测系统包括：生成评测资源模块、监控模块、执行评测模块、以及评测报告模块；如图1所示，所述生成评测资源模块负责接收输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；所述监控模块负责监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令；所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令，再执行评测；所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示。

如图2所示，所述生成评测资源模块进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。比如：要评测的用例中的内容是【01.你好，今天天气不错】，【02.早上好！】，把这两条内容转为音频后按评测用例的编号01和02来命名。

如图3所示，所述监控模块进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令给所述执行评测模块处理，若无监控到执行评测的请求，就进行待机中。

如图4所示，所述执行评测模块进一步包括：接收单元、读取单元、封装单元、评测单元以及保存单元；

所述接收单元，用于接收评测请求命令；

所述读取单元，用于读取存储库中存储的评测音频资源；

所述封装单元，使用restful的方式，把语音识别的能力以POST方法进行封装，传入的参数是存储库中存储的评测内容【如：01.你好，今天天气不错】和评测音频资源【如：01.你好，今天天气不错的音频文件】，评测的结果返回的内容包括精准性【overall】、完整度【integrity】、流利度【fluency】、声调得分【tonesCore】、评分耗时【scoreTime】、音频文件下载【audioUrl】、以及评测内容【refText】；所述精准性为：对整个评测内容的发音的总体评价，所述完整度为：评测音频资源是否有读完，所述流利度为：评测音频是否流利，与朗读的内容无关，所述声调得分为：声调发音评价，所述评分耗时为：整个评测过程花费的时间，所述音频文件下载为：传入的音频保存下来的文件下载地址，评测内容为：需要评测的内容；

所述评测单元，用于自动发起语音识别评测，启动多线程，去读取评测用例及对应的评测音频资源开始评测，并把评测的结果返回的内容进行保存；读取音频文件下载的地址并下载该音频文件，把该进行评测后的音频文件与原音频文件进行比对，并把比对结果保存下来为准确度【accuracy】，所述准确度为：评测产生的音频文件与原始的评测音频文件比对的结果；其中，比对是将两段音频文件内容进行对比，如声音、内容、声调、背景环境的对比，得出两段音频文件相似概率，从而实现评测前与评测后的语音评测的准确度。

所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

结果返回来的评测内容字段与用户输入的评测内容进行比对，输出评测前后是否一致，再结合上述的字段（即完整度、声调得分、评测内容、流利度、评分耗时的字段）来得到精准性的值。

如图5所示，在本发明中，所述评测报告模块进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度【integrity】、流利度【fluency】、声调得分【tonesCore】、评分耗时【scoreTime】、准确度【accuracy】的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性【overall】；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。

请参阅图6所示，本发明还提供了一种语音识别的评测方法，所述评测方法包括如下步骤：步骤S1、接收用户输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；

步骤S3、接收所述执行评测的请求命令，再执行评测操作；

所述步骤S1进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。

所述步骤S2进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令进入步骤S3处理，若无监控到执行评测的请求，就进行待机中。

所述步骤S3进一步具体包括如下步骤：步骤S31、接收评测请求命令；

步骤S32、读取存储库中存储的评测音频资源；

步骤S34、自动发起语音识别评测，启动多线程，去读取评测用例及对应的评测音频资源开始评测，并把评测的结果返回的内容进行保存；读取音频文件下载的地址并下载该音频文件，把该进行评测后的音频文件与原音频文件进行比对，并把比对结果保存下来为准确度，所述准确度为：评测产生的音频文件与原始的评测音频文件比对的结果；其中，比对是将两段音频文件内容进行对比，如声音、内容、声调、背景环境的对比，得出两段音频文件相似概率，从而实现评测前与评测后的语音评测的准确度。

所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

所述步骤S4进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度、流利度、声调得分、评分耗时、准确度的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。

下面结合具体实施例对本发明作进一步说明：

场景一：

同学小A负责语音识别能力评测，使用手工评测，需要人为去判断评测的结果精准性，在这过程中，由于评测的环境及主观原因，会导致评测的精准性失真。

通过本专利的方案，同学小A可使用自动化方式只需要提供评测用例，平台就会自动进行评测，并输出评测结论。如同学小A在生成评测资源模块中输入评测用例，生成评测资源模块接收输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；所述监控模块发起执行评测的请求命令；所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令，再执行评测；所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示。

场景二：

同学小B负责语音识别能力评测提供评测结果为研究员对语音识别能力进行优化提供参考，仅能通过单一的人为的录音与评测内容进行比对，再通过录音文件去判断精准性，这种方式并不能判断语音识别的能力达到什么程度，无法多方面考量。

通过本专利的方案，同学小B可使用自动化方式只需要提供评测用例，该专利的方案就会从多方面去分析这个语音识别能力，如：完整度、流利度、评分耗时等去分析语音识别的能力，总评测结果的效果图、评测覆盖率、评测结果分析及建议，以图形化展示，让对方一目了然看到问题。

场景三：

同学小C在负责语音识别能力评测，需要评测Web、PC、Android、iOS多个端进行，人工评测费时费力。

通过本专利的方案，同学小C只需要传入评测用例，无需进行多端评测，仅先把基础的语音识别能力先进行评测，分析出结果。

场景四：

同学小D在负责语音识别能力评测，测试内容已积累上万条下，进行语音识别测试，需要把不同的测试内容的返回结果中的语音文件与原语音文件听一遍是否一致，并且把每条测试内容的测试结论进行分析记录，分析语音识别的正确性。这个工作量非常庞大，单靠人工无法完成。同学小D想要让机器完成这些工作，本人只需对最后的结果进行查看：图形化、测试覆盖度、测试结论等等。

通过本专利的方案，同学小D只需要查看评测报告：自动化生成总评测结果的效果图、测试覆盖率、测试结果分析及建议，都以图形化展示；展示每个每条内容的识别的正确率、效率；每个细项中都可以都可以转为json数据，提供给研究员进行数据分析。

总之，本发明通过系统平台化进行语音评测，实现从输入评测用例到生成评测需要的数据资源、监控评测线程、执行评测、评测结果数据分析并把评测结果按数据化、图形化的形式进行展示，使得评测的结论一目了然。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种语音识别的评测系统，其特征在于：所述评测系统包括：生成评测资源模块、监控模块、执行评测模块、以及评测报告模块；所述生成评测资源模块负责接收输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；所述监控模块负责监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令；所述执行评测模块负责接收所述监控模块下发的执行评测的请求命令，再执行评测；所述评测报告模块负责对评测的结果进行数据分析、评测结果的统计、评测覆盖率、评测结论的分析，以数据化、图形化的方式进行展示；

所述执行评测模块进一步包括：接收单元、读取单元、封装单元、评测单元以及保存单元；

所述接收单元，用于接收评测请求命令；

所述读取单元，用于读取存储库中存储的评测音频资源；

2.根据权利要求1所述的一种语音识别的评测系统，其特征在于：所述生成评测资源模块进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。

3.根据权利要求1所述的一种语音识别的评测系统，其特征在于：所述监控模块进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令给所述执行评测模块处理，若无监控到执行评测的请求，就进行待机中。

4.根据权利要求1所述的一种语音识别的评测系统，其特征在于：所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取所述生成评测资源模块评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

5.根据权利要求1所述的一种语音识别的评测系统，其特征在于：所述评测报告模块进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度、流利度、声调得分、评分耗时、准确度的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。

6.一种语音识别的评测方法，其特征在于：所述评测方法包括如下步骤：步骤S1、接收用户输入的评测用例，并进行分类，生成对应需要的评测音频资源，按对应的序号进行标识，最后通过存储库存储起来；

步骤S3、接收所述执行评测的请求命令，再执行评测操作；所述步骤S3进一步具体包括如下步骤：步骤S31、接收评测请求命令；

步骤S32、读取存储库中存储的评测音频资源；

步骤S35、把需要评测的用例分类统计，再把这些用例进行上万次的语音识别评测，并把评测的结果保存；

7.根据权利要求6所述的一种语音识别的评测方法，其特征在于：所述步骤S1进一步具体为：提供一个输入口让用户输入评测用例，再把对应的内容进行分类并生成评测音频资源，存储评测音频资源，并跟评测用例中的内容一一对应关联起来即把评测用例中的内容转为音频后按评测用例的编号来命名。

8.根据权利要求6所述的一种语音识别的评测方法，其特征在于：所述步骤S2进一步具体为：实时监控存储库中是否已有需要进行评测的内容，若有发起执行评测的请求命令，若监控到执行评测的请求命令，就下发评测命令进入步骤S3处理，若无监控到执行评测的请求，就进行待机中。

9.根据权利要求6所述的一种语音识别的评测方法，其特征在于：所述启动多线程，去读取评测用例及对应的评测音频资源，开始评测，进一具体为：多线程读取用户输入的评测内容请求语音识别服务同时播放对应的评测音频资源进行评测，语音识别服务会返回评测结果的原始数据回来，同时计算评测时消耗的时间；

10.根据权利要求6所述的一种语音识别的评测方法，其特征在于：所述步骤S4进一步具体为：读取评测的结果进行分析，统计上万次的结果数据进行数据分析，分析包括：完整度、流利度、声调得分、评分耗时、准确度的数据进行分析，统计出最高值、最低值及分布值，获得每次的精准性；将总评测结果的效果图、评测覆盖率、评测结果分析及评测结果建议，都以图形化展示，提供给操作人员进行数据分析。