CN110211592A

CN110211592A - 智能语音数据处理装置及方法

Info

Publication number: CN110211592A
Application number: CN201910409344.0A
Authority: CN
Inventors: 潘兆军; 史敬; 魏星华; 张黎; 王东辉; 吴旭
Original assignee: Beijing Hua Chong Chong Nanjing Information Technology Co Ltd
Current assignee: Beijing Hua Chong Chong Nanjing Information Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-06

Abstract

本发明公开一种智能语音数据处理装置及方法。该装置的语音输入接口接收语音文件后，可通过语音识别引擎根据目标关键词库中的目标关键词，对语音文件进行内容识别，查找出语音文件中与目标关键词相似的语音段，并根据语音段匹配出候选关键词，生成中标打分列表，再通过自动校验引擎根据经验库，对中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，也可以利用人工校验引擎播放语音段的内容，根据人工指令，在中标打分列表中的候选关键词中选出最终的识别结果，最后通过结果输出列表接口输出最终的识别结果；集成方便，配置灵活，接口易用，可以自动或人工校验结果，节省人工工作量，提升效率。

Description

智能语音数据处理装置及方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种智能语音数据处理装置及方法。

背景技术

随着人工智能、大数据、云计算、5G通信技术等高科技技术的不断发展，关键词识别作为语音数据处理的一个重要领域，有着非常广阔的应用前景。关键词识别不仅比连续语音识别灵活性好，而且具有很高的应用价值。关键词识别技术在工业控制、智能通信、语音质检、政务舆情监测、智能机器人、智能家居等领域的应用越来越广泛。

关键词识别常用方法分为TAR(test audio reuse)和NTAR(no test audioreuse)。TAR在得到候选关键词后，将候选关键词重新送给ASR模型，ASR模型利用声学信息重新在结合了关键词候选的LM模型里解码，从而挑选出最可能的关键词。NTAR无需进行二遍ASR系统，通常采用机器学习算法，结合ASR结果及关键词信息，给关键词候选打分。但通常需要做很多的特征工程，这些特征工程也很耗费时间和人力。

现有同领域里利用关键词识别技术对语音数据进行处理的状况比较分散。有的以固定关键词模型对整个语音文件进行识别，处理的语音格式也比较单一，前期要求人工转换成固定格式。语音数据处理出结果后只是给出每个关键词的声学后验概率得分，然后再由人工整理文本。无法灵活配置目标关键词，功能分散；最为关键的是没有自动确认结果的功能，需要额外的增加人员听取语音文件确认内容，不灵活而且耗时耗力。另一点是，现有的技术大多针对特定系统定制开发的，无法做到可移植性，输出结果也没有固定格式。

发明内容

本发明提供一种智能语音数据处理装置及方法，以解决现有智能语音数据处理方式效率低，可移植性差的问题。

第一方面，本发明提供一种智能语音数据处理装置，所述装置包括：

语音输入接口，用于接收语音文件；

目标关键词库，用于根据需求动态配置和管理目标关键词；

语音识别引擎，用于根据所述目标关键词库中的目标关键词，对所述语音文件进行内容识别，查找出所述语音文件中与所述目标关键词相似的语音段，并根据所述语音段匹配出候选关键词，生成中标打分列表；

经验库，用于记录已确认的包含目标关键词的语音文件；

自动校验引擎，用于根据所述经验库，对所述中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果；

人工校验引擎，用于播放所述语音段的内容，根据人工指令，在所述中标打分列表中的候选关键词中选出最终的识别结果；

结果输出列表接口，用于输出所述最终的识别结果。

结合第一方面，在第一方面的第一种可实现方式中，所述语音输入接口，还用于在接收语音文件后，根据所述语音文件的格式，对所述语音文件进行预处理，将所述语音文件转换成统一的格式。

结合第一方面，在第一方面的第二种可实现方式中，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。

结合第一方面的第二种可实现方式，在第一方面的第三种可实现方式中，所述候选关键词按照所述相似度由高到低的顺序排列。

结合第一方面，在第一方面的第四种可实现方式中，所述结果输出列表接口，还用于在输出所述最终的识别结果之前，将所述最终的识别结果转换成需要的格式。

第二方面，本发明提供一种智能语音数据处理方法，所述方法包括：

接收语音文件；

根据预设的目标关键词库中的目标关键词，对所述语音文件进行内容识别，查找出所述语音文件中与所述目标关键词相似的语音段，并根据所述语音段匹配出候选关键词，生成中标打分列表，其中，所述目标关键词库用于根据需求动态配置和管理目标关键词；

根据预设的经验库，对所述中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，或者，播放所述语音段的内容，根据人工指令，在所述中标打分列表中的候选关键词中选出最终的识别结果，其中，所述经验库用于记录已确认的包含目标关键词的语音文件；

输出所述最终的识别结果。

结合第二方面，在第二方面的第一种可实现方式中，接收语音文件之后，所述方法还包括：

根据所述语音文件的格式，对所述语音文件进行预处理，将所述语音文件转换成统一的格式。

结合第二方面，在第二方面的第二种可实现方式中，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。

结合第二方面的第二种可实现方式，在第二方面的第三种可实现方式中，所述候选关键词按照所述相似度由高到低的顺序排列。

结合第二方面，在第二方面的第四种可实现方式中，输出所述最终的识别结果之前，所述方法还包括：

将所述最终的识别结果转换成需要的格式。

本发明具有如下有益效果：本发明的智能语音数据处理装置，在语音输入接口接收语音文件后，可通过语音识别引擎根据目标关键词库中的目标关键词，对语音文件进行内容识别，查找出语音文件中与目标关键词相似的语音段，并根据语音段匹配出候选关键词，生成中标打分列表，再通过自动校验引擎根据经验库，对中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，也可以利用人工校验引擎播放语音段的内容，根据人工指令，在中标打分列表中的候选关键词中选出最终的识别结果，最后通过结果输出列表接口输出最终的识别结果；该装置集成方便，配置灵活，接口易用，既可以自动校验结果，也可以人工校验结果，可以方便、快速的接入到系统中，极大的减轻工作人员工作量，提高语音数据处理效率。本发明的智能语音数据处理方法，采用经验库和人工相结合的方式对识别结果进行校验，能够实现自动确认结果，可以不额外增加人员听取语音文件确认内容，节省了人工的工作量。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的智能语音数据处理装置的示意图。

图2为本发明实施例提供的智能语音数据处理方法一实施例的流程图。

图3为本发明实施例提供的智能语音数据处理方法另一实施例的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1，为本发明实施例提供的一种智能语音数据处理装置，所述装置可以包括语音输入接口、目标关键词库、语音识别引擎、中标打分列表、自动校验引擎、人工校验引擎经验库、结果输出列表接口几大部分，该智能语音数据处理装置把上述几部分整体做为一个模块来对外提供简明、实用的接口，易集成到需要的系统中，可移植性强，并该智能语音数据处理装置自带结果校验，方法新颖。

其中，该智能语音数据处理装置在接入需要的系统后，可通过语音输入接口接收语音文件。目标关键词库用于根据需求动态配置和管理目标关键词，解决了传统系统模型关键词单一的问题。

由于通常情况下采集的情报语音格式多样，采样率、采样精度差异过大，质量参差不齐，在本实施例中，语音输入接口接收语音文件之后，可以对语音的情况做前期处理，根据所述语音文件的格式，对所述语音文件进行预处理，将所述语音文件转换成统一的格式，可以解决传统情报语音格式多样的问题。

在语音文件被转换成相应格式之后，可利用语音识别引擎，根据所述目标关键词库中的目标关键词，对所述语音文件进行内容识别，查找出所述语音文件中与所述目标关键词相似的语音段，并根据所述语音段匹配出候选关键词，生成中标打分列表。

在本实施例中，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。所述候选关键词可以按照所述相似度由高到低的顺序排列，具体也可以根据需要设置中标打分列表显示预定数量的候选关键词。

请参阅图1，例如，中标打分列表中可以由上至下依次显示候选关键词：打球、吃饭、起飞等。并在候选关键词后分别显示该语音段在语音文件中所处的时间段，例如0.1s～0.3s。在最后的区域显示候选关键词与所述语音段的相似度，可以设置1为最高相似度，例如，候选关键词与所述语音段的相似度为0.85等。

经验库用于记录已确认的包含目标关键词的语音文件，以便为自动校验引擎选择最终的识别结果作参考。在自动校验模式下，自动校验引擎可以根据所述经验库，对所述中标打分列表中的候选关键词进行确认性打分。

例如，中标打分列表中的第一个候选关键词为打球，则可以查找经验库中包含打球这一目标关键词的语音文件，将其与所述语音段进行比较，根据比较的相似度来对打球这一候选关键词进行打分，将得分最高的候选关键词确认为最终的识别结果。

该装置在设置自动校验引擎的同时，还可以设置人工校验引擎，在人工校验模式下，人工校验引擎可以播放所述语音段的内容，并将中标打分列表显示给校验人员，校验人员根据语音段的内容，判断出该语音的实际目标关键词，并在所述中标打分列表中的候选关键词中选出最终的识别结果，将该最终的识别结果发送给人工校验引擎。

进一步地，如果中标打分列中没有校验人员认为的合适目标关键词，则校验人员也可以通过手动输入的方式，将自己认为的目标关键词输入给人工校验引擎。

通过自动校验引擎或者人工校验引擎的校验后，结果输出列表接口便可以输出所述最终的识别结果。另外，所述结果输出列表接口还可以在输出所述最终的识别结果之前，将所述最终的识别结果转换成需要的格式。

由以上实施例可知，本发明提供的智能语音数据处理装置，在语音输入接口接收语音文件后，可通过语音识别引擎根据目标关键词库中的目标关键词，对语音文件进行内容识别，查找出语音文件中与目标关键词相似的语音段，并根据语音段匹配出候选关键词，生成中标打分列表，再通过自动校验引擎根据经验库，对中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，也可以利用人工校验引擎播放语音段的内容，根据人工指令，在中标打分列表中的候选关键词中选出最终的识别结果，最后通过结果输出列表接口输出最终的识别结果。

本发明提供的智能语音数据处理装置集成方便，配置灵活，接口易用，既可以自动校验结果，也可以人工校验结果，可以更加方便、快速的接入到系统中，极大的减轻工作人员工作量，提高语音数据处理效率。

请参阅图2，为本发明实施例提供的一种智能语音数据处理方法的流程图，所述方法的执行主体可以是一种基于关键词识别的情报语音数据处理装置，所述方法可以包括如下步骤：

步骤S101，接收语音文件。

步骤S102，根据预设的目标关键词库中的目标关键词，对所述语音文件进行内容识别，查找出所述语音文件中与所述目标关键词相似的语音段，并根据所述语音段匹配出候选关键词，生成中标打分列表，其中，所述目标关键词库用于根据需求动态配置和管理目标关键词。

在本实施例中，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。所述候选关键词按照所述相似度由高到低的顺序排列。

步骤S103，根据预设的经验库，对所述中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，或者，播放所述语音段的内容，根据人工指令，在所述中标打分列表中的候选关键词中选出最终的识别结果，其中，所述经验库用于记录已确认的包含目标关键词的语音文件。

步骤S104，输出所述最终的识别结果。

请参阅图3，在一种可选实施方式中，在接收语音文件之后，本发明实施例提供的一种智能语音数据处理方法还可以包括：

步骤S1011，根据所述语音文件的格式，对所述语音文件进行预处理，将所述语音文件转换成统一的格式。

相应地，在一种可选实施方式中，在根据预设的经验库，对所述中标打分列表中的候选关键词进行确认性打分，将得分最高的候选关键词确认为最终的识别结果，或者，播放所述语音段的内容，根据人工指令，在所述中标打分列表中的候选关键词中选出最终的识别结果之后，输出所述最终的识别结果之前，本发明实施例提供的一种智能语音数据处理方法还可以包括：

步骤S1031，将所述最终的识别结果转换成需要的格式。

由以上实施例可知，本发明实施例提供的智能语音数据处理方法，采用经验库和人工相结合的方式对识别结果进行校验，能够实现自动确认结果，可以不额外增加人员听取语音文件确认内容，节省了人工的工作量。

本发明实施例还提供一种存储介质，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的智能语音数据处理方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：Read-OnlyMemory，简称：ROM)或随机存储记忆体(英文：RandomAccessMemory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于智能语音数据处理方法实施例而言，由于其基本相似于装置实施例，所以描述的比较简单，相关之处参见装置实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种智能语音数据处理装置，其特征在于，所述装置包括：

语音输入接口，用于接收语音文件；

目标关键词库，用于根据需求动态配置和管理目标关键词；

经验库，用于记录已确认的包含目标关键词的语音文件；

结果输出列表接口，用于输出所述最终的识别结果。

2.如权利要求1所述的装置，其特征在于，所述语音输入接口，还用于在接收语音文件后，根据所述语音文件的格式，对所述语音文件进行预处理，将所述语音文件转换成统一的格式。

3.如权利要求1所述的装置，其特征在于，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。

4.如权利要求3所述的装置，其特征在于，所述候选关键词按照所述相似度由高到低的顺序排列。

5.如权利要求1所述的装置，其特征在于，所述结果输出列表接口，还用于在输出所述最终的识别结果之前，将所述最终的识别结果转换成需要的格式。

6.一种智能语音数据处理方法，其特征在于，所述方法包括：

接收语音文件；

输出所述最终的识别结果。

7.如权利要求6所述的方法，其特征在于，接收语音文件之后，所述方法还包括：

8.如权利要求6所述的方法，其特征在于，所述中标打分列表记录有候选关键词、所述语音段的时间段，以及所述候选关键词与所述语音段的相似度。

9.如权利要求8所述的方法，其特征在于，所述候选关键词按照所述相似度由高到低的顺序排列。

10.如权利要求6所述的方法，其特征在于，输出所述最终的识别结果之前，所述方法还包括：

将所述最终的识别结果转换成需要的格式。