CN114120972B

CN114120972B - 一种基于场景化的语音智能识别方法及系统

Info

Publication number: CN114120972B
Application number: CN202210105109.6A
Authority: CN
Inventors: 杜兰; 杜轶锋; 周国华; 廖森平; 叶国伟
Original assignee: Ke Da Southern China Co ltd
Current assignee: Ke Da Southern China Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-12
Anticipated expiration: 2042-01-28
Also published as: CN114120972A

Abstract

本发明公开了一种基于场景化的语音智能识别方法及系统，所述方法包括：获得第一位置场景信息；根据第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；构建第一先验纠错模型；根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；通过对所述实时语音数据进行声学模型匹配，获得第一匹配声学模型；根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。解决了现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题。

Description

一种基于场景化的语音智能识别方法及系统

技术领域

本发明涉及智能识别相关领域，尤其涉及一种基于场景化的语音智能识别方法及系统。

背景技术

语音识别是利用计算机将语音信号自动转换为文本的一种技术，随着人工智能的不断发展，语音识别技术作为其中的重要手段，其应用的领域也逐渐扩大，从而对语音识别的准确度和智能化有了更高的需求。进一步的，由于语音识别在不同场景条件下的应用，其准确率不高，且环境适应性不强，从而造成语音识别的出错率较高。

由于目前的语音识别对用户的识别分析，忽略了在对应场景条件下的针对化识别调整，如何利用场景化条件对语音识别进行智能化识别是目前的主要研究话题。

然而，现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题。

发明内容

针对现有技术中的缺陷，本申请实施例的目的是，通过提供一种基于场景化的语音智能识别方法及系统，解决了现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

一方面，本申请实施例提供一种基于场景化的语音智能识别方法，所述方法应用于一种基于场景化的语音智能识别系统，所述系统与第一数据采集装置通信连接，所述方法包括：基于所述语音智能识别系统的识别环境，获得第一位置场景信息；根据所述第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

另一方面，本申请还提供了一种基于场景化的语音智能识别系统，所述系统包括：第一获得单元，所述第一获得单元用于基于所述语音智能识别系统的识别环境，获得第一位置场景信息；第二获得单元，所述第二获得单元用于根据第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；第一生成单元，所述第一生成单元用于根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；第一输入单元，所述第一输入单元用于根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；第一接收单元，所述第一接收单元用于根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；第三获得单元，所述第三获得单元用于通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；第一识别单元，所述第一识别单元用于根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

第三方面，本申请实施例提供了一种基于场景化的语音智能识别系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了通过对所述语音识别识别系统的识别环境进行分析，确定第一位置场景信息，并根据所述第一数据采集装置对处于所述第一位置场景的语音识别对象进行用户数据采集，从而根据采集获得的第一识别对象信息进行语音特征分析，进而生成第一识别语料库和第一纠错语料库，基于此进行场景模型的模拟，根据模拟的数据，构建用于进行先验语义异常识别的纠错模型，即第一先验纠错模型，进一步的，再通过所述语音智能识别系统接收所述第一位置场景的实时语音数据，从而基于实时语音数据进行声学模型的匹配，输出第一匹配声学模型后，根据所述第一先验纠错模型和所述第一匹配声学模型对所述实时语音数据进行解码搜索，输出第一语音识别结果的方式，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读参照以下附图对非限制性实施例所做的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本申请实施例一种基于场景化的语音智能识别方法的流程示意图；

图2为本申请实施例一种基于场景化的语音智能识别方法的生成第一纠错语料库的流程示意图；

图3为本申请实施例一种基于场景化的语音智能识别方法的搭建预处理功能区块的流程示意图；

图4为本申请实施例一种基于场景化的语音智能识别系统的结构示意图；

图5为本申请实施例示例性电子设备的结构示意图。

具体实施方式

本申请实施例通过提供一种基于场景化的语音智能识别方法及系统，解决了现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

随着语音识别技术的不断发展，使得语音识别产品已经进入市场和服务领域，基于目前语音识别使用的应用场景多样化，为了保证语音识别技术在应用场景下的适应性和识别准确度，提出了一种基于场景化的语音智能识别方法，从而能够通过对场景化进行分析，并结合识别对象进行智能化识别，基于数学模型的方式对异常识别结果进行纠错，从而提高识别结果准确性。

针对上述技术问题，本申请提供的技术方案总体思路如下：

通过提供一种基于场景化的语音智能识别方法，解决了现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题。进一步的，通过对所述语音识别识别系统的识别环境进行分析，确定第一位置场景信息，并根据所述第一数据采集装置对处于所述第一位置场景的语音识别对象进行用户数据采集，从而根据采集获得的第一识别对象信息进行语音特征分析，进而生成第一识别语料库和第一纠错语料库，基于此进行场景模型的模拟，根据模拟的数据，构建用于进行先验语义异常识别的纠错模型，即第一先验纠错模型，进一步的，再通过所述语音智能识别系统接收所述第一位置场景的实时语音数据，从而基于实时语音数据进行声学模型的匹配，输出第一匹配声学模型后，根据所述第一先验纠错模型和所述第一匹配声学模型对所述实时语音数据进行解码搜索，输出第一语音识别结果的方式，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

如图1所示，本申请实施例提供了一种基于场景化的语音智能识别方法，所述方法应用于一种基于场景化的语音智能识别系统，所述系统与第一数据采集装置通信连接，所述方法包括：

步骤S100：基于所述语音智能识别系统的识别环境，获得第一位置场景；

具体而言，随着语音识别技术的不断发展，使得语音识别产品已经进入市场和服务领域，基于目前语音识别使用的应用场景多样化，为了保证语音识别技术在应用场景下的适应性和识别准确度，提出了一种基于场景化的语音智能识别方法，从而能够通过对场景化进行分析，并结合识别对象进行智能化识别，基于数学模型的方式对异常识别结果进行纠错，从而提高识别结果准确性。因此，首先通过对所述语音智能识别系统的识别环境进行分析，确定第一位置场景，其中，所述第一位置场景是对语音识别的环境进行位置数据采集，进而对采集的数据进行准确分析，基于分析后的数据模拟场景，进而提供场景化识别。

步骤S200：根据所述第一数据采集装置对所述第一位置场景的语音对象进行数据采集，获得第一识别对象信息；

具体而言，所述第一数据采集装置包括数据采集单元，数据处理单元和数据传输单元，通过所述数据采集单元对处于所述第一位置场景的语音对象进行数据采集，包括对象身份信息，语音信息等，所述数据处理单元通过对采集的所有信息生成用户识别档案，再根据所述数据传输单元将生成的用户识别档案进行传输，从而获得所述第一识别对象信息，根据所述第一识别对象信息实现对用户的初步分析。

步骤S300：根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；

具体而言，根据所述第一识别对象信息对所述第一识别对象的语言特征进行分析，比如，当所述第一识别对象信息中用户年龄层、地域口音性等特征信息，从而根据所述第一识别对象信息和语言特征信息、以及所述第一位置环境的信息，生成第一识别语料库和第一纠错语料库，其中，所述第一识别语料库为系统用于进行语音识别的原始语料库，所述第一纠错语料库为基于识别获得的所述第一位置环境信息生成的纠错语义库，比如，对某一用户语音识别录入时，其基于位置环境对识别的位置区域所属的限定词出现异常，根据所述第一纠错语料库中的语料信息进行纠错和调整。

步骤S400：根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；

具体而言，由于所述第一识别语料库和所述第一纠错语料库为基于识别对象和位置环境的语料库，因此，基于该语料库对处于所述第一位置环境的语音识别进行场景模型模拟，从而生成对应的训练样本，此时，由于训练样本的语音数据中是根据识别对象的语音特征和所述第一位置场景的场景特征获得的数据，因此，训练样本保留了分别来自用户和场景的先验特征，基于特征的先验性，构建所述第一先验纠错模型，即基于先验式的语料库和纠错库分析进行先验式纠错模型的构建，根据先验式纠错模型对输入的数据进行先验式判断，提高语音识别准确率，其中，所述第一先验纠错模型为对识别场景下先验语音的纠错模拟分析模型，通过场景模型模拟的语音信息训练获得。

根据所述第一先验纠错模型能够对所述第一识别对象在所述第一位置环境上的语音输入进行识别任务路径状态的异常识别，进而基于所述第一纠错语料库中的语料信息进行智能化自动覆盖纠错，从而对所述第一先验纠错模型进行优化分析，提高模型的异常捕捉性和纠错准确性，即提高模型的使用效果。

步骤S500：根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；

步骤S600：通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；

进一步的，如图3所示，所述根据所述语音智能识别系统接收所述第一位置场景的实时语音数据之后，本申请实施例步骤S500还包括：

步骤S510：根据所述第一位置场景的信息进行场景语音录入特征分析，获得场景录入语音特征；

步骤S520：根据所述场景录入语音特征，搭建预处理功能区块；

步骤S530：根据所述预处理功能区块对所述实时语音数据进行特征预处理，获得所述预处理功能区块的输出语音数据；

步骤S540：将所述预处理功能区块的输出语音数据作为所述第一匹配声学模型的输入数据进行识别。

具体而言，当所述第一先验纠错模型构建完成后，基于所述语音智能识别系统接收所述第一位置场景的实时语音数据，其中，当所述第一位置场景不同时，其接收到的实时语音数据也所有不同，需要对所述实时语音数据进行预处理，从而再将预处理后的实时语音数据作为声学模型匹配的输入数据，获得所述第一匹配声学模型，其中，所述第一匹配声学模型是根据所述实时语音数据中的音色、音域、连接词以及词汇量进行综合分析匹配选择的声学模型，根据所述第一识别对象的音色、音域、连接词以及词汇量大小与接收的所述实时语音数据，获得第一匹配声学模型进行声学模型的识别。

声学模型作为语义识别中的重要部分，能够对接收的语音信号实现多维度的识别和分析，声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示，且输出信息准确性的特点提高了语义识别结果的准确性，基于不同场景化的需求，需要对接收的语音信号进行预处理，其预处理的过程如下：根据所述第一位置场景信息进行场景语音录入的特征分析，确定场景对录入语音数据的影响维度，比如，多声源、强噪音等，从而根据场景录入语音特征，搭建预处理功能区块，针对化场景的影响特点实现预处理功能，获得所述预处理功能区块的输出的预处理后的语音数据，从而使得语音数据的特征性更强，提高匹配模型的准确性。

步骤S700：根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

具体而言，所述实时语音数据通过所述预处理功能区块进行预处理后，提高实时语音数据的质量，因此，通过所述第一先验纠错模型对所述实时语音数据进行先验式的任务状态路径分析和异常数据纠错，所述第一先验纠错模型为语音识别的前端处理；再基于所述第一匹配声学模型进行解码搜索时能够获得准确的识别结果，其中，所述第一匹配声学模型为语音识别的后端处理，从而输出了所述第一语音识别结果，基于场景化和识别对象的结果进行智能化语音识别，达到了在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

进一步的，如图2所示，所述根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库，本申请实施例步骤S300还包括：

步骤S310：根据所述第一位置场景的信息，生成第一场景语料库；

步骤S320：根据所述第一识别对象信息进行地区差异语音分析，获得第一差异语料库；

步骤S330：根据所述第一差异语料库对所述第一场景语料库中的语料进行比对连接，生成第一语音差异纠错库；

步骤S340：将所述第一语音差异纠错库添加至所述第一纠错语料库中。

具体而言，所述第一场景语料库为根据所述第一位置场景信息进行语料分析获得的语料库，根据场景的语料分析从而确定的场景适应词句信息；所述第一差异语料库为基于所述第一识别对象进行词句差异性的分析后出现差异的词句信息。

进一步的，通过对所述第一位置场景进行场景语料识别，生成第一场景语料库，进一步的，再基于识别对象的地区差异性进行场景化语音差异分析，确定第一差异语料库，再将所述第一差异语料库对所述第一场景语料库中的语料进行比对连接，构建出对应的第一语音差异纠错库，比如，以电梯中的语音识别为例，数字的识别为场景关键词，基于数字的识别，其识别对象语音差异性，生成具有差异性的语料库进行比对连接，比如4楼在不同的识别对象具有差异性，从而将所述第一语音差异纠错库添加至所述第一纠错语料库中进行纠错，以场景化建立纠错语料库的方式，能够对场景模型进行精确化分析，缩小识别范围，提高识别精准度。

进一步的，本申请实施例步骤S300还包括：

步骤S350：通过对所述第一位置场景的信息进行分析，确定第一场景任务；

步骤S360：基于所述第一场景任务的信息，从所述第一场景语料库中获得任务场景语料词库，其中，所述任务场景语料词库为该任务条件下的场景替换词；

步骤S370：将所述任务场景语料词库作为第二语音差异纠错库添加至所述第一纠错语料库中。

具体而言，通过对所述第一位置场景的信息进行分析，确定第一场景任务，其中，所述第一场景任务为在所述第一位置场景下的场景任务，比如，当所述第一位置场景为会议语音识别时，其场景任务可以为会议记录，文字导入等，当所述第一位置场景为电梯乘坐时，其场景任务为语音识别电梯控制任务，因此，基于所述第一场景任务的信息，从所述第一场景语料库中获得任务场景语料词库，进一步确定对应任务下的场景替换词，针对实时输入的语音数据进行任务路径状态的确定，进而基于任务路径的状态进行任务场景语料的替换纠错，比如，当所述第一场景任务为会议语音识别的会议记录时，其会议专用词的设置可以提高语音识别在场景化的适应性，因此，将所述任务场景语料词库作为第二语音差异纠错库添加至所述第一纠错语料库中进行纠错处理，提高语音录入的智能性和专业输入性。

进一步的，本申请实施例步骤S600还包括：

步骤S610：根据所述第一识别对象信息进行语音特征分析，获得第一语音特征组，其中，所述第一语音特征组包括音色识别特征、词汇量化特征和语音转折特征；

步骤S620：根据所述音色识别特征、所述词汇量化特征和所述语音转折特征，确定第一识别维度、第二识别维度和第三识别维度；

步骤S630：基于所述第一识别维度、所述第二识别维度和所述第三识别维度对所述实时语音数据进行识别。

进一步的，所述通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型，本申请实施例步骤S600还包括：

步骤S640：获得所述第一识别对象在所述第一位置场景的实时语音数据；

步骤S650：通过对所述第一识别维度、所述第二识别维度和所述第三识别维度的特征强度进行分析，生成第一优先级序列；

步骤S660：基于所述第一优先级序列作为声学模型匹配优先级进行声学模型匹配，获得所述第一匹配声学模型。

具体而言，所述第一语音特征组是对所述第一识别对象的语音数据进行特征识别后结果，所述音色识别特征为识别对象语音中的音色特征，若所述第一识别对象为不同年龄层和不同性别，其音色各不相同；所述词汇量化特征为所述第一识别对象执行对应场景任务的词汇量大小阶层；所述语音转折特征为所述第一识别对象语句的连接词识别特征。进一步的，通过进行特征组分析，其第一识别维度、第二识别维度和第三识别维度可以替换和分析，优选的，以所述第一语音特征组的三组特征为基础进行语音识别。

所述音色识别特征能够基于所述第一识别对象进行显著特征标注；所述词汇量化特征能够针对模型的调用进行分析，比如，在会议场景下，识别对象的实时语音数据量较大；在电梯场景下，识别对象的实时语音数据量较小；所述语音转折特征能够对识别对象的语音进行连接词、转折词的识别，对语音数据进行分段，基于所述第一匹配声学模型对语音数据处理时，较大词汇数据量条件下首先对识别对象进行分段再进一步的分帧处理，提高所述第一匹配声学模型的分帧效率，进一步优化语音识别结果。

将所述音色识别特征作为第一识别维度、所述词汇量化特征作为第二识别维度、所述语音转折特征作为第三识别维度，其由于场景和用户的不同，其所选的维度的特征性不相同，因此，通过对所述第一识别维度、第二识别维度和第三识别维度进行特征强度分析，按照特征强度由大到小对应生成优先级，从而根据所述第一优先级序列作为声学模型匹配优先级进行声学模型匹配，获得所述第一匹配声学模型。从而通过对实时接收的语音数据进行多维度分析，提高所述第一匹配声学模型的分析准确性。

进一步的，本申请实施例步骤S650还包括：

步骤S651：根据所述第一匹配声学模型，获得第一匹配评级数据；

步骤S652：判断所述第一匹配评级数据是否满足预设评级数据；

步骤S653：若所述第一匹配评级数据不满足所述预设评级数据，获得第一优化指令；

步骤S654：根据所述第一优化指令，通过增加特征维度对所述第一匹配声学模型进行模型优化，获得第二匹配声学模型。

具体而言，所述第一匹配评级数据为基于所述第一匹配声学模型进行模型性能分析，由于所述第一匹配声学模型是根据实时接收的语音特征进行多维分析获得的模型，且该模型作为识别的重要部分，进一步的，对所述第一匹配声学模型进行样本测试或检测进行模型评估，从而输出所述第一匹配评级数据。若所述第一匹配评级数据满足所述预设评级数据，再基于所述第一匹配声学模型进行语音识别；若所述第一匹配评级数据不满足所述预设评级数据，通过增加特征维度对所述第一匹配声学模型进行模型优化，进一步的，还可以通过对优选的三个维度中各自的数据进行特征强度采集和数据冗余处理。从而能够根据场景的变化需求和识别对象进行特征维度分析，提高输出结果的智能性。

与现有技术相比，本发明具有如下的有益效果：

1、由于采用了通过对所述语音识别识别系统的识别环境进行分析，确定第一位置场景信息，并根据所述第一数据采集装置对处于所述第一位置场景的语音识别对象进行用户数据采集，从而根据采集获得的第一识别对象信息进行语音特征分析，进而生成第一识别语料库和第一纠错语料库，基于此进行场景模型的模拟，根据模拟的数据，构建用于进行先验语义异常识别的纠错模型，即第一先验纠错模型，进一步的，再通过所述语音智能识别系统接收所述第一位置场景的实时语音数据，从而基于实时语音数据进行声学模型的匹配，输出第一匹配声学模型后，根据所述第一先验纠错模型和所述第一匹配声学模型对所述实时语音数据进行解码搜索，输出第一语音识别结果的方式，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

2、由于采用了根据场景录入语音特征，搭建预处理功能区块，针对化场景的影响特点实现预处理功能，获得所述预处理功能区块的输出的预处理后的语音数据，从而使得语音数据的特征性更强，提高匹配模型的准确性。

3、由于采用了将所述第一差异语料库对所述第一场景语料库中的语料进行比对连接，实现所述第一纠错语料库中进行纠错，以场景化建立纠错语料库的方式，能够对场景模型进行精确化分析，缩小识别范围，提高识别精准度。

实施例二

基于与前述实施例中一种基于场景化的语音智能识别方法同样发明构思，本发明还提供了一种基于场景化的语音智能识别系统，如图4所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于基于所述语音智能识别系统的识别环境，获得第一位置场景信息；

第二获得单元12，所述第二获得单元12用于根据第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；

第一生成单元13，所述第一生成单元13用于根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；

第一输入单元14，所述第一输入单元14用于根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；

第一接收单元15，所述第一接收单元15用于根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；

第三获得单元16，所述第三获得单元16用于通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；

第一识别单元17，所述第一识别单元17用于根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

进一步的，所述系统还包括：

第二生成单元，所述第二生成单元用于根据所述第一位置场景的信息，生成第一场景语料库；

第四获得单元，所述第四获得单元用于根据所述第一识别对象信息进行地区差异语音分析，获得第一差异语料库；

第三生成单元，所述第三生成单元用于根据所述第一差异语料库对所述第一场景语料库中的语料进行比对连接，生成第一语音差异纠错库；

第一添加单元，所述第一添加单元用于将所述第一语音差异纠错库添加至所述第一纠错语料库中。

进一步的，所述系统还包括：

第一确定单元，所述第一确定单元用于通过对所述第一位置场景的信息进行分析，确定第一场景任务；

第五获得单元，所述第五获得单元用于基于所述第一场景任务的信息，从所述第一场景语料库中获得任务场景语料词库，其中，所述任务场景语料词库为该任务条件下的场景替换词；

第二添加单元，所述第二添加单元用于将所述任务场景语料词库作为第二语音差异纠错库添加至所述第一纠错语料库中。

进一步的，所述系统还包括：

第六获得单元，所述第六获得单元用于根据所述第一识别对象信息进行语音特征分析，获得第一语音特征组，其中，所述第一语音特征组包括音色识别特征、词汇量化特征和语音转折特征；

第二确定单元，所述第二确定单元用于根据所述音色识别特征、所述词汇量化特征和所述语音转折特征，确定第一识别维度、第二识别维度和第三识别维度；

第二识别单元，所述第二识别单元用于基于所述第一识别维度、所述第二识别维度和所述第三识别维度对所述实时语音数据进行识别。

进一步的，所述系统还包括：

第七获得单元，所述第七获得单元用于获得所述第一识别对象在所述第一位置场景的实时语音数据；

第四生成单元，所述第四生成单元用于通过对所述第一识别维度、所述第二识别维度和所述第三识别维度的特征强度进行分析，生成第一优先级序列；

第八获得单元，所述第八获得单元用于基于所述第一优先级序列作为声学模型匹配优先级进行声学模型匹配，获得所述第一匹配声学模型。

进一步的，所述系统还包括：

第一构建单元，所述第一构建单元用于根据所述第一匹配声学模型，获得第一匹配评级数据；

第一判断单元，所述第一判断单元用于判断所述第一匹配评级数据是否满足预设评级数据；

第九获得单元，所述第九获得单元用于若所述第一匹配评级数据不满足所述预设评级数据，获得第一优化指令；

第十获得单元，所述第十获得单元用于根据所述第一优化指令，通过增加特征维度对所述第一匹配声学模型进行模型优化，获得第二匹配声学模型。

进一步的，所述系统还包括：

第十一获得单元，所述第十一获得单元用于根据所述第一位置场景的信息进行场景语音录入特征分析，获得场景录入语音特征；

第一搭建单元，所述第一搭建单元用于根据所述场景录入语音特征，搭建预处理功能区块；

第十二获得单元，所述第十二获得单元用于根据所述预处理功能区块对所述实时语音数据进行特征预处理，获得所述预处理功能区块的输出语音数据；

第三识别单元，所述第三识别单元用于将所述预处理功能区块的输出语音数据作为所述第一匹配声学模型的输入数据进行识别。

前述图1实施例一中的一种基于场景化的语音智能识别方法的各种变化方式和具体实例同样适用于本实施例的一种基于场景化的语音智能识别系统，通过前述对一种基于场景化的语音智能识别方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于场景化的语音智能识别系统的实施方法，所以为了说明书的简洁，在此不再详述。

实施例三

下面参考图5来描述本申请实施例的电子设备。

图5图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实例施中一种基于场景化的语音智能识别方法的发明构思，本发明还提供一种基于场景化的语音智能识别系统，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于场景化的语音智能识别系统的任一方法的步骤。

其中，在图5中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本申请实施例提供一种基于场景化的语音智能识别方法，所述方法应用于一种基于场景化的语音智能识别系统，所述方法应用于一种基于场景化的语音智能识别系统，所述系统与第一数据采集装置通信连接，所述方法包括：基于所述语音智能识别系统的识别环境，获得第一位置场景信息；根据所述第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；根据所述第一识别对象信息的语言特征信息，生成第一识别语料库和第一纠错语料库；根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。解决了现有技术中存在语音识别无法根据场景化特征进行智能化识别，从而造成识别结果准确性不够稳定的技术问题，达到了通过结合识别对象和识别场景，在前端构建数学模型进行智能化的异常识别和修正，从而提高场景化适用性识别结果的准确性的技术效果。

本领域普通技术人员可以理解：本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围，也不表示先后顺序。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a ,b,或c中的至少一项(个、种)，可以表示：a ,b,c,a b,a c,b c,或a b c，其中a,b,c可以是单个，也可以是多个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指

令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑系统，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算系统的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RA存储器、闪存、RO存储器、EPRO存储器、EEPRO存储器、寄存器、硬盘、可移动磁盘、CD RO或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于终端中。可选地，处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。

Claims

1.一种基于场景化的语音智能识别方法，其特征在于，所述方法应用于一种基于场景化的语音智能识别系统，所述系统与第一数据采集装置通信连接，所述方法包括：

基于所述语音智能识别系统识别环境，获得第一位置场景；

根据所述第一数据采集装置对所述第一位置场景的语音对象进行数据采集，获得第一识别对象信息；

根据所述第一识别对象信息的语言特征信息以及第一位置环境信息，生成第一识别语料库和第一纠错语料库；

根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；

根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；

通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；

根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一识别对象信息的语言特征信息以及第一位置环境信息，生成第一识别语料库和第一纠错语料库，所述方法还包括：

根据所述第一位置场景的信息，生成第一场景语料库；

根据所述第一识别对象信息进行地区差异语音分析，获得第一差异语料库；

根据所述第一差异语料库对所述第一场景语料库中的语料进行比对连接，生成第一语音差异纠错库；

将所述第一语音差异纠错库添加至所述第一纠错语料库中。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

通过对所述第一位置场景的信息进行分析，确定第一场景任务；

基于所述第一场景任务的信息，从所述第一场景语料库中获得任务场景语料词库，其中，所述任务场景语料词库为该任务条件下的场景替换词；

将所述任务场景语料词库作为第二语音差异纠错库添加至所述第一纠错语料库中。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一识别对象信息进行语音特征分析，获得第一语音特征组，其中，所述第一语音特征组包括音色识别特征、词汇量化特征和语音转折特征；

根据所述音色识别特征、所述词汇量化特征和所述语音转折特征，确定第一识别维度、第二识别维度和第三识别维度；

基于所述第一识别维度、所述第二识别维度和所述第三识别维度对所述实时语音数据进行识别。

5.如权利要求4所述的方法，其特征在于，所述通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型，所述方法还包括：

获得所述第一识别对象在所述第一位置场景的实时语音数据；

通过对所述第一识别维度、所述第二识别维度和所述第三识别维度的特征强度进行分析，生成第一优先级序列；

基于所述第一优先级序列作为声学模型匹配优先级进行声学模型匹配，获得所述第一匹配声学模型。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述第一匹配声学模型，获得第一匹配评级数据；

判断所述第一匹配评级数据是否满足预设评级数据；

若所述第一匹配评级数据不满足所述预设评级数据，获得第一优化指令；

根据所述第一优化指令，通过增加特征维度对所述第一匹配声学模型进行模型优化，获得第二匹配声学模型。

7.如权利要求1所述的方法，其特征在于，所述根据所述语音智能识别系统接收所述第一位置场景的实时语音数据之后，所述方法还包括：

根据所述第一位置场景的信息进行场景语音录入特征分析，获得场景录入语音特征；

根据所述场景录入语音特征，搭建预处理功能区块；

根据所述预处理功能区块对所述实时语音数据进行特征预处理，获得所述预处理功能区块的输出语音数据；

将所述预处理功能区块的输出语音数据作为所述第一匹配声学模型的输入数据进行识别。

8.一种基于场景化的语音智能识别系统，其特征在于，所述系统包括：

第一获得单元，所述第一获得单元用于基于所述语音智能识别系统识别环境，获得第一位置场景信息；

第二获得单元，所述第二获得单元用于根据第一数据采集装置对所述第一位置场景的信息的语音对象进行数据采集，获得第一识别对象信息；

第一生成单元，所述第一生成单元用于根据所述第一识别对象信息的语言特征信息以及第一位置环境信息，生成第一识别语料库和第一纠错语料库；

第一输入单元，所述第一输入单元用于根据所述第一识别语料库和所述第一纠错语料库进行场景模型模拟，构建第一先验纠错模型，其中，所述第一先验纠错模型为先验语义识别的异常纠错模型；

第一接收单元，所述第一接收单元用于根据所述语音智能识别系统接收所述第一位置场景的实时语音数据；

第三获得单元，所述第三获得单元用于通过对所述实时语音数据进行声学模型匹配，获得第一匹配结果，其中，所述第一匹配结果为第一匹配声学模型；

第一识别单元，所述第一识别单元用于根据所述第一先验纠错模型和所述第一匹配声学模型进行解码搜索，输出第一语音识别结果。

9.一种电子设备，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，其特征在于，当所述程序被所述处理器执行时，使系统以执行时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。