CN114155841A

CN114155841A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN114155841A
Application number: CN202111347046.7A
Authority: CN
Inventors: 王玮; 杨玲; 苏文畅; 国丽; 李沫
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-08

Abstract

本申请提出一种语音识别方法、装置、设备及存储介质，该方法包括：获取生成待识别语音的语音场景的属性信息，和/或，确定生成待识别语音的语音场景中的人员的属性信息；根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果。采用上述的语音识别方法，能够保证识别结果与语音场景相匹配，从而能够使语音识别胜任对任意语音场景中的语音的识别，在任意的语音场景中，都能够得到更准确的语音识别结果。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着语音识别技术的发展，语音识别在会议、演讲等语音场景中的应用越来越广泛。借助语音识别技术，可以对语音场景中生成的语音音频进行自动识别，并生成相应的识别文本，从而为用户记录语音内容提供极大便利。例如在会议场景中，借助语音识别技术对会议发言人的语音进行识别，可以实现自动记录发言人发言内容的目的，由此可以方便用户记录会议内容，不仅能够提高记录效率，还能减轻参会用户的听写压力。

常规的语音识别方法是通过对语音音频数据进行处理，确定语音音频对应的文本内容，从而达到语音识别的目的。但是在实际应用中，不同语音场景中生成的语音音频具备其独特的特点，采用常规的语音识别方法往往无法胜任对各种语音场景的语音的准确识别。

发明内容

基于上述技术现状，本申请提出一种语音识别方法、装置、设备及存储介质，该语音识别方法能够保证识别出的语音识别结果与语音场景相匹配，得到更准确的语音识别结果。

为了达到上述目的，本申请提出如下技术方案：

一种语音识别方法，包括：

获取生成待识别语音的语音场景的属性信息，和/或，确定生成待识别语音的语音场景中的人员的属性信息；

根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果。

可选的，所述根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果，包括：

对所述待识别语音进行语音识别，得到语音识别结果；

根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果。

可选的，所述获取生成待识别语音的语音场景的属性信息，包括：

获取生成待识别语音的语音场景的场景图像，和/或，获取生成待识别语音的语音场景中的语音数据；

通过对所述场景图像进行图像识别，和/或，通过对所述语音数据进行语音识别，确定所述语音场景的属性信息。

可选的，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，包括：

识别所述场景图像中的文本内容；

根据从所述场景图像中识别出的文本内容，确定所述语音场景的场景属性信息，所述场景属性信息包括所述语音场景的区域、领域、人员信息中的至少一种。

可选的，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，还包括：

根据所述场景图像，识别所述语音场景的场景类型。

可选的，通过对所述语音数据进行语音识别，确定所述语音场景的属性信息，包括：

对所述语音数据进行语音识别，得到与所述语音数据对应的文本内容；

对与所述语音数据对应的文本内容进行分词以及对分词结果进行分析，确定所述语音场景的场景属性信息，所述场景属性信息包括所述语音场景的区域、领域、人员信息中的至少一种。

可选的，确定生成待识别语音的语音场景中的人员的属性信息，包括：

根据生成待识别语音的语音场景中的人员的发言内容和/或所述语音场景的介绍信息，确定所述语音场景中的人员的属性信息，所述人员的属性信息包括人员的角色、称谓、职位中的至少一种。

可选的，根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果，包括：

至少根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，生成与所述语音场景对应的发言内容结构化模板；

从所述待识别语音的语音识别结果中识别不符合所述发言内容结构化模板的文本内容；

根据所述发言内容结构化模板，对不符合所述发言内容结构化模板的文本内容进行修正和/删除，得到所述待识别语音的校正后的语音识别结果。

可选的，所述至少根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，生成与所述语音场景对应的发言内容结构化模板，包括：

从所述待识别语音的语音识别结果中提取得到关键词；

对提取得到的关键词，以及所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，进行结构化处理并进行组合，得到与所述语音场景对应的发言内容结构化模板。

一种语音识别装置，包括：

信息获取单元，用于获取生成待识别语音的语音场景的属性信息，和/或，确定生成待识别语音的语音场景中的人员的属性信息；

识别处理单元，用于根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果。

一种语音识别设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语音识别方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音识别方法。

本申请提出的语音识别方法，在对待识别语音进行语音识别时，先获取生成该待识别语音的语音场景的属性信息，和/或确定该语音场景中的人员的属性信息，在此基础上，根据该语音场景的属性信息，和/或该语音场景中的人员的属性信息，对该待识别语音进行语音识别，确定该待识别语音的语音识别结果。

由于语音场景的属性信息，以及语音场景中的人员的属性信息，均能够体现该语音场景中生成的语音的内容属性。因此，根据该语音场景的属性信息和/或该语音场景中的人员的属性信息对待识别语音进行语音识别，能够保证识别结果与语音场景的属性信息和/或语音场景中的人员的属性信息相匹配，也就是能够保证识别结果与语音场景相匹配，从而能够使语音识别胜任对任意语音场景中的语音的识别，在任意的语音场景中，都能够得到更准确的语音识别结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法的流程示意图；

图2是本申请实施例提供的另一种语音识别方法的流程示意图；

图3是本申请实施例提供的又一种语音识别方法的流程示意图；

图4是本申请实施例提供的语音识别方法的执行过程示意图；

图5是本申请实施例提供的一种语音识别装置的结构示意图；

图6是本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音识别应用场景中。采用本申请实施例技术方案，能够提高对语音场景中的语音的识别准确度。

按照常规的语音识别技术方案，为了提高对语音场景中的语音的识别结果的准确度，在完成对语音数据的语音识别后，由人工对语音识别结果进行校验，修改其中的错误识别内容。该处理方式需要投入大量的人力劳动，需要耗费大量人力资源和时间，处理效率较低。

基于上述技术现状，本申请实施例提出一种语音识别方法、装置、设备及存储介质，采用该方法能够得到更加准确的语音识别结果，从而可以省去人工校正的处理内容。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种语音识别方法，参见图1所示，该方法包括：

S101、获取生成待识别语音的语音场景的属性信息，和/或，确定生成待识别语音的语音场景中的人员的属性信息。

具体的，上述的生成待识别语音的语音场景，是指由人员参与并发言构成的语音场景，该语音场景中的人员发言时，生成相应的发言语音数据。对于该语音场景中生成的任意的语音数据，当需要对其进行语音识别时，该语音数据即为待识别语音。示例性的，上述的语音场景，可以是会议场景、演讲场景、交谈场景、采访场景等。

语音场景的属性信息，是指用于表征语音场景的领域、规模、性质、区域等属性的信息。例如，假设某会议为“华北地区防汛方案研讨会”，则该会议场景的领域属性为防汛领域，其区域属性为华北地区，其性质为研讨会性质。

语音场景的属性信息，能够一定程度上反映在该语音场景中生成的语音数据的内容属性信息。例如，假设语音场景是科技领域的会议，则该语音场景中生成的语音的内容，很大概率上是科技领域的内容；如果语音场景是针对某个地区的发展会议，则该语音场景中生成的语音的内容，很大概率是与该地区的发展相关的内容。

因此，语音场景的属性信息，能够用于界定该语音场景中生成的待识别语音的内容属性。

语音场景中的人员的属性信息，是指参与语音场景的人员的身份、角色、称谓等属性信息。例如，假设语音场景为会议场景，则语音场景中的人员的属性信息，包括但不限于是参会人员的身份、角色、称谓、职位等属性信息。

语音场景中的人员的属性信息，能够一定程度上反映发言人员的语音内容特点，或者能够一定程度上反映语音内容中涉及的人员的属性信息。

比如，假设语音数据是会议主持人介绍与会嘉宾的语音，则在该语音中，可能包含各个与会嘉宾的称谓，比如XX董事长、XX总经理、XX主任等。如果事先能够确定该语音场景中的人员的属性信息，比如预先确定了参与该会议的各个人员的身份、称谓等属性信息，则当未能准确识别主持人语音中的与会嘉宾称谓时，依然能够根据预先确定的人员属性信息，确定正确的嘉宾称谓。

再例如，假设根据会议场景的人员属性信息，确定了人员A为主持人，则当对人员A发言的语音数据进行语音识别时，能够确定其发音内容更加偏向于主持用语或介绍用语。

因此，语音场景的属性信息，以及语音场景中的人员的属性信息，均能够一定程度上反映在该语音场景中生成的语音的内容的属性、特点等。

作为示例性的实现方式，上述的获取生成待识别语音的语音场景的属性信息，可以通过对语音场景的名称、介绍信息进行文本分析确定，也可以通过分析该语音场景中的语音数据的内容而确定，具体的实现方式可以参见后续实施例的介绍。另外，该语音场景的属性信息，也可以是预先已经明确并存储的信息，当需要识别待识别语音时，直接读取生成待待识别语音的语音场景的属性信息即可。

同理，上述的确定生成待识别语音的语音场景中的人员的属性信息，可以通过对语音场景的介绍信息进行分析确定，例如对会议的简介进行文本分析，确定其中包含的与会人员的属性信息，即为该会议中的人员的属性信息。或者，该语音场景中的人员的属性信息，也可以是预先已经明确并存储的信息，当需要识别待识别语音时，直接读取生成待待识别语音的语音场景中的人员的属性信息即可。

作为一种可选的设置方式，上述的语音场景的属性信息，可以采用语音场景的属性标签的形式，上述的语音场景中的人员的属性信息，可以采用人员属性标签的形式。

S102、根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果。

具体的，当获取生成待识别语音的语音场景的属性信息，和/或确定生成待识别语音的语音场景中的人员的属性信息后，在对该待识别语音进行语音识别时，以该语音场景的属性信息和/或该语音场景中的人员的属性信息为参考，确定与该待识别语音对应的文本内容，得到该待识别语音的语音识别结果。

示例性的，由于语音场景的属性信息，或者是语音场景中的人员的属性信息，能够反映源自该语音场景的语音数据的内容的属性，或者是源自该语音场景的语音数据中的人员的属性。因此，当对源自该语音场景的待识别语音进行语音识别时，至少可以参考该语音场景的属性信息或者是该语音场景中的人员的属性信息，确定待识别语音中关于语音场景的属性的语音内容，或者是确定待识别语音中关于该语音场景中的人员的属性的语音内容。

例如，假设某会议为“华北地区防汛方案研讨会”，则可以确定该会议场景的领域属性为防汛领域，其区域属性为华北地区，其性质为研讨会性质。在对该会议场景中的某句语音进行识别时，假设识别出“河北地区”或“湖北地区”，则根据该会议场景的区域属性，能够确定识别出的“河北地区”或“湖北地区”可能是错误的识别结果，需要重新识别，或者需要结合其他信息重新确定识别结果，或者直接确定正确结果应当是“华北地区”。又比如，在对该会议场景中的某句语音进行识别时，如果从该语音中识别出“防震”，则根据该会议场景的领域属性，应当能够确定识别出的“防震”可能是错误的识别结果，此时需要重新识别，或者需要结合其他信息重新确定识别结果，或者直接确定正确识别结果应当是“防汛”。

又例如，假设确定了某一会议场景中的人员张XX和李XX的角色为主持人，同时，李XX的职位是院长。则对张XX的语音“很高兴今天能和李XX院长一起担任本次会议的主持人”进行语音识别时，假设识别结果是“很高兴今天能和李XX园长一起担任本次会议的支持人”，则根据预先确定的该会议场景的人员的属性信息可以确定，李XX的置位应当是院长，因此识别结果中的“李XX园长”所体现的李XX的职位属性是不正确的，此时需要重新识别，或者需要结合其他信息重新确定识别结果，或者直接将“李XX园长”纠正为“李XX院长”。

通过上述介绍可见，本申请实施例提出的语音识别方法，在对待识别语音进行语音识别时，先获取生成该待识别语音的语音场景的属性信息，和/或确定该语音场景中的人员的属性信息，在此基础上，根据该语音场景的属性信息，和/或该语音场景中的人员的属性信息，对该待识别语音进行语音识别，确定该待识别语音的语音识别结果。

作为可选的实施方式，本申请实施例在获取生成待识别语音的语音场景的属性信息时，可以先获取生成待识别语音的语音场景的场景图像，和/或获取生成待识别语音的语音场景中的语音数据；然后，通过对该场景图像进行图像识别，和/或对该语音数据进行语音识别，确定该场景图像的属性信息。

上述的生成待识别语音的语音场景的场景图像，具体是对生成待识别语音的语音场景的现场空间进行拍摄得到的图像。例如假设语音场景为会议场景，则对该会议场景的现场进行拍摄，比如对召开会议的会议室进行现场空间拍摄，即可得到该会议场景的场景图像。

上述的生成待识别语音的语音场景中的语音数据，可以是在该语音场景中由任意人员发言生成的语音数据，其可以是上述的待识别语音，也可以是除待识别语音之外的其他语音。

由此可见，语音场景的属性信息，可以从语音场景的场景图像中识别得到，或者从语音场景的语音数据中识别得到，或者从语音场景的场景图像和语音数据中综合得到。

下面分别对每种语音场景属性识别方案进行介绍。

首先对从场景图像中获取语音场景的属性信息的方案进行介绍。

示例性的，通过对上述场景图像进行图像识别确定语音场景的属性信息，具体可以是先识别该场景图像中的文本内容，然后根据从该场景图像中识别出的文本内容，确定该语音场景的区域、领域、人员信息等方面的属性信息中的至少一种。

具体的，以会议场景为例，在会议场景的场景图像中，会包含诸如会议标题、参会人员姓名、坐席人员称谓等文本内容，在这些文本内容中，包含了会议属性信息或人员属性信息，例如在会议标题中包含了会议的区域、领域等属性信息，而在通过参会人员姓名、坐席人员称谓等信息，也确定参会人员的姓名、性别、职位、称谓等属性信息。

因此，从场景图像中识别这些文本内容，然后根据识别的文本内容，可以确定该语音场景的区域、领域、人员信息等属性信息中的至少一种。

作为一种示例性的实现方式，本申请实施例预先训练场景属性识别模型，用于对场景图像进行识别，从而确定场景属性信息。在识别前，先对场景图像进行去噪、平滑、变换等操作，加强图像的细节信息，然后将场景图像输入预先训练的场景属性识别模型，得到模型输出的场景属性信息。

上述的场景属性识别模型基于InceptionResNet V2神经网络训练得到。在训练时，首先获取场景图像，剔除不合格的图像，保留呈像清晰的图像，并对图像进行标注；然后，将合格的场景图像输入神经网络模型，训练得到场景属性识别模型。其中，将训练数据集中的图像输入构成模块中，通过模块进行卷积计算，再进行Relu激活、特征拼接等一系列操作进一步提取特征，形成验证数据集，利用验证数据集和大量的历史合格图像验证识别模型。

进一步的，除了从场景图像中识别文本内容，然后根据识别的文本内容确定语音场景的区域、领域、人员信息等属性信息之外，本申请实施例还根据语音场景的场景图像，确定语音场景的场景类型。

具体的，语音场景的场景类型，是指该语音场景本身的类型，在本申请实施例中，以场景大类和场景子类，表示语音场景的场景类型。例如，场景大类为会议场景，场景子类为培训、讨论等。

语音场景的场景类型能够反映该语音场景中的语音的特点。比如，对于正式的政府会议而言，其语音内容是严谨、确凿的，而对于讨论会而言，其语音内容则可能是多人同时发言、或者带有方言的。而语音场景中的语音的特点，则直接影响对语音的识别效果。比如，对于正式的政府会议中的语音，由于其严谨、规范的特点，一般置信度的识别结果即可作为最终的识别结果输出，而对于讨论会中的语音，由于其可能存在多人同时发言或者可能带有方言，应当将较高置信度的识别结果作为最终的识别结果输出。

因此，确定语音场景的场景类型，对于确定正确的语音识别结果，具有一定的辅助作用。

本申请实施例通过对语音场景的场景图像进行识别，确定语音场景的场景类型。

作为一种可选的实现方式，本申请实施例预先训练语音场景识别模型，用于识别语音场景的场景类型。则，将语音场景的场景图像输入该语音场景识别模型，即可得到该模型输出的语音场景的场景类型识别结果。

示例性的，上述的语音场景识别模型，基于YOLO v3神经网络训练得到。在训练过程中，获取多幅语音场景图像，并对图像进行标注，确定每一语音场景图像的场景类型；然后根据标注后的语音场景图像训练得到语音场景识别模型。

在训练过程中，为了扩充语音场景识别模型的场景类型标签库，使语音场景识别模型能够识别更多的场景类型，本申请实施例将训练图像的标注场景类型信息根据预设的“图像场景要素+系统时间+场景编号”的规则生成场景标记后，插入到语音场景识别模型的数据库场景标记记录表中。获取语音场景识别模型输出的场景类型识别结果，将场景类型识别结果与场景标记记录表进行比对，若场景标记记录表中含有该场景类型识别结果，则继续后续的场景类型识别结果的比对，直至所述标记记录表中不含有模型输出的场景类型识别结果时，对场景标记记录表进行更新，即，将模型输出的、未包含在该场景标记记录表中的场景类型识别结果添加至该场景标记记录表中，通过上述操作，可以确保所有场景类型均包含在语音场景识别模型的场景标记记录表中。通过不断完善场景标记记录表，该语音场景识别模型可以实现对任意语音场景类型的识别。

下面对从语音场景的语音数据中获取语音场景的属性信息的方案进行介绍。

示例性的，上述的通过对生成待识别语音的语音场景中的语音数据进行语音识别，确定语音场景的属性信息，具体可以是先对该语音数据进行语音识别，得到与该语音数据对应的文本内容；然后对与该语音数据对应的文本内容进行分词以及对分词结果进行分析，确定语音场景的区域、领域、人员信息等方面的属性信息。

具体的，以会议场景为例，对于会议中的某个人的发言语音数据进行语音识别，得到与该语音数据对应的文本内容。

然后，利用LTP分词工具和TF-IDF算法，对该文本内容进行分词，利用开源的Ansj_seg工具，完成各个分词的属性标注。再通过HanLP工具完成文本内容分类、各种模式分词、行业名词标注转换，使用其行业名词标注的能力分析提取文本中各个行业名词作为补充，完成会议场景领域、区域等属性识别。与此同时，对于文本中与人员相关的信息，例如人员姓名、称谓、职位等属性信息，也可以一并识别。

在上述处理过程中，为了扩充分词模型或分词工具、算法的字典，使分词模型或分词工具、算法能够识别更多的分词，以及能够识别更多分词的属性，本申请实施例在应用分词模型或分词工具、算法对文本进行分词及属性标注的过程中，实时地对分词模型或分词工具、算法的字典进行扩充或更新。

示例性的，在每次对文本进行分词及分词属性标注时，采用新词发现算法，查找在字典中未包含的新词，然后将发现的新词添加到字典中，从而实现对字典的扩充。

具体而言，上述的新词发现算法主要基于互信息和左右熵算法实现，其算法逻辑主要分为三个步骤：首先，将语料文本转换成一个字符串，然后生成一个n_gram的词典，并统计各个词的词频。然后，利用点间互信息从之前的n_gram词典中筛选出备选的新词。最后，通过左右熵从备选新词中筛选出最终输出的新词。

上述的新词发现算法的具体内容，可以参见常规的新词发现算法的具体处理内容，本实施例不再详述。

基于上述的字典扩充处理，分词模型或分词工具、算法能够越用越好用，其对分词的识别、提取性能越来越强，从而能够提高分词效率，进而提高确定语音场景的属性的效率。

作为一种可选的实施方式，上述的确定生成待识别语音的语音场景中的人员的属性信息，可以是根据生成待识别语音的语音场景中的人员的发言内容和/或所述语音场景的介绍信息，确定所述语音场景中的人员的属性信息，所述人员的属性信息包括人员的角色、称谓、职位中的至少一种。

具体的，语音场景的介绍信息，是指对语音场景的基本信息介绍，比如对于会议场景来说，会议场景的介绍信息，具体是指对会议的会议主题、会议目的、参会人员等基本信息进行介绍的信息。可知，在语音场景的介绍信息中，可能包含人员在语音场景中的角色、人员的称谓、职位等属性信息。

同时，在语音场景中的人员的发言内容中，也会携带人员的属性信息。比如，假设某会议场景中，张三发言内容为“尊敬的各位领导、同事，大家上午好，很高兴今天能和李四院长一起担任本次会议的主持”，则根据张三的发言内容可以确定，张三和李四的角色都是主持人，同时可知李四的职位是院长。

由此可见，在语音场景中的人员的发言内容中，以及语音场景的介绍信息中，都可能包含该语音场景中的人员的属性信息。本申请实施例结合大数据技术，对生成待识别语音的语音场景中的人员的发言内容和/或该语音场景的介绍信息进行识别，从中提取与人员的属性信息有关的内容，从而确定该语音场景中的人员的角色、称谓、职位等属性信息中的一种或多种。

作为一种示例性的实施方式，本申请实施例按照如下方式记录人员的称谓和职位：

采用姓名/姓/名+性别，或者姓名/姓/名+职位的形式，记录人员称谓或职位。

例如，假设某人员姓名为ABC，则可以采用“ABC先生/女士”、“A先生/女士”、“BC先生/女士”、“ABC职位1”、“A职位1”、“BC职位1”来记录ABC的称谓和职位。

假设某人员姓名为AB，则可以采用“AB先生/女士”、“A先生/女士”、“AB职位1”、“A职位1”来记录AB的称谓和职位。

假设某人员姓名为ABCD(复姓)，则可以采用“ABCD先生/女士”、“AB先生/女士”、“CD先生/女士”、“ABCD职位1”“AB职位1”、“CD职位1”来记录ABCD的称谓和职位。

其中，上述的职位可以采用简称，比如“董事长”可以简称为“董”、“总经理”可以简称为“总”。

作为一种可选的实施方式，参见图2所示，在根据语音场景的属性信息和/或语音场景中的人员的属性信息，确定对待识别语音的语音识别结果时，可以通过执行如下步骤S202～S203实现：

S202、对所述待识别语音进行语音识别，得到语音识别结果。

S203、根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果。

具体的，本申请实施例先采用常规的语音识别技术，对待识别语音进行语音识别，得到语音识别结果。然后，再根据语音场景的属性信息和/或语音场景中的人员的属性信息，对语音识别结果中的不符合语音场景的属性信息和/或不符合语音场景中的人员的属性信息的内容进行校正，从而使得语音识别结果中的内容符合语音场景的属性信息和/或符合语音场景中的人员的属性信息，也就是使对待识别语音的语音识别结果与语音场景相匹配，提高语音识别结果的准确度。

示例性的，参见图3所示，上述的根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果，具体可以通过执行如下步骤S303～S305实现：

S303、至少根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，生成与所述语音场景对应的发言内容结构化模板。

具体的，从对上述的待识别语音进行语音识别得到的语音识别结果中提取得到关键词，然后对提取得到的关键词，以及语音场景的属性信息和/或语音场景中的人员的属性信息，进行结构化处理并进行组合，得到相关描述文本，并将其填充至结构化模板中，得到与该语音场景对应的发言内容结构化模板。

经过上述处理得到的发言内容结构化模板中，记录了符合上述语音场景的发言内容的结构化信息。该发言内容结构化模板，可以根据发言人员的角色、职位等，分别构建。

例如，对于会议场景的主持人，可以构建与主持人对应的发言内容结构化模板，在该结构化模板中，包含会议的区域、领域、参会人员等属性信息、以及参会人员的职位、性别、称谓等属性信息。则理论上，该主持人的发言内容，应该符合与其对应的发言内容结构化模板中所体现的会议属性和参会人员属性。

S304、从所述待识别语音的语音识别结果中识别不符合所述发言内容结构化模板的文本内容。

具体的，将待识别语音的语音识别结果与待识别语音的发言人对应的发言内容结构化模板进行比对匹配，从该语音识别结果中识别出与发言内容结构化模板中的语音场景属性信息和/或语音场景中的人员的属性信息不相符的内容，即为不符合发言内容结构化模板的文本内容。

S305、根据所述发言内容结构化模板，对不符合所述发言内容结构化模板的文本内容进行修正和/删除，得到所述待识别语音的校正后的语音识别结果。

具体的，对于待识别语音的语音识别结果中的不符合发言内容结构化模板的文本内容，如果该内容是与发言内容结构化模板中的内容不同的内容，则按照发言内容结构化模板对其进行修正，将其修正为与发言内容结构化模板中的内容相同的内容；如果该内容是发言内容结构化模板中所不存在的内容，则将该内容删除。

经过上述处理后，待识别语音的语音识别结果是与相应的发言内容结构化模板相符的，因此其与语音场景相符，即其准确度更高。

应当理解，上述实施例重点对图2和图3中所示的语音识别方法中的、与图1所示的语音识别方法所不同的处理步骤进行了具体介绍，对于其中与图1所示的语音识别方法相同的处理步骤，可以参见图1所示的方法实施例中的相应部分，此处不再重复。

综合上述各实施例的详细介绍，以会议场景为例，当对会议场景中的语音进行语音识别时，其完整处理过程可以参见图4所示。

在该语音识别方法中，通过对会议图像进行识别，确定会议场景类型标签、会议领域、区域等属性标签，同时，通过对会议语音数据进行语音识别，确定发言人角色标签、会议领域、区域等属性标签，以及确定与会人员称谓标签。然后，对得到的场景属性标签、人员属性标签进行结构化处理并进行组合，以及去除/修正语音识别结果中不符合场景属性标签和人员属性标签的转写内容，得到最终的转写内容。

与上述的语音识别方法相对应的，本申请实施例还提出一种语音识别装置，参见图5所示，该装置包括：

信息获取单元100，用于获取生成待识别语音的语音场景的属性信息，和/或，确定生成待识别语音的语音场景中的人员的属性信息；

识别处理单元110，用于根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果。

作为一种可选的实施方式，所述根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果，包括：

对所述待识别语音进行语音识别，得到语音识别结果；

作为一种可选的实施方式，所述获取生成待识别语音的语音场景的属性信息，包括：

作为一种可选的实施方式，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，包括：

识别所述场景图像中的文本内容；

作为一种可选的实施方式，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，还包括：

根据所述场景图像，识别所述语音场景的场景类型。

作为一种可选的实施方式，通过对所述语音数据进行语音识别，确定所述语音场景的属性信息，包括：

作为一种可选的实施方式，确定生成待识别语音的语音场景中的人员的属性信息，包括：

作为一种可选的实施方式，根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果，包括：

作为一种可选的实施方式，所述至少根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，生成与所述语音场景对应的发言内容结构化模板，包括：

从所述待识别语音的语音识别结果中提取得到关键词；

具体的，上述的语音识别装置的各个单元的具体工作内容，请参见上述的语音识别方法实施例中的相应处理内容，此次不再重复。

本申请另一实施例还提出一种语音识别设备，参见图6所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音识别方法。

具体的，上述语音识别设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的语音识别方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现本申请上述实施例所提供的语音识别方法的各个步骤。

具体的，上述的语音识别设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的语音识别方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，确定对所述待识别语音的语音识别结果，包括：

对所述待识别语音进行语音识别，得到语音识别结果；

3.根据权利要求1或2所述的方法，其特征在于，所述获取生成待识别语音的语音场景的属性信息，包括：

4.根据权利要求3所述的方法，其特征在于，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，包括：

识别所述场景图像中的文本内容；

5.根据权利要求4所述的方法，其特征在于，通过对所述场景图像进行图像识别，确定所述语音场景的属性信息，还包括：

根据所述场景图像，识别所述语音场景的场景类型。

6.根据权利要求3所述的方法，其特征在于，通过对所述语音数据进行语音识别，确定所述语音场景的属性信息，包括：

7.根据权利要求1或2所述的方法，其特征在于，确定生成待识别语音的语音场景中的人员的属性信息，包括：

8.根据权利要求2所述的方法，其特征在于，根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，对所述语音识别结果进行校正，得到所述待识别语音的校正后的语音识别结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述至少根据所述语音场景的属性信息和/或所述语音场景中的人员的属性信息，生成与所述语音场景对应的发言内容结构化模板，包括：

从所述待识别语音的语音识别结果中提取得到关键词；

10.一种语音识别装置，其特征在于，包括：

11.一种语音识别设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至9中任意一项所述的语音识别方法。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至9中任意一项所述的语音识别方法。