CN118116384A

CN118116384A - 一种语音识别的方法、设备以及存储介质

Info

Publication number: CN118116384A
Application number: CN202211530517.2A
Authority: CN
Inventors: 汤志远; 黄申; 商世东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2024-05-31

Abstract

本申请实施例公开了一种语音识别的方法、设备以及存储介质，至少涉及云技术、人工智能等技术。该方法能够准确识别出语音的识别结果，提高识别的准确性。上述方法包括：获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时发出的语音，共享内容包括共享文本和共享图片；对语音特征、文本特征、图片特征分别进行编码处理，得到待识别语音的语音编码特征、共享文本的文本编码特征、以及共享图片的图片编码特征；对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征；对目标特征进行语音识别处理，得到待识别语音的识别结果。

Description

一种语音识别的方法、设备以及存储介质

技术领域

本申请实施例涉及人工智能技术领域，具体涉及一种语音识别的方法、设备以及存储介质。

背景技术

基于语音识别(automatic speech recognition，ASR)的人机交互技术，是人工智能(artificial intelligence，AI)领域中非常重要的一项技术，被广泛地应用于各种语音识别设备中，如：手机、平板电脑等，以提高目标对象与语音识别设备之间的人机交互效率。在基于共享屏幕进行内容共享的会议场景下，常常需要会议讲演对象向参会对象展示与演说主体相关的材料，包括但不限于幻灯片等文档。

然而，对于在共享会议场景下进行语音识别的传统方案，往往是获取会议讲演对象的语音，进而利用语音识别系统对该语音进行识别，以此得到多组可能与该语音相匹配的备选文本。然后，再通过提取共享内容中的文本内容信息、以及图片中的文本描述信息，并利用该文本内容信息和文本描述信息对这匹配出的多组备选文本进行择优选取和纠正处理。换句话说，传统的方案中是加以文本内容信息和文本描述信息从多组备选文本中选取合适的识别结果，本质上是一种对识别结果进行纠错的方案，从而使得语音的识别结果无法贴近实际需求，导致识别结果的准确性较差。

发明内容

本申请实施例提供了一种语音识别的方法、设备以及存储介质，能够充分考虑了共享会议中的待识别语音、共享文本以及共享图片等多维模态信息，进而准确地识别出待识别语音的识别结果，使得识别结果能够精确地表达出该待识别语音所要表达的内容，提高识别的准确性。

第一方面，本申请实施例提供了一种语音识别的方法。该方法包括：获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时发出的语音，共享内容包括共享文本和共享图片；对待识别语音的语音特征进行编码处理，得到待识别语音的语音编码特征，以及对共享文本的文本特征进行编码处理，得到共享文本的文本编码特征，以及对共享图片的图片特征进行编码处理，得到共享图片的图片编码特征；对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征；对目标特征进行语音识别处理，得到待识别语音的识别结果，识别结果用于指示待识别语音对应的匹配文本。

第二方面，本申请实施例提供了一种语音识别设备。该语音识别设备包括获取单元和处理单元。其中，获取单元，用于获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时的语音，共享内容包括共享文本和共享图片。处理单元，用于：对待识别语音的语音特征进行编码处理，得到待识别语音的语音编码特征，以及对共享文本的文本特征进行编码处理，得到共享文本的文本编码特征，以及对共享图片的图片特征进行编码处理，得到共享图片的图片编码特征；对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征；对目标特征进行语音识别处理，得到待识别语音的识别结果，识别结果用于指示待识别语音对应的匹配文本。

在一些可选的实施方式中，处理单元用于：对语音编码特征进行注意力处理，以得到待识别语音的第一注意力特征；对语音编码特征和文本编码特征进行注意力处理，得到待识别语音的第二注意力特征；对语音编码特征和图片编码特征进行注意力处理，得到待识别语音的第三注意力特征；将第一注意力特征、第二注意力特征以及第三注意力特征进行融合处理，得到目标特征。

在另一些可选的实施方式中，处理单元用于：通过编码器中的第i层编码层，对第i-1层编码层输出的语音编码特征进行自注意力处理，得到第i层编码层的语音编码特征，其中，1＜i≤L，L为自然数，L为编码器的编码层的总层数；通过编码器中的第i层编码层，对第i层编码层的语音编码特征以及第i-1层编码层输出的文本编码特征进行自注意力处理，得到第i层编码层的融合特征向量；通过编码器中的第i层编码层，将第i层编码层的融合特征向量与第i层编码层的语音编码特征进行自注意力处理，得到待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元用于：基于第i层编码层输出的融合特征向量与预设第一权重矩阵，确定注意力机制中的查询矩阵；基于第i层编码层输出的语音编码特征与预设第二权重矩阵，确定第二注意力模型中的键矩阵，以及基于第i层编码层输出的语音编码特征与预设第三权重矩阵，确定注意力机制中的转置矩阵；基于查询矩阵、键矩阵以及转置矩阵，确定待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元用于：基于查询矩阵和键矩阵，计算第i层编码层输出的融合特征向量与每个第i层编码层输出的语音编码特征之间的相似度；基于每个相似度与转置矩阵进行加权求和处理，以确定待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元用于：将目标特征输入至语音识别模型，得到待识别语音中每个词的预测分类概率；基于每个词的预测分类概率确定待识别语音的识别结果。

在另一些可选的实施方式中，获取单元用于：获取待识别语音。处理单元用于：将待识别语音输入语音特征提取模型，得到待识别语音的语音特征，其中，语音特征提取模型是以语音样本为训练数据进行训练处理后得到的机器学习模型。

在另一些可选的实施方式中，获取单元用于：获取屏幕共享图片，屏幕共享图片用于反映共享内容。处理单元用于：对屏幕共享图片进行图片分割处理，得到第一图片和第二图片，第一图片用于反映述共享文本，第二图片为共享图片；将第一图片输入至文本特征提取模型，得到共享文本的文本特征；将第二图片输入至图片特征提取模型，得到共享图片的图片特征。

本申请实施例第三方面提供了一种语音识别设备，包括：存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的语音识别的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，由于待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时的语音，共享内容包括共享文本和共享图片，那么在获取到识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征之后，能够对待识别语音的语音特征进行编码处理，得到待识别语音的语音编码特征，以及对共享文本的文本特征进行编码处理，得到共享文本的文本编码特征，以及对共享图片的图片特征进行编码处理，得到共享图片的图片编码特征。这样，再对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征，进而再对目标特征进行语音识别处理，从而得到待识别语音的识别结果，识别结果用于指示待识别语音对应的匹配文本。通过上述方式，不仅充分考虑了共享会议中的待识别语音、共享文本以及共享图片等多维模态信息，而且能够对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，使得后续的语音识别模型能够关注到关键的语音、共享文本以及共享图片，从而摒弃掉无用的信息，使得后续对目标特征进行语音识别处理，能够准确地识别出该待识别语音的识别结果，使得该识别结果能够精确地表达出该待识别语音所要表达的内容，提高识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A示出了本申请实施例提供的语音识别的方法的应用场景示意图；

图1B示出了本申请实施例提供的共享内容的场景示意图；

图2示出了本申请实施例提供的一个系统架构示意图；

图3示出了本申请实施例提供的一种语音识别的识别流程框架示意图；

图4示出了本申请实施例提供的语音识别的方法的一种流程图；

图5示出了本申请实施例提供的对特征进行注意力处理的流程示意图；

图6示出了本申请实施例提供的特征融合模型的结构示意图；

图7示出了本申请实施例提供的语音识别设备的结构示意图；

图8示出了本申请实施例提供的语音识别设备的硬件结构示意图。

具体实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、用户的个人数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的语音识别的方法是基于人工智能(artificialintelligence，AI)实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

基于语音识别的人机交互技术，是人工智能领域中非常重要的一项技术，被广泛地应用于各种语音识别设备中，能够提高目标对象与语音识别设备之间的人机交互效率。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的语音技术、机器学习等方向。例如，可以涉及语音技术(speech technology)中的语音识别等；也可以涉及机器学习(machine learning，ML)中的深度学习(deep learning)，包括自动编码器、嵌入等。其中，语音技术的关键技术有自动语音识别技术和语音合成技术(text to speech，TTS)以及声纹识别技术，能够让计算机能听、能看、能说、能感觉，是未来人机交互的方向，其中语音成为未来最被看好的人机交互方式之一。

本申请提供的语音识别的方法可以应用于具有数据处理能力的语音识别设备，如终端设备、服务器、问答机器人等。其中，终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器等，本申请不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本申请不做具体限定。

上述所提及的语音识别设备可以具备实施上述提及的自动语音识别技术的能力。所提及的自动语音识别技术也可以称为语音识别、计算机语音识别(computer speechrecognition，CSR)或者语音转文本识别(speech to text，STT),能够使用计算机自动将人类的语音内容转换对应的文字信息。在本申请实施例中，语音识别设备可以通过该自动语音识别技术对待识别语音、共享会议中的共享文本和共享图片等内容进行语音识别处理，进而得到该待识别语音对应的文本识别结果。

另外，该语音识别设备还可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。

另外，该语音识别设备还可以具备实施计算机视觉技术(computer vision,CV)的能力。其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、轨迹追索和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中，语音识别设备可以通过计算机视觉技术对共享会议中的共享图片进行提取等处理。

另外，该语音识别设备还可以具备实施云技术(cloud technology)的能力。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为基础设施即服务(Infrastructure as a Service，IaaS)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS层上可以部署平台即服务(Platform as a Service，PaaS)层，PaaS层之上再部署软件即服务(Software as a Service，SaaS)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。目前国内云会议主要集中在以SaaS模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

在本申请实施例提供的语音识别的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待识别语音所对应的文本识别结果进行识别处理。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的语音识别的方法进行介绍。图1A示出了本申请实施例提供的语音识别的方法的应用场景示意图。

如图1A所示，会议终端1、会议终端2以及会议终端3加入到同一个共享会议中，由会议讲演对象在电子白板前演讲，并在电子白板上写板书或者在电子白板上投放演讲稿等，此时可以使用外置的摄像头对电子白板上的共享内容以及会议讲演对象进行拍摄，而会议终端1可以将电子白板上的共享内容、以及会议讲演对象对该共享内容进行讲解时发出的语音等信息发送至会议云服务器中。此时，会议云服务器能够将共享内容和语音等信息转发给会议终端2和会议终端3。而在会议终端2、会议终端3中，则会分别在该会议终端2、会议终端3中的显示屏幕中显示出共享内容，以及播放出该会议讲演对象的语音。对于会议参与者来说，则可以通过会议终端2、会议终端3查看到对应的共享内容以及接听到对应的语音。

针对图1A示出的共享内容，示例性地可以参照图1B示出的示意图进行理解。如图1B所示，会议讲演对象在分享“2022年终报告总结”文档的时候，会通过语音向会议参与者阐述该“报告总结”的整体情况，比如说出的语音可以为“1月至10月累计完成xx万产量”，也可以为“1月至10月的完成率为53％，其中1月目标计划为x0万产量，但实际完成为x1万产量，1月的完成率为78％”等，本申请实施例中不做限定。

另外，图1A中示出的共享内容可以包括共享文本和共享图片。例如，共享图片可以为图1B中示出的1月至10月的完成情况的直方图，也可以为1月至10月中每个月的目标计划、实际完成情况所对应的Excel表格等，本申请实施例中不做限定。所描述的共享文本，可以为图1B中的“1月至10月累计完成xx万产量，较理论进度有一定差异”，也可以为“第一季度完成情况良好，第二季度因疫情居家办公，整体进度较缓慢，第三季度有缓慢回升，但市场行情较弱，行业寒冬开始降临”等，也可以为上述提及的共享图片中的文字描述，如Excel表格中的1月完成率、2月完成率等内容，本申请实施例中不做限定。需说明，上述图1B示出的共享内容仅仅是一个示意性的描述，在实际应用中，还可以是其他的实例，本申请实施例中不做限定。

从会议终端2和会议终端3的角度来说，该共享内容会以图片的形式显示在会议终端2和会议终端3中，使得会议参与者通过会议终端2或者会议终端3，能够查看到以图片形式存在的共享内容，即以图片形式存在的共享文本和共享图片。所提及的会议参与者，在本申请实施例中是指共同参与到共享会议中的、除了会议讲演对象以外的其他参与者。

另外，所提及的会议终端1、会议终端2以及会议终端3可以理解成前述提及的终端设备，例如包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。而且，上述图1A中仅仅是以会议终端1、会议终端2以及会议终端3之间的信息交互描述出本申请所应用的场景，具体实际应用中还可以包括但不限于终端设备4、终端设备5等，具体在本申请实施例中不限定加入会议的会议终端的数目。所应用的场景除了上述图1A中提及的共享会议以外，也可以包括但不限于其他涉及语音、文本以及图片在内的应用场景，本申请实施例中不做限定说明。

因此，在图1A的基础上，请参阅图2，为本申请实施例提供的一个系统架构示意图。从图2可以看出，该系统包括至少一个第一终端设备、第二终端设备以及服务器。

其中，前述的至少一个第一终端设备可以包括第一终端设备1、...、第一终端设备N(N≥1)等等，具体在本申请实施例中将不做限定说明。由第二终端设备接收摄像设备等发送的待识别语音，以及接收电子白板发送的包括共享文本和共享图片在内的共享内容，这样第二终端设备便可以将待识别语音和共享内容发送至服务器。服务器则可以把待识别语音和共享内容转发给加入共享会议的至少一个第一终端设备上，此时每个第一终端设备都可以以待识别语音和共享内容为处理对象，以识别出该待识别语音的识别结果，该识别结果能够精确地表达出该待识别语音所要表达的内容，提高识别的准确性。

需要说明的是，上述图2中的至少一个第一终端设备可以是图1A中的会议终端2、会议终端3等等，或者还可以是直播场景中的直播终端等等，第二终端设备可以是图1A中的会议终端1等等，具体在本申请实施例中不做限定说明。另外，上述图1A中提及的服务器可以是部署在公有云上的云服务器，能够提供视频会议或直播的能力；该服务器也可以是部署在企业网络内部的会议服务器，能够提供视频会议或直播的能力，具体在本申请实施例中不限定服务器的类型。每一个终端设备均可以与服务器进行通信，以实现加入同一共享会议。

另外，上述所描述的至少一个第一终端设备可以为设置在会议室的固定终端(例如图2中的第一终端设备1)，第一终端设备也可以为移动终端(例如图2中的第一终端设备N)，移动终端可以为手机、平板电脑等设备。同理，第二会议终端也可以为设置在会议室的固定终端或者移动终端等终端设备，具体在本申请实施例中不做限定。可选的，共享会议中的部分或者所有终端设备对应有录音设备或者包含有录音功能的摄像设备等。上述的至少一个第一终端设备、第二终端设备与摄像设备可以为相互独立的设备，也可以与录音设备也可以为一体设置，具体在本申请实施例中将不做限定说明。

本实施例中的语音识别的方法除了可以适用于上述图2所示的系统架构，还可以适用于其他系统架构，具体此处不作限定。

图3示出了本申请实施例提供的一种语音识别的识别流程框架示意图。

如图3所示，在获取到待识别语音后，可以通过语音特征提取模型将待识别语音提取出对应的语音特征后，将该语音特征作为语音编码器的输入，以此确定出相应的语音编码特征。同样地，在获取到屏幕共享图片后，可以通过图片分割模块对该屏幕共享图片进行类型分割处理，以得到第一图片和第二图片。然后，再提取出第一图片中的共享文本，并基于文本特征提取模型提取出共享文本对应的文本特征；以及提取出第二图片中的共享图片，并基于图片特征提取模型提取出共享图片对应的图片特征。这样，再将文本特征作为文本编码器的输入，以此确定出对应的文本编码特征。以及将图片特征作为图片编码器的输入，以此确定出对应的图片编码特征。进一步地，将语音编码特征、文本编码特征以及图片编码特征作为特征融合模型的输入，以此通过特征融合模型对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征。最后，再将该目标特征作为语音识别模型的输入，便可通过该语音识别模型对目标特征进行识别处理，进而得到该待识别语音对应的识别结果。

需说明，第一图片可以反映出共享文本，即该第一图片可以理解成通过图片的形式存在时的共享文本。即该共享文本包括会议讲演对象输入的文本内容信息，也可以包括共享图片中的文字描述信息等，具体可以参照前述图1B中示出的内容进行理解，此处不做赘述。第二图片则为共享图片，具体可以参照前述图1B中示出的共享内容进行理解，此处不做赘述。另外，所提及的特征融合模型可以参照后续图6中示出的内容进行理解，此处先不做赘述。

为了便于理解本申请的技术方案，后续实施例中仅以上述提及的第一终端设备为执行主体来执行本申请提供的语音识别的方法。下面结合附图对本申请实施例提供的一种语音识别的方法进行介绍。

图4示出了本申请实施例提供的语音识别的方法的一种流程图。如图4所示，该语音识别的方法可以包括如下步骤：

401、获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时发出的语音，共享内容包括共享文本和共享图片。

该示例中，待识别语音可以理解成需要识别出相应文本的语音数据，或者也可以理解成一段音频中，当前需要识别出相应文本的语音句子。在共享会议的场景中，待识别语音为该共享会议中的会议讲演对象对共享内容进行讲解时发出的语音，例如包括上述提及的语音数据或语音句子等。这样，在获取到待识别语音后，可以对该待识别语音进行特征提取处理，以得到该待识别语音的语音特征。举例来说，待识别语音可以为前述图1B中示出的“1月至10月累计完成xx万产量”等。

示例性地，待识别语音的语音特征可以通过如下方式来获取，即：获取待识别语音；将待识别语音输入语音特征提取模型，得到待识别语音的语音特征，其中，语音特征提取模型是以语音样本为训练数据进行训练处理后得到的机器学习模型。例如，可以基于语音特征提取模型对“1月至10月累计完成xx万产量”这一待识别语音进行语音特征提取处理，以此得到对应的语音特征。

该示例中，在共享会议中，可以由会议讲演对象对应的终端设备(如图2中的第二终端设备)通过内置的麦克风、声卡等录音设备获取到该会议讲演对象发出的语音，即待识别语音，进而由第二终端将该待识别语音发送至服务器。这样，由服务器将该待识别语音发送至其他会议参与者对应的终端设备中(如图2中示出的第一终端设备)。这样，每个第一终端设备便可以获取得到待识别语音。需说明，此处针对待识别语音的获取方式仅仅举例说明，在实际应用中还可以是其他的获取方式，本申请不做具体限定。

另外，由于语音特征提取模型是已经预先训练好的特征提取模型，并且该语音特征提取模型是以提取语音特征为训练目标，以语音样本为训练数据进行训练处理后得到的机器学习模型。那么，在获取得到待识别语音后，可以通过该语音特征提取模型对待识别语音进行特征提取处理，便可以得到相应的待识别语音的语音特征。需说明，所描述的待识别语音的语音特征可以包括但不限于梅尔倒谱系数(mel frequency cepstrumcoefficient，MFCC)特征、Fbank特征、wave特征、伽马(Gamma)特征、韵律(Proso)特征等，本申请不做具体限定。

另外，共享内容可以包括共享文本和共享图片。第二终端设备可以通过接收电子白板发送的共享内容，进而以图片的形式将该共享内容发送至服务器。服务器在接收到该共享内容后，则将该共享内容也以图片的形式发送至第一终端设备中。这样，第一终端设备便可以接收到屏幕共享图片，通过该屏幕共享图片能够反映出该共享内容。进一步地，第一终端设备可以对该屏幕共享图片进行图片分割处理，以此得到第一图片和第二图片。其中，第一图片可以反映出共享文本，即该第一图片可以理解成通过图片的形式存在时的共享文本。需说明，该共享文本包括会议讲演对象输入的文本内容信息，也可以包括共享图片中的文字描述信息等。第二图片则为共享图片，例如幻灯片中的插图等。举例来说，共享图片可以为图1B中示出的1月至10月的完成情况的直线图，共享文本可以为图1B中的“1月至10月累计完成xx万产量，较理论进度有一定差异”，本申请实施例中不做限定说明。

这样，在分类得到第一图片之后，可以将第一图片输入至文本特征提取模型中，从而通过该文本特征提取模型对该第一图片中的文本、字符等内容进行文本特征提取，进而得到该共享文本的文本特征。需说明，该文本特征提取模型是以图片形式存在的文本样本为训练数据进行迭代训练得到的机器学习模型。例如，可以基于文本特征提取模型对“1月至10月累计完成xx万产量，较理论进度有一定差异”这一共享文本进行文本特征提取处理，以此得到对应的文本特征。

同样地，在分类得到第二图片之后，也可以将第二图片输入至图片特征提取模型中，以通过该图片特征提取模型对第二图片进行图片特征提取处理，进而得到该共享图片的图片特征。需说明，该图片特征提取模型是以图片样本为训练数据进行迭代训练得到的机器学习模型。举例来说，可以基于图片特征提取模型对“1月至10月的完成情况的直线图”这一图片进行图片特征提取处理，以此得到对应的图片特征。

402、对待识别语音的语音特征进行编码处理，得到待识别语音的语音编码特征，以及对共享文本的文本特征进行编码处理，得到共享文本的文本编码特征，以及对共享图片的图片特征进行编码处理，得到共享图片的图片编码特征。

该示例中，在获取得到待识别语音的语音特征之后，还可以对待识别语音的语音特征进行编码处理。示例性地，可以通过语音编码器对待识别语音的语音特征进行编码处理，提取得到该待识别语音的编码特征。所描述的待识别语音的编码特征有时候也可以称为高维特征，具体不做限定说明。

所描述的语音编码器可以由卷积(convolutional，CONV)模块、多头自注意力机制(Muti-head self attention，MHSA)模块以及前馈神经网络(feedforward neuralnetwork，FFN)模块构成。具体地，在获取到待识别语音的语音特征后，可以将该待识别语音的语音特征输入到MHSA模块中，输出得到特征B，即B＝MHSA(A)+A，其中，A为待识别语音的语音特征。然后，再将特征B作为CONV模块的输入，进而输出得到特征C，即C＝CONV(B)。最后，将特征C作为FFN模块的输入，以获取得到该待识别语音的语音编码特征S，即S＝FFN(C)+C。需说明，所描述的语音编码器可以包括但不限于Wav2vec模型等。

同样地，在获取得到共享文本的文本特征之后，也可以通过文本编码器对共享文本的文本特征进行编码处理，进而得到该共享文本的文本编码特征。需说明，所描述的文本编码器可以包括但不限于文字字符识别(optical charcater recognition，OCR)模型等，本申请实施例中不做限定说明。另外，在获取得到共享图片的图片特征之后，也可以通过图片编码器对共享图片的图片特征进行编码处理，进而得到该共享图片的图片编码特征。需说明，所描述的图片编码器可以包括但不限于图片描述(image captioning)模型等，本申请实施例中不做具体限定。

403、对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征。

该示例中，在编码得到语音编码特征、文本编码特征以及图片编码特征之后，可以将这语音编码特征、文本编码特征以及图片编码特征进行注意力处理，以此得到目标特征。示例性地，针对步骤403中对该语音编码特征、文本编码特征以及图片编码特征进行注意力处理，其处理过程可以参照下述图4中示出的流程图进行理解。如图5所示，该处理流程至少包括如下步骤：

S501、对语音编码特征进行注意力处理，以得到待识别语音的第一注意力特征。

该示例中，在通过对待识别语音的语音特征进行编码处理，得到相应的语音编码特征后，第一终端设备可以通过多头注意力(multi-head attention)机制对该语音编码特征进行注意力处理，进而得到待识别语音的第一注意力特征。示例性地，终端设备可以将该语音编码特征分别与权重矩阵W_q、W_k、W_v进行加权处理，进而得到相应的语音查询矩阵、语音键矩阵以及语音转置矩阵。这样，第一终端设备再基于该多头注意力机制对该语音查询矩阵、语音键矩阵以及语音转置矩阵进行注意力处理，便可以得到该待识别语音的第一注意力特征。所描述的注意力机制可以参照下述公式进行理解，即：

S1＝Multihead(W_qS,W_kS,W_vS)

其中，W_q、W_k、W_v分别为权重矩阵，S为语音编码特征，W_qS为语音查询矩阵，W_kS为语音键矩阵，W_vS为语音转置矩阵，S1为第一注意力特征。另外，Multihead()可以理解成多头注意力机制，通过该Multihead()模型，能够捕捉到更加丰富的特征信息。

需说明，W_q、W_k、W_v为各自三个训练后的神经网络的权重矩阵，是通过对神经网络进行训练确定得到的矩阵。

S502、对语音编码特征和文本编码特征进行注意力处理，得到待识别语音的第二注意力特征。

该示例中，第一终端设备在经过步骤402提取出语音编码特征和文本编码特征之后，可以将语音编码特征和文本编码特征作为多头注意力机制的输入，以通过该多头注意力机制对该语音编码特征和文本编码特征进行注意力处理，进而获取得到待识别语音的第二注意力特征S2，即S2＝FFN(Multihead([S；X],S,S))，其中，S为语音编码特征，X为文本编码特征。通过该第二注意力特征S2，能够表达出更多有效的语音信息和文本信息。其中，FFN()理解成前馈神经网络。在本申请中，通过该FFN()网络，能够使得语音编码特征和文本编码特征之间进行特征交互，以此确定出相应的第二注意力特征。

在一些示例中，第一终端设备通过多头注意力机制对语音编码特征和文本编码特征进行注意力处理，得到第二注意力特征，可以参照如下方式来进行理解，即：先通过编码器中的第i层编码层，对第i-1层编码层输出的语音编码特征进行自注意力处理，得到第i层编码层的语音编码特征。其中，1＜i≤L，L为自然数，L为编码器的编码层的总层数，然后再通过编码器中的第i层编码层，对第i层编码层的语音编码特征以及第i-1层编码层输出的文本编码特征进行自注意力处理，得到第i层编码层的融合特征向量。最后，通过编码器中的第i层编码层，将第i层编码层的融合特征向量与第i层编码层的语音编码特征进行自注意力处理，得到待识别语音的第二注意力特征。通过上述方式，通过编码器中的L层编码层的交互迭代，完成对语音编码特征和文本编码特征之间的多头注意处理操作，能够充分地实现将共享文本中的关键信息提取出来，为后续模型提供更加丰富的有效的文本信息，从而摒弃掉无用的文本信息。

在另一些示例中，第一终端设备可以基于第i层编码层输出的融合特征向量与预设第一权重矩阵，确定出注意力机制中的查询矩阵。以及，第一终端设备基于第i层编码层输出的语音编码特征与第二权重矩阵确定出注意力机制中的键矩阵，以及基于第i层编码层输出的语音编码特征与预设第三权重矩阵确定出注意力机制中的转置矩阵。这样，第一终端设备再基于查询矩阵、键矩阵以及该转置矩阵计算出待识别语音的第二注意力特征。示例性地，第一终端设备基于查询矩阵、键矩阵以及转置矩阵确定待识别语音的第二注意力特征，可以参照如下方式来实现，即：基于查询矩阵和键矩阵，计算第i层编码层输出的融合特征向量与每个第i层编码层输出的语音编码特征之间的相似度。然后，第一终端设备基于每个相似度与转置矩阵进行加权求和处理，以计算出该第二注意力特征。

举例来说，若此时所提取到的语音编码特征表示为S、文本编码特征表示为X，那么在获取得到语音编码特征S、文本编码特征X之后，可以将语音编码特征S和文本编码特征X进行自注意力处理，得到融合特征向量Z。然后，将融合特征向量Z与预设第一权重矩阵W^Q进行矩阵乘法计算，得到相应的查询矩阵Q。同样地，将语音编码特征S和预设第二权重矩阵W^K作矩阵乘法，计算出相应的键矩阵K，以及将语音编码特征S和预设第三权重矩阵W^V作矩阵乘法，计算出相应的转置矩阵V。这样，再进一步根据查询矩阵Q和键矩阵K计算出融合特征向量与每个语音编码特征之间的相似度，譬如可以将查询矩阵Q与键矩阵K的转置矩阵作乘积处理，以此计算出该相似度，即：其中，/>表示融合特征向量Z中的第n个融合特征向量z_n与语音编码特征S中的第m个语音编码特征/>之间的相似度，z_nW^Q表示查询矩阵Q，/>表示键矩阵K，d为可调整的参数。这样，通过将每个相似度/>与转置矩阵V进行加权求和处理，便可以得到该第二注意力特征，即/>其中，S2_n表示第n个第二注意力特征，/>表示转置矩阵V。这样，进一步对n个融合特征向量中的每个融合向量分别与每个语音编码特征，经过上述提及的注意力机制进行处理，便可以得到最终的第二注意力特征S2，即：S2＝FFN(Multihead([S；X],S,S))

需说明，所描述的第n个第二注意力特征S2_n属于最终的第二注意力特征S2中的一个特征向量。另外，所提及的矩阵W^Q、W^K、W^V为各自三个训练后的神经网络的权重矩阵，是通过对神经网络进行训练确定得到的矩阵。

S503、对语音编码特征和图片编码特征进行注意力处理，得到待识别语音的第三注意力特征。

该示例中，第一终端设备在经过步骤402提取出语音编码特征和图片编码特征之后，可以将语音编码特征和图片编码特征作为注意力机制的输入，以通过该自注意力机制对该语音编码特征和图片编码特征进行注意力处理，进而获取得到待识别语音的第三注意力特征S3，即S3＝FFN(Multihead([S；P],S,S))，其中，S为语音编码特征，P为图片编码特征。通过该第三注意力特征S3，能够表达出更多有效的语音信息和图片信息。

需说明，此处对语音编码特征和图片编码特征进行注意力处理的过程，详情与前述步骤S502中语音编码特征和文本编码特征进行注意力处理的过程类似，具体可以参照前述步骤S502中示出的内容进行理解，此处不做赘述。

另外，对于上述步骤S501至步骤S503的先后执行顺序，在本申请实施例中不做限定说明。例如，在实际应用中，也可以先执行步骤S501，再执行步骤S503，最后执行步骤S502等，也可以同步执行步骤S501至步骤S503等。

S504、将第一注意力特征、第二注意力特征以及第三注意力特征进行融合处理，得到目标特征。

该示例中，在计算得到第一注意力特征、第二注意力特征以及第三注意力特征之后，第一终端设备可以将第一注意力特征、第二注意力特征以及第三注意力特征进行融合处理。例如，第一终端设备可以将第一注意力特征、第二注意力特征以及第三注意力特征进行特征拼接或者特征叠加等处理，即可得到目标特征。

示例性地，针对图4中步骤403示出的内容，具体也可以通过图6示出的特征融合模型来实现。如图6所示，该特征融合模型可以包括第一注意力模块、第二注意力模块、第三注意力模块、融合模块，以及还包括与第一注意力模块连接的第一FFN模块、与第二注意力模块连接的第二FFN模块、与第三注意力模块连接的第三FFN模块。

其中，第一终端设备在确定出语音编码特征S之后，可以通过该特征融合模型中的第一注意力模块对该语音编码特征S进行注意力处理，得到特征S’后，再将该特征S’作为第一FFN模块的输入，以获取得到该待识别语音的第一注意力特征S1。具体参照前述图5中的步骤501示出的内容进行理解，此处不做赘述。

同样地，第一终端设备在确定出语音编码特征S和文本编码特征T之后，可以通过该特征融合模型中的第二注意力模块对该语音编码特征S、文本编码特征T进行注意力处理，得到特征L’后，再将该特征L’作为第二FFN模块的输入，以获取得到该待识别语音的第二注意力特征S2。具体参照前述图5中的步骤502示出的内容进行理解，此处不做赘述。

以及，第一终端设备在确定出语音编码特征S和图片编码特征P之后，可以通过该特征融合模型中的第三注意力模块对该语音编码特征S、图片编码特征P进行注意力处理，得到特征T’后，再将该特征T’作为第三FFN模块的输入，以获取得到该待识别语音的第三注意力特征S3。具体参照前述图5中的步骤503示出的内容进行理解，此处不做赘述。

这样，再将第一注意力特征S1、第二注意力特征S2以及第三注意力特征S3作为融合模块的输入，以此获取得到该目标特征。具体参照前述图5中的步骤504示出的内容进行理解，此处不做赘述。

404、对目标特征进行语音识别处理，得到待识别语音的识别结果，识别结果用于指示待识别语音对应的匹配文本。

该示例中，所描述的语音识别模型是以识别待识别语音的文本识别结果为训练目标，以语音样本的语音编码特征、共享文本样本的文本编码特征以及共享图片样本的图片编码特征所融合得到的目标特征为训练数据进行训练后得到的机器学习模型。需说明，此处所描述的语音样本的语音编码特征、共享文本样本的文本编码特征以及共享图片样本的图片编码特征，具体可以参照前述步骤402中的内容进行理解，此处不做赘述。

这样，在获取得到目标特征之后，便可以将目标特征作为该语音识别模型的输入，从而通过该语音识别模型中的解码模型进行解码处理，以获取得到该待识别语音的识别结果。

示例性地，在一些可选的示例中，基于语音识别模型对目标进行识别处理，得到待识别语音的识别结果，可以通过如下方式来实现，即：将目标特征输入至语音识别模型，得到待识别语音中每个词的预测分类概率；基于每个词的预测分类概率确定待识别语音的识别结果。

该示例中，由于待识别语音可以是一段音频中的一个语音句子，那么在将目标特征输入至语音识别模型，可以得到待识别语音中每个词的预测分类概率。然后，从这所有的词的预测分类概率中确定出待识别语音的识别结果。譬如说，可以从所有的词的预测分类概率中确定出最大的预测分类概率，进而将最大的预测分类概率对应的词作为该识别结果。

本申请实施例中，由于待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时的语音，所述共享内容包括所述共享文本和所述共享图片，那么在获取到识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征之后，能够对所述待识别语音的语音特征进行编码处理，得到所述待识别语音的语音编码特征，以及对所述共享文本的文本

特征进行编码处理，得到所述共享文本的文本编码特征，以及对所述共享图片的图片特征进行编码处理，得到所述共享图片的图片编码特征。这样，再对所述语音编码特征、所述文本编码特征以及所述图片编码特征进行注意力处理，得到目标特征，进而再对目标特征进行语音识别处理，从而得到所述待识别语音的识别结果，所述识别结果用于指示所述待识别语音对应的匹配文本。举例来说，以前述图1B示出的共享内容为例，若所获取到的待识别语音为“1月至10月累计完成xx万产量”以及“1月至10月的完成率为53％，其中1月目标计划为x0万产量，但实际完成为x1万产量，1月的完成率为78％”，此时经过本申请实施例提供的语音识别的方法对该待识别语音和共享内容进行处理后，最终所得到的识别结果可以为“1月至10月累计完成xx万产量，完成率为53％，其中1月目标计划为x0万产量，但实际完成为x1万产量，1月的完成率为78％”。

相较于现有方案中使用文本内容信息从多组识别得到的备选文本中选取合适的识别结果，本申请中在语音识别的过程中，充分考虑了共享会议中的待识别语音、共享文本以及共享图片等多维模态信息对该待识别语音的识别结果的影响，而且能够对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，使得后续的语音识别模型能够关注到关键的语音、共享文本以及共享图片，从而摒弃掉无用的信息，使得后续语音识别模型对目标特征进行识别处理，能够准确地识别出该待识别语音的识别结果，从而无需再使用如同现有方案中的文本内容等再对该识别结果进行纠错处理，使得该识别结果能够精确地表达出该待识别语音所要表达的内容，提高识别准确率。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的语音识别设备进行详细描述，图7为本申请实施例中提供的语音识别设备的一个实施例示意图。示例性地，该语音识别设备可以为前述图2中示出的第一终端设备等。如图7所示，该语音识别设备可以包括获取单元701和处理单元702。

其中，获取单元701，用于获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时的语音，共享内容包括共享文本和共享图片。处理单元702，用于：对待识别语音的语音特征进行编码处理，得到待识别语音的语音编码特征，以及对共享文本的文本特征进行编码处理，得到共享文本的文本编码特征，以及对共享图片的图片特征进行编码处理，得到共享图片的图片编码特征；对语音编码特征、文本编码特征以及图片编码特征进行注意力处理，得到目标特征；对目标特征进行语音识别处理，得到待识别语音的识别结果，识别结果用于指示待识别语音对应的匹配文本。

在一些可选的实施方式中，处理单元702用于：对语音编码特征进行注意力处理，以得到待识别语音的第一注意力特征；对语音编码特征和文本编码特征进行注意力处理，得到待识别语音的第二注意力特征；对语音编码特征和图片编码特征进行注意力处理，得到待识别语音的第三注意力特征；将第一注意力特征、第二注意力特征以及第三注意力特征进行融合处理，得到目标特征。

在另一些可选的实施方式中，处理单元702用于：通过编码器中的第i层编码层，对第i-1层编码层输出的语音编码特征进行自注意力处理，得到第i层编码层的语音编码特征，其中，1＜i≤L，L为自然数，L为编码器的编码层的总层数；通过编码器中的第i层编码层，对第i层编码层的语音编码特征以及第i-1层编码层输出的文本编码特征进行自注意力处理，得到第i层编码层的融合特征向量；通过编码器中的第i层编码层，将第i层编码层的融合特征向量与第i层编码层的语音编码特征进行自注意力处理，得到待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元702用于：基于第i层编码层输出的融合特征向量与预设第一权重矩阵，确定注意力机制中的查询矩阵；基于第i层编码层输出的语音编码特征与预设第二权重矩阵，确定第二注意力模型中的键矩阵，以及基于第i层编码层输出的语音编码特征与预设第三权重矩阵，确定注意力机制中的转置矩阵；基于查询矩阵、键矩阵以及转置矩阵，确定待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元702用于：基于查询矩阵和键矩阵，计算第i层编码层输出的融合特征向量与每个第i层编码层输出的语音编码特征之间的相似度；基于每个相似度与转置矩阵进行加权求和处理，以确定待识别语音的第二注意力特征。

在另一些可选的实施方式中，处理单元702用于：将目标特征输入至语音识别模型，得到待识别语音中每个词的预测分类概率；基于每个词的预测分类概率确定待识别语音的识别结果。

在另一些可选的实施方式中，获取单元701用于：获取待识别语音。处理单元702用于：将待识别语音输入语音特征提取模型，得到待识别语音的语音特征，其中，语音特征提取模型是以语音样本为训练数据进行训练处理后得到的机器学习模型。

在另一些可选的实施方式中，获取单元701用于：获取屏幕共享图片，屏幕共享图片用于反映共享内容。处理单元702用于：对屏幕共享图片进行图片分割处理，得到第一图片和第二图片，第一图片用于反映述共享文本，第二图片为共享图片；将第一图片输入至文本特征提取模型，得到共享文本的文本特征；将第二图片输入至图片特征提取模型，得到共享图片的图片特征。

上面从模块化功能实体的角度对本申请实施例中的语音识别设备进行描述，下面从硬件处理的角度对本申请实施例中的语音识别设备进行描述。所描述的语音识别设备可以是图2示出的第一终端设备等。图8是本申请实施例提供的语音识别设备的结构示意图。该语音识别设备可因配置或性能不同而产生比较大的差异。该语音识别设备可以至少一个处理器801，通信线路807，存储器803以及至少一个通信接口804。

处理器801可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路807可包括一通路，在上述组件之间传送信息。

通信接口804，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器803可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路807与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器803用于存储执行本申请方案的计算机执行指令，并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机执行指令，从而实现本申请上述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该语音识别设备可以包括多个处理器，例如图8中的处理器801和处理器802。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该语音识别设备还可以包括输出设备805和输入设备806。输出设备805和处理器801通信，可以以多种方式来显示信息。输入设备806和处理器801通信，可以以多种方式接收目标对象的输入。例如，输入设备806可以是鼠标、触摸屏装置或传感装置等。

上述的语音识别设备可以是一个通用装置或者是一个专用装置。在具体实现中，该语音识别设备可以是服务器、终端设备等或有图8中类似结构的装置。本申请实施例不限定该语音识别设备的类型。

需说明，图8中的处理器801可以通过调用存储器803中存储的计算机执行指令，使得语音识别设备执行如图4至图5对应的方法实施例中的方法。

具体的，图7中的处理单元702的功能/实现过程可以通过图8中的处理器801调用存储器803中存储的计算机执行指令来实现。图7中的获取单元701的功能/实现过程可以通过图8中的通信接口804来实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种语音识别的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种语音识别的方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD))等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，所述待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时发出的语音，所述共享内容包括所述共享文本和所述共享图片；

对所述待识别语音的语音特征进行编码处理，得到所述待识别语音的语音编码特征，以及对所述共享文本的文本特征进行编码处理，得到所述共享文本的文本编码特征，以及对所述共享图片的图片特征进行编码处理，得到所述共享图片的图片编码特征；

对所述语音编码特征、所述文本编码特征以及所述图片编码特征进行注意力处理，得到目标特征；

对所述目标特征进行语音识别处理，得到所述待识别语音的识别结果，所述识别结果用于指示所述待识别语音对应的匹配文本。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别语音的编码特征、所述共享文本的编码特征以及所述共享文本的编码特征进行注意力处理，得到目标特征，包括：

对所述语音编码特征进行注意力处理，以得到所述待识别语音的第一注意力特征；

对所述语音编码特征和所述文本编码特征进行注意力处理，得到所述待识别语音的第二注意力特征；

对所述语音编码特征和所述图片编码特征进行注意力处理，得到所述待识别语音的第三注意力特征；

将所述第一注意力特征、所述第二注意力特征以及所述第三注意力特征进行融合处理，得到所述目标特征。

3.根据权利要求2所述的方法，其特征在于，对所述语音编码特征和所述文本编码特征进行注意力处理，得到所述待识别语音的第二注意力特征，包括：

通过编码器中的第i层编码层，对第i-1层编码层输出的语音编码特征进行自注意力处理，得到所述第i层编码层的语音编码特征，其中，1＜i≤L，L为自然数，L为所述编码器的编码层的总层数；

通过所述编码器中的第i层编码层，对所述第i层编码层的语音编码特征以及第i-1层编码层输出的文本编码特征进行自注意力处理，得到第i层编码层的融合特征向量；

通过所述编码器中的第i层编码层，将所述第i层编码层的融合特征向量与所述第i层编码层的语音编码特征进行自注意力处理，得到所述待识别语音的第二注意力特征。

4.根据权利要求3所述的方法，其特征在于，所述通过所述编码器中的第i层编码层，将所述第i层编码层的融合特征向量与所述第i层编码层的语音编码特征进行自注意力处理，得到所述待识别语音的第二注意力特征，包括：

基于所述第i层编码层输出的融合特征向量与预设第一权重矩阵，确定注意力机制中的查询矩阵；

基于所述第i层编码层输出的语音编码特征与预设第二权重矩阵，确定所述第二注意力模型中的键矩阵，以及基于所述第i层编码层输出的语音编码特征与预设第三权重矩阵，确定所述注意力机制中的转置矩阵；

基于所述查询矩阵、所述键矩阵以及所述转置矩阵，确定所述待识别语音的第二注意力特征。

5.根据权利要求4所述的方法，其特征在于，所述基于所述查询矩阵、所述键矩阵以及所述转置矩阵，确定所述待识别语音的第二注意力特征，包括：

基于所述查询矩阵和所述键矩阵，计算所述第i层编码层输出的融合特征向量与每个所述第i层编码层输出的语音编码特征之间的相似度；

基于每个所述相似度与所述转置矩阵进行加权求和处理，以确定所述待识别语音的第二注意力特征。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述对所述目标特征进行语音识别处理，得到所述待识别语音的识别结果，包括：

将所述目标特征输入至语音识别模型，得到所述待识别语音中每个词的预测分类概率；

基于所述每个词的预测分类概率确定所述待识别语音的识别结果。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取待识别语音的语音特征，包括：

获取所述待识别语音；

将所述待识别语音输入语音特征提取模型，得到所述待识别语音的语音特征，其中，所述语音特征提取模型是以语音样本为训练数据进行训练处理后得到的机器学习模型。

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取共享文本的文本特征以及共享图片的图片特征，包括：

获取所述屏幕共享图片，所述屏幕共享图片用于反映所述共享内容；

对所述屏幕共享图片进行图片分割处理，得到第一图片和第二图片，所述第一图片用于反映述共享文本，所述第二图片为所述共享图片；

将所述第一图片输入至文本特征提取模型，得到所述共享文本的文本特征；

将所述第二图片输入至图片特征提取模型，得到所述共享图片的图片特征。

9.一种语音识别设备，其特征在于，包括：

获取单元，用于获取待识别语音的语音特征、共享文本的文本特征以及共享图片的图片特征，所述待识别语音为共享会议中的会议讲演对象对共享内容进行讲解时的语音，所述共享内容包括所述共享文本和所述共享图片；

处理单元，用于对所述待识别语音的语音特征进行编码处理，得到所述待识别语音的语音编码特征，以及对所述共享文本的文本特征进行编码处理，得到所述共享文本的文本编码特征，以及对所述共享图片的图片特征进行编码处理，得到所述共享图片的图片编码特征；

所述处理单元，用于对所述语音编码特征、所述文本编码特征以及所述图片编码特征进行注意力处理，得到目标特征；

所述处理单元，用于对所述目标特征进行语音识别处理，得到所述待识别语音的识别结果，所述识别结果用于指示所述待识别语音对应的匹配文本。

10.一种语音识别设备，其特征在于，所述语音识别设备包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至8中任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序成品包括指令，当所述指令在计算机设备或者处理器上运行时，使得所述计算机设备或者所述处理器执行如权利要求1至8中任一项所述的方法。