CN115132182B

CN115132182B - 一种数据识别方法、装置、设备及可读存储介质

Info

Publication number: CN115132182B
Application number: CN202210573054.1A
Authority: CN
Inventors: 余剑威; 田晋川; 张春雷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2024-02-23
Anticipated expiration: 2042-05-24
Also published as: CN115132182A

Abstract

本申请实施例公开了一种数据识别方法、装置、设备及可读存储介质，涉及人工智能中机器学习技术和语音处理技术，其中，方法包括：获取待识别的目标语音数据，目标语音数据中包括至少两个语种对应的语音数据；从目标语音数据中提取全局语种特征，全局语种特征包括至少两个语种对应的语种特征和至少两个语种对应的时间特征；分别从全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果，目标识别结果用于反映目标语音数据包括的至少两个语种对应的文字内容。采用本申请实施例，可以提高语音识别的准确性，进而提升数据识别的准确性。

Description

一种数据识别方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种数据识别方法、装置、设备及可读存储介质。

背景技术

随着网络的快速发展，语音识别技术已经广泛应用于各种场景中，通过语音识别的方式可以快速确定语音内容。目前的语音识别方法一般是通过使用每种语言对应的语音识别系统对语音进行识别，确定语音识别结果。然而对于混合语言数据，即一句话中包含两种或者两种以上的语种组成的数据，目前的语音识别方式一般是输入到一种语音识别系统中进行识别。例如需要识别中英文混合语言时，一般是将中英混合语言数据输入到中文识别系统中进行识别，或者输入到英文识别系统进行识别，由于中文识别系统只能识别中文，英文识别系统只能识别英文，因此该种识别方法会导致语音识别的准确率较低，进而降低了数据识别的准确性。

发明内容

本申请实施例提供一种数据识别方法、装置、设备及可读存储介质，可以提高语音识别的准确性，进而提升数据识别的准确性。

第一方面，本申请提供一种数据识别方法，包括：

获取待识别的目标语音数据，该目标语音数据中包括至少两个语种对应的语音数据；

从该目标语音数据中提取全局语种特征，该全局语种特征包括该至少两个语种对应的语种特征和该至少两个语种对应的时间特征；

分别从该全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于该至少两个语种的语种特征和该至少两个语种对应的时间特征确定该目标语音数据的目标识别结果，该目标识别结果用于反映该目标语音数据包括的至少两个语种对应的文字内容。

第二方面，本申请提供一种数据识别装置，包括：

数据获取单元，用于获取待识别的目标语音数据，该目标语音数据中包括至少两个语种对应的语音数据；

特征提取单元，用于从该目标语音数据中提取全局语种特征，该全局语种特征包括该至少两个语种对应的语种特征和该至少两个语种对应的时间特征；

结果确定单元，用于分别从该全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于该至少两个语种的语种特征和该至少两个语种对应的时间特征确定该目标语音数据的目标识别结果，该目标识别结果用于反映该目标语音数据包括的至少两个语种对应的文字内容。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器；

上述处理器与存储器相连，其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述数据识别方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述数据识别方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时实现上述数据识别方法。

本申请实施例中，通过从目标语音数据中提取全局语种特征，全局语种特征包括至少两个语种对应的语种特征和至少两个语种对应的时间特征，可以使得提取到的语音数据的特征更完整，避免在后续对每个语种对应的语音数据进行处理时造成信息丢失、遗漏。进一步地，从全局语种特征中提取每个语种的语种特征时，可以结合每个语种的语种特征和时间特征确定目标识别结果，避免目标语音数据中各个语种片段的顺序紊乱，提高语音识别的准确性，进而提高数据识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据识别系统的架构示意图；

图2是本申请实施例提供的一种数据识别方法的应用场景示意图；

图3是本申请实施例提供的一种数据识别方法的流程示意图；

图4是本申请实施例提供的一种数据识别对应的用户界面变化的示意图；

图5是本申请实施例提供的另一种数据识别对应的用户界面变化的示意图；

图6是本申请实施例提供的一种语音识别模型训练方法的流程示意图；

图7是本申请实施例提供的一种模型结构的示意图；

图8是本申请实施例提供的一种数据显示装置的组成结构示意图；

图9是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例中涉及到用户信息相关的数据(例如目标语音数据)均为用户授权后的数据。本申请涉及人工智能中的语音处理技术、自然语言处理技术以及机器学习技术等。可选地，例如，可以利用语音处理技术或者自然语言处理技术获取待识别的目标语音数据；进一步地，例如可以基于机器学习技术从目标语音数据中提取全局语种特征，分别从全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果。本申请技术方案适用于对用户的语音数据进行识别，将包含至少两个语种的语音数据转换为包含至少两个语种的文字内容的场景中。例如，在语音输入的场景中，通过获取用户的语音数据进行识别，该语音数据中可以包括多个语种，得到包含多个语种的文字内容，从而实现快速语音输入。

请参见图1，图1是本申请实施例提供的一种数据识别系统的网络架构图，如图1所示，计算机设备可以与终端设备进行数据交互，终端设备的数量可以为一个或者至少两个，例如，当终端设备的数量为多个时，终端设备可以包括图1中的终端设备101a、终端设备101b及终端设备101c等。其中，以终端设备101a为例，计算机设备102可以获取待识别的目标语音数据。进一步地，计算机设备102可以从目标语音数据中提取全局语种特征；分别从全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果。可选地，计算机设备102可以将目标识别结果发送至终端设备101a，以使终端设备101a显示目标识别结果。可选地，终端设备101a还可以向第三终端发送目标识别结果，以进行数据交互。

通过从目标语音数据中提取全局语种特征，全局语种特征包括至少两个语种对应的语种特征和至少两个语种对应的时间特征，可以使得提取到的语音数据的特征更完整，避免在后续对每个语种对应的语音数据进行处理时造成信息丢失、遗漏。进一步地，从全局语种特征中提取每个语种的语种特征时，可以结合每个语种的语种特征和时间特征确定目标识别结果，避免目标语音数据中各个语种片段的顺序紊乱，提高语音识别的准确性，进而提高数据识别的准确性。

可以理解的是，本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说，计算机设备可以是服务器或终端设备，也可以是服务器和终端设备组成的系统。其中，以上所提及的终端设备可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobileinternet device，MID)等。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

进一步地，请参见图2，图2是本申请实施例提供的一种数据识别方法的应用场景示意图。如图2所示，计算机设备20可以获取待识别的目标语音数据21，目标语音数据21中包括至少两个语种对应的语音数据，例如目标语音数据21包括中文对应的语音数据和英文对应的语音数据，如“我今天非常happy”。进一步地，计算机设备20可以从目标语音数据中提取全局语种特征，这里的全局语种特征可以包括中文对应的语种特征和英文对应的语种特征，以及中文对应的时间特征(第一时间特征)和英文对应的时间特征(第二时间特征)。进一步地，计算机设备可以分别从全局语种特征中提取中文的语种特征22和英文的语种特征23，以及中文对应的时间特征和英文对应的时间特征，基于中文的语种特征22和英文的语种特征23，以及中文的时间特征和英文的时间特征，确定目标识别结果24。目标识别结果24包含中文对应的文字内容和英文对应的文字内容，例如目标识别结果为“我今天非常happy”，其中，中文对应的文字内容为“我今天非常”，英文对应的文字内容为“happy”。

进一步地，请参见图3，图3是本申请实施例提供的一种数据识别方法的流程示意图；如图3所示，该数据识别方法可以应用于计算机设备，该数据识别方法包括但不限于以下步骤：

S101，获取待识别的目标语音数据。

本申请实施例中，计算机设备可以通过相关的语音采集装置获取待识别的目标语音数据，也可以从本地存储中获取待识别的目标语音数据，或者可以接收终端设备发送的目标语音数据。目标语音数据可以是指录音数据中的语音数据，也可以是指视频数据中的语音数据，本申请实施例对此不作限定。其中，目标语音数据中包括至少两个语种对应的语音数据。目标语音数据中的至少两个语种可以包括但不限于汉语、英语、日语、法语、韩语、德语、西班牙语、葡萄牙语、希腊语等语种中的至少两种。可选地，目标语音数据中的至少两个语种还可以包括各个城市的方言，例如语种为汉语时，目标语音数据中可以包括普通话、重庆话、粤语、福建话等至少两种语言。

举例来说，目标语音数据可以包括任意两个语种，例如包括中文(汉语)和英文。例如“我今天非常happy”、“她这个人非常nice”、“我喜欢hamburger”、“My favoritefoodis火锅”，等等，即一句话中可以包括两个语种。或者，目标语音数据还可以包括中文和日文。或者，目标语音数据可以包括任意三个语种或者多个语种，例如包括中文、英文、韩语以及法语，等等，即一句话中可以包括多个语种。

S102，从目标语音数据中提取全局语种特征。

本申请实施例中，计算机设备可以从目标语音数据中提取全局语种特征，全局语种特征包括至少两个语种对应的语种特征和至少两个语种对应的时间特征，即包括目标语音数据中的所有语种对应的语种特征和所有语种对应的时间特征。其中，至少两个语种对应的语种特征包括每个语种对应的语种特征，语种特征可以包括但不限于梅尔普特征和pitch基频特征。梅尔普特征可以是指将人耳的听觉感知特性和语音产生机制相结合得到的特征。pitch基频特征可以表示人发音声带振动的基础频率，通过口腔、喉部频率的变化，基频会不断变成更高频率的特征。

其中，至少两个语种对应的时间特征可以用于指示目标语音数据中每个语种的时间先后。可选地，可以获取目标语音数据的采集时间，如用户说话时的系统时间，基于目标语音数据的采集时间确定语种对应的时间特征。例如当用户说一句话中的第一个字对应的时间为上午10:20:00，说这句话中的最后一个字对应的时间为上午10:20:04，则确定语音数据的时长为4秒(一种时间单位，s)。或者，也可以获取每个语种对应的语音在目标语音数据中的时间范围，基于该时间范围确定每个语种对应的时间特征。例如当用户说“我今天非常happy”时，获取到中文语种“我今天非常”对应的语音在该语音数据中的时间范围对应0～3s，则可以确定中文语种对应的时间特征为0～3s，英文语种“happy”对应的语音在该目标语音数据中的时间范围对应3.1s～4s，则可以确定英文语种对应的时间特征为3.1s～4s。

本申请实施例中，通过从目标语音数据中提取全局语种特征，可以使得提取到的语音数据的特征更完整，避免在后续对每个语种对应的语音数据进行处理时造成信息丢失、遗漏。由于从全局语种特征中提取每个语种的语种特征时，可以结合每个语种的语种特征和时间特征确定目标识别结果，即每个语种的语种特征都对应时间特征，因此可以避免目标语音数据中各个语音片段的顺序紊乱，提高语音识别的准确性。

可选地，计算机设备可以基于公共编码模块从目标语音数据中提取全局语种特征。公共编码模块可以对目标语音数据进行编码，将目标语音数据编码为高维特征，例如当目标语音数据包括中文和英文两个语种时，高维特征(即全局语种特征)可以包括中文的汉字特征和英文的BPE(词素)特征，以及中文对应的时间特征和英文对应的时间特征。通过提取目标语音数据中的全局语种特征，便于后续对全局语种特征中的中文特征和英文特征分别进行处理，例如对可以从全局语种特征中提取所有的汉字特征，作为中文特征；以及从全局语种特征中提取所有的BPE特征，作为英文特征，从而实现将不同语种的语种特征进行区分，便于使用各自对应的语种特征编码模块进行处理，避免不同语种之间的信息混淆。

S103，分别从全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果。

本申请实施例中，由于从目标语音数据中提取到全局语种特征，因此计算机设备可以分别从全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果。其中，目标识别结果用于反映目标语音数据包括的至少两个语种对应的文字内容。也就是说，本申请中通过对目标语音数据进行处理，目的是实现语音转文字。

可选地，由于全局语种特征中包括至少两个语种的语种特征和每个语种对应的时间特征，因此可以分别从全局语种特征中提取至少两个语种中每个语种的语种特征和每个语种对应的时间特征，分别对不同语种的语种特征进行识别，得到最终的识别结果。例如，计算机设备分别从全局语种特征中提取至少两个语种中每个语种的语种特征后，可以对每个语种的语种特征进行特征融合，得到目标融合特征，从而可以基于目标融合特征确定目标识别结果。由于全局语种特征中包括至少两个语种对应的语种特征，相当于全局语种特征为混合后的特征，通过分别从全局语种特征中提取每个语种的语种特征，可以实现对混合后的特征进行划分，进而可以按照各个语种特征的时间特征进行特征融合，从而得到融合后的目标融合特征，相当于对混合的特征进行了分类以及按照时间特征进行特征融合，得到目标识别结果。可选地，计算机设备还可以从目标语音数据中提取每个语种对应的时间特征，从而基于至少两个语种的语种特征和至少两个语种对应的时间特征确定目标语音数据的目标识别结果。

可选地，至少两个语种的语种特征可以包括每个语种对应的特征矩阵、每个语种对应的特征集合或者每个语种对应的特征组，等等。若至少两个语种的语种特征包括每个语种对应的特征矩阵，则计算机设备可以基于每个语种的特征矩阵和每个语种对应的时间特征确定目标识别结果。其中，一个语种的语种特征对应一个特征矩阵。具体地，计算机设备可以基于至少两个语种对应的时间特征对至少两个语种的特征矩阵进行特征相加，得到融合特征矩阵；基于融合特征矩阵确定目标语音数据的目标识别结果。

其中，每个语种的特征矩阵可以反映目标语音数据中与该语种对应的文字信息，因此通过可以基于每个语种对应的时间特征和每个语种的特征矩阵进行特征相加得到融合特征矩阵，融合特征矩阵可以反映至少两个语种中每个语种的文字信息。也就是说，由于计算机设备获取到的全局语种特征是包含了至少两个语种的混合语音数据，混合语音数据中各语种对应的信息可能是杂乱的，通过从全局语种特征中分别提取每个语种的语种特征，并基于至少两个语种的语种特征和每个语种的时间特征进行特征拼接得到融合特征矩阵，即融合特征矩阵相当于整理后的包含多个语种的语种特征。

举例来说，目标语音数据可以为语音内容“今天的天气真nice，我们出去play”，计算机设备提取到的全局语种特征可以包括“今天的天气真nice，我们出去play”，分别从全局语种特征中提取中文的语种特征，得到“今天的天气真、我们出去”，从全局语种特征中提取英文的语种特征，得到“nice、play”，中文对应的时间特征包括0～2.7s和3.2s～4.5s，英文对应的时间特征包括2.8s～3.1s和4.5s～4.8s，则计算机设备可以按照各个语种对应的时间特征对中文的语种特征和英文的语种特征进行特征拼接，最终得到目标识别结果，目标识别结果对应的文字内容包括“今天的天气真nice，我们出去play”。

可选地，至少两个语种可以包括第一语种和第二语种，至少两个语种的特征矩阵包括第一语种对应的第一特征矩阵和第二语种对应的第二特征矩阵，计算机设备可以对至少两个语种对应的特征矩阵进行排序，按照排列顺序进行特征相加。具体地，计算机设备可以基于第一语种对应的时间特征和第二语种对应的时间特征，按照从前到后对第一特征矩阵和第二特征矩阵进行排序，得到排列顺序；按照排列顺序对第一特征矩阵和第二特征矩阵进行特征相加，得到融合特征矩阵。

具体地，计算机设备可以基于每种语种对应的时间特征中的时间先后顺序，从前到后对特征矩阵进行排序，从而按照排列顺序对特征矩阵进行特征相加，得到融合特征矩阵。或者，计算机设备可以基于每种语种对应的时间特征中的时间先后顺序，确定每个特征矩阵的序列号，将特征矩阵的序列号确定为矩阵的排列顺序，从而按照排列顺序对特征矩阵进行特征相加，得到融合特征矩阵。

由于按照目标语音数据中每个语种的时间特征和每个语种对应的特征矩阵确定融合特征矩阵，相当于确定了最终的目标识别结果中每个语种的文字内容的排列顺序，一般来说由于各个语种的语音片段在时间上基本不会产生重叠，因此通过该种方式可以确定目标语音数据的目标识别结果。

可选地，若至少两个语种包括三个语种或者三个以上语种，则计算机设备可以基于至少两个语种对应的时间特征对至少两个语种对应的特征矩阵进行排序，从而按照排列顺序对至少两个语种对应的特征矩阵进行特征相加，得到融合特征矩阵。

可选地，计算机设备可以使用语音识别模型对目标语音数据进行识别，得到目标识别结果。可选地，语音识别模型中可以包括公共编码模块、第一语种编码模块和第二语种编码模块，其中，公共编码模块用于提取目标语音数据中至少两个语种的语种特征；第一语种编码模块用于从至少两个语种的语种特征中提取与第一语种编码模块对应的语种特征，并过滤掉其他语种特征；第二语种编码模块用于从至少两个语种的语种特征中提取与第二语种编码模块对应的语种特征，并过滤掉其他语种特征。具体地，计算机设备可以基于第一语种编码模块从全局语种特征中提取第一语种的语种特征，基于第二语种编码模块从全局语种特征中提取第二语种的语种特征，基于第一语种的语种特征、第二语种的语种特征、第一语种对应的时间特征，以及第二语种对应的时间特征，确定目标语音数据的目标识别结果。

具体地，计算机设备提取到第一语种的语种特征和第二语种的语种特征后，可以基于融合模块对第一语种的语种特征和第二语种的语种特征进行特征相加，得到融合特征矩阵，基于全局解码模块对融合特征矩阵进行解码，将融合特征矩阵转换为文字内容，从而得到目标识别结果。可选地，计算机设备可以预先训练语音识别模型，例如分别训练第一语种编码模块和第二语种编码模块，以使训练后的第一语种编码模块和第二语种编码模块具有能够从全局语种特征中提取对应语种的语种特征的能力。例如第一语种编码模块为中文编码模块，第二语种编码模块为英文编码模块，则训练后的第一语种编码模块可以从全局语种特征中提取中文语种特征，并过滤掉全局语种特征中除中文语种特征以外的语种特征。训练后的第二语种编码模块可以从全局语种特征中提取英文语种特征，并过滤掉全局语种特征中除英文语种特征以外的语种特征。通过训练语音识别模型，后续将待识别的目标语音数据输入语音识别模型时，可以输出目标识别结果。具体训练语音识别模型的方法可以参考图6中实施例所示，此处不做过多描述。

由于针对不同的语种编码模块从全局语种特征中提取不同语种的语种特征，一种语种编码模块只能提取与该语种编码模块对应的语种特征，因此可以实现在提取每种语种的信息时过滤掉其他语种的信息，避免语种之间的混淆，提高语音识别的准确率。

可选地，语音识别模型中可以包括三个或者三个以上的语种编码模块，每个语种编码模块处理的语种不同，即每个语种对应一个语种编码模块。若至少两个语种包括三个语种或者三个以上语种，则计算机设备可以再基于语音识别模型中的第三编码模块从全局语种特征中提取第三语种的语种特征、基于语音识别模型中的第四编码模块从全局语种特征中提取第四语种的语种特征，等等，直至将全局语种特征中每个语种的语种特征均提取出，基于提取出的每个语种的语种特征和每个语种对应的时间特征确定目标识别结果。

可选地，若目标语音数据只包括一个语种对应的语音数据，则计算机设备可以提取全局语种特征，该全局语种特征包括一个语种对应的语种特征，则计算机设备可以基于该全局语种特征确定目标识别结果。可选地，计算机设备可以基于公共编码模块对该语音数据进行编码，得到全局语种特征，基于全局解码模块对全局语种特征进行解码，将全局语种特征转换为文字内容，将该文字内容确定为目标识别结果。

可选地，在确定目标识别结果之后，计算机设备还可以对目标识别结果进行调整，从而提高数据修改效率，提高语音识别的准确性。具体地，当计算机设备获取到针对目标识别结果的修改指令时，获取更新语音数据，并确定更新语音数据的识别结果，修改指令用于指示对目标识别结果进行修改；若更新语音数据的识别结果与目标识别结果之间的重合度大于重合度阈值，则基于更新语音数据的识别结果调整目标识别结果。

可选地，计算机设备可以通过屏幕显示修改按钮/按键，当检测到用户点击该修改按钮/按键时，则获取到针对目标识别结果的修改指令。或者，在确定目标识别结果之后的目标时间段内，若获取到更新语音数据，则确定为针对目标识别结果的修改指令。其中，更新语音数据可以是指确定目标识别结果之后获取到的语音数据，计算机设备在获取到更新语音数据之后，可以参考步骤S101～步骤S103中的方法确定更新语音数据的识别结果，此处不再赘述。进一步地，计算机设备还可以基于相似度计算方法获取更新语音数据的识别结果与目标识别结果之间的重合度，相似度计算方法可以包括但不限于欧氏距离、余弦距离、曼哈顿距离、海明距离、皮尔森相关系数等计算方法。

进一步地，若更新语音数据的识别结果与目标识别结果之间的重合度大于重合度阈值，则可以使用更新语音数据的识别结果替换目标识别结果。可选地，还可以基于更新语音数据的识别结果对目标识别结果中对应的文字内容进行调整。若更新语音数据的识别结果与目标识别结果之间的重合度小于或等于重合度阈值，则可以不对目标识别结果进行处理。

举例来说，目标识别结果为“今天天器很nice”，更新语音数据的识别结果为“今天天气很nice”，则可以用“今天天气很nice”替换“今天天器很nice”。又或者，目标识别结果为“今天天器很nice”，更新语音数据的识别结果为“天气”，则基于更新语音数据的识别结果调整目标识别结果为“今天天气很nice”。

在一种可能的场景中，如图4所示，图4是本申请实施例提供的一种数据识别对应的用户界面变化的示意图，其中，如图4中的4a-4f所示，计算机设备可以启动语音采集装置，检测用户的语音数据，将用户的语音数据确定为待识别的目标语音数据，通过对目标语音数据进行处理，得到目标识别结果如“今天天气很nice”。可选地，计算机设备还可以接收针对目标识别结果的发送指令，将目标识别结果发送给第三终端。可选地，在图4中的4b的情况下，当检测到针对输入框中的文字的点击操作时，计算机设备获取到针对目标识别结果的修改指令，通过获取用户输入的文字内容对目标识别结果进行修改。或者，在图4中的4b的情况下，当检测到针对输入框中的文字的点击操作时，计算机设备可以获取输入框中的触控对象(如可移动光标)的位置。当检测到针对语音采集装置的触发操作时，检测新的语音数据，对新的语音数据进行识别，得到识别结果如“上午的天气terrible，但是下午的”。将该识别结果插入触控对象的位置所指示的文字内容之间(如输入框中的文字“天”和“天”之间)，实现对目标识别结果进行修改，修改后的用户界面如图4中的4e所示。可选地，当接收到针对目标识别结果的发送指令，将目标识别结果发送给第三终端。由于可以基于修改指令对目标识别结果进行修改，并且可以通过获取新的语音数据的方式进行修改，可以提高数据修改的效率，使得语音输入方式更便捷，进而提升用户体验。

在另一种可能的场景中，如图5所示，图5是本申请实施例提供的另一种数据识别对应的用户界面变化的示意图，其中，如图5中的5a-5f所示，计算机设备可以启动语音采集装置，检测用户的语音数据，将用户的语音数据确定为待识别的目标语音数据。进一步地，计算机设备可以基于转换指令对目标语音数据进行文字转换，得到目标识别结果，在显示屏中展示该目标识别结果“今天天气很nice”。可选地，当计算机设备接收到针对目标识别结果的确认指令时，计算机设备可以向第三终端发送目标识别结果。可选地，在图5中的5c的情况下，当检测到针对输入框中的文字的点击操作时，可以确定获取到针对目标识别结果的修改指令，通过获取用户输入的文字内容对目标识别结果进行修改。可选地，在图5中的5c的情况下，当检测到针对输入框中的文字的点击操作时，计算机设备可以获取输入框中的触控对象(如可移动光标)的位置。当检测到针对语音采集装置的触发操作时，检测新的语音数据，对新的语音数据进行识别，得到识别结果如“上午的天气terrible，但是下午的”。将该识别结果插入触控对象的位置所指示的文字内容之间(如输入框中的文字“天”和“天”之间)，实现对目标识别结果进行修改，修改后的用户界面如图5中的5f所示。可选地，当接收到针对目标识别结果的确认指令时，计算机设备可以向第三终端发送目标识别结果。由于可以基于修改指令对目标识别结果进行修改，并且可以通过获取新的语音数据的方式进行修改，可以提高数据修改的效率，使得语音输入方式更便捷，进而提升用户体验。

可选的，请参见图6，图6是本申请实施例提供的一种语音识别模型训练方法的流程示意图。该训练方法可以应用于计算机设备；如图6所示，该训练方法包括但不限于以下步骤：

S201，获取待识别的样本语音数据。

本申请实施例中，为了使语音识别模型中的特定语种编码模块，包括第一语种编码模块和第二语种编码模块具有区分语种的能力，可以使用大量样本数据集对语音识别模型进行训练，从而使得训练后的语音识别模型可以基于目标语音数据确定目标识别结果。其中，待识别的样本语音数据可以为样本数据集中的一个或者多个样本数据，样本语音数据中包括至少两个样本语种对应的语音数据。样本语音数据可以是指录音数据中的语音数据，也可以是指视频数据中的语音数据，本申请实施例对此不作限定。其中，样本语音数据中包括至少两个语种对应的语音数据。样本语音数据中的语种类别可以与目标语音数据中的语种类别相同。

具体实现中，计算机设备可以从数据库中下载样本语音数据，或者通过相关的语音采集装置获取待识别的样本语音数据，也可以从本地存储中获取待识别的样本语音数据，或者可以接收终端设备发送的样本语音数据。

S202，从样本语音数据中提取样本全局语种特征。

本申请实施例中，计算机设备可以从样本语音数据中提取样本全局语种特征。样本全局语种特征包括至少两个样本语种对应的语种特征和至少两个样本语种对应的时间特征。样本语种对应的语种特征可以包括但不限于梅尔普特征和pitch基频特征。样本语种对应的时间特征可以是指样本语音数据中每个语种的发音对应的时间。

可选地，计算机设备可以基于语音识别模型从样本语音数据中提取样本全局语种特征。例如，计算机设备可以基于语音识别模型中的公共编码模块从公共编码模块可以对样本语音数据进行编码，将样本语音数据编码为高维特征，例如当样本语音数据包括中文和英文两个语种时，高维特征可以包括中文的汉字特征和英文的BPE特征，以及中文对应的时间特征和英文对应的时间特征。通过提取样本语音数据中的样本全局语种特征，便于后续对样本全局语种特征中的中文特征和英文特征分别进行处理，以确定最终的样本识别结果。

S203，分别从样本全局语种特征中提取每个样本语种的语种特征和每个样本语种对应的时间特征，并基于至少两个样本语种的语种特征和至少两个样本语种对应的时间特征确定样本语音数据的样本识别结果。

本申请实施例中，由于样本全局语种特征中包括每个样本语种的语种特征和每个样本语种对应的时间特征，因此可以分别提取每个样本语种的语种特征和每个样本语种对应的时间特征，基于每个样本语种对应的时间特征和语种特征确定样本语音数据的样本识别结果，样本识别结果用于反映样本语音数据包括的至少两个语种对应的文字内容。从而实现将样本混合语音数据中每个语种的语种特征区分开，并基于不同的识别方法分别对每个语种的语种特征进行处理，避免语种混淆，提高语音识别的准确性。

可选地，若至少两个样本语种的语种特征包括至少两个样本语种对应的样本特征矩阵，一个样本语种特征对应一个样本特征矩阵，则计算机设备可以基于至少两个样本特征矩阵和至少两个样本语种对应的时间特征确定样本语音数据的样本识别结果。例如，计算机设备可以基于至少两个样本语种对应的时间特征对至少两个样本语种的样本特征矩阵进行特征相加，得到样本融合特征矩阵；基于样本融合特征矩阵确定样本语音数据的样本识别结果。

其中，每个语种的特征矩阵可以反映样本语音数据中与该样本语种对应的文字信息，因此通过可以基于每个样本语种对应的时间特征和每个样本语种的样本特征矩阵进行特征相加得到样本融合特征矩阵，样本融合特征矩阵可以反映至少两个样本语种中每个样本语种的文字信息。也就是说，由于计算机设备获取到的样本全局语种特征是包含了至少两个样本语种的样本混合语音数据，样本混合语音数据中各样本语种对应的内容可能是杂乱的，通过从样本全局语种特征中分别提取每个样本语种的语种特征，并基于至少两个样本语种的语种特征和每个样本语种的时间特征进行特征拼接得到样本融合特征矩阵，即样本融合特征矩阵相当于整理后的包含多个样本语种的语种特征。

S204，获取样本语音数据的样本文字标签，基于样本文字标签和样本识别结果，训练得到语音识别模型。

本申请实施例中，计算机设备可以获取样本语音数据的样本文字标签，基于样本文字标签和样本识别结果，训练得到语音识别模型。其中，目标语音数据的目标识别结果是基于语音识别模型确定的。例如语音识别模型可以从样本语音数据中提取样本全局语种特征；语音识别模型还可以分别从样本全局语种特征中提取每个样本语种的语种特征，并基于至少两个样本语种的语种特征和至少两个样本语种对应的时间特征确定样本语音数据的样本识别结果。

本申请实施例中，通过获取待识别的样本语音数据，基于语音识别模型对样本语音数据进行识别，得到样本识别结果，从而可以基于模型输出值(即样本识别结果)和样本真实值(即样本文字标签)确定语音识别模型的损失，从而基于损失对语音识别模型进行调整，使得调整后的语音识别模型对语音数据进行识别时，可以提高语音识别的准确性。由于在训练语音识别模型时，可以预先确定样本语音数据的样本文字标签，相当于知道样本真实值，即知道样本语音数据的文字内容，而通过使用语音识别模型对样本语音数据进行识别，可以得到模型输出值，即样本识别结果，训练语音识别模型的目的在于使得模型输出值和样本真实值尽可能一致。若模型输出值和样本真实值不一致，则可以对语音识别模型中的参数进行调整，使得模型输出值和样本真实值一致。若模型输出值和样本真实值一致，则可以保存此时的语音识别模型。

可选地，语音识别模型中可以包括公共编码模块、第一语种编码模块和第二语种编码模块，则计算机设备可以基于公共编码模块从样本语音数据中提取样本全局语种特征；基于第一语种编码模块从样本全局语种特征中提取第一样本语种特征；基于第二语种编码模块从样本全局语种特征中提取第二样本语种特征，等等。语音识别模型中还可以包括更多语种编码模块，每个语种编码模块可以识别的语种不同。若语音识别模型中还包括第三语种编码模块，则计算机设备还可以基于第三语种编码模块从样本全局语种特征中提取第三样本语种特征，本申请实施例对此不作限定。下面以至少两个样本语种包括第一样本语种和第二样本语种进行说明，若至少两个样本语种包括第一样本语种和第二样本语种，计算机设备可以通过分别训练语音识别模型中的第一语种编码模块和第二语种编码模块，以确定语音识别模型。

具体地，计算机设备可以获取样本文字标签中的第一样本语种标签，基于第一样本语种标签和第一样本语种特征训练第一语种编码模块；获取样本文字标签中的第二样本语种标签，基于第二样本语种标签和第二样本语种特征训练第二语种编码模块，以确定语音识别模型。

其中，由于样本文字标签是指样本真实值，即包括样本语音数据的至少两个语种对应的文字信息，例如样本文字标签为“我喜欢hamburger”，第一样本语种标签可以为“我喜欢”，第一样本语种特征可以是基于第一语种编码模块从样本全局语种特征中提取到的，则语音识别模型可以对第一样本语种特征进行解码得到第一语种文本数据，通过比较第一样本语种标签和第一语种文本数据的相似度确定第一语种编码模块的损失，基于损失训练第一语种编码模块。第二样本语种标签可以为“hamburger”，第二样本语种特征可以是基于第二语种编码模块从样本全局语种特征中提取到的，则语音识别模型可以对第二样本语种特征进行解码得到第二语种文本数据，通过比较第二样本语种标签和第二语种文本数据的相似度确定第二语种编码模块的损失，基于损失训练第二语种编码模块。通过分别训练第一语种编码模块和第二语种编码模块，可以确定语音识别模型。若语音识别模型中包括更多的语种编码模块，则还可以再训练更多的语种编码模块，从而确定语音识别模型。

请参见图7，图7是本申请实施例提供的一种模型结构的示意图，其中，语音识别模型包括公共编码模块、第一语种编码模块、第二语种编码模块、融合模块、全局解码模块。其中，公共编码模块用于提取样本语音数据中的样本全局语种特征，例如提取样本语音数据中包括的中文的汉字特征和英文的BPE特征。第一语种编码模块用于从样本全局语种特征中提取第一样本语种特征，并过滤掉其他语种特征，例如从提取样本语音数据中包括的中文的汉字特征和英文的BPE特征中提取汉字特征，并且过滤英文的BPE特征。第二语种编码模块用于样本全局语种特征中提取第二样本语种特征，并过滤掉其他语种特征，例如从提取样本语音数据中包括的中文的汉字特征和英文的BPE特征中提取英文的BPE特征，并且过滤汉字特征。融合模块用于对第一样本语种特征和第二样本语种特征进行特征融合，得到样本融合特征。全局解码模块用于对样本融合特征进行解码，将样本融合特征转换为文字内容。可选地，语音识别模型还可以包括第一语种解码模块和第二语种解码模块，第一语种解码模块用于对第一样本语种特征进行解码，将第一样本语种特征转换为文字内容；第二语种解码模块用于对第二样本语种特征进行解码，将第二样本语种特征转换为文字内容。

在训练语音识别模型的阶段，计算机设备通过将样本语音数据输入语音识别模型，通过公共编码模块对样本语音数据进行编码，将样本语音数据编码为高维特征，即样本全局语种特征；进一步地，基于第一编码模块对样本全局语种特征进行处理，可以从样本全局语种特征中提取第一样本语种特征。基于第二编码模块对样本全局语种特征进行处理，可以从样本全局语种特征中提取第二样本语种特征。通过融合模块对第一样本语种特征和第二样本语种特征进行特征融合，得到样本融合特征。进一步地，基于全局解码模块对样本融合特征进行解码处理，将样本融合特征转换为文字内容，从而得到样本识别结果。可选地，在训练语音识别模型时，还可以使用第一解码模块对第一样本语种特征进行解码处理，得到第一样本文字内容，基于第一样本文字内容和样本文字标签中的第一样本语种标签训练第一编码模块，即基于第一编码模块的输出结果和样本真实值训练第一编码模块。进一步地，还可以使用第二解码模块对第二样本语种特征进行解码处理，得到第二样本文字内容，基于第二样本文字内容和样本文字标签中的第二样本语种标签训练第二编码模块，即基于第二编码模块的输出结果和样本真实值训练第二编码模块。

在使用语音识别模型的阶段，计算机设备通过将目标语音数据输入语音识别模型，通过公共编码模块对目标语音数据进行编码，将目标语音数据编码为高维特征，即全局语种特征；进一步地，基于第一编码模块对全局语种特征进行处理，可以从全局语种特征中提取第一语种特征。基于第二编码模块对全局语种特征进行处理，可以从全局语种特征中提取第二语种特征。通过融合模块对第一语种特征和第二语种特征进行特征融合，得到目标融合特征。进一步地，基于全局解码模块对目标融合特征进行解码处理，将目标融合特征转换为文字内容，从而得到目标识别结果。

可选地，语音识别模型中的各个编码模块或者解码模块可以使用Conformer模型作为基本模型单元，也可以使用transformer模型作为基本模型单元，还可以使用其他的模型作为基本模型单元，本申请实施例对此不作限定。其中，公共编码模块的模型层数可以大于特定语种编码模块(即第一语种编码模块、第二语种编码模块)，由于公共编码模块需要提取样本语音数据中的所有特征，因此特征的数量大于特定语种编码模块，因此使用更深层数的模型进行特征提取的效果更好。例如，公共编码模块可以由9层conformer构成，特定语种编码模块可以由3层conformer构成。

可选地，在训练语音识别模型时，还可以获取样本文字标签中的第一样本语种标签，基于第一样本语种标签和第一样本语种特征训练第一语种编码模块；获取样本文字标签中的第二样本语种标签，基于第二样本语种标签和第二样本语种特征训练第二语种编码模块；基于样本文字标签和样本融合特征训练全局解码模块，以确定语音识别模型。

其中，以样本语音数据为中英文混合语言数据“我喜欢hamburger”为例，如图7所示，在模型训练过程中，“我喜欢ham bur ger”会作为全局解码模块的训练目标Y1，如公式(1-1)所示：

J₁＝Criterion(Y₁,Decoder_global(h₁)) (1-1)

其中，Y1表示样本文字标签，Decoder_global(h₁)表示基于全局解码模块输出的样本识别结果，训练全局解码模块的目的是使得样本文字标签与基于训练后的全局解码模块输出的样本识别结果相同，J₁可以用于指示全局编码模块的训练标准。

对于第一语种编码模块，若第一语种编码模块为中文编码模块，样本语音数据中的英文部分可以用英文语言符号<eng>替换，变为“我喜欢<eng><eng><eng>”并作为辅助训练目标Y2来优化第一语种编码模块，如公式(1-2)所示：

J₂＝Aux_Criterion(Y₂,Decoder₂(h₂)) (1-2)

其中，Y2表示第一样本语种标签，Decoder₂(h₂)表示基于第一语种编码模块提取的第一样本语种特征，经过第一解码模块对第一样本语种特征进行解码得到的第一样本语种对应的文本内容；训练第一语种解码模块的目的是使得第一样本语种标签与第一样本语种对应的文本内容相同，J₂可以用于指示第一语种编码模块的训练标准。

对应的，例如第二语种编码模块为英文编码模块，样本语音数据中的中文部分可以用<man>替换，变为“<man><man><man>hum bur gur”并作为辅助训练目标Y3来优化第二语种编码模块，如公式(1-3)所示：

J₃＝Aux_Criterion(Y₃,Decoder₃(h₃)) (1-3)

其中，Y3表示第二样本语种标签，Decoder₃(h₃)表示基于第二语种编码模块提取的第二样本语种特征，经过第二解码模块对第二样本语种特征进行解码得到的第二样本语种对应的文本内容；训练第二语种解码模块的目的是使得第二样本语种标签与第二样本语种对应的文本内容相同，J₃可以用于指示第二语种编码模块的训练标准。

综上，语音识别模型的优化目标如公式(1-4)所示：

J＝J₁+J₂+J₃ (1-4)

通过分别训练语音识别模型中各个语种编码模块和全局解码模块，从而得到语音识别模型，各个模块之间的训练互不干扰，可以提高模型训练效率，进而提高数据处理效率。该训练方法可以使得各个特定语种编码模块具有区分语种的能力，并具有能够将其他语种的语言信息进行过滤的能力。

可选地，在训练语音识别模型时还可以使用只包含一个语种的样本语音数据进行训练，对于单语种的样本语音数据，如“今天天气不错”，中文语种编码模块可以使用“今天天气不错”为训练目标，英文语种编码模块可以使用“<man><man><man><man>”为训练目标。

可选地，在使用语音识别模型的过程中，识别结果将由模型中的全局解码模块产生，对于任一单语种的语音数据输入语音识别模型，语音识别模型中与该语种对应的语种编码模块会被激活，其他语种编码模块会保持闲置。对于混合语种的语音数据输入语音识别模型，混合语种中的各个语种会被对应的语种编码模块提取，由于各个语种的语音片段在时间上不会产生重叠，因此本申请实施例中可以使用基于加法的融合函数对各个语种编码模块提取的特征进行特征融合，如公式(1-5)所示：

其中，h1表示目标融合特征，h2表示第一语种特征，h3表示第二语种特征。该种特征融合方式可以保证原语音数据中各语音片段的顺序不变，同时也能保持特定语种对应的特征信息。

可选地，本申请技术方案中可以在开源数据集进行算法验证，验证结果可以如表1所示：

表1

上述开源数据集可以包括200小时的中英文混合语言数据，500小时的单中文数据和500h的纯英文数据。本申请技术方案的核心作用在于提升语音识别系统在多语种和混合语言上的性能，故我们选择在识别系统在纯英文语料上的词错误率(WER),纯中文语料上的字错误率(CER)，混合语言上的词、字混合错误率(MER)作为衡量指标。

如表1中所示，目前的方案结果可以是使用与本方案同样的公开数据集进行测试得到的结果，混合语言中的混合语言的错误率是指将混合语言作为整体输入神经网络(neural networks,NT)框架或者基于神经网络的时序类分类(Connectionist temporalclassification,CTC)架构对应的识别系统进行测试，得到的混合语言上的词、字混合错误率。混合语言中的中文错误率是指基于NT框架或者CTC框架对应的识别系统进行测试，得到的混合语言上的字错误率。混合语言中的英文错误率是指基于NT框架或者CTC框架对应的识别系统进行测试，得到的混合语言上的词错误率。单语言中的中文错误率是指基于NT框架或者CTC框架对应的识别系统对纯中文数据进行测试，得到的字错误率。单语言中的英文错误率是指基于NT框架或者CTC框架对应的识别系统对纯英文数据进行测试，得到的词错误率。其中，NT 1、NT2、NT3可以为三种已经公开的文章中基于NT框架测试得到的结果，CTC1可以为已经公开的文章中基于CTC框架测试得到的结果。

其中，CTC 2是一种基础的基于CT框架对应的识别系统进行测试得到的结果。CTC3是指将本申请技术方案加入到CTC框架的训练过程中，使用该CTC3框架对应的识别系统分别对混合语言和单语言进行测试。NT 4是一种基础的基于NT框架对应的识别系统进行测试得到的结果。NT 5是指将本申请技术方案加入到NT框架的训练过程中，使用该NT5框架对应的识别系统分别对混合语言和单语言进行测试。

可以看出本方案提出的语音识别模型能够在基于CTC和NT两种通用语音识别架构中降低错误率，显著提升模型对多语种和混合语言语音的识别性能。在CTC框架下如CTC 2和CTC 3所示，本方案能够在混合语言、中文语种、英文语种上分别得到2.7％(即11.6％-8.9％)，2.7％(即5.1％-2.4％)和3.3％(即20.3％-17.0％)的绝对错误率下降。在NT框架下如NT4和NT5所示，本方案能够在混合语言，中文和英文语种上分别得到0.6％(即9.5％-8.9％)，1.1％(即3.8％-2.7％)和0.7％(即16.6％-15.9％)的绝对错误率下降。

本申请实施例中，通过使用样本语音数据对语音识别进行训练，可以使得训练后的语音识别模型能更准确地确定目标语音数据的目标识别结果，提高数据识别效率。例如在语音输入场景中，通过使用语音识别模型对用户的语音数据进行识别，可以快速转换为文本数据，从而提高文本输入的效率，进而提升数据交互的效率，提升用户体验。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图8，图8是本申请实施例提供的一种数据识别装置的组成结构示意图。可选的，上述数据识别装置可以是运行于终端设备中的一个计算机程序(包括程序代码)；该数据识别装置可以用于执行本申请实施例提供的数据识别方法中的相应步骤。例如，该数据识别装置80包括：

数据获取单元801，用于获取待识别的目标语音数据，该目标语音数据中包括至少两个语种对应的语音数据；

特征提取单元802，用于从该目标语音数据中提取全局语种特征，该全局语种特征包括该至少两个语种对应的语种特征和该至少两个语种对应的时间特征；

结果确定单元803，用于分别从该全局语种特征中提取每个语种的语种特征和每个语种对应的时间特征，并基于该至少两个语种的语种特征和该至少两个语种对应的时间特征确定该目标语音数据的目标识别结果，该目标识别结果用于反映该目标语音数据包括的至少两个语种对应的文字内容。

可选地，该至少两个语种的语种特征包括至少两个特征矩阵，一个语种的语种特征对应一个特征矩阵；该结果确定单元803，具体用于：

基于该至少两个语种对应的时间特征对该至少两个语种的特征矩阵进行特征相加，得到融合特征矩阵；

基于该融合特征矩阵确定该目标语音数据的目标识别结果。

可选地，该至少两个语种包括第一语种和第二语种，该至少两个语种的特征矩阵包括该第一语种对应的第一特征矩阵和该第二语种对应的第二特征矩阵；该结果确定单元803，具体用于：

基于该第一语种对应的时间特征和该第二语种对应的时间特征，按照从前到后对该第一特征矩阵和该第二特征矩阵进行排序，得到排列顺序；

按照该排列顺序对该第一特征矩阵和该第二特征矩阵进行特征相加，得到融合特征矩阵。

可选地，该至少两个语种包括第一语种和第二语种；该特征提取单元802，具体用于：

基于公共编码模块从该目标语音数据中提取全局语种特征；

该从该全局语种特征中提取该至少两个语种的语种特征，包括：

基于第一语种编码模块从该全局语种特征中提取该第一语种的语种特征，基于第二语种编码模块从该全局语种特征中提取该第二语种的语种特征。

可选地，该数据识别装置80还包括：数据修改单元804，用于：

当获取到针对该目标识别结果的修改指令时，获取更新语音数据，并确定该更新语音数据的识别结果，该修改指令用于指示对该目标识别结果进行修改；

若该更新语音数据的识别结果与该目标识别结果之间的重合度大于重合度阈值，则基于该更新语音数据的识别结果调整该目标识别结果。

可选地，该数据识别装置80还包括：模型训练单元805，用于：

获取待识别的样本语音数据，该样本语音数据中包括至少两个样本语种对应的语音数据；

从该样本语音数据中提取样本全局语种特征，该样本全局语种特征包括至少两个样本语种对应的语种特征和该至少两个样本语种对应的时间特征；

分别从该样本全局语种特征中提取每个样本语种的语种特征和每个样本语种对应的时间特征，并基于该至少两个样本语种的语种特征和该至少两个样本语种对应的时间特征确定该样本语音数据的样本识别结果，该样本识别结果用于反映该样本语音数据包括的至少两个语种对应的文字内容；

获取该样本语音数据的样本文字标签，基于该样本文字标签和该样本识别结果，训练得到语音识别模型，该目标语音数据的目标识别结果是基于该语音识别模型确定的。

可选地，该语音识别模型中包括公共编码模块、第一语种编码模块和第二语种编码模块，该至少两个样本语种包括第一样本语种和第二样本语种；该模型训练单元805，具体用于：

获取该样本文字标签中的第一样本语种标签，基于该第一样本语种标签和该第一样本语种特征训练该第一语种编码模块；

获取该样本文字标签中的第二样本语种标签，基于该第二样本语种标签和该第二样本语种特征训练该第二语种编码模块，以确定该语音识别模型；

其中，该第一样本语种特征是基于该第一语种编码模块从该样本全局语种特征中提取的，该第二样本语种特征是基于该第二语种编码模块从该样本全局语种特征中提取的，该样本全局语种特征是基于该公共编码模块从该样本语音数据中提取的。

需要说明的是，图8对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图9，图9是本申请实施例提供的一种计算机设备的组成结构示意图。如图9所示，上述计算机设备90可以包括：处理器901和存储器902。其中，处理器901与存储器902相连，例如处理器901可以通过总线连接到存储器902。可选地，上述计算机设备90还可以包括：网络接口903，其中，网络接口903与处理器901和存储器902相连，例如处理器901可以通过总线连接到存储器902和网络接口903。其中，计算机设备可以是终端设备，也可以是服务器。

处理器901被配置为支持数据识别装置执行上述的数据识别方法中相应的功能。该处理器901可以是中央处理器(Central Processing Unit，CPU)，网络处理器(NetworkProcessor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。

存储器902存储器用于存储程序代码等。存储器902可以包括易失性存储器(Volatile Memory，VM)，例如随机存取存储器(Random Access Memory，RAM)；存储器902也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如只读存储器(Read-OnlyMemory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器902还可以包括上述种类的存储器的组合。

网络接口903用于提供网络通讯功能。

处理器901可以调用该程序代码以执行以下操作：

应当理解，本申请实施例中所描述的计算机设备90可执行前文图3和图6所对应实施例中对上述数据识别方法的描述，也可执行前文图8所对应实施例中对上述数据识别装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器901。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。可选地，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可从计算机可读存储介质读取该计算机指令，处理器可执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据识别方法，其特征在于，包括：

获取待识别的目标语音数据，所述目标语音数据中包括至少两个语种对应的语音数据；

从所述目标语音数据中提取全局语种特征，所述全局语种特征包括所述至少两个语种对应的语种特征和所述至少两个语种对应的时间特征；

分别从所述全局语种特征中提取每个语种的语种特征和所述每个语种对应的时间特征，并基于所述至少两个语种对应的时间特征对所述至少两个语种的特征矩阵进行特征相加，得到融合特征矩阵；其中，所述至少两个语种的语种特征包括至少两个特征矩阵，一个语种的语种特征对应一个特征矩阵；

基于所述融合特征矩阵确定所述目标语音数据的目标识别结果，所述目标识别结果用于反映所述目标语音数据包括的至少两个语种对应的文字内容。

2.根据权利要求1所述的方法，其特征在于，所述至少两个语种包括第一语种和第二语种，所述至少两个语种的特征矩阵包括所述第一语种对应的第一特征矩阵和所述第二语种对应的第二特征矩阵；

所述基于所述至少两个语种对应的时间特征对所述至少两个语种的特征矩阵进行特征相加，得到融合特征矩阵，包括：

基于所述第一语种对应的时间特征和所述第二语种对应的时间特征，按照从前到后对所述第一特征矩阵和所述第二特征矩阵进行排序，得到排列顺序；

按照所述排列顺序对所述第一特征矩阵和所述第二特征矩阵进行特征相加，得到融合特征矩阵。

3.根据权利要求1所述的方法，其特征在于，所述至少两个语种包括第一语种和第二语种；

所述从所述目标语音数据中提取全局语种特征，包括：

基于公共编码模块从所述目标语音数据中提取全局语种特征；

所述从所述全局语种特征中提取所述至少两个语种的语种特征，包括：

基于第一语种编码模块从所述全局语种特征中提取所述第一语种的语种特征，基于第二语种编码模块从所述全局语种特征中提取所述第二语种的语种特征。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当获取到针对所述目标识别结果的修改指令时，获取更新语音数据，并确定所述更新语音数据的识别结果，所述修改指令用于指示对所述目标识别结果进行修改；

若所述更新语音数据的识别结果与所述目标识别结果之间的重合度大于重合度阈值，则基于所述更新语音数据的识别结果调整所述目标识别结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别的样本语音数据，所述样本语音数据中包括至少两个样本语种对应的语音数据；

从所述样本语音数据中提取样本全局语种特征，所述样本全局语种特征包括至少两个样本语种对应的语种特征和所述至少两个样本语种对应的时间特征；

分别从所述样本全局语种特征中提取每个样本语种的语种特征和所述每个样本语种对应的时间特征，并基于所述至少两个样本语种的语种特征和所述至少两个样本语种对应的时间特征确定所述样本语音数据的样本识别结果，所述样本识别结果用于反映所述样本语音数据包括的至少两个语种对应的文字内容；

获取所述样本语音数据的样本文字标签，基于所述样本文字标签和所述样本识别结果，训练得到语音识别模型，所述目标语音数据的目标识别结果是基于所述语音识别模型确定的。

6.根据权利要求5所述的方法，其特征在于，所述语音识别模型中包括公共编码模块、第一语种编码模块和第二语种编码模块，所述至少两个样本语种包括第一样本语种和第二样本语种；

所述基于所述样本文字标签和所述样本识别结果，训练得到语音识别模型，包括：

获取所述样本文字标签中的第一样本语种标签，基于所述第一样本语种标签和所述第一样本语种特征训练所述第一语种编码模块；

获取所述样本文字标签中的第二样本语种标签，基于所述第二样本语种标签和所述第二样本语种特征训练所述第二语种编码模块，以确定所述语音识别模型；

其中，所述第一样本语种特征是基于所述第一语种编码模块从所述样本全局语种特征中提取的，所述第二样本语种特征是基于所述第二语种编码模块从所述样本全局语种特征中提取的，所述样本全局语种特征是基于所述公共编码模块从所述样本语音数据中提取的。

7.一种数据识别装置，其特征在于，包括：

数据获取单元，用于获取待识别的目标语音数据，所述目标语音数据中包括至少两个语种对应的语音数据；

特征提取单元，用于从所述目标语音数据中提取全局语种特征，所述全局语种特征包括所述至少两个语种对应的语种特征和所述至少两个语种对应的时间特征；

结果确定单元，用于分别从所述全局语种特征中提取每个语种的语种特征和所述每个语种对应的时间特征，并基于所述至少两个语种对应的时间特征对所述至少两个语种的特征矩阵进行特征相加，得到融合特征矩阵，基于所述融合特征矩阵确定所述目标语音数据的目标识别结果；其中，所述至少两个语种的语种特征包括至少两个特征矩阵，一个语种的语种特征对应一个特征矩阵，所述目标识别结果用于反映所述目标语音数据包括的至少两个语种对应的文字内容。

8.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-6任一项所述的方法。