CN111613208B

CN111613208B - 一种语种识别方法和设备

Info

Publication number: CN111613208B
Application number: CN202010443438.2A
Authority: CN
Inventors: 李旭滨; 范红亮
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-08-25
Anticipated expiration: 2040-05-22
Also published as: CN111613208A

Abstract

本发明提出了一种语种识别方法和设备，该方法包括：将待识别音频分为语音部分与非语音部分；将所述语音部分切分为多个语音片段；对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别，可以实时在线的进行语种识别，相较于目前的人工识别方式，提升了效率，降低了成本，便于后续的语音处理，例如会议记录转写，智能电话机器人或酒店多国语言版本等智能设备等，使用方便，且语音转写可以实现更高的准确率。

Description

一种语种识别方法和设备

技术领域

本发明涉及语种识别领域，特别涉及一种语种识别方法和设备。

背景技术

目前在很多领域，例如会议或人工智能或者语音识别等方面，涉及到大量的语音数据需要识别，具体的需要确定语音是什么语种，在确定了语种之后，可以方便进行后续的处理，例如可以方便进行精确的语义识别，且在实际应用的某些场景，例如在翻译场景下，其具体的语音数据很可能会涉及到大量的语种夹杂的情况。

现有的语种识别，很大程度是依赖人工的方式来进行的，但是这种方式效率低下，且目前需要识别的数据量是海量的，人工的方式无法及时有效的进行识别。

由此，目前需要一种更好的方法以解决该缺陷。

发明内容

针对现有技术中的缺陷，本发明提出了一种语种识别方法和设备，本方案实现了语音的自动化语种识别，可以实时在线的进行语种识别，相较于目前的人工识别方式，提升了效率，降低了成本，便于后续的语音处理，例如会议记录转写，智能电话机器人或酒店多国语言版本等智能设备等，使用方便，且语音转写可以实现更高的准确率。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种语种识别方法，包括：

将待识别音频分为语音部分与非语音部分；

将所述语音部分切分为多个语音片段；

对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；

汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。

在一个具体的实施例中，还包括：

接收实时在线的语音数据，并将所述语音数据设置为待识别音频；或

获取离线的待识别音频。

在一个具体的实施例中，所述将所述语音部分切分为多个语音片段，包括：

将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段；

若时间最后的一个语音片段的时间长度小于预设值，则将时间最后的一个语音片段与相邻的语音片段进行合并。

在一个具体的实施例中，所述将待识别音频分为语音部分与非语音部分，包括：

通过VAD对待识别音频进行切分，以将所述待识别音频分为语音部分与非语音部分。

在一个具体的实施例中，切分后得到的各所述语音片段包括前后扩帧和/或overlap。

在一个具体的实施例中，所述对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种，包括：

通过预设的训练好的语种模型对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；其中，所述语种模型是基于标识有语种的音频进行训练生成的。

在一个具体的实施例中，所述汇总的操作包括以下一个或多个的任意组合：将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种，其中，所述预设语音片段处于前后相邻语音片段之间，且前后相邻语音片段对应的语种相同，所述预设语音片段的时间长度小于预设时长。

本发明实施例还提出了一种语种识别设备，包括：

第一切分模块、用于将待识别音频分为语音部分与非语音部分；

第二切分模块，用于将所述语音部分切分为多个语音片段；

识别模块，用于对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；

汇总模块，用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。

在一个具体的实施例中，还包括：

获取模块，用于接收实时在线的语音数据，并将所述语音数据设置为待识别音频；或

获取离线的待识别音频。

在一个具体的实施例中，所述第一切分模块，用于：

以此，本发明实施例提出了一种语种识别方法和设备，该方法包括：将待识别音频分为语音部分与非语音部分；将所述语音部分切分为多个语音片段；对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别，可以实时在线的进行语种识别，相较于目前的人工识别方式，提升了效率，降低了成本，便于后续的语音处理，例如会议记录转写，智能电话机器人或酒店多国语言版本等智能设备等，使用方便，且语音转写可以实现更高的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种语种识别方法的流程示意图；

图2为本发明实施例提出的一种语种识别方法的流程示意图；

图3为本发明实施例提出的一种语种识别设备的结构示意图；

图4为本发明实施例提出的一种语种识别设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种语种识别方法，如图1所示，包括以下步骤：

步骤101、将待识别音频分为语音部分与非语音部分；

具体的，在步骤101之前，本方案还可以包括：

获取离线的待识别音频。

具体的，本方案可以针对实时在线的语音数据，也可以针对离线的语音数据来进行的处理，具体的，在针对在线的语音数据时，本方案可以采用流式处理的方式来进行。

此外，具体的，步骤101中的所述将待识别音频分为语音部分与非语音部分，包括：

具体的，可以基于VAD(Voice Activity Detection，语音活动检测)的方式来对待识别音频进行切分，并剔除出非语音部分，以此提高语音效率，具体的可以如图2所示语音部分为speech1或speech2。

步骤102、将所述语音部分切分为多个语音片段；

具体的如图2所示，语音片段可以为seg1、seg2、seg3、···seg7。

在一个具体的实施例中，步骤102中的所述将所述语音部分切分为多个语音片段，包括：

具体的，预设时间长度可以设置为例如500ms,预设值例如可以设置为300ms,以此为例来进行说明，将语音部分切分为互不重叠的一个个语音片段，具体每个语音片段长度为500ms。其中，若最后一个语音片段长度如果不足300ms则与前一个语音片段拼接为一个较长语音片段；最后一个语音片段如果大于等于300ms，但是小于500ms，则可以单独作为一个语音片段。

本方案中的切分原则中认为在切分出的一个个语音片段里面，仅有一个语种，因此每个语音片段长度设置不能太长也不能太短，一般为几百毫秒，经过试验，500ms是一个较优的实施例，此外，根据具体应用场景的不同，预设时间长度还可以设置为例如400-600ms之间的某个值,预设值例如可以设置为250-350ms之间的某个值。

具体的，为了利于后续更好的识别过程，切分后得到的各所述语音片段包括前后扩帧和/或overlap。

将语音部分切为一个个小的语音片段(speech segment)，并提取各个片段的特征。其中，语音片段有前后扩帧和/或overlap(重叠部分)效果会更好，具体的，本方案中对所述语音片段进行处理时，采用了前后扩帧和/或overlap的技术，能极大提高该片段的信息提取准确性以及系统整体的性能。其中，“前后扩帧”是指在提取语音片段的信息时，虽然是逐帧处理的，但是在处理时不会仅处理当前帧的信息，而且会将其前后几帧一起包括进来做处理，即总的获取到的信息是包括“上下文信息”的当前帧的信息，在此情况下，前后扩帧也即是当前帧的前后几帧。

至于Overlap则是指，在逐帧提取信息的过程中，“当前帧”的移动方式是重叠式的(overlap)的。重叠式是指，例如每帧的窗长为25ms，窗移为10ms，即当前帧和下一帧会有一个15ms的重叠；以此提取到的信息更准确。

步骤103、对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；

具体的，步骤103中的所述对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种，包括：

具体的，语种模型可以为神经网络模型，或者深度学习模型等，具体的语种模型是基于样本数据来进行训练得到的，样本数据中各音频对应有语种。

具体的，进行语种识别后，对应的语种为lang1、lang2等等。

步骤104、汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。

在一个具体的实施例中，如图2所示，为smoothing过程，步骤104中所述汇总的操作包括以下一个或多个的任意组合：将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种，其中，所述预设语音片段处于前后相邻语音片段之间，且前后相邻语音片段对应的语种相同，所述预设语音片段的时间长度小于预时长。

具体的，步骤104中可以通过平滑处理，将相邻的通语音合并，以及将一些过短的和相邻不同语种的片段“抹平”(例如可能是一个语种中夹杂了其他语种)，最终得到各个语种的时间段。

平滑处理包括两种情况：合并和抹平。其中，合并是指将同属同一个语种的相邻语音片段合并。至于抹平则是指，如果在同属同一个语种A的两段语音片段中夹杂着其他语种B的语音片段，而这个语种B的语音片段的长度又很小(小于预设阈值)，那么可以将其语种从B修改为A(抹平的含义是过短的且和相邻语音片段判决不同的语音片段，将其判决修改为和相邻判决一样的语种)。

实施例2

本发明实施例2还公开了一种语种识别设备，如图3所示，包括：

第一切分模块201、用于将待识别音频分为语音部分与非语音部分；

第二切分模块202，用于将所述语音部分切分为多个语音片段；

识别模块203，用于对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种；

汇总模块204，用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。

在一个具体的实施例中，如图4所示，该设备还包括：

获取模块205，用于接收实时在线的语音数据，并将所述语音数据设置为待识别音频；或

获取离线的待识别音频。

在一个具体的实施例中，所述第一切分模块201，用于：

在一个具体的实施例中，第二切分模块202，用于：

在一个具体的实施例中，所述识别模块203，用于：

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种语种识别方法，其特征在于，包括：

将待识别音频分为语音部分与非语音部分；

将所述语音部分切分为多个语音片段；

其中，所述将所述语音部分切分为多个语音片段，包括：

将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段，其中，切分出的一个个语音片段里面仅有一个语种；

若时间最后的一个语音片段的时间长度小于预设值，则将时间最后的一个语音片段与相邻的语音片段进行合并；

汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段；

其中，所述汇总的操作包括以下一个或多个的任意组合：将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种，其中，所述预设语音片段处于前后相邻语音片段之间，且前后相邻语音片段对应的语种相同，所述预设语音片段的时间长度小于预设时长。

2.如权利要求1所述的一种语种识别方法，其特征在于，还包括：

获取离线的待识别音频。

3.如权利要求1所述的一种语种识别方法，其特征在于，所述将待识别音频分为语音部分与非语音部分，包括：

4.如权利要求1所述的一种语种识别方法，其特征在于，切分后得到的各所述语音片段包括前后扩帧和/或overlap。

5.如权利要求1所述的一种语种识别方法，其特征在于，所述对各所述语音片段进行语种识别，以确定各所述语音片段对应的语种，包括：

6.一种语种识别设备，其特征在于，包括：

第二切分模块，用于将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段，其中，切分出的一个个语音片段里面仅有一个语种；若时间最后的一个语音片段的时间长度小于预设值，则将时间最后的一个语音片段与相邻的语音片段进行合并；

汇总模块，用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段；

所述汇总模块还用执行的操作包括以下一个或多个的任意组合：将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种，其中，所述预设语音片段处于前后相邻语音片段之间，且前后相邻语音片段对应的语种相同，所述预设语音片段的时间长度小于预设时长。

7.如权利要求6所述的一种语种识别设备，其特征在于，还包括：

获取离线的待识别音频。

8.如权利要求6所述的一种语种识别设备，其特征在于，所述第一切分模块，用于：