CN112466287B

CN112466287B - 一种语音分割方法、装置以及计算机可读存储介质

Info

Publication number: CN112466287B
Application number: CN202011343041.2A
Authority: CN
Inventors: 郭理勇; 陈晓宇; 曾晨晨; 李志飞
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Go Out And Ask Suzhou Information Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-06-27
Anticipated expiration: 2040-11-25
Also published as: CN112466287A

Abstract

本发明公开了一种语音分割方法、装置以及计算机可读存储介质，包括获取语音输入信息根据所获取的语音输入信息，生成对应的文本信息，其中文本信息中包括多个语句片段；获取每个语句片段在语音输入信息中的第一时间点和第二时间点，其中第一时间点表征语句片段的起始时间戳，第二时间点表征语句片段的结尾时间戳；根据第一时间点和第二时间点，获取语音输入信息中的语音片段。本方案通过将语音输入信息转换为文本，利用文本中的语句段确定第一时间点和第二时间点，再利用第一时间点和第二时间点作为语音分割点来分割语音输入信息以得到语音片段，以此获取的语音片段中只对应一个目标对象，可提升后续聚类时的准确度。

Description

一种语音分割方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音分割方法、装置以及计算机可读存储介质。

背景技术

话者分离技术主要面向的是多个话者不同时发声的场景，它解决的是“什么时候由谁说”这样一个问题，目前的话者分离技术中的一个重要过程是说话人分割，而目前说话人分割往往凭借行业经验对语音数据进行均匀分割，这样容易出现某个语音片段中同时存在多个话者，导致在后续聚类过程中将该语音片段的边界部分被错分给相邻说话人，准确度不高。

发明内容

本发明实施例提供了一种语音分割方法、装置以及计算机可读存储介质，具有将分割后的语音片段只属于一个目标对象，以提升后续聚类时准确度的技术效果。

本发明一方面提供一种语音分割方法，所述方法包括：获取语音输入信息，其中所述语音输入信息包括对应于多个目标对象并且独立的语音片段；根据所获取的语音输入信息，生成对应的文本信息，其中所述文本信息中包括多个语句片段；获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，其中所述第一时间点表征所述语句片段的起始时间戳，所述第二时间点表征所述语句片段的结尾时间戳；根据所述第一时间点和第二时间点，获取所述语音输入信息中的语音片段。

在一可实施方式中，所述根据所获取的语音输入信息，生成对应的文本信息，包括：通过语音识别系统将所述语音输入信息转为连续的文本信息；通过基于自然语言理解的标点模型对所述连续的文本信息进行断句处理，以生成包括多个语句片段的文本信息。

在一可实施方式中，所述获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，包括：识别所述文本信息中对应同一目标对象且连续的语句片段；获取所述同一目标对象且连续的语句片段中第一个语句片段的第一时间点和最后一个语句片段的第二时间点。

在一可实施方式中，在获取所述语音输入信息中的语音片段之后，所述方法还包括：通过声纹识别技术确定每个所述语音片段所对应的目标对象。

在一可实施方式中，在确定每个所述语音片段所对应的目标对象之后，所述方法还包括：对所确定的语音片段进行聚类处理，以使每个分类中只包含同一目标对象的语音片段。

在一可实施方式中，在根据所获取的语音输入信息，生成对应的文本信息之前，所述方法还包括：利用语音活动检测技术去除所述语音输入信息中表征非语音段的子信息；根据经去除所述子信息后的语音输入信息，生成对应的文本信息。

本发明另一方面提供一种语音分割装置，所述装置包括：信息获取模块，用于获取语音输入信息，其中所述语音输入信息包括对应于多个目标对象并且独立的语音片段；文本生成模块，用于根据所获取的语音输入信息，生成对应的文本信息，其中所述文本信息中包括多个语句片段；时间点获取模块，用于获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，其中所述第一时间点表征所述语句片段的起始时间戳，所述第二时间点表征所述语句片段的结尾时间戳；语音片段获取模块，用于根据所述第一时间点和第二时间点，获取所述语音输入信息中的语音片段。

在一可实施方式中，所述信息获取模块具体用于：通过语音识别系统将所述语音输入信息转为连续的文本信息；通过基于自然语言理解的标点模型对所述连续的文本信息进行断句处理，以生成包括多个语句片段的文本信息。

在一可实施方式中，所述时间点获取模块具体用于：识别所述文本信息中对应同一目标对象且连续的语句片段；获取所述同一目标对象且连续的语句片段中第一个语句片段的第一时间点和最后一个语句片段的第二时间点。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的语音分割方法。

在本发明实施例中，本方案通过将语音输入信息转换为文本，利用文本中的语句段确定第一时间点和第二时间点，再利用第一时间点和第二时间点作为语音分割点来分割语音输入信息以得到语音片段，以此获取的语音片段中只对应一个目标对象，以提升后续聚类时的准确度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音分割方法的实现流程示意图；

图2为本发明实施例一种语音分割方法中具体实现过程示例图；

图3为本发明实施例一种语音分割装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语音分割方法的实现流程示意图；

请参考图1和图2，本发明一方面提供一种语音分割方法，方法包括：

步骤101，获取语音输入信息，其中语音输入信息包括对应于多个目标对象并且独立的语音片段；

步骤102，根据所获取的语音输入信息，生成对应的文本信息，其中文本信息中包括多个语句片段；

步骤103，获取每个语句片段在语音输入信息中的第一时间点和第二时间点，其中第一时间点表征语句片段的起始时间戳，第二时间点表征语句片段的结尾时间戳；

步骤104，根据所述第一时间点和第二时间点，获取语音输入信息中的语音片段。

本实施例中，在步骤101中，目标对象可以是人类或者动物，也可以是具备语音功能的机器人或者智能终端，智能终端包括手机、平板和手环等等。“独立”表示为任意两个语音片段互不重叠，即同一个语音片段中不同时存在两个目标对象，可参考图2所示，图2中假设语音输入信息依次由四个语音片段组成，“A”、“B”、“C”表示三个目标对象，“A”对应片段1和片段4，“B”对应片段2，“C”对应片段3，可见例如片段1和片段2之间没有信息重叠，那么片段1和片段2为独立的。

在步骤102中，包含多个语句片段的文本信息的生成方式为：首先可以通过现有的自动语音识别技术(ASR)对语音输入信息进行识别得到连续的文本信息，根据语音输入信息中语音停顿时长来判定或者是利用基于自然语言理解的标点模型对连续的文本信息进行断句处理，进而获得包含多个语句片段的文本信息。以图2为例，若语音输入信息片段1中包含若干个文本“a”、“b”、“c”…“j”，经过上述步骤得到的文本信息可能为“abc，de，fghij。”，同理，片段2、片段3以及片段4的文本信息分别为“ab，cde。”，“abcd，ef，gh。”，“a，bc，de。”。

在步骤103中，在通过自动语音识别技术对语音输入信息进行识别得到文本信息的同时，在后台还会记录每个字符的时间戳，时间戳包括起始时间戳和结尾时间戳，以图2中片段1所对应的文本信息为例，生成的第一时间点和第二时间点分别为“abc”、“de”和“fghij”的左边和右边，图中“1”表示起始时间戳，“2”表示结尾时间戳，同理，片段2、片段3和片段4所对应的文本信息的第一时间点和第二时间点标记如图2所示。

在步骤104中，语音输入信息根据第一时间点和第二时间点作为分割点来分割得到语音片段。

由此，本方案通过将语音输入信息转换为文本，利用文本中的语句段确定第一时间点和第二时间点，再利用第一时间点和第二时间点作为语音分割点来分割语音输入信息以得到语音片段，以此获取的语音片段中只对应一个目标对象，以提升后续聚类时的准确度。

在一可实施方式中，根据所获取的语音输入信息，生成对应的文本信息，包括：

通过语音识别系统将语音输入信息转为连续的文本信息；

通过基于自然语言理解的标点模型对连续的文本信息进行断句处理，以生成包括多个语句片段的文本信息。

本实施例中，步骤101的具体过程优选为：将语音输入信息作为语音识别系统的输入，输出得到连续的文本信息，即文本信息中没有用于区分语句片段的分割标识，接着将连续的文本信息输入于现有的基于自然语言理解的标点模型进行处理，以生成包括多个语句片段的文本信息，效果可见图2所示，其中标点模型训练时，将词向量、标点映射标签作为模型的输入进行模型训练。

在一可实施方式中，获取每个语句片段获取每个所述语句片段在语音输入信息中的第一时间点和第二时间点，包括：

识别文本信息中对应同一目标对象且连续的语句片段；

获取同一目标对象且连续的语句片段中第一个语句片段的第一时间点和最后一个语句片段的第二时间点。

本实施例中，步骤103的具体过程优选为：可以通过基于自然语言处理的文本分类模型来识别文本信息中对应同一目标对象且连续的语句片段，接着将该连续的语句片段中的第一个语句片段的第一时间点和最后一个语句片段的第二时间点，其中文本分类模型可以是文本卷积神经网络、文本循环神经网络等等，效果以图2中的片段1为例，对经文本分类模型对步骤102中的文本信息进行识别，识别得到“abc，de，fghij”是属于目标对象A，那么直接在第一个语句片段“abc”设置起始时间点，在最后一个语句片段“fghij”设置结尾时间点。

由此，可减少步骤104中利用第一时间点和第二时间点获取语音输入信息中的语音片段的运算时间以及运算量，以提供运行效率。此外，还可以为后续语音片段聚类时减少聚类的判断次数以进一步减少运算量。

在一可实施方式中，在获取语音输入信息中的语音片段之后，方法还包括：

通过声纹识别技术确定每个语音片段所对应的目标对象。

本实施例中，声纹识别技术主要用于对每个语音片段的特征提取并根据所提取的特征进行特征比对，其中特征包括频谱、倒频谱、共振峰、基音、反射系数等等。特征比对方式是将所提取的特征作为已预训练好的声纹模型的输入，以与预存的声纹特征进行特征相似度匹配，以输出得到每个语音片段所对应的目标对象。以图2为例，将语音片段1、片段2、片段3和片段4分别通过声纹识别技术进行识别，便可得到片段1和片段4属于目标对象A，片段2属于目标对象B，片段3属于目标对象C。

在一可实施方式中，在确定每个语音片段所对应的目标对象之后，方法还包括：

对所确定的语音片段进行聚类处理，以使每个分类中只包含同一目标对象的语音片段。

本实施例中，聚类方法可以是自顶向下聚类的方式，也可以是自底向上聚类的方式，用于属于同一个说话人的语音片段进行合并。以图2为例，经过聚类算法之后，可见属于目标对象A的语音片段为片段1和片段4。

在一可实施方式中，在根据所获取的语音输入信息，生成对应的文本信息之前，方法还包括：

利用语音活动检测技术去除语音输入信息中表征非语音段的子信息；

根据经去除子信息后的语音输入信息，生成对应的文本信息。

本实施例中，非语音段可能包含有静音、笑声、音乐、室内噪声或者背景噪声，语音活动检测技术用于去除上述非语音段以确定语音输入信息中包含有说话人语音的区域。

接着利用语音识别技术将经去除子信息后的语音输入信息，生成对应的文本信息，以提高后续聚类时的精准度。

图3为本发明实施例一种语音分割装置的结构组成示意图。

如图3所示，本发明实施例另一方面提供一种语音分割装置，装置包括：

信息获取模块201，用于获取语音输入信息，其中语音输入信息包括对应于多个目标对象并且独立的语音片段；

文本生成模块202，用于根据所获取的语音输入信息，生成对应的文本信息，其中文本信息中包括多个语句片段；

时间点获取模块203，用于获取每个语句片段在语音输入信息中的第一时间点和第二时间点，其中第一时间点表征语句片段的起始时间戳，第二时间点表征语句片段的结尾时间戳；

语音片段获取模块204，用于根据第一时间点和第二时间点，获取语音输入信息中的语音片段。

本实施例中，在信息获取模块201中，目标对象可以是人类或者动物，也可以是具备语音功能的机器人或者智能终端，智能终端包括手机、平板和手环等等。“独立”表示为任意两个语音片段互不重叠，即同一个语音片段中不同时存在两个目标对象，可参考图2所示，图2中假设语音输入信息依次由四个语音片段组成，“A”、“B”、“C”表示三个目标对象，“A”对应片段1和片段4，“B”对应片段2，“C”对应片段3，可见例如片段1和片段2之间没有信息重叠，那么片段1和片段2为独立的。

在文本生成模块202中，包含多个语句片段的文本信息的生成方式为：首先可以通过现有的自动语音识别技术(ASR)对语音输入信息进行识别得到连续的文本信息，根据语音输入信息中语音停顿时长来判定或者是利用基于自然语言理解的标点模型对连续的文本信息进行断句处理，进而获得包含多个语句片段的文本信息。以图2为例，若语音输入信息片段1中包含若干个文本“a”、“b”、“c”…“j”，经过上述步骤得到的文本信息可能为“abc，de，fghij。”，同理，片段2、片段3以及片段4的文本信息分别为“ab，cde。”，“abcd，ef，gh。”，“a，bc，de。”。

在时间点获取模块203中，在通过自动语音识别技术对语音输入信息进行识别得到文本信息的同时，在后台还会记录每个字符的时间戳，时间戳包括起始时间戳和结尾时间戳，以图2中片段1所对应的文本信息为例，生成的第一时间点和第二时间点分别为“abc”、“de”和“fghij”的左边和右边，图中“1”表示起始时间戳，“2”表示结尾时间戳，同理，片段2、片段3和片段4所对应的文本信息的第一时间点和第二时间点标记如图2所示。

在语音片段获取模块204中，语音输入信息根据第一时间点和第二时间点作为分割点来分割得到语音片段。

在一可实施方式中，信息获取模块201具体用于：

通过语音识别系统将语音输入信息转为连续的文本信息；

本实施例中，信息获取模块201的具体用于：将语音输入信息作为语音识别系统的输入，输出得到连续的文本信息，即文本信息中没有用于区分语句片段的分割标识，接着将连续的文本信息输入于现有的基于自然语言理解的标点模型进行处理，以生成包括多个语句片段的文本信息，效果可见图2所示，其中标点模型训练时，将词向量、标点映射标签作为模型的输入进行模型训练。

在一可实施方式中，时间点获取模块203具体用于：

识别文本信息中对应同一目标对象且连续的语句片段；

本实施例中，时间点获取模块203具体用于：可以通过基于自然语言处理的文本分类模型来识别文本信息中对应同一目标对象且连续的语句片段，接着将该连续的语句片段中的第一个语句片段的第一时间点和最后一个语句片段的第二时间点，其中文本分类模型可以是文本卷积神经网络、文本循环神经网络等等，效果以图2中的片段1为例，对经文本分类模型对步骤102中的文本信息进行识别，识别得到“abc，de，fghij”是属于目标对象A，那么直接在第一个语句片段“abc”设置起始时间点，在最后一个语句片段“fghij”设置结尾时间点。

由此，可减少语音片段获取模块204中利用第一时间点和第二时间点获取语音输入信息中的语音片段的运算时间以及运算量，以提供运行效率。此外，还可以为后续语音片段聚类时减少聚类的判断次数以进一步减少运算量。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于获取语音输入信息，其中语音输入信息包括对应于多个目标对象并且独立的语音片段；根据所获取的语音输入信息，生成对应的文本信息，其中文本信息中包括多个语句片段；获取每个语句片段在语音输入信息中的第一时间点和第二时间点，其中第一时间点表征语句片段的起始时间戳，第二时间点表征语句片段的结尾时间戳；根据所述第一时间点和第二时间点，获取语音输入信息中的语音片段。

由此，本方案通过将语音输入信息转换为文本，利用文本中的语句段确定第一时间点和第二时间点，再利用第一时间点和第二时间点作为语音分割点来分割语音输入信息以得到语音片段，以此获取的语音片段中只对应一个目标对象，可提升后续聚类时的准确度。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音分割方法，其特征在于，所述方法包括：

获取语音输入信息，其中所述语音输入信息包括对应于多个目标对象并且独立的语音片段，所述独立的语音片段表示互不重叠的任意两个语音片段，用于表征同一个语音片段中不同时存在两个目标对象；

根据所获取的语音输入信息，生成对应的文本信息，其中所述文本信息中包括多个语句片段；

获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，其中所述第一时间点表征所述语句片段的起始时间戳，所述第二时间点表征所述语句片段的结尾时间戳；

根据所述第一时间点和第二时间点，获取所述语音输入信息中的语音片段；

其中，所述获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，包括：

识别所述文本信息中对应同一目标对象且连续的语句片段；

获取所述同一目标对象且连续的语句片段中第一个语句片段的第一时间点和最后一个语句片段的第二时间点。

2.根据权利要求1所述的方法，其特征在于，所述根据所获取的语音输入信息，生成对应的文本信息，包括：

通过语音识别系统将所述语音输入信息转为连续的文本信息；

通过基于自然语言理解的标点模型对所述连续的文本信息进行断句处理，以生成包括多个语句片段的文本信息。

3.根据权利要求1所述的方法，其特征在于，在获取所述语音输入信息中的语音片段之后，所述方法还包括：

通过声纹识别技术确定每个所述语音片段所对应的目标对象。

4.根据权利要求3所述的方法，其特征在于，在确定每个所述语音片段所对应的目标对象之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在根据所获取的语音输入信息，生成对应的文本信息之前，所述方法还包括：

利用语音活动检测技术去除所述语音输入信息中表征非语音段的子信息；

根据经去除所述子信息后的语音输入信息，生成对应的文本信息。

6.一种语音分割装置，其特征在于，所述装置包括：

信息获取模块，用于获取语音输入信息，其中所述语音输入信息包括对应于多个目标对象并且独立的语音片段，所述独立的语音片段表示互不重叠的任意两个语音片段，用于表征同一个语音片段中不同时存在两个目标对象；

文本生成模块，用于根据所获取的语音输入信息，生成对应的文本信息，其中所述文本信息中包括多个语句片段；

时间点获取模块，用于获取每个所述语句片段在所述语音输入信息中的第一时间点和第二时间点，其中所述第一时间点表征所述语句片段的起始时间戳，所述第二时间点表征所述语句片段的结尾时间戳；

语音片段获取模块，用于根据所述第一时间点和第二时间点，获取所述语音输入信息中的语音片段；

其中，所述时间点获取模块具体用于：

识别所述文本信息中对应同一目标对象且连续的语句片段；

7.根据权利要求6所述的装置，其特征在于，所述信息获取模块具体用于：

8.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的语音分割方法。