CN114116978A

CN114116978A - 语音与文本的对齐方法、装置、电子设备及可读介质

Info

Publication number: CN114116978A
Application number: CN202111420816.6A
Authority: CN
Inventors: 陈春旭; 王影
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01

Abstract

本公开涉及一种语音与文本的对齐方法、装置、电子设备及计算机可读介质。该方法包括：获取待识别音频与标准话术文本；对所述待识别音频进行识别，获得B个第二文本，第二文本包括起始时间；确定与第a个第一文本匹配的b_a个第二文本；根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间；将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于所述最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。本公开涉及的语音与文本的对齐方法、装置、电子设备及计算机可读介质，能够基于文本的合理时间范围进行语音与文本的匹配，提高语音与文本的对齐的准确率。

Description

语音与文本的对齐方法、装置、电子设备及可读介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种语音与文本的对齐方法、装置、电子设备及计算机可读介质。

背景技术

在银保、自保件双录识别质检场景，需要检验代理人是否完整叙述产品介绍等信息。

目前的语音对齐技术无法较为精确地判断代理人是否完整讲述产品概要，同时也无法较为准确地判断经语音转文本能力(Automatic Speech Recognition，简称ASR)以及语言处理技术(Natural Language Processing，简称NLP)分析后的文本是否为当前时间段的文本，即代理人若在一次阐述的开始与结束说了相同的话术，无法确定匹配到的文本是哪个时间段的，因为NLP进行文字匹配时并不关注时间。

因此，需要一种新的语音与文本的对齐方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的相关技术的信息。

发明内容

有鉴于此，本公开实施例提供一种语音与文本的对齐方法、装置、电子设备及计算机可读介质，能够基于文本的合理时间范围进行语音与文本的匹配，提高语音与文本的对齐的准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种语音与文本的对齐方法，该方法包括：获取待识别音频与标准话术文本，所述标准话术文本包括的A个第一文本，A为大于0的整数；对所述待识别音频进行识别，获得B个第二文本，所述第二文本包括起始时间，B为大于0的整数；确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数；根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间；将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于所述最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

在本公开的一种示例性实施例中，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间包括：将与第a个第一文本匹配的b_a个第二文本的起始时间中的最小值确定为第a个第一文本的第一起始时间；对A个第一文本的第一起始时间进行升序排列获得第一初始序列；对所述第一初始序列进行预处理；对预处理后的所述第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列，m为大于1且小于A的整数；对所述第一修正序列中的元素去重；对去重后的所述第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列；根据所述第二修正序列调整所述第一修正序列，获得最小起始时间序列；将所述最小起始时间序列中第a个元素值确定为第a个第一文本的最小起始时间；根据所述最小起始时间序列和所述第二修正序列确定第a个第一文本的最大起始时间。

在本公开的一种示例性实施例中，对所述第一初始序列进行预处理包括：对所述第一初始序列中第一个元素置0；对最后一个元素置为无穷大值。

在本公开的一种示例性实施例中，对预处理后的所述第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列包括：对预处理后的所述第一初始序列，若第m个元素的元素值为-1，则根据第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；若第m个元素大于或等于第m-1个元素，且第m个元素大于或等于第m+1个元素，则将第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；其中，当b_m为0时，第一初始序列中的第m个元素的元素值为-1。

在本公开的一种示例性实施例中，对去重后的所述第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列包括：对去重后的所述第一修正序列，若第m个元素小于第m-1个元素，则根据第m-1个元素的元素值修正第m个元素的取值。

在本公开的一种示例性实施例中，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间还包括：确定所述第一修正序列的元素序号值i的初始值，与所述第二修正序列的元素序号值j的初始值；所述根据所述第二修正序列调整所述第一修正序列，获得最小起始时间序列包括：若第一修正序列中第i个元素等于第二修正序列中第j个元素，则对i进行加1操作；若第一修正序列中第i个元素小于第二修正序列中第j个元素，则将第一修正序列中第i个元素的取值替换为第二修正序列中第j个元素的取值，并对i进行加1操作；若第一修正序列中第i个元素大于第二修正序列中第j个元素，则对j进行加1操作；返回执行上述步骤，直至i＝A结束后，将调整后的第一修正序列确定为所述最小起始时间序列。

在本公开的一种示例性实施例中，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间还包括：确定最小起始时间序列的元素序号值k的初始值；根据所述最小起始时间序列和所述第二修正序列确定第a个第一文本的最大起始时间包括：确定所述第二修正序列中，与最小起始时间序列中第k个元素的取值相等的元素的元素序号值n；将所述第二修正序列中n+1个元素的取值确定为最大起始时间序列中第k个元素的取值；对k执行加1操作后，返回执行上述步骤，直至k＝A结束后获得所述最大起始时间序列；将所述最大起始时间序列中第a个元素的取值确定为第a个第一文本的最大起始时间。

根据本公开的二方面，提出一种语音与文本的对齐装置，该装置包括：数据获取模块，用于获取待识别音频与标准话术文本，所述标准话术文本包括的A个第一文本，A为大于0的整数；音频识别模块，用于对所述待识别音频进行识别，获得B个第二文本，所述第二文本包括起始时间和结束时间，B为大于0的整数；文本匹配模块，用于确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数；时间定位模块，用于根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间；对齐模块，用于将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于所述最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文中所述的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中所述的方法。

根据本公开一些实施例提供的语音与文本的对齐方法、装置、电子设备及计算机可读介质，根据与标准话术文本中第a个第一文本匹配的b_a个第二文本在待识别音频中的起始时间，能够基于第a个第一文本的最小起始时间与最大起始时间确定待识别音频中与第a个第一文本实际匹配的音频的合理时间范围，避免匹配到错误时间点的第二文本，进而能够提高语音与文本的对齐的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种语音与文本的对齐方法的流程图。

图2是根据另一示例性实施例示出的一种语音与文本的对齐方法的流程图。

图3是根据又一示例性实施例示出的一种语音与文本的对齐方法的流程图。

图4是根据再一示例性实施例示出的一种语音与文本的对齐方法的流程图。

图5是根据再一示例性实施例示出的一种语音与文本的对齐方法的流程图。

图6是根据一示例性实施例示出的一种语音与文本的对齐装置的框图。

图7示意性示出本公开一个示例性实施例中一种电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种语音与文本的对齐方法的流程图。本公开实施例提供的语音与文本的对齐方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器，在下面的实施例中，以服务器执行所述方法为例进行举例说明，但本公开并不限定于此。本公开实施例提供的语音与文本的对齐方法10可以包括步骤S102至S110。

如图1所示，在步骤S102中，获取待识别音频与标准话术文本，标准话术文本包括的A个第一文本，A为大于0的整数。

本公开实施例中，例如在银保、自保件双录识别质检场景中，标准话术文本为要求代理人完整讲述的产品概要文本。待识别音频为接收到的代理人在讲述产品概要文本时录制的音频文件。

在步骤S104中，对待识别音频进行识别，获得B个第二文本，第二文本包括起始时间和结束时间，B为大于0的整数。

其中，可例如对待识别音频进行ASR转写识别，获得B个第二文本。其中无明确的ASR能力指定，可以是自研的ASR能力，也可以是借助其他供应商已有的能力，因为本步的重点在于获取到语音转写的信息。需要获取到的信息有：每个第二文本相对于待识别音频中的起始时间和转写文本内容。

在步骤S106中，确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数。

本公开实施例中，其中，可计算第a个第一文本与B个第二文本的相似度，将相似度大于相似度阈值的第二文本确定为与第a个第一文本匹配的b_a个第二文本。其中，每个第二文本还可包括结束时间，指相对于待识别音频中的结束时间。其中，在确定与第a个第一文本匹配的b_a个第二文本时，可获取与第a-1个第一文本匹配的b_a-1个第二文本，确定该b_a-1个第二文本中每个第二文本的结束时间，将该b_a-1个第二文本中与第a-1个第一文本具有最大相似度的第二文本的结束时间确定为第a-1个结束时间，并将B个第二文本中起始时间小于第a-1个结束时间的第二文本中，与第a个第二文本的相似度大于相似度阈值的第二文本确定为与第a个第一文本匹配的b_a个第二文本。

若对于某一标准话术文本，在ASR转写出的文本可以找到相匹配的文句，则返回匹配到的文句、匹配到的文句所处的开始及结束时间、标准话术文本与匹配文本的相似度等信息。进而，与第a个第一文本匹配的b_a个第二文本中，每个第二文本可包括起始时间、结束时间以及与第a个第一文本的相似度。需要注意的有，由于匹配到的文本可能有多条，因此，返回的结果为嵌套列表，并且以匹配到文句的开始时间从小到大排序。此外，关于文句的相似度可以作为此策略的超参数(阈值)进行结果筛选，即只有匹配文句的文本相似度大于该参数时才会作为结果进行返回。

该步骤的伪代码如下：

在步骤S108中，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间。

在步骤S110中，将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

其中，第a个第一文本匹配的b_a个第二文本中，起始时间大于等于最小起始时间且小于等于最大起始时间的第二文本可为多个，此时可根据该第二文本与第a个第一文本的相似度进行排序，将具有最大相似度或相似度降序排列中的前N个第二本文确定为与第a个第一文本对齐的第二文本，N为大于0且小于等于b_a的整数。

根据本公开实施方式提供的语音与文本的对齐方法，根据与标准话术文本中第a个第一文本匹配的b_a个第二文本在待识别音频中的起始时间，能够基于第a个第一文本的最小起始时间与最大起始时间确定待识别音频中与第a个第一文本实际匹配的音频的合理时间范围，避免匹配到错误时间点的第二文本，进而能够提高语音与文本的对齐的准确率。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

如图2所示，本发明实施例中，上述步骤S108可以进一步包括以下步骤。

在步骤S202中，将与第a个第一文本匹配的b_a个第二文本的起始时间中的最小值确定为第a个第一文本的第一起始时间。

其中，若b_a＝0，则第a个第一文本的第一起始时间为-1。

在步骤S204中，对A个第一文本的第一起始时间进行升序排列获得第一初始序列。

在步骤S206中，对第一初始序列进行预处理。

其中，对第一初始序列进行预处理可包括：对第一初始序列中第一个元素置0；对最后一个元素置为无穷大值。无穷大值可例如为inf。

在步骤S208中，对预处理后的第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列，m为大于1且小于A的整数。

本公开实施例中，对预处理后的第一初始序列，若第m个元素的元素值为-1，则根据第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；

若第m个元素大于或等于第m-1个元素，且第m个元素大于或等于第m+1个元素，则将第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；

其中，当b_m为0时，第一初始序列中的第m个元素的元素值为-1。

在步骤S210中，对第一修正序列中的元素去重。

在步骤S212中，对去重后的第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列。

本公开实施例中，对去重后的第一修正序列，若第m个元素小于第m-1个元素，则可根据第m-1个元素的元素值修正第m个元素的取值。

在步骤S214中，根据第二修正序列调整第一修正序列，获得最小起始时间序列。

在步骤S216中，将最小起始时间序列中第a个元素值确定为第a个第一文本的最小起始时间。

在步骤S218中，根据最小起始时间序列和第二修正序列确定第a个第一文本的最大起始时间。

在本公开实施例中，通过获得的第一修正序列和第二修正序列，对第一修正序列进行调整，能够获得合理描述每个第一文本对应的待识别音频中起始时间的最小值与最大值，提高语音对齐的准确率。

如图3所示，本公开实施例中，上述步骤S108还可以包括：确定第一修正序列的元素序号值i的初始值，与第二修正序列的元素序号值j的初始值。其中，i的初始值可为0，j的初始值可为0。

上述步骤S214可以包括以下步骤S302至S308。

在步骤S302中,若第一修正序列中第i个元素等于第二修正序列中第j个元素，则对i进行加1操作。

在步骤S304中，若第一修正序列中第i个元素小于第二修正序列中第j个元素，则将第一修正序列中第i个元素的取值替换为第二修正序列中第j个元素的取值，并对i进行加1操作。

在步骤S306中，若第一修正序列中第i个元素大于第二修正序列中第j个元素，则对j进行加1操作。

在步骤S308中，返回执行上述步骤S302至S306，直至i＝A结束后，将调整后的第一修正序列确定为最小起始时间序列。

如图4所示，本公开实施例中，上述步骤S108还可以包括：确定最小起始时间序列的元素序号值k的初始值。其中，k的初始值可为0。

上述步骤S218可以包括以下步骤S402至S408。

在步骤S402中，确定第二修正序列中，与最小起始时间序列中第k个元素的取值相等的元素的元素序号值n。n为大于等于0的整数。

在步骤S404中，将第二修正序列中n+1个元素的取值确定为最大起始时间序列中第k个元素的取值；

在步骤S406中，若k<A，则对k执行加1操作后，返回执行上述步骤S402至S406，直至k＝A结束后获得最大起始时间序列；

在步骤S408中，将最大起始时间序列中第a个元素的取值确定为第a个第一文本的最大起始时间。

如图5所示，本公开实施例的语音与文本的对齐方法可包括文字匹配输出策略S510和文字整合时间筛选策略S520。

其中，文字匹配输出策略S510中，可通过ASR转写获得待识别音频的B个第二文本，并确定与第a个第一文本匹配的b_a个第二文本。待识别音频的获取方式可包括：下载音频、下载视频并提取音频。

确定与第a个第一文本匹配的b_a个第二文本时，可通过NLP算法对标准话术文本以及ASR转写文本(即第二文本)进行匹配，具体为对每一句标准话术文本(即第一文本)进行文字匹配。其中NLP算法无特别制定，因为本步的重点在于以下处理策略：

若对于某一标准话术文本，无法在ASR转写出的文本找到相匹配的文句，则返回空值。

若对于某一标准话术文本，在第二文本中可以找到相匹配(即相似度大于相似度阈值)的文句，则返回匹配到的文句、匹配到的文句所处的开始时间及结束时间、标准话术文本与该匹配的第二文本的相似度等信息。需要注意的是，由于匹配到的文本可能有多条(b_a条)，因此，返回的结果为嵌套列表，并且以匹配到第二文本的开始时间从小到大排序。此外，关于文句的相似度可以作为此策略的超参数(阈值)进行结果筛选，即只有文本相似度大于该参数的第二文本才会作为结果进行返回。该步骤的伪代码可见前述提及的算法1。

文字整合时间筛选策略S520主要对NLP的输出结果进行整合分析，具体步骤如下S522至S528。

在步骤S522，遍历NLP的输出结果，记录并保存每一个标准话术文本匹配到的第二文本中最小的开始时间(即第一起始时间)，若标准话术文本没有匹配到的第二文本项，则记录使用-1值占位，将A个第一起始时间整合为一列表。

在步骤S524中，由于标准话术文本是按照时间线排序的，因此对于获取到的A个第一起始时间从左至右进行升序修改，获得第一初始序列sen_start_time具体方式为：并执行如下步骤S5242至S5248。

在步骤S5242中，修改sen_start_time的第一个元素为0，最后一个元素为Inf。

在步骤S5244中，第一次从左至右遍历修改后的第一初始序列sen_start_time，对于每一个元素，若该元素为-1，则取其前后数值的最小值；若该元素大于或等于前一个元素且小于后一个元素，不做处理；若该元素大于或等于前一个元素，也大于或等于后一个元素，则取前后两数值的最小值；若该元素小于前一个元素，在第一次遍历时不做处理。最后得到处理后的第一修正序列sen_start_time_1，同时将此列表保存为类似集合的列表，表达为sen_start_time_set，即去除相同数值。

在步骤S5246中，由于集合的性质是不存在相同的元素，对于新列表sen_start_time_set，同样进行从左至右升序处理，不同于上一步S5244的是，对于每一个元素，若其小于上一个元素，则修改其数值等于上一个元素，最终得到第二修正序列sen_start_time_set_new。

在步骤S5248中，依照sen_start_time_set_new修改处理sen_start_time_1，即将sen_start_time_1中原本在S5244未处理的数值进行修改。

具体为遍历sen_start_time_1，若当前数值等于sen_start_time_set_new的第一个数值，则遍历sen_start_time_1的下标i加一；若小于，则替换为此时sen_start_time_set_new的数值；若大于，则sen_start_time_set_new的下标j加一，并判断是否相等，相等则i加一，不相等则替换为下标j所处的数值。至此得到最小起始时间序列sen_start_time_min_asc。

在步骤S526中，类比步骤S5248，构建最大起始时间序列sen_start_time_max_asc。具体地，遍历列表sen_start_time_min_asc，对于sen_start_time_min_asc的第k个数值，找到其在列表sen_start_time_set_new中相等元素，即sen_start_time_set_new中的第n个数值，则sen_start_time_max_asc的第i个数值等于sen_start_time_set_new的第n+1个数值。若sen_start_time_set_new无第n+1个数，则sen_start_time_max_asc的第i个数值为无穷大(Inf)。其中，sen_start_time_max_asc和sen_start_time_min_asc这两个列表是等长度的。

本步骤举例如下：

sen_start_time_min_asc＝[1,1,2,2,5,5,9]；

sen_start_time_set_new＝[1,2,5,9]；

对于sen_start_time_min_asc的第三个数据(k＝2)，也就是2，在sen_start_time_set_new中找到值为2的元素，此时n＝1，那么，sen_start_time_max_asc中第三个数据(k＝2)就是sen_start_time_set_new的n+1的数据5。

所以：

sen_start_time_max_asc＝[2,2,5,5,9,9,inf]

在步骤S528中，处理NLP的返回结果，对于第a个第一文本，找寻它匹配到的b_a个第二文本中起始时间大于或等于sen_start_time_min_asc第a个数值的，且小于或等于sen_start_time_max_asc第a个数值的结果，作为最终的反馈。

文字整合时间筛选策略S520的伪代码如下：

本申请提供的技术方案可应用于双录视频质检。

前期双录视频经过音频提取剪切后，即可执行本申请所提供的语音与文本的对齐方法。以下为测试数据案例，需要注意的是，测试数据为自行模拟创建，且为了某些数据保密，使用XX进行代替，此外本发明提案技术方案不仅局限于此行业。还需注意的是，本发明提案的准确程度也依托于所选用的ASR能力的识别程度以及NLP的算法逻辑，本发明提案的提出只是为了找寻合适时间的文本。

1、通过阅读标准模板的信息，得到标准话术文本的字典：

{'品质承诺_销售人员品质承诺':[['本人销售的所有保险单'],['在销售过程中均无销售误导行为'],['如后续出现保险合同纠纷'],['本人将积极配合公司及相关机构的调查、还原销售过程'],['如因本人销售误导行为给公司造成经济损失的'],['无论是否在职'],['本人将向公司全额赔偿该损失'],['并承担相应的法律责任']]}

其中key值为节点名，value值为对应的节点拆分的文本语句。

2、通过ASR转写，得到转录后的文本字典：

{400:[15845,'需要之前的是路线过程，对于今后您维护嫌疑关键，请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲，就可以书面文件内容不一致的承诺建议您与销售人员面显示，与此确认，一定更好的维护您的合法权。'],

28220:[36975,'我没有什么要的的这100广州也就是一确认函我猫屋列表，一个还有别的吗？'],

38280:[49475,'他还没有说那他出哎呀，你们您说手机可以提供，都是没有您的。'],

49660:[67045,'点击停售嗯你好那时候要看的是吧对就这俩是吧阿姨看好像还真的是不这个环节可以了可以了，是吧？'],

67200:[85025,'对对刚才我申请了都应该放到那个他有点歪录，像见我姐家放下了一批，就是身份嗯没事呗你们没人用听进去两名字问一下就行了。'],

86940:[99555,'不是没人用，放心弄吧那个新的服务器，专门不说你那个吃到春节不用买了吗？'],

100670:[110265,'喂那不上去上传一个视频哦，那，那个任务人工来要我们第20号。'],

113090:[121795,'啊对我必须得吃啊，主攻之后说是叫做买回来，然后就在那种方法里面加一个方法。'],

122250:[153925,'你不忙啊，工资那时候把我那个仓位一块一样吊牌上但是，胡子呢，我不知道有你有病啊快生产但是做事啊很急你心里想他他他的事然后，机器测试一遍嗯对对lv嗯上去可以再见。'],

154150:[168015,'啊，非常上去都不变啊，跟我说可以让他直接是我说，原来就是那些2请将手机就是您的身份证，但是我的身份证简单吗？'],

168100:[186455,'我现在都受理，您分公司累积的管理你这不是给我高嘛，那行那加班女士进行文件实际上那里面你你叫指定的那东西是吧？'],

186990:[216000,'嗯嗯79我给您出示那个身份证件，进行的这个如果购买的是前面说的，您没太懂价格2020家具家纺李嘉欣嫁身体是是第十六条我也想去中归互相合适']}

其中key值保存为此文本的起始时间，value的第一个数值为结束时间，第二个数据为转写出来的文本。

3、将以上信息作为输入放入NLP文本匹配，得到输出结果：

{'品质承诺_销售人员品质承诺':[[['本人销售的所有保险单','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8862021916606566],['本人销售的所有保险单','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8558406511572999],['本人销售的所有保险单','原来就是那些2请将手机就是您的身份证','154150','168015','1',0.8406079571200348]],[['在销售过程中均无销售误导行为','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8762686191634018],['在销售过程中均无销售误导行为','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8477049413440979],['在销售过程中均无销售误导行为','进行的这个如果购买的是前面说的','186990','216000','1',0.8167446738876707]],[['如后续出现保险合同纠纷','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8022524292163703]],[['本人将积极配合公司及相关机构的调查、还原销售过程','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.9130998070777634],['本人将积极配合公司及相关机构的调查、还原销售过程','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8854988998137816],['本人将积极配合公司及相关机构的调查、还原销售过程','进行的这个如果购买的是前面说的','186990','216000','1',0.8508477523048528]],[['如因本人销售误导行为给公司造成经济损失的','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8773744379905939],['如因本人销售误导行为给公司造成经济损失的','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8574316930174581],['如因本人销售误导行为给公司造成经济损失的','进行的这个如果购买的是前面说的','186990','216000','1',0.8487489516750382]],[['无论是否在职',”,”,”,'0',0]],[['本人将向公司全额赔偿该损失','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8476166644057161],['本人将向公司全额赔偿该损失','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8132295067459053]],[['并承担相应的法律责任','就可以书面文件内容不一致的承诺建议您与销售人员面显示','400','15845','1',0.8504552066746399],['并承担相应的法律责任','一定更好的维护您的合法权','400','15845','1',0.8381876174774292],['并承担相应的法律责任','请认真阅读您签署的具体内容如实回答相关问题如果销售人员叫做冲','400','15845','1',0.8230037919971561]]]}

其中key值为节点名，value中返回的是每一个标准话术文本匹配到的满足相似度要求的文本列表，列表中每一个元素依次为标准话术文本、匹配到的文本、起始时间、结束时间、是否通过、相似度。

4、对于输出结果进行文本筛选整合，按照业务需求提出关键信息，只展示部分结果表明数据结构及输出样式：

{'companyCode':'分公司码','channelId':'中支码','policyNo':'保单号','stateCode':'processed','recordId':'视频ID','transactionId':'XX','seqNo':"XX",'nlpResult':[{'tip':'品质承诺','startTime':400,'endTime':446,'secondTipsBeans':[{'startTime':400,'endTime':446,'resultCode':'0','probability':'0.50','resultUrl':”,'subTitle':'销售人员品质承诺'}]}],'tipsResult':[{'tip':'品质承诺','startTime':400,'endTime':446,'secondTipsBeans':[{'startTime':400,'endTime':446,'resultCode':'0','probability':'0.50','resultUrl':”,'subTitle':'销售人员品质承诺'}]}]}。

本公开实施例的语音与文本的对齐方法能够解决NLP识别后匹配到的话术不在合理时间范围内的问题，即匹配到错误时间点的相似话术，从而提高NLP识别准确率。在业务层面提高了准确度，就双录识别质检场景而言，可以提高对代理人话术行为的检测能力，避免误判或者遗漏。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是根据一示例性实施例示出的一种语音与文本的对齐装置的框图。本公开实施例提供的语音与文本的对齐装置60可以包括：数据获取模块602、音频识别模块604、文本匹配模块606、时间定位模块608和对齐模块610。

在语音与文本的对齐装置60中，数据获取模块602可用于获取待识别音频与标准话术文本，所述标准话术文本包括的A个第一文本，A为大于0的整数。

音频识别模块604可用于对所述待识别音频进行识别，获得B个第二文本，所述第二文本包括起始时间和结束时间，B为大于0的整数。

文本匹配模块606可用于确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数。

时间定位模块608可用于根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间。

对齐模块610可用于将与第a个第一文本匹配的b_a个第二文本中，起始时间大于所述最小起始时间且小于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

根据本公开实施方式提供的语音与文本的对齐装置，根据与标准话术文本中第a个第一文本匹配的b_a个第二文本在待识别音频中的起始时间，能够基于第a个第一文本的最小起始时间与最大起始时间确定待识别音频中与第a个第一文本实际匹配的音频的合理时间范围，避免匹配到错误时间点的第二文本，进而能够提高语音与文本的对齐的准确率。

在示例性实施例中，时间定位模块608可包括：第一起始时间单元，可用于为将与第a个第一文本匹配的b_a个第二文本的起始时间中的最小值确定为第a个第一文本的第一起始时间；第一初始序列单元，可用于对A个第一文本的第一起始时间进行升序排列获得第一初始序列；预处理单元，可用于对所述第一初始序列进行预处理；第一修正序列单元，可用于对预处理后的所述第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列，m为大于1且小于A的整数；去重单元，可用于对所述第一修正序列中的元素去重；第二修正序列单元，可用于对去重后的所述第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列；最小时间序列单元，可用于根据所述第二修正序列调整所述第一修正序列，获得最小起始时间序列；最小时间定位单元，可用于将所述最小起始时间序列中第a个元素值确定为第a个第一文本的最小起始时间；最大时间定位单元，可用于根据所述最小起始时间序列和所述第二修正序列确定第a个第一文本的最大起始时间。

在示例性实施例中，预处理单元可用于：对所述第一初始序列中第一个元素置0；对最后一个元素置为无穷大值。

在示例性实施例中，第一修正序列单元可包括：第一修正子单元，可用于对预处理后的所述第一初始序列，若第m个元素的元素值为-1，则根据第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；第二修正子单元，可用于若第m个元素大于或等于第m-1个元素，且第m个元素大于或等于第m+1个元素，则将第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；其中，当b_m为0时，第一初始序列中的第m个元素的元素值为-1。

在示例性实施例中，第二修正序列单元可用于对去重后的所述第一修正序列，若第m个元素小于第m-1个元素，则根据第m-1个元素的元素值修正第m个元素的取值。

在示例性实施例中，时间定位模块608还可用于：确定所述第一修正序列的元素序号值i的初始值，与所述第二修正序列的元素序号值j的初始值；最小时间序列单元可包括：第一递增子单元，可用于若第一修正序列中第i个元素等于第二修正序列中第j个元素，则对i进行加1操作；第二递增子单元，可用于若第一修正序列中第i个元素小于第二修正序列中第j个元素，则将第一修正序列中第i个元素的取值替换为第二修正序列中第j个元素的取值，并对i进行加1操作；第三递增子单元，可用于若第一修正序列中第i个元素大于第二修正序列中第j个元素，则对j进行加1操作；第一循环单元，可用于返回执行上述步骤，直至i＝A结束后，将调整后的第一修正序列确定为所述最小起始时间序列。

在示例性实施例中，时间定位模块608还可用于：确定最小起始时间序列的元素序号值k的初始值；最大时间定位单元可包括：元素值匹配子单元，可用于确定所述第二修正序列中，与最小起始时间序列中第k个元素的取值相等的元素的元素序号值n；最大时间确定子单元，可用于将所述第二修正序列中n+1个元素的取值确定为最大起始时间序列中第k个元素的取值；第二循环单元，可用于对k执行加1操作后，返回执行上述步骤，直至k＝A结束后获得所述最大起始时间序列；最大时间定位子单元，可用于将所述最大起始时间序列中第a个元素的取值确定为第a个第一文本的最大起始时间。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1或图2或图3或图4或图5中所示的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种语音与文本的对齐方法，其特征在于，包括：

获取待识别音频与标准话术文本，所述标准话术文本包括的A个第一文本，A为大于0的整数；

对所述待识别音频进行识别，获得B个第二文本，所述第二文本包括起始时间，B为大于0的整数；

确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数；

根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间；

将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于所述最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

2.如权利要求1所述的方法，其特征在于，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间包括：

将与第a个第一文本匹配的b_a个第二文本的起始时间中的最小值确定为第a个第一文本的第一起始时间；

对A个第一文本的第一起始时间进行升序排列获得第一初始序列；

对所述第一初始序列进行预处理；

对预处理后的所述第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列，m为大于1且小于A的整数；

对所述第一修正序列中的元素去重；

对去重后的所述第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列；

根据所述第二修正序列调整所述第一修正序列，获得最小起始时间序列；

将所述最小起始时间序列中第a个元素值确定为第a个第一文本的最小起始时间；

根据所述最小起始时间序列和所述第二修正序列确定第a个第一文本的最大起始时间。

3.如权利要求2所述的方法，其特征在于，对所述第一初始序列进行预处理包括：

对所述第一初始序列中第一个元素置0；对最后一个元素置为无穷大值。

4.如权利要求2所述的方法，其特征在于，对预处理后的所述第一初始序列，根据第m-1个元素和m+1个元素对第m个元素进行修正，获得第一修正序列包括：

对预处理后的所述第一初始序列，若第m个元素的元素值为-1，则根据第m-1个元素和第m+1个元素中的最小值修正第m个元素的取值；

5.如权利要求2所述的方法，其特征在于，对去重后的所述第一修正序列中，根据第m-1个元素对第m个元素进行修正，获得第二修正序列包括：

对去重后的所述第一修正序列，若第m个元素小于第m-1个元素，则根据第m-1个元素的元素值修正第m个元素的取值。

6.如权利要求2所述的方法，其特征在于，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间还包括：

确定所述第一修正序列的元素序号值i的初始值，与所述第二修正序列的元素序号值j的初始值；

所述根据所述第二修正序列调整所述第一修正序列，获得最小起始时间序列包括：

若第一修正序列中第i个元素等于第二修正序列中第j个元素，则对i进行加1操作；

若第一修正序列中第i个元素小于第二修正序列中第j个元素，则将第一修正序列中第i个元素的取值替换为第二修正序列中第j个元素的取值，并对i进行加1操作；

若第一修正序列中第i个元素大于第二修正序列中第j个元素，则对j进行加1操作；

返回执行上述步骤，直至i＝A结束后，将调整后的第一修正序列确定为所述最小起始时间序列。

7.如权利要求2所述的方法，其特征在于，根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间还包括：

确定最小起始时间序列的元素序号值k的初始值；

根据所述最小起始时间序列和所述第二修正序列确定第a个第一文本的最大起始时间包括：

确定所述第二修正序列中，与最小起始时间序列中第k个元素的取值相等的元素的元素序号值n；

将所述第二修正序列中n+1个元素的取值确定为最大起始时间序列中第k个元素的取值；

对k执行加1操作后，返回执行上述步骤，直至k＝A结束后获得所述最大起始时间序列；

将所述最大起始时间序列中第a个元素的取值确定为第a个第一文本的最大起始时间。

8.一种语音与文本的对齐装置，其特征在于，包括：

数据获取模块，用于获取待识别音频与标准话术文本，所述标准话术文本包括的A个第一文本，A为大于0的整数；

音频识别模块，用于对所述待识别音频进行识别，获得B个第二文本，所述第二文本包括起始时间，B为大于0的整数；

文本匹配模块，用于确定与第a个第一文本匹配的b_a个第二文本，a为大于0且小于等于A的整数，b_a为大于等于0且小于等于B的整数；

时间定位模块，用于根据与第a个第一文本匹配的b_a个第二文本的起始时间获得第a个第一文本的最小起始时间与最大起始时间；

对齐模块，用于将与第a个第一文本匹配的b_a个第二文本中，起始时间大于等于所述最小起始时间且小于等于最大起始时间的第二文本确定为与第a个第一文本对齐的第二文本。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。