CN116153292A

CN116153292A - 语音数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN116153292A
Application number: CN202210889640.7A
Authority: CN
Inventors: 邓智荣; 邓成东; 郭江; 吴海英; 蒋宁
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-05-23

Abstract

本公开提供了一种语音数据的处理方法、装置、电子设备及存储介质，该方法包括：获取与语音数据相对应的识别信息；其中，识别信息由语音识别模型得到，且识别信息中包含时间戳信息；确定识别信息中包含的目标文本以及目标文本在识别信息中对应的起始时间戳以及结束时间戳；根据起始时间戳以及结束时间戳，对语音数据进行裁剪处理，得到语音片段；针对语音片段进行脱敏处理，脱敏处理后的语音片段用于调整语音识别模型。本公开提供的语音数据的处理方法，降低了语音数据的数据量，因此，降低了脱敏处理的耗时以及后续的数据传输数据量，大幅提升了后续的处理效率。

Description

语音数据的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，特别涉及一种语音数据的处理方法、装置、电子设备及存储介质。

背景技术

语音数据在各类业务场景中都有所涉及，例如，无论是电话类业务场景，还是线上会议类业务场景，都会产生大量的语音数据。然而，由于语音数据的数据量较大、且播放时间较长，不利于人们快速获取有用信息。为此，语音转文本技术便应运而生了。通过语音识别模型能够自动将语音数据转换为文本数据，从而便于存储和分析。

然而，语音识别模型在识别语音的过程中不可避免地会产生各种各样的识别错误，为了使语音识别模型能够根据识别错误进行学习和修正，需要将识别错误的语音数据提供给语音识别模型，以便实现模型的迭代更新。但是，由于存在错误的语音数据的数据量通常较大，因此，在将存在错误的语音数据提供给语音识别模型的过程中，存在着数据传输不便，处理耗时等诸多问题。

发明内容

本公开提供一种语音数据的处理方法、装置、电子设备及存储介质，用于解决语音数据传输不便、处理耗时的问题。

第一方面，本公开提供了一种语音数据的处理方法，包括：

获取待处理的语音数据，以及所述语音数据对应的识别信息；其中，所述识别信息根据语音识别模型识别得到，且所述识别信息中包含所述语音数据对应的文本信息以及所述文本信息对应的时间戳信息；

确定所述文本信息中的目标文本，以及所述目标文本对应的起始时间戳以及结束时间戳，所述目标文本为所述文本信息中识别错误的文本；

根据所述起始时间戳以及所述结束时间戳，对所述语音数据进行处理，得到所述目标文本对应的语音片段；

对所述语音片段进行脱敏处理，所述脱敏处理后的语音片段用于调整所述语音识别模型。

第二方面，本公开提供了一种语音数据的处理装置，包括：

获取模块，适于获取待处理的语音数据，以及所述语音数据对应的识别信息；其中，所述识别信息根据语音识别模型识别得到，且所述识别信息中包含所述语音数据对应的文本信息以及所述文本信息对应的时间戳信息；

确定模块，适于确定所述文本信息中的目标文本，以及所述目标文本对应的起始时间戳以及结束时间戳，所述目标文本为所述文本信息中识别错误的文本；

处理模块，适于根据所述起始时间戳以及所述结束时间戳，对所述语音数据进行处理，得到所述目标文本对应的语音片段；

脱敏模块，适于对所述语音片段进行脱敏处理，所述脱敏处理后的语音片段用于调整所述语音识别模型。

第三方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述方法。

本公开所提供的实施例，获取与语音数据相对应的识别信息之后，能够识别识别信息中包含的目标文本(即识别错误的文本)，从而确定目标文本对应的起始时间戳以及结束时间戳，进而根据起始时间戳以及结束时间戳对语音数据进行处理，得到语音片段，针对处理后的语音片段进行脱敏处理后即可用于调整语音识别模型。由于本实施例能够识别识别信息中包含的目标文本，并根据时间戳信息将语音数据处理为语音片段，大幅降低了语音数据的数据量，因此，降低了脱敏处理的耗时以及后续的数据传输数据量，大幅提升了后续的处理效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开的一个实施例提供的一种语音数据的处理方法的流程图；

图2为本公开的又一实施例提供的一种语音数据的处理方法的流程图；

图3为本公开的一个具体示例提供的一种语音数据的处理方法的流程图；

图4为本公开实施例提供的一种语音数据的处理装置的框图；

图5为本公开实施例提供的一种电子设备的框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

根据本公开实施例的语音数据的处理方法可以由终端设备或服务器等电子设备执行，终端设备可以为车载设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等；所述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。所述方法具体可以是通过处理器调用存储器中存储的计算机程序的方式来实现。

图1为本公开的一个实施例提供的一种语音数据的处理方法的流程图。参照图1，该方法包括：

步骤S110：获取待处理的语音数据，以及语音数据对应的识别信息；其中，所述识别信息根据语音识别模型识别得到，且所述识别信息中包含所述语音数据对应的文本信息以及所述文本信息对应的时间戳信息。

其中，语音数据包括：通话录音数据、会议录音数据、课程音频数据等，本公开不限定语音数据的具体种类。其中，与语音数据相对应的识别信息通过语音识别模型得到。该语音识别模型用于针对语音数据执行语音转文本操作，从而得到与语音数据相对应的识别信息。由此可见，识别信息主要为文本形式的信息，即：识别信息中包含语音数据对应的文本信息。另外，为了便于针对识别信息进行定位处理，在识别信息中进一步包含文本信息对应的时间戳信息。

步骤S120：确定文本信息中的目标文本，以及目标文本对应的起始时间戳以及结束时间戳，目标文本为文本信息中识别错误的文本。

其中，目标文本是指：文本信息中包含的转写错误的文本内容，具体包括：转写错误的字符或语句。其中，字符包括：中文字符、外文字符等，中文字符进一步包括：字、词等。在识别文本信息中包含的目标文本时，可通过人工识别或机器识别等多种方式实现。例如，可通过正则匹配规则、语音质检模型和/或错误识别模型，识别文本信息中包含的目标文本。总之，本公开不限定目标文本的具体确定方式。

在确定出文本信息中包含的目标文本之后，进一步确定目标文本在识别信息中对应的起始时间戳以及结束时间戳，以便定位目标文本在识别信息中的位置。

步骤S130：根据起始时间戳以及结束时间戳，对语音数据进行处理，得到目标文本对应的语音片段。

具体的，可通过语音编辑器等各类工具，根据起始时间戳以及结束时间戳，对语音数据进行裁剪处理，得到处理后的语音片段。该语音片段至少包含与目标文本相对应的语音内容。

步骤S140：对语音片段进行脱敏处理，脱敏处理后的语音片段用于调整语音识别模型。

其中，为了避免用户信息泄露，需要在将语音片段发送给对应于语音识别模型的服务端之前进行脱敏处理，由于已经执行了裁剪操作，因此，脱敏处理的范围较小，处理速度更快。

在本公开所提供的实施例中，获取与语音数据相对应的识别信息之后，能够识别识别信息中包含的目标文本(即识别错误的文本)，从而确定目标文本对应的起始时间戳以及结束时间戳，进而根据起始时间戳以及结束时间戳对语音数据进行处理，得到语音片段，针对处理后的语音片段进行脱敏处理后即可用于调整语音识别模型。由于本实施例能够识别识别信息中包含的目标文本，并根据时间戳信息将语音数据处理为语音片段，大幅降低了语音数据的数据量，因此，降低了脱敏处理的耗时以及后续的数据传输数据量，大幅提升了后续的处理效率。

图2为本公开的又一实施例提供的一种语音数据的处理方法的流程图。参照图2，该方法包括：

步骤S210：获取待处理的语音数据，以及语音数据对应的识别信息；其中，识别信息根据语音识别模型识别得到，且识别信息中包含语音数据对应的文本信息以及文本信息对应的时间戳信息。

其中，本实施例中的语音数据可以为通话录音数据。当然，也可以为实时通话数据等各种类型。通过语音识别模型对语音数据进行处理，即可得到文本形式的识别信息。识别信息中包含语音数据对应的文本信息以及文本信息对应的时间戳。并且，由于语音数据为通话数据，因此，识别信息中除包含时间戳信息之外，还进一步包含声道信息。

具体实施时，可通过自动语音识别技术(Automatic Speech Recognition，ASR)获取与语音数据相对应的识别信息。相应的，语音识别模型为ASR模型。

为了便于理解，下面给出识别信息的一个具体示例：

通过上述示例可知，识别信息中的“beginTime”用于标识一句话的起始时间点，“endTime”用于标识一句话的结束时间点，“channelId”用于标识一句话的说话人所对应的声道信息。

步骤S220：确定文本信息中包含的目标文本。

其中，目标文本是指：文本信息中包含的转写错误的文本内容，具体包括：转写错误的字符或语句。其中，字符包括：中文字符、外文字符等，中文字符进一步包括：字、词等。由此可见，目标文本为文本信息中识别错误的文本。具体实施时，可通过以下实现方式中的至少一种实现：

在第一种实现方式中，通过正则匹配规则，对文本信息进行正则匹配，根据正则匹配结果确定文本信息中的目标文本。其中，通过正则匹配规则，可以预先设置多种正则表达式，从而基于正则表达式确定文本信息中包含的目标文本。

例如，正则匹配规则包括：基于关键词的匹配规则。相应的，在确定文本信息中包含的目标文本时，可基于预先设定的关键词进行匹配，具体可通过以下方式实现：首先，确定与文本信息的业务类型对应的类型关键词集合，类型关键词集合与业务类型一一对应；然后，将文本信息与类型关键词集合进行匹配，根据匹配结果确定文本信息中的目标文本。其中，业务类型用于表征与通话相关的业务特征。业务类型的划分方式以及具体数量可由本领域技术人员根据实际需求设定。为了提升关键词匹配的准确性，分别针对每种业务类型配置不同的类型关键词集合，各个类型关键词集合中存储的关键词是根据对应的业务类型的业务特点确定的。通过划分业务类型并分别设置不同的类型关键词集合的方式，能够提升目标文本的识别准确性。

上述业务类型可通过多种方式划分，例如，按照业务阶段划分为：咨询业务类型、信息推送业务类型、回访类业务类型等；按照业务种类划分为：金融业务类型、商品业务类型、教育业务类型等。总之，不同的业务类型具有不同的通话格式规范，该通话格式规范用于设定标准通话内容以及标准话术。相应的，基于通话格式规范，能够确定与当前通话业务类型相对应的类型关键词集合。例如，在信息推送业务类型中，类型关键词集合根据待推送的信息的种类和内容确定，举例而言，信息推送业务类型对应的类型关键词集合中至少包含待推送的信息的主要内容，比如待推送的信息的名称、获取渠道、相关描述信息等。又如，对于回访类业务类型而言，类型关键词集合根据回访内容确定，例如，包含回访时所对应的问候语、总结语以及结束语等关键内容。总之，针对不同的业务类型分别设置不同的类型关键词集合有助于提升识别的准确性。

可选的，还可以进一步根据业务类型所对应的各个流程节点，设置多个分别对应于不同的流程节点的区间关键词集合，从而将文本信息划分为多个文本区间，分别将各个文本区间与对应的区间关键词集合进行匹配，从而借助流程节点以及区间关键词集合，灵活设定各个流程节点的关键词，提升识别准确性。

例如，在一种实现方式中，业务类型包括至少一个流程节点，在将文本信息与类型关键词集合进行匹配，根据匹配结果确定文本信息中的目标文本时，通过以下方式实现：根据业务类型的至少一个流程节点将文本信息划分为至少两个文本区间；确定每个文本区间对应的区间关键词集合，文本区间与区间关键词集合一一对应；将每个文本区间与每个文本区间对应的区间关键词集合进行匹配，根据匹配结果确定文本信息中的目标文本。其中，不同业务类型所对应的流程节点的数量和名称通常也各不相同，例如，在回访类业务类型中，通常包括如下三个流程节点：第一流程节点用于介绍本次通话的目的，表明回访意图；第二流程节点用于与用户进行具体沟通，实现回访目的；第三流程节点用于对本次回访内容进行总结，以结束本次通话。相应的，流程节点与区间关键词集合一一对应，且每个流程节点所对应的区间关键词集合用于表征该流程节点的标准话术。具体实施时，还可以结合通话格式规范，将文本信息划分为至少两个文本区间，并分别设定各个文本区间的区间关键词集合，从而以文本区间为单位进行关键词匹配，以进一步提升匹配的准确性。其中，不同文本区间对应于不同的区间关键词。例如，一通电话通常包括：问候部分、内容介绍部分以及结尾部分，相应的，可以将通话数据对应的文本信息划分为三个文本区间，分别对应于问候部分、内容介绍部分以及结尾部分。其中，在问候部分中，对应的区间关键词包括：拨打电话的业务员对应的单位名称、礼貌用语等；在内容介绍部分中，对应的区间关键词包括：待介绍的产品的产品名称(即推送信息的内容)。

在第二种实现方式中，通过语音质检模型，获取与识别信息相对应的语音质检结果，根据语音质检结果确定文本信息中包含的目标文本。其中，语音质检模型用于针对识别信息进行质检，以评估通话业务员的业务能力。例如，语音质检模型可根据预先标注的语音数据进行训练得到。或者，语音质检模型也可以基于上述关键词匹配方式实现。例如，在语音质检模型命中关键词的情况下，确定质检结果为合格，在语音质检模型未命中关键词的情况下，确定质检结果为不合格。相应的，根据质检结果给出质检评分。由此可见，在通过语音质检模型对语音数据进行质检的过程中，也可以根据质检评分间接得到文本信息中包含的目标文本。通常情况下，若质检结果为合格，则说明语音数据符合相关规范，因此，可推定为识别信息正确；若质检结果为不合格，说明语音数据不符合相关规范，在语音数据不符合相关规范的情况下，有可能是因为识别信息中存在识别错误，因此，可以重点针对语音质检模型的输出结果为不合格的识别信息进行处理，以得到包含的转写错误的文本内容。由此可见，通过语音质检模型，获取与文本信息对应的质检结果，根据质检结果能够确定文本信息中的目标文本。

在第三种实现方式中，通过错误识别模型，获取识别信息中包含的转换错误，根据转换错误识别识别信息中包含的目标文本。其中，错误识别模型通过对已标注的错误录音进行训练得到。由此可见，通过错误识别模型，也能够获取文本信息中的目标文本。上述三种方式既可以单独使用，也可以结合使用，本发明对此不作限定。

另外，考虑到上述识别方式可能存在误差，因此，为了降低错误率，进一步通过复核操作提升准确性。具体的，在确定文本信息中包含的目标文本时，首先，识别文本信息中包含的候选目标文本，根据候选目标文本生成复核请求；然后，响应于针对复核请求触发的复核操作，确定文本信息中包含的目标文本。其中，候选目标文本可通过上文提到的三种方式中的至少一种确定。相应的，候选目标文本是通过正则匹配规则、语音质检模型和/或错误识别模型得到的可能存在错误的文本单元。

若复核操作为包含确认信息的确认类复核操作，说明用户确定该候选目标文本确实为目标文本(即包含错误信息)，因此，确认将候选目标文本作为文本信息中包含的目标文本。若复核操作为包含纠错信息的纠错类复核操作，说明该候选目标文本存在识别不准确的问题，因此，根据纠错信息确定文本信息中的目标文本；其中，纠错信息用于判断候选目标文本是否包含错误内容。借助复核操作，能够大幅提升目标文本的识别准确率，避免识别错误的情况。

步骤S230：确定目标文本在识别信息中对应的起始时间戳以及结束时间戳，并且，确定目标文本在识别信息中对应的声道信息。

在识别出识别信息中包含的目标文本之后，进一步确定目标文本在识别信息中对应的起始时间戳以及结束时间戳，以便定位目标文本在识别信息中的位置。

具体的，在确定目标文本在识别信息中对应的起始时间戳以及结束时间戳时，可根据目标文本的单元属性确定。其中，目标文本的单元属性包括：字符属性、语句属性。其中，字符属性的目标文本通常为错字、错词等错误字符，语句属性的目标文本通常为错误语句。相应的，在目标文本的单元属性为字符属性的情况下，目标文本在识别信息中对应的起始时间戳以及结束时间戳通过以下方式得到：确定错误字符所属的语句，根据语句的语句起始时间点以及语句结束时间点，确定目标文本在识别信息中对应的起始时间戳以及结束时间戳。在目标文本的单元属性为语句属性的情况下，目标文本在识别信息中对应的起始时间戳以及结束时间戳通过以下方式得到：确定错误语句的上下文语句，根据上下文语句的语句起始时间点以及语句结束时间点，确定目标文本在识别信息中对应的起始时间戳以及结束时间戳。

另外，在目标文本的数量为多个的情况下，还可以根据多个目标文本的分布情况，将至少两个目标文本确定为一个错误文本组合，确定该错误文本组合所对应的起始时间戳以及结束时间戳，从而根据错误文本组合所对应的起始时间戳以及结束时间戳对语音数据进行裁剪处理，以确保多个关联紧密的目标文本能够裁剪为同一个语音片段。其中，多个目标文本的分布情况包括：多个目标文本之间的间隔距离、多个目标文本的分布密度等。通过错误文本组合的划分方式，能够避免两个相邻且关联紧密的目标文本在裁剪过程中被割裂，并且，能够防止因裁剪过程中未包含上下文信息而导致内容不完整。

另外，在一种可选的实现方式中，发明人发现：若错误文本组合所对应的语音长度过长，则可能导致最终裁剪得到的语音片段数据量过大，从而为最终的脱敏操作及数据传输操作造成困难。为了解决上述问题，在目标文本为多个的情况下，在确定目标文本在识别信息中对应的起始时间戳以及结束时间戳时，进一步根据多个目标文本之间的间隔距离和/或语义关联关系，将多个目标文本划分为至少两个错误文本集合；分别针对每个错误文本集合，确定该错误文本集合在识别信息中对应的起始时间戳以及结束时间戳，从而将每个错误文本集合对应的起始时间戳以及结束时间戳确定为目标文本对应的起始时间戳以及结束时间戳。则在后续步骤中根据起始时间戳以及结束时间戳，对语音数据进行裁剪处理时，分别根据每个错误文本集合在识别信息中对应的起始时间戳以及结束时间戳，对语音数据进行裁剪处理，得到至少两个语音片段。由此可见，一个错误文本集合中包含的目标文本之间间隔较近或语义存在关联，通过错误文本集合的划分，能够避免语义关联紧密的目标文本被裁剪至不同的语音片段中，确保一个语音片段的内容完整性。并且，通过多个错误文本集合的划分，能够确保裁剪后的各个语音片段长度较短，避免出现一个语音片段长度过长的情况。由此可见，通过错误文本集合裁剪语音片段，能够兼顾语音片段的语义完整性以及数据量大小。

上述提到的基于错误文本组合以及错误文本集合的裁剪方式既可以单独使用，也可以结合使用。当二者结合使用时，一个错误文本集合中可以包含至少一个错误文本组合。

步骤S240：根据起始时间戳、结束时间戳以及声道信息，对语音数据进行裁剪处理，得到语音片段。

具体的，可通过语音编辑器等各类工具，根据起始时间戳以及结束时间戳，对语音数据进行裁剪处理，得到处理后的语音片段；其中，处理后的语音片段用于修正语音识别模型。例如，可通过FFmpeg工具实现语音裁剪操作。

例如，在一种实现方式中，生成包含声道信息、起始时间戳以及结束时间戳的裁剪指令，以供语音编辑工具根据裁剪指令，从语音数据中裁剪得到与声道信息、起始时间戳以及结束时间戳相对应的语音片段。

步骤S250：针对语音片段进行脱敏处理，将脱敏处理后的语音片段发送给对应于语音识别模型的服务端，以供服务端根据脱敏处理后的语音片段修正语音识别模型。

由于语音片段中可能包含用户隐私等敏感数据，因此，为了防止用户隐私泄露，需要对处理后的语音片段进行脱敏处理。其中，脱敏处理过程可通过预设的脱敏规则实现：例如，通过针对语句的主谓宾结构进行分析，提取语句中包含的主语成分，根据姓名构成规则判断该主语成分是否为人名，若是，则确定该主语成分需要执行脱敏处理。又如，提取语句中包含的数字内容，将数字内容与预设的敏感数字格式(如六位生日、11位手机号、身份证号码)进行匹配，若匹配成功，则确定该数字内容需要执行脱敏处理。另外，为了避免自动脱敏方式不准确的问题，还可以先通过预设脱敏规则识别语音片段中包含的候选脱敏内容，生成包含该候选脱敏内容的脱敏确认请求，根据针对该脱敏确认请求触发的确认指令执行脱敏操作。通过增加脱敏确认请求，能够借助人工核验的方式实现准确脱敏。

在一种具体的实现方式中，使用语音编辑器将语音片段中涉及敏感用户隐私(如客户姓名、身份证、电话号码等)的敏感信息处的语音内容进行裁剪或空白静默覆盖，以达到防止泄露用户隐私信息的目的。

另外，除进行脱敏处理外，还可以针对语音片段执行标注处理，以标注语音片段中的错误原因、对应的正确内容等信息。进行脱敏处理和/或标注处理后的语音片段用于作为语音识别模型的训练样本，从而对语音识别模型进行修正。

综上所述，由于本实施例能够识别识别信息中包含的目标文本，并根据时间戳信息将语音数据裁剪为语音片段，大幅降低了语音数据的数据量，因此，降低了数据传输数据量，缩短了针对语音片段进行后续处理的处理耗时，大幅提升了后续的处理效率。并且，该方式还可以基于声道信息进行准确裁剪，能够提升语音片段的精准性。其中，通过关键词匹配、语音质检模型、错误识别模型等多种方式，能够快速而准确的发现识别信息中的目标文本。

为了便于理解，下面以一个具体示例为例，详细介绍上述实施例的具体实现细节。在该示例中，通过智能客服质检系统对通话录音数据的ASR转写结果进行质检。其中，智能客服质检系统用于通过检测模型和检测算法对语音、视频、对话文本等数据的文本内容进行检测，能够对坐席的通话行为进行检测。

在相关技术中，在使用ASR服务时，转写得到的识别信息在某些特定的场景下会出现准确率低或者异常的情况，常规做法是收集一批录音文件，对录音的全部内容进行录音脱敏后提供给ASR服务端以便解决或提升识别准确率。ASR识别效果的提升一般需要收集覆盖大量的特定异常录音文件数据，平均一通录音时长基于业务在1分钟至半小时不等，又因用户隐私策略所以需要对提供给ASR服务端的录音文件中涉及到的敏感信息进行脱敏处理，常规处理方法是人工听取整通录音并进行录音脱敏工作，其中，每通录音中有很多无关信息，但录音脱敏时需要听取整通录音并由人工校验，因而非常耗费人力成本。

为了解决上述问题，在该示例中，通过智能客服质检系统对通话录音数据的ASR转写结果进行质检，从而根据质检结果定位错误数据，并对录音进行裁剪处理，从而仅针对裁剪处理后的录音片段进行脱敏处理即可，大幅降低了处理工作量。

如图3所示，该示例具体包括以下步骤：

步骤S301：将通话录音文件通过ASR服务转写成对应的识别信息。

步骤S302：在针对转写后的文本数据进行处理的过程中，识别其中包含的转写错误。

具体的，在使用录音转写得到的识别信息的过程中，识别其中包含的语句转写错误。例如，在智能客服质检系统中通过质检模型对录音转写文本进行智能质检，若一通录音质检结果异常，则需要执行复检操作，经复检操作确定异常原因是由于未命中特定的关键词(礼貌用语、公司或产品等)或语义(确认身份、安抚客户等)。相应的，通过智能客服质检系统进行错误提示，由工作人员根据错误提示进行核对，经核对确定造成未命中关键词的原因为：ASR转写有误。例如，在上文列举的识别信息中，划下划线的部分为转写有误的内容。

步骤S303：确定转写错误的异常语音片段的时间戳信息和声道信息。

具体的，录音文件的ASR转写结果中携带当前语句转写的时间偏移，因此，能够基于该时间偏移标记ASR服务转写异常的语句，从而得到该语句的声道、开始与结束时间偏移量。循环执行上述操作能够收集到大量的标记有ASR转写错误数据的内容。

步骤S304：根据时间戳信息和声道信息进行裁剪处理，得到异常语音片段。

其中，将收集到的数据使用例如FFmpeg等录音编辑工具，对指定录音文件进行剪辑，根据标记的录音声道、开始与结束时间等信息剪辑生成对应的录音片段文件，得到异常语音片段。

步骤S305：针对异常语音片段进行脱敏处理。

具体的，可针对异常语音片段进行人工脱敏校验。

步骤S306：将脱敏处理后的异常语音片段提供给ASR服务端，由ASR服务端针对ASR服务进行优化更新，以根据优化更新后的ASR服务进行后续的录音转写操作。

其中，可以将处理后的异常语音片段提供给ASR服务商，由ASR服务商进行ASR服务效果提升。

由此可见，在上述示例中，提供给ASR服务端进行优化提升的数据由整通录音文件缩减为特定异常范围内的录音片段文件，录音时长的缩减可以大幅降低人工脱敏标注及复核的时间，降低数据传输过程中的流量消耗，亦降低了数据处理过程中敏感信息泄露的风险。并且，还可以避免因录音长度过长而导致人工脱敏时因疲劳作业而导致错误率增加的问题。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了语音数据的处理装置、电子设备、计算机可读存储介质，上述均可用来实现本公开提供的任一种语音数据的处理方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图4为本公开实施例提供的一种语音数据的处理装置的框图。

参照图4，本公开实施例提供了一种语音数据的处理装置40，该装置40包括：

可选的，所述识别信息中还包括声道信息；

所述处理模块具体适于：生成包含所述声道信息、所述起始时间戳以及所述结束时间戳的裁剪指令；

根据所述裁剪指令，从所述语音数据中裁剪得到所述目标文本对应的语音片段。

可选的，所述确定模块具体适于：

通过正则匹配规则，对所述文本信息进行正则匹配，根据正则匹配结果确定所述文本信息中的目标文本；

通过语音质检模型，获取与所述文本信息对应的质检结果，根据所述质检结果确定所述文本信息中的目标文本；

通过错误识别模型，获取所述文本信息中的目标文本。

可选的，所述确定模块具体适于：

识别所述文本信息中包含的候选目标文本，根据所述候选目标文本生成复核请求；

响应于针对所述复核请求触发的复核操作，确定所述文本信息中的目标文本。

可选的，确定模块具体适于：

若所述复核操作为包含确认信息的确认类复核操作，则将所述候选目标文本确定为所述目标文本；

若所述复核操作为包含纠错信息的纠错类复核操作，则根据所述纠错信息确定所述文本信息中的目标文本；其中，所述纠错信息用于判断所述候选目标文本是否包含错误内容。

可选的，所述正则匹配规则包括基于关键词的匹配规则，则所述确定模块具体适于：

确定与所述文本信息的业务类型对应的类型关键词集合，所述类型关键词集合与所述业务类型一一对应；

将所述文本信息与所述类型关键词集合进行匹配，根据匹配结果确定所述文本信息中的目标文本。

可选的，所述业务类型包括至少一个流程节点，所述确定模块具体适于：

根据所述业务类型的至少一个流程节点将所述文本信息划分为至少两个文本区间；

确定每个文本区间对应的区间关键词集合，所述文本区间与所述区间关键词集合一一对应；

将每个文本区间与所述每个文本区间对应的区间关键词集合进行匹配，根据匹配结果确定所述文本信息中的目标文本。

可选的，在所述目标文本为多个的情况下，所述确定模块具体适于：

根据多个目标文本之间的间隔距离和/或语义关联关系，将所述多个目标文本划分为至少两个错误文本集合；

分别确定每个错误文本集合对应的起始时间戳以及结束时间戳，将每个错误文本集合对应的起始时间戳以及结束时间戳确定为所述目标文本对应的起始时间戳以及结束时间戳。

在本公开所提供的装置中，获取与语音数据相对应的识别信息之后，能够识别识别信息中包含的目标文本，从而确定目标文本在识别信息中对应的起始时间戳以及结束时间戳，进而根据起始时间戳以及结束时间戳对语音数据进行裁剪处理，得到语音片段，通过处理后的语音片段修正语音识别模型。由于本实施例能够识别识别信息中包含的目标文本，并根据时间戳信息将语音数据裁剪为语音片段，大幅降低了语音数据的数据量，因此，降低了数据传输数据量，缩短了针对语音片段进行后续处理的处理耗时，大幅提升了后续的处理效率。

图5为本公开实施例提供的一种电子设备的框图。

参照图5，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器501；至少一个存储器502，以及一个或多个I/O接口503，连接在处理器501与存储器502之间；其中，存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器501执行上述语音数据的处理方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的语音数据的处理方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述语音数据的处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述识别信息中还包括声道信息；

所述根据所述起始时间戳以及所述结束时间戳，对所述语音数据进行处理，得到所述目标文本对应的语音片段，包括：

生成包含所述声道信息、所述起始时间戳以及所述结束时间戳的裁剪指令；

3.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息中的目标文本包括以下方式中的至少一种：

通过错误识别模型，获取所述文本信息中的目标文本。

4.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息中的目标文本，包括：

5.根据权利要求4所述的方法，其特征在于，响应于针对所述复核请求触发的复核操作，确定所述文本信息中的目标文本，包括：

6.根据权利要求3-5任一所述的方法，其特征在于，所述正则匹配规则包括基于关键词的匹配规则，则所述通过正则匹配规则，对所述文本信息进行正则匹配，根据正则匹配结果确定所述文本信息中的目标文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述业务类型包括至少一个流程节点，所述将所述文本信息与所述类型关键词集合进行匹配，根据匹配结果确定所述文本信息中的目标文本，包括：

8.根据权利要求1-5任一所述的方法，其特征在于，在所述目标文本为多个的情况下，所述确定所述目标文本对应的起始时间戳以及结束时间戳，包括：

9.一种语音数据的处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的方法。