CN116935854A

CN116935854A - 针对音频数据的非文明用语检测方法、装置、介质及设备

Info

Publication number: CN116935854A
Application number: CN202310777492.4A
Authority: CN
Inventors: 王月宝; 沈鹏; 黄明星; 毛小伟; 蒋佳佳; 黄平; 周晓波
Original assignee: Beijing Shuidi Technology Group Co ltd
Current assignee: Beijing Shuidi Technology Group Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-24

Abstract

本申请公开了一种针对音频数据的非文明用语检测方法、装置、介质及设备。其中，方法包括：对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。本申请实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度，解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

Description

针对音频数据的非文明用语检测方法、装置、介质及设备

技术领域

本发明涉及音频处理技术领域，特别涉及一种针对音频数据的非文明用语检测方法、装置、介质及设备。

背景技术

随着经济的不断发展，电话销售以及人工客服等应运而生。然而在进行沟通时难免会出现摩擦，对于销售人员或或人工客服而言，侮辱、谩骂以及使用其他非文明用语与顾客交流是违反规定的。因此，需要对这一类通话进行质检，以检测出涉及非文明用于的录音数据。

然而现有的语音检测方法，均是基于关键词的方式来进行非文明用语的检测，因此存在检测结果不够准确的问题。

发明内容

有鉴于此，本发明提供了一种针对音频数据的非文明用语检测方法、装置、介质及设备，主要目的在于解决目前存在针对非文明用语的检测不够精准的问题。

为解决上述问题，本申请提供一种针对音频数据的非文明用语检测方法，包括：

对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；

基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；

基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；

利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

可选的，所述对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据，具体包括：

利用语音识别技术对待检测的目标音频数据进行语音识别，以将所述目标音频数据转换为所述目标文本数据。

可选的，所述基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句，具体包括：

对所述目标文本数据进行切分处理，获得若干初始关键语句；

基于各所述初始关键语句采用正则匹配的方式，从各所述初始关键语句中确定出包含有预定关键词的目标关键语句。

可选的，所述基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段，具体包括：

基于各所述目标关键语句对应的起始时间戳以及末尾时间戳，从所述目标音频数据中截取与所述目标关键语句对应的目标音频片段。

可选的，所述针对音频数据的非文明用语检测方法还包括：训练获得所述目标多模态识别模型，具体包括：

获取若干样本音频数据；

将各所述样本音频数据进行转换，获得与各样本音频数据对应的样本文本数据；

基于各所述样本文本数据进行关键句提取处理，获得若干样本关键语句；

基于各所述样本关键语句从对应的样本音频数据中，获取与各所述样本关键语句对应的样本音频片段；

为各所述样本关键语句以及各样本关键语句对应的样本音频片段，标注非文明用语的标签；

基于各所述样本关键语句、各样本关键语句对应的样本音频片段、以及各样本关键语句对应的标签，对初始多模态识别模型进行模型训练，获得所述目标多模态识别模型。

可选的，在检测结果为检测到非文明用语的情况下，所述针对音频数据的非文明用语检测方法还包括：

按照预定的输出方式输出提示信息，以对包含非文明用语的目标音频片段进行提示。

可选的，所述对所述目标文本数据进行切分处理，获得若干初始关键语句，具体包括：

基于预定的标点符号对所述目标文本数据进行切分处理，获得各所述初始关键语句。

为解决上述为问题，本申请提供一种针对音频数据的非文明用语检测装置，包括：

转换模块，用于对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；

提取模块，用于基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；

获取模块，用于基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；

检测模块，用于利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

为解决上述为问题，本申请提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述针对音频数据的非文明用语检测方法的步骤。

为解决上述为问题，本申请提供一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述针对音频数据的非文明用语检测方法的步骤。

本申请中的针对音频数据的非文明用语检测方法、装置、存储介质及电子设备，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例一种的针对音频数据的非文明用语检测方法流程图；

图2为本申请又一实施例一种针对音频数据的非文明用语检测方法的流程图；

图3为本申请实施例中音频片段与文本关键语句融合、训练获得目标多模态识别模型的过程示意图；

图4为本申请另一实施例一种针对音频数据的非文明用语检测装置的结构框图；

图5为本申请另一实施例一种电子设备的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例提供一种针对音频数据的非文明用语检测方法，具体可以应用于服务器、终端等电子设备，如图1所示，本实施例中的方法包括如下步骤：

步骤S101，对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；

本步骤在具体实施过程中，目标音频数据可以是客服人员在于用户沟通时的录音数据，也可以是销售人员通过电话销售时与顾客之间的录音数据。具体的，可以利用语音识别技术(Automatic Speech Recognition，英文简称：ASR)对待检测的目标音频数据进行语音识别，以将所述目标音频数据转换为所述目标文本数据，由此可以获得目标文本数据。

步骤S102，基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；

本步骤在具体实施过程中，具体可以通过关键词匹配的方式，来从目标文本数据中获取若干包含预定关键词的目标关键语句。也就是，可以预先设定若干涉及非文明用语的词语或短语，以此来作为预定关键词。由此可以将包含这些关键词的语句作为标目标关键语句。

步骤S103，基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；

本步骤在具体实施过程中，在确定出若干目标关键语句之后，就可以根据各目标关键语句对应的时间戳信息(目标关键语句对应的起始时间以及末尾时间)，来从目标音频文件中找到其对应的音频片段，由此获得与各目标关键语句对应的目标音频片段。

本实施例中，由于在将语音转译成文本时，容易将读音接近的文字识别错误，比如将“啥”转译为“傻”。或者，将“你妈的账户”(实际意思为你母亲的账户)转译为“你妈的，账户”。因此转译后的文本数据误差较大，由此，单一的基于目标关键语句中包含了预定关键词、来将其判断为涉及到非文明用语，是不够准确的，因此本步骤中需要进一步获取与目标关键语句对应的目标音频片段，为后续基于目标关键语句以及目标音频片段、协同进行非文明用语的检测奠定基础。

步骤S104，利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

本步骤中，在获得与各目标关键语句对应的目标音频片段之后，就可以将目标关键语句以及其对应目标音频片段输入至目标多模态识别模型，实现对目标关键语句精准的进行非文明用语的检测，提高了检测结果的精准度。

本实施例中的一种针对音频数据的非文明用语检测方法，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干包含预定关键词的目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

本申请另一实施例提供一种针对音频数据的非文明用语检测方法，如图2所示，包括：

步骤S201，获取若干样本音频数据；

本步骤在具体实施过程中，可以从将若干历史录音数据作为样本音频数据。

步骤S202，将各所述样本音频数据进行转换，获得与各样本音频数据对应的样本文本数据；

本步骤在具体实施过程中，可以利用语音识别技术ASR对各样本音频数据进行语音识别，以将各所述样本音频数据转换为对应的样本文本数据，由此可以获得若干文本数据。

步骤S203，基于各所述样本文本数据进行关键句提取处理，获得若干样本关键语句；

本步骤在具体实施过程中，可以分别对各样本文本数据进行切分，获得若干初始样本关键语句，例如基于标点符号对各所述样本文本语句进行切分，以此来获得与各样本文本数据对应的初始样本关键语句。然后利用若干预定的目标关键词(预定的非文明用语)，采用正则匹配的方式对各初始样本关键语句进行正则匹配，以提取出包含/携带有预定关键词的样本关键语句。即初步确定出这些包含有预定关键词的样本关键语句涉及非文明用语。

步骤S204，基于各所述样本关键语句从对应的样本音频数据中，获取与各所述样本关键语句对应的样本音频片段；

本步骤中，在提取获得样本关键语句之后，就可以基于各样本关键语句对应的时间戳信息从对应的样本音频数据中，获取与各样本关键语句对应的样本音频片段。

步骤S205，为各所述样本关键语句以及各样本关键语句对应的样本音频片段，标注非文明用语的标签；

本步骤中，可以采用人工标注的方式来对各样本关键语句以及对应的样本音频片段进行非文明用语的标注。也就是，如果样本关键语句和其对应的样本音频片段同时涉及非文明用语，则可以为该样本关键语句标注包含非文明用语的标签。如果样本关键语句和其对应的样本音频片段只有一个涉及非文明用语，或者二者均不涉及非文明用语，则可以为该样本关键语句标注未包含非文明用语的标签。

步骤S206，基于各所述样本关键语句、各样本关键语句对应的样本音频片段、以及各样本关键语句对应的标签，对初始多模态识别模型进行模型训练，获得目标多模态识别模型；

本步骤中，具体可以利用初始多模态识别模型分别对样本关键语句以及样本关键语句对应的样本音频片段进行检测，获得初始检测结果；然后将初始检测结果与样本关键语句对应的标签进行比对，判断二者是否一致，如果不一致，则可以对初始多模态识别模型中的模型参数进行调整，直至初始检测结果与样本关键语句对应的标签一致，可以停止模型训练，获得所述目标多模态识别模型。

也就是，通过将音频片段以及该音频片段对应的文本类型的关键语句进行多模态融合，从而能够训练获得目标多模态识别模型，具体融合过程可以如图3所示，包括：利用梅尔谱特征提取方法对样本音频片段MP3进行特征提取，获得80*N维的特征矩阵。然后对该特征矩阵进行变换处理，获得变换后的特征矩阵，该变换后的特征矩阵维度为80*728。与此同时，对样本关键语句进行特征编码，获得512*728维的特征矩阵。采用concat处理方式对512*728维的特征矩阵和变换后的80*728维的特征矩阵进行融合，获得582*728维的融合矩阵。然后对该融合特征矩阵进行变换处理，获得512*728维的变换后的融合矩阵，最后利用bert模型对512*728维的变换后的融合矩阵进行分类/检测，获得分类结果/检测结果，以确定是否涉及非文明用语，后续就可以基于分类结果以及标签，对模型参数进行调整，从而训练获得目标多模态识别模型。

步骤S207，利用语音识别技术对待检测的目标音频数据进行语音识别，以将所述目标音频数据转换为目标文本数据；

本步骤中，目标音频数据可以是客服人员在于用户沟通时的录音数据，也可以是销售人员通过电话销售时与顾客之间的录音数据。

具体的，在进行语音识别之前，还可以对录音数据中顾客/消费者的语音数据进行删除处理，获得只包含客服人员/销售人员的录音数据，以此来作为目标音频数据。便于后续对针对客服人员/销售人员的通话内容进行质检。

步骤S208，对所述目标文本数据进行切分处理，获得若干初始关键语句；

本步骤在具体实施过程中，可以基于预定的标点符号对目标文本数据进行切分处理，预定的标点符号可以为句号、逗号、感叹号、问号、分号等等，具体可以根据实际需要设定调整。也可以利用Python自然语言处理中预定的切分算法，来对目标文本数据进行切分处理，由此获得若干初始关键语句。

步骤S209，基于各所述初始关键语句采用正则匹配的方式，从各所述初始关键语句中确定出包含有预定关键词的目标关键语句；

本步骤在具体实施过程中，可以预先收集各种不文明词汇，由此可以预先设定若干涉及非文明用语的词语或短语，将其来作为预定关键词。然后就可以使用正则匹配的方式，来从若干初始关键语句中确定出包含预定关键词的目标关键语句。

步骤S210，基于各所述目标关键语句对应的起始时间戳以及末尾时间戳，从所述目标音频数据中截取与所述目标关键语句对应的目标音频片段；

本步骤中，在确定出若干目标关键语句之后，就可以根据各目标关键语句对应的时间戳信息，来从目标音频文件中找到其对应的音频片段，由此获得与各目标关键语句对应的目标音频片段。

本实施例中，由于在将语音转译成文本时，容易将读音接近的文字识别/转译错，比如将“啥”识别为“傻”。或者，将“你妈的账户”(实际意思为你母亲的账户)转译为“你妈的，账户”。因此转译后的文本数据误差可能较大，由此，单一的基于目标关键语句中包含了预定关键词、来将其确定为涉及非文明用语是不准确的。因此本步骤中需要进一步获取与目标关键语句对应的目标音频片段，为后续基于目标关键语句以及目标音频片段、协同进行非文明用语的检测奠定基础。

步骤S211，利用所述目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

本步骤中，在获得与各目标关键语句对应的目标音频片段之后，就可以对目标关键语句以及目标关键语句对应的目标音频片段进行编码，然后将其输入至目标多模态识别模型，以此来检测出该目标关键语句是否涉及非文明用语，获得二分类的检查结果。也就是，在目标关键语句以及对应的目标音频片段均涉及非文明用语时，则确定其涉及非文明用语，在目标关键语句和/或对应的目标音频片段未涉及非文明用语时，则确定目标关键语句不涉及非文明用语，由此能够使得最终的检测结果更加的精准、可靠。

本实施例中的针对音频数据的非文明用语检测方法，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

在上述实施例的基础上，在检测结果为检测到非文明用语的情况下，还包括按照预定的输出方式输出提示信息，以对包含非文明用语的目标音频片段进行提示。其中，预定的输出方式可以为语音提醒、短信提醒或声音提醒等等，比如将提示信息通过短信的方式发送至预定的终端设备，或者将提示信息通过邮件的方式发送至预定的用户，再或者，通过语音的方式输出提示信息，即对提示信息进行语音播报。其中提示信息可以为包含有时间戳信息或对应的目标音频片段等等。在实际应用过程中，由于待检测的目标音频数据可以能为多份，因此可以为各目标音频数据配置唯一的标志信息，由此，基于目标音频数据转译、提取获得的各目标关键语句也可以关联有该目标音频数据的标志信息。由此，后续在检测到某个目标关键语句涉及非文明用语时，则可以将该目标关键语句对应的时间戳信息(起始时间戳以及末尾时间戳)、该目标关键语句对应的目标音频片段以及该目标关键语句关联的标志信息作为提示信息，并按照预定的输出方式进行输出。本实施例中，通过输出用于表征目标关键语句来源的标志信息，便于质检人员在大量的目标音频数据中找到该目标关键语句所对应的目标音频数据，便于质检人员对该目标音频数据进行复核等操作。

本申请另一实施例提供一种针对音频数据的非文明用语检测装置，如图3所示，包括：

转换模块11，用于对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；

提取模块12，用于基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；

获取模块13，用于基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；

检测模块14，用于利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

本实施例在具体实施过程中，所述转换模块具体用于：利用语音识别技术对待检测的目标音频数据进行语音识别，以将所述目标音频数据转换为所述目标文本数据。

本实施例在具体实施过程中，所述提取模块具体用于：对所述目标文本数据进行切分处理，获得若干初始关键语句；基于各所述初始关键语句采用正则匹配的方式，从各所述初始关键语句中确定出包含有预定关键词的目标关键语句。

本实施例在具体实施过程中，所述获取模块具体用于：基于各所述目标关键语句对应的起始时间戳以及末尾时间戳，从所述目标音频数据中截取与所述目标关键语句对应的目标音频片段。

本实施例在具体实施过程中，所述针对音频数据的非文明用语检测装置还包括：用于训练获得所述目标多模态识别模型的训练模块，所述训练模块包括：第一获取单元、样本转换单元、样本提取单元、第二获取单元、标注单元以及训练单元，其中：

第一获取单元，用于获取若干样本音频数据；

样本转换单元，将各所述样本音频数据进行转换，获得与各样本音频数据对应的样本文本数据；

样本提取单元，基于各所述样本文本数据进行关键句提取处理，获得若干样本关键语句；

第二获取单元，用于基于各所述样本关键语句从对应的样本音频数据中，获取与各所述样本关键语句对应的样本音频片段；

标注单元，用于为各所述样本关键语句以及各样本关键语句对应的样本音频片段，标注非文明用语的标签；

训练单元，用于基于各所述样本关键语句、各样本关键语句对应的样本音频片段、以及各样本关键语句对应的标签，对初始多模态识别模型进行模型训练，获得所述目标多模态识别模型。

本实施例在具体实施过程中，所述针对音频数据的非文明用语检测装置还包括提示模块，所述提示模块用于：在检测结果为检测到非文明用语的情况下，按照预定的输出方式输出提示信息，以对包含非文明用语的目标音频片段进行提示。

所述提取模块具体用于：基于预定的标点符号对所述目标文本数据进行切分处理，获得各所述初始关键语句。

本实施例中针对音频数据的非文明用语检测装置，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

本申请另一实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

步骤一、检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据；

步骤二、基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句；

步骤三、基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段；

步骤四、利用预先训练获得目标多模态识别模型，对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测，获得检测结果。

上述方法步骤的具体实施过程可参见上述任意针对音频数据的非文明用语检测方法的实施例，本实施例在此不再重复赘述。

本申请中的存储介质，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

本申请另一实施例提供一种电子设备，如图4所示，至少包括存储器1、处理器2，所述存储器1上存储有计算机程序，所述处理器2在执行所述存储器1上的计算机程序时实现如下方法步骤：

本申请中的电子设备，通过对待检测的目标音频数据进行转换以及关键句提取处理，能够合理准确的获得若干目标关键语句，为后续基于目标关键语句精准的进行非文明用语的检测提供保障。与此同时，通过获取各目标关键语句对应的目标音频片段，后续就可以利用目标多模态识别模型精准的对目标关键语句以及对应的目标音频片段进行非文明用语的检测，实现了同时基于两种模态数据进行非文明用语的检测，提高了检测结果的精准度。解决了目前由于单一的采用关键词进行非文明用语检测，而造成的检测结果不准确的问题。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种针对音频数据的非文明用语检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对待检测的目标音频数据进行转换，获得与所述目标音频数据对应的目标文本数据，具体包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述目标文本数据进行关键句提取处理，获得若干目标关键语句，具体包括：

4.如权利要求1所述的方法，其特征在于，所述基于各所述目标关键语句从所述目标音频数据中，获取与各所述目标关键语句对应的目标音频片段，具体包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：训练获得所述目标多模态识别模型，具体包括：

获取若干样本音频数据；

6.如权利要求1所述的方法，其特征在于，在检测结果为检测到非文明用语的情况下，所述方法还包括：

7.如权利要求3所述的方法，其特征在于，所述对所述目标文本数据进行切分处理，获得若干初始关键语句，具体包括：

8.一种针对音频数据的非文明用语检测装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述针对音频数据的非文明用语检测方法的步骤。

10.一种电子设备，其特征在于，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-7任一项所述针对音频数据的非文明用语检测方法的步骤。