CN110968730A

CN110968730A - 音频标记处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110968730A
Application number: CN201911324829.6A
Authority: CN
Inventors: 李�浩
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-07
Anticipated expiration: 2039-12-16
Also published as: CN110968730B

Abstract

本发明提供了一种音频标记处理方法、装置、计算机设备及存储介质，一种音频标记处理方法，包括步骤：获取目标音频的划分后的多个片段标记后的标记属性和标记文本，获取多个片段审核后的审核属性和审核文本，及获取属性错误阈值和内容错误阈值；将各片段的标记属性和对应的审核属性作对比，统计目标音频的属性错误率，计算将审核文本通过转换为与标记文本一致所需的最少修改步骤数，利用最少步骤数得到目标音频的内容错误率；将属性错误率和内容错误率分别与属性错误阈值和内容错误阈值对比以获得对比结果，并根据对比结果确定标记属性和标记文本是否均合格。根据本方案的评估结果，能实现对标注结果的针对性修改，提高了音频标注的效率和质量。

Description

音频标记处理方法、装置、计算机设备及存储介质

技术领域

本发明属于音频分析和处理领域，尤其涉及一种音频标记处理方法、装置、计算机设备及存储介质。

背景技术

在面对大量音频数据的情况下，为了便于各种类型的音频数据的处理，需要对各种音频进行标注，标注信息包括文本内容、属性等，但标注信息并不一定完全准确，因此需要对音频标注信息的准确率进行评估，然后根据评估结果对标注结果进行修改。在相关技术中，通常采用错误率作为评估量，但错误率通常用字符串对比的方式，反映的是文本内容、属性的总体准确率，需要标注过程的结果和审核过程的结果完全一致，才能算是正确，根据这样的评估方式得出的评估结果对标注结果进行修改时没有针对性，一方面使音频标注的效率不高，另一方面，难以同时保证文本内容和属性的标记合格率。

发明内容

本发明所要解决的技术问题在于提供一种音频标记处理方法、装置、计算机设备及存储介质，能够分别评估音频标注的文本内容、属性的准确率，从而实现对标注结果的针对性修改，提高了音频标注的效率和质量。

为解决上述技术问题，本发明是这样实现的，一种音频标记处理方法，包括步骤：

获取目标音频的划分后的多个片段标记后的标记属性和标记文本，获取所述多个片段审核后的审核属性和审核文本，及获取属性错误阈值和内容错误阈值；

依次将各所述片段的标记属性和对应的所述审核属性作对比，统计所述目标音频的属性错误率，计算将所述审核文本通过修改操作转换为与所述标记文本一致所需的最少步骤数，利用所述最少步骤数得到所述目标音频的内容错误率；

将所述属性错误率和所述内容错误率分别与预设的所述属性错误阈值和内容错误阈值对比以获得对比结果，并根据所述对比结果确定所述标记属性和所述标记文本是否均合格。

进一步地，所述属性包括对所述片段的分类标签，则依次将各所述片段的标记属性和对应的所述审核属性作对比，统计所述目标音频的属性错误率包括：

将所述审核属性中的各分类标签逐一与对应的所述标记属性中的各分类标签配对，若所述审核属性中的各分类标签能与所述标记属性中的各分类标签一一对应，则确定对应的所述片段属性匹配；否则，确定所述片段属性不匹配；

统计标记属性未与对应的所述审核属性匹配的片段的总数，并利用所述片段的总数计算所述目标音频的属性错误率。

进一步地，所述利用所述片段的总数计算所述目标音频的属性错误率包括：

根据关系式PER＝(J/Z)*100％计算所述目标音频的属性错误率，J表示标记属性未与对应的所述审核属性匹配的片段的总数，Z表示所述目标音频被划分的总数。

进一步地，所述文本包括与所述片段对应的字符序列，则所述计算将所述审核文本通过修改操作转换为与所述标记文本一致所需的最少步骤数，利用所述最少步骤数得到所述目标音频的内容错误率包括：

分别计算将各所述审核文本的字符序列通过修改操作转换为对应的所述标记文本的字符序列所需的最少步骤数；

计算各所述标记文本的最少步骤数的和，利用所述最少步骤数的和得到所述目标音频的内容错误率。

进一步地，所述分别计算将各所述审核文本的字符序列通过修改操作转换为对应的所述标记文本的字符序列所需的最少步骤数包括：

通过字符串最短编辑距离计算将各所述审核文本的字符序列转换为对应的所述标记文本的字符序列所需的修改操作的最少步骤数。

进一步地，所述利用所述最少步骤数的和得到所述目标音频的内容错误率包括：

统计所有所述片段的审核文本的字符总数N；根据关系式CER＝(M/N)*100％计算所述目标音频的内容错误率，M表示所述最少步骤数的和。

进一步地，所述将所述属性错误率和所述内容错误率分别与预设的所述属性错误阈值和内容错误阈值对比以获得对比结果，并根据所述对比结果确定所述标记属性和所述标记文本是否均合格包括：

比较所述属性错误率和所述属性错误阈值的大小，比较所述内容错误率和所述内容错误阈值的大小；

若所述属性错误率小于或等于所述属性错误阈值，且所述内容错误率小于或等于所述内容错误阈值，则确定所述标记属性和所述标记文本均合格；

若所述属性错误率大于所述属性错误阈值，且所述内容错误率小于或等于所述内容错误阈值，则确定所述标记属性和所述标记文本未均合格，不合格类型为标记属性不合格；

若所述属性错误率小于或等于所述属性错误阈值，且所述内容错误率大于所述内容错误阈值，则确定所述标记属性和所述标记文本未均合格，不合格类型为标记文本不合格；

若所述属性错误率大于所述属性错误阈值，且所述内容错误率大于所述内容错误阈值，则确定所述标记属性和所述标记文本未均合格，不合格类型为标记属性和标记文本均不合格。

进一步地，提供一种音频标记评估装置，包括：

获取模块，用于获取目标音频的划分后的多个片段标记后的标记属性和标记文本，获取所述多个片段审核后的审核属性和审核文本，及获取属性错误阈值和内容错误阈值；

分析模块，用于依次将各所述片段的标记属性和对应的所述审核属性作对比，统计所述目标音频的属性错误率，计算将所述审核文本通过修改操作转换为与所述标记文本一致所需的最少步骤数，利用所述最少步骤数得到所述目标音频的内容错误率；

评估模块，用于将所述属性错误率和所述内容错误率分别与预设的所述属性错误阈值和内容错误阈值对比以获得对比结果，并根据所述对比结果确定所述标记属性和所述标记文本是否均合格。

进一步地，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如上任一种所述的音频标记处理方法的步骤。

进一步地，提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上任一种所述的音频标记处理方法的步骤。

本发明中音频标记处理方法、装置、计算机设备及存储介质与现有技术相比，有益效果在于：

根据目标音频被标记时的信息及目标音频被审核的结果，分别获得目标音频标记的属性错误率和内容错误率，然后根据与属性错误阈值和内容错误阈值的对比获得评估结果，能实现对标注结果的针对性修改，提高了音频标注的效率和质量。

附图说明

图1是本发明实施例中音频标记处理方法流程示意图；

图2是本发明实施例中步骤S200的细化步骤的流程图；

图3是本发明实施例中步骤S300的细化步骤的流程图；

图4是本发明实施例中音频标记过程和审核过程的示例图；

图5是本发明实施例中音频标记评估装置的结构示意图；

图6是本发明实施例中计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体请参阅图1-3，在本实施例中，提供一种音频标记处理方法，包括步骤：

S100、获取目标音频的划分后的多个片段标记后的标记属性和标记文本，获取多个片段审核后的审核属性和审核文本，及获取属性错误阈值和内容错误阈值；

S200、依次将各片段的标记属性和对应的审核属性作对比，统计目标音频的属性错误率，计算将审核文本通过修改操作转换为与标记文本一致所需的最少步骤数，利用最少步骤数得到目标音频的内容错误率；

S300、将属性错误率和内容错误率分别与预设的属性错误阈值和内容错误阈值对比以获得对比结果，并根据对比结果确定标记属性和标记文本是否均合格。

在本实施例中，标记属性和标记文本由标记主体听目标音频后输出，审核属性和审核文本由审核主体听目标音频后输出，具体的，标记主体既可以是人也可以是机器，审核主体既可以是人也可以是机器，目标音频、标记属性、标记文本和审核文本可以存储于计算机设备的存储器内，也可以存储于云服务器中的存储器内，还可以存储于移动存储器中，即上述标音频、标记属性、标记文本和审核文本可以从计算机设备的本地存储器、运服务器的存储器或者移动存储器中获取。属性错误阈值和内容错误阈值可以预存储在计算机设备的本地存储器、运服务器的存储器或者移动存储器中，需要使用时直接从存储器内获取，也可以通过审核主体临时输入的方式获取，属性错误阈值和内容错误阈值的预设值可以根据实际情况确定。

在本实施例中，属性包括对片段的分类标签，其中分类标签可以包括对话人的角色、性别、语气等，分类标签可以是对话内容的场景、涉及的内容类别等，则依次将各片段的标记属性和对应的审核属性作对比，统计目标音频的属性错误率包括：

S201、将审核属性中的各分类标签逐一与对应的标记属性中的各分类标签配对，若审核属性中的各分类标签能与标记属性中的各分类标签一一对应，则确定对应的片段属性匹配；否则，确定片段属性不匹配；

S202、统计标记属性未与对应的审核属性匹配的片段的总数，并利用片段的总数计算目标音频的属性错误率。

具体的，利用片段的总数计算目标音频的属性错误率包括：

根据关系式PER(Property Error Rate)＝(J/Z)*100％计算目标音频的属性错误率，J表示标记属性未与对应的审核属性匹配的片段的总数，Z表示目标音频被划分的总数。

在本实施例中，文本包括与片段对应的字符序列，字符序列指的是删除内容列中所有标点所得的字符，计算字符数时，以其文字能表达词义的最小单位数表示，例如中文是汉字数，英文是空格分隔的单词数。则计算将审核文本通过修改操作转换为与标记文本一致所需的最少步骤数，利用最少步骤数得到目标音频的内容错误率包括：

S203、分别计算将各审核文本的字符序列通过修改操作转换为对应的标记文本的字符序列所需的最少步骤数；当然，在其他实施例中，也可以用分别计算将各标记文本的字符序列通过修改操作转换为对应的审核文本的字符序列所需的最少步骤数来替换该步骤。

具体的，在本实施例中，通过字符串最短编辑距离计算将各审核文本的字符序列转换为对应的标记文本的字符序列所需的修改操作的最少步骤数。修改操作包括替换字符、删除字符和插入字符，其中替换字符指的是将字符用另一字符替代，删除字符指的是将原有字符去除，插入字符指的是嵌入一字符，替换、删除或插入一字符分别代表一次修改操作，即修改操作的步骤数是替换、删除或插入字符次数的总和。在其他实施例中，也可以采用其他计算方案统计修改操作的最少步数，只要能够得到准确的结果即可。

S204、计算各标记文本的最少步骤数的和，利用最少步骤数的和得到目标音频的内容错误率。

具体的，在本实施例中，利用最少步骤数的和得到目标音频的内容错误率包括：

S301、统计所有片段的审核文本的字符总数N；根据关系式CER(Content ErrorRate)＝(M/N)*100％计算目标音频的内容错误率，M表示最少步骤数的和。

将属性错误率和内容错误率分别与预设的属性错误阈值和内容错误阈值对比以获得对比结果，并根据对比结果确定标记属性和标记文本是否均合格包括：

比较属性错误率和属性错误阈值的大小，比较内容错误率和内容错误阈值的大小；

若属性错误率小于或等于属性错误阈值，且内容错误率小于或等于内容错误阈值，则确定标记属性和标记文本均合格；

若属性错误率大于属性错误阈值，且内容错误率小于或等于内容错误阈值，则确定标记属性和标记文本未均合格，不合格类型为标记属性不合格；

若属性错误率小于或等于属性错误阈值，且内容错误率大于内容错误阈值，则确定标记属性和标记文本未均合格，不合格类型为标记文本不合格；

若属性错误率大于属性错误阈值，且内容错误率大于内容错误阈值，则确定标记属性和标记文本未均合格，不合格类型为标记属性和标记文本均不合格。

根据对比结果获得的不合格类型，标记主体可以更加有针对性地对标记结果的标记内容或者标记属性进行修改，从而提高音频标记的效率和质量。

现以图4为例计算属性错误率和内容错误率，首先获取目标音频中第一片段和第二片段两个片段的标记属性和标记文本，依次为“天气，问候，社交”、“天气，回答”、“惊天天气怎么样了”和“惊天不错”，然后获取目标音频中第一片段和第二片段两个片段的审核属性和审核文本“天气”、“天气，回答”、“今天的天气怎么样”和“今天不错”，属性错误阈值和内容错误阈值均设置为10％；

对比标记属性和审核属性可知，第一片段的标记属性无法与审核属性匹配，即确认J＝1，其中，Z＝2，即目标音频的属性错误率PER＝(J/Z)*100％＝(1/2)*100％＝50％；以S表示替换错误(Substitution)：在标注结果中，正确的词被错误的词代替；以D表示删除错误(Deletion):在标注结果中，丢失了正确的词；以I表示插入错误(Insertion)：在标注结果中，增加了一个多余的词，经对比可知，在第一片段中“惊”是替换字，“的”是删除字，“了”是插入字，在第二片段中“惊”是替换字，因此，第一片段的修改操作的最少步骤数为3，第二片段的修改操作的最少步骤数为1，因此M＝3+1＝4,其中N＝12，因此，CER＝(M/N)*100％＝(4/12)*100％＝33％。

将属性错误率和内容错误率分别与属性错误阈值和内容错误阈值对比：属性错误率大于属性错误阈值，内容错误率大于内容错误阈值，因此可以确定目标音频的标记属性和标记文本均不合格，需要对目标音频的标记属性和标记文本进行修改，从而提高标记属性和标记文本的准确率。

在一些情况下，会存在标注过程和审核过程对目标音频划分片段数不相同的情况，此时可以采用直接返回标注过程修改至划分的片段数与审核过程划分的片段数相等后再进行对比，也可以采用以审核过程划分的片段为准，按顺序将标记过程划分的片段和审核过程划分的片段按上述方法进行对比，对于标记过程所划分的片段不足的情况，可以以空文本和空属性进行补足后进行对比，对于标记过程所划分的片段多余的情况，可以将多余的片段的标记文本的字符序列均按删除字符来计入修改操作，将多余的片段直接算作属性未与审核属性匹配。

如图5所示，本实施例还提供一种音频标记评估装置，包括：

获取模块1，用于获取目标音频的划分后的多个片段标记后的标记属性和标记文本，获取多个片段审核后的审核属性和审核文本，及获取属性错误阈值和内容错误阈值；

分析模块2，用于依次将各片段的标记属性和对应的审核属性作对比，统计目标音频的属性错误率，计算将审核文本通过修改操作转换为与标记文本一致所需的最少步骤数，利用最少步骤数得到目标音频的内容错误率；

评估模块3，用于将属性错误率和内容错误率分别与预设的属性错误阈值和内容错误阈值对比以获得对比结果，并根据对比结果确定标记属性和标记文本是否均合格。

如图6所示，本实施例还提供一种计算机设备，包括存储器01和处理器02，存储器01中存储有计算机可读指令，计算机可读指令被处理器02执行时，使得处理器02执行如上述任一种音频标记处理方法的步骤。

本实施例还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上任一种音频标记处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims

1.一种音频标记处理方法，其特征在于，包括步骤：

2.根据权利要求1所述的音频标记处理方法，其特征在于，所述属性包括对所述片段的分类标签，则依次将各所述片段的标记属性和对应的所述审核属性作对比，统计所述目标音频的属性错误率包括：

3.根据权利要求2所述的音频标记处理方法，其特征在于，所述利用所述片段的总数计算所述目标音频的属性错误率包括：

4.根据权利要求1所述的音频标记处理方法，其特征在于，所述文本包括与所述片段对应的字符序列，则所述计算将所述审核文本通过修改操作转换为与所述标记文本一致所需的最少步骤数，利用所述最少步骤数得到所述目标音频的内容错误率包括：

5.根据权利要求4所述的音频标记处理方法，其特征在于，所述分别计算将各所述审核文本的字符序列通过修改操作转换为对应的所述标记文本的字符序列所需的最少步骤数包括：

6.根据权利要求4所述的音频标记处理方法，其特征在于，所述利用所述最少步骤数的和得到所述目标音频的内容错误率包括：

7.根据权利要求1-6中任意一项所述的音频标记处理方法，其特征在于，所述将所述属性错误率和所述内容错误率分别与预设的所述属性错误阈值和内容错误阈值对比以获得对比结果，并根据所述对比结果确定所述标记属性和所述标记文本是否均合格包括：

8.一种音频标记评估装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述的音频标记处理方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的音频标记处理方法的步骤。