CN110008378B

CN110008378B - 基于人工智能的语料收集方法、装置、设备及存储介质

Info

Publication number: CN110008378B
Application number: CN201910081793.7A
Authority: CN
Inventors: 杨雨晨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2024-03-19
Anticipated expiration: 2039-01-28
Also published as: CN110008378A; WO2020155750A1

Abstract

本申请属于自然语言处理技术领域，涉及基于人工智能的语料收集方法、装置、设备及存储介质。该方法包括获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站；从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块；根据每个字幕块的分段时间切分音频文件，获得分段音频；建立分段音频和字幕块之间的关联；对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。该方法能够实现自动快速收集到符合某一类场景需要的语料的目的，效率高而且成本低。

Description

基于人工智能的语料收集方法、装置、设备及存储介质

技术领域

本申请属于自然语言处理技术领域，涉及基于人工智能的语料收集方法、装置、设备及存储介质。

背景技术

人工智能（Artificial Intelligence，AI），是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人工智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

现实中，基于AI的自然语言处理过程中往往需要预先收集符合各类场景的语料，比如说在客服投诉自动处理平台应用中: 需要关于表现“投诉”“不满”以及时间紧急程度的语料，以便于根据紧急、严重程度可以灵活调整工单接入的优先级以及处理对接人，以帮助快速处理投诉解决问题；又比如说，在幼儿早教以及幼儿趣味对话软件应用中，需要基于幼儿的声音而且情绪比较欢快活泼的语料。

现有收集某一场景的语料方式主要有：

（1）通过免费的资源搜索获得某一场景的语料，这种方式获取到的语料非常有限，难以满足需求；

（2）通过团队自己录音并进行标注而获得某一场景的语料,这种办法效率低，极其耗费人力；

（3）通过渠道购买某一场景的语料，这种方式成本较高。

因此，现有语料收集的方法效率低而且成本很高，怎样快速收集到符合某一类场景需要的语料也成为迫切需要解决的问题。

发明内容

本申请实施例公开了一种能够快速收集到符合某一种场景的语料的基于人工智能的语料收集方法、装置、设备及存储介质。

本申请的一些实施例公开了一种基于人工智能的语料收集方法，包括：

获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称；

从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；

从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块；

根据每个字幕块的分段时间切分音频文件，获得分段音频；

建立分段音频和字幕块之间的关联；

对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

可选的，所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤具体包括：

分析每个字幕块是否包含有与预设筛选关键词相匹配的文本；

将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置。

进一步的，所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后，还包括：

判断存储在第一位置的各分段音频的每一个语音状态参数是否在预设的标准区间；

挑选出所有的语音状态参数均在预设的标准区间的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第二位置。

进一步的，所述预设标准区间的设置方法，具体包括：

获取标记有目标情绪类别的语料样本进行统计分析，得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围；

从所述范围内提取一个包含于所述参考范围内的区间作为预设标准区间。

可选的，所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后还包括：

计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值；

将同一分段音频中所有的语音状态参数的分值进行求和运算，确认总分值是否达到预设的阈值；

将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置。

进一步的，所述计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值的步骤具体包括：

在所述范围内挑选一个数值作为预设的语音状态参数标准值；

测试所述存储在第一位置的各分段音频的每一个语音状态参数值；

基于预设的语音状态参数标准值、测试的语音状态参数值以及接收到的权重值，按以下公式计算每一个语音状态参数的分值：

；其中，/>为每一个语音状态参数的分值，/>为每一个语音状态参数的权重值，/>为测试的语音状态参数值，/>为预设的语音状态参数标准值, />代表语音状态参数。

可选的，所述将SRT字幕文件解析出来的字幕文本内容拆分成字幕块的步骤具体包括：

解析SRT字幕文件得到字幕文本内容；

结合播放时间和断句符对字幕文本内容进行分块，得到字幕块。

本申请的一些实施例还公开了一种基于人工智能的语料收集装置，包括：

配置项信息获取模块，用于获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称；

视频数据下载模块，用于从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；

音频字幕处理模块，用于从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块；

音频切分模块，用于根据每个字幕块的分段时间切分音频文件，获得分段音频；

音频字幕块关联模块，用于建立分段音频和字幕块之间的关联；

筛选模块，用于对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

本申请的一些实施例还公开了一种计算机设备，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如前所述基于人工智能的语料收集方法的步骤。

本申请的一些实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述基于人工智能的语料收集方法的步骤。

与现有技术相比，本申请公开的技术方案主要有以下有益效果：

获取用户输入的配置项信息，从所述视频网址或者视频网站下载目标视频的视频数据；然后处理所述视频数据，从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容切分成字幕块；根据每个分段字幕的分段时间切分音频；将分段音频和字幕块的关联；对关联后的分段音频和字幕块进行分类筛选后一起存储为目标语料，实现了快速自动收集到符合某一类场景例如符合预设筛选关键词的需要的语料的目的，效率高而且成本低。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的基于人工智能的语料收集方法的流程图；

图2为图1中步骤S106的第二种具体实施方式的流程图；

图3为图1中步骤S106的第三种具体实施方式的流程图；

图4为图3中步骤S405的一种具体实施方式的流程示意图；

图5为本申请实施例提供的基于人工智能的语料收集装置的示意图；

图6为图5中的音频字幕处理模块的示意图；

图7为图5中的筛选模块的第二实施例的结构示意图；

图8为图5中的筛选模块的第三实施例的结构示意图；

图9为图8中的语音状态参数分值计算模块的结构示意图；

图10本申请实施例中计算机设备100基本结构框图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请实施例提供了一种基于人工智能的语料收集方法。

参阅图1，为本申请实施例提供的基于人工智能的语料收集的示意图；

如图1中所示意的，所述基于人工智能的语料收集的方法包括：

S101.获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称。

其中，目标视频关键字包括表示视频名称或者视频类型的关键字；视频网站可以为视频网站的名称例如爱奇艺、优酷，也可以为视频网站的网址例如爱奇艺、优酷的网址。

S102.从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件。

具体的，本申请实施例中的视频数据包括有字幕文件和具有音视频信号的视频文件，视频数据可以是例如电影、电视剧、综艺、新闻、动画、歌曲等视频数据，也可以是涉及具体内容例如消费维权、投诉、点餐对话、具体的动画片内容等的视频数据。

网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。具体的，下载视频数据的实施方式可以包括：

第一种方式，网络爬虫根据用户输入的视频网址找到该视频网址，打开包含该目标视频的网页，自动下载目标视频。例如，当需要下载电影《当幸福来敲门》，用户可以预先设置包含有该电影的视频网址，网络爬虫根据用户输入的视频网址找到该视频网址，打开包含该目标视频的网页，自动下载目标视频。

第二种方式，获取用户输入的视频网站，视频网站可以为视频网站的名称例如爱奇艺、优酷，也可以为视频网站的网址例如爱奇艺、优酷的网址。当获取的视频网站为视频网站的名称例如爱奇艺、优酷等，网络爬虫在预设的搜索引擎像百度等网页中输入视频网站的名称检索到视频网站的网址，打开视频网站例如爱奇艺，在爱奇艺、优酷等视频网站的搜索框中输入目标视频关键字搜索到目标视频，网络爬虫根据搜索的结果，依次打开搜索出来的网页将所有的视频均下载下来。当获取的视频网站为视频网站的网址例如爱奇艺、优酷的网址时，网络爬虫打开对应的视频网站，并在视频网站的搜索框中输入目标视频关键字搜索到目标视频，网络爬虫根据搜索的结果，依次打开搜索出来的网页将所有的视频均下载下来。其中的目标视频关键字可以为例如“熊出没”等动画片的名称，也可以为例如“做饭”等表示视频内容的关键字。

以上只是列举，不用于限制本发明。

目标视频关键字的设置：现实中，会有客服自动投诉处理平台，当我们知道某些电影属于情绪比较愤慨的电影，可以预先设置关键字为该电影的名称例如“XXX”，也可以设置用于筛选需要下载的视频资源的类型的关键字，比如说，我们知道某一类节目（像调解节目，关于售后维权等节目）里面有很多关于抱怨、气愤、不满的内容，可以设置该类节目的名称例如“消费主张”为目标视频关键字；在一些场景中，气氛是比较欢快活泼的，例如说关于幼儿早教方面也涉及很多语音识别等技术，可以设置用于筛选需要下载的视频资源的类型的关键字，比如说，我们知道某一类节目像动画节目里面多是属于幼儿看的节目，是很适合早教的内容，可以设置关键字为“动画+幼儿”。

进一步的，为了表明需要的是视频格式的资源可以在目标视频关键字中加上“视频”，例如“消费主张+视频” 、“动画+幼儿+视频”等限定搜索的为视频资源。

以上只是列举，不用于限制本发明。

S103.从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容切分成字幕块。

具体的，步骤S103中包括两个分步骤：

从视频文件中分离出音频文件，具体的，通过视频音频分离技术将视频文件中的音频分离出来，得到单独的音频文件。

将SRT字幕文件解析出来的字幕文本内容切分成字幕块。

步骤S103中的两个分步骤属于并列关系,不分时间先后。

具体的，在本实施例中，解析SRT字幕文件可以得到如下所示的字幕文本内容；

1

00:00:00,162 --> 00:00:01,875

从现在开始

2

00:00:02,800 --> 00:00:03,000

我只疼你，宠你，不会骗你

3

00:00:06,560 --> 00:00:11,520

没有人能打你，骂你，欺负你，有人欺负你我会第一时间出来帮你

其中，

“1”、“2”、 “3”表示字幕的序号，例如“1”代表该音频信号中出现的第1个字幕，“2”代表该音频信号中出现的第2个字幕，“3” 代表该音频信号中出现的第3个字幕；

音频信号中主要包括有字幕的部分和没有字幕的空白部分，每一个字幕都对应两个时间，第一个“时间”（“-->”左边的时间）表示音频信号中字幕出现的开始时间，第二个“时间”（“-->”右边的时间）表示字幕结束的时间，从开始时间到结束时间为字幕的播放时间。例如“00:00:00,162”为音频信号中第1个字幕出现的开始时间，“00:00:01,875”为第1个字幕结束的时间，“00:00:00,162--〉00:00:01,875”为第1个字幕的字幕内容“从现在开始”的播放时间。

“从现在开始”为第1个字幕的字幕内容，“我只疼你，宠你，不会骗你” 为第2个字幕的字幕内容，“没有人能打你，骂你，欺负你，有人欺负你我会第一时间出来帮你” 为第3个字幕的字幕内容。

具体的，本实施例中，结合播放时间和断句符对字幕文本内容进行分块，得到字幕块；例如“从现在开始”拆分为一个字幕块，“我只疼你，宠你，不会骗你”拆分为一个字幕块，“没有人能打你，骂你，欺负你，有人欺负你我会第一时间出来帮你” 拆分为一个字幕块。S104. 根据每个字幕块的分段时间切分音频文件，获得分段音频。

在解析得到的字幕文本中，每一个字幕都对应两个时间，第一个“时间”表示音频信号中字幕出现的开始时间，第二个“时间”表示字幕结束的时间，从开始时间到结束时间为字幕的播放时间。由于字幕块是按照字幕的播放时间拆分的，因此由字幕的播放时间可以得到每个字幕块的开始时间到结束时间，再按照每一个字幕块的开始时间到结束时间将音频文件进行切分，比如说切分成“00:00:00,162--〉00:00:01,875”、“00:00:02,800--〉00:00:03,000”、“00:00:06,560--〉00:00:11,520”等等一段一段的分段音频，最后拆分出来的分段音频与字幕块一一对应。

S105. 建立分段音频和字幕块之间的关联。

将分段音频和字幕块进行关联，例如时间段为“00:00:00,162--〉00:00:01,875”的分段音频与分段字幕“从现在开始”关联起来。关联起来的分段音频和字幕块可以存储在一个指定的文件夹地址也可以分开存储，但是两者的文件名称需要一致。

S106.对关联后的字幕块分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

在本申请的实施例中，获取用户输入的配置项信息，从所述视频网站下载目标视频的视频数据；然后处理所述视频数据，从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容切分成字幕块；根据每个字幕块的分段时间切分音频；将分段音频和字幕块关联起来；对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料，实现了快速自动收集到所需要的符合某一类场景例如符合预设筛选关键词的语料的目的，效率高而且成本低。

具体的，步骤S106的第一种具体实施方式中，所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤包括:

将包含有相匹配的文本的字幕块连同与该字幕块相关联的分段音频一起存储到指定的第一位置。

具体的，本申请实施例中通过预设筛选关键词分类筛选的方式帮助筛选需要的语料。通常人在愤怒的状态下可能会使用更多的侮辱性的词汇；在高兴的时候，可能会使用一些积极向上的词汇。因此，如果需要收集愤怒情绪的语料，预设筛选关键词可以为“太过分”、“我很生气”或者表示骂人的“笨蛋”、“傻瓜”等等，如果需要收集积极向上情绪的语料，预设筛选关键词可以为“天天向上”、“奋斗”、“加油”等等。

抓取每个字幕块的文本与预设的筛选关键词进行比对，确认所述字幕块是否包含有与预设筛选关键词相匹配的文本，其中，筛选关键词匹配的方式可以为模糊匹配。存储下来的相关联的分段音频和字幕块为目标语料。

请参阅图2，图2为图1中步骤S106的第二种具体实施方式的流程图；

具体的，在一些实施例中，所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤包括:

S301.分析每个字幕块是否包含有与预设筛选关键词相匹配的文本；

S302.将包含有相匹配的文本的字幕块连同与该字幕块相关联的分段音频一起存储到指定的第一位置。

S303.判断前述存储在第一位置的各分段音频的的每一个语音状态参数是否在预设标准区间；

S304.挑选出所有的语音状态参数均在预设标准区间的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第二位置。

具体的，本实施例中的筛选配置项信息除了包括用于筛选的筛选关键词之外，还包括用于辅助分析分段音频的情绪类别的语音状态参数，语音状态参数可以包括音量、频率、振幅、语速以及语调。

所述挑选出所有的语音状态参数均在预设标准区间的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第二位置的步骤之前，还包括：

预先设置每一个语音状态参数的标准区间。

具体的，预先设置每一个语音状态参数的标准区间的步骤包括：

从所述范围内提取一个包含于所述范围内的区间作为预设标准区间。

其中，语料样本可以由人工采集好自己认为符合自己想要的某一类情绪的样本，也可以为获取到的已有的由其他方式收集的样本；

包含于所述范围内的区间可以为与所述范围相同的区间也可以为所述范围以内的区间，例如所述范围为50～70，包含于所述范围内的区间可以为50～70，也可以为50～60、55～65、60～70等等。

更具体的，在本实施例中，例如说关于频率这个语音状态参数我们找到一个标记有目标情绪类别（例如愤怒）的语料样本库，测试每一个语料样本的频率值，并画出频率的概率正态分布图，发现所有的语料样本中频率在范围50～70Hz内的样本在所有的语料样本所占的概率均大于预设值（例如97%），就可以得到目标情绪类别下频率所占的概率均大于预设值的语音状态参数的范围，同样的，采用该方法可以得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围；可以将该范围区间作为预设标准区间，也可以在区间50～70Hz内挑选一个小区间例如50～60 Hz、55～65 Hz、60～70 Hz作为预设标准区间，其他的语音状态参数例如音量、振幅、语速以及语调同样处理。

所有的语音状态参数均在预设标准区间的分段音频，即分段音频的五个语音状态参数均在各自对应的预设标准区间。

请参阅图3，图3为图1中步骤S106的第三种具体实施方式的流程图；

步骤 S302将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置之后，还包括：

S405.计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值。

S406.将同一分段音频中所有的语音状态参数的分值进行求和运算，确认总分值是否达到预设的阈值。其中，预设阈值可以由经验或者需求自行设置，例如说80分、90分等。

S407.将总分值达到预设阈值的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第三位置。

具体的，本实施例中的筛选配置项信息除了包括用于筛选的筛选关键词之外，还包括用于辅助分析分段音频的情绪的语音状态参数，语音状态参数包括音量、频率、振幅、语速以及语调。

接着请参阅图4，图4为图3中步骤S405的一种具体实施方式的流程示意图；更具体的，计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值的步骤包括：

S501. 获取标记有目标情绪类别的语料样本进行统计分析，得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围。

其中，语料样本可以由人工采集好自己认为符合自己想要的某一类情绪的样本，也可以为获取到的已有的由其他方式收集的语料样本。在本实施例中，例如说关于频率这个语音状态参数我们找到一个标记有目标情绪类别（例如愤怒）的语料样本库，测试每一个语料样本的频率值，并画出频率的概率正态分布图，发现频率在范围50～70Hz内的样本在所有的语料样本中所占的概率均大于预设值（例如97%），就可以得到目标情绪类别下频率所占的概率均大于预设值的语音状态参数的范围，同样的，采用该方法就可以得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围。

S502.在该范围内挑选一个数值例如中值作为预设的语音状态参数标准值。

其中，频率标准值用表示，/>、/>、/>和/>分别表示其他语音状态参数的预设标准值。

S503. 测试所述存储在第一位置的各分段音频的每一个语音状态参数值。

S504.基于预设的语音状态参数标准值、测试的语音状态参数值以及接收到的权重值，按以下公式计算每一个语音状态参数的分值：

；其中，/>为每一个语音状态参数的分值，/>为每一个语音状态参数的权重值，/>为测试的语音状态参数值，/>为预设的语音状态参数标准值, />代表语音状态参数，具体可以为音量、频率、振幅、语速和语调。

具体的，将所述存储在第一位置的各分段音频实际测试出来的语音状态参数具体值与预设的语音状态参数标准值/>进行比较，得出的数值称为相似度/>，即/>；

例如，将所述存储在第一位置的各分段音频实际测试出来的频率具体值与预设的频率标准值进行比较，得出频率相似度/>，频率具体值用/>表示，/>、/> 、/>分别表示其他语音状态参数的具体值,/>、/>、/>和/>分别表示其他语音状态参数的相似度，具体的公式如下：/>，/>，，/>，/>。

接收预设的每一个语音状态参数的权重值。

权重值用表示，每个语音状态参数的权重值分别为/>、/>、/>、/>和/>；

预先给每一个语音状态参数设置一个权重值，例如人在愤怒的时候，声音明显会响亮很多，因此音量的权重就比较大，可以设为60%。

由进一步得出公式/>，参考公式计算每一个语音状态参数的分值。

具体的，参考如下公式：，，/>，，/>其中，/>、、/>、/>以及/>分别表示每一个语音状态参数的分值；/>、/>、/>、和/>分别表示每一个语音状态参数的权重值；

因此，可以计算出每一个语音状态参数的分值。

反过来继续参阅图3，S406.将同一分段音频中所有的语音状态参数的分值进行求和运算，确认总分值是否达到预设的阈值。

具体的，用M表示分段音频的总分值，根据公式得出同一分段音频的总分值。

将同一分段音频的总分值与预设的阈值进行比较，确认总分值是否达到预设的阈值。

S407.将总分值达到预设阈值的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第三位置。具体的，如果总分值大于或者等于预设阈值，则将分段音频连同与该分段音频相关联的字幕块一起存储到指定的第三位置。

本申请实施例带来的好处是实现了自动快速收集到所需要的符合某一类场景的语料的目的，效率高而且成本低，设置了多种语音状态参数，通过对获取标记有情绪类别的语料样本进行统计分析，得出一个范围，选出范围内的区间作为预设标准区间或者选出范围内的某一个具体值作为预设标准值，对分段音频进行测试、计算打分，挑选出的目标语料的情绪更加符合标准。

本申请实施例提供了一种基于人工智能的语料收集装置，参阅图5，图5为本申请所述基于人工智能的语料收集装置的第一种实施例的结构示意图；

所述基于人工智能的语料收集装置包括：配置项信息获取模块51、视频数据下载模块52、音频字幕处理模块53、音频切分模块54、音频字幕块关联模块55和筛选模块56。

配置项信息获取模块51，用于获取用户输入的配置项信息；其中，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称。

视频数据下载模块52，用于从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；

音频字幕处理模块53，用于从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块；

音频切分模块54，用于根据每个字幕块的分段时间切分音频文件，获得分段音频；

音频字幕块关联模块55，用于建立分段音频和字幕块之间的关联；

筛选模块56，用于对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

参阅图6，图6为图5中的音频字幕处理模块的结构示意图；具体的，在本申请实施例中，音频字幕处理模块53包括：

字幕拆分模块531，用于解析SRT字幕文件得到字幕文本内容；

结合播放时间和断句符对字幕文本内容进行分块，得到字幕块；

音频视频分离模块532，用于从视频文件中分离出音频文件。

参阅图7，图7为图5中的筛选模块的第一实施例的结构示意图；具体的，在一些实施例中，筛选模块56包括：

关键词匹配模块561，用于分析每个字幕块是否包含有与预设筛选关键词相匹配的文本；

第一存储模块562，用于将包含有相匹配的文本的字幕块连同与改字幕块相关联的分段音频一起存储到指定的第一位置。

进一步的，在另一些实施例中，筛选模块56除了包括关键词匹配模块561和第一存储模块562之外还包括：

语音状态参数判断模块563，用于判断所述存储在第一位置的分段音频的每一个语音状态参数是否在预设的标准区间；其中，所述语音状态参数包含于预设的筛选配置项信息，用于辅助分析分段音频的情绪；

第二存储模块564，用于挑选出所有的语音状态参数均在预设的标准区间的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第二位置。

参阅图8，图8为图5中的筛选模块的第二实施例的结构示意图；具体的，在另一些实施例中，筛选模块56除了包括关键词匹配模块561和第一存储模块562之外还包括：

语音状态参数分值计算模块565，用于计算出存储在所述第一位置的各分段音频的每个语音状态参数的分值；

总分值计算判断模块566，用于将同一分段音频中所有的语音状态参数的分值进行求和运算，并确认总分值是否达到预设的阈值；

第三存储模块567，用于将总分值达到预设阈值的分段音频连同与该分段音频相关联的字幕块一起存储到指定的第三位置。

参阅图9，图9为图8中的语音状态参数分值计算模块的结构示意图；具体的，语音状态参数分值计算模块565包括：

范围分析模块5651，用于获取标记有目标情绪类别的语料样本进行统计分析，得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围；其中，语料样本可以由人工采集好自己认为符合自己想要的某一类目标情绪类别的样本，也可以为获取到的已有的由其他方式收集的样本。在本实施例中，例如说关于频率这个语音状态参数我们找到一个标记有目标情绪类别（例如愤怒）的语料样本库，测试每一个语料样本的频率值，并画出频率的概率正态分布图，发现频率在范围50～70Hz内的样本在所有的语料样本中所占的概率均大于预设值（例如97%），就可以得到目标情绪类别下频率所占的概率均大于预设值的语音状态参数的范围，同样的，采用该方法就可以得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围。

标准值设置模块5652，用于在所述范围内挑选一个数值作为预设的语音状态参数标准值；其中，频率标准值用表示，/>、/>、/>和/>分别表示其他语音状态参数的预设标准值, 作为预设标准值所挑选的数值可以为中值或者范围内任何一个数值,例如,在本实施例中, 挑选频率中值60Hz作为频率的预设标准值。

测试值模块5653，用于测试所述存储在第一位置的各分段音频的每一个语音状态参数值。

分值计算模块5654，用于基于预设的语音状态参数标准值、和测试的语音状态参数值以及接收到的权重值，按以下公式计算每一个语音状态参数的分值：；其中，/>为每一个语音状态参数的分值，/>为每一个语音状态参数的权重值，/>为测试的语音状态参数值，/>为预设的语音状态参数标准值, />代表语音状态参数，具体可以为音量、频率、振幅、语速和语调。

本申请的一实施例公开了一种计算机设备。具体请参阅图10，为本申请的一实施例中计算机设备100基本结构框图。

如图10中所示意的，所述计算机设备100包括通过系统总线相互通信连接存储器101、处理器102、网络接口103。需要指出的是，图10中仅示出了具有组件101-103的计算机设备100，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器101至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器101可以是所述计算机设备100的内部存储单元，例如该计算机设备100的硬盘或内存。在另一些实施例中，所述存储器101也可以是所述计算机设备100的外部存储设备，例如该计算机设备100上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器101还可以既包括所述计算机设备100的内部存储单元也包括其外部存储设备。本实施例中，所述存储器101通常用于存储安装于所述计算机设备100的操作系统和各类应用软件，例如上述基于人工智能的语料收集方法等。此外，所述存储器101还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器102在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器102通常用于控制所述计算机设备100的总体操作。本实施例中，所述处理器102用于运行所述存储器101中存储的程序代码或者处理数据，例如运行上述基于人工智能的语料收集方法的程序代码。

所述网络接口103可包括无线网络接口或有线网络接口，该网络接口103通常用于在所述计算机设备100与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有单据信息录入程序，所述单据信息录入程序可被至少一个处理器执行，以使所述至少一个处理器执行上述任意一种基于人工智能的语料收集方法的步骤。

最后应说明的是，显然以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于人工智能的语料收集方法，其特征在于，包括：

从所述视频文件中分离出音频文件，并将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块；

根据每个所述字幕块的分段时间切分所述音频文件，获得分段音频；

建立所述分段音频和所述字幕块之间的关联；

对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料；

所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤，具体包括：

将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置；

所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后，还包括：

将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置；

所述计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值的步骤，具体包括：

M_i＝100*S_i*(X_i/W_i)；其中，M_i为每一个语音状态参数的分值，S_i为每一个语音状态参数的权重值，X_i为测试的语音状态参数值，W_i为预设的语音状态参数标准值,_i代表语音状态参数。

2.根据权利要求1所述的基于人工智能的语料收集方法，其特征在于，所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后，还包括：

挑选出所有的语音状态参数均在预设标准区间的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第二位置。

3.根据权利要求2所述的基于人工智能的语料收集方法，其特征在于，所述预设标准区间的设置方法，具体包括：

4.根据权利要求1至3任一项所述的基于人工智能的语料收集方法，其特征在于，所述将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块的步骤具体包括：

解析SRT字幕文件得到字幕文本内容；

5.一种基于人工智能的语料收集装置，其特征在于，包括：

筛选模块，用于对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料；

所述筛选模块还用于分析每个字幕块是否包含有与预设筛选关键词相匹配的文本；将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置；计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值；将同一分段音频中所有的语音状态参数的分值进行求和运算，确认总分值是否达到预设的阈值；将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置；所述计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值，具体包括：获取标记有目标情绪类别的语料样本进行统计分析，得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围；在所述范围内挑选一个数值作为预设的语音状态参数标准值；测试所述存储在第一位置的各分段音频的每一个语音状态参数值；基于预设的语音状态参数标准值、测试的语音状态参数值以及接收到的权重值，按以下公式计算每一个语音状态参数的分值：M_i＝100*S_i*(X_i/W_i)；其中，M_i为每一个语音状态参数的分值，S_i为每一个语音状态参数的权重值，X_i为测试的语音状态参数值，W_i为预设的语音状态参数标准值,_i代表语音状态参数。

6.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述基于人工智能的语料收集方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项基于人工智能的语料收集方法的步骤。