CN117116280A

CN117116280A - 一种基于人工智能的语音数据智能管理系统及方法

Info

Publication number: CN117116280A
Application number: CN202310990582.1A
Authority: CN
Inventors: 巨琰
Original assignee: Wuxi Aishi Intelligent Technology Co ltd
Current assignee: Wuxi Aishi Intelligent Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-24
Anticipated expiration: 2043-08-08
Also published as: CN117116280B

Abstract

本发明涉及数据管理技术领域，具体为一种基于人工智能的语音数据智能管理系统及方法，包括：数据采集模块、数据管理中心、语音数据分析模块、传输方式规划模块和数据传输管理模块，通过数据采集模块采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据，通过数据管理中心存储并管理采集到的全部数据，通过语音数据分析模块建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长，通过传输方式规划模块规划合适的数据传输方式，通过数据传输管理模块选择最佳的顺序传输数据，减少了观看人员听清、了解视频内容所要消耗的时间，避免了相关人员观看到面试者提交的开始时间有所延迟的问题。

Description

一种基于人工智能的语音数据智能管理系统及方法

技术领域

本发明涉及数据管理技术领域，具体为一种基于人工智能的语音数据智能管理系统及方法。

背景技术

招聘是人力资源管理中的重要工作之一，为了更充分地提前了解面试者的相关信息，通常会要求面试者上传一段自我介绍以及与应聘岗位相关的指定问题回答的视频，相关人员会提前通过观看视频来了解面试者的信息以帮助在线筛选人才，但是，因受到不同因素，例如：网络信号、环境噪声等影响，上传视频中的语音清晰度不一，需要进行语音数据管理，随着互联网技术和人工智能的快速的发展，将人工智能技术应用在语音数据管理上，能够更好地进行在线人才筛选；

然而，现有的语音数据管理方式仍存在一些问题：首先，在面对大量语音清晰度不一的视频数据，对于观看部分语音清晰度低的视频，会消耗并延长相关人员听清、了解视频内容的时间，需要对语音信号做增强处理来解决这一问题，但是，现有技术一般会在开始传输视频数据之前对所有语音信号做增强处理，存在以下弊端：首先，对于部分清晰的语音信号无需处理，现有技术未进行提前筛选；其次，对于大量视频数据，增强处理需要一定的时间，会导致相关人员观看到面试者提交的开始时间有所延迟。

所以，人们需要一种基于人工智能的语音数据智能管理系统及方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于人工智能的语音数据智能管理系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于人工智能的语音数据智能管理系统，所述系统包括：数据采集模块、数据管理中心、语音数据分析模块、传输方式规划模块和数据传输管理模块；

所述数据采集模块的输出端连接所述数据管理中心的输入端，所述数据管理中心的输出端连接所述语音数据分析模块的输入端，所述语音数据分析模块的输出端连接所述传输方式规划模块的输入端，所述传输方式规划模块的输出端连接所述数据传输管理模块的输入端；

所述数据采集模块用于采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据，将采集到的全部数据传输到所述数据管理中心；

所述数据管理中心用于存储并管理采集到的全部数据；

所述语音数据分析模块用于建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长；

所述传输方式规划模块用于为当前需要传输至观看人员终端的数据规划传输方式；

所述数据传输管理模块用于在选择排序传输数据时，选择最佳的顺序传输数据。

进一步的，所述数据采集模块包括视频数据接收单元、语音提取单元和历史数据采集单元；

所述视频数据接收单元的输出端连接所述语音提取单元的输入端，所述语音提取单元和历史数据采集单元的输出端连接所述数据管理中心的输入端；

所述视频数据接收单元用于接收面试者提交的自我介绍和指定问题回答的视频数据；

所述语音提取单元用于提取接收到的视频的语音数据；

所述历史数据采集单元用于采集以往若干次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长信息。

进一步的，所述语音数据分析模块包括人工智能识别单元、时长预测模型建立单元和观看时长预测单元；

所述人工智能识别单元和时长预测模型建立单元的输入端连接所述数据管理中心的输出端，所述人工智能识别单元和时长预测模型建立单元的输出端连接所述观看时长预测单元的输入端；

所述人工智能识别单元用于对提取到的语音进行识别，获取不同面试者提交的视频中的语音清晰度；

所述时长预测模型建立单元用于调取历史数据，分析观看以往面试者提交的视频需要的工作量，建立视频观看时长预测模型；

所述观看时长预测单元用于分析观看当前接收到的面试者提交的视频需要的工作量，将工作量代入视频观看时长预测模型中，预测观看当前视频需要花费的时长。

进一步的，所述传输方式规划模块包括清晰度差异分析单元、必要程度分析单元和传输方式选择单元；

所述清晰度差异分析单元的输入端连接所述人工智能识别的输出端，所述必要程度分析单元的输入端连接所述清晰度差异分析单元和观看时长预测单元的输出端，所述必要程度分析单元的输出端连接所述传输方式选择单元的输入端；

所述清晰度差异分析单元用于分析当前接收到的不同面试者提交的视频中语音的清晰差异程度；

所述必要程度分析单元用于结合清晰差异程度和预测到的观看当前视频需要花费的时长分析将当前视频进行排序后再传输到观看人员终端的必要程度；

所述传输方式选择单元用于设置必要程度阈值，若必要程度未超出阈值，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若必要程度超出阈值，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端。

进一步的，所述数据传输管理模块包括语音数据分类单元、最佳分类规划单元和排序传输管理单元；

所述语音数据分类单元的输入端连接所述传输方式选择单元的输出端，所述语音数据分类单元的输出端连接所述最佳分类规划单元的输入端，所述最佳分类规划单元的输出端连接所述排序传输管理单元的输入端；

所述语音数据分类单元用于若选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端，将当前接收到的不同面试者提交的视频进行分类；

所述最佳分类规划单元用于选择最佳的分类方式，并获取按最佳的分类方式得到的分类结果；

所述排序传输管理单元用于按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将第一个类别中的视频优先传输至观看人员终端，并对最后一个类别中视频的语音信号进行增强处理后，最后传输至观看人员终端，利用深度神经网络对语音信号进行增强处理；

通过人工智能技术对清晰度偏低的语音信号做增强处理，将增强处理后的数据传输至终端，有利于减少观看人员听清、了解视频内容所要消耗的时间。

一种基于人工智能的语音数据智能管理方法，包括以下步骤：

Z1：采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据；

Z2：建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长；

Z3：为当前需要传输至观看人员终端的数据规划传输方式；

Z4：在选择排序传输数据时，选择最佳的顺序传输数据。

进一步的，在步骤Z1中：采集当前面试者提交的自我介绍和指定问题回答的视频，获取到当前共需要观看n个面试者提交的视频，获取到当前面试者提交的视频时长集合为t＝{t₁，t₂，…，t_n}，提取当前面试者提交的视频中的语音，进行语音识别后获取到当前不同面试者提交的视频中的语音的清晰度集合为SNR＝{SNR₁，SNR₂，…，SNR_n}，采集到以往m次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长；

SNR指的是语音信噪比，表示语音信号与噪声信号的比值，此处用SNR来衡量语音的清晰度。

进一步的，在步骤Z2中：调取到以往m次中随机一次需要观看的面试者提交的视频时长集合为V＝{V₁，V₂，…，V_k}，从对应视频中提取到的语音的清晰度集合为SNR’＝{SNR₁’，SNR₂’，…，SNR_k’}，对应次共需要观看k个面试者提交的视频，根据公式计算以往m次中随机一次观看视频需要的工作量M_i，通过相同方式计算得到以往m次观看视频需要的工作量集合为M＝{M₁，M₂，…，M_i，…，M_m}，调取到以往m次观看完成所有需要观看的视频花费的时长集合为T＝{T₁，T₂，…，T_m}，对数据点{(M₁，T₁)，(M₂，T₂)，…，(M_m，T_m)}进行直线拟合，建立视频观看时长预测模型：y＝α1*x+α2，其中，α1和α2表示拟合系数，根据下列公式分别求解α1和α2：

其中，T_i表示以往m次中第i次观看完成所有需要观看的视频花费的时长，根据公式计算观看当前面试者提交的视频需要的工作量N，其中，SNR_e表示从当前的第e个面试者提交的视频中提取到的语音的清晰度，t_e表示当前的第e个面试者提交的视频时长，将N代入视频观看时长预测模型中：令x＝N，预测得到观看当前面试者提交的视频需要花费的时长为：α1*N+α2；

通过大数据技术采集并分析以往观看面试者提交视频的历史数据，建立视频观看时长预测模型，目的在于预测观看当前需要观看的视频需要花费的时长，若需要花费的时长较短，判断观看当前需要观看的视频并不需要较长时间，则没有必要对数据传输顺序进行干预；若需要花费的时长较长，判断观看当前需要观看的视频需要较长时间，需要干预传输顺序来节省观看时间、推进观看进度，并非从需要观看的视频数量这一个参数来训练并建立视频观看时长预测模型，语音清晰度和视频时长也会对观看完成花费的时长造成影响，结合历史视频中语音的清晰度、视频时长训练并建立视频观看时长预测模型，提高了观看当前视频需要花费的时长预测结果的准确度。

进一步的，在步骤Z3中：根据公式计算当前不同面试者提交的视频中语音的清晰差异程度C，得到将当前面试者提交的视频进行排序后再传输到观看人员终端的必要程度W，W＝C+α1*N+α2，设置必要程度阈值为w，比较W和w：若W≤w，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若W>w，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端；

当前语音的清晰差异程度越高说明语音信号间清晰度差异越大，越有必要对部分语音信号做增强处理，观看视频花费时长越长、差异程度越高，判断将视频进行排序后再分批传输至观看人员终端越有必要，排序是为了观看人员尽早接收到语音清晰的视频的同时筛选出部分视频，对视频中提取到的语音信号做增强处理，为不同情形选择合适的数据传输方式，有利于帮助顺利推进面试者提交视频的观看进度。

进一步的，在步骤Z4中：在W>w时，将当前需要观看的n个面试者提交的视频按视频中提取到的语音的清晰度从大到小的顺序进行排列，将排列后的视频分为f类，前一类中所有视频中提取的语音的清晰度都大于后一类，获取到按随机一种分类方式分类后，得到的f类中每一类视频中提取到的语音的清晰度均值集合为G＝{G₁，G₂，…，G_v，…，G_f}，根据公式计算按随机一种分类方式分类后f类参数的离散程度L，计算按不同分类方式分类后f类参数的离散程度，选择离散程度最大的一种分类方式作为最佳的分类方式，按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将处于第一类别中的视频优先传输至观看人员终端，将处于第f个类别中的视频的语音信号进行增强处理后，最后传输至观看人员终端；

在选择将视频数据排序后再传输的方式时，将视频按语音的清晰度大小进行分类，选择离散程度最大的分类方式，提高了分类结果的准确性，按最佳的分类方式得到分类结果对应的顺序传输视频，有利于帮助观看人员优先观看到清晰度偏高的视频，在观看的同时对清晰度偏低的视频中的语音信号做增强处理，而非在观看前进行增强处理，避免了相关人员观看到面试者提交的开始时间有所延迟的问题。

与现有技术相比，本发明所达到的有益效果是：

本发明通过人工智能技术对清晰度偏低的语音信号做增强处理，将增强处理后的数据传输至终端，减少了观看人员听清、了解视频内容所要消耗的时间；

通过大数据技术采集并分析以往观看面试者提交视频的历史数据，建立视频观看时长预测模型，预测观看当前需要观看的视频需要花费的时长，若需要花费的时长较短，判断观看当前需要观看的视频并不需要较长时间，则没有必要对数据传输顺序进行干预；若需要花费的时长较长，判断观看当前需要观看的视频需要较长时间，需要干预传输顺序来节省观看时间、推进观看进度，并非从需要观看的视频数量这一个参数来训练并建立视频观看时长预测模型，语音清晰度和视频时长也会对观看完成花费的时长造成影响，结合历史视频中语音的清晰度、视频时长训练并建立视频观看时长预测模型，提高了观看当前视频需要花费的时长预测结果的准确度，依据预测数据和语音清晰差异程度选择合适的数据传输方式，有利于帮助顺利推进面试者提交视频的观看进度；

在选择将视频数据排序后再传输的方式时，将视频按语音的清晰度大小进行分类，选择离散程度最大的分类方式，提高了分类结果的准确性，按最佳的分类方式得到分类结果对应的顺序传输视频，有利于帮助观看人员优先观看到清晰度偏高的视频，在观看的同时对清晰度偏低的视频中的语音信号做增强处理，而非在观看前进行增强处理，避免了在观看所有视频前对信号做增强处理相关人员观看到面试者提交的开始时间有所延迟的问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于人工智能的语音数据智能管理系统的结构图；

图2是本发明一种基于人工智能的语音数据智能管理方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面结合图1-图2和具体实施例对本发明作进一步的说明。

实施例一：

如图1所示，本实施例提供了一种基于人工智能的语音数据智能管理系统，系统包括：数据采集模块、数据管理中心、语音数据分析模块、传输方式规划模块和数据传输管理模块；

数据采集模块的输出端连接数据管理中心的输入端，数据管理中心的输出端连接语音数据分析模块的输入端，语音数据分析模块的输出端连接传输方式规划模块的输入端，传输方式规划模块的输出端连接数据传输管理模块的输入端；

数据采集模块用于采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据，将采集到的全部数据传输到数据管理中心；

数据管理中心用于存储并管理采集到的全部数据；

语音数据分析模块用于建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长；

传输方式规划模块用于为当前需要传输至观看人员终端的数据规划传输方式；

数据传输管理模块用于在选择排序传输数据时，选择最佳的顺序传输数据。

数据采集模块包括视频数据接收单元、语音提取单元和历史数据采集单元；

视频数据接收单元的输出端连接语音提取单元的输入端，语音提取单元和历史数据采集单元的输出端连接数据管理中心的输入端；

视频数据接收单元用于接收面试者提交的自我介绍和指定问题回答的视频数据；

语音提取单元用于提取接收到的视频的语音数据；

历史数据采集单元用于采集以往若干次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长信息。

语音数据分析模块包括人工智能识别单元、时长预测模型建立单元和观看时长预测单元；

人工智能识别单元和时长预测模型建立单元的输入端连接数据管理中心的输出端，人工智能识别单元和时长预测模型建立单元的输出端连接观看时长预测单元的输入端；

人工智能识别单元用于对提取到的语音进行识别，获取不同面试者提交的视频中的语音清晰度；

时长预测模型建立单元用于调取历史数据，分析观看以往面试者提交的视频需要的工作量，建立视频观看时长预测模型；

观看时长预测单元用于分析观看当前接收到的面试者提交的视频需要的工作量，将工作量代入视频观看时长预测模型中，预测观看当前视频需要花费的时长。

传输方式规划模块包括清晰度差异分析单元、必要程度分析单元和传输方式选择单元；

清晰度差异分析单元的输入端连接人工智能识别的输出端，必要程度分析单元的输入端连接清晰度差异分析单元和观看时长预测单元的输出端，必要程度分析单元的输出端连接传输方式选择单元的输入端；

清晰度差异分析单元用于分析当前接收到的不同面试者提交的视频中语音的清晰差异程度；

必要程度分析单元用于结合清晰差异程度和预测到的观看当前视频需要花费的时长分析将当前视频进行排序后再传输到观看人员终端的必要程度；

传输方式选择单元用于设置必要程度阈值，若必要程度未超出阈值，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若必要程度超出阈值，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端。

数据传输管理模块包括语音数据分类单元、最佳分类规划单元和排序传输管理单元；

语音数据分类单元的输入端连接传输方式选择单元的输出端，语音数据分类单元的输出端连接最佳分类规划单元的输入端，最佳分类规划单元的输出端连接排序传输管理单元的输入端；

语音数据分类单元用于若选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端，将当前接收到的不同面试者提交的视频进行分类；

最佳分类规划单元用于选择最佳的分类方式，并获取按最佳的分类方式得到的分类结果；排序传输管理单元用于按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将第一个类别中的视频优先传输至观看人员终端，并对最后一个类别中视频的语音信号进行增强处理后，最后传输至观看人员终端，利用深度神经网络对语音信号进行增强处理。

实施例二：

如图2所示，本实施例提供了一种基于人工智能的语音数据智能管理方法，其基于实施例中的管理系统实现，具体包括以下步骤：

Z1：采集面试者提交的视频中提取到的语音数据、历史接收到的视频数据以及观看历史数据，采集当前面试者提交的自我介绍和指定问题回答的视频，获取到当前共需要观看n个面试者提交的视频，获取到当前面试者提交的视频时长集合为t＝{t₁，t₂，…，t_n}，提取当前面试者提交的视频中的语音，进行语音识别后获取到当前不同面试者提交的视频中的语音的清晰度集合为SNR＝{SNR₁，SNR₂，…，SNR_n}，采集到以往m次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长，SNR指的是语音信噪比，表示语音信号与噪声信号的比值，此处用SNR来衡量语音的清晰度；

例如：采集到当前共需要观看7个面试者提交的视频，获取到当前面试者提交的视频时长集合为t＝{t₁，t₂，t₃，t₄，t₅，t₆，t₇}＝{10，12，15，8，11，7，16}，单位为：分钟，提取当前面试者提交的视频中的语音，进行语音识别后获取到当前不同面试者提交的视频中的语音的清晰度集合为SNR＝{SNR₁，SNR₂，SNR₃，SNR₄，SNR₅，SNR₆，SNR₇}＝{5，10，12，15，2，7，20}，单位为：dB；

Z2：建立视频观看时长预测模型，预测观看当前面试者提交的视频需要花费的时长，调取到以往m＝3次中随机一次需要观看的面试者提交的视频时长集合为V＝{V₁，V₂，V₃，V₄，V₅}＝{20，15，12，8，25}，从对应视频中提取到的语音的清晰度集合为SNR’＝{SNR₁’，SNR₂’，SNR₃’，SNR₄’，SNR₅’}＝{7，20，14，9，12}，对应次共需要观看5个面试者提交的视频，根据公式计算以往3次中随机一次观看视频需要的工作量M_i≈7.4，通过相同方式计算得到以往3次观看视频需要的工作量集合为M＝{M₁，M₂，M₃}＝{7.4，12.5，9.2}，调取到以往m次观看完成所有需要观看的视频花费的时长集合为T＝{T₁，T₂，T₃}＝{20，30，28}，单位为：分钟，对数据点{(M₁，T₁)，(M₂，T₂)，(M₃，T₃)}进行直线拟合，建立视频观看时长预测模型：y＝α1*x+α2，其中，α1和α2表示拟合系数，根据公式/> 和/>分别求解α1和α2，得到y＝α1*x+α2＝1.79x+8.64，其中，T_i表示以往m次中第i次观看完成所有需要观看的视频花费的时长，根据公式/>计算观看当前面试者提交的视频需要的工作量N≈12.3，其中，SNR_e表示从当前的第e个面试者提交的视频中提取到的语音的清晰度，t_e表示当前的第e个面试者提交的视频时长，将N代入视频观看时长预测模型中：令x＝N＝12.3，预测得到观看当前面试者提交的视频需要花费的时长为：α1*N+α2≈31；

Z3：为当前需要传输至观看人员终端的数据规划传输方式，根据公式计算当前不同面试者提交的视频中语音的清晰差异程度C≈5.69，得到将当前面试者提交的视频进行排序后再传输到观看人员终端的必要程度W，W＝C+α1*N+α2＝36.69，设置必要程度阈值为w＝25，比较W和w：W＝36.69>w＝25，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端；

若W≤w，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；

Z4：在选择排序传输数据时，选择最佳的顺序传输数据，在W>w时，将当前需要观看的7个面试者提交的视频按视频中提取到的语音的清晰度从大到小的顺序进行排列，将排列后的视频分为3类，获取到按随机一种分类方式分类后，得到的3类中每一类视频中提取到的语音的清晰度均值集合为G＝{G₁，G₂，G₃}＝{17.5，9.7，3.5}，根据公式计算按随机一种分类方式分类后3类参数的离散程度L≈5.73，计算按不同分类方式分类后3类参数的离散程度，选择离散程度最大的一种分类方式作为最佳的分类方式，得到最佳分类方式分类后，3个类别中视频中提取到的语音的清晰度集合分别为{20}、{15，12，10}和{7，5，2}，按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，首先将处于第一类别中的视频，即第7个面试者提交的视频优先传输至观看人员终端，再将第4、3和2个面试者提交的视频传输至观看人员终端，最后将处于第3个类别，即第6、1和5个面试者提交的视频的语音信号进行增强处理后，传输至观看人员终端。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的语音数据智能管理系统，其特征在于：所述系统包括：数据采集模块、数据管理中心、语音数据分析模块、传输方式规划模块和数据传输管理模块；

所述数据管理中心用于存储并管理采集到的全部数据；

2.根据权利要求1所述的一种基于人工智能的语音数据智能管理系统，其特征在于：所述数据采集模块包括视频数据接收单元、语音提取单元和历史数据采集单元；

所述语音提取单元用于提取接收到的视频的语音数据；

3.根据权利要求2所述的一种基于人工智能的语音数据智能管理系统，其特征在于：所述语音数据分析模块包括人工智能识别单元、时长预测模型建立单元和观看时长预测单元；

4.根据权利要求3所述的一种基于人工智能的语音数据智能管理系统，其特征在于：所述传输方式规划模块包括清晰度差异分析单元、必要程度分析单元和传输方式选择单元；

5.根据权利要求4所述的一种基于人工智能的语音数据智能管理系统，其特征在于：所述数据传输管理模块包括语音数据分类单元、最佳分类规划单元和排序传输管理单元；

所述排序传输管理单元用于按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将第一个类别中的视频优先传输至观看人员终端，并对最后一个类别中视频的语音信号进行增强处理后，最后传输至观看人员终端。

6.一种基于人工智能的语音数据智能管理方法，其特征在于：包括以下步骤：

Z3：为当前需要传输至观看人员终端的数据规划传输方式；

Z4：在选择排序传输数据时，选择最佳的顺序传输数据。

7.根据权利要求6所述的一种基于人工智能的语音数据智能管理方法，其特征在于：在步骤Z1中：采集当前面试者提交的自我介绍和指定问题回答的视频，获取到当前共需要观看n个面试者提交的视频，获取到当前面试者提交的视频时长集合为t＝{t₁，t₂，…，t_n}，提取当前面试者提交的视频中的语音，进行语音识别后获取到当前不同面试者提交的视频中的语音的清晰度集合为SNR＝{SNR₁，SNR₂，…，SNR_n}，采集到以往m次需要观看的面试者提交的视频时长、从视频中提取到的语音的清晰度以及观看完成对应提交的视频花费的时长。

8.根据权利要求7所述的一种基于人工智能的语音数据智能管理方法，其特征在于：在步骤Z2中：调取到以往m次中随机一次需要观看的面试者提交的视频时长集合为V＝{V₁，V₂，…，V_k}，从对应视频中提取到的语音的清晰度集合为SNR’＝{SNR₁’，SNR₂’，…，SNR_k’}，对应次共需要观看k个面试者提交的视频，根据公式计算以往m次中随机一次观看视频需要的工作量M_i，通过相同方式计算得到以往m次观看视频需要的工作量集合为M＝{M₁，M₂，…，M_i，…，M_m}，调取到以往m次观看完成所有需要观看的视频花费的时长集合为T＝{T₁，T₂，…，T_m}，对数据点{(M₁，T₁)，(M₂，T₂)，…，(M_m，T_m)}进行直线拟合，建立视频观看时长预测模型：y＝α1*x+α2，其中，α1和α2表示拟合系数，根据下列公式分别求解α1和α2：

其中，T_i表示以往m次中第i次观看完成所有需要观看的视频花费的时长，根据公式计算观看当前面试者提交的视频需要的工作量N，其中，SNR_e表示从当前的第e个面试者提交的视频中提取到的语音的清晰度，t_e表示当前的第e个面试者提交的视频时长，将N代入视频观看时长预测模型中：令x＝N，预测得到观看当前面试者提交的视频需要花费的时长为：α1*N+α2。

9.根据权利要求8所述的一种基于人工智能的语音数据智能管理方法，其特征在于：在步骤Z3中：根据公式计算当前不同面试者提交的视频中语音的清晰差异程度C，得到将当前面试者提交的视频进行排序后再传输到观看人员终端的必要程度W，W＝C+α1*N+α2，设置必要程度阈值为w，比较W和w：若W≤w，选择将当前接收到的不同面试者提交的视频按随机顺序传输至观看人员终端；若W>w，选择将当前接收到的不同面试者提交的视频进行排序后再传输至观看人员终端。

10.根据权利要求9所述的一种基于人工智能的语音数据智能管理方法，其特征在于：在步骤Z4中：在W>w时，将当前需要观看的n个面试者提交的视频按视频中提取到的语音的清晰度从大到小的顺序进行排列，将排列后的视频分为f类，获取到按随机一种分类方式分类后，得到的f类中每一类视频中提取到的语音的清晰度均值集合为G＝{G₁，G₂，…，G_v，…，G_f}，根据公式计算按随机一种分类方式分类后f类参数的离散程度L，计算按不同分类方式分类后f类参数的离散程度，选择离散程度最大的一种分类方式作为最佳的分类方式，按最佳的分类方式得到的分类结果对应的顺序将视频传输至观看人员终端，将处于第一类别中的视频优先传输至观看人员终端，将处于第f个类别中的视频的语音信号进行增强处理后，最后传输至观看人员终端。