CN118227739A

CN118227739A - 服务类别的确定方法、装置、电子设备及可读存储介质

Info

Publication number: CN118227739A
Application number: CN202410501662.0A
Authority: CN
Inventors: 杨春; 况文川; 梁嘉文; 刘宇明; 林喆; 杨易
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-06-21

Abstract

本申请提供了一种服务类别的确定方法、装置、电子设备及可读存储介质，其中，该方法包括：按照预设周期，从互联网中获取与各个目标服务提供者有关的目标服务信息；提取目标服务信息中与目标服务提供者有关的目标关键词；使用目标关键词动态更新历史关键词库，得到当前关键词库；基于预设数量以及当前关键词库中关键词之间的关联性，对当前关键词库中的所有关键词进行划分，得到预设数量的关键词集合；根据每个关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别。通过该方法，有利于保证确定出来的服务种类的有效性和及时性。

Description

服务类别的确定方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其是涉及一种服务类别的确定方法、装置、电子设备及可读存储介质。

背景技术

随着计算机技术的快速发展，各个领域都开始逐步融合计算机技术，例如，将计算机技术应用到金融服务领域。将计算机技术应用到金融服务领域后，虽然可以优化金融交易的效率、降低运营成本，还可以拓宽金融服务的覆盖范围，使得金融服务更加个性化和便捷。但是，同时也带来了新的挑战。

现如今，金融机构和金融产品的多样化为金融机构和金融产品的监督管理造成了较大压力。具体的，市面上出现了众多从事支付、借贷、投资、保险、资产管理等业务的新型金融服务提供者(即金融机构和金融产品)。为了让监管机构更好的对这些金融服务提供者进行监督管理，监管机构需要预先了解所有金融服务提供者的服务种类，例如借贷类、保险类等，监管机构才能更好的进行监管。

目前，通常是基于专家经验总结出所有金融服务提供者的所有服务种类，这种方式容易受到专家个人主观性以及专家个人认知局限性的影响，导致确定出来的服务种类不够全面、准确。并且，在确定出服务种类后，很长时间不会进行更新，而随着时间推移以及技术的发展，服务种类可能会有所改变，例如新增一些服务种类，若不能及时更新服务种类，也会影响监管机构对新增的种类所对应的金融服务提供者进行监督管理。

发明内容

有鉴于此，本申请的目的在于提供一种服务类别的确定方法、装置、电子设备及可读存储介质，以提高确定出来的服务种类的准确性和全面性，同时通过动态更新服务种类，以保证确定出来的服务种类的有效性和及时性。

第一方面，本申请实施例提供了一种服务类别的确定方法，包括：

按照预设周期，在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息；

提取所述目标服务信息中与所述目标服务提供者有关的目标关键词；

使用所述目标关键词动态更新历史关键词库，得到当前关键词库；其中，所述历史关键词库是当前周期的前一个周期所对应的关键词库；所述历史关键词库中包含与历史服务提供者有关的关键词；

基于预设数量以及所述当前关键词库中关键词之间的关联性，对所述当前关键词库中的所有关键词进行划分，得到所述预设数量的关键词集合；

根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息，包括：

在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息；

针对任意两个原始服务信息，若该两个原始服务信息之间的相似度高于第一阈值，则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息；

针对剩余的每个所述原始服务信息各自对应的用于表征原始服务信息的信息向量，基于该信息向量计算信息密度；

若该信息向量的信息密度低于第二阈值，则对该信息向量进行降维处理，以使用降维后的信息向量替换该信息密度对应的原始的信息向量；

对各信息向量进行向量对齐处理，以统一各信息向量的维度大小，得到每个信息向量各自对应的标准信息向量；其中，所述标准信息向量用于表征所述目标服务信息。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述提取所述目标服务信息中与所述目标服务提供者有关的目标关键词，包括：

对所述目标服务信息进行分词处理，以提取所述目标服务信息中的初始关键词；

计算每个所述初始关键词的出现频率，以根据预设的上限阈值和下限阈值，筛选出具有第一特征的初始关键词；所述第一特征为所述出现频率大于所述上限阈值或者小于所述下限阈值；

若当前轮次为首个轮次，则从所有所述初始关键词中随机删除部分具有所述第一特征的初始关键词，以得到当前轮次对应的候选关键词；若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有所述第一特征的候选关键词，得到当前轮次对应的候选关键词；

基于所述预设数量以及当前轮次对应的候选关键词之间的关联性，对当前轮次对应的候选关键词进行划分，得到所述预设数量的第一关键词集合；

根据每个所述第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的所述第一关键词集合之间的方差；其中，所述方差的大小与所述第一关键词集合之间的关联性呈负相关关系；

若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差；

若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差，则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后，所述方法还包括：

若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差，则将当前轮次的下一个轮次作为新的当前轮次，将当前轮次作为新的当前轮次的前一个轮次，继续执行步骤若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有所述第一特征的候选关键词，得到当前轮次对应的候选关键词及后续步骤，直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止，以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述根据每个所述第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的所述第一关键词集合之间的方差之后，所述方法还包括：

若当前轮次为首个轮次，则将该当前轮次作为新的上一个轮次，将该当前轮次的下一个轮次作为新的当前轮次，继续执行步骤若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有所述第一特征的候选关键词，得到当前轮次对应的候选关键词及后续步骤，直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止，以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

结合第一方面，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述使用所述目标关键词动态更新历史关键词库，得到当前关键词库，包括：

针对任意两个所述目标关键词，计算该两个所述目标关键词之间的相似度；

若相似度大于第三阈值，则将该两个所述目标关键词显示至用户界面，以供目标用户查看；

响应于所述目标用户针对含义相同两个所述目标关键词中任意一个目标关键词的删除操作，以将该两个所述目标关键词中任意一个目标关键词从所有所述目标关键词中删除；

使用剩余的目标关键词动态更新历史关键词库，得到包含剩余的所述目标关键词的当前关键词库。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，包括：

计算所述当前关键词库中每个所述关键词的出现频率；

针对每个所述关键词集合，将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率，按照出现频率从高到低的顺序依次显示到用户界面，以供目标用户查看；

响应于所述目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率，对该关键词集合的命名操作，生成该关键词集合的命名结果，将该命名结果确定为该关键词集合对应的服务类别。

第二方面，本申请实施例还提供一种服务类别的确定装置，包括：

获取模块，用于按照预设周期，在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息；

提取模块，用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词；

更新模块，用于使用所述目标关键词动态更新历史关键词库，得到当前关键词库；其中，所述历史关键词库是当前周期的前一个周期所对应的关键词库；所述历史关键词库中包含与历史服务提供者有关的关键词；

划分模块，用于基于预设数量以及所述当前关键词库中关键词之间的关联性，对所述当前关键词库中的所有关键词进行划分，得到所述预设数量的关键词集合；

确定模块，用于根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述获取模块在用于在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息时，具体用于：

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述提取模块在用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词时，具体用于：

结合第二方面的第二种可能的实施方式，本申请实施例提供了第二方面的第三种可能的实施方式，其中，所述提取模块在用于若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后，还用于：

结合第二方面的第二种可能的实施方式，本申请实施例提供了第二方面的第四种可能的实施方式，其中，所述提取模块在用于根据每个所述第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的所述第一关键词集合之间的方差之后，还用于：

结合第二方面，本申请实施例提供了第二方面的第五种可能的实施方式，其中，所述更新模块在用于使用所述目标关键词动态更新历史关键词库，得到当前关键词库时，具体用于：

结合第二方面，本申请实施例提供了第二方面的第六种可能的实施方式，其中，所述确定模块在用于根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别时，具体用于：

计算所述当前关键词库中每个所述关键词的出现频率；

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种服务类别的确定方法、装置、电子设备及可读存储介质，其中，由于各个目标服务提供者有关的目标服务信息是在各个周期内，从互联网中获取到的，因此，有利于保证目标服务信息获取的全面性。并且，在获取到各个目标服务提供者的目标服务信息后，通过对目标服务信息进行自动分析处理，确定出来的服务类别，有利于避免人为的主观性影响，从而有利于提高确定出的服务类别的准确性。同时，通过周期性获取目标服务信息，从而实现周期性动态更新服务类别，有利于保证服务类别更新的及时性和有效性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种服务类别的确定方法的流程图；

图2示出了本申请实施例所提供的另一种服务类别的确定方法的流程图；

图3示出了本申请实施例所提供的一种服务类别的确定装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到通过专家经验总结出所有金融服务提供者的所有服务种类，容易受到专家个人主观性以及专家个人认知局限性的影响，导致确定出来的服务种类不够全面、准确。并且，在确定出服务种类后，很长时间不会及时进行更新的问题。基于此，本申请实施例提供了一种服务类别的确定方法、装置、电子设备及可读存储介质，该方法实施在项目名称为金融科技产品和机构风险监测关键技术研究及应用示范。下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种服务类别的确定方法进行详细介绍。图1示出了本申请实施例所提供的一种服务类别的确定方法的流程图，如图1所示，包括以下步骤S101-S105：

S101：按照预设周期，在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息。

该实施例中，预设周期可以是预设月数或者预设年数，每隔预设周期从互联网中获取一次目标服务信息。示例性的，当预设周期为6个月时，每隔6个月从互联网中获取一次目标服务信息。

部署定制开发的网络爬虫，这些爬虫能够根据预设的规则和逻辑，定期从互联网中获取与各个目标服务提供者有关的目标服务信息。

其中，目标服务提供者为金融服务提供者，具体的，可以是金融机构，也可以是金融产品。目标服务信息为金融科技相关信息，示例性的，目标服务信息可以包括金融服务提供者的基本信息、服务范围、服务模式、服务提供者是否有技术创新点、用户反馈、服务合规情况等，本申请对此不予具体限定。

该实施例中，从互联网中获取目标服务信息，具体可以指的是从多个权威和可靠的数据源中获取目标服务信息。这些数据源可能包括但不限于金融监管机构发布的官方数据、金融科技行业协会的研究报告、知名咨询公司和市场研究机构的市场分析报告、金融科技相关的专业论坛和研讨会的讨论记录，以及专业数据库提供的详尽数据集。为了确保所选数据源的质量和相关性，采取一系列验证措施。这包括对数据源的发布频率、更新速度、数据完整性、准确性和客观性进行评估。此外，还会对数据源的公信力和行业影响力进行考量，优先选择那些在金融科技领域具有较高认可度和影响力的数据源。

这些数据源提供方开放了API接口，允许开发者通过编程方式直接访问和获取数据。本申请充分利用这些API接口，自动化地从各数据源获取结构化目标服务信息。通过API接口获取的目标服务信息通常具有较高的准确性和标准化程度，便于后续的数据处理和分析。对于需要特定格式或协议才能访问的数据源，采用数据交换协议，如OAuth、RESTful等，以确保数据的安全传输和合规访问。

在一种可能的实施方式中，按照预设周期，在当前周期内从互联网中获取与各个目标服务提供者所提供的业务有关的目标服务信息；或者，从互联网中获取与各个目标服务提供者所使用的技术有关的目标服务信息。

S102：提取目标服务信息中与目标服务提供者有关的目标关键词。

该实施例中，目标服务提供者有多个，例如，有多个金融产品，或者有多个金融机构。每个目标服务提供者均对应各自的目标服务信息。同一目标服务者对应一条或多条目标服务信息。

针对每一条目标服务信息，从该目标服务信息中，提取出与目标服务提供者有关的目标关键词。同一条目标服务信息中包含一个或多个目标关键词。

在一种可能的实施方式中，提取目标服务信息中与目标服务提供者所提供的业务有关的目标关键词，或者，提取目标服务信息中与目标服务提供者所使用的技术有关的目标关键词。

S103：使用目标关键词动态更新历史关键词库，得到当前关键词库；其中，历史关键词库是当前周期的前一个周期所对应的关键词库；历史关键词库中包含与历史服务提供者有关的关键词。

该实施例中，当前关键词库中包含了目标关键词以及历史关键词库中原有的关键词。历史关键词库是当前周期的前一个周期所对应的关键词库，每个周期对应各自的关键词库。历史关键词库中包含与历史服务提供者有关的关键词。

考虑到目标服务提供者的种类和数量可能随着时间的推移进行增减，因此，不同的周期所对应的目标服务提供者可能是不同的。该实施例中，历史服务提供者指的是在当前周期的前一个周期所对应的目标服务提供者。

S104：基于预设数量以及当前关键词库中关键词之间的关联性，对当前关键词库中的所有关键词进行划分，得到预设数量的关键词集合。

该实施例中，当前关键词库中包含有多个关键词，将当前关键词库中关联性较强的关键词划分到同一关键词集合中，得到预设数量的关键词集合，每个关键词集合中均包含多个关键词，同一关键词只能被划分到其中一个关键词集合中。

S105：根据每个关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。

该实施例中，当前关键词中包含的各个关键词可以是与各目标服务提供者所提供的业务有关的关键词，也可以是与各目标服务提供者所使用的技术有关的关键词。

示例性的，若当前关键词库中包含的各个关键词是与各目标服务提供者所提供的业务有关的关键词时，各个关键词集合中包含的各个关键词也为与所提供的业务有关的关键词。若关键词集合A中包含的关键词为“征信一体化、企业信用评级、信用数据管理”时，则该关键词集合A的命名结果可以是“信用管理”，此时，该关键词集合A对应的服务类别为“信用管理”。

若当前关键词库中包含的各个关键词是与各目标服务提供者所使用的技术有关的关键词时，各个关键词集合中包含的各个关键词也为所使用的技术有关的关键词。若关键词集合B中包含的关键词为“私有云部署、云计算数据处理”，则该关键词集合B的命名结果可以是“云计算”此时，该关键词集合B对应的服务类别为“云计算”。

该实施例中，每个关键词集合对应一个命名结果，因此每个关键词集合对应一个服务类别，不同关键词集合对应的服务类别不同。由于关键词集合有预设数量个，因此确定出来的服务类别也有预设数量个。

在一种可能的实施方式中，考虑到从互联网中直接获取的数据容易存在重复、冗余等问题，因此，该实施例中，在执行步骤S101时，具体可以按照以下步骤S1011-S1015执行：

S1011：在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息。

该实施例中，由于原始服务信息是直接从互联网(包括各种数据源)中获取的，因此，获取到的原始服务信息之间可能存在重复的信息，例如从不同数据源中获取到相同的原始服务信息。

S1012：针对任意两个原始服务信息，若该两个原始服务信息之间的相似度高于第一阈值，则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息。

该实施例中，通过删除相似度较高的两个原始服务信息中的一个原始服务信息，有利于去除重复的原始服务信息，保证数据唯一性。

S1013：针对剩余的每个原始服务信息各自对应的用于表征原始服务信息的信息向量，基于该信息向量计算信息密度。

针对剩余的每个原始服务信息，基于用于表征该原始服务信息的信息向量，计算该原始服务信息的信息密度。

该实施例中，考虑到获取到的原始服务信息可能是一大段文本信息，而这段文本信息中包含的有用信息可能较多，也可能较少。该实施例中，通过计算剩余的每个原始服务信息的信息密度的方式，来确定各个原始服务信息中包含的有用信息的多少。若信息密度高，则说明原始服务信息中包含的有用信息较多，冗余信息较少；若信息密度低，则说明原始服务信息中包含的有用信息较少，冗余信息较多。

S1014：若该信息向量的信息密度低于第二阈值，则对该信息向量进行降维处理，以使用降维后的信息向量替换该信息密度对应的原始的信息向量。

该实施例中，若信息向量的信息密度低于第二阈值，则说明该信息向量对应的原始服务信息中包含的有用信息较少，或者说该原始服务信息中包含的冗余信息较多。因此，此时对该信息向量进行降维处理，以去除其中的冗余信息，并且使用降维后的信息向量替换原始的信息向量。

S1015：对各信息向量进行向量对齐处理，以统一各信息向量的维度大小，得到每个信息向量各自对应的标准信息向量；其中，标准信息向量用于表征目标服务信息。

该实施例中，考虑到不同原始服务信息对应的信息向量的大小不同，为了更好的进行后续数据处理，该实施例中，通过对信息向量进行向量对齐处理以统一各信息向量的维度大小，得到每个信息向量各自对应的标准信息向量。

该实施例中，对任一信息向量进行向量对其处理得到标准信息向量后，该标准信息向量用于表征的目标服务信息指的是，该信息向量所对应的原始服务信息。

在一种可能的实施方式中，在执行步骤S102时，具体可以通过以下步骤执行：

S1021：对目标服务信息进行分词处理，以提取目标服务信息中的初始关键词。

该实施例中，通过分词处理，将连续的目标服务信息转换为词汇序列，该词汇序列中的各个词汇作为该目标服务信息的初始关键词。

S1022：计算每个初始关键词的出现频率，以根据预设的上限阈值和下限阈值，筛选出具有第一特征的初始关键词；第一特征为出现频率大于上限阈值或者小于下限阈值。

考虑到出现频率较低的初始关键词可能是不重要的词汇，而出现频率过高的初始关键词可能是模板语言，例如“金融”，因此，该实施例中，在提取出所有目标服务信息中的初始关键词后，计算每个初始关键词的出现频率，以根据预设的上限阈值和下限阈值，将出现频率大于上限阈值或者小于下限阈值的初始关键词筛选出来。

S1023：若当前轮次为首个轮次，则从所有初始关键词中随机删除部分具有第一特征的初始关键词，以得到当前轮次对应的候选关键词；若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有第一特征的候选关键词，得到当前轮次对应的候选关键词。

该实施例中，考虑到同时将所有的出现频率大于上限阈值或者小于下限阈值的初始关键词删除，会影响初始关键词的总数量，进而会影响每个初始关键词的出现频率。因此本申请中通过逐步删除初始关键词的方式，动态进行删除，在每轮次删除时，是基于第一关键词集合之间的方差的变化来决定是否需要进一步删除初始关键词，由于方差越大，第一关键词集合之间的关联性越弱，因此，方差最大的第一关键词集合之间的关联性最弱，此时停止循环，得到最终的目标关键词。

具体的，若当前轮次为首个轮次，则使用随机森林或者梯度提升机，从所有初始关键词中随机删除部分具有第一特征的初始关键词，以得到当前轮次对应的候选关键词。

若当前轮次为非首个轮次，则使用随机森林或者梯度提升机，从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有第一特征的候选关键词，得到当前轮次对应的候选关键词。

该实施例中，可以运用k折交叉验证方法，对随机森林或者梯度提升机进行训练，训练过程具体为：将训练样本集分割成k个大小相等的子集。在每一轮训练验证中，选取其中一个子集作为验证集，剩余的k-1个子集用于训练模型。这个过程重复k次，每次选择不同的子集作为验证集，确保每个子集都有一次机会作为验证集。

S1024：基于预设数量以及当前轮次对应的候选关键词之间的关联性，对当前轮次对应的候选关键词进行划分，得到预设数量的第一关键词集合。

该实施例中，将关联性较强的候选关键词分到同一第一关键词集合中，得到预设数量的第一关键词集合。

S1025：根据每个第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的第一关键词集合之间的方差；其中，方差的大小与第一关键词集合之间的关联性呈负相关关系。

该实施例中，当前轮次对应的第一关键词集合之间的方差越大，则表征当前轮次的各个第一关键词集合之间的关联性越小；当前轮次对应的第一关键词集合之间的方差越小，则表征当前轮次的各个第一关键词集合之间的关联性越大。

S1026：若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差。

该实施例中，通过判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差，以确定方差是否已经达到最大值。

S1027：若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差，则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差，则说明，当前轮次的前一个轮次对应的方差为最大方差，此时将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

在一种可能的实施方式中，在执行步骤S1026之后，若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差，则说明当前轮次的前一个轮次对应的方差不是最大方差，此时需要继续确定最大方差，因此，该方法还可以通过以下步骤执行：

若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差，则将当前轮次的下一个轮次作为新的当前轮次，将当前轮次作为新的当前轮次的前一个轮次，继续执行步骤若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有第一特征的候选关键词，得到当前轮次对应的候选关键词及后续步骤，直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止，以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

在一种可能的实施方式中，在执行步骤S1025之后，若当前轮次为首个轮次，则将该当前轮次作为新的上一个轮次，将该当前轮次的下一个轮次作为新的当前轮次，继续执行步骤若当前轮次为非首个轮次，则从当前轮次的上一个轮次所对应的候选关键词中，随机删除部分具有所述第一特征的候选关键词，得到当前轮次对应的候选关键词及后续步骤，直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止，以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。

在一种可能的实施方式中，在执行步骤S103时，具体可以按照以下步骤执行：

S1031：针对任意两个目标关键词，计算该两个目标关键词之间的相似度。

该实施例中，考虑到目标关键词之间存在表意相同的情况，也可能出现表达相似但表意不同的情况。基于此，本实施例中，首先计算任意两个目标关键词之间的相似度。

S1032：若相似度大于第三阈值，则将该两个目标关键词显示至用户界面，以供目标用户查看。

该实施例中，若相似度大于第三阈值，则说明这两个目标关键词之间可能是表意相同，也可能是表达相似但表意不同。此时，将该两个目标关键词显示至用户界面，以使目标用户判断这两个目标关键词为表意相同，还是表达相似表意不同。

S1033：响应于目标用户针对含义相同两个目标关键词中任意一个目标关键词的删除操作，以将该两个目标关键词中任意一个目标关键词从所有目标关键词中删除。

该实施例中，当这两个目标关键词属于表意相同时，则响应于目标用户针对含义相同两个目标关键词中任意一个目标关键词的删除操作，以将该两个目标关键词中任意一个目标关键词从所有目标关键词中删除。

S1034：使用剩余的目标关键词动态更新历史关键词库，得到包含剩余的目标关键词的当前关键词库。

在将所有表意相同的目标关键词中其中一个删除后，使用剩余的目标关键词动态更新历史关键词库，得到包含剩余的目标关键词的当前关键词库。该实施例中，当前关键词库中不仅包含剩余的目标关键词，还包括历史关键词库中的关键词。

在一种可能的实施方式中，图2示出了本申请实施例所提供的另一种服务类别的确定方法的流程图，如图2所示，在执行步骤S105时，具体可以按照以下步骤S1051-S1053执行：

S1051：计算当前关键词库中每个关键词的出现频率。

S1052：针对每个关键词集合，将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率，按照出现频率从高到低的顺序依次显示到用户界面，以供目标用户查看。

S1053：响应于目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率，对该关键词集合的命名操作，生成该关键词集合的命名结果，将该命名结果确定为该关键词集合对应的服务类别。

该实施例中，目标用户基于每个关键词集合中包含的各个关键词以及各个关键词的出现频率，对该关键词集合进行命名，以得到该关键词集合对应的服务类别名称。

基于相同的技术构思，本申请还提供了一种服务类别的确定装置，图3示出了本申请实施例所提供的一种服务类别的确定装置的结构示意图，如图3所示，所述装置包括：

获取模块301，用于按照预设周期，在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息；

提取模块302，用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词；

更新模块303，用于使用所述目标关键词动态更新历史关键词库，得到当前关键词库；其中，所述历史关键词库是当前周期的前一个周期所对应的关键词库；所述历史关键词库中包含与历史服务提供者有关的关键词；

划分模块304，用于基于预设数量以及所述当前关键词库中关键词之间的关联性，对所述当前关键词库中的所有关键词进行划分，得到所述预设数量的关键词集合；

确定模块305，用于根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。

可选的，所述获取模块301在用于在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息时，具体用于：

可选的，所述提取模块302在用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词时，具体用于：

可选的，所述提取模块302在用于若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后，还用于：

可选的，所述提取模块302在用于根据每个所述第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的所述第一关键词集合之间的方差之后，还用于：

可选地，所述更新模块303在用于使用所述目标关键词动态更新历史关键词库，得到当前关键词库时，具体用于：

可选地，所述确定模块305在用于根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别时，具体用于：

计算所述当前关键词库中每个所述关键词的出现频率；

图4为本申请实施例提供的一种电子设备的结构示意图，包括：处理器401、存储器402和总线403，所述存储器402存储有所述处理器401可执行的机器可读指令，当电子设备运行上述的信息处理方法时，所述处理器401与所述存储器402之间通过总线403通信，所述处理器401执行所述机器可读指令，以执行实施例一中所述的方法步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行实施例一中所述的方法步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、电子设备和计算机可读存储介质的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种服务类别的确定方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息，包括：

3.根据权利要求1所述方法，其特征在于，所述提取所述目标服务信息中与所述目标服务提供者有关的目标关键词，包括：

4.根据权利要求3所述方法，其特征在于，所述若当前轮次为非首个轮次，则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后，所述方法还包括：

5.根据权利要求3所述方法，其特征在于，所述根据每个所述第一关键词集合中包含的各个候选关键词的出现频率，计算当前轮次对应的所述第一关键词集合之间的方差之后，所述方法还包括：

6.根据权利要求1所述方法，其特征在于，所述使用所述目标关键词动态更新历史关键词库，得到当前关键词库，包括：

7.根据权利要求1所述方法，其特征在于，所述根据每个所述关键词集合中包含的各个关键词，对该关键词集合进行命名，将命名结果确定为该关键词集合对应的服务类别，包括：

计算所述当前关键词库中每个所述关键词的出现频率；

8.一种服务类别的确定装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。