CN118227739A - 服务类别的确定方法、装置、电子设备及可读存储介质 - Google Patents
服务类别的确定方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN118227739A CN118227739A CN202410501662.0A CN202410501662A CN118227739A CN 118227739 A CN118227739 A CN 118227739A CN 202410501662 A CN202410501662 A CN 202410501662A CN 118227739 A CN118227739 A CN 118227739A
- Authority
- CN
- China
- Prior art keywords
- keyword
- round
- current
- keywords
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000007726 management method Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种服务类别的确定方法、装置、电子设备及可读存储介质,其中,该方法包括:按照预设周期,从互联网中获取与各个目标服务提供者有关的目标服务信息;提取目标服务信息中与目标服务提供者有关的目标关键词;使用目标关键词动态更新历史关键词库,得到当前关键词库;基于预设数量以及当前关键词库中关键词之间的关联性,对当前关键词库中的所有关键词进行划分,得到预设数量的关键词集合;根据每个关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别。通过该方法,有利于保证确定出来的服务种类的有效性和及时性。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种服务类别的确定方法、装置、电子设备及可读存储介质。
背景技术
随着计算机技术的快速发展,各个领域都开始逐步融合计算机技术,例如,将计算机技术应用到金融服务领域。将计算机技术应用到金融服务领域后,虽然可以优化金融交易的效率、降低运营成本,还可以拓宽金融服务的覆盖范围,使得金融服务更加个性化和便捷。但是,同时也带来了新的挑战。
现如今,金融机构和金融产品的多样化为金融机构和金融产品的监督管理造成了较大压力。具体的,市面上出现了众多从事支付、借贷、投资、保险、资产管理等业务的新型金融服务提供者(即金融机构和金融产品)。为了让监管机构更好的对这些金融服务提供者进行监督管理,监管机构需要预先了解所有金融服务提供者的服务种类,例如借贷类、保险类等,监管机构才能更好的进行监管。
目前,通常是基于专家经验总结出所有金融服务提供者的所有服务种类,这种方式容易受到专家个人主观性以及专家个人认知局限性的影响,导致确定出来的服务种类不够全面、准确。并且,在确定出服务种类后,很长时间不会进行更新,而随着时间推移以及技术的发展,服务种类可能会有所改变,例如新增一些服务种类,若不能及时更新服务种类,也会影响监管机构对新增的种类所对应的金融服务提供者进行监督管理。
发明内容
有鉴于此,本申请的目的在于提供一种服务类别的确定方法、装置、电子设备及可读存储介质,以提高确定出来的服务种类的准确性和全面性,同时通过动态更新服务种类,以保证确定出来的服务种类的有效性和及时性。
第一方面,本申请实施例提供了一种服务类别的确定方法,包括:
按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息;
提取所述目标服务信息中与所述目标服务提供者有关的目标关键词;
使用所述目标关键词动态更新历史关键词库,得到当前关键词库;其中,所述历史关键词库是当前周期的前一个周期所对应的关键词库;所述历史关键词库中包含与历史服务提供者有关的关键词;
基于预设数量以及所述当前关键词库中关键词之间的关联性,对所述当前关键词库中的所有关键词进行划分,得到所述预设数量的关键词集合;
根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息,包括:
在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息;
针对任意两个原始服务信息,若该两个原始服务信息之间的相似度高于第一阈值,则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息;
针对剩余的每个所述原始服务信息各自对应的用于表征原始服务信息的信息向量,基于该信息向量计算信息密度;
若该信息向量的信息密度低于第二阈值,则对该信息向量进行降维处理,以使用降维后的信息向量替换该信息密度对应的原始的信息向量;
对各信息向量进行向量对齐处理,以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量;其中,所述标准信息向量用于表征所述目标服务信息。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述提取所述目标服务信息中与所述目标服务提供者有关的目标关键词,包括:
对所述目标服务信息进行分词处理,以提取所述目标服务信息中的初始关键词;
计算每个所述初始关键词的出现频率,以根据预设的上限阈值和下限阈值,筛选出具有第一特征的初始关键词;所述第一特征为所述出现频率大于所述上限阈值或者小于所述下限阈值;
若当前轮次为首个轮次,则从所有所述初始关键词中随机删除部分具有所述第一特征的初始关键词,以得到当前轮次对应的候选关键词;若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词;
基于所述预设数量以及当前轮次对应的候选关键词之间的关联性,对当前轮次对应的候选关键词进行划分,得到所述预设数量的第一关键词集合;
根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差;其中,所述方差的大小与所述第一关键词集合之间的关联性呈负相关关系;
若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差;
若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后,所述方法还包括:
若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则将当前轮次的下一个轮次作为新的当前轮次,将当前轮次作为新的当前轮次的前一个轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差之后,所述方法还包括:
若当前轮次为首个轮次,则将该当前轮次作为新的上一个轮次,将该当前轮次的下一个轮次作为新的当前轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述使用所述目标关键词动态更新历史关键词库,得到当前关键词库,包括:
针对任意两个所述目标关键词,计算该两个所述目标关键词之间的相似度;
若相似度大于第三阈值,则将该两个所述目标关键词显示至用户界面,以供目标用户查看;
响应于所述目标用户针对含义相同两个所述目标关键词中任意一个目标关键词的删除操作,以将该两个所述目标关键词中任意一个目标关键词从所有所述目标关键词中删除;
使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的所述目标关键词的当前关键词库。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,包括:
计算所述当前关键词库中每个所述关键词的出现频率;
针对每个所述关键词集合,将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,按照出现频率从高到低的顺序依次显示到用户界面,以供目标用户查看;
响应于所述目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,对该关键词集合的命名操作,生成该关键词集合的命名结果,将该命名结果确定为该关键词集合对应的服务类别。
第二方面,本申请实施例还提供一种服务类别的确定装置,包括:
获取模块,用于按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息;
提取模块,用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词;
更新模块,用于使用所述目标关键词动态更新历史关键词库,得到当前关键词库;其中,所述历史关键词库是当前周期的前一个周期所对应的关键词库;所述历史关键词库中包含与历史服务提供者有关的关键词;
划分模块,用于基于预设数量以及所述当前关键词库中关键词之间的关联性,对所述当前关键词库中的所有关键词进行划分,得到所述预设数量的关键词集合;
确定模块,用于根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述获取模块在用于在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息时,具体用于:
在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息;
针对任意两个原始服务信息,若该两个原始服务信息之间的相似度高于第一阈值,则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息;
针对剩余的每个所述原始服务信息各自对应的用于表征原始服务信息的信息向量,基于该信息向量计算信息密度;
若该信息向量的信息密度低于第二阈值,则对该信息向量进行降维处理,以使用降维后的信息向量替换该信息密度对应的原始的信息向量;
对各信息向量进行向量对齐处理,以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量;其中,所述标准信息向量用于表征所述目标服务信息。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述提取模块在用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词时,具体用于:
对所述目标服务信息进行分词处理,以提取所述目标服务信息中的初始关键词;
计算每个所述初始关键词的出现频率,以根据预设的上限阈值和下限阈值,筛选出具有第一特征的初始关键词;所述第一特征为所述出现频率大于所述上限阈值或者小于所述下限阈值;
若当前轮次为首个轮次,则从所有所述初始关键词中随机删除部分具有所述第一特征的初始关键词,以得到当前轮次对应的候选关键词;若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词;
基于所述预设数量以及当前轮次对应的候选关键词之间的关联性,对当前轮次对应的候选关键词进行划分,得到所述预设数量的第一关键词集合;
根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差;其中,所述方差的大小与所述第一关键词集合之间的关联性呈负相关关系;
若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差;
若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述提取模块在用于若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后,还用于:
若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则将当前轮次的下一个轮次作为新的当前轮次,将当前轮次作为新的当前轮次的前一个轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述提取模块在用于根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差之后,还用于:
若当前轮次为首个轮次,则将该当前轮次作为新的上一个轮次,将该当前轮次的下一个轮次作为新的当前轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
结合第二方面,本申请实施例提供了第二方面的第五种可能的实施方式,其中,所述更新模块在用于使用所述目标关键词动态更新历史关键词库,得到当前关键词库时,具体用于:
针对任意两个所述目标关键词,计算该两个所述目标关键词之间的相似度;
若相似度大于第三阈值,则将该两个所述目标关键词显示至用户界面,以供目标用户查看;
响应于所述目标用户针对含义相同两个所述目标关键词中任意一个目标关键词的删除操作,以将该两个所述目标关键词中任意一个目标关键词从所有所述目标关键词中删除;
使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的所述目标关键词的当前关键词库。
结合第二方面,本申请实施例提供了第二方面的第六种可能的实施方式,其中,所述确定模块在用于根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别时,具体用于:
计算所述当前关键词库中每个所述关键词的出现频率;
针对每个所述关键词集合,将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,按照出现频率从高到低的顺序依次显示到用户界面,以供目标用户查看;
响应于所述目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,对该关键词集合的命名操作,生成该关键词集合的命名结果,将该命名结果确定为该关键词集合对应的服务类别。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种服务类别的确定方法、装置、电子设备及可读存储介质,其中,由于各个目标服务提供者有关的目标服务信息是在各个周期内,从互联网中获取到的,因此,有利于保证目标服务信息获取的全面性。并且,在获取到各个目标服务提供者的目标服务信息后,通过对目标服务信息进行自动分析处理,确定出来的服务类别,有利于避免人为的主观性影响,从而有利于提高确定出的服务类别的准确性。同时,通过周期性获取目标服务信息,从而实现周期性动态更新服务类别,有利于保证服务类别更新的及时性和有效性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种服务类别的确定方法的流程图;
图2示出了本申请实施例所提供的另一种服务类别的确定方法的流程图;
图3示出了本申请实施例所提供的一种服务类别的确定装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到通过专家经验总结出所有金融服务提供者的所有服务种类,容易受到专家个人主观性以及专家个人认知局限性的影响,导致确定出来的服务种类不够全面、准确。并且,在确定出服务种类后,很长时间不会及时进行更新的问题。基于此,本申请实施例提供了一种服务类别的确定方法、装置、电子设备及可读存储介质,该方法实施在项目名称为金融科技产品和机构风险监测关键技术研究及应用示范。下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种服务类别的确定方法进行详细介绍。图1示出了本申请实施例所提供的一种服务类别的确定方法的流程图,如图1所示,包括以下步骤S101-S105:
S101:按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息。
该实施例中,预设周期可以是预设月数或者预设年数,每隔预设周期从互联网中获取一次目标服务信息。示例性的,当预设周期为6个月时,每隔6个月从互联网中获取一次目标服务信息。
部署定制开发的网络爬虫,这些爬虫能够根据预设的规则和逻辑,定期从互联网中获取与各个目标服务提供者有关的目标服务信息。
其中,目标服务提供者为金融服务提供者,具体的,可以是金融机构,也可以是金融产品。目标服务信息为金融科技相关信息,示例性的,目标服务信息可以包括金融服务提供者的基本信息、服务范围、服务模式、服务提供者是否有技术创新点、用户反馈、服务合规情况等,本申请对此不予具体限定。
该实施例中,从互联网中获取目标服务信息,具体可以指的是从多个权威和可靠的数据源中获取目标服务信息。这些数据源可能包括但不限于金融监管机构发布的官方数据、金融科技行业协会的研究报告、知名咨询公司和市场研究机构的市场分析报告、金融科技相关的专业论坛和研讨会的讨论记录,以及专业数据库提供的详尽数据集。为了确保所选数据源的质量和相关性,采取一系列验证措施。这包括对数据源的发布频率、更新速度、数据完整性、准确性和客观性进行评估。此外,还会对数据源的公信力和行业影响力进行考量,优先选择那些在金融科技领域具有较高认可度和影响力的数据源。
这些数据源提供方开放了API接口,允许开发者通过编程方式直接访问和获取数据。本申请充分利用这些API接口,自动化地从各数据源获取结构化目标服务信息。通过API接口获取的目标服务信息通常具有较高的准确性和标准化程度,便于后续的数据处理和分析。对于需要特定格式或协议才能访问的数据源,采用数据交换协议,如OAuth、RESTful等,以确保数据的安全传输和合规访问。
在一种可能的实施方式中,按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者所提供的业务有关的目标服务信息;或者,从互联网中获取与各个目标服务提供者所使用的技术有关的目标服务信息。
S102:提取目标服务信息中与目标服务提供者有关的目标关键词。
该实施例中,目标服务提供者有多个,例如,有多个金融产品,或者有多个金融机构。每个目标服务提供者均对应各自的目标服务信息。同一目标服务者对应一条或多条目标服务信息。
针对每一条目标服务信息,从该目标服务信息中,提取出与目标服务提供者有关的目标关键词。同一条目标服务信息中包含一个或多个目标关键词。
在一种可能的实施方式中,提取目标服务信息中与目标服务提供者所提供的业务有关的目标关键词,或者,提取目标服务信息中与目标服务提供者所使用的技术有关的目标关键词。
S103:使用目标关键词动态更新历史关键词库,得到当前关键词库;其中,历史关键词库是当前周期的前一个周期所对应的关键词库;历史关键词库中包含与历史服务提供者有关的关键词。
该实施例中,当前关键词库中包含了目标关键词以及历史关键词库中原有的关键词。历史关键词库是当前周期的前一个周期所对应的关键词库,每个周期对应各自的关键词库。历史关键词库中包含与历史服务提供者有关的关键词。
考虑到目标服务提供者的种类和数量可能随着时间的推移进行增减,因此,不同的周期所对应的目标服务提供者可能是不同的。该实施例中,历史服务提供者指的是在当前周期的前一个周期所对应的目标服务提供者。
S104:基于预设数量以及当前关键词库中关键词之间的关联性,对当前关键词库中的所有关键词进行划分,得到预设数量的关键词集合。
该实施例中,当前关键词库中包含有多个关键词,将当前关键词库中关联性较强的关键词划分到同一关键词集合中,得到预设数量的关键词集合,每个关键词集合中均包含多个关键词,同一关键词只能被划分到其中一个关键词集合中。
S105:根据每个关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
该实施例中,当前关键词中包含的各个关键词可以是与各目标服务提供者所提供的业务有关的关键词,也可以是与各目标服务提供者所使用的技术有关的关键词。
示例性的,若当前关键词库中包含的各个关键词是与各目标服务提供者所提供的业务有关的关键词时,各个关键词集合中包含的各个关键词也为与所提供的业务有关的关键词。若关键词集合A中包含的关键词为“征信一体化、企业信用评级、信用数据管理”时,则该关键词集合A的命名结果可以是“信用管理”,此时,该关键词集合A对应的服务类别为“信用管理”。
若当前关键词库中包含的各个关键词是与各目标服务提供者所使用的技术有关的关键词时,各个关键词集合中包含的各个关键词也为所使用的技术有关的关键词。若关键词集合B中包含的关键词为“私有云部署、云计算数据处理”,则该关键词集合B的命名结果可以是“云计算”此时,该关键词集合B对应的服务类别为“云计算”。
该实施例中,每个关键词集合对应一个命名结果,因此每个关键词集合对应一个服务类别,不同关键词集合对应的服务类别不同。由于关键词集合有预设数量个,因此确定出来的服务类别也有预设数量个。
在一种可能的实施方式中,考虑到从互联网中直接获取的数据容易存在重复、冗余等问题,因此,该实施例中,在执行步骤S101时,具体可以按照以下步骤S1011-S1015执行:
S1011:在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息。
该实施例中,由于原始服务信息是直接从互联网(包括各种数据源)中获取的,因此,获取到的原始服务信息之间可能存在重复的信息,例如从不同数据源中获取到相同的原始服务信息。
S1012:针对任意两个原始服务信息,若该两个原始服务信息之间的相似度高于第一阈值,则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息。
该实施例中,通过删除相似度较高的两个原始服务信息中的一个原始服务信息,有利于去除重复的原始服务信息,保证数据唯一性。
S1013:针对剩余的每个原始服务信息各自对应的用于表征原始服务信息的信息向量,基于该信息向量计算信息密度。
针对剩余的每个原始服务信息,基于用于表征该原始服务信息的信息向量,计算该原始服务信息的信息密度。
该实施例中,考虑到获取到的原始服务信息可能是一大段文本信息,而这段文本信息中包含的有用信息可能较多,也可能较少。该实施例中,通过计算剩余的每个原始服务信息的信息密度的方式,来确定各个原始服务信息中包含的有用信息的多少。若信息密度高,则说明原始服务信息中包含的有用信息较多,冗余信息较少;若信息密度低,则说明原始服务信息中包含的有用信息较少,冗余信息较多。
S1014:若该信息向量的信息密度低于第二阈值,则对该信息向量进行降维处理,以使用降维后的信息向量替换该信息密度对应的原始的信息向量。
该实施例中,若信息向量的信息密度低于第二阈值,则说明该信息向量对应的原始服务信息中包含的有用信息较少,或者说该原始服务信息中包含的冗余信息较多。因此,此时对该信息向量进行降维处理,以去除其中的冗余信息,并且使用降维后的信息向量替换原始的信息向量。
S1015:对各信息向量进行向量对齐处理,以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量;其中,标准信息向量用于表征目标服务信息。
该实施例中,考虑到不同原始服务信息对应的信息向量的大小不同,为了更好的进行后续数据处理,该实施例中,通过对信息向量进行向量对齐处理以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量。
该实施例中,对任一信息向量进行向量对其处理得到标准信息向量后,该标准信息向量用于表征的目标服务信息指的是,该信息向量所对应的原始服务信息。
在一种可能的实施方式中,在执行步骤S102时,具体可以通过以下步骤执行:
S1021:对目标服务信息进行分词处理,以提取目标服务信息中的初始关键词。
该实施例中,通过分词处理,将连续的目标服务信息转换为词汇序列,该词汇序列中的各个词汇作为该目标服务信息的初始关键词。
S1022:计算每个初始关键词的出现频率,以根据预设的上限阈值和下限阈值,筛选出具有第一特征的初始关键词;第一特征为出现频率大于上限阈值或者小于下限阈值。
考虑到出现频率较低的初始关键词可能是不重要的词汇,而出现频率过高的初始关键词可能是模板语言,例如“金融”,因此,该实施例中,在提取出所有目标服务信息中的初始关键词后,计算每个初始关键词的出现频率,以根据预设的上限阈值和下限阈值,将出现频率大于上限阈值或者小于下限阈值的初始关键词筛选出来。
S1023:若当前轮次为首个轮次,则从所有初始关键词中随机删除部分具有第一特征的初始关键词,以得到当前轮次对应的候选关键词;若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有第一特征的候选关键词,得到当前轮次对应的候选关键词。
该实施例中,考虑到同时将所有的出现频率大于上限阈值或者小于下限阈值的初始关键词删除,会影响初始关键词的总数量,进而会影响每个初始关键词的出现频率。因此本申请中通过逐步删除初始关键词的方式,动态进行删除,在每轮次删除时,是基于第一关键词集合之间的方差的变化来决定是否需要进一步删除初始关键词,由于方差越大,第一关键词集合之间的关联性越弱,因此,方差最大的第一关键词集合之间的关联性最弱,此时停止循环,得到最终的目标关键词。
具体的,若当前轮次为首个轮次,则使用随机森林或者梯度提升机,从所有初始关键词中随机删除部分具有第一特征的初始关键词,以得到当前轮次对应的候选关键词。
若当前轮次为非首个轮次,则使用随机森林或者梯度提升机,从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有第一特征的候选关键词,得到当前轮次对应的候选关键词。
该实施例中,可以运用k折交叉验证方法,对随机森林或者梯度提升机进行训练,训练过程具体为:将训练样本集分割成k个大小相等的子集。在每一轮训练验证中,选取其中一个子集作为验证集,剩余的k-1个子集用于训练模型。这个过程重复k次,每次选择不同的子集作为验证集,确保每个子集都有一次机会作为验证集。
S1024:基于预设数量以及当前轮次对应的候选关键词之间的关联性,对当前轮次对应的候选关键词进行划分,得到预设数量的第一关键词集合。
该实施例中,将关联性较强的候选关键词分到同一第一关键词集合中,得到预设数量的第一关键词集合。
S1025:根据每个第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的第一关键词集合之间的方差;其中,方差的大小与第一关键词集合之间的关联性呈负相关关系。
该实施例中,当前轮次对应的第一关键词集合之间的方差越大,则表征当前轮次的各个第一关键词集合之间的关联性越小;当前轮次对应的第一关键词集合之间的方差越小,则表征当前轮次的各个第一关键词集合之间的关联性越大。
S1026:若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差。
该实施例中,通过判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差,以确定方差是否已经达到最大值。
S1027:若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则说明,当前轮次的前一个轮次对应的方差为最大方差,此时将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
在一种可能的实施方式中,在执行步骤S1026之后,若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则说明当前轮次的前一个轮次对应的方差不是最大方差,此时需要继续确定最大方差,因此,该方法还可以通过以下步骤执行:
若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则将当前轮次的下一个轮次作为新的当前轮次,将当前轮次作为新的当前轮次的前一个轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
在一种可能的实施方式中,在执行步骤S1025之后,若当前轮次为首个轮次,则将该当前轮次作为新的上一个轮次,将该当前轮次的下一个轮次作为新的当前轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
在一种可能的实施方式中,在执行步骤S103时,具体可以按照以下步骤执行:
S1031:针对任意两个目标关键词,计算该两个目标关键词之间的相似度。
该实施例中,考虑到目标关键词之间存在表意相同的情况,也可能出现表达相似但表意不同的情况。基于此,本实施例中,首先计算任意两个目标关键词之间的相似度。
S1032:若相似度大于第三阈值,则将该两个目标关键词显示至用户界面,以供目标用户查看。
该实施例中,若相似度大于第三阈值,则说明这两个目标关键词之间可能是表意相同,也可能是表达相似但表意不同。此时,将该两个目标关键词显示至用户界面,以使目标用户判断这两个目标关键词为表意相同,还是表达相似表意不同。
S1033:响应于目标用户针对含义相同两个目标关键词中任意一个目标关键词的删除操作,以将该两个目标关键词中任意一个目标关键词从所有目标关键词中删除。
该实施例中,当这两个目标关键词属于表意相同时,则响应于目标用户针对含义相同两个目标关键词中任意一个目标关键词的删除操作,以将该两个目标关键词中任意一个目标关键词从所有目标关键词中删除。
S1034:使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的目标关键词的当前关键词库。
在将所有表意相同的目标关键词中其中一个删除后,使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的目标关键词的当前关键词库。该实施例中,当前关键词库中不仅包含剩余的目标关键词,还包括历史关键词库中的关键词。
在一种可能的实施方式中,图2示出了本申请实施例所提供的另一种服务类别的确定方法的流程图,如图2所示,在执行步骤S105时,具体可以按照以下步骤S1051-S1053执行:
S1051:计算当前关键词库中每个关键词的出现频率。
S1052:针对每个关键词集合,将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,按照出现频率从高到低的顺序依次显示到用户界面,以供目标用户查看。
S1053:响应于目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,对该关键词集合的命名操作,生成该关键词集合的命名结果,将该命名结果确定为该关键词集合对应的服务类别。
该实施例中,目标用户基于每个关键词集合中包含的各个关键词以及各个关键词的出现频率,对该关键词集合进行命名,以得到该关键词集合对应的服务类别名称。
基于相同的技术构思,本申请还提供了一种服务类别的确定装置,图3示出了本申请实施例所提供的一种服务类别的确定装置的结构示意图,如图3所示,所述装置包括:
获取模块301,用于按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息;
提取模块302,用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词;
更新模块303,用于使用所述目标关键词动态更新历史关键词库,得到当前关键词库;其中,所述历史关键词库是当前周期的前一个周期所对应的关键词库;所述历史关键词库中包含与历史服务提供者有关的关键词;
划分模块304,用于基于预设数量以及所述当前关键词库中关键词之间的关联性,对所述当前关键词库中的所有关键词进行划分,得到所述预设数量的关键词集合;
确定模块305,用于根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
可选的,所述获取模块301在用于在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息时,具体用于:
在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息;
针对任意两个原始服务信息,若该两个原始服务信息之间的相似度高于第一阈值,则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息;
针对剩余的每个所述原始服务信息各自对应的用于表征原始服务信息的信息向量,基于该信息向量计算信息密度;
若该信息向量的信息密度低于第二阈值,则对该信息向量进行降维处理,以使用降维后的信息向量替换该信息密度对应的原始的信息向量;
对各信息向量进行向量对齐处理,以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量;其中,所述标准信息向量用于表征所述目标服务信息。
可选的,所述提取模块302在用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词时,具体用于:
对所述目标服务信息进行分词处理,以提取所述目标服务信息中的初始关键词;
计算每个所述初始关键词的出现频率,以根据预设的上限阈值和下限阈值,筛选出具有第一特征的初始关键词;所述第一特征为所述出现频率大于所述上限阈值或者小于所述下限阈值;
若当前轮次为首个轮次,则从所有所述初始关键词中随机删除部分具有所述第一特征的初始关键词,以得到当前轮次对应的候选关键词;若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词;
基于所述预设数量以及当前轮次对应的候选关键词之间的关联性,对当前轮次对应的候选关键词进行划分,得到所述预设数量的第一关键词集合;
根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差;其中,所述方差的大小与所述第一关键词集合之间的关联性呈负相关关系;
若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差;
若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
可选的,所述提取模块302在用于若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后,还用于:
若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则将当前轮次的下一个轮次作为新的当前轮次,将当前轮次作为新的当前轮次的前一个轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
可选的,所述提取模块302在用于根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差之后,还用于:
若当前轮次为首个轮次,则将该当前轮次作为新的上一个轮次,将该当前轮次的下一个轮次作为新的当前轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
可选地,所述更新模块303在用于使用所述目标关键词动态更新历史关键词库,得到当前关键词库时,具体用于:
针对任意两个所述目标关键词,计算该两个所述目标关键词之间的相似度;
若相似度大于第三阈值,则将该两个所述目标关键词显示至用户界面,以供目标用户查看;
响应于所述目标用户针对含义相同两个所述目标关键词中任意一个目标关键词的删除操作,以将该两个所述目标关键词中任意一个目标关键词从所有所述目标关键词中删除;
使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的所述目标关键词的当前关键词库。
可选地,所述确定模块305在用于根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别时,具体用于:
计算所述当前关键词库中每个所述关键词的出现频率;
针对每个所述关键词集合,将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,按照出现频率从高到低的顺序依次显示到用户界面,以供目标用户查看;
响应于所述目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,对该关键词集合的命名操作,生成该关键词集合的命名结果,将该命名结果确定为该关键词集合对应的服务类别。
图4为本申请实施例提供的一种电子设备的结构示意图,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行上述的信息处理方法时,所述处理器401与所述存储器402之间通过总线403通信,所述处理器401执行所述机器可读指令,以执行实施例一中所述的方法步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、电子设备和计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种服务类别的确定方法,其特征在于,包括:
按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息;
提取所述目标服务信息中与所述目标服务提供者有关的目标关键词;
使用所述目标关键词动态更新历史关键词库,得到当前关键词库;其中,所述历史关键词库是当前周期的前一个周期所对应的关键词库;所述历史关键词库中包含与历史服务提供者有关的关键词;
基于预设数量以及所述当前关键词库中关键词之间的关联性,对所述当前关键词库中的所有关键词进行划分,得到所述预设数量的关键词集合;
根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
2.根据权利要求1所述方法,其特征在于,所述在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息,包括:
在当前周期内从互联网中获取与各个目标服务提供者有关的原始服务信息;
针对任意两个原始服务信息,若该两个原始服务信息之间的相似度高于第一阈值,则从所有原始服务信息中删除该两个原始服务信息中的任意一个原始服务信息;
针对剩余的每个所述原始服务信息各自对应的用于表征原始服务信息的信息向量,基于该信息向量计算信息密度;
若该信息向量的信息密度低于第二阈值,则对该信息向量进行降维处理,以使用降维后的信息向量替换该信息密度对应的原始的信息向量;
对各信息向量进行向量对齐处理,以统一各信息向量的维度大小,得到每个信息向量各自对应的标准信息向量;其中,所述标准信息向量用于表征所述目标服务信息。
3.根据权利要求1所述方法,其特征在于,所述提取所述目标服务信息中与所述目标服务提供者有关的目标关键词,包括:
对所述目标服务信息进行分词处理,以提取所述目标服务信息中的初始关键词;
计算每个所述初始关键词的出现频率,以根据预设的上限阈值和下限阈值,筛选出具有第一特征的初始关键词;所述第一特征为所述出现频率大于所述上限阈值或者小于所述下限阈值;
若当前轮次为首个轮次,则从所有所述初始关键词中随机删除部分具有所述第一特征的初始关键词,以得到当前轮次对应的候选关键词;若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词;
基于所述预设数量以及当前轮次对应的候选关键词之间的关联性,对当前轮次对应的候选关键词进行划分,得到所述预设数量的第一关键词集合;
根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差;其中,所述方差的大小与所述第一关键词集合之间的关联性呈负相关关系;
若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差;
若当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差,则将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
4.根据权利要求3所述方法,其特征在于,所述若当前轮次为非首个轮次,则判断该当前轮次对应的方差是否大于当前轮次的前一个轮次对应的方差之后,所述方法还包括:
若当前轮次对应的方差大于当前轮次的前一个轮次对应的方差,则将当前轮次的下一个轮次作为新的当前轮次,将当前轮次作为新的当前轮次的前一个轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
5.根据权利要求3所述方法,其特征在于,所述根据每个所述第一关键词集合中包含的各个候选关键词的出现频率,计算当前轮次对应的所述第一关键词集合之间的方差之后,所述方法还包括:
若当前轮次为首个轮次,则将该当前轮次作为新的上一个轮次,将该当前轮次的下一个轮次作为新的当前轮次,继续执行步骤若当前轮次为非首个轮次,则从当前轮次的上一个轮次所对应的候选关键词中,随机删除部分具有所述第一特征的候选关键词,得到当前轮次对应的候选关键词及后续步骤,直至当前轮次对应的方差不大于当前轮次的前一个轮次对应的方差时停止,以及将当前轮次的前一个轮次所对应的候选关键词作为目标关键词。
6.根据权利要求1所述方法,其特征在于,所述使用所述目标关键词动态更新历史关键词库,得到当前关键词库,包括:
针对任意两个所述目标关键词,计算该两个所述目标关键词之间的相似度;
若相似度大于第三阈值,则将该两个所述目标关键词显示至用户界面,以供目标用户查看;
响应于所述目标用户针对含义相同两个所述目标关键词中任意一个目标关键词的删除操作,以将该两个所述目标关键词中任意一个目标关键词从所有所述目标关键词中删除;
使用剩余的目标关键词动态更新历史关键词库,得到包含剩余的所述目标关键词的当前关键词库。
7.根据权利要求1所述方法,其特征在于,所述根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,包括:
计算所述当前关键词库中每个所述关键词的出现频率;
针对每个所述关键词集合,将该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,按照出现频率从高到低的顺序依次显示到用户界面,以供目标用户查看;
响应于所述目标用户基于该关键词集合中包含的每个关键词以及每个关键词各自对应的出现频率,对该关键词集合的命名操作,生成该关键词集合的命名结果,将该命名结果确定为该关键词集合对应的服务类别。
8.一种服务类别的确定装置,其特征在于,包括:
获取模块,用于按照预设周期,在当前周期内从互联网中获取与各个目标服务提供者有关的目标服务信息;
提取模块,用于提取所述目标服务信息中与所述目标服务提供者有关的目标关键词;
更新模块,用于使用所述目标关键词动态更新历史关键词库,得到当前关键词库;其中,所述历史关键词库是当前周期的前一个周期所对应的关键词库;所述历史关键词库中包含与历史服务提供者有关的关键词;
划分模块,用于基于预设数量以及所述当前关键词库中关键词之间的关联性,对所述当前关键词库中的所有关键词进行划分,得到所述预设数量的关键词集合;
确定模块,用于根据每个所述关键词集合中包含的各个关键词,对该关键词集合进行命名,将命名结果确定为该关键词集合对应的服务类别,以使用当前周期对应的各个服务类别动态更新当前周期的前一个周期对应的服务类别。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410501662.0A CN118227739A (zh) | 2024-04-24 | 2024-04-24 | 服务类别的确定方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410501662.0A CN118227739A (zh) | 2024-04-24 | 2024-04-24 | 服务类别的确定方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118227739A true CN118227739A (zh) | 2024-06-21 |
Family
ID=91508667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410501662.0A Pending CN118227739A (zh) | 2024-04-24 | 2024-04-24 | 服务类别的确定方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118227739A (zh) |
-
2024
- 2024-04-24 CN CN202410501662.0A patent/CN118227739A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
EP3591586A1 (en) | Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
US20120150825A1 (en) | Cleansing a Database System to Improve Data Quality | |
CN111695938B (zh) | 产品推送方法及系统 | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN114840531B (zh) | 基于血缘关系的数据模型重构方法、装置、设备及介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN116561134A (zh) | 业务规则处理方法、装置、设备及存储介质 | |
CN117495538B (zh) | 订单融资的风险性评估方法和模型训练方法 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
US20220067460A1 (en) | Variance Characterization Based on Feature Contribution | |
CN117609379A (zh) | 基于区块链数据库垂直应用的模型训练方法、系统、设备及介质 | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN116362895A (zh) | 理财产品推荐方法、装置及存储介质 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN118227739A (zh) | 服务类别的确定方法、装置、电子设备及可读存储介质 | |
CN112200602A (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
CN113934894A (zh) | 基于指标树的数据显示方法、终端设备 | |
US11699434B2 (en) | Systems, computer-implemented methods, and computer program products for data sequence validity processing | |
CN113704103B (zh) | 测试用例推荐方法、装置、介质及电子设备 | |
US20240311568A1 (en) | Entity relation mining method and apparatus, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |