CN112765340A - 一种确定云服务资源的方法、装置、电子设备及存储介质 - Google Patents
一种确定云服务资源的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112765340A CN112765340A CN202110103609.1A CN202110103609A CN112765340A CN 112765340 A CN112765340 A CN 112765340A CN 202110103609 A CN202110103609 A CN 202110103609A CN 112765340 A CN112765340 A CN 112765340A
- Authority
- CN
- China
- Prior art keywords
- cloud service
- page data
- prediction model
- model
- corpus information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种确定云服务资源的方法、装置、电子设备及存储介质,所述方法包括:获取目标页面的页面数据;提取出所述页面数据中的语料信息;将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型,以得到所述目标页面所对应的云服务提供商和云服务内容;所述云服务提供商是指对外提供云服务产品的主体。根据所述方法、装置、电子设备及存储介质,采用本申请提供的技术方案能够代替传统的利用本体论人工检索的方式,主动确定页面中的云服务提供商和云服务内容,确定的过程简便快捷,且结果完整准确,提高了确定云服务资源的效率和准确性。
Description
技术领域
本申请涉及云服务技术领域,尤其是涉及一种确定云服务资源的方法、装置、电子设备及存储介质。
背景技术
随着云服务技术的不断发展,越来越多的公司及个人选择使用各种云服务来实现某些需求。目前市面上存在各种各样的云服务,每种云服务旨在满足一组特定目的。潜在用户通常依赖通用搜索引擎在万维网上来找合适的云服务。然而,当前尚无可用于在线的特定于云服务的搜索引擎或综合目录可提供有关服务特性的详细信息(如云服务内容等),因此查询结果容易遗漏相关的服务,或包含不相关的信息,增加用户工作量。
传统的云服务发现一般是基于本体论模型,利用本体的概念匹配技术,查找与云服务消费者需求相匹配的云服务。但是不同的云服务提供商使用不同的术语和词汇来描述其服务,尽管它们具有相同的功能。但是,要构建一个包含所有相关领域概念(如服务类型等)的本体并不是一件容易的事。此外,已有的基于本体的云服务发现方法建立在用户主动检索的基础上,没有考虑如何利用云服务页面内容自动识别云服务的问题,也没有提供关于云服务特性的详细信息。
发明内容
有鉴于此,本申请的目的在于提供一种确定云服务资源的方法、装置、电子设备及存储介质,能够利用自然语言处理和机器学习的算法,基于页面数据,提取语料信息来训练预测模型,从而利用训练好的预测模型确定目标页面中的云服务资源,识别出目标页面中的云服务提供商和云服务内容。采用本申请提供的技术方案能够代替传统的利用本体论人工检索的方式,主动确定页面中的云服务提供商和云服务内容,确定的过程简便快捷,且结果完整准确,提高了确定云服务资源的效率和准确性。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供了一种确定云服务资源的方法,所述方法包括:获取目标页面的页面数据;提取出所述目标页面数据中的语料信息;将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型,以得到所述目标页面所对应的云服务提供商和云服务内容;所述云服务提供商是指对外提供云服务产品的主体。
在一种可能的实施方式中,通过以下方式训练所述第一预测模型和所述第二预测模型:获取多个页面的页面数据;基于所述页面数据,筛选出所述多个页面中的语料信息;基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
在一种可能的实施方式中,所述基于所述页面数据,筛选出所述多个页面中的语料信息,包括:针对每一个页面数据,去除该页面数据中的无效字段,得到初始页面数据;针对每一个初始页面数据,将该初始页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始页面数据中的有效数据;将每一个得到的初始页面数据中的有效数据确定为该初始页面数据对应的页面中的语料信息,以得到所述多个页面中的语料信息。
在一种可能的实施方式中,所述基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型,包括:向量化表示所述语料信息,并将所述向量化表示的语料信息输入词频-逆向文件频率模型和词嵌入模型,获得所述词频-逆向文件频率模型输出的词频-逆向文件频率特征和所述词嵌入模型输出的词嵌入特征;利用所述词频-逆向文件频率特征训练初始第一预测模型,得到预测云服务提供商的第一预测模型;利用所述词嵌入特征训练初始第二预测模型,得到预测云服务内容的第二预测模型。
在一种可能的实施方式中,采用分布式计算中的wordcount算法向量化表示所述语料信息。
在一种可能的实施方式中,所述初始第一预测模型为随机森林模型;所述初始第二预测模型为主题模型。
第二方面,本申请实施例还提供了一种确定云服务资源的装置,所述装置包括:数据获取模块,用于获取目标页面的页面数据;数据预处理模块,用于提取出所述页面数据中的语料信息;云服务预测模块,用于将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型;所述云服务提供商是指对外提供云服务产品的主体。
在一种可能的实施方式中,所述装置还包括:训练数据获取模块,用于获取多个页面的页面数据;训练数据预处理模块,用于基于所述页面数据,筛选出所述多个页面中的语料信息;模型训练模块,用于基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
在一种可能的实施方式中,所述训练数据预处理模块,用于针对每一个页面数据,去除该页面数据中的无效字段,得到初始页面数据;针对每一个初始页面数据,将该初始页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始页面数据中的有效数据;将每一个得到的初始页面数据中的有效数据确定为该初始页面数据对应的页面中的语料信息,以得到所述多个页面中的语料信息。
在一种可能的实施方式中,所述模型训练模块,用于向量化表示所述语料信息,并将所述向量化表示的语料信息输入词频-逆向文件频率模型和词嵌入模型,获得所述词频-逆向文件频率模型输出的词频-逆向文件频率特征和所述词嵌入模型输出的词嵌入特征;利用所述词频-逆向文件频率特征训练初始第一预测模型,得到预测云服务提供商的第一预测模型;利用所述词嵌入特征训练初始第二预测模型,得到预测云服务内容的第二预测模型。
在一种可能的实施方式中,所述模型训练模块采用分布式计算中的wordcount算法向量化表示所述语料信息。
在一种可能的实施方式中,所述初始第一预测模型为随机森林模型;所述初始第二预测模型为主题模型。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的确定云服务资源的方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的确定云服务资源的方法的步骤。
本申请实施例带来了以下有益效果:
采用本申请提供的技术方案能够代替传统的利用本体论人工检索的方式,主动确定页面中的云服务提供商和云服务内容,确定的过程简便快捷,且结果完整准确,提高了确定云服务资源的效率和准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种确定云服务资源的方法的流程图;
图2示出了本申请实施例所提供的训练第一预测模型和第二预测模型的步骤的流程图;
图3示出了本申请实施例所提供的一种确定云服务资源的装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“确定云服务资源”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
需要说明的是,在本申请的示例中,云服务资源可包括云服务提供商和云服务内容。这里,云服务提供商是指对外提供云服务产品的主体。云服务内容包括但不限于云应用程序编程接口管理(Cloud API Management)、云计算(Cloud Computing)、云基础设施(Cloud Infrastructure)、云软件管理(Cloud Management Software)、云安全(CloudSecurity)、云服务器(Cloud Server)、云存储(Cloud Storage)。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行“确定云服务资源”的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的确定云服务资源的方法及装置的方案均在本申请保护范围内。
值得注意的是,在本申请提出之前,现有方案中发现云服务资源基于本体论模型,利用本体的概念匹配技术,查找与云服务消费者需求相匹配的云服务。但是不同的云服务提供商使用不同的术语和词汇来描述其服务,尽管它们具有相同的功能。要构建一个包含所有相关领域概念(如服务类型等)的本体并不是一件容易的事。此外,已有的基于本体的云服务发现方法建立在用户主动检索的基础上,没有考虑如何利用云服务页面内容自动确定云服务的问题,也没有提供关于云服务特性的详细信息。
基于此,本申请实施例提供了一种确定云服务资源的方法,利用自然语言处理和机器学习的算法,基于页面数据,提取语料信息来训练预测模型,从而利用训练好的预测模型确定目标页面中的云服务资源,识别出目标页面中的云服务提供商和云服务内容。采用本申请提供的技术方案能够代替传统的利用本体论人工检索的方式,主动确定目标页面中的云服务提供商和云服务内容,确定的过程简便快捷,且结果完整准确,提高了确定云服务资源的效率和准确性。
实施例一:
请参阅图1,图1为本申请实施例所提供的一种确定云服务资源的方法的流程图。
如图1中所示,本申请实施例提供的一种确定云服务资源的方法,包括以下步骤:
S101、获取目标页面的页面数据。
需要说明的是,目标页面可以是云服务目标页面,作为示例,目标页面的页面数据可以是该目标页面的网络源代码。这里,网页源代码可以是该目标页面的超文本标记语言,通过该超文本标记语言的语言规则,能够将文字、图片等内容在目标页面中显示出来。
S102、提取出所述目标页面数据中的语料信息。
在具体实施时,首先,针对每一个目标页面数据,去除该目标页面数据中的无效字段,得到初始目标页面数据。这里,无效字段是指目标页面数据中包含的script、comment、style等字段,这些字段中没有文本数据,将其去掉以便于目标页面数据的后续处理。然后,针对每一个初始目标页面数据,将该初始目标页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始目标页面数据中的有效数据。这里,词汇还原包括对词形和词干的还原,无效词汇是指英文文本中的停用词和特殊字符,以及在全部词汇中出现频率低于某一阈值的低频词。最后,将每一个得到的初始目标页面数据中的有效数据确定为该初始目标页面数据对应的目标页面中的语料信息。
S103、将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型,以得到所述目标页面所对应的云服务提供商和云服务内容。
下面,将结合图2来说明训练第一预测模型和第二预测模型的具体步骤。图2示出了本申请实施例所提供的训练第一预测模型和第二预测模型的步骤的流程图。如图2中所示,本申请实施例提供的训练第一预测模型和第二预测模型包括以下步骤:
S201、获取多个页面的页面数据。
需要说明的是,页面可以是云服务目标页面,作为示例,页面的页面数据可以是该页面的网络源代码。这里,网页源代码可以是该页面的超文本标记语言,通过该超文本标记语言的语言规则,能够将文字、图片等内容在页面中显示出来。
S202、基于所述页面数据,筛选出所述多个页面中的语料信息。
在具体实施时,在该步骤中,首先,针对每一个页面数据,去除该页面数据中的无效字段,得到初始页面数据。这里,无效字段是指页面数据中包含的script、comment、style等字段,这些字段中没有文本数据,将其去掉以便于页面数据的后续处理。然后,针对每一个初始页面数据,将该初始页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始页面数据中的有效数据。这里,词汇还原包括对词形和词干的还原,无效词汇是指英文文本中的停用词和特殊字符,以及在全部词汇中出现频率低于某一阈值的低频词。最后,将每一个得到的初始页面数据中的有效数据确定为该初始页面数据对应的页面中的语料信息,以得到所述多个页面中的语料信息。
S203、基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
在具体实施时,在该步骤中,首先,向量化表示采用分布式计算中的wordcount算法;将所述向量化表示的语料信息输入词频-逆向文件频率模型和词嵌入模型,获得所述词频-逆向文件频率模型输出的词频-逆向文件频率特征和所述词嵌入模型输出的词嵌入特征。这里,采用分布式计算中的wordcount算法向量化表示所述语料信息,以将非结构化的语料信息拆分并转化为计算机可以处理的结构化数据。然后,利用所述词频-逆向文件频率特征训练初始第一预测模型,得到第一预测模型,并且,利用所述词嵌入特征训练初始第二预测模型,得到第二预测模型。在一个示例中,初始第一预测模型可以是随机森林模型,初始第二预测模型可以是主题模型。这里,随机森林模型是利用多棵决策树对样本进行分类的一种预测模型;主题模型是推测文档的主题分布并根据该分布进行文本分类的一种预测模型。
下面举例说明本发明在实际应用过程中的实施效果:
在一个实验中,使用了5883个有效云服务和5000个有效非云服务的语料信息来进行确定云服务提供商的实验。应用wordcount算法向量化表示所述语料信息,并从向量化表示的语料信息中提取词频-逆向文件频率特征。利用所述词频-逆向文件频率特征训练逻辑回归模型,得到对比模型1。使用对比模型1和基于本申请所训练得到的第一预测模型的对云服务提供商的预测准确率(precision)如表1所示:
表1云服务提供商预测结果
对比看出,相较于基于逻辑回归模型构建的对比模型1,本申请所训练得到的第一预测模型的预测准确率更高。实验结果证明本发明的第一预测模型能够准确地确定目标页面中的云服务提供商。
在另一实验中,本发明实际构建了包含3297个真实云服务的云服务语料库和另一个包含3023个非云服务的非云服务语料库来进行确定云服务内容的实验。应用wordcount算法向量化表示所述语料信息,并从向量化表示的语料信息中提取word2vec特征。利用所述word2vec特征训练逻辑回归模型,得到对比模型2。对比模型2和本申请所训练得到的第二预测模型对云服务内容的预测准确率(precision)如表2所示:
表2云服务内容预测结果
对比看出,相较于基于逻辑回归模型构建的对比模型2,本申请所训练得到的第二预测模型的预测准确率更高。实验结果证明本申请所训练得到的第二预测模型能够准确地确定页面中的云服务内容。
实施例二
请参阅图3、图3为本申请实施例所提供的一种确定云服务资源的装置的结构示意图,所述确定云服务资源的装置300包括:数据获取模块310、数据预处理模块320和云服务预测模块330,具体说来:
数据获取模块310,用于获取目标页面的页面数据。
数据预处理模块320,用于提取出所述页面数据中的语料信息。
云服务预测模块330,用于将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型;所述云服务提供商是指对外提供云服务产品的主体。
进一步的,所述装置还包括:训练数据获取模块、训练数据预处理模块和模型训练模块(图3中未示出),其中,训练数据获取模块用于获取多个页面的页面数据;训练数据预处理模块用于基于所述页面数据,筛选出所述多个页面中的语料信息;模型训练模块用于基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
进一步的,所述训练数据预处理模块用于针对每一个页面数据,去除该页面数据中的无效字段,得到初始页面数据;针对每一个初始页面数据,将该初始页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始页面数据中的有效数据;将每一个得到的初始页面数据中的有效数据确定为该初始页面数据对应的页面中的语料信息,以得到所述多个页面中的语料信息。
进一步的,所述训练数据预处理模块用于向量化表示所述语料信息,并将所述向量化表示的语料信息输入词频-逆向文件频率模型和词嵌入模型,获得所述词频-逆向文件频率模型输出的词频-逆向文件频率特征和所述词嵌入模型输出的词嵌入特征;利用所述词频-逆向文件频率特征训练初始第一预测模型,得到预测云服务提供商的第一预测模型;利用所述词嵌入特征训练初始第二预测模型,得到预测云服务内容的第二预测模型。
进一步的,所述模型训练模块采用分布式计算中的wordcount算法向量化表示所述语料信息。
进一步的,所述数据预处理模块中,所述初始第一预测模型采用随机森林模型;所述初始第二预测模型采用主题模型。
实施例三:
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的确定云服务资源的方法的步骤和图2所示方法实施例中的训练第一预测模型和第二预测模型的步骤,具体实现方式可参见方法实施例,在此不再赘述。
实施例四:
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的确定云服务资源的方法的步骤和图2所示方法实施例中的训练第一预测模型和第二预测模型的步骤,具体实现方式可参见方法实施例,在此不再赘述。
综上所述,本发明提供的一种确定云服务资源的方法、装置、电子设备及存储介质,利用自然语言处理和机器学习的算法,基于页面数据,提取语料信息来训练预测模型,从而利用训练好的预测模型确定目标页面中的云服务资源,识别出目标页面中的云服务提供商和云服务内容。由此可见,这种方式代替传统的利用本体论人工检索的方式,主动确定页面中的云服务提供商和云服务内容,确定的过程简便快捷,且结果完整准确,提高了确定云服务资源的效率和准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种确定云服务资源的方法,其特征在于,所述方法包括:
获取目标页面的页面数据;
提取出所述目标页面数据中的语料信息;
将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型,以得到所述目标页面所对应的云服务提供商和云服务内容;所述云服务提供商是指对外提供云服务产品的主体。
2.根据权利要求1所述的方法,其特征在于,通过以下方式训练所述第一预测模型和所述第二预测模型:
获取多个页面的页面数据;
基于所述页面数据,筛选出所述多个页面中的语料信息;
基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述页面数据,筛选出所述多个页面中的语料信息,包括:
针对每一个页面数据,去除该页面数据中的无效字段,得到初始页面数据;
针对每一个初始页面数据,将该初始页面数据中包括的英文文本中的词汇还原后去除无效的词汇,得到该初始页面数据中的有效数据;
将每一个得到的初始页面数据中的有效数据确定为该初始页面数据对应的页面中的语料信息,以得到所述多个页面中的语料信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型,包括:
向量化表示所述语料信息,并将所述向量化表示的语料信息输入词频-逆向文件频率模型和词嵌入模型,获得所述词频-逆向文件频率模型输出的词频-逆向文件频率特征和所述词嵌入模型输出的词嵌入特征;
利用所述词频-逆向文件频率特征训练初始第一预测模型,得到预测云服务提供商的第一预测模型;
利用所述词嵌入特征训练初始第二预测模型,得到预测云服务内容的第二预测模型。
5.根据权利要求4所述的方法,其特征在于,采用分布式计算中的wordcount算法向量化表示所述语料信息。
6.根据权利要求4所述的方法,其特征在于,所述初始第一预测模型为随机森林模型;所述初始第二预测模型为主题模型。
7.一种确定云服务资源的装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标页面的页面数据;
数据预处理模块,用于提取出所述页面数据中的语料信息;
云服务预测模块,用于将所述语料信息分别输入预先训练好的用于预测云服务提供商的第一预测模型和用于预测云服务内容的第二预测模型;所述云服务提供商是指对外提供云服务产品的主体。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练数据获取模块,用于获取多个页面的页面数据;
训练数据预处理模块,用于基于所述页面数据,筛选出所述多个页面中的语料信息;
模型训练模块,用于基于所述语料信息,分别训练预测云服务提供商的第一预测模型和预测云服务内容的第二预测模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的一种确定云服务资源的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的一种确定云服务资源的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103609.1A CN112765340A (zh) | 2021-01-26 | 2021-01-26 | 一种确定云服务资源的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103609.1A CN112765340A (zh) | 2021-01-26 | 2021-01-26 | 一种确定云服务资源的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765340A true CN112765340A (zh) | 2021-05-07 |
Family
ID=75705689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110103609.1A Pending CN112765340A (zh) | 2021-01-26 | 2021-01-26 | 一种确定云服务资源的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765340A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256120A (zh) * | 2021-05-26 | 2021-08-13 | 中国电子信息产业集团有限公司第六研究所 | 一种飞机加油订单的分配方法、装置及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
WO2013072232A1 (en) * | 2011-11-15 | 2013-05-23 | Telefonica, S.A. | Method to manage performance in multi-tier applications |
CN106796578A (zh) * | 2014-08-06 | 2017-05-31 | 凯巴士有限公司 | 知识自动化系统 |
CN109522562A (zh) * | 2018-11-30 | 2019-03-26 | 济南浪潮高新科技投资发展有限公司 | 一种基于文本图像融合识别的网页知识抽取方法 |
-
2021
- 2021-01-26 CN CN202110103609.1A patent/CN112765340A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013072232A1 (en) * | 2011-11-15 | 2013-05-23 | Telefonica, S.A. | Method to manage performance in multi-tier applications |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN106796578A (zh) * | 2014-08-06 | 2017-05-31 | 凯巴士有限公司 | 知识自动化系统 |
CN109522562A (zh) * | 2018-11-30 | 2019-03-26 | 济南浪潮高新科技投资发展有限公司 | 一种基于文本图像融合识别的网页知识抽取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256120A (zh) * | 2021-05-26 | 2021-08-13 | 中国电子信息产业集团有限公司第六研究所 | 一种飞机加油订单的分配方法、装置及可读存储介质 |
CN113256120B (zh) * | 2021-05-26 | 2023-09-26 | 中国电子信息产业集团有限公司第六研究所 | 一种飞机加油订单的分配方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bucur | Using opinion mining techniques in tourism | |
Pandarachalil et al. | Twitter sentiment analysis for large-scale data: an unsupervised approach | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
US11468342B2 (en) | Systems and methods for generating and using knowledge graphs | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN107798622B (zh) | 一种识别用户意图的方法和装置 | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN111966792B (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
Kinariwala et al. | Short text topic modelling using local and global word-context semantic correlation | |
US20180349351A1 (en) | Systems And Apparatuses For Rich Phrase Extraction | |
CN110727842B (zh) | 基于辅助性知识的Web服务开发者按需推荐方法及系统 | |
Rahmani et al. | Improving code example recommendations on informal documentation using bert and query-aware lsh: A comparative study | |
CN112765340A (zh) | 一种确定云服务资源的方法、装置、电子设备及存储介质 | |
Xiao et al. | Fine-grained main ideas extraction and clustering of online course reviews | |
Phan et al. | Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN116822491A (zh) | 日志解析方法及装置、设备、存储介质 | |
Panchenko et al. | Large-scale parallel matching of social network profiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |