CN111562990B

CN111562990B - 一种基于消息的轻量级无服务器计算方法

Info

Publication number: CN111562990B
Application number: CN202010677405.4A
Authority: CN
Inventors: 李志鹏; 李彦清; 邹强; 李利军; 于滨峰; 张春林
Original assignee: Beijing Dongfangtong Software Co ltd; Beijing Tongtech Co Ltd
Current assignee: Beijing Dongfangtong Software Co ltd; Beijing Tongtech Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-27
Anticipated expiration: 2040-07-15
Also published as: CN111562990A

Abstract

本发明提供了一种基于消息的轻量级无服务器计算方法。包括：接收客户消息，确定消息内容和消息类型；根据所述消息内容，确定需要的消息算法和算法抓取途径；根据所述消息类型，确定所述算法抓取途径的抓取顺序；在预设时间内根据所述消息类型将消息内容分别导入不同的计算节点；将所述算法抓取途径与所述计算节点相匹配，确定匹配信息；根据所述匹配信息和抓取顺序，抓取消息算法至计算节点；根据抓取的消息算法，执行无服务计算。本发明的有益效果：用户可以利用无服务器计算架构的算法灵活性，通过灵活和标准化的算法获取方式来满足当前计算需求。有效的节约了计算成本，提高了资源利用率。

Description

一种基于消息的轻量级无服务器计算方法

技术领域

本发明涉及计算技术领域，特别涉及一种基于消息的轻量级无服务计算方法。

背景技术

目前，云计算发展日新月异，目前无服务器计算已经成为云计算发展的必然趋势。无服务器计算对原有应用程序进行拆解，提供更加细粒度的服务调度，只有在有请求到来时占用资源调用服务，没有请求时不占用任何资源，按照调用次数、时长进行计费。相比传统的在线服务模式，无服务器计算极大降低了用户的使用成本，使用户可以完全不必关注服务器的配置问题从而简化了开发，以及提供了相比传统在线服务更好的伸缩性。然而，目前的无服务器计算模型由于其本身容器冷启动的特性带来了较为明显的性能问题。

因此，为了解决无服务器的性能问题，需要本领域技术人员提供比现有无服务器平台更低的启动延迟和更高的资源使用率、更快计算速率的无服务器计算方法。

发明内容

本发明提供一种基于消息的轻量级无服务器计算方法，用以解决服务器计算的稳定性和安全性的情况。

一种基于消息的轻量级无服务器计算方法，其特征在于，包括：

接收客户消息，确定消息内容和消息类型；

根据所述消息内容，确定需要的消息算法和算法抓取途径；

根据所述消息类型，确定所述算法抓取途径的抓取顺序；

在预设时间内将所述消息内容分别调入不同的计算节点；

将所述算法抓取途径与所述计算节点相匹配，确定匹配信息；

根据所述匹配信息和抓取顺序，抓取消息算法至计算节点；

根据抓取的消息算法，执行计算。

作为本发明的一种实施例，所述接收客户消息，确定消息内容和消息类型包括：

基于同义式语意划分规则，将所述客户消息按照语句划分为多种不同消息序列；

对同一消息序列中不同语句进行关联性计算，确定同一消息序列中不同语句之间的第一关联参数；

根据所述第一关联参数，确定不同序列之间的第二关联参数；

将所述第一关联参数和第二关联参数代入离散回归函数，构建所述消息序列和所述消息序列中语句的离散式分布关系图；

根据所述离散式分布关系图，确定每种语句在所述离散式分布关系图中的语句面积，并基于所述语句面积对客户消息进行分类，确定分类后每类客户消息的消息内容。

作为本发明的一种实施例，所述根据所述消息内容，确定需要的消息算法和算法抓取途径，包括：

获取消息内容，确定特征参数和特征类型；

根据所述特征类型，确定每一种特征类型对应的消息内容的算法参数和需求参数；

根据所述需求参数，确定消息算法的计算功能和计算逻辑；

根据所述算法参数，确定所述消息算法的计算特征；

根据所述计算功能、计算逻辑和计算特征，分别获取相同计算功能第一数据合集、相同计算逻辑的第二数据合集和相同计算特征的第三数据合集；

根据所述第一数据合集、第二数据合集和第三数据合集，确定相同数据；

获取所述相同数据的目标数据地址和目标域名地址；

根据所述目标数据地址和目标域名地址，确定所述相同数据的算法抓取途径；

获取所述相同数据的数据量，并整合所有相同数据的算法抓取途径，确定所有相同数据的消息算法。

作为本发明的一种实施例，所述获取所述相同数据的数据地址和域名地址，还包括：

当同一相同数据获取的数据地址和域名地址为多个时，通过任意计算节点对接多个域名地址，获取对接时间；

根据所述对接时间的时间值，确定所述时间值中最短的时间值对应的域名地址，并将所述最短的时间值对应的域名地址作为目标域名地址。

作为本发明的一种实施例，所述根据所述消息类型，确定所述算法抓取途径的抓取顺序，包括：

获取消息类型，确定所述消息类型的相关关系；

根据所述相关关系，确定所述相关关系中的并列关系和分支关系；

根据所述并列关系，计算处于并列关系的消息内容的熵权值；

根据所述熵权值，确定所述并列关系的消息内容对应的算法抓取途径的第一抓取次序；

根据所述分支关系，构建所述消息类型的树状图；

根据所述树状图，确定所述分支关系对应的消息对应的算法抓取途径的第二抓取次序；

通过所述第一抓取次序和第二抓取次序，确定所述消息类型的抓取顺序。

作为本发明的一种实施例，所述在预设时间内根据所述消息类型将消息内容分别导入不同的计算节点，包括：

根据所述消息类型，分别确定不同消息类型的消息内容导入计算节点的时间需求；

根据所述时间需求，制定不同消息类型的消息内容导入所述计算节点的时间范围；

根据所述时间范围和消息类型，将消息内容导入计算节点；其中，

当所述消息内容导入计算节点的时间超过所述时间范围时，表示所述消息内容具有消息噪声，将所述消息噪声过滤后，重新导入计算节点；

当所述消息内容导入计算节点的时间低于所述时间范围时，表示所述消息内容确实，重新获取所述消息内容，并导入所述计算节点。

作为本发明的一种实施例，所述将所述消息噪声过滤后，重新导入计算节点，包括：

获取消息内容，生成消息文本；

根据所述消息文本，判断所述消息噪声的种类；其中，

所述噪声的种类至少包括叠字类、多含义类、语意不明类；

根据所述噪声的种类，通过替换、增加或删除的方式进行去噪处理，并将处理后的消息内容导入计算节点。

作为本发明的一种实施例，所述根据所述消息类型将所述算法抓取途径与所述计算节点相匹配，确定匹配信息，包括：

步骤1：基于计算节点的个数和算法抓取途径的个数，确定计算节点的参数集合

和算法抓取途径的参数集合

：

；

；

其中，所述

表示第

个计算节点的参数；所述

表示第

个算法抓取途径的参数；所述

，表示共有

个计算节点，共有

个算法抓取途径；

步骤2：将所述计算节点与算法抓取途径代入正态分布函数，确定任意计算节点与任意算法抓取途径的匹配概率

：

；

其中，所述

表示计算节点的参数均值；所述

表示算法抓取途径的参数均值；所述

表示第

个计算节点与第

个算法抓取途径的匹配概率；

步骤3：根据所述匹配概率，确定计算节点的匹配能力

：

；

其中，所述

表示第

个计算节点的储存容量；所述

表示第

个计算节点能匹配的算法抓取途径的比例；

步骤4：根据所述计算节点的参数和算法抓取途径的参数，构建耦合性模型

：

；

其中，所述

表示第

个计算节点与第

个算法抓取途径的耦合性；

步骤5：根据所述耦合性模型

和匹配能力，构建所述法抓取途径与计算节点的匹配模型

：

；

其中，所述

第

个计算节点与第

个算法抓取途径匹配值；

步骤6：将所述计算节点的参数集合和算法抓取途径的参数集合代入所述匹配模型，确定计算节点与算法抓取途径的匹配值集合；

将所述匹配值集合中匹配值的从大到小排列，并生成以梯度表为输出形式的匹配信息。

作为本发明的一种实施例，所述根据所述匹配信息和抓取顺序，抓取消息算法至计算节点，包括：

根据所述匹配信息，确定所述计算节点和算法抓取途径对应的匹配值由大到小的顺序；

判断所述匹配值由大到小的顺序和抓取顺序是否相同；

当顺序相同时，抓取消息算法至计算节点；

当顺序不相同时，确定顺序不相同的计算节点和算法抓取途径，计算所述顺序不相同的计算节点和算法抓取途径的抓取权重；

根据所述抓取权重，抓取消息算法至计算节点。

作为本发明的一种实施例，所述根据抓取的消息算法，执行计算，包括以下步骤：

步骤S1：读取所述客户消息，初始化簇中心；

步骤S2：在所述簇中心被初始化后，标记所述簇中心；

步骤S3：将被标记的簇中心代入所述消息算法，计算得到新的簇中心；

步骤S4：判断所述簇中心是否变化；

步骤S5：当所述簇中心变化时，重复步骤S1至S4；

步骤S6：当所述簇中心无变化时，通过所述消息算法计算所述客户消息。

本发明的有益效果：用户可以利用无服务器计算架构的算法灵活性，通过灵活和标准化的算法获取方式来满足当前计算需求。通过极致的细粒化的处理方式，对数据实现精确分配和多算法的海量同步计算，有效的节约了计算成本，提高了资源利用率。能够自动化地完成用户提交的数据处理任务，并且最大限度减少了用户在管理服务器上所花费的工作和精力，更具备通用性、高效性和易用性的特点。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于消息的轻量级无服务器计算方法的方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

如附图1所示，一种基于消息的轻量级无服务器计算方法，包括：

步骤100：接收客户消息，确定消息内容和消息类型；

本发明接收的客户消息包括描述类信息、行为类信息和关联类信息三种类型。

描述类信息主要是用来理解客户的基本属性的信息，例如：个人客户的联系信息、地理信息和人口统计信息，企业客户的社会经济统计信息等，这类信息主要来自于客户的登记信息。以及通过企业的运营管理系统收集到的客户基本信息。

行为类信息一般包括：客户购买服务或产品的记录、客户的服务或产品的消费记录、客户与企业的联络记录，以及客户的消费行为，客户偏好和生活方式等相关的信息；

关联类信息是指与客户行为相关的，反映和影响客户行为和心理等因素的相关信息。企业建立和维护这类信息的主要目的是为了更有效的帮助企业的营销人员和客户分析人员深入理解影响客户行为的相关因素。

步骤101：根据所述消息内容，确定需要的消息算法和算法抓取途径；

不同的消息内容，获取的途径和数据源不同，因此获取消息的算法也不相同。例如：描述类信息是静态类信息，信息是不变的，需要采取静态算法；行为类信息是时刻变化的，需要采取动态算法。

步骤102：根据所述消息类型，确定所述算法抓取途径的抓取顺序；

不同的消息类型，抓取途径不同，描述类信息，例如客户信息基本属性的信息需要对接客户的信息注册网站；行为类信息，例如，客户的消费信息，是需要客户授权的金融机构获取。

步骤103：在预设时间内将所述消息内容分别调入不同的计算节点；

对于消息内容的计算有时间限制的，防止计算时间过于漫长，进而使得计算过程出现卡顿而而无法得知。因此通过预设计算时间，防止计算卡顿。

步骤104：将所述算法抓取途径与所述计算节点相匹配，确定匹配信息；

算法抓取途径和计算节点匹配是为了计算节点的内容和算法相对应，能够更加精确和准确的进行计算。

步骤105：根据所述匹配信息和抓取顺序，抓取消息算法至计算节点；

匹配信息代表了算法匹配值得大小顺序，而抓取顺序，代表了计算的顺序，本发明同各国将大小顺序和计算顺序相对比，从而提高计算的速度的效率。

步骤106：根据抓取的消息算法，执行计算。

上述技术方案的有益效果在于：用户可以利用无服务器计算架构的算法灵活性，通过灵活和标准化的算法获取方式来满足当前计算需求。通过极致的细粒化的处理方式，对数据实现精确分配和多算法的海量同步计算，有效的节约了计算成本，提高了资源利用率。能够自动化地完成用户提交的数据处理任务，并且最大限度减少了用户在管理服务器上所花费的工作和精力，更具备通用性、高效性和易用性的特点。

实施例2：

基于同义式语意划分规则，将所述客户消息按照语句划分为多种不同消息序列；同义式语意划分规则，是基于客户内容的内容含义，将相同含义的客户消息划分为一类，每一类为一个消息序列，进而组成多种不同的消息序列。

对同一消息序列中不同语句进行关联性计算，确定同一消息序列中不同语句之间的第一关联参数；在同一个消息序列中，会有至少一个相同语意的语句，那第一关联参数就为1；当在同一个消息序列中，会有两个或者两个以上相同语意的语句，通过计算同一序列中任意两个语句的马氏距离，进而确定两个语句是不是相同的语句，即：例如语句A和语句B，语句A和语句B的马氏距离为1，等同于存在重复语句，重复的语句也是要消耗计算资源的，因此将确定重复语句之后，可以删除重复的。而在马氏距离小于1时，表示语句A和语句B是不同的。

序列之间也会存在所有的语句相同的情况，因此，第二关联参数可以找出重复的序列。

将所述第一关联参数和第二关联参数代入离散回归函数，构建所述消息序列和所述消息序列中语句的离散式分布关系图；离散式分布关系图分为两级，一级是序列之间的离散式分布关系图，次一级是某一序列中不同语句之间的离散式分布关系图。

根据所述离散式分布关系图，确定每种语句在所述离散式分布关系图中的面积，并基于所述面积对所述客户消息进行分类，并确定分类后每类客户消息的消息内容。离散式分布关系图序列的图和语句的图重合之后，语句以多个点构成一个区域，代表一个序列，因此，可以通过区域的面积决定分类情况。

上述技术方案的有益效果在于：本发明通过相同含义将客户内容进行划分，实现了对客户消息的一级划分；而通过关联参数实现了对重复语句或重复序列的确定，进而删除重复语句或重复序列，减少对计算资源的占用；最后基于面积分类，实现了对客户消息的二级划分，进而实现了对客户消息的精确划分。

实施例3：

获取消息内容，确定特征参数和特征类型；类型特征包括时效性特征、深度特征、容量特征等，在进行计算式，可以根据具体的消息的计算特性，确定消息的特征。

根据所述特征类型，确定每一种特征类型对应的消息内容的算法参数和需求参数；算法参数是计算所需要的可以直接从消息内容中获取的参数，例如：客户消息的容量，即占用的内存空间，客户消息的语意特征的参数，即，客户消息的表达的含义。而需求参数是从计算端出发，确定在计算客户消息时需要什么参数进而整合而成的需求参数。

根据所述需求参数，确定消息算法的计算功能和计算逻辑；计算功能就是计算之后产生的结果。而计算逻辑就是获取计算结果使用的方法逻辑。

根据所述算法参数，确定所述消息算法的计算特征；

根据所述第一数据合集、第二数据合集和第三数据合集，确定相同数据；相同数据和重复数据不同，相同数据时语意类似或相似，即，用不同的词语或语句产生了相同、相似或同类内容；相同语句也和同义式的划分规则不同，同义式的划分规则时从主观上感觉语义相同，而相同数据，是通过计算得到的，在参数、逻辑和功能上相同的数据。

获取所述相同数据的目标数据地址和目标域名地址；

根据所述数据地址和域名地址，确定所述相同数据的算法抓取途径；目标域名地址确定了相同数据存在的网页或者网站，而目标数据地址，确定了相同数据在网页上的位置。

根据所述相同数据的量，整合所有相同数据的算法抓取途径，确定与所述所有相同数据的算法抓取途径对应的消息算法。

上述技术方案的有益效果在于：本发明获取的消息算法能够完全适配于客户消息的计算，通过计算的功能、逻辑和特征实现了算法的精准确定，而数据地址和域名地址，对消息算法精确定位。而，最终得到的消息算法，也是最适合客户消息计算的算法。

实施例4：

作为本发明的一种实施例，所述确定所述相同数据的数据地址和域名地址，还包括：

当同一相同数据获取的数据地址和域名地址为多个时，通过任意计算节点对接多个域名地址，获取对接时间；例如：同一片文章或者文献在知网、万方、维普和爱学术都存在，但是，通过任意客户端连接知网、万方、维普和爱学术的时间存在不同，人工操作时对时间的偏差在极小的情况下感觉不到，但是本发明是一种自动计算，大量的集群调度式计算的方法，因此，每节约一点时间，都能加快整体的计算速率。

根据所述对接时间的时间值，确定所述时间值中最短的时间值对应的域名地址，并将所述最短的时间值对应的域名地址作为算法抓取途径的域名地址。时间值中最短的时间值独应的域名地址表示连接的最快的域名地址，将其作为本发明的算法抓取途径的域名地址。

实施例5：

获取消息类型，确定所述消息类型的相关关系；消息类型的相关关系，即消息类型之间的马氏距离。

根据所述熵权值，确定所述并列关系的消息内容对应的算法抓取途径的第一抓取次序；第一抓取序列是对主类，即完全不相同类的消息内容的消息算法的抓取。

根据所述分支关系，构建所述消息类型的树状图；

根据所述树状图，确定所述分支关系对应的消息类型对应的算法抓取途径的第二抓取顺序；第二抓取顺序，就是根据树状图，每一个树状图的分支关系的阶次。因此，树状图中，各个借此的分支和上一级分支或主干是有关系的，进而可以较少抓取算法时的计算量。

通过所述第一抓取顺序和第二抓取顺序，确定所述消息类型的抓取顺序。

上述技术方案的有益效果在于：本发明通过对抓取顺序的确定，通过将不同类的客户消息抓取不同的消息算法，根据抓取顺序，降低了消息算法获取的难度，实现了对消息算法的顺序获取。

实施例6：

根据所述消息类型，分别确定不同消息类型的消息内容导入计算节点的时间需求；消息内容的计算是存在计算时间的，但是可能会存在计算故障或计算卡顿导致计算中断。

根据所述时间需求，制定不同消息类型的消息内容导入所述计算节点的时间范围；时间范围为消息算法计算消息内容的时间范围。

上述技术方案的有益效果在于：可以通过设置消息算法的计算时间，判断消息内容中是否存在噪音数据，从而通过过滤等手段实现对数据的清洗和精华，实现对干净数据的计算。

实施例7：

获取消息内容，生成消息文本；消息文本是通用的HTML格式的文本文件超文本标记语言的标记文本。

根据所述消息文本，判断所述消息噪声的种类；其中，

所述噪声的种类至少包括叠字类、多含义类、语意不明类；

上述技术方案的有益效果在于：消息数据在网络中传输时，噪声数据会对计算的准确性产生影响，而本发明的计算需要设定自动执行的数据处理方式，实施对噪声的处理，本发明的文本除噪主要是对叠字类、多含义类、语意不明类数据的处理，而本发明的主要目的是计算，而且数据计算量比较大，因此，通过替换、增加或删除这种最简单直接的方式对噪声数据进行处理，能够完全的去除所有的噪声数据。

实施例8：

和算法抓取途径的参数集合

：

；

；

其中，所述

表示第

个计算节点的参数；所述

表示第

个算法抓取途径的参数；所述

，表示共有个计算节点，共有个算法抓取途径；

：

；

其中，所述

表示计算节点的参数均值；所述

表示算法抓取途径的参数均值；所述

表示第

个计算节点与第

个算法抓取途径的匹配概率；

步骤3：根据所述匹配概率，确定计算节点的匹配能力

：

；

其中，所述

表示第

个计算节点的储存容量；所述

表示第

个计算节点能匹配的算法抓取途径的比例；

：

；

其中，所述

表示第

个计算节点与第

个算法抓取途径的耦合性；

步骤5：根据所述耦合性模型

和匹配能力，构建所述法抓取途径与计算节点的匹配模型

：

；

其中，所述

第

个计算节点与第

个算法抓取途径匹配值；

上述技术方案的原理和有益效果在于：本发明因为是无服务器计算，因此，采用的是分布式的计算方式，因此计算节点的数量是确定的，因此通过计算节点的参数和算法抓取途径的参数生成两个集合，而任意计算节点与任意算法抓取途径的匹配概率的确定，可以确定任意计算节点能从任意算法抓取途径获取消息算法的几率，进而确定每个计算节点相对于多个算法抓取途径的匹配能力，即计算节点能够适配的算法抓取途径的比例及适配能力。耦合性模型确定了计算节点的参数和算法抓取途径的耦合程度，然后本发明通过耦合程度和匹配能的比值确定了任意计算节点和在匹配能力上的占比；进而通过比值，将所有的计算节点和算法抓取途径的比值列出来，进而可以根据比值，确定任意计算节点最适配的算法抓取途径。

实施例9：

判断所述匹配值由大到小的顺序和抓取顺序是否相同；

当顺序相同时，抓取消息算法至计算节点；

根据所述抓取权重，抓取消息算法至计算节点。

上述技术方案的原理和有益效果在于：匹配值的大小顺序，梯度表的顺序，决定了适配顺序；而算法的抓取顺序，决定了算法获取顺序，因为网络的带宽是确定的，好的算法抓取顺序能够更快的获取算法，进而提高计算的速率。两个顺序相同时，代表在两个最佳顺序的加持下，本发明的计算在算法抓取上，和适配上顺序最佳，进而得到最佳的计算速率。

实施例10：

作为本发明的一种实施例，所述根据所述消息算法，执行无服务计算，包括以下步骤：

步骤S1：读取所述客户消息，初始化簇中心；

步骤S2：在所述簇中心被初始化后，标记所述簇中心；

步骤S4：判断所述簇中心是否变化；

步骤S5：当所述簇中心变化时，重复步骤S1至S4；

上述技术方案的原理和有益效果在于：本发明在最后的计算步骤，还通过在初始化后确定客户消息的簇中心，在簇中心无变化时，在簇中心有变化时，重复初始化和判断步骤，直到簇中心无变化时，计算客户消息，本技术方案是本发明的一种聚类优化的方式，进一步提高计算的效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。