CN116894684B

CN116894684B - 一种基于大数据的计算机数据处理方法及系统

Info

Publication number: CN116894684B
Application number: CN202311160873.4A
Authority: CN
Inventors: 黄婧
Original assignee: Shandong Institute of Commerce and Technology
Current assignee: Shandong Institute of Commerce and Technology
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-11-24
Anticipated expiration: 2043-09-11
Also published as: CN116894684A

Abstract

本发明公开了一种基于大数据的计算机数据处理方法及系统，涉及基于大数据的计算机数据处理技术领域，该系统通过相似度计算和目标设定，系统能够有针对性地选择与当前企业相似度高的同类企业，从而优化数据采集的效率和准确性；且，分类模型评估和综合的评价矩阵，系统能够确定不同模型的相对权重，并结合推理时间综合评估模型的性能，使得选择和优化模型更有针对性，利用趋势上升预测系数qsxs结合处理数据分类模型和预测数据，系统可以判断趋势是否为上升状态，并提供同类商品的预测销售数据。通过统计分类结果、计算隶属度、非隶属度和犹豫度，促进了解不同模型在不同类别上的性能情况，从而有针对性地进行模型改进和优化。

Description

一种基于大数据的计算机数据处理方法及系统

技术领域

本发明涉及基于大数据的计算机数据处理技术领域，具体为一种基于大数据的计算机数据处理方法及系统。

背景技术

在当今信息时代，大数据已经成为企业决策和战略制定的重要支撑。随着信息技术的快速发展和大数据的涌现，企业在经营过程中积累了大量的销售数据、客户行为数据和市场趋势数据。这些数据蕴含着宝贵的信息，可以用于预测企业未来的销售趋势、客户需求以及市场走向，从而帮助企业制定更有针对性的营销策略、优化供应链管理以及做出更明智的业务决策。

传统的计算机数据处理方法在处理大规模数据时面临诸多挑战。首先，数据的增长速度迅猛，传统的数据处理方法难以高效地处理海量数据，导致计算速度缓慢。其次，数据的多样性和复杂性使得信息的提取和分析变得困难，难以准确地预测未来的销售趋势。传统方法往往难以处理大规模的数据，导致分析速度慢，无法在短时间内提供及时的预测结果。

发明内容

针对现有技术的不足，本发明提供了一种基于大数据的计算机数据处理方法及系统，通过相似度计算和目标设定，系统能够有针对性地选择与当前企业相似度高的同类企业，从而优化数据采集的效率和准确性，基于大数据的方法通过对不同模型的综合评价，为每个企业提供个性化的决策支持。这意味着每个企业可以根据自身情况选择适合的模型和策略，从而提高决策的针对性和效果。通过优化数据采集和处理过程，减少因处理数据不及时，导致分析速度慢，无法在短时间内提供及时的预测结果的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于大数据的计算机数据处理方法，包括以下步骤，

步骤一、从基于大数据不同来源采集销售数据、客户行为数据和市场趋势数据，建立第一数据库；

设置若干个API接口，获取在线服务社交媒体平台和电子商务平台的销售数据，计算当前企业和同类企业的相识度系数xsd，并将相似度系数xsd大于80%的同类企业设置为抓取目标，通过网络爬虫从企业网站抓取同类企业的实时销售数据和市场趋势数据，包括文本、图像和链接，并使用HTML解析器解析网页内容，将其转换为统一文本结构，建立第二数据库；

步骤二、构建用于识别第一数据库和第二数据库的若干个处理数据分类模型，提取第一数据库和第二数据库中的同商品的销售数据作为，根据时间轴的方式提取同商品的增长销售数据即为市场趋势数据/>，作为确定数据分类模型集合，并构建用于模型处理的测试数据集；

步骤三、构建影响数据处理的分类模型评估的层次分析结构；

所述层次分析结构包括指标层和因素层；指标层包括分类准确度指标、分类趋势推理速度指标和趋势上升预测系数qsxs；分类准确度指标的因素包括分类模型对不同类别销售数据的分类准确度；影响模型推理速度指标的因素为模型推理时间/>；

步骤四、构建分类层次评价矩阵，并获取不同推理时间/>，通过层次评价矩阵中数据分类模型集合/>的变量值；依据/>并验证趋势上升预测系数qsxs是否呈上升状态；

；

式中，L表示时间步，趋势上升预测系数分析的几何Y指标值，p是斜率，d是截距，斜率p表示趋势的上升程度，趋势上升预测系数qsxs被定义为斜率p的值，如果p为正，表示趋势上升，其值越大表示上升趋势越明显，如果p为负，表示趋势下降；则表示分类模型Y中的销售产品值不在预测上升状态；并给予当前企业同类商品获取预测销售数据。

优选的，对于每个同类企业，相似度计算方法来计算相似度系数xsd，并判断相似度系数是否大于80%；

所述相似度系数xsd通过以下公式计算获得：

；

其中，Hb表示为同类行业代码得分值，表示为企业地理位置得分值，CP表示为企业产品种类得分，Gm表示企业规模得分，通过人员总人数计算获得公司规模得分；w1、w2、w3和w4分别代表同类行业代码得分值Hb、企业地理位置得分值/>、企业产品种类得分CP和企业规模得分/>的权重值，且/>，/>，，/>，C为常数修正系数。

优选的，将企业的相似度系数xsd与标准阈值对比，大于80%的同类企业确定为抓取目标；

对于每个抓取目标企业，使用网络爬虫从其网站抓取实时销售数据和市场趋势数据，包括文本、图像和链接，使用Python爬虫库、BeautifulSoup和Scrapy进行抓取；并使用HTML解析器解析网页内容，提取包括销售数据、文本描述和图像URL，并将抓取的数据进行清洗、转换和标准化，然后存储到第二数据库中。

优选的，从第一数据库和第二数据库中提取销售数据作为，标记目标标签，同时，根据时间轴的方式提取同商品的增长销售数据作为/>，作为市场趋势数据；

对于每个商品，提取商品特征，作为商品的属性，商品特征包括销售额、销售数量、销售时间和商品类别；

依据提取的商品特征和销售数据，构建训练集来训练处理数据分类模型，包括决策树、随机森林、支持向量机或神经网络其中的一种处理数据分类模型。

优选的，构建分类层次评价矩阵，并获取不同推理时间/>，通过层次评价矩阵中数据处理数据分类模型集合/>的变量值，用于量化标度，获得一致性比率：

；

公式的意义为：表示为销售产品/>第一时间轴模型推理时间计算的销售数据，/>表示为销售产品/>第二时间轴模型推理时间计算的销售数据，表示为销售产品/>第三时间轴模型推理时间计算的销售数据，表示为销售产品/>第/>时间轴模型推理时间计算的销售数据；

表示为销售产品b第一时间轴模型推理时间计算的销售数据，表示为销售产品b第二时间轴模型推理时间计算的销售数据，/>表示为销售产品/>第三时间轴模型推理时间计算的销售数据，/>表示为销售产品b第/>时间轴模型推理时间计算的销售数据；/>表示为销售产品c第一时间轴模型推理时间计算的销售数据，/>表示为销售产品c第二时间轴模型推理时间计算的销售数据，/>表示为销售产品c第三时间轴模型推理时间计算的销售数据，/>表示为销售产品c第/>时间轴模型推理时间计算的销售数据。

优选的，统计每一个处理数据分类模型在测试数据集中的分类结果，模型对因素/>的隶属度可由/>求得，/>代表测试样本中类别为i的样本数量，/>代表分类结果正确的样本数目，分类结果正确即输出落在/>区间，采用相同方法求出销售商品样本的非隶属度和犹豫度。

优选的，影响模型推理速度指标的因素为模型推理时间，影响模型推理速度指标的直觉模糊数计算方法如下：

各模型的推理时间上限为，模型/>推理的耗时为/>，则模型/>对于推理速度指标的隶属度/>，非隶属度/>：

；

式中，j=1,…,n；计算的意义为，对于一个模型的推理时间为t毫秒，计算其在“快速”、“中等”和“较慢”三个子集中的隶属度；这些隶属度将构成一个直觉模糊数，表示模型推理速度的模糊评价；进而评估影响模型推理速度指标的效率。

优选的，使用层次分析法构建分类层次评价矩阵，在矩阵中，将不同处理数据分类模型、指标和因素进行比较，以确定不同处理数据分类模型、指标和因素的相对权重；

对于每个处理数据分类模型，获取其推理时间作为一个变量；

将步骤四中构建的分类层次评价矩阵的权重与不同处理数据分类模型的推理时间相乘，得到综合/>的变量值；综合/>的变量值综合考虑了不同模型的性能和推理速度；

对于趋势上升预测系数qsxs，将趋势上升预测系数qsxs与处理数据分类模型和销售产品的预测数据相结合，从而得出是否在预测上升状态；并获取同类商品的预测销售数据。

一种基于大数据的计算机数据处理系统，包括大数据采集单元、相似度计算单元，第二数据采集单元、模型构建单元、分类模型评估单元、分类层次评价矩阵单元和趋势验证单元；

所述大数据采集单元用于从不同来源采集销售数据、客户行为数据和市场趋势数据，建立第一数据库；并设置多个API接口，获取在线服务社交媒体平台和电子商务平台的销售数据；

所述相似度计算单元用于计算当前企业与同类企业的相似度系数xsd，将相似度大于80%的同类企业设置为抓取目标；

所述第二数据采集单元用于通过网络爬虫从企业网站抓取相似度系数xsd超过80%同类企业的实时销售数据和市场趋势数据，建立第二数据库；

模型构建单元用于构建多个用于识别第一数据库和第二数据库的处理数据分类模型；提取训练数据，用于处理数据分类模型处理的测试数据集；

分类模型评估单元用于构建影响数据处理的分类模型评估的层次分析结构，层次分析结构包括指标层和因素层，其中包括分类准确度指标、分类趋势推理速度指标和趋势上升预测系数qsxs；

分类层次评价矩阵单元，构建分类层次评价矩阵，考虑不同分类模型的推理时间变量，通过层次评价矩阵中数据分类模型集合的变量值，进行综合评估；

趋势验证单元，根据趋势上升预测系数qsxs的计算结果，验证趋势是否上升状态。

优选的，所述模型构建单元包括提取单元和测试数据集单元，所述提取单元用于提取第一数据库和第二数据库中的同商品的销售数据作为训练数据，并根据时间轴的方式提取同商品的增长销售数据作为市场趋势数据；所述测试数据集单元用于构建用于处理数据分类模型处理的测试数据集。

本发明提供了一种基于大数据的计算机数据处理方法及系统。具备以下有益效果：

（1）该方法首先通过采集来自不同数据源的销售数据、客户行为数据和市场趋势数据，建立第一数据库。随后，通过API接口和网络爬虫技术，获取在线服务社交媒体平台和电子商务平台的数据，计算相似度系数xsd，从而识别出相似度较高的同类企业，为后续数据采集进行目标设定。接着，构建多个处理数据分类模型，提取商品的销售数据和市场趋势数据，用于模型的训练和测试。在分类模型评估方面，通过层次分析结构，综合考虑分类准确度、分类趋势推理速度和趋势上升预测系数等因素，为不同模型赋予相应的权重。此外，通过构建分类层次评价矩阵，结合不同模型的推理时间和趋势上升预测系数qsxs，得出综合的变量值，用于量化标度和判断趋势状态。该方法通过充分利用大数据的优势，解决了传统方法的数据规模限制、特征提取难题、复杂关联分析困难等问题，提供了更准确、实时的销售数据预测，为企业决策提供有力支持。

（2）通过相似度计算，从而更全面地判断同类企业之间的相似程度。通过这种方式，可以更准确地选择出与当前企业相似度较高的同类企业，为后续的数据采集和分析提供了有针对性的目标。

（3）针对不同的数据处理数据分类模型，以及不同的推理时间，构建一个评价矩阵。这个矩阵包含了各种模型和推理时间的组合，每个单元格表示一个模型在特定推理时间下的性能评价。对于每个销售产品（例如a、b、c），根据不同的时间轴模型推理时间计算销售数据。这些时间数据将成为评价矩阵中的变量值。一致性比率是评价矩阵中数据的一种标准化指标，用于评估各个模型在不同推理时间下的性能。公式中的各个符号代表不同模型在不同时间轴下的推理时间计算的销售数据。通过计算一致性比率，可以了解模型性能是否稳定且一致。一致性比率可以将不同模型在不同时间轴下的性能进行标准化，使得它们可以在相同的尺度上进行比较。通过比较不同模型在不同推理时间下的一致性比率，可以评估哪个模型在特定时间下表现最佳。

（4）通过统计分类结果以及计算隶属度、非隶属度和犹豫度，可以从不同角度全面了解模型的性能，包括正确分类率、分类错误的情况以及模型对于不同类别的表现。隶属度、非隶属度和犹豫度可以帮助识别模型在哪些类别上表现较差，从而有针对性地改进模型的性能，例如增加训练样本、调整模型参数等。

附图说明

图1为本发明一种基于大数据的计算机数据处理系统框图流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1 本发明提供一种基于大数据的计算机数据处理方法，包括以下步骤，

；

本实施例中，该方法首先通过采集来自不同数据源的销售数据、客户行为数据和市场趋势数据，建立第一数据库。随后，通过API接口和网络爬虫技术，获取在线服务社交媒体平台和电子商务平台的数据，计算相似度系数xsd，从而识别出相似度较高的同类企业，为后续数据采集进行目标设定。接着，构建多个处理数据分类模型，提取商品的销售数据和市场趋势数据，用于模型的训练和测试。在分类模型评估方面，通过层次分析结构，综合考虑分类准确度、分类趋势推理速度和趋势上升预测系数等因素，为不同模型赋予相应的权重。此外，通过构建分类层次评价矩阵，结合不同模型的推理时间和趋势上升预测系数qsxs，得出综合的变量值，用于量化标度和判断趋势状态。该方法通过充分利用大数据的优势，解决了传统方法的数据规模限制、特征提取难题、复杂关联分析困难等问题，提供了更准确、实时的销售数据预测，为企业决策提供有力支持。

实施例2 本实施例是在实施例1中进行的解释说明，具体的，对于每个同类企业，相似度计算方法来计算相似度系数xsd，并判断相似度系数是否大于80%；

所述相似度系数xsd通过以下公式计算获得：

；

其中，Hb表示为同类行业代码得分值，表示为企业地理位置得分值，CP表示为企业产品种类得分，Gm表示企业规模得分，通过人员总人数计算获得公司规模得分；w1、w2、w3和w4分别代表同类行业代码得分值Hb、企业地理位置得分值/>、企业产品种类得分CP和企业规模得分/>的权重值，且/>，/>，，/>，C为常数修正系数

本实施例中，考虑了多个因素来评估企业之间的相似度，从而更全面地判断同类企业之间的相似程度。通过这种方式，可以更准确地选择出与当前企业相似度较高的同类企业，为后续的数据采集和分析提供了有针对性的目标。

示例，假设有两个企业A和B，它们的同类行业代码得分Hb分别为0.8和0.7，企业地理位置得分Gp分别为0.9和0.6，企业产品种类得分CP分别为0.75和0.85，企业规模的Gm分别为0.85和0.7。同时，假设权重值分别为w1=0.3,w2=0.2,w3=0.2,w4=0.3，常数修正系数C=0.1。代入上述数据到相似度系数公式中，可以计算出企业A和企业B之间的相似度系数xsd如下：

A=0.3⋅0.8+0.2⋅0.9+0.2⋅0.75+0.3⋅0.85+0.1=0.815

B=0.3⋅0.7+0.2⋅0.6+0.2⋅0.85+0.3⋅0.7+0.1=0.705

根据计算结果，相似度系数xsdA大于80%，而xsdB小于80%。因此，企业A被视为相似度较高，可以设置为抓取目标，而企业B则不符合相似度要求。

实施例3 本实施例是在实施例1中进行的解释说明，具体的，将企业的相似度系数xsd与标准阈值对比，大于80%的同类企业确定为抓取目标；

对于每个抓取目标企业，使用网络爬虫从其网站抓取实时销售数据和市场趋势数据，包括文本、图像和链接，使用Python爬虫库、BeautifulSoup和Scrapy进行抓取；并使用HTML解析器解析网页内容，提取包括销售数据、文本描述和图像URL，并将抓取的数据进行清洗、转换和标准化，然后存储到第二数据库中。使用BeautifulSoup等解析库，将抓取的网页内容解析成结构化的数据。进行数据清洗，去除不需要的信息、格式错误等；将抓取的数据转换为统一的数据结构，以便后续分析和存储。这可能包括将数据类型转换为合适的格式，统一单位等。

本实施例中，整个过程通过网络爬虫技术实现了从企业网站中抓取实时销售数据和市场趋势数据的自动化，极大地提高了数据采集的效率和准确性。这些数据可以为企业提供有关市场趋势、竞争对手销售情况等方面的重要信息，从而辅助企业制定更有针对性的营销策略和业务决策。

实施例4 本实施例是在实施例1中进行的解释说明，具体的，从第一数据库和第二数据库中提取销售数据作为，标记目标标签，同时，根据时间轴的方式提取同商品的增长销售数据作为/>，作为市场趋势数据；

本实施例中，从第一数据库和第二数据库中提取销售数据，这些数据包括产品的销售额、销售数量、销售时间等信息。同时，为了构建分类模型，需要为每个销售记录标记目标标签，指明该销售记录属于哪个类别或分类。这有助于模型学习不同分类之间的特征和关系。通过时间轴的方式提取同一商品的历史销售数据，以获取商品的增长销售数据。这些数据将有助于分析市场趋势和预测未来销售趋势。通过对商品的历史销售数据进行分析，可以识别出销售增长的趋势，从而为企业制定营销策略提供参考。对于每个商品，从销售数据中提取相关特征作为商品的属性。这些特征可以包括销售额、销售数量、销售时间等，以及其他与商品相关的信息，比如商品类别、品牌等。这些属性将成为分类模型训练的输入。可以建立起用于预测商品销售趋势和分类销售记录的数据处理流程。这将帮助企业更好地理解市场趋势、分析产品销售情况，进而做出更加精准的决策，优化营销策略，提升供应链管理效率等，从而实现益处。

实施例5 本实施例是在实施例1中进行的解释说明，具体的，构建分类层次评价矩阵，并获取不同推理时间/>，通过层次评价矩阵/>中数据处理数据分类模型集合/>的变量值，用于量化标度，获得一致性比率：

公式的意义为：表示为销售产品/>第一时间轴模型推理时间计算的销售数据，/>表示为销售产品/>第二时间轴模型推理时间计算的销售数据，表示为销售产品/>第三时间轴模型推理时间计算的销售数据，/>表示为销售产品/>第/>时间轴模型推理时间计算的销售数据；

表示为销售产品b第一时间轴模型推理时间计算的销售数据，表示为销售产品b第二时间轴模型推理时间计算的销售数据，/>表示为销售产品/>第三时间轴模型推理时间计算的销售数据，/>表示为销售产品b第时间轴模型推理时间计算的销售数据；/>表示为销售产品c第一时间轴模型推理时间计算的销售数据，/>表示为销售产品c第二时间轴模型推理时间计算的销售数据，/>表示为销售产品c第三时间轴模型推理时间计算的销售数据，表示为销售产品c第/>时间轴模型推理时间计算的销售数据。

本实施例中，针对不同的数据处理数据分类模型，以及不同的推理时间，构建一个评价矩阵。这个矩阵包含了各种模型和推理时间的组合，每个单元格表示一个模型在特定推理时间下的性能评价。对于每个销售产品（例如a、b、c），根据不同的时间轴模型推理时间计算销售数据。这些时间数据将成为评价矩阵中的变量值。一致性比率是评价矩阵中数据的一种标准化指标，用于评估各个模型在不同推理时间下的性能。公式中的各个符号代表不同模型在不同时间轴下的推理时间计算的销售数据。通过计算一致性比率，可以了解模型性能是否稳定且一致。一致性比率可以将不同模型在不同时间轴下的性能进行标准化，使得它们可以在相同的尺度上进行比较。通过比较不同模型在不同推理时间下的一致性比率，可以评估哪个模型在特定时间下表现最佳。

通过以上步骤，获得对不同数据处理数据分类模型在不同推理时间下性能的量化评价。这有助于决策者选择最适合的模型和推理时间，从而优化数据处理的效率和准确性。这个方法将帮助企业更好地理解模型在不同情境下的表现，进而做出更明智的决策，提升业务绩效。

实施例6 本实施例是在实施例1中进行的解释说明，具体的，统计每一个处理数据分类模型在测试数据集中的分类结果，模型对因素/>的隶属度可由求得，/>代表测试样本中类别为i的样本数量，/>代表分类结果正确的样本数目，分类结果正确即输出落在/>区间，采用相同方法求出销售商品样本的非隶属度和犹豫度。

本实施例中，非隶属度是模型在某个类别上分类错误的程度。对于每个类别i，计算模型将实际为类别i的样本错误分类为其他类别的样本数量除以所有实际为类别i的样本数量，可以得到非隶属度。犹豫度反映了模型在两个或多个类别之间进行选择时的不确定性。对于每个类别i，可以计算模型将实际为类别i的样本错误分类为其他类别的样本数量除以所有实际为类别i的样本数量，从而得到犹豫度。通过统计分类结果以及计算隶属度、非隶属度和犹豫度，可以从不同角度全面了解模型的性能，包括正确分类率、分类错误的情况以及模型对于不同类别的表现。隶属度、非隶属度和犹豫度可以帮助识别模型在哪些类别上表现较差，从而有针对性地改进模型的性能，例如增加训练样本、调整模型参数等。

实施例7 本实施例是在实施例1中进行的解释说明，具体的，影响模型推理速度指标的因素为模型推理时间，影响模型推理速度指标的直觉模糊数计算方法如下：

本实施例中，通过将模型的实际推理时间与预设的推理时间上限进行比较，可以得出模型在不同速度子集中的隶属度。这有助于了解模型的推理效率和速度表现。使用直觉模糊数进行评价，能够更好地捕捉模型速度的模糊性。不同模型可能在不同情况下具有不同的速度，这种评价方式能够更好地反映实际情况。了解模型在不同速度子集中的表现，有助于选择最适合任务需求的模型，也可以指导模型的优化和改进，以提升推理速度。

实施例8 本实施例是在实施例1中进行的解释说明，具体的，使用层次分析法构建分类层次评价矩阵，在矩阵中，将不同处理数据分类模型、指标和因素进行比较，以确定不同处理数据分类模型、指标和因素的相对权重；

本实施例中，通过将不同处理数据分类模型、指标和因素纳入层次分析矩阵，可以综合考虑多个因素对数据处理效果的影响。这有助于更全面地进行决策和优化。结合预测趋势和综合变量值，可以更迅速地做出实时决策，以应对不断变化的市场环境和客户需求。该方法将大量数据、模型性能和推理速度结合，有助于将决策过程更加数据驱动，减少主观性。综合考虑不同因素的方法能够提升决策的效率和精确性，更有可能选择最佳处理数据分类模型。

一种基于大数据的计算机数据处理系统，请参阅图1，包括大数据采集单元、相似度计算单元，第二数据采集单元、模型构建单元、分类模型评估单元、分类层次评价矩阵单元和趋势验证单元；

趋势验证单元，根据趋势上升预测系数qsxs的计算结果，验证趋势是否呈上升状态。

具体的，所述模型构建单元包括提取单元和测试数据集单元，所述提取单元用于提取第一数据库和第二数据库中的同商品的销售数据作为训练数据，并根据时间轴的方式提取同商品的增长销售数据作为市场趋势数据；所述测试数据集单元用于构建用于处理数据分类模型处理的测试数据集。

本实施例中，本系统帮助企业更好地分析和利用大数据，提高数据处理效率和正确率，优化销售策略，预测市场趋势，并做出更明智的业务决策。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大数据的计算机数据处理方法，其特征在于：包括以下步骤，

设置若干个API接口，获取在线服务社交媒体平台和电子商务平台的销售数据，计算当前企业和同类企业的相似度系数xsd，并将相似度系数xsd大于80%的同类企业设置为抓取目标，通过网络爬虫从企业网站抓取同类企业的实时销售数据和市场趋势数据，包括文本、图像和链接，并使用HTML解析器解析网页内容，将其转换为统一文本结构，建立第二数据库；

步骤四、构建分类层次评价矩阵，并获取不同推理时间/>，通过层次评价矩阵/>中数据分类模型集合/>的变量值；依据/>并验证趋势上升预测系数qsxs是否呈上升状态；

；

式中，L表示时间步，p是斜率，d是截距，斜率p表示趋势的上升程度，如果p为正，表示趋势上升，其值越大表示上升趋势越明显，如果p为负，表示趋势下降，则表示分类模型集合Y中的销售产品值不再预测上升状态，并基于当前企业同类商品获取预测销售数据;

对于每个同类企业，相似度计算方法来计算相似度系数xsd，并判断相似度系数是否大于80%；

所述相似度系数xsd通过以下公式计算获得：

；

其中，Hb表示为同类行业代码得分值，表示为企业地理位置得分值，CP表示为企业产品种类得分，Gm表示企业规模得分，通过人员总人数计算获得公司规模得分；w1、w2、w3和w4分别代表同类行业代码得分值Hb、企业地理位置得分值/>、企业产品种类得分CP和企业规模得分/>的权重值，且

，/>，/>，，C为常数修正系数；

从第一数据库和第二数据库中提取销售数据作为，标记目标标签，同时，根据时间轴的方式提取同商品的增长销售数据作为/>，作为市场趋势数据；

依据提取的商品特征和销售数据，构建训练集来训练处理数据分类模型，包括决策树、随机森林、支持向量机或神经网络其中的一种处理数据分类模型；

构建分类层次评价矩阵，并获取不同推理时间/>，通过层次评价矩阵/>中数据处理数据分类模型集合/>的变量值，用于量化标度，获得一致性比率：

；

表示为销售产品b第一时间轴模型推理时间计算的销售数据，表示为销售产品b第二时间轴模型推理时间计算的销售数据，/>表示为销售产品b第三时间轴模型推理时间计算的销售数据，/>表示为销售产品b第/>时间轴模型推理时间计算的销售数据；/>表示为销售产品c第一时间轴模型推理时间计算的销售数据，/>表示为销售产品c第二时间轴模型推理时间计算的销售数据，/>表示为销售产品c第三时间轴模型推理时间计算的销售数据，/>表示为销售产品c第/>时间轴模型推理时间计算的销售数据。

2.根据权利要求1所述的一种基于大数据的计算机数据处理方法，其特征在于：将企业的相似度系数xsd与标准阈值对比，大于80%的同类企业确定为抓取目标；

3.根据权利要求1所述的一种基于大数据的计算机数据处理方法，其特征在于：统计每一个处理数据分类模型在测试数据集中的分类结果，模型对因素的隶属度可由/>求得，/>代表测试样本中类别为i的样本数量，代表分类结果正确的样本数目，分类结果正确即输出落在/>区间，采用相同方法求出销售商品样本的非隶属度和犹豫度。

4.根据权利要求1所述的一种基于大数据的计算机数据处理方法，其特征在于：影响模型推理速度指标的因素为模型推理时间，影响模型推理速度指标的直觉模糊数计算方法如下：

；

5.根据权利要求1所述的一种基于大数据的计算机数据处理方法，其特征在于：使用层次分析法构建分类层次评价矩阵，在矩阵中，将不同处理数据分类模型、指标和因素进行比较，以确定不同处理数据分类模型、指标和因素的相对权重；

6.一种应用权利要求 1 所述的计算机数据处理方法的计算机数据处理系统，其特征在于：包括大数据采集单元、相似度计算单元，第二数据采集单元、模型构建单元、分类模型评估单元、分类层次评价矩阵单元和趋势验证单元；

7.根据权利要求6所述的一种基于大数据的计算机数据处理系统，其特征在于：所述模型构建单元包括提取单元和测试数据集单元，所述提取单元用于提取第一数据库和第二数据库中的同商品的销售数据作为训练数据，并根据时间轴的方式提取同商品的增长销售数据作为市场趋势数据；所述测试数据集单元用于构建用于处理数据分类模型处理的测试数据集。