CN115080698A - 基于大数据的招投标分析方法、系统、设备及存储介质 - Google Patents
基于大数据的招投标分析方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115080698A CN115080698A CN202210779405.4A CN202210779405A CN115080698A CN 115080698 A CN115080698 A CN 115080698A CN 202210779405 A CN202210779405 A CN 202210779405A CN 115080698 A CN115080698 A CN 115080698A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- information
- user
- bidding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 129
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000011664 signaling Effects 0.000 claims abstract description 23
- 238000011161 development Methods 0.000 claims description 68
- 238000012797 qualification Methods 0.000 claims description 49
- 238000007619 statistical method Methods 0.000 claims description 41
- 230000006399 behavior Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 12
- 230000008901 benefit Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 230000036772 blood pressure Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000036541 health Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了基于大数据的招投标分析方法、系统、设备及存储介质,所述基于大数据的招投标分析方法包括:获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中;对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签;基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端;本申请具有便于用户在参与招投标项目中取得优势的效果。
Description
技术领域
本申请涉及在线招投标的技术领域,尤其是涉及一种基于大数据的招投标分析方法、系统、计算机设备及存储介质。
背景技术
为了促进市场竞争,提高采购交易的公平性和经济效益,目前正广泛使用招投标的方式进行采购交易;而招投标的流程繁多,随着科技的发展,越来越多的招投标流程正使用线上招投标平台进行处理。
现有的招投标平台上存在着大量招投标信息,需要用户花费大量精力对众多招投标信息进行阅读和甄别,虽然一些招投标平台提供了筛选功能,以提高用户寻找招投标信息的效率;但仍然缺少通过对招投标信息的二次处理,便于用户从众多的招投标信息中找到符合自身条件和需求的商机的功能。
因此,针对上述相关技术,发明人认为存在缺少为用户参与招投标项目提高竞争力的增值服务的问题。
发明内容
为了便于用户在参与招投标项目中取得优势,本申请提供一种基于大数据的招投标分析方法、系统、计算机设备及存储介质。
本申请的发明目的一采用如下技术方案实现:
基于大数据的招投标分析方法,包括:
获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
通过采用上述技术方案,从互联网上获取公开的标讯数据,包括与招投标相关的公告文件,将获取到的标讯数据进行处理和分类后存储于标讯信息库中,便于后续根据实际需求从标讯信息库中调取标讯数据;将获取到的标讯数据进行标签提取处理,分析标讯数据的关键信息,从而得到各标讯数据对应的标讯标签,将标讯标签标记至对应的标讯数据上,便于后续从大量标讯数据中筛选和查找所需的标讯数据;根据标讯标签对标讯数据库中的标讯数据进行分类,以便对不同类别的标讯数据进行区分后再分别进行统计分析,根据统计分析的结果生成对应的商情分析报告;获取用户的标识信息以便得到用户的历史招投标信息和标讯查看记录等用户行为数据,便于分析用户的资质情况和偏好,以生成用户标签;根据用户标签从标讯信息库中为用户匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至用户端,从而便于用户在参与招投标项目中取得优势。
本申请在一较佳示例中:所述标讯信息库包括标签数据库,的步骤中,包括:
将标讯数据文本输入至训练好的标签提取模型中,对标讯数据文本进行自然语言处理和行业名词匹配,得到关键词信息;
对标讯数据进行文本正则匹配以得到参与单位信息和项目基础信息,所述参与单位信息是指标讯数据对应的所有参与单位的标识信息,所述项目基础信息包括项目金额、项目时间和项目地区;
基于关键词信息、参与单位信息和项目基础信息生成标讯标签并标记至对应的标讯数据上。
通过采用上述技术方案,将标讯数据文本输入至训练好的标签提取模型中,以便对标讯数据的文本进行自然语言处理,并将经自然语言处理后的文本进行行业名词匹配,从而得到文本中的关键词信息;对标讯数据的文本进行文本正则匹配,以便得到标讯数据文件所对应的参与单位信息即所有参与单位的标识信息,以及标讯数据文件所对应的项目基础信息即招标项目的项目金额、项目时间、项目地区;根据关键词信息、参与单位信息和项目基础信息生成标讯数据对应的标讯标签并标记至标讯数据上,便于后续根据实际需要从标讯数据库中检索和匹配所需的标讯数据。
本申请在一较佳示例中:所述关键词信息包括行业类别信息和业务类别信息,所述标讯标签包括行业标签和业务标签,基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告的步骤中,包括:
基于行业标签和业务标签对标讯数据库中的标讯数据进行行业分类和业务分类,提取各行业类别标讯数据和各业务类别标讯数据的项目基础信息;
对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,生成各行业以及各类业务的发展趋势报告。
通过采用上述技术方案,关键词信息包括行业类别信息和业务类别信息,且标讯标签包括行业标签和业务标签,根据行业标签和业务标签分别对标讯数据库中的标讯数据进行行业分类和业务分类,便于对不同类型的行业和不同类型的业务的标讯数据进行区分后分别再进行统计分析,以便针对性地分析各行业以及各类业务的发展趋势;提取各行业类别标讯数据和各业务类别标讯数据的基础项目信息,并对各行业类别标讯数据和各业务类别标讯数据的基础项目信息按照时间周期进行统计分析,以便通过数据客观反映各行业和各类业务的发展趋势,以生成各行业和各类业务的发展趋势报告,便于用户了解各行业和各类业务的发展趋势,为用户后续经营决策的作出提供数据参考。
本申请在一较佳示例中:所述标讯标签包括参与单位标签,基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告的步骤中,还包括:
基于参与单位标签对标讯数据库中的标讯数据进行分类,提取各参与单位对应的标讯数据的项目基础信息和关键词信息;
对各参与单位类别标讯数据的项目基础信息和关键词信息按照时间周期进行统计分析,生成各参与单位的发展趋势报告。
通过采用上述技术方案,标讯标签包括参与单位标签,以便根据参与单位标签对标讯数据库内的标讯数据进行分类,便于对各参与单位对应的标讯数据进行区分后分别再进行统计分析,以便针对性地分析各参与单位的发展趋势;提取各参与单位对应的标讯数据的基础项目信息,并对各参与单位对应的标讯数据的基础项目信息按照时间周期进行统计分析,以便通过数据客观反映各参与单位的发展趋势,以生成各参与单位的发展趋势报告,便于用户了解竞争对手的发展趋势,为用户后续经营决策的作出提供数据参考。
本申请在一较佳示例中:获取用户的身份信息,基于身份信息获取用户行为数据,生成对应的用户标签的步骤中,包括:
基于用户的注册信息,获取对应的标识信息,基于标识信息从互联网获取用户的资质信息,生成资质标签;
基于标识信息获取用户的历史招投标信息和标讯查看记录,根据历史招投标信息和标讯查看记录对应的标讯标签,生成偏好标签;
基于资质标签和偏好标签生成用户标签。
通过采用上述技术方案,调取用户的注册信息以得到用于确定用户具体身份的标识信息,便于根据用户的标识信息从互联网上获取用户的资质信息,基于用户的资质信息生成用户的资质标签,以便后续识别用户的资质情况;基于标识信息获取用户的历史招投标信息和标讯查看记录,便于判断用户参与过的招投标项目以及用户在查看标讯数据时的偏好,获取用户的历史招投标信息和标讯查看记录所对应的标讯标签,以生成偏好标签,便于后续判断用户的偏好情况;基于资质标签和偏好标签生成用户标签,以便后续基于用户标签为用户匹配符合用户自身条件和偏好的标讯数据和商情分析报告。
本申请在一较佳示例中:对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,生成各行业以及各类业务的发展趋势报告的步骤之后,还执行如下步骤:
基于用户的偏好标签和当前时间节点,预测对应的行业类别和业务类别在未来若干时间周期的保留业务量;
基于用户的偏好标签获取对应的行业类别和业务类别的中标公告和废标公告,预测对应的行业类别和业务类别在未来若干时间周期的投标饱和率,所述投标饱和率为投标人数量/招标数量×100%;
基于用户的偏好标签对应的行业类别和业务类别未来若干时间周期的保留业务量和投标饱和率生成决策分析报告。
通过采用上述技术方案,基于发送至用户的行业和/或业务的发展趋势报告所对应用户的偏好标签以及当前时间节点对相应的行业和业务进行分析,以对用户的偏好标签对应的行业类别和业务类别在未来若干个时间周期的保留业务量进行预测,便于用户获知所在行业、业务或用户关注的行业、业务的现存业务量;基于用户的偏好标签获取对应的行业类别和业务类别的中标公告和废标公告,便于统计该行业或业务的中标公告中公布的投标人数量,以及因投标人数量不足而导致的废标数量,以预测用户的偏好标签对应的行业类别和业务类别的投标饱和率;根据用户的偏好标签对应的行业类别和业务类别在未来若干时间周期的保留业务量和投标饱和率生成决策分析报告,便于用户根据保留业务量预估可参与招投标的机会数量和利润空间,并根据投标饱和率判断竞争烈度、确定报价策略,从而达到为用户后续经营决策提供数据参考的效果。
本申请在一较佳示例中:所述商情分析报告包括发展趋势报告和决策分析报告,所述偏好标签包括行业标签、业务标签、用户订阅的参与单位标签和为用户匹配的同类型单位的参与单位标签,基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端的步骤中,包括:
基于各用户的偏好标签从标讯信息库中匹配标讯数据、发展趋势报告和决策分析报告;
基于用户的选择的订阅服务信息将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,所述订阅服务信息包括标讯数据服务、行业发展趋势报告服务、业务发展趋势报告服务、参与单位发展趋势报告服务和决策分析报告服务。
通过采用上述技术方案,基于各用户的偏好标签从标讯信息库中匹配对应的标讯数据、发展趋势报告和决策分析报告,以根据用户的偏好标签找到对应的标讯数据、对应行业的发展趋势报告、对应业务的发展趋势报告和对应的参与单位的发展趋势报告,便于用户了解所在行业、所经营业务、感兴趣行业、感兴趣业务、同类型单位、用户所关注的单位或竞争对手单位的发展趋势,为用户后续经营决策的作出提供数据参考;根据用户选择的订阅服务信息将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,其中订阅服务信息包括标讯数据服务、行业发展趋势报告服务、业务发展趋势报告服务、参与单位发展趋势报告服务和决策分析报告服务,根据用户订阅的服务类型将相应的资料发送至用户端,一方面可以减少因频繁发送或大量发送资料至用户端对用户造成的打扰,另一方面也可以将订阅服务信息中包含的服务作为付费服务向用户供应,以实现更高的经济收入。
本申请在一较佳示例中:所述标讯数据包括招标公告、中标公告和废标公告,基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端的步骤中,还包括:
基于各用户的偏好标签从标讯数据库中匹配标讯数据,将匹配到的招标公告数量与预设的招标推送阈值进行对比,若招标公告数量大于招标推送阈值,则对匹配到的招标公告进行匹配度评价;
基于匹配度评价排名对标讯数据进行过滤,使过滤后的招标公告数量等于或小于招标推送阈值,将过滤后的招标公告发送至对应的用户端。
通过采用上述技术方案,标讯数据包括招标公告、中标公告和废标公告,基于用户的偏好标签从标讯数据库中匹配标讯数据,将匹配到的招标公告数量与预设的招标推送阈值进行对比,以判断向用户推送的招标公告是否过多;若招标公告数量大于招标推送阈值,则对匹配到的招标公告进行匹配度评价,以评价各招标公告与用户条件和偏好的匹配程度,根据匹配度评价结果的排名对招标公告进行过滤,使过滤后的招标公告数量等于或小于招标推送阈值,再将过滤后的招标公告发送至对应的用户端,以减少因为发送的招标公告数量过多导致用户难以从中找到最合适的交易机会的情况发生。
本申请的发明目的二采用如下技术方案实现:
基于大数据的招投标分析系统,包括:
标讯数据获取模块,用于获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
标讯标签生成模块,用于对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
商情分析模块,用于基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
用户标签生成模块,用于获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
资讯推送模块,用于基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
通过采用上述技术方案,从互联网上获取公开的标讯数据,包括与招投标相关的公告文件,将获取到的标讯数据进行处理和分类后存储于标讯信息库中,便于后续根据实际需求从标讯信息库中调取标讯数据;将获取到的标讯数据进行标签提取处理,分析标讯数据的关键信息,从而得到各标讯数据对应的标讯标签,将标讯标签标记至对应的标讯数据上,便于后续从大量标讯数据中筛选和查找所需的标讯数据;根据标讯标签对标讯数据库中的标讯数据进行分类,以便对不同类别的标讯数据进行区分后再分别进行统计分析,根据统计分析的结果生成对应的商情分析报告;获取用户的标识信息以便得到用户的历史招投标信息和标讯查看记录等用户行为数据,便于分析用户的资质情况和偏好,以生成用户标签;根据用户标签从标讯信息库中为用户匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至用户端,从而便于用户在参与招投标项目中取得优势。
本申请的发明目的三采用如下技术方案实现:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的招投标分析方法的步骤。
本申请的发明目的四采用如下技术方案实现:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的招投标分析方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1. 从互联网上获取公开的标讯数据,包括与招投标相关的公告文件,将获取到的标讯数据进行处理和分类后存储于标讯信息库中,便于后续根据实际需求从标讯信息库中调取标讯数据;将获取到的标讯数据进行标签提取处理,分析标讯数据的关键信息,从而得到各标讯数据对应的标讯标签,将标讯标签标记至对应的标讯数据上,便于后续从大量标讯数据中筛选和查找所需的标讯数据;根据标讯标签对标讯数据库中的标讯数据进行分类,以便对不同类别的标讯数据进行区分后再分别进行统计分析,根据统计分析的结果生成对应的商情分析报告;获取用户的标识信息以便得到用户的历史招投标信息和标讯查看记录等用户行为数据,便于分析用户的资质情况和偏好,以生成用户标签;根据用户标签从标讯信息库中为用户匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至用户端,从而便于用户在参与招投标项目中取得优势。
2. 将标讯数据文本输入至训练好的标签提取模型中,以便对标讯数据的文本进行自然语言处理,并将经自然语言处理后的文本进行行业名词匹配,从而得到文本中的关键词信息;对标讯数据的文本进行文本正则匹配,以便得到标讯数据文件所对应的参与单位信息即所有参与单位的标识信息,以及标讯数据文件所对应的项目基础信息即招标项目的项目金额、项目时间、项目地区;根据关键词信息、参与单位信息和项目基础信息生成标讯数据对应的标讯标签并标记至标讯数据上,便于后续根据实际需要从标讯数据库中检索和匹配所需的标讯数据。
3. 调取用户的注册信息以得到用于确定用户具体身份的标识信息,便于根据用户的标识信息从互联网上获取用户的资质信息,基于用户的资质信息生成用户的资质标签,以便后续识别用户的资质情况;基于标识信息获取用户的历史招投标信息和标讯查看记录,便于判断用户参与过的招投标项目以及用户在查看标讯数据时的偏好,获取用户的历史招投标信息和标讯查看记录所对应的标讯标签,以生成偏好标签,便于后续判断用户的偏好情况;基于资质标签和偏好标签生成用户标签,以便后续基于用户标签为用户匹配符合用户自身条件和偏好的标讯数据和商情分析报告。
附图说明
图1是本申请实施例一中基于大数据的招投标分析方法的流程图。
图2是本申请实施例二中基于大数据的招投标分析方法中步骤S30的流程图。
图3是本申请实施例三中基于大数据的招投标分析方法中步骤S50的流程图。
图4是本申请实施例四中基于大数据的招投标分析系统的结构图。
图5是本申请一实施例中的设备示意图。
具体实施方式
以下结合附图1至5对本申请作进一步详细说明。
实施例一
如图1所示,本申请公开了一种基于大数据的招投标分析方法,该方法可应用于电子招投标采购交易平台中,可为潜在的招标用户、投标用户和代理机构用户匹配商机,以及为各类用户经营决策的作出提供数据支持;具体包括如下步骤:
S10:获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库。
在本实施例中,标讯数据是指能够从互联网上获取到的公告文件,包括招标公告文件、中标公告文件和废标公告文件等。
具体的,通过标讯数据获取模块获取标讯数据,标讯信息获取模块内置有用于从互联网上采集数据的网络爬虫,通过网络爬虫从互联网上采集公开的标讯数据,具体是从各招投标平台网站和招投标公示网站上获取;标讯信息获取模块内置有四个监控子模块:
采集程序监控:用于进行网络爬虫日志分析,工作状态监测。
采集硬件监控:用于对服务器负荷、硬盘、CPU进行实时状态监测和故障预警。
数据监控:用于对采集的数据量进行多个维度的实时监测。
数据处理监控:用于监控每个周期采集到的重复数据的数量,标签处理数量,为采集频率的调整提供数据参考。
具体地,标讯信息库包括标讯数据库、标签数据库、企业信息库和专业词库,其中标讯数据库用于存储标讯数据,包括招标公告文件、中标公告文件、废标公告文件和更正公告文件等,标讯数据库内对标讯数据以招标项目的维度进行存储,例如,一个招标项目至少包括招标公告文件,若招标成功,则存在对应的中标公告文件,若招标失败,则存在对应的废标公告文件,若存在文件内容错误,则存在对应的更正公告文件,将属于同一招标项目的若干标讯数据一同存储,便于标讯数据的接收用户全方位地了解项目的具体情况;标签数据库用于存储根据标讯数据所生成的标讯标签或用户标签,企业信息库用于存储参与招投标的单位的信息,具体包括招标单位、投标单位和代理单位的信息;专业词库用于存储行业名词和检索词。
具体地,标讯数据采集后需要经过转化后存储,且后续需要对数据进行实时更新,具体包括:
数据采集:定义每个采集源的采集频率,采集源是指数据采集源头,在本实施例中,采集源可以是网站、应用程序、公众号等,采集频率是指采集源的数据更新频率,例如刷新页面以获取新的数据,以降低遗漏需采集的标讯数据的概率,优选的,采集频率可以根据采集源的数据更新频率所确定,以减少由于频繁采集到重复数据而导致存储设备负荷过大和鉴别过滤重复数据的工作量过大的情况发生;另外需要启用专用的网络爬虫程序,用于采集历史标讯数据,从而提高采集到的标讯数据的全面性;历史标讯数据是指在本申请的标讯信息获取模块开始对标讯数据采集工作之前就已经存在的标讯数据,例如,本申请中的标讯信息获取模块从2020年1月1日开始进行标讯数据的采集工作,则2020年1月1日之前就存在的标讯数据为历史标讯数据。
实时转化:通过调度分析引擎,对采集后的原始标讯数据进行过滤,过滤的对象为不完整、错误以及重复的标讯数据,由于单个招投标网站或招投标平台内的标讯数据均存在数据不全的情况,需要从多个招投标网站或招投标平台中采集数据才能提高采集到的标讯数据完整性,而从多个招投标网站或招投标平台中采集数据则又存在重复数据过多的情况,因而需要对标讯数据进行过滤,具体采用的是文本搜索判别的方式过滤重复数据,利用文本相似度搜索判断将同一个招标项目的招标公告与对应的中标公告或废标公告关联,并剔除重复的公告;将过滤后的标讯数据进行结构化数据转化,以将数据转化为统一的数据结构,具体地,数据结构具体为字符串或数值;对采集到的标讯数据和经处理后得到的标讯数据的结构化数据转化延时不超过2小时,当服务器负载过高时,通过集群、增加配置等手段保证数据处理的性能充足。
实时更新:转化后的标讯数据存储于标讯信息库中,通过标讯数据标题或编号更新对应的历史标讯数据,从而达到实时更新标讯信息库中的标讯数据的效果;针对标讯信息库的统计数据的更新周期为24小时。
S20:对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上。
在本实施例中,标签提取处理是指通过自然语言处理、文本正则匹配、关键词匹配等方式对文本进行处理,以提取关键词作为标签的算法。
具体的,获取到标讯数据后,对标讯数据进行标签提取处理,分析标讯数据文本内容的具体含义,便于根据标讯数据的内容判断该标讯数据的类型以生成标讯标签,将标讯标签标记至对应的标讯数据上,以便后续根据标讯标签匹配和检索标讯数据。
其中,在步骤S20中,包括:
S21:将标讯数据文本输入至训练好的标签提取模型中,对标讯数据文本进行自然语言处理和行业名词匹配,得到关键词信息。
在本实施例中,标签提取模型是指用于根据标讯数据的文本为标讯数据匹配对应的标签提取模型;自然语言处理是指对人类的语言进行语义识别,从而形成便于人与计算机之间交流通信的数据形式的数据处理方法。
具体的,标签提取模型内置有自然语言处理算法,将从互联网上获取的标讯数据输入至标签提取模型中,使标签提取模型进行机器学习,以训练标签提取模型对标讯数据的自然语言处理能力,具体包括对招标公告文件中行业分类、业务分类和公告结果类型的识别能力;定期对标签提取模型的识别准确率进行评估,以升级自然语言处理算法,从而提高识别准确率;直至标签提取模型的识别准确率达到合格标准;标签提取模型内置有专业词库的接口,以便用于将标讯数据文本与专业词库内的行业名词和检索词进行匹配。
具体地,将标讯数据文本输入至训练完成后的标签提取模型中,以对标讯数据文本进行自然语言处理,得到标讯数据对应的行业类别信息和业务类别信息;例如,将一段招标公告文本“第X人民医院血压检测仪设备采购公告”输入至标签提取模型,可通过自然语言处理算法自动识别出该招标公告属于医疗卫生行业,且属于血压检测仪的采购业务,关键词信息包括行业类别信息和业务类别信息;再将经过自然语言处理后的标讯数据文本与专业词库内的行业名词和检索词进行匹配,以得到“医疗卫生”、“ 血压检测仪”的关键词信息。
S22:对标讯数据进行文本正则匹配以得到参与单位信息和项目基础信息,参与单位信息是指标讯数据对应的所有参与单位的标识信息,项目基础信息包括项目金额、项目时间和项目地区。
在本实施例中,文本正则匹配是指通过关键字符的方式匹配特定内容的算法;参与单位信息是指参与了招标项目的相关单位的信息,包括单位的标识信息、资质信息和工商注册信息等,参与单位包括招标单位、投标单位、中标单位、代理单位;项目基础信息是指招标项目的基础信息,包括招标程序各环节的时间、项目金额和施工/交货地点等信息;标识信息是指用于确定招标单位具体身份的信息,包括单位名称信息、统一社会信用代码。
具体的,由于标讯公告文件通常具有特定的格式,例如:
“XX市XX区市政公用事业管理处XX城区东、南大街人行道改造铺装石材采购项目公开招标公告
项目预算金额:489万
采购单位:XX区市政公用事业管理处
项目地点:XX市XX区市政公用事业管理处酒泉城区东、南大街人行道
开标时间:20XX年04月30日上午09:00时(北京时间)
开标地点:XX市公共资源交易中心二楼开标厅
企业投标资质:
(1)企业提供营业执照(经营范围包含石材雕刻和异形加工)
(2)开标前5日查询结果时未被列入“信用中国”网站、“中国政府采购网”网站、“信用XX省”网站的失信记录名单。
(3)查询结果提供信用截图或是信用报告
(4)以开标前5天的查询结果为准备,若为外省企业可不提供“信用XX省”网站的查询结果。如相关失信记录已失效,需提供相关证明资料。”
对标讯数据进行文本正则匹配,便于得到标讯数据对应的招标项目的参与单位信息和项目基础信息,例如,使用文本正则匹配算法匹配“采购单位”,获取该字符串后面的文本信息即可得到招标单位的名称信息。
进一步地,由于各网站发布的标讯数据文件采用的格式和部分命名稍有区别,例如,对招标单位的命名有“招标人”、“招标单位”、“采购单位”等不同用词,在本实施例中,文本正则匹配算法还内置了同义词关联算法,便于使文本正则算法具备从来自不同网站的标讯数据文件进行识别的功能。
S23:基于关键词信息、参与单位信息和项目基础信息生成标讯标签并标记至对应的标讯数据上。
在本实施例中,标讯标签是指从标讯数据中提取了关键信息后生成的标签。
具体的,基于关键词信息、参与单位信息和项目基础信息生成标讯标签,其中标讯标签包括行业标签、业务标签、招标单位标签、中标单位标签、投标单位标签、代理单位标签、时间标签、金额标签、位置标签等,将标讯标签标记至对应的标讯数据上并一同存储于标讯数据库中,即标讯数据库中的每一条标讯数据均附带有标讯标签信息,便于后续根据实际需要从标讯数据库中检索和匹配所需的标讯数据。
具体地,将标讯标签转化成统一的标准数据结构并存储于标签数据库中,以便节约标讯标签的存储空间和简化对标讯标签的数据处理流程;标签数据库用于存放以及生成过的标签,便于后续对同义或近义的多个标签进行关联,例如,“螺钉”、“螺栓”和“螺丝”在日常使用中通常不作区分,将这三个标签进行关联,便于在后续检索和匹配的过程中能够更完整地匹配到相关标讯数据。
S30:基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告。
在本实施例中,商情分析报告是指基于对标签数据进行分类和统计后得到的用于为用户进行商情分析的报告。
具体地,基于标讯标签对标讯数据库中的所有标讯数据进行分类,并单独对每一类别的标讯数据进行统计分析,根据各类别标讯数据的统计分析结果分别生成商情分析报告,以便后续为用户的招投标行为提供商情分析支持,便于用户在参与招投标项目中取得优势。
S40:获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,用户行为数据包括历史招投标信息和标讯查看记录,用户标签包括资质标签和偏好标签。
在本实施例中,历史招投标信息是指用户曾经参与过的招投标项目的相关文件,包括招标公告文件、中标公告文件、废标公告文件、投标书等;标讯查看记录是指用户在应用了本申请的基于大数据的招投标分析方法的电子招投标采购交易平台对标讯数据的历史浏览记录;资质标签是指根据用户的所拥有的参与招投标的资质的类型所确定的标签;偏好标签是指根据用户层参与的招投标活动的情况和用户所感兴趣的招投标项目所确定的标签。
具体的,获取用户的标识信息以便确定用户的真实身份,便于根据用户的标识信息查询用户的资质情况,根据标识信息查询用户行为数据,基于用户行为数据判断用户的偏好情况,以便根据用户的资质情况和偏好情况生成用户标签;其中用户行为数据包括历史招投标信息和标讯查看记录,用户标签包括资质标签和偏好标签。
其中,在步骤S40中,包括:
S41:基于用户的注册信息,获取对应的标识信息,基于标识信息从互联网获取用户的资质信息,生成资质标签。
在本实施例中,资质信息是指用户所拥有的参与招投标项目的资质证明和用户的资信信息。
具体的,基于用户在本电子招投标采购交易平台的注册信息获取对应的标识信息,根据用户的标识信息从互联网查询用户的资质信息,包括用户的资产信息和信用信息,如工商注册信息、用户主动提交的流水信息,以及用户对各类招标项目的投标资质证明,还包括用户代理招投标项目的资质证明,基于用户的资产信息、信用信息、各类型投标资质证明、各类型招投标代理资质证明生成用户的资质标签,其中用户的各类型投标资质证明和各类型招投标代理资质证明既可以是直接从互联网上获取,也可以是根据用户所中标的招标项目和所代理过的招投标项目推断的,还可以是由用户主动填报的。
S42:基于标识信息获取用户的历史招投标信息和标讯查看记录,根据历史招投标信息和标讯查看记录对应的标讯标签,生成偏好标签。
具体的,基于标识信息从标讯数据库中获取对应的历史招投标信息,基于标识信息,通过个人推荐引擎收集用户在本电子招投标采购交易平台点击过的标讯数据,从而获取到标讯查看记录,从而判断用户参与过的招投标项目以及用户在查看标讯数据时的偏好,定期根据推送至用户的标讯数据的点击率,优化个人推荐引擎算法,以便在用户偏好发生变更时调整用户的偏好标签;根据用户的历史招投标信息和标讯查看记录所对应的标讯标签,以生成偏好标签,便于后续判断用户的偏好情况;例如,用户曾参与过“第X人民医院血压检测仪设备采购公告”的投标,则用户的偏好标签包括“医疗卫生”、“ 血压检测仪”,若用户曾查看过“XX公司关于X州市5G网络建设招标公告”,则用户的偏好标签包括“X州市”、“5G”;在本实施例中,偏好标签包括行业标签和业务标签。
S43:基于资质标签和偏好标签生成用户标签。
具体的,根据资质标签和偏好标签生成用户标签,便于后续根据用户标签为对应的用户推送符合用户自身条件和偏好的标讯数据;将用户标签转化成统一的标准数据结构并存储于标签数据库中,便于节约用户标签的存储空间和简化对用户标签的数据处理流程。
进一步地,将用户标签与用户的标识信息一同存储于企业信息库中,便于将用户的标识信息与用户标签对应起来。
S50:基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
具体的,基于用户标签从标讯信息库中匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端,以便匹配到符合用户自身条件和偏好的标讯数据,同时为用户提供商情分析,向用户推送标讯数据和商情分析报告,使用户能够在参与招投标项目中取得优势。
实施例二
如图2所示,在步骤S30中,包括:
S31:基于行业标签和业务标签对标讯数据库中的标讯数据进行行业分类和业务分类,提取各行业类别标讯数据和各业务类别标讯数据的项目基础信息。
具体的,根据行业标签和业务标签对标讯数据库中标讯数据进行行业分类和业务分类,例如,根据“医疗卫生”的行业标签获取标讯数据库中的所有属于“医疗卫生”行业的标讯数据,根据“血压检测仪”的业务标签获取标讯数据库中的所有属于“血压检测仪”业务的标讯数据;提取各行业类别标讯数据和各业务类别标讯数据的项目基础信息,例如,提取属于“医疗卫生”行业的所有标讯数据的项目基础信息;提取属于“血压检测仪”业务的所有标讯数据的项目基础信息,以便后续对“医疗卫生”行业和“血压检测仪”业务的发展趋势进行分析。
S32:对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,生成各行业以及各类业务的发展趋势报告。
在本实施例中,发展趋势报告是指用于展示各类别标讯数据所对应的行业、业务或企业的发展趋势的报告。
具体的,对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,根据最近一个时间周期的各行业以及各类业务的统计分析数据与过去若干时间周期的统计分析数据进行对比,从而得到对各行业和各类业务的发展趋势报告;优选的,以标讯数据文件的最早发出日作为判断该标讯数据所属周期的标准,对项目基础信息进行统计分析的时间周期为一个月,与最近一个时间周期的统计分析数据进行对比的统计分析数据的时间周期数量为23个以上,以便对最近一个时间周期的统计分析数据进行同比和环比分析;例如,在每月的首日对上月度“医疗卫生”行业的所有标讯数据的项目基础信息进行统计分析,并对上月度“血压检测仪”业务的所有标讯数据的项目基础信息进行统计分析,将本次的统计分析数据与过去23个时间周期的统计分析数据进行对比,以生成“医疗卫生”行业发展趋势报告和“血压检测仪”业务发展趋势报告。
具体地,某一行业发展趋势报告记录了该行业在过去若干时间周期中每一时间周期的业务量,某一业务发展趋势报告记录了该业务在过去若干时间周期中每一时间周期的业务量,在本实施例中,业务量是指在一个时间周期内该行业类别或业务类别的所有招标公告的项目金额的总和。
S33:基于参与单位标签对标讯数据库中的标讯数据进行分类,提取各参与单位对应的标讯数据的项目基础信息和关键词信息。
在本实施例中,参与单位标签包括招标单位标签、投标单位标签和代理单位标签。
具体的,根据参与单位标签对标讯数据库中标讯数据进行分类,例如,根据“A公司”的参与单位标签获取标讯数据库中所有标记有“A公司”标签的标讯数据;提取各参与单位对应的标讯数据的项目基础信息和关键词信息,例如,提取标记有“A公司”标签的所有标讯数据的项目基础信息和关键词信息,以便后续对A公司的发展趋势进行分析。
S34:对各参与单位类别标讯数据的项目基础信息和关键词信息按照时间周期进行统计分析,生成各参与单位的发展趋势报告。
在本实施例中,偏好标签包括用户订阅的参与单位标签和为用户匹配的同类型单位的参与单位标签。
具体的,对各参与单位类别标讯数据的项目基础信息和关键词信息按照时间周期进行统计分析,根据最近一个时间周期的针对各参与单位的统计分析数据与过去若干时间周期的统计分析数据进行对比,从而得到对各参与单位的发展趋势报告;优选的,以标讯数据文件的最早发出日作为判断该标讯数据所属周期的标准,对项目基础信息进行统计分析的时间周期为一个月,与最近一个时间周期的统计分析数据进行对比的统计分析数据的时间周期数量为23个以上,以便对最近一个时间周期的统计分析数据进行同比和环比分析;例如,在每月的首日对上月度标记有“A公司”标签的所有标讯数据的项目基础信息进行统计分析,将本次的统计分析数据与过去23个时间周期的统计分析数据进行对比,以生成A公司的发展趋势报告。
其中,在步骤S32之后,还执行如下步骤:
S321:基于用户的偏好标签和当前时间节点,预测对应的行业类别和业务类别在未来若干时间周期的保留业务量。
在本实施例中,保留业务量是指对某个行业或业务的未来某一时间周期所需的业务量的预测。
具体的,根据发送至用户的发展趋势报告以及当前时间节点,对用户偏好标签中的行业类别和业务类别在未来若干时间周期内的保留业务量,优选的,业务保留量以资金为量化标准进行估算,便于用户获知所在行业、业务或用户关注的行业、业务的现存业务量,以根据保留业务量预估可参与招投标的机会数量和利润空间。
S322:基于用户的偏好标签获取对应的行业类别和业务类别的中标公告和废标公告,预测对应的行业类别和业务类别在未来若干时间周期的投标饱和率,投标饱和率为投标人数量/招标数量×100%。
具体的,根据用户偏好标签中的行业标签和业务标签,获取行业标签和业务标签所对应的所有中标公告和废标公告,以便预测对应行业类别和业务类别在未来若干时间周期的投标饱和率,投标饱和率为投标人数量/招标数量×100%。
具体地,由于相关法律规定,参与投标的投标单位少于三家时,招标无效,需要废标,废标公告不公布实际参与投标的投标单位,因而发生废标时,实际参与该招标项目的投标单位数量可能为零家、一家或两家,优选的,将废标公告对应的投标单位的数量拟定为一家;由于相关法律规定,当招标项目选定中标单位后,需将中标单位和未中标单位公布,因而可以根据中标文件的文本获知实际参与该招标项目的投标单位数量。
具体地,当需要对某一行业在某一时间周期的投标饱和率进行计算时,获取该行业在该时间周期内所有中标公告和废标公告,以计算投标饱和率;例如,当需要计算医疗行业在某一时间周期的投标饱和率时,从标讯数据库中获取标记有“医疗行业”标签的所有中标公告和废标公告,若中标公告数量为40,且中标公告中平均投标单位数量为5,废标公告的数量为10,则医疗行业在该时间周期的投标饱和率=(40×5+10)÷(40+10)×100%=420%;投标饱和率越高,则竞争越激烈。
具体地,当需要对某一行业在未来若干时间周期的投标饱和率进行计算时,可以计算该行业在过去若干时间周期的投标饱和率的平均值作为该行业未来若干时间周期的投标饱和率的数值。
S323:基于用户的偏好标签对应的行业类别和业务类别未来若干时间周期的保留业务量和投标饱和率生成决策分析报告。
在本实施例中,决策分析报告是指基于对未来若干时间周期的保留业务量和投标饱和率的预测值而生成的报告。
具体的,基于用户的偏好标签对应的行业类别和业务类别未来若干时间周期的保留业务量和投标饱和率生成决策分析报告,便于用户根据保留业务量预估可参与招投标的机会数量和利润空间,并根据投标饱和率判断竞争烈度、确定报价策略,从而达到为用户后续经营决策提供数据参考的效果。
实施例三
如图3所示,在步骤S50中,包括:
S51:基于各用户的偏好标签从标讯信息库中匹配发展标讯数据、趋势报告和决策分析报告。
在本实施例中,商情分析报告包括发展趋势报告和决策分析报告;偏好标签包括行业标签、业务标签、用户订阅的参与单位标签和为用户匹配的同类型单位的参与单位标签。
具体的,根据各用户的偏好标签从标讯信息库中匹配标讯数据、发展趋势报告和决策分析报告,以根据用户的偏好标签找到对应的标讯数据、对应行业的发展趋势报告、对应业务的发展趋势报告和对应的参与单位的发展趋势报告,例如,当某用户的偏好标签中包括“医疗卫生”和“血压检测仪”,则为用户匹配“医疗卫生”行业发展趋势报告和“血压检测仪”业务行业发展趋势报告,便于后续根据用户的实际需求确定是否将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,以便该用户获得所关注的“医疗卫生”行业和“血压检测仪”业务的发展趋势。
S52:基于用户的选择的订阅服务信息将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,订阅服务信息包括标讯数据服务、行业发展趋势报告服务、业务发展趋势报告服务、参与单位发展趋势报告服务和决策分析报告服务。
具体的,根据用户选择的订阅服务信息将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,根据用户订阅的服务类型将相应的资料发送至用户端,一方面可以减少因频繁发送或大量发送资料至用户端对用户造成的打扰,另一方面也可以将订阅服务信息中包含的服务作为付费服务向用户供应,以实现更高的经济收入。
其中,在步骤S50中,还包括:
S53:基于各用户的偏好标签从标讯数据库中匹配标讯数据,将匹配到的招标公告数量与预设的招标推送阈值进行对比,若招标公告数量大于招标推送阈值,则对匹配到的招标公告进行匹配度评价。
在本实施例中,匹配度评价是指用于对匹配到的标讯数据的标讯标签与用户标签的匹配程度进行评价的算法。
具体的,由于标讯数据包括招标公告、中标公告和废标公告,基于用户的偏好标签从标讯数据库中匹配标讯数据,将匹配到的招标公告数量与预设的招标推送阈值进行对比,以判断向用户推送的招标公告是否过多;若招标公告数量大于招标推送阈值,则对匹配到的招标公告进行匹配度评价,以评价各招标公告与用户条件和偏好的匹配程度。
具体地,匹配度评价是根据标讯数据的标讯标签与用户标签匹配的个数为标准进行评价,某一标讯数据的标讯标签与用户标签匹配的数量越多,则认为该标讯数据与用户的匹配度越高。
S54:基于匹配度评价排名对标讯数据进行过滤,使过滤后的招标公告数量等于或小于招标推送阈值,将过滤后的招标公告发送至对应的用户端。
具体的,根据匹配度评价结果的排名对招标公告进行过滤,使过滤后的招标公告数量等于或小于招标推送阈值,再将过滤后的招标公告发送至对应的用户端,以减少因为发送的招标公告数量过多导致用户难以从中找到最合适的交易机会的情况发生。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例四
一种基于大数据的招投标分析系统,该基于大数据的招投标分析系统与上述实施例中基于大数据的招投标分析方法相对应。
如图4所示,基于大数据的招投标分析系统,包括标讯数据获取模块、标讯标签生成模块、商情分析模块、用户标签生成模块和资讯推送模块。各功能模块的详细说明如下:
标讯数据获取模块,用于获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
标讯标签生成模块,用于对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
商情分析模块,用于基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
用户标签生成模块,用于获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
资讯推送模块,用于基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
关于基于大数据的招投标分析系统的具体限定可以参见上文中对于基于大数据的招投标分析方法的限定,在此不再赘述;上述基于大数据的招投标分析系统中的各个模块可全部或部分通过软件、硬件及其组合来实现;上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以是以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标讯数据、标识信息、用户行为数据、用户标签、关键词信息、参与单位信息、项目基础信息、标讯标签、注册信息、发展趋势报告和决策分析报告等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于大数据的招投标分析方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
S10:获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
S20:对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
S30:基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
S40:获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
S50:基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
S10:获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
S20:对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
S30:基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
S40:获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
S50:基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.基于大数据的招投标分析方法,其特征在于:所述基于大数据的招投标分析方法的步骤包括:
获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
2.根据权利要求1所述的基于大数据的招投标分析方法,其特征在于:所述标讯信息库包括标签数据库,对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上的步骤中,包括:
将标讯数据文本输入至训练好的标签提取模型中,对标讯数据文本进行自然语言处理和行业名词匹配,得到关键词信息;
对标讯数据进行文本正则匹配以得到参与单位信息和项目基础信息,所述参与单位信息是指标讯数据对应的所有参与单位的标识信息,所述项目基础信息包括项目金额、项目时间和项目地区;
基于关键词信息、参与单位信息和项目基础信息生成标讯标签并标记至对应的标讯数据上。
3.根据权利要求2所述的基于大数据的招投标分析方法,其特征在于:所述关键词信息包括行业类别信息和业务类别信息,所述标讯标签包括行业标签和业务标签,基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告的步骤中,包括:
基于行业标签和业务标签对标讯数据库中的标讯数据进行行业分类和业务分类,提取各行业类别标讯数据和各业务类别标讯数据的项目基础信息;
对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,生成各行业以及各类业务的发展趋势报告。
4.根据权利要求2所述的基于大数据的招投标分析方法,其特征在于:所述标讯标签包括参与单位标签,基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的发展趋势报告的步骤中,还包括:
基于参与单位标签对标讯数据库中的标讯数据进行分类,提取各参与单位对应的标讯数据的项目基础信息和关键词信息;
对各参与单位类别标讯数据的项目基础信息和关键词信息按照时间周期进行统计分析,生成各参与单位的发展趋势报告。
5.根据权利要求3所述的基于大数据的招投标分析方法,其特征在于:获取用户的身份信息,基于身份信息获取用户行为数据,生成对应的用户标签的步骤中,包括:
基于用户的注册信息,获取对应的标识信息,基于标识信息从互联网获取用户的资质信息,生成资质标签;
基于标识信息获取用户的历史招投标信息和标讯查看记录,根据历史招投标信息和标讯查看记录对应的标讯标签,生成偏好标签;
基于资质标签和偏好标签生成用户标签。
6.根据权利要求5所述的基于大数据的招投标分析方法,其特征在于:对各行业类别标讯数据和各业务类别标讯数据的项目基础信息按照时间周期进行统计分析,生成各行业以及各类业务的发展趋势报告的步骤之后,还执行如下步骤:
基于用户的偏好标签和当前时间节点,预测对应的行业类别和业务类别在未来若干时间周期的保留业务量;
基于用户的偏好标签获取对应的行业类别和业务类别的中标公告和废标公告,预测对应的行业类别和业务类别在未来若干时间周期的投标饱和率,所述投标饱和率为投标人数量/招标数量×100%;
基于用户的偏好标签对应的行业类别和业务类别未来若干时间周期的保留业务量和投标饱和率生成决策分析报告。
7.根据权利要求6所述的基于大数据的招投标分析方法,其特征在于:所述商情分析报告包括发展趋势报告和决策分析报告,所述偏好标签包括行业标签、业务标签、用户订阅的参与单位标签和为用户匹配的同类型单位的参与单位标签,基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端的步骤中,包括:
基于各用户的偏好标签从标讯信息库中匹配标讯数据、发展趋势报告和决策分析报告;
基于用户的选择的订阅服务信息将匹配到的标讯数据、发展趋势报告和决策分析报告发送至用户端,所述订阅服务信息包括标讯数据服务、行业发展趋势报告服务、业务发展趋势报告服务、参与单位发展趋势报告服务和决策分析报告服务。
8.基于大数据的招投标分析系统,其特征在于,包括:
标讯数据获取模块,用于获取来自互联网的标讯数据,将标讯数据处理后分类存储于标讯信息库中,所述标讯信息库包括用于存放标讯数据的标讯数据库;
标讯标签生成模块,用于对获取的标讯数据进行标签提取处理,获取各标讯数据的标讯标签,将标讯标签标记至对应的标讯数据上;
商情分析模块,用于基于标讯标签对标讯数据库中的标讯数据进行分类和统计,基于各类别标讯数据的统计结果生成对应的商情分析报告;
用户标签生成模块,用于获取用户的标识信息,基于标识信息获取用户行为数据,生成对应的用户标签,所述用户行为数据包括历史招投标信息和标讯查看记录,所述用户标签包括资质标签和偏好标签;
资讯推送模块,用于基于用户标签匹配对应的标讯数据和商情分析报告,将匹配到的标讯数据和商情分析报告发送至对应的用户端。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于大数据的招投标分析方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于大数据的招投标分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779405.4A CN115080698A (zh) | 2022-07-01 | 2022-07-01 | 基于大数据的招投标分析方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779405.4A CN115080698A (zh) | 2022-07-01 | 2022-07-01 | 基于大数据的招投标分析方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080698A true CN115080698A (zh) | 2022-09-20 |
Family
ID=83258196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210779405.4A Pending CN115080698A (zh) | 2022-07-01 | 2022-07-01 | 基于大数据的招投标分析方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080698A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983468A (zh) * | 2022-12-30 | 2023-04-18 | 慕学星凡(成都)科技有限公司 | 一种基于大数据的信息预测分析方法及系统 |
CN116739646A (zh) * | 2023-08-15 | 2023-09-12 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615469A (zh) * | 2018-12-05 | 2019-04-12 | 贵阳高新数通信息有限公司 | 基于招标网站相关信息提取的管理系统及方法 |
CN109726327A (zh) * | 2018-12-14 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 一种信息推送方法和装置 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及系统 |
CN113345080A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种供应商画像建模方法及系统 |
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
-
2022
- 2022-07-01 CN CN202210779405.4A patent/CN115080698A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615469A (zh) * | 2018-12-05 | 2019-04-12 | 贵阳高新数通信息有限公司 | 基于招标网站相关信息提取的管理系统及方法 |
CN109726327A (zh) * | 2018-12-14 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 一种信息推送方法和装置 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及系统 |
CN113345080A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种供应商画像建模方法及系统 |
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983468A (zh) * | 2022-12-30 | 2023-04-18 | 慕学星凡(成都)科技有限公司 | 一种基于大数据的信息预测分析方法及系统 |
CN116739646A (zh) * | 2023-08-15 | 2023-09-12 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析系统 |
CN116739646B (zh) * | 2023-08-15 | 2023-11-24 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10896203B2 (en) | Digital analytics system | |
US9305278B2 (en) | System and method for compiling intellectual property asset data | |
US6665656B1 (en) | Method and apparatus for evaluating documents with correlating information | |
CN115080698A (zh) | 基于大数据的招投标分析方法、系统、设备及存储介质 | |
CN111915366B (zh) | 一种用户画像构建方法、装置、计算机设备及存储介质 | |
CN109767322A (zh) | 基于大数据的可疑交易分析方法、装置和计算机设备 | |
KR20050115238A (ko) | 데이터 통합 방법 | |
CN104781837A (zh) | 用于通过使用基于事件的情绪分析来形成预测的系统和方法 | |
SZYMANSKI* et al. | ISO 14001 and the reduction of toxic emissions | |
CN115423578B (zh) | 基于微服务容器化云平台的招投标方法和系统 | |
CN110288451B (zh) | 一种财务报销方法、系统、设备及存储介质 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112035642A (zh) | 客服匹配方法、装置、设备及存储介质 | |
US20040133508A1 (en) | Gaming industry risk management clearinghouse | |
CN110544023A (zh) | 一种企业区域性贡献力的数据化评估系统及其评估方法 | |
Haraldsen et al. | Understanding and coping with response burden | |
Osei-Kyei et al. | Review of risk management studies in public-private partnerships: a scientometric analysis | |
US20020198725A1 (en) | Method and system for managing a relationship with a venture company | |
JP2003528397A (ja) | 証券格付けシステム | |
KR20020005534A (ko) | 전자입찰을 위한 입찰정보관리시스템 및 상기 시스템을이용한 입찰 서비스 제공방법 | |
CN1588405A (zh) | 用于风险控制系统的数据处理装置及方法 | |
CN112669073A (zh) | 一种用户留存预测方法、装置、电子设备及存储介质 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
Kwan et al. | Managerial Learning from Decoding Noisy Stock Prices: New (s) Evidence | |
JP7452801B2 (ja) | 評価支援システム及び評価支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220920 |