CN116737969A - 测评机构市场竞争特征数据的处理方法、装置及终端设备 - Google Patents
测评机构市场竞争特征数据的处理方法、装置及终端设备 Download PDFInfo
- Publication number
- CN116737969A CN116737969A CN202311006663.XA CN202311006663A CN116737969A CN 116737969 A CN116737969 A CN 116737969A CN 202311006663 A CN202311006663 A CN 202311006663A CN 116737969 A CN116737969 A CN 116737969A
- Authority
- CN
- China
- Prior art keywords
- data
- project
- bidding
- item
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 96
- 238000003672 processing method Methods 0.000 title description 6
- 238000011156 evaluation Methods 0.000 claims abstract description 148
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000004140 cleaning Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000012800 visualization Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 6
- 238000010926 purge Methods 0.000 claims description 4
- 238000005406 washing Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 21
- 230000018109 developmental process Effects 0.000 description 20
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000007689 inspection Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请适用于数据处理技术领域,提供了测评机构市场竞争特征数据的处理方法、装置及终端设备。该方法包括:采集测评机构的多条投标项目数据;根据测评机构名称、项目公告日期、项目名称、采购人和供应商对投标项目数据进行第一清洗去重处理;计算投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理;确定清洗去重处理后的投标项目数据对应的项目类型和所属行业,将项目类型、所属行业和投标项目对应的技术特征作为投标项目数据的关键词;根据投标项目数据和关键词确定测评机构之间的市场竞争特征并可视化展示。本申请能够确定测评机构之间的市场竞争特征,从而为测评机构行业的发展提供参考信息。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及测评机构市场竞争特征数据的处理方法、装置及终端设备。
背景技术
随着科学技术的迅速发展,测评机构(例如网络安全等级测评与检测评估机构)越来越多,测评机构所属的行业也越来越广泛。众多的测评机构之间存在着相互竞争的关系,如何确定测评机构之间的市场竞争关系来为行业发展提供信息参考,是一个需要解决的重要问题。
发明内容
为克服相关技术中存在的问题,本申请实施例提供了测评机构市场竞争特征数据的处理方法、装置及终端设备,能够确定测评机构之间的市场竞争关系并进行可视化展示,从而为测评机构行业的发展提供参考信息。
本申请是通过如下技术方案实现的:
第一方面,本申请实施例提供了一种测评机构市场竞争特征数据的处理方法,包括:
采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额;
根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理;
计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理;
确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词;
根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
上述测评机构市场竞争特征数据的处理方法,首先根据投标项目数据中的测评机构名称、项目公告日期、项目名称、采购人和供应商对投标项目数据进行第一清洗去重处理,再计算投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理。之后,确定清洗去重处理后的投标项目数据对应的项目类型和所属行业,根据投标项目数据、项目类型、所属行业和投标项目对应的技术特征来确定测评机构之间的市场竞争特征,并将市场竞争特征进行可视化展示,从而为测评机构行业的发展提供参考信息。
结合第一方面,在一些实施例中,所述根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理,包括:
对于两条投标项目数据,若所述测评机构名称、所述项目名称、所述采购人和所述供应商相同,计算项目公告日期之间的时间间隔,若所述时间间隔小于时间间隔阈值,则将该两条投标项目数据作为一条投标项目数据;
对于两条投标项目数据,若所述测评机构名称、所述项目名称和所述供应商相同且所述采购人缺失,计算项目公告日期之间的时间间隔;若所述时间间隔小于时间间隔阈值,且两条投标项目数据的中标金额相同,则将该两条投标项目数据作为一条投标项目数据。
结合第一方面,在一些实施例中,所述计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理,包括:
对所述多条投标项目数据中的项目名称进行分词,并将同义词和近义词进行统一化处理,得到多个特征词;
将所述多个特征词转换为词向量;
将所述词向量输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度;
若所述测评机构、所述采购人和所述供应商均相同,且所述项目公告日期之间的时间间隔小于时间间隔阈值,则将项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据;
若所述测评机构和所述供应商均相同,所述项目公告日期之间的时间间隔小于时间间隔阈值,且所述中标金额缺失,则将所述项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据。
结合第一方面,在一些实施例中,所述将所述多个特征词转换为向量数据,包括:使用Corpora中的Doc2bow方法将所述多个特征词转换为文档向量,所述文档向量中包含多个词向量;
所述将所述向量数据输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度,包括:通过TF-IDF模型对所述文档向量进行TF-IDF特征抽取,得到特征向量;使用Similarities中的Sparse Matrix Similarity方法,将语料库转换成稀疏矩阵,根据所述稀疏矩阵计算每个特征向量之间的余弦相似度,得到各条投标项目数据之间项目名称的相似度;
所述将相似度大于相似度阈值的投标项目数据作为同一条投标项目数据,包括:对余弦相似度大于相似度阈值的各条投标项目数据,保留项目公告时间日期最早的一条投标项目数据,删除其他投标项目数据。
结合第一方面,在一些实施例中,确定清洗去重处理后的所述多条投标项目数据对应的项目类型的过程,包括:
提取每条投标项目数据中能够表征项目类型的类型关键词;
将各条投标项目数据的类型关键词中的同义词和近义词进行统一化处理,得到所述多条投标项目数据对应的项目类型的类型关键词。
结合第一方面,在一些实施例中,确定清洗去重处理后的所述多条投标项目数据对应的所属行业的过程,包括:
获取样本集,所述样本集包含多条已标注所属行业的投标项目数据;
将所述样本集中的投标项目数据进行分词,并将分词得到的文本信息转换为特征向量;
将所述样本集划分为训练样本集和测试样本集;
根据所述训练样本集的特征向量对SVM模型进行训练,并对所述测试样本集进行行业预测,直至达到预设条件,保存训练后的SVM模型;
将清洗去重处理后的所述多条投标项目数据输入到训练后的SVM模型,得到各条投标项目数据对应的所属行业。
结合第一方面,在一些实施例中,所述根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示,包括:
将所述多条投标项目数据和所述关键词转换为文献计量学可视化工具要求的目标格式的数据;
将所述目标格式的数据输入文献计量学可视化工具中,得到测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
第二方面,本申请实施例提供了一种测评机构市场竞争特征数据的处理装置,包括:
数据采集模块,用于采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额;
第一清洗去重模块,用于根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理;
第二清洗去重模块,用于计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理;
类型行业确定模块,用于确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词;
竞争展示模块,用于根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
第三方面,本申请实施例提供了一种终端设备,包括存储器和处理器,所述存储器中存储有、可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的测评机构市场竞争特征数据的处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的测评机构市场竞争特征数据的处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的测评机构市场竞争特征数据的处理方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的测评机构市场竞争特征数据的处理方法的示意性流程图;
图2是本申请一实施例提供的各年份测评机构数量分布统计图;
图3是本申请一实施例提供的全国测评机构区域数量分布统计图;
图4是本申请一实施例提供的2010年-2022年我国测评机构项目数量分布统计图;
图5(a)和图5(b)是本申请一实施例提供的2010年-2016年以及2017年-2022年全国测评机构市场竞争关系共现图;
图6(a)和图6(b)是本申请一实施例提供的2010年-2016年以及2017年-2022年全国测评机构市场竞争特征(投标项目类型)密度图;
图7(a)和图7(b)是本申请一实施例提供的2010年-2016年以及2017年-2022年全国测评机构市场竞争特征(投标项目行业)共现图;
图8(a)和图8(b)是本申请一实施例提供的2010年-2022年某省份测评机构市场竞争关系及市场竞争特征共现图;
图9是本申请实施例提供的测评机构市场竞争特征数据的处理装置的结构示意图;
图10是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1是本申请一实施例提供的测评机构市场竞争特征数据的处理方法的示意性流程图,参照图1,对该测评机构市场竞争特征数据的处理方法的详述如下:
步骤101,采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额。
示例性的,测评机构的投标项目数据的主要字段可以包括序号、测评机构、资质时间、项目公告日期、项目名称、项目地区、采购人、供应商(中标商)、中标金额等。
步骤102,根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理。
示例性的,投标项目数据中的测评机构名称:对于更名的机构,可以根据认证证书编号进行规范化。投标项目数据中的项目名称:对于不同媒体公告的项目名称,有的增加了项目编号,有的增加招标代理人名称等混杂信息的,需要进行规范化和统一。投标项目数据中的采购人:对于空白的采购人信息,可以根据项目名称出现的相关信息进行填充;对于无法从项目名称中提取有效信息的情况,可以填充为“无”等特定值。投标项目数据中的供应商名称:对于前面带有“第一包”、“A包”、“标段一”、“第一名”等描述信息的名称,需要进行规范化处理;对于出现错别字或简称等情况,需要进行相应的更正和识别。供应商为投标项目的中标供应商,但供应商不一定是投标人。
示例性的,步骤102可以包括:
对于两条投标项目数据,若所述测评机构名称、所述项目名称、所述采购人和所述供应商相同,计算项目发布时间的时间间隔,若所述时间间隔小于时间间隔阈值,则将该两条投标项目数据作为一条投标项目数据;
对于两条投标项目数据,若所述测评机构名称、所述项目名称和所述供应商相同且所述采购人缺失,计算项目公告日期之间的时间间隔;若所述时间间隔小于时间间隔阈值,且两条投标项目数据的中标金额相同,则将该两条投标项目数据作为一条投标项目数据。
例如,投标项目的公告日期之间相差3个月内的两条投标项目数据,若“测评机构、项目名称、采购人和供应商”均相同,则将两条投标项目数据视为重复记录。
又例如,若两条投标项目数据中的“测评机构、项目名称、采购人和供应商”均相同,但公告日期分别为2020年和2021年,根据等级测评项目的周期性(第三级系统每年测评一次,第二级系统两年测评一次),将两条投标项目数据视为两条记录,不视为重复记录。
又例如,两条投标项目数据的公告日期之间相差3个月内,两条投标项目数据的“测评机构、项目名称、采购人和供应商”中,采购人缺失但中标金额相同的,则将两条投标项目数据视为重复记录。
又例如,两条投标项目数据的公告日期之间相差3个月内,两条投标项目数据的“测评机构、项目名称、采购人和供应商”中,采购人缺失,且两条投标项目数据的中标金额也缺失,则将两条投标项目数据视为重复记录。
又例如,对于四川、陕西地区的履约验收公告,部分时间间隔大约在1年左右,而对于内蒙古地区的部分履约数据,时间间隔达到了两年,在这种情况下,需要对项目公告日期的时间间隔阈值调整,然后再进行去重处理。
步骤103,计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理。
示例性的,步骤103可以包括:
对所述多条投标项目数据中的项目名称进行分词,并将同义词和近义词进行统一化处理,得到多个特征词;
将所述多个特征词转换为向量数据;
将所述向量数据输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度;
若所述测评机构、所述采购人和所述供应商均相同,且所述项目公告日期之间的时间间隔小于时间间隔阈值,则将项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据;
若所述测评机构和所述供应商均相同,所述项目公告日期之间的时间间隔小于时间间隔阈值,且所述中标金额缺失,则将所述项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据。
其中,上述将所述多个特征词转换为向量数据,可以包括:使用Corpora中的Doc2bow方法将所述多个特征词转换为文档向量。
上述将所述向量数据输入TF-IDF模型,确定所述多条投标各条投标项目数据之间的相似度,可以包括:通过TF-IDF模型对所述文档向量进行TF-IDF特征抽取,得到特征向量;使用Similarities中的Sparse Matrix Similarity方法,将语料库转换成稀疏矩阵,根据所述稀疏矩阵并计算每个特征向量之间的余弦相似度,得到各条投标项目数据之间项目名称的相似度。
上述将相似度大于相似度阈值的投标项目数据作为同一条投标项目数据,可以包括:对余弦相似度大于相似度阈值的各条投标项目数据,保留项目公告日期最早的一条投标项目数据,删除其他投标项目数据。
一个项目的中标公告常常会在两个或两个以上的平台或媒体上发布,导致在采集数据时会出现数据重复的情况。而且,不同的媒体发布公告的时间也不同,因此需要对数据进行去重。还有,同一项目的中标信息也会发布多次,比如,“中标候选人公告”一次,然后是“中标结果公告”一次、“合同公告”再发布一次等,都需要进行合并去重。除了这些客观因素造成数据的大量重复,媒体发布公告信息的不规范性也增加了数据清洗和去重的工作量。
具体的,对经过步骤102处理后的投标项目数据,可以首先加载停用词表,将投标项目数据中的停用词去除。之后,加载同义词词典,将投标项目数据中的同义词和近义词进行统一化处理。例如,可以将“中标公告”、“中标候选人公示”、“中标结果公示”、 “中标结果公告”、 “中标公示”、“投标结果公示”、“合同公告”、“合同公示”、“成交结果公示”等这些近义词和同义词进行统一化处理,统一用“中标公告”表示。
之后,可以使用Gensim库中的Dictionary方法来创建字典,使用Corpora中的Doc2bow方法将词向量映射到文档向量中。接着,使用Models中的TfidfModel方法对文档向量中的词向量进行TF-IDF特征抽取处理,生成特征向量。最后,通过使用Similarities中的Sparse Matrix Similarity方法,将语料库转换成一个稀疏矩阵,并根据该稀疏矩阵计算每个特征向量之间的余弦相似度。最终,对于余弦相似度大于0.9的投标项目数据(具体可以为投标项目数据中的项目名称,也可以为项目名称和采购人等),可以保留最近的项目公告日期对应的投标项目数据,并删除其余条目。
步骤104,确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词。
采集的测评机构的投标项目数据可以包含测评机构名称、项目公告日期、项目名称、项目地区、采购人、供应商和中标金额等,没有文献材料的那种“关键词”,本实施例中需要从投标项目数据中提取“关键词”,有了关键词就可以借助VOSviewer软件实现测评机构分地区、分行业、分类型多维度组合分析。
而中标金额是评价测评机构业绩的重要指标之一,但是,在采集测评机构投标项目数据时,中标商并不完全是测评机构自己。此外,发布的公告信息中,中标金额的单位并不统一,有的以万元为单位,有的以元为单位,而且有的未显示金额,这使得无法进行有效的汇总和统计,因此没有选作研究维度。
基于这一目标,需要两个技术支撑:一是从投标项目数据中提取出关键词(即步骤104中的项目类型和所属行业);二是将投标项目数据转换为VOSviewer可用的分析文件。
示例性的,确定清洗去重处理后的所述多条投标项目数据对应的项目类型的过程,可以包括:提取每条投标项目数据中能够表征项目类型的类型关键词;将各条投标项目数据的类型关键词中的同义词和近义词进行统一化处理,得到所述多条投标项目数据对应的项目类型的类型关键词。
对于从项目名称中直接抽取能够充分揭示或表征项目类型的词汇,抽取完成后,需要对同义词进行归并,如“等级保护测评”、“等保测评”等归并为“等级测评”,“商用密码安全性测评”和“密码评估”、“密码测评”等归并为“密评”等。共抽取归并为56种项目类型,划分为四大类:
(1)信息化服务类:平台项目、设备采购、信息化监理、运维服务、升级改造、密码整改等;
(2)网络安全服务类:等级测评(含第三方测评、安全技术服务、密评、风险评估、安全防护评估、验收测评、软件测试、密码方案评估等);
(3)工程服务类:抽查检验检测、环评报告、工程监理、工程监测、勘察设计等;
(4)其他服务类:信息传输服务、调查研究、媒体合作等。
在实际项目中,同一投标项目数据可能同时属于几种不同的项目类型。值得注意的是,本实施例中可以从项目名称字样中抽取项目类型,未对项目类型的预期进行修正或进一步的补充判断,比如“平台项目”这个类型,属于系统集成类项目(测评机构是不允许从事系统集成类项目的)。对于无法从项目名称中判断类别的项目,将项目类型定义为“无”。
本实施例中,可以通过SVM模型,或BERT模型和SVM模型确定清洗去重处理后的所述多条投标项目数据对应的所属行业。
机器学习的一般流程是:对已知行业类型数据集A(投标项目数据)进行模型训练,使用训练好的模型预测另一数据集B的行业类型。目前的数据集A,可以是从相关网站采集的测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额等投标项目数据,并没有项目所属行业这个字段。那么,要训练模型,需要手工标注数据集A的行业类型。本实施例选取了中关村信息安全测评联盟(以下简称“测评联盟”)代表性的地方测评机构5526条记录(作为数据集A)进行手工标记。将标记了项目所属行业的5526条记录进行二八分,即使用4421(5526×80%)条数据进行模型训练,使用1105(5526×20%)条数据进行模型验证。
具体的,手工标注过程:选择测评联盟第二届副理事长单位的7家“地方”测评机构的5526条投标数据,依据“信息系统安全等级保护备案表”的行业类别,进行手工行业标注,共有47种行业划分,归并为四大类:
①政府机构类:政务服务、公安、自然资源、市场监督、法院、住建、人社、财政、司法、水利、环保、农业、发展改革、检察院、税务、审计等;
②社会事业类:卫生、市政、广电、邮政、公共交通、消防救援、文旅、智慧城市等;
③行业企业类:电力、电信、交通、能源、烟草、金融证券、铁路、民航、工业制造等;
④教育科研类:教育、科技等。
模型训练和预测过程:获取样本集,所述样本集包含多条已标注所属行业的投标项目数据样本;将所述样本集中的投标项目数据进行分词,并将文本信息转换为特征向量;将样本集划分为训练集样本和测试集样本;输入所述训练集样本,训练SVM模型,并对测试集样本进行行业预测,查看模型评估指标,调参后达到预设效果,保存训练好的模型;将清洗去重处理后的所述多条投标项目数据输入训练好的SVM模型,得到各条投标项目数据对应的所属行业。
另外,可以将投标项目对应的技术特征以及上述项目类型和所属行业作为投标项目数据的关键词,来研究测评机构之间的市场竞争关系。
步骤105,根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
在科学计量学、数据可视化等领域方面,各界学者开发了Citespace、VOSviewer、Histcite、Bibexcel、ITginsight等用于知识图谱和文献计量分析的软件,把复杂的知识领域通过数据挖掘、信息处理、知识计量绘制成可视化的知识图谱,揭示知识领域的动态发展规律。VOSviewer 在概率论的思想下对文本之间的共现高频词进行归一化处理,适合大规模数据,本研究选择使用VOSviewer软件,对测评机构、资质时间、项目公告日期、项目名称、项目地区、信息类型、采购人、供应商、中标金额等数据,结合python语言对其进行分析,并以“作者”、“关键词”为节点类型,展示其共现图和热力图,并解读分析。
一些实施例中,步骤105可以包括:将所述多条投标项目数据和所述关键词转换为文献计量学可视化工具要求的目标格式的数据,例如Refworks格式的数据;将所述目标格式的数据输入到文献计量学可视化工具中,例如VOSviewer软件,得到测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。其中,Refworks格式如表1所示。
表1 Refworks格式
以测评机构“广东162”的一条投标项目数据为例,经“关键词”抽取、Refworks格式转换后的数据为:
RT 广东162
A1 广东162;湖南155;
T1 长沙市消防救援支队长沙市“智慧消防”一期建设项目--第三方评测服务中标公告
JF 长沙市消防救援支队
YR 2022/12/30
OP 84638
K1 广东162;第三方测评/广东162;消防救援。
共现分析是对投标项目数据的特征项(如测评机构之间的市场竞争特征)共同出现现象的定量研究,特征项之间的共现频次越高,其关联程度越强,VOSviewer中采用特征项共现绝对频次代表关联强度。VOSviewer 运用的关联强度的公式为,C ij为项目i和j共现的总次数,W i和W j是指项目i和j各自出现的总次数,S ij表示项目i和项目j的相似度。
VOSviewer图谱绘制技术的目标是:构建一个二维的图谱,图谱每两个节点间的距离尽可能准确地表示它们特征的相似度S ij。VOSviewer图谱聚类的思想是最小化所有特征对的欧几里得的平方距离的加权和。为了避免图谱中所有节点的位置一样,对所有特征进行了以下约束:两个特征间的平均距离必须等于1,对应公式为,向量/>代表一个二维知识图谱上特征i的位置,|| * ||表示欧几里德标准。目标函数的极小服从以下约束条件/>。
以下对全国各地的测评机构进行具体分析。
图2为各年份测评机构数量分布情况统计图,图3为全国测评机构区域数量分布统计图。项目数量能客观反映出测评机构的经营状况和市场发展变化,能够帮助识别等级测评行业的发展阶段和未来发展趋势。
2010年至2022年,项目数量共计42574个。测评机构的发展可分为两个阶段,即起步阶段(2010年至2016年)和发展阶段(2017年至2022年),如图4所示。
测评机构项目数量占比排名前10位的地区,在2010年至2016年起步阶段,项目数量较少,全国仅975个,绝大多数测评机构在本省范围内开展业务。
在2017年年至2022年发展阶段,项目数量猛增为41599个,是起步阶段的43倍。山东、广东测评机构的项目数量居多,占全国测评机构项目数量的比重分别为12%、11%,四川、浙江占比约为9%、8%;浙江、广东、四川、江苏、山东等地发展基础良好,初步形成了地区均衡发展之势;重庆、吉林、河北、安徽等地发展势头较好,存在较大发展空间。该阶段测评机构在全国范围内开展业务的普遍较多。由此可以看出,等级测评行业迎来了高速增长机遇,等级测评行业将得到爆发式增长。
测评机构的市场竞争关系认定:以A测评机构为种子采集的投标项目数据,结果供应商是B机构,则认为A、B测评机构之间存在市场竞争关系。运用VOSviewer软件对测评机构项目信息制成共现图进行可视化分析市场竞争关系。
在VOSviewer中,节点的大小表示测评机构的项目数量。两个节点之间的距离表示两个节点(测评机构)之间的关联度或者相似度。两个节点之间的距离越短,说明两个节点之间的相似度越高,或者两个节点之间的关联度越紧密;距离越长,说明两个节点之间的相似度越低,或者两个节点之间的关联度越不紧密。两个节点之间连线的粗细表示两个测评机构之间的联系强度。两个节点之间的线条越粗,说明两个测评机构之间的关联度越紧密,也就是两个机构的投标数目越相似。节点的颜色(灰度)代表测评机构所属的簇类,不同的簇类用不同的颜色(灰度)表示。密度可视化视图为:项目密度可视化中的每个点都有一个颜色(灰度),指示该点处项目的密度,灰度越大,密度越大。
1、竞争网络
运用VOSviewer软件对项目信息制成“作者”共现图进行可视化分析测评机构之间的市场竞争特征,划分为2010年至2016年和2017年至2022年两个阶段,过滤标准为节点的出现频次≥3,节点度分别占总节点的28%、24%。
由图5(a)可知,2010年至2016年测评机构之间的网络连接较为稀疏,多是省内竞争,市场竞争相对较小。网络分别以吉林082为中心,以山东134为中心、以四川178为中心、辽宁077为中心的竞争较明显。其中,吉林082中的“吉林”表示测评机构所在的省份,吉林082中的“082”为测评机构的认证证书编号的后三位,以此来表示测评机构。但从整体图谱来看,测评机构之间的竞争占比并不高,大部分测评机构是“独行状态”,竞争对手基本为本省内的测评机构。因此,通过市场竞争特征的可视化图谱可以看出,跨地区的市场业务还没有开展,随着等级保护工作的推进,跨地区的市场竞争蓄势待发。
由图5(b)可知,2017年至2022年测评机构之间的网络连接复杂,全国范围的网络连接较多,测评机构之间的竞争从省内开始走向全国,针对某一个项目的招标除了省内多家测评机构参与竞争外,外地测评机构涌入竞争的趋势越来越明显,全国范围的市场竞争网络正在加速构建。
测评机构项目数量是其企业实力的体现,通常测评机构的市场能力越强,其项目数量越多。从项目数量统计(表2)来看,我国测评机构项目数量排名前10的测评机构,2010年至2016年共实施项目数量535个,占项目总量的55%;2017年至2022年项目数量是12134,占项目总量的29%,由此可见,我国测评市场开始多元化,市场竞争进入百花齐放的阶段。
表2 项目数量排名前10测评机构及实施的外地项目数量占比
2010年至2016年前10名的测评机构在本省实施的项目数量较多,而2017年至2022年测评机构在外地开展业务较为普遍。对比分析2010年至2016年和2017年至2022年的测评机构排名,发现辽宁077、山东134、广东158和吉林083的项目数量一直稳居前列,这几家测评机构获取资质时间较早,开展业务时间长,而且测评师数量相对较多,等级测评业务一直占很大的比重,都是专精特新企业,属实力强劲的测评机构。
2、项目类型
2010年至2016年投标项目共计975个,涉及31种项目类型。等级测评、平台项目、信息化监理是主要类型,此外还涉及设备采购、运维服务、风险评估、第三方测评等类型。辽宁077和四川178的投标项目主要是信息化监理类项目,在省外项目数量较多,而吉林082、吉林083和吉林084主要是平台项目,辽宁076的投标项目主要是抽查检验检测,偏土木工程行业,参见图6(a)。在测评机构起步阶段,信息化服务类项目是主要类型。
2017年至2022年投标项目共计41599个,共有56种项目类型。等级测评、平台项目、信息化监理仍是主要类型,第三方测评、运维服务和抽查检验检测紧随其后。密码类项目,包含密评、密码方案评估、密码整改、密码方案编制,2019年开始逐年猛增。数据显示,辽宁077、四川178仍然是信息化监理类项目为主,而吉林083的主要项目类型从信息化监理转向等级测评。山东134的等级测评项目占据全国榜首,山东139、广东158和广东162,除了等级测评项目外,密码评估项目猛增。重庆177侧重电信类的方案设计、规范/规划编制类项目,浙江113主要从事抽查检验检测类项目,偏工程类,参见图6(b)。在发展阶段,网络安全服务类项目成为主要类型,数量达到信息化服务类的2倍。
3、项目所属行业
2010年至2016年投标项目共计975个,涉及40种行业。教育、政务服务、公安是主要行业,此外还涉及法院、卫生、自然资源、财政等行业。吉林082、吉林084侧重教育行业,而吉林083则侧重于法院行业,辽宁077侧重于公安行业,参见图7(a)。数据显示,政府机构类在全国各省的项目数量位居榜首。
2017年至2022年投标项目共计41599个,共有47种行业。政务服务、卫生、教育成为主要行业,公安、电力、电信紧随其后。辽宁077和四川178侧重政务服务行业,而重庆177更注重电信行业,吉林083则偏向法院、检察院行业,浙江113则专注于市场监督行业。2019年网络安全等级保护迈入了2.0时代,云计算、大数据、物联网、工控系统等新型项目类型开始涌现,“大数据”在政务服务行业项目最多,参见图7(b)。
4、特定方向深度挖掘
通过“区块链”、“云计算”、“物联网”、“大数据”等新技术特征的“关键词”抽取,研究该项目全国各地的落地情况,参见图7(b)。
5、特定范围的项目特征分析
某个地区某个行业测评项目的开展特点,进一步的,具体到某个单位,比如广东省测评机构工作开展情况:广东164与其他测评机构距离较远,侧重土木工程检;广东省的等级测评项目数量都是位居榜首,遥遥领先于其他类型;广东省的政务服务行业项目数量排一位;大数据作为一种新型项目类型,相较于云计算、物联网和工控系统而言,在广东省拥有最多的项目数量,参见图8(a)和图8(b)。具体过程不再详述,请参考前述内容。
上述测评机构市场竞争特征数据的处理方法,首先根据投标项目数据中的测评机构名称、项目公告日期、项目名称、采购人、供应商以及中标金额对投标项目数据进行第一清洗去重处理,再计算投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理。之后,确定清洗去重处理后的投标项目数据对应的项目类型和所属行业,根据投标项目数据、项目类型、所属行业和投标项目对应的技术特征来确定测评机构之间的市场竞争特征,并将市场竞争特征进行可视化展示,从而为测评机构行业的发展提供参考信息。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的测评机构市场竞争特征数据的处理方法,图9示出了本申请实施例提供的测评机构市场竞争特征数据的处理装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参见图9,本申请实施例中的测评机构市场竞争特征数据的处理装置可以包括数据采集模块201、第一清洗去重模块202、第二清洗去重模块203、类型行业确定模块204和竞争展示模块205。
其中,数据采集模块201用于采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额。
第一清洗去重模块202用于根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理。
第二清洗去重模块203用于计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理。
类型行业确定模块204用于确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词。
竞争展示模块205用于根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
可选的,第一清洗去重模块202具体用于:
对于两条投标项目数据,若所述测评机构名称、所述项目名称、所述采购人和所述供应商相同,计算项目公告日期之间的时间间隔,若所述时间间隔小于时间间隔阈值,则将该两条投标项目数据作为一条投标项目数据;
对于两条投标项目数据,若所述测评机构名称、所述项目名称和所述供应商相同且所述采购人缺失,计算项目公告日期之间的时间间隔;若所述时间间隔小于时间间隔阈值,且两条投标项目数据的中标金额相同,则将该两条投标项目数据作为一条投标项目数据。
可选的,第二清洗去重模块203具体用于:
对所述多条投标项目数据中的项目名称进行分词,并将同义词和近义词进行统一化处理,得到多个特征词;
将所述多个特征词转换为词向量;
将所述词向量输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度;
若所述测评机构、所述采购人和所述供应商均相同,且所述项目公告日期之间的时间间隔小于时间间隔阈值,则将项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据;
若所述测评机构和所述供应商均相同,所述项目公告日期之间的时间间隔小于时间间隔阈值,且所述中标金额缺失,则将所述项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据。
可选的,所述将所述多个特征词转换为词向量,包括:使用Corpora中的Doc2bow方法将所述多个特征词转换为文档向量,所述文档向量中包含多个词向量;
所述将所述向量数据输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度,包括:通过TF-IDF模型对所述文档向量进行TF-IDF特征抽取,得到特征向量;使用Similarities中的Sparse Matrix Similarity方法,将语料库转换成稀疏矩阵,根据所述稀疏矩阵计算每个特征向量之间的余弦相似度,得到各条投标项目数据之间项目名称的相似度;
所述将相似度大于相似度阈值的投标项目数据作为同一条投标项目数据,包括:对余弦相似度大于相似度阈值的各条投标项目数据,保留项目公告日期最早的一条投标项目数据,删除其他投标项目数据。
可选的,类型行业确定模块204确定清洗去重处理后的所述多条投标项目数据对应的项目类型的过程,包括:
提取每条投标项目数据中能够表征项目类型的类型关键词;
将各条投标项目数据的类型关键词中的同义词和近义词进行统一化处理,得到所述多条投标项目数据对应的项目类型的类型关键词。
可选的,类型行业确定模块204确定清洗去重处理后的所述多条投标项目数据对应的所属行业的过程,包括:
获取样本集,所述样本集包含多条已标注所属行业的投标项目数据;
将所述样本集中的投标项目数据进行分词,并将分词得到的文本信息转换为特征向量;
将所述样本集划分为训练样本集和测试样本集;
根据所述训练样本集的特征向量对SVM模型进行训练,并对所述测试样本集进行行业预测,直至达到预设条件,保存训练后的SVM模型;
将清洗去重处理后的所述多条投标项目数据输入到训练后的SVM模型,得到各条投标项目数据对应的所属行业。。
可选的,竞争展示模块205具体用于:
将所述多条投标项目数据和所述关键词转换为文献计量学可视化工具要求的目标格式的数据;
将所述目标格式的数据输入文献计量学可视化工具中,得到测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,参见图10,该终端设备300可以包括:至少一个处理器310和存储器320,所述存储器320中存储有可在所述至少一个处理器310上运行的计算机程序,所述处理器310执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图1所示实施例中的步骤101至步骤105。或者,处理器310执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图9所示模块201至205的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器320中,并由处理器310执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备300中的执行过程。
本领域技术人员可以理解,图10仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
处理器310可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器320可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。所述存储器320用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器320还可以用于暂时地存储已经输出或者将要输出的数据。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述测评机构市场竞争特征数据的处理方法各个实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述测评机构市场竞争特征数据的处理方法各个实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种测评机构市场竞争特征数据的处理方法,其特征在于,包括:
采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额;
根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理;
计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理;
确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词;
根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
2.如权利要求1所述的测评机构市场竞争特征数据的处理方法,其特征在于,所述根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理,包括:
对于两条投标项目数据,若所述测评机构名称、所述项目名称、所述采购人和所述供应商相同,计算项目公告日期之间的时间间隔,若所述时间间隔小于时间间隔阈值,则将该两条投标项目数据作为一条投标项目数据;
对于两条投标项目数据,若所述测评机构名称、所述项目名称和所述供应商相同且所述采购人缺失,计算项目公告日期之间的时间间隔;若所述时间间隔小于时间间隔阈值,且两条投标项目数据的中标金额相同,则将该两条投标项目数据作为一条投标项目数据。
3.如权利要求1所述的测评机构市场竞争特征数据的处理方法,其特征在于,所述计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理,包括:
对所述多条投标项目数据中的项目名称进行分词,并将同义词和近义词进行统一化处理,得到多个特征词;
将所述多个特征词转换为词向量;
将所述词向量输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度;
若所述测评机构、所述采购人和所述供应商均相同,且所述项目公告日期之间的时间间隔小于时间间隔阈值,则将项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据;
若所述测评机构和所述供应商均相同,所述项目公告日期之间的时间间隔小于时间间隔阈值,且所述中标金额缺失,则将所述项目名称的相似度大于相似度阈值的投标项目数据作为同一条投标项目数据。
4.如权利要求3所述的测评机构市场竞争特征数据的处理方法,其特征在于,所述将所述多个特征词转换为词向量,包括:使用Corpora中的Doc2bow方法将所述多个特征词转换为文档向量,所述文档向量中包含多个词向量;
所述将所述词向量输入TF-IDF模型,确定各条投标项目数据之间项目名称的相似度,包括:通过TF-IDF模型对所述文档向量进行TF-IDF特征抽取,得到特征向量;使用Similarities中的Sparse Matrix Similarity方法,将语料库转换成稀疏矩阵,根据所述稀疏矩阵计算每个特征向量之间的余弦相似度,得到各条投标项目数据之间项目名称的相似度;
所述将相似度大于相似度阈值的投标项目数据作为同一条投标项目数据,包括:对余弦相似度大于相似度阈值的各条投标项目数据,保留项目公告日期最早的一条投标项目数据,删除其他投标项目数据。
5.如权利要求1所述的测评机构市场竞争特征数据的处理方法,其特征在于,确定清洗去重处理后的所述多条投标项目数据对应的项目类型的过程,包括:
提取每条投标项目数据中能够表征项目类型的类型关键词;
将各条投标项目数据的类型关键词中的同义词和近义词进行统一化处理,得到所述多条投标项目数据对应的项目类型的类型关键词。
6.如权利要求1所述的测评机构市场竞争特征数据的处理方法,其特征在于,确定清洗去重处理后的所述多条投标项目数据对应的所属行业的过程,包括:
获取样本集,所述样本集包含多条已标注所属行业的投标项目数据;
将所述样本集中的投标项目数据进行分词,并将分词得到的文本信息转换为特征向量;
将所述样本集划分为训练样本集和测试样本集;
根据所述训练样本集的特征向量对SVM模型进行训练,并对所述测试样本集进行行业预测,直至达到预设条件,保存训练后的SVM模型;
将清洗去重处理后的所述多条投标项目数据输入到训练后的SVM模型,得到各条投标项目数据对应的所属行业。
7.如权利要求1所述的测评机构市场竞争特征数据的处理方法,其特征在于,所述根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示,包括:
将所述多条投标项目数据和所述关键词转换为文献计量学可视化工具要求的目标格式的数据;
将所述目标格式的数据输入文献计量学可视化工具中,得到测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
8.一种测评机构市场竞争特征数据的处理装置,其特征在于,包括:
数据采集模块,用于采集测评机构的多条投标项目数据,所述多条投标项目数据中的每条投标项目数据包含测评机构名称、项目公告日期、项目名称、采购人、供应商和中标金额;
第一清洗去重模块,用于根据所述测评机构名称、所述项目名称、所述采购人和所述供应商对所述多条投标项目数据进行第一清洗去重处理;
第二清洗去重模块,用于计算所述多条投标项目数据之间的相似度,将相似度大于相似度阈值的投标项目数据进行第二清洗去重处理;
类型行业确定模块,用于确定清洗去重处理后的所述多条投标项目数据对应的项目类型和所属行业,将所述项目类型、所述所属行业和投标项目对应的技术特征作为投标项目数据的关键词;
竞争展示模块,用于根据所述多条投标项目数据和所述关键词确定测评机构之间的市场竞争特征,并将所述市场竞争特征进行可视化展示。
9.一种终端设备,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311006663.XA CN116737969A (zh) | 2023-08-11 | 2023-08-11 | 测评机构市场竞争特征数据的处理方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311006663.XA CN116737969A (zh) | 2023-08-11 | 2023-08-11 | 测评机构市场竞争特征数据的处理方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737969A true CN116737969A (zh) | 2023-09-12 |
Family
ID=87917163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311006663.XA Pending CN116737969A (zh) | 2023-08-11 | 2023-08-11 | 测评机构市场竞争特征数据的处理方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737969A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154390A (zh) * | 2017-12-20 | 2018-06-12 | 微梦创科网络科技(中国)有限公司 | 广告博文的投放方法及装置、存储介质和计算设备 |
CN109325019A (zh) * | 2018-08-17 | 2019-02-12 | 国家电网有限公司客户服务中心 | 数据关联关系网络构建方法 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN114254109A (zh) * | 2021-12-15 | 2022-03-29 | 北京金堤科技有限公司 | 用于确定行业类别的方法及装置 |
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
-
2023
- 2023-08-11 CN CN202311006663.XA patent/CN116737969A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154390A (zh) * | 2017-12-20 | 2018-06-12 | 微梦创科网络科技(中国)有限公司 | 广告博文的投放方法及装置、存储介质和计算设备 |
CN109325019A (zh) * | 2018-08-17 | 2019-02-12 | 国家电网有限公司客户服务中心 | 数据关联关系网络构建方法 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN114254109A (zh) * | 2021-12-15 | 2022-03-29 | 北京金堤科技有限公司 | 用于确定行业类别的方法及装置 |
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
Non-Patent Citations (1)
Title |
---|
张士运: "《科学计量与知识网络分析 第2版》", 北京:首都经济贸易大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heravi et al. | Investigating cost overruns and delay in urban construction projects in Iran | |
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
Zhaokai et al. | Contract analytics in auditing | |
Badr et al. | Benchmarking performance: Environmental impact statements in Egypt | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN112801498A (zh) | 风险识别模型的训练方法、风险识别方法、装置及设备 | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
Antretter et al. | Predicting startup survival from digital traces: Towards a procedure for early stage investors | |
Jain et al. | NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks | |
CN113723737A (zh) | 一种基于企业画像的政策匹配方法、装置、设备及介质 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN116777607A (zh) | 一种基于nlp技术的智能审计方法 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
Lidyah et al. | The Evolution of Accounting Information Systems Research: A Bibliometric Analysis of Key Concepts and Influential Authors | |
CN117909499A (zh) | 合同审查方法、装置、电子设备及存储介质 | |
Domashova et al. | Application of machine learning methods for risk analysis of unfavorable outcome of government procurement procedure in building and grounds maintenance domain | |
Sumner et al. | RipetaScore: Measuring the quality, transparency, and trustworthiness of a scientific work | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
CN116737969A (zh) | 测评机构市场竞争特征数据的处理方法、装置及终端设备 | |
CN111767401B (zh) | 一种nqi指标自动生成方法 | |
CN114862053A (zh) | 一种材料供应商推送方法、系统及设备 | |
CN113190666A (zh) | 一种产业知识产权分析方法、系统、设备和存储介质 | |
JP2003280901A (ja) | 見積評価支援プログラムおよび見積評価支援システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230912 |
|
RJ01 | Rejection of invention patent application after publication |