CN115270763B - 一种基于多数据库的风险控制方法 - Google Patents
一种基于多数据库的风险控制方法 Download PDFInfo
- Publication number
- CN115270763B CN115270763B CN202210925079.3A CN202210925079A CN115270763B CN 115270763 B CN115270763 B CN 115270763B CN 202210925079 A CN202210925079 A CN 202210925079A CN 115270763 B CN115270763 B CN 115270763B
- Authority
- CN
- China
- Prior art keywords
- databases
- database
- bidding
- abnormal
- bid evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多数据库的风险控制方法,对评标专家数据库进行聚类分析;获取当前评标活动所需抽取的评标专家数量;根据评标专家数量以及聚类分析结果将评标专家数据库分为数量为多个数据库;从多个数据库中等概率地抽取评标专家用于参加当前评标活动。本发明方案基于假设评标专家之间可能存在合谋关系,通过聚类分析将评标专家数据库分为多个数据库,通过设置相应的抽取概率实现了在招投标活动中基于可能存在的合谋关系来抽取评标专家,从而减少合谋关系带来的风险。
Description
技术领域
本申请涉及大数据及自然语言处理技术,特别是一种基于多数据库的风险控制方法。
背景技术
招投标是商业上一种公平的竞争方式,但是在招投标的现实操作中,围标、串标的行为层出不穷,可能是投标人之间的横向合谋,可能是评标专家之间的横向合谋,也可能是投标人和评标专家之间的纵向合谋。
其中评标专家之间的合谋关系发现的难点在于评标专家是通过一定步骤从评标专家数据库抽取出来,而评标专家信息在初期已经录入数据库,该抽取过程中通常不需要评标专家提供额外信息,因此难以通过诸如投标资料信息分析的方式获取评标专家之间的合谋关系。如图1所示,现有的专家抽取方法中,通常会根据评标物资种类、评标专家专业等信息抽取专家,并在抽取过程中保证随机性、均衡性,从而实现评标公正。
目前,已有全国统一的专业分类标准,对于交通、水利、政府采购等行业部门已经建立成熟完善的评审专家库,但是对于其他行业部门,由于评审专家库仍然在逐步建立完善的过程中,随机的、均衡的抽取规则对公正性的贡献有限,评审专家库中可选择的专家越少,可能存在的合谋关系对公正性的影响就越大。参照图2,现有方案中希望通过预测专家的公正性来设立合理的抽取规则,其关注的是投标人与专家之间的纵向合谋关系。但是每次招投标活动中都需要基于投标人与专家之间的纵向关系来重新计算公正和专业指数,随着数据库的不断扩充,每一次新的招投标活动都将带来极大的计算量;并且,在考虑专家公正性的过程中未将评标专家之间的横向关系考虑在内,而横向合谋关系正是缺乏分析发现的大数据基础;其次,评标专家之间的横向合谋关系不仅体现在对投标方的偏袒,也可能体现在对投标方的偏见,例如在预测公正和专业指数的过程中选择的评审团排除了对投标方的偏袒,但可能增加了对某些投标方的偏见,究其根本原理,仍在于专家抽取过程中无法排除横向合谋关系带来的影响。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于多数据库的风险控制方法,实现在招投标活动中基于可能存在的合谋关系来选取评标专家,从而减少合谋关系带来的风险。
本申请实施例提供了一种基于多数据库的风险控制方法,包括以下步骤:
对评标专家数据库进行聚类分析;
获取当前评标活动所需抽取的评标专家数量K;
根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量为K的多个数据库;
从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动。
进一步,所述从多个数据库中等概率地抽取K个评标专家,具体为:
所述多个数据库的数据库内样本被抽取的概率相等,且
每个数据库的所有样本被抽取概率之和为1/K。
进一步,所述从多个数据库中等概率地抽取K个评标专家,具体为:
所述多个数据库的数据库内样本被抽取的概率相等,且
每个数据库中抽取1个评标专家。
进一步,所述对评标专家数据库进行聚类分析,具体为:
对评标专家数据库进行凝聚层次聚类分析。
进一步,所述对评标专家数据库进行凝聚层次聚类分析,具体为:
将评标专家数据库中的每个数据点作为一个聚类;
计算每两个聚类之间的距离,合并两个距离最近的聚类;
重复上述步骤直至聚类数量小于设定阈值。
进一步,所述距离为簇间最小距离、簇间最大距离或者簇间平均距离。
进一步,所述根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量K的多个数据库,具体为:
根据评标专家数量K计算对应的聚类层次数;
根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库。
进一步,所述根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量K的多个数据库,具体为:
根据评标专家数量K计算对应的聚类层次数;
根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
获取标书分析模块标记的可疑投标人;
根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
在多个数据库中删除最高关联程度值所对应的数据点。
进一步,所述获取标书分析模块标记的可疑投标人,具体为:
获取多个招标文本;
对招标文本按照自然段落或者章节进行分割,得到内容分块;
确定多个内容分块中的无关内容分块;
在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
根据各招标文件的异常情况和相似度确定疑似围串标行为;
根据所述疑似围串标行为标记可疑投标人。
进一步,所述根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量K的多个数据库,还包括:
删除多个数据库中数据点数量为零的数据库,将聚类层次数下移一层,根据聚类层次数对应的聚类分析结果更新多个数据库;
重复上述步骤直至多个数据库中的每个数据库数据点数量均大于零且多个数据库的数据库数量等于评标专家数量K。
进一步,所述对评标专家数据库进行聚类分析,具体为:
对评标专家数据库进行分裂层次聚类。
本申请实施例基于假设评标专家之间可能存在合谋关系,通过聚类分析将评标专家数据库分为多个数据库,通过设置相应的抽取概率实现了在招投标活动中基于可能存在的合谋关系来抽取评标专家,从而减少合谋关系带来的风险。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中抽取评标专家的基本模型;
图2为现有技术中基于投标方信息预测专家公正性的抽取模型;
图3为本发明具体实施例的步骤流程图;
图4为图3步骤S100的一具体实施例;
图5为图3步骤S300的一具体实施例;
图6为树状图显示层次聚类实例;
图7为图5步骤S303的一具体实施例步骤流程图;
图8为本发明具体实施例提供的异常语句分析模型结构示意图;
图9为本发明具体实施例提供的语序异常分支的示意图;
图10为本发明具体实施例提供的搭配异常分支的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下将参照本申请实施例中的附图,通过实施方式清楚、完整地描述本申请的技术方案,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图3,本方案提供的一种基于多数据库的风险控制方法,包括以下步骤:
S100、对评标专家数据库进行聚类分析;
评标专家数据库中预先录入了专家信息,例如专家的姓名、年龄、地域、专业方向、专业头衔、任职单位、任职年限、职称等等,基于上述信息聚类分析可获取专家之间的关联程度,关联越紧密则越可能存在潜在的横向合谋关系;
S200、获取当前评标活动所需抽取的评标专家数量K;
S300、根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量为K的多个数据库;
S400、从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动;
需抽取K个专家时,将评标专家数据库分为K个数据库,由于每个数据库是聚类得到的,其中专家的关系最可能潜在合谋关系,因此从多个数据库中等概率地抽取K个评标专家,而非从评标专家数据库中等概率地抽取K个评标专家。
本方案的等概率抽取方式可参照以下典型的两种:
等概率抽取方式(一):
多个数据库的数据库内样本被抽取的概率相等,且每个数据库的所有样本被抽取概率之和为1/K。
例如评标专家数据库的专家数N=N1+…+NK
第一数据库中每个专家被抽取的概率为1/KN1;第二数据库中每个专家被抽取的概率为1/KN2,依此类推。
等概率抽取方式(二):
多个数据库的数据库内样本被抽取的概率相等,且每个数据库中抽取1个评标专家。
方式(二)中每个专家被抽取的概率与方式(一)相同,但可避免每个数据库中抽取多个专家。
进一步作为优选的实施方式,所述对评标专家数据库进行聚类分析,具体为:
对评标专家数据库进行凝聚层次聚类分析。
通常来说,层次聚类分析的计算量大,复杂度高,但评标专家数据库的更新是非实时性的,而层次聚类分析不需要预先制定聚类的数量,因此不同的招投标活动中即使需要的评审专家数量不同,而一次层次聚类分析结果可重复使用,避免了每次招投标活动都需要单独聚类分析计算,可以前期做好层次聚类分析,后期直接调用聚类结果,层次聚类分析的计算量大复杂度高的缺点不会影响分析计算过程。
参照图4,进一步作为优选的实施方式,步骤S100具体包括:
S101、将评标专家数据库中的每个数据点作为一个聚类;
参照图6,以树状图显示一个简化的层次聚类实例,其中评标专家数据库中对应有10为专家p0~p9,纵坐标数字表示聚类的层次数。
S102、计算每两个聚类之间的距离,合并两个距离最近的聚类;
如图所示第一次聚类时,将专家p8和p9对应的数据点合并为一个聚类。
S103、重复上述步骤直至聚类数量小于设定阈值。
进一步作为优选的实施方式,所述距离为簇间最小距离、簇间最大距离或者簇间平均距离。
以簇间最小距离为例,一个簇即一个聚类,两个聚类之间的两个最近的点之间的邻近度即簇间最小距离,通常以欧氏距离来计算。
除此之外,距离的计算方法还可采用Ward方法或质心方法,但相对来说层次聚类算法已经复杂度较高,而本方案中重点是对专家之间的关系进行定性处理,无需更精细的计算,基于计算量的考虑,本发明实施例中采用上述三种距离计算方法可大幅减少计算量,避免在更新评标专家数据库时增加过多的计算量。
参照图5,进一步作为优选的实施方式,步骤S300具体包括:
S301、根据评标专家数量K计算对应的聚类层次数;
参考图6的实例,假设评标专家数据库中10位专家中需要抽取的评标专家数量K=3,则计算对应的聚类层次数L=N-K,N为评标专家数据库中的专家数10,则L=7。
S302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库。
利用图中层次7对应的水平虚线对树状图进行截取,从左至右的三个截点分别对应三个聚类的数据库,其中第一个数据库包括三位专家数据{p0,p1,p2},第二个数据库包括二位专家数据{p3,p4},第三个数据库包括五位专家数据{p5,p6,p7,p8,p9}。
假设采用上述等概率抽取方式(二),第一个数据库三位专家{p0,p1,p2}中每一位被抽取的概率相当于1/9,第二个数据库二位专家{p3,p4}中每一位被抽取的概率相当于1/6,第三个数据库五位专家{p5,p6,p7,p8,p9}中每一位被抽取的概率相当于1/15。各专家并非被等概率的抽取。
参照图5,进一步作为优选的实施方式,步骤S300具体包括:
S301、根据评标专家数量K计算对应的聚类层次数;
参考图6的实例,假设评标专家数据库中10位专家中需要抽取的评标专家数量K=5,则计算对应的聚类层次数L=N-K,N为评标专家数据库中的专家数10,则L=5。
S302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
利用图中层次5对应的水平虚线对树状图进行截取,从左至右的三个截点分别对应五个聚类的数据库,其中第一个数据库包括三位专家数据{p0,p1,p2},第二个数据库包括一位专家数据{p3},第三个数据库包括一位专家数据{p4},第四个数据库包括二位专家数据{p5,p6},第五个数据库包括三位专家数据{p7,p8,p9}。
S303、获取标书分析模块标记的可疑投标人;
S304、根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
投标人数据库与评标专家数据库通常会有部分相同类型的数据,例如地域、任职单位、任职年限等,可用于计算投标人与评标专家的关联程度。即使可疑投标人在评标人审核中被排除,基于风险控制的角度,也应该考虑将关联程度高的评标专家在当前的招投标活动中同样予以排除,但该排除操作并非常规意义上的专家回避制度,而是为了排除潜在风险,而非回避制度中的排除确定风险。
S305、在多个数据库中删除最高关联程度值所对应的数据点。
其中最高关联程度值所对应的数据点可以是最高的一个或者最高的几个,可根据实际需要自行设定。假设步骤S304中得到可疑投标人与评标专家数据库中每个数据点的关联程度值排序后需要排除最高关联程度值所对应的一个数据点,且该数据点为p0,后续步骤中基于新的第一个数据库数据{p1,p2}进行计算。
在前面考虑了评标专家之间的横向合谋风险的基础上,再加入对可疑投标人的分析,使得整个招投标活动中完整地考虑了混合合谋风险(即横向合谋风险与纵向合谋风险的结合),进一步降低潜在风险。
针对步骤S303,通常,投标人之间进行合谋围标时,往往都有同一个机构或者投标人对各方的标书进行处理,最终由不同投标人签章后进行投标。为了节省人力或者成本,投标人在处理几个机构的标书的时候,往往会采用重复内容。
但是上述手段在目前先进的文字搜索技术条件下,容易被发现。为了混淆目前的相关技术,这些机构会考虑往标书中写入大量无用的内容,这些内容可能与投标毫无关系,这样可以有效降低部分关键词的浓度,使得标书和标书之间的相似度下降。更为先进的方法是投标人会基于正常的标书,利用机器人进行洗稿,机器人会采用近义词替换,句式变换和更换词语顺序等方式生成新的句子,通过这一方式,无论是文字内容匹配,语义分析都难以发现。
因此进一步作为优选的实施方式,参照图7,基于大数据的方式分析投标中采用特定方式规避标书对比检测的串标行为,从而控制投标活动中的风险,其中步骤S303具体包括:
S3031、获取多个招标文本。可以是电子标书,也可以是由纸质标书转换得到的电子标书。一般情况下需要能够读取招标文本中的文字。
S3032、对招标文本按照自然段落或者章节进行分割,得到内容分块。可以按照电子标书中的段落分块,也可以识别出章节关系,按照章节进行分块。具体可以根据标书的特点统一设定。对于较长的段落也可以分成多块。
S3033、确定多个内容分块中的无关内容分块。为了降低标书之间的相似度,陪标的标书中可能加入大量的无关内容来降低标书之间的相似度。确定无关的内容分块,一方面可以识别出异常的标书,也可以去掉这些内容来分析标书之间的相似度,这样可以更大可能分析出两者标书的真实相似度。
具体地,在步骤S3033之中,包括:
S30331、针对每个内容分块进行关键词统计,得到每个内容分块中最高频的N个关键词。例如,选择每个内容分块中的五个高频词。需要理解的是,高频词通常是某类词语,例如,名词、形容词等,而非助词等不表达具体含义的词语。
S30332、分析内容分块对应的N个关键词是否与投标主题关联,并且判断内容分块对应的N个关键词是否出现在多个投标文件中,若N个关键词中超过第一设定比例的关键词与投标主题无关且N个关键词中超过第一设定比例的关键词未出现在其他投标文件中时,将N个关键词所对应的内容分块判定为无关内容分块。
例如,在一个内容块中,关键词是“高频”、“电流”、“电容”,假设本次投标是关于电子设备的,可以通过知识图谱的方式找到这些词语和本次招标主题的关系。当然,寻找关键词和投标主题之间的关系的方式有很多种,例如,可以构建一个与招标相关的词库,然后通过语义相似度来分析关键词是否与主题相关。而分析N个关键词是否存在于其他文本的条件时,主要考虑的是,有可能在设置主题词库或者知识图谱的时候有所遗漏,另一方面是考虑到如果有其他招标文件涉及相关的词语,说明对于分析相似度是有帮助的,这些内容可以认为是有关的内容。即便实质上是无关内容,在计算相似度的时候,会增加同时放入类似无关内容的标书之间的相似度。例如,可以将N设置为5,第一设定比例可以设置为80%,即5个词里面有4个没有出现在其他内容中,又不属于和主题有关的内容。N的数量和具体的阈值,可以根据实际测试情况调试。在不同的判断中第一设定比例可以是不同的值。
S3034、在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度。
在本实施例中,可以采用语义分析、TF-IDF方法、LDA方法等等。相似度分析不是本方案所讨论的重点。本方案主要针对为了规避相似度检查而采用特定手段进行规避的情形,各种检测标书异常的手段可以在一个系统中并用,或者以前后步骤的方式串行实施。可以理解的是,如果标书只是单纯采用重复复制和塞入无效内容的方式,标书在去除无效内容之后,相似度会比较高。直接通过相似度就可以判定出异常的情况。如果采用机器人洗稿等方式,会对现有的相似度分析方法产生干扰,使得招标文本之间的相似度降低。但是对于此类情况,可以通过识别机器洗稿的痕迹来发现。
S3035、在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子。在本实施例中,采用抽样的方式来减少运算量,抽样数量可以根据实际情况来设定。然后将抽样得到的内容分块进行语句拆分。拆分方式可以按照句号的分布来拆分。
S3036、对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句。
具体地,参照图8,本实施例所采用的检测异常句子的模型包括语序异常分支和搭配异常分支。
其中,所述语序异常分支用于检测词语顺序异常的情况,所述搭配异常分支用于检测词语搭配异常的情况,其中,所述异常语句分析模型在语序异常分支和搭配异常分支的至少之一检测到异常时,判定语句为异常语句。
参照图9,针对语序异常分支进行说明。
如图9所示,在语序异常分支中,包括一个分词单元,一个语义向量嵌入单元,词性类别(即主谓宾成分)分析单元,组合单元,第一分类器和判定单元。
其中,分词单元用于将句子分词,可以采用jieba、hanlp等分词模型,然后语义向量嵌入单元将词语进行词嵌入,映射到语义空间之中,用语义向量表示,语义向量嵌入单元可以利用诸如word2vec、BERT等工具实现。接着词性类别分析单元用于分析句子中各分词的主谓宾成分,这一单元可以采用词性标注模型实现这些模型等。组合单元,用于按照一定的方式组合样本送入到第一分类器进行分类,然后判定单元根据分类器分类的结果输出分支的结果。
以图9中的例子,“他快乐地告诉大家”,输入到分词单元后被分词成:“他;快乐地;告诉;大家”。然后在语义向量嵌入单元分别转换成V11、V12、V13、V14。在词性类别分析单元转换成词性对应的向量即V21、V22、V23、V24。接着组合单元将相邻的词语按照语义向量+词性向量的方式将前后两个词的有关向量按顺序进行拼接。图9的例子中,四个词语会有三对组合。第一分类器根据词语顺序和词性判断结果。在训练时,可以基于正常的句子进行分词,替换词语的顺序,例如,“他在吃饭”,随机打乱“吃”和“饭”变成“他在饭吃”,显然,“饭吃”不是一个正常的语序。在部分例子中,由于词语具有词性,在某些词性的情况下,两个词的顺序是正常的,但是在另一种词性的情况下,这两个词语的组合确实不正常的。因此,增加词性进行训练,可以增加识别率。第一分类器经过训练,可以有效分类这些不正常的搭配。从而将随机打乱顺序的句子进行识别。
结合图9可知,所述语序异常分支工作步骤包括:
S303611、对语句进行分词,得到多个第一候选词;
S303612、将各第一候选词转换为语义向量;
S303613、提取第一候选词对应的词性类别向量;
S303614、将各第一候选词的语义向量与对应的词性类别向量进行拼接,得到每个第一候选词对应的第一融合向量;
S303615、将相邻两个第一候选词的第一融合向量按顺序拼接后送入第一分类器进行分类,得到是否异常的结果;
S303617、当超过预设组的分类结果是异常时,判定为异常。
参照图10,针对搭配异常分支进行说明。如图10所示,在搭配异常分支包括一个分词单元,一个语义向量嵌入单元,词性类别分析单元,组合单元,第二分类器和判定单元。可以理解的是,分词单元,一个语义向量嵌入单元,词性类别分析单元均可以复用前面分支的,主要是训练第二分类器,第二分类器的输入参数与第一分类器不同。第二分类器输入的两组词语义向量和类别向量的拼接。在机器洗稿的时候,可能会将部分词语随机替换成一些同义词来规避检查。替换成同义词后,即便是采用语义分析的方式,也会导致句子的语义向量发生变化,相似度降低。但是,这样会产生一些异常的组合。例如,“今晚吃丰盛的晚餐”,经过同义词替换后可能会变成“今夜食丰富的晚饭”,显然,“食”和“晚饭”就句子中的词性而言,并非一个正常的搭配。通过大量的语料训练,可以学习到正常的表达方式,遇到这类不正常的表达方式后,分类器就可以分类出来。同样地,判定单元也可以根据第二分类器的结果进行输出。可以理解的是判定单元可以在检测到句子中有一个或者以上的异常时,输出句子异常的结果。从图10中可知,4个词可以形成6种组合关系。输入是两个向量参数,分别是两个词对应的语义向量和词性向量的拼接。
结合图10可知,所述搭配异常分支工作步骤包括:
S303621、对语句进行分词,得到多个第二候选词;
S303622、将各第二候选词转换为语义向量;
S303623、提取第二候选词对应的词性类别向量;
S303624、将各第二候选词的语义向量与对应的词性类别向量进行拼接,得到每个第二候选词对应的第二融合向量;
S303625、将每两个第二候选词的第二融合向量作为一组送入第二分类器进行分类,得到是否异常的结果;
S303626、当超过预设组的分类结果是异常时,判定为异常。
S3037、当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块。例如,可以设置一个比例,或者设置一个数值,例如超过五个句子存在异常则判定为异常内容分块。
S3038、当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件。例如,有超过5个异常的内容分块,或者无关内容占比20%以上,可以判定整个标书是异常的。
S3039、根据各招标文件的异常情况和相似度确定疑似围串标行为。具体是:
S30391、将异常招标文件和与异常招标文件相似度超过第一阈值的招标文件关联到同一疑似围串标行为。可以理解的是,进行围串标的文件之中通常有一个正常的标书,而与异常投标文件比较接近的标书就可能是该标书。因此,可以利用前述步骤的相似度分析结果来发现围串标的人实际希望中标的标书。由于标书存在异常,可能进行过洗稿等方式,因此第一阈值可以设置得相对低一点,因为如果相似度过高,则有可能是属于直接复制的方式。
S30392、将相似度超过第二阈值的招标文件关联到同一疑似围串标行为。其中,第二阈值大于第一阈值。可以理解的是,在该步骤的情况中,围串标人可能采取直接复制相同内容到不同标书的方式进行投标,这步骤可以直接基于相似度检出标书抄袭的围串标行为。
S30310、根据所述疑似围串标行为标记可疑投标人或其他执行风险控制措施,例如后续步骤S304中计算可疑投标人与评标专家数据库中每个数据点的关联程度值,或者也可以基于疑似围标串标行为进行预警、调整。
下面对语义分析模型的训练方法进行说明:在一些实施例中,所述异常语句分析模型通过以下方式得到:
A1、构建同义词数据库和标准语句数据库。这些数据库可以根据投标的行业特点增加相关的语料。上述语料获取相对容易,成本较低,并且可以利用一些现成的模型来做训练样本生成的工作,实现半监督或者无监督样本生成,实现较低成本获取训练样本来训练模型。
A2、基于标准语句数据库中的语句通过交换句子中词语位置的方式构造第一类异常样本。当然,在本步骤中,会对交换词语位置的语序在数据库中进行检索,并根据是否检索到相同的语序,或者根据检索到相同的语序的句子数量来确定是否作为异常样本。例如,今天天气好晴朗,将“今天”和“天气”交换,得到“天气今天好晴朗”而在数据库中,可能会检索到“天气今天”这样的语序,说明这是一个正常的语序。而如果将“好”和“晴朗”交换,则变成“今天天气晴朗好”,显然,“晴朗好”在词库中检索到的概率非常低,即检索到的相关搭配非常少,因此可以判定是异常的语序。加上词性分析,可以更大概率分辨这些样本是否可以作为异常样本。
A3、基于标准语句数据库中的语句,查找语句中待替换词语的同义词,检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,或者检查同义词与语句中其他词语的搭配存在于标准语句数据库的语句中的数量是否大于设定值,若否,则将待替换词语更换成同义词,从而构成第二类异常样本。同理,在本步骤中,可以这样进行处理,例如,“今晚吃大餐”,将“吃”,替换成“食”,如果“食”和“大餐”的搭配没有在数据库中存在或者数量极少,则可以作为异常样本。
A4、利用第一类异常样本对语序异常分支进行训练,直到语序异常分支满足预设条件。
A5、利用第二类异常样本对搭配异常分支进行训练,直到搭配异常分支满足预设条件。在A4和A5中,预设条件可以是在验证集上收敛或者达到预设的迭代次数。
A6、将第一类异常样本和第二类异常样本进行混合后,对异常语句分析模型进行整体训练,直到满足预设条件。可以理解的是,通过对分支进行训练,在组合训练的方式,可以同时对模型不同分支进行训练,提高训练的效率。
当然,在进行模型的整体训练之前,可以先对第一分类器和第二分类器进行预训练,在一些实施例中,所述第一分类器预训练后,在语序异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句通过交换句子中词语位置的方式得到候选异常语序词组;
在标准语句数据库中检索是否有对应语序的词组,或者在标准语句数据库中检索有对应语序的词组的句子数量是否大于设定值。
若是,则标语序词组标记为正常语序样本;若否,则将语序词组标记为异常语序样本。
根据正常语序样本和异常语序样本对第一分类器进行训练。
在一些实施例中,所述第二分类器预训练后,在搭配异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句,查找语句中待替换词语的同义词。
检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,或者检查同义词与语句中其他词语的搭配存在于标准语句数据库的语句中的数量是否大于设定值。
若是,则将数据库中存在搭配关系的两个组标记为正常搭配样本;若否,则将数据库中不存在搭配关系的两个组标记为异常搭配样本,根据异常搭配样本和正常搭配样本对第二分类器进行训练。
需要理解的是,这里的设定值约束的是同义词和句子中另一个词语的搭配存在于标准语句数据库的语句中的数量。例如,今天天气好晴朗,将“今天”替换成“今日”,则需要分析“今日”和“天气”这样的搭配在数据库中的数量是否超过阈值。
从上述实施例可知,本方案所采用的模型的训练样本,可以通过普通的语料,结合一定的自然语言处理模型或者特定的算法可以实现半监督或者无监督的学习,降低了模型训练的成本。并且在分类上可以准确地实施分类,识别出投标文件中的异常情况,从而进一步进行风险控制。
总之,上述步骤S303具体实施例通过获取多个招标文本,然后对招标文本按照自然段落或者章节进行内容分块,接着确定多个内容分块中的无关内容分块,并基于无关内容分块的比例来确定是否通过放入大量无关内容规避相似度检查的异常投标文件;随后在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度,通过这一方式可以在塞入无关内容的标书中找到相似的标书;接着在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;通过分析异常语句的方式,可以排查出通过机器人洗稿生成的标书,这些标书虽然与内容相关,并且可以降低标书之间的相似度,但是通过机器人洗稿的方案会留下异常的痕迹,可以通过检测异常句子找到异常内容,从而找出异常的标书;接着当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;然后根据各招标文件的异常情况和相似度确定疑似围串标行为;这样无论是普通的内容雷同,还是通过某些技术进行洗稿或者加入无关内容也难以规避审查,可见,通过本方案可以很好地根据所述疑似围串标行为执行风险控制措施。
在另一具体实施例中,假设步骤S304中得到可疑投标人与评标专家数据库中每个数据点的关联程度值排序后需要排除最高关联程度值所对应的一个数据点,且该数据点为p4,则第三个数据库中的唯一一位专家数据{p4}被删除,参照图5和图6,进一步作为优选的实施方式,步骤S300具体还包括:
S306、删除多个数据库中数据点数量为零的第三个数据库,将聚类层次数下移一层,即聚类层次L=4,根据聚类层次数对应的聚类分析结果更新多个数据库,具体为将其中的第四个数据库分为两个数据库{p5}和{p6};
S307、重复上述步骤直至多个数据库中的每个数据库数据点数量均大于零。
经过上述步骤处理后,得到的数据库数量仍然为5个,弥补了因与可疑投标人关联而被删除的数据库,不影响后续计算,且排除了潜在风险。
而在另一具体实施例中,假设步骤S304中得到可疑投标人与评标专家数据库中每个数据点的关联程度值排序后需要排除最高关联程度值所对应的两个数据点,且数据点为p4和p4,则第二、三个数据库中的唯一一位专家数据{p3}、{p4}被删除,参照图5和图6,进一步作为优选的实施方式,步骤S300具体还包括:
S306、删除多个数据库中数据点数量为零的第二、三个数据库,将聚类层次数下移一层,即聚类层次L=4,根据聚类层次数对应的聚类分析结果更新多个数据库,具体为将其中的第四个数据库分为两个数据库{p5}和{p6};此时多个数据库的数量为4,小于需要抽取的评标专家数量。
S307、重复上述步骤直至多个数据库中的每个数据库数据点数量均大于零且多个数据库的数据库数量等于评标专家数量K。
因此仍然需要重复执行步骤306,此时不存在数据点数量为零的数据库,因此无需执行删除动作,但需要将聚类层次数下移一层,即聚类层次L=3,根据聚类层次数对应的聚类分析结果更新多个数据库,具体为将其中原来的第一个数据库分为两个数据库{p0}和{p1,p2}。
经过上述步骤处理后,得到的数据库数量仍然为5个,弥补了因与可疑投标人关联而被删除的数据库,不影响后续计算,且排除了潜在风险。
作为本发明的另一具体实施例,所述对评标专家数据库进行聚类分析,具体为:
对评标专家数据库进行分裂层次聚类。
上述采用凝聚层级聚类的方案中,由于根据距离来聚合数据,算法很可能聚类成链状,从而导致聚类结果的偏差,因此可考虑采用分裂层次聚类避免上述问题。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (5)
1.一种基于多数据库的风险控制方法,其特征在于,包括以下步骤:
对评标专家数据库进行聚类分析,具体采用凝聚层次聚类分析或者分裂层次聚类分析;
获取当前评标活动所需抽取的评标专家数量K;
根据评标专家数量K计算对应的聚类层次数;
根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
获取标书分析模块标记的可疑投标人;
根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
在多个数据库中删除最高关联程度值所对应的数据点;
删除多个数据库中数据点数量为零的数据库,将聚类层次数下移一层,根据聚类层次数对应的聚类分析结果更新多个数据库;
重复上一步骤直至多个数据库中的每个数据库数据点数量均大于零且多个数据库的数据库数量等于评标专家数量K;
从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动;
所述获取标书分析模块标记的可疑投标人这一步骤具体包括:
获取多个招标文本;
对招标文本按照自然段落或者章节进行分割,得到内容分块;
确定多个内容分块中的无关内容分块;
在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
在每个招标文本之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文本为异常招标文件;
根据各招标文本的异常情况和相似度确定疑似围串标行为;
根据所述疑似围串标行为标记可疑投标人。
2.根据权利要求1所述的一种基于多数据库的风险控制方法,其特征在于,所述从多个数据库中等概率地抽取K个评标专家,具体为:
所述多个数据库的数据库内样本被抽取的概率相等,且
每个数据库的所有样本被抽取概率之和为1/K。
3.根据权利要求1所述的一种基于多数据库的风险控制方法,其特征在于,所述从多个数据库中等概率地抽取K个评标专家,具体为:
所述多个数据库的数据库内样本被抽取的概率相等,且
每个数据库中抽取1个评标专家。
4.根据权利要求1所述的一种基于多数据库的风险控制方法,其特征在于,对评标专家数据库进行凝聚层次聚类分析,具体为:
将评标专家数据库中的每个数据点作为一个聚类;
计算每两个聚类之间的距离,合并两个距离最近的聚类;
重复上述步骤直至聚类数量小于设定阈值。
5.根据权利要求4所述的一种基于多数据库的风险控制方法,其特征在于,所述距离为簇间最小距离、簇间最大距离或者簇间平均距离。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022107175088 | 2022-06-23 | ||
CN202210717508 | 2022-06-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270763A CN115270763A (zh) | 2022-11-01 |
CN115270763B true CN115270763B (zh) | 2023-05-30 |
Family
ID=83748022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210925079.3A Active CN115270763B (zh) | 2022-06-23 | 2022-08-03 | 一种基于多数据库的风险控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270763B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668838A (zh) * | 2020-12-11 | 2021-04-16 | 广东电网有限责任公司 | 一种基于自然语言解析的评分标准词库建立方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801630A (zh) * | 2021-02-07 | 2021-05-14 | 山东锋士信息技术有限公司 | 一种高均衡电子招投标评标专家抽取方法及系统 |
-
2022
- 2022-08-03 CN CN202210925079.3A patent/CN115270763B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668838A (zh) * | 2020-12-11 | 2021-04-16 | 广东电网有限责任公司 | 一种基于自然语言解析的评分标准词库建立方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115270763A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | A joint framework for coreference resolution and mention head detection | |
CN112214995A (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN115062148B (zh) | 一种基于数据库的风险控制方法 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
US20230014904A1 (en) | Searchable data structure for electronic documents | |
Jiang et al. | Impact of OCR quality on BERT embeddings in the domain classification of book excerpts | |
Leng et al. | Deepreviewer: Collaborative grammar and innovation neural network for automatic paper review | |
Chong et al. | Comparison of naive bayes and SVM classification in grid-search hyperparameter tuned and non-hyperparameter tuned healthcare stock market sentiment analysis | |
Wang et al. | Exploring semantics of software artifacts to improve requirements traceability recovery: a hybrid approach | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
Zhang et al. | A textcnn based approach for multi-label text classification of power fault data | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
Singh et al. | An empirical investigation to overcome class-imbalance in inspection reviews | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
CN115270763B (zh) | 一种基于多数据库的风险控制方法 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
Panthum et al. | Generating functional requirements based on classification of mobile application user reviews | |
Yadollahi et al. | Towards Query-efficient Black-box Adversarial Attack on Text Classification Models | |
Gonçalves et al. | Approaching authorship attribution as a multi-view supervised learning task | |
KR20200010679A (ko) | 이질성 학습 기반의 정보 분류 장치 | |
Bhatti et al. | Benchmarking Performance of Document Level Classification and Topic Modeling | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
US11868313B1 (en) | Apparatus and method for generating an article | |
US11727215B2 (en) | Searchable data structure for electronic documents | |
Jayaraman et al. | Offensive Text Prediction using Machine Learning and Deep Learning Approaches. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |