CN115062148B - 一种基于数据库的风险控制方法 - Google Patents
一种基于数据库的风险控制方法 Download PDFInfo
- Publication number
- CN115062148B CN115062148B CN202210717570.7A CN202210717570A CN115062148B CN 115062148 B CN115062148 B CN 115062148B CN 202210717570 A CN202210717570 A CN 202210717570A CN 115062148 B CN115062148 B CN 115062148B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- database
- bidding
- sentences
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于数据库的风险控制方法,涉及自然语言处理及大数据,包括:对招标文本按照自然段落或者章节进行内容分块;确定多个内容分块中的无关内容分块;在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;识别异常的内容分块;当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;根据各招标文件的异常情况和相似度确定疑似围串标行为;根据所述疑似围串标行为执行风险控制措施。本方案可以特定的规避标书相似度检测的行为,增加风险控制系统的可靠性。
Description
技术领域
本申请涉及自然语言处理及大数据技术,特别是一种基于数据库的风险控制方法。
背景技术
投标是商业上一种公平的竞争方式,但是在投标的显示操作中,围标、串标的行为层出不同,可能是投标人之间进行横向合谋,也可能是投标人和评标专家之间的纵向合谋。这些合谋行为较难发现。
通常,投标人之间进行合谋围标时,往往都有同一个机构或者投标人对各方的标书进行处理,最终由不同投标人签章后进行投标。为了节省人力或者成本,投标人在处理几个机构的标书的时候,往往会采用重复内容。
但是上述手段在目前先进的文字搜索技术条件下,容易被发现。为了混淆目前的相关技术,这些机构会考虑往标书中写入大量无用的内容,这些内容可能与投标毫无关系,这样可以有效降低部分关键词的浓度,使得标书和标书之间的相似度下降。更为先进的方法是投标人会基于正常的标书,利用机器人进行洗稿,机器人会采用近义词替换,句式变换和更换词语顺序等方式生成新的句子,通过这一方式,无论是文字内容匹配,语义分析都难以发现。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于数据库的风险控制方法,可以基于大数据的方式分析投标中采用特定方式规避标书对比检测的串标行为,从而控制投标活动中的风险。
本申请实施例提供了一种基于数据库的风险控制方法,包括:
获取多个招标文本;
对招标文本按照自然段落或者章节进行内容分块;
确定多个内容分块中的无关内容分块;
在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
根据各招标文件的异常情况和相似度确定疑似围串标行为;
根据所述疑似围串标行为执行风险控制措施。
另一方面,本申请实施例提供了一种基于数据库的风险控制方法,本方案基于假设评标专家之间可能存在合谋关系,通过聚类分析将评标专家数据库分为多个数据库,通过设置相应的抽取概率实现了在招投标活动中基于可能存在的合谋关系来抽取评标专家,从而减少合谋关系带来的风险。
该方法包括以下步骤:
S5100、对评标专家数据库进行聚类分析;
S5200、获取当前评标活动所需抽取的评标专家数量K;
S5301、根据评标专家数量K计算对应的聚类层次数;
S5302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
S5303、获取标书分析模块标记的可疑投标人,所述标书分析模块执行上述实施例的步骤S1~S9;
S5304、根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
S5305、在多个数据库中删除最高关联程度值所对应的数据点;
S5400、从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动;
步骤S1~S9包括:
S1、获取多个招标文本;
S2、对招标文本按照自然段落或者章节进行分割,得到内容分块;
S3、确定多个内容分块中的无关内容分块;
S4、在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
S5、在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
S6、对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
S7、当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
S8、当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
S9、根据各招标文件的异常情况和相似度确定疑似围串标行为,确定可疑投标人。
本申请实施例通过获取多个招标文本,然后对招标文本按照自然段落或者章节进行内容分块,接着确定多个内容分块中的无关内容分块,并基于无关内容分块的比例来确定是否通过放入大量无关内容规避相似度检查的异常投标文件;随后在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度,通过这一方式可以在塞入无关内容的标书中找到相似的标书;接着在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;通过分析异常语句的方式,可以排查出通过机器人洗稿生成的标书,这些标书虽然与内容相关,并且可以降低标书之间的相似度,但是通过机器人洗稿的方案会留下异常的痕迹,可以通过检测异常句子找到异常内容,从而找出异常的标书;接着当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;然后根据各招标文件的异常情况和相似度确定疑似围串标行为;这样无论是普通的内容雷同,还是通过某些技术进行洗稿或者加入无关内容也难以规避审查,可见,通过本方案可以很好地根据所述疑似围串标行为执行风险控制措施。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本方案实施例提供的基于数据库的风险控制方法的流程图;
图2是本方案实施例提供的异常语句分析模型的结构示意图;
图3是本方案实施例提供的语序异常分支的示意图;
图4是本方案实施例提供的搭配异常分支的示意图
图5是本方案实施例提供的基于数据库的风险控制方法的步骤流程图;
图6为图5步骤S5100的一具体实施例;
图7为图5步骤S5300的一具体实施例;
图8为树状图显示层次聚类实例。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下将参照本申请实施例中的附图,通过实施方式清楚、完整地描述本申请的技术方案,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,本实施例公开了一种基于数据库的风险控制方法,其可以用于分析投标文件异常的投标风险控制系统之中,可以理解的是,投标人通过电子投标的方式,在系统中录入标书,或者通过纸质投标的方式经过电子转换后将投标文件电子化,都可以将电子化的表述文件作为分析的对象,包括:
S1、获取多个招标文本。可以是电子标书,也可以是由纸质标书转换得到的电子标书。一般情况下需要能够读取招标文本中的文字。
S2、对招标文本按照自然段落或者章节进行分割,得到内容分块。可以按照电子标书中的段落分块,也可以识别出章节关系,按照章节进行分块。具体可以根据标书的特点统一设定。对于较长的段落也可以分成多块。
S3、确定多个内容分块中的无关内容分块。为了降低标书之间的相似度,陪标的标书中可能加入大量的无关内容来降低标书之间的相似度。确定无关的内容分块,一方面可以识别出异常的标书,也可以去掉这些内容来分析标书之间的相似度,这样可以更大可能分析出两者标书的真实相似度。
具体地,在步骤S3之中,包括:
S31、针对每个内容分块进行关键词统计,得到每个内容分块中最高频的N个关键词。例如,选择每个内容分块中的五个高频词。需要理解的是,高频词通常是某类词语,例如,名词、形容词等,而非助词等不表达具体含义的词语。
S32、分析内容分块对应的N个关键词是否与投标主题关联,并且判断内容分块对应的N个关键词是否出现在多个投标文件中,若N个关键词中超过第一设定比例的关键词与投标主题无关且N个关键词中超过第一设定比例的关键词未出现在其他投标文件中时,将N个关键词所对应的内容分块判定为无关内容分块。
例如,在一个内容块中,关键词是“高频”、“电流”、“电容”,假设本次投标是关于电子设备的,可以通过知识图谱的方式找到这些词语和本次招标主题的关系。当然,寻找关键词和投标主题之间的关系的方式有很多种,例如,可以构建一个与招标相关的词库,然后通过语义相似度来分析关键词是否与主题相关。而分析N个关键词是否存在于其他文本的条件时,主要考虑的是,有可能在设置主题词库或者知识图谱的时候有所遗漏,另一方面是考虑到如果有其他招标文件涉及相关的词语,说明对于分析相似度是有帮助的,这些内容可以认为是有关的内容。即便实质上是无关内容,在计算相似度的时候,会增加同时放入类似无关内容的标书之间的相似度。例如,可以将N设置为5,第一设定比例可以设置为80%,即5个词里面有4个没有出现在其他内容中,又不属于和主题有关的内容。N的数量和具体的阈值,可以根据实际测试情况调试。在不同的判断中第一设定比例可以是不同的值。
S4、在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度。
在本实施例中,可以采用语义分析、TF-IDF方法、LDA方法等等。相似度分析不是本方案所讨论的重点。本方案主要针对为了规避相似度检查而采用特定手段进行规避的情形,各种检测标书异常的手段可以在一个系统中并用,或者以前后步骤的方式串行实施。可以理解的是,如果标书只是单纯采用重复复制和塞入无效内容的方式,标书在去除无效内容之后,相似度会比较高。直接通过相似度就可以判定出异常的情况。如果采用机器人洗稿等方式,会对现有的相似度分析方法产生干扰,使得招标文本之间的相似度降低。但是对于此类情况,可以通过识别机器洗稿的痕迹来发现。
S5、在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子。在本实施例中,采用抽样的方式来减少运算量,抽样数量可以根据实际情况来设定。然后将抽样得到的内容分块进行语句拆分。拆分方式可以按照句号的分布来拆分。
S6、对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句。
具体地,参照图2,本实施例所采用的检测异常句子的模型包括语序异常分支和搭配异常分支。
其中,所述语序异常分支用于检测词语顺序异常的情况,所述搭配异常分支用于检测词语搭配异常的情况,其中,所述异常语句分析模型在语序异常分支和搭配异常分支的至少之一检测到异常时,判定语句为异常语句。
参照图3,针对语序异常分支进行说明。
如图3所示,在语序异常分支中,包括一个分词单元,一个语义向量嵌入单元,词性类别(即主谓宾成分)分析单元,组合单元,第一分类器和判定单元。
其中,分词单元用于将句子分词,可以采用jieba、hanlp等分词模型,然后语义向量嵌入单元将词语进行词嵌入,映射到语义空间之中,用语义向量表示,语义向量嵌入单元可以利用诸如word2vec、BERT等工具实现。接着词性类别分析单元用于分析句子中各分词的主谓宾成分,这一单元可以采用词性标注模型实现这些模型等。组合单元,用于按照一定的方式组合样本送入到第一分类器进行分类,然后判定单元根据分类器分类的结果输出分支的结果。
以图3中的例子,“他快乐地告诉大家”,输入到分词单元后被分词成:“他;快乐地;告诉;大家”。然后在语义向量嵌入单元分别转换成V11、V12、V13、V14。在词性类别分析单元转换成词性对应的向量即V21、V22、V23、V24。接着组合单元将相邻的词语按照语义向量+词性向量的方式将前后两个词的有关向量按顺序进行拼接。图3的例子中,四个词语会有三对组合。第一分类器根据词语顺序和词性判断结果。在训练时,可以基于正常的句子进行分词,替换词语的顺序,例如,“他在吃饭”,随机打乱“吃”和“饭”变成“他在饭吃”,显然,“饭吃”不是一个正常的语序。在部分例子中,由于词语具有词性,在某些词性的情况下,两个词的顺序是正常的,但是在另一种词性的情况下,这两个词语的组合确实不正常的。因此,增加词性进行训练,可以增加识别率。第一分类器经过训练,可以有效分类这些不正常的搭配。从而将随机打乱顺序的句子进行识别。
结合图3可知,所述语序异常分支工作步骤包括:
S611、对语句进行分词,得到多个第一候选词;
S612、将各第一候选词转换为语义向量;
S613、提取第一候选词对应的词性类别向量;
S614、将各第一候选词的语义向量与对应的词性类别向量进行拼接,得到每个第一候选词对应的第一融合向量;
S615、将相邻两个第一候选词的第一融合向量按顺序拼接后送入第一分类器进行分类,得到是否异常的结果;
S617、当超过预设组的分类结果是异常时,判定为异常。
参照图4,针对搭配异常分支进行说明。如图4所示,在搭配异常分支包括一个分词单元,一个语义向量嵌入单元,词性类别分析单元,组合单元,第二分类器和判定单元。可以理解的是,分词单元,一个语义向量嵌入单元,词性类别分析单元均可以复用前面分支的,主要是训练第二分类器,第二分类器的输入参数与第一分类器不同。第二分类器输入的两组词语义向量和类别向量的拼接。在机器洗稿的时候,可能会将部分词语随机替换成一些同义词来规避检查。替换成同义词后,即便是采用语义分析的方式,也会导致句子的语义向量发生变化,相似度降低。但是,这样会产生一些异常的组合。例如,“今晚吃丰盛的晚餐”,经过同义词替换后可能会变成“今夜食丰富的晚饭”,显然,“食”和“晚饭”就句子中的词性而言,并非一个正常的搭配。通过大量的语料训练,可以学习到正常的表达方式,遇到这类不正常的表达方式后,分类器就可以分类出来。同样地,判定单元也可以根据第二分类器的结果进行输出。可以理解的是判定单元可以在检测到句子中有一个或者以上的异常时,输出句子异常的结果。从图4中可知,4个词可以形成6种组合关系。输入是两个向量参数,分别是两个词对应的语义向量和词性向量的拼接。
结合图4可知,所述搭配异常分支工作步骤包括:
S621、对语句进行分词,得到多个第二候选词;
S622、将各第二候选词转换为语义向量;
S623、提取第二候选词对应的词性类别向量;
S624、将各第二候选词的语义向量与对应的词性类别向量进行拼接,得到每个第二候选词对应的第二融合向量;
S625、将每两个第二候选词的第二融合向量作为一组送入第二分类器进行分类,得到是否异常的结果;
S626、当超过预设组的分类结果是异常时,判定为异常。
S7、当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块。例如,可以设置一个比例,或者设置一个数值,例如超过五个句子存在异常则判定为异常内容分块。
S8、当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件。例如,有超过5个异常的内容分块,或者无关内容占比20%以上,可以判定整个标书是异常的。
S9、根据各招标文件的异常情况和相似度确定疑似围串标行为。具体是:
S91、将异常招标文件和与异常招标文件相似度超过第一阈值的招标文件关联到同一疑似围串标行为。可以理解的是,进行围串标的文件之中通常有一个正常的标书,而与异常投标文件比较接近的标书就可能是该标书。因此,可以利用前述步骤的相似度分析结果来发现围串标的人实际希望中标的标书。由于标书存在异常,可能进行过洗稿等方式,因此第一阈值可以设置得相对低一点,因为如果相似度过高,则有可能是属于直接复制的方式。
S92、将相似度超过第二阈值的招标文件关联到同一疑似围串标行为。其中,第二阈值大于第一阈值。可以理解的是,在该步骤的情况中,围串标人可能采取直接复制相同内容到不同标书的方式进行投标,这步骤可以直接基于相似度检出标书抄袭的围串标行为。
S10、根据所述疑似围串标行为执行风险控制措施。例如,可以在标书评审环节时,通过可视化的方式标出异常句子在标书中的位置,专家就可以根据这些细节进行评标,从而人工甄别出是否围串标行为。当然,也可以基于围标串标行为进行预警、调整或者选择评标专家等。
下面对语义分析模型的训练方法进行说明:在一些实施例中,所述异常语句分析模型通过以下方式得到:
A1、构建同义词数据库和标准语句数据库。这些数据库可以根据投标的行业特点增加相关的语料。上述语料获取相对容易,成本较低,并且可以利用一些现成的模型来做训练样本生成的工作,实现半监督或者无监督样本生成,实现较低成本获取训练样本来训练模型。
A2、基于标准语句数据库中的语句通过交换句子中词语位置的方式构造第一类异常样本。当然,在本步骤中,会对交换词语位置的语序在数据库中进行检索,并根据是否检索到相同的语序,或者根据检索到相同的语序的句子数量来确定是否作为异常样本。例如,今天天气好晴朗,将“今天”和“天气”交换,得到“天气今天好晴朗”而在数据库中,可能会检索到“天气今天”这样的语序,说明这是一个正常的语序。而如果将“好”和“晴朗”交换,则变成“今天天气晴朗好”,显然,“晴朗好”在词库中检索到的概率非常低,即检索到的相关搭配非常少,因此可以判定是异常的语序。加上词性分析,可以更大概率分辨这些样本是否可以作为异常样本。
A3、基于标准语句数据库中的语句,查找语句中待替换词语的同义词,检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,或者检查同义词与语句中其他词语的搭配存在于标准语句数据库的语句中的数量是否大于设定值,若否,则将待替换词语更换成同义词,从而构成第二类异常样本。同理,在本步骤中,可以这样进行处理,例如,“今晚吃大餐”,将“吃”,替换成“食”,如果“食”和“大餐”的搭配没有在数据库中存在或者数量极少,则可以作为异常样本。
A4、利用第一类异常样本对语序异常分支进行训练,直到语序异常分支满足预设条件。
A5、利用第二类异常样本对搭配异常分支进行训练,直到搭配异常分支满足预设条件。在A4和A5中,预设条件可以是在验证集上收敛或者达到预设的迭代次数。
A6、将第一类异常样本和第二类异常样本进行混合后,对异常语句分析模型进行整体训练,直到满足预设条件。可以理解的是,通过对分支进行训练,在组合训练的方式,可以同时对模型不同分支进行训练,提高训练的效率。
当然,在进行模型的整体训练之前,可以先对第一分类器和第二分类器进行预训练,在一些实施例中,所述第一分类器预训练后,在语序异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句通过交换句子中词语位置的方式得到候选异常语序词组;
在标准语句数据库中检索是否有对应语序的词组,或者在标准语句数据库中检索有对应语序的词组的句子数量是否大于设定值。
若是,则标语序词组标记为正常语序样本;若否,则将语序词组标记为异常语序样本。
根据正常语序样本和异常语序样本对第一分类器进行训练。
在一些实施例中,所述第二分类器预训练后,在搭配异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句,查找语句中待替换词语的同义词。
检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,或者检查同义词与语句中其他词语的搭配存在于标准语句数据库的语句中的数量是否大于设定值。
若是,则将数据库中存在搭配关系的两个组标记为正常搭配样本;若否,则将数据库中不存在搭配关系的两个组标记为异常搭配样本,根据异常搭配样本和正常搭配样本对第二分类器进行训练。
需要理解的是,这里的设定值约束的是同义词和句子中另一个词语的搭配存在于标准语句数据库的语句中的数量。例如,今天天气好晴朗,将“今天”替换成“今日”,则需要分析“今日”和“天气”这样的搭配在数据库中的数量是否超过阈值。
从上述实施例可知,本方案所采用的模型的训练样本,可以通过普通的语料,结合一定的自然语言处理模型或者特定的算法可以实现半监督或者无监督的学习,降低了模型训练的成本。并且在分类上可以准确地实施分类,识别出投标文件中的异常情况,从而进一步进行风险控制。
接着,下面的实施例针对本方案的下游业务,即关于整个投标环节风险控制的方案进行说明,在现实的投标活动中,评标专家之间的合谋关系发现的难点在于评标专家是通过一定步骤从评标专家数据库抽取出来,而评标专家信息在初期已经录入数据库,该抽取过程中通常不需要评标专家提供额外信息,因此难以通过诸如投标资料信息分析的方式获取评标专家之间的合谋关系。现有的专家抽取方法中,通常会根据评标物资种类、评标专家专业等信息抽取专家,并在抽取过程中保证随机性、均衡性,从而实现评标公正。
现有方案中希望通过预测专家的公正性来设立合理的抽取规则,其关注的是投标人与专家之间的纵向合谋关系。但是每次招投标活动中都需要基于投标人与专家之间的纵向关系来重新计算公正和专业指数,随着数据库的不断扩充,每一次新的招投标活动都将带来极大的计算量;并且,在考虑专家公正性的过程中未将评标专家之间的横向关系考虑在内,而横向合谋关系正是缺乏分析发现的大数据基础;其次,评标专家之间的横向合谋关系不仅体现在对投标方的偏袒,也可能体现在对投标方的偏见,例如在预测公正和专业指数的过程中选择的评审团排除了对投标方的偏袒,但可能增加了对某些投标方的偏见,究其根本原理,仍在于专家抽取过程中无法排除横向合谋关系带来的影响。
在整体的应用构思中,可以利用数据库中的信息来分析投标人之间存在的关系,分析投标人与专家之间的关系,以及专家与专家之间的关系来发现围串标行为。
参考图5,本方案提供的一种基于数据库的风险控制方法,包括以下步骤:
S5100、对评标专家数据库进行聚类分析。
评标专家数据库中预先录入了专家信息,例如专家的姓名、年龄、地域、专业方向、专业头衔、任职单位、任职年限、职称等等,基于上述信息聚类分析可获取专家之间的关联程度,关联越紧密则越可能存在潜在的横向合谋关系;
S5200、获取当前评标活动所需抽取的评标专家数量K。
S5300、根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量为K的多个数据库。
S5400、从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动。
需抽取K个专家时,将评标专家数据库分为K个数据库,由于每个数据库是聚类得到的,其中专家的关系最可能潜在合谋关系,因此从多个数据库中等概率地抽取K个评标专家,而非从评标专家数据库中等概率地抽取K个评标专家。
本方案的等概率抽取方式可参照以下方式:
等概率抽取方式:
多个数据库的数据库内样本被抽取的概率相等,且每个数据库的所有样本被抽取概率之和为1/K。
例如评标专家数据库的专家数N=N1+…+NK;
第一数据库中每个专家被抽取的概率为1/KN1;第二数据库中每个专家被抽取的概率为1/KN2,依此类推。
进一步作为优选的实施方式,所述对评标专家数据库进行聚类分析,具体为:
对评标专家数据库进行凝聚层次聚类分析。
通常来说,层次聚类分析的计算量大,复杂度高,但评标专家数据库的更新是非实时性的,而层次聚类分析不需要预先制定聚类的数量,因此不同的招投标活动中即使需要的评审专家数量不同,而一次层次聚类分析结果可重复使用,避免了每次招投标活动都需要单独聚类分析计算,可以前期做好层次聚类分析,后期直接调用聚类结果,层次聚类分析的计算量大复杂度高的缺点不会影响分析计算过程。
参照图6,进一步作为优选的实施方式,步骤S5100具体包括:
S5101、将评标专家数据库中的每个数据点作为一个聚类;
参照图8,以树状图显示一个简化的层次聚类实例,其中评标专家数据库中对应有10为专家p0~p9,纵坐标数字表示聚类的层次数。
S5102、计算每两个聚类之间的距离,合并两个距离最近的聚类;
如图所示第一次聚类时,将专家p8和p9对应的数据点合并为一个聚类。
S5103、重复上述步骤直至聚类数量小于设定阈值。
进一步作为优选的实施方式,所述距离为簇间最小距离、簇间最大距离或者簇间平均距离。
除此之外,距离的计算方法还可采用Ward方法或质心方法,但相对来说层次聚类算法已经复杂度较高,而本方案中重点是对专家之间的关系进行定性处理,无需更精细的计算,基于计算量的考虑,本发明实施例中采用上述三种距离计算方法可大幅减少计算量,避免在更新评标专家数据库时增加过多的计算量。
参照图7,进一步作为优选的实施方式,步骤S5300具体包括:
S5301、根据评标专家数量K计算对应的聚类层次数;
参考图6的实例,假设评标专家数据库中10位专家中需要抽取的评标专家数量K=3,则计算对应的聚类层次数L=N-K,N为评标专家数据库中的专家数10,则L=7。
S5302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库。
利用图中层次7对应的水平虚线对树状图进行截取,从左至右的三个截点分别对应三个聚类的数据库,其中第一个数据库包括三位专家数据{p0,p1,p2},第二个数据库包括二位专家数据{p3,p4},第三个数据库包括五位专家数据{p5,p6,p7,p8,p9}。
假设采用上述等概率抽取方式,第一个数据库三位专家{p0,p1,p2}中每一位被抽取的概率相当于1/9,第二个数据库二位专家{p3,p4}中每一位被抽取的概率相当于1/6,第三个数据库五位专家{p5,p6,p7,p8,p9}中每一位被抽取的概率相当于1/15,各专家并非被等概率的抽取。
参照图7,进一步作为优选的实施方式,步骤S5300具体包括:
S5301、根据评标专家数量K计算对应的聚类层次数;
参考图8的实例,假设评标专家数据库中10位专家中需要抽取的评标专家数量K=5,则计算对应的聚类层次数L=N-K,N为评标专家数据库中的专家数10,则L=5。
S5302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
利用图中层次5对应的水平虚线对树状图进行截取,从左至右的三个截点分别对应五个聚类的数据库,其中第一个数据库包括三位专家数据{p0,p1,p2},第二个数据库包括一位专家数据{p3},第三个数据库包括一位专家数据{p4},第四个数据库包括二位专家数据{p5,p6},第五个数据库包括三位专家数据{p7,p8,p9}。
S5303、获取标书分析模块标记的可疑投标人。其中可以理解的是,可以通过投标文件的分析来确定疑似的围串标行为,从而分析纵向合谋的可能性。
S5304、根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
投标人数据库与评标专家数据库通常会有部分相同类型的数据,例如地域、任职单位、任职年限等,可用于计算投标人与评标专家的关联程度。即使可疑投标人在评标人审核中被排除,基于风险控制的角度,也应该考虑将关联程度高的评标专家在当前的招投标活动中同样予以排除,但该排除操作并非常规意义上的专家回避制度,而是为了排除潜在风险,而非回避制度中的排除确定风险。
S5305、在多个数据库中删除最高关联程度值所对应的数据点。
其中最高关联程度值所对应的数据点可以是最高的一个或者最高的几个,可根据实际需要自行设定。假设步骤S5304中得到可疑投标人与评标专家数据库中每个数据点的关联程度值排序后需要排除最高关联程度值所对应的一个数据点,且该数据点为p0,后续步骤中基于新的第一个数据库数据{p1,p2}进行计算。
综上所述,本申请实施例提供了一种基于数据库的风险控制方法,本方案基于假设评标专家之间可能存在合谋关系,通过聚类分析将评标专家数据库分为多个数据库,通过设置相应的抽取概率实现了在招投标活动中基于可能存在的合谋关系来抽取评标专家,从而减少合谋关系带来的风险。
本方法包括以下步骤:
S5100、对评标专家数据库进行聚类分析。
S5200、获取当前评标活动所需抽取的评标专家数量K。
S5300、根据评标专家数量K以及聚类分析结果将评标专家数据库分为数量为K的多个数据库。
S5400、从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动。
其中,步骤S5300具体包括:
S5301、根据评标专家数量K计算对应的聚类层次数;
S5302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库。
S5303、获取标书分析模块标记的可疑投标人。所述标书分析模块执行上述实施例的步骤S1~S9。
S5304、根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值。
S5305、在多个数据库中删除最高关联程度值所对应的数据点。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (8)
1.一种基于数据库的风险控制方法,其特征在于,包括:
获取多个招标文本;
对招标文本按照自然段落或者章节进行分割,得到内容分块;
确定多个内容分块中的无关内容分块;
在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
根据各招标文件的异常情况和相似度确定疑似围串标行为;
根据所述疑似围串标行为执行风险控制措施;
所述异常语句分析模型,包括语序异常分支和搭配异常分支,其中,所述语序异常分支用于检测词语顺序异常的情况,所述搭配异常分支用于检测词语搭配异常的情况,其中,所述异常语句分析模型在语序异常分支和搭配异常分支的至少之一检测到异常时,判定语句为异常语句;
所述异常语句分析模型通过以下方式得到:
构建同义词数据库和标准语句数据库;
基于标准语句数据库中的语句,通过交换句子中词语位置的方式构造第一类异常样本;
基于标准语句数据库中的语句,查找语句中待替换词语的同义词,检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,若否,则将待替换词语更换成同义词,从而构成第二类异常样本;
利用第一类异常样本对语序异常分支进行训练,直到语序异常分支满足预设条件;
利用第二类异常样本对搭配异常分支进行训练,直到搭配异常分支满足预设条件;
将第一类异常样本和第二类异常样本进行混合后,对异常语句分析模型进行整体训练,直到满足预设条件。
2.根据权利要求1所述的一种基于数据库的风险控制方法,其特征在于,包括:所述确定多个内容分块中的无关内容分块,具体是:
针对每个内容分块进行关键词统计,得到每个内容分块中最高频的N个关键词;
分析内容分块对应的N个关键词是否与投标主题关联,并且判断内容分块对应的N个关键词是否出现在多个投标文件中,若N个关键词中超过第一设定比例的关键词与投标主题无关且N个关键词中超过第一设定比例的关键词未出现在其他投标文件中时,将N个关键词所对应的内容分块判定为无关内容分块。
3.根据权利要求1所述的一种基于数据库的风险控制方法,其特征在于,所述语序异常分支工作步骤包括:
对语句进行分词,得到多个第一候选词;
将各第一候选词转换为语义向量;
提取第一候选词对应的词性类别向量;
将各第一候选词的语义向量与对应的词性类别向量进行拼接,得到每个第一候选词对应的第一融合向量;
将相邻两个第一候选词的第一融合向量按顺序拼接后送入第一分类器进行分类,得到是否异常的结果;
当超过预设组的分类结果是异常时,判定为异常。
4.根据权利要求1所述的一种基于数据库的风险控制方法,其特征在于,所述搭配异常分支工作步骤包括:
对语句进行分词,得到多个第二候选词;
将各第二候选词转换为语义向量;
提取第二候选词对应的词性类别向量;
将各第二候选词的语义向量与对应的词性类别向量进行拼接,得到每个第二候选词对应的第二融合向量;
将每两个第二候选词的第二融合向量作为一组送入第二分类器进行分类,得到是否异常的结果;
当超过预设组的分类结果是异常时,判定为异常。
5.根据权利要求3所述的基于数据库的风险控制方法,其特征在于,所述第一分类器预训练后,在语序异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句通过交换句子中词语位置的方式得到候选异常语序词组;
在标准语句数据库中检索是否有对应语序的词组或者是否超过设定数量的语句有对应语序的词组;
若是,则标语序词组标记为正常语序样本;若否,则将语序词组标记为异常语序样本;
根据正常语序样本和异常语序样本对第一分类器进行训练。
6.根据权利要求4所述的基于数据库的风险控制方法,其特征在于,所述第二分类器预训练后,在搭配异常分支中进行训练,所述预训练包括:
基于标准语句数据库中的语句,查找语句中待替换词语的同义词;
检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,或者检测检查同义词与语句中其他词语的搭配存在于标准语句数据库的语句中的数量是否超过设定数量;
若是,则将数据库中存在搭配关系的两个组标记为正常搭配样本;若否,则将数据库中不存在搭配关系的两个组标记为异常搭配样本,根据异常搭配样本和正常搭配样本对第二分类器进行训练。
7.根据权利要求4所述的基于数据库的风险控制方法,其特征在于,还包括以下步骤:
通过可视化的方式标出异常句子在标书中的位置。
8.根据权利要求4所述的基于数据库的风险控制方法,其特征在于,所述根据各招标文件的异常情况和相似度确定疑似围串标行为,具体是:
将异常招标文件和与异常招标文件相似度超过第一阈值的招标文件关联到同一疑似围串标行为;
将相似度超过第二阈值的招标文件关联到同一疑似围串标行为;
其中,第二阈值大于第一阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717570.7A CN115062148B (zh) | 2022-06-23 | 2022-06-23 | 一种基于数据库的风险控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717570.7A CN115062148B (zh) | 2022-06-23 | 2022-06-23 | 一种基于数据库的风险控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115062148A CN115062148A (zh) | 2022-09-16 |
CN115062148B true CN115062148B (zh) | 2023-06-20 |
Family
ID=83202919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210717570.7A Active CN115062148B (zh) | 2022-06-23 | 2022-06-23 | 一种基于数据库的风险控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062148B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982324A (zh) * | 2023-03-20 | 2023-04-18 | 广东电网有限责任公司广州供电局 | 基于改进的自然语言处理的采购文件检验方法 |
CN116720773B (zh) * | 2023-06-06 | 2024-02-13 | 陕西华春网络科技股份有限公司 | 基于分块评标的招标方法和装置 |
CN117710073B (zh) * | 2024-02-05 | 2024-05-24 | 青岛儒海船舶工程有限公司 | 一种智能组标方法和系统 |
CN117808441B (zh) * | 2024-03-01 | 2024-05-10 | 江苏省港口集团有限公司 | 一种投标信息核查方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955326A (zh) * | 2018-09-26 | 2020-04-03 | 益驰京采资通股份有限公司 | 信息数据传达通讯系统及其方法 |
CN110992059A (zh) * | 2019-11-22 | 2020-04-10 | 浙江招天下招投标交易平台有限公司 | 一种基于大数据的围串标行为识别分析方法 |
CN111274783A (zh) * | 2020-01-14 | 2020-06-12 | 广州供电局有限公司 | 一种基于语义相似分析的围串标智能识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5678774B2 (ja) * | 2011-03-31 | 2015-03-04 | 国立大学法人鳥取大学 | テキストデータの冗長性を解析する情報解析装置 |
US11074253B2 (en) * | 2018-11-02 | 2021-07-27 | International Business Machines Corporation | Method and system for supporting inductive reasoning queries over multi-modal data from relational databases |
CN110211571B (zh) * | 2019-04-26 | 2023-05-26 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
CN110705262B (zh) * | 2019-09-06 | 2023-08-29 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN112258303B (zh) * | 2020-11-16 | 2024-04-30 | 北京筑龙信息技术有限责任公司 | 围串标预警分析方法、装置、电子设备及存储介质 |
CN112488487A (zh) * | 2020-11-25 | 2021-03-12 | 国网河北省电力有限公司物资分公司 | 基于智慧运营中心的电力物资供应链体系及其构建和应用 |
CN112580299A (zh) * | 2020-12-30 | 2021-03-30 | 讯飞智元信息科技有限公司 | 智能评标方法、评标设备及计算机存储介质 |
CN112990281A (zh) * | 2021-03-01 | 2021-06-18 | 中国工商银行股份有限公司 | 异常投标识别模型训练方法、异常投标识别方法及装置 |
CN113129118A (zh) * | 2021-05-17 | 2021-07-16 | 政采云有限公司 | 一种基于自然语言处理的围标串标行为识别方法及装置 |
-
2022
- 2022-06-23 CN CN202210717570.7A patent/CN115062148B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955326A (zh) * | 2018-09-26 | 2020-04-03 | 益驰京采资通股份有限公司 | 信息数据传达通讯系统及其方法 |
CN110992059A (zh) * | 2019-11-22 | 2020-04-10 | 浙江招天下招投标交易平台有限公司 | 一种基于大数据的围串标行为识别分析方法 |
CN111274783A (zh) * | 2020-01-14 | 2020-06-12 | 广州供电局有限公司 | 一种基于语义相似分析的围串标智能识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115062148A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115062148B (zh) | 一种基于数据库的风险控制方法 | |
Athar et al. | Detection of implicit citations for sentiment detection | |
US9058327B1 (en) | Enhancing training of predictive coding systems through user selected text | |
EP1528486A2 (en) | Classification evaluation system, method, and program | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
KR101593371B1 (ko) | 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템 | |
JP2019212115A (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
Onah et al. | A data-driven latent semantic analysis for automatic text summarization using lda topic modelling | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
CN114297393A (zh) | 融合多元文本信息和报告意图的软件缺陷报告分类方法 | |
Chong et al. | Comparison of naive bayes and SVM classification in grid-search hyperparameter tuned and non-hyperparameter tuned healthcare stock market sentiment analysis | |
CN115544213B (zh) | 获取文本中的信息的方法、设备和存储介质 | |
CN111859032A (zh) | 一种短信拆字敏感词的检测方法、装置及计算机存储介质 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN115270763B (zh) | 一种基于多数据库的风险控制方法 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
Panthum et al. | Generating functional requirements based on classification of mobile application user reviews | |
CN113971403A (zh) | 一种考虑文本语义信息的实体识别方法及系统 | |
CN112115362A (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |