CN113011174B

CN113011174B - 一种基于文本分析的围标串标识别方法

Info

Publication number: CN113011174B
Application number: CN202011430658.8A
Authority: CN
Inventors: 张攀; 何斌; 罗金波; 李单丹; 杨红宇; 马楠; 李婧娴; 刘明冬
Original assignee: Hongta Tobacco Group Co Ltd
Current assignee: Hongta Tobacco Group Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-08-11
Anticipated expiration: 2040-12-07
Also published as: CN113011174A

Abstract

本发明公开了一种基于文本分析的投标文件围标串标识别方法，属于数据处理领域，该方法通过计算文本相似性、生僻词数相似度和关键要素区域匹配相似度，通过三个方面的权重加权计算标书围标串标风险值进而判断围标串标的可能性。该方法通过文本分析的方法分析标书围标串标的可能性，提升了对标书围标串标情况的审查效率、分析质量和分析的全面性，重点从生僻词和关键词的角度进行分析，有效避免标书造假者采用转换通用表述的方式规避审查，进一步提升围标串标分析的准确性。

Description

一种基于文本分析的围标串标识别方法

技术领域

本发明属于信息数据处理领域，更具体的说一种基于文本分析的围标串标识别方法。

背景技术

围标串标是一种恶意竞争，损害市场公平秩序的行为，会使中标结果操纵在少数几家企业手中，而使有优势有实力中标的优质投标人失去中选机会，同时使招标企业面临产品质量和履约质量的风险。标书有信息量大、非结构化及内容复杂的特点，因此单纯靠人工审查一方面是效率低，另一方面是会出现遗漏和判断失误的问题。因此有必要提出一种数据自动分析的方法对标书是否围标串标进行识别。

发明内容

为了克服现有技术的上述不足，本发明提出了一种基于文本分析的围标串标识别方法，解决现有人工识别围标串标效率不高，容易出现遗漏的问题。

为了实现上述目的，本发明是采用以下技术方案实现的：一种基于文本分析的围标串标识别方法，具体包括以下步骤；

S1：分词统计词频：进行分词处理，去除停用词，统计分词的词频 TF和词数TC；

S2：基于IF-IDF计算文本相似度：通过TF-IDF计算方法计算相似性；

S3：计算生僻词数相似度：运用出现频数低的词数计算生僻词相似度；

S4：进行关键要素区域匹配：运用关键要素数据，在关键词区域内进行文字匹配，得到匹配情况结果。

S5：预警权重模型计算：根据经验设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重，通过这三个维度的加权平均计算得到两份标书的总体相似度，通过相应阈值判断是否围标串标，并输出分析报告。

进一步的，S1中分词处理，去除停用词，统计分词的词频TF和词数 TC的步骤是：

S11：使用中文分词的常规方法对文件进行分词处理；

S12：将每一个分词分别与停用词库中的词进行比较，如果是停用词库的词则删除；

S13：词频TF为分词在该文档出现的次数与整个文档分词出现次数的比值；

S14：词数TC为分词在该文档出现的次数；

进一步的，S2中基于TF-IDF计算文本相似度的步骤如下：

S21：计算每个分词的反文档频率IDF；

S22：计算两个标书中每一个分词结果的TF-IDF值，该值为分词TF 乘以IDF的结果；

S23：将所有分词的TF-IDF值进行余弦相似度计算；

进一步的，S3中计算生僻词数相似度的步骤如下：

S31：分别检索两个标书词数TC小于及等于w的分词，w根据经验调整，一般为1至20之间的整数；

S32：将满足S31条件的所有同时出现在两个标书中的分词的词数TC累加，得到总数NTC；

S33：将满足S31条件的两个标书中所有分词的次数TC累加，得到总数STC；

S34：NTC/STC则为生僻词数相似度；

进一步的，S4中进行关键要素区域匹配的步骤如下：

S41：关键要素数据中包含关键词及检索长度s信息，检索长度s根据经验调整，一般为4至6之间的整数；

S42：分别在两个标书中检索关键词，并截取从关键词结束位置之后s长度的字符串；

S43：分别对两个标书关键字之后s长度的字符串进行匹配，如果出现相同的长度大于1的字符串，该字符串的长度为len则计len；

S44：取所有len值中的最大值maxlen，则关键要素区域匹配相似度 E＝maxlen/检索长度s；

进一步的，S5中预警权重模型计算方式如下：

S51：标书围标串标风险值S＝T×α+C×β+E×γ；

S52：T为基于TF-IDF计算文本相似度；

S53：C为生僻词数相似度；

S54：E为关键要素区域匹配相似度；

S55：α、β、γ为权重，根据经验进行调整，α、β、γ三个之和为1；

进一步的，将S5中标书围标串标风险值与设置的阈值进行比较，如果相似度超过阈值，则两份文件有围标串标的风险，进行预警，无论是否预警都输出包含文本相似度、生僻词数相似度和关键要素区域匹配相似度及分析过程数据的报告。

本发明有益效果：

一、通过文本分析的方法分析标书围标串标的可能性，提升了对标书围标串标情况的审查效率、分析质量和分析的全面性，二、从生僻词的角度分析两份标书是否存在相互复制的可能，能够避免标书造假者采用转换通用表述的方式规避审查，三、对关键词区域内的文本进行匹配，进一步提升围标串标分析的准确性。

附图说明

图1为本发明算法流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、步骤。

如图1所示，种基于文本分析的标书围标串标识别方法，具体包括以下步骤；

S1：对导入的标书文本进行分词处理，使用中文分词的常规方法例如：结巴分词、百度NLP、腾讯文智对文件进行分词处理，使用网络上通用的停用词库或者自建停用词去除停用词，分别统计标书中分词在该标书中出现的次数即为词数 TC，分别将标书中分词词数TC除以该标书中所有分词词数之和，则为每一个分词的词频TF；

S2：基于TF-IDF计算文本相似度；

计算每个分词的反文档频率IDF，IDF计算公式为

计算每个分词的TF-IDF值，公式为：TF×IDF；

运用两个标书分词的TF-IDF值计算文本相似性，公式为：

其中n为两个标书中同时存在的分词的数量，tf-idfa_i和tf-idfb_i分别为同一个分词分别在两个标书中的tf-idf值，保存该文本相似度T值；

S3:基于生僻词数计算文本相似度；

分别检索两个标书词数TC小于及等于w的分词，w根据经验调整，在本例中 w取值为4，将分词词数既小于4又同时出现在两个标书中的分词的词数TC累加，得到总数NTC，将所有两个标书中词数小于4的所有分词词数累加得到STC， NTC/STC则为生僻词数相似度C；

S4：计算关键要素区域匹配相似度：

构建关键要素数据((投标总报价、项目经理、安全负责人........)，5)，该关键要素数据中包含关键词列表，及检索长度5；

分别在两个标书中检索关键词，并截取从关键词结束位置之后5长度的字符串，分别对两个标书关键字之后,字符串进行匹配，如果出现相同的长度大于1 的字符串,该字符串长度为len则计len，取所有len值中的最大值maxlen，关键要素区域匹配相似度E＝maxlen/检索长度5；

S5：按照预警权重模型计算最终结果：

文本相似性T、生僻词数相似度C和关键要素区域匹配相似度E的权重在本例中分别取0.2、0.4、0.4，通过三个相似度的加权平均得到标书围标串标风险值S＝文本相似性T×0.2+生僻词数相似度C×0.4+关键要素区域匹配相似度E ×0.5，将标书围标串标风险值S与与设置的相似度阈值(本例中取0.35)进行比较，如果超过该阈值则进行提示预警，表明两份标书有围标串标的可能性；

在上述数据分析的基础上，还需要将生僻词数相似度C和关键要素区域匹配相似度E的过程及各环节分析的结果输出规整成报告输出，便于辅助判定预警提示是否正确。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于文本分析的围标串标识别方法，其特征在于，具体包括以下步骤；

S1：分词统计词频：进行分词处理，去除停用词，统计分词的词频TF和词数TC；

S3：计算生僻词数相似度：运用出现频率低的词数计算生僻词数相似度；

S4：进行关键要素区域匹配：运用关键要素数据，在关键词区域内进行文字匹配，得到匹配情况结果；

S5：预警权重模型计算：设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重，通过这三个维度的加权平均计算得到两份标书的总体相似度，通过相应阈值判断是否围标串标，并输出分析报告；

所说的S1中分词处理，去除停用词，统计分词的词频TF和词数TC的步骤是：

S11：使用中文分词的常规方法对文件进行分词处理；

S13：词频TF为分词在文件出现的次数与整个文档分词出现次数的比值；

S14：词数TC为分词在文件出现的次数；

所述的S2中基于TF-IDF计算文本相似度的步骤是：

S21：计算每个分词的反文档频率IDF；

S22：计算两个标书中每一个分词结果的TF-IDF值，该值为分词TF乘以IDF的结果；

S23：将所有分词的TF-IDF值进行余弦相似度计算；

所述的步骤S3中计算生僻词数相似度的步骤如下：

S31：分别检索两个标书词数TC小于及等于w的分词；

S34：NTC/STC则为生僻词数相似度；

所述的S4中关键要素区域匹配的步骤如下：

S41：关键要素数据中包含关键词及检索长度s信息；

S44：取所有len值中的最大值maxlen，则关键要素区域匹配相似度E＝maxlen/检索长度s。

2.根据权利要求1所述的一种基于文本分析的围标串标识别方法，其特征在于，所述的S5中将S5中标书围标串标风险值与设置的阈值进行比较，如果相似度超过阈值，则两份文件有围标串标的风险，进行预警，无论是否预警都输出包含文本相似度、生僻词数相似度和关键要素区域匹配相似度及分析过程数据的报告。