CN111160445A

CN111160445A - 投标文件相似度计算方法及装置

Info

Publication number: CN111160445A
Application number: CN201911358125.0A
Authority: CN
Inventors: 邓帅; 余孟泽; 黄斌; 李华; 窦文梅; 李振达
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-15
Anticipated expiration: 2039-12-25
Also published as: CN111160445B

Abstract

本发明公开了一种投标文件相似度计算方法及装置，该方法包括：获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息；根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N‑a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落；根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数；根据所述相同词数确定第一投标文件和第二投标文件的相似度。本发明方法大大提高发现围标串标的效率和准确率，且能够大幅降低人力成本和可扩展性成本。

Description

投标文件相似度计算方法及装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种投标文件相似度计算方法及装置。

背景技术

目前在招标时供应商为了利益可能会出现围标串标行为，极大地损害招标者的利益。投标文件本质上是一个文本篇章，是在招标方发布的投标文件模板的基础上进行完善后添加企业相应的投标内容，进行围标串标的企业其投标书的内容应该会比较类似甚至相同，因此可以对投标书的内容进行考察，从而尽可能的发现围标串标行为。但招标过程中应标的企业较多，目前通过人为阅读和比较，效率低下且准确率不高，难以准确的对围标串标行为进行识别。

发明内容

本发明为了解决上述背景技术中的至少一个技术问题，提出了一种投标文件相似度计算方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种投标文件相似度计算方法，该方法包括：

获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息；

根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落；

根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数；

根据所述相同词数确定第一投标文件和第二投标文件的相似度。

可选的，该方法还包括：

对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息，其中，预处理包括：分词处理、去燥处理以及去除模板内容中的至少一种。

可选的，所述对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息，具体包括：

对所述第一投标文件和所述第二投标文件进行分词处理；

对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理；

对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

可选的，所述根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落，包括：

当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时，确定该两个段落为语义相同的段落。

可选的，所述相同词语查找算法为Rabin-Karp算法。

为了实现上述目的，根据本发明的另一方面，提供了一种投标文件相似度计算装置，该装置包括：

有效文本信息获取单元，用于获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息；

语义相同段落查找单元，用于根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落；

相同词数确定单元，用于根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数；

相似度计算单元，用于根据所述相同词数确定第一投标文件和第二投标文件的相似度。

可选的，该装置还包括：

有效文本信息生成单元，用于对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息，其中，预处理包括：分词处理、去燥处理以及去除模板内容中的至少一种。

可选的，所述有效文本信息生成单元，包括：

分词处理模块，用于对所述第一投标文件和所述第二投标文件进行分词处理；

去燥处理模块，用于对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理；

去除模板内容模块，用于对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

可选的，所述语义相同段落查找单元，还用于当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时，确定该两个段落为语义相同的段落。

可选的，所述相同词语查找算法为Rabin-Karp算法。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述投标文件相似度计算方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述投标文件相似度计算方法中的步骤。

本发明的有益效果为：本发明可以应用在不同的投标应标项目环境中，特别是应标的供应商数量较多时，本发明可以对所有的投标书进行相似性检测，以确定疑似围标串标的标书，与现有的人为地去一一比对不同的招标书相比大大提高发现围标串标的效率和准确率，且能够大幅降低人力成本和可扩展性成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例投标文件相似度计算方法的流程图；

图2是本发明实施例生成投标文件的有效文本信息的流程图；

图3是本发明实施例投标文件相似度计算装置的结构框图；

图4是本发明实施例有效文本信息生成单元的组成结构框图；

图5是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例投标文件相似度计算方法的流程图，如图1所示，本实施例的投标文件相似度计算方法包括步骤S101至步骤S104。

步骤S101，对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

在本发明可选实施例中，投标文件可以为Word或PDF文件，本步骤先对投标文件进行文本提取，提取出对应的文本信息，进而对提取出的文本信息进行预处理，得到投标文件的有效文本信息。在本发明可选实施例中，本步骤的预处理包括：分词处理、去燥处理以及去除模板内容中的至少一种。

在本发明可选实施例中，本发明可以引用Java的工具包进行不同格式文件的文本提取，其中使用了poi提取.doc格式的文本内容、poi-ooxml提取.docx格式的文本内容以及pdfbox提取.pdf格式的文本内容。

步骤S102，根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落。

在本发明的可选实施例中，本步骤的相同词语查找算法可以采用Rabin-Karp算法。Rabin-Karp算法是字符串快速查找的一种算法，解决思路是把一个字符串，看作是字符集长度进制的树，如果是ASCII，这个进制就是128，如果是只考虑英文小写字母，那这个进制就是26，通过数值的比较得出字符串的比较结果。

在本发明的可选实施例中，本步骤在查找语义相同的段落时，当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时，确定该两个段落为语义相同的段落。

在本发明实施例中，N为正整数，a为大于等于0且小于3的整数，b为大于等于0且小于3的整数。

在本发明实施例中，在得到第一投标文件和第二投标文件的有效文本信息后，本步骤采用了Rabin-Karp算法来进行相同词语的查找工作，因为Rabin-Karp算法只是简单的相同词语查找算法，所以本发明在此基础上进行了优化：首先是分页的进行查找工作，投标文件是一个页数较多的文件，如果将一份投标文件的首页与另一份投标文件的尾页进行比较是毫无实际意义的做法，所以本发明采取了同页或相近页数的内容进行相同片段的查找；其次是在段落相似的基础上进行相同词数量的统计，我们首先识别两个段落间有超过一定数量的相同词，则判断这两个段落的语义相同，进而将相同词的个数纳入统计范围，如果两条几十字的句子间只有一两个相同词，那它们是不足以构成语义相同的，所以这一两个相同词也不应该纳入统计范畴。

步骤S103，根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数。

在本发明实施例中，通过上述步骤S102可以确定出第一投标文件和第二投标文件所有的语义相同的段落，进而统计每个语义相同的段落相同词的数量，进而求和得到第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数。

步骤S104，根据所述相同词数确定第一投标文件和第二投标文件的相似度。

在本发实施例中，本步骤根据第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数以及第一投标文件的有效文本信息和第二投标文件的有效文本信息的总词数可以计算出第一投标文件和第二投标文件的相似度。具体可以通过以下公式计算得出：

计算得到的百分比数值则表示第一投标文件和第二投标文件的相似度，如果相似度过高(超过预设数值)，则直接将两个供应商判断为围标串标行为对象；如果相似度较高(介于一定预设数值范围间)，则将其提交给供应商进行人工甄别。

本发明可以应用在不同的投标应标项目环境中，特别是应标的供应商数量较多时，本发明可以对所有的投标书进行相似性检测，以确定疑似围标串标的标书，与现有的人为地去一一比对不同的招标书相比大大提高发现围标串标的效率和准确率，且能够大幅降低人力成本和可扩展性成本。

图2是本发明实施例生成投标文件的有效文本信息的流程图，如图2所示，在本发明实施例中，上述步骤S101的对第一投标文件和第二投标文件进行预处理生成投标文件的有效文本信息的流程包括步骤S201至步骤S203。

步骤S201，对所述第一投标文件和所述第二投标文件进行分词处理。

词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分词处理，将句子转为词的表示，这就是中文分词。

在本发明实施例中，本步骤先提取出投标文件中的文本信息，进而对提取出的文本信息进行分词处理，这是自然语言处理工作的必经之路，将成段落的文本解析为一个个计算机易于处理的词语。

步骤S202，对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理。

在自然语言处理中，将与文本信息无关的衔接词、语气词和标点符号进行剔除称为文本去燥。

在本发明实施例中，将文本拆分为一系列的词语之后，则需要进行去燥处理。自然语言处理的“燥”包含了语气词(例如“哈”、“噻”等)、衔接词(例如“接着”、“然而”等)以及标点符号等对文本信息无较大影响的词语。将这些词语从文本中剔除，利于接下来的有效信息获取工作。

步骤S203，对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

在本发明实施例中，由于投标文件要求是在招标方发布的投标文件模板的基础上进行完善后添加企业相应的投标内容。所以在进行文本提取工作时，会将模版的内容一同提取。因为所有的投标文件都包含着同样的模板内容，所以这同样也是对文本有效信息获取没有任何帮助的词语，需要剔除。本技术是读取了招标书模板的内容，通过比对后，将实际投标文件中与之相同的词语去除。同理也可以扩展为其它应用场景，只需要将模板文件换为相应的模板即可。

由以上描述可以看出，本发明的投标文件相似度计算方法可以应用在不同的投标应标项目环境中，特别是应标的供应商数量较多时，放弃人为地去一一比对不同的招标书，而是用本发明对所有的投标书进行相似性检测，将会大大提高发现围标串标的效率和准确率，且能够大幅降低人力成本和可扩展性成本，其实现了至少以下有益效果：

1、本发明方法能够快速且准确的计算出多篇投标书间的文本篇章相似度，可将投标书相似度过高的供应商直接列为潜在围标串标对象，对投标书相似度较高的供应商递交给采购商进行人工甄别以做进一步判断，尽可能减少人为参与的步骤，提高整个检测工作的效率和准确率；

2、本发明方法的引入，能够在比对海量投标书文件的篇章相似度时，弃用人为阅读改为计算机识别，会大大节省额外的人力成本。

3、本发明方法能够稍作优化，快速应对不同投标应标场景下对招标书文本篇章相似度的计算需要；

4、本发明方法后续可以考虑修改识别文本的模板，增加对其它文件的篇章相似度计算功能，应用在投标应标之外的其它专业场景中，具有良好的拓展性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种投标文件相似度计算装置，可以用于实现上述实施例所描述的投标文件相似度计算方法，如下面的实施例所述。由于投标文件相似度计算装置解决问题的原理与投标文件相似度计算方法相似，因此投标文件相似度计算装置的实施例可以参见投标文件相似度计算方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例投标文件相似度计算装置的结构框图，如图3所示，本发明实施例投标文件相似度计算装置包括：有效文本信息生成单元1、有效文本信息获取单元2、语义相同段落查找单元3、相同词数确定单元4和相似度计算单元5。

有效文本信息生成单元1，用于对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息，其中，预处理包括：分词处理、去燥处理以及去除模板内容中的至少一种。

有效文本信息获取单元2，用于获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

语义相同段落查找单元3，用于根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落。

在本发明可选实施例中，所述相同词语查找算法为Rabin-Karp算法。

在本发明可选实施例中，所述语义相同段落查找单元3，还用于当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时，确定该两个段落为语义相同的段落。

相同词数确定单元4，用于根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数。

相似度计算单元5，用于根据所述相同词数确定第一投标文件和第二投标文件的相似度。

图4是本发明实施例有效文本信息生成单元的组成结构框图，如图4所示，在本发明实施例中，有效文本信息生成单元1具体包括：分词处理模块101、去燥处理模块102和去除模板内容模块103。

分词处理模块101，用于对所述第一投标文件和所述第二投标文件进行分词处理。

去燥处理模块102，用于对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理。

去除模板内容模块103，用于对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图5所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述投标文件相似度计算方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种投标文件相似度计算方法，其特征在于，包括：

2.根据权利要求1所述的投标文件相似度计算方法，其特征在于，还包括：

3.根据权利要求2所述的投标文件相似度计算方法，其特征在于，所述对第一投标文件和第二投标文件进行预处理，分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息，具体包括：

对所述第一投标文件和所述第二投标文件进行分词处理；

4.根据权利要求1所述的投标文件相似度计算方法，其特征在于，所述根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落，包括：

5.根据权利要求1所述的投标文件相似度计算方法，其特征在于，所述相同词语查找算法为Rabin-Karp算法。

6.一种投标文件相似度计算装置，其特征在于，包括：

7.根据权利要求6所述的投标文件相似度计算装置，其特征在于，还包括：

8.根据权利要求7所述的投标文件相似度计算装置，其特征在于，所述有效文本信息生成单元，包括：

9.根据权利要求6所述的投标文件相似度计算装置，其特征在于，所述语义相同段落查找单元，还用于当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时，确定该两个段落为语义相同的段落。

10.根据权利要求6所述的投标文件相似度计算装置，其特征在于，所述相同词语查找算法为Rabin-Karp算法。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至5任意一项所述的方法。