CN111241230A

CN111241230A - 一种基于文本挖掘识别串标风险的方法及系统

Info

Publication number: CN111241230A
Application number: CN201911410235.7A
Authority: CN
Inventors: 王淼; 金昌铉; 程俊春; 马博; 朱宇龙; 赵永国; 刘森; 黎晚晴; 张君; 梁惠欣
Original assignee: China Southern Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-05

Abstract

本发明公开了一种基于文本挖掘识别串标风险的方法及系统，通过预处理后进行分词，按照标签转化为结构化的招投标文本数据，抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词，将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度，当对比度大于预设相似阈值时则标记招投标文本数据为异常；可以方便的自动检测异常招投标信息，能够快速的定位招投标异常点，智能的自主学习新的知识，能准确的快速定位出风险点和招投标的问题，极大的减少了招投标审查的工作量，及时的显示出招投标中的风险。

Description

一种基于文本挖掘识别串标风险的方法及系统

技术领域

本公开涉及文本数据处理领域、自然语言处理领域，具体涉及一种基于文本挖掘识别串标风险的方法及系统。

背景技术

在检查招投标文件(投标技术文件)的文本的时候，有很多重复性的结构化文本是需要重复检查的内容，如果由人工检查的话，又容易出错重复性又高，而且很多问题都是很隐晦的；而且招投标文本的记录一般以非结构文本的形式存在，因此对于自动化文本处理并不友好难以准确地进行数据处理；

当前的招投标文本的风险度检测方法通常采用预置的招投标类型模板的方式来帮助快速定位招投标文本中的问题，通过人工来提取特征词语，以及用特征词语通过预设规则来完成招投标文本的快速的检测，或者通过计算两个招投标文本中共有的关键词的相似度来计算两个招投标文本之间的相似度。由于特征词汇的表达方式经常不同，因此这些方法并不能准确的快速定位出风险点和招投标文件中的问题。

发明内容

本公开提供一种基于文本挖掘识别串标风险的方法及系统，通过预处理后进行分词，按照标签转化为结构化的招投标文本数据，抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词，将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度，当对比度大于预设相似阈值时则标记招投标文本数据为异常。

本公开的目的是针对上述问题，提供一种基于文本挖掘识别串标风险的方法及系统，具体包括以下步骤：

S100：读取招投标文本数据；

S200：将招投标文本数据进行预处理得到第一招投标文本数据；

S300：将第一招投标文本数据进行分词得到第二招投标文本数据；

S400：将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据；

S500：抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词；

S600：将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度；

S700：当对比度大于预设相似阈值时则标记招投标文本数据为异常。

进一步地，在S100中，所述招投标文本数据中的标签包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称，还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等)；招投标文本数据为招投标文件的文本。

进一步地，在S200中，将招投标文本数据进行预处理得到第一招投标文本数据的方法为：

S210：将招投标文本数据去停顿词、虚词等处理；

S220：通过包括有分词字典对语篇内容进行词的划分，去除数字、连字符、标点符号、特殊字符，用正则表达式String res[]＝line.split(“[^a-zA-Z]”)将所有大写字母转换成小写；

S230：去除停顿词，过滤对不属于标签的词；

S240：去除虚词、停顿词得到第二招投标文本数据；

其中，所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称，还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等)。

进一步地，在S300中，分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。

进一步地，在S400中，所述结构化的第三招投标文本数据是数据以标签为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

进一步地，在S500中，抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为：

抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法；

计算各个主题词的词频F(t)的方法为：

其中，n_t表示主题词t在第三招投标文本数据中出现的次数，N表示第三招投标文本数据中的总词汇数；

选出最高词频的主题词作为第一主题词。

进一步地，在S600中，将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为：

记知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词为对比主题词；

依次通过计算第一主题词与所有知识库中对比主题词的文本向量所表示的两个招投标文本数据d和d_j之间的对比度，d为待进行相似比对的招投标文本数据，d_j为知识库中参与相似比对的招投标文本数据，计算对比度S(d,d_i)如下：

其中，R_k为主题词所表示的招投标文本数据的值，R_ik表示知识库中第i个招投标文本数据的第k个标签的值，M为知识库中招投标文本数据标签的数量，i为整数，i取值范围为1到N，N为知识库中招投标文本数据的数量,

为R_k的平方，

为R_ik的平方。

其中，所述知识库包括多个招投标文本数据，每个招投标文本数据包括多个标签，每个标签对应有一个条款文本。

进一步地，在S600中，将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的计算方法还可以为余弦相似度的计算方法。

进一步地，在S700中，显示出预设相似阈值以上对比度的所有招标信息部分，异常的招标信息部分按照从大到小或从小到大进行排序，预设相似阈值默认设置为20％，可人工调整。

本发明还提供了一种基于文本挖掘识别串标风险的系统，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

数据采集单元，用于读取招投标文本数据；

预处理单元，用于将招投标文本数据进行预处理得到第一招投标文本数据；

分词单元，用于将第一招投标文本数据进行分词得到第二招投标文本数据；

结构化单元，用于将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据；

高频主题词单元，用于抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词；

相似比对单元，用于将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度；

异常标记单元，用于当对比度大于预设相似阈值时则标记招投标文本数据为异常。

本公开的有益效果为：本发明公开了一种基于文本挖掘识别串标风险的方法，可以方便的自动检测异常招投标信息，能够快速的定位招投标异常点，智能的自主学习新的知识，能准确的快速定位出风险点和招投标的问题，极大的减少了招投标审查的工作量，及时的显示出招投标中的风险。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本公开的一种基于文本挖掘识别串标风险的方法的流程图；

图2所示为本公开实施方式的一种基于文本挖掘识别串标风险的系统。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种基于文本挖掘识别串标风险的方法的流程图，下面结合图1来阐述根据本公开的实施方式的方法。

本公开提出一种基于文本挖掘识别串标风险的方法，具体包括以下步骤：

S100：读取招投标文本数据；

进一步地，在S100中，所述招投标文本数据中的标签包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称，还包括交换代理人、技术方案查重、联合持股人，招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等)；招投标文本数据为招投标文件的文本。

S210：将招投标文本数据去停顿词、虚词等处理；

S230：去除停顿词，过滤对不属于标签的词；

S240：去除虚词、停顿词得到第二招投标文本数据；

其中，所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称。

计算各个主题词的词频F(t)的方法为：

选出最高词频的主题词作为第一主题词。

为R_k的平方，

为R_ik的平方。

其中，招投标文件的问题主要有：招投标围标(交换代理人、技术方案查重)异常。

招投标围标(交换代理人)：投标信息(包括项目、项目投标厂家、投标厂家代理人等)

技术方案查重：项目投标的技术方案；

招投标围标(交换代理人)：分析投标项目中，某投标企业是否总是联合其他家企业投一个项目，并且分析多个项目上，是否存在代理人互换的情况。

技术方案查重：分析多个项目投标的技术方案，比较技术方案各个章节的相似度，当相识度到80％，则判断为异常。

本公开的实施例提供的一种基于文本挖掘识别串标风险的系统，如图2所示为本公开的一种基于文本挖掘识别串标风险的系统结构图，该实施例的一种基于文本挖掘识别串标风险的系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于文本挖掘识别串标风险的系统实施例中的步骤。

所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

数据采集单元，用于读取招投标文本数据；

所述一种基于文本挖掘识别串标风险的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于文本挖掘识别串标风险的系统可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于文本挖掘识别串标风险的系统的示例，并不构成对一种基于文本挖掘识别串标风险的系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于文本挖掘识别串标风险的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于文本挖掘识别串标风险的系统运行系统的控制中心，利用各种接口和线路连接整个一种基于文本挖掘识别串标风险的系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于文本挖掘识别串标风险的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于文本挖掘识别串标风险的方法，其特征在于，所述方法包括以下步骤：

S100：读取招投标文本数据；

2.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S200中，将招投标文本数据进行预处理得到第一招投标文本数据的方法为：

S210：将招投标文本数据去停顿词、虚词等处理；

S220：通过包括有分词字典对语篇内容进行词的划分，去除数字、连字符、标点符号、特殊字符，将所有大写字母转换成小写；

S230：去除停顿词，过滤对不属于标签的词；

S240：去除虚词、停顿词得到第二招投标文本数据；

3.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S300中，分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。

4.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S400中，所述结构化的第三招投标文本数据是数据以标签为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

5.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S500中，抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为：

计算各个主题词的词频F(t)的方法为：

选出最高词频的主题词作为第一主题词。

6.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S600中，将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为：

为R_k的平方，

为R_ik的平方。

7.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，所述知识库包括多个招投标文本数据，每个招投标文本数据包括多个标签，每个标签对应有一个条款文本。

8.一种基于文本挖掘识别串标风险的系统，其特征在于，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

数据采集单元，用于读取招投标文本数据；