CN111274783B

CN111274783B - 一种基于语义相似分析的围串标智能识别方法

Info

Publication number: CN111274783B
Application number: CN202010038033.0A
Authority: CN
Inventors: 谢荣伟; 韩卫民; 陆志浩; 马仲能; 黄康君
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2022-12-06
Anticipated expiration: 2040-01-14
Also published as: CN111274783A

Abstract

本发明涉及一种基于语义相似分析的围串标智能识别方法，先计算关键词相似性、文本统计相似性及章节综合语义相似性，再结合这三个维度的权重，通过这三个维度的加权平均计算得到两份投标文件的综合相似度，进而判断是否围串标。本申请采用的围串标识别方法，通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征，从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性，可靠性强，效率高，同时推动了人工智能技术在电力行业围串标分析中的智能应用。

Description

一种基于语义相似分析的围串标智能识别方法

技术领域

本发明涉及信息技术和人工智能领域，特别是涉及一种基于语义相似分析的围串标智能识别方法。

背景技术

电力行业实际招投标过程中，经常会出现一些围标串标行为，此类行为会引起企业采购成本上升、产品质量以及履约风险等问题。由于目前采购过程中招投标文件中非结构化数据占比较高，这些文件有明显相同之处，或者多处雷同，可以作为串标围标判定的重要依据。现阶段围串标的识别分析工作主要受制于人工识别效率低下以及一些主观判定因素，缺乏一定的客观性和规范化标准，因此有必要提出一种非结构化文本数据的自动分析方法针对招投标文件进行围串标分析。

发明内容

为了克服现有技术的上述不足，本发明提出了一种基于语义相似分析的围串标智能识别方法，解决现有人工识别围标串标效率低，且主观判定因素大的技术问题。

本发明是通过以下技术方案实现的：

一种基于语义相似分析的围串标智能识别方法，具体包括以下步骤：

S1：计算关键词相似性：利用TextRank算法分别从两份投标文件中抽取若干关键词，每一份投标文件的一系列关键词构成关键词集合，利用两份投标文件对应关键词集合的交集比例计算杰卡德距离，得到两份文件的关键词相似度；

S2：计算文本统计相似性：过滤文件中的停用词、行业专用词，再利用tf-idf计算方法提取统计权重特征向量，并计算特征向量之间的余弦相似性；

S3：计算章节综合语义相似性：先计算每个章节特征向量的余弦相似性，再结合每个章节的权重，得到两份投标文件的章节综合语义相似度；

S4：计算综合相似度：根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重，通过这三个维度的加权平均计算得到两份投标文件的综合相似度，进而判断是否围串标。

进一步的，S2中过滤停用词、行业专用词的步骤是：

S21：根据人工经验和分词统计方法，构建停用词库、行业专用词库；

S22：采用jieba分词对文件进行分词处理，然后将每一个分词分别与停用词库、行业专用词库中的词进行比较，如果是停用词库、行业专用词库的词则删除，以此循环删除所有的停用词、行业专业词。

进一步的，S3中每个章节特征向量的余弦相似性的具体计算步骤如下：

S31：利用WORD2VEC技术对历史所有投标文件进行词向量训练；

S32：将两份投标文件中每个章节的停用词、行业专用词过滤掉，得到的剩下词语，获取词向量取平均值得到章节内容的向量特征，再计算每个章节特征向量的余弦相似性。

进一步的，S3中每个章节的权重是根据经验设计的。

进一步的，S4中关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重之和为1。

进一步的，S4中判断是否围串标的具体步骤是：将计算的综合相似度值与设置的相似度阈值进行比较，如果综合相似度值超过阈值，则两份文件有围串标嫌疑，进行预警。

与现有技术相比，本发明的有益效果在于：

本发明提出的一种基于语义相似分析的围串标智能识别方法，通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征，从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性，可靠性强，效率高，同时推动了人工智能技术在电力行业围串标分析中的智能应用。

说明书附图

图1为本发明实施例所述一种基于语义相似分析的围串标智能识别方法的流程图；

图2为本发明实施例所述文本统计相似性计算流程图。

具体实施方式

展示一下实例来具体说明本发明的某些实施例，且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进，所有这些改进，均应落入本发明的精神和范围之内。

如图1所示，一种基于语义相似分析的围串标智能识别方法，具体包括以下步骤：

S1：计算关键词相似性：利用TextRank算法分别从第i个投标文件、第j个投标文件中抽取50个关键词，每一份投标文件的一系列关键词构成关键词集合，第i个投标文件、第j个投标文件中关键词集合对应的表达式如下：

Doc_i＝{KW_i1，KW_i2，KW_i3，…，KW_i50}，Doc_j{KW_j1，KW_j2，KW_j3，…，KW_j50}，

其中，KW_ik、KW_jk分别代表第i个投标文件、第j个投标文件中的第k个关键词；

然后利用第i个投标文件和第j个投标文件对应关键词集合的交集比例计算杰卡德距离，得到两份文件的关键词相似度，即为下式：Jaccard(Doc_i，Doc_j)＝|Doc_i∩Doc_j|/|Doc_i∪Doc_j|，其中∩代表交集，∪代表并集，∣·∣代表集合的元素个数。

S2：计算文本统计相似性，如图2所示：

根据人工经验和分词统计方法，构建停用词库、行业专用词库；

采用jieba分词对文件进行分词处理，然后将每一个分词分别与停用词库、行业专用词库中的词进行比较，如果是停用词库、行业专用词库的词则删除，以此循环删除所有的停用词、行业专业词过滤文件中的停用词、行业专用词，因电力专业术语是不同企业都会用到的，不能仅以此说明围串标嫌疑，例如物资采购中涉及到物资名称“变压器”、“安全帽”等，需要针对性删除；

再利用tf-idf计算方法提取统计权重特征向量，并计算tf-idf向量之间的余弦相似性，tf-idf实际上是：tf*idf，TF词频(TermFrequency)，IDF反文档频率(InverseDocument Frequency)，

TF是指某一个给定的词语在给定文件中出现的频率，表示为：

式子中n_i，j是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和；

IDF是度量词语的普遍重要性：如果包含某个词条的文档越少，IDF越大，则说明该词条具有很好的类别区分能力，

式中|D|：语料库中的文件总数，|{j：t_i∈d_j}|：包含词语的文件数目(即n_i，j≠0的文件数目)，如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j：t_i∈d_j}|；

则tf-idf的计算公式：tfidf_i，j＝tf_i，j×idf_i，得出tf-idf向量的余弦相似性即为文本相似性Sim_tfidf。

S3：计算章节综合语义相似性：

利用WORD2VEC技术对历史所有投标文件进行词向量训练，得到所有词语的词向量；

采用S2中的过滤方式将两份投标文件中每个章节的停用词、行业专用词过滤掉，得到的剩下词语，获取词向量取平均值得到章节内容的向量特征，再计算每个章节特征向量的余弦相似性，选取技术投标文件中运行可靠性、制作工艺水平、生产能力水平等25个章节进行内容语义相似度计算，章节向量的余弦相似性衡量章节的相似度，

其中，x,y分别表示两个投标文件对应章节的向量化表示；

根据经验设计每个章节的权重，因每个章节由若干词语和短语句子组成具有特定代表含义的段落，例如售后服务水平、企业规模、专用资格要求、制作工艺水平等，每个段落表达的含义不一样，有些是主观部分较多(需要投标人自己组织语言，如企业规模)，有些是客观部分较多(主要是填表，如专用资格要求)，故而不同的段落可以赋予不一样的权重，对于有m个章节的投标文件，第i个章节相似性的权重设置为W_i，并且满足各个章节的权重之和为1，即：∑W_k＝1(k＝1,2，...，m)，得到两份投标文件的章节综合语义相似度计算公式为：Sim_chapter(Doc₁，Doc₁)＝∑(W_k·sim(X_K，Y_K))，其中X_k、Y_k分别代表标书文件Doc_i，Doc_j对应的第k个章节。

S4：计算综合相似度：根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重依次为0.3、0.4、0.3，通过这三个维度的加权平均计算得到两份投标文件的综合相似度：Sim_total＝Jaccard×0.3+Sim_tfidf×0.4+Sim_chapter×0.3，将计算的综合相似度值与设置的相似度阈值(根据经验设计阈值为0.28)进行比较，如果综合相似度值超过阈值，则两份文件有围串标嫌疑，进行预警。

综上，本申请采用的围串标识别方法与现有技术相比，通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征，从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性，可靠性强，效率高，同时推动了人工智能技术在电力行业围串标分析中的智能应用。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语义相似分析的围串标智能识别方法，其特征在于，具体包括以下步骤：

S2：计算文本统计相似性：过滤文件中的停用词、行业专用词，再利用tf-idf计算方法提取统计权重特征向量，并计算特征向量之间的余弦相似性即得到文本统计相似性；

2.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S2中过滤停用词、行业专用词的步骤是：

3.根据权利要求2所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S3中每个章节特征向量的余弦相似性的具体计算步骤如下：

S31：利用WORD2VEC技术对历史所有投标文件进行词向量训练；

S32：采用如权利要求2所述的过滤方式将两份投标文件中每个章节的停用词、行业专用词过滤掉，得到的剩下词语，获取词向量取平均值得

到章节内容的向量特征，再计算每个章节特征向量的余弦相似性。

4.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S3中每个章节的权重是根据经验设计的。

5.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S4中关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重之和为1。

6.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S4中判断是否围串标的具体步骤是：将计算的综合相似度值与设置的相似度阈值进行比较，如果综合相似度值超过阈值，则两份文件有围串标嫌疑，进行预警。