CN111274783B - 一种基于语义相似分析的围串标智能识别方法 - Google Patents

一种基于语义相似分析的围串标智能识别方法 Download PDF

Info

Publication number
CN111274783B
CN111274783B CN202010038033.0A CN202010038033A CN111274783B CN 111274783 B CN111274783 B CN 111274783B CN 202010038033 A CN202010038033 A CN 202010038033A CN 111274783 B CN111274783 B CN 111274783B
Authority
CN
China
Prior art keywords
similarity
words
comprehensive
calculating
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010038033.0A
Other languages
English (en)
Other versions
CN111274783A (zh
Inventor
谢荣伟
韩卫民
陆志浩
马仲能
黄康君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202010038033.0A priority Critical patent/CN111274783B/zh
Publication of CN111274783A publication Critical patent/CN111274783A/zh
Application granted granted Critical
Publication of CN111274783B publication Critical patent/CN111274783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于语义相似分析的围串标智能识别方法,先计算关键词相似性、文本统计相似性及章节综合语义相似性,再结合这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。本申请采用的围串标识别方法,通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征,从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性,可靠性强,效率高,同时推动了人工智能技术在电力行业围串标分析中的智能应用。

Description

一种基于语义相似分析的围串标智能识别方法
技术领域
本发明涉及信息技术和人工智能领域,特别是涉及一种基于语义相似分析的围串标智能识别方法。
背景技术
电力行业实际招投标过程中,经常会出现一些围标串标行为,此类行为会引起企业采购成本上升、产品质量以及履约风险等问题。由于目前采购过程中招投标文件中非结构化数据占比较高,这些文件有明显相同之处,或者多处雷同,可以作为串标围标判定的重要依据。现阶段围串标的识别分析工作主要受制于人工识别效率低下以及一些主观判定因素,缺乏一定的客观性和规范化标准,因此有必要提出一种非结构化文本数据的自动分析方法针对招投标文件进行围串标分析。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于语义相似分析的围串标智能识别方法,解决现有人工识别围标串标效率低,且主观判定因素大的技术问题。
本发明是通过以下技术方案实现的:
一种基于语义相似分析的围串标智能识别方法,具体包括以下步骤:
S1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度;
S2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法提取统计权重特征向量,并计算特征向量之间的余弦相似性;
S3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;
S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。
进一步的,S2中过滤停用词、行业专用词的步骤是:
S21:根据人工经验和分词统计方法,构建停用词库、行业专用词库;
S22:采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的停用词、行业专业词。
进一步的,S3中每个章节特征向量的余弦相似性的具体计算步骤如下:
S31:利用WORD2VEC技术对历史所有投标文件进行词向量训练;
S32:将两份投标文件中每个章节的停用词、行业专用词过滤掉,得到的剩下词语,获取词向量取平均值得到章节内容的向量特征,再计算每个章节特征向量的余弦相似性。
进一步的,S3中每个章节的权重是根据经验设计的。
进一步的,S4中关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重之和为1。
进一步的,S4中判断是否围串标的具体步骤是:将计算的综合相似度值与设置的相似度阈值进行比较,如果综合相似度值超过阈值,则两份文件有围串标嫌疑,进行预警。
与现有技术相比,本发明的有益效果在于:
本发明提出的一种基于语义相似分析的围串标智能识别方法,通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征,从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性,可靠性强,效率高,同时推动了人工智能技术在电力行业围串标分析中的智能应用。
说明书附图
图1为本发明实施例所述一种基于语义相似分析的围串标智能识别方法的流程图;
图2为本发明实施例所述文本统计相似性计算流程图。
具体实施方式
展示一下实例来具体说明本发明的某些实施例,且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本发明的精神和范围之内。
如图1所示,一种基于语义相似分析的围串标智能识别方法,具体包括以下步骤:
S1:计算关键词相似性:利用TextRank算法分别从第i个投标文件、第j个投标文件中抽取50个关键词,每一份投标文件的一系列关键词构成关键词集合,第i个投标文件、第j个投标文件中关键词集合对应的表达式如下:
Doci={KWi1,KWi2,KWi3,…,KWi50},Docj{KWj1,KWj2,KWj3,…,KWj50},
其中,KWik、KWjk分别代表第i个投标文件、第j个投标文件中的第k个关键词;
然后利用第i个投标文件和第j个投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度,即为下式:Jaccard(Doci,Docj)=|Doci∩Docj|/|Doci∪Docj|,其中∩代表交集,∪代表并集,∣·∣代表集合的元素个数。
S2:计算文本统计相似性,如图2所示:
根据人工经验和分词统计方法,构建停用词库、行业专用词库;
采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的停用词、行业专业词过滤文件中的停用词、行业专用词,因电力专业术语是不同企业都会用到的,不能仅以此说明围串标嫌疑,例如物资采购中涉及到物资名称“变压器”、“安全帽”等,需要针对性删除;
再利用tf-idf计算方法提取统计权重特征向量,并计算tf-idf向量之间的余弦相似性,tf-idf实际上是:tf*idf,TF词频(TermFrequency),IDF反文档频率(InverseDocument Frequency),
TF是指某一个给定的词语在给定文件中出现的频率,表示为:
Figure BDA0002366724010000031
式子中ni,j是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和;
IDF是度量词语的普遍重要性:如果包含某个词条的文档越少,IDF越大,则说明该词条具有很好的类别区分能力,
Figure BDA0002366724010000032
式中|D|:语料库中的文件总数,|{j:ti∈dj}|:包含词语的文件数目(即ni,j≠0的文件数目),如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|;
则tf-idf的计算公式:tfidfi,j=tfi,j×idfi,得出tf-idf向量的余弦相似性即为文本相似性Sim_tfidf。
S3:计算章节综合语义相似性:
利用WORD2VEC技术对历史所有投标文件进行词向量训练,得到所有词语的词向量;
采用S2中的过滤方式将两份投标文件中每个章节的停用词、行业专用词过滤掉,得到的剩下词语,获取词向量取平均值得到章节内容的向量特征,再计算每个章节特征向量的余弦相似性,选取技术投标文件中运行可靠性、制作工艺水平、生产能力水平等25个章节进行内容语义相似度计算,章节向量的余弦相似性衡量章节的相似度,
Figure BDA0002366724010000033
其中,x,y分别表示两个投标文件对应章节的向量化表示;
根据经验设计每个章节的权重,因每个章节由若干词语和短语句子组成具有特定代表含义的段落,例如售后服务水平、企业规模、专用资格要求、制作工艺水平等,每个段落表达的含义不一样,有些是主观部分较多(需要投标人自己组织语言,如企业规模),有些是客观部分较多(主要是填表,如专用资格要求),故而不同的段落可以赋予不一样的权重,对于有m个章节的投标文件,第i个章节相似性的权重设置为Wi,并且满足各个章节的权重之和为1,即:∑Wk=1(k=1,2,...,m),得到两份投标文件的章节综合语义相似度计算公式为:Sim_chapter(Doc1,Doc1)=∑(Wk·sim(XK,YK)),其中Xk、Yk分别代表标书文件Doci,Docj对应的第k个章节。
S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重依次为0.3、0.4、0.3,通过这三个维度的加权平均计算得到两份投标文件的综合相似度:Sim_total=Jaccard×0.3+Sim_tfidf×0.4+Sim_chapter×0.3,将计算的综合相似度值与设置的相似度阈值(根据经验设计阈值为0.28)进行比较,如果综合相似度值超过阈值,则两份文件有围串标嫌疑,进行预警。
综上,本申请采用的围串标识别方法与现有技术相比,通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征,从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性,可靠性强,效率高,同时推动了人工智能技术在电力行业围串标分析中的智能应用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于语义相似分析的围串标智能识别方法,其特征在于,具体包括以下步骤:
S1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度;
S2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法提取统计权重特征向量,并计算特征向量之间的余弦相似性即得到文本统计相似性;
S3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;
S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。
2.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S2中过滤停用词、行业专用词的步骤是:
S21:根据人工经验和分词统计方法,构建停用词库、行业专用词库;
S22:采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的停用词、行业专业词。
3.根据权利要求2所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S3中每个章节特征向量的余弦相似性的具体计算步骤如下:
S31:利用WORD2VEC技术对历史所有投标文件进行词向量训练;
S32:采用如权利要求2所述的过滤方式将两份投标文件中每个章节的停用词、行业专用词过滤掉,得到的剩下词语,获取词向量取平均值得
到章节内容的向量特征,再计算每个章节特征向量的余弦相似性。
4.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S3中每个章节的权重是根据经验设计的。
5.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S4中关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重之和为1。
6.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S4中判断是否围串标的具体步骤是:将计算的综合相似度值与设置的相似度阈值进行比较,如果综合相似度值超过阈值,则两份文件有围串标嫌疑,进行预警。
CN202010038033.0A 2020-01-14 2020-01-14 一种基于语义相似分析的围串标智能识别方法 Active CN111274783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010038033.0A CN111274783B (zh) 2020-01-14 2020-01-14 一种基于语义相似分析的围串标智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038033.0A CN111274783B (zh) 2020-01-14 2020-01-14 一种基于语义相似分析的围串标智能识别方法

Publications (2)

Publication Number Publication Date
CN111274783A CN111274783A (zh) 2020-06-12
CN111274783B true CN111274783B (zh) 2022-12-06

Family

ID=71002999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038033.0A Active CN111274783B (zh) 2020-01-14 2020-01-14 一种基于语义相似分析的围串标智能识别方法

Country Status (1)

Country Link
CN (1) CN111274783B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464635B (zh) * 2020-07-27 2023-02-10 上海汇招信息技术有限公司 投标文件自动打分的方法及其系统
CN112037792B (zh) * 2020-08-20 2022-06-17 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN112434532B (zh) * 2020-11-05 2024-05-28 西安交通大学 一种支持人机双向理解的电网环境模型及建模方法
CN112258303B (zh) * 2020-11-16 2024-04-30 北京筑龙信息技术有限责任公司 围串标预警分析方法、装置、电子设备及存储介质
CN113011174B (zh) * 2020-12-07 2023-08-11 红塔烟草(集团)有限责任公司 一种基于文本分析的围标串标识别方法
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113129118A (zh) * 2021-05-17 2021-07-16 政采云有限公司 一种基于自然语言处理的围标串标行为识别方法及装置
CN114579712B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 基于动态模型的文本属性提取匹配方法
CN115062148B (zh) * 2022-06-23 2023-06-20 广东国义信息科技有限公司 一种基于数据库的风险控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电力企业供应商疑似围标串标行为分析;王俊芳等;《经营与管理》;20180428(第05期);全文 *

Also Published As

Publication number Publication date
CN111274783A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274783B (zh) 一种基于语义相似分析的围串标智能识别方法
Mubarok et al. Aspect-based sentiment analysis to review products using Naïve Bayes
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
US11100283B2 (en) Method for detecting deceptive e-commerce reviews based on sentiment-topic joint probability
US11580150B1 (en) Database generation from natural language text documents
Kordonis et al. Stock price forecasting via sentiment analysis on Twitter
CN110852856A (zh) 一种基于动态网络表征的发票虚开识别方法
CN105550227B (zh) 一种命名实体识别方法及装置
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN112667777A (zh) 一种用于客户来电诉求的分类方法
CN113157918A (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN110909540A (zh) 短信垃圾新词识别方法、装置及电子设备
CN111625578B (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
Reddy et al. Prediction of star ratings from online reviews
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
CN109902173B (zh) 一种中文文本分类方法
Yennimar et al. Comparison of Machine Learning Classification Algorithms in Sentiment Analysis Product Review of North Padang Lawas Regency
Yang et al. Feature-based Product Review Summarization Utilizing User Score.
CN107480126B (zh) 一种工程材料类别智能识别方法
Roul et al. Sentiment analysis and extractive summarization based recommendation system
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及系统
CN112307210A (zh) 一种文档标签预测方法、系统、介质及电子器件
Yang et al. An Empirical Analysis of Text Segmentation for BERT Classification in Extended Documents
CN112445955A (zh) 商机信息管理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210203

Address after: 510000 No. 2 Tianhe Second Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510000 No. 2 Tianhe Second Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant