CN113011174B - 一种基于文本分析的围标串标识别方法 - Google Patents

一种基于文本分析的围标串标识别方法 Download PDF

Info

Publication number
CN113011174B
CN113011174B CN202011430658.8A CN202011430658A CN113011174B CN 113011174 B CN113011174 B CN 113011174B CN 202011430658 A CN202011430658 A CN 202011430658A CN 113011174 B CN113011174 B CN 113011174B
Authority
CN
China
Prior art keywords
word
similarity
words
word segmentation
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011430658.8A
Other languages
English (en)
Other versions
CN113011174A (zh
Inventor
张攀
何斌
罗金波
李单丹
杨红宇
马楠
李婧娴
刘明冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongta Tobacco Group Co Ltd
Original Assignee
Hongta Tobacco Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongta Tobacco Group Co Ltd filed Critical Hongta Tobacco Group Co Ltd
Priority to CN202011430658.8A priority Critical patent/CN113011174B/zh
Publication of CN113011174A publication Critical patent/CN113011174A/zh
Application granted granted Critical
Publication of CN113011174B publication Critical patent/CN113011174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于文本分析的投标文件围标串标识别方法,属于数据处理领域,该方法通过计算文本相似性、生僻词数相似度和关键要素区域匹配相似度,通过三个方面的权重加权计算标书围标串标风险值进而判断围标串标的可能性。该方法通过文本分析的方法分析标书围标串标的可能性,提升了对标书围标串标情况的审查效率、分析质量和分析的全面性,重点从生僻词和关键词的角度进行分析,有效避免标书造假者采用转换通用表述的方式规避审查,进一步提升围标串标分析的准确性。

Description

一种基于文本分析的围标串标识别方法
技术领域
本发明属于信息数据处理领域,更具体的说一种基于文本分析的围标串标识别方法。
背景技术
围标串标是一种恶意竞争,损害市场公平秩序的行为,会使中标结果操纵在少数几家企业手中,而使有优势有实力中标的优质投标人失去中选机会,同时使招标企业面临产品质量和履约质量的风险。标书有信息量大、非结构化及内容复杂的特点,因此单纯靠人工审查一方面是效率低,另一方面是会出现遗漏和判断失误的问题。因此有必要提出一种数据自动分析的方法对标书是否围标串标进行识别。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于文本分析的围标串标识别方法,解决现有人工识别围标串标效率不高,容易出现遗漏的问题。
为了实现上述目的,本发明是采用以下技术方案实现的:一种基于文本分析的围标串标识别方法,具体包括以下步骤;
S1:分词统计词频:进行分词处理,去除停用词,统计分词的词频 TF和词数TC;
S2:基于IF-IDF计算文本相似度:通过TF-IDF计算方法计算相似性;
S3:计算生僻词数相似度:运用出现频数低的词数计算生僻词相似度;
S4:进行关键要素区域匹配:运用关键要素数据,在关键词区域内进行文字匹配,得到匹配情况结果。
S5:预警权重模型计算:根据经验设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重,通过这三个维度的加权平均计算得到两份标书的总体相似度,通过相应阈值判断是否围标串标,并输出分析报告。
进一步的,S1中分词处理,去除停用词,统计分词的词频TF和词数 TC的步骤是:
S11:使用中文分词的常规方法对文件进行分词处理;
S12:将每一个分词分别与停用词库中的词进行比较,如果是停用词库的词则删除;
S13:词频TF为分词在该文档出现的次数与整个文档分词出现次数的比值;
S14:词数TC为分词在该文档出现的次数;
进一步的,S2中基于TF-IDF计算文本相似度的步骤如下:
S21:计算每个分词的反文档频率IDF;
S22:计算两个标书中每一个分词结果的TF-IDF值,该值为分词TF 乘以IDF的结果;
S23:将所有分词的TF-IDF值进行余弦相似度计算;
进一步的,S3中计算生僻词数相似度的步骤如下:
S31:分别检索两个标书词数TC小于及等于w的分词,w根据经验调整,一般为1至20之间的整数;
S32:将满足S31条件的所有同时出现在两个标书中的分词的词数TC累加,得到总数NTC;
S33:将满足S31条件的两个标书中所有分词的次数TC累加,得到总数STC;
S34:NTC/STC则为生僻词数相似度;
进一步的,S4中进行关键要素区域匹配的步骤如下:
S41:关键要素数据中包含关键词及检索长度s信息,检索长度s根据经验调整,一般为4至6之间的整数;
S42:分别在两个标书中检索关键词,并截取从关键词结束位置之后s长度的字符串;
S43:分别对两个标书关键字之后s长度的字符串进行匹配,如果出现相同的长度大于1的字符串,该字符串的长度为len则计len;
S44:取所有len值中的最大值maxlen,则关键要素区域匹配相似度 E=maxlen/检索长度s;
进一步的,S5中预警权重模型计算方式如下:
S51:标书围标串标风险值S=T×α+C×β+E×γ;
S52:T为基于TF-IDF计算文本相似度;
S53:C为生僻词数相似度;
S54:E为关键要素区域匹配相似度;
S55:α、β、γ为权重,根据经验进行调整,α、β、γ三个之和为1;
进一步的,将S5中标书围标串标风险值与设置的阈值进行比较,如果相似度超过阈值,则两份文件有围标串标的风险,进行预警,无论是否预警都输出包含文本相似度、生僻词数相似度和关键要素区域匹配相似度及分析过程数据的报告。
本发明有益效果:
一、通过文本分析的方法分析标书围标串标的可能性,提升了对标书围标串标情况的审查效率、分析质量和分析的全面性,二、从生僻词的角度分析两份标书是否存在相互复制的可能,能够避免标书造假者采用转换通用表述的方式规避审查,三、对关键词区域内的文本进行匹配,进一步提升围标串标分析的准确性。
附图说明
图1为本发明算法流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、步骤。
如图1所示,种基于文本分析的标书围标串标识别方法,具体包括以下步骤;
S1:对导入的标书文本进行分词处理,使用中文分词的常规方法例如:结巴分词、百度NLP、腾讯文智对文件进行分词处理,使用网络上通用的停用词库或者自建停用词去除停用词,分别统计标书中分词在该标书中出现的次数即为词数 TC,分别将标书中分词词数TC除以该标书中所有分词词数之和,则为每一个分词的词频TF;
S2:基于TF-IDF计算文本相似度;
计算每个分词的反文档频率IDF,IDF计算公式为
计算每个分词的TF-IDF值,公式为:TF×IDF;
运用两个标书分词的TF-IDF值计算文本相似性,公式为:
其中n为两个标书中同时存在的分词的数量,tf-idfai和tf-idfbi分别为同一个分词分别在两个标书中的tf-idf值,保存该文本相似度T值;
S3:基于生僻词数计算文本相似度;
分别检索两个标书词数TC小于及等于w的分词,w根据经验调整,在本例中 w取值为4,将分词词数既小于4又同时出现在两个标书中的分词的词数TC累加,得到总数NTC,将所有两个标书中词数小于4的所有分词词数累加得到STC, NTC/STC则为生僻词数相似度C;
S4:计算关键要素区域匹配相似度:
构建关键要素数据((投标总报价、项目经理、安全负责人........),5),该关键要素数据中包含关键词列表,及检索长度5;
分别在两个标书中检索关键词,并截取从关键词结束位置之后5长度的字符串,分别对两个标书关键字之后,字符串进行匹配,如果出现相同的长度大于1 的字符串,该字符串长度为len则计len,取所有len值中的最大值maxlen,关键要素区域匹配相似度E=maxlen/检索长度5;
S5:按照预警权重模型计算最终结果:
文本相似性T、生僻词数相似度C和关键要素区域匹配相似度E的权重在本例中分别取0.2、0.4、0.4,通过三个相似度的加权平均得到标书围标串标风险值S=文本相似性T×0.2+生僻词数相似度C×0.4+关键要素区域匹配相似度E ×0.5,将标书围标串标风险值S与与设置的相似度阈值(本例中取0.35)进行比较,如果超过该阈值则进行提示预警,表明两份标书有围标串标的可能性;
在上述数据分析的基础上,还需要将生僻词数相似度C和关键要素区域匹配相似度E的过程及各环节分析的结果输出规整成报告输出,便于辅助判定预警提示是否正确。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.一种基于文本分析的围标串标识别方法,其特征在于,具体包括以下步骤;
S1:分词统计词频:进行分词处理,去除停用词,统计分词的词频TF和词数TC;
S2:基于IF-IDF计算文本相似度:通过TF-IDF计算方法计算相似性;
S3:计算生僻词数相似度:运用出现频率低的词数计算生僻词数相似度;
S4:进行关键要素区域匹配:运用关键要素数据,在关键词区域内进行文字匹配,得到匹配情况结果;
S5:预警权重模型计算:设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重,通过这三个维度的加权平均计算得到两份标书的总体相似度,通过相应阈值判断是否围标串标,并输出分析报告;
所说的S1中分词处理,去除停用词,统计分词的词频TF和词数TC的步骤是:
S11:使用中文分词的常规方法对文件进行分词处理;
S12:将每一个分词分别与停用词库中的词进行比较,如果是停用词库的词则删除;
S13:词频TF为分词在文件出现的次数与整个文档分词出现次数的比值;
S14:词数TC为分词在文件出现的次数;
所述的S2中基于TF-IDF计算文本相似度的步骤是:
S21:计算每个分词的反文档频率IDF;
S22:计算两个标书中每一个分词结果的TF-IDF值,该值为分词TF乘以IDF的结果;
S23:将所有分词的TF-IDF值进行余弦相似度计算;
所述的步骤S3中计算生僻词数相似度的步骤如下:
S31:分别检索两个标书词数TC小于及等于w的分词;
S32:将满足S31条件的所有同时出现在两个标书中的分词的词数TC累加,得到总数NTC;
S33:将满足S31条件的两个标书中所有分词的次数TC累加,得到总数STC;
S34:NTC/STC则为生僻词数相似度;
所述的S4中关键要素区域匹配的步骤如下:
S41:关键要素数据中包含关键词及检索长度s信息;
S42:分别在两个标书中检索关键词,并截取从关键词结束位置之后s长度的字符串;
S43:分别对两个标书关键字之后s长度的字符串进行匹配,如果出现相同的长度大于1的字符串,该字符串的长度为len则计len;
S44:取所有len值中的最大值maxlen,则关键要素区域匹配相似度E=maxlen/检索长度s。
2.根据权利要求1所述的一种基于文本分析的围标串标识别方法,其特征在于,所述的S5中将S5中标书围标串标风险值与设置的阈值进行比较,如果相似度超过阈值,则两份文件有围标串标的风险,进行预警,无论是否预警都输出包含文本相似度、生僻词数相似度和关键要素区域匹配相似度及分析过程数据的报告。
CN202011430658.8A 2020-12-07 2020-12-07 一种基于文本分析的围标串标识别方法 Active CN113011174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011430658.8A CN113011174B (zh) 2020-12-07 2020-12-07 一种基于文本分析的围标串标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011430658.8A CN113011174B (zh) 2020-12-07 2020-12-07 一种基于文本分析的围标串标识别方法

Publications (2)

Publication Number Publication Date
CN113011174A CN113011174A (zh) 2021-06-22
CN113011174B true CN113011174B (zh) 2023-08-11

Family

ID=76383191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011430658.8A Active CN113011174B (zh) 2020-12-07 2020-12-07 一种基于文本分析的围标串标识别方法

Country Status (1)

Country Link
CN (1) CN113011174B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595990A (zh) * 2023-05-18 2023-08-15 保利物业服务股份有限公司 一种物业投诉电话通话处理方法及系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320376A (zh) * 2008-07-03 2008-12-10 宇龙计算机通信科技(深圳)有限公司 一种数据库搜索方法、系统及移动通信终端
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN109063983A (zh) * 2018-07-18 2018-12-21 北京航空航天大学 一种基于社交媒体数据的自然灾害损失实时评估方法
CN109165331A (zh) * 2018-08-20 2019-01-08 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
CN109241395A (zh) * 2018-06-27 2019-01-18 广州市南方人力资源评价中心有限公司 一种基于关键词解析的试题网络排重检索办法
CN109615001A (zh) * 2018-12-05 2019-04-12 上海恺英网络科技有限公司 一种识别相似文章的方法和装置
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110532569A (zh) * 2019-09-05 2019-12-03 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及系统
CN110705282A (zh) * 2019-09-04 2020-01-17 东软集团股份有限公司 关键词提取方法、装置、存储介质及电子设备
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110968245A (zh) * 2019-12-05 2020-04-07 深圳乐华高科实业有限公司 一种透过语音控制office办公软件的操作方法
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320376A (zh) * 2008-07-03 2008-12-10 宇龙计算机通信科技(深圳)有限公司 一种数据库搜索方法、系统及移动通信终端
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN109241395A (zh) * 2018-06-27 2019-01-18 广州市南方人力资源评价中心有限公司 一种基于关键词解析的试题网络排重检索办法
CN109063983A (zh) * 2018-07-18 2018-12-21 北京航空航天大学 一种基于社交媒体数据的自然灾害损失实时评估方法
CN109033060A (zh) * 2018-08-16 2018-12-18 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN109165331A (zh) * 2018-08-20 2019-01-08 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
CN109615001A (zh) * 2018-12-05 2019-04-12 上海恺英网络科技有限公司 一种识别相似文章的方法和装置
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110705282A (zh) * 2019-09-04 2020-01-17 东软集团股份有限公司 关键词提取方法、装置、存储介质及电子设备
CN110532569A (zh) * 2019-09-05 2019-12-03 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及系统
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110968245A (zh) * 2019-12-05 2020-04-07 深圳乐华高科实业有限公司 一种透过语音控制office办公软件的操作方法
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
CN112035621A (zh) * 2020-09-03 2020-12-04 江苏经贸职业技术学院 一种基于统计学的企业名名称相似度检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
工程招标中的围标串标预警模型研究;程铁信等;《天津大学学报(社会科学版)》;20180115;第20卷(第1期);20-25 *

Also Published As

Publication number Publication date
CN113011174A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN105975459B (zh) 一种词项的权重标注方法和装置
US20040141354A1 (en) Query string matching method and apparatus
US20070019864A1 (en) Image search system, image search method, and storage medium
US20060206306A1 (en) Text mining apparatus and associated methods
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JPH07114572A (ja) 文書分類装置
US20150242393A1 (en) System and Method for Classifying Text Sentiment Classes Based on Past Examples
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
Gordo et al. Document classification and page stream segmentation for digital mailroom applications
CN112417152A (zh) 涉案舆情的话题检测方法和装置
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN107480126B (zh) 一种工程材料类别智能识别方法
CN111625578A (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN115186138A (zh) 一种配电网数据的比对方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant