CN111241230A - 一种基于文本挖掘识别串标风险的方法及系统 - Google Patents

一种基于文本挖掘识别串标风险的方法及系统 Download PDF

Info

Publication number
CN111241230A
CN111241230A CN201911410235.7A CN201911410235A CN111241230A CN 111241230 A CN111241230 A CN 111241230A CN 201911410235 A CN201911410235 A CN 201911410235A CN 111241230 A CN111241230 A CN 111241230A
Authority
CN
China
Prior art keywords
text data
bidding
subject
word
bid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911410235.7A
Other languages
English (en)
Inventor
王淼
金昌铉
程俊春
马博
朱宇龙
赵永国
刘森
黎晚晴
张君
梁惠欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Co Ltd
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd, Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN201911410235.7A priority Critical patent/CN111241230A/zh
Publication of CN111241230A publication Critical patent/CN111241230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本挖掘识别串标风险的方法及系统,通过预处理后进行分词,按照标签转化为结构化的招投标文本数据,抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词,将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度,当对比度大于预设相似阈值时则标记招投标文本数据为异常;可以方便的自动检测异常招投标信息,能够快速的定位招投标异常点,智能的自主学习新的知识,能准确的快速定位出风险点和招投标的问题,极大的减少了招投标审查的工作量,及时的显示出招投标中的风险。

Description

一种基于文本挖掘识别串标风险的方法及系统
技术领域
本公开涉及文本数据处理领域、自然语言处理领域,具体涉及一种基于文本挖掘识别串标风险的方法及系统。
背景技术
在检查招投标文件(投标技术文件)的文本的时候,有很多重复性的结构化文本是需要重复检查的内容,如果由人工检查的话,又容易出错重复性又高,而且很多问题都是很隐晦的;而且招投标文本的记录一般以非结构文本的形式存在,因此对于自动化文本处理并不友好难以准确地进行数据处理;
当前的招投标文本的风险度检测方法通常采用预置的招投标类型模板的方式来帮助快速定位招投标文本中的问题,通过人工来提取特征词语,以及用特征词语通过预设规则来完成招投标文本的快速的检测,或者通过计算两个招投标文本中共有的关键词的相似度来计算两个招投标文本之间的相似度。由于特征词汇的表达方式经常不同,因此这些方法并不能准确的快速定位出风险点和招投标文件中的问题。
发明内容
本公开提供一种基于文本挖掘识别串标风险的方法及系统,通过预处理后进行分词,按照标签转化为结构化的招投标文本数据,抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词,将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度,当对比度大于预设相似阈值时则标记招投标文本数据为异常。
本公开的目的是针对上述问题,提供一种基于文本挖掘识别串标风险的方法及系统,具体包括以下步骤:
S100:读取招投标文本数据;
S200:将招投标文本数据进行预处理得到第一招投标文本数据;
S300:将第一招投标文本数据进行分词得到第二招投标文本数据;
S400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
S500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
S600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
S700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。
进一步地,在S100中,所述招投标文本数据中的标签包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称,还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等);招投标文本数据为招投标文件的文本。
进一步地,在S200中,将招投标文本数据进行预处理得到第一招投标文本数据的方法为:
S210:将招投标文本数据去停顿词、虚词等处理;
S220:通过包括有分词字典对语篇内容进行词的划分,去除数字、连字符、标点符号、特殊字符,用正则表达式String res[]=line.split(“[^a-zA-Z]”)将所有大写字母转换成小写;
S230:去除停顿词,过滤对不属于标签的词;
S240:去除虚词、停顿词得到第二招投标文本数据;
其中,所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称,还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等)。
进一步地,在S300中,分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。
进一步地,在S400中,所述结构化的第三招投标文本数据是数据以标签为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
进一步地,在S500中,抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为:
抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法;
计算各个主题词的词频F(t)的方法为:
Figure BDA0002349781520000021
其中,nt表示主题词t在第三招投标文本数据中出现的次数,N表示第三招投标文本数据中的总词汇数;
选出最高词频的主题词作为第一主题词。
进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为:
记知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词为对比主题词;
依次通过计算第一主题词与所有知识库中对比主题词的文本向量所表示的两个招投标文本数据d和dj之间的对比度,d为待进行相似比对的招投标文本数据,dj为知识库中参与相似比对的招投标文本数据,计算对比度S(d,di)如下:
Figure BDA0002349781520000031
其中,Rk为主题词所表示的招投标文本数据的值,Rik表示知识库中第i个招投标文本数据的第k个标签的值,M为知识库中招投标文本数据标签的数量,i为整数,i取值范围为1到N,N为知识库中招投标文本数据的数量,
Figure BDA0002349781520000032
为Rk的平方,
Figure BDA0002349781520000033
为Rik的平方。
其中,所述知识库包括多个招投标文本数据,每个招投标文本数据包括多个标签,每个标签对应有一个条款文本。
进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的计算方法还可以为余弦相似度的计算方法。
进一步地,在S700中,显示出预设相似阈值以上对比度的所有招标信息部分,异常的招标信息部分按照从大到小或从小到大进行排序,预设相似阈值默认设置为20%,可人工调整。
本发明还提供了一种基于文本挖掘识别串标风险的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据采集单元,用于读取招投标文本数据;
预处理单元,用于将招投标文本数据进行预处理得到第一招投标文本数据;
分词单元,用于将第一招投标文本数据进行分词得到第二招投标文本数据;
结构化单元,用于将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
高频主题词单元,用于抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
相似比对单元,用于将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
异常标记单元,用于当对比度大于预设相似阈值时则标记招投标文本数据为异常。
本公开的有益效果为:本发明公开了一种基于文本挖掘识别串标风险的方法,可以方便的自动检测异常招投标信息,能够快速的定位招投标异常点,智能的自主学习新的知识,能准确的快速定位出风险点和招投标的问题,极大的减少了招投标审查的工作量,及时的显示出招投标中的风险。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本公开的一种基于文本挖掘识别串标风险的方法的流程图;
图2所示为本公开实施方式的一种基于文本挖掘识别串标风险的系统。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种基于文本挖掘识别串标风险的方法的流程图,下面结合图1来阐述根据本公开的实施方式的方法。
本公开提出一种基于文本挖掘识别串标风险的方法,具体包括以下步骤:
S100:读取招投标文本数据;
S200:将招投标文本数据进行预处理得到第一招投标文本数据;
S300:将第一招投标文本数据进行分词得到第二招投标文本数据;
S400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
S500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
S600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
S700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。
进一步地,在S100中,所述招投标文本数据中的标签包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称,还包括交换代理人、技术方案查重、联合持股人,招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等);招投标文本数据为招投标文件的文本。
进一步地,在S200中,将招投标文本数据进行预处理得到第一招投标文本数据的方法为:
S210:将招投标文本数据去停顿词、虚词等处理;
S220:通过包括有分词字典对语篇内容进行词的划分,去除数字、连字符、标点符号、特殊字符,用正则表达式String res[]=line.split(“[^a-zA-Z]”)将所有大写字母转换成小写;
S230:去除停顿词,过滤对不属于标签的词;
S240:去除虚词、停顿词得到第二招投标文本数据;
其中,所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称。
进一步地,在S300中,分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。
进一步地,在S400中,所述结构化的第三招投标文本数据是数据以标签为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
进一步地,在S500中,抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为:
抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法;
计算各个主题词的词频F(t)的方法为:
Figure BDA0002349781520000051
其中,nt表示主题词t在第三招投标文本数据中出现的次数,N表示第三招投标文本数据中的总词汇数;
选出最高词频的主题词作为第一主题词。
进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为:
记知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词为对比主题词;
依次通过计算第一主题词与所有知识库中对比主题词的文本向量所表示的两个招投标文本数据d和dj之间的对比度,d为待进行相似比对的招投标文本数据,dj为知识库中参与相似比对的招投标文本数据,计算对比度S(d,di)如下:
Figure BDA0002349781520000061
其中,Rk为主题词所表示的招投标文本数据的值,Rik表示知识库中第i个招投标文本数据的第k个标签的值,M为知识库中招投标文本数据标签的数量,i为整数,i取值范围为1到N,N为知识库中招投标文本数据的数量,
Figure BDA0002349781520000062
为Rk的平方,
Figure BDA0002349781520000063
为Rik的平方。
其中,所述知识库包括多个招投标文本数据,每个招投标文本数据包括多个标签,每个标签对应有一个条款文本。
进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的计算方法还可以为余弦相似度的计算方法。
进一步地,在S700中,显示出预设相似阈值以上对比度的所有招标信息部分,异常的招标信息部分按照从大到小或从小到大进行排序,预设相似阈值默认设置为20%,可人工调整。
其中,招投标文件的问题主要有:招投标围标(交换代理人、技术方案查重)异常。
招投标围标(交换代理人):投标信息(包括项目、项目投标厂家、投标厂家代理人等)
技术方案查重:项目投标的技术方案;
招投标围标(交换代理人):分析投标项目中,某投标企业是否总是联合其他家企业投一个项目,并且分析多个项目上,是否存在代理人互换的情况。
技术方案查重:分析多个项目投标的技术方案,比较技术方案各个章节的相似度,当相识度到80%,则判断为异常。
本公开的实施例提供的一种基于文本挖掘识别串标风险的系统,如图2所示为本公开的一种基于文本挖掘识别串标风险的系统结构图,该实施例的一种基于文本挖掘识别串标风险的系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于文本挖掘识别串标风险的系统实施例中的步骤。
所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据采集单元,用于读取招投标文本数据;
预处理单元,用于将招投标文本数据进行预处理得到第一招投标文本数据;
分词单元,用于将第一招投标文本数据进行分词得到第二招投标文本数据;
结构化单元,用于将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
高频主题词单元,用于抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
相似比对单元,用于将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
异常标记单元,用于当对比度大于预设相似阈值时则标记招投标文本数据为异常。
所述一种基于文本挖掘识别串标风险的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于文本挖掘识别串标风险的系统可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于文本挖掘识别串标风险的系统的示例,并不构成对一种基于文本挖掘识别串标风险的系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于文本挖掘识别串标风险的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于文本挖掘识别串标风险的系统运行系统的控制中心,利用各种接口和线路连接整个一种基于文本挖掘识别串标风险的系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于文本挖掘识别串标风险的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims (8)

1.一种基于文本挖掘识别串标风险的方法,其特征在于,所述方法包括以下步骤:
S100:读取招投标文本数据;
S200:将招投标文本数据进行预处理得到第一招投标文本数据;
S300:将第一招投标文本数据进行分词得到第二招投标文本数据;
S400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
S500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
S600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
S700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。
2.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S200中,将招投标文本数据进行预处理得到第一招投标文本数据的方法为:
S210:将招投标文本数据去停顿词、虚词等处理;
S220:通过包括有分词字典对语篇内容进行词的划分,去除数字、连字符、标点符号、特殊字符,将所有大写字母转换成小写;
S230:去除停顿词,过滤对不属于标签的词;
S240:去除虚词、停顿词得到第二招投标文本数据;
其中,所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称。
3.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S300中,分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。
4.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S400中,所述结构化的第三招投标文本数据是数据以标签为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
5.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S500中,抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为:
抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法;
计算各个主题词的词频F(t)的方法为:
Figure FDA0002349781510000021
其中,nt表示主题词t在第三招投标文本数据中出现的次数,N表示第三招投标文本数据中的总词汇数;
选出最高词频的主题词作为第一主题词。
6.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为:
记知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词为对比主题词;
依次通过计算第一主题词与所有知识库中对比主题词的文本向量所表示的两个招投标文本数据d和dj之间的对比度,d为待进行相似比对的招投标文本数据,dj为知识库中参与相似比对的招投标文本数据,计算对比度S(d,di)如下:
Figure FDA0002349781510000022
其中,Rk为主题词所表示的招投标文本数据的值,Rik表示知识库中第i个招投标文本数据的第k个标签的值,M为知识库中招投标文本数据标签的数量,i为整数,i取值范围为1到N,N为知识库中招投标文本数据的数量,
Figure FDA0002349781510000023
为Rk的平方,
Figure FDA0002349781510000024
为Rik的平方。
7.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,所述知识库包括多个招投标文本数据,每个招投标文本数据包括多个标签,每个标签对应有一个条款文本。
8.一种基于文本挖掘识别串标风险的系统,其特征在于,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据采集单元,用于读取招投标文本数据;
预处理单元,用于将招投标文本数据进行预处理得到第一招投标文本数据;
分词单元,用于将第一招投标文本数据进行分词得到第二招投标文本数据;
结构化单元,用于将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
高频主题词单元,用于抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
相似比对单元,用于将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
异常标记单元,用于当对比度大于预设相似阈值时则标记招投标文本数据为异常。
CN201911410235.7A 2019-12-31 2019-12-31 一种基于文本挖掘识别串标风险的方法及系统 Pending CN111241230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410235.7A CN111241230A (zh) 2019-12-31 2019-12-31 一种基于文本挖掘识别串标风险的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410235.7A CN111241230A (zh) 2019-12-31 2019-12-31 一种基于文本挖掘识别串标风险的方法及系统

Publications (1)

Publication Number Publication Date
CN111241230A true CN111241230A (zh) 2020-06-05

Family

ID=70877634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410235.7A Pending CN111241230A (zh) 2019-12-31 2019-12-31 一种基于文本挖掘识别串标风险的方法及系统

Country Status (1)

Country Link
CN (1) CN111241230A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法
CN112561670A (zh) * 2020-12-11 2021-03-26 南方电网物资有限公司 一种用于围标串标的智能识别系统
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及系统
CN112819565A (zh) * 2021-01-20 2021-05-18 南方电网深圳数字电网研究院有限公司 围标串标的检测方法、系统及存储介质
CN112926950A (zh) * 2021-03-26 2021-06-08 武汉鸿宇未来科技有限公司 基于云平台的电子招标系统与方法
CN114595661A (zh) * 2022-05-07 2022-06-07 深圳平安综合金融服务有限公司 用于评审投标文件的方法、设备和介质
CN116757807A (zh) * 2023-08-14 2023-09-15 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096681A (zh) * 2019-03-16 2019-08-06 平安科技(深圳)有限公司 合同条款分析方法、装置、设备及可读存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096681A (zh) * 2019-03-16 2019-08-06 平安科技(深圳)有限公司 合同条款分析方法、装置、设备及可读存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊芳等: "电力企业供应商疑似围标串标行为分析" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法
CN112561670A (zh) * 2020-12-11 2021-03-26 南方电网物资有限公司 一种用于围标串标的智能识别系统
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN112597353B (zh) * 2020-12-18 2024-03-08 武汉大学 一种文本信息自动提取方法
CN112819565A (zh) * 2021-01-20 2021-05-18 南方电网深圳数字电网研究院有限公司 围标串标的检测方法、系统及存储介质
CN112819565B (zh) * 2021-01-20 2023-08-08 南方电网数字平台科技(广东)有限公司 围标串标的检测方法、系统及存储介质
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及系统
CN112926950A (zh) * 2021-03-26 2021-06-08 武汉鸿宇未来科技有限公司 基于云平台的电子招标系统与方法
CN114595661A (zh) * 2022-05-07 2022-06-07 深圳平安综合金融服务有限公司 用于评审投标文件的方法、设备和介质
CN116757807A (zh) * 2023-08-14 2023-09-15 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法
CN116757807B (zh) * 2023-08-14 2023-11-14 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法

Similar Documents

Publication Publication Date Title
CN111241230A (zh) 一种基于文本挖掘识别串标风险的方法及系统
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
CN107085585B (zh) 用于图像搜索的准确的标签相关性预测
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
CN110543592B (zh) 信息搜索方法、装置以及计算机设备
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
US8577882B2 (en) Method and system for searching multilingual documents
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN111078839A (zh) 一种用于裁判文书的结构化处理方法及处理装置
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN112148862A (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN113806500B (zh) 信息处理方法、装置和计算机设备
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN111814481A (zh) 购物意图识别方法、装置、终端设备及存储介质
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
WO2022188585A1 (zh) 用于文本数据的标注方法、装置、计算机设备及存储介质
CN113918804A (zh) 商品信息检索系统及方法
CN114020904A (zh) 试题文件筛选方法、模型训练方法、装置、设备及介质
Liu et al. Classical Chinese sentence segmentation for tomb biographies of Tang dynasty
CN112100336A (zh) 一种档案的保存时间鉴定方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination