CN116304060A - 一种基于聚类构建通用词库的方法、装置及电子设备 - Google Patents
一种基于聚类构建通用词库的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116304060A CN116304060A CN202310546076.3A CN202310546076A CN116304060A CN 116304060 A CN116304060 A CN 116304060A CN 202310546076 A CN202310546076 A CN 202310546076A CN 116304060 A CN116304060 A CN 116304060A
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- bid
- bidding
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000009193 crawling Effects 0.000 claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 21
- 238000012545 processing Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于聚类构建通用词库的方法、装置及电子设备,包括:爬取多个招标文本数据,招标文本数据包括招标文本和表征文本格式的格式标签;针对每一招标文本,以格式标签为分隔符将该招标文本分割为多段文本;根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该招标文本的有效区间段落文本;将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。
Description
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种基于聚类构建通用词库的方法、装置及电子设备。
背景技术
相关部门主要使用公开招标的采购方式进行采购,公开招标具体是指采购人按照法定程序,通过发布招标公告,邀请所有潜在的不特定的供应商参加投标,采购人通过某种事先确定的标准,从所有投标供应商中择优评选出中标供应商,并与之签订相关部门采购合同的一种采购方式。
相关部门在通过招标进行采购时,根据采购要求提供招标文件,并向供应商展示招标文件,供应商则根据招标文件的内容选择是否参加投标。
实际中,招标文件中内容很可能违反一些相关参考规则文件,现有技术都是专门由核验人员对招标文件的内容进行核查,具体核查方式就是人工从相关参考规则文件中找出关键词,并记录成文件,然后将根据记录文件对招标文件进行检查,若招标文件中包括记录文件中的关键词,则对招标文件的相关部分进行标记,并反馈修改招标文件。上述人工形成记录文件的方式,一是人工对相关参考规则文件不熟悉,很可能遗漏检测内容,二是人工效率低,且难以保证全面性。
发明内容
有鉴于此,本申请提供了一种基于聚类构建通用词库的方法、装置及电子设备,通过处理并定位大量招标文本中的有效区间段落文本,并将有效区间段落文本中的语句进行聚类,构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。
第一方面,本申请实施例提供了一种基于聚类构建通用词库的方法,所述方法包括:
爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;
针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;
根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;
将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
在一种可能的实施方式中,所述针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本,包括:
针对每一所述招标文本,根据该招标文本对应的格式标签,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个格式标签;
将每个段落信息中的段落内容确定为该招标文本的每一段文本。
在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;
遍历所述多段文本,确定具有指定关键词的第一段落文本;
根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;
根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。
在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中的位于第一或者第二的字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
在一种可能的实施方式中,所述根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括:
获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;
如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。
在一种可能的实施方式中,所述将多个招标文本的有效区间段落文本中的语句进行聚类,包括:
针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句;
计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类。
在一种可能的实施方式中,所述针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句,包括:
针对每一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二设定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
删除所述第二语句中的序号,得到该有效区间段落文本的多个有效语句。
在一种可能的实施方式中,所述计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类,包括:
选取一招标文本作为参考招标文本,将所述参考招标文本的每一有效语句分别与当前轮其他招标文本的每一有效语句计算相似度,并将相似度满足第一设定阈值的有效语句聚类;所述其他招标文件为除被选为参考招标文本的招标文本;
从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本,确定所述新的参考招标文本的每一目标有效语句和当前轮其他招标文本中的每一目标有效语句;将新的参考招标文本的每一目标有效语句分别与当前轮其他招标文本中的每一目标有效语句计算相似度,并将相似度满足第一设定阈值的目标有效语句聚类;其中,不同轮的所述其他招标文件不同,所述目标有效语句是未聚类成功的有效语句;
返回从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本的步骤,直至不存在剩余招标文本。
第二方面,本申请实施例还提供了一种基于聚类构建通用词库的装置,所述装置包括:
爬取模块,用于爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;
分割模块,用于针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;
确定模块,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;
聚类模块,用于将多个招标文本的有效区间段落文本中的语句进行聚类;
提取模块,用于提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的基于聚类构建通用词库的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的基于聚类构建通用词库的方法的步骤。
本申请实施例提供的上述基于聚类构建通用词库的方法、装置及电子设备,通过爬取包括招标文本和表征文本格式的格式标签的多个招标文本数据,并以格式标签为分隔符将该招标文本分割为多段文本,然后,根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该招标文本中的有效区间段落文本;最后,将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。在上述过程中,通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现遗漏检测的问题,二是提高了检测效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1a示出了本申请实施例提供的一种基于聚类构建通用词库的方法的流程图;
图1b示出了写入excel文档中的通用关键词(也即通用词库)的示意图;
图2示出了本申请实施例提供的另一种基于聚类构建通用词库的方法的流程图;
图3示出了本申请实施例提供的再一种基于聚类构建通用词库的方法的流程图;
图4示出了本申请实施例提供的一种基于聚类构建通用词库的装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在目前相关部门部分的招标文件检测中,现有技术都是专门由核验人员对招标文件的内容进行检查,具体检查方式就是人工从违规文件中找出关键词,并记录成文件,以便基于该记录文件对招标文件进行违规检查,若招标文件中包括记录文件中的关键词,则确定招标文件违规,并反馈招标文件进行修改。这种人工形成记录文件的方式,一是人工对相关参考规则文件不熟悉,很可能遗漏检测内容,二是人工效率低,难以保证全面性。
基于此,本申请实施例提供了一种基于聚类构建通用词库的方法、装置及电子设备,通过处理并定位大量招标文本中的有效区间段落文本,并将有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检问题,二是提高了检测效率。
上述方法可以运行于本地终端设备,也可以运行于服务器,由于计算量大,上述方法通常用于服务器,当前上述方法运行于服务器时,可以基于交互系统来实现与执行,其中,交互系统包括服务器和客户端设备。其中,客户端设备的作用用于数据的接收、发送以及人机画面的呈现,举例而言,客户端设备可以是靠近用户侧的具有数据传输功能的显示设备,如,移动终端、电视机、计算机、掌上电脑等,但是进行数据处理的为服务器。
如图1a所示,为本申请第一实施例提供的一种基于聚类构建通用词库的方法,包括:
S101、爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签。
S102、针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本。
S103、根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系。
S104、将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
本申请实施例提供的上述基于聚类构建通用词库的方法,通过处理定位大量招标文本中的有效区间段落文本,并将有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。
实际中,本申请实施例中提供了一个系统(也可以称为平台,或者系统平台,或者平台系统)供相关部门使用,该系统中包括预先构建好的上述通用词库(也可以称为违规词库),相关部门只有要待发布招标文件,就上传到上述系统中,系统则自动根据预先构建好的违规词库处理待发布招标文件,以进行待发布招标文件的违规检测,然后,系统将违规检测的结果展现给用户(具体的,系统可以通过浏览器页面的形式展现给用户),供用户查看。
由于整个构建通用词库的处理过程对计算资源要求较高,因此,本申请实施例中的上述方法应用于服务器,下面以上述基于聚类构建通用词库的方法应用于服务器为例分别对上述示例性的各步骤进行说明。
S101、爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签。
在本申请实施例中,可以从一个或者多个不同的爬取对象中爬取招标文本数据,上述爬取对象可以是浏览器,可以是word文档,也可以是文本文档。在本申请实施例中是爬取大量的招标文本数据,通常为几千条数据或者几万条数据,而每一条数据都包括招标文本和表征文本格式的格式标签。这里,来自不同爬取对象的招标文本数据的格式标签以及格式标签表征形式不同。
当爬取对象是浏览器时,招标文本数据中包括第一格式标签,具体为标签<***>,标签里的内容“***”表征文本的字体、字号、加粗和颜色等,而标签整体“<>”表征段落,不同“<>”表征不同段落以及不同段落之间的关系。上述第一格式标签包括第一段落标签<br/>,<br/>是网页Html语言中的代码表示分行,即每一段文本后面都包括至少一个<br/>,本申请实施例中仅以第一段落标签为例进行说明;
比如,一段文本后面包括一个<br/>,表示(也即表征)该段文本为一个段落,且与下一段落文本连续(也即与下一段落文本无间隔行);再比如,一段文本后面包括一个<br/>空格<br/>,表示(也即表征)该段文本为一个段落,且与下一段落的文本间隔一行。因此,基于上述第一格式标签以及第一格式标签表征形式,可以将从浏览器中爬取的招标文本进行文本分割。
当爬取对象是word时,招标文本数据中包括第二格式标签,仅以划分段落为例,第二格式标签包括第二段落标签“”,仍然仅以第二段落标签为例,即每一段文本后面都包括上述第二段落标签;比如,一段文本后面包括一个“/>”,表示(也即表征)该段文本为一个段落。基于上述第二格式标签以及第二格式标签表征形式,可以将从word文本中爬取的招标文本进行分割。其中,不同格式标签的表征形式可以相同,也可以不同。
S102、针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本。
本申请实施例中,每一招标文本都具有表征文本格式的格式标签,针对每一招标文本,以该文本对应的格式标签为分隔符,将该文本分割为多段文本。具体的,针对每一所述招标文本,根据该招标文本对应的所述格式标签以及每两个格式标签之间的关系,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个格式标签;将每个段落信息中的段落内容确定为该招标文本的每一段文本。
实际中,基于每个格式标签和每两个格式标签之间的关系能够共同确定段落信息,每个段落信息包括一组标签和该组标签对应的段落内容;这样,每组标签对应的段落内容即为该招标文本的每一段文本。比如,第一区域工程建设<br/><br/>第二区域工程建设<br/>,第一个格式标签<br/>表征其前面的“第一区域工程建设”是一段文本,如果该<br/>与下一个<br/>之间没有文本,或者该<br/>与下一个<br/>之间是空格,那么,第二个<br/>与第一个<br/>为一组;实际中,第二个<br/>表征的是第一个<br/>前面的文本“第一区域工程建设”与下一个文本“第二区域工程建设”之间具有一行的间隔;第二个<br/>与第三个<br/>之间有文本,那第三个<br/>就是独立于第二个<br/>的,其表征前面的“第二区域工程建设”是一段文本。
本申请实施例中,对分割的段落文本进行数字编码,具体按照段落文本的先后顺序依次对分割的每一段落文本进行编码,比如,依次编码为段落1、段落2等。
S103、根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系。
本申请实施例中,针对每一招标文本,在S102步确定出该招标文本的多段文本后,遍历每一段文本中的基础序号,这里的基础序号为数字,可以包括阿拉伯数字(如1,2,3)、汉字数字(如一,二,三),罗马数字(Ⅰ,Ⅱ,Ⅲ)等;上述基础序号的关联分布特征表征了多段文本之间的层级关系,该层级关系包括平级关系(比如,一、二、三,即平级关系或者并列关系)和从属关系等(比如,“一”中包括1、2、3,“123”从属于“一”,为“一”的子集)。
具体的,根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的上述层级关系,再遍历所述多段文本,确定具有指定关键词的第一段落文本;然后,根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,最后,根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。
比如,第一层级为段落1、段落10和段落15,记录为【1(1,10,15)】,第二层级属于段落1的子集,包括段落2、段落5和段落9,记录为【2(2,5,9)】,第三层级属于段落2的子集,包括段落3和段落4,记录为【3(3,4)】。那么,在确定上述层级之后,如果确定段落2中包括指定关键词,那么,段落2为第一段落文本,相应的,第二段落文本为段落3和段落4,根据上述段落2以及段落3、段落4,确定该招标文本的有效区间段落文本。实际中,有效区间段落文本为段落2~段落4(即段落2、段落3和段落4)。这里,上述指定关键词通过分析招标文件确定,这里可以为“要求”、“资格要求”等。
S104、将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
实际中,每一招标文本包括一个或多个有效区间段落文本,本申请实施例中,以每一招标文本均具有一有效区间段落文本为例,那么,多个招标文本则对应多个有效区间段落文本,首先,提取每一有效区间段落文本中的语句,然后,将多个有效区间段落文本中的语句进行聚类得到多类文本,之后,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。这里,聚类的方法即将多个有效区间段落文本中的语句做相似度计算,相似度高的(也即相似度大于第一设定阈值的)聚为一类。上述参考规则可以是相关政策文件。
具体的,每一类文本中的通用关键词可以包括同义词,比如,通用关键词为“注册资金”,同义词可以为“注册资本”;再比如,通用关键词为“不低于”,其同义词包括:“以上、至少、高于、大于、不少于”。在确定了通用关键词后,还要将通用关键词进行整合,并写入excel文档中。本申请实施例是构建违规词库,在提取出通用关键词的基础上对这些通用关键词进行标注是否违规(具体可以是违反公平竞争),不违反也会被保留做标记使用,用于对下一组招标文件处理使用。
如图1b所示,整合后写入excel文档中通用关键词如下:
注册资金|注册资本)&(不低于|以上|至少|高于|大于|不少于);独立法人|法人资格|独立的法人资格;
(近三年|成立年份至今)&(财务报表|财务审计报告)。
在上述S101~S104中,上述招标文本数据是从上述爬取的数据中随机选取多个第一招标文本数据(包括第一招标文本),通过多对个第一招标文本数据进行处理,进行通用词库的构建;后面,在从爬取的数据中获取大量每个类别的第二招标文本数据(包括第二招标文本),通过对多个第二招标文本数据进行处理,以更新通用词库,给通用词库赋予每个类别下个性化的通用关键词。这里,上述不同类别可以是工程建筑类别(比如,工程建筑类招标),可以是医疗类别(比如,医疗类招标等)。
进一步的,如图2所示,本申请实施例提供的基于聚类构建通用词库的方法,所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本,包括:
S201、根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系。
S202、遍历所述多段文本,确定具有指定关键词的第一段落文本。
S203、根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本。
S204、根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。
结合步骤S201~步骤S204,具体的,遍历多段文本,获取每段文本中的基础序号,然后根据这些基础序号的关联分布特征,确定多段文本之间的层级关系,上述层级关系包括上述平级关系和从属关系。
具体方式如下下述a1~a3所示:
a1、针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中的位于第一或者第二的字符位置以及该数字的后一个字符是指定字符。
本申请实施例中,首先进行预选序号识别,该预选序号也即上述满足第一关联分布特征的数字,具体的,遍历每段文本,对每个段落文本进行基本序号识别。
上述预选序号识别,即识别满足第一关联分布特征的数字,该数字在段落的第一字符位置或者第二字符位置、该数字后一个字符为指定字符;其中,数字可以为阿拉伯数字(如1,2,3等)、汉字数字(如一,二,三等)、罗马数字(Ⅰ、Ⅱ、Ⅲ等);上述指定字符(也即指定标识符)包括:'篇','章','节',')','、','.',',','是','要','条','空格'等。
上述数字在第一字符位置或者第二字符位置,上述第一字符位置也即段落1的位置,上述第二字符也即段落2的位置,具体如下:
段落1的位置如下:1、段落内容;
段落2的位置如下:(1)段落内容。
a2、从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字。
该步骤中取序号组(也即取每组数字),具体方式是,将符合下述3个条件的序号取出,并将所有非可计算的数字转化为可计算的数字,并通过计算将这些数字分组。这里,非可计算的数字为汉字数字(如一,二,三等)和罗马数字(Ⅰ、Ⅱ、Ⅲ等),可计算的数字为阿拉伯数字(如1,2,3等)。具体转换,比如,‘一’转化成‘1’,‘二’转化成‘2’,对同类数字进行计算;上述3个条件即为:a、同类数字(阿拉伯或汉字),b、同类型数字后面的符号相同,c、每组数字是以1开始的连续的连续数字。这样,一组数字被看作连续的序号,即一序号组(也即一组数字)。一组数字的具体计算方式如下:上一个数字减去当前数字为1,得到的结果为:“一、二、三”为一组,“1、2、3”为一组,“(1)、(2)、(3)”为一组。
其中,当满足第一关联分布特征的数字是组合数字时,所述从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,包括:
根据所述组合数字的类型、所述组合数字后面的符号以及所述组合数字的前向标识和最后一个数字,从该段文本中的满足第一关联分布特征的组合数字中选取满足第二关联分布特征的每组组合数字;所述组合数字为由数字和特定标点组成的数字,所述组合数字包括前向标识和最后一个数字;
其中,所述满足第二关联分布特征的每组组合数字包括:属于同类型的组合数字、每组组合数字后面的符号相同以及每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字。
上述组合数字为特殊数字,比如:
“1.1.1、
1.1.2、
1.1.2.1、
1.1.2.2、
1.1.2.3、
1.1.3、”
针对上述组合数字,将每一个组合数字拆分为前向标识和最后一个数字;比如,1.1.1、1.1.2和1.1.3中,前向标识均为“1.1.”,最后一个数字分别为“1、2、3”;再比如,1.1.2.1、1.1.2.2和1.1.2.3中,前向标识均为“1.1.2.”,最后一个数字分别为“1、2、3”。
上述满足第二关联分布特征的每组组合数字中,属于同类型的组合数字、每组组合数字后面的符号相同,只是对于组合数字来讲,最后一个条件是:每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字中;比如,1.1.1、1.1.2和1.1.3中,前向标识均相同为“1.1.”,而最后一个数字是以1开始的连续数字,分别为“1、2、3”。
a3、根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
具体的,在确定了每一组数字分别所在的段落编码之后,根据已经划分好的每组数字,即可确定每组数字之间均是平级关系,相应的,每组数字对应一组段落编码,每组段落编码对应的多段文本之间位于同一层级。
再根据每组数字的每组段落编码之间的位置关系,就可以知道有些组数字是在另一组数字某两个数字的段落之间,那么,这“有些组数字”就是“另一组数字”的“某两个数字”中在先数字的子集,这样,即可知道每组数字之间的层级关系。比如,第一组数字(一二三)对应的段落分别为段落1、段落2、段落6;具体表示为:【(一、1)(二、2)(三、6)】,第二组数字(123)对应段落分别为:段落3、段落4、段落5;具体表示为:【(1、3)(2、4)(3、5)】。因此,可以看出第二组数字(123)的段落位于第一组数字(一二三)的“二三”段落之间,那么,第二组数字(123)则从属于第一组数字(一二三)中“二”,也即是“二”的子集。
具体的,在确定了多段文本之间的层级关系(也即上述每组数字)之间的层级关系之后,重新遍历多段文本,确定具有指定关键词的第一段落文本,并记录该第一段落文本所属的段落(具体为记录该段落的段落编码),然后,根据所述多段文本之间的层级关系,将该第一段落文本及其下属层级的第二段落文本确定为有效区间段落文本,具体为:根据所述多段文本之间的层级关系,确定从属于第一段落文本的第二段落文本,然后,将第一段落文本及第二段落文本确定为有效区间段落文本。比如,第一组数字(一二三)中的“二”包括“指定关键词”,那么,确定“二”和“二”的子集第二组数字(123)为有效区间段落文本。
进一步的,本申请实施例还提供了一种基于聚类构建通用词库的方法,所述根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括下述b1~b3的步骤:
b1、获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;
b2、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;
b3、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;
b4、如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。
结合上述b1~b4,在系统处理数据时,是要给出系统一套处理逻辑,系统才能根据处理逻辑确定出第二段落文本,具体如下:
比如,确定出的每组段落编码分别为:第一组数字{一,二,三}对应的段落分别为段落1、段落2、段落9,具体表示为:【(一、1)(二、2)(三、9)】;第二组数字{1,2,3}对应段落分别为:段落3、段落4、段落5,具体表示为:【(1、3)(2、4)(3、5)】;第三组数字{(1),(2),(3)}对应段落分别为:段落6、段落7、段落8,具体表示为:【{(1),6}{(2),7}{(3),8}】;第四组数字{1,2,3}对应段落分别为:段落10、段落11、段落12;具体表示为:【(1、10)(2、11)(3、12)】。
相应的,每一组数字对应的多段文本为同一层级,因为第二组数字{1,2,3}的段落在第一组数字{一,二,三}中的{二,三}之间,所以,第二组数字{1,2,3}是第一组数字{一,二,三}的下一层级,具体为第一组数字{一,二,三}中{二}的子集,以此类推。这里,当第一组数字{一,二,三}中的{二}有指定关键词(比如,“要求”二字时),{二}为第一段落文本,因此,查询{二}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码,即是否为【段落1、段落2、段落9】中的最后一个位置,这里{二}不是最后一个位置,所以,将【段落1、段落2、段落9】中,将段落2~段落9之间的段落文本确定为第二段落文本,相应的,段落2到段落8的文本为相应招标文本中的有效区间段落文本。
另外,当第二组数字{1,2,3}中的{3}有指定关键词(比如,“要求”二字时),第二组数字{1,2,3}中的{3}为第一段落文本,因此,查询该{3}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码【段落3、段落4、段落5】中的最后一个位置,这里{3}是最后一个位置,所以,查找{3}上一层级的第二组段落编码,即第一组数字{一,二,三},对应的段落分别为(段落1、段落2、段落9),且该{3}位于第一组数字{一,二,三}的{二,三}之间,具体位于段落2和段落9之间,因此,确定第一上级段落编码为段落2,第二上级段落编码为段落9,将该{3}的段落编码和上述段落9之间的段落文本确定为第二段落文本。相应的,段落5到段落8的文本为相应招标文本中的有效区间段落文本。
再者,当第一组数字{一,二,三}中的{三}有指定关键词(比如,“要求”二字时),第一组数字{一,二,三}中的{三}为第一段落文本,因此,查询该{三}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码【段落1、段落2、段落9】中的最后一个位置,这里{三}是最后一个位置,所以,查找{三}上一层级的第二组段落编码,查找不到,也即,{三}没有上一层级的第二组段落编码,那么,通过以下两种方式确定{三}对应的第二段落文本:
第一,将位于{三}的段落编码后的所有段落文本均确定为第二段落文本;第二,确定{三}下一层级的{1,2,3},并确定该下一层级的{1,2,3}中{3}以及该{3}的第三段落编码,在确定该{3}的下一层级的中最后一位置的第三段落编码,依次类推,直至得到最后一个层级的第三段落编码,上述例子中就一个层级,即{三}下一层级的{1,2,3}中{3}就是最后一个层级的第三段落编码,那么,将{三}和{三}下一层级的{1,2,3}中{3}之间的段落文本确定为第二段落文本。相应的,段落9到段落12的文本为相应招标文本中的有效区间段落文本。
进一步的,本申请实施例还提供了一种基于公共词构建通用词库的方法,所述根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本,包括以下c1~c2步骤:
c1、获取每一个第一段落文本和从属于该第一段落文本的第二段落文本,并将每一个第一段落文本和从属于该第一段落文本的第二段落文本,确定为该招标文本的候选区间段落文本。
c2、若该招标文本的候选区间段落文本为多个,判断该招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,从所述多个候选区间段落文本中选取该招标文本的有效区间段落文本。
其中,所述根据判断结果和预设规则,从所述多个候选区间段落文本中选取该招标文本的有效区间段落文本,包括以下三种情况:
第一种情况:针对判断无交集的两个候选区间段落文本,将该两个候选区间段落文本均确定为该招标文本的有效区间段落文本;
第二种情况:针对判断有交集且非包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取包括的段落文本数量多的候选区间段落文本作为有效区间段落文本;或者,将该两个候选区间段落文本均确定为有效区间段落文本;
第三种情况:针对判断有交集且为包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取覆盖范围大的候选区间段落文本作为有效区间段落文本。
结合上述c1~c2,通过计算确定出的该招标文本的候选区间段落文本可能有多个,再计算过程中,这多个候选区间段落文本之间可能存在区间冲突,因此,需要解决这些冲突,解决方式如下:判断该招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则解决冲突,以选取该招标文本的有效区间段落文本;具体如下:
针对每一两两之间的候选区间段落文本(分别为A和B):
情况1,A和B无交集,取A并B;
情况2,A和B有交集,从A和B中取包括的段落多个的(比如,A是段落1~段落5,B是段落4~段落6,那么取A,该种情况下,B很可能是计算错误得到的,该种处理方式能够减少后面提取通用关键词的计算量),或者,取A并B,该种方式计算准确度相对高一些,但后面提取通用关键词的计算量大;
情况3,A和B包含关系,取最大的(比如,A为段落1~段落5,B为段落5,A包含B,那么,取A)。
进一步的,如图3所示,本申请实施例还提供了一种基于聚类构建通用词库的方法,所述将多个招标文本的有效区间段落文本中的语句进行聚类,包括:
S301、针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句。
实际中,每一招标文本的有效区间段落文本中均包括至少一个有效语句,具体的,针对每一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句,然后,从所述多个候选语句中选取包含汉字长度大于第二设定阈值(比如5)的第一语句,并删除所述第一语句中的空格和指定异常符号(也即保留常规符号),得到第二语句,这里的常规符号包括逗号、句号、分号、顿号等,相应的,其他符号“&”、“*”、“@”等为指定异常符号,在得到第二语句后,删除第二语句中的序号,这里的序号即每段文本前面的数字序号“一”、“1”、“(1)”、“Ⅰ”等),得到该招标文本的多个有效语句。
具体的,“有效区间段落文本”也即“要求中”内容,以分号和句号为分隔符拆分有效区间段落文本中的候选语句(简称句子),对句子进行分析处理。在处理时,先将英文句号转换为中文句号,将英文分号转换为中文分号,将英文括号也转换成中文括号,这样,为了统一格式,避免由于格式不一致导致的计算错误,然后,再进行下述处理:
句子包含汉字长度大于5的保留;句子删除空格和指定异常符号(保留汉字、常规标点和数字,因为指定异常符号展示出来很可能是错的,且对提取通用关键词意义不大));去除每一个句子前面的序号,然后,将句子中的字母统一格式,比如,将字母全部转换成小写字母,删除书名号、括号内的成对标点内容,保留双引号、单引号中的成对标点内容。基于上述处理,最终得到每个有效区间段落文本的有效语句。
S302、计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类。
具体的,在进行聚类时,是计算不同招标文本中多个有效语句之间的相似度,一个招标文本中的多个有效语句之间不进行计算。具体方法包括:
d1、选取一招标文本作为参考招标文本,将所述参考招标文本的每一有效语句分别与当前轮其他招标文本的每一有效语句计算相似度,并将相似度满足第一设定阈值的有效语句聚类;所述其他招标文件为除被选为参考招标文本的招标文本;
d2、从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本,确定所述新的参考招标文本的每一目标有效语句和当前轮其他招标文本中的每一目标有效语句;将新的参考招标文本的每一目标有效语句分别与当前轮其他招标文本中的每一目标有效语句计算相似度,并将相似度满足第一设定阈值的目标有效语句聚类;其中,不同轮的所述其他招标文件不同,所述目标有效语句是未聚类成功的有效语句;
d3、返回从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本的步骤,直至不存在剩余招标文本。
结合上述d1~d3,本申请实施例中,取出1000个通用类型文件(即1000个招标文本数据),对文件内容进行内容聚类,取出每类内容的通用关键词。以文件(也即文本)和句子进行排序,每个句子都与其他文件的句子进行相似度计算,文件内部的句子不进行相似度计算,比如,一共有三篇招标文件,具体聚类过程如下:具体如下:
有效语句1 招标文件1;
有效语句2 招标文件1;
有效语句1 招标文件2;
有效语句2 招标文件2;
有效语句3 招标文件2;
有效语句1 招标文件3;
有效语句2 招标文件3;
有效语句3 招标文件3;
其中,下文“有效语句”简称为“句”,“招标文件”简称为“文”,,将第一篇招标文本作为参考招标文本,其他招标文本均与第一篇招标文本的聚类结果如下:
句1文1,句1文2,句2文2,句1文3;
去除第一篇招标文本,将第二篇招标文本作为参考招标文本,其他招标文本均与第二篇招标文本的聚类结果如下:
句3文2,句2文3;
去除第一篇招标文本和第二篇招标文本,将第三篇招标文本作为参考招标文本,其他招标文本均与第二篇招标文本的聚类结果如下:
句3文3。
在每次计算的过程中,针对每一个招标文本中的有效语句,如果该有效语句已经与前面的聚类,那么后面句不在参与聚类计算了;如果该有效语句没有与前面的聚类,那么后面继续参与聚类计算。
需要说明的是,上述聚类方法是以文件为个体(也即以招标文本为个体),也可以每个文件中的有效区间段落文本作为个体,使用同样的上述聚类方法,将不同有效区间段落文本中有效语句聚类,而每个有效区间段落文本内的有效语句不做计算。
另外,构建通用词库的数据量很大,在本申请实施例中,采取基于通用类别构建通用词库,在通过特定类别的个性化数据更新通用词库,构建个性化词库。具体的,本申请实施例提供的基于公共词构建通用词库的方法,所述方法还包括e1~e4:
e1、从预设总数量的招标文本中选取符合每一类别的多个第二招标文本,并删除所述第二招标文本中的通用关键词;
e2、获取通过对所述多个第一招标文本处理得到的符合参考规则的补充关键词,并删除所述第二招标文本中的补充关键词,得到优化第二招标文件;
e3、将所述优化第二招标文件作为新的第一招标文件,返回根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本的步骤,得到每一类别的多个第二招标文本对应的不符合参考规则的通用关键词;
e4、根据每一类别的多个第二招标文本对应的不符合参考规则的通用关键词更新所述通用词库,得到更新通用词库。
结合上述e1~e4,通过多个第一招标文本总结好通用关键词后,用通用关键词标注多个第二招标文本中的数据,对于第二招标文本中的未标注数据再进行一轮处理,最终会得到新的一批通用关键词,这新的一批通用关键词是第一次通用关键词补充,依次类推直到无法总结出新的一批通用关键词,得到最终的通用关键词,构建通用词库,并基于该通用词库进行待发布招标文件的违规检测。
本申请实施例提供的上述基于聚类构建通用词库的方法,通过爬取包括招标文本和表征文本格式的格式标签的多个招标文本数据,并以格式标签为分隔符将该招标文本分割为多段文本,然后,根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该招标文本中的有效区间段落文本;最后,将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。在上述过程中,通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。
基于同一发明构思,本申请第二实施例中还提供了第一实施例中与基于聚类构建通用词库的方法对应的基于聚类构建通用词库的装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述基于聚类构建通用词库的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本申请实施例提供的一种基于聚类构建通用词库的装置,所述装置包括:
爬取模块401,用于爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;
分割模块402,用于针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;
确定模块403,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;
聚类模块404,用于将多个招标文本的有效区间段落文本中的语句进行聚类;
提取模块405,用于提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
在一种可能的实施方式中,分割模块402,针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本,包括:
针对每一所述招标文本,根据该招标文本对应的格式标签,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个格式标签;
将每个段落信息中的段落内容确定为该招标文本的每一段文本。
在一种可能的实施方式中,确定模块403,根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;
遍历所述多段文本,确定具有指定关键词的第一段落文本;
根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;
根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。
在一种可能的实施方式中,确定模块403,根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中的位于第一或者第二的字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
在一种可能的实施方式中,确定模块403,根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括:
获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;
如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。
在一种可能的实施方式中,聚类模块404,将多个招标文本的有效区间段落文本中的语句进行聚类,包括:
针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句;
计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类。
在一种可能的实施方式中,聚类模块404,针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句,包括:
针对每一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二设定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
删除所述第二语句中的序号,得到该有效区间段落文本的多个有效语句。
在一种可能的实施方式中,聚类模块404,计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类,包括:
选取一招标文本作为参考招标文本,将所述参考招标文本的每一有效语句分别与当前轮其他招标文本的每一有效语句计算相似度,并将相似度满足第一设定阈值的有效语句聚类;所述其他招标文件为除被选为参考招标文本的招标文本;
从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本,确定所述新的参考招标文本的每一目标有效语句和当前轮其他招标文本中的每一目标有效语句;将新的参考招标文本的每一目标有效语句分别与当前轮其他招标文本中的每一目标有效语句计算相似度,并将相似度满足第一设定阈值的目标有效语句聚类;其中,不同轮的所述其他招标文件不同,所述目标有效语句是未聚类成功的有效语句;
返回从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本的步骤,直至不存在剩余招标文本。
本申请实施例提供的上述基于聚类构建通用词库的装置,通过上述装配装置中各个模块的相互配合,构建通用词库,并通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉,出现漏检的问题,二是提高了检测效率。
如图5所示,本申请实施例提供的一种电子设备500,包括:处理器501、存储器502和总线,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线通信,所述处理器501执行所述机器可读指令时,以执行第一实施例中基于聚类构建通用词库的方法。
具体地,上述存储器502和处理器501能够为通用的存储器和处理器,这里不做具体限定,当处理器501运行存储器502存储的计算机程序时,能够执行上述基于聚类构建通用词库的方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时,以执行第一实施例中基于聚类构建通用词库的方法。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述飞行控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于聚类构建通用词库的方法,其特征在于,所述方法包括:
爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;
针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;
根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;
将多个招标文本的有效区间段落文本中的语句进行聚类,提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
2.根据权利要求1所述的基于聚类构建通用词库的方法,其特征在于,所述针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本,包括:
针对每一所述招标文本,根据该招标文本对应的格式标签,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个格式标签;
将每个段落信息中的段落内容确定为该招标文本的每一段文本。
3.根据权利要求1所述的基于聚类构建通用词库的方法,其特征在于,所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;
遍历所述多段文本,确定具有指定关键词的第一段落文本;
根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;
根据所述第一段落文本和所述第二段落文本,确定该招标文本的有效区间段落文本。
4.根据权利要求3所述的基于聚类构建通用词库的方法,其特征在于,所述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中的位于第一或者第二的字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
5.根据权利要求4所述的基于聚类构建通用词库的方法,其特征在于,所述根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括:
获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;
如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;
如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。
6.根据权利要求1所述的基于聚类构建通用词库的方法,其特征在于,所述将多个招标文本的有效区间段落文本中的语句进行聚类,包括:
针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句;
计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类。
7.根据权利要求6所述的基于聚类构建通用词库的方法,其特征在于,所述针对每一招标文本,确定该招标文本的有效区间段落文本中的多个有效语句,包括:
针对每一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二设定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
删除所述第二语句中的序号,得到该有效区间段落文本的多个有效语句。
8.根据权利要求6所述的基于聚类构建通用词库的方法,其特征在于,所述计算不同招标文本中所述多个有效语句之间的相似度,将不同招标文本中相似度满足第一设定阈值的有效语句进行聚类,包括:
选取一招标文本作为参考招标文本,将所述参考招标文本的每一有效语句分别与当前轮其他招标文本的每一有效语句计算相似度,并将相似度满足第一设定阈值的有效语句聚类;所述其他招标文件为除被选为参考招标文本的招标文本;
从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本,确定所述新的参考招标文本的每一目标有效语句和当前轮其他招标文本中的每一目标有效语句;将新的参考招标文本的每一目标有效语句分别与当前轮其他招标文本中的每一目标有效语句计算相似度,并将相似度满足第一设定阈值的目标有效语句聚类;其中,不同轮的所述其他招标文件不同,所述目标有效语句是未聚类成功的有效语句;
返回从除所述参考招标文本之外的招标文本中再选取一招标文本作为新的参考招标文本的步骤,直至不存在剩余招标文本。
9.一种基于聚类构建通用词库的装置,其特征在于,所述装置包括:
爬取模块,用于爬取多个招标文本数据,所述招标文本数据包括招标文本和表征文本格式的格式标签;
分割模块,用于针对每一所述招标文本,以所述格式标签为分隔符将该招标文本分割为多段文本;
确定模块,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该招标文本的有效区间段落文本;所述关联分布特征表征了所述多段文本之间的层级关系;
聚类模块,用于将多个招标文本的有效区间段落文本中的语句进行聚类;
提取模块,用于提取每一类文本中不符合参考规则的通用关键词,构建通用词库。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至8任一项所述的基于聚类构建通用词库的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546076.3A CN116304060B (zh) | 2023-05-16 | 2023-05-16 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310546076.3A CN116304060B (zh) | 2023-05-16 | 2023-05-16 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304060A true CN116304060A (zh) | 2023-06-23 |
CN116304060B CN116304060B (zh) | 2023-08-25 |
Family
ID=86781843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310546076.3A Active CN116304060B (zh) | 2023-05-16 | 2023-05-16 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304060B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ479999A0 (en) * | 1999-12-22 | 2000-02-03 | Canon Kabushiki Kaisha | Structures to represent poorly formed html documents |
CN1760867A (zh) * | 2004-10-15 | 2006-04-19 | 微软公司 | 用于内联网搜索的方法和装置 |
US20080148147A1 (en) * | 2006-12-13 | 2008-06-19 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN108491371A (zh) * | 2018-03-27 | 2018-09-04 | 四川国际招标有限责任公司 | 一种招标文件编制管理系统 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN113918512A (zh) * | 2021-10-22 | 2022-01-11 | 国家电网公司华中分部 | 电网运行规则知识图谱构建系统及方法 |
-
2023
- 2023-05-16 CN CN202310546076.3A patent/CN116304060B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ479999A0 (en) * | 1999-12-22 | 2000-02-03 | Canon Kabushiki Kaisha | Structures to represent poorly formed html documents |
CN1760867A (zh) * | 2004-10-15 | 2006-04-19 | 微软公司 | 用于内联网搜索的方法和装置 |
US20080148147A1 (en) * | 2006-12-13 | 2008-06-19 | Pado Metaware Ab | Method and system for facilitating the examination of documents |
CN106446072A (zh) * | 2016-09-07 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN108491371A (zh) * | 2018-03-27 | 2018-09-04 | 四川国际招标有限责任公司 | 一种招标文件编制管理系统 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN113918512A (zh) * | 2021-10-22 | 2022-01-11 | 国家电网公司华中分部 | 电网运行规则知识图谱构建系统及方法 |
Non-Patent Citations (1)
Title |
---|
王淼;朱宇龙;马博;刘森;黎晚晴;: "基于文本挖掘技术的电力企业招投标智能审计探索与实践", 中国管理信息化, no. 14 * |
Also Published As
Publication number | Publication date |
---|---|
CN116304060B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
US8140468B2 (en) | Systems and methods to extract data automatically from a composite electronic document | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
CN111209411B (zh) | 一种文档分析的方法及装置 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN113590824A (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN111552800A (zh) | 摘要生成方法、装置、电子设备及介质 | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN110674250A (zh) | 一种文本匹配方法、装置、计算机系统及可读存储介质 | |
CN116796726A (zh) | 简历解析方法、装置、终端设备及介质 | |
CN111369294A (zh) | 软件造价估算方法及装置 | |
US11941565B2 (en) | Citation and policy based document classification | |
CN113254651B (zh) | 一种裁判文书的分析方法、装置、计算机设备及存储介质 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN116304060B (zh) | 一种基于聚类构建通用词库的方法、装置及电子设备 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112487293A (zh) | 一种安全事故案例结构化信息抽取方法、装置及介质 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN116257602B (zh) | 一种基于公共词构建通用词库的方法、装置及电子设备 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN107145947B (zh) | 一种信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |