CN116257602B - 一种基于公共词构建通用词库的方法、装置及电子设备 - Google Patents

一种基于公共词构建通用词库的方法、装置及电子设备 Download PDF

Info

Publication number
CN116257602B
CN116257602B CN202310546079.7A CN202310546079A CN116257602B CN 116257602 B CN116257602 B CN 116257602B CN 202310546079 A CN202310546079 A CN 202310546079A CN 116257602 B CN116257602 B CN 116257602B
Authority
CN
China
Prior art keywords
text
word
paragraph
effective
bid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310546079.7A
Other languages
English (en)
Other versions
CN116257602A (zh
Inventor
廖政
李海运
秦利敏
邵强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuopu Fenglian Information Technology Co ltd
Original Assignee
Beijing Tuopu Fenglian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuopu Fenglian Information Technology Co ltd filed Critical Beijing Tuopu Fenglian Information Technology Co ltd
Priority to CN202310546079.7A priority Critical patent/CN116257602B/zh
Publication of CN116257602A publication Critical patent/CN116257602A/zh
Application granted granted Critical
Publication of CN116257602B publication Critical patent/CN116257602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于公共词构建通用词库的方法、装置及电子设备,包括:获取多个第一招标文本,根据每一第一招标文本的段落标签,将该第一招标文本分割为多段文本;根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该第一招标文本的有效区间段落文本;提取每一有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库,以便于用该通用词库进行待发布招标文件的违规检测。本申请,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。

Description

一种基于公共词构建通用词库的方法、装置及电子设备
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种基于公共词构建通用词库的方法、装置及电子设备。
背景技术
相关部门主要使用公开招标的采购方式进行采购,公开招标具体是指采购人按照法定程序,通过发布招标公告,邀请所有潜在的不特定的供应商参加投标,采购人通过某种事先确定的标准,从所有投标供应商中择优评选出中标供应商,并与之签订相关部门采购合同的一种采购方式。
相关部门在通过招标进行采购时,根据采购要求提供招标文件,并向供应商展示招标文件,供应商则根据招标文件的内容选择是否参加投标。
实际中,招标文件中内容很可能违反一些相关参考规则文件,现有技术都是专门由核验人员对招标文件的内容进行核查,具体核查方式就是人工从相关参考规则文件中找出关键词,并记录成文件,然后根据记录文件对招标文件进行检查,若招标文件中包括记录文件中的关键词,则对招标文件的相关部分进行标记,并反馈修改招标文件。上述人工形成记录文件的方式,一是人工对相关参考规则文件不熟悉,很可能遗漏检测内容,二是人工效率低,且难以保证全面性。
发明内容
有鉴于此,本申请提供了一种基于公共词构建通用词库的方法、装置及电子设备,通过处理并定位大量招标文本中的有效区间段落文本,提取有效区间段落文本中的公共词,并基于对公共词的处理构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。
第一方面,本申请实施例提供了一种基于公共词构建通用词库的方法,所述方法包括:
获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签;
根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系;
提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;
根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测。
在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;
遍历所述多段文本,确定具有指定关键词的第一段落文本;
根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;
根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本。
在一种可能的实施方式中,所述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中位于第一字符位置或者第二字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
在一种可能的实施方式中,当满足第一关联分布特征的数字是组合数字时,所述从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,包括:
根据所述组合数字的类型、所述组合数字后面的符号以及所述组合数字的前向标识和最后一个数字,从该段文本中的满足第一关联分布特征的组合数字中选取满足第二关联分布特征的每组组合数字;所述组合数字为由数字和特定标点组成的数字,所述组合数字包括前向标识和最后一个数字;
其中,所述满足第二关联分布特征的每组组合数字包括:属于同类型的组合数字、每组组合数字后面的符号相同以及每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字。
在一种可能的实施方式中,所述根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本,包括:
获取每一个第一段落文本和从属于该第一段落文本的第二段落文本,并将每一个第一段落文本和从属于该第一段落文本的第二段落文本,确定为该第一招标文本的候选区间段落文本;
若该第一招标文本的候选区间段落文本为多个,判断该第一招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本;
其中,所述根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本,包括:
针对判断无交集的两个候选区间段落文本,将该两个候选区间段落文本均确定为该第一招标文本的有效区间段落文本;
针对判断有交集且非包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取包括的段落文本数量多的候选区间段落文本作为有效区间段落文本;或者,将该两个候选区间段落文本均确定为有效区间段落文本;
针对判断有交集且为包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取覆盖范围大的候选区间段落文本作为有效区间段落文本。
在一种可能的实施方式中,所述提取每一第一招标文本的有效区间段落文本中的有效语句,包括:
针对每一第一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二指定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
将所述第二语句中的字母统一格式,并删除所述第二语句中特定符号中的内容,得到第三语句;
删除所述第三语句中的序号,得到该有效区间段落文本的多个有效语句。
在一种可能的实施方式中,所述提取多个第一招标文本中有效语句之间的公共词,包括:
针对每个第一招标文件的每一有效语句,对所述有效语句进行分词处理,并去除所述有效语句的停用词,得到该有效语句的有效分词;
通过将多个第一招标文件的每一有效语句的有效分词进行比较,从所述有效分词中选取候选公共词,并将相邻位置的候选公共词合并,将不能合并的候选公共词以及合并后新的候选公共词确定为公共词。
在一种可能的实施方式中,所述提取多个第一招标文本中有效语句之间的公共词,包括:
从任意两个招标文件中分别确定一有效语句,作为第一有效语句和第二有效语句;
计算所述第一有效语句中每一字符的位置以及所述第二有效语句中每一字符的位置;
构建所述第一有效语句和所述第二有效语句中的每一个字的位置索引,并根据每一个字的位置索引中选择包括两个位置的公共字;
针对每个公共字,将该公共字的位置索引加1向后查找是否存在另一个公共字的位置索引,若不存在,则该公共字为单个公共字;若存在,继续将另一个公共字作为当前公共字继续向后查找,直到无法查找到向下加1的组合,将这多个索引对应的公共字进行组合,得到组合公共字;
将所述单个公共字和所述组合公共字确定为公共词。
在一种可能的实施方式中,所述根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,包括:
汇总公共词,统计每个公共词的字长和词频;
删除对应的词频小于预设词频阈值的公共词以及删除对应的字长小于预设字长阈值的公共词,得到有效公共词;其中,所述预设词频阈值和所述预设字长阈值是根据招标文件的特征确定;
将每一个大于预设字长阈值的有效公共词作为包含词,根据该包含词和其他有效公共词的包含关系,确定该包含词包含的被包含词,并将该包含词和被包含词确定为一个包含组;
针对每一个包含组,将该包含组中每一被包含词作为代表词,将包含词作为关联信息,得到至少一个候选代表组;
获取多个包含组得到的候选代表组,并对所述候选代表组进行优化处理,得到有效代表组;
根据所述有效代表组和所述有效代表组所属的类别,生成目标关键词,并从所述目标关键词中选取不符合参考规则的第一关键词。
在一种可能的实施方式中,所述对所述候选代表组进行优化处理,得到有效代表组,包括:
从所述候选代表组中选取包括同一关联信息的多个第一代表组,并从所述多个第一代表组中,选择词频最高的代表词对应的第二代表组;
删除所述候选代表组的第一代表组,并将所述第二代表组添加到所述候选代表组中,得到更新候选代表组;
从所述更新候选代表组中去除包括无意义代表词的无效代表组,得到有效代表组。
在一种可能的实施方式中,所述方法还包括:
从预设总数量的招标文本中选取符合每一类别的多个第二招标文本,并删除所述第二招标文本中的第一关键词;
获取通过对多个第一招标文本处理得到的符合参考规则的第二关键词,并删除所述第二招标文本中的第二关键词,得到优化第二招标文件;
将所述优化第二招标文件作为新的第一招标文件,返回根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本的步骤,得到每一类别的多个第二招标文本对应的不符合参考规则的第一关键词;
根据每一类别的多个第二招标文本对应的不符合参考规则的第一关键词更新所述通用词库,得到更新通用词库。
第二方面,本申请实施例还提供了一种基于公共词构建通用词库的装置,所述装置包括:
分割模块,用于获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签;
确定模块,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系;
提取模块,用于提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;
生成模块,用于根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的基于公共词构建通用词库的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的基于公共词构建通用词库的方法的步骤。
本申请实施例提供的上述基于公共词构建通用词库的方法、装置及电子设备,通过获取包括段落标签的第一招标文本,并以段落标签为分隔符将该第一招标文本分割为多段文本,然后,根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该第一招标文本中的有效区间段落文本;之后,提取多个第一招标文本中有效语句之间的公共词,最后,根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建用于对待发布招标文件进行违规检测的通用词库。在上述过程中,通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1a示出了本申请实施例提供的第一种基于公共词构建通用词库的方法的流程图;
图1b示出了写入excel文档中的通用关键词(也即通用词库)的示意图;
图2示出了本申请实施例提供的第二种基于公共词构建通用词库的方法的流程图;
图3示出了本申请实施例提供的第三种基于公共词构建通用词库的方法的流程图;
图4示出了本申请实施例提供的第四种基于公共词构建通用词库的方法的流程图;
图5a示出了本申请实施例提供的第五种基于公共词构建通用词库的方法的流程图;
图5b示出了计算每个公共词(即单词)的出词频和字长的示意图;
图6示出了本申请实施例提供的一种基于公共词构建通用词库的装置的结构示意图;
图7示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在目前相关部门部分的招标文件检测中,现有技术都是专门由核验人员对招标文件的内容进行检查,具体检查方式就是人工从相关参考规则文件中找出关键词,并记录成文件,以便基于记录文件对招标文件进行违规检查,若招标文件中包括记录文件中的关键词,则确定招标文件违规,并反馈招标文件进行修改。这种人工形成记录文件的方式,人工对相关参考规则文件不熟悉,很可能遗漏检测内容,并且人工效率低,难以保证全面性。
基于此,本申请实施例提供了一种基于公共词构建通用词库的方法、装置、设备及介质,通过处理并定位大量招标文本中的有效区间段落文本,提取有效区间段落文本中的公共词,并基于对公共词的处理构建通用词库,以便于基于该通用词库进行待发布招标文件的违规检测,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。
上述方法可以运行于本地终端设备,也可以运行于服务器,由于计算量大,上述方法通常用于服务器,当前上述方法运行于服务器时,可以基于交互系统来实现与执行,其中,交互系统包括服务器和客户端设备。其中,客户端设备的作用用于数据的接收、发送以及人机画面的呈现,举例而言,客户端设备可以是靠近用户侧的具有数据传输功能的显示设备,如,移动终端、电视机、计算机、掌上电脑等;但是进行数据处理的为服务器。
如图1a所示,为本申请第一实施例提供的一种基于公共词构建通用词库的方法,包括:
S101、获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签。
S102、根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系。
S103、提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词。
S104、根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测。
本申请实施例提供的上述基于公共词构建通用词库的方法,通过获取包括段落标签的第一招标文本,并以段落标签为分隔符将该第一招标文本分割为多段文本,然后,根据多段文本中基础序号的关联分布特征以及指定关键词,从多段文本中确定该第一招标文本中的有效区间段落文本;之后,提取多个第一招标文本中有效语句之间的公共词,最后,根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建用于对待发布招标文件进行违规检测的通用词库。在上述过程中,通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。
实际中,本申请实施例中提供了一个系统(也可以称为平台,或者系统平台,或者平台系统)供相关部门使用,该系统中包括预先构建好的上述通用词库(也可以称为违规词库),相关部门只有要待发布的招标文件,就上传到上述系统中,系统则自动根据预先构建好的违规词库处理待发布招标文件,以进行待发布招标文件的违规检测,然后,系统将违规检测的结果展现给用户(具体,系统可以通过浏览器页面的形式展现给用户),供用户查看。
由于整个构建通用词库的处理过程对计算资源要求较高,因此,本申请实施例中的上述方法应用于服务器,下面以上述基于公共词构建通用词库的方法应用于服务器为例分别对上述示例性的各步骤进行说明。
S101、获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签。
在本申请实施例中,可以从一个或者多个不同的爬取对象中爬取招标文本,以获取招标文本;上述爬取对象可以是浏览器,可以是word文档,也可以是文本文档。在本申请实施例中是爬取大量的招标文本,通常为几千条数据或者几万条数据,而每一条数据都包括招标文本和表征该招标文本的文本格式的格式标签。这里,来自不同爬取对象的招标文本的格式标签以及格式标签表征形式不同。
当爬取对象是浏览器时,招标文本中包括第一格式标签,比如为标签<***>,标签里的内容“***”表征文本的字体、字号、加粗和颜色等,而标签整体“<>”表征段落,不同“<>”表征不同段落以及不同段落之间的关系。上述第一格式标签包括第一段落标签<br/>,<br/>是网页Html语言中的代码表示分行,即每一段文本后面都包括至少一个<br/>,本申请实施例中仅以第一段落标签为例进行说明:
比如,一段文本后面包括一个<br/>,表示(也即表征)该段文本为一个段落,且与下一段落的文本连续(也即与下一段文本无间隔行);再比如,一段文本后面包括一个<br/>空格<br/>,表示(也即表征)该段文本为一个段落,且与下一段落的文本间隔一行。因此,基于上述第一格式标签以及第一格式标签表征形式,可以将从浏览器中爬取的招标文本进行文本分割。
当爬取对象是word时,招标文本中包括第二格式标签,第二格式标签包括第二段落标签“
Figure SMS_1
”,仍然仅以第二段落标签为例,即每一段文本后面都包括一个上述第二段落标签;比如,一段文本后面包括一个“/>
Figure SMS_2
”,表示(也即表征)该段文本为一个段落。基于上述第二格式标签以及第二格式标签表征形式,可以将从word文本中爬取的招标文本进行分割。其中,不同格式标签的表征形式可以相同,也可以不同。
这里,从上述爬取的招标文本中随机选取多个第一招标文本,通过多对个第一招标文本进行处理,进行通用词库的构建;后面,在利用大量每个类别的第二招标文本,通过对多个第二招标文本进行处理,用于更新通用词库,给通用词库赋予每个类别下个性化的第一关键词。不同类别可以是工程建筑类别(比如,工程建筑类招标),可以是医疗类别(比如,医疗类招标等)。
本申请实施例中,每一第一招标文本都具有表征其段落的段落标签,针对每一第一招标文本,以该第一招标文本对应的段落标签为分隔符,将该第一招标文本分割为多段文本。具体的,针对每一第一招标文本,根据该招标文本对应的段落标签以及每两个段落标签之间的关系,确定每个段落信息;每个段落信息包括一组标签和该组标签对应的段落内容;每组标签包括一个或多个段落标签;将每个段落信息中的段落内容确定为该招标文本的每一段文本。
实际中,每组标签对应的段落内容即为该招标文本的每一段文本。比如,第一区域工程建设<br/><br/>第二区域工程建设<br/>,第一个格式标签<br/>表征其前面的“第一区域工程建设”是一段文本,如果该<br/>与下一个<br/>之间没有文本,或者该<br/>与下一个<br/>之间是空格,那么,第二个<br/>与第一个<br/>为一组;实际中,第二个<br/>表征的是第一个<br/>前面的文本“第一区域工程建设”与下一个文本“第二区域工程建设”之间具有一行的间隔;第二个<br/>与第三个<br/>之间有文本,那第三个<br/>就是独立于第二个<br/>的,其表征前面的“第二区域工程建设”是一段文本。
本申请实施例中,对分割的段落文本进行数字编码,具体按照段落文本的先后顺序依次对分割的每一段落文本进行编码,比如,依次编码为段落1、段落2等。
S102、根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系。
本申请实施例中,针对每一招标文本,在S101步确定出该第一招标文本的多段文本后,遍历每一段文本中的基础序号,这里的基础序号为数字,具体包括阿拉伯数字(如1,2,3)、汉字数字(如一,二,三),罗马数字(Ⅰ,Ⅱ,Ⅲ)等;上述基础序号的关联分布特征表征了多段文本之间的层级关系,该层级关系包括平级关系(比如,一、二、三,即平级关系或者并列关系)和从属关系等(比如,“一”中包括1、2、3,“123”从属于“一”,为“一”的子集)。
具体的,根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,再遍历所述多段文本,确定具有指定关键词的第一段落文本;然后,根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,最后,根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本。
比如,第一层级为段落1、段落10和段落15,记录为【1(1,10,15)】,第二层级属于段落1的子集,包括段落2、段落5和段落9,记录为【2(2,5,9)】,第三层级属于段落2的子集,包括段落3和段落4,记录为【3(3,4)】。那么,在确定上述层级之后,如果确定段落2中包括指定关键词,那么,段落2为第一段落文本,相应的,第二段落文本为段落3和段落4,根据上述段落2以及段落3、段落4,确定该第一招标文本的有效区间段落文本。实际中,有效区间段落文本为段落2~段落4(即段落2、段落3和段落4)。这里,上述指定关键词通过分析招标文件确定,这里可以为“要求”、“资格要求”等。
S103、提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词。
本申请实施例中,每一招标文本包括一个或多个有效区间段落文本,以每一第一招标文本均具有一有效区间段落文本为例,那么,多个第一招标文本则对应多个有效区间段落文本,首先,提取每一有效区间段落文本中的有效语句,多个第一招标文本则对应多个有效语句,然后,提取多个不同第一招标文本中有效语句之间的公共词。这里,提取公共词的方式包括以下两种:
一是,将不同第一招标文件中的有效语句进行比较,提取多个第一招标文本中有效语句之间的公共词;这里,比较方式可以是:将不同第一招标文本的有效语句两两比较,分别提取每两个比较的有效语句之间的公共词;
二是,利用字符和位置关系,计算不同第一招标文件中的有效语句的字符间关系,提取公共词。
S104、根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测。
本申请实施例中,先根据每个公共词的词频、字长等属性特征,将词频低的和字长短的公共词去除,然后,对于剩下的公共词,计算多个公共词之间的包含关系,根据这个包含关系可以将剩下的公共词划分为代表词(包含关系的公共词)-关联信息(被包含关系的公共词)的有效代表组,然后,根据上述有效代表组的内容,或者根据上述有效代表组的内容和上述有效代表组所属的类别,生成目标关键词,其中,目标关键词包括不符合参考规则的第一关键词和符合参考规则的第二关键词,这里,从目标关键词中选取不符合参考规则的第一关键词,构建通用词库;该通用词库用于基于第一关键词对待发布招标文件进行违规检测;上述参考规则可以是相关政策文件。
具体的,第一关键词可以包括同义词,比如,第一关键词为:“注册资金”,同义词可以为“注册资本”;第一关键词为“不低于”,同义词包括:“以上、至少、高于、大于、不少于”。在确定了第一关键词后,还要将第一关键词进行整合,并写入excel文档中。
如图1b所示,整合后写入excel文档中第一关键词如下:
注册资金|注册资本)&(不低于|以上|至少|高于|大于|不少于);独立法人|法人资格|独立的法人资格;
(近三年|成立年份至今)&(财务报表|财务审计报告)。
进一步的,上述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系的步骤,具体包括:
遍历所述多段文本,获取每段文本中的基础序号,然后根据这些基础序号的关联分布特征,确定多段文本之间的层级关系,上述层级关系包括上述平级关系和从属关系。
具体方式如下述a1~a3所示:
a1、针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中位于第一字符位置或者第二字符位置以及该数字的后一个字符是指定字符。
本申请实施例中,首先进行预选序号识别,该预选序号也即上述满足第一关联分布特征的数字,具体的,遍历每段文本,对每个段落文本进行基本序号识别。
上述预选序号识别,即识别满足第一关联分布特征的数字,该数字在段落的第一字符位置或者第二字符位置、该数字后一个字符为指定字符;其中,数字可以为阿拉伯数字(如1,2,3等)、汉字数字(如一,二,三等)、罗马数字(Ⅰ、Ⅱ、Ⅲ等);上述指定字符(也即指定标识符)包括:'篇','章','节',')','、','.',',','是','要','条','空格'等。
上述数字在第一字符位置或者第二字符位置,上述第一字符位置也即段落1的位置,上述第二字符也即段落2的位置),具体如下:
段落1的位置:例句:1、段落内容;
段落2的位置:例句:(1)段落内容。
a2、从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字。
该步骤中取序号组(也即取每组数字),具体方式是,将符合下述3个条件的序号取出,并将所有非可计算的数字转化为可计算的数字,并通过计算将这些数字分组。这里,非可计算的数字为汉字数字(如一,二,三等)和罗马数字(Ⅰ、Ⅱ、Ⅲ等),可计算的数字为阿拉伯数字(如1,2,3等)。具体转换,比如,‘一’转化成‘1’,‘二’转化成‘2’,对同类数字进行计算;上述3个条件即为:a、同类数字(阿拉伯或汉字),b、同类型数字后面的符号相同,c、每组数字是以1开始的连续的连续数字。这样,一组数字被看作连续的序号,即一序号组(也即一组数字)。一组数字的具体计算方式如下:上一个数字减去当前数字为1,得到的结果为:“一、二、三”为一组,“1、2、3”为一组,“(1)、(2)、(3)”为一组。
其中,当满足第一关联分布特征的数字是组合数字时,所述从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,包括:
根据所述组合数字的类型、所述组合数字后面的符号以及所述组合数字的前向标识和最后一个数字,从该段文本中的满足第一关联分布特征的组合数字中选取满足第二关联分布特征的每组组合数字;所述组合数字为由数字和特定标点组成的数字,所述组合数字包括前向标识和最后一个数字;
其中,所述满足第二关联分布特征的每组组合数字包括:属于同类型的组合数字、每组组合数字后面的符号相同以及每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字。
上述组合数字为特殊数字,比如:
“1.1.1、
1.1.2、
1.1.2.1、
1.1.2.2、
1.1.2.3、
1.1.3、”
针对上述组合数字,将每一个组合数字拆分为前向标识和最后一个数字;比如,1.1.1、1.1.2和1.1.3中,前向标识均为“1.1.”,最后一个数字分别为“1、2、3”;再比如,1.1.2.1、1.1.2.2和1.1.2.3中,前向标识均为“1.1.2.”,最后一个数字分别为“1、2、3”。
上述满足第二关联分布特征的每组组合数字中,属于同类型的组合数字、每组组合数字后面的符号相同,只是对于组合数字来讲,最后一个条件是:每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字中;比如,1.1.1、1.1.2和1.1.3中,前向标识均相同为“1.1.”,而最后一个数字是以1开始的连续数字,分别为“1、2、3”。
a3、根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
具体的,在确定了每一组数字分别所在的段落编码之后,根据已经划分好的每组数字,即可确定每组数字之间均是平级关系,相应的,每组数字对应一组段落编码,每组段落编码对应的多段文本之间位于同一层级。
再根据每组数字的每组段落编码之间的位置关系,就可以知道有些组数字是在另一组数字某两个数字的段落之间,那么,这“有些组数字”就是“另一组数字”的“某两个数字”中在先数字的子集,这样,即可知道每组数字之间的层级关系。比如,第一组数字(一二三)对应的段落分别为段落1、段落2、段落6;具体表示为:【(一、1)(二、2)(三、6)】,第二组数字(123)对应段落分别为:段落3、段落4、段落5;具体表示为:【(1、3)(2、4)(3、5)】。因此,可以看出第二组数字(123)的段落位于第一组数字(一二三)的“二三”段落之间,那么,第二组数字(123)则从属于第一组数字(一二三)中“二”,也即是“二”的子集。
具体的,在确定了多段文本之间的层级关系(也即上述每组数字)之间的层级关系之后,重新遍历多段文本,确定具有指定关键词的第一段落文本,并记录该第一段落文本所属的段落(具体为记录该段落的段落编码),然后,根据所述多段文本之间的层级关系,将该第一段落文本及其下属层级的第二段落文本确定为有效区间段落文本,具体为:根据所述多段文本之间的层级关系,确定从属于第一段落文本的第二段落文本,然后,将第一段落文本及第二段落文本确定为有效区间段落文本。比如,第一组数字(一二三)中的“二”包括“指定关键词”,那么,确定“二”和“二”的子集第二组数字(123)为有效区间段落文本。
进一步的,本申请实施例还提供了一种基于公共词构建通用词库的方法,所述根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本,包括下述b1~b3:
b1、获取所述第一段落文本的第一段落编码,并查找包括所述第一段落编码的第一组段落编码;所述第一组段落编码对应的多段文本为同一层级;
b2、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中不是最后一个位置,则确定所述第一组段落编码中所述第一段落编码与其后一个第二段落编码之间的段落文本为第二段落文本;
b3、如果所述第一段落文本的第一段落编码在同一层级的所述第一组段落编码中是最后一个位置,则确定该同一层级上一层级的第二组段落编码,从所述第二组段落编码中确定该第一段落编码所属的第一上级段落编码,并确定所述第一上级段落编码后一个的第二上级段落编码,将所述第一段落编码和所述第二上级段落编码之间的段落文本确定为第二段落文本;
b4、如果该同一层级没有上一层级的第二组段落编码,则查询该同一层级的下属一层级的第三组段落编码,并确定所述第三组段落编码中最后一个位置的第三段落编码,继续确定该第三段落编码的下属一层级的第三组段落编码,返回确定所述第三组段落编码中最后一个位置的第三段落编码的步骤,直至确定没有下属一层级的第三段落编码,将所述第一段落编码和没有下属一层级的第三段落编码之间的段落文本确定为第二段落文本。
结合上述b1~b4,在系统处理数据时,是要给出系统一套处理逻辑,系统才能根据处理逻辑确定出第二段落文本,具体如下:
比如,确定出的每组段落编码分别为:第一组数字{一,二,三}对应的段落分别为段落1、段落2、段落9,具体表示为:【(一、1)(二、2)(三、9)】;第二组数字{1,2,3}对应段落分别为:段落3、段落4、段落5,具体表示为:【(1、3)(2、4)(3、5)】;第三组数字{(1),(2),(3)}对应段落分别为:段落6、段落7、段落8,具体表示为:【{(1),6}{(2),7}{(3),8}】;第四组数字{1,2,3}对应段落分别为:段落10、段落11、段落12;具体表示为:【(1、10)(2、11)(3、12)】。
相应的,每一组数字对应的多段文本为同一层级,因为第二组数字{1,2,3}的段落在第一组数字{一,二,三}中的{二,三}之间,所以,第二组数字{1,2,3}是第一组数字{一,二,三}的下一层级,具体为第一组数字{一,二,三}中{二}的子集,以此类推。这里,当第一组数字{一,二,三}中的{二}有指定关键词(比如,“要求”二字时),{二}为第一段落文本,因此,查询{二}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码,即是否为【段落1、段落2、段落9】中的最后一个位置,这里{二}不是最后一个位置,所以,将【段落1、段落2、段落9】中,将段落2~段落9之间的段落文本确定为第二段落文本,相应的,段落2到段落8的文本为相应招标文本中的有效区间段落文本。
另外,当第二组数字{1,2,3}中的{3}有指定关键词(比如,“要求”二字时),第二组数字{1,2,3}中的{3}为第一段落文本,因此,查询该{3}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码【段落3、段落4、段落5】中的最后一个位置,这里{3}是最后一个位置,所以,查找{3}上一层级的第二组段落编码,即第一组数字{一,二,三},对应的段落分别为(段落1、段落2、段落9),且该{3}位于第一组数字{一,二,三}的{二,三}之间,具体位于段落2和段落9之间,因此,确定第一上级段落编码为段落2,第二上级段落编码为段落9,将该{3}的段落编码和上述段落9之间的段落文本确定为第二段落文本。相应的,段落5到段落8的文本为相应招标文本中的有效区间段落文本。
再者,当第一组数字{一,二,三}中的{三}有指定关键词(比如,“要求”二字时),第一组数字{一,二,三}中的{三}为第一段落文本,因此,查询该{三}的段落编码(即第一段落文本的第一段落编码)是否为第一组段落编码【段落1、段落2、段落9】中的最后一个位置,这里{三}是最后一个位置,所以,查找{三}上一层级的第二组段落编码,查找不到,也即,{三}没有上一层级的第二组段落编码,那么,通过以下两种方式确定{三}对应的第二段落文本:
第一,将位于{三}的段落编码后的所有段落文本均确定为第二段落文本;第二,确定{三}下一层级的{1,2,3},并确定该下一层级的{1,2,3}中{3}以及该{3}的第三段落编码,在确定该{3}的下一层级的中最后一位置的第三段落编码,依次类推,直至得到最后一个层级的第三段落编码,上述例子中就一个层级,即{三}下一层级的{1,2,3}中{3}就是最后一个层级的第三段落编码,那么,将{三}和{三}下一层级的{1,2,3}中{3}之间的段落文本确定为第二段落文本。相应的,段落9到段落12的文本为相应招标文本中的有效区间段落文本。
进一步的,本申请实施例还提供了一种基于公共词构建通用词库的方法,所述根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本,包括以下c1~c2步骤:
c1、获取每一个第一段落文本和从属于该第一段落文本的第二段落文本,并将每一个第一段落文本和从属于该第一段落文本的第二段落文本,确定为该第一招标文本的候选区间段落文本。
c2、若该第一招标文本的候选区间段落文本为多个,判断该第一招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本。
其中,所述根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本,包括以下三种情况:
第一种情况:针对判断无交集的两个候选区间段落文本,将该两个候选区间段落文本均确定为该第一招标文本的有效区间段落文本;
第二种情况:针对判断有交集且非包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取包括的段落文本数量多的候选区间段落文本作为有效区间段落文本;或者,将该两个候选区间段落文本均确定为有效区间段落文本;
第三种情况:针对判断有交集且为包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取覆盖范围大的候选区间段落文本作为有效区间段落文本。
结合上述c1~c2,通过计算确定出的该第一招标文本的候选区间段落文本可能有多个,再计算过程中,这多个候选区间段落文本之间可能存在区间冲突,因此,需要解决这些冲突,解决方式如下:判断该第一招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,解决冲突,选取该第一招标文本的有效区间段落文本;具体如下:
针对每一两两之间的候选区间段落文本(分别为A和B):
情况1,A和B无交集,取A并B;
情况2,A和B有交集,从A和B中取包括的段落多个的(比如,A是段落1~段落5,B是段落4~段落6,那么取A,该种情况下,B很可能是计算错误得到的,该种方式能够减少后面提取第一关键词的计算量),或者,取A并B,该种方式计算准确度相对高一些,但后面提取第一关键词的计算量大;
情况3,A和B包含关系,取最大的(比如,A为段落1~段落5,B为段落5,A包含B,那么,取A)。
进一步的,如图2所示,所述提取每一第一招标文本的有效区间段落文本中的有效语句,包括:
S201、针对每一第一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句。
S202、从所述多个候选语句中选取包含汉字长度大于第二指定阈值的第一语句。
S203、删除所述第一语句中的空格和指定异常符号,得到第二语句。
S204、将所述第二语句中的字母统一格式,并删除所述第二语句中特定符号中的内容,得到第三语句。
S205、删除所述第三语句中的序号,得到该有效区间段落文本的多个有效语句。
结合S201~ S205,实际中,每一第一招标文本的有效区间段落文本中均包括至少一个有效语句,具体的,针对每一第一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句,然后,从这多个候选语句中选取包含汉字长度大于第二指定阈值(比如5)的第一语句,并删除所述第一语句中的空格和指定异常符号(也即保留常规符号),得到第二语句,上述常规符号包括逗号、句号、分号、顿号等,相应的,其他符号“&”、“*”、“@”等为指定异常符号,在得到第二语句后,将所述第二语句中的字母统一格式,比如,将字母全部转换成小写字母,并删除第二语句中特定符号中的内容(比如,删除书名号、括号内的成对标点内容;这里,双引号、单引号中的内容的保留,若确定双引号和单引号中的内容没用,也可删除),得到第三语句;删除第三语句中的序号,这里的序号即每段文本前面的数字序号“一”、“1”、“(1)”、“Ⅰ”等,上述序号是对计算公共词无意义的,因此删除,得到该第一招标文本的多个有效语句。
在一种可选的实施方式中,“有效区间段落文本”即“要求中”内容,以分号和句号为分隔符拆分有效区间段落文本中的候选语句(简称句子),对句子进行分析处理。在处理时,先将英文句号转换为中文句号,将英文分号转换为中文分号,将英文括号也转换成中文括号,这样,为了统一格式,避免由于格式不一致导致的计算错误,然后,再进行下述处理:
句子包含汉字长度大于5的保留;句子删除空格和指定异常符号(保留汉字、常规标点和数字,因为指定异常符号展示出来很可能是错的,且对提取第一关键词意义不大));去除每一个句子前面的序号,然后,将句子中的字母统一格式,比如,将字母全部转换成小写字母,删除书名号、括号内的成对标点内容,保留双引号、单引号中的成对标点内容。基于上述处理,最终得到每个有效区间段落文本的有效语句。
如上所述,提取公共词的方式包括两种,一是,将不同第一招标文件中的有效语句进行比较,提取多个第一招标文本中有效语句之间的公共词;二是,利用字符和位置关系,计算不同第一招标文件中的有效语句的字符间关系,提取公共词。下面分别进行说明:
第一种,通过比较的方式,具体的,如图3所示,所述提取多个第一招标文本中有效语句之间的公共词,包括:
S301、针对每个第一招标文件的每一有效语句,对所述有效语句进行分词处理,并去除所述有效语句的停用词,得到该有效语句的有效分词。
S302、通过将多个第一招标文件的每一有效语句的有效分词进行比较,从所述有效分词中选取候选公共词,并将相邻位置的候选公共词合并,将不能合并的候选公共词以及合并后新的候选公共词确定为公共词。
结合步骤S301~S302,在用分词工具对每一有效语句进行分词之后,在高频词中收集停用词,这些停用词包括无意义的通用停用词,如“很高、一定、等、特定”等,还包括当前领域中无意义特定高频词,如“大力发展”等,收集的停用词添加到停用词库,并去除上述停用词,得到每一有效语句的有效分词,然后,将不同第一招标文件中的每两个有效语句的有效分词进行比较,提取每两个有效语句之间的候选公共词;针对提取的候选公共词,根据位置的相邻情况将相邻位置的候选公共词合并,最终将不能合并的以及合并后的候选公共词作为提取的公共词。
比如,有效语句1:大力 发展 振兴 文化;有效语句2:大力 发展 建设 文化;相应的,候选公共词为:大力 发展 文化;其中,大力和发展是相邻位置,因此,可以合并为“大力发展”,最终得到的公共词为:“大力发展”和“文化”。
第二种,通过利用字符和位置关系的计算方式,具体的,如图4所示,所述提取多个第一招标文本中有效语句之间的公共词,包括:
S401、从任意两个招标文件中分别确定一有效语句,作为第一有效语句和第二有效语句。
S402、计算所述第一有效语句中每一字符的位置以及所述第二有效语句中每一字符的位置。
S403、构建所述第一有效语句和所述第二有效语句中的每一个字的位置索引,并根据每一个字的位置索引中选择包括两个位置的公共字。
S404、针对每个公共字,将该公共字的位置索引加1向后查找是否存在另一个公共字的位置索引,若不存在,则该公共字为单个公共字;若存在,继续将另一个公共字作为当前公共字继续向后查找,直到无法查找到向下加1的组合,将这多个索引对应的公共字进行组合,得到组合公共字。
S405、将所述单个公共字和所述组合公共字确定为公共词。
结合S401~S405, 该种方式与第一种方式不同的地方是不用对有效语句进行分词,而是直接计算有效语句之间的公共词。具体的,利用字符和位置关系,计算字符间关系,得到连续的字符信息。
第一有效句子(简称句子1)和其中每个字符的位置如下:
利用字符和位置关系。
01 2 3 45 6 78
第二有效句子(简称句子2)和其中每个字符的位置如下:
根据位置关系使用字符。
01 2 3 45 6 78 9
构建上述句子1和句子2的位置索引如下: 利【0,空】,用【1,7】, 字【2,8】,符【3,9】,和【4,空】,位【5,2】,置【6,3】,关【7,4】,系【8,5】,根【空,0】,据【空,1】,使【空,6】;去掉单个位置索引的字,也即去掉包括“空”的字和索引,保留多个位置索引的字。
针对具有多个位置索引的每个字,将该字的多个位置索引(也可称为重复索引)两两组合加 1向后查找是否存在,例如[5,2]+1 = [6,3](根据‘位’得到‘置’存在),同理依次向下计算,直到无法查找到向下加1的组合,得到组合公共字。 根据此种方式会得到重复词“位置关系”、“用字符”等连续信息,将这些连续信息作为组合公共字。
这里,需要说明的是,以位【5,2】、置【6,3】、关【7,4】、系【8,5】为例,“位”字要执行一遍上述计算,得到“位置关系”,理论上“置”还要计算一遍得到“置关系”,“关”还要计算一遍,得到“关系”,之后在进行去重处理,也即对“位置关系、置关系、关系”做去重处理,得到“位置关系”。为了减少计算量,这里,在计算得到“位置关系”之后,通过以下方式处理:存储“位置关系”,在计算“置”的时候,如果查找到“置关系”,“置”就不在进行计算了;同样,针对“关”,查找到“关系”,“关”就不在进行计算了;或者,针对相同位置索引中的“置”、“关”、“系”就不再计算了。这样,能够减少重复计算,减少了计算量,节省了处理资源,提高了效率。
整个通过计算的上述方式,能够解决分词分错了,导致提取公共词不准确的问题。
需要说明的是,如果对提取公共词要求高,那么可以采用上述两种方式共同提取公共词,然后,在从上述两种方式的提取结果去除不合理的公共词,得到最终公共词;使用这两种方式能够互补,提高了公共词的提取准确度。
进一步的,如图5a所示,所述根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,包括:
S501、汇总公共词,统计每个公共词的字长和词频。
本申请实施例中,将公共词语进行汇总,计算每个公共词(图5中为单词)的出词频和字长,如图5b所示。
S502、删除对应的词频小于预设词频阈值的公共词以及删除对应的字长小于预设字长阈值的公共词,得到有效公共词;其中,所述预设词频阈值和所述预设字长阈值是根据招标文件的特征确定。
本申请实施例中,通过对本领域的招标文件的分析,发现专业领域名词极少是两个字和三个字的,而通常是如下3种组合方式:4字以上的特定表述词语(比如,国有控股公司);两字词和三字词拼接的词语(例如:缴纳社会保障);英语首字母简称(通常也是4个字以上),另外,每个公共词的频率也都是大于3的,字长小于4,词频小于3的公共词的信息影响力很小,代表性较差,但词语量占有总数量的97%以上,因此,设定字长阈值为4,设定词频阈值为3,通过上述预设字长阈值和预设词频阈值过滤公共词。
在设定了预设词频阈值和预设字长阈值后,针对每个公共词,将词频小于等于预设词频阈值3(包括3)公共词,以及字长低于预设字长阈值4(不包括4)的公共词也删除。
S503、将每一个大于预设字长阈值的有效公共词作为包含词,根据该包含词和其他有效公共词的包含关系,确定该包含词包含的被包含词,并将该包含词和被包含词确定为一个包含组。
本申请实施例中,一个标准名词,会出现多个相似表述,一种是拼接表述,另一种为简称表述;实际中,简称表述的数量远小于拼接表述的数量,因此,本申请实施例中不考虑简称的情况,而是重点注重挖掘拼接关系。其中,拼接关系如下:建筑类甲级资质-甲级资质;简称关系如下:社会保障证明-社保证明。
因为提取的公共词也可能具有上述拼接关系,因此,首先计算公共词之间的包含关系,因为,去除了字长小于4的公共词,因此,得到的有效公共词的最小字长为4,获取大于预设字长阈值的有效公共词,作为包含词,针对每一包含词,判断该包含词与其他公共词的包含关系,得到该包含词包括的其他公共词(即被包含词),得到一个包含组。
比如,遍历每个非4字词(如5个字),确定每个非4字词包含其他词,如,包含词abcde(被包含词bcde、被包含词abcd)为一包含组;包含词bcdef(被包含词bcde)也为一包含组。
S504、针对每一个包含组,将该包含组中每一被包含词作为代表词,将包含词作为关联信息,得到至少一个候选代表组。
本申请实施例中,若包含组中被包含词为多个,则将每一个被包含词作为代表词,将包含词作为关联信息,可以得到多个候选代表组。比如,针对包含组abcde(bcde、abcd),得到的候选代表组分别为:代表词bcde,关联信息【abcde】;代表词abcd,关联信息【abcde】。
S505、获取多个包含组得到的候选代表组,并对所述候选代表组进行优化处理,得到有效代表组。
具体的,从所述候选代表组中选取包括同一关联信息的多个第一代表组,并从所述多个第一代表组中,选择词频最高的代表词对应的第二代表组;这里,词频低的代表词不具有代表性或者可能不是一个词,因此,去除词频低的代表词,而选择词频高的代表词。删除所述候选代表组的第一代表组,并将所述第二代表组添加到所述候选代表组中,得到更新候选代表组;从所述更新候选代表组中去除包括无意义代表词的无效代表组,得到有效代表组。
比如,包括同一关联信息的多个第一代表组为:代表词bcde,关联信息【abcde】、代表词abcd,关联信息【abcde】;其中,代表词abcd的词频高于代表词bcde,因此,选取“代表词abcd,关联信息【abcde】”作为第二代表组。
将整个候选代表组中的第一代表组删除,并添加第二代表组,用第二代表组代替第一代表组,达到了对候选代表组的优化目的。除此之外,还在减少大量代表词后,还要去除包含无意义信息的代表词。比如:“的投标人”,‘的’字在开始和结束位置意义不大,在中间是有一定意义的,其他单字如:“和”“及”等连词,还有“相关要求”出现的意义不大。因此,删除候选代表组中包括无意义信息的代表词的无效代表组;包括无意义信息的代表词即为:“在开始位置和结束位置具有“的”、“和”、“及”等的代表词”以及“相关要求”等的代表词。
S506、根据所述有效代表组和所述有效代表组所属的类别,生成目标关键词,并从所述目标关键词中选取不符合参考规则的第一关键词。
本申请实施例中,确定有效代表组所属的类别,具体如下:统计所有有效代表组中“代表词”,将该代表词进行分词处理,得到候选类别词,并统计每一个候选类别词的词频。代表词基本由两个词组成,这两个词为两字词或者三字词组成,超过两个词的基本在关联信息里。上述候选类别词包括名词和动词,将分词后高频无意义的名词和高频无意义的动词删除(保留高频名词,低频不做处理),得到类别词。上述高频即频率大于第二预设词频阈值的。上述无意义的名词可以为“具有、投标、项目”等;上述无意义的动词可以为“发展”等。
根据上述类别词确定每一有效代表组的类别,根据有效代表组中的信息以及类别,总结目标关键词;当然,也可以只根据有效代表组中的信息总结目标关键词,并选取其中不符合参考规则的第一关键词;总结的每一目标关键词中包括同义词、简称等,然后,将第一关键词进行格式化处理等整合,得到如图1b所示的通用词库。
本申请实施例是构建违规词库,在提取出目标关键词基础上对目标关键词进行标注是否违规(具体可以是违反公平竞争),不违规的第二关键词也会被保留做标记使用。
本申请实施例中,构建通用词库的数据量很大,采取基于通用类别构建通用词库,在通过特定类别的个性化数据更新通用词库,构建个性化词库。具体的,本申请实施例提供的基于公共词构建通用词库的方法,所述方法还包括d1~d4:
d1、从预设总数量的招标文本中选取符合每一类别的多个第二招标文本,并删除所述第二招标文本中的第一关键词;
d2、获取通过对多个第一招标文本处理得到的符合参考规则的第二关键词,并删除所述第二招标文本中的第二关键词,得到优化第二招标文件;
d3、将所述优化第二招标文件作为新的第一招标文件,返回根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本的步骤,得到每一类别的多个第二招标文本对应的不符合参考规则的第一关键词;
d4、根据每一类别的多个第二招标文本对应的不符合参考规则的第一关键词更新所述通用词库,得到更新通用词库。
结合上述d1~d4,通过多个第一招标文本总结好第一关键词后,用第一关键词标注多个第二招标文本中的数据,对于第二招标文本中未标注数据再进行一轮处理,最终会得到新的一批关键词,这些关键词是第一次关键词补充,依次类推直到无法总结出一定数量的关键词。
基于同一发明构思,本申请第二实施例中还提供了第一实施例中与基于公共词构建通用词库的方法对应的基于公共词构建通用词库的装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述基于公共词构建通用词库的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6所示,为本申请实施例提供的一种基于公共词构建通用词库的装置,所述装置包括:
分割模块601,用于获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签;
确定模块602,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系;
提取模块603,用于提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;
生成模块604,用于根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测。
在一种可能的实施方式中,确定模块602,根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;
遍历所述多段文本,确定具有指定关键词的第一段落文本;
根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;
根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本。
在一种可能的实施方式中,确定模块602,根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中位于第一字符位置或者第二字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
在一种可能的实施方式中,确定模块602,从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,包括:
当满足第一关联分布特征的数字是组合数字时,根据所述组合数字的类型、所述组合数字后面的符号以及所述组合数字的前向标识和最后一个数字,从该段文本中的满足第一关联分布特征的组合数字中选取满足第二关联分布特征的每组组合数字;所述组合数字为由数字和特定标点组成的数字,所述组合数字包括前向标识和最后一个数字;
其中,所述满足第二关联分布特征的每组组合数字包括:属于同类型的组合数字、每组组合数字后面的符号相同以及每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字。
在一种可能的实施方式中,确定模块602,根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本,包括:
获取每一个第一段落文本和从属于该第一段落文本的第二段落文本,并将每一个第一段落文本和从属于该第一段落文本的第二段落文本,确定为该第一招标文本的候选区间段落文本;
若该第一招标文本的候选区间段落文本为多个,判断该第一招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本;
其中,所述根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本,包括:
针对判断无交集的两个候选区间段落文本,将该两个候选区间段落文本均确定为该第一招标文本的有效区间段落文本;
针对判断有交集且非包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取包括的段落文本数量多的候选区间段落文本作为有效区间段落文本;或者,将该两个候选区间段落文本均确定为有效区间段落文本;
针对判断有交集且为包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取覆盖范围大的候选区间段落文本作为有效区间段落文本。
在一种可能的实施方式中,提取模块603,提取每一第一招标文本的有效区间段落文本中的有效语句,包括:
针对每一第一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二指定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
将所述第二语句中的字母统一格式,并删除所述第二语句中特定符号中的内容,得到第三语句;
删除所述第三语句中的序号,得到该有效区间段落文本的多个有效语句。
在一种可能的实施方式中,提取模块603,提取多个第一招标文本中有效语句之间的公共词,包括:
针对每个第一招标文件的每一有效语句,对所述有效语句进行分词处理,并去除所述有效语句的停用词,得到该有效语句的有效分词;
通过将多个第一招标文件的每一有效语句的有效分词进行比较,从所述有效分词中选取候选公共词,并将相邻位置的候选公共词合并,将不能合并的候选公共词以及合并后新的候选公共词确定为公共词。
在一种可能的实施方式中,取模块603,提取多个第一招标文本中有效语句之间的公共词,还包括:
从任意两个招标文件中分别确定一有效语句,作为第一有效语句和第二有效语句;
计算所述第一有效语句中每一字符的位置以及所述第二有效语句中每一字符的位置;
构建所述第一有效语句和所述第二有效语句中的每一个字的位置索引,并根据每一个字的位置索引中选择包括两个位置的公共字;
针对每个公共字,将该公共字的位置索引加1向后查找是否存在另一个公共字的位置索引,若不存在,则该公共字为单个公共字;若存在,继续将另一个公共字作为当前公共字继续向后查找,直到无法查找到向下加1的组合,将这多个索引对应的公共字进行组合,得到组合公共字;
将所述单个公共字和所述组合公共字确定为公共词。
在一种可能的实施方式中,生成模块604,根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,包括:
汇总公共词,统计每个公共词的字长和词频;
删除对应的词频小于预设词频阈值的公共词以及删除对应的字长小于预设字长阈值的公共词,得到有效公共词;其中,所述预设词频阈值和所述预设字长阈值是根据招标文件的特征确定;
将每一个大于预设字长阈值的有效公共词作为包含词,根据该包含词和其他有效公共词的包含关系,确定该包含词包含的被包含词,并将该包含词和被包含词确定为一个包含组;
针对每一个包含组,将该包含组中每一被包含词作为代表词,将包含词作为关联信息,得到至少一个候选代表组;
获取多个包含组得到的候选代表组,并对所述候选代表组进行优化处理,得到有效代表组;
根据所述有效代表组和所述有效代表组所属的类别,生成目标关键词,并从所述目标关键词中选取不符合参考规则的第一关键词。
在一种可能的实施方式中,生成模块604,对所述候选代表组进行优化处理,得到有效代表组,包括:
从所述候选代表组中选取包括同一关联信息的多个第一代表组,并从所述多个第一代表组中,选择词频最高的代表词对应的第二代表组;
删除所述候选代表组的第一代表组,并将所述第二代表组添加到所述候选代表组中,得到更新候选代表组;
从所述更新候选代表组中去除包括无意义代表词的无效代表组,得到有效代表组。
在一种可能的实施方式中,所述装置还包括:
删除模块,用于从预设总数量的招标文本中选取符合每一类别的多个第二招标文本,并删除所述第二招标文本中的第一关键词;
优化模块,用于获取通过对多个第一招标文本处理得到的符合参考规则的第二关键词,并删除所述第二招标文本中的第二关键词,得到优化第二招标文件;
处理模块,用于将所述优化第二招标文件作为新的第一招标文件,返回根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本的步骤,得到每一类别的多个第二招标文本对应的不符合参考规则的第一关键词;
更新模块,用于根据每一类别的多个第二招标文本对应的不符合参考规则的第一关键词更新所述通用词库,得到更新通用词库。
本申请实施例提供的上述基于公共词构建通用词库的装置,通过上述装配装置中各个模块的相互配合,构建通用词库,并通过构建通用词库为待发布招标文件的违规检测提供基础,整个过程中,一是提高了检测准确性和全面性,避免了人工对相关参考规则文件不熟悉出现漏检的问题,二是提高了检测效率。
如图7所示,本申请第三实施例还提供了一种电子设备700,包括:处理器701、存储器702和总线,所述存储器702存储有所述处理器701可执行的机器可读指令,当电子设备运行时,所述处理器701与所述存储器702之间通过总线通信,所述处理器701执行所述机器可读指令时,以执行第一实施例中基于公共词构建通用词库的方法。
具体地,上述存储器702和处理器701能够为通用的存储器和处理器,这里不做具体限定,当处理器701运行存储器702存储的计算机程序时,能够执行上述基于公共词构建通用词库的方法。
本申请第四实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时,以执行第一实施例中基于公共词构建通用词库的方法。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述飞行控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种基于公共词构建通用词库的方法,其特征在于,所述方法包括:
获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签;
根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系;
提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;
根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测;
所述根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;遍历所述多段文本,确定具有指定关键词的第一段落文本;根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本;
所述根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,包括:
汇总公共词,统计每个公共词的字长和词频;删除对应的词频小于预设词频阈值的公共词以及删除对应的字长小于预设字长阈值的公共词,得到有效公共词;其中,所述预设词频阈值和所述预设字长阈值是根据招标文件的特征确定;将每一个大于预设字长阈值的有效公共词作为包含词,根据该包含词和其他有效公共词的包含关系,确定该包含词包含的被包含词,并将该包含词和被包含词确定为一个包含组;针对每一个包含组,将该包含组中每一被包含词作为代表词,将包含词作为关联信息,得到至少一个候选代表组;获取多个包含组得到的候选代表组,并对所述候选代表组进行优化处理,得到有效代表组;根据所述有效代表组和所述有效代表组所属的类别,生成目标关键词,并从所述目标关键词中选取不符合参考规则的第一关键词。
2.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系,包括:
针对所述多段文本中的每段文本,识别每段文本中满足第一关联分布特征的数字;所述满足第一关联分布特征的数字包括:该数字在该段文本中位于第一字符位置或者第二字符位置以及该数字的后一个字符是指定字符;
从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,并记录满足第二关联分布特征的每组数字的每组段落编码;所述满足第二关联分布特征的每组数字包括:属于同类型的数字、每组数字后面的符号相同且每组数字是以1开始的连续数字;
根据每组段落编码以及每组段落编码之间的位置关系,确定所述多段文本之间的层级关系。
3.根据权利要求2所述的基于公共词构建通用词库的方法,其特征在于,当满足第一关联分布特征的数字是组合数字时,所述从该段文本中的满足第一关联分布特征的数字中选取满足第二关联分布特征的每组数字,包括:
根据所述组合数字的类型、所述组合数字后面的符号以及所述组合数字的前向标识和最后一个数字,从该段文本中的满足第一关联分布特征的组合数字中选取满足第二关联分布特征的每组组合数字;所述组合数字为由数字和特定标点组成的数字,所述组合数字包括前向标识和最后一个数字;
其中,所述满足第二关联分布特征的每组组合数字包括:属于同类型的组合数字、每组组合数字后面的符号相同以及每组组合数字中的前向标识相同且该组合数字中最后一个数字是以1开始的连续数字。
4.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本,包括:
获取每一个第一段落文本和从属于该第一段落文本的第二段落文本,并将每一个第一段落文本和从属于该第一段落文本的第二段落文本,确定为该第一招标文本的候选区间段落文本;
若该第一招标文本的候选区间段落文本为多个,判断该第一招标文本的多个候选区间段落文本两两之间是否有交集关系,并根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本;
其中,所述根据判断结果和预设规则,从所述多个候选区间段落文本中选取该第一招标文本的有效区间段落文本,包括:
针对判断无交集的两个候选区间段落文本,将该两个候选区间段落文本均确定为该第一招标文本的有效区间段落文本;
针对判断有交集且非包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取包括的段落文本数量多的候选区间段落文本作为有效区间段落文本;或者,将该两个候选区间段落文本均确定为有效区间段落文本;
针对判断有交集且为包含关系的两个候选区间段落文本,从该两个候选区间段落文本中选取覆盖范围大的候选区间段落文本作为有效区间段落文本。
5.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述提取每一第一招标文本的有效区间段落文本中的有效语句,包括:
针对每一第一招标文本中的有效区间段落文本,以分号和句号为分隔符拆分该有效区间段落文本中的语句,得到该有效区间段落文本中的多个候选语句;
从所述多个候选语句中选取包含汉字长度大于第二指定阈值的第一语句;
删除所述第一语句中的空格和指定异常符号,得到第二语句;
将所述第二语句中的字母统一格式,并删除所述第二语句中特定符号中的内容,得到第三语句;
删除所述第三语句中的序号,得到该有效区间段落文本的多个有效语句。
6.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述提取多个第一招标文本中有效语句之间的公共词,包括:
针对每个第一招标文件的每一有效语句,对所述有效语句进行分词处理,并去除所述有效语句的停用词,得到该有效语句的有效分词;
通过将多个第一招标文件的每一有效语句的有效分词进行比较,从所述有效分词中选取候选公共词,并将相邻位置的候选公共词合并,将不能合并的候选公共词以及合并后新的候选公共词确定为公共词。
7.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述提取多个第一招标文本中有效语句之间的公共词,包括:
从任意两个招标文件中分别确定一有效语句,作为第一有效语句和第二有效语句;
计算所述第一有效语句中每一字符的位置以及所述第二有效语句中每一字符的位置;
构建所述第一有效语句和所述第二有效语句中的每一个字的位置索引,并根据每一个字的位置索引中选择包括两个位置的公共字;
针对每个公共字,将该公共字的位置索引加1向后查找是否存在另一个公共字的位置索引,若不存在,则该公共字为单个公共字;若存在,继续将另一个公共字作为当前公共字继续向后查找,直到无法查找到向下加1的组合,将这多个索引对应的公共字进行组合,得到组合公共字;
将所述单个公共字和所述组合公共字确定为公共词。
8.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述对所述候选代表组进行优化处理,得到有效代表组,包括:
从所述候选代表组中选取包括同一关联信息的多个第一代表组,并从所述多个第一代表组中,选择词频最高的代表词对应的第二代表组;
删除所述候选代表组的第一代表组,并将所述第二代表组添加到所述候选代表组中,得到更新候选代表组;
从所述更新候选代表组中去除包括无意义代表词的无效代表组,得到有效代表组。
9.根据权利要求1所述的基于公共词构建通用词库的方法,其特征在于,所述方法还包括:
从预设总数量的招标文本中选取符合每一类别的多个第二招标文本,并删除所述第二招标文本中的第一关键词;
获取通过对多个第一招标文本处理得到的符合参考规则的第二关键词,并删除所述第二招标文本中的第二关键词,得到优化第二招标文件;
将所述优化第二招标文件作为新的第一招标文件,返回根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本的步骤,得到每一类别的多个第二招标文本对应的不符合参考规则的第一关键词;
根据每一类别的多个第二招标文本对应的不符合参考规则的第一关键词更新所述通用词库,得到更新通用词库。
10.一种基于公共词构建通用词库的装置,其特征在于,所述装置包括:
分割模块,用于获取多个第一招标文本,并根据每一第一招标文本中的段落标签,将该第一招标文本分割为多段文本;每一第一招标文本中具有表征其段落的段落标签;
确定模块,用于根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本;所述关联分布特征表征所述多段文本之间的层级关系;
提取模块,用于提取每一第一招标文本的有效区间段落文本中的有效语句,并提取多个第一招标文本中有效语句之间的公共词;
生成模块,用于根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,构建通用词库;所述通用词库用于基于第一关键词对待发布招标文件进行违规检测;
所述确定模块,根据所述多段文本中基础序号的关联分布特征以及指定关键词,从所述多段文本中确定该第一招标文本的有效区间段落文本,包括:
根据所述多段文本中基础序号的关联分布特征,确定所述多段文本之间的层级关系;遍历所述多段文本,确定具有指定关键词的第一段落文本;根据所述多段文本之间的层级关系,确定从属于所述第一段落文本的第二段落文本;根据所述第一段落文本和所述第二段落文本,确定该第一招标文本的有效区间段落文本;
所述生成模块,根据每个公共词的属性特征以及多个公共词之间的包含关系,生成不符合参考规则的第一关键词,包括:
汇总公共词,统计每个公共词的字长和词频;删除对应的词频小于预设词频阈值的公共词以及删除对应的字长小于预设字长阈值的公共词,得到有效公共词;其中,所述预设词频阈值和所述预设字长阈值是根据招标文件的特征确定;将每一个大于预设字长阈值的有效公共词作为包含词,根据该包含词和其他有效公共词的包含关系,确定该包含词包含的被包含词,并将该包含词和被包含词确定为一个包含组;针对每一个包含组,将该包含组中每一被包含词作为代表词,将包含词作为关联信息,得到至少一个候选代表组;获取多个包含组得到的候选代表组,并对所述候选代表组进行优化处理,得到有效代表组;根据所述有效代表组和所述有效代表组所属的类别,生成目标关键词,并从所述目标关键词中选取不符合参考规则的第一关键词。
11.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至9任一项所述的基于公共词构建通用词库的方法的步骤。
CN202310546079.7A 2023-05-16 2023-05-16 一种基于公共词构建通用词库的方法、装置及电子设备 Active CN116257602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310546079.7A CN116257602B (zh) 2023-05-16 2023-05-16 一种基于公共词构建通用词库的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310546079.7A CN116257602B (zh) 2023-05-16 2023-05-16 一种基于公共词构建通用词库的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116257602A CN116257602A (zh) 2023-06-13
CN116257602B true CN116257602B (zh) 2023-07-07

Family

ID=86684745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310546079.7A Active CN116257602B (zh) 2023-05-16 2023-05-16 一种基于公共词构建通用词库的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116257602B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
DE102019122223A1 (de) * 2019-08-19 2021-02-25 Cortex Media GmbH System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument
CN113689148A (zh) * 2021-09-26 2021-11-23 支付宝(杭州)信息技术有限公司 一种文本风险识别方法、装置及设备
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置
CN115905489A (zh) * 2022-11-21 2023-04-04 广西建设职业技术学院 一种提供招投标信息搜索服务的方法
CN115935964A (zh) * 2022-11-30 2023-04-07 国家电网有限公司 一种招标文件文本内容纠错方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
DE102019122223A1 (de) * 2019-08-19 2021-02-25 Cortex Media GmbH System und Verfahren zur Identifizierung und/oder Extrahierung von für eine Angebotsabgabe relevanter Information aus einem eine Ausschreibung oder eine Anfrage betreffenden Dokument
CN113689148A (zh) * 2021-09-26 2021-11-23 支付宝(杭州)信息技术有限公司 一种文本风险识别方法、装置及设备
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置
CN115905489A (zh) * 2022-11-21 2023-04-04 广西建设职业技术学院 一种提供招投标信息搜索服务的方法
CN115935964A (zh) * 2022-11-30 2023-04-07 国家电网有限公司 一种招标文件文本内容纠错方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全媒体文字智能检测解决方案——关键词检测系统解析;王菲达;《传媒论坛》;第2卷(第15期);121-122 *

Also Published As

Publication number Publication date
CN116257602A (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
US8140468B2 (en) Systems and methods to extract data automatically from a composite electronic document
US11055327B2 (en) Unstructured data parsing for structured information
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN110377884B (zh) 文档解析方法、装置、计算机设备及存储介质
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN114595661B (zh) 用于评审投标文件的方法、设备和介质
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核系统
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
Shafi et al. UNLT: Urdu natural language toolkit
US20210390488A1 (en) Citation and policy based document classification
CN108073678B (zh) 应用于大数据分析中的文档解析处理方法、系统及装置
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN116306621B (zh) 一种招标文本的违规检测方法、装置及电子设备
CN116257602B (zh) 一种基于公共词构建通用词库的方法、装置及电子设备
CN115983202A (zh) 一种数据处理方法、装置、设备及存储介质
CN107145947B (zh) 一种信息处理方法、装置及电子设备
CN116304060B (zh) 一种基于聚类构建通用词库的方法、装置及电子设备
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
CN112926314A (zh) 文档的重复性识别方法、装置、电子设备以及存储介质
CN116306619B (zh) 一种公文检测方法、装置、电子设备及存储介质
CN104536948A (zh) 版式文档的处理方法及装置
CN118350371B (zh) 一种面向专利文本的标记对抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant