CN117391086A

CN117391086A - 一种投标参与信息抽取方法、装置、设备及介质

Info

Publication number: CN117391086A
Application number: CN202311690779.XA
Authority: CN
Inventors: 张森; 许云侠; 黄学涛; 盛润; 唐明建; 张润南; 张大丽; 张纯豪; 畅敏; 温小波; 杨伟栋; 巩建; 田财瑞; 张胜为; 杨亮亮; 蔡智勇; 郭星辉; 冯波; 吴昊
Original assignee: Tunnel Tang Technology Co ltd
Current assignee: Tunnel Tang Technology Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12

Abstract

本申请提供一种投标参与信息抽取方法、装置、设备及介质，涉及招投标数据处理技术领域，用于解决招投标数据的信息抽取的准确性较差的问题。该投标参与信息抽取方法包括：对第一招投标数据进行预处理，获得第一文本数据；将第一文本数据输入训练后的信息抽取模型，获得第一文本数据中每个投标参与字段的类别和位置信息；训练后的信息抽取模型是基于已标注的数据集进行训练得到的；根据第一文本数据中每个投标参与字段的类别和位置信息，对第一文本数据中各个投标参与字段之间的关系进行匹配，获得第一招投标数据中的投标参与信息。该方法基于投标参与字段的类别和位置信息进行信息抽取，提高了招投标数据的信息抽取的准确性。

Description

一种投标参与信息抽取方法、装置、设备及介质

技术领域

本申请涉及招投标数据处理技术领域，提供一种投标参与信息抽取方法、装置、设备及介质。

背景技术

招投标领域公开的相关公告包括中标候选人公告、评标结果公告、开标记录公告等，根据这些公告，挖掘投标过程产生的投标数据信息可以帮助企业和个人了解市场竞争情况，发现潜在商机和合作机会，优化市场营销策略，提高业务效率和竞争力。

命名实体识别（Named Entity Recognition，NER）是指识别中文文本中实体的边界和类别，是本文处理中的技术基础，常用于数据挖掘领域。现有技术中，对开标记录公告数据进行NER，基于预先设置的关键词词库和正则表达式进行信息抽取处理，获得开标记录信息。然而招投标领域的信息表述复杂，不同地区有不同标准，同一地区不同行业的信息表述也不统一，一旦表述信息的方式发生变化，正则表达式和关键词词库不适配这种变化，就会导致信息抽取的准确性较差。

发明内容

本申请实施例提供一种投标参与信息抽取方法、装置、设备及介质，用于解决招投标数据的信息抽取的准确性较差的问题。

一方面，提供一种投标参与信息抽取方法，所述投标参与信息抽取方法包括：

对第一招投标数据进行预处理，获得第一文本数据；

将所述第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息；其中，所述训练后的信息抽取模型是基于已标注的数据集进行训练得到的；所述已标注的数据集包括多个投标参与字段的真实类别和真实位置信息；所述每个投标参与字段的位置信息用于指示每个投标参与字段在上下文中的起始位置和结束位置；

根据所述第一文本数据中每个投标参与字段的类别和位置信息，对所述第一文本数据中各个投标参与字段之间的关系进行匹配，获得所述第一招投标数据中的投标参与信息；所述投标参与信息用于指示投标过程中的关键信息。

可选的，在将所述第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息之前，所述投标参与信息抽取方法还包括：

获取招投标领域公开的第二招投标数据；

对所述第二招投标数据进行预处理，获得第二文本数据；

分别为所述第二文本数据中每个投标参与字段标注真实类别和真实位置信息，获得第三文本数据；

根据所述第三文本数据，获得所述已标注的数据集。

可选的，所述根据所述第三文本数据，获得所述已标注的数据集的步骤包括：

采用BIO标注法对所述第三文本数据中的每个词进行标注，获得已标注的第三文本数据；

根据所述已标注的第三文本数据，获得所述已标注的数据集。

可选的，所述根据所述已标注的第三文本数据，获得所述已标注的数据集的步骤包括：

按照预设的标注规则，对所述已标注的第三文本数据进行检查，获得所述已标注的数据集。

将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息；

根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数；

根据所述目标损失函数调整所述初始信息抽取模型的参数，直至所述目标损失函数的输出值满足预设条件，获得所述训练后的信息抽取模型。

可选的，在将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息之前，所述投标参与信息抽取方法还包括：

采用双向长短时记忆网络BiLSTM和条件随机场CRF的神经网络结构搭建所述初始信息抽取模型。

可选的，所述根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数的步骤包括：

根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立原始损失函数；

通过交叉验证法确定目标正则化参数；

在所述原始损失函数中增加所述目标正则化参数，建立目标损失函数。

一方面，提供一种投标参与信息抽取装置，所述投标参与信息抽取装置包括：

预处理模块，用于对第一招投标数据进行预处理，获得第一文本数据；

预测模块，用于将所述第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息；其中，所述训练后的信息抽取模型是基于已标注的数据集进行训练得到的；所述已标注的数据集包括多个投标参与字段的真实类别和真实位置信息；所述每个投标参与字段的位置信息用于指示每个投标参与字段在上下文中的起始位置和结束位置；

信息获得模块，用于根据所述第一文本数据中每个投标参与字段的类别和位置信息，对所述第一文本数据中各个投标参与字段之间的关系进行匹配，获得所述第一招投标数据中的投标参与信息；所述投标参与信息用于指示投标过程中的关键信息。

一方面，提供一种电子设备，所述设备包括：

存储器，用于存储程序指令、解码数据以及解码数据；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种投标参与信息抽取方法包括的步骤。

一方面，提供一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述任一种投标参与信息抽取方法包括的步骤。

本申请实施例中，对第一招投标数据进行预处理，获得第一文本数据；将第一文本数据输入训练后的信息抽取模型，获得第一文本数据中每个投标参与字段的类别和位置信息；训练后的信息抽取模型是基于已标注的数据集进行训练得到的；已标注的数据集包括多个投标参与字段的真实类别和真实位置信息；根据第一文本数据中每个投标参与字段的类别和位置信息，对第一文本数据中各个投标参与字段之间的关系进行匹配，获得第一招投标数据中的投标参与信息。因此，在本申请实施例中，通过训练后的信息抽取模型获得投标参与字段的类别和位置信息，基于投标参与字段的类别和位置信息再进行信息抽取，考虑了不同投标参与字段之间的关系，可以从第一招投标数据中抽取出更加准确的投标参与信息。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1为本申请实施例提供的投标参与信息抽取方法的一种流程示意图；

附图2为本申请实施例提供的BiLSTM网络的一种结构示意图；

附图3为本申请实施例提供的LSTM记忆单元的一种结构示意图；

附图4为本申请实施例提供的CRF网络的一种结构示意图；

附图5为本申请实施例提供的初始信息抽取模型的一种结构示意图；

附图6为本申请实施例提供的初始信息抽取模型的训练流程示意图；

附图7为本申请实施例提供的投标参与信息抽取方法的另一种流程示意图；

附图8为本申请实施例提供的投标参与信息抽取装置的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

现有技术抽取的仅仅是开标记录信息，包含投标时间、投标单位、投标金额。招投标领域的数据较多，尤其是中标候选人公告、评标结果公告、开标记录公告等公示的信息，其内容丰富，包含的价值信息很多，对其进行信息抽取具有重要意义。然而招投标领域的信息表述复杂，不同地区、不同行业对这些信息的表述形式也并不统一，现有技术中基于正则表达式和关键词词库的NER技术很难适配这种变化，因此抽取信息的准确性较差。

并且，通用的NER技术可提取招投标数据中所有的组织机构名称（企业名称），但在招投标数据中，组织机构名称是有属性的，分为招标单位、代理机构单位、第一名投标单位、第二名投标单位、第三名投标单位、联合体投标单位以及被否决投标单位，投标单位具有相对应的投标报价。由于现有技术没有考虑这些实体之间的关系，因此从招投标数据中抽取信息的准确性较差。

鉴于此，本申请实施例提供一种投标参与信息抽取方法，该方法可以由信息抽取设备执行，信息抽取设备可以通过终端或服务器实现，终端例如移动终端、固定终端或便携式终端，例如移动手机、多媒体计算机、多媒体平板、台式计算机、笔记本计算机、平板计算机等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

请参照附图1，为本申请实施例提供的投标参与信息抽取方法的一种流程示意图，该方法的流程介绍如下。

S101、对第一招投标数据进行预处理，获得第一文本数据。

具体的，第一招投标数据是指待抽取信息的招投标数据，招投标数据为招投标领域公开的相关公告，包括中标候选人公告、评标结果公告、开标记录公告等，招投标数据的载体形式包括HTML、PDF、图片等。

在本申请实施例中，获取第一招投标数据的方式有很多，例如从招投标领域对应的网站下载公开的第一招投标数据，还可以是根据用户的输入操作获得第一招投标数据。在获取第一招投标数据之后，对第一招投标数据进行文本转换处理和去噪处理，获得第一文本数据，文本转化处理是指将HTML、PDF、图片等形式的第一招投标数据统一转换为纯文本数据，去噪处理是指去除其中的干扰符号，例如换行回车、特殊字符等。

S102、将第一文本数据输入训练后的信息抽取模型，获得第一文本数据中每个投标参与字段的类别和位置信息。

具体的，获得第一文本数据之后，可以将第一文本数据输入训练后的信息抽取模型，训练后的信息抽取模型用于预测投标参与字段的类别和位置信息，是基于已标注的数据集进行训练得到的，已标注的数据集包括多个投标参与字段的真实类别和真实位置信息。因此，训练后的信息抽取模型可以输出第一文本数据中每个投标参与字段的类别和位置信息。

其中，每个投标参与字段可以作为一个实体，每个投标参与字段（实体）的类别用于指示每个投标参与字段（实体）的属性信息，例如：开标时间、最高限价元、最高限价万元、第一名投标单位、第二名投标单位、第三名投标单位、联合体投标单位、被否决投标单位、投标人（即不是前三名，也没被否决）、投标报价元、投标报价万元、投标报价下浮率、投标报价中文、施工报价、施工下浮率、设计报价、设计下浮率、勘察报价、勘察下浮率、项目经理等。每个投标参与字段（实体）的位置信息用于指示每个投标参与字段（实体）在上下文中的起始位置和结束位置。

例如，第一文本数据的部分内容如表1所示：

表1

训练后的信息抽取模型的输出结果如下：

[

{'type': 'FIRST_COMP', 'start': 289, 'value': 'XXXXXXXXX有限公司', 'end': 302},

{'type': 'COMBINE_COMP', 'start': 303, 'value': 'XXXXXXXXXX有限公司','end': 317},

{'type': 'COMBINE_COMP', 'start': 318, 'value': 'XXXXXXXXXXXXXXX有限公司', 'end': 337},

{'type': 'COMBINE_COMP', 'start': 338, 'value': 'XXXXXXXXXX有限公司','end': 352},

{'type': 'OFFER_MONEY_YUAN', 'start': 353, 'value': '871648837.00', 'end': 365},

{'type': 'SECOND_COMP', 'start': 382, 'value': 'XXXXXXXXXX有限公司','end': 396},

{'type': 'COMBINE_COMP', 'start': 397, 'value': 'XXXXXXXXX有限公司','end': 410},

{'type': 'OFFER_MONEY_YUAN', 'start': 411, 'value': '942558000.00', 'end': 423},

{'type': 'THIRD_COMP', 'start': 440, 'value': 'XXXXXX有限公司', 'end': 450},

{'type': 'COMBINE_COMP', 'start': 451, 'value': 'XXXXXXXXXXXXX有限公司', 'end': 468},

{'type': 'COMBINE_COMP', 'start': 469, 'value': 'XXXXXX有限公司', 'end': 479},

{'type': 'COMBINE_COMP', 'start': 480, 'value': 'XXXXXXXXXXXX有限公司', 'end': 496},

{'type': 'OFFER_MONEY_YUAN', 'start': 497, 'value': '907944496.00', 'end': 509}

]

其中，type表示投标参与字段的类别即实体的标签，如COMBINE_COMP表示联合体单位，OFFER_MONEY_YUAN表示投标报价；value表示投标参与字段（实体）的具体内容，也就是要提取的关键信息内容；start和end表示投标参与字段（实体）的位置信息，start表示投标参与字段（实体）在上下文的起始位置，end表示投标参与字段（实体）在上下文的结束位置。

S103、根据第一文本数据中每个投标参与字段的类别和位置信息，对第一文本数据中各个投标参与字段之间的关系进行匹配，获得第一招投标数据中的投标参与信息。

具体的，投标参与信息用于指示投标过程中的关键信息，例如：中标候选人或评标结果公告中提及的开标时间、最高限价（招标控制价）、第一中标候选人名称、第二中标候选人名称、第三中标候选人名称、其他投标单位名称、被否决单位名称、投标联合体关系、投标报价、项目经理（项目负责人）、评标办法、候选人业绩等信息。开标记录公告中提及的开标时间、最高限价（招标控制价）、投标单位名称、投标报价等信息。

在本申请实施例中，基于训练后的信息抽取模型提取的类别和位置信息，对各个投标参与字段之间的关系进行匹配，将关系混乱的提取结果转化为有现实意义的投标参与信息。例如，提取结果有很多单位名称，但结合实际的中标候选人公示原文，一共有3家单位参与投标，每一家都是以联合体（多家单位联合投标）的形式投标。因此，将类别为联合体、位置相邻的投标参与字段合并，即可得到投标参与信息。

在实际的海量的招投标数据中，中标候选人公告、评标结果公告、开标记录公告等信息的表述形式十分复杂多变，但无论其如何变换，无外乎标注过程中的标签形式，只是前后位置关系有变化，如：投标人+投标报价、投标报价+投标人、投标人1+投标人2+投标人3+投标报价1+投标报价2+投标报价3等形式出现。在本申请实施例中，基于训练后的信息抽取模型提取的位置信息，对实体出现的表述形式进行综合概括，可以得到更加准确的投标参与信息。

在一种可能的实施方式中，为了保证信息抽取模型的准确性，在将第一文本数据输入训练后的信息抽取模型，获得第一文本数据中每个投标参与字段的类别和位置信息之前，可以先获取用于模型训练的已标注的数据集。获取已标注的数据集的步骤包括：

获取招投标领域公开的第二招投标数据，对第二招投标数据进行预处理，获得第二文本数据，分别为第二文本数据中每个投标参与字段标注真实类别和真实位置信息，获得第三文本数据，根据第三文本数据，获得已标注的数据集。

具体的，第二招投标数据是指用于训练模型的招投标数据。获取第二招投标数据之后，可以对第二招投标数据进行文本转换处理和去噪处理，将第二招投标数据转换为纯文本数据，并去除其中的干扰符号，获得第二文本数据。将第二文本数据中每个投标参与字段作为一个实体，为每个投标参与字段（实体）标注真实类别的同时，为每个投标参与字段（实体）标注真实位置信息，从而获得第三文本数据。真实类别用于指示投标参与字段（实体）的真实属性信息，真实位置信息用于指示投标参与字段（实体）在上下文中的真实起始位置和真实结束位置。

例如，第三文本数据示例如下：

{

"id":399486,

"text":"......",

"entities":

[

{"id":"748507","label":"第一名",

"start_offset":"238","end_offset":"248"},

{"id":"748508","label":"第二名",

"start_offset":"283","end_offset":"293"},

{"id":"748509","label":"第三名",

"start_offset":"328","end_offset":"338"},

{"id":"880142","label":"投标报价",

"start_offset":"222","end_offset":"231"},

{"id":"880143","label":"投标报价",

"start_offset":"267","end_offset":"276"},

{"id":"880144","label":"投标报价",

"start_offset":"357","end_offset":"366"}

]

}

其中，text表示第二文本数据，此处省略，entities表示实体标注的信息，label表示实体的类别，start_offset表示实体在上下文中的起始位置，end_offset表示实体在上下文中的结束位置。

在本申请实施例中，针对招投标领域公开的全网各类型的数据信息进行收集与数据标注，可覆盖已有的绝大部分信息表述方式。丰富的训练数据可以增加模型的泛化能力，避免了因正则表达式与关键词词库归纳不足而造成的信息抽取不准确的问题，且丰富了信息类别，使得挖掘出的投标参与信息更加准确。

在一种可能的实施方式中，根据第三文本数据，获得已标注的数据集的步骤包括：

采用BIO标注法对第三文本数据中的每个词进行标注，获得已标注的第三文本数据；根据已标注的第三文本数据，获得已标注的数据集。

具体的，BIO标注法是一种常用的序列标注方法，广泛应用于自然语言处理领域，特别是命名实体识别（NER）任务。它用于标注文本中的实体边界，并对每个实体进行类型标记。其中，B代表一个实体的起始位置，I代表一个实体的内部位置，O代表不属于任何实体的位置，即模型不关注的信息。

把label转换为英文表述，例如：“第一名”替换为“FIRST_COMP”、“投标报价”替换为“OFFER_MONEY_YUAN”等，给text增加其对应长度的字符“O”，根据start_offset和end_offset，把text中的实体信息根据label的对应名称，替换相应位置的“O”为“B-XXX”和“I-XXX”。

具体示例如下:

第一名：W公司投标报价：161494102

将其转换为BIO格式为：

第 O

一 O

名 O

： O

XB-FIRST_COMP

公 I-FIRST_COMP

司 I-FIRST_COMP

O

投 O

标 O

报 O

价 O

： O

1 B-OFFER_MONEY_YUAN

6 I-OFFER_MONEY_YUAN

1I-OFFER_MONEY_YUAN

4 I-OFFER_MONEY_YUAN

9I-OFFER_MONEY_YUAN

4I-OFFER_MONEY_YUAN

1 I-OFFER_MONEY_YUAN

0I-OFFER_MONEY_YUAN

2 I-OFFER_MONEY_YUAN

在本申请实施例中，通过使用BIO标注法，把标注信息和去噪后的文本数据转换为BIO的格式，方便后续的模型训练，可以准确地识别和提取文本中的命名实体，为后续的信息抽取、关系提取等任务提供基础。

在一种可能的实施方式中，根据已标注的第三文本数据，获得已标注的数据集的步骤包括：

按照预设的标注规则，对已标注的第三文本数据进行检查，获得已标注的数据集。

在本申请实施例中，按照预设的标注规则设置检查机制，从已标注的第三文本数据中剔除不满足预设的标注规则的数据，从而获得已标注的数据集，提高数据集的标注质量。

在一种可能的实施方式中，在将第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息之前，可以先利用已标注的数据进行模型训练。具体训练过程如下：

将已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出已标注的数据集中各个投标参与字段的预测类别和预测位置信息；根据已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数；根据目标损失函数调整初始信息抽取模型的参数，直至目标损失函数的输出值满足预设条件，获得训练后的信息抽取模型。

具体的，初始信息抽取模型可以采用各种神经网络结构，利于已标注的数据集对初始信息抽取模型进行训练，根据预测类别和真实类别之间的误差、预测位置信息和真实位置信息之间的误差建立目标损失函数，根据目标损失函数不断调整初始信息抽取模型的参数进行迭代训练，直至目标损失函数的输出值不再降低，或者，目标损失函数的输出值小于预设阈值，停止训练，获得训练后的信息抽取模型。

在本申请实施例中，基于多个投标参与字段的真实类别和真实位置信息训练初始信息抽取模型，增加了模型训练的特征信息，有利于提升训练后的信息抽取模型的预测效果。

在一种可能的实施方式中，为了提高信息抽取模型的准确性，在将已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出已标注的数据集中各个投标参与字段的预测类别和预测位置信息之前，该方法还包括：

采用双向长短时记忆网络（Bi-directional Long Short-Term Memory，BiLSTM）和条件随机场（Conditional Random Field，CRF）的神经网络结构搭建初始信息抽取模型。

具体的，模型的训练程序主要包括：模型参数的配置、数据集的加载、模型的训练及保存逻辑、模型的验证与评估逻辑。可以利用Python编程语言，结合第三方开发工具包TensorFlow，实现BiLSTM算法以及CRF算法，搭建初始信息抽取模型。

请参照附图2，为本申请实施例提供的BiLSTM网络的一种结构示意图，可见，BiLSTM网络包括输入层、前向传播层、反向传播层、输出层，其中，前向传播层和反向传播层均由多个LSTM记忆单元连接组成。

请参照附图3，为本申请实施例提供的LSTM记忆单元的一种结构示意图，LSTM包括输入门、细胞状态（基本单元）、遗忘门、输出门，xt表示整个LSTM的输入，ht表示整个LSTM的输出，it表示输入门的输出，Ot表示输出门的输出，Ct表示细胞状态的输出，ft表示遗忘门的输出。

请参照附图4，为本申请实施例提供的CRF网络的一种结构示意图，第二排的矩形框表示CRF网络的输入，其中，EU是ORG组织型实体，rejects为非实体，German为Miscellaneous型实体，call为非实体。第一排的矩形框表示CRF网络的输出，其中，B-ORG表示ORG组织型实体的起始位置，B-MISC为Miscellaneous型实体的起始位置，O表示不属于任何实体。可见CRF网络采用的是BIO标注法。

请参照附图5，为本申请实施例提供的初始信息抽取模型的一种结构示意图，可见，该初始信息抽取模型由BiLSTM网络和CRF网络组成。BiLSTM网络和CRF网络的具体结构请参照附图2-附图4的论述，此处不再赘述。

在本申请实施例中，LSTM由于其设计的特点，非常适用于对文本数据的建模，而BiLSTM是由前向LSTM与后向LSTM组合而成，两者在自然语言处理任务中都常被用来建模上下文信息。CRF是一种概率图模型，用于序列标注任务，如命名实体识别、词性标注等。采用BiLSTM和CRF搭建初始信息抽取模型，可以提高信息抽取的准确性。

在一种可能的实施方式中，根据已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数的步骤，包括：

根据已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立原始损失函数；通过交叉验证法确定目标正则化参数；在原始损失函数中增加目标正则化参数，建立目标损失函数。

在本申请实施例中，通过交叉验证法寻找正则化参数，通过在损失函数中加入正则化参数来限制信息抽取模型的复杂度，有助于防止过拟合和提高模型的泛化能力。

综上所述，基于已标注的数据集，对搭建的初始信息抽取模型进行训练和评估，在该过程中，不断调整数据集或模型的关键参数，不断迭代训练模型，以获取训练后的信息抽取模型。影响模型效果的因素主要有：模型算法的本身逻辑、数据集的质量以及模型参数的配置。本申请实施例主要采取模型参数的调整以及数据集的优化两种方法来提升模型的预测准确度。

首先，模型参数的调整包括以下几个方面：

1、学习率调整：学习率是控制模型权重更新速度的参数，过大或过小的学习率都会影响模型的训练效果，可以通过网格搜索、随机搜索等方法来确定学习率。

2、批量大小调整：批量大小是指每次训练时输入模型的样本数量。较大的批量大小可以提高训练效率，但可能导致模型泛化能力下降，较小的批量大小可以提高模型的泛化能力，但可能导致训练时间过长，可以通过实验确定批量大小。

3、优化器选择：优化器是主要作用是通过不断地调整网络参数，使得模型能够在训练集上达到较好的性能，不同的优化器有不同的优缺点，可以尝试使用不同的优化器，观察其对模型性能的影响，从而确定优化器。

4、层数和隐藏单元数调整：神经网络的层数和隐藏单元数会影响模型的表达能力，增加层数和隐藏单元数可以提高模型的表达能力，但也可能导致过拟合，可以通过实验确定层数和隐藏单元数。

5、激活函数选择：激活函数决定了神经元的非线性变换方式。不同的激活函数对模型性能有影响，可以尝试使用不同的激活函数，观察其对模型性能的影响，从而确定激活函数。

6、正则化参数调整：正则化是一种防止过拟合的方法，正则化参数的选择会影响模型的泛化能力，可以使用交叉验证法确定正则化参数。

7、损失函数选择：损失函数用于衡量模型预测结果与真实标签之间的差异，选择合适的损失函数可以提高模型的性能，常见的损失函数例如交叉熵损失、均方误差损失等。

其次，数据集的优化包括以下几个方面：

1、数据预处理：是指清洗和处理数据，包括去除噪声、标准化文本、分词等。

2、增加数据集数量：即通过人工标注特定场景的NER训练数据集，来增加模型的泛化能力和准确度。

3、数据检查：对人工标注数据集的工作进行强化，统一标注平台，统一标注规则，增加检查机制，提高数据集的标注质量。

4、数据增强：数据增强是指通过对原始数据进行一系列随机变换或扰动，来生成更多的训练样本，在不引入额外噪音的情况下对数据集进行扩充，从而提高模型的泛化能力和鲁棒性。

为了更加清楚地说明初始信息抽取模型的整体训练流程，下面结合附图6对初始信息抽取模型的训练过程进一步说明：

S601、模型训练。

首先，将已标注的数据集按比例划分为测试集和验证集，利用测试集对初始信息抽取模型进行训练，直到目标损失函数的输出值满足预设条件，则停止训练，获得训练后的信息抽取模型。

S602、模型评估。

利用测试集计算训练后的信息抽取模型的预测精度，根据预测精度对训练后的信息抽取模型进行评估。

S603、判断是否达到预期精度。

若预测精度大于或等于预期精度，则结束训练，若该预测精度小于预期精度，则执行S604和S605。

S604、参数优化。

优化的参数包括学习率、批量大小、优化器、层数和隐藏单元数、激活函数、正则化参数、损失函数等。

S605、数据优化。

数据优化是指数据集的优化，包括增加数据集数量、数据增强等。

进一步，执行S604和S605之后，基于优化后的参数和数据集继续执行S601，直至达到预期精度，结束训练。

为了更加清楚地说明本申请实施例提供的投标参与信息抽取方法的整体流程，下面结合附图7进一步说明：

S701、搭建模型。

采用BiLSTM和CRF的神经网络结构搭建初始信息抽取模型，模型搭建阶段包括设计核心模型逻辑、模型评估逻辑、模型预测逻辑。

S702、制作数据集。

数据集制作阶段包括数据预处理、数据增强和数据标注。

S703、模型迭代训练。

基于S701得到的初始信息抽取模型，利用S702得到的数据集训练模型并对模型进行评估。在训练过程中，不断调整数据集或模型的关键参数，不断迭代训练模型，以获得训练后的信息抽取模型。

S704、提取投标参与字段。

将第一招投标数据进行预处理之后，输入训练后的信息抽取模型，提取出投标参与字段的类别和位置信息。

S705、基于位置信息进行匹配。

获得训练后的信息抽取模型的输出结果之后，根据每个投标参与字段的类别和位置信息，对各个投标参与字段之间的关系进行匹配。

S706、获得投标参与信息。

通过S705的匹配过程，获得第一招投标数据中的投标参与信息。

综上所述，在本申请实施例中，针对招投标领域场景的数据信息表述繁杂导致的信息抽取准确性较差的问题，提出了一种投标参与信息抽取方法，可以挖掘更加丰富、更加有效、更加准确的投标参与信息，解决了市场数据杂乱、数据不足的问题，降低了人工成本。首先，招投标领域中标候选人公告、评标结果公告、开标记录公告等相关数据的处理方式和数据标注方式，把投标参与信息进行合理的划分，赋予对应的标注符号，提高了数据处理、信息提取的效率。其次，基于真实类别和真实位置信息的模型训练，增加了模型训练时的特征信息，提高了模型的准确度。最后，由于招投标领域的信息表述的复杂度很高，基于类别和位置信息进行实体关系匹配，可以得到更加准确的投标参与信息。

基于同一发明构思，本申请实施例提供一种投标参与信息抽取装置80，投标参与信息抽取装置80可以设置在本申请实施例提供的信息抽取设备中，如附图8所示，投标参与信息抽取装置包括：

预处理模块801，用于对第一招投标数据进行预处理，获得第一文本数据；

预测模块802，用于将第一文本数据输入训练后的信息抽取模型，获得第一文本数据中每个投标参与字段的类别和位置信息；其中，训练后的信息抽取模型是基于已标注的数据集进行训练得到的；已标注的数据集包括多个投标参与字段的真实类别和真实位置信息；每个投标参与字段的位置信息用于指示每个投标参与字段在上下文中的起始位置和结束位置；

信息获得模块803，用于根据第一文本数据中每个投标参与字段的类别和位置信息，对第一文本数据中各个投标参与字段之间的关系进行匹配，获得第一招投标数据中的投标参与信息；投标参与信息用于指示投标过程中的关键信息。

可选的，投标参与信息抽取装置80还包括数据集制作模块804，数据集制作模块804用于：

获取招投标领域公开的第二招投标数据；

对第二招投标数据进行预处理，获得第二文本数据；

分别为第二文本数据中每个投标参与字段标注真实类别和真实位置信息，获得第三文本数据；

根据第三文本数据，获得已标注的数据集。

可选的，数据集制作模块804还用于：

采用BIO标注法对第三文本数据中的每个词进行标注，获得已标注的第三文本数据；

根据已标注的第三文本数据，获得已标注的数据集。

可选的，数据集制作模块804还用于：

可选的，投标参与信息抽取装置80还包括模型训练模块805，模型训练模块805用于：

将已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出已标注的数据集中各个投标参与字段的预测类别和预测位置信息；

根据已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数；

根据目标损失函数调整初始信息抽取模型的参数，直至目标损失函数的输出值满足预设条件，获得训练后的信息抽取模型。

可选的，投标参与信息抽取装置80还包括模型搭建模块806，模型搭建模块806用于：

采用双向长短时记忆网络BiLSTM和条件随机场CRF的神经网络结构搭建初始信息抽取模型。

可选的，模型搭建模块806还用于：

根据已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立原始损失函数；

通过交叉验证法确定目标正则化参数；

在原始损失函数中增加目标正则化参数，建立目标损失函数。

投标参与信息抽取装置80可以用于执行本申请实施例论述的投标参与信息抽取方法，因此，对于该装置的各功能模块所能够实现的功能等可参照投标参与信息抽取方法的实施方式，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种电子设备，电子设备相当于本申请实施例提供的信息抽取设备，该设备包括：

存储器，用于存储程序指令、解码数据以及解码数据；

处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行本申请实施例论述的投标参与信息抽取方法包括的步骤。

基于同一发明构思，本申请实施例还提供一种存储介质，存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行本申请实施例论述的投标参与信息抽取方法包括的步骤。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种投标参与信息抽取方法，其特征在于，所述投标参与信息抽取方法包括：

对第一招投标数据进行预处理，获得第一文本数据；

2.如权利要求1所述的投标参与信息抽取方法，其特征在于，在将所述第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息之前，所述投标参与信息抽取方法还包括：

获取招投标领域公开的第二招投标数据；

对所述第二招投标数据进行预处理，获得第二文本数据；

根据所述第三文本数据，获得所述已标注的数据集。

3.如权利要求2所述的投标参与信息抽取方法，其特征在于，所述根据所述第三文本数据，获得所述已标注的数据集的步骤包括：

4.如权利要求3所述的投标参与信息抽取方法，其特征在于，所述根据所述已标注的第三文本数据，获得所述已标注的数据集的步骤包括：

5.如权利要求1-4中任一项所述的投标参与信息抽取方法，其特征在于，在将所述第一文本数据输入训练后的信息抽取模型，获得所述第一文本数据中每个投标参与字段的类别和位置信息之前，所述投标参与信息抽取方法还包括：

6.如权利要求5所述的投标参与信息抽取方法，其特征在于，在将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型，输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息之前，所述投标参与信息抽取方法还包括：

7.如权利要求5所述的投标参与信息抽取方法，其特征在于，所述根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差，建立目标损失函数的步骤包括：

通过交叉验证法确定目标正则化参数；

8.一种投标参与信息抽取装置，其特征在于，所述投标参与信息抽取装置包括：

9.一种电子设备，其特征在于，所述设备包括：

存储器，用于存储程序指令、解码数据以及解码数据；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7中任一所述的投标参与信息抽取方法包括的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的投标参与信息抽取方法包括的步骤。