CN117408651A

CN117408651A - 基于人工智能的招标方案在线编制方法及系统

Info

Publication number: CN117408651A
Application number: CN202311727006.4A
Authority: CN
Inventors: 张汪洋; 佟伟; 刘林; 李宇超; 李志强; 于家欢; 周健
Original assignee: Liaoning Netcom Digital Technology Industry Co ltd
Current assignee: Liaoning Netcom Digital Technology Industry Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16

Abstract

本发明公开了基于人工智能的招标方案在线编制方法及系统，方法包括数据采集、特征提取、关键词提取、模型训练、模型评估和招标方案生成及调整。本发明属于人工智能技术领域，具体是指基于人工智能的招标方案在线编制方法及系统，本方案利用卷积神经网络进行建模，更好地捕捉文本的上下文信息和语义特征，提高命名实体识别的准确性和鲁棒性，通过使用TextRank模型和先验知识网络，更准确地提取与招标方案相关的关键词，提高招标文件生成的效率，降低误判和噪声的影响。

Description

基于人工智能的招标方案在线编制方法及系统

技术领域

本发明涉及人工智能技术领域，具体是指基于人工智能的招标方案在线编制方法及系统。

背景技术

利用人工智能技术自动生成招标方案可以帮助企业快速、高效地完成招标方案的编制工作，提高企业的竞争力，传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息，且模型结构复杂，导致命名实体识别准确率低、招标方案质量不高的问题；传统关键词提取方法存在使用词频或频率统计来确定关键词，导致常见词汇被错误地识别为关键词，而忽略了文本内容的语义和上下文信息的问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了基于人工智能的招标方案在线编制方法及系统，针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息，且模型结构复杂，导致命名实体识别准确率低、招标方案质量不高的问题，本方案利用卷积神经网络进行建模，可以更好地捕捉文本的上下文信息和语义特征，提高命名实体识别的准确性和鲁棒性，同时，嵌入融合技术增强特征表示的能力，提高招标方案的质量；针对传统关键词提取方法存在使用词频或频率统计来确定关键词，导致常见词汇被错误地识别为关键词，而忽略了文本内容的语义和上下文信息的问题，本方案通过使用TextRank模型和先验知识网络，更准确地提取与招标方案相关的关键词，提高招标文件生成的效率，降低误判和噪声的影响。

本发明采取的技术方案如下：本发明提供的基于人工智能的招标方案在线编制方法，该方法包括以下步骤：

步骤S1：数据采集，采集历史招标项目的基本信息和招标需求，历史招标项目的基本信息和招标需求由文本组成，文本由句子组合而成，将历史招标项目的基本信息和招标需求划分为训练集、测试集；

步骤S2：特征提取，利用卷积神经网络提取文本的上下文信息，通过自注意力机制得到四个可选特征，通过级联融合四个可选特征，得到融合后的特征信息，将融合后的特征信息进行编码和解码，得到NER模型；

步骤S3：关键词提取，建立TextRank模型，利用公共词典数据建模先验知识网络，提取先验信息，将先验信息集成到TextRank模型中，得到TextRank-A模型；

步骤S4：模型训练，融合NER模型和TextRank-A模型得到NER-TextRank-A模型，将训练集输入NER-TextRank-A模型进行模型训练；

步骤S5：模型评估，利用测试集对NER-TextRank-A模型进行评估，得到NER-TextRank-B模型；

步骤S6：招标方案生成及调整，将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型，输出招标方案，由专业人员进行最终审核，对招标方案进行逐条检查，确保其符合标准和项目需求。

进一步地，在步骤S1中，所述数据采集具体是收集历史招标项目的基本信息和招标需求，包括招标范围、招标文件内容要求、资格要求和评审办法，历史招标项目的基本信息和招标需求由文本组成，文本由句子组合而成，将历史招标项目的基本信息和招标需求划分为训练集、测试集。

进一步地，在步骤S2中，特征提取，具体包括以下步骤：

步骤S21：获取单词特征，将句子表示为，定义句子中匹配的第个字符的词典知识为，表示字符匹配的最大单词数，如果某个字符获得的单词数小于最大单词数，则用0进行填充，将句子的词典知识表示为，利用自注意力机制计算进行匹配后每个字符与所有单词之间的权重，所用公式如下：

；

式中，表示激活函数，表示词典知识中某个词的权重向量，和分别表示不同维度的权重参数，和分别表示与第个字符匹配的第个词和该词的权重向量，表示第个字符的权重向量的转置向量；表示所有词典知识的总权重，计算句子中所有字符的可选特征，所用公式如下：

；

式中，表示句子中所有字符的可选特征；

步骤S22：获取二元组特征，利用二元组作为可选特征来增强字符表示，为使每个字符具有二元组，在所有句子的最后一个字符加上“Null”，每个字符都可以找到一个以自己开头的二元组，将第个字符的二元组表示为，将整个句子的二元组表示为；

步骤S23：获取字符和二元组的局部特征，利用卷积神经网络提取字符的上下文局部信息，将中的每个字符映射到相应的词向量，将这些词向量转换为卷积神经网络可以处理的二维矩阵，采用卷积核提取局部特征，所用公式如下：

；

式中，是由滤波器从上下文矩阵中提取的第个字符的局部特征，表示激活函数，表示滤波器的窗口大小，表示从到的第个字符的上下文信息，表示偏置向量；

通过卷积神经网络的卷积运算，句子中每个字符的局部特征表示为，利用卷积神经网络提取二元组的局部特征，进一步提取句子中较长单词的信息，二元组的局部特征表示为，通过上述处理，得到四个可选特征：单词特征、二元组特征、上下文特征和二元组上下文特征；

步骤S24：特征融合，通过级联融合四个可选特征，得到融合后特征，所用公式如下：

；

式中，表示将可选特征融合到第个字符的结果，表示第个字符的权重向量；

步骤S25：特征编码，利用LSTM进行特征编码，将融合后特征输入到LSTM，得到字符序列，LSTM由遗忘门、输入门、输出门和细胞单元的状态组成，LSTM通过遗忘门、输入门和输出门更新细胞单元的状态，所用公式如下：

；

式中，表示细胞状态需要忽略的信息，表示激活函数，表示输入门，表示输出门，和表示可训练的超参数，表示偏差，表示输入序列，和分别表示细胞的当前状态和最终状态，表示同或运算，表示隐藏状态的输出；

步骤S26：特征解码，通过标准CRF对字符序列进行标签推断，得到标签序列，计算标签序列的可能得分，所用公式如下：

；

式中，表示输入的句子，表示模型的超参数，表示所有可能的标签序列，等价于，表示权重参数，表示偏置，表示隐藏状态的输出，表示所有可能的标签序列中分数最高的标签，进而得到NER模型。

进一步地，在步骤S3中，关键词提取，具体包括以下步骤：

步骤S31：建立TextRank模型，将文本建模为无向加权图，，表示候选关键词的节点集，表示无向加权图的边，定义滑动窗口中两个词的共现关系为中的一条边，表示边的权重，引入迭代计算公式计算节点的权重，所用公式如下：

；

式中，表示节点的权重，表示节点的权重，表示节点与节点的边的权重，表示节点与节点的边的权重，表示迭代计算的阻尼系数，表示指向的节点集合，表示指向的节点集合；

步骤S32：构建先验知识网络，定义公共字典为领域专家精心构建的，基于公共字典构建一个有向先验知识网络，包括网络节点和网络边，其中网络节点表示字典单词，网络边表示字典单词之间的解释关系，根据入度值设置网络节点的大小，在构造网络边时，记录两个字典单词之间网络边的共存次数，计算先验知识网络的边权，利用PageRank迭代方程进一步计算网络节点的权重；

步骤S33：计算优先关键词重要度，传统的TextRank模型中，所有候选关键词被赋予相同的初始重要度值，在公共字典下的招标方案中考虑关键词的先验信息，利用TF-IDF计算方法，计算某一词在给定文本文档中出现的频率，所用公式如下：

；

式中，表示单词在文档中出现的次数，表示所有单词在文档中出现的总次数，表示单词在文档中出现的频率；

利用逆文档频率IDF计算语料库中包含某个词的文档出现的频率，如果少数文档中包含某个关键字，说明关键字具有较好的判别能力，计算关键字的IDF值，所用公式如下：

；

式中，表示语料库中文档的数量，表示包含单词的文档个数，加1是为了防止无意义的0值，表示单词在文档中出现的逆文档频率；

为TextRank模型中的每个节点引入节点流行度，所用公式如下：

；

式中，表示节点的流行度，表示先验知识网络中与节点词相关的个节点的权值，计算节点词在文档中的优先重要度，所用公式如下：

；

式中，表示节点词在文档中的优先重要度；

步骤S34：计算传递因子值，在TextRank模型中，某条边上的传递因子值与该边连接的两个节点词和的共现频率有关，利用先验知识网络中的一些先验信息来计算传递因子值，采用联想记忆策略，如果将先验知识网络中的每个网络节点视为一个神经元，将两个网络节点之间的连接视为一个关联关系，通过计算两个网络节点之间的连接强度来计算它们之间的关联关系，所用公式如下：

；

式中，表示传递因子值，表示先验知识网络中两个节点和之间的连接，表示字典条目中两个节点词的共存次数，和分别表示该句中的相对位置指标值，表示连接两个节点和的最大关联跳数，表示先验知识网络中所有节点的总数；

在TextRank模型中引入传递因子，得到新的传递因子值，所用公式如下：

；

式中，表示新的传递因子值；

步骤S35：计算新型关键词秩值，所用公式如下：

；

式中，表示节点词在文档中的优先重要度，、表示传递因子值，得到TextRank-A模型。

进一步地，在步骤S4中，模型训练，具体为：融合NER模型和TextRank-A模型得到NER-TextRank-A模型，将训练集输入NER-TextRank-A模型，设置NER-TextRank-A模型的迭代次数、批量大小、初始学习率，利用SGD优化器进行模型训练；

进一步地，在步骤S5中，模型评估，具体包括以下步骤：

步骤S51：利用测试集来评估NER-TextRank-A模型的性能，当NER-TextRank-A模型在连续若干个迭代次数中，测试集误差不再下降时，停止训练，得到NER-TextRank-B模型；

步骤S52：采用、、和三个评价指标，所用公式如下：

；

式中，表示精确率，表示真正类，表示假正类，表示召回率，表示假负类。

本发明提供的基于人工智能的招标方案在线编制系统，包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块；

所述数据采集模块采集历史招标项目的基本信息和招标需求，将历史招标项目的基本信息和招标需求划分为训练集、测试集，并将训练集发送至特征提取模块、关键词提取模块，将测试集发送至模型评估模块；

所述特征提取模块接收数据采集模块发送的训练集，利用卷积神经网络提取训练集的上下文信息，利用自注意力机制得到四个可选特征，通过级联融合四个可选特征，得到融合后的特征信息，将融合后的特征信息进行编码和解码，得到NER模型，并将NER模型发送至模型训练模块；

所述关键词提取模块接收数据采集模块发送的训练集，将训练集建模TextRank模型，利用公共词典数据建模先验知识网络，在先验知识网络中，提取先验信息，将先验信息集成到TextRank模型中，得到TextRank-A模型，并将TextRank-A模型发送至模型训练模块；

所述模型训练模块接收特征提取模块发送的NER模型和关键词提取模块发送的TextRank-A模型，融合NER模型和TextRank-A模型得到NER-TextRank-A模型，并将NER-TextRank-A模型发送至模型评估模块；

所述模型评估模块接收数据采集模块发送的测试集和模型训练模块发送的NER-TextRank-A模型，利用测试集对NER-TextRank-A模型进行评估，得到NER-TextRank-B模型，并将NER-TextRank-B模型发送至招标方案生成及调整模块；

所述招标方案生成及调整模块接收模型评估模块发送的NER-TextRank-B模型，将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型，输出招标方案，由专业人员进行最终审核，对招标方案进行逐条检查，确保其符合标准和项目需求。

采用上述方案本发明取得的有益效果如下：

（1）针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息，且模型结构复杂，导致命名实体识别准确率低、招标方案质量不高的问题，本方案利用卷积神经网络进行建模，可以更好地捕捉文本的上下文信息和语义特征，提高命名实体识别的准确性和鲁棒性，同时，嵌入融合技术增强特征表示的能力，提高招标方案的质量。

（2）针对传统关键词提取方法存在使用词频或频率统计来确定关键词，导致常见词汇被错误地识别为关键词，而忽略了文本内容的语义和上下文信息的问题，本方案通过使用TextRank模型和先验知识网络，更准确地提取与招标方案相关的关键词，提高招标文件生成的效率，降低误判和噪声的影响。

附图说明

图1为本发明提供的基于人工智能的招标方案在线编制方法的流程示意图；

图2为本发明提供的基于人工智能的招标方案在线编制系统的示意图；

图3为步骤S2的流程示意图；

图4为步骤S3的流程示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1，本发明提供的基于人工智能的招标方案在线编制方法，该方法包括以下步骤：

实施例二，参阅图1和图3，该实施例基于上述实施例，在步骤S2中，特征提取，具体包括以下步骤：

；

式中，表示句子中所有字符的可选特征；

；

通过执行上述操作，针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息，且模型结构复杂，导致命名实体识别准确率低、招标方案质量不高的问题，本方案利用卷积神经网络进行建模，可以更好地捕捉文本的上下文信息和语义特征，提高命名实体识别的准确性和鲁棒性，同时，嵌入融合技术增强特征表示的能力，提高招标方案的质量。

实施例三，参阅图1和图4，该实施例基于上述实施例，在步骤S3中，关键词提取，具体包括以下步骤：

；

式中，表示节点词在文档中的优先重要度；

；

式中，表示新的传递因子值；

步骤S35：计算新型关键词秩值，所用公式如下：

；

通过执行上述操作，针对传统关键词提取方法存在使用词频或频率统计来确定关键词，导致常见词汇被错误地识别为关键词，而忽略了文本内容的语义和上下文信息的问题，本方案通过使用TextRank模型和先验知识网络，更准确地提取与招标方案相关的关键词，提高招标文件生成的效率，降低误判和噪声的影响。

实施例四，参阅图2，该实施例基于上述实施例，本发明提供的基于人工智能的招标方案在线编制系统，包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于人工智能的招标方案在线编制方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于人工智能的招标方案在线编制方法，其特征在于：在步骤S2中，所述特征提取，包括以下步骤：

；

式中，表示句子中所有字符的可选特征；

；

3.根据权利要求2所述的基于人工智能的招标方案在线编制方法，其特征在于：在步骤S3中，所述关键词提取，包括以下步骤：

；

式中，表示节点词在文档中的优先重要度；

；

式中，表示新的传递因子值；

步骤S35：计算新型关键词秩值，所用公式如下：

；

4.基于人工智能的招标方案在线编制系统，用于实现如权利要求1-3中任一项所述的基于人工智能的招标方案在线编制方法，其特征在于：包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块；