CN117408651A - 基于人工智能的招标方案在线编制方法及系统 - Google Patents

基于人工智能的招标方案在线编制方法及系统 Download PDF

Info

Publication number
CN117408651A
CN117408651A CN202311727006.4A CN202311727006A CN117408651A CN 117408651 A CN117408651 A CN 117408651A CN 202311727006 A CN202311727006 A CN 202311727006A CN 117408651 A CN117408651 A CN 117408651A
Authority
CN
China
Prior art keywords
representing
model
textrank
bidding
ner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311727006.4A
Other languages
English (en)
Inventor
张汪洋
佟伟
刘林
李宇超
李志强
于家欢
周健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Netcom Digital Technology Industry Co ltd
Original Assignee
Liaoning Netcom Digital Technology Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Netcom Digital Technology Industry Co ltd filed Critical Liaoning Netcom Digital Technology Industry Co ltd
Priority to CN202311727006.4A priority Critical patent/CN117408651A/zh
Publication of CN117408651A publication Critical patent/CN117408651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于人工智能的招标方案在线编制方法及系统,方法包括数据采集、特征提取、关键词提取、模型训练、模型评估和招标方案生成及调整。本发明属于人工智能技术领域,具体是指基于人工智能的招标方案在线编制方法及系统,本方案利用卷积神经网络进行建模,更好地捕捉文本的上下文信息和语义特征,提高命名实体识别的准确性和鲁棒性,通过使用TextRank模型和先验知识网络,更准确地提取与招标方案相关的关键词,提高招标文件生成的效率,降低误判和噪声的影响。

Description

基于人工智能的招标方案在线编制方法及系统
技术领域
本发明涉及人工智能技术领域,具体是指基于人工智能的招标方案在线编制方法及系统。
背景技术
利用人工智能技术自动生成招标方案可以帮助企业快速、高效地完成招标方案的编制工作,提高企业的竞争力,传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息,且模型结构复杂,导致命名实体识别准确率低、招标方案质量不高的问题;传统关键词提取方法存在使用词频或频率统计来确定关键词,导致常见词汇被错误地识别为关键词,而忽略了文本内容的语义和上下文信息的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了基于人工智能的招标方案在线编制方法及系统,针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息,且模型结构复杂,导致命名实体识别准确率低、招标方案质量不高的问题,本方案利用卷积神经网络进行建模,可以更好地捕捉文本的上下文信息和语义特征,提高命名实体识别的准确性和鲁棒性,同时,嵌入融合技术增强特征表示的能力,提高招标方案的质量;针对传统关键词提取方法存在使用词频或频率统计来确定关键词,导致常见词汇被错误地识别为关键词,而忽略了文本内容的语义和上下文信息的问题,本方案通过使用TextRank模型和先验知识网络,更准确地提取与招标方案相关的关键词,提高招标文件生成的效率,降低误判和噪声的影响。
本发明采取的技术方案如下:本发明提供的基于人工智能的招标方案在线编制方法,该方法包括以下步骤:
步骤S1:数据采集,采集历史招标项目的基本信息和招标需求,历史招标项目的基本信息和招标需求由文本组成,文本由句子组合而成,将历史招标项目的基本信息和招标需求划分为训练集、测试集;
步骤S2:特征提取,利用卷积神经网络提取文本的上下文信息,通过自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型;
步骤S3:关键词提取,建立TextRank模型,利用公共词典数据建模先验知识网络,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型;
步骤S4:模型训练,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,将训练集输入NER-TextRank-A模型进行模型训练;
步骤S5:模型评估,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型;
步骤S6:招标方案生成及调整,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
进一步地,在步骤S1中,所述数据采集具体是收集历史招标项目的基本信息和招标需求,包括招标范围、招标文件内容要求、资格要求和评审办法,历史招标项目的基本信息和招标需求由文本组成,文本由句子组合而成,将历史招标项目的基本信息和招标需求划分为训练集、测试集。
进一步地,在步骤S2中,特征提取,具体包括以下步骤:
步骤S21:获取单词特征,将句子表示为,定义句子中匹配的 第个字符的词典知识为表示字符匹配的最大单词数,如果某个字符 获得的单词数小于最大单词数,则用0进行填充,将句子的词典知识表示为,利用自注意力机制计算 进行匹配后每个字符与所有单词之间的权重,所用公式如下:
式中,表示激活函数,表示词典知识中某个词的权重向量,分 别表示不同维度的权重参数,分别表示与第个字符匹配的第个词和该词的权重 向量,表示第个字符的权重向量的转置向量;表示所有词典知识的总权重,计算句子 中所有字符的可选特征,所用公式如下:
式中,表示句子中所有字符的可选特征;
步骤S22:获取二元组特征,利用二元组作为可选特征来增强字符表示,为使每个 字符具有二元组,在所有句子的最后一个字符加上“Null”,每个字符都可以找到一个以自 己开头的二元组,将第个字符的二元组表示为,将整个句子的二元组表示为
步骤S23:获取字符和二元组的局部特征,利用卷积神经网络提取字符的上下文局 部信息,将中的每个字符映射到相应的词向量,将这些词向量转换为 卷积神经网络可以处理的二维矩阵,采用卷积核提取局部特征,所用公式如下:
式中,是由滤波器从上下文矩阵中提取的第个字符的局部特征,表示 激活函数,表示滤波器的窗口大小,表示从的第个字 符的上下文信息,表示偏置向量;
通过卷积神经网络的卷积运算,句子中每个字符的局部特征表示为,利用卷积神经网络提取二元组的局部特征,进一步提取句子中较长单 词的信息,二元组的局部特征表示为,通过上述处理,得到四个可选 特征:单词特征、二元组特征、上下文特征和二元组上下文特征
步骤S24:特征融合,通过级联融合四个可选特征,得到融合后特征,所用公式如下:
式中,表示将可选特征融合到第个字符的结果,表示第个字符的权重向 量;
步骤S25:特征编码,利用LSTM进行特征编码,将融合后特征输入到LSTM,得到字符序列,LSTM由遗忘门、输入门、输出门和细胞单元的状态组成,LSTM通过遗忘门、输入门和输出门更新细胞单元的状态,所用公式如下:
式中,表示细胞状态需要忽略的信息,表示激活函数,表示输入门,表 示输出门,表示可训练的超参数,表示偏差,表示输入序列,分别表 示细胞的当前状态和最终状态,表示同或运算,表示隐藏状态的输出;
步骤S26:特征解码,通过标准CRF对字符序列进行标签推断,得到标签序列,计算标签序列的可能得分,所用公式如下:
式中,表示输入的句子,表示模型的超参数,表示所有可能的标签序列,等价于表示权重参数,表示偏置,表示隐藏状态 的输出,表示所有可能的标签序列中分数最高的标签,进而得到NER模型。
进一步地,在步骤S3中,关键词提取,具体包括以下步骤:
步骤S31:建立TextRank模型,将文本建模为无向加权图表示 候选关键词的节点集,表示无向加权图的边,定义滑动窗口中两个词的共现关系为 中的一条边,表示边的权重,引入迭代计算公式计算节点的权重,所用公式如下:
式中,表示节点的权重,表示节点的权重,表示节点与节点的 边的权重,表示节点与节点的边的权重,表示迭代计算的阻尼系数,表示指 向的节点集合,表示指向的节点集合;
步骤S32:构建先验知识网络,定义公共字典为领域专家精心构建的,基于公共字 典构建一个有向先验知识网络,包括网络节点和网络边,其中网络节点表示字典单词,网络 边表示字典单词之间的解释关系,根据入度值设置网络节点的大小,在构造网络边时,记录 两个字典单词之间网络边的共存次数,计算先验知识网络的边权,利用PageRank迭代方程 进一步计算网络节点的权重
步骤S33:计算优先关键词重要度,传统的TextRank模型中,所有候选关键词被赋予相同的初始重要度值,在公共字典下的招标方案中考虑关键词的先验信息,利用TF-IDF计算方法,计算某一词在给定文本文档中出现的频率,所用公式如下:
式中,表示单词在文档中出现的次数,表示所有单词在文档中出 现的总次数,表示单词在文档中出现的频率;
利用逆文档频率IDF计算语料库中包含某个词的文档出现的频率,如果少数文档 中包含某个关键字,说明关键字具有较好的判别能力,计算关键字的IDF值,所用公式如 下:
式中,表示语料库中文档的数量, 表示包含单词的文档个数, 加1是为了防止无意义的0值,表示单词在文档中出现的逆文档频率;
为TextRank模型中的每个节点引入节点流行度,所用公式如下:
式中,表示节点的流行度,表示先验知识网络中与节点词相关的个节点的权值,计算节点词在文档中的优先重要度,所用公式如下:
式中,表示节点词在文档中的优先重要度;
步骤S34:计算传递因子值,在TextRank模型中,某条边上的传递因子值与该边连 接的两个节点词的共现频率有关,利用先验知识网络中的一些先验信息来计算传 递因子值,采用联想记忆策略,如果将先验知识网络中的每个网络节点视为一个神经元,将 两个网络节点之间的连接视为一个关联关系,通过计算两个网络节点之间的连接强度来计 算它们之间的关联关系,所用公式如下:
式中,表示传递因子值,表示先验知识网络中两个节点之间的 连接,表示字典条目中两个节点词的共存次数,分别表示该句中的相对位置指标 值,表示连接两个节点的最大关联跳数,表示先验知识网络中所有节点的总 数;
在TextRank模型中引入传递因子,得到新的传递因子值,所用公式如下:
式中,表示新的传递因子值;
步骤S35:计算新型关键词秩值,所用公式如下:
式中,表示节点词在文档中的优先重要度,表示传递因子 值,得到TextRank-A模型。
进一步地,在步骤S4中,模型训练,具体为:融合NER模型和TextRank-A模型得到NER-TextRank-A模型,将训练集输入NER-TextRank-A模型,设置NER-TextRank-A模型的迭代次数、批量大小、初始学习率,利用SGD优化器进行模型训练;
进一步地,在步骤S5中,模型评估,具体包括以下步骤:
步骤S51:利用测试集来评估NER-TextRank-A模型的性能,当NER-TextRank-A模型在连续若干个迭代次数中,测试集误差不再下降时,停止训练,得到NER-TextRank-B模型;
步骤S52:采用、和三个评价指标,所用公式如下:
式中,表示精确率,表示真正类,表示假正类,表示召回率,表示假负类。
本发明提供的基于人工智能的招标方案在线编制系统,包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块;
所述数据采集模块采集历史招标项目的基本信息和招标需求,将历史招标项目的基本信息和招标需求划分为训练集、测试集,并将训练集发送至特征提取模块、关键词提取模块,将测试集发送至模型评估模块;
所述特征提取模块接收数据采集模块发送的训练集,利用卷积神经网络提取训练集的上下文信息,利用自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型,并将NER模型发送至模型训练模块;
所述关键词提取模块接收数据采集模块发送的训练集,将训练集建模TextRank模型,利用公共词典数据建模先验知识网络,在先验知识网络中,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型,并将TextRank-A模型发送至模型训练模块;
所述模型训练模块接收特征提取模块发送的NER模型和关键词提取模块发送的TextRank-A模型,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,并将NER-TextRank-A模型发送至模型评估模块;
所述模型评估模块接收数据采集模块发送的测试集和模型训练模块发送的NER-TextRank-A模型,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型,并将NER-TextRank-B模型发送至招标方案生成及调整模块;
所述招标方案生成及调整模块接收模型评估模块发送的NER-TextRank-B模型,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
采用上述方案本发明取得的有益效果如下:
(1)针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息,且模型结构复杂,导致命名实体识别准确率低、招标方案质量不高的问题,本方案利用卷积神经网络进行建模,可以更好地捕捉文本的上下文信息和语义特征,提高命名实体识别的准确性和鲁棒性,同时,嵌入融合技术增强特征表示的能力,提高招标方案的质量。
(2)针对传统关键词提取方法存在使用词频或频率统计来确定关键词,导致常见词汇被错误地识别为关键词,而忽略了文本内容的语义和上下文信息的问题,本方案通过使用TextRank模型和先验知识网络,更准确地提取与招标方案相关的关键词,提高招标文件生成的效率,降低误判和噪声的影响。
附图说明
图1为本发明提供的基于人工智能的招标方案在线编制方法的流程示意图;
图2为本发明提供的基于人工智能的招标方案在线编制系统的示意图;
图3为步骤S2的流程示意图;
图4为步骤S3的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的基于人工智能的招标方案在线编制方法,该方法包括以下步骤:
步骤S1:数据采集,采集历史招标项目的基本信息和招标需求,历史招标项目的基本信息和招标需求由文本组成,文本由句子组合而成,将历史招标项目的基本信息和招标需求划分为训练集、测试集;
步骤S2:特征提取,利用卷积神经网络提取文本的上下文信息,通过自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型;
步骤S3:关键词提取,建立TextRank模型,利用公共词典数据建模先验知识网络,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型;
步骤S4:模型训练,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,将训练集输入NER-TextRank-A模型进行模型训练;
步骤S5:模型评估,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型;
步骤S6:招标方案生成及调整,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
实施例二,参阅图1和图3,该实施例基于上述实施例,在步骤S2中,特征提取,具体包括以下步骤:
步骤S21:获取单词特征,将句子表示为,定义句子中匹配的 第个字符的词典知识为表示字符匹配的最大单词数,如果某个字符 获得的单词数小于最大单词数,则用0进行填充,将句子的词典知识表示为,利用自注意力机制计算 进行匹配后每个字符与所有单词之间的权重,所用公式如下:
式中,表示激活函数,表示词典知识中某个词的权重向量,分 别表示不同维度的权重参数,分别表示与第个字符匹配的第个词和该词的权重 向量,表示第个字符的权重向量的转置向量;表示所有词典知识的总权重,计算句子 中所有字符的可选特征,所用公式如下:
式中,表示句子中所有字符的可选特征;
步骤S22:获取二元组特征,利用二元组作为可选特征来增强字符表示,为使每个 字符具有二元组,在所有句子的最后一个字符加上“Null”,每个字符都可以找到一个以自 己开头的二元组,将第个字符的二元组表示为,将整个句子的二元组表示为
步骤S23:获取字符和二元组的局部特征,利用卷积神经网络提取字符的上下文局 部信息,将中的每个字符映射到相应的词向量,将这些词向量转换为 卷积神经网络可以处理的二维矩阵,采用卷积核提取局部特征,所用公式如下:
式中,是由滤波器从上下文矩阵中提取的第个字符的局部特征,表示 激活函数,表示滤波器的窗口大小,表示从的第个字 符的上下文信息,表示偏置向量;
通过卷积神经网络的卷积运算,句子中每个字符的局部特征表示为,利用卷积神经网络提取二元组的局部特征,进一步提取句子中较长单 词的信息,二元组的局部特征表示为,通过上述处理,得到四个可选 特征:单词特征、二元组特征、上下文特征和二元组上下文特征
步骤S24:特征融合,通过级联融合四个可选特征,得到融合后特征,所用公式如下:
式中,表示将可选特征融合到第个字符的结果,表示第个字符的权重向 量;
步骤S25:特征编码,利用LSTM进行特征编码,将融合后特征输入到LSTM,得到字符序列,LSTM由遗忘门、输入门、输出门和细胞单元的状态组成,LSTM通过遗忘门、输入门和输出门更新细胞单元的状态,所用公式如下:
式中,表示细胞状态需要忽略的信息,表示激活函数,表示输入门,表 示输出门,表示可训练的超参数,表示偏差,表示输入序列,分别表 示细胞的当前状态和最终状态,表示同或运算,表示隐藏状态的输出;
步骤S26:特征解码,通过标准CRF对字符序列进行标签推断,得到标签序列,计算标签序列的可能得分,所用公式如下:
式中,表示输入的句子,表示模型的超参数,表示所有可能的标签序列,等价于表示权重参数,表示偏置,表示隐藏状态 的输出,表示所有可能的标签序列中分数最高的标签,进而得到NER模型。
通过执行上述操作,针对传统的文本处理方法存在无法很好地捕捉词语之间的上下文关系和语义信息,且模型结构复杂,导致命名实体识别准确率低、招标方案质量不高的问题,本方案利用卷积神经网络进行建模,可以更好地捕捉文本的上下文信息和语义特征,提高命名实体识别的准确性和鲁棒性,同时,嵌入融合技术增强特征表示的能力,提高招标方案的质量。
实施例三,参阅图1和图4,该实施例基于上述实施例,在步骤S3中,关键词提取,具体包括以下步骤:
步骤S31:建立TextRank模型,将文本建模为无向加权图表示 候选关键词的节点集,表示无向加权图的边,定义滑动窗口中两个词的共现关系为 中的一条边,表示边的权重,引入迭代计算公式计算节点的权重,所用公式如下:
式中,表示节点的权重,表示节点的权重,表示节点与节点的 边的权重,表示节点与节点的边的权重,表示迭代计算的阻尼系数,表示指 向的节点集合,表示指向的节点集合;
步骤S32:构建先验知识网络,定义公共字典为领域专家精心构建的,基于公共字 典构建一个有向先验知识网络,包括网络节点和网络边,其中网络节点表示字典单词,网络 边表示字典单词之间的解释关系,根据入度值设置网络节点的大小,在构造网络边时,记录 两个字典单词之间网络边的共存次数,计算先验知识网络的边权,利用PageRank迭代方程 进一步计算网络节点的权重
步骤S33:计算优先关键词重要度,传统的TextRank模型中,所有候选关键词被赋予相同的初始重要度值,在公共字典下的招标方案中考虑关键词的先验信息,利用TF-IDF计算方法,计算某一词在给定文本文档中出现的频率,所用公式如下:
式中,表示单词在文档中出现的次数,表示所有单词在文档中出 现的总次数,表示单词在文档中出现的频率;
利用逆文档频率IDF计算语料库中包含某个词的文档出现的频率,如果少数文档 中包含某个关键字,说明关键字具有较好的判别能力,计算关键字的IDF值,所用公式如 下:
式中,表示语料库中文档的数量, 表示包含单词的文档个数, 加1是为了防止无意义的0值,表示单词在文档中出现的逆文档频率;
为TextRank模型中的每个节点引入节点流行度,所用公式如下:
式中,表示节点的流行度,表示先验知识网络中与节点词相关的个节点的权值,计算节点词在文档中的优先重要度,所用公式如下:
式中,表示节点词在文档中的优先重要度;
步骤S34:计算传递因子值,在TextRank模型中,某条边上的传递因子值与该边连 接的两个节点词的共现频率有关,利用先验知识网络中的一些先验信息来计算传 递因子值,采用联想记忆策略,如果将先验知识网络中的每个网络节点视为一个神经元,将 两个网络节点之间的连接视为一个关联关系,通过计算两个网络节点之间的连接强度来计 算它们之间的关联关系,所用公式如下:
式中,表示传递因子值,表示先验知识网络中两个节点之间的 连接,表示字典条目中两个节点词的共存次数,分别表示该句中的相对位置指标 值,表示连接两个节点的最大关联跳数,表示先验知识网络中所有节点的总 数;
在TextRank模型中引入传递因子,得到新的传递因子值,所用公式如下:
式中,表示新的传递因子值;
步骤S35:计算新型关键词秩值,所用公式如下:
式中,表示节点词在文档中的优先重要度,表示传递因子 值,得到TextRank-A模型。
通过执行上述操作,针对传统关键词提取方法存在使用词频或频率统计来确定关键词,导致常见词汇被错误地识别为关键词,而忽略了文本内容的语义和上下文信息的问题,本方案通过使用TextRank模型和先验知识网络,更准确地提取与招标方案相关的关键词,提高招标文件生成的效率,降低误判和噪声的影响。
实施例四,参阅图2,该实施例基于上述实施例,本发明提供的基于人工智能的招标方案在线编制系统,包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块;
所述数据采集模块采集历史招标项目的基本信息和招标需求,将历史招标项目的基本信息和招标需求划分为训练集、测试集,并将训练集发送至特征提取模块、关键词提取模块,将测试集发送至模型评估模块;
所述特征提取模块接收数据采集模块发送的训练集,利用卷积神经网络提取训练集的上下文信息,利用自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型,并将NER模型发送至模型训练模块;
所述关键词提取模块接收数据采集模块发送的训练集,将训练集建模TextRank模型,利用公共词典数据建模先验知识网络,在先验知识网络中,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型,并将TextRank-A模型发送至模型训练模块;
所述模型训练模块接收特征提取模块发送的NER模型和关键词提取模块发送的TextRank-A模型,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,并将NER-TextRank-A模型发送至模型评估模块;
所述模型评估模块接收数据采集模块发送的测试集和模型训练模块发送的NER-TextRank-A模型,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型,并将NER-TextRank-B模型发送至招标方案生成及调整模块;
所述招标方案生成及调整模块接收模型评估模块发送的NER-TextRank-B模型,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (4)

1.基于人工智能的招标方案在线编制方法,其特征在于:该方法包括以下步骤:
步骤S1:数据采集,采集历史招标项目的基本信息和招标需求,历史招标项目的基本信息和招标需求由文本组成,文本由句子组合而成,将历史招标项目的基本信息和招标需求划分为训练集、测试集;
步骤S2:特征提取,利用卷积神经网络提取文本的上下文信息,通过自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型;
步骤S3:关键词提取,建立TextRank模型,利用公共词典数据建模先验知识网络,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型;
步骤S4:模型训练,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,将训练集输入NER-TextRank-A模型进行模型训练;
步骤S5:模型评估,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型;
步骤S6:招标方案生成及调整,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
2.根据权利要求1所述的基于人工智能的招标方案在线编制方法,其特征在于:在步骤S2中,所述特征提取,包括以下步骤:
步骤S21:获取单词特征,将句子表示为,定义句子中匹配的第个字符的词典知识为表示字符匹配的最大单词数,如果某个字符获得的单词数小于最大单词数,则用0进行填充,将句子的词典知识表示为,利用自注意力机制计算进行匹配后每个字符与所有单词之间的权重,所用公式如下:
式中,表示激活函数,表示词典知识中某个词的权重向量,分别表示不同维度的权重参数,分别表示与第个字符匹配的第个词和该词的权重向量,表示第个字符的权重向量的转置向量;表示所有词典知识的总权重,计算句子中所有字符的可选特征,所用公式如下:
式中,表示句子中所有字符的可选特征;
步骤S22:获取二元组特征,利用二元组作为可选特征来增强字符表示,为使每个字符具有二元组,在所有句子的最后一个字符加上“Null”,每个字符都可以找到一个以自己开头的二元组,将第个字符的二元组表示为,将整个句子的二元组表示为
步骤S23:获取字符和二元组的局部特征,利用卷积神经网络提取字符的上下文局部信息,将中的每个字符映射到相应的词向量,将这些词向量转换为卷积神经网络可以处理的二维矩阵,采用卷积核提取局部特征,所用公式如下:
式中,是由滤波器从上下文矩阵中提取的第个字符的局部特征,表示激活函数,表示滤波器的窗口大小,表示从的第个字符的上下文信息,表示偏置向量;
通过卷积神经网络的卷积运算,句子中每个字符的局部特征表示为,利用卷积神经网络提取二元组的局部特征,进一步提取句子中较长单词的信息,二元组的局部特征表示为,通过上述处理,得到四个可选特征:单词特征、二元组特征、上下文特征和二元组上下文特征
步骤S24:特征融合,通过级联融合四个可选特征,得到融合后特征,所用公式如下:
式中,表示将可选特征融合到第个字符的结果,表示第个字符的权重向量;
步骤S25:特征编码,利用LSTM进行特征编码,将融合后特征输入到LSTM,得到字符序列,LSTM由遗忘门、输入门、输出门和细胞单元的状态组成,LSTM通过遗忘门、输入门和输出门更新细胞单元的状态,所用公式如下:
式中,表示细胞状态需要忽略的信息,表示激活函数,表示输入门,表示输出门,表示可训练的超参数,表示偏差,表示输入序列,分别表示细胞的当前状态和最终状态,表示同或运算,表示隐藏状态的输出;
步骤S26:特征解码,通过标准CRF对字符序列进行标签推断,得到标签序列,计算标签序列的可能得分,所用公式如下:
式中,表示输入的句子,表示模型的超参数,表示所有可能的标签序列,等价于表示权重参数,表示偏置,表示隐藏状态的输出,表示所有可能的标签序列中分数最高的标签,进而得到NER模型。
3.根据权利要求2所述的基于人工智能的招标方案在线编制方法,其特征在于:在步骤S3中,所述关键词提取,包括以下步骤:
步骤S31:建立TextRank模型,将文本建模为无向加权图表示候选关键词的节点集,表示无向加权图的边,定义滑动窗口中两个词的共现关系为中的一条边,表示边的权重,引入迭代计算公式计算节点的权重,所用公式如下:
式中,表示节点的权重,表示节点的权重,表示节点与节点的边的权重,表示节点与节点的边的权重,表示迭代计算的阻尼系数,表示指向的节点集合,表示指向的节点集合;
步骤S32:构建先验知识网络,定义公共字典为领域专家精心构建的,基于公共字典构建一个有向先验知识网络,包括网络节点和网络边,其中网络节点表示字典单词,网络边表示字典单词之间的解释关系,根据入度值设置网络节点的大小,在构造网络边时,记录两个字典单词之间网络边的共存次数,计算先验知识网络的边权,利用PageRank迭代方程进一步计算网络节点的权重
步骤S33:计算优先关键词重要度,传统的TextRank模型中,所有候选关键词被赋予相同的初始重要度值,在公共字典下的招标方案中考虑关键词的先验信息,利用TF-IDF计算方法,计算某一词在给定文本文档中出现的频率,所用公式如下:
式中,表示单词在文档中出现的次数,表示所有单词在文档中出现的总次数,表示单词在文档中出现的频率;
利用逆文档频率IDF计算语料库中包含某个词的文档出现的频率,如果少数文档中包含某个关键字,说明关键字具有较好的判别能力,计算关键字的IDF值,所用公式如下:
式中,表示语料库中文档的数量, 表示包含单词的文档个数,加1是为了防止无意义的0值,表示单词在文档中出现的逆文档频率;
为TextRank模型中的每个节点引入节点流行度,所用公式如下:
式中,表示节点的流行度,表示先验知识网络中与节点词相关的个节点的权值,计算节点词在文档中的优先重要度,所用公式如下:
式中,表示节点词在文档中的优先重要度;
步骤S34:计算传递因子值,在TextRank模型中,某条边上的传递因子值与该边连接的两个节点词的共现频率有关,利用先验知识网络中的一些先验信息来计算传递因子值,采用联想记忆策略,如果将先验知识网络中的每个网络节点视为一个神经元,将两个网络节点之间的连接视为一个关联关系,通过计算两个网络节点之间的连接强度来计算它们之间的关联关系,所用公式如下:
式中,表示传递因子值,表示先验知识网络中两个节点之间的连接,表示字典条目中两个节点词的共存次数,分别表示该句中的相对位置指标值,表示连接两个节点的最大关联跳数,表示先验知识网络中所有节点的总数;
在TextRank模型中引入传递因子,得到新的传递因子值,所用公式如下:
式中,表示新的传递因子值;
步骤S35:计算新型关键词秩值,所用公式如下:
式中,表示节点词在文档中的优先重要度,表示传递因子值,得到TextRank-A模型。
4.基于人工智能的招标方案在线编制系统,用于实现如权利要求1-3中任一项所述的基于人工智能的招标方案在线编制方法,其特征在于:包括数据采集模块、特征提取模块、关键词提取模块、模型训练模块、模型评估模块和招标方案生成及调整模块;
所述数据采集模块采集历史招标项目的基本信息和招标需求,将历史招标项目的基本信息和招标需求划分为训练集、测试集,并将训练集发送至特征提取模块、关键词提取模块,将测试集发送至模型评估模块;
所述特征提取模块接收数据采集模块发送的训练集,利用卷积神经网络提取训练集的上下文信息,利用自注意力机制得到四个可选特征,通过级联融合四个可选特征,得到融合后的特征信息,将融合后的特征信息进行编码和解码,得到NER模型,并将NER模型发送至模型训练模块;
所述关键词提取模块接收数据采集模块发送的训练集,将训练集建模TextRank模型,利用公共词典数据建模先验知识网络,在先验知识网络中,提取先验信息,将先验信息集成到TextRank模型中,得到TextRank-A模型,并将TextRank-A模型发送至模型训练模块;
所述模型训练模块接收特征提取模块发送的NER模型和关键词提取模块发送的TextRank-A模型,融合NER模型和TextRank-A模型得到NER-TextRank-A模型,并将NER-TextRank-A模型发送至模型评估模块;
所述模型评估模块接收数据采集模块发送的测试集和模型训练模块发送的NER-TextRank-A模型,利用测试集对NER-TextRank-A模型进行评估,得到NER-TextRank-B模型,并将NER-TextRank-B模型发送至招标方案生成及调整模块;
所述招标方案生成及调整模块接收模型评估模块发送的NER-TextRank-B模型,将要投标的项目的历史招标基本信息和招标需求输入NER-TextRank-B模型,输出招标方案,由专业人员进行最终审核,对招标方案进行逐条检查,确保其符合标准和项目需求。
CN202311727006.4A 2023-12-15 2023-12-15 基于人工智能的招标方案在线编制方法及系统 Pending CN117408651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311727006.4A CN117408651A (zh) 2023-12-15 2023-12-15 基于人工智能的招标方案在线编制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311727006.4A CN117408651A (zh) 2023-12-15 2023-12-15 基于人工智能的招标方案在线编制方法及系统

Publications (1)

Publication Number Publication Date
CN117408651A true CN117408651A (zh) 2024-01-16

Family

ID=89500428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311727006.4A Pending CN117408651A (zh) 2023-12-15 2023-12-15 基于人工智能的招标方案在线编制方法及系统

Country Status (1)

Country Link
CN (1) CN117408651A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114580362A (zh) * 2022-05-09 2022-06-03 四川野马科技有限公司 一种回标文件生成系统及其方法
CN114969304A (zh) * 2022-05-09 2022-08-30 昆明理工大学 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115481637A (zh) * 2022-09-15 2022-12-16 大连大学 基于uc-flat的交通肇事案件法律文书命名实体识别方法
CN115688685A (zh) * 2021-07-29 2023-02-03 北京京东方技术开发有限公司 文本处理方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN115688685A (zh) * 2021-07-29 2023-02-03 北京京东方技术开发有限公司 文本处理方法、装置、电子设备及存储介质
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114580362A (zh) * 2022-05-09 2022-06-03 四川野马科技有限公司 一种回标文件生成系统及其方法
CN114969304A (zh) * 2022-05-09 2022-08-30 昆明理工大学 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115481637A (zh) * 2022-09-15 2022-12-16 大连大学 基于uc-flat的交通肇事案件法律文书命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAIFANG LONG等: "Deep Neural Network with Embedding Fusion for Chinese Named Entity Recognition", ACM TRANS. ASIAN LOW-RESOUR. LANG. INF. PROCESS, vol. 22, no. 3, 31 March 2023 (2023-03-31), XP059022971, DOI: 10.1145/3570328 *
邹欣纯: "面向中文新闻要素抽取技术的研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, 15 January 2023 (2023-01-15), pages 17 - 53 *
黄兆欣: "半结构化文档特征抽取方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, 25 January 2022 (2022-01-25), pages 6 - 23 *

Similar Documents

Publication Publication Date Title
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110502626B (zh) 一种基于卷积神经网络的方面级情感分析方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
Jin et al. Multi-label sentiment analysis base on BERT with modified TF-IDF
Shah Sentiment analysis of product reviews using supervised learning
Katumullage et al. Using neural network models for wine review classification
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
Liu et al. Adaptive Semantic Compositionality for Sentence Modelling.
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN112732917B (zh) 一种实体链指结果的确定方法和装置
CN117408651A (zh) 基于人工智能的招标方案在线编制方法及系统
CN108427762A (zh) 利用随机游走的自编码文档表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination