CN112632228A

CN112632228A - 一种基于文本挖掘的辅助评标方法及系统

Info

Publication number: CN112632228A
Application number: CN202011609217.4A
Authority: CN
Inventors: 黄敬轩; 江健武; 刘康军; 陈祎亮; 云辰太; 梁楚衡; 洪玉婷
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09

Abstract

本发明提供一种基于文本挖掘的辅助评标方法及系统，包括，所述文本输入模块，用以根据预设的信息获取规则对所述投标文件进行提取，生成目标文本信息；所述语义标注和文本表示模块，用以获取对应标书文件的关键词；作为输入量通过预设的向量空间模型进行训练，生成所述关键词的特征项及特征项的权重参数，组成向量空间矩阵；所述语义文本挖掘模块，用以对所述向量空间矩阵进行文本分类、文本聚类及关联分析，获取标书情报知识数据获取其中的各句子的相似度参数及权重参数；组成标书核心摘要；所述评价模块，用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价，生成评价结果。本发明将标书格式进行统一，减少审阅工作强度，提高效率。

Description

一种基于文本挖掘的辅助评标方法及系统

技术领域

本发明涉及电力系统自动化技术领域，特别是涉及一种基于文本挖掘的辅助评标方法及系统。

背景技术

文本挖掘能够代替掉大量重复性劳动，让计算机帮助人们进行信息的有效筛选，节省人力成本，提高工作效率。使用文本挖掘进行处理还能帮助人们发现一些平时人们不太能注意到的细节，间接提升了人们生产效率，节省获得经验的时间。在采购标书的评分中，还能更加客观地评价标书内容，去人工化同时也使得整个评价过程更加客观、真实，更有信服力。

现有的评标系统需要评标专家组对多份不同公司的标书进行审阅，但由于各个标书之间格式不统一，信息分布位置不同，以非结构化的内容居多的缘故，导致审阅工作强度大，效率低。

发明内容

本发明的目的在于，提出一种基于文本挖掘的辅助评标方法及系统，解决现有方法标书之间格式不统一，信息分布位置不同，审阅工作强度大，效率低的技术问题。

一方面，提供一种基于文本挖掘的辅助评标系统，包括：依次连接的文本输入模块、语义标注和文本表示模块、语义文本挖掘模块及评价模块；

所述文本输入模块，用以获取多个目标公司的投标文件并以预设格式进行输出；根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取，生成目标文本信息；

所述语义标注和文本表示模块，用以根据预设的标书领域本体对所述目标文本信息进行识别，获取对应标书文件的关键词；将所述关键词作为输入量通过预设的向量空间模型进行训练，生成所述关键词的特征项及特征项的权重参数，将所述关键词的特征项及特征项的权重参数组成向量空间矩阵，并将所述向量空间矩阵按照预设格式存入标识文本数据库；

所述语义文本挖掘模块，用以将所述向量空间矩阵作为输入量，结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析，获取标书情报知识数据，并将所述标书情报知识数据存入标书文本知识库；以及，根据预设的排序规则对标书情报知识数据进行识别，获取其中的各句子的相似度参数及权重参数；根据所述句子的相似度参数及权重参数对各句子进行排序，并筛选排序大于预设阈值的句子，组成标书核心摘要；

所述评价模块，用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价，生成评价结果；其中，所述标准摘要至少包括一个或多个评价指标。

优选地，所述语义标注和文本表示模块还用于将目标文本信息中连续的字序列按照预设的规范重新组合成词序列，其中，将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词；

根据预设的标注条件将目标文本信息中的每一个单词标注一个词性；

根据每个单词的词性确定词与词之间的依存关系，生成词语的句法结构信息，并根据词语的句法结构信息确定整句的结构，以树状结构进行输出；其中，所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系；所述整句的结构至少包括主谓宾结构、定状补结构。

优选地，所述语义标注和文本表示模块根据以下公式将所述关键词作为输入量计算其特征项的权重：

其中，t代表关键词；d代表文档；TF(t,d)表示t在d中的出现频次；DF(t,d)代表包含t的文档数量；DF的倒数为IDF。

优选地，所述语义文本挖掘模块对所述向量空间矩阵进行文本分类、文本聚类及关联分析具体包括：

所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别，按照预设的类别进行匹配，生成分类结果；

所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别，确定向量空间矩阵内的关键词在预设的模式下的相似程度，并根据所述相似程度聚成不同的子类；

所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性，生成关联结果；并响应于评标人员的选择指令将所述关联结果输出给评标人员。

优选地，所述语义文本挖掘模块还用于获取标书情报知识数据中各句子对应的向量空间矩阵，通过余弦相似度计算，获得各句子间的相似度；

根据所述各句子间的相似度确定各句子间的图结构，根据预设构建规则构建邻接矩阵，将邻接矩阵边的权重作为句子相似度；

根据预先设定的初始权重通过所述邻接矩阵进行迭代，生成各句子的最终权重。

优选地，所述评价模块根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价具体为：

根据以下公式对标书核心摘要进行评价：

其中，n-gram表示n元词；{Ref Summaries}表示参考摘要，即事先获得的标准摘要；Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数；Count(n-gram)则表示参考摘要中出现的n-gram个数。

另一方面，还提供一种基于文本挖掘的辅助评标方法，依靠所述的基于文本挖掘的辅助评标系统进行实现，包括以下步：

步骤S1，获取多个目标公司的投标文件并以预设格式进行输出；根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取，生成目标文本信息；

步骤S2，根据预设的标书领域本体对所述目标文本信息进行识别，获取对应标书文件的关键词；将所述关键词作为输入量通过预设的向量空间模型进行训练，提取所述关键词的特征项及特征项的权重参数，并将所述关键词的特征项及特征项的权重参数按照预设格式存入标识文本数据库；

步骤S3，将所述向量空间矩阵作为输入量，结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析，获取标书情报知识数据，并将所述标书情报知识数据存入标书文本知识库；

步骤S4，从标书文本知识库中调取标书情报知识数据并根据预设的排序规则进行识别，获取其中的各句子的相似度参数及权重参数；根据所述句子的相似度参数及权重参数对各句子进行排序并根据预先设定的方式进行筛选，组成标书核心摘要；

步骤S5，根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价，生成评价结果；其中，所述标准摘要至少包括一个或多个评价指标。

优选地，所述步骤S2还包括：

将目标文本信息中连续的字序列按照预设的规范重新组合成词序列，其中，将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词；

优选地，所述步骤S3包括：

根据以下公式将所述关键词作为输入量计算其特征项的权重：

优选地，所述步骤S4包括：

所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性，生成关联结果；并响应于评标人员的选择指令将所述关联结果输出给评标人员；

以及，获取标书情报知识数据中各句子对应的向量空间矩阵，通过余弦相似度计算，获得各句子间的相似度；

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的基于文本挖掘的辅助评标方法及系统，将多份非结构化的标书文件进行信息提取、对比及评价，以辅助评标专家更快地查阅、对比各个标书间的信息，及提供一个可量化的评价指标。

利用文本挖掘技术，提取标书的关键信息，并通过分类、聚类等方法将不同公司的同类关键信息进行对比，为专家组提供更加直观的比较，免去专家组查找信息的工作量。

根据其现有的标书进行文本挖掘，所以相对于根据人为编写规则进行筛选、评价的方法，本方法不仅仅适用于某一方面的标书处理，可对不同投标项目进行针对性的训练及提取，具有一定的泛用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例中一种基于文本挖掘的辅助评标系统的结构示意图。

图2为本发明实施例中语义文本挖掘模块的处理示意图。

图3为本发明实施例中一种基于文本挖掘的辅助评标方法的主流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明提供的一种基于文本挖掘的辅助评标系统的一个实施例的示意图。在该实施例中，所述系统包括：依次连接的文本输入模块、语义标注和文本表示模块、语义文本挖掘模块及评价模块；

所述文本输入模块，用以获取多个目标公司的投标文件并以预设格式进行输出；根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取，生成目标文本信息；可以理解的，将各个公司的投标文本文档(如WORD，PDF格式文本)上获取与问题求解有关的信息并将其存储到资源文件数据库中，以备进一步的处理。

所述语义标注和文本表示模块，用以根据预设的标书领域本体对所述目标文本信息进行识别，获取对应标书文件的关键词；将所述关键词作为输入量通过预设的向量空间模型进行训练，生成所述关键词的特征项及特征项的权重参数，将所述关键词的特征项及特征项的权重参数组成向量空间矩阵，并将所述向量空间矩阵按照预设格式存入标识文本数据库；可以理解的是，根据已建立的标书领域本体，通过文本语义分析对文档内容进行识别，获取同主题或概念相关的文档，提取包含关键信息的特征词项，实现语义层面的特征提取和描述，生成语义VSM(向量空间模型)矩阵，输入到标识文本数据库中。

其中，标书领域本体是指在标书领域中的术语集合，并对其的组织结构进行了层次结构化处理，给出了领域特定的概念定义和概念之间的关系，提供招投标过程中的发生的活动及基本规律，达到人机交互的效果。根据标书领域本体的特定术语、术语间的关系，对文本文档进行检索匹配，可提高文本语义分析中分词、词性标注的精确率。

具体实施例中，所述语义标注和文本表示模块还用于将目标文本信息中连续的字序列按照预设的规范重新组合成词序列，其中，将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词；

可以理解的是，文本语义分析根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示，将人类能够理解的自然语言转化为计算机能够理解的形式语言。主要流程包括分词、词性标注、依存句法分析、关键词提取等。其中，分词是指将连续的字序列按照一定的规范重新组合成词序列的过程，这个过程将句子、段落、文章这种长文本，分解为以字词为单位的数据结构。分词的算法有多种，比如基于n-gram模型的分词算法、CRF分词算法、神经网络分词算法等，本系统采用CRF分词算法进行分词。词性标注是指为句子当中的每一个单词标注一个词性，即确定每个单词是名词、动词、形容词或者其他词性的过程。词性标注算法同样有多种算法，本系统采用基于条件随机场的词性标注方法进行实现。依存句法分析指利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)并用树状结构来表示整句的的结构(如主谓宾、定状补等)。本系统使用基于感知机的机器学习方法进行实。

具体地，所述语义标注和文本表示模块根据以下公式将所述关键词作为输入量计算其特征项的权重：

可以理解的是，通过VSM(向量空间模型)算法进行关键词提取，得到包含关键信息的特征词项。其中，计算关键词(特征项)权重采用的是TF-IDF(词频-倒排文档频次)的计算方法，计算方法如下：

其中，t代表单词，d代表文档，TF(t,d)表示t在d中的出现频次，DF(t,d)代表包含t的文档数量，DF的倒数为IDF。VSM的基本思想是将文本简化为以关键词(特征项)的权重为分量的维向量表示，该向量称为VSM矩阵。VSM使用向量来表示文本，简化了文本中的关键词之间的复杂关系，文档用十分简单的向量表示，使得模型具备可算性。

所述语义文本挖掘模块，用以将所述向量空间矩阵作为输入量，结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析，获取标书情报知识数据，并将所述标书情报知识数据存入标书文本知识库；以及，根据预设的排序规则对标书情报知识数据进行识别，获取其中的各句子的相似度参数及权重参数；根据所述句子的相似度参数及权重参数对各句子进行排序，并筛选排序大于预设阈值的句子，组成标书核心摘要；可以理解是，运用挖掘算法分析语义VSM矩阵，再结合标书领域字典挖掘潜在关联和知识，通过文本分类、文本聚类及关联分析等方法去除冗余信息，提高挖掘算法效率，从而获取高质量语义层面的标书情报知识，输入到标书文本知识库中。然后使用TextRank算法计算各个句子间的相似度及句子的权重，筛选出关键句子组成标书核心摘要。

具体实施例中，将VSM矩阵或者原文本作为主要的输入数据，输入到以下不同文本分析模型中；

所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别，按照预设的类别进行匹配，生成分类结果；可以理解的是，使用分类器将输入数据进行识别，按照已经定义好的类别进行匹配，确定，例如公司资质、财务情况等分类。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。

所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别，确定向量空间矩阵内的关键词在预设的模式下的相似程度，并根据所述相似程度聚成不同的子类；可以理解的是，利用一种无监督的方式将输入数据依据其某种模式下的相似程度聚成不同的子类，以揭示特定技术领域内各子领域的分布情况、主要竞争公司在各子领域的数据分布情况等。

所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性，生成关联结果；并响应于评标人员的选择指令将所述关联结果输出给评标人员；可以理解的是，从大规模数据集中寻找各集合间的隐含关系。关联规则算法包括经典的Apriori算法、串行算法、并行分布式算法、基于图或序列的关联算法等。通过查询各个文本间的相关性，系统能够根据评标人员选择的关键字或浏览记录，根据文本集合间的关联性，推荐、发掘评标人员新的关注点。

如图2所示，语义文本挖掘模块处理示意图，假设有3个公司A、B、C对同个项目进行投标，投递了3份投标书。标书在经过文本输入模块及语义标注与文本表示模块处理后，生成了图中A、B、C三份文本信息。然后对各个标书进行关联分析、文本分类，将每份标书分割为一段内容相似的段落。然后将这3份标书的段落进行文本聚类，将这些段落分类为描述同种事物的类别，比如公司资质、采购成本等。最后系统将分类完成的标书信息及生成的自动摘要交给专家组进行对比审阅，以提高专家组工作效率。

具体地，使用TextRank算法计算各个句子间的相似度及句子的权重，筛选出关键句子组成标书核心摘要，具体为，语义文本挖掘模块还用于获取标书情报知识数据中各句子对应的向量空间矩阵，通过余弦相似度计算，获得各句子间的相似度；根据所述各句子间的相似度确定各句子间的图结构，根据预设构建规则构建邻接矩阵，将邻接矩阵边的权重作为句子相似度；根据预先设定的初始权重通过所述邻接矩阵进行迭代，生成各句子的最终权重。可以理解的是，根据各个句子的VSM矩阵，通过余弦相似度计算，获得句子间的相似度；根据句子相似度构建句子间的图结构，构建邻接矩阵，其中边的权重即为句子相似度；给定平均的初始权重，根据图的邻接矩阵进行迭代收敛，得到句子的最终权重；选择权重排序高的句子组成自动摘要。

所述评价模块，用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价，生成评价结果；其中，所述标准摘要至少包括一个或多个评价指标。可以理解的是，为了更高效地评估自动文本摘要，为专家组提供一个可量化的评价，可以选定一个或若干指标，基于这些指标比较生成的摘要和参考摘要(人工撰写，被认为是正确的摘要)进行自动评价。

具体实施例中，最常用、也最受到认可的指标是ROUGE。其基本思想是将模型生成的摘要与参考摘要的n元组贡献统计量作为评判依据。所述评价模块根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价具体为：

根据以下公式对标书核心摘要进行评价：

其中，n-gram表示n元词；{Ref Summaries}表示参考摘要，即事先获得的标准摘要；Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数；Count(n-gram)则表示参考摘要中出现的n-gram个数。ROUGE公式是由召回率的计算公式演变而来的，分子可以看作“检出的相关文档数目”，即系统生成摘要与标准摘要相匹配的N-gram个数，分母可以看作“相关文档数目”，即标准摘要中所有的N-gram个数。

如图3所示，为本发明提供的一种基于文本挖掘的辅助评标方法的一个实施例的示意图。在该实施例中，所述方法包括以下步骤：

具体实施例中，将目标文本信息中连续的字序列按照预设的规范重新组合成词序列，其中，将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词；

具体实施例中，根据以下公式将所述关键词作为输入量计算其特征项的权重：

具体实施例中，所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别，按照预设的类别进行匹配，生成分类结果；

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。