CN112632228A - 一种基于文本挖掘的辅助评标方法及系统 - Google Patents
一种基于文本挖掘的辅助评标方法及系统 Download PDFInfo
- Publication number
- CN112632228A CN112632228A CN202011609217.4A CN202011609217A CN112632228A CN 112632228 A CN112632228 A CN 112632228A CN 202011609217 A CN202011609217 A CN 202011609217A CN 112632228 A CN112632228 A CN 112632228A
- Authority
- CN
- China
- Prior art keywords
- preset
- text
- vector space
- bidding
- bidding document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 64
- 238000005065 mining Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 238000012098 association analyses Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 9
- 241001347978 Major minor Species 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012552 review Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000011218 segmentation Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供一种基于文本挖掘的辅助评标方法及系统,包括,所述文本输入模块,用以根据预设的信息获取规则对所述投标文件进行提取,生成目标文本信息;所述语义标注和文本表示模块,用以获取对应标书文件的关键词;作为输入量通过预设的向量空间模型进行训练,生成所述关键词的特征项及特征项的权重参数,组成向量空间矩阵;所述语义文本挖掘模块,用以对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据获取其中的各句子的相似度参数及权重参数;组成标书核心摘要;所述评价模块,用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果。本发明将标书格式进行统一,减少审阅工作强度,提高效率。
Description
技术领域
本发明涉及电力系统自动化技术领域,特别是涉及一种基于文本挖掘的辅助评标方法及系统。
背景技术
文本挖掘能够代替掉大量重复性劳动,让计算机帮助人们进行信息的有效筛选,节省人力成本,提高工作效率。使用文本挖掘进行处理还能帮助人们发现一些平时人们不太能注意到的细节,间接提升了人们生产效率,节省获得经验的时间。在采购标书的评分中,还能更加客观地评价标书内容,去人工化同时也使得整个评价过程更加客观、真实,更有信服力。
现有的评标系统需要评标专家组对多份不同公司的标书进行审阅,但由于各个标书之间格式不统一,信息分布位置不同,以非结构化的内容居多的缘故,导致审阅工作强度大,效率低。
发明内容
本发明的目的在于,提出一种基于文本挖掘的辅助评标方法及系统,解决现有方法标书之间格式不统一,信息分布位置不同,审阅工作强度大,效率低的技术问题。
一方面,提供一种基于文本挖掘的辅助评标系统,包括:依次连接的文本输入模块、语义标注和文本表示模块、语义文本挖掘模块及评价模块;
所述文本输入模块,用以获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;
所述语义标注和文本表示模块,用以根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,生成所述关键词的特征项及特征项的权重参数,将所述关键词的特征项及特征项的权重参数组成向量空间矩阵,并将所述向量空间矩阵按照预设格式存入标识文本数据库;
所述语义文本挖掘模块,用以将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;以及,根据预设的排序规则对标书情报知识数据进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序,并筛选排序大于预设阈值的句子,组成标书核心摘要;
所述评价模块,用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。
优选地,所述语义标注和文本表示模块还用于将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
优选地,所述语义标注和文本表示模块根据以下公式将所述关键词作为输入量计算其特征项的权重:
其中,t代表关键词;d代表文档;TF(t,d)表示t在d中的出现频次;DF(t,d)代表包含t的文档数量;DF的倒数为IDF。
优选地,所述语义文本挖掘模块对所述向量空间矩阵进行文本分类、文本聚类及关联分析具体包括:
所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员。
优选地,所述语义文本挖掘模块还用于获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;
根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;
根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。
优选地,所述评价模块根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价具体为:
根据以下公式对标书核心摘要进行评价:
其中,n-gram表示n元词;{Ref Summaries}表示参考摘要,即事先获得的标准摘要;Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数;Count(n-gram)则表示参考摘要中出现的n-gram个数。
另一方面,还提供一种基于文本挖掘的辅助评标方法,依靠所述的基于文本挖掘的辅助评标系统进行实现,包括以下步:
步骤S1,获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;
步骤S2,根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,提取所述关键词的特征项及特征项的权重参数,并将所述关键词的特征项及特征项的权重参数按照预设格式存入标识文本数据库;
步骤S3,将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;
步骤S4,从标书文本知识库中调取标书情报知识数据并根据预设的排序规则进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序并根据预先设定的方式进行筛选,组成标书核心摘要;
步骤S5,根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。
优选地,所述步骤S2还包括:
将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
优选地,所述步骤S3包括:
根据以下公式将所述关键词作为输入量计算其特征项的权重:
其中,t代表关键词;d代表文档;TF(t,d)表示t在d中的出现频次;DF(t,d)代表包含t的文档数量;DF的倒数为IDF。
优选地,所述步骤S4包括:
所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员;
以及,获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;
根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;
根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。
综上,实施本发明的实施例,具有如下的有益效果:
本发明提供的基于文本挖掘的辅助评标方法及系统,将多份非结构化的标书文件进行信息提取、对比及评价,以辅助评标专家更快地查阅、对比各个标书间的信息,及提供一个可量化的评价指标。
利用文本挖掘技术,提取标书的关键信息,并通过分类、聚类等方法将不同公司的同类关键信息进行对比,为专家组提供更加直观的比较,免去专家组查找信息的工作量。
根据其现有的标书进行文本挖掘,所以相对于根据人为编写规则进行筛选、评价的方法,本方法不仅仅适用于某一方面的标书处理,可对不同投标项目进行针对性的训练及提取,具有一定的泛用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例中一种基于文本挖掘的辅助评标系统的结构示意图。
图2为本发明实施例中语义文本挖掘模块的处理示意图。
图3为本发明实施例中一种基于文本挖掘的辅助评标方法的主流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明提供的一种基于文本挖掘的辅助评标系统的一个实施例的示意图。在该实施例中,所述系统包括:依次连接的文本输入模块、语义标注和文本表示模块、语义文本挖掘模块及评价模块;
所述文本输入模块,用以获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;可以理解的,将各个公司的投标文本文档(如WORD,PDF格式文本)上获取与问题求解有关的信息并将其存储到资源文件数据库中,以备进一步的处理。
所述语义标注和文本表示模块,用以根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,生成所述关键词的特征项及特征项的权重参数,将所述关键词的特征项及特征项的权重参数组成向量空间矩阵,并将所述向量空间矩阵按照预设格式存入标识文本数据库;可以理解的是,根据已建立的标书领域本体,通过文本语义分析对文档内容进行识别,获取同主题或概念相关的文档,提取包含关键信息的特征词项,实现语义层面的特征提取和描述,生成语义VSM(向量空间模型)矩阵,输入到标识文本数据库中。
其中,标书领域本体是指在标书领域中的术语集合,并对其的组织结构进行了层次结构化处理,给出了领域特定的概念定义和概念之间的关系,提供招投标过程中的发生的活动及基本规律,达到人机交互的效果。根据标书领域本体的特定术语、术语间的关系,对文本文档进行检索匹配,可提高文本语义分析中分词、词性标注的精确率。
具体实施例中,所述语义标注和文本表示模块还用于将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
可以理解的是,文本语义分析根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示,将人类能够理解的自然语言转化为计算机能够理解的形式语言。主要流程包括分词、词性标注、依存句法分析、关键词提取等。其中,分词是指将连续的字序列按照一定的规范重新组合成词序列的过程,这个过程将句子、段落、文章这种长文本,分解为以字词为单位的数据结构。分词的算法有多种,比如基于n-gram模型的分词算法、CRF分词算法、神经网络分词算法等,本系统采用CRF分词算法进行分词。词性标注是指为句子当中的每一个单词标注一个词性,即确定每个单词是名词、动词、形容词或者其他词性的过程。词性标注算法同样有多种算法,本系统采用基于条件随机场的词性标注方法进行实现。依存句法分析指利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)并用树状结构来表示整句的的结构(如主谓宾、定状补等)。本系统使用基于感知机的机器学习方法进行实。
具体地,所述语义标注和文本表示模块根据以下公式将所述关键词作为输入量计算其特征项的权重:
其中,t代表关键词;d代表文档;TF(t,d)表示t在d中的出现频次;DF(t,d)代表包含t的文档数量;DF的倒数为IDF。
可以理解的是,通过VSM(向量空间模型)算法进行关键词提取,得到包含关键信息的特征词项。其中,计算关键词(特征项)权重采用的是TF-IDF(词频-倒排文档频次)的计算方法,计算方法如下:
其中,t代表单词,d代表文档,TF(t,d)表示t在d中的出现频次,DF(t,d)代表包含t的文档数量,DF的倒数为IDF。VSM的基本思想是将文本简化为以关键词(特征项)的权重为分量的维向量表示,该向量称为VSM矩阵。VSM使用向量来表示文本,简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备可算性。
所述语义文本挖掘模块,用以将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;以及,根据预设的排序规则对标书情报知识数据进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序,并筛选排序大于预设阈值的句子,组成标书核心摘要;可以理解是,运用挖掘算法分析语义VSM矩阵,再结合标书领域字典挖掘潜在关联和知识,通过文本分类、文本聚类及关联分析等方法去除冗余信息,提高挖掘算法效率,从而获取高质量语义层面的标书情报知识,输入到标书文本知识库中。然后使用TextRank算法计算各个句子间的相似度及句子的权重,筛选出关键句子组成标书核心摘要。
具体实施例中,将VSM矩阵或者原文本作为主要的输入数据,输入到以下不同文本分析模型中;
所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;可以理解的是,使用分类器将输入数据进行识别,按照已经定义好的类别进行匹配,确定,例如公司资质、财务情况等分类。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;可以理解的是,利用一种无监督的方式将输入数据依据其某种模式下的相似程度聚成不同的子类,以揭示特定技术领域内各子领域的分布情况、主要竞争公司在各子领域的数据分布情况等。
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员;可以理解的是,从大规模数据集中寻找各集合间的隐含关系。关联规则算法包括经典的Apriori算法、串行算法、并行分布式算法、基于图或序列的关联算法等。通过查询各个文本间的相关性,系统能够根据评标人员选择的关键字或浏览记录,根据文本集合间的关联性,推荐、发掘评标人员新的关注点。
如图2所示,语义文本挖掘模块处理示意图,假设有3个公司A、B、C对同个项目进行投标,投递了3份投标书。标书在经过文本输入模块及语义标注与文本表示模块处理后,生成了图中A、B、C三份文本信息。然后对各个标书进行关联分析、文本分类,将每份标书分割为一段内容相似的段落。然后将这3份标书的段落进行文本聚类,将这些段落分类为描述同种事物的类别,比如公司资质、采购成本等。最后系统将分类完成的标书信息及生成的自动摘要交给专家组进行对比审阅,以提高专家组工作效率。
具体地,使用TextRank算法计算各个句子间的相似度及句子的权重,筛选出关键句子组成标书核心摘要,具体为,语义文本挖掘模块还用于获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。可以理解的是,根据各个句子的VSM矩阵,通过余弦相似度计算,获得句子间的相似度;根据句子相似度构建句子间的图结构,构建邻接矩阵,其中边的权重即为句子相似度;给定平均的初始权重,根据图的邻接矩阵进行迭代收敛,得到句子的最终权重;选择权重排序高的句子组成自动摘要。
所述评价模块,用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。可以理解的是,为了更高效地评估自动文本摘要,为专家组提供一个可量化的评价,可以选定一个或若干指标,基于这些指标比较生成的摘要和参考摘要(人工撰写,被认为是正确的摘要)进行自动评价。
具体实施例中,最常用、也最受到认可的指标是ROUGE。其基本思想是将模型生成的摘要与参考摘要的n元组贡献统计量作为评判依据。所述评价模块根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价具体为:
根据以下公式对标书核心摘要进行评价:
其中,n-gram表示n元词;{Ref Summaries}表示参考摘要,即事先获得的标准摘要;Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数;Count(n-gram)则表示参考摘要中出现的n-gram个数。ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。
如图3所示,为本发明提供的一种基于文本挖掘的辅助评标方法的一个实施例的示意图。在该实施例中,所述方法包括以下步骤:
步骤S1,获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;
步骤S2,根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,提取所述关键词的特征项及特征项的权重参数,并将所述关键词的特征项及特征项的权重参数按照预设格式存入标识文本数据库;
具体实施例中,将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
步骤S3,将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;
具体实施例中,根据以下公式将所述关键词作为输入量计算其特征项的权重:
其中,t代表关键词;d代表文档;TF(t,d)表示t在d中的出现频次;DF(t,d)代表包含t的文档数量;DF的倒数为IDF。
步骤S4,从标书文本知识库中调取标书情报知识数据并根据预设的排序规则进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序并根据预先设定的方式进行筛选,组成标书核心摘要;
具体实施例中,所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员;
以及,获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;
根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;
根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。
步骤S5,根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。
综上,实施本发明的实施例,具有如下的有益效果:
本发明提供的基于文本挖掘的辅助评标方法及系统,将多份非结构化的标书文件进行信息提取、对比及评价,以辅助评标专家更快地查阅、对比各个标书间的信息,及提供一个可量化的评价指标。
利用文本挖掘技术,提取标书的关键信息,并通过分类、聚类等方法将不同公司的同类关键信息进行对比,为专家组提供更加直观的比较,免去专家组查找信息的工作量。
根据其现有的标书进行文本挖掘,所以相对于根据人为编写规则进行筛选、评价的方法,本方法不仅仅适用于某一方面的标书处理,可对不同投标项目进行针对性的训练及提取,具有一定的泛用性。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种基于文本挖掘的辅助评标系统,其特征在于,包括:依次连接的文本输入模块、语义标注和文本表示模块、语义文本挖掘模块及评价模块;
所述文本输入模块,用以获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;
所述语义标注和文本表示模块,用以根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,生成所述关键词的特征项及特征项的权重参数,将所述关键词的特征项及特征项的权重参数组成向量空间矩阵,并将所述向量空间矩阵按照预设格式存入标识文本数据库;
所述语义文本挖掘模块,用以将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;以及,根据预设的排序规则对标书情报知识数据进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序,并筛选排序大于预设阈值的句子,组成标书核心摘要;
所述评价模块,用以根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。
2.如权利要求1所述的系统,其特征在于,所述语义标注和文本表示模块还用于将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
4.如权利要求3所述的系统,其特征在于,所述语义文本挖掘模块对所述向量空间矩阵进行文本分类、文本聚类及关联分析具体包括:
所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员。
5.如权利要求4所述的系统,其特征在于,所述语义文本挖掘模块还用于获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;
根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;
根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。
7.一种基于文本挖掘的辅助评标方法,依靠如权利要求1-6任一所述的系统进行实现,其特征在于,包括以下步:
步骤S1,获取多个目标公司的投标文件并以预设格式进行输出;根据预设的信息获取规则对所述投标文件中对问题求解的信息进行提取,生成目标文本信息;
步骤S2,根据预设的标书领域本体对所述目标文本信息进行识别,获取对应标书文件的关键词;将所述关键词作为输入量通过预设的向量空间模型进行训练,提取所述关键词的特征项及特征项的权重参数,并将所述关键词的特征项及特征项的权重参数按照预设格式存入标识文本数据库;
步骤S3,将所述向量空间矩阵作为输入量,结合预设的标书领域字典对所述向量空间矩阵进行文本分类、文本聚类及关联分析,获取标书情报知识数据,并将所述标书情报知识数据存入标书文本知识库;
步骤S4,从标书文本知识库中调取标书情报知识数据并根据预设的排序规则进行识别,获取其中的各句子的相似度参数及权重参数;根据所述句子的相似度参数及权重参数对各句子进行排序并根据预先设定的方式进行筛选,组成标书核心摘要;
步骤S5,根据预设的标准摘要和参考摘要对所述标书核心摘要进行评价,生成评价结果;其中,所述标准摘要至少包括一个或多个评价指标。
8.如权利要求7所述的方法,其特征在于,所述步骤S2还包括:
将目标文本信息中连续的字序列按照预设的规范重新组合成词序列,其中,将所述目标文本信息中的句子、段落及文章按照预设的规范分解成字词;
根据预设的标注条件将目标文本信息中的每一个单词标注一个词性;
根据每个单词的词性确定词与词之间的依存关系,生成词语的句法结构信息,并根据词语的句法结构信息确定整句的结构,以树状结构进行输出;其中,所述词之间的依存关系至少包括主谓关系、动宾关系、定中关系;所述整句的结构至少包括主谓宾结构、定状补结构。
10.如权利要求9所述的方法,其特征在于,所述步骤S4包括:
所述文本分类为使用预设的分类器对输入的向量空间矩阵进行识别,按照预设的类别进行匹配,生成分类结果;
所述文本聚类为根据预设的聚类规则对输入的向量空间矩阵进行识别,确定向量空间矩阵内的关键词在预设的模式下的相似程度,并根据所述相似程度聚成不同的子类;
所述关联分析为根据预设的关联规则识别输入的向量空间矩阵与其他向量空间矩阵的关联性,生成关联结果;并响应于评标人员的选择指令将所述关联结果输出给评标人员;
以及,获取标书情报知识数据中各句子对应的向量空间矩阵,通过余弦相似度计算,获得各句子间的相似度;
根据所述各句子间的相似度确定各句子间的图结构,根据预设构建规则构建邻接矩阵,将邻接矩阵边的权重作为句子相似度;
根据预先设定的初始权重通过所述邻接矩阵进行迭代,生成各句子的最终权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609217.4A CN112632228A (zh) | 2020-12-30 | 2020-12-30 | 一种基于文本挖掘的辅助评标方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609217.4A CN112632228A (zh) | 2020-12-30 | 2020-12-30 | 一种基于文本挖掘的辅助评标方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632228A true CN112632228A (zh) | 2021-04-09 |
Family
ID=75286598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609217.4A Pending CN112632228A (zh) | 2020-12-30 | 2020-12-30 | 一种基于文本挖掘的辅助评标方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632228A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113156864A (zh) * | 2021-04-30 | 2021-07-23 | 深圳市地铁集团有限公司 | 一种地铁工程评定标管理系统 |
CN113435199A (zh) * | 2021-07-18 | 2021-09-24 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113836906A (zh) * | 2021-09-26 | 2021-12-24 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
CN114580362A (zh) * | 2022-05-09 | 2022-06-03 | 四川野马科技有限公司 | 一种回标文件生成系统及其方法 |
JP7246458B1 (ja) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
CN116308758A (zh) * | 2023-03-20 | 2023-06-23 | 深圳征信服务有限公司 | 一种基于大数据的金融风险分析方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244874A1 (en) * | 2006-03-27 | 2007-10-18 | Yahoo! Inc. | System and method for good nearest neighbor clustering of text |
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN109614480A (zh) * | 2018-11-26 | 2019-04-12 | 武汉大学 | 一种基于生成式对抗网络的自动摘要的生成方法及装置 |
CN110232177A (zh) * | 2019-05-23 | 2019-09-13 | 广东鼎义互联科技股份有限公司 | 一种政务领域的标书生成系统及方法 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110837556A (zh) * | 2019-10-30 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 摘要生成方法、装置、终端设备及存储介质 |
CN111737498A (zh) * | 2020-07-06 | 2020-10-02 | 成都信息工程大学 | 一种应用于离散制造业生产过程的领域知识库建立方法 |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家系统的摘要提取方法及装置 |
-
2020
- 2020-12-30 CN CN202011609217.4A patent/CN112632228A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244874A1 (en) * | 2006-03-27 | 2007-10-18 | Yahoo! Inc. | System and method for good nearest neighbor clustering of text |
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN109614480A (zh) * | 2018-11-26 | 2019-04-12 | 武汉大学 | 一种基于生成式对抗网络的自动摘要的生成方法及装置 |
CN110232177A (zh) * | 2019-05-23 | 2019-09-13 | 广东鼎义互联科技股份有限公司 | 一种政务领域的标书生成系统及方法 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110837556A (zh) * | 2019-10-30 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 摘要生成方法、装置、终端设备及存储介质 |
CN111767394A (zh) * | 2020-06-24 | 2020-10-13 | 中国工商银行股份有限公司 | 一种基于人工智能专家系统的摘要提取方法及装置 |
CN111737498A (zh) * | 2020-07-06 | 2020-10-02 | 成都信息工程大学 | 一种应用于离散制造业生产过程的领域知识库建立方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113157788B (zh) * | 2021-04-13 | 2024-02-13 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113156864A (zh) * | 2021-04-30 | 2021-07-23 | 深圳市地铁集团有限公司 | 一种地铁工程评定标管理系统 |
CN113435199A (zh) * | 2021-07-18 | 2021-09-24 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113435199B (zh) * | 2021-07-18 | 2023-05-26 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113468890B (zh) * | 2021-07-20 | 2023-05-26 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113836906A (zh) * | 2021-09-26 | 2021-12-24 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
CN113836906B (zh) * | 2021-09-26 | 2023-06-06 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
JP7246458B1 (ja) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
JP2023053867A (ja) * | 2021-10-01 | 2023-04-13 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
CN114580362A (zh) * | 2022-05-09 | 2022-06-03 | 四川野马科技有限公司 | 一种回标文件生成系统及其方法 |
CN116308758A (zh) * | 2023-03-20 | 2023-06-23 | 深圳征信服务有限公司 | 一种基于大数据的金融风险分析方法及系统 |
CN116308758B (zh) * | 2023-03-20 | 2024-01-05 | 深圳征信服务有限公司 | 一种基于大数据的金融风险分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
US10754883B1 (en) | System and method for insight automation from social data | |
Parlar et al. | A new feature selection method for sentiment analysis of Turkish reviews | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN110866102A (zh) | 检索处理方法 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
Gao et al. | Sentiment classification for stock news | |
Lee et al. | A hierarchical document clustering approach with frequent itemsets | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
Suadaa et al. | Combination of latent Dirichlet allocation (LDA) and term frequency-inverse cluster frequency (TFxICF) in Indonesian text clustering with labeling | |
Villegas et al. | Vector-based word representations for sentiment analysis: a comparative study | |
Jayaraj et al. | Augmenting efficiency of recruitment process using IRCF text mining algorithm | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
Zadgaonkar et al. | An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction | |
CN114117309A (zh) | 一种网页实体提取方法、装置、计算机设备及存储介质 | |
Im et al. | Confirmatory aspect-based opinion mining processes | |
CN111737489A (zh) | 一种建筑信息的检索方法、装置、设备及可读存储介质 | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. | |
Schoknecht et al. | LS3: Latent semantic analysis-based similarity search for process models | |
Noor et al. | Automatic cv ranking using document vector and word embedding | |
Pedroso et al. | Does Semantic Search Performs Better than Lexical Search in the Task of Assisting Legal Opinion Writing? | |
Oetama et al. | Sentiment Analysis in Indonesian Trading using Lexicon-based and Support Vector Machine | |
Wang et al. | Hybrid text topic discovery method for multi-source information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |