CN115222373B - 一种设计项目管理方法及系统 - Google Patents
一种设计项目管理方法及系统 Download PDFInfo
- Publication number
- CN115222373B CN115222373B CN202211146370.7A CN202211146370A CN115222373B CN 115222373 B CN115222373 B CN 115222373B CN 202211146370 A CN202211146370 A CN 202211146370A CN 115222373 B CN115222373 B CN 115222373B
- Authority
- CN
- China
- Prior art keywords
- design
- sample
- samples
- degree
- project
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/13—Architectural design, e.g. computer-aided architectural design [CAAD] related to design of buildings, bridges, landscapes, production plants or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
Abstract
本发明涉及设计项目数据处理技术领域,具体涉及一种设计项目管理方法及系统。该方法基于设计项目的语义信息获得词频特征,进而获得语义典型程度。根据CAD模型顶视轮廓图获得形态向量,进一步结合形态向量和词频特征获得日期差异序列。结合提取的特征获得特例程度,进而确定每个样本对应的标签,利用标签信息和提取的特征训练二分类模型。通过实时目标设计项目及近期的其他设计项目的响应值即可确定实时目标设计项目的审核强度。本发明实施例对设计项目进行特征提取及确定标签,获得分类准确的二分类模型,进而基于响应值实现精准的审核强度分配。
Description
技术领域
本发明涉及设计项目数据处理技术领域,具体涉及一种设计项目管理方法及系统。
背景技术
对于建设科技项目的市政设计而言,除了CAD模型设计、管线设计,还需要较为标准化的软硬件以及实施一体化的设计项目搭配逻辑,例如配置的设备、施工工艺等。在审核时由于用户体量庞大,许多案例需要先出清单再考虑能否继续进行,目前的项目设计都是由设计师主观衡量和决定的,而审批流程对于各个环节人员的精力消耗是较大的,难免出现检查深度不够、无用功过多的现象。然而,一旦其中有一些导致设计院出现无法保证品质、工艺奇特等情况的方案,在后期实施和验收中很难再把控质量。因此如何管理设计和审批工作的落实、按需节约审批的检查深度,从而提高设计类项目的管理能力,是目前亟待解决的问题。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种设计项目管理方法及系统,所采用的技术方案具体如下:
本发明提出了一种设计项目管理方法,所述方法包括:
对历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征;根据设计项目之间词频特征的相似度获得每个设计项目的语义典型程度;
获得每个设计项目的CAD模型顶视轮廓图,提取CAD模型顶视轮廓图的频域信息,获得形态向量;将词频特征和形态向量合并,获得特征向量;将每个设计项目作为一个样本,根据特征向量之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第一近邻群;根据第一近邻群中其他样本与目标样本之间的项目日期差异,获得日期差异序列;
根据每个样本与经典设计项目样本之间的形态向量差异距离、每个样本的语义典型程度和日期差异序列中的元素值获得每个样本的特例程度;根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本;
设置每个样本组中的样本为正常标签,孤立样本中的样本为异常标签,获得标签数据;以语义典型程度、设计项目的项目面积、特例程度和形态向量作为输入数据,根据对应的标签数据训练二分类模型;
将实时目标设计项目及近期多个设计项目的输入数据输入二分类模型中,获得多个响应值;根据近期多个设计项目的响应值设置响应值阈值;根据实时目标设计项目的响应值与响应值阈值的对比结果确定对实时目标设计项目的审核强度。
进一步地,所述对历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征包括:
基于词袋模型对历史数据库中的设计项目的项目清单和备注文本进行词频统计,利用TF-IDF对统计结果进行次特征值计算,获得初始词频特征;对初始词频特征进行哈希编码,以获得的特征码作为词频特征。
进一步地,所述根据设计项目之间词频特征的相似度获得每个设计项目的语义典型程度包括:
将每个设计项目作为一个样本,根据词频特征之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第二近邻群;
获得目标样本与第二近邻群中每个其他样本之间词频特征的差异距离累加值;将差异距离累加值加一后取倒数,获得语义典型程度。
进一步地,所述提取CAD模型顶视轮廓图的频域信息,获得形态向量包括:
基于傅里叶描述子将CAD模型顶视轮廓图转化为频域信号,提取频域信号的频率和能量,获得形态向量;形态向量为一个包含多个元素的序列,其中元素根据频率由小到大进行排列,元素值为所属频率对应的能量值。
进一步地,所述根据每个样本与经典设计项目样本之间的形态向量差异距离、每个样本的语义典型程度和日期差异序列中的元素值获得每个样本的特例程度包括:
在数据库中选择多个经典设计项目样本集合,获得样本与经典设计项目样本集合中每个元素的形态向量差异距离,以形态向量差异距离最近的元素作为样本对应的经典设计项目样本;
根据特例程度公式获得特例程度,特例程度公式包括:
进一步地,所述根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本包括:
根据样本之间的特例程度差异利用密度聚类算法获得多个样本组及孤立样本。
进一步地,所述以语义典型程度、设计项目的项目面积、特例程度和形态向量作为输入数据,根据对应的标签数据训练二分类模型包括:
选择形态向量对应序列的前五个元素构建低频形态向量;以语义典型程度、设计项目的项目面积、特例程度和低频形态向量作为输入数据;所述二分类模型选用Adaboost二分类器结构。
进一步地,所述根据近期多个设计项目的响应值设置响应值阈值包括:根据时序关系将近期多个设计项目的响应值进行排列,选择时序上前一半的近期多个设计项目的响应值并将响应值从大到小排列,获得近期响应值集合;以近期响应值集合中前预设数量个元素的均值作为响应值阈值。
进一步地,所述根据实时目标设计项目的响应值与响应值阈值的对比结果确定对实时目标设计项目的审核强度包括:
统计实施目标设计项目的响应值和时序上之前多个邻近的其他目标设计项目的响应值,获得响应值集合;若响应值集合中的元素均低于响应值阈值,则对应的审核强度为细致深度审核;若响应值集合中的元素均不低于响应值阈值,则对应的审核强度为简单审核;若响应值集合中存在低于响应值阈值的元素,则对应的审核强度为中等深度审核。
本发明还提出了一种设计项目管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种设计项目管理方法的步骤。
本发明具有如下有益效果:
本发明实施例分析历史数据库中每个设计项目的项目清单中的词频信息构建词频特征,利用词频特征可表征设计项目的语义特征,因此根据词频特征可获得语义典型程度。进一步获得设计项目对应的CAD模型顶视轮廓图对应的形态向量,通过形态向量和词频特征共同寻找目标样本的第一近邻群,并获得对应的差异序列,差异序列能够表征目标项目的时效性。根据上述获得的特征即可获得每个设计项目的特例程度,进而寻找出正常的经典样本和具有特例设计的一次样本。根据获得的特征和对应的标签信息获得二分类模型,通过二分类模型的响应值大小可评价实施目标设计项目的特例情况,进一步基于近期其他设计项目的响应值大小确定目标设计项目对应的审核强度,实现准确的审核强度分配,避免了审核人员做出大量无用功,提高效率的同时也保证了设计项目的有效跟进。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种设计项目管理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种设计项目管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种设计项目管理方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种设计项目管理方法流程图,该方法包括:
步骤S1:对历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征;根据设计项目之间词频特征的相似度获得每个设计项目的语义典型程度。
设计单位各类信息量较大,大多数信息便于利用现代化信息手段进行存储、分析、管理等操作,但是因为信息孤岛现象严重,出现的孤立信息容易造成营收与项目脱节、营收与财务解算脱节等现象,因此在本发明实施例中通过工作流平台可获取各个包公司同行之间的设计项目,构建大量设计项目的数据库。其中数据库中包含设计项目对应的时序信息、项目清单、备注文本等多种信息。
因为项目内容主要包括用户的实施清单和项目备注文本,因此与其他设计项目相比,每个项目的语义特征能够显著分辨出一些伴随着语义相关的数据分布特征,例如高速、接水、住房、小区、供水等词汇。因此通过历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征,通过词频特征表征每个设计项目的语义特征,使得后续的语义典型程度和特例程度更具有参考性。
优选的,词频特征的获取方法具体包括:基于词袋模型对历史数据库中的设计项目的项目清单和备注文本进行词频统计,统计结果会包含的项目清单和备注文本中所有词的词频,数据量较大,因此需要对常见词汇和领域重复出现的词汇进行排除,利用TF-IDF对统计结果进行次特征值计算,获得初始词频特征。其中初始词频特征去除了常见词汇和领域重复出现的词汇,但是由于工单大数据的属性,初始词频特征仍未一个数据量较大的词汇表,因此为了进一步方便后续数据分析,考虑到文本的稀疏性,哈希后的特征能够很好表征哈希前的特征,因此对初始词频特征进行哈希编码,以获得的特征码作为词频特征。
进一步可根据每个设计项目之间的词频特征的相似度进行语义典型程度的计算,即一个设计项目与其他设计项目的词频特征越相似且相似的其他设计项目越多,则对应的语义典型程度越大,说明该设计项目越经典。具体获取方法包括:
将每个设计项目作为一个样本,根据词频特征之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第二近邻群。
获得目标样本与第二近邻群中每个其他样本之间的词频特征的差异距离累加值;将差异距离累加值加一后取倒数,获得语义典型程度,对应的表达式为:
需要说明的是,在本发明实施例中,所提出的差异距离均为各个特征之间的余弦距离。
在语义典型程度的表达式中,余弦距离的累加值越大,说明设计项目相对于其他设计项目更偏离,更孤立,即对应设计项目越特例,语义典型程度越小。
需要说明的是,语义典型程度仅能体现设计项目在语义上的独特与否,为了进一步分析设计项目的特殊性,还需要结合其他多种特征进行特例程度的计算。
步骤S2:获得每个设计项目的CAD模型顶视轮廓图,提取CAD模型顶视轮廓图的频域信息,获得形态向量;将词频特征和形态向量合并,获得特征向量;将每个设计项目作为一个样本,根据特征向量之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第一近邻群;根据第一近邻群中其他样本与目标样本之间的项目日期差异,获得日期差异序列。
在工作流平台的数据库中,设计项目的信息还包括对应的CAD模型顶视图,CAD模型决定了一个模板类的项目是否兼容,因此需要在后续特例程度分析中引入CAD模型的特征,对于某些特殊CAD模型而已,CAD模型的朝向、对称特性等性质,无法使用经典的设计项目,而且对于CAD模型改造项目而言可能存在使用新型管道样式等多种因素的变动,因此根据设计项目的CAD模型顶视图信息反馈出的形态信息能够进一步分析设计项目的特例程度。
在数据库中CAD模型顶视图通常由CAD绘制,可直接获取对应的CAD模型顶视轮廓图,提取顶视轮廓图的频域信息,获得形态向量。频域信息能够有效体现形态数据,并且频域信息的信息量较少,方便后续分析。具体获得形态向量的方法包括:
基于傅里叶描述子将CAD模型顶视轮廓图转化为频域信号,提取频域信号的频率和能量,获得形态向量;形态向量为一个包含多个元素的序列,其中元素根据频率由小到大进行排列,元素值为所属频率对应的能量值,即形态向量 F表达式为:F= ,其中 等参数表征各个元素值。
由于一个设计项目的独特与否可能是和时间相关的,例如一些短时间提倡的设计理念和偏好等。因此在分析设计项目的特例程度时还需要分析设计项目的时效性,分析设计项目是否为短时提倡的特殊设计,具体分析方法包括:将词频特征和形态向量合并,获得特征向量。将每个设计项目作为一个样本,根据特征向量之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第一近邻群。根据第一近邻群中其他样本与目标样本之间的项目日期差异,获得日期差异序列。在本发明实施例中,特征向量之间的差异距离仍选用余弦距离。
需要说明的是,本发明实施例所提出的第一近邻群和第二近邻群中其他样本的数量可根据数据库中的样本量进行自行设定,在此不做限定,需要保证设置的样本数量不能过大,否则会出现数据参考性较差的情况。
需要说明的是,为了方便统计,在本发明实施例中目标样本的第一近邻群中的其他样本均为时序上目标样本之前的样本,即以目标样本作为最新的样本分析其时效性。在获得的日期差异序列中,每个元素值为对应样本之间的日期差距,例如目标样本的时序信息为2020年1月12日,第一近邻群中一个其他样本的时序信息为2020年1月1日,则对应的元素值为11。
日期差异序列能够体现一个目标设计项目与先例的时间差异或者后续项目的时间差异,从而体现该设计项目所体现的时效性,即日期差异序列中的元素值越小且较小的元素值越多,说明目标设计项目时效性越强。
步骤S3:根据每个样本与经典设计项目样本之间的形态向量差异距离、每个样本的语义典型程度和日期差异序列中的元素值获得每个样本的特例程度;根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本。
根据步骤S1和步骤S2获得的特征即可分析每个设计项目的特例程度,特例程度从语义特征、形态特征和时效性三个维度共同分析,使得特例程度参考性较强,能够保证后续二分类模型的准确度。具体活动特例程度的方法包括:
根据特例程度公式获得特例程度,特例程度公式包括:
其中,U为特例程度,D()为差异距离求取函数,F为样本的形态向量,为经典设计项目样本的形态向量,Q为语义典型程度,v为日期差异序列,为日期差异序列中元素的中位数,为日期差异序列中的最大元素。在本发明实施例中差异距离求取函数对应的差异距离仍为余弦距离。
在特例程度公式中, 为样本与对应的经典设计项目样本之间的形态向量差异距离,形态向量差异距离越大,说明当前样本越特殊,则特例程度越大;语义典型程度越大说明项目语义特征越经典,则特例程度越小;日期差异序列中元素的中位数越大说明当前项目的时效性越差,日期差异序列中数值大的元素较多,则特例程度越小;日期差异序列中的最大元素起归一化的目的。
特例程度表示了每个设计项目的特殊程度,对于特殊设计项目而已,其相对于常规的经典设计项目应是低频信息,即出现特殊项目的概率较小,因此根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本。样本组为多个样本组成的簇,说明其中样本均存在其他相似的样本,即特殊性较小或者不存在特殊性。而孤立样本通常为单个样本或者少量样本组成,因此经过分类后分类结果即可确定每个样本对应的特殊性标签。具体分组方法包括:
根据样本之间的特例程度差异利用密度聚类算法获得多个样本组及孤立样本。在本发明实施例中,特例程度差异选用特例程度之间的欧式距离。密度聚类的搜索半径默认为0.5,簇内最小样本数量设定为4。需要说明的是,对于孤立样本的评定可根据具体数据库中样本数量进行具体设置阈值,即样本数量小于阈值的聚类簇认为是孤立样本,具体阈值大小在此不做限定。
步骤S4:设置每个样本组中的样本为正常标签,孤立样本中的样本为异常标签,获得标签数据;以语义典型程度、设计项目的项目面积、特例程度和形态向量作为输入数据,根据对应的标签数据训练二分类模型。
根据步骤S3获得样本组及孤立样本所表示的特殊性含义可确定对应样本的标签,即每个样本组中的样本为正常标签,孤立样本中的样本为异常标签,其中正常标签表示对应样本为经典设计项目,异常标签表示对应设计项目为特殊的设计项目。
根据标签数据结合步骤S1和步骤S2中获得的特征数据即可构建训练数据去训练二分类模型,即将语义典型程度、设计项目的项目面积、特例程度和形态向量作为输入数据,对应的标签数据作为输出数据去训练二分类模型。
优选的,考虑到CAD模型顶视图中频谱所包含的信息较多,即形态向量的数据量较大,部分信息为误差或小幅突起或凹陷,因此高频分量对本方案无用,因此对获得的形态向量进行进一步的处理,使用低频分量,以更少的向量作为输入数据,以减轻模型压力,具体以形态向量对应序列的前五个元素构建低频形态向量,以语义典型程度、设计项目的项目面积、特例程度和低频形态向量作为输入数据。利用处理后的输入数据对二分类模型进行训练能够提高二分类模型的判断性能,避免边角细节导致的误差。优选的,二分类模型选用Adaboost二分类器结构,Adaboost二分类器能够有效学习一个项目的相对分布特征是否是典型的,而在分类器层面非关注具体的语义和形态,可以提高分类器的泛化能力和精度。
需要说明的是,本发明提出的词袋模型、哈希编码、余弦距离、Adaboost二分类器等算法均为本领域技术人员熟知的技术手段,具体实现过程在此不再赘述。
需要说明的是,在训练过程中可能会面临着异常样本较少的情况,可能无法有效约束Adaboost二分类器各个弱分类器的状态,因此需要对异常样本进行扩充,在本发明实施例中,扩充方法包括:
考虑到特例程度较大的情况能够明显确定是异常样本,因此对所有孤立样本中的特例程度进行统计,获得特例程度中位数,对大于特例程度中位数的样本集合进行扩充,将其对应的语义典型程度、设计项目的项目面积、特例程度和形态向量进行随机组合,实现异常样本的扩充。
需要说明的是,在其他实施场景中可选用其他扩充方法,在此不做限定。
步骤S5:将实时目标设计项目及近期多个设计项目的输入数据输入二分类模型中,获得多个响应值;根据近期多个设计项目的响应值设置响应值阈值;根据实时目标设计项目的响应值与响应值阈值的对比结果确定对实时目标设计项目的审核强度。
在本发明实施例中,设置三种审核强度,分别为简单审核、中等深度审核和细致深度审核。对于简单审核而言,需要基于核算清单和客户沟通结果进行简短的审核。对于中等深度审核而言,应按仔细核对和推演设计效果进行审核。对于细致深度审核而言,应从项目细节及具体设计流程进行细致的审核。
基于二分类模型可获得实时目标设计项目对应的响应值,考虑到设计项目具有时效性,因此还需要统计近期多个其他设计项目的响应值。对于响应值而已,其大小反映了对应样本的状态,在本发明实施例中正常标签为1,异常标签为-1,因此对于大于0的响应值,对应的样本大概率是正常样本的输出;对于小于0的响应值,对应的样本大概率是异常样本的输出。
通过统计近期多个设计项目的响应值设置响应值阈值,根据实时目标设计项目的响应值与响应值阈值的对比结果即可确定对实时目标设计项目的审核强度。具体设置响应值阈值的方法包括:
根据时序关系将近期多个设计项目的响应值进行排列,选择时序上前一半的近期多个设计项目的响应值并将响应值从大到小排列,获得近期响应值集合;以近期响应值集合中前预设数量个元素的均值作为响应值阈值。
在本发明实施例中,以近期响应值集合元素数量的百分之二十作为预设数量,即选用近期响应值集合中前百分之二十个元素的均值作为响应值阈值。
具体确定审核强度的方法包括:统计实施目标设计项目的响应值和时序上之前多个邻近的其他目标设计项目的响应值,获得响应值集合;若响应值集合中的元素均低于响应值阈值,认为设计项目为特殊设计项目,可能因为项目的元素老旧、工艺奇特、CAD模型奇特等原因,则对应的审核强度为细致深度审核;若响应值集合中的元素均不低于响应值阈值,则对应的审核强度为简单审核;若响应值集合中存在低于响应值阈值的元素,说明现在的设计项目存在一定的特殊性,但是不完全特殊,即便出现特殊元素也能保证其与近期案例相仿,则对应的审核强度为中等深度审核。
AdaBoost二分类的效果是一种粗略分类,由于项目的情况多变,对于任何分类器都是如此,由于项目的最近邻特性,可以基于较新的案例的检测结果,按照寻找基准的阈值的方式提高灵敏度,因此基于近期设计案例进行联合判断。因此每当新的案例出现,即可立刻发现项目内容的状态是否典型,若是特殊的,则及时通知设计师、施工负责人对现场进行对应审核强度的评估和检查,提高内部审查效率和精力分配的有效性,降低反工损失和公司声誉等二次损失。
综上所述,本发明实施例基于设计项目的语义信息获得词频特征,进而获得语义典型程度。根据CAD模型顶视轮廓图获得形态向量,进一步结合形态向量和词频特征获得日期差异序列。结合提取的特征获得特例程度,进而确定每个样本对应的标签,利用标签信息和提取的特征训练二分类模型。通过实时目标设计项目及近期的其他设计项目的响应值即可确定实时目标设计项目的审核强度。本发明实施例对设计项目进行特征提取及确定标签,获得分类准确的二分类模型,进而基于响应值实现精准的审核强度分配。
本发明还提出了一种设计项目管理系统,包括存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现任意一项一种设计项目管理方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种设计项目管理方法,其特征在于,所述方法包括:
对历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征;根据设计项目之间词频特征的相似度获得每个设计项目的语义典型程度;
获得每个设计项目的CAD模型顶视轮廓图,提取CAD模型顶视轮廓图的频域信息,获得形态向量;将词频特征和形态向量合并,获得特征向量;将每个设计项目作为一个样本,根据特征向量之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第一近邻群;根据第一近邻群中每个其他样本与目标样本之间的项目日期差异,获得日期差异序列;
根据每个样本与经典设计项目样本之间的形态向量差异距离、每个样本的语义典型程度和日期差异序列中的元素值获得每个样本的特例程度;根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本;
设置每个样本组中的样本为正常标签,孤立样本中的样本为异常标签,获得标签数据;以设计项目的语义典型程度、项目面积、特例程度和形态向量作为输入数据,根据对应的标签数据训练二分类模型;
将实时目标设计项目及近期多个设计项目的输入数据输入二分类模型中,获得多个响应值;根据近期多个设计项目的响应值设置响应值阈值;根据实时目标设计项目的响应值与响应值阈值的对比结果确定对实时目标设计项目的审核强度;
其中,所述对历史数据库中每个设计项目的项目清单和备注文本进行词频统计,获得词频特征包括:基于词袋模型对历史数据库中的设计项目的项目清单和备注文本进行词频统计,利用TF-IDF对统计结果进行词特征值计算,获得初始词频特征;对初始词频特征进行哈希编码,以获得的特征码作为词频特征;
所述根据设计项目之间词频特征的相似度获得每个设计项目的语义典型程度包括:将每个设计项目作为一个样本,根据词频特征之间的差异距离,选择距离目标样本最近的多个其他样本,构成目标样本的第二近邻群;获得目标样本与第二近邻群中每个其他样本之间词频特征的差异距离累加值;将差异距离累加值加一后取倒数,获得语义典型程度,对应的表达式为:
所述提取CAD模型顶视轮廓图的频域信息,获得形态向量包括:基于傅里叶描述子将CAD模型顶视轮廓图转化为频域信号,提取频域信号的频率和能量,获得形态向量;形态向量为一个包含多个元素的序列,其中形态向量中的元素根据频率由小到大进行排列,形态向量中的元素值为所述频率对应的能量值;
所述根据每个样本与经典设计项目样本之间的形态向量差异距离、每个样本的语义典型程度和日期差异序列中的元素值获得每个样本的特例程度包括:在数据库中选择多个经典设计项目样本集合,获得样本与经典设计项目样本集合中每个元素的形态向量差异距离,以形态向量差异距离最近的元素作为样本对应的经典设计项目样本;根据特例程度公式获得特例程度,特例程度公式包括:
2.根据权利要求1所述的一种设计项目管理方法,其特征在于,所述根据样本之间的特例程度差异对所有样本进行分组,获得多个样本组及孤立样本包括:根据样本之间的特例程度差异利用密度聚类算法获得多个样本组及孤立样本。
3.根据权利要求1所述的一种设计项目管理方法,其特征在于,所述以设计项目的语义典型程度、项目面积、特例程度和形态向量作为输入数据,根据对应的标签数据训练二分类模型包括:选择形态向量对应序列的前五个元素构建低频形态向量;以设计项目的语义典型程度、项目面积、特例程度和低频形态向量作为输入数据;所述二分类模型选用Adaboost二分类器结构。
4.根据权利要求1所述的一种设计项目管理方法,其特征在于,所述根据近期多个设计项目的响应值设置响应值阈值包括:根据时序关系将近期多个设计项目的响应值进行排列,选择时序上前一半的近期多个设计项目的响应值并将响应值从大到小排列,获得近期响应值集合;以近期响应值集合中前预设数量个元素的均值作为响应值阈值。
5.根据权利要求4所述的一种设计项目管理方法,其特征在于,所述根据实时目标设计项目的响应值与响应值阈值的对比结果确定对实时目标设计项目的审核强度包括:统计实时目标设计项目的响应值和时序上在实时目标设计项目之前的多个邻近的其他目标设计项目的响应值,获得响应值集合;若响应值集合中的元素均低于响应值阈值,则实时目标设计项目对应的审核强度为细致深度审核;若响应值集合中的元素均不低于响应值阈值,则实时目标设计项目对应的审核强度为简单审核;若响应值集合中存在低于响应值阈值的元素,则实时目标设计项目对应的审核强度为中等深度审核。
6.一种设计项目管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的一种设计项目管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211146370.7A CN115222373B (zh) | 2022-09-20 | 2022-09-20 | 一种设计项目管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211146370.7A CN115222373B (zh) | 2022-09-20 | 2022-09-20 | 一种设计项目管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115222373A CN115222373A (zh) | 2022-10-21 |
CN115222373B true CN115222373B (zh) | 2022-11-25 |
Family
ID=83617667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211146370.7A Active CN115222373B (zh) | 2022-09-20 | 2022-09-20 | 一种设计项目管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222373B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN112613501A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN113392180A (zh) * | 2021-01-07 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN114927126A (zh) * | 2022-06-17 | 2022-08-19 | 平安科技(深圳)有限公司 | 基于语义分析的方案输出方法、装置、设备以及存储介质 |
CN115034300A (zh) * | 2022-06-07 | 2022-09-09 | 蚂蚁区块链科技(上海)有限公司 | 分类模型训练方法以及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160155067A1 (en) * | 2014-11-20 | 2016-06-02 | Shlomo Dubnov | Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents |
-
2022
- 2022-09-20 CN CN202211146370.7A patent/CN115222373B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN112613501A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN113392180A (zh) * | 2021-01-07 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN115034300A (zh) * | 2022-06-07 | 2022-09-09 | 蚂蚁区块链科技(上海)有限公司 | 分类模型训练方法以及装置 |
CN114927126A (zh) * | 2022-06-17 | 2022-08-19 | 平安科技(深圳)有限公司 | 基于语义分析的方案输出方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于语义和TF-IDF的项目相似度计算方法;赵士杰 等;《计算机时代》;20150531(第05期);第1-3页,第6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115222373A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577785B (zh) | 一种适用于法律识别的层次多标签分类方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN112633011B (zh) | 融合词语义与词共现信息的研究前沿识别方法及设备 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Yin et al. | Sentence-BERT and k-means based clustering technology for scientific and technical literature | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN103870489A (zh) | 基于搜索日志的中文人名自扩展识别方法 | |
KR102358357B1 (ko) | 시장규모추정장치 및 그 동작 방법 | |
CN115222373B (zh) | 一种设计项目管理方法及系统 | |
CN112036150A (zh) | 电价政策条款解析方法、存储介质及计算机 | |
CN110287114A (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN115186138A (zh) | 一种配电网数据的比对方法及终端 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN110991862B (zh) | 一种用于企业风控分析的网络管理系统及其控制方法 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |