CN112733527B - 建筑工程文档知识网络的构建方法及系统 - Google Patents
建筑工程文档知识网络的构建方法及系统 Download PDFInfo
- Publication number
- CN112733527B CN112733527B CN202011478794.4A CN202011478794A CN112733527B CN 112733527 B CN112733527 B CN 112733527B CN 202011478794 A CN202011478794 A CN 202011478794A CN 112733527 B CN112733527 B CN 112733527B
- Authority
- CN
- China
- Prior art keywords
- document
- knowledge network
- documents
- engineering
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000008520 organization Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009435 building construction Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种建筑工程文档知识网络的构建方法及系统,发明面向建筑施工领域的多种格式和来源的异构文档,有针对地设计新的文档语义算法,实现信息的提取,并进一步利用文档蕴含的施工技术知识,建立文档知识网络,可以将宝贵工程技术知识进行形象化的组织,以挖掘企业积累的文档大数据资产的价值。
Description
技术领域
本发明涉及一种建筑工程文档知识网络的构建方法及系统。
背景技术
工程文档是施工企业的核心资料,是工程建造的主要依据。由于企业的业务拓展和工程规模不断增加,单个项目的电子文档存档常常有上千份;而一个施工企业的所有项目文档可能数以万计。从如此海量的工程文档中提取有用的信息可能非常困难,成本也很高昂。另一方面,建筑行业近年来快速发展,技术知识也迅速在项目和企业层面积累。工程技术知识以大量的工程文档资料为载体,用于沟通和交流。这些高质量资料需要经常在后续的项目中参考使用,是企业和全行业的重要资产。
然而通过调研,已有的研究成果并不能满足工程文档的信息需求,主要问题在于:(1)工程文档数据来源复杂,格式多样,异构性很强,目前还没有统一处理这样的文档数据集的具体报道;(2)工程文档,特别是技术性文档,的主题明确,但细分的技术知识迥然,如果使用现有的一些单主题术语分析方法,得到的结果不会很好。Simhash或关键短语的方法可以识别相似文档并归为一类,但不适合将各异的主题文档组织起来;(3)国内已有一些文档大数据管理平台的研究,但实现的功能基本上限于上传下载、属性索引、访问等,不提供进一步的内容分析和公用知识的组织。因此,需要研究如何从大量的文件中集成技术知识,服务于企业与全行业,从而创造更大的效益。
发明内容
本发明的目的在于提供一种建筑工程文档知识网络的构建方法及系统。
为解决上述问题,本发明提供一种建筑工程文档知识网络的构建方法,包括:
步骤1:对建筑工程文档的语义信息进行提取,以得到关键词;
步骤2:根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重;
步骤3:计算所述建筑工程文档的指纹向量,为了进一步衡量文档间的关系;
步骤4:基于所述关键短语的权重和指纹向量建立知识网络,以将文档按关键短语及文档间的关系组织起来。
进一步的,在上述方法中,步骤4:基于所述关键短语的权重和指纹向量建立知识网络之后,还包括:
将所述建筑工程文档最重要的前几个关键词按所述知识网络中的层级排列成树状结构,即得到对应的文档导航树,当用户沿着所述文档导航树搜索时,所述知识网络同步聚焦至与搜索路径最相关的子结构上。
进一步的,在上述方法中,步骤1:对建筑工程文档的语义信息进行提取,以得到关键词,包括:
步骤1.1:提取文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合;
步骤1.2:对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以识别出关键词;
步骤1.3:识别所述关键词中的命名实体和敏感数字,用一串星号代替命名实体,使用正则表达式隐去敏感数字。
进一步的,在上述方法中,步骤1.2:对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以识别出关键词,包括:
采用开源的HanLP自然语言分析库,对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以提取关键词、重要短语、专业术语。
进一步的,在上述方法中,所述命名实体包括:公司名、人名或地址。
进一步的,在上述方法中,所述敏感数字包括:账号、身份证号或货币金额。
进一步的,在上述方法中,步骤3:计算所述建筑工程文档的指纹向量,包括:
步骤3.1:词频统计。设建筑工程文档的总数为Nf,统计第i个建筑工程文档的各关键词wik的词频fik,其中,i=1~Nf;
步骤3.2:基于当前关键词wik的词频fik,得到当前关键词所在建筑工程文档的各关键词总词频及得到所有建筑工程文档的关键词总词频/>
步骤3.3:使用TF-IDF指标,基于关键词总词频ni和关键词总词频N,用第i个建筑工程文档的每个关键词wik都对建筑工程文档i的向量Vi作一次赋值;
步骤3.4,以所有建筑工程文档的向量Vi排列为矩阵,采用PCA算法处理后,选择特征值累积量大于80%时的前nP个主成分,然后将向量Vi向前nP个主成分投影,得到nP维的投影向量,即为建筑工程文档的指纹向量Fi。
进一步的,在上述方法中,步骤4:基于所述关键短语的权重和指纹向量建立知识网络,包括:
步骤4.1:基于关键短语的权重,设置每个关键短语为圆形节点,半径正比于该关键短语的总词频;
步骤4.2:计算圆形节点连接,包括:基于所述指纹向量计算一对圆形节点wi和wj的连接强度L,一对圆形节点wi和wj连线的宽度由连接强度L决定,如L大于预设阈值,则两个圆形节点之间有连线,连线的方向为词频较大的圆形节点向词频较小的圆形节点;
步骤4.3:使用自动的力导向布局方法,在网页上合理散布节点,按拓扑关系计算圆形节点之间的最优的连线位置,基于圆形节点之间的最优的连线位置,将圆形节点互相联结得到知识网络的图形。
根据本发明的另一面,提供一种建筑工程文档知识网络的构建系统,包括:
第一模块,用于对建筑工程文档的语义信息进行提取,以得到关键词;
第二模块,用于根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重;
第三模块,用于计算所述建筑工程文档的指纹向量,为了进一步衡量文档间的关系;
第四模块,用于基于所述关键短语的权重和指纹向量建立知识网络,以将文档按关键短语及文档间的关系组织起来。
本发明具有以下技术效果:
1、本发明的知识网络提供了一种形象化的文档组织结构,节点既表示单个知识抽象,又保留了文档指针集合供快速检索,且节点间的关系更聚焦于知识共现与层级从属,这有利于组织建筑行业的技术知识文档。
2、已有的知识提取技术一般以短小的2至3字关键词语为节点,表意不够精确。本文利用自然语言处理提取多个词语组合而成的关键短语,并提出针对性的网络构建算法,这样得到的知识主题更为明确和细致,便于从业人员查看。
3、本发明还能利用知识网络的中间结果生成实用的导航树,可配合知识网络,有利于用户快速搜索需要的信息。
附图说明
图1是本发明一实施例的建筑工程文档知识网络的构建方法的流程图;
图2是本发明一实施例的异构文档的语义提取过程的示意图;
图3是本发明一实施例的短语的词频加权例子的示意图;
图4是本发明一实施例的主成分数量确定方法的示意图;
图5是本发明一实施例的局部的短语知识网络的示意图;
图6是本发明一实施例的工程资料树形导航的示意图;
图7是本发明一实施例的使用导航树的子图搜索结果的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种建筑工程文档知识网络的构建方法,包括:
步骤1:对建筑工程文档的语义信息进行提取,以得到关键词;
在此,对工程文档中常见的类型(Word文档、PPT幻灯片、pdf文档、dwg图纸)以及包含多个文件的压缩包,开发对应的接口,实现异构文档结构化为统一可分析的文本内容;然后进行信息提取和语义分析;
步骤2:根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重;
在此,短语的出现频率远低于关键词,不能直接使用短语的词频,而是使用短语蕴含词语的加权词频做修正。两个短语的情况示例如图3,涉及的短语为PH1=“混凝土施工”(频数为C1),PH2=“施工方案”(频数为C2),设关键词W1=“混凝土”的频数是n1,W2=“施工”的频数是n2,W3=“方案”的频数是n3。由于“施工”一词同时出现在两个短语中,则其词频按两个短语的频率作加权分配,最终得到PH1和PH2的权重为
其中,|·|为字符串长度,如一个短语蕴含的关键词有多个出现位置,则以此类推按多个关键词频数做加权分配;
步骤3:计算所述建筑工程文档的指纹向量,为了进一步衡量文档间的关系;
步骤4:基于所述关键短语的权重和指纹向量建立知识网络,以将文档按关键短语及文档间的关系组织起来。
在此,本发明面向建筑施工领域的多种格式和来源的异构文档,有针对地设计新的文档语义算法,实现信息的提取,并进一步利用文档蕴含的施工技术知识,建立文档知识网络,可以将宝贵工程技术知识进行形象化的组织,以挖掘企业积累的文档大数据资产的价值。
本发明的建筑工程文档知识网络的构建方法一实施例中,步骤4:基于所述关键短语的权重和指纹向量建立知识网络之后,还包括:
生成文档树形导航:将所述建筑工程文档最重要的前几个关键词按所述知识网络中的层级排列成树状结构,即得到对应的文档导航树,当用户沿着所述文档导航树搜索时,所述知识网络同步聚焦至与搜索路径最相关的子结构上,达到快速浏览的目的。
例如在图6中,已计算出主要关键词为“设计要求”、“钢筋笼起吊”、“施工现场塔机”等,而每个主要关键词又联系着下一层级的关键词。例如“施工现场塔机”关联有“指挥人员”、“塔吊司机”、“塔吊作业”等关键短语。技术人员通过点击该导航树的节点,可以快速定位想要查看的工程资料。
当用户沿着导航树搜索时,知识网络同步聚焦至与搜索路径最相关的子结构上。图7的实例为用户定位“施工质量->施工作业->注浆量”时的应用流程。首先为用户定位到最相关的知识网络子结构,这里提示了最相关的一些其他节点,例如“混凝土灌注”和“注浆压力”等。点击进入“注浆量”知识文档列表后,发现存在4个相关的专业技术资料,可进入文件信息页查看预先提取的文档标签、关键词、摘要等数据,达到快速浏览的目的。
本发明的建筑工程文档知识网络的构建方法一实施例中,步骤1:对建筑工程文档的语义信息进行提取,以得到关键词,包括:
步骤1.1:文本和对象提取:提取文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合;
在此,如图2,可以使用Python语言读取Word和PPT的建筑工程文档的文字和表格,还涉及调用Windows API转换为2013版本格式。对于pdf文件,直接读文本;如果是扫描件则通过OCR方法提取其中的文本;工程图纸中也包含丰富的文本,包括文本的内容、位置坐标和字号,其中字号可用于区别文本的重要性;可通过二次开发AutoCAD插件,读取图纸中的文本信息;
步骤1.2:语义分析和关键词。对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以识别出关键词;
在此,可以采用开源的HanLP自然语言分析库提取关键词、重要短语、专业术语等;
步骤1.3:脱敏处理。识别所述关键词中的命名实体和敏感数字,采用HanLP分词标记结果识别命名实体,如公司名、人名、地址,用一串星号代替命名实体;使用正则表达式隐去敏感数字,如账号、身份证号、货币金额。
本发明的建筑工程文档知识网络的构建方法一实施例中,步骤3:计算所述建筑工程文档的指纹向量,包括:
步骤3.1:词频统计。设建筑工程文档的总数为Nf,统计第i个建筑工程文档的各关键词wik的词频fik,其中,i=1~Nf,将所有建筑工程文档的关键词去重后得到总关键词向量W,Nw=card(W);
步骤3.2:按关键词向量化。基于当前关键词wik的词频fik,得到当前关键词所在建筑工程文档的各关键词总词频及得到所有建筑工程文档的关键词总词频
步骤3.3:使用了一种改进TF-IDF指标,基于关键词总词频ni和关键词总词频N,用第i个建筑工程文档的每个关键词wik都对建筑工程文档i的向量Vi作一次赋值,则Vi:
形成各施工文档主要内容的数学方式表征,即向量空间模型(VSM),改进点在于计算关键词的权重时,以文档各关键词总词频代表该文档的篇幅,弱化了长篇文档中关键词的词频。这样做的原因是,建筑工程文档重要性并非以篇幅为依据,短小的文档也有可能相当重要;
步骤3.4,主成分分析(PCA)降维:以所有建筑工程文档的向量Vi(i=1~Nf)排列为矩阵,采用PCA算法处理后,选择特征值累积量大于80%时的前nP个主成分,然后将向量Vi向前nP个主成分投影,得到nP维的投影向量,即为建筑工程文档的指纹向量Fi。
在此,如图4为实例运行结果,可以看到前24个主成分累计值=0.806达到要求,则在该例中取nP=24。
本发明的建筑工程文档知识网络的构建方法一实施例中,步骤4:基于所述关键短语的权重和指纹向量建立知识网络,包括:
步骤4.1:基于关键短语的权重,设置每个关键短语为圆形节点,半径正比于该关键短语的总词频;
步骤4.2:计算圆形节点连接,包括:基于所述指纹向量计算一对圆形节点wi和wj的连接强度L,一对圆形节点wi和wj连线的宽度由连接强度L决定,如L大于预设阈值,则两个圆形节点之间有连线,连线的方向为词频较大的圆形节点向词频较小的圆形节点;
在此,L的计算方法可以为:
其中,F为建筑工程文档的指纹向量,||·||为向量范数,求和项分母加上δ是为了避免两文档极其相似,甚至就是重复存储的同样一份文档的情况,导致分母接近0,优选δ=1/nP;
步骤4.3:使用自动的力导向布局方法,在网页上合理散布节点,按拓扑关系计算圆形节点之间的最优的连线位置,基于圆形节点之间的最优的连线位置,将圆形节点互相联结得到知识网络的图形,如图5。
本发明还提供另一种建筑工程文档知识网络的构建系统,包括:
与现有技术相比,本发明具有以下技术效果:
1、本发明的知识网络提供了一种形象化的文档组织结构,节点既表示单个知识抽象,又保留了文档指针集合供快速检索,且节点间的关系更聚焦于知识共现与层级从属,这有利于组织建筑行业的技术知识文档。
2、已有的知识提取技术一般以短小的2至3字关键词语为节点,表意不够精确。本文利用自然语言处理提取多个词语组合而成的关键短语,并提出针对性的网络构建算法,这样得到的知识主题更为明确和细致,便于从业人员查看。
3、本发明还能利用知识网络的中间结果生成实用的导航树,可配合知识网络,有利于用户快速搜索需要的信息。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (8)
1.一种建筑工程文档知识网络的构建方法,其特征在于,包括:
步骤1:对建筑工程文档的语义信息进行提取,以得到关键词;
步骤2:根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重;
步骤3:计算所述建筑工程文档的指纹向量,为了进一步衡量文档间的关系;
步骤4:基于所述关键短语的权重和指纹向量建立知识网络,以将文档按关键短语及文档间的关系组织起来;
步骤4:基于所述关键短语的权重和指纹向量建立知识网络,包括:
步骤4.1:基于关键短语的权重,设置每个关键短语为圆形节点,半径正比于该关键短语的总词频;
步骤4.2:计算圆形节点连接,包括:基于所述指纹向量计算一对圆形节点wi和wj的连接强度L,一对圆形节点wi和wj连线的宽度由连接强度L决定,如L大于预设阈值,则两个圆形节点之间有连线,连线的方向为词频较大的圆形节点向词频较小的圆形节点;
步骤4.3:使用自动的力导向布局方法,在网页上合理散布节点,按拓扑关系计算圆形节点之间的最优的连线位置,基于圆形节点之间的最优的连线位置,将圆形节点互相联结得到知识网络的图形。
2.如权利要求1所述的建筑工程文档知识网络的构建方法,其特征在于,步骤4:基于所述关键短语的权重和指纹向量建立知识网络之后,还包括:
将所述建筑工程文档最重要的前几个关键词按所述知识网络中的层级排列成树状结构,即得到对应的文档导航树,当用户沿着所述文档导航树搜索时,所述知识网络同步聚焦至与搜索路径最相关的子结构上。
3.如权利要求1所述的建筑工程文档知识网络的构建方法,其特征在于,步骤1:对建筑工程文档的语义信息进行提取,以得到关键词,包括:
步骤1.1:提取文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合;
步骤1.2:对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以识别出关键词;
步骤1.3:识别所述关键词中的命名实体和敏感数字,用一串星号代替命名实体,使用正则表达式隐去敏感数字。
4.如权利要求3所述的建筑工程文档知识网络的构建方法,其特征在于,步骤1.2:对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以识别出关键词,包括:
采用开源的HanLP自然语言分析库,对文档的全部文本集合、重要图片的上下文和以字号为赋权依据的工程图纸的赋权文本集合进行语义分析,以提取关键词、重要短语、专业术语。
5.如权利要求3所述的建筑工程文档知识网络的构建方法,其特征在于,所述命名实体包括:公司名、人名或地址。
6.如权利要求3所述的建筑工程文档知识网络的构建方法,其特征在于,所述敏感数字包括:账号、身份证号或货币金额。
7.如权利要求1所述的建筑工程文档知识网络的构建方法,其特征在于,步骤3:计算所述建筑工程文档的指纹向量,包括:
步骤3.1:词频统计:设建筑工程文档的总数为Nf,统计第i个建筑工程文档的各关键词wik的词频fik,其中,i=1~Nf;
步骤3.2:基于当前关键词wik的词频fik,得到当前关键词所在建筑工程文档的各关键词总词频及得到所有建筑工程文档的关键词总词频/>
步骤3.3:使用TF-IDF指标,基于关键词总词频ni和关键词总词频N,用第i个建筑工程文档的每个关键词wik都对建筑工程文档i的向量Vi作一次赋值;
步骤3.4,以所有建筑工程文档的向量Vi排列为矩阵,采用PCA算法处理后,选择特征值累积量大于80%时的前nP个主成分,然后将向量Vi向前nP个主成分投影,得到nP维的投影向量,即为建筑工程文档的指纹向量Fi。
8.一种建筑工程文档知识网络的构建系统,其特征在于,包括:
第一模块,用于对建筑工程文档的语义信息进行提取,以得到关键词;
第二模块,用于根据所述关键词的词频计算由所述关键词组成的各个关键短语的权重;
第三模块,用于计算所述建筑工程文档的指纹向量,为了进一步衡量文档间的关系;
第四模块,用于基于所述关键短语的权重和指纹向量建立知识网络,以将文档按关键短语及文档间的关系组织起来;包括:步骤4.1:基于关键短语的权重,设置每个关键短语为圆形节点,半径正比于该关键短语的总词频;步骤4.2:计算圆形节点连接,包括:基于所述指纹向量计算一对圆形节点wi和wj的连接强度L,一对圆形节点wi和wj连线的宽度由连接强度L决定,如L大于预设阈值,则两个圆形节点之间有连线,连线的方向为词频较大的圆形节点向词频较小的圆形节点;步骤4.3:使用自动的力导向布局方法,在网页上合理散布节点,按拓扑关系计算圆形节点之间的最优的连线位置,基于圆形节点之间的最优的连线位置,将圆形节点互相联结得到知识网络的图形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478794.4A CN112733527B (zh) | 2020-12-15 | 2020-12-15 | 建筑工程文档知识网络的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478794.4A CN112733527B (zh) | 2020-12-15 | 2020-12-15 | 建筑工程文档知识网络的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733527A CN112733527A (zh) | 2021-04-30 |
CN112733527B true CN112733527B (zh) | 2024-05-10 |
Family
ID=75602301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011478794.4A Active CN112733527B (zh) | 2020-12-15 | 2020-12-15 | 建筑工程文档知识网络的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733527B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100080100A (ko) * | 2008-12-31 | 2010-07-08 | 주식회사 솔트룩스 | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
KR20190038310A (ko) * | 2017-09-29 | 2019-04-08 | 인하대학교 산학협력단 | 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 |
CN110502640A (zh) * | 2019-07-30 | 2019-11-26 | 江南大学 | 一种基于建构的概念词义发展脉络的提取方法 |
CN110717042A (zh) * | 2019-09-24 | 2020-01-21 | 北京工商大学 | 一种构建文档-关键词异构网络模型方法 |
CN111460556A (zh) * | 2020-04-01 | 2020-07-28 | 上海建工四建集团有限公司 | 图纸之间关联性的确定方法、装置、存储介质及终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8423546B2 (en) * | 2010-12-03 | 2013-04-16 | Microsoft Corporation | Identifying key phrases within documents |
US8566340B2 (en) * | 2011-12-07 | 2013-10-22 | Microsoft Corporation | Provision of query suggestions independent of query logs |
US20170322930A1 (en) * | 2016-05-07 | 2017-11-09 | Jacob Michael Drew | Document based query and information retrieval systems and methods |
US11093557B2 (en) * | 2016-08-29 | 2021-08-17 | Zoominfo Apollo Llc | Keyword and business tag extraction |
-
2020
- 2020-12-15 CN CN202011478794.4A patent/CN112733527B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100080100A (ko) * | 2008-12-31 | 2010-07-08 | 주식회사 솔트룩스 | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 |
KR20190038310A (ko) * | 2017-09-29 | 2019-04-08 | 인하대학교 산학협력단 | 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN110502640A (zh) * | 2019-07-30 | 2019-11-26 | 江南大学 | 一种基于建构的概念词义发展脉络的提取方法 |
CN110717042A (zh) * | 2019-09-24 | 2020-01-21 | 北京工商大学 | 一种构建文档-关键词异构网络模型方法 |
CN111460556A (zh) * | 2020-04-01 | 2020-07-28 | 上海建工四建集团有限公司 | 图纸之间关联性的确定方法、装置、存储介质及终端 |
Non-Patent Citations (3)
Title |
---|
A clustering approach for topic filtering within systematic literature reviews;WEIßER T等;MethodsX;1-10 * |
基于元搜索的知识获取方法与系统集成研究;仇绍刚;中国优秀硕士学位论文全文数据库 信息科技辑;I138-798 * |
构建基于文献信息网络的知识发现系统应用模型的设想;闵波;张力民;徐海峰;李世超;姜婧;;中华医学图书情报杂志(第05期);30-34 * |
Also Published As
Publication number | Publication date |
---|---|
CN112733527A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN107608958B (zh) | 基于条款统一建模的合同文本风险信息挖掘方法和系统 | |
US7840891B1 (en) | Method and system for content extraction from forms | |
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
EP3866028A2 (en) | Method and apparatus for constructing quality evaluation model, device and storage medium | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CA3163394A1 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
Geiß et al. | Neckar: A named entity classifier for wikidata | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
Ha et al. | Recognition of OCR invoice metadata block types | |
US11829889B2 (en) | Processing method and device for data of well site test based on knowledge graph | |
Hoffswell et al. | Interactive repair of tables extracted from pdf documents on mobile devices | |
Jahan et al. | A pronoun replacement-based special tagging system for bengali language processing (blp) | |
CN112733527B (zh) | 建筑工程文档知识网络的构建方法及系统 | |
US20220179894A1 (en) | Automatic document classification | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
CN114416174A (zh) | 基于元数据的模型重构方法、装置、电子设备及存储介质 | |
CN114780577A (zh) | Sql语句生成方法、装置、设备及存储介质 | |
Zhang et al. | A text mining based method for policy recommendation | |
CN114741276A (zh) | 国产操作系统测试用例的复用方法和装置 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
Chen et al. | TableGraph: An Image Segmentation–Based Table Knowledge Interpretation Model for Civil and Construction Inspection Documentation | |
Szegedi et al. | Context-based Information Classification on Hungarian Invoices. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |