CN112241623B - 一种接触网施工技术文档内容自动生成装置及方法 - Google Patents
一种接触网施工技术文档内容自动生成装置及方法 Download PDFInfo
- Publication number
- CN112241623B CN112241623B CN202010982114.6A CN202010982114A CN112241623B CN 112241623 B CN112241623 B CN 112241623B CN 202010982114 A CN202010982114 A CN 202010982114A CN 112241623 B CN112241623 B CN 112241623B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- case
- information
- engineering
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000005516 engineering process Methods 0.000 claims abstract description 93
- 230000013011 mating Effects 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 38
- 238000013461 design Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000011002 quantification Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000009411 base construction Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims 2
- 238000009434 installation Methods 0.000 description 31
- 238000007726 management method Methods 0.000 description 14
- 238000011160 research Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 7
- 210000000707 wrist Anatomy 0.000 description 7
- 239000012212 insulator Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 101100379075 Burkholderia cepacia andAa gene Proteins 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009430 construction management Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 229910000838 Al alloy Inorganic materials 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种接触网施工技术文档内容自动生成装置,包括知识信息表示模块,资料库模块,知识库模块,知识信息推理模块,文本生成模块,参数获取模块以及内容导出模块;还公开了其生成方法,根据接触网工程技术交底的结构,建立接触网工程的知识元信息模型,以之为基础建立接触网工程技术交底案例库和专家规则库,存储在云端服务器。服务器端利用案例‑规则混合推理算法,实现案例知识信息优化。同时,以服务器端存储的接触网以往施工项目工程数据为语料,基于深度学习构建和训练文本生成模型。用户终端通过手持智能设备输入接触网施工项目基础信息,上传到云端服务器后,服务器端自动生成接触网工程技术交底文档内容,返回给用户终端。
Description
技术领域
本发明属于工程管理技术领域,涉及电气化铁路项目中接触网施工信息化技术,具体涉及一种接触网施工技术文档内容自动生成装置,以及其技术交底文本自动生成方法领域。
背景技术
得益于电气化铁路其高速度、低能耗、低污染和低成本等突出特点,电气化铁路逐渐取代传统的内燃机车,成为当前世界主流的铁路建设形式;作为电气化铁路电能输送的重要环节,接触网的运行质量和工作状态直接影响着电气化铁道的运营安全。在技术条件一定的情况下,技术管理的水平高低往往对提升接触网施工质量发挥着至关重要的作用,而技术文件的编制是技术管理工作能否正确有序进行的前提和保障。作为把设计要求、施工措施贯彻到一线班组的有效方法,技术交底文件的编制与落实是技术管理中不容忽视的重要环节。
技术交底工作应当在分部分项工程施工开始前进行,目的在于将施工技术重难点、施工组织设计、操作规程和安全注意事项等有关技术规定对施工人员加以全面的交代,保证施工活动的正确和安全有序进行。但在实际的接触网施工过程中,接触网工程技术交底的编制和落实情况却存在诸多问题:内容缺失、与工程匹配性不高、深度不够;套用上一级交底、照抄规范、照搬之前案例;技术知识信息在项目内部和项目之间流通不畅等。因此,将施工技术管理与信息化管理技术相结合的研究逐渐成为趋势。
孔分生从接触网、变电等方向寻找铁路牵引供电工程施工中的重点和难点,制定出了实现高质量的牵引供电示范工程建设的施工技术方案,以加强高速铁路牵引供电工程施工技术管理。杨凡结合贵广铁路路基附属设施施工项目,通过对接触网支柱基础施工的全过程进行研究,分析了其中的技术性难题并提出了相应的解决措施。但上述研究主要是从施工工艺和技术的角度研究施工技术交底相关标准,对信息化的探索不足。
针对传统二维接触网设计的不足,人们探索了BIM技术在接触网工程施工深化设计中的应用特点及优势,可以根据设计单位交付的施工图,结合现场实际情况及测量数据,使用BIM三维建模软件创建详细的设施、场地三维模型,补齐原始设计中漏掉的设施信息,更准确地表达实际安装情况、直观分析各设施间的关系、实现可视化交底。故障树分析框架被引入风电机组检修安全技术交底,以具体检修任务为出发点作为顶事件,自上而下进行任务分解,形成详细的安全技术交底,得到底事件,实现风电机组检修安全技术交底文件的标准化建模,提升了技术交底的适应性和可用性。二维码技术也被应用于接触网施工及运维管理。魏殿龙以二维码作为每根支柱的标签,以移动端App完成设备、施工数据的录入和查询统计,数据经网络传输存入后台数据库,为现场施工管理的信息化提供了新的途径。何伟松通过在施工管理过程中引入BIM技术,探索施工质量事前、事中、和收尾阶段实施BIM技术的可行性,特别利用二维码技术将现场信息、人员注册、BIM模型和BIM工序模拟等信息与技术交底相关联,利用二维码技术进行交底,减少了施工质量问题。但上述研究无法充分利用已实施完成的接触网施工工程的技术交底相关经验和知识,且仍然需要手工编制施工技术交底文件,施工技术文件的自动编制尚缺乏较为系统的研究。
发明内容
本发明的目的之一在于根据现有技术的不足,提出一种使用自动化手段生成接触网工程技术交底主要内容文本的装置,通过构建接触网工程技术知识信息表达、存储、复用、自动生成的信息传递通路,对以往案例中的技术知识信息实现挖掘和重用,降低一线现场管理人员的工作负担,提升现场技术管理水平。
本发明解决其技术问题所采用的技术方案是:一种接触网施工技术文档内容自动生成装置,包括:知识信息表示模块,用于在云端服务器建立接触网工程的知识元信息模型;资料库模块,包括工程项目子模块和标准资料子模块,其中,所述的工程项目子模块用于向云端服务器存储接触网以往施工项目工程数据,所述的标准资料子模块用于向云端服务器存储包含标准规范、工程设计信息、厂家产品在内的接触网施工工艺规范相关数据;分别与知识信息表示模块和资料库模块相连的知识库模块,其包括案例库子模块和专家规则库子模块,其中,所述的案例库子模块用于从工程项目子模块提取项目工程数据,调用知识信息表示模块,建立案例的知识元信息模型并存储在云端服务器,所述的专家规则库子模块用于从标准资料子模块提取相关规则,调用知识信息表示模块,建立专家规则的知识元信息模型并存储在云端服务器;与知识库模块连接的知识信息推理模块,用于基于案例库和专家规则库,从案例库子模块和专家规则库子模块提取知识元数据,并利用案例-规则混合推理算法优化案例知识信息;分别与资料库模块和知识库模块连接的文本生成模块,该模块又分为包括语料特征库子模块、生成模型子模块和模型训练子模块,用于以资料库模块的数据为语料,从中提取特征数据以便于后续模型训练,所述的模型训练子模块用于基于深度学习对生成模型子模块进行训练,训练过程中所需的数据和生成的数据均存储在云端服务器;参数获取模块,用于获取用户终端使用手持智能设备输入的目标工程项目基础信息;分别与文本生成模块和参数获取模块连接的内容导出模块,接收参数获取模块传递的数据,调用文本生成模块生成技术交底文档内容文本,呈现给用户终端。
本发明的目的之二在于提出一种使用自动化手段生成接触网工程技术交底主要内容文本的方法,包括三个阶段:
一),通过对接触网工程技术交底的结构进行分析,建立接触网工程的知识元信息模型,并存储在云端服务器,以实现接触网工程技术交底信息的规范化;
二),以接触网工程的知识元信息模型为基础,建立接触网工程技术交底案例库,同时基于标准规范、设计信息、产品说明在内的技术信息建立专家规则库,利用案例-规则混合推理算法,对案例库进行优化,实现案例库的自更新,接触网工程技术交底案例库、专家规则库均存储在云端服务器;
三),以存储在云端服务器的原始技术文档为语料,服务器端基于深度学习构建和训练文本生成模型,将接触网施工项目基础信息输入用户终端并上传到云端服务器后,云端服务器自动生成接触网工程技术交底文档内容,返回给用户终端。
其中,所述的步骤一)中建立接触网工程的知识元信息模型具体为:
1.1),建立一般性知识元信息模型
为了对客观事物主观抽象的模型进行知识表示,用一个三元组来表示一个对象知识元Ka=(Na,Aa,Ra),其中Na表示名称集,是定义某事物名称的一组主题词表,且Aa表示由若干属性要素a和主题词表组成的属性集,且/>Ra为属性状态变化关系集。获取界定对应事物的概念及属性名称集Na、属性状态集合Aa和映射关系集Ra的过程即为接触网工程的知识元信息模型的建立过程;
1.2),分类建立知识信息表示模型,存储在云端服务器
针对接触网施工技术知识信息,将其分为四大类,包括:工程基本信息,施工工艺、质量要求以及安全措施信息,各大类根据交底对象不同划分为具体的小类,针对具体交底对象构建相应的知识元,形成分层结构的数据表达,存储在云端服务器。
其中,所述的步骤二)具体为
2.1),接触网工程技术交底案例库的构建:基于知识元信息模型,对接触网以往施工项目工程数据进行结构化建模,形成案例的知识表示模型,存储在云端服务器;其中每个案例由属性集和方案集组成,属性集代表工程案例基本信息、设计信息以及施工条件等描述信息;方案集存储施工过程中采取的工艺流程、技术措施等措施信息;
2.2),基于案例推理的相似案例提取:基于选定的工程案例属性,计算接触网施工技术交底案例相似度,从源案例库中推理出与目标案例最接近的相似案例;选用余弦相似性指标计算接触网施工技术交底案例的相似度:
其中,A,B表示待计算相似度的两个接触网施工技术交底案例,Ai,Bi(i=1,2,...,n)分别表示两个案例的第i个属性值,ωi表示特征属性权重;计算得到的数值越大,说明该案例与目标案例越相似,按照相似度值从大到小排序,可得到源案例库中与目标案例最相似的前若干个案例;
2.3),专家规则库构建:基于知识元信息模型,对接触网施工相关标准规范、工程设计信息等相关文本进行结构化建模,形成专家规则库并存储在云端服务器;
2.4),基于案例-规则混合推理算法的案例知识信息优化:优化包括两方面内容:当规则推理库中存在的知识规则在案例推理结果中无相似知识时,需将专家规则库中的相应知识元添加进案例知识中备用;而若案例知识元中存在与规则库中相似的知识元,则对二者进行一致性检验,经一致性检验后,在阈值范围内的相似知识元可不做调整,超出阈值范围的案例知识元需要进行调整:一般设定为规则库中知识元的优先级高于案例知识元,规则库中的知识元按效力和适用范围不同也设置不同的优先级;如果规则知识优先级高于案例知识,则调整;否则则保留原案例知识。对于规则库中不同优先级的相似知识元,只需进行迭代逐次判别即可。
进一步,所述的步骤2.1)具体为:
2.1.1),属性分类:将接触网工程技术交底案例的属性分为两个层次,第一层次为接触网整体工程相关的通用类工程属性,通用类属性适用于整体工程的案例相似度计算;第二层次为分项工程相关的专用型案例属性,专用型案例属性与各分项工程相关,适用于分项工程案例相似度计算;
2.1.2),属性值计算:针对已确定的案例属性,进一步对属性进行量化计算,包括数据类型统一化处理、数据标准化处理和确定特征属性权重,具体过程如下:
2.1.2.1),数据类型统一化处理:字符型和数值型数据类型不同时不能直接进行计算,需先将字符型数据转化为数值型数据,令目标项目的字符型数据为1,若案例库中案例属性和目标项目的属性相同,则赋值1,若不同则赋值为0;
2.1.2.2),数据标准化处理:包括特征属性定量化和无量纲化两个部分,目的在于将原始数据转换为可直接用于计算的标准数据;特征属性定量化是指将属性值变为(0,1)之间的小数,把数据映射到0~1范围之内处理;无量纲化在于将有量纲的表达式,变换为无量纲,再执行后续的案例相似度计算;
2.1.2.3),确定特征属性权重:为使案例检索的结果能够更加精确,对特征属性赋以不同权重,对较为重要的特征属性给予更高的权重,对相对次要的特征属性给予较低的权重。本发明中针对更加重要的专用型特征属性,设置特征属性权重之和为0.6,而设置通用型特征属性权重之和为0.4。同类型特征属性的权重相同。
其中,所述的步骤三)具体为
3.1),构建接触网施工技术交底生成模型:
3.1.1),从服务器存储的接触网施工相关资料文档提取主题词,得到主题词集;
3.1.2),基于Word2vec模型计算主题词之间相似度,从而对主题词进行关键词扩展,得到关键词集;
3.1.3),对关键词集进行主题聚类,得到分主题的关键词集;
3.1.4),采用基于注意力机制的RNN(循环神经网络)模型,生成段落文本;
3.2),训练接触网施工技术交底生成模型:
3.2.1),构建接触网施工技术交底文本语料特征库,存储在云端服务器;
3.2.2),基于已建立的语料特征库,对接触网施工技术交底生成模型进行训练:
采用最大似然估计策略,在服务器端对接触网施工技术交底生成模型进行训练,在给定原始文本和参数时求解各个目标词的条件概率最大化:
其中,x表示原始文本,y表示目标序列,二者成对取自训练数据集D。模型训练时,目标序列中的y作为解码过程中下一时刻的输入值,求解下一个字符最大化的概率;
3.3),针对用户终端从智能手持设备输入的目标项目基础信息,调用服务端的接触网施工技术交底生成模型,自动生成技术交底内容文本,并返回用户终端。
进一步,所述的步骤3.1.4)方法如下:
给定一个包含k个关键词的主题聚类T={topic1,topic2,…,topick},根据该主题聚类中的这些关键词,自动生成一个长度为1的一段文本Text,Text={x1,x,…,xl},且该文本中的词汇全部来源于包含m个不同词汇的词汇表Dict={word1,word2,…,wordm};求解步骤如下:
3.1.4.1),构建引入注意力机制的循环神经网络(RNN)模型,具体步骤如下:
3.1.4.1.1),基于Word2vec模型,为主题词集中的每个主题词、每个主题聚类中的各个关键词topici(1≤i≤k),以及段落文本中的各词汇tj(1≤j≤1),分别生成其向量表示;
3.1.4.1.2),以段落文本词汇tj按顺序输入RNN,将t+1时刻的输入设置为t时刻的输出,并以双层长短时记忆网络设置RNN每一时刻的网络结构,则采用条件概率语言模型,得到下一个词汇的出现概率为:
P(xt|T,xt-1,ht-1)=softmax(g(ht)) (3)
ht=f(Tt,xt-1,ht-1)
其中,softmax用于将输入映射为0-1之间的实数,并归一化确保和为1,可以将其输出视为是每个分类被取到的概率,g(·)是线性函数,f(·)为激活函数,且函数形式由LSTM网络结构所决定;
引入注意力机制来对LSTM神经网络模型生成的文本进行约束,核心思想是基于主题词向量与生成词汇的相似度,选择与主题词最相似的向量作为LSTM的输出,对主题聚类T={topic1,topic2,…,topick},将其用注意力得分来表示,则t时刻的主题向量表示Tt按下式计算:
其中,αt,j表示t时刻第j个主题词的的注意力得分,t为计时变量,j为计数变量,k代表主题词个数,tanh(·)为激活函数,gtj是在t时刻关于主题词topicj的注意力分数,Ct-1,j表示t-1时刻第j个主题词的权重,va,Wa,Ua均为矩阵,且需在模型训练中加以优化,Sim()是相似度计算函数,计算方法沿用公式(1),β取值范围为(0,1);
3.1.4.2),引入主题覆盖向量,保证生成的文本覆盖所有主题:引入k维主题覆盖向量Ct=[Ct,0,Ct,1,…,Ct,k],对应主题聚类T,其中,Ct,j表示t时刻第j个主题词的权重,k是最大主题词数,则有:
其中,score(topicj)表示从原始文本中抽取出的第j个主题词的主题得分;αt,j表示t时刻第j个主题词的的注意力得分(见公式(4)),N表示长度为1的文本Text中实词的个数,dw为词向量的维度,Uf是一个由[k,dw]组成的矩阵,Tk表示主题词向量,σ(·)代表Sigmoid函数;
3.1.4.3),引入附加项,保证生成的文本内容与给定主题词强相关:为每个词汇wi的生成概率设定相应附加项,公式如下:
P(xt|T,xt-1,ht-1)=PV(xt|T,xt-1,ht-1)+PK(xt|T,xt-1,ht-1) (6)
其中:
ht=f(ht-1,xt-1,Tt)
gK(ht)和gV(ht)是两个参数不同的全连接层,V对应词汇表Dict,K指主题词表T。
进一步,所述的步骤3.2.1)具体为:
3.2.1.1),针对云端服务器存储的接触网工程技术资料、接触网工程标准规范、设计说明、接触网工程产品说明书等原始文档,作为原始语料,采用TextRank算法自动提取关键词,同时,结合人工标记,提取文本数据关键词,构建语义关键词集合,形成接触网施工技术交底文本语料特征库,将其存储在云端服务器;
3.2.1.2),对语料特征库中的文本数据执行预处理,以便进行后续的模型训练。预处理包括格式标记去除、中文分词及词性标注、以及未登录词处理等环节。其中,格式标记是指单位符号和特殊符号等对于文本信息统计无关的特殊字符,需要在预处理阶段统一删除以免对模型训练产生干扰。中文分词和词性标注的目的在于将完整的句子切分成具有独立语义的最小单位— —词汇,同时标注每个词的属性以便于后续识别。
本发明的优点在于:为电气化铁路建设项目在接触网施工阶段的技术交底提供了文本自动生成的装置及方法,文本完整性和可读性方面基本可以满足现场管理需求,能较好辅助现场管理以减轻现场技术管理人员的工作负担。
附图说明
图1为本发明装置的组成结构图;
图2为本发明实施例腕臂安装技术交底知识信息结构图
图3为本发明案例-规则混合推理模型图;
图4为本发明基于规则的推理知识信息优化过程。
各附图标记为:1-知识信息表示模块,2-资料库模块,21-工程项目子模块,22-标准资料子模块,3-知识库模块,31-案例库子模块,32-专家规则库子模块,4-知识信息推理模块,5-文本生成模块,51-语料特征库子模块,52-生成模型子模块,53-模型训练子模块,6-参数获取模块,7-内容导出模块。
具体实施方式
文本自动生成作为自然语言处理领域的重要分支之一,其目标是通过计算机程序实现表达和写作的能力,即在特定表达形式的关键信息输入在经过一定的组织规划后,自动生成高质量自然语言文本。自然语言生成的工作思路以相对抽象的概念层次作为起点,通过选择相应的语义规则并执行语法规则达到生成文本的目的,这恰好与自然语言分析的思路相反。目前国内外关于文本生成技术的研究主要分文本自动生成技术的应用和关于文本自动生成技术的算法的研究。文本生成技术在算法和应用研究上的不断完善和进步,为自然语言处理技术的试验范围进一步扩大奠定了基础,探索将自然语言处理技术应用于工程实践,已经具备了一定的理论基础和相应的技术条件。
以下将结合附图,对本发明的优选实施例进行详细的描述:应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
实施例1
参照图1所示,本发明公开的一种接触网施工技术文档内容自动生成装置,包括如下模块。
知识信息表示模块1:用于在云端服务器建立接触网工程的知识元信息模型。
资料库模块2:该模块又包括工程项目子模块21和标准资料子模块22,其中,工程项目子模块21用于存储接触网以往施工项目工程数据,标准资料子模块22用于存储标准规范、工程设计信息、厂家产品说明等接触网施工工艺规范相关数据。
知识库模块3:该模块分别于知识信息表示模块和资料库模块2相连,知识库模块3又包括案例库子模块31和专家规则库子模块32,其中,案例库子模块31用于从工程项目模块21提取项目工程数据,调用知识信息表示模块1,建立案例的知识元信息模型,存储在云端服务器;专家规则库子模块32用于从标准资料模块22提取相关规则,调用知识信息表示模块1,建立专家规则的知识元信息模型,存储在云端服务器。
知识信息推理模块4:该模块与知识库模块3连接,用于基于案例库和专家规则库,从案例库子模块31和专家规则库子模块32提取知识元数据,并利用案例-规则混合推理算法优化案例知识信息。
文本生成模块5:该模块又分为语料特征库子模块51、生成模型子模块52和模型训练子模块53,该模块与资料库模块2和知识库模块3相连接,用于以资料库模块2的数据为语料,从中提取特征数据以便于后续模型训练,所述的模型训练子模块53用于在服务器端基于深度学习对生成模型子模块52进行训练;文本生成模块5还与内容导出模块7相连接,供内容导出模块7调用。
参数获取模块6:用于获取用户终端输入的目标工程项目基础信息。
内容导出模块7:用于分别与文本生成模块5和参数获取模块6相连接,接收参数获取模块6传递的数据,调用文本生成模型5生成技术交底文档内容文本,呈现给用户终端。
实施例2
参照图2至图4所示,本发明公开的一种接触网施工技术文档内容自动生成方法,包括以下三个阶段。
第一阶段:通过对接触网工程技术交底的结构进行分析,建立接触网工程的知识元信息模型,并存储在云端服务器,以实现接触网工程技术交底信息的规范化。
第二阶段:以接触网工程的知识元信息模型为基础,建立接触网工程技术交底案例库,同时,基于标准规范、设计信息、产品说明等技术信息,建立专家规则库,利用案例-规则混合推理技术,对案例库进行优化,实现案例库的自更新,接触网工程技术交底案例库、专家规则库均存储在云端服务器。
第三阶段:云端服务器存储的原始技术文档为语料,服务器端基于深度学习构建和训练文本生成模型,用户终端通过手持智能设备以接触网施工项目基础信息为输入,上传到云端服务器后,服务器端自动生成接触网工程技术交底文档内容,返回给用户终端。
其中本发明方法第一阶段建立接触网工程的知识元信息模型步骤如下。
1.1),建立一般性知识元信息模型。
为了对客观事物主观抽象的模型进行知识表示,用一个三元组来表示一个对象知识元Ka=(Na,Aa,Ra),其中Na表示名称集,是定义某事物名称的一组主题词表,且Aa表示由若干属性要素a和主题词表组成的属性集,且/> Ra为属性状态变化关系集。知识元信息模型的建立过程就是获取界定对应事物的概念及属性名称集Na、属性状态集合Aa和映射关系集Ra的过程。
1.2),分类建立知识信息表示模型,存储在云端服务器。
针对接触网施工技术知识信息,将其分为四大类,包括:工程基本信息,施工工艺、质量要求以及安全措施信息;各大类根据交底对象不同划分为具体的小类;针对具体交底对象构建相应的知识元,形成分层结构的数据表达,存储在云端服务器。
本发明中有关接触网工程的知识元信息模型可以视为是一个统一的、通用的知识元模型,知识信息表示模块的作用是提供一个通用的知识元信息提取算法,案例知识元信息模型的建立,是通过以案例库的原始文本作为输入,调用知识元信息提取算法后,从而生成案例知识元信息模型。专家规则的知识元信息模型同理。因此,资料库的作用在于提供原始输入,通过知识信息表示模块的处理后,才能真正建立案例知识元信息模型和专家规则知识元信息模型,并进行存储。
其中本发明方法第二阶段的具体步骤如下。
2.1),接触网工程技术交底案例库的构建:基于第一阶段建立的知识元信息模型,对接触网以往工程项目案例的数据进行结构化建模,形成案例的知识表示模型,存储在云端服务器;每个案例由属性集和方案集组成,其中,属性集代表工程案例基本信息、设计信息以及施工条件等描述信息;方案集存储施工过程中采取的工艺流程、技术措施等措施信息。具体步骤如下:
2.1.1),属性分类。将接触网工程技术交底案例的属性分为两个层次,第一层次为接触网整体工程相关的通用类工程属性,通用类工程属性适用于整体工程的案例相似度计算;第二层次为分项工程相关的专用型案例属性,专用型案例属性适用于分项工程案例相似度计算时使用。
2.1.2),属性值计算。针对已确定的案例属性,进一步对属性进行量化计算,包括数据标准化处理和确定特征属性权重,具体过程如下:
2.1.2.1),数据类型统一化处理。字符型和数值型数据类型不同,这种不统一的数据格式不能直接进行计算。需先将字符型数据转化为数值型数据。令目标项目的字符型数据为1,若案例库中案例属性和目标项目的属性相同,则赋值1,若不同则赋值为0。
2.1.2.2),数据标准化处理。标准化处理包括特征属性定量化和无量纲化两个部分,目的在于将原始数据转换为可直接用于计算的标准数据。特征属性定量化是指将属性值变为(0,1)之间的小数,把数据映射到0~1范围之内处理。无量纲化在于将有量纲的表达式,变换为无量纲,再执行后续的案例相似度计算。本发明采用Min-Max离差标准化方法,通过对原始数据的线性变换,使结果值映射到[0,1]之间。
2.1.2.3),特征属性权重计算。为使案例检索的结果能够更加精确,对特征属性赋以不同权重,对较为重要的特征属性给予更高的权重,对相对次要的特征属性给予较低的权重。本发明中针对更加重要的专用型特征属性,设置特征属性权重之和为0.6,而设置通用型特征属性权重之和为0.4。同类型特征属性的权重相同。
2.2),基于案例推理的相似案例提取。
基于选定的工程案例属性,计算接触网施工技术交底案例相似度,从源案例库中推理出与目标案例最接近的相似案例。
选用余弦相似性指标计算接触网施工技术交底案例的相似度,如下所示。
其中,A,B表示待计算相似度的两个接触网施工技术交底案例,Ai,Bi(i=1,2,...,n)分别表示两个案例的第i个属性值,ωi表示特征属性权重。计算得到的数值越大,说明该案例与目标案例越相似。按照相似度值从大到小排序,可得到源案例库中与目标案例最相似的前若干个案例。
2.3),专家规则库构建。
专家规则库主要由标准规范、工程设计信息、厂家产品说明等具有不同优先级的相关规定组成。基于第一阶段建立的知识元模型,对接触网施工相关标准规范、工程设计信息等相关文本进行结构化建模,形成专家规则知识表示模型,存储在云端服务器。
2.4),基于案例-规则混合推理算法的案例知识信息优化。
优化包括两方面内容:当规则推理库中存在的知识规则在案例推理结果中无相似知识时,需将专家规则库中的相应知识元添加进案例知识中备用;而若案例知识元中存在与规则库中相似的知识元,则对二者进行一致性检验,经一致性检验后,在阈值范围内的相似知识元可不做调整,超出阈值范围的案例知识元需要进行调整。调整原则是:一般设定为规则库中知识元的优先级高于案例知识元,规则库中的知识元按效力和适用范围不同也设置不同的优先级。因此对于需进行调整的知识元,可按优先级大小进行判别:如果规则知识优先级高于案例知识,则调整;否则则保留原案例知识。对于规则库中不同优先级的相似知识元,只需进行迭代逐次判别即可。
其中本发明方法第三阶段的具体步骤如下。
3.1),构建接触网施工技术交底生成模型。
3.1.1),从服务器存储的接触网施工相关资料文档提取主题词,得到主题词集。
3.1.2),基于Word2vec模型计算主题词之间相似度,从而对主题词进行关键词扩展,得到关键词集。
3.1.3),对关键词集进行主题聚类,得到分主题的关键词集。
3.1.4),采用基于注意力机制的RNN(循环神经网络)模型,生成段落文本。
3.2),训练接触网施工技术交底生成模型。
3.2.1),构建接触网施工技术交底文本语料特征库,存储在云端服务器,具体步骤如下。
3.2.1.1),针对云端服务器存储的接触网工程技术资料、接触网工程标准规范、设计说明、接触网工程产品说明书等原始文档,作为原始语料,采用TextRank算法自动提取关键词,同时,结合人工标记,提取文本数据关键词,构建语义关键词集合,形成接触网施工技术交底文本语料特征库,将其存储在云端服务器;
3.2.1.2),对语料特征库中的文本数据执行预处理,以便进行后续的模型训练。预处理包括格式标记去除、中文分词及词性标注、以及未登录词处理等环节。其中,格式标记是指单位符号和特殊符号等对于文本信息统计无关的特殊字符,需要在预处理阶段统一删除以免对模型训练产生干扰。中文分词和词性标注的目的在于将完整的句子切分成具有独立语义的最小单位——词汇,同时标注每个词的属性以便于后续识别。
3.2.2),基于已建立的语料特征库,对接触网施工技术交底生成模型进行训练:采用最大似然估计策略,对接触网施工技术交底生成模型进行训练,在给定原始文本和参数时求解各个目标词的条件概率最大化:
其中,x表示原始文本,y表示目标序列,二者成对取自训练数据集D。模型训练时,目标序列中的y作为解码过程中下一时刻的输入值,求解下一个字符最大化的概率。
3.3),针对用户终端输入的目标项目基础信息,调用接触网施工技术交底生成模型,自动生成技术交底内容文本,并返回用户终端。
其中步骤3.1.4)的具体方法如下。
给定一个包含k个关键词的主题聚类T={topic1,topic2,…,topick},根据该主题聚类中的这些关键词,自动生成一个长度为1的一段文本Text,Text={x1,x,…,xl},且该文本中的词汇全部来源于包含m个不同词汇的词汇表Dict={word1,word2,…,wordm}。
为了进行求解,具体步骤如下。
3.1.4.1),构建引入注意力机制的循环神经网络(RNN)模型,具体步骤如下:
3.1.4.1.1),基于Word2vec模型,为主题词集中的每个主题词、每个主题聚类中的各个关键词topici(1≤i≤k),以及段落文本中的各词汇tj(1≤j≤1),分别生成其向量表示。
3.1.4.1.2),以段落文本词汇tj按顺序输入RNN,将t+1时刻的输入设置为t时刻的输出,并以双层长短时记忆网络设置RNN每一时刻的网络结构,则采用条件概率语言模型,得到下一个词汇的出现概率为:
P(xt|T,xt-1,ht-1)=softmax(g(ht)) (3)
ht=f(Tt,xt-1,ht-1)
其中,softmax用于将输入映射为0-1之间的实数,并归一化确保和为1,可以将其输出视为是每个分类被取到的概率,g(·)是线性函数,f(·)为激活函数,且函数形式由LSTM网络结构所决定。
引入注意力机制来对LSTM神经网络模型生成的文本进行约束,核心思想是基于主题词向量与生成词汇的相似度,选择与主题词最相似的向量作为LSTM的输出,对主题聚类T={topic1,topic2,…,topick},将其用注意力得分来表示,则t时刻的主题向量表示Tt按下式计算:
其中,αt,j表示t时刻第j个主题词的的注意力得分,t为计时变量,j为计数变量,k代表主题词个数,tanh(·)为激活函数,gtj是在t时刻关于主题词topicj的注意力分数,Ct-1,j表示t-1时刻第j个主题词的权重,va,Wa,Ua均为矩阵,且需在模型训练中加以优化,Sim()是相似度计算函数,计算方法沿用公式(1),β取值范围为(0,1)。
3.1.4.2),引入主题覆盖向量,保证生成的文本覆盖所有主题:引入k维主题覆盖向量Ct=[Ct,0,Ct,1,…,Ct,k],对应主题聚类T,其中,Ct,j表示t时刻第j个主题词的权重,k是最大主题词数,则有:
其中,score(topicj)表示从原始文本中抽取出的第j个主题词的主题得分;αt,j表示t时刻第j个主题词的的注意力得分(见公式(4)),N表示长度为1的文本Text中实词的个数,dw为词向量的维度,Uf是一个由[k,dw]组成的矩阵,Tk表示主题词向量,σ(·)代表Sigmoid函数。
3.1.4.3),引入附加项,保证生成的文本内容与给定主题词强相关:为每个词汇wi的生成概率设定相应附加项,公式如下:
P(xt|T,xt-1,ht-1)=PV(xt|T,xt-1,ht-1)+Pk(xt|T,xt-1,ht-1) (6)
其中:
ht=f(ht-1,xt-1,Tt)
gK(ht)和gV(ht)是两个参数不同的全连接层,V对应词汇表Dict,K指主题词表T。
实施例3
选择腕臂安装工程技术交底为实施例,对腕臂安装工程技术交底的知识信息进行划分,其在四个大类之下,划分为十一个小分项的知识信息,如图2所示。知识信息说明如下:
(1)工程基本信息是编制施工技术交底的基础,主要涉及与接触网工程整体相关的知识信息、腕臂安装设计信息、以及施工现场需要具备的前置施工条件等信息。
(2)施工工艺是技术交底的核心内容,主要有工序步骤知识信息、工序要求及结果知识信息。其中工序步骤信息是指现场工人在施工作业时采取的工序顺序,包括操作的部位,对象,内容等,一系列合理有序的步骤是施工工艺的主要构成。工序要求如果在设计文件中没有明确要求,则需要在施工中根据工程情况进行确定安排,包括相应的操作步骤需要遵循的要求或满足的标准。操作结果信息提供不同工序之间的操作接口,确保操作满足相应规定后才能进行下一步操作。
(3)质量要求往往在工程标准规范(如质量验收规范)中有所规定,是对整个技术交底所涉及的项目的质量规定,其与工序要求知识信息的区别在于,质量要求是对整个交底项目的整体性规定,而工序要求往往只针对某一步操作。
(4)安全措施知识信息是保障现场施工安全的重要内容,往往需要根据已选定的施工工艺,在遵循规范要求和惯常做法的前提下,针对实际施工中可能会出现的不安全因素制定对应的防护和应急措施等。
实施例4
以某项目的腕臂安装技术交底知识信息为例,构建相应的知识元如下:
(1)工程基本信息知识元模型。
工程基本信息知识元模型用来表达施工工艺信息,包括相应的操作步骤和操作要求等。
用多元组表达为:工程基础信息知识元={项目名称,设计时速,线路类别,建设单位,开始时间,…}。
(2)施工工艺知识元模型。
施工工艺知识元模型用来表达施工工艺信息,包括相应的操作步骤和操作要求等。对腕臂安装工艺信息表达如下:
腕臂安装施工工艺知识元={工艺名称,工序步骤,质量措施,安全措施}。
其中,工序步骤可表示为:工序步骤知识元_xxxx_xxxx={工序流程名称,工序名称,工序内容,工序要求}。以腕臂安装工程为例,其腕臂安装工序步骤知识元_0011_0006={腕臂安装施工流程,施工准备,腕臂组装,腕臂运输,组装绝缘子,腕臂底座安装,棒式绝缘子安装,平斜腕臂安装};
相应的工序要求知识元表示为工序要求知识元_xxxx_xxxx={工序名称,工序要求};以腕臂底座安装为例,则腕臂底座安装要求知识元_0011_0016={腕臂底座安装,上腕臂底座轨面安装高度7220mm,允许偏差±50mm,下底座安装高度5470mm,允许偏差±50mm,螺栓紧固力矩需满足设计要求}。
工序内容对应工序内容知识元_xxxx_xxxx={工序名称,工序内容}。以棒式绝缘子安装为例,其工序内容知识元为:棒式绝缘子安装工序内容知识元_0011_0017={棒式绝缘子安装,工序内容:拉升绝缘子,将腕臂棒瓷连接板插入腕臂底座,安装螺栓及开口销}。
(3)质量要求信息知识元模型
质量要求知识元模型用于携带工程质量信息,包括标准规范中的要求,或是设计文件中的要求等。腕臂安装质量要求知识元模型表示为:腕臂安装质量要求_xxx_xxx={步骤名称;质量要求1;质量要求2;…}。例如,腕臂预配质量要求={腕臂预配;螺栓紧固力矩;长度尺寸偏差不大于±5mm},其中螺栓紧固力矩应当按照设计值和部位的不同,取到具体指标,对应的知识元模型为:螺栓紧固力矩_xxx_xxx={螺栓部位,设计值}。
(4)安全措施信息知识元模型
安全措施是指在施工过程中为保障施工人员、机械等的安全采取的安全风险控制措施。安全措施知识元模型应考虑与安全措施与施工内容、作业环境、施工方法等知识元模型之间的联系。
安全措施知识元为:安全措施知识元_xxx_xxxx={步骤名称,风险因素,控制措施},其中,步骤名称表示所对应的操作步骤,风险因素表示该项措施针对的致险因素,控制措施为现场施工相应的需注意事项。相应的构建知识元如下:
(i)安全措施_001_0001={现场管理,安全事故,现场应配备专职安全防护员,确保人员及行车安全};
(ii)安全措施_003_0018={杆上作业,物体打击,同一杆塔上下侧禁止同时作业};
(iii)安全措施_003_0019={杆上作业,物体打击,作业人员应携带工具袋,严禁抛掷传递工具材料};
(iv)安全措施_006_0011={作业条件,安全事故,雷雨,浓雾等恶劣天气应停止作业}。
实施例5
以某项目的腕臂安装技术交底知识推理为例,分项工程属性设置如下。
(1)通用类属性:通用类属性,适用于整体工程的案例相似度计算,具体内容包括:
(i)设计时速。数据类型:数值型,取值范围:(0km/h,+∞)。
(ii)线路类别。数据类型:字符型,取值范围:{客运专线,客货共线,货运专线};
(iii)建造年份。数据类型:数值型,取值范围:(0,+∞),且n∈N*。
(iv)建设类别。数据类型:字符型,取值范围:{新建铁路,既有线改造}。
(2)专用类属性:专用类属性用于进行腕臂安装工程案例相似度计算,具体内容包括:
(i)安装方式。数据类型:字符型,取值范围:{人工安装,作业车安装}。
(ii)腕臂结构。数据类型:字符型,取值范围:{传统钢腕臂,铝合金腕臂,拉杆钢腕臂,整体腕臂结构}}。
以某项目的腕臂安装技术交底案例相似度计算为例,目标案例的基本情况为:铁路段1,设计时速:350km/h,线路类别:客运专线,建设类别:新建,安装方式:人工,施工时间:2020年。
案例相似度计算结果前五位的案例基本情况如下:
(i)铁路段2,设计时速:350km/h,线路类别:客运专线,建设类别:新建,安装方式:人工,施工时间:2019年,相似度:0.98。
(ii)铁路段3,设计时速:250km/h,线路类别:客货共线,建设类别:新建,安装方式:人工,施工时间:2019年,相似度:0.94。
(ii)铁路段4,设计时速:200km/h,线路类别:客货共线,建设类别:新建,安装方式:人工,施工时间:2019年,相似度:0.93。
(iv)铁路段5,设计时速:250km/h,线路类别:客运专线,建设类别:改造,安装方式:人工,施工时间:2014年,相似度:0.89。
(v)铁路段6,设计时速:380km/h,线路类别:客运专线,建设类别:新建,安装方式:作业车,施工时间:2010年,相似度:0.87。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种接触网施工技术文档内容自动生成装置,其特征在于:包括
知识信息表示模块(1),用于在云端服务器建立接触网工程的知识元信息模型;
资料库模块(2),包括工程项目子模块(21)和标准资料子模块(22),所述的工程项目子模块(21)用于将接触网以往施工项目工程数据存储在云端服务器,所述的标准资料子模块(22)用于向云端服务器存储包含标准规范、工程设计信息、厂家产品在内的接触网施工工艺规范相关数据;
分别与知识信息表示模块(1)和资料库模块(2)相连的知识库模块(3),包括案例库子模块(31)和专家规则库子模块(32),所述的案例库子模块(31)用于从工程项目子模块(21)提取项目工程数据,调用知识信息表示模块(1),建立案例的知识元信息模型并存储在云端服务器,所述的专家规则库子模块(32)用于从标准资料子模块(22)提取相关规则,调用知识信息表示模块(1),建立专家规则的知识元信息模型并存储在云端服务器;
与知识库模块(3)连接的知识信息推理模块(4),用于从案例库子模块(31)和专家规则库子模块(32)提取知识元数据,并利用案例-规则混合推理算法优化案例知识信息;
与资料库模块(2)连接的文本生成模块(5),包括语料特征库子模块(51)、生成模型子模块(52)和模型训练子模块(53),以资料库模块(2)的数据为语料,从中提取特征数据以便于后续模型训练,所述的模型训练子模块(53)用于基于深度学习对生成模型子模块(52)进行训练;
参数获取模块(6),用于获取用户终端使用手持智能设备输入的目标工程项目基础信息;
分别与文本生成模块(5)和参数获取模块(6)连接的内容导出模块(7),接收参数获取模块(6)传递的数据,调用文本生成模块(5)生成技术交底文档内容文本,呈现给用户终端。
2.一种如权利要求1所述接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于:包括如下步骤
一),通过对接触网工程技术交底的结构进行分析,建立接触网工程的知识元信息模型,并存储在云端服务器,以实现接触网工程技术交底信息的规范化;
二),以接触网工程的知识元信息模型为基础,建立接触网工程技术交底案例库,同时基于标准规范、设计信息、产品说明在内的技术信息建立专家规则库,利用案例-规则混合推理算法,对案例库加以优化,实现案例库的自更新,案例库和专家规则库均存储在云端服务器;
三),以存储在云端服务器的原始技术文档为语料,服务器端基于深度学习构建和训练文本生成模型,将接触网施工项目基础信息输入用户终端并上传到云端服务器后,云端服务器自动生成接触网工程技术交底文档内容,返回给用户终端。
3.根据权利要求2所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤一)中建立接触网工程的知识元信息模型步骤如下:
1.1),用一个三元组来表示一个对象知识元Ka=(Na,Aa,Ra),其中Na表示名称集,是定义某事物名称的一组主题词表,且Aa表示由若干属性要素a和主题词表组成的属性集,且/>Ra为属性状态变化关系集;通过获取界定对应事物的概念及属性名称集Na、属性状态集合Aa和映射关系集Ra完成接触网工程的知识元信息模型的建立;
1.2),将接触网施工技术知识信息分为工程基本信息、施工工艺、质量要求以及安全措施信息四大类,各大类根据交底对象不同划分为具体的小类,针对具体交底对象构建相应的知识元,形成分层结构的数据表达,存储在云端服务器。
4.根据权利要求2所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤二)具体为:
2.1),接触网工程技术交底案例库的构建:基于知识元信息模型,对接触网以往施工项目工程数据进行结构化建模,形成案例的知识表示模型,存储在云端服务器;其中每个案例由代表工程案例基本信息、设计信息以及施工条件描述信息的属性集和存储施工过程中采取的工艺流程、技术措施信息的方案集组成;
2.2),基于案例推理的相似案例提取:基于选定的工程案例属性,计算接触网施工技术交底案例相似度,从源案例库中推理出与目标案例最接近的相似案例;选用余弦相似性指标计算接触网施工技术交底案例的相似度:
其中,A,B表示待计算相似度的两个接触网施工技术交底案例,Ai,Bi分别表示两个案例的第i个属性值,i=1,2,…,n,ωi表示特征属性权重;计算得到的数值越大,说明该案例与目标案例越相似,按照相似度值从大到小排序,得到源案例库中与目标案例最相似的前若干个案例;
2.3),专家规则库构建:基于知识元信息模型,对包括接触网施工相关标准规范、工程设计信息、厂家产品在内的相关文本进行结构化建模,形成专家规则库并存储在云端服务器;
2.4),基于案例-规则混合推理算法的案例知识信息优化:当规则推理库中存在的知识规则在案例推理结果中无相似知识时,将专家规则库中的相应知识元添加进案例知识中备用;若案例知识元中存在与规则库中相似的知识元,则对二者进行一致性检验,经一致性检验后,对超出阈值范围的案例知识元进行调整:对于需进行调整的知识元,按优先级大小进行判别,如果规则知识优先级高于案例知识,则调整;否则则保留原案例知识,对于规则库中不同优先级的相似知识元,迭代逐次判别即可。
5.根据权利要求4所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤2.1)具体为:
2.1.1),将接触网工程技术交底案例的属性分为两个层次,第一层次为接触网整体工程相关的通用类工程属性,通用类属性适用于整体工程的案例相似度计算;第二层次为分项工程相关的专用型案例属性;
2.1.2),针对已确定的案例属性,进一步对属性进行量化计算,包括数据类型统一化处理、数据标准化处理和确定特征属性权重,具体过程如下:
2.1.2.1),数据类型统一化处理:令目标项目的字符型数据为1,若案例库中案例属性和目标项目的属性相同,则赋值1,若不同则赋值为0;
2.1.2.2),数据标准化处理:包括特征属性定量化和无量纲化两个部分,特征属性定量化是指将属性值变为(0,1)之间的小数,把数据映射到0~1范围之内处理,无量纲化在于将有量纲的表达式,变换为无量纲,再执行后续的案例相似度计算;
2.1.2.3),确定特征属性权重:对较为重要的特征属性给予更高的权重,对相对次要的特征属性给予较低的权重,同类型特征属性的权重相同。
6.根据权利要求2所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤三)具体为
3.1),构建接触网施工技术交底生成模型:
3.1.1),从服务器存储的接触网施工相关资料文档提取主题词,得到主题词集;
3.1.2),基于Word2vec模型计算主题词之间相似度,从而对主题词进行关键词扩展,得到关键词集;
3.1.3),对关键词集进行主题聚类,得到分主题的关键词集;
3.1.4),采用基于注意力机制的循环神经网络模型,生成段落文本;
3.2),训练接触网施工技术交底生成模型:
3.2.1),构建接触网施工技术交底文本语料特征库,存储在云端服务器;
3.2.2),基于已建立的语料特征库,对接触网施工技术交底生成模型进行训练:采用最大似然估计策略,在服务器端对接触网施工技术交底生成模型进行训练,在给定原始文本和参数时求解各个目标词的条件概率最大化:
其中,x表示原始文本,y表示目标序列,二者成对取自训练数据集D,模型训练时,目标序列中的y作为解码过程中下一时刻的输入值,求解下一个字符最大化的概率;
3.3),针对用户终端从手持智能设备输入的目标项目基础信息,调用服务端的接触网施工技术交底生成模型,自动生成技术交底内容文本,并返回用户终端。
7.根据权利要求6所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤3.1.4)具体为
给定一个包含k个关键词的主题聚类T={topic1,topic2,…,topick},根据该主题聚类中的这些关键词,自动生成一个长度为l的一段文本Text,Text={x1,x,…,xl},且该文本中的词汇全部来源于包含m个不同词汇的词汇表Dict={word1,word2,…,wordm};求解步骤如下:
3.1.4.1),构建引入注意力机制的循环神经网络模型:
3.1.4.1.1),基于Word2vec模型,为主题词集中的每个主题词、每个主题聚类中的各个关键词topici(1≤i≤k),以及段落文本中的各词汇tj(1≤j≤l),分别生成其向量表示;
3.1.4.1.2),以段落文本词汇tj按顺序输入RNN,将t+1时刻的输入设置为t时刻的输出,并以双层长短时记忆网络设置RNN每一时刻的网络结构,则采用条件概率语言模型,得到下一个词汇的出现概率为:
P(xt|T,xt-1,ht-1)=softmax(g(ht)) (3)
ht=f(Tt,xt-1,ht-1)
其中,softmax用于将输入映射为0-1之间的实数,并归一化确保和为1,可以将其输出视为是每个分类被取到的概率,g(·)是线性函数,f(·)为激活函数,且函数形式由LSTM网络结构所决定;
引入注意力机制来对LSTM神经网络模型生成的文本进行约束,核心思想是基于主题词向量与生成词汇的相似度,选择与主题词最相似的向量作为LSTM的输出,对主题聚类T={topic1,topic2,…,topick},将其用注意力得分来表示,则t时刻的主题向量表示Tt按下式计算:
其中,αt,j表示t时刻第j个主题词的的注意力得分,t为计时变量,j为计数变量,k代表主题词个数,tanh(·)为激活函数,gtj是在t时刻关于主题词topicj的注意力分数,Ct-1,j表示t-1时刻第j个主题词的权重,va,Wa,Ua均为矩阵,且需在模型训练中加以优化,Sim()是相似度计算函数,计算方法沿用公式(1),β取值范围为(0,1);
3.1.4.2),引入主题覆盖向量,保证生成的文本覆盖所有主题:引入k维主题覆盖向量Ct=[Ct,0,Ct,1,…,Ct,k],对应主题聚类T,其中,Ct,j表示t时刻第j个主题词的权重,k是最大主题词数,则有:
其中,score(topicj)表示从原始文本中抽取出的第j个主题词的主题得分;αt,j表示t时刻第j个主题词的的注意力得分,N表示长度为l的文本Text中实词的个数,dw为词向量的维度,Uf是一个由[k,dw]组成的矩阵,Tk表示主题词向量,σ(·)代表Sigmoid函数;
3.1.4.3),为每个词汇wi的生成概率设定相应附加项:
P(xt|T,xt-1,ht-1)=PV(xt|T,xt-1,ht-1)+PK(xt|T,xt-1,ht-1) (6)
其中:
ht=f(ht-1,xt-1,Tt)
gK(ht)和gV(ht)是两个参数不同的全连接层,V对应词汇表Dict,K指主题词表T。
8.根据权利要求6所述的一种接触网施工技术文档内容自动生成装置的自动生成方法,其特征在于,所述的步骤3.2.1)具体为:
3.2.1.1),针对云端服务器存储的包括接触网工程技术资料、接触网工程标准规范、设计说明、接触网工程产品说明书在内的原始文档,采用TextRank算法自动提取关键词,同时,结合人工标记,提取文本数据关键词,构建语义关键词集合,形成接触网施工技术交底文本语料特征库,将其存储在云端服务器;
3.2.1.2),对语料特征库中的文本数据执行包括格式标记去除、中文分词及词性标注、以及未登录词在内的预处理:格式标记是指单位符号和特殊符号等对于文本信息统计无关的特殊字符,需要在预处理阶段统一删除以免对模型训练产生干扰;中文分词和词性标注的目的在于将完整的句子切分成具有独立语义的最小单位——词汇,同时标注每个词的属性以便于后续识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982114.6A CN112241623B (zh) | 2020-09-17 | 2020-09-17 | 一种接触网施工技术文档内容自动生成装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982114.6A CN112241623B (zh) | 2020-09-17 | 2020-09-17 | 一种接触网施工技术文档内容自动生成装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241623A CN112241623A (zh) | 2021-01-19 |
CN112241623B true CN112241623B (zh) | 2024-04-19 |
Family
ID=74171018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010982114.6A Active CN112241623B (zh) | 2020-09-17 | 2020-09-17 | 一种接触网施工技术文档内容自动生成装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241623B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434760B (zh) * | 2021-06-25 | 2022-12-27 | 平安国际智慧城市科技股份有限公司 | 工法推荐方法、装置、设备及存储介质 |
CN116307566B (zh) * | 2023-03-12 | 2024-05-10 | 武汉大学 | 大型房屋建筑工程施工组织方案动态设计系统 |
CN116804691B (zh) * | 2023-06-28 | 2024-02-13 | 国网安徽省电力有限公司青阳县供电公司 | 一种用于电力系统的调度自动化设备故障监测方法 |
CN117494356B (zh) * | 2023-10-31 | 2024-06-18 | 成都建工第九建筑工程有限公司 | 一种基于bim技术的装配式施工方法 |
CN117151069B (zh) * | 2023-10-31 | 2024-01-02 | 中国电子科技集团公司第十五研究所 | 一种保障方案生成系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110688488A (zh) * | 2018-06-20 | 2020-01-14 | 南京网感至察信息科技有限公司 | 一种通用的知识图谱云服务系统 |
CN110990567A (zh) * | 2019-11-25 | 2020-04-10 | 国家电网有限公司 | 一种增强领域特征的电力审计文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
-
2020
- 2020-09-17 CN CN202010982114.6A patent/CN112241623B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688488A (zh) * | 2018-06-20 | 2020-01-14 | 南京网感至察信息科技有限公司 | 一种通用的知识图谱云服务系统 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110990567A (zh) * | 2019-11-25 | 2020-04-10 | 国家电网有限公司 | 一种增强领域特征的电力审计文本分类方法 |
Non-Patent Citations (2)
Title |
---|
基于知识元的学术论文内容创新性智能化评价研究;李贺;杜杏叶;;图书情报工作;20200105(01);全文 * |
自动生成知识库的设计和应用探索;王飞鸿;;科技资讯;20180513(14);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112241623A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241623B (zh) | 一种接触网施工技术文档内容自动生成装置及方法 | |
CN112860872B (zh) | 基于自学习的配电网操作票语义合规性的校验方法及系统 | |
CN111709235B (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN110188345B (zh) | 一种电力操作票的智能识别方法与装置 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN110543951B (zh) | 一种铁路桥梁检养修虚拟助理系统 | |
Lian et al. | Mining requirements knowledge from collections of domain documents | |
CN112559766A (zh) | 一种法律知识图谱构建系统 | |
CN112527997A (zh) | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 | |
CN107103363A (zh) | 一种基于lda的软件故障专家系统的构建方法 | |
CN113095050A (zh) | 一种智能成票方法、系统、设备及存储介质 | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
CN112308230A (zh) | 一种资产管理全生命周期知识库的构建及应用方法 | |
CN117151659A (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
CN115129842A (zh) | 一种用于户外变电站的智能问答方法及置于户外的机器人 | |
CN112256873B (zh) | 一种基于深度学习的变电检修工作任务多标签分类方法 | |
Hu | Research and implementation of railway technical specification question answering system based on deep learning | |
CN117852541A (zh) | 一种实体关系三元组抽取方法、系统及计算机设备 | |
CN116975707A (zh) | 一种基于深度学习的税号分类及关联要素识别方法 | |
CN116957236A (zh) | 一种基于知识图谱的电网告警信息辅助决策方法 | |
CN116226371A (zh) | 一种数字经济专利分类方法 | |
CN115759253A (zh) | 电网运维知识图谱构建方法及系统 | |
CN115455196A (zh) | 一种基于rfpc概念设计框架的设计图谱构建方法 | |
CN112199114B (zh) | 一种基于自注意力机制的软件缺陷报告分配方法 | |
CN115329047A (zh) | 调控多元数据综合查询方法、系统、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |