CN108920446A - 一种工程文本的处理方法 - Google Patents
一种工程文本的处理方法 Download PDFInfo
- Publication number
- CN108920446A CN108920446A CN201810379955.0A CN201810379955A CN108920446A CN 108920446 A CN108920446 A CN 108920446A CN 201810379955 A CN201810379955 A CN 201810379955A CN 108920446 A CN108920446 A CN 108920446A
- Authority
- CN
- China
- Prior art keywords
- module
- engineering
- document
- vector
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 73
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000008447 perception Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 12
- 235000013399 edible fruits Nutrition 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 description 25
- 238000010276 construction Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 239000011469 building brick Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种工程文本的处理方法,包括:从预先获取的工程文本中选取第一预设数量的文本进行标注;对标记文档进行分词;删除分词结果中的无关联部分,获得处理后的词袋;将所述工程词汇转化为预训练获得的词向量;利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。本发明解决了现有技术中工程文本的处理方法存在效率低的技术问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种工程文本的处理方法。
背景技术
城市建设是一种与社会各个领域都相关的建设活动,中国的城市建设正如火如荼地进行,管理人员和施工人员都处于供小于求的状态,对于工程进行中的施工文档进行分析、风险排查,不仅可以及时发现风险,排除隐患,还能够减少对相关人力物力的需求。
传统的工程规范检查需要人工检索工程施工报告,效率低下,往往不能及时处理突发情况。为了提高对工程文本的处理效率,现有技术中一般采用基于规则的方法以及基于传统机器学习的方法对工程文本进行处理。基于规则的方法需要人工定义规则,即为每一种工序定义其性质与类别,若某个语句中的某个动作满足定义的规则,则认定该动作属于该类别。然而,基于规则的方法主要依据特定的人工规则对文本进行分类,这种方案的分类效果强烈依赖于规则设定的好坏,并且需要大量的领域内专家制定抽取与分类规则,不具备大规模应用的可能性,并且在不同的领域间需要构建不同的抽取与分类规则,实现复杂且可移植性差。而基于传统的机器学习方法则主要包括使用支持向量机和朴素贝叶斯方法来对施工报告进行工序抽取与分类,这种方法需要对文档进行特征转换,即特征工程,而特征工程同样需要专门的领域相关人员深入理解业务系统,耗时耗力。
由此可见,现有技术中工程文本的处理方法存在效率低的技术问题。
发明内容
本发明实施例提供了一种工程文本的处理方法,用以解决或者至少部分解决现有技术中工程文本的处理方法效率低的技术问题。
第一方面,本发明提供了一种工程文本的处理方法,包括:
从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档;
对所述标记文档进行分词,获得分词结果;
删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
将所述工程词汇转化为预训练获得的词向量;
利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;
基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;
通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。
可选地,所述方法还包括:
将预先获取的工程文本中未标记的文本作为测试文本;
基于所述测试文本对所述双向递归神经网络模块进行测试。
可选地,在所述基于所述测试文本对所述双向递归神经网络模块进行测试之后,包括:
根据测试结果,对所述双向递归神经网络模块的参数进行调整。
可选地,所述对所述标记文档进行分词,获得分词结果,包括:
根据预先收集的建筑工程领域的术语,构建术语表;
根据所述术语表对所述标记文档进行分词,获得分词结果集合;
将所述分词结果集合中评分最高的分词结果作为所述分词结果,其中,所述评分由预设分词模型计算获得。
可选地,所述将所述工程词汇转化为预训练获得的词向量,包括:
对语料数据进行统计,获得词汇级别的共现矩阵;
基于梯度下降法对所述共现矩阵进行降维处理,获得所述词向量;
对所述工程词汇与所述词向量进行映射,将所述工程词汇转化为预训练获得的词向量。
可选地,所述双向递归神经网络模块包括前向模块和后向模块,所述基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量,包括:
将所述待处理的工程文本进行分词后转化为输入空间,所述输入空间包括向量序列;
通过所述前向模块从前向后对所述向量序列进行非线性变换,获得第一变换结果;
通过所述后向模块会从后向前地对向量序列进行非线性变换,获得第二变换结果;
基于所述第一变换结果和所述第二变换结果,获得状态序列,以所述状态序列作为所述输出向量。
可选地,所述基于所述第一变换结果和所述第二变换结果,获得状态序列,包括:
将所述第一结果和所述第二结果进行结合,获得结合结果;
对所述结合结果进行回归操作,获得所述状态序列。
可选地,所述通过条件随机场模型对所述输出向量进行抽取,包括:
通过所述条件随机场模型对所述输出向量进行实体识别,获得识别矩阵,其中,所述识别矩阵中的元素为一个实体类别转移至另一个实体类别的得分。
可选地,所述方法还包括:
从预先获取的工程文本中选取第二预设数量的文本作为开发数据集;
基于所述开发数据集对所述双向递归神经网络模块进行优化。
基于同样的发明构思,本发明第二方面提供了一种工程文本的处理装置,包括:
获取模块,用于从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档;
分词模块,用于对所述标记文档进行分词,获得分词结果;
删除模块,用于删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
转化模块,用于将所述工程词汇转化为预训练获得的词向量;
训练模块,用于利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;
处理模块,用于基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;
抽取和分类模块,用于通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在本发明实施例提供的方法中,通过对标记文档进行分词和删除不相关的部分后,可以获得包含工程词汇的词袋,然后对词袋中的词汇进行映射,转换为预训练获得的词向量,并通过词向量对双向递归神经网络和条件随机场进行训练,分别得到双向递归神经网络模块和条件随机场模块,再利用双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;并通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,从而获得与所述输出向量对应的工程文本的类别。一方面,由于本发明实施例提供的方法可以利用标记文档对双向递归神经网络进行训练,获得双向递归神经网络模块,并通过双向递归神经网络模块对待处理的工程文本进行处理,能够考虑整个工程文本的正序以及反序关系,因此对于工序的分类更加准确;并且通过双向递归神经网络模块可以直接对原始的自然语言即待处理的工程文本进行处理,相对于现有的需要人先进行特征提取,而后将手工提取的特征输入模型进行分类而言,本申请的方法中的双向递归神经网络模块可以自动提取特征,特征提取可以融入到模块中,因而不需要人工做大量的特征工程,从而可以大大提高对文本处理的效率。另一方面,可以同时利用条件随机场模块和全连接的感知机完成工序的抽取以及分类两大任务,进一步提高了对工程文本的效率。有效地解决了现有技术中工程文本的处理方法效率低技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种工程文本的处理方法的流程图;
图2为本发明实施例中一种工程文本的处理装置的结构框图。
图3为本发明实施例中双向递归神经网络模块的工作示意图。
具体实施方式
本发明实施例提供了一种工程文本的处理方法,用以解决或者至少部分解决现有技术中工程文本的处理方法效率低的技术问题。
本申请实施例中的技术方案,总体思路如下:
一方面,由于本发明实施例提供的方法可以利用标记文档对双向递归神经网络进行训练,获得双向递归神经网络模块,并通过双向递归神经网络模块对待处理的工程文本进行处理,能够考虑整个工程文本的正序以及反序关系,因此对于工序的分类更加准确;并且通过双向递归神经网络模块可以直接对原始的自然语言即待处理的工程文本进行处理,相对于现有的需要人先进行特征提取,而后将手工提取的特征输入模型进行分类而言,本申请的方法中的双向递归神经网络模块可以自动提取特征,特征提取可以融入到模块中,因而不需要人工做大量的特征工程,从而可以大大提高对文本处理的效率。另一方面,可以同时利用条件随机场模块和全连接的感知机完成工序的抽取以及分类两大任务,进一步提高了对工程文本的效率。有效地解决了现有技术中工程文本的处理方法效率低技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供一种工程文本的处理方法,如图1所示,该方法包括:
首先执行步骤S101:从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档。
具体来说,预先获取的工程文本通过预先收集获得,然后选取其中的一部分(即第一预设数量)对其进行标注,具体包含工序的标注以及工序类别的标注,并将标记后的数据集作为标记文档。作为一种可选实施方式,标记文档还可以按照一定的比例划分为训练集和开发集,而其他未标记的文本则为测试集。
为了进一步说明标记的方式,下面通过一个具体的示例予以介绍,对于一个工程文本“砌筑砖砌体时,砖应提前1~2d浇水湿润”来说,其标记的格式表1所示。
表1
在上表中,位于字符序列下的字母序列即为标记序列,标记序列中的每一个元素即为对应的字符的实体类别,其中,O代表其他类别,a1代表施工动作1,a2代表施工动作2,o1代表施工对象1,o2代表施工对象2,类别代表工序的分类。本发明实施例中,需要识别的工序种类以及分类的种类可以根据实际需求进行增加或者减少,在标记数据时将对应的类别做对应的改动即可。
然后执行步骤S102:对所述标记文档进行分词,获得分词结果。
在本申请实施方式中,可以采用现有的方法对标记文档进行分词,例如对于工程文本“使用递归神经网络对施工文档进行工序抽取”则会被分割为“使用递归神经网络神经网络递归神经网络对施工文档施工文档进行工序抽取”。
作为一种可选实施方式,对所述标记文档进行分词,获得分词结果,可以通过下述方式来实现:
根据预先收集的建筑工程领域的术语,构建术语表;
根据所述术语表对所述标记文档进行分词,获得分词结果集合;
将所述分词结果集合中评分最高的分词结果作为所述分词结果,其中,所述评分由预设分词模型计算获得。
具体来说,收集的建筑工程领域的术语可以由领域内专家定义的一些主流术语获得,然后构建术语表,在分词操作的时候参考构建术语表中的术语,使得分词更加准确。并通过预设分词模型计算各种分词结果的评分,将评分最高的分词结果作为本发明实施例中分词的最终结果。作为可选,分词的可以采用单一粒度分词的原则,使得分词结果更加可靠。
接下来执行步骤S103:删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
具体来说,分词结果中的无关联部分包括停用词、频率较低的词以及标点符号,停用词如“之”,“的”这类助动词。作为可选,可以预先构建停用词表,然后将分词结果与停用词表进行对比,如果包含停用词表中的词汇,则将其删除,获得包含工程词汇的词袋。
接下来执行步骤S104:将所述工程词汇转化为预训练获得的词向量。
具体来说,可以将步骤S103得到的词袋中的每一个词汇做一个映射,使得一个词汇被表达为一个维数固定的向量,而词汇对应的词向量事先通过预训练得到。
作为一种可选实施方式,将所述工程词汇转化为预训练获得的词向量可以通过下述方式来实现:
对语料数据进行统计,获得词汇级别的共现矩阵;
基于梯度下降法对所述共现矩阵进行降维处理,获得所述词向量;
对所述工程词汇与所述词向量进行映射,将所述工程词汇转化为预训练获得的词向量。
具体来说,向量的维数可以根据实际情况进行设置,例如40、50、60等维。首先对语料数据进行统计,可以得到一个词汇级别的共现矩阵,其中,矩阵中的每个元素即为任意两个词在同一句话中出现的频次的对数值,此时得到的矩阵存在离散词向量和高维且稀疏的特性,无法作为词向量,因此需要对上述共现矩阵进行降维。
作为可选,本发明实施例采用梯度下降法对此共现矩阵进行矩阵分解,通过最小化损失函数来确定各个字符的分布式表示,其中损失函数定义如下:
上式中,Xij是词wi和词wj在同一句话中共同出现的次数的对数,Vi是字符wi代表的词向量,Uj是字wj的代表的词向量,使用随机梯度下降法对上述损失函数最小化,最终得到的收敛值即为词语的向量表示M_c。
接下来将词袋里的每一个词做一个映射,映射的方式即为查表的方式。具体地,在统计语料数据、构建一个词频共现矩阵后,对该共现矩阵进行矩阵分解,即可得到每个单词对应的第一词向量(word embedding),并将其保存为键值对(键为词语,值为第一词向量),键值对则为表。查表就是根据词袋里的每个词,在保存的键值对里进行查找。最终结果即为原始自然语言对应的特征矩阵M_s。对于未登录的字符,统一将其映射到<UNK>代表的词向量。通过本步骤即可消除字符的二义性,并减少噪声带来的影响。
通过上述方法,对于施工文档中的一个句子,即可得到一个矩阵,矩阵的每一行即为一个词汇代表的词向量,矩阵行数和词袋中的词汇数量保持一致。
再执行步骤S105:利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块。
具体来说,可以利用词向量同时对双向递归神经网络和条件随机场进行训练,具体地,对于双向递归神经网络可以使用BPTT算法((Back Propagation Through Time))进行参数更新,对于条件随机场使用最大似然概率进行参数计算,训练后分别获得双向递归神经网络模块和条件随机场模块。
接下来执行步骤S106:基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量。
具体来说,可以将待处理的工程文本的向量矩阵输入Bi-LSTM网络模块,双向递归神经网络模块的前向LSTM模块和后向LSTM模块会分别对其进行处理,获得输出向量。
作为一种可选实施方式,所述双向递归神经网络模块包括前向模块和后向模块,所述基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量,包括:
将所述待处理的工程文本进行分词后转化为输入空间,所述输入空间包括向量序列;
通过所述前向模块从前向后对所述向量序列进行非线性变换,获得第一变换结果;
通过所述后向模块会从后向前地对向量序列进行非线性变换,获得第二变换结果;
基于所述第一变换结果和所述第二变换结果,获得状态序列,以所述状态序列作为所述输出向量。
具体来说,可以通过双向递归神经网络的前向LSTM模块从前向后对向量序列进行非线性变换,后向LSTM模块从后向前地对向量序列进行非线性变换分别得到第一变换结果和第二变换结果,然后将这两个模块输出第一变换结果和第二变换结果进行结合,获得就可以得到一个同时考虑前向和后向信息的抽象语言表达方式,即为状态序列,即为输出向量。作为可以选,可以将结合后的结果经过softmax操作。
其中,Bi-LSTM模块(双向递归神经网络模块)工作示意图如图3所示,输入特征矩阵里的每个圆代表一个词向量,前向LSTM和后向LSTM分别从前往后和从后往前读取词向量序列。对于前向LSTM网络,它会在每个时刻输入一个词向量(总共有T个时刻,T即为句子中词语的数量),并且在每个时候输出一个向量h,所以在读取完一个句子的特征矩阵(T x n,T为词语数量,n为词向量维度)之后,会输出前向LSTM的状态序列而后向LSTM模块同样会得到一个状态序列在各个位置输出的状态进行按位置拼接得到完整的隐状态序列这就是输出向量。
最后执行步骤S107:通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。
在具体的实施过程中,抽取和分类会共用一个Bi-lstm模块(双向递归神经网络模块),并通过条件随机场模块对输出向量进行抽取,全连接的多层感知机对输出向量进行分类。具体来说,分类是对句子属于哪个工序类别分类,是针对整个句子而言的,而抽取是提取出句子中的实体。抽取和分类的输入都是一句自然语言,例如工程文本为“在混凝土浇筑完毕之后,应该在5H之内加以覆盖和浇水”,则抽取的结果就是“混凝土”这一实体,分类的结果就是这个句子属于“先……后……”这类工序。本发明实施例提供的方法,并且通过双向递归神经网络模块可以直接对原始的自然语言即待处理的工程文本进行处理,相对于现有的需要人先进行特征提取,而后将手工提取的特征输入模型进行分类而言,本申请的方法中的双向递归神经网络模块可以自动提取特征,特征提取可以融入到模块中,因而不需要人工做大量的特征工程,从而可以大大提高对文本处理的效率。另一方面,可以同时利用条件随机场模块和全连接的感知机完成工序的抽取以及分类两大任务,进一步提高了对工程文本的效率。有效地解决了现有技术中工程文本的处理方法效率低技术问题。
需要说明的是,本发明实施例中的双向递归神经网络模块、条件随机场模块可以通过调用相关机器学习框架(如tensorflow、cafe、mxnet等)的相关API进行构建。
作为一种可选实施方式,通过条件随机场模型对所述输出向量进行抽取,包括:
通过所述条件随机场模型对所述输出向量进行实体识别,获得识别矩阵,其中,所述识别矩阵中的元素为一个实体类别转移至另一个实体类别的得分。
具体来说,可以将Bi-LSTM模块的输出向量,也就是发射矩阵M_e,输入条件随机场模块,通过条件随机场模块模块会对整个工序句子做一个句子级别的实体识别,得到一个矩阵,矩阵中的元素是从一个实体类别转移到另一个实体类别的得分。也就是说输出向量输入条件随机场模块后会得到一个标签序列,也就是对应的类别y=(y1,y2,…),那么对于句子的标签为y这一结果的打分为:
这里的y是o,o1,o2,a1,a2等。Pi,yi是Bi-LSTM层输出的发射矩阵的元素,而Ayi-byi则是CRF层输出的转移矩阵的元素。可以看出整个序列的打分是各个模块的分的总和,而每个位置的打分都通过两个部分得到,一部分是Bi-LSTM的输出的发射概率矩阵,另一部分则是CRF的输出转移概率矩阵。通过上述公式进行归一化处理后就得到y对应于原始自然语言的概率:
而在预测(解码)的过程中就通过使用动态规划的算法viterbi来求解得分最高的序列:
全连接的多层感知机的分类过程可以通过下述方式来实现:将Bi-LSTM模块输出的发射矩阵进行降维操作,使其从一个矩阵变为一个向量,然后将向量输入一个全连接的多层感知机,多层感知机的输出为一个one-hot向量,对该one-hot向量进行softmax归一化之后,向量中值最大的那个元素对应的类别即为预测类别。
作为一种可选实施方式,本发明实施例提供的方法还包括:
将预先获取的工程文本中未标记的文本作为测试文本;
基于所述测试文本对所述双向递归神经网络模块进行测试。
具体来说,对于抽取功能来说,测试文本主要是对测试训练好的双向递归神经网络模块的召回率与准确率。具体地,通过检查抽取出来的“工序”中,有多少是正确的“工序”,有多少不是“工序”,以及有哪些正确的“工序”没有被提取出来。而对于分类功能而言,需要检测分类结果中,正确分类的数量是多少。
作为一种可选实施方式,在所述基于所述测试文本对所述双向递归神经网络模块进行测试之后,包括:
根据测试结果,对所述双向递归神经网络模块的参数进行调整。
作为一种可选实施方式,所述方法还包括:
从预先获取的工程文本中选取第二预设数量的文本作为开发数据集;
基于所述开发数据集对所述双向递归神经网络模块进行优化。
具体来说,可以首先设置best_performance(超参数)指标,对于每个迭代过程中都会对双向递归神经网络模块进行一次测试,如果双向递归神经网络模块在开发集上的准确率优于best_performance,则将本次模型参数保存。然后设置另一个参数patient,如果在每一轮中,模型的准确率低于best_performance,则patient加一,当patient的值大于设定的最大迭代数时,则停止训练。最后得到的参数即为双向递归神经网络模块的最终参数。
基于同一发明构思,本申请还提供了与实施例中一种与工程文本的处理方法对应的装置,详见实施例二。
实施例二
本实施例提供一种工程文本的处理装置,如图2所示,该装置包括:
获取模块,用于从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档;
分词模块,用于对所述标记文档进行分词,获得分词结果;
删除模块,用于删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
转化模块,用于将所述工程词汇转化为预训练获得的词向量;
训练模块,用于利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;
处理模块,用于基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;
抽取和分类模块,用于通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别
由于本发明实施例二所介绍的装置,为实施本发明实施例一的工程文本的处理方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在本发明实施例提供的方法中,通过对标记文档进行分词和删除不相关的部分后,可以获得包含工程词汇的词袋,然后对词袋中的词汇进行映射,转换为预训练获得的词向量,并通过词向量对双向递归神经网络和条件随机场进行训练,分别得到双向递归神经网络模块和条件随机场模块,再利用双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;并通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,从而获得与所述输出向量对应的工程文本的类别。一方面,由于本发明实施例提供的方法可以利用标记文档对双向递归神经网络进行训练,获得双向递归神经网络模块,并通过双向递归神经网络模块对待处理的工程文本进行处理,能够考虑整个工程文本的正序以及反序关系,因此对于工序的分类更加准确;并且通过双向递归神经网络模块可以直接对原始的自然语言即待处理的工程文本进行处理,相对于现有的需要人先进行特征提取,而后将手工提取的特征输入模型进行分类而言,本申请的方法中的双向递归神经网络模块可以自动提取特征,特征提取可以融入到模块中,因而不需要人工做大量的特征工程,从而可以大大提高对文本处理的效率。另一方面,可以同时利用条件随机场模块和全连接的感知机完成工序的抽取以及分类两大任务,进一步提高了对工程文本的效率。有效地解决了现有技术中工程文本的处理方法效率低技术问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种工程文本的处理方法,其特征在于,包括:
从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档;
对所述标记文档进行分词,获得分词结果;
删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
将所述工程词汇转化为预训练获得的词向量;
利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;
基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;
通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将预先获取的工程文本中未标记的文本作为测试文本;
基于所述测试文本对所述双向递归神经网络模块进行测试。
3.如权利要求2所述的方法,其特征在于,在所述基于所述测试文本对所述双向递归神经网络模块进行测试之后,所述方法还包括:
根据测试结果,对所述双向递归神经网络模块的参数进行调整。
4.如权利要求1所述的方法,其特征在于,所述对所述标记文档进行分词,获得分词结果,包括:
根据预先收集的建筑工程领域的术语,构建术语表;
根据所述术语表对所述标记文档进行分词,获得分词结果集合;
将所述分词结果集合中评分最高的分词结果作为所述分词结果,其中,所述评分由预设分词模型计算获得。
5.如权利要求1所述的方法,其特征在于,所述将所述工程词汇转化为预训练获得的词向量,包括:
对语料数据进行统计,获得词汇级别的共现矩阵;
基于梯度下降法对所述共现矩阵进行降维处理,获得所述词向量;
对所述工程词汇与所述词向量进行映射,将所述工程词汇转化为预训练获得的词向量。
6.如权利要求1所述的方法,其特征在于,所述双向递归神经网络模块包括前向模块和后向模块,所述基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量,包括:
将所述待处理的工程文本进行分词后转化为输入空间,所述输入空间包括向量序列;
通过所述前向模块从前向后对所述向量序列进行非线性变换,获得第一变换结果;
通过所述后向模块会从后向前地对向量序列进行非线性变换,获得第二变换结果;
基于所述第一变换结果和所述第二变换结果,获得状态序列,以所述状态序列作为所述输出向量。
7.如权利要求6所述的方法,其特征在于,所述基于所述第一变换结果和所述第二变换结果,获得状态序列,包括:
将所述第一结果和所述第二结果进行结合,获得结合结果;
对所述结合结果进行回归操作,获得所述状态序列。
8.如权利要求1所述的方法,其特征在于,所述通过条件随机场模型对所述输出向量进行抽取,包括:
通过所述条件随机场模型对所述输出向量进行实体识别,获得识别矩阵,其中,所述识别矩阵中的元素为一个实体类别转移至另一个实体类别的得分。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
从预先获取的工程文本中选取第二预设数量的文本作为开发数据集;
基于所述开发数据集对所述双向递归神经网络模块进行优化。
10.一种工程文本的处理装置,其特征在于,包括:
获取模块,用于从预先获取的工程文本中选取第一预设数量的文本进行标注,获得标记文档;
分词模块,用于对所述标记文档进行分词,获得分词结果;
删除模块,用于删除所述分词结果中的无关联部分,获得处理后的词袋,所述词袋中包含工程词汇;
转化模块,用于将所述工程词汇转化为预训练获得的词向量;
训练模块,用于利用所述词向量分别对双向递归神经网络和条件随机场进行训练,获得双向递归神经网络模块和条件随机场模块;
处理模块,用于基于所述双向递归神经网络模块对待处理的工程文本进行处理,获得输出向量;
抽取和分类模块,用于通过条件随机场模块对所述输出向量进行抽取,同时通过全连接的多层感知机对所述输出向量进行分类,获得与所述输出向量对应的工程文本的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810379955.0A CN108920446A (zh) | 2018-04-25 | 2018-04-25 | 一种工程文本的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810379955.0A CN108920446A (zh) | 2018-04-25 | 2018-04-25 | 一种工程文本的处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108920446A true CN108920446A (zh) | 2018-11-30 |
Family
ID=64403116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810379955.0A Pending CN108920446A (zh) | 2018-04-25 | 2018-04-25 | 一种工程文本的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920446A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
WO2020181808A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 一种文本标点预测方法、装置、计算机设备及存储介质 |
CN112200546A (zh) * | 2020-11-06 | 2021-01-08 | 南威软件股份有限公司 | 基于bayes交叉模型的政务审批智能筛查方法 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
WO2022174436A1 (zh) * | 2021-02-22 | 2022-08-25 | 深圳大学 | 分类模型增量学习实现方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103898890A (zh) * | 2014-03-20 | 2014-07-02 | 中冶集团武汉勘察研究院有限公司 | 一种基于bp神经网络的双桥静力触探数据的土层量化分层方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107798435A (zh) * | 2017-11-09 | 2018-03-13 | 贵州电网有限责任公司 | 一种基于文本信息抽取的电力物资需求预测方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
-
2018
- 2018-04-25 CN CN201810379955.0A patent/CN108920446A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103898890A (zh) * | 2014-03-20 | 2014-07-02 | 中冶集团武汉勘察研究院有限公司 | 一种基于bp神经网络的双桥静力触探数据的土层量化分层方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107798435A (zh) * | 2017-11-09 | 2018-03-13 | 贵州电网有限责任公司 | 一种基于文本信息抽取的电力物资需求预测方法 |
Non-Patent Citations (6)
Title |
---|
孙鑫等: "问答中的问句意图识别和约束条件分析" * |
李华等: "结合全局词向量特征的循环神经网络语言模型" * |
李华等: "结合全局词向量特征的循环神经网络语言模型", 《信号处理》 * |
裴楠等: "基于计数模型的Word Embedding算法", 《沈阳航空航天大学学报》 * |
黄磊等: "基于递归神经网络的文本分类研究" * |
黄磊等: "基于递归神经网络的文本分类研究", 《北京化工大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181808A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 一种文本标点预测方法、装置、计算机设备及存储介质 |
CN110516241A (zh) * | 2019-08-26 | 2019-11-29 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN112200546A (zh) * | 2020-11-06 | 2021-01-08 | 南威软件股份有限公司 | 基于bayes交叉模型的政务审批智能筛查方法 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
WO2022174436A1 (zh) * | 2021-02-22 | 2022-08-25 | 深圳大学 | 分类模型增量学习实现方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN107918782A (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN112733866B (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN108563703A (zh) | 一种罪名的判定方法、装置及计算机设备、存储介质 | |
CN106547735A (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
CN105740227B (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110032739A (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN107665248A (zh) | 基于深度学习混合模型的文本分类方法和装置 | |
CN109947931A (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
Tian et al. | SEMSDNet: A multiscale dense network with attention for remote sensing scene classification | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN107679135A (zh) | 面向网络文本大数据的话题检测与跟踪方法、装置 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181130 |
|
RJ01 | Rejection of invention patent application after publication |