CN112256939A - 一种针对化工领域的文本实体关系抽取方法 - Google Patents
一种针对化工领域的文本实体关系抽取方法 Download PDFInfo
- Publication number
- CN112256939A CN112256939A CN202010978733.8A CN202010978733A CN112256939A CN 112256939 A CN112256939 A CN 112256939A CN 202010978733 A CN202010978733 A CN 202010978733A CN 112256939 A CN112256939 A CN 112256939A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- entity
- chemical field
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000126 substance Substances 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 68
- 238000002372 labelling Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000013500 data storage Methods 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 7
- 150000005829 chemical entities Chemical class 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 239000002994 raw material Substances 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000003889 chemical engineering Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 4
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 239000001257 hydrogen Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- XEKOWRVHYACXOJ-UHFFFAOYSA-N Ethyl acetate Chemical compound CCOC(C)=O XEKOWRVHYACXOJ-UHFFFAOYSA-N 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 238000013475 authorization Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 229910052760 oxygen Inorganic materials 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- PPBRXRYQALVLMV-UHFFFAOYSA-N Styrene Chemical compound C=CC1=CC=CC=C1 PPBRXRYQALVLMV-UHFFFAOYSA-N 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 1
- JIGUQPWFLRLWPJ-UHFFFAOYSA-N Ethyl acrylate Chemical compound CCOC(=O)C=C JIGUQPWFLRLWPJ-UHFFFAOYSA-N 0.000 description 1
- 239000005977 Ethylene Substances 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012824 chemical production Methods 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- PNJWIWWMYCMZRO-UHFFFAOYSA-N pent‐4‐en‐2‐one Natural products CC(=O)CC=C PNJWIWWMYCMZRO-UHFFFAOYSA-N 0.000 description 1
- QQONPFPTGQHPMA-UHFFFAOYSA-N propylene Natural products CC=C QQONPFPTGQHPMA-UHFFFAOYSA-N 0.000 description 1
- 125000004805 propylene group Chemical group [H]C([H])([H])C([H])([*:1])C([H])([H])[*:2] 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对化工领域的文本实体关系抽取方法,具体处理步骤如下:1)数据采集步骤、2)数据标注步骤、3)关系抽取步骤、4)模型优化步骤;本发明通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。
Description
技术领域
本发明涉及文本提取技术领域,更具体的说,它涉及一种针对化工领域的文本实体关系抽取方法。
背景技术
随着大数据时代的到来,互联网在快速发展,信息化水平也在不断地提高,人们在生活的各个领域中产生了大量的数据。人们在化工领域为我国经济发展做出巨大贡献的同时,化工产品的易燃、易爆等特点致使化工事故也在频繁发生,化工事故无论是对企业还是环境造成的破坏都是巨大的。化工数据专业性和复杂性高、知识密度大,如何快速而准确地从海量的化工数据中获取到有用的知识,从而减少化工生产过程中的不安全因素,减少事故的发生,成为化工领域的一个难点。为了更加高效地挖掘更有价值且更加准确的信息,需要机器更加智能地理解自然语言的语义信息。目前由语义网络(SemanticNetwork)发展而来的知识图谱能够提取知识的体系结构,建立起实体之间的内在关联。知识图谱的作用是从非结构化、半结构化数据中构建出结构化的三元组结构<头实体,关系,尾实体>(h,r,t),其本质是由头实体、关系、尾实体组成的一个有向图,头实体和尾实体为节点,关系为边。
如何构建完善化工领域的化工领域知识图谱,更清晰的发现实体之间的关联关系,使得事故分析更加的精准高效;使得事故分析更加节省人力物力,提高效率;并且进一步为故障分析做有效地数据支撑,和便于深度搜索,做化工安全领域上的一些分析和安全预警等方面的作用。
发明内容
本发明提供了一种通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。
本发明的技术方案如下:
一种针对化工领域的文本实体关系抽取方法,具体处理步骤如下:
1)数据采集步骤:首先使用MD5技术将任意长度的URL进行编码,然后使用布隆过滤器过滤掉重复的网页数据;具体包括数据采集层、数据转换层、词典提取层和数据存储层;
数据采集层是通过网络爬虫技术从开放知识库中爬取化工领域相关的原始材料,将其转换为文本格式的数据并进行存储;
数据转换层是PDF数据和图片数据转换为文本格式数据,再进行数据库存储;当遇到图片数据,就执行图片解析操作;当遇到PDF数据,进行PDF解析操作,且当PDF数据解析出的内容是文本类型时,直接将数据进行数据库存储,如果解析出的内容包含图片数据,就对其中的图片数据执行图片解析操作;
词典提取层运用自然语言处理技术对从数据采集层里得到的数据进行进一步地处理;首先通过分词技术将数据采集层得到的文本内容转化为词袋模型,然后进行关键词提取、词扩展、词降噪等操作,初步筛选出包含化工领域实体的词集;
数据存储层进行数据的存储;
2)数据标注步骤:通过众包技术对步骤101)收集的数据进行标注,首先判断相邻两个实体之间是否存在关系,再判断两个实体之间存在何种关系;具体标注包括数据存储层、任务管理层、用户交互层和前台界面展示层;
数据存储层主要负责未标注数据的存储和读取以及已完成标注数据的存储;
任务管理层主要负责未标注数据的任务划分以及已标注数据的标签选择;将任务进行合理分割,以分发给不同的用户进行标注,同时,完成对标注结果的收集汇总工作,并通过预定义的标注算法,选择出每个实体关系相应的正确标签;
用户交互层主要负责处理用户输入的数据并对用户数据进行校验,并将任务管理的结果传递到前台界面以及将用户的标注结果反馈到任务管理层;
前台界面展示层主要负责向用户展示相关信息以及收集用户的输入信息;
3)关系抽取步骤:通过混合神经网络模型进行关系抽取建模,并提取数据之间的关系;混合神经网络模型包括输入层、Embedding层、BiGRU层、Attention层、PCNN层和Softmax层;
输入层是输入Word2vec预训练词向量;Embedding嵌入层则是将输入的字符型数据转换为可计算的数值型向量数据;然后经过BiGRU网络层收集句子的序列特征;再通过Attention层对收集到的数据信息进行重新加权分配后,输入到PCNN神经网络中先执行卷积操作,然后再进行Softmax池化层;其中,池化层将卷积结果基于两个给定实体的位置分为三段,对每一个段做最大池化操作,捕获此两个实体之间的结构信息和其它相关环境特征;
4)模型优化步骤:通过Ranger优化器来最小化分类结果和真实类别之间的交叉熵损失进行参数的学习优化,通过对标签进行平滑处理来有效降低模型过拟合。
进一步的,数据采集层首先将初始URL即种子数据,加入到待抓取的URL队列;通过URL对网站进行访问,选择广度优选或深度优先策略进行选择访问,然后运用网络爬虫技术进行对访问网站的数据爬取,采集到的数据为网页源码,对网页源码数据运用XPath和/或正则表达式进行解析,将解析得到的符合需求的文本数据直接存储到本地文件系统,另外将解析得到的URL链接进行重复判断,决定是将去重后的URL加入待抓取URL队列还是结束抓取任务。
进一步的,词典提取层的提取如下:首先输入在数据采集层采集到的化工领域数据集;运用Jieba分词工具对数据集进行分词操作,同时运用TF-IDF和TextRank算法将分词处理好的领域数据集进行关键词提取,并将前面所述两种算法提取到的关键词进行词性筛选;然后对筛选结束后的名词根据它们在前面所述两种算法中的权重进行分别排序,再进行阈值筛选,得到候选实体集。
进一步的,候选实体集进行扩展:输入候选实体集,并运用正则匹配的方式将候选实体集中所有实体名词所在的位置区域查找并标记出来,遵循位置区域标记规则:同一个位置区域不能被两个词同时所覆盖,设定由长度较长的词优先覆盖;设定一个长度阈值,在长度阈值范围内从标记好的词位置区域向两边进行词扩展操作,查找可疑实体名词;其中在进行词扩展操作时,查找词为噪音词时,运用自然语言处理方法对这些词进行了分词和词性标注,然后运用规则进行过滤清洗,并将清洗后的实体名词合并到原实体名词上,得到候选扩展实体集。
进一步的,数据存储层使用了MongoDB数据库、MySQL数据库和Neo4j数据库三种存储系统,MongoDB是基于文档存储的非关系型数据库,MySQL是关系型数据库,Neo4j是图数据库;对于待标注化工领域文本和化工实体词典数据,使用文件系统MongoDB进行存储;对于预标注完成的化工实体标注数据和完成实体关系标注的化工数据,使用MySQL来进行存储;对于基于众包的标注的结果及最终识别的实体关系集,采用Neo4j来进行存储。
进一步的,步骤2)中任务管理层具体包括任务构造流程和标签选择流程;
任务构造流程,首先从数据存储层获取数据,即化工领域文本、预标注数据以及校验样例数据,化工领域文本数据是搜集的化工领域的文章;化工领域预标注数据是已经进行初步实体标注的数据集,化工领域标准数据集是经过化工领域专家做过校正的化工领域标准数据集;通过使用化工领域标准数据集来构造校验样例队列,使用化工领域预标注数据构造标注队列,将两个队列进行混合,即为混合标注队列,该标注队列即为最终分发给所有进行标注的用户的标注队列;
标签选择流程,当用户标注完成之后,标注的结果会直接以表单的形式提交到服务器,用户在标注的过程中,对混合队列进行标注,混合队列中包含两种数据,校验样例数据和待标注数据,需要对两种数据进行标注;服务器对每个用户收到的校验样例队列进行统计,并通过如下公式对各个用户对于真实数据的可信度进行评估:
其中,Scorei用于表示单个用户评价得分的标准,ki表示用户i标记正确的校验数据的数量,ni表示用户i标记过的校验数据的总个数,Scorei表示用户i的得分情况;T表示对于每条数据,参与标注该条数据的用户集合,Si表示对于每条数据,用户i在该条数据上所占的权重。
进一步的,BiGRU层由单向的、方向相反的两个GRU神经网络组成,在每一时刻,数据构成的序列会同时被输入到方向相反的两个GRU单元中,输出结果则由这两个单向GRU单元共同决定;BiGRU层的输出是两个结果向量序列,包含完整的上下文信息,具体公式如下:
其中,qn为句子向量S{q1,q2,...,qn}中的实值向量,将句子向量S中的所有实值向量的正序和逆序序列送入BiGRU网络中,最终将正序向量和逆序向量的向量之和合并,得BiGRU的输出向量Hn;qn是第n个词xn的词向量和实体相对位置向量的组合;
Attention层来对BiGRU的结果进行加权处理,BiGRU层输出的向量表示为H{H1,H2,...,Hn},将PCNN层的输入向量表示T{T1,T2,...,Tn};Attention层先通过如下余弦相似度公式获取相似度值:
其中,第一轮数据中T的初始值为H;Hj∈Rd、Ti∈Rd;对相似度值进行如下公式的归一化处理:
其中,Lx为序列长度,e为常数;从而得到Ti和H所对应的权值向量ai={a1a2,...,an};最终通过如下公式整合得到Attention层的最终值T:
本发明的优点在于:
本发明为了获取化工领域实体关系抽取所需数据,包括化工领域文本数据集和化工领域实体词典,其中着重介绍了实体词典的提取,实体词典的建立是化工领域实体关系抽取任务中必不可少的关键一步,基于众包的实体校对系统的建立为后续基于众包的关系标注以及化工领域实体关系抽取打下了基础。
本发明的众包系统会将一个大型的任务分解为众多的子任务,然后充分利用互联网的优势将这些子任务通过互联网分发的形式发布到互联网上的各个节点上来分别解决这些子任务,最终将完成的结果进行合并发回任务发布方,通过众包方式可以快速、灵活地应用互联网上的资源。
本发明加入了Attention机制进行优化,原因是Attention机制可以通过权值分配自动关注对关系抽取影响力较大的序列元素,尤其是本文的引入方式,Attention可以自动对齐BiGRU模型的输出和PCNN的输入,并在输入和输出之间对每个元素分别进行加权赋值处理,使得BiGRU的输出能够更合理更有效地被PCNN所利用,提高所提取到的信息的准确率。
本发明通过构建基于BiGRU和PCNN的混合神经网络模型来完成本文实体关系抽取的相关工作,并通过网络爬虫和众包技术采集到相应数据集,从而获得相应关系更合理、全面、高精准的的一种针对化工领域的文本实体关系抽取方法。
附图说明
图1为本发明的数据采集与处理系统图;
图2为本发明的数据采集流程图;
图3为本发明的数据转换流程图;
图4为本发明的候选实体集提取流程图;
图5为本发明的候选实体集扩展流程图;
图6为本发明的候选扩展实体集降噪过程图;
图7为本发明的众包的关系抽取过程图;
图8为本发明的众包标注子系统架构图;
图9为本发明的任务构造流程图;
图10为本发明的标签选择流程图;
图11为本发明的模型结构图;
图12为本发明的BiGRU体系结构图;
图13为本发明的Attention层结构图;
图14为本发明的神经网络训练过程图。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明,文中未描述或未详细说明的部分均可采用常规技术手段进行实现。
如图1至图14所示,一种针对化工领域的文本实体关系抽取方法,具体处理步骤如下:
1)数据采集步骤:首先使用MD5技术将任意长度的URL进行编码,然后使用布隆过滤器过滤掉重复的网页数据;具体包括数据采集层、数据转换层、词典提取层和数据存储层;
数据采集层是通过网络爬虫技术从开放知识库中爬取化工领域相关的原始材料,将其转换为文本格式的数据并进行存储。一般采集的是来自于百度百科的网页数据,原因如下:
(1)百度百科是国内最具权威的开放领域知识库,而且里面涵盖着非常广泛的实体以及语义关系,词条数是达到千万级别的,数据量规模庞大;
(2)百度百科的词条是允许注册并登录百度网站的百度用户参与创建和编辑的,更新频率高,能够获取到更加精确与完善的词条信息;
(3)百度百科网页大部分都是以HTML网页的格式发布到互联网上,因此可以直接从HTML网页的源代码中提取本文所需的化工文本数据。
具体数据采集层首先将初始URL即种子数据,加入到待抓取的URL队列;通过URL对网站进行访问,选择广度优选或深度优先策略进行选择访问,然后运用网络爬虫技术进行对访问网站的数据爬取,采集到的数据为网页源码,对网页源码数据运用XPath和/或正则表达式进行解析,将解析得到的符合需求的文本数据直接存储到本地文件系统,另外将解析得到的URL链接进行重复判断,决定是将去重后的URL加入待抓取URL队列还是结束抓取任务。
数据转换层是PDF数据和图片数据转换为文本格式数据,再进行数据库存储;一般数据采集层包括直接采集到的数据和离线数据,采集到的数据可以直接进行数据库存储,而离线数据主要包括化工领域的PDF数据和图片数据,无法直接获取其中的信息。因此当遇到图片数据,就执行图片解析操作;当遇到PDF数据,进行PDF解析操作,且当PDF数据解析出的内容是文本类型时,直接将数据进行数据库存储,如果解析出的内容包含图片数据,就对其中的图片数据执行图片解析操作。图片解析操作流程一般是首先对图片进行识别,然后根据图片的内容对其进行版面分割,最后使用百度OCR开放接口对里面的文本进行识别。因为OCR是按行进行识别的,识别准确度由probability表示,本文根据准确度对识别出的数据进行清洗,去掉识别率不足的内容,最后对识别结果进行拼接聚合,得到最终的文本内容并由words字段表示。
词典提取层运用自然语言处理技术对从数据采集层里得到的数据进行进一步地处理;首先通过分词技术将数据采集层得到的文本内容转化为词袋模型,然后进行关键词提取、词扩展、词降噪等操作,初步筛选出包含化工领域实体的词集。因为初步获取到的词集里是包含一些噪音词的,不能直接将它们用于实体关系抽取的标注,否则会严重影响抽取性能,因此需要进行数据清洗操作,一般通过基于众包的标注系统从初步获取到的词集里进一步提纯词典,然后将其用于实体定位和边界识别操作等预标注任务中,可以提高本文实体关系抽取任务中的基于众包的标注工作的效率。
具体词典提取层的提取如下:首先输入在数据采集层采集到的化工领域数据集;运用Jieba分词工具对数据集进行分词操作,同时运用TF-IDF和TextRank算法将分词处理好的领域数据集进行关键词提取,并将前面所述两种算法提取到的关键词进行词性筛选;然后对筛选结束后的名词根据它们在前面所述两种算法中的权重进行分别排序,再进行阈值筛选,得到候选实体集。
其中TF-IDF是一种基于统计特征的算法,其原理是根据计算出的局部词频和全局词频来提取关键词,该算法的优点是易于理解和实现。TextRank算法是一种基于图的排序算法,将图论、矩阵等数学知识应用于文本关键词提取中,其原理是利用图的拓扑加权来提取关键词。结合了TF-IDF和TextRank两种提取算法,充分发挥两种算法的优势来提取化工领域文本数据中的领域名词,从而实现化工领域实体词典的构建。
词典提取层运用实体词典提取到实体数据集具体步骤如下:
1.1.1)输入在3.1节所述的数据采集层采集到的化工领域数据集;
1.1.2)运用Jieba分词工具对数据集进行分词操作,选择Jieba分词工具是因为它的实现是基于Python的,API较为友好,另外相比与HanLP、StanfordNLP等分词工具,其在对大批量数据进行分词时具有较高的性能;
1.1.3)同时运用TF-IDF和TextRank算法将分词处理好的领域数据集进行关键词提取;
1.1.4)将前面所述两种算法提取到的关键词进行词性筛选;
1.1.5)然后对筛选结束后的名词根据它们在前面所述两种算法中的权重进行分别排序,然后再进行阈值筛选,从而达到排除掉不符合条件的噪音词,最终得到候选实体集。
因为运用实体词典提取算法得到的实体数据集里面的实体名词极少数的是长实体,即长度比较长的实体,但是在化工领域实体关系抽取任务中实体词典里面大部分是短实体是不够完善的。实际上,化工领域的实体集里面存在的长实体数量不在少数,并且这些长实体大多数是不太常见的名词。根据观察发现化工领域长实体大多都是复合词,如“丙烯酸乙酯”可以看做是“丙烯”和“酸乙酯”的复合词,这种复合词有很强的专业性,比较难以通过普通的名词识别方式将其准确识别出来,因此还需要运用词典扩展来增大长实体的覆盖度,即进行候选实体集进行扩展。
候选实体集进行扩展:输入候选实体集,并运用正则匹配的方式将候选实体集中所有实体名词所在的位置区域查找并标记出来,遵循位置区域标记规则:同一个位置区域不能被两个词同时所覆盖,设定由长度较长的词优先覆盖;设定一个长度阈值,在长度阈值范围内从标记好的词位置区域向两边进行词扩展操作,查找可疑实体名词;其中在进行词扩展操作时,查找词为噪音词时,运用自然语言处理方法对这些词进行了分词和词性标注,然后运用规则进行过滤清洗,并将清洗后的实体名词合并到原实体名词上,得到候选扩展实体集。即具体通过如下步骤实现:
1.2.1)输入通过实体词典提取算法得到的候选实体集;
1.2.2)运用正则匹配的方式将候选实体集中所有实体名词所在的位置区域查找并标记出来,遵循位置区域标记规则:同一个位置区域不能被两个词同时所覆盖,设定由长度较长的词优先覆盖;
1.2.3)设定一个长度阈值,在长度阈值范围内从标记好的词位置区域向两边进行词扩展操作,即查找是否有可疑实体名词;
1.2.4)在进行词扩展操作时,查找到的极大部分的词都是噪音词,为了去掉这些噪音词的干扰,运用了自然语言处理方法对这些词进行了分词和词性标注,然后运用规则过滤的方式对可疑实体名词进行清洗,并将规则清洗后的实体名词合并到原实体名词上,最终得到候选扩展实体集。
经过词扩展得到候选扩展实体集后,实体词典已经基本构建完成了,但是其中仍然会包含一些噪音词,因此需要通过对候选扩展实体集进行二次集体降噪,发现其中存在问题的实体名词有以下三种:第一种其中包含着化工领域实体名词,如“白磷着火”。第二种是不完整的化工领域实体名词,如准确词应当是“苯乙烯”,结果只标记出了“乙烯”。第三种完全不包含化工领域实体名词,如“爆炸”。针对以上几种情况,为进一步地精确实体词典,提高本文实体词典的质量,具体降噪步骤如下:
1.3.1)输入采集到的化工领域文本数据集和经过实体词典扩展得到的候选扩展实体集;
1.3.2)使用候选扩展实体集对文本数据集进行实体词的位置区域标记,遵循位置区域标记规则:每个实体仅需标记出其首次出现的位置区域;
1.3.3)为了清除掉上文所述的实体名词,本文设计并实现了基于众包的实体校对系统,该系统的输入即为根据已标注好的词汇在化工领域文本数据集中的位置获取到的上下文片段,通过人工的方式对系统中的词汇进行更精确的校验,通过人工校验的方式进行词典降噪是既方便又精准的方式,人工操作主要有筛掉完全不包含化工领域实体名词的词和通过使用“调整按钮”调整前文所述的另外两种问题词汇的边界,最终获取到本文实体关系抽取所需的实体词典。
2)数据标注步骤:通过众包技术对步骤101)收集的数据进行标注,首先判断相邻两个实体之间是否存在关系,再判断两个实体之间存在何种关系。具体标注包括数据存储层、任务管理层、用户交互层和前台界面展示层;
数据存储层主要负责未标注数据的存储和读取以及已完成标注数据的存储。数据存储层使用了MongoDB数据库、MySQL数据库和Neo4j数据库三种存储系统,MongoDB是基于文档存储的非关系型数据库,MySQL是关系型数据库,Neo4j是图数据库;对于待标注化工领域文本和化工实体词典数据,使用文件系统MongoDB进行存储;对于预标注完成的化工实体标注数据和完成实体关系标注的化工数据,使用MySQL来进行存储;对于基于众包的标注的结果及最终识别的实体关系集,采用Neo4j来进行存储,便于可视化展示。为了方便进行化工领域实体关系标注,首先对标注工作使用如下表1的表结构进行建模。
表1标注所用的表结构
当完成实体关系预标注过后,上述表结构的前八个字段均被填写完毕,如语料中有一句话“氢气和氧气燃烧生成水”,在完成预标注后对应字段的值如下表2所示。然后将如表2所示的预标记记录和对应的文本送入标注系统进行标注,标注的结果即为relation的值,如在上述“氢气和氧气燃烧生成水”这个例子中,最终标注完成relation的值为“生成物”。
表2标注完成数据表结构
任务管理层主要负责未标注数据的任务划分以及已标注数据的标签选择;将任务进行合理分割,以分发给不同的用户进行标注,同时,完成对标注结果的收集汇总工作,并通过预定义的标注算法,选择出每个实体关系相应的正确标签;
任务管理层具体包括任务构造流程和标签选择流程;
如图9所示,任务构造流程,首先从数据存储层获取数据,即化工领域文本、预标注数据以及校验样例数据,化工领域文本数据是搜集的化工领域的文章;化工领域预标注数据是已经进行初步实体标注的数据集,化工领域标准数据集是经过化工领域专家做过校正的化工领域标准数据集;通过使用化工领域标准数据集来构造校验样例队列,使用化工领域预标注数据构造标注队列,将两个队列进行混合,即为混合标注队列,该标注队列即为最终分发给所有进行标注的用户的标注队列。
如图10所示,标签选择流程,当用户标注完成之后,标注的结果会直接以表单的形式提交到服务器,用户在标注的过程中,对混合队列进行标注,混合队列中包含两种数据,校验样例数据和待标注数据,需要对两种数据进行标注;服务器对每个用户收到的校验样例队列进行统计,并通过如下公式对各个用户对于真实数据的可信度进行评估:
其中,Scorei用于表示单个用户评价得分的标准,ki表示用户i标记正确的校验数据的数量,ni表示用户i标记过的校验数据的总个数,Scorei表示用户i的得分情况;T表示对于每条数据,参与标注该条数据的用户集合,Si表示对于每条数据,用户i在该条数据上所占的权重,exp为语言函数。
在每个用户标注完成之后,各个用户的得分情况可以直接计算出,但是在进行用户权重的计算时,由于每条数据参与的用户可能有所不同,所以对于每条数据的权重计算无法在标注完成后,一次性计算出来,而是需要针对每条数据,逐个进行计算各自的权重,公式2即为权重的计算方式。若一条数据有20个人参与标注,那么首先计算出这20个人的得分情况,然后再根据公式2计算出每个用户在该数据上所占权重,然后再根据用户标签选择的情况,计算出该条数据各个类别标注上的累加权重,最终,累加权重最高的标签类别,即为选定标注类别。由于人为主观因素存在及基于众包的标注的随意性,导致可能存在一部分的用户标记具有无效性,此外,由于领域关系抽取需要的训练集精度要求较高,因此,需要设定阈值(经过统计实验一般设定在0.7为佳)来排除掉得分较低的用户和最大累积权值较低的数据,最终得到精度较高的结果。
用户交互层主要负责处理用户输入的数据并对用户数据进行校验,并将任务管理的结果传递到前台界面以及将用户的标注结果反馈到任务管理层;前台界面展示层主要负责向用户展示相关信息以及收集用户的输入信息。
3)关系抽取步骤:通过混合神经网络模型进行关系抽取建模,并提取数据之间的关系;混合神经网络模型包括输入层、Embedding层、BiGRU层、Attention层、PCNN层和Softmax层;
输入层是输入Word2vec预训练词向量;Embedding嵌入层则是将输入的字符型数据转换为可计算的数值型向量数据;然后经过BiGRU网络层收集句子的序列特征;再通过Attention层对收集到的数据信息进行重新加权分配后,输入到PCNN神经网络中先执行卷积操作,然后再进行Softmax池化层;其中,池化层将卷积结果基于两个给定实体的位置分为三段,对每一个段做最大池化操作,捕获此两个实体之间的结构信息和其它相关环境特征;
Embedding输入层利用word2vec算法进行词嵌入训练,生成每个单词的dw维词向量。为了充分获取句子中词语的句法和语义信息,利用相对位置特征来记录句子中每个词到两个实体的相对距离,例如“氢气和氧气燃烧生成水”中,词“生成”到头实体“氢气”的相对距离为7,到尾实体“水”的相对距离为-2。将这两个相对距离映射成随机初始化的两个dp维的位置向量。即句子向量S{q1,q2,...,qn},是由n个词的实值向量qn表示而成,其中qn是第n个词xn的词向量和实体相对位置向量的组合。S∈Rn*d,即属于实数域,其中向量维度d=dw+dp*2。
BiGRU层由单向的、方向相反的两个GRU神经网络组成,在每一时刻,数据构成的序列会同时被输入到方向相反的两个GRU单元中,输出结果则由这两个单向GRU单元共同决定;BiGRU层的输出是两个结果向量序列,包含完整的上下文信息,具体公式如下:
其中,qn为句子向量S{q1,q2,...,qn}中的实值向量,将句子向量S中的所有实值向量的正序和逆序序列送入BiGRU网络中,最终将正序向量和逆序向量的向量之和合并,得BiGRU的输出向量Hn;qn是第n个词xn的词向量和实体相对位置向量的组合。
整个双向BiGRU层结构如图12所示,由下到上为数据正向传递的方向,输入层接受数据,并同时将数据按照正序和逆序送入两个GRU神经网络中,并将两个网络最终的计算结果进行合并计算。其中采用的合并方式为向量尾部追加的方式,还可以使用向量叠加的方式,即分别对各个向量的各个维度进行简单的加和。BiGRU层中,由于符号序列无法直接在神经网络中进行计算,因此在Embedding层利用了词嵌入技术将符号序列中的元素,转换为了数值化的向量序列。将句子向量S{q1,q2,...,qn}的正序和逆序序列送入BiGRU网络中,最终将计算结果合并,得到H{H1,H2,...,Hn},即为BiGRU的输出向量。
Attention层来对BiGRU的结果进行加权处理,是为了进一步更好地利用BiGRU层抽取到的语义特征。如图13所示为Attention层结构,因BiGRU层输出的向量表示为H{H1,H2,...,Hn},将PCNN层的输入向量表示T{T1,T2,...,Tn};所以Attention层先通过如下余弦相似度公式获取相似度值:
其中,在第一轮数据中T的初始值为H,其中Hj∈Rd、Ti∈Rd。对相似度值进行如下公式的归一化处理:
其中,Lx为序列长度,从而得到Ti和H所对应的权值向量ai={a1a2,...,an};最终通过如下公式整合得到Attention层的最终值T:
至此,Attention层的加权调整计算完毕,经过Attention的加权计算之后,对分类影响重要程度较大的词会获得较大权重,而对分类影响较小的词会获得较小的权重。
PCNN层可以关注到序列的局部特征并捕捉特征之间的联系,为了进一步识别实体之间的语义关系,卷积层将Attention层的输出向量序列T{T1,T2,...,Tn}结合权重向量w进行分段卷积操作。权重矩阵W被认为是卷积的滤波器。假设滤波器长度为l,因此w∈Rl*d。
为了更好地捕获不同特征通常需要在卷积中使用多个滤波器,假设使用m个滤波器W={w1,w2,...,wm}。卷积操作涉及到取w和在序列T中每个l-gram的点积,以获得另一个序列c∈Rn+l-1,卷积运算公式如下:
cki=wkTi-l+1:I 1≤k≤m 公式(9)
其中的Ti-l+1:i是Ti-l+1和Ti的连接,索引i的范围是1到n+l-1之间,索引i的取值范围是1到n+l-1之间,当i<1或者i>n时,Ti的值为0。卷积运算结果为矩阵C={c1,c2,...,cm}∈Rm*(n+l-1)。
卷积输出矩阵C的大小取决于输入到模型中的句子的长度。接下来将卷积层提取的特征组合起来应用于后续层,使它们与句子的长度无关。在关系抽取过程中,运用分段最大池算法,将输入的句子在识别出两个所选实体的基础上分成三段,使它返回每个段中的最大值而不是单个最大值。如图11所示,每个卷积滤波器wi的输出根据两个实体的位置被分成三段{ci1,ci2,ci3}。分段最大池化公式如下:
pij=max(cij)1≤i≤m,1≤j≤3公式(10)
对于每个卷积滤波器的输出,可以得到一个三维向量pi={pi1,pi2,pi3}。然后连接所有的向量p1:m,并应用于双曲正切非线性函数。最后分段最大池的输出向量如下公式:
g=tanh(p1:m) 公式(11)
其中,g∈R3*m,此时的输出向量g的大小是固定的,不再与句子长度有关。
Softmax层将Softmax函数应用于每个PCNN模块的输出向量g,生成一个L维向量,从而给出实体关系抽取任务中定义的每个关系标签的概率。给定加权向量z和当前PCNN输出g,第j个标签的预测概率如下公式5:
其中,L是标签类型的数量,g为输出向量,j为第j个标签,z为加权向量,T是转置。
4)模型优化步骤:通过Ranger优化器来最小化分类结果和真实类别之间的交叉熵损失进行参数的学习优化,其处理公式如下:
其中,Si为训练实例,yi为训练实例的标签,l为指示函数,j∈{1,2,...,K},K为标签类型的数量,当yi=j为真时l=1,否则为0。
通过对标签进行平滑处理来有效降低模型过拟合。
具体假设样本中存在少量会影响到预测效果的错误标签,为了减少这些标签的影响,该方法在每次迭代时,并不直接放入正确的样例数据标签(x,y),而是以错误率ε的概率来带入错误数据(x,1-y),这样训练得到的模型总是逼近匹配,而不是完全匹配,从而使错误标签的影响减小。采用如下公式来对本文的训练集标签进行平滑处理:
y′=(1-ε)y+ε*μ 公式(14)
其中y′为标签平滑后的标签,y为one-hot编码形式的标签,ε为平滑因子,决定标签平滑的程度。μ为人为引入的噪声。
此外,为了防止过拟合,并提高模型的训练速度,在BiGRU层之后添加了Dropout策略进行正则化约束,按照一定的概率屏蔽掉神经网络单元。Dropout策略与正则化技术的区别在于Dropout策略是通过修改神经网络本身来优化模型,不会去修改损失函数。Dropout策略相当于同时训练多个不同的网络,多个网络进行决策,可以比较有效地缓解过拟合现象的发生,在一定程度上达到了正则化的效果。
综上,模型的简化训练过程如下所述:
(1)当序列输入神经网络之后,嵌入层将输入的字符串替换为易进行数值运算的嵌入向量,输入到BiGRU层中进行序列特征的抽取。
(2)BiGRU层抽取了每个元素及其所在位置的关系,但BiGRU具有一定的距离衰减性。
(3)当BiGRU运算完毕过后,结果经由Attention运算送入PCNN层中。Attention机制会对序列元素进行权值再分配操作,将其中不重要的元素的权值调低,同时将重要元素的权值调高。句子中的两个实体及重要动词就会被赋予较高的权值,而对关系判断影响相对较小的序列元素就会被赋予较低的权值。
(4)然后在PCNN中执行分段卷积池化操作,以两个实体为分割点,将整个句子分成3段,并分别抽取这三段中的细节特征以及彼此之间的影响信息。
(5)最终经Softmax分类层将特征信息映射到对应的类型上,即模型最终形成了类型特征到类型上的一个完整映射。
本方案所构造的化工领域数据集上不同模型的对比实验统计表如下:
表3不同模型实验结果
由上表可知,本方案充分发挥了各个方法的最佳效果,其远高于同类型的其它模型。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (7)
1.一种针对化工领域的文本实体关系抽取方法,其特征在于,具体处理步骤如下:
1)数据采集步骤:首先使用MD5技术将任意长度的URL进行编码,然后使用布隆过滤器过滤掉重复的网页数据;具体包括数据采集层、数据转换层、词典提取层和数据存储层;
数据采集层是通过网络爬虫技术从开放知识库中爬取化工领域相关的原始材料,将其转换为文本格式的数据并进行存储;
数据转换层是PDF数据和图片数据转换为文本格式数据,再进行数据库存储;当遇到图片数据,就执行图片解析操作;当遇到PDF数据,进行PDF解析操作,且当PDF数据解析出的内容是文本类型时,直接将数据进行数据库存储,如果解析出的内容包含图片数据,就对其中的图片数据执行图片解析操作;
词典提取层运用自然语言处理技术对从数据采集层里得到的数据进行进一步地处理;首先通过分词技术将数据采集层得到的文本内容转化为词袋模型,然后进行关键词提取、词扩展、词降噪等操作,初步筛选出包含化工领域实体的词集;
数据存储层进行数据的存储;
2)数据标注步骤:通过众包技术对步骤101)收集的数据进行标注,首先判断相邻两个实体之间是否存在关系,再判断两个实体之间存在何种关系;具体标注包括数据存储层、任务管理层、用户交互层和前台界面展示层;
数据存储层主要负责未标注数据的存储和读取以及已完成标注数据的存储;
任务管理层主要负责未标注数据的任务划分以及已标注数据的标签选择;将任务进行合理分割,以分发给不同的用户进行标注,同时,完成对标注结果的收集汇总工作,并通过预定义的标注算法,选择出每个实体关系相应的正确标签;
用户交互层主要负责处理用户输入的数据并对用户数据进行校验,并将任务管理的结果传递到前台界面以及将用户的标注结果反馈到任务管理层;
前台界面展示层主要负责向用户展示相关信息以及收集用户的输入信息;
3)关系抽取步骤:通过混合神经网络模型进行关系抽取建模,并提取数据之间的关系;混合神经网络模型包括输入层、Embedding层、BiGRU层、Attention层、PCNN层和Softmax层;
输入层是输入Word2vec预训练词向量;Embedding嵌入层则是将输入的字符型数据转换为可计算的数值型向量数据;然后经过BiGRU网络层收集句子的序列特征;再通过Attention层对收集到的数据信息进行重新加权分配后,输入到PCNN神经网络中先执行卷积操作,然后再进行Softmax池化层;其中,池化层将卷积结果基于两个给定实体的位置分为三段,对每一个段做最大池化操作,捕获此两个实体之间的结构信息和其它相关环境特征;
4)模型优化步骤:通过Ranger优化器来最小化分类结果和真实类别之间的交叉熵损失进行参数的学习优化,通过对标签进行平滑处理来有效降低模型过拟合。
2.根据权利要求1所述的一种智能问答系统中答案抽取方法,其特征在于:数据采集层首先将初始URL即种子数据,加入到待抓取的URL队列;通过URL对网站进行访问,选择广度优选或深度优先策略进行选择访问,然后运用网络爬虫技术进行对访问网站的数据爬取,采集到的数据为网页源码,对网页源码数据运用XPath和/或正则表达式进行解析,将解析得到的符合需求的文本数据直接存储到本地文件系统,另外将解析得到的URL链接进行重复判断,决定是将去重后的URL加入待抓取URL队列还是结束抓取任务。
3.根据权利要求1所述的一种智能问答系统中答案抽取方法,其特征在于:词典提取层的提取如下:首先输入在数据采集层采集到的化工领域数据集;运用Jieba分词工具对数据集进行分词操作,同时运用TF-IDF和TextRank算法将分词处理好的领域数据集进行关键词提取,并将前面所述两种算法提取到的关键词进行词性筛选;然后对筛选结束后的名词根据它们在前面所述两种算法中的权重进行分别排序,再进行阈值筛选,得到候选实体集。
4.根据权利要求3所述的一种智能问答系统中答案抽取方法,其特征在于:候选实体集进行扩展:输入候选实体集,并运用正则匹配的方式将候选实体集中所有实体名词所在的位置区域查找并标记出来,遵循位置区域标记规则:同一个位置区域不能被两个词同时所覆盖,设定由长度较长的词优先覆盖;设定一个长度阈值,在长度阈值范围内从标记好的词位置区域向两边进行词扩展操作,查找可疑实体名词;其中在进行词扩展操作时,查找词为噪音词时,运用自然语言处理方法对这些词进行了分词和词性标注,然后运用规则进行过滤清洗,并将清洗后的实体名词合并到原实体名词上,得到候选扩展实体集。
5.根据权利要求1所述的一种智能问答系统中答案抽取方法,其特征在于:数据存储层使用了MongoDB数据库、MySQL数据库和Neo4j数据库三种存储系统,MongoDB是基于文档存储的非关系型数据库,MySQL是关系型数据库,Neo4j是图数据库;对于待标注化工领域文本和化工实体词典数据,使用文件系统MongoDB进行存储;对于预标注完成的化工实体标注数据和完成实体关系标注的化工数据,使用MySQL来进行存储;对于基于众包的标注的结果及最终识别的实体关系集,采用Neo4j来进行存储。
6.根据权利要求1所述的一种智能问答系统中答案抽取方法,其特征在于:步骤2)中任务管理层具体包括任务构造流程和标签选择流程;
任务构造流程,首先从数据存储层获取数据,即化工领域文本、预标注数据以及校验样例数据,化工领域文本数据是搜集的化工领域的文章;化工领域预标注数据是已经进行初步实体标注的数据集,化工领域标准数据集是经过化工领域专家做过校正的化工领域标准数据集;通过使用化工领域标准数据集来构造校验样例队列,使用化工领域预标注数据构造标注队列,将两个队列进行混合,即为混合标注队列,该标注队列即为最终分发给所有进行标注的用户的标注队列;
标签选择流程,当用户标注完成之后,标注的结果会直接以表单的形式提交到服务器,用户在标注的过程中,对混合队列进行标注,混合队列中包含两种数据,校验样例数据和待标注数据,需要对两种数据进行标注;服务器对每个用户收到的校验样例队列进行统计,并通过如下公式对各个用户对于真实数据的可信度进行评估:
其中,Scorei用于表示单个用户评价得分的标准。
7.根据权利要求1所述的一种智能问答系统中答案抽取方法,其特征在于:
BiGRU层由单向的、方向相反的两个GRU神经网络组成,在每一时刻,数据构成的序列会同时被输入到方向相反的两个GRU单元中,输出结果则由这两个单向GRU单元共同决定;BiGRU层的输出是两个结果向量序列,包含完整的上下文信息,具体公式如下:
Attention层来对BiGRU的结果进行加权处理,BiGRU层输出的向量表示为H{H1,H2,...,Hn},将PCNN层的输入向量表示T{T1,T2,...,Tn};Attention层先通过如下余弦相似度公式获取相似度值:
其中,第一轮数据中T的初始值为H,Hj∈Rd、Ti∈Rd;对相似度值进行如下公式的归一化处理:
其中,Lx为序列长度,e为常数;从中得到Ti和H所对应的权值向量ai={a1a2,...,an};最终通过如下公式整合得到Attention层的最终值T:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211073598.8A CN115796181A (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本关系抽取方法 |
CN202010978733.8A CN112256939B (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978733.8A CN112256939B (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本实体关系抽取方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211073598.8A Division CN115796181A (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256939A true CN112256939A (zh) | 2021-01-22 |
CN112256939B CN112256939B (zh) | 2022-09-16 |
Family
ID=74231348
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010978733.8A Active CN112256939B (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本实体关系抽取方法 |
CN202211073598.8A Pending CN115796181A (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本关系抽取方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211073598.8A Pending CN115796181A (zh) | 2020-09-17 | 2020-09-17 | 一种针对化工领域的文本关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112256939B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254725A (zh) * | 2021-06-04 | 2021-08-13 | 北京富通东方科技有限公司 | 一种面向图数据库的数据管理与检索增强的方法 |
CN113297419A (zh) * | 2021-06-23 | 2021-08-24 | 南京谦萃智能科技服务有限公司 | 视频知识点确定方法、装置、电子设备和存储介质 |
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN113592981A (zh) * | 2021-07-01 | 2021-11-02 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备和存储介质 |
CN113791889A (zh) * | 2021-11-18 | 2021-12-14 | 中国科学院成都文献情报中心 | 一种基于多级轮询队列控制器部署学习模型的方法 |
CN113962222A (zh) * | 2021-10-28 | 2022-01-21 | 重庆大学 | 一种需求数字化在众包服务中的可用性评价方法 |
CN115600595A (zh) * | 2022-08-25 | 2023-01-13 | 江南大学(Cn) | 一种实体关系抽取方法、系统、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
CN111078889A (zh) * | 2019-12-20 | 2020-04-28 | 大连理工大学 | 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
-
2020
- 2020-09-17 CN CN202010978733.8A patent/CN112256939B/zh active Active
- 2020-09-17 CN CN202211073598.8A patent/CN115796181A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN111143574A (zh) * | 2019-12-05 | 2020-05-12 | 大连民族大学 | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 |
CN111078889A (zh) * | 2019-12-20 | 2020-04-28 | 大连理工大学 | 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
李忠坤: "基于文本的实体关系抽取以及知识图谱的表示推理方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦娅: "网络安全知识图谱构建关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN113408286B (zh) * | 2021-05-28 | 2024-03-26 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN113254725A (zh) * | 2021-06-04 | 2021-08-13 | 北京富通东方科技有限公司 | 一种面向图数据库的数据管理与检索增强的方法 |
CN113297419A (zh) * | 2021-06-23 | 2021-08-24 | 南京谦萃智能科技服务有限公司 | 视频知识点确定方法、装置、电子设备和存储介质 |
CN113592981A (zh) * | 2021-07-01 | 2021-11-02 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备和存储介质 |
CN113592981B (zh) * | 2021-07-01 | 2022-10-11 | 北京百度网讯科技有限公司 | 图片标注方法、装置、电子设备和存储介质 |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN113962222A (zh) * | 2021-10-28 | 2022-01-21 | 重庆大学 | 一种需求数字化在众包服务中的可用性评价方法 |
CN113962222B (zh) * | 2021-10-28 | 2024-07-16 | 重庆大学 | 一种需求数字化在众包服务中的可用性评价方法 |
CN113791889A (zh) * | 2021-11-18 | 2021-12-14 | 中国科学院成都文献情报中心 | 一种基于多级轮询队列控制器部署学习模型的方法 |
CN113791889B (zh) * | 2021-11-18 | 2022-03-11 | 中国科学院成都文献情报中心 | 一种基于多级轮询队列控制器部署学习模型的方法 |
CN115600595A (zh) * | 2022-08-25 | 2023-01-13 | 江南大学(Cn) | 一种实体关系抽取方法、系统、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115796181A (zh) | 2023-03-14 |
CN112256939B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN109885675A (zh) | 基于改进lda的文本子话题发现方法 | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |