CN109815339B - 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 - Google Patents

基于TextCNN知识抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109815339B
CN109815339B CN201910002638.1A CN201910002638A CN109815339B CN 109815339 B CN109815339 B CN 109815339B CN 201910002638 A CN201910002638 A CN 201910002638A CN 109815339 B CN109815339 B CN 109815339B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
convolution
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910002638.1A
Other languages
English (en)
Other versions
CN109815339A (zh
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910002638.1A priority Critical patent/CN109815339B/zh
Publication of CN109815339A publication Critical patent/CN109815339A/zh
Priority to PCT/CN2019/089563 priority patent/WO2020140386A1/zh
Priority to US16/635,554 priority patent/US11392838B2/en
Priority to SG11202001276TA priority patent/SG11202001276TA/en
Application granted granted Critical
Publication of CN109815339B publication Critical patent/CN109815339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于TextCNN的知识抽取方法,包括S10构建字向量字典与词向量字典;S20构建第一卷积神经网络,并基于第一优化算法训练第一卷积神经网络;第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数;S30构建第二卷积神经网络,并基于第二优化算法训练第二卷积神经网络,第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积、一池化层、两层全连接层以及第二softmax函数;S40依据训练后第一卷积神经网络输出的实体标注预测与训练后第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组,由于卷积神经网络具有并行计算特性,因此能够充分利用计算资源实现计算效率提升。

Description

基于TextCNN知识抽取方法、装置、计算机设备及存储介质
技术领域
本发明涉及知识图谱领域,尤其涉及一种知识抽取的方法、装置、计算机设备及存储介质。
背景技术
近年来,智能客服机器人在国内外的发展应用近几年呈现出快速增长的势头,并逐步开始在电信运营商、金融服务等行业形成产业规模。智能客服对话不仅为企业与用户建立了快捷有效的沟通手段,还为企业提供了精细化管理所需的统计分析信息。
知识图谱是一种高效的信息存储与读取形式,能够有效应用于客服机器人场景。通过知识图谱,客服机器人能够根据聊天内容提供相应回应或者服务,提升用户体验,知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱,知识抽取是知识图谱建立过程中最关键且最主要的一步,但是,现有的知识抽取的建立过程较为繁琐,如果通过人工形式导入实体、关系信息,则需要耗费大量资源。
发明内容
本发明的目的是提供一种基于TextCNN知识抽取方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种基于TextCNN知识抽取方法,包括以下步骤:
S10收集第一训练数据,构建字向量字典与词向量字典;
S20构建第一卷积神经网络,并基于第一优化算法训练所述第一卷积神经网络;所述第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数;
S21收集第二训练数据,所述第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,将所述第二训练数据分割为单一文字并去除特殊符号后,输入至所述第一嵌入层中;
S22基于所述字向量字典,于所述第一嵌入层将字符级的第二训练数据进行字向量匹配,以将所述第二训练数据转化为矩阵形式;
S23所述第一多层卷积用于对所述第一嵌入层输出的矩阵进行卷积运算,所述第一多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中,保持矩阵行数不变;
S24将所述第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO(其中,B实体开端,M实体中部,E实体结尾,O非实体)标注的预测概率;
S25训练所述第一卷积神经网络,根据所述BEMO标注预测概率与所述第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对所述损失函数进行最小化,以训练所述第一卷积神经网络;
S30构建第二卷积神经网络,并基于第二优化算法训练所述第二卷积神经网络,所述第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积、一池化层、两层全连接层以及第二softmax函数;
S31对所述第二训练数据进行分词:
S311采用jieba库对所述第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若所述初步分词结果与所述第一卷积神经网络的预测的分词结果不同,以所述第一卷积神经网络的预测的分词结果为准;
S312去除所述初步分词中的特殊符号及非中文字符后,将所述处理后的第二训练数据输入至所述第二嵌入层;
S32基于所述词向量词典,于所述第二嵌入层对所述分词后的第二训练数据进行词向量匹配,以将所述第二训练数据转化为矩阵形式;
S33基于所述第二多层卷积对所述第二嵌入层输出的矩阵进行卷积运算,所述第二多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中保持矩阵行数不变;
S34将所述所述第二多层卷积的输出输入至所述池化层进行压缩;
S35将所述池化层的输出输入至两层所述全连接层中进行各个通道的信息融合;
S36将所述全连接层的输出输入至所述第二softmax函数中,用于确定多个实体关系标签的对应预测概率,
S37训练所述第二卷积神经网络,依据所述第二卷积神经网络输出的关系标签的预测概率与所述第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对所述损失函数进行最小化,以训练所述第二卷积神经网络;
S40将待预测数据输入至训练完毕的所述第一卷积神经网络与所述第二卷积神经网络中,依据训练后所述第一卷积神经网络输出的实体标注预测与训练后所述第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取所述BEMO标注预测概率中最高概率值对应的类作为所述第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为所述第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。
优选的,所述步骤S10中,包括:
S11将收集的第一训练数据划分为单独文字并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取字向量并构建字向量字典;
S12同时,将收集的第一训练数据进行分词并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取词向量词向量字典。
进一步的,Word2Vec算法训练通过Python中的gensim库实现,其中gensim是一个主题模型的python库,它可以将文本转换为向量,抽取文本中的关键词,比较文本间的相似程度。
优选的,基于Python中的tensorflow库建立所述第一卷积神经网络与所述第二卷积神经网络。TensorFlowss将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
优选的,所述第一多层卷积包括5层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;四组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384;
和/或,所述第二多层卷积包括3层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;两组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384。
优选的,所述第一优化算法与所述第二优化算法为ADAM(A MethodforStochastic Optimization,一种可以替代传统随机梯度下降过程的一阶优化算法)算法或为rmsprop(一种梯度下降优化算法)算法。
优选的,所述步骤S40中,若所述实体标注预测与所述实体关系预测结果相互矛盾,则放弃待预测数据的知识图谱三元组提取。
本发明还提供了一种基于TextCNN的知识抽取装置,包括:
字向量字典构建模块:用于基于收集的第一训练数据,构建字向量字典;
词向量字典构建模块:用于基于收集的第一训练数据,构建词向量字典;
第一卷积神经网络构建及训练模块,用于构建第一卷积神经网络构并基于第一优化算法训练所述第一卷积神经网络;所述第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数:包括
字向量预处理单元,所述第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,所述字向量预处理模块用于将所述第二训练数据分割为单一文字并去除特殊符号后,输入至所述第一嵌入层中;
字向量矩阵化单元,用于基于所述字向量字典,于所述第一嵌入层将字符级的第二训练数据进行字向量匹配,以将所述第二训练数据转化为矩阵形式;
第一多层卷积单元,用于对所述第一嵌入层输出的矩阵进行卷积运算,所述第一多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中,保持矩阵行数不变;
第一softmax函数输出单元,用于将所述第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO标注的预测概率;
第一卷积神经网络训练单元,用于根据所述BEMO标注预测概率与所述第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对所述损失函数进行最小化,以训练所述第一卷积神经网络;
第二卷积神经网络构建及训练模块,用于构建第二卷积神经网络并基于第二优化算法训练所述第二卷积神经网络,所述第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积单元、一池化层、两层全连接层以及第二softmax函数,包括:
词向量预处理单元:用于对所述第二训练数据进行分词,包括:
初步分词子单元,用于采用jieba库对所述第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若所述初步分词结果与所述第一卷积神经网络的预测的分词结果不同,以所述第一卷积神经网络的预测的分词结果为准;
分词预处理子单元,用于去除所述初步分词中的特殊符号及非中文字符后,将所述处理后的第二训练数据输入至所述第二嵌入层;
字向量矩阵化单元,用于基于所述词向量词典,于所述第二嵌入层对所述分词后的第二训练数据进行词向量匹配,以将所述第二训练数据转化为矩阵形式;
第二多层卷积单元,用于基于所述第二多层卷积单元对所述第二嵌入层输出的矩阵进行卷积运算,所述第二多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中保持矩阵行数不变;
池化层,用于将所述所述第二多层卷积单元的输出输入至所述池化层进行压缩;
全连接层,用于将所述池化层的输出输入至两层所述全连接层中进行各个通道的信息融合;
第二softmax函数输出单元,用于将所述全连接层的输出输入至所述第二softmax函数中,确定多个实体关系标签的对应预测概率,
训练第二卷积神经网络单元,用于依据所述第二卷积神经网络输出的关系标签的预测概率与所述第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对所述损失函数进行最小化,以训练所述第二卷积神经网络;
知识图谱三元组提取模块,用于将待预测数据输入至训练完毕的所述第一卷积神经网络与所述第二卷积神经网络中,依据训练后所述第一卷积神经网络输出的实体标注预测与训练后所述第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取所述BEMO标注预测概率中最高概率值对应的类作为所述第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为所述第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。
优选的,字向量字典构建模块中,将收集的第一训练数据划分为单独文字并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取字向量并构建字向量字典;
优选的,词向量字典构建模块中,将收集的第一训练数据进行分词并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取词向量词向量字典。
进一步的,Word2Vec算法训练通过Python中的gensim库实现。
优选的,基于Python中的tensorflow库建立所述第一卷积神经网络与所述第二卷积神经网络。
优选的,所述第一多层卷积包括5层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;四组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384;
和/或,所述第二多层卷积包括3层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;两组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384。
优选的,所述第一优化算法与所述第二优化算法为ADAM算法或为rmsprop算法。
优选的,所述知识图谱三元组提取模块中,若所述实体标注预测与所述实体关系预测结果相互矛盾,则放弃待预测数据的知识图谱三元组提取。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的一种基于TextCNN知识抽取方法、装置、计算机设备及存储介质,通过卷积神经网络实现知识图谱中的知识抽取环节,在保证精度的前提下有效提升了模型训练效率。通过将训练文本转化为向量形式,并接入两类卷积神经网络模型(卷积层形式均为一维卷积核)中以提炼训练文本信息,分别实现命名实体识别以及实体关系识别。由于卷积神经网络具有并行计算特性,因此能够充分利用计算资源实现计算效率提升,训练完成的两类卷积神经网络模型通过预测融合实现自动化知识抽取。
具体而言,通过将待预测数据分别转化为字向量与词向量形式,并接入至第一卷积神经网络与第二卷积神经网络处理,其中第一卷积神经网络用以实现命名实体识别。所用卷积神经网络为全卷积形式,其输入为字向量,输出为实体类别边界预测。经过这一过程可将原本连续的文本进行分词,并保留命名实体相关文字并进行实体归类;第二卷积神经网络实现知识抽取。所用卷积神经网络包括卷积层、池化层等,其输入包括字向量与词向量,输出为关系抽取识别。经过这一过程,可确定文本中知识实体的关联。结合待预测数据的实体标注预测与实体关系预测,即可识别出待预测数据的实体标注预测与实体关系预测中存在的实体及其相互关系,用于提取待预测数据的知识图谱三元组,从而实现自动化的知识抽取,且在保证精度的前提下有效提升了模型训练效率。
附图说明
图1为本发明基于TextCNN知识抽取方法一实施例的流程图;
图2为本发明基于TextCNN知识抽取装置一实施例的程序模块示意图;
图3为本发明基于TextCNN知识抽取装置一实施例的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提供的一种基于TextCNN的知识抽取方法,如图1所示,包括以下步骤:
S10收集第一训练数据,构建字向量字典与词向量字典;
优选的,步骤S10中,包括:
S11将收集的第一训练数据划分为单独文字并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取字向量并构建字向量字典;
S12同时,将收集的第一训练数据进行分词并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取词向量词向量字典。本实施例中,Word2Vec算法训练通过Python中的gensim库实现。
本发明所示基于TextCNN的知识抽取方法的首先获取字、词向量字典,即确定字词与向量的对应关系。字、词向量分别单独构建向量,第一训练文本均为中文维基百科。对于字向量,首先将训练文本划分为单独文字并去除特殊符号与非中文字符,随后将处理后的文本代入Word2Vec算法进行训练,获取字向量。而对于词向量,首先将训练文本进行分词并去除特殊符号与非中文字符,随后将处理后的文本代入Word2Vec算法进行训练,获取词向量。字向量与词向量的维度均为300。这一步骤中涉及的分词通过Python中的jieba库实现,而这一步骤中涉及的Word2Vec算法训练则通过Python中的gensim库实现。
S20构建第一卷积神经网络,并基于第一优化算法训练第一卷积神经网络;第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数;本实施例中,可基于Python中的tensorflow库建立第一卷积神经网络。
S21收集第二训练数据,第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,将第二训练数据分割为单一文字并去除特殊符号后,输入至第一嵌入层中;
S22基于字向量字典,于第一嵌入层将字符级的第二训练数据进行字向量匹配,以将第二训练数据转化为矩阵形式;
S23第一多层卷积用于对第一嵌入层输出的矩阵进行卷积运算,第一多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且卷积运算过程中,保持矩阵行数不变;
本实施例中,作为一优选方案,第一多层卷积包括5层卷积层,第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;四组的第二类一维卷积层的一维卷积核长度均为3且通道数为384;
S24将第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO标注的预测概率;
S25训练第一卷积神经网络,根据BEMO标注预测概率与第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对损失函数进行最小化,以训练第一卷积神经网络;第一优化算法为ADAM算法或为rmsprop算法。
步骤S20中,第二训练文本与字、词向量的第一训练文本不同,其形式为短句形式并包含了命名实体位置标签(对于每一个文字进行BMEO中文命名实体边界标注)以及命名实体关系标签。预处理方面,本步骤中将第二训练文本分割为单一文字并去除特殊符号,并将处理后的文本输入第一卷积神经网络。第一卷积神经网络于嵌入层将字符级的第二训练文本进行字向量匹配,从而将第二训练文本转化为矩阵形式(矩阵每一行对应一个文字的向量)。字向量匹配完毕后,第一卷积神经网络即可进行卷积运算,本实施例中,第一多层卷积共设计了5层卷积层,每一卷积层的数据均来自于前一卷积层输出。其中,位于第一层的第一类一维卷积层包括了3类长度(1、3、5)的一维卷积核各对应128通道,而其余第一类一维卷积层的一维卷积核长度均为3且通道数为384。需要注意的是,卷积层运算过程中需要保持矩阵行数不变。第一多层卷积的最后的卷积层通过第一softmax函数进行输出,这一输出对应每一文字的BEMO标注预测概率。BEMO标注包括多类细分,因此第一卷积神经网络将计算某文字对于每一细分类别的概率,例如“B_地名”的概率、“B_人名”的概率,“E_人名”的概率等。模型构建完毕后,即可进行训练。训练过程中,算法将根据第一卷积神经网络的BEMO标注预测概率与第二训练文本的真实BEMO标签计算损失函数交叉熵,并通过优化算法ADAM对损失函数进行最小化,训练神经网络。需要注意的是,这一模型可能存在文字标注预测矛盾的现象,因此模型仅提取前后文字标注对应的实体。第一卷积神经网络的建立通过Python中的tensorflow库实现。至此,方案完成了第一卷积神经网络的构建及训练。
S30构建第二卷积神经网络,并基于第二优化算法训练第二卷积神经网络,第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积、一池化层、两层全连接层以及第二softmax函数;本实施例中,可基于Python中的tensorflow库建立第二卷积神经网络。
S31对第二训练数据进行分词:
S311采用jieba库对第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若初步分词结果与第一卷积神经网络的预测的分词结果不同,以第一卷积神经网络的预测的分词结果为准;
S312去除初步分词中的特殊符号及非中文字符后,将处理后的第二训练数据输入至第二嵌入层;
S32基于词向量词典,于第二嵌入层对分词后的第二训练数据进行词向量匹配,以将第二训练数据转化为矩阵形式;
S33基于第二多层卷积对第二嵌入层输出的矩阵进行卷积运算,第二多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且卷积运算过程中保持矩阵行数不变;本实施例中,作为一优选方案,第二多层卷积包括3层卷积层,第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;两组的第二类一维卷积层的一维卷积核长度均为3且通道数为384。
S34将第二多层卷积的输出输入至池化层进行压缩;
S35将池化层的输出输入至两层全连接层中进行各个通道的信息融合;
S36将全连接层的输出输入至第二softmax函数中,用于确定多个实体关系标签的对应预测概率,
S37训练第二卷积神经网络,依据第二卷积神经网络输出的关系标签的预测概率与第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对损失函数进行最小化,以训练第二卷积神经网络;本实施例中,第二优化算法为ADAM算法或为rmsprop算法。
本实施例中,第二卷积神经网络构建所采取的训练文本与第二卷积神经网络相同,但是所采用的标注不是BMEO标注,而是命名实体关系标注。数据预处理方面,由于第一卷积神经网络已标注了命名实体边界,但未标注非命名实体词语边界,因此方案采用jieba库对文本进行初步分词并根据第一卷积神经网络的识别结果对其进行修正,最后去除特殊符号及非中文字符。文本处理完毕后即可输入第二卷积神经网络,并于嵌入层对文本进行词向量匹配(词向量字典中不存在的命名实体向量初始化为0)。第二多层卷积包含前部3层卷积层。其中,位于第一层的第一类一维卷积层包括了3类长度(1、3、5)的一维卷积核各对应128通道,而其余卷积层的一维卷积核长度均为3且通道数为384。需要注意的是,卷积层运算过程中需保持矩阵行数不变。卷积运算输出将输入池化层进行压缩,池化形式为Max-Pooling,池化层的输出将输入两层全连接层,实现各个通道的信息融合。全连接层通过第二softmax函数形式输出多标签的对应预测概率,例如“地理关系”概率、“从属关系”概率等多类标签。模型构建完毕后即可进行训练。训练过程中,算法将根据模型的关系预测与真实关系标签计算损失函数交叉熵,并通过优化算法ADAM对损失函数进行最小化,训练神经网络。第二卷积神经网络的建立通过Python中的tensorflow库实现。至此方案完成了第二卷积神经网络与训练工作。
S40将待预测数据输入至训练完毕的第一卷积神经网络与第二卷积神经网络中,依据训练后第一卷积神经网络输出的实体标注预测与训练后第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取BEMO标注预测概率中最高概率值对应的类作为第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。此外,步骤S40中,若实体标注预测与实体关系预测结果相互矛盾,则放弃待预测数据的知识图谱三元组提取。
本步骤中,将两类卷积神经网络的预测结果进行融合。由于两类卷积神经网络预测结果可能存在矛盾,例如对于某语句,第一卷积神经网络预测包括人物实体,但是第二卷积神经网络预测属于“地理关系”。因此,方案仅将两类模型预测结果对应的知识进行提取。例如对于某语句,第一卷积神经网络预测包括人物实体,且第二卷积神经网络预测属于“从属关系”,则对于这一知识图谱三元组进行提取。
本发明所示的本发明提供的一种基于TextCNN知识抽取方法通过卷积神经网络实现知识图谱中的知识抽取环节,在保证精度的前提下有效提升了模型训练效率。通过将训练文本转化为向量形式,并接入两类卷积神经网络模型(卷积层形式均为一维卷积核)中以提炼训练文本信息,分别实现命名实体识别以及实体关系识别。由于卷积神经网络具有并行计算特性,因此能够充分利用计算资源实现计算效率提升,训练完成的两类卷积神经网络模型通过预测融合实现自动化知识抽取。具体而言,通过将待预测数据分别转化为字向量与词向量形式,并接入至第一卷积神经网络与第二卷积神经网络处理,其中第一卷积神经网络用以实现命名实体识别。所用卷积神经网络为全卷积形式,其输入为字向量,输出为实体类别边界预测。经过这一过程可将原本连续的文本进行分词,并保留命名实体相关文字并进行实体归类;第二卷积神经网络实现知识抽取。所用卷积神经网络包括卷积层、池化层等,其输入包括字向量与词向量,输出为关系抽取识别。经过这一过程,可确定文本中知识实体的关联。结合待预测数据的实体标注预测与实体关系预测,即可识别出待预测数据的实体标注预测与实体关系预测中存在的实体及其相互关系,用于提取待预测数据的知识图谱三元组,从而实现自动化的知识抽取,且在保证精度的前提下有效提升了模型训练效率。
实施例二
请继续参阅图2,本发明示出了一种基于TextCNN的知识抽取装置10,以实施例一为基础,用以实现实施例一的基于TextCNN的知识抽取方法,其包括的各程序模块的功能:在本实施例中,基于TextCNN的知识抽取装置10可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于TextCNN的知识抽取方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于TextCNN的知识抽取装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
本发明还提供了一种基于TextCNN的知识抽取装置10,包括:
字向量字典构建模块11:用于基于收集的第一训练数据,构建字向量字典;
词向量字典构建模块12:用于基于收集的第一训练数据,构建词向量字典;
第一卷积神经网络构建及训练模块13,用于构建第一卷积神经网络构并基于第一优化算法训练第一卷积神经网络;第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数:包括
字向量预处理单元,第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,字向量预处理模块用于将第二训练数据分割为单一文字并去除特殊符号后,输入至第一嵌入层中;
字向量矩阵化单元,用于基于字向量字典,于第一嵌入层将字符级的第二训练数据进行字向量匹配,以将第二训练数据转化为矩阵形式;
第一多层卷积单元,用于对第一嵌入层输出的矩阵进行卷积运算,第一多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且卷积运算过程中,保持矩阵行数不变;
第一softmax函数输出单元,用于将第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO标注的预测概率;
第一卷积神经网络训练单元,用于根据BEMO标注预测概率与第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对损失函数进行最小化,以训练第一卷积神经网络;
第二卷积神经网络构建及训练模块14,用于构建第二卷积神经网络并基于第二优化算法训练第二卷积神经网络,第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积单元、一池化层、两层全连接层以及第二softmax函数,包括:
词向量预处理单元:用于对第二训练数据进行分词,包括:
初步分词子单元,用于采用jieba库对第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若初步分词结果与第一卷积神经网络的预测的分词结果不同,以第一卷积神经网络的预测的分词结果为准;
分词预处理子单元,用于去除初步分词中的特殊符号及非中文字符后,将处理后的第二训练数据输入至第二嵌入层;
字向量矩阵化单元,用于基于词向量词典,于第二嵌入层对分词后的第二训练数据进行词向量匹配,以将第二训练数据转化为矩阵形式;
第二多层卷积单元,用于基于第二多层卷积单元对第二嵌入层输出的矩阵进行卷积运算,第二多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且卷积运算过程中保持矩阵行数不变;
池化层,用于将第二多层卷积单元的输出输入至池化层进行压缩;
全连接层,用于将池化层的输出输入至两层全连接层中进行各个通道的信息融合;
第二softmax函数输出单元,用于将全连接层的输出输入至第二softmax函数中,确定多个实体关系标签的对应预测概率,
训练第二卷积神经网络单元,用于依据第二卷积神经网络输出的关系标签的预测概率与第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对损失函数进行最小化,以训练第二卷积神经网络;
知识图谱三元组提取模块15,用于将待预测数据输入至训练完毕的第一卷积神经网络与第二卷积神经网络中,依据训练后第一卷积神经网络输出的实体标注预测与训练后第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取BEMO标注预测概率中最高概率值对应的类作为第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。
优选的,字向量字典构建模块11中,将收集的第一训练数据划分为单独文字并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取字向量并构建字向量字典;
优选的,词向量字典构建模块12中,将收集的第一训练数据进行分词并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取词向量词向量字典。
进一步的,Word2Vec算法训练通过Python中的gensim库实现。
优选的,基于Python中的tensorflow库建立第一卷积神经网络与第二卷积神经网络。
优选的,第一多层卷积包括5层卷积层,第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;四组的第二类一维卷积层的一维卷积核长度均为3且通道数为384;
和/或,第二多层卷积包括3层卷积层,第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;两组的第二类一维卷积层的一维卷积核长度均为3且通道数为384。
优选的,第一优化算法与第二优化算法为ADAM算法或为rmsprop算法。
优选的,知识图谱三元组提取模块15中,若实体标注预测与实体关系预测结果相互矛盾,则放弃待预测数据的知识图谱三元组提取。
本发明所示的本发明提供的一种基于TextCNN知识抽取装置,通过卷积神经网络实现知识图谱中的知识抽取环节,在保证精度的前提下有效提升了模型训练效率。通过将训练文本转化为向量形式,并接入两类卷积神经网络模型(卷积层形式均为一维卷积核)中以提炼训练文本信息,分别实现命名实体识别以及实体关系识别。由于卷积神经网络具有并行计算特性,因此能够充分利用计算资源实现计算效率提升,训练完成的两类卷积神经网络模型通过预测融合实现自动化知识抽取。具体而言,通过将待预测数据分别转化为字向量与词向量形式,并接入至第一卷积神经网络与第二卷积神经网络处理,其中第一卷积神经网络用以实现命名实体识别。所用卷积神经网络为全卷积形式,其输入为字向量,输出为实体类别边界预测。经过这一过程可将原本连续的文本进行分词,并保留命名实体相关文字并进行实体归类;第二卷积神经网络实现知识抽取。所用卷积神经网络包括卷积层、池化层等,其输入包括字向量与词向量,输出为关系抽取识别。经过这一过程,可确定文本中知识实体的关联。结合待预测数据的实体标注预测与实体关系预测,即可识别出待预测数据的实体标注预测与实体关系预测中存在的实体及其相互关系,用于提取待预测数据的知识图谱三元组,从而实现自动化的知识抽取,且在保证精度的前提下有效提升了模型训练效率。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例一的基于TEXTCNN知识抽取装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于TEXTCNN知识抽取装置10,以实现实施例一的基于TEXTCNN知识抽取方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于TEXTCNN知识抽取装置10,被处理器执行时实现实施例一的基于TEXTCNN知识抽取方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于TextCNN的知识抽取方法,其特征在于,包括以下步骤:
S10收集第一训练数据,构建字向量字典与词向量字典;
S20构建第一卷积神经网络,并基于第一优化算法训练所述第一卷积神经网络;所述第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数;
S21收集第二训练数据,所述第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,将所述第二训练数据分割为单一文字并去除特殊符号后,输入至所述第一嵌入层中;
S22基于所述字向量字典,于所述第一嵌入层将字符级的第二训练数据进行字向量匹配,以将所述第二训练数据转化为矩阵形式;
S23所述第一多层卷积用于对所述第一嵌入层输出的矩阵进行卷积运算,所述第一多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中,保持矩阵行数不变;
S24将所述第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO标注的预测概率;
S25训练所述第一卷积神经网络,根据所述BEMO标注预测概率与所述第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对所述损失函数进行最小化,以训练所述第一卷积神经网络;
S30构建第二卷积神经网络,并基于第二优化算法训练所述第二卷积神经网络,所述第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积、一池化层、两层全连接层以及第二softmax函数;
S31对所述第二训练数据进行分词:
S311采用jieba库对所述第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若所述初步分词结果与所述第一卷积神经网络的预测的分词结果不同,以所述第一卷积神经网络的预测的分词结果为准;
S312去除所述初步分词中的特殊符号及非中文字符后,将处理后的第二训练数据输入至所述第二嵌入层;
S32基于所述词向量词典,于所述第二嵌入层对所述分词后的第二训练数据进行词向量匹配,以将所述第二训练数据转化为矩阵形式;
S33基于所述第二多层卷积对所述第二嵌入层输出的矩阵进行卷积运算,所述第二多层卷积包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中保持矩阵行数不变;
S34将所述所述第二多层卷积的输出输入至所述池化层进行压缩;
S35将所述池化层的输出输入至两层所述全连接层中进行各个通道的信息融合;
S36将所述全连接层的输出输入至所述第二softmax函数中,用于确定多个实体关系标签的对应预测概率,
S37训练所述第二卷积神经网络,依据所述第二卷积神经网络输出的关系标签的预测概率与所述第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对所述损失函数进行最小化,以训练所述第二卷积神经网络;
S40将待预测数据输入至训练完毕的所述第一卷积神经网络与所述第二卷积神经网络中,依据训练后所述第一卷积神经网络输出的实体标注预测与训练后所述第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取所述BEMO标注预测概率中最高概率值对应的类作为所述第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为所述第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。
2.根据权利要求1所述的基于TextCNN的知识抽取方法,其特征在于,所述步骤S10中,包括:
S11将收集的第一训练数据划分为单独文字并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取字向量并构建字向量字典;
S12同时,将收集的第一训练数据进行分词并去除特殊符号与非中文字符后,代入Word2Vec算法进行训练,获取词向量词向量字典。
3.根据权利要求2所述的基于TextCNN的知识抽取方法,其特征在于,Word2Vec算法训练通过Python中的gensim库实现。
4.根据权利要求1所述的基于TextCNN的知识抽取方法,其特征在于,基于Python中的tensorflow库建立所述第一卷积神经网络与所述第二卷积神经网络。
5.根据权利要求1所述的基于TextCNN的知识抽取方法,其特征在于,所述第一多层卷积包括5层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;四组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384;
和/或,所述第二多层卷积包括3层卷积层,所述第一类一维卷积层包括了3类长度的一维卷积核,各对应128通道;两组所述的第二类一维卷积层的一维卷积核长度均为3且通道数为384。
6.根据权利要求1所述的基于TextCNN的知识抽取方法,其特征在于,所述第一优化算法与所述第二优化算法为ADAM算法或为rmsprop算法。
7.根据权利要求1所述的基于TextCNN的知识抽取方法,其特征在于,所述步骤S40中,若所述实体标注预测与所述实体关系预测结果相互矛盾,则放弃待预测数据的知识图谱三元组提取。
8.一种基于TextCNN的知识抽取装置,其特征在于,其包括:
字向量字典构建模块:用于基于收集的第一训练数据,构建字向量字典;
词向量字典构建模块:用于基于收集的第一训练数据,构建词向量字典;
第一卷积神经网络构建及训练模块,用于构建第一卷积神经网络构并基于第一优化算法训练所述第一卷积神经网络;所述第一卷积神经网络包括依次连接的第一嵌入层、第一多层卷积以及第一softmax函数:包括
字向量预处理单元,第二训练数据为预先标注数据,包括命名实体位置标签与命名实体关系标签,所述字向量预处理模块用于将所述第二训练数据分割为单一文字并去除特殊符号后,输入至所述第一嵌入层中;
字向量矩阵化单元,用于基于所述字向量字典,于所述第一嵌入层将字符级的第二训练数据进行字向量匹配,以将所述第二训练数据转化为矩阵形式;
第一多层卷积单元,用于对所述第一嵌入层输出的矩阵进行卷积运算,所述第一多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中,保持矩阵行数不变;
第一softmax函数输出单元,用于将所述第一多层卷积经由第一softmax函数进行输出,以确定每一文字的多个细分类别BEMO标注的预测概率;
第一卷积神经网络训练单元,用于根据所述BEMO标注预测概率与所述第二训练数据真实BEMO标签,计算损失函数交叉熵,并通过第一优化算法对所述损失函数进行最小化,以训练所述第一卷积神经网络;
第二卷积神经网络构建及训练模块,用于构建第二卷积神经网络并基于第二优化算法训练所述第二卷积神经网络,所述第二卷积神经网络包括依次连接的第二嵌入层、第二多层卷积单元、一池化层、两层全连接层以及第二softmax函数,包括:
词向量预处理单元:用于对所述第二训练数据进行分词,包括:
初步分词子单元,用于采用jieba库对所述第二训练数据进行初步分词,并比照第一卷积神经网络的预测进行修正,若所述初步分词结果与所述第一卷积神经网络的预测的分词结果不同,以所述第一卷积神经网络的预测的分词结果为准;
分词预处理子单元,用于去除所述初步分词中的特殊符号及非中文字符后,将处理后的第二训练数据输入至所述第二嵌入层;
字向量矩阵化单元,用于基于所述词向量词典,于所述第二嵌入层对所述分词后的第二训练数据进行词向量匹配,以将所述第二训练数据转化为矩阵形式;
第二多层卷积单元,用于基于所述第二多层卷积单元对所述第二嵌入层输出的矩阵进行卷积运算,所述第二多层卷积单元包括位于前部的一组第一类一维卷积层以及位于后部的至少一组第二类一维卷积层,所述第一类一维卷积层包括长度数量不同、通道数量相同设置一维卷积核,所述第二类一维卷积层包括长度数量与通道数量均相同设置的一维卷积核,每一卷积层的数据均来自于前一卷积层输出,且所述卷积运算过程中保持矩阵行数不变;
池化层,用于将所述所述第二多层卷积单元的输出输入至所述池化层进行压缩;
全连接层,用于将所述池化层的输出输入至两层所述全连接层中进行各个通道的信息融合;
第二softmax函数输出单元,用于将所述全连接层的输出输入至所述第二softmax函数中,确定多个实体关系标签的对应预测概率,
训练第二卷积神经网络单元,用于依据所述第二卷积神经网络输出的关系标签的预测概率与所述第二训练数据真实关系标签,计算第二损失函数交叉熵,并通过优化算法对所述损失函数进行最小化,以训练所述第二卷积神经网络;
知识图谱三元组提取模块,用于将待预测数据输入至训练完毕的所述第一卷积神经网络与所述第二卷积神经网络中,依据训练后所述第一卷积神经网络输出的实体标注预测与训练后所述第二卷积神经网络输出实体关系预测,提取待预测数据的知识图谱三元组:选取所述BEMO标注预测概率中最高概率值对应的类作为所述第一卷积神经网络输出的实体标注预测,选取预测概率值大于0.5的类作为所述第二卷积神经网络输出实体关系预测,以提取将待预测数据的知识图谱三元组。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201910002638.1A 2019-01-02 2019-01-02 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 Active CN109815339B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910002638.1A CN109815339B (zh) 2019-01-02 2019-01-02 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
PCT/CN2019/089563 WO2020140386A1 (zh) 2019-01-02 2019-05-31 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
US16/635,554 US11392838B2 (en) 2019-01-02 2019-05-31 Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN
SG11202001276TA SG11202001276TA (en) 2019-01-02 2019-05-31 Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002638.1A CN109815339B (zh) 2019-01-02 2019-01-02 基于TextCNN知识抽取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109815339A CN109815339A (zh) 2019-05-28
CN109815339B true CN109815339B (zh) 2022-02-08

Family

ID=66603778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002638.1A Active CN109815339B (zh) 2019-01-02 2019-01-02 基于TextCNN知识抽取方法、装置、计算机设备及存储介质

Country Status (4)

Country Link
US (1) US11392838B2 (zh)
CN (1) CN109815339B (zh)
SG (1) SG11202001276TA (zh)
WO (1) WO2020140386A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815339B (zh) * 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN110222693B (zh) * 2019-06-03 2022-03-08 第四范式(北京)技术有限公司 构建字符识别模型与识别字符的方法和装置
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN110457677B (zh) * 2019-06-26 2023-11-17 平安科技(深圳)有限公司 实体关系识别方法及装置、存储介质、计算机设备
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110516239B (zh) * 2019-08-26 2022-12-09 贵州大学 一种基于卷积神经网络的分段池化关系抽取方法
CN110969015B (zh) * 2019-11-28 2023-05-16 国网上海市电力公司 一种基于运维脚本的标签自动化识别方法和设备
CN111046185B (zh) * 2019-12-16 2023-02-24 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111079442B (zh) * 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111090749A (zh) * 2019-12-23 2020-05-01 福州大学 一种基于TextCNN的报刊出版物分类方法及系统
CN111405585B (zh) * 2020-03-19 2023-10-03 北京联合大学 一种基于卷积神经网络的邻区关系预测方法
CN111611794A (zh) * 2020-05-18 2020-09-01 众能联合数字技术有限公司 一种基于行业规则和TextCNN模型的通用工程信息提取的方法
CN111832484B (zh) * 2020-07-14 2023-10-27 星际(重庆)智能装备技术研究院有限公司 一种基于卷积感知哈希算法的回环检测方法
CN111951792B (zh) * 2020-07-30 2022-12-16 北京先声智能科技有限公司 一种基于分组卷积神经网络的标点标注模型
CN114138546B (zh) * 2020-09-03 2024-05-10 中国移动通信集团浙江有限公司 数据备份的方法、装置、计算设备及计算机存储介质
CN112084790B (zh) * 2020-09-24 2022-07-05 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112235264B (zh) * 2020-09-28 2022-10-14 国家计算机网络与信息安全管理中心 一种基于深度迁移学习的网络流量识别方法及装置
CN112256873B (zh) * 2020-10-19 2023-10-24 国网浙江杭州市萧山区供电有限公司 一种基于深度学习的变电检修工作任务多标签分类方法
CN112434790B (zh) * 2020-11-10 2024-03-29 西安理工大学 一种对于卷积神经网络判别部分黑箱问题的自解释方法
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN112380867A (zh) * 2020-12-04 2021-02-19 腾讯科技(深圳)有限公司 文本处理、知识库的构建方法、装置和存储介质
CN112426726A (zh) * 2020-12-09 2021-03-02 网易(杭州)网络有限公司 游戏事件抽取方法、装置、存储介质及服务器
CN112633927B (zh) * 2020-12-23 2021-11-19 浙江大学 一种基于知识图谱规则嵌入的组合商品挖掘方法
US11625880B2 (en) * 2021-02-09 2023-04-11 Electronic Arts Inc. Machine-learning models for tagging video frames
CN113077118A (zh) * 2021-03-01 2021-07-06 广东电网有限责任公司广州供电局 一种基于互联网智能推送技术的工单推送方法
CN113157883A (zh) * 2021-04-07 2021-07-23 浙江工贸职业技术学院 一种基于双模型结构的中文意见目标边界预测方法
CN113065005B (zh) * 2021-05-19 2024-01-09 南京烽火星空通信发展有限公司 一种基于知识图谱和文本分类模型的法律条文推荐方法
CN113673336B (zh) * 2021-07-16 2023-09-26 华南理工大学 基于对齐ctc的字符切割方法、系统及介质
CN113569773B (zh) * 2021-08-02 2023-09-15 南京信息工程大学 基于知识图谱和Softmax回归的干扰信号识别方法
CN113822061B (zh) * 2021-08-13 2023-09-08 国网上海市电力公司 一种基于特征图构建的小样本专利分类方法
CN114111764B (zh) * 2021-08-21 2024-01-12 西北工业大学 一种导航知识图谱构建及推理应用方法
CN113673434B (zh) * 2021-08-23 2024-02-20 合肥工业大学 一种基于高效卷积神经网络和对比学习的脑电情绪识别方法
CN113807519A (zh) * 2021-08-30 2021-12-17 华中师范大学 一种融入教学反馈与习得理解的知识图谱构建方法
CN113780564B (zh) * 2021-09-15 2024-01-12 西北工业大学 融合实体类型信息的知识图谱推理方法、装置、设备及存储介质
CN113806488B (zh) * 2021-09-24 2024-02-02 石家庄铁道大学 一种基于元结构学习的异构图转换的文本挖掘方法
CN113836940B (zh) * 2021-09-26 2024-04-12 南方电网数字电网研究院股份有限公司 电力计量领域的知识融合方法、装置和计算机设备
CN114168740A (zh) * 2021-10-11 2022-03-11 国网天津市电力公司电力科学研究院 基于图卷积神经网络和知识图谱的变压器并发性故障诊断方法
CN113947161A (zh) * 2021-10-28 2022-01-18 广东工业大学 一种基于注意力机制的多标签文本分类方法及系统
CN114221992A (zh) * 2021-11-12 2022-03-22 国网山西省电力公司电力科学研究院 一种基于跨层指纹的细粒度设备识别方法
CN114064926A (zh) * 2021-11-24 2022-02-18 国家电网有限公司大数据中心 多模态电力知识图谱构建方法、装置、设备及存储介质
CN114448821A (zh) * 2021-12-03 2022-05-06 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备
CN114238524B (zh) * 2021-12-21 2022-05-31 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
CN114511007B (zh) * 2022-01-17 2022-12-09 上海梦象智能科技有限公司 一种基于多尺度特征感知的非侵入式电气指纹识别方法
CN114511708B (zh) * 2022-01-18 2024-06-11 北京工业大学 基于节点级嵌入特征三维关系重建的图数据相似度方法
CN114694774A (zh) * 2022-02-23 2022-07-01 电子科技大学 一种基于神经网络快速预测多层吸波材料s参数的方法
CN114330323B (zh) * 2022-03-08 2022-06-28 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114821169A (zh) * 2022-04-23 2022-07-29 福建福清核电有限公司 微服务架构下的方法级无侵入调用链路追踪方法
CN114580424B (zh) * 2022-04-24 2022-08-05 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114897007B (zh) * 2022-04-26 2024-04-19 太原理工大学 一种复合信息分层卷积神经网络的钻机健康状况评估方法
CN114723997B (zh) * 2022-04-29 2024-05-31 厦门大学 基于Tropical代数的复合型卷积运算方法、存储介质及电子设备
CN114817568B (zh) * 2022-04-29 2024-05-10 武汉科技大学 联合注意力机制与卷积神经网络的知识超图链接预测方法
CN115017945A (zh) * 2022-05-24 2022-09-06 南京林业大学 基于增强型卷积神经网络的机械故障诊断方法和诊断系统
CN114911942B (zh) * 2022-05-31 2024-06-18 华中师范大学 基于置信度的可解释性的文本情感分析方法、系统及设备
CN115081439B (zh) * 2022-07-01 2024-02-27 淮阴工学院 一种基于多特征自适应增强的化学药品分类方法及系统
CN115225731B (zh) * 2022-07-29 2024-03-05 中国人民解放军陆军工程大学 一种基于混合神经网络的在线协议识别方法
CN115391414B (zh) * 2022-10-28 2023-01-13 北京双赢天下管理咨询有限公司 一种基于大数据的银行市场拓展系统及方法
CN115757325B (zh) * 2023-01-06 2023-04-18 珠海金智维信息科技有限公司 一种xes日志智能转换方法及系统
CN115994668B (zh) * 2023-02-16 2023-06-20 浙江非线数联科技股份有限公司 智慧社区资源管理系统
CN116095089B (zh) * 2023-04-11 2023-06-16 云南远信科技有限公司 遥感卫星数据处理方法及系统
CN116562760B (zh) * 2023-05-09 2024-04-26 杭州君方科技有限公司 纺织化纤供应链监管方法及其系统
CN116907214B (zh) * 2023-05-09 2024-03-08 广东夏和瓷业有限公司 环保日用陶瓷的制备工艺及其系统
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
AU2018101513A4 (en) * 2018-10-11 2018-11-15 Hui, Bo Mr Comprehensive Stock Prediction GRU Model: Emotional Index and Volatility Based

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005203551A (ja) 2004-01-15 2005-07-28 Suncall Corp 巻線装置
CN202534501U (zh) 2012-03-08 2012-11-14 上海东普电器制造有限公司 新能源大容量变压器感应线圈多层箔绕系统
US10223780B2 (en) * 2015-04-15 2019-03-05 Institute Of Automation Chinese Academy Of Sciences Image steganalysis based on deep learning
CN205282279U (zh) 2015-12-25 2016-06-01 旭源电子(珠海)有限公司 变压器半自动包铜箔机
US10817509B2 (en) * 2017-03-16 2020-10-27 Massachusetts Institute Of Technology System and method for semantic mapping of natural language input to database entries via convolutional neural networks
CN107031946A (zh) 2017-06-23 2017-08-11 珠海林顺机电有限公司 铜箔贴胶带装置
CN207818360U (zh) 2018-01-19 2018-09-04 深圳市海目星激光智能装备股份有限公司 一种变压器的包铜箔设备
CN108563779B (zh) * 2018-04-25 2022-03-08 北京计算机技术及应用研究所 一种基于神经网络的无模板自然语言文本答案生成方法
CN109815339B (zh) 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN108614875A (zh) * 2018-04-26 2018-10-02 北京邮电大学 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
AU2018101513A4 (en) * 2018-10-11 2018-11-15 Hui, Bo Mr Comprehensive Stock Prediction GRU Model: Emotional Index and Volatility Based

Also Published As

Publication number Publication date
US20210216880A1 (en) 2021-07-15
SG11202001276TA (en) 2020-08-28
CN109815339A (zh) 2019-05-28
WO2020140386A1 (zh) 2020-07-09
US11392838B2 (en) 2022-07-19

Similar Documents

Publication Publication Date Title
CN109815339B (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
WO2021169116A1 (zh) 智能化的缺失数据填充方法、装置、设备及存储介质
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN111615702A (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN112560964A (zh) 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN113486173B (zh) 文本标注神经网络模型及其标注方法
CN110929119A (zh) 数据标注方法、装置、设备及计算机存储介质
CN114491047A (zh) 多标签文本分类方法、装置、电子设备及存储介质
CN112733551A (zh) 文本分析方法、装置、电子设备及可读存储介质
CN112231416A (zh) 知识图谱本体更新方法、装置、计算机设备及存储介质
CN110795558B (zh) 标签获取方法和装置、存储介质及电子装置
CN113435308B (zh) 文本多标签分类方法、装置、设备及存储介质
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN113935880A (zh) 政策推荐方法、装置、设备及存储介质
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN111723872B (zh) 行人属性识别方法及装置、存储介质、电子装置
CN114238622A (zh) 关键信息的提取方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant