CN114742061A - 文本处理方法、装置、电子设备及存储介质 - Google Patents

文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114742061A
CN114742061A CN202210447844.5A CN202210447844A CN114742061A CN 114742061 A CN114742061 A CN 114742061A CN 202210447844 A CN202210447844 A CN 202210447844A CN 114742061 A CN114742061 A CN 114742061A
Authority
CN
China
Prior art keywords
text
entity
word
processed
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210447844.5A
Other languages
English (en)
Inventor
刘静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202210447844.5A priority Critical patent/CN114742061A/zh
Publication of CN114742061A publication Critical patent/CN114742061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,提供一种文本处理方法、装置、电子设备及存储介质,利用远程监督学习技术基于所述历史文本获得训练数据;之后利用所述训练数据训练卷积神经网络,获得实体识别模型;然后基于所述训练数据训练语言模型,获得关系生成模型;获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;最后基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本中的关系提取结果,实现了降低获取实体训练数据的人工成本,并提高文本处理在职业教育领域的关系提取的准确性和适用性。

Description

文本处理方法、装置、电子设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
当前领域知识图谱的构建过程所使用的训练数据的获取方式,需要大量的人工标注实体工作,耗费大量人力和时间。此外,开源的中文知识图谱的数据基础一般是来源于对各大百科进行抽取融合的结果,在特殊领域的文本处理的适用性和扩展性不足,不能满足特殊领域的知识图谱构建。
发明内容
鉴于以上内容,有必要提出一种文本处理方法、装置、电子设备及存储介质,能够通过远程监督获取实体训练数据降低人工成本,并提高文本处理在职业教育领域的关系提取的准确性和适用性。
本发明的第一方面提供一种文本处理方法,所述方法包括:
获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
利用所述训练数据训练卷积神经网络,获得实体识别模型;
基于所述训练数据训练语言模型,获得关系生成模型;
获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
根据本发明的一个可选的实施方式,所述历史文本包括职业培训课程文本,所述利用远程监督学习技术基于所述历史文本获得训练数据包括:
将所述历史文本与开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语组成的SPO三元组,将所述SPO三元组作为所述训练数据。
根据本发明的一个可选的实施方式,所述卷积神经网络包括IDCNN+CRF。
根据本发明的一个可选的实施方式,所述基于所述训练数据训练语言模型包括:
在IDCNN+CRF模型的基础上,根据所述训练数据训练语言模型,生成关系生成模型,所述语言模型是基于Transformer机制的BERT模型语言模型。
根据本发明的一个可选的实施方式,所述基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体包括:
将所述待处理文本输入所述实体识别模型,利用所述实体识别模型识别所述待处理文本中的实体;及
采用迭代的新词发现技术对所述待处理文本进行新词发现,根据所述新词发现得到的实体对所述实体识别模型识别的实体进行补充。
根据本发明的一个可选的实施方式,所述迭代的新词发现技术包括连续两次的新词发现,其中,将第一次新词发现后得到的实体作为已有词汇后,进行第二次新词发现。
根据本发明的一个可选的实施方式,所述基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取包括:
将所述待处理文本输入所述关系生成模型,利用所述关系生成模型生成所述待处理文本中的关系词,所述关系词表示一个文字或多个连续文字的组合;
计算任一关系词的左邻字的信息熵与右邻字的信息熵,当所述左邻字的信息熵与所述右邻字的信息熵都大于预设的信息熵阈值时,确定所述任一关系词为一个词汇;
利用依存句法分析技术识别多个词汇之间的依存关系,其中,所述依存关系包括主谓宾关系。
本发明的第二方面提供一种文本处理装置,所述装置包括:
获取模块,用于获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
训练模块,用于利用所述训练数据训练卷积神经网络,获得实体识别模型;
生成模块,用于基于所述训练数据训练语言模型,获得关系生成模型;
识别模块,用于获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
提取模块,用于基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述文本处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本处理方法。
综上所述,本发明所述的文本处理方法、装置、电子设备及存储介质,首先获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;之后利用所述训练数据训练卷积神经网络,获得实体识别模型;然后基于所述训练数据训练语言模型,获得关系生成模型;获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;最后基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本中的关系提取结果,实现了基于远程监督技术高效快速扩充训练数据,利用膨胀的卷积神经网络训练实体识别模型以增大训练数据的感受野,基于transformer机制的bert预训练语言模型获得关系提取模型,在训练数据充分的情况下预测得到更广泛领域的关系,通过迭代的新词发现技术对实体识别模型进行实体的补充以提高实体识别的准确度,并利用预设的信息熵阈值以及依存句法分析技术提高关系提取模型的关系词预测结果的精准度。
附图说明
图1是本发明实施例一提供的文本处理方法的流程图。
图2是本发明实施例二提供的文本处理装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的文本处理方法由电子设备执行,相应地,文本处理装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的文本处理方法的流程图。所述文本处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据。
在一个可选的实施方式中,本申请提供的方案可以应用于职业教育知识图谱构建领域,所述历史文本包括职业培训课程文本。电子设备可以响应用户输入获取所述历史文本,还可以预先存储所述历史文本在电子设备的存储器中,或者预先存储历史文本在与电子设备通讯连接的其他设备中。此外,电子设备还可以通过网络搜索下载开源的职业培训课程文本作为所述历史文本。
在一个实施例中,在利用远程监督学习技术基于所述历史文本获得训练数据之前,所述方法还包括对所述历史文本进行预处理,所述预处理包括:命名实体识别(NamedEntity Recognition,NER)、词性(Part-Of-Speech,POS)标注等。可以利用自然语言处理领域的常用分析方法进行所述预处理,例如,利用斯坦福大学的CoreNLP工具进行所述预处理。
在一个可选的实施方式中,所述利用远程监督学习技术基于所述历史文本获得训练数据包括:将所述历史文本与开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语(Subject-Predication-Object)组成的SPO三元组,将所述SPO三元组作为所述训练数据。
在一个可选的实施方式中,所述开源知识图谱包括:中文通用百科知识图谱(CN-DBpedia)等。所述将所述历史文本与开源知识图谱进行实体匹配(Entity Matching)包括:获取所述开源知识图谱中的实体的实体编号;根据所述开源知识图谱中的实体的实体编号,将所述历史文本中的实体对应到所述开源知识图谱的实体中,获得所述历史文本中的实体的实体编号。
其中,可以通过所述开源知识图谱对应的应用程序接口(ApplicationProgramming Interface,API)获得所述实体信息,还可以下载所述开源知识图谱并在其中查询所述实体信息。
在一个可选的实施例中,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语组成的SPO三元组包括:
基于所述实体编号,对所述历史文本中的句子进行文本特征提取,所述文本特征提取包括提取所述历史文本中的句子的词法特征(Lexical Feature)、句法特征(Syntactic Feature)、实体类型标签,其中,所述词法特征包括:两个实体之间的词汇序列、每一个词例(token)的词性(POS)标签、实体的开始位置索引等;
基于提取得到的文本特征和所述开源知识图谱,对所述历史文本中的句子进行自动标记(Labelling),所述自动标记包括根据所述开源知识图谱获得所述历史文本中实体对的关系,其中,所述实体对表示所述历史文本中的句子中的多个实体的组合,所述关系包括主语-谓语-宾语关系;
根据所述实体对的关系得到所述SPO三元组,所述三元组表示由三个实体组成的实体对。
举例而言,当所述历史文本包含句子“编制预算的类型:费用预算与损益表预算”时,与所述开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,可以得到所述历史文本的SPO三元组:(编制预算,类型,费用预算)、(编制预算,类型,损益表预算);
当所述历史文本包含句子“员工的基本工资,包括基础工资、加班工资、基本工资(营销)、全勤奖、有薪假工资、病假工资、法定加班工资”时,与所述开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,可以得到所述历史文本的SPO三元组:(基本工资,包括,基础工资)、(基本工资,包括,加班工资)、(基本工资,包括,全勤奖)、(基本工资,包括,有薪假工资)、(基本工资,包括,病假工资)、(基本工资,包括,法定加班工资)。
在一个可选的实施例中,利用所述远程监督学习技术通过将使用所述开源知识图谱与所述历史文本进行实体匹配,可以快速获得大量的训练数据,从而减少获取训练数据的成本。
S12,利用所述训练数据训练卷积神经网络,获得实体识别模型。
在一个可选的实施方式中,所述卷积神经网络包括IDCNN+CRF。所述实体识别模型可以对输入的文本数据进行实体识别,通过确定所述输入的文本数据中的词汇的标签(或类别,例如主语或谓语或宾语),得到输入的文本数据中的实体。
其中,所述IDCNN(Iterated Dilated Convolutional Neural Networks)表示迭代的膨胀卷积神经网络。
卷积神经网络CNN(Convolutional Neural Networks)的结构通常包括:输入层(Input layer)、卷积计算层(CONV layer)、激励层(RELU layer)、池化层(Poolinglayer)、全连接层(FC layer)。其中,输入层用于对数据(例如所述训练数据)进行预处理,所述预处理包括:去均值、归一化、主成分分析降维与白化(whitening)。卷积计算层用于将每个神经元作为一个过滤器(filter),基于窗口(receptive field)滑动对数据进行特征提取(例如进行实体识别),得到输出矩阵。激励层利用ReLU(The Rectified Linear Unit/修正线性单元)激励函数对输出矩阵做非线性映射,输出后到达池化层。池化层可以利用Max Pooling、Average Pooling等算法压缩数据和参数的量,减小过拟合以及增大感受野。全连接层两层之间所有神经元都有权重连接,跟传统的神经网络神经元的连接方式相同,用于获得简化后的预测结果(例如每个词汇是主语的概率)。
膨胀卷积神经网络在CNN的过滤器的基础上,使用矩形结构元素对区域(block)进行膨胀,所述矩形结构元素包括扩张宽度(dilation width)。与CNN的卷积操作相比,IDCNN会跳过膨胀宽度中间的数据,保持卷积核的大小不变。这样一个同样大小的卷积核就能够获得更广的输入矩阵数据,增大了卷积核的感受视野。可以将4个大的相同结构的膨胀卷积神经网络(例如包括3×3的膨胀卷积核的膨胀卷积神经网络)区域拼在一起,每个区域包括扩张宽度分别为1、1、2的三层膨胀卷积层,构成所述迭代的膨胀卷积神经网络。
在一个可选的实施方式中,所述膨胀卷积可以在不做池化并不损失训练数据信息的情况下,增大训练数据的感受野,让每个卷积的输出结果都包含较大范围的信息,获得更长的文本序列的上下文信息。
具体的,IDCNN可以通过对所输入的句子中每个字进行标注生成每个字的logits,所述logits表示IDCNN预测得到的每个字(或词)属于每个标签(例如主语或谓语或宾语)的概率。
IDCNN只能提取语句特征,并对当前标签进行预测,无法考虑标签之间的依赖关系。条件随机场(Conditional Random Field,CRF)可以利用标签转移分数,用Viterbi算法解码出所述logits的标注结果,通过考虑标签之间的相邻关系获得全局最优标签序列,从而获得准确率更高的实体预测结果。
在一个可选的实施方式中,训练IDCNN+CRF的过程包括对IDCNN+CRF的超参数的迭代调参,测试不同超参数对模型的损失函数(例如,对数损失函数)的影响,直至损失函数收敛至预设的数值(例如,0.5),将损失函数收敛至预设的数值的模型作为所述实体识别模型。其中,所述超参数包括IDCNN+CRF的卷积核的个数(例如,10、20、50、100)、膨胀卷积块堆叠层数(例如,4、6、8),所述损失函数表示模型的预测能力与实际已知结果的误差。
S13,基于所述训练数据训练语言模型,获得关系生成模型。
在一个可选的实施方式中,所述语言模型可以是基于Transformer机制的BERT(Bidirectional Encoder Representations from Transformers)语言模型,包括BERT-Base语言模型、BERT-Large语言模型等。
在一个可选的实施方式中,可以在IDCNN+CRF模型的基础上,根据所述训练数据训练BERT-Base语言模型,生成BERT-IDCNN+CRF的关系生成模型,其训练过程与步骤S12中的训练过程相同。
其中,BERT-IDCNN+CRF关系生成模型的卷积计算层用于识别实体之间的关系。对BERT-IDCNN+CRF关系生成模型的迭代调参还包括对BERT-Base的层数(例如,12)、隐层维数(例如,768)、模式类型(例如,12头模式)、参数个数(例如110M)等超参数的调整。
在一个实施例中,所述关系生成模型采用基于transformer机制的bert预训练语言模型,在训练数据充分的情况下能够预测得到更广泛领域的关系。
S14,获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体。
在一个可选的实施方式中,获取待处理文本的方法与获取所述历史文本的方法相同。
在一个可选的实施方式中,所述基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体包括:将所述待处理文本输入所述实体识别模型,利用所述实体识别模型识别所述待处理文本中的实体;及采用迭代的新词发现技术对所述待处理文本进行新词发现,对所述实体识别模型识别的实体进行补充。
在一个可选的实施例中,有些实体是比较特殊的短语(例如,用户自定义的短语),所述实体识别模型可能无法准确识别这些特殊的短语,可以使用新词发现技术获取所述实体识别模型识别不到的实体,根据所述新词发现得到的实体对所述实体识别模型识别的结果进行补充。
在一个可选的实施例中,所述迭代的新词发现技术包括连续两次的新词发现,其中,将第一次新词发现后得到的实体作为已有词汇后,进行第二次新词发现。
举例而言,当所述待处理文本包含句子“本课件重点对工厂涉及较多的第二道防线、第三道防线、第四道防线进行讲解,第二道防线是指饲料厂大门口”时,该文本中的“第二道防线”在上述实体识别模型中就不容易被识别到,需要使用新词发现技术来识别,例如第一次新词发现技术发现新词汇“第二道”之后,将“第二道”作为构建新词发现的Trie树的已有词汇,再做新词发现就会得到“第二道防线”这个新词汇。
具体的,所述迭代的新词发现技术包括:进行所述第一次新词发现,包括如下A-F:
A.将所述待处理文本按照字符分割成单字符集合,将两个(或大于两个的)连续的单字符的组合作为候选词,构建Trie树以存储长度为3的候选词片段,所述长度为3的候选词片段包括所述候选词的左邻字(或称为前缀)、所述候选词及所述候选词的右邻字(或称为后缀),所述构建Trie树包括使用3-gram序列构建前缀Trie树和后缀Trie树,所述Trie树以单个字符为节点,每个节点记录从根节点到当前节点构成的词汇出现的频次;
B.基于所述Trie树获得所述左邻字和所述右邻字的频次列表,计算所述左邻字的信息熵和所述右邻字的信息熵以及所述候选词片段的左右信息熵(包括所述候选词片段的左邻候选词片段的信息熵和所述候选词片段的右邻候选词片段的信息熵);
C.基于所述Trie树获得候选词的词频以及左右片段(包括所述候选词片段的左邻候选词片段和所述候选词片段的右邻候选词片段)的词频,根据所述词频计算每个候选词的出现概率p(x,y)和期望出现概率p(x)p(y),其中,x与y表示所述候选词的两个字符,p(x)表示字符x出现的概率,p(y)表示字符y出现的概率;
D.根据每个候选词的出现概率和期望出现概率,计算所述候选词中两个字符之间的凝合度,所述凝合度包括点间互信息(pointwise mutual information),所述点间互信息表示相邻字符(或词汇)同时出现的次数与相邻字符(或词汇)分别出现的次数的比值,所述候选词的点间互信息可以使用概率表示为p(x,y)/(p(x)*p(y));
E.基于预设的词频阈值(例如,2)与凝合度阈值(例如,25),将低于所述词频阈值或凝合度阈值的候选词排除,将剩余的候选词作为备用词;
F.为每一个备选词计算并设置一个可能性参数,所述可能性参数表示所述备选词成为新词的可能性,所述可能性参数可以包括三个参数的乘积,所述三个参数包括:点间互信息,两个备选词的互相之间的信息熵l和r的最小值,每个备选词左右信息熵的最小值;其中,所述点间互信息越高,所述备选词中的字符之间的内部聚合程度越高;两个备选词的互相之间的信息熵l和r的最小值的数值越大,表示两个备选词一起出现(或成词)的可能性越小;每个备选词左右信息熵的最小值的数值越大表示这个备选词出现的成为新词的可能性越大,因此,所述可能性参数的值越高表示所述备选词成词的可能性越大。
所述第二次新词发现包括:
当任一备选词的所述左邻字的信息熵或所述右邻字的信息熵为0时,进行所述第二次新词发现,确认所述任一备选词与左右的字符组成的新词的可能性参数;
计算每个备选词的词频和所述可能性参数的乘积并将所述乘积按照由大至小的顺序排序,将排在预设位次之前的备选词作为所述迭代的新词发现得到的实体。
举例而言,对所述左邻字的信息熵和所述右邻字的信息熵的计算如下例所示:
当所述待处理文本包含文本“张三毕业院校清华,李四毕业院校北大,花花毕业院校北大”时,候选词“毕业院校”共出现了三次(即频次为3),候选词“毕业院校”的左邻字分别为{三,四,花},其中,每个左邻字的频次为1,每个左邻字的词频为1/3,那么左邻字的信息熵为:-(1/3)·log(1/3)-(1/3)·log(1/3)-(1/3)·log(1/3)≈0.477;候选词“毕业院校”的右邻字分别为{清,北,北},其中,右邻字“清”的频次为1,右邻字“清”的词频为1/3,右邻字“北”的频次为2,右邻字“北”的词频为2/3,那么右邻字的信息熵为:-(1/3)·log(1/3)-(2/3)·log(2/3)≈0.276;
此外,候选词“毕业院”共出现了三次(即频次为3),候选词“毕业院校”的左邻字分别为{三,四,花},其中,每个左邻字的频次为1,每个左邻字的词频为1/3,那么左邻字的信息熵为:-(1/3)·log(1/3)-(1/3)·log(1/3)-(1/3)·log(1/3)≈0.477;候选词“毕业院”的右邻字为{校},右邻字“校”的频次为1,右邻字“校”的词频为1,那么右邻字的信息熵为:-1·log(1)=0。
S15,基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果。
在一个可选的实施方式中,所述基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取包括:
将所述待处理文本输入所述关系生成模型,利用所述关系生成模型生成所述待处理文本中的关系词,所述关系词表示一个文字或多个连续文字的组合;
计算任一关系词的左邻字的信息熵与右邻字的信息熵,当所述左邻字的信息熵与所述右邻字的信息熵都大于所述信息熵阈值时,确定所述任一关系词为一个词汇(或称为可用的关系词);
利用所述依存句法分析技术识别多个词汇之间的依存关系,其中,所述依存关系包括主谓宾关系。
在一个可选的实施方式中,计算任一关系词的左邻字的信息熵与右邻字的信息熵的方法与S14中的方法相同。可以将所述信息熵阈值设置为0.2,当所述关系词的左邻字的信息熵与右邻字的信息熵都大于0.2时,确定所述任一关系词为一个可用的关系词。当所述关系词的左邻字的信息熵或右邻字的信息熵小于或等于0.2时,确定所述任一关系词不是可用的关系词,例如,关系词“毕业院”的右邻字的信息熵为0,小于所述信息熵阈值0.2,所以“毕业院”不是可用的关系词。以所述信息熵阈值作为判定条件可以将不是可用的关系词剔除,从未提高关系词预测结果的精准度。
在一个可选的实施方式中,所述依存句法分析技术能够识别句子中词汇之间的依存关系,所述依存关系包括主谓宾(SPO)关系。可以基于哈尔滨工业大学的自然语言处理包LTP(Language Technology Platform)进行所述依存句法分析。
举例而言,词汇包括:[‘知鸟app’,‘是’‘一个’‘丰富’‘、’‘完善’‘的’‘职业教育app’](可依序编号为0至7)时,每个词汇对应的词性为:['ns','v','m','a','wp','a','u','n'],对应的依存句法关系为:[{},{'SBV':[0],'VOB':[7]},{},{'COO':[5],'RAD':[6]},{},{'WP':[4]},{},{'ATT':[2,3]}];词汇、词性与依存句法分析的整合结果包括:[['SBV','知鸟app',0,'ns','是',1,'v'],['HED','是',1,'v','Root',-1,'n'],['ATT','一个',2,'m','职业教育app',7,'n'],['ATT','丰富',3,'a','职业教育app',7,'n'],['WP','、',4,'wp','完善',5,'a'],['COO','完善',5,'a','丰富',3,'a'],['RAD','的',6,'u','丰富',3,'a'],['VOB','职业教育app',7,'n','是',1,'v']];
其中,'SBV'表示主谓关系,知鸟app-->是;‘HED’表示核心关系,‘是’是整个句子的核心;‘ATT’表示定中关系,‘一个’‘丰富’都是‘职业教育app’的定语;‘WP’表示标点符号,‘、’是标点;‘COO’表示并列关系,‘丰富’‘完善’是并列关系;‘RAD’表示右附加关系,‘的’是‘丰富’的右附加关系;‘VOB’表示动宾关系,‘是’-->‘职业教育app’。
基于上述句法分析结果进行关系提取,在本实施例中,所述实体识别模型识别出两个实体‘知鸟app’和‘职业教育app’,而关系生成模型没有预测出这两个实体之间的有效关系‘是’,这时就可以使用依存句法对该句子将进行解析,识别出主谓关系【知鸟app-->是】和动宾关系【‘是’-->‘职业教育app’】满足上述两个条件就得到两个实体【‘知鸟app’和‘职业教育app’】的关系为【‘是’】。
在一个可选的实施方式中,利用依存句法分析技术识别句子中词汇之间的依存关系,对所述关系生成模型没有预测出的有效关系进行补充,从而提高文本处理结果的精准度,所述文本处理结果包括所述待处理文本中的实体(或词汇)、实体的标签、实体之间的三元组关系等。
实施例二
图2是本发明实施例二提供的文本处理装置的结构图。
在一些实施例中,所述文本处理装置20可以包括多个由计算机程序段所组成的功能模块。所述文本处理装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)文本处理的功能。
本实施例中,所述文本处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、训练模块202、生成模块203、识别模块204及提取模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201,用于获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据。
在一个可选的实施方式中,本申请提供的方案可以应用于职业教育知识图谱构建领域,所述历史文本包括职业培训课程文本。电子设备可以响应用户输入获取所述历史文本,还可以预先存储所述历史文本在电子设备的存储器中,或者预先存储历史文本在与电子设备通讯连接的其他设备中。此外,电子设备还可以通过网络搜索下载开源的职业培训课程文本作为所述历史文本。
在一个实施例中,在利用远程监督学习技术基于所述历史文本获得训练数据之前,所述方法还包括对所述历史文本进行预处理,所述预处理包括:命名实体识别(NamedEntity Recognition,NER)、词性(Part-Of-Speech,POS)标注等。可以利用自然语言处理领域的常用分析方法进行所述预处理,例如,利用斯坦福大学的CoreNLP工具进行所述预处理。
在一个可选的实施方式中,所述利用远程监督学习技术基于所述历史文本获得训练数据包括:将所述历史文本与开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语(Subject-Predication-Object)组成的SPO三元组,将所述SPO三元组作为所述训练数据。
在一个可选的实施方式中,所述开源知识图谱包括:中文通用百科知识图谱(CN-DBpedia)等。所述将所述历史文本与开源知识图谱进行实体匹配(Entity Matching)包括:获取所述开源知识图谱中的实体的实体编号;根据所述开源知识图谱中的实体的实体编号,将所述历史文本中的实体对应到所述开源知识图谱的实体中,获得所述历史文本中的实体的实体编号。
其中,可以通过所述开源知识图谱对应的应用程序接口(ApplicationProgramming Interface,API)获得所述实体信息,还可以下载所述开源知识图谱并在其中查询所述实体信息。
在一个可选的实施例中,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语组成的SPO三元组包括:
基于所述实体编号,对所述历史文本中的句子进行文本特征提取,所述文本特征提取包括提取所述历史文本中的句子的词法特征(Lexical Feature)、句法特征(Syntactic Feature)、实体类型标签,其中,所述词法特征包括:两个实体之间的词汇序列、每一个词例(token)的词性(POS)标签、实体的开始位置索引等;
基于提取得到的文本特征和所述开源知识图谱,对上所述历史文本中的句子进行自动标记(Labelling),所述自动标记包括根据所述开源知识图谱获得所述历史文本中实体对的关系,其中,所述实体对表示所述历史文本中的句子中的多个实体的组合,所述关系包括主语-谓语-宾语关系;
根据所述实体对的关系得到所述SPO三元组,所述三元组表示由三个实体组成的实体对。
举例而言,当所述历史文本包含句子“编制预算的类型:费用预算与损益表预算”时,与所述开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,可以得到所述历史文本的SPO三元组:(编制预算,类型,费用预算)、(编制预算,类型,损益表预算);
当所述历史文本包含句子“员工的基本工资,包括基础工资、加班工资、基本工资(营销)、全勤奖、有薪假工资、病假工资、法定加班工资”时,与所述开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,可以得到所述历史文本的SPO三元组:(基本工资,包括,基础工资)、(基本工资,包括,加班工资)、(基本工资,包括,全勤奖)、(基本工资,包括,有薪假工资)、(基本工资,包括,病假工资)、(基本工资,包括,法定加班工资)。
在一个可选的实施例中,通过所述远程监督学习技术通过将使用所述开源知识图谱与所述历史文本进行实体匹配,可以快速获得大量的训练数据,从而减少获取训练数据的成本。
所述训练模块202,用于利用所述训练数据训练卷积神经网络,获得实体识别模型。
在一个可选的实施方式中,所述卷积神经网络包括IDCNN+CRF。所述实体识别模型可以对输入的文本数据进行实体识别,通过确定所述输入的文本数据中的词汇的标签(或类别,例如主语或谓语或宾语),得到输入的文本数据中的实体。
其中,所述IDCNN(Iterated Dilated Convolutional Neural Networks)表示迭代的膨胀卷积神经网络。
卷积神经网络CNN(Convolutional Neural Networks)的结构通常包括:输入层(Input layer)、卷积计算层(CONV layer)、激励层(RELU layer)、池化层(Poolinglayer)、全连接层(FC layer)。其中,输入层用于对数据(例如所述训练数据)进行预处理,所述预处理包括:去均值、归一化、主成分分析降维与白化(whitening)。卷积计算层用于将每个神经元作为一个过滤器(filter),基于窗口(receptive field)滑动对数据进行特征提取(例如进行实体识别),得到输出矩阵。激励层利用ReLU(The Rectified Linear Unit/修正线性单元)激励函数对输出矩阵做非线性映射,输出后到达池化层。池化层可以利用Max Pooling、Average Pooling等算法压缩数据和参数的量,减小过拟合以及增大感受野。全连接层两层之间所有神经元都有权重连接,跟传统的神经网络神经元的连接方式相同,用于获得简化后的预测结果(例如每个词汇是主语的概率)。
膨胀卷积神经网络在CNN的过滤器的基础上,使用矩形结构元素对区域(block)进行膨胀,所述矩形结构元素包括扩张宽度(dilation width)。与CNN的卷积操作相比,IDCNN会跳过膨胀宽度中间的数据,保持卷积核的大小不变。这样一个同样大小的卷积核就能够获得更广的输入矩阵数据,增大了卷积核的感受视野。可以将4个大的相同结构的膨胀卷积神经网络(例如包括3×3的膨胀卷积核的膨胀卷积神经网络)区域拼在一起,每个区域包括扩张宽度分别为1、1、2的三层膨胀卷积层,构成所述迭代的膨胀卷积神经网络。
在一个可选的实施方式中,所述膨胀卷积可以在不做池化并不损失训练数据信息的情况下,增大训练数据的感受野,让每个卷积的输出结果都包含较大范围的信息,获得更长的文本序列的上下文信息。
具体的,IDCNN可以通过对所输入的句子中每个字进行标注生成每个字的logits,所述logits表示IDCNN预测得到的每个字(或词)属于每个标签(例如主语或谓语或宾语)的概率。
IDCNN只能提取语句特征,并对当前标签进行预测,无法考虑标签之间的依赖关系。条件随机场(Conditional Random Field,CRF)可以利用标签转移分数,用Viterbi算法解码出所述logits的标注结果,通过考虑标签之间的相邻关系获得全局最优标签序列,从而获得准确率更高的实体预测结果。
在一个可选的实施方式中,训练IDCNN+CRF的过程包括对IDCNN+CRF的超参数的迭代调参,测试不同超参数对模型的损失函数(例如,对数损失函数)的影响,直至损失函数收敛至预设的数值(例如,0.5),将损失函数收敛至预设的数值的模型作为所述实体识别模型。其中,所述超参数包括IDCNN+CRF的卷积核的个数(例如,10、20、50、100)、膨胀卷积块堆叠层数(例如,4、6、8),所述损失函数表示模型的预测能力与实际已知结果的误差。
所述生成模块203,用于基于所述训练数据训练语言模型,获得关系生成模型。
在一个可选的实施方式中,所述语言模型可以是基于Transformer机制的BERT(Bidirectional Encoder Representations from Transformers)语言模型,包括BERT-Base语言模型、BERT-Large语言模型等。
在一个可选的实施方式中,可以在IDCNN+CRF模型的基础上,根据所述训练数据训练BERT-Base语言模型,生成BERT-IDCNN+CRF的关系生成模型,其训练过程与步骤S12中的训练过程相同。
其中,BERT-IDCNN+CRF关系生成模型的卷积计算层用于识别实体之间的关系。对BERT-IDCNN+CRF关系生成模型的迭代调参还包括对BERT-Base的层数(例如,12)、隐层维数(例如,768)、模式类型(例如,12头模式)、参数个数(例如110M)等超参数的调整。
在一个实施例中,所述关系生成模型采用基于transformer机制的bert预训练语言模型,在训练数据充分的情况下能够预测得到更广泛领域的关系。
所述识别模块204,用于获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体。
在一个可选的实施方式中,获取待处理文本的方法与获取所述历史文本的方法相同。
在一个可选的实施方式中,所述基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体包括:将所述待处理文本输入所述实体识别模型,利用所述实体识别模型识别所述待处理文本中的实体;及采用迭代的新词发现技术对所述待处理文本进行新词发现,对所述实体识别模型识别的实体进行补充。
在一个可选的实施例中,有些实体是比较特殊的短语(例如,用户自定义的短语),所述实体识别模型可能无法准确识别这些特殊的短语,可以使用新词发现技术获取所述实体识别模型识别不到的实体,根据所述新词发现得到的实体对所述实体识别模型识别的结果进行补充。
在一个可选的实施例中,所述迭代的新词发现技术包括连续两次的新词发现,其中,将第一次新词发现后得到的实体作为已有词汇后,进行第二次新词发现。
举例而言,当所述待处理文本包含句子“本课件重点对工厂涉及较多的第二道防线、第三道防线、第四道防线进行讲解,第二道防线是指饲料厂大门口”时,该文本中的“第二道防线”在上述实体识别模型中就不容易被识别到,需要使用新词发现技术来识别,例如第一次新词发现技术发现新词汇“第二道”之后,将“第二道”作为构建新词发现的Trie树的已有词汇,再做新词发现就会得到“第二道防线”这个新词汇。
具体的,所述迭代的新词发现技术包括:进行所述第一次新词发现,包括如下A-F:
A.将所述待处理文本按照字符分割成单字符集合,将两个(或大于两个的)连续的单字符的组合作为候选词,构建Trie树以存储长度为3的候选词片段,所述长度为3的候选词片段包括所述候选词的左邻字(或称为前缀)、所述候选词及所述候选词的右邻字(或称为后缀),所述构建Trie树包括使用3-gram序列构建前缀Trie树和后缀Trie树,所述Trie树以单个字符为节点,每个节点记录从根节点到当前节点构成的词汇出现的频次;
B.基于所述Trie树获得所述左邻字和所述右邻字的频次列表,计算所述左邻字的信息熵和所述右邻字的信息熵以及所述候选词片段的左右信息熵(包括所述候选词片段的左邻候选词片段的信息熵和所述候选词片段的右邻候选词片段的信息熵);
C.基于所述Trie树获得候选词的词频以及左右片段(包括所述候选词片段的左邻候选词片段和所述候选词片段的右邻候选词片段)的词频,根据所述词频计算每个候选词的出现概率p(x,y)和期望出现概率p(x)p(y),其中,x与y表示所述候选词的两个字符,p(x)表示字符x出现的概率,p(y)表示字符y出现的概率;
D.根据每个候选词的出现概率和期望出现概率,计算所述候选词中两个字符之间的凝合度,所述凝合度包括点间互信息(pointwise mutual information),所述点间互信息表示相邻字符(或词汇)同时出现的次数与相邻字符(或词汇)分别出现的次数的比值,所述候选词的点间互信息可以使用概率表示为p(x,y)/(p(x)*p(y));
E.基于预设的词频阈值(例如,2)与凝合度阈值(例如,25),将低于所述词频阈值或凝合度阈值的候选词排除,将剩余的候选词作为备用词;
F.为每一个备选词计算并设置一个可能性参数,所述可能性参数表示所述备选词成为新词的可能性,所述可能性参数可以包括三个参数的乘积,所述三个参数包括:点间互信息,两个备选词的互相之间的信息熵l和r的最小值,每个备选词左右信息熵的最小值;其中,所述点间互信息越高,所述备选词中的字符之间的内部聚合程度越高;两个备选词的互相之间的信息熵l和r的最小值的数值越大,表示两个备选词一起出现(或成词)的可能性越小;每个备选词左右信息熵的最小值的数值越大表示这个备选词出现的成为新词的可能性越大,因此,所述可能性参数的值越高表示所述备选词成词的可能性越大。
所述第二次新词发现包括:
当任一备选词的所述左邻字的信息熵或所述右邻字的信息熵为0时,进行所述第二次新词发现,确认所述任一备选词与左右的字符组成的新词的可能性参数;
计算每个备选词的词频和所述可能性参数的乘积并将所述乘积按照由大至小的顺序排序,将排在预设位次之前的备选词作为所述迭代的新词发现得到的实体。
举例而言,对所述左邻字的信息熵和所述右邻字的信息熵的计算如下例所示:
当所述待处理文本包含文本“张三毕业院校清华,李四毕业院校北大,花花毕业院校北大”时,候选词“毕业院校”共出现了三次(即频次为3),候选词“毕业院校”的左邻字分别为{三,四,花},其中,每个左邻字的频次为1,每个左邻字的词频为1/3,那么左邻字的信息熵为:-(1/3)·log(1/3)-(1/3)·log(1/3)-(1/3)·log(1/3)≈0.477;候选词“毕业院校”的右邻字分别为{清,北,北},其中,右邻字“清”的频次为1,右邻字“清”的词频为1/3,右邻字“北”的频次为2,右邻字“北”的词频为2/3,那么右邻字的信息熵为:-(1/3)·log(1/3)-(2/3)·log(2/3)≈0.276;
此外,候选词“毕业院”共出现了三次(即频次为3),候选词“毕业院校”的左邻字分别为{三,四,花},其中,每个左邻字的频次为1,每个左邻字的词频为1/3,那么左邻字的信息熵为:-(1/3)·log(1/3)-(1/3)·log(1/3)-(1/3)·log(1/3)≈0.477;候选词“毕业院”的右邻字为{校},右邻字“校”的频次为1,右邻字“校”的词频为1,那么右邻字的信息熵为:-1·log(1)=0。
所述提取模块205,用于基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
在一个可选的实施方式中,所述基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取包括:
将所述待处理文本输入所述关系生成模型,利用所述关系生成模型生成所述待处理文本中的关系词,所述关系词表示一个文字或多个连续文字的组合;
计算任一关系词的左邻字的信息熵与右邻字的信息熵,当所述左邻字的信息熵与所述右邻字的信息熵都大于所述信息熵阈值时,确定所述任一关系词为一个词汇(或称为可用的关系词);
利用所述依存句法分析技术识别多个词汇之间的依存关系,其中,所述依存关系包括主谓宾关系。
在一个可选的实施方式中,计算任一关系词的左邻字的信息熵与右邻字的信息熵的方法与S14中的方法相同。可以将所述信息熵阈值设置为0.2,当所述关系词的左邻字的信息熵与右邻字的信息熵都大于0.2时,确定所述任一关系词为一个可用的关系词。当所述关系词的左邻字的信息熵或右邻字的信息熵小于或等于0.2时,确定所述任一关系词不是可用的关系词,例如,关系词“毕业院”的右邻字的信息熵为0,小于所述信息熵阈值0.2,所以“毕业院”不是可用的关系词。以所述信息熵阈值作为判定条件可以将不是可用的关系词剔除,从未提高关系词预测结果的精准度。
在一个可选的实施方式中,所述依存句法分析技术能够识别句子中词汇之间的依存关系,所述依存关系包括主谓宾(SPO)关系。可以基于哈尔滨工业大学的自然语言处理包LTP(Language Technology Platform)进行所述依存句法分析。
举例而言,词汇包括:[‘知鸟app’,‘是’‘一个’‘丰富’‘、’‘完善’‘的’‘职业教育app’](可依序编号为0至7)时,每个词汇对应的词性为:['ns','v','m','a','wp','a','u','n'],对应的依存句法关系为:[{},{'SBV':[0],'VOB':[7]},{},{'COO':[5],'RAD':[6]},{},{'WP':[4]},{},{'ATT':[2,3]}];词汇、词性与依存句法分析的整合结果包括:[['SBV','知鸟app',0,'ns','是',1,'v'],['HED','是',1,'v','Root',-1,'n'],['ATT','一个',2,'m','职业教育app',7,'n'],['ATT','丰富',3,'a','职业教育app',7,'n'],['WP','、',4,'wp','完善',5,'a'],['COO','完善',5,'a','丰富',3,'a'],['RAD','的',6,'u','丰富',3,'a'],['VOB','职业教育app',7,'n','是',1,'v']];
其中,'SBV'表示主谓关系,知鸟app-->是;‘HED’表示核心关系,‘是’是整个句子的核心;‘ATT’表示定中关系,‘一个’‘丰富’都是‘职业教育app’的定语;‘WP’表示标点符号,‘、’是标点;‘COO’表示并列关系,‘丰富’‘完善’是并列关系;‘RAD’表示右附加关系,‘的’是‘丰富’的右附加关系;‘VOB’表示动宾关系,‘是’-->‘职业教育app’。
基于上述句法分析结果进行关系提取,在本实施例中,所述实体识别模型识别出两个实体‘知鸟app’和‘职业教育app’,而关系生成模型没有预测出这两个实体之间的有效关系‘是’,这时就可以使用依存句法对该句子将进行解析,识别出主谓关系【知鸟app-->是】和动宾关系【‘是’-->‘职业教育app’】满足上述两个条件就得到两个实体【‘知鸟app’和‘职业教育app’】的关系为【‘是’】。
在一个可选的实施方式中,利用依存句法分析技术识别句子中词汇之间的依存关系,对所述关系生成模型没有预测出的有效关系进行补充,从而提高文本处理结果的精准度,所述文本处理结果包括所述待处理文本中的实体(或词汇)、实体的标签、实体之间的三元组关系等。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本处理方法实施例中的步骤,例如图1所示的S11-S15:
S11,获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
S12,利用所述训练数据训练卷积神经网络,获得实体识别模型;
S13,基于所述训练数据训练语言模型,获得关系生成模型;
S14,获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
S15,基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-205:
所述获取模块201,用于获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
所述训练模块202,用于利用所述训练数据训练卷积神经网络,获得实体识别模型;
所述生成模块203,用于基于所述训练数据训练语言模型,获得关系生成模型;
所述识别模块204,用于获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
所述提取模块205,用于基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本处理方法的全部或者部分步骤;或者实现文本处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块、摄像装置等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
利用所述训练数据训练卷积神经网络,获得实体识别模型;
基于所述训练数据训练语言模型,获得关系生成模型;
获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
2.如权利要求1所述的文本处理方法,其特征在于,所述历史文本包括职业培训课程文本,所述利用远程监督学习技术基于所述历史文本获得训练数据包括:
将所述历史文本与开源知识图谱进行实体匹配,基于所述远程监督学习技术对所述历史文本进行关系提取,获得所述历史文本中的主语-谓语-宾语组成的SPO三元组,将所述SPO三元组作为所述训练数据。
3.如权利要求1所述的文本处理方法,其特征在于,所述卷积神经网络包括IDCNN+CRF。
4.如权利要求3所述的文本处理方法,其特征在于,所述基于所述训练数据训练语言模型包括:
在IDCNN+CRF模型的基础上,根据所述训练数据训练语言模型,生成关系生成模型,所述语言模型是基于Transformer机制的BERT语言模型。
5.如权利要求1所述的文本处理方法,其特征在于,所述基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体包括:
将所述待处理文本输入所述实体识别模型,利用所述实体识别模型识别所述待处理文本中的实体;及
采用迭代的新词发现技术对所述待处理文本进行新词发现,根据所述新词发现得到的实体对所述实体识别模型识别的实体进行补充。
6.如权利要求5所述的文本处理方法,其特征在于,所述迭代的新词发现技术包括连续两次的新词发现,其中,将第一次新词发现后得到的实体作为已有词汇后,进行第二次新词发现。
7.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取包括:
将所述待处理文本输入所述关系生成模型,利用所述关系生成模型生成所述待处理文本中的关系词,所述关系词表示一个文字或多个连续文字的组合;
计算任一关系词的左邻字的信息熵与右邻字的信息熵,当所述左邻字的信息熵与所述右邻字的信息熵都大于预设的信息熵阈值时,确定所述任一关系词为一个词汇;
利用依存句法分析技术识别多个词汇之间的依存关系,其中,所述依存关系包括主谓宾关系。
8.一种文本处理装置,其特征在于,所述装置包括获取模块、训练模块、生成模块、识别模块、提取模块:
所述获取模块,用于获取历史文本,利用远程监督学习技术基于所述历史文本获得训练数据;
所述训练模块,用于利用所述训练数据训练卷积神经网络,获得实体识别模型;
所述生成模块,用于基于所述训练数据训练语言模型,获得关系生成模型;
所述识别模块,用于获取待处理文本,基于所述实体识别模型和新词发现技术识别所述待处理文本中的实体;
所述提取模块,用于基于所述关系生成模型和预设的信息熵阈值以及依存句法分析技术,对所述待处理文本中的实体进行关系提取,得到所述待处理文本的文本处理结果,所述文本处理结果包括所述实体之间的关系。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的文本处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本处理方法。
CN202210447844.5A 2022-04-26 2022-04-26 文本处理方法、装置、电子设备及存储介质 Pending CN114742061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447844.5A CN114742061A (zh) 2022-04-26 2022-04-26 文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447844.5A CN114742061A (zh) 2022-04-26 2022-04-26 文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114742061A true CN114742061A (zh) 2022-07-12

Family

ID=82284621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447844.5A Pending CN114742061A (zh) 2022-04-26 2022-04-26 文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114742061A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法

Similar Documents

Publication Publication Date Title
CN106934069B (zh) 数据检索方法及系统
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111639486A (zh) 段落搜索方法、装置、电子设备及存储介质
CN112860848B (zh) 信息检索方法、装置、设备及介质
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN113642316A (zh) 中文文本纠错方法、装置、电子设备及存储介质
US11775763B2 (en) Weakly supervised and explainable training of a machine-learning-based named-entity recognition (NER) mechanism
CN112667878B (zh) 网页的文本内容提取方法、装置、电子设备及存储介质
CN114781402A (zh) 问诊意图识别方法、装置、电子设备及可读存储介质
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN111581972A (zh) 文本中症状和部位对应关系识别方法、装置、设备及介质
CN113435582A (zh) 基于句向量预训练模型的文本处理方法及相关设备
WO2023040145A1 (zh) 基于人工智能的文本分类方法、装置、电子设备及介质
CN114742061A (zh) 文本处理方法、装置、电子设备及存储介质
CN116340537A (zh) 人物关系抽取方法、装置、电子设备及存储介质
US20230061773A1 (en) Automated systems and methods for generating technical questions from technical documents
CN116701752A (zh) 基于人工智能的新闻推荐方法、装置、电子设备及介质
CN114492446B (zh) 法律文书处理方法、装置、电子设备及存储介质
CN115510219A (zh) 话术推荐方法、装置、电子设备及存储介质
CN115658858A (zh) 基于人工智能的对话推荐方法及相关设备
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN115718807A (zh) 人员关系分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination