CN113239196A - 一种基于数字人文的实体分类模型训练与预测方法 - Google Patents
一种基于数字人文的实体分类模型训练与预测方法 Download PDFInfo
- Publication number
- CN113239196A CN113239196A CN202110515349.9A CN202110515349A CN113239196A CN 113239196 A CN113239196 A CN 113239196A CN 202110515349 A CN202110515349 A CN 202110515349A CN 113239196 A CN113239196 A CN 113239196A
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- classification model
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013145 classification model Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数字人文的实体分类模型训练与预测方法,包括:从部分工具书中检索出至少六类实体,将人物实体中带有特殊描述前缀后缀的文本,利用HMM模型提取出词性为nr的文本,作为清洗后的样本;将检索出的实体分为正负两类,投入BertTokenizer中转换为token向量,并根据实体的文本长度特征,将向量扩充为16维向量;训练token文本向量,得到BIRNN分类模型结构;识别并校准BIRNN分类模型结果,生成不同类别的词典;将结果导出到数据库中,进行审核、去重并补全信息。
Description
技术领域
本发明涉及自然语言处理领域和计算机信息处理技术领域,尤其涉及一种基于数字人文的实体分类模型训练与预测方法。
背景技术
现有数字人文是大数据领域内的一项创新,近年来在人文学科各领域兴起,获得众多国内外学者关注。由于数字技术更新迭代,个人电脑具有普遍的应用,即使是文科学者也可以驱使数字技术来进行研究工作。为了进一步提升学者的研究效率,迫切需要一种可视化的方法展现历朝历代人文信息的方法,由于知识图谱具备将人类的知识结构化的功能,所以人文百科的信息通常用这种方式被表达出来。
在构造人文信息的图谱之前,首先要做的是实体分类,需要从大量自由文本中根据一定的特征辨识实体所属类别。实体分类是知识图谱构建和补全的重要子任务。
一般的文本分类模型主要分为四种:一是基于编制规则的方法分类数据,但大规模人工标注实体类别的方式需要付出高昂代价。二是基于词典的方法,例如直接采用词典匹配实体,但这要求词库一定要非常的全面和强大,显然在古汉语实体分类中是不适用的。三是基于传统机器学习的分类方法,例如 SVM等,但需要人工定义文本中的一些特征的规则,比如在判断“赵匡胤”的类别时,需要首先根据该实体的第一个字是否存在于百家姓中来判断,当遇到不规则人名(如古代皇帝谥号)、地名、历史事件等,没有更多的信息可以提取出来,这种方法便失效了,四是基于深度学习模型的分类方法,目前业界普遍应用于文本分类项目中,但对于实体而言,尤其是古汉语实体,还没有专门的深度学习方法进行建模分类。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于数字人文的实体分类模型训练与预测方法,该方法利用古汉语实体的文本特征,无需人工定义特征,与深度学习的分类方法结合,研究一种专门的实体分类方法,从而完成知识图谱的前期构建子任务,分类后的实体,构建实体词典,便于后续的文本实体抽取工作。
本发明的目的通过以下的技术方案来实现:
一种基于数字人文的实体分类模型训练与预测方法,包括:
步骤A从部分工具书中检索出至少六类实体,将人物实体中带有特殊描述前缀后缀的文本,利用HMM模型提取出词性为nr的文本,作为清洗后的样本;
步骤B将检索出的实体分为正负两类,投入BertTokenizer中转换为token 向量,并根据实体的文本长度特征,将向量扩充为16维向量;
步骤C训练token文本向量,得到BIRNN分类模型结构;
步骤D识别并校准BIRNN分类模型结果,生成不同类别的词典;
步骤E将结果导出到数据库中,进行审核、去重并补全信息。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明旨在仅利用古汉语实体的文本特征,无需人工定义特征,与深度学习的分类方法结合,研究一种专门的实体分类方法,从而完成知识图谱的前期构建子任务,分类后的实体,构建实体词典,便于后续的文本实体抽取工作。
附图说明
图1数字人文分类模型训练与预测方法流程图;
图2是截取的实体样本表图;
图3是截取的实体关系表图;
图4是二分类神经网络模型结构图;
图5是BiRNN原理结构图;
图6a和6b是人物二分类模型的迭代训练曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
该方法对古代人文信息的人物、官职、机构、朝代、事件、地点及其他实体进行分类,包括:
不规则样本调整模型,用于将文本信息过于冗长的样本提取出精简文本,例如将“英明威武的秦始皇”转换为“秦始皇”,通过该模型对目标实体进行初步调整,便于提高分类模型精度;实体类型分类模型,由于均为短文本,考虑到RNN较强的短期记忆能力,采用Bert+BIRNN算法,获得目标实体的分类结果。
如图1所示,为数字人文分类模型训练与预测方法流程,包括:
从已知的一部分分类明确的工具书中检索出六类实体(其中可能包含其他类别的实体),将人物实体中带有特殊描述前缀后缀的文本,利用HMM模型提取出词性为nr的文本,作为清洗后的样本。将所有实体中的特殊符号、噪音数据等过滤掉。
将六类实体分为正负两类,全部投入BertTokenizer中转换为token向量,对于向量维度的定义,综合考虑各类实体的文本长度特征,统一扩充为16 维向量。
1)转换为向量
xx省(p11 p12 p13)
商鞅变法(p21 p22 p23 p24)
李白(p31 p32)
内命妇(p41 p42 p43)
2、零填充
xx省(p11 p12 p13 0 ... 0)
商鞅变法(p21 p22 p23 p24 ... 0)
李白(p31 p32 0 0 ... 0)
内命妇(p41 p42 p43 0 ... 0)
每一个实体向量对应的类别使用keras.utils中的to_categorical方法,将类别转换为二分类矩阵。打乱样本中带有的初始顺序,随机排序,并按照75%的比例划分训练测试集。
设定训练token文本向量,得到BIRNN分类模型结构;
神经网络的结构如下:
一个嵌入层,将实体转换为文本序列向量,得到一个特征矩阵,利用 Embedding,建立一个带有嵌入层的神经网络,对序列中的每一个字都用相应的向量进行加权。最终将16维的稀疏特征向量经过空间投影转为8维的嵌入向量。
两层Dropout,且中间一层双向RNN,RNN会使模型迅速收敛,易过拟合,在RNN层前后各设置一层Dropout,增强模型泛化能力。
一个Softmax层,根据实体的向量特征得到一个类别分布概率向量,取概率值最大的类别作为最终预测结果。
校准并识别BIRNN分类模型结果,生成不同类别的词典;继续采集样本数据,从开始进行,逐步更新迭代训练出较为精准的深度学习模型。
将结果导出到数据库中,进行审核、去重并补全信息,具体如下:
人物实体,古代人物多具有不同的名字或别称,通过实体样本中带有的信息,进行昵称合并,别称放入“别称”字段中,只保留人名作为该实体的唯一标识。对于同名的不同人物,根据出生年月做去重处理。
地点实体,不同朝代中地点命名可能相同或不同,不同朝代的地点作为不同的实体,并添加地点经纬度。古代地名与现在地名多有不同,需增加一列对应的现有地名的描述。
其他实体均要审核后入库,统一递增编码,配给唯一id。
图1中模型训练和预测有不同的路径:训练模型时按照①④和⑤→⑥的顺序,预测时按照①②③⑦→⑧和⑨的顺序。
1、实体概念定义:初步定义数字人文知识图谱中的实体类型,包括类型的基本属性。本实施例定义的类型如表1
表1
本实施例定义的实体关系属性如表2:
表2
根据定义好的实体类别,分别抽取部分样本。
2、实体分类词表,以事件实体为例如图2所示,其中event_name为实体词,gjs_book为出处,gjs_txt为描述等。
关系表图如图3所示,其中的关系可以理解为kin_id对应的实体是 person_id对应的实体的relation关系。
3、数据预处理
预先做数据初筛,去除脏数据,去除或清洗包含数字、字母及特殊字符的数据,将实体使用BertTokenizer编码,转换为初始稀疏向量,并扩充到固定的维度。对于古汉语中的生僻字,需要扩充bert自带的字典,补全这些字符。
4、神经网络模型(如图4所示)
XF=WFf
以人物实体为例,上式中,将稀疏向量f通过第一层embedding后,经投影矩阵WF转为低维特征向量XF。对于普通的RNN模型,将XF拆开为 (x1 x2 ... xT),经过T个时刻之后,可以得到T个正向隐藏层状态将输入序列单词的顺序颠倒之后得到(xT ... x2x1),再次经过 RNN,得到反向隐藏层状态最后将正向隐藏状态和反向隐藏状态连接,即得到xj的向量表示。
图5是BiRNN原理结构图。
如图6a和6b所示,在进行模型训练时,epoch10次以内即可达到很高的精度,
loss为training loss,val_loss为validation loss,acc为training accuracy,val_acc为validation accuracy。
测试集的准确度如表3:
表3
从表中可以看出,朝代和事件的样本量较少、人物和地点的样本量较多,在分类模型中,对这种不平衡数据需要特殊处理,本实施例取正负样本数目的倒数作为各自的权重系数。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (3)
1.一种基于数字人文的实体分类模型训练与预测方法,其特征在于,包括:
步骤A从部分工具书中检索出至少六类实体,将人物实体中带有特殊描述前缀后缀的文本,利用HMM模型提取出词性为nr的文本,作为清洗后的样本;
步骤B将检索出的实体分为正负两类,投入BertTokenizer中转换为token向量,并根据实体的文本长度特征,将向量扩充为16维向量;
步骤C训练token文本向量,得到BIRNN分类模型结构;
步骤D识别并校准BIRNN分类模型结果,生成不同类别的词典;
步骤E将结果导出到数据库中,进行审核、去重并补全信息。
2.如权利要求1所述的基于数字人文的实体分类模型训练与预测方法,其特征在于,所述步骤C模型中神经网络结构包括:
嵌入层,用于对序列中的每一个字相应的向量进行加权,并将16维的稀疏特征向量经过空间投影转为8维的嵌入向量;
Dropout层,设置有两层,且中间一层双向RNN,在RNN层前后各设置一层Dropout,增强模型泛化能力;
Softmax层,根据实体的向量特征得到一个类别分布概率向量,取概率值最大的类别作为最终预测结果。
3.如权利要求1所述的基于数字人文的实体分类模型训练与预测方法,其特征在于,所述步骤E中需要审核、去重并补全的信息具体包括:
人物实体,人物多具有不同的名字或别称,通过实体样本中带有的信息,进行昵称合并,别称放入“别称”字段中,只保留人名作为该实体的唯一标识;
地点实体,不同朝代中地点命名可能相同或不同,不同朝代的地点作为不同的实体,并添加地点经纬度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515349.9A CN113239196B (zh) | 2021-05-12 | 2021-05-12 | 一种基于数字人文的实体分类模型训练与预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515349.9A CN113239196B (zh) | 2021-05-12 | 2021-05-12 | 一种基于数字人文的实体分类模型训练与预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239196A true CN113239196A (zh) | 2021-08-10 |
CN113239196B CN113239196B (zh) | 2024-07-09 |
Family
ID=77133947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110515349.9A Active CN113239196B (zh) | 2021-05-12 | 2021-05-12 | 一种基于数字人文的实体分类模型训练与预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239196B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792543A (zh) * | 2021-09-14 | 2021-12-14 | 安徽咪鼠科技有限公司 | 一种写作方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110807098A (zh) * | 2019-09-24 | 2020-02-18 | 武汉智美互联科技有限公司 | 基于BiRNN深度学习的DGA域名检测方法 |
CN111324742A (zh) * | 2020-02-10 | 2020-06-23 | 同方知网(北京)技术有限公司 | 一种数字人文知识图谱的构建方法 |
CN112487817A (zh) * | 2020-12-14 | 2021-03-12 | 北京明略软件系统有限公司 | 命名实体识别模型训练方法、样本标注方法、装置及设备 |
CN112613316A (zh) * | 2020-12-31 | 2021-04-06 | 北京师范大学 | 一种生成古汉语标注模型的方法和系统 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-05-12 CN CN202110515349.9A patent/CN113239196B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110807098A (zh) * | 2019-09-24 | 2020-02-18 | 武汉智美互联科技有限公司 | 基于BiRNN深度学习的DGA域名检测方法 |
CN111324742A (zh) * | 2020-02-10 | 2020-06-23 | 同方知网(北京)技术有限公司 | 一种数字人文知识图谱的构建方法 |
CN112487817A (zh) * | 2020-12-14 | 2021-03-12 | 北京明略软件系统有限公司 | 命名实体识别模型训练方法、样本标注方法、装置及设备 |
CN112613316A (zh) * | 2020-12-31 | 2021-04-06 | 北京师范大学 | 一种生成古汉语标注模型的方法和系统 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李斌等: "数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例", 《大学图书馆学报》, no. 5, 31 October 2020 (2020-10-31), pages 72 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792543A (zh) * | 2021-09-14 | 2021-12-14 | 安徽咪鼠科技有限公司 | 一种写作方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239196B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN109508379A (zh) | 一种基于加权词向量表示和组合相似度的短文本聚类方法 | |
CN109670182B (zh) | 一种基于文本哈希向量化表示的海量极短文本分类方法 | |
CN111008266A (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN106777011A (zh) | 一种基于深度多任务学习的文本分类方法 | |
CN113128557B (zh) | 基于胶囊网络融合模型的新闻文本分类方法、系统及介质 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN109918507B (zh) | 一种基于TextCNN改进的文本分类方法 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN110826298A (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
Niyozmatova et al. | Classification based on decision trees and neural networks | |
CN113673252A (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111930936A (zh) | 一种平台留言文本挖掘方法及系统 | |
CN112926323B (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN113239196A (zh) | 一种基于数字人文的实体分类模型训练与预测方法 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN113792550B (zh) | 预测答案的确定方法及装置、阅读理解方法及装置 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |