CN111324742A - 一种数字人文知识图谱的构建方法 - Google Patents

一种数字人文知识图谱的构建方法 Download PDF

Info

Publication number
CN111324742A
CN111324742A CN202010084140.7A CN202010084140A CN111324742A CN 111324742 A CN111324742 A CN 111324742A CN 202010084140 A CN202010084140 A CN 202010084140A CN 111324742 A CN111324742 A CN 111324742A
Authority
CN
China
Prior art keywords
entity
corpus
model
attribute
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010084140.7A
Other languages
English (en)
Other versions
CN111324742B (zh
Inventor
梁晨阳
段飞虎
吴璟
丁琨
成鑫
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010084140.7A priority Critical patent/CN111324742B/zh
Publication of CN111324742A publication Critical patent/CN111324742A/zh
Application granted granted Critical
Publication of CN111324742B publication Critical patent/CN111324742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数字人文知识图谱的构建方法,包括:采用序列标注模型Bi‑LSTM+CRF算法对文本数据进行实体识别并构建实体词典;把通过Bi‑LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;对语料进行分类,用以抽取不同的信息;采用Bi‑LSTM+CRF模型进行关系识别,并抽取实体的关系;采用Bi‑LSTM+CRF模型进行属性识别,并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰;该方法在信息抽取的规划中,兼顾准确率、召回率以及效率。

Description

一种数字人文知识图谱的构建方法
技术领域
本发明涉及数据挖掘和计算机信息处理技术领域,尤其涉及一种数字人文知识图谱的构建方法。
背景技术
随着计算机技术和互联网技术的发展,信息爆炸时代已经到来。面对史无前例的大量文本数据,自然语言处理技术的发展已经可以充分处理网络中的文本信息,但是如何高效利用网络中的信息已经成为互联网领域需要面对的最主要的问题之一。在这种背景下,知识图谱应运而生。知识图谱从非结构化数据中提取信息,把非结构化信息转换成结构化的“知识”,存储在数据库中,从而非常方便的储存和查找信息。在信息化时代,不同行业的行业知识图谱的构建也显得尤为重要。在数字人文中,古人留下的古文是中华民族的文化瑰宝。通过处理大量古代相关文献抽取信息,构建数字人文知识图谱,可以通过现代计算机技术辅助研究古代传统文化,大大提高效率。
知识图谱是一种结构化数据,包含大量的实体、关系和属性,具体结构为:{实体1,关系a,实体2}或者{实体1,属性a,属性值}。因此数字人文知识图谱的构建,就是去大量的相关文献中,抽取实体,关系和属性信息。在从大量文献抽取信息的过程中,由于信息分布比较稀疏,因此会影响抽取的效率。而目前的自然语言处理技术,不能保证信息抽取过程中的准确性。对于数字人文知识图谱而言,其具有如下特点:
(1)数字人文知识图谱中的知识(实体、关系和属性等)是确定的,不存在随时间变化而更新,因此可以使其的准确性得到保障。
(2)古代相关文献语料比较稀疏,语料中含有的实体、关系和属性等信息比较少,因此在信息抽取过程中需要采用特殊的处理方法来降低噪声语料(无信息语料)对抽取结果的准确性的干扰。
发明内容
为解决上述技术问题,本发明的目的是提供一种相对比较理想的数字人文知识图谱构建方法,该方法首先利用实体识别算法去文献中识别出需要的实体,经过审核后构建实体词典。利用实体词典去获取含有实体的语句,然后语句用分类算法分成属性语句、关系语句和噪声语句。最后分别用关系识别模型和属性识别模型去抽取实体的关系和属性。
本发明的目的通过以下的技术方案来实现:
一种数字人文知识图谱的构建方法,包括
A采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典;
B把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;
C对语料进行分类,用以抽取不同的信息;
D采用Bi-LSTM+CRF模型进行关系识别,并抽取实体的关系;
E采用Bi-LSTM+CRF模型进行属性识别,并抽取实体的属性。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰;该方法在信息抽取的规划中,兼顾准确率、召回率以及效率。
附图说明
图1是数字人文知识图谱的构建方法流程图;
图2是实体识别采用序列标注模型Bi-LSTM+CRF算法流程图;
图3是采用分词和字典匹配的方式来进行实体匹配流程图;
图4是语料分类具体流程图;
图5是关系模型抽取关系流程图;
图6是属性模型抽取关系流程图;
图7是存放语料的数据库结构表图;
图8是实体识别后语料抽出实体的结果图;
图9是结合相应的实体个数给语料分类,然后再用模型做分类的结果图;
图10是关系模型抽取关系结果图;
图11是属性模型抽取属性结果图。
具体实施方式
本实施例通过对大规模非结构化古文本数据进行数据挖掘。首先标注数据训练模型,再由训练好的模型相应的抽出古文本中的实体、实体属性以及实体关系属性等信息,来进行数字人文知识图谱的构建。
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为数字人文知识图谱的构建方法,该方法用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰。本方法通过实体识别,关系识别和属性识别来提取信息,从而构建知识图谱,具体技术方案包括以下步骤:
步骤10采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典;
对需要识别的实体类型定义实体标签,例如:人名,著作等。把一批经过清洗的数据通过Bi-LSTM+CRF模型,对数据进行标注,提取出模型识别的实体,通过人工审核对识别数据的标注序列进行修改,同时把审核后的实体存入对应的实体词典中。通过审核的数据添加到训练集中,用于模型继续训练以提高模型的准确性。算法流程图如图2所示。
步骤20把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;
把通过Bi-LSTM+CRF模型数据,通过实体词典匹配的方式来进行实体抽取,这样可以确保实体抽取的准确性,通过实体词典匹配的模式抽取实体准确率为100%。实体词典匹配。由于待处理数据非常庞大,因此对算法复杂度要求较高。本方法采用分词+字典匹配的方式来进行实体匹配,具体步骤如下:
(1)首先把实体词典上传到结巴分词的用户词典。
(2)然后使用结巴分词的全分词模型对语料进行分词,再遍历分词结果中的词判断其是否存在于对应的实体词典。
(3)给语料设置对应实体类型的标志位,把语料中包含该类实体的个数存入对应的标志位中。
上述流程如图3所示。
步骤30对语料进行分类,用以抽取不同的信息;
实体抽取的准确性对关系抽取和属性抽取有至关重要的作用,同时通过判断语料中包含实体的类别,根据关系抽取和属性抽取的特点来把语料分类,分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类。通过关系和属性抽取的特点来对语料进行分类,可以大幅解决语料的稀疏问题,从而减少噪声数据对模型的干扰,大幅提高模型效率和准确性。
根据语料的实体标志位给语料分类。关系识别中需要提供至少两个实体,从而去抽取两个实体的关系从而获得{实体1,关系,实体2}三元组,因此用于关系抽取的语料必须包含两个及两个以上的实体。对应的属性抽取模型则必须包含至少一个实体。尽管根据实体标志位来分类语料大大排除了无信息句子的影响,但是语料中包含实际定义的关系和属性信息依然很稀疏。Textcnn具有N-gram类似的结构特点,忽略了词序,所以在词序不敏感的场景效果很好。因此可以用Textcnn做baseline,提取语言中的信息特征,从而进一步分类语料,排除无信息含量的语料。具体步骤如下:
(1)根据语料的实体标志位,根据语料含有实体的个数进行分类:含有一个及以上实体可用于进行属性抽取,含有两个及以上实体可用于关系抽取,不含实体语料则为噪声。
(2)通过关系识别和属性识别后的语料进行数据审核,训练一个二分类Textcnn模型,把含有关系或属性信息的语料分为一类,不包含关系和属性的语料分为一类。
上述流程如图4所示。
步骤40采用Bi-LSTM+CRF模型进行关系识别,并抽取实体的关系;
首先把关系识别简化为一个分类模型,定义关系标签。然后把输入句子的字向量,分别正向和逆向通过两个GRU网络,把输出的向量通过注意力模型加权求和输入dense层中进行关系分类。对于分类结果,首先运用之前的实体标志位进行审核,把逻辑上不成立的实体之间的关系筛选出来进行修改,例如:人名实体和著作实体得出“父母”关系,明显逻辑上是不可能的。然后再把逻辑可行的分类结果进行人工审核,把审核后的关系对三元组存入数据库,并且把分类错的数据加入训练集进行模型的迭代更新。图5是关系模型抽取关系流程图。
步骤50采用Bi-LSTM+CRF模型进行属性识别,并抽取实体的属性。首先给实体和相关属性定义相关的标签。然后把语料输入模型,对语料进行标注,提取结果。根据对于属性提取的结果,首先运用之前的实体标志位进行审核,把逻辑上不成立的实体属性选出来进行修改,例如:著作实体提取出一个官职属性,显然是不成立的。最后,把逻辑上可行的实体继续进行人工审核,把抽取错误的语料重新标注加入训练集进行模型的迭代更新。图6是属性模型抽取关系流程图。
上述实施例将古代相关文献进行分句处理,每个句子对应一个id,id为每个句子的主键值。备注序列为文本通过Bi-LSTM模型后,模型给文本打的标签。不同的实体分成不同的类别,例如:人名、地名等。语料可与用来进行关系识别的,把“是否属于关系抽取语料”置为1,否则为0。语料可与用来进行属性抽取的,把“是否属于属性抽取语料”置为1,否则为0;具体结构如图7所示。
通过实体识别模型标注后,对语料的标注结果进行审核,抽取其中的实体,把不同类型实体的个数存到相应的字段(如图8所示),以备后续步骤进行逻辑分析。
根据语料抽出的实体的情况可以判断语料是否适用于关系抽取,或者是属性抽取,从而可以把噪声语料排除。通过初步筛选之后,再把语料输入textcnn网络,进行二分类,把语料中的噪声进一步排除,从而大幅解决古代文献的稀疏性。通过分类后的语料如图9所示。
把之前分类筛选出的可以进行关系抽取的语料输入关系抽取模型,进行关系抽取。分别计算语料中两两实体的关系,得出结果。得出结果后,再根据语料的实体的类型情况,可以排除一些明显的逻辑上的错误,进而提高审核效率,具体结果如图10所示。
把之前分类筛选出的可以进行属性抽取的语料输入关系抽取模型,进行属性抽取。采用序列标注的模式,把实体和相关属性有标签标出来进行提取。得出结果后,再根据语料的实体的类型情况,可以排除一些明显的逻辑上的错误,进而提高审核效率;具体结果如图11所示。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种数字人文知识图谱的构建方法,其特征在于,所述方法包括:
A采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典;
B把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;
C对语料进行分类,用以抽取不同的信息;
D采用Bi-LSTM+CRF模型进行关系识别,并抽取实体的关系;
E采用Bi-LSTM+CRF模型进行属性识别,并抽取实体的属性。
2.如权利要求1所述的数字人文知识图谱的构建方法,其特征在于,所述步骤B采用分词与字典匹配的方式来进行实体匹配,具体包括:
把实体词典上传到结巴分词的用户词典;
使用结巴分词的全分词模型对语料进行分词,再遍历分词结果中的词判断其是否存在于对应的实体词典;
给语料设置对应实体类型的标志位,把语料中包含该类实体的个数存入对应的标志位中。
3.如权利要求1所述的数字人文知识图谱的构建方法,其特征在于,对所述语料分类包括:
根据关系抽取和属性抽取的特点把语料分类,分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类;以及
根据语料的实体标志位给语料分类。
4.如权利要求3所述的数字人文知识图谱的构建方法,其特征在于,对关系识别和属性识别后的语料进行数据审核,训练一个二分类Textcnn模型,把含有关系或属性信息的语料分为一类,不包含关系和属性的语料分为一类。
5.如权利要求1所述的数字人文知识图谱的构建方法,其特征在于,所述步骤E具体包括:
给实体和相关属性定义相关的标签,把语料输入模型,对语料进行标注,提取结果;
根据对属性提取的结果,用实体标志位进行审核,并把逻辑上不成立的实体属性选出来进行修改;
把逻辑上可行的实体继续进行人工审核,把抽取错误的语料重新标注加入训练集进行模型的迭代更新。
CN202010084140.7A 2020-02-10 2020-02-10 一种数字人文知识图谱的构建方法 Active CN111324742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084140.7A CN111324742B (zh) 2020-02-10 2020-02-10 一种数字人文知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084140.7A CN111324742B (zh) 2020-02-10 2020-02-10 一种数字人文知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN111324742A true CN111324742A (zh) 2020-06-23
CN111324742B CN111324742B (zh) 2024-01-23

Family

ID=71172665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084140.7A Active CN111324742B (zh) 2020-02-10 2020-02-10 一种数字人文知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN111324742B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881294A (zh) * 2020-07-30 2020-11-03 本识科技(深圳)有限公司 一种语料标注系统、方法及存储介质
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN112364166A (zh) * 2020-11-02 2021-02-12 北京中科凡语科技有限公司 关系抽取模型的建立方法以及关系抽取方法
CN112989811A (zh) * 2021-03-01 2021-06-18 哈尔滨工业大学 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
CN113239196A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于数字人文的实体分类模型训练与预测方法
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110413798A (zh) * 2019-07-24 2019-11-05 厦门快商通科技股份有限公司 一种医疗美容知识图谱自动构建方法、系统及存储介质
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110413798A (zh) * 2019-07-24 2019-11-05 厦门快商通科技股份有限公司 一种医疗美容知识图谱自动构建方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁凯琦: ""医学知识图谱构建技术与研究进展"", vol. 35, no. 35, pages 1 - 8 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881294A (zh) * 2020-07-30 2020-11-03 本识科技(深圳)有限公司 一种语料标注系统、方法及存储介质
CN111881294B (zh) * 2020-07-30 2023-10-24 本识科技(深圳)有限公司 一种语料标注系统、方法及存储介质
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112364166A (zh) * 2020-11-02 2021-02-12 北京中科凡语科技有限公司 关系抽取模型的建立方法以及关系抽取方法
CN112989811A (zh) * 2021-03-01 2021-06-18 哈尔滨工业大学 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
CN113239196A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于数字人文的实体分类模型训练与预测方法
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN111324742B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN111324742B (zh) 一种数字人文知识图谱的构建方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN111209412A (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN111061882A (zh) 一种知识图谱构建方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114169332A (zh) 一种基于深度学习模型的地址命名实体识别的调优方法
Shi Using domain knowledge for low resource named entity recognition
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230808

Address after: Rooms B201, B202, B203, B205, B206, B207, B208, B209, B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100084 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant