CN109815497A - 基于句法依存的人物属性抽取方法 - Google Patents

基于句法依存的人物属性抽取方法 Download PDF

Info

Publication number
CN109815497A
CN109815497A CN201910061661.8A CN201910061661A CN109815497A CN 109815497 A CN109815497 A CN 109815497A CN 201910061661 A CN201910061661 A CN 201910061661A CN 109815497 A CN109815497 A CN 109815497A
Authority
CN
China
Prior art keywords
dictionary
attribute
character attribute
vocabulary
shortest path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910061661.8A
Other languages
English (en)
Other versions
CN109815497B (zh
Inventor
占梦来
张磊
苏家琦
张军
徐晓龙
张棚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Chengzhi Hearing Technology Co Ltd
University of Electronic Science and Technology of China
Original Assignee
Sichuan Chengzhi Hearing Technology Co Ltd
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Chengzhi Hearing Technology Co Ltd, University of Electronic Science and Technology of China filed Critical Sichuan Chengzhi Hearing Technology Co Ltd
Priority to CN201910061661.8A priority Critical patent/CN109815497B/zh
Publication of CN109815497A publication Critical patent/CN109815497A/zh
Application granted granted Critical
Publication of CN109815497B publication Critical patent/CN109815497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于句法依存的人物属性抽取方法,包括:S1、文本预处理;S2属性抽取;S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;本发明的方法实现了从无结构化英文文本中抽取出人物属性信息,无需预训练模型,所提取任务属性F1系数显著提高。

Description

基于句法依存的人物属性抽取方法
技术领域
本发明应用于信息抽取领域及人物关系分析领域,特别涉及一种基于文本的人物属性抽取技术。
背景技术
关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。主要介绍有监督学习方法。
有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点,远程监督方法就由此孕育而生。远程监督方法[1],将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。但是其也存在着非常明显的缺点:
1)生成大量的训练数据必然存在着准确率问题,如何解决错误训练数据的问题是我们工作的一个重点。
2)NLP工具带来的误差,比如NER,parsing等,越多的特征工程就会带来越多的误差,在整个任务的pipeline上会产生误差的传播和积累,从而影响后续关系抽取的精度。
发明内容
为解决上述技术问题,本发明提出一种基于句法依存的人物属性抽取方法,基于句法依存的人物属性抽取方法实现了从无结构化英文文本中抽取出人物属性信息。
本发明采用的技术方案为:基于句法依存的人物属性抽取方法,包括:
S1、采用MDR提取出网页中含有的有效人物信息html标签,然后对有效人物信息html标签进行处理后得到正文;
S2、提取正文中包含的人物属性;
S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;
S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;
S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;其中属性相关词字典为预先筛选好的词典。
进一步地,步骤S1所述对有效人物信息html标签进行处理后得到正文,具体为:去除多余的web标签后,再进行去除停用词、词干还原、去除特殊字符的操作,然后得到正文。
进一步地,步骤S2采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取,这三种方式提取出正文中包含人物属性的句子。
进一步地,步骤S5之前还包括:
A1、使用语料库来训练Word2Vec模型,得到一个词向量序列;所述语料库为长文本。
A2、将属性相关词字典、最短路径词汇字典以及词窗口词汇字典,这三个字典中的词通过word2vec模型转为word2向量。
进一步地,步骤S5具体为:
S51、分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度;
S52、将属性相关词字典和对最短路径词汇字典的Jaccard相似度、属性相关词字典和词窗口词汇字典的Jaccard相似度,分别赋予权重,计算出加权和相似度;计算加权和相似度表达式为:
Sim=βsimJ_dep+(1-β)simJ_context
其中,β为加权系数,simJ_dep为属性相关词字典与最短路径字典之间的相似度,simJ_context为属性相关词字典与词窗口字典之间的相似度。
S53、若步骤S52计算出的相似度大于第一阈值,则人物和人物属性具有从属关系,否则不具有从属关系。
进一步地,步骤S51具体为:
B1、计算属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典中的词向量的余弦相似度;
B2、若步骤B1计算得到的余弦相似度大于第二阈值,则两个字典的交集不为空,将该余弦相似度记为simα1;否则两个字典的交集为空,将该余弦相似度记为simα2
B3、计算simα1与simα2的交并比,得到属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典的Jaccard相似度。
本发明的有益效果:基于句法依存的人物属性抽取方法实现了从无结构化英文文本中抽取出人物属性信息,无需预训练模型,因此不需要人工标记大量的训练样本;经过测试在1238条测试集上,属性parent的F1系数能达到84%,经过添加词窗口后,F1系数能达到87%。在Unversity的F1系数能达到86%,加入词窗口后F1系数为88%;本发明具有如下优点:
1、通过句法依存分析,得到的人物属性最短路径上的词汇能有效的表征两者之间的从属关系;添加词窗口能有限利用主语和属性词前后的词的表征关系;
2、加入Word2vec模型,使得提取出来的词汇携带有语义信息;
3、对无结构化网页利用MDR提取出有效信息标签后,处理标签;能有效提取出正文文本。
附图说明
图1为本发明实施例提供的CBOW模型和Skip-gram模型;
图2为本发明实施例提供的斯坦福句法依存分析例句示意图;
图3为本发明实施例提供的方案流程图;
图4为本发明实施例提供的文本预处理流程图;
图5为本发明实施例提供的依存句法分析结果示意图。
具体实施方式
首先对本发明涉及的现有技术进行说明:
1、Word2Vec词向量模型
Word2Vec词向量模型是神经网络概率语言模型中的一种。根据语言模型的不同,分为两种模型:CBOW模型和Skip-gram模型。如图1所示,两种模型都分为三层:输入层,投影层和输出层。前者是在已知当前词的上下文词概率前提下预测当前的概率,后者是已知当前词的概率来预测上下文词的概率。下面主要介绍CBOW模型。图1中,input为输入层,projection为投影层,output为输出层。
CBOW模型的输入层输入了文本的所有词的词向量,第一次训练前会对词向量随机初始化。投影层是一个求和器,对所有词的词向量进行求和得到中间向量。输出层是一个哈夫曼树(此时能保证编码长度总长最短)。每个叶子结点就是表示词典中一个词,每个非叶子结点都相当于一个二分类器,将非叶子结点向量分到左右子树。
CBOW模型的训练过程(参考:吴欣辉.基于中英文主题向量空间的文本分类算法[D].中国科学技术大学,2018)如下所示:
(1)根据输入文本首先初始化,建立所有词的字典,对字典中的每个词随机赋予一个词向量,同时根据词频建立哈夫曼树。
(2)对文本进行滑动窗口输入。在当前滑动窗口中,将词w上下文的所有词向量进行求和得到中间向量。然后滑动窗口依次将文本输入到模型中训练。
(3)根据当前词w得到哈夫曼树从根节点到词w节点的路径,从而得到路径上的非叶子节点预测概率。
(4)然后将路径上的所有非叶子节点预测概率相乘就得到了当前词在上下文词的概率p,然后利用梯度下降法来优化路径上非叶子节点参数和上下文词向量得到正确路径。
重复迭代n次,得到所有词的词向量。
2、Stanford Core NLP句法依存分析依存语法(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系,本实施例图2、图5涉及到的简写或缩写词及其含义如表1所示:
表1本实施例涉及到的简写或缩写词及其含义
如图2所示,斯坦福句法依存解析器通过对句子的单词执行线性时间扫描来构建解析。在每一步中,它都维护一个部分解析,一堆当前正在处理的单词,以及一个尚待处理的单词缓冲区。
解析器继续将转换应用于其状态,直到其缓冲区为空并且依赖关系图完成。
初始状态是在缓冲区上按顺序排列所有单词,堆栈上有一个虚拟ROOT节点。可以应用以下过渡:
LEFT-ARC:将堆栈中的第二个项目标记为第一个项目的依赖项,并从堆栈中删除第二个项目(如果堆栈包含至少两个项目)。
RIGHT-ARC:将堆栈中的第一个项目标记为第二个项目的依赖项,并从堆栈中删除第一个项目(如果堆栈包含至少两个项目)。
SHIFT:从缓冲区中删除一个单词并将其推送到堆栈中(如果缓冲区不为空)。
只有这三种类型的转换,解析器可以生成任何投影依赖解析。解析器使用神经网络分类器确定每个状态的转换。解析器当前状态的分布式表示(密集,连续矢量表示)被提供作为该分类器的输入,然后该分类器在可能的转换中进行选择以进行下一个。这些表示描述了解析器状态中当前堆栈和缓冲区内容的各种特征。
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图3所示,本发明方法实现过程包括以下步骤:
S1、文本预处理
本发明主要是针对从无结构化网页爬取的文本进行人物属性。但是由于web网页错综复杂,杂乱无章,没有一个统一的样式,所以无法根据模板直接从网页中提取出正文。本方案采用基于一种字符串和观察网页中数据记录的MDR(Mining Data Records in WebPages)方法来提取出网页中可能含有有效人物信息html标签,然后对标签处理后得到正文。如图4所示,在去除多余的web标签后,对正文还要进行去除停用词、词干还原、去除特殊字符等操作。
S2、属性抽取
在得到正文后,本发明通过以下三种方法提取出正文中包含属性的句子,具体的对不同的属性采用不同的提取方法:
1)基于字典的人物属性提取---通过字典来预先定义的词来提取属性,一共18个属性使用此方法。例如大学,寻找了Beihang University这样的大学一共18737条。
2)基于正则的人物属性提取---通过正则匹配来提取属性。例如身高,一共找了五个匹配模式来提取属性:
2.1m正则表达式为(?<!\d)[012]\.\d{1,2}\s?[mM](?:eters)?(?=\W)
2m正则表达式为(?<![\d\.])[12]\s?[mM](?:eters)?(?=\W)
5’11英尺正则表达式为(?<!\d)\d{1}\'\d{1,2}\s?(?:ft|FT)?(!\w)?
5’11”英尺正则表达式为(?<!\d)\d{1}\'\d{1,2}"\s?(?:ft|FT)
6ft 3in正则表达式为(?<!\d)\d{1}\sft\s\d{1,2}\sin(?=\W)
3)基于最大熵的人物属性提取–通过命名实体识别来提取具有社会关系的属性,提取了child,parents,othername,brothersister等属性。
S3、句法依存分析
对提取出包含人物和属性的句子通过Stanford core NLP得到每句的句法依存分析结果。
S4、人物属性最短路径和人物属性词窗口
对分析结果通过标记人物和属性找到它们之间的最短路径,保存最短路径上的词汇;同时保存主语和属性前后词窗口大小的词汇。
例如,’In the 1930s he became known for his dramatic photographs ofParis nightlife.’这样的一句话,得到的依存句法分析结果如图5所示,此时标记的主语(PRP:personal pronoun人称代词)为he,属性词为Paris。通过dijkstra算法找到上图中主语和属性词之间的最短路径,最短路径上的词为[u'became',u'known',u'photographs',u'nightlife’]。对于属性为多个单词的情况,找到实体到属性每个单词的最短路径,选择其中最短的一条。主语和属性之间的词窗口中词为[u'1930s',u'the',u'became',u'known',u'of',u'photographs',u'nightlife',u'.']。
S5、word2vec向量和计算Jaccard相似度
首先使用足够充分的语料库(长文本)来训练Word2Vec模型,得到一个词向量序列。每个词对应着n维向量,两者之间相似度可以用余弦夹角来表征。
此时得到三个词汇字典:最短路径词汇、词窗口词汇和属性相关词字典。其中属性相关字典为人工提前筛选好的词典。
计算Jaccrad相似度步骤如下:
1、将三个词汇字典中的词通过word2vec模型转为word2向量。
2、分别计算属性相关词字典和最短路径词汇、词窗口词汇的Jaccard相似度。计算公式如下:
其中ɑ为判定两个词之间是否相关的阈值。通过计算两者相关性的词汇相似度的交并比,得到Jaccrad相似度;0<ɑ<1,对于不同的属性,通过在测试集上测试,选择F1值最好的那个ɑ值。具体计算过程如下:
计算属性相关词字典中的词向量与最短路径或者词窗口中的词向量的余弦相似度simα
如果simα大于阈值α,记做simα1,看做两个词典的交集;否则记做simα2;实际中阈值α通过在测试集上测试,选择F1值最好的那个α值;
然后计算两个字典的交并比。
3、将两个Jaccrad相似度分别赋予权重,计算出加权和相似度。
Sim=βsimJ_dep+(1-β)simJ_context (2-2)
β为加权系数,simJ_dep为属性相关词字典与最短路径字典之间的相似度,simJ_context为属性相关词字典与词窗口字典之间的相似度。
4、如果相似度高于阈值(这里的阈值也是通过在测试集上测试,选择F1值最好的那个值),判别人物和属性具有从属关系;否则,不具有从属关系。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.基于句法依存的人物属性抽取方法,其特征在于,包括:
S1、采用MDR提取出网页中含有的有效人物信息html标签,然后对有效人物信息html标签进行处理后得到正文;
S2、提取正文中包含的人物属性;
S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;
S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;
S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;其中属性相关词字典为预先筛选好的词典。
2.根据权利要求1所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S1所述对有效人物信息html标签进行处理后得到正文,具体为:去除多余的web标签后,再进行去除停用词、词干还原、去除特殊字符的操作,然后得到正文。
3.根据权利要求2所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S2具体为:采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取。
4.根据权利要求3所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S5之前还包括:
A1、使用语料库来训练Word2Vec模型,得到一个词向量序列;
A2、将属性相关词字典、最短路径词汇字典以及词窗口词汇字典,这三个字典中的词通过word2vec模型转为word2向量。
5.根据权利要求4所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S5具体为:
S51、分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度;
S52、将属性相关词字典和对最短路径词汇字典的Jaccard相似度、属性相关词字典和词窗口词汇字典的Jaccard相似度,分别赋予权重,计算出加权和相似度;
S53、若步骤S52计算出的相似度大于第一阈值,则人物和人物属性具有从属关系,否则不具有从属关系。
6.根据权利要求5所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S51具体为:
B1、计算属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典中的词向量的余弦相似度;
B2、若步骤B1计算得到的余弦相似度大于第二阈值,则两个字典的交集不为空,将该余弦相似度记为simα1;否则两个字典的交集为空,将该余弦相似度记为simα2
B3、计算simα1与simα2的交并比,得到属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典的Jaccard相似度。
7.根据权利要求6所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S52所述计算加权和相似度表达式为:
Sim=βsimJ_dep+(1-β)simJ_context
其中,β为加权系数,simJ_dep为属性相关词字典与最短路径字典之间的相似度,simJ_context为属性相关词字典与词窗口字典之间的相似度。
8.根据权利要求7所述的基于句法依存的人物属性抽取方法,其特征在于,步骤A1所述语料库为长文本。
CN201910061661.8A 2019-01-23 2019-01-23 基于句法依存的人物属性抽取方法 Active CN109815497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910061661.8A CN109815497B (zh) 2019-01-23 2019-01-23 基于句法依存的人物属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910061661.8A CN109815497B (zh) 2019-01-23 2019-01-23 基于句法依存的人物属性抽取方法

Publications (2)

Publication Number Publication Date
CN109815497A true CN109815497A (zh) 2019-05-28
CN109815497B CN109815497B (zh) 2023-04-18

Family

ID=66604808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910061661.8A Active CN109815497B (zh) 2019-01-23 2019-01-23 基于句法依存的人物属性抽取方法

Country Status (1)

Country Link
CN (1) CN109815497B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111401055A (zh) * 2020-04-07 2020-07-10 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN112101004A (zh) * 2020-09-23 2020-12-18 电子科技大学 基于条件随机场与句法分析的通用网页人物信息提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678279A (zh) * 2013-12-31 2014-03-26 中南大学 基于异质网络时态语义路径相似度的人物唯一性识别方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678279A (zh) * 2013-12-31 2014-03-26 中南大学 基于异质网络时态语义路径相似度的人物唯一性识别方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111401055A (zh) * 2020-04-07 2020-07-10 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN111401055B (zh) * 2020-04-07 2023-04-18 宁波深擎信息科技有限公司 从金融资讯提取脉络信息的方法和装置
CN112101004A (zh) * 2020-09-23 2020-12-18 电子科技大学 基于条件随机场与句法分析的通用网页人物信息提取方法
CN112101004B (zh) * 2020-09-23 2023-03-21 电子科技大学 基于条件随机场与句法分析的通用网页人物信息提取方法

Also Published As

Publication number Publication date
CN109815497B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Shindo et al. Bayesian symbol-refined tree substitution grammars for syntactic parsing
CN109213995A (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN104991891A (zh) 一种短文本特征提取方法
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
CN108319583B (zh) 从中文语料库提取知识的方法与系统
Etaiwi et al. Graph-based Arabic text semantic representation
Vel Pre-processing techniques of text mining using computational linguistics and python libraries
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN109815497A (zh) 基于句法依存的人物属性抽取方法
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN111695358A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
Jayaweera et al. Hidden markov model based part of speech tagger for sinhala language
CN111881256A (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
US20210124877A1 (en) Computer-implemented method and device for processing data
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
Pradhan et al. Knowledge graph generation with deep active learning
Pinter Integrating approaches to word representation
Khoufi et al. Chunking Arabic texts using conditional random fields
CN111695359A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
Ning et al. Team peter-parker at semeval-2019 task 4: Bert-based method in hyperpartisan news detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant