CN113342929A - 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 - Google Patents
一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 Download PDFInfo
- Publication number
- CN113342929A CN113342929A CN202110496956.5A CN202110496956A CN113342929A CN 113342929 A CN113342929 A CN 113342929A CN 202110496956 A CN202110496956 A CN 202110496956A CN 113342929 A CN113342929 A CN 113342929A
- Authority
- CN
- China
- Prior art keywords
- relation
- material field
- text
- performance
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000463 material Substances 0.000 title claims abstract description 109
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 3
- 229910000997 High-speed steel Inorganic materials 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种面向材料领域的材料‑组分‑工艺‑性能关系四元组抽取方法,本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料‑组分‑工艺‑性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one‑hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本发明在材料领域关系抽取上有较好的效果。
Description
技术领域
本发明涉及实体关系联合抽取领域,特别是涉及一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。
背景技术
材料领域不同材料的组分、制造工艺与其性能有着密切的联系,且组分或工艺细小的变化都可能导致材料性能的骤变,因此挖掘组分-性能、工艺-性能关系,可以为材料领域科研人员提供更加直接、全面、结构化的材料优化相关知识,进而为材料的进一步优化以及新材料的研发提供参考。例如,从“深冷处理使高速钢硬度和耐磨性能得到提高”中,可以总结出对于高速钢而言,深冷处理可以提升其两个性能:硬度和耐磨性能的知识。
目前关系抽取领域大多是针对关系三元组任务抽取,即(entity1,relation,entity2),其中只涉及到两个实体,而材料领域一条材料优化知识往往涉及到三个实体:什么材料,改变了哪一组分或采用什么工艺,结果导致什么性能发生改变。因此使用传统的三元组实体关系抽取方法难以满足材料领域的需求。
发明内容
本发明的主要目的在于克服现有技术的不足,提供一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,充分挖掘材料实体组分-工艺-性能之间的关系。
为实现上述目的,本发明采用以下技术方案:
一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
优选地,所述步骤S1具体为:
步骤S1-1:根据材料领域手册的相关词条,爬取相关论文、专利中的材料文本数据;
步骤S1-2:对步骤S1-1处理后的文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称;
步骤S1-3:重复步骤S1-1至步骤S1-2,获取所有句子都完成标注,即构造完材料领域的语料库。
优选地,所述步骤S2具体为:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示。
优选地,所述步骤S3具体为:
步骤S3-5:将步骤S3-3得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤S3-4,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤S3-3得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取。
优选地,所述步骤S4具体为:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型。
优选地,所述步骤S5具体为:
步骤S5-1:以步骤S4-1中获得的测试集作为模型的输入,对模型进行测试;
步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:
其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。
一种计算机系统,其程序执行本发明面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取;
2.本发明在材料领域关系抽取上有较好的效果。
附图说明
图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法的流程图;
图2是本发明的四元组关系抽取模型图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当强调的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
参阅图1,一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
在上述实施例中,参考图1,图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法一实施例的流程图。本实施例方法在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取。
实施例二:
在本实施例中,步骤S1具体包括以下步骤:
步骤S1-1:根据材料领域手册的相关词条,从知网等文献检索网站和国家知识产权专利检索网站爬取相关论文、专利中的材料文本,通过人工手动摘取文本中部分段落构造材料领域文本集;
步骤S1-2:对步骤S1-1处理后的每一个文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称,具体标注方法如表1所示;分别使用MAT、CON、CRA、PER作为材料实体、组分名称、工艺名称、性能名称的类型标签;采用“BIO”标注原则,其中B表示每个实体或名称的初始字,I表示每个实体或名称的中间或结尾字,其他字用O进行标注;
表1材料-组分-工艺-性能标签符号表示
由于本发明主要挖掘材料组分与工艺的改变对性能的影响,所以着重抽取组分、工艺与性能间的关系,具体包含三种关系:提升、削弱、unknown,而材料实体与组分、工艺、性能之间只存在包含和不包含两种关系;
步骤S1-3:重复步骤S1-1至步骤S1-2,知道所有句子都完成标注,即构造完材料领域的语料库;
在本实施例中,步骤S2具体包括以下步骤:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示;
在本实施例中,如图2所示,步骤S3具体包括以下步骤:
步骤S3-5:将步骤3-2得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤3-3,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤3-2得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取;
在本实施例中,步骤S4具体包括以下步骤:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型;
在本实施例中,步骤S5具体包括以下步骤:
步骤S5-1:以步骤S4中获得的测试集作为模型的输入,对模型进行测试;
步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:
其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。
本实施例面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one-hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本实施例方法在材料领域关系抽取上有较好的效果。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。
Claims (6)
1.一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
2.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S1具体为:
步骤S1-1:根据材料领域手册的相关词条,爬取相关论文、专利中的材料文本数据;
步骤S1-2:对步骤S1-1处理后的文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称;
步骤S1-3:重复步骤S1-1至步骤S1-2,获取所有句子都完成标注,即构造完材料领域的语料库。
3.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S2具体为:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示。
4.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S3具体为:
步骤S3-5:将步骤S3-3得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤S3-4,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤S3-3得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取。
5.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S4具体为:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496956.5A CN113342929A (zh) | 2021-05-07 | 2021-05-07 | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496956.5A CN113342929A (zh) | 2021-05-07 | 2021-05-07 | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342929A true CN113342929A (zh) | 2021-09-03 |
Family
ID=77469864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110496956.5A Pending CN113342929A (zh) | 2021-05-07 | 2021-05-07 | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342929A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
US20200073933A1 (en) * | 2018-08-29 | 2020-03-05 | National University Of Defense Technology | Multi-triplet extraction method based on entity-relation joint extraction model |
CN112163425A (zh) * | 2020-09-25 | 2021-01-01 | 大连民族大学 | 基于多特征信息增强的文本实体关系抽取方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
-
2021
- 2021-05-07 CN CN202110496956.5A patent/CN113342929A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200073933A1 (en) * | 2018-08-29 | 2020-03-05 | National University Of Defense Technology | Multi-triplet extraction method based on entity-relation joint extraction model |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN112163425A (zh) * | 2020-09-25 | 2021-01-01 | 大连民族大学 | 基于多特征信息增强的文本实体关系抽取方法 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
Non-Patent Citations (1)
Title |
---|
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Chen et al. | A Two‐Step Resume Information Extraction Algorithm | |
CN110688488A (zh) | 一种通用的知识图谱云服务系统 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN111626050B (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
Pad'o et al. | Predictability of distributional semantics in derivational word formation | |
CN113239111A (zh) | 一种基于知识图谱的网络舆情可视化分析方法及系统 | |
Foxcroft et al. | Name2vec: Personal names embeddings | |
Haque et al. | Literature review of automatic single document text summarization using NLP | |
CN112749283A (zh) | 一种面向法律领域的实体关系联合抽取方法 | |
Raghav et al. | Text and citations based cluster analysis of legal judgments | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
do Carmo et al. | Embedding propagation over heterogeneous event networks for link prediction | |
CN112905746A (zh) | 一种基于知识图谱技术的制度档案知识挖掘处理方法 | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
CN113342929A (zh) | 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 | |
CN111008285A (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
Luo et al. | Towards combining web classification and web information extraction: a case study | |
Xu et al. | Research on Tibetan hot words, sensitive words tracking and public opinion classification | |
Moriwal et al. | An efficient Algorithm for finding frequent Sequential traversal Patterns from Web Logs Based on Dynamic Weight Constraint | |
Jena et al. | Data extraction and web page categorization using text mining | |
Wadawadagi et al. | A multi-layer approach to opinion polarity classification using augmented semantic tree kernels | |
Zhao et al. | Determining the topic hashtags for chinese microblogs based on 5W model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |