CN109741791A - 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 - Google Patents
一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN109741791A CN109741791A CN201811638977.0A CN201811638977A CN109741791A CN 109741791 A CN109741791 A CN 109741791A CN 201811638977 A CN201811638977 A CN 201811638977A CN 109741791 A CN109741791 A CN 109741791A
- Authority
- CN
- China
- Prior art keywords
- subject
- author
- paper
- mesh
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开了一种面向PubMed论文库的作者学科方向数据挖掘方法及系统,本发明实施例步骤包括初始化学科描述数组RD、作者学科计数数组AC,确定PubMed论文库中收录的目标作者的论文集合,针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC,根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出;系统包括前述方法对应的系统。本发明利用PubMed论文库提供的关键词的MESH编号,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。
Description
技术领域
本发明涉及生物医学领域的论文数据挖掘技术,具体涉及一种面向PubMed论文库的作者学科方向数据挖掘方法及系统。
背景技术
在生物医学领域,获取作者的学科方向是文本挖掘任务的一个重要内容。PubMed论文库作为生物医学领域文本挖掘的重要数据来源,论文的具体内容是获取作者研究领域的重要依据。因此在对论文进行文本挖掘的过程中,为了获取某个作者的学科方向,需要对该作者发表的所有论文所属的学科方向进行综合分析。
PubMed论文库中的论文正文均没有提供论文所属的学科信息,因此通过对论文内容的挖掘获取作者的学科方向十分困难。但是,PubMed论文库是由美国国家生物技术信息中心(NCBI,National Center for Biotechnology Information)维护,该中心组织大量专业人士,对每篇论文内容中的能够体现论文重要信息的关键词进行人工提取,得到论文中的若干词对应在MESH数据库(Medical Subject Headings)中的MESH编号信息。MESH数据库按照树形结构进行组织,所有词项组成16棵树结构,每棵树对应着生物医学领域的一个学科方向,从树根向下对该学科不断地细化分类,因此MESH数据库中的每一个词项,不仅有一个全局唯一的MESH标号,还有一个树形结构编码,每棵树的根结点对应着一个学科,树中的其他非根节点都是对其父节点继续细分。因此,PubMed论文库中关键词的MESH编号信息包含了作者学科方向的线索。但是如何基于PubMed论文库的MESH编号信息,实现面向PubMed论文库的作者学科方向数据挖掘,则仍然是一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种面向PubMed论文库的作者学科方向数据挖掘方法及系统,本发明利用PubMed论文库中关键词的MESH编号信息,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。
为了解决上述技术问题,本发明采用的技术方案为:
一种面向PubMed论文库的作者学科方向数据挖掘方法,实施步骤包括:
1)根据MESH数据库初始化学科描述数组RD;
2)根据学科描述数组初始化目标作者的作者学科计数数组AC;
3)确定PubMed论文库中收录的目标作者的论文集合;
4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;
5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。
优选地,步骤1)中初始化学科描述数组时,学科描述数组RD中的元素个数为学科的数目,且根据MESH数据库的学科数量设置学科描述数组的元素个数,每一个元素i包括描述名、缩写两个字段。
优选地,步骤2)中初始化目标作者的学科计数数组时,根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数,且每个元素初始化为0。
优选地,步骤4)的详细步骤包括:
4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文;针对当前论文,根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数,且每个元素初始化为0;
4.2)获取当前论文所有关键词的MESH号得到集合Φ,集合Φ中的第i个元素αi表示当前论文第i个关键词的MESH号;
4.3)获取当前论文所有关键词的MESH树形编码;
4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC;
4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC;
4.6)判断论文集合是否遍历完毕,如果尚未遍历完毕则跳转执行步骤4.1),否则跳转执行步骤5)。
优选地,步骤4.3)的详细步骤包括:针对集合Φ中的每一个MESH号分别查找MESH数据库,从而获得这些MESH号对应的树形结构编码,形成树形结构编码集合Θ,所述树形结构编码集合Θ中的第i个元素βi表示集合Φ中第i个MESH编号αi对应的树形结构编码,且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写,从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。
优选地,步骤4.4)的详细步骤包括:分别针对当前论文所有关键词的MESH树形编码的每一个树形结构编码集合Θ中的每一个元素进行遍历,判断该元素的首字母是否和学科描述数组AD中的某一项元素的缩写匹配,如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。
优选地,步骤4.5)的详细步骤包括:
4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k;
k=argj max0≤j≤n-1RC[j] (1)
式(1)中,k为当前论文MESH词项最多的学科的序号,n为学科总数量,RC[j]表示当前论文在第j个学科上的拥有的MESH词项的数目,对应学科描述数组RD中的第j个学科,max表示取最大值,式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。
4.5.2)针对当前论文MESH词项最多的学科的序号k,将该学科对应的作者学科计数AC[k]加1,AC[k]表示作者学科计数数组AC的第k个元素,对应学科描述数组RD中的第k个学科。
优选地,步骤5)的详细步骤包括:
5.1)根据目标作者的作者学科计数数组AC确定目标作者的学科方向序号,且确定目标作者的学科方向序号的函数表达式如式(2)所示;
式(2)中,γ为目标作者的学科领域标识集合,式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号,n为学科总数量;
5.2)针对目标作者的学科方向序号,从学科描述数组RD中取出学科描述名并输出。
本发明还提供一种面向PubMed论文库的作者学科方向数据挖掘系统,包括计算机设备,所述计算机设备被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的步骤,或者所述计算机设备的存储介质上存储有被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。
和现有技术相比,本发明具有下述优点:本发明包括初始化学科描述数组RD、作者学科计数数组AC,确定PubMed论文库中收录的目标作者的论文集合,针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC,根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出,本发明通过利用PubMed论文库提供的关键词的MESH编号信息,能够实现作者学科方向数据挖掘,且具有运行性能高、获得研究学科方向准确的特点。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
如图1,本实施例面向PubMed论文库的作者学科方向数据挖掘方法的实施步骤包括:
1)根据MESH数据库初始化学科描述数组RD;
2)根据学科描述数组初始化目标作者的作者学科计数数组AC;
3)确定PubMed论文库中收录的目标作者的论文集合;
4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;
5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。
本实施例中,步骤1)中初始化学科描述数组时,学科描述数组RD中的元素个数为学科的数目,且根据MESH数据库的学科数量设置学科描述数组的元素个数,每一个元素i包括描述名RD[i].name、缩写RD[i].abbre两个字段。本实施例中,学科描述数组RD中的元素个数为学科的数目,MESH数据库中共有16个学科,RD[i].name对应着第i个学科的描述名,RD[i].abbre对应着该学科的缩写;例如:第0个学科对应的取值为RD[0].name=Anatomy,RD[0].abbre=A。
本实施例中,步骤2)中初始化目标作者的学科计数数组时,根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数,且每个元素初始化为0。本实施例中,作者学科计数数组AC用于统计目标作者在每个学科领域发表的论文数目。作者学科计数数组AC为具有16个元素的数组,每个元素是一个整数值,分别对应着该作者在MESH数据库中每个学科发表的论文数目。
本实施例中,步骤4)的详细步骤包括:
4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文;针对当前论文,根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数,且每个元素初始化为0;
4.2)获取当前论文所有关键词的MESH号得到集合Φ,集合Φ中的第i个元素αi表示当前论文第i个关键词的MESH号;
4.3)获取当前论文所有关键词的MESH树形编码;
4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC;
4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC;
4.6)判断论文集合是否遍历完毕,如果尚未遍历完毕则跳转执行步骤4.1),否则跳转执行步骤5)。
本实施例步骤4.1)中论文学科计数数组的初始化时,论文学科计数数组RC为具有16个元素的数组,每个元素是一个整数值,分别对应着MESH数据库中16个学科在该论文所占的MESH词项的数目,该步骤将学科计数数组RC中的元素值均初始化为0。
本实施例中,步骤4.3)的详细步骤包括:针对集合Φ中的每一个MESH号分别查找MESH数据库,从而获得这些MESH号对应的树形结构编码,形成树形结构编码集合Θ,所述树形结构编码集合Θ中的第i个元素βi表示集合Φ中第i个MESH编号αi对应的树形结构编码,且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写,从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。令树形结构编码集合Θ中的第i个元素为βi,则有βi=tree_code(αi)。函数tree_code(x)表示根据MESH号x搜素MESH数据库,获得该MESH号对应的树形结构编码。
本实施例中,步骤4.4)的详细步骤包括:分别针对当前论文所有关键词的MESH树形编码,对树形结构编码集合Θ中的每一个元素进行遍历,判断该元素的首字母是否和学科描述数组RD中的某一项元素的缩写匹配,如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。即:对于树形结构编码集合Θ中的每个元素βi,如果满足:RD[j].abbre=first_letter(βi),则RC[j]=RC[j]+1;函数first_letter(x)表示取出该字符串x中的第一个字符。
本实施例中,步骤4.5)的详细步骤包括:
4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k;
k=argj max0≤j≤n-1RC[j] (1)
式(1)中,k为当前论文MESH关键词项最多的学科的序号,n为学科总数量,RC[j]表示论文学科计数数组RC的第j个元素,对应学科描述数组RD中的第j个学科,max表示取最大值,式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。
4.5.2)针对当前论文MESH词项最多的学科的序号k,将该学科对应的作者学科计数AC[k]加1(即:AC[k]=AC[k]+1),AC[k]表示作者学科计数数组AC的第k个元素,对应学科描述数组RD中的第k个学科。
本实施例中,步骤5)的详细步骤包括:
5.1)根据目标作者的作者学科计数数组AC确定目标作者的学科方向序号,且确定目标作者的学科方向序号的函数表达式如式(2)所示;
式(2)中,γ为目标作者的学科领域标识集合,式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号,n为学科总数量;如果作者学科计数数组AC中有多个学科领域都取最大值,则γ有多个值,表示该作者的研究为交叉学科;
5.2)针对目标作者的学科方向序号,从学科描述数组RD中取出学科描述名并输出,可表示为:Research_area={RD[j].name|j∈γ},其中Research_area为输出的学科描述名,RD[j]为学科描述数组RD中的第j个元素,RD[j].name为第j个学科的描述名,γ为目标作者的学科领域的集合。
本实施例还提供一种面向PubMed论文库的作者学科方向数据挖掘系统,包括计算机设备,该计算机设备被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的步骤,本实施例还提供一种面向PubMed论文库的作者学科方向数据挖掘系统,包括计算机设备,该所述计算机设备的存储介质上存储有被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于实施步骤包括:
1)根据MESH数据库初始化学科描述数组RD;
2)根据学科描述数组初始化目标作者的作者学科计数数组AC;
3)确定PubMed论文库中收录的目标作者的论文集合;
4)针对目标作者的论文集合中的每一篇论文进行遍历,且每遍历一篇论文,则获取该论文的所有关键词的MESH号以及MESH树形编码,并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC;
5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。
2.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤1)中初始化学科描述数组时,学科描述数组RD中的元素个数为学科的数目,且根据MESH数据库的学科数量设置学科描述数组的元素个数,每一个元素i包括描述名、缩写两个字段。
3.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤2)中初始化目标作者的学科计数数组时,根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数,且每个元素初始化为0。
4.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4)的详细步骤包括:
4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文;针对当前论文,根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数,且每个元素初始化为0;
4.2)获取当前论文所有关键词的MESH号得到集合Φ,集合Φ中的第i个元素αi表示当前论文第i个关键词的MESH号;
4.3)获取当前论文所有关键词的MESH树形编码;
4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC;
4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC;
4.6)判断论文集合是否遍历完毕,如果尚未遍历完毕则跳转执行步骤4.1),否则跳转执行步骤5)。
5.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4.3)的详细步骤包括:针对集合Φ中的每一个MESH号分别查找MESH数据库,从而获得这些MESH号对应的树形结构编码,形成树形结构编码集合Θ,所述树形结构编码集合Θ中的第i个元素βi表示集合Φ中第i个MESH编号αi对应的树形结构编码,且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写,从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。
6.根据权利要求5所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4.4)的详细步骤包括:分别针对当前论文所有关键词的MESH树形编码的每一个树形结构编码集合Θ中的每一个元素进行遍历,判断该元素的首字母是否和学科描述数组RD中的某一项元素的缩写匹配,如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。
7.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤4.5)的详细步骤包括:
4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k;
k=argjmax0≤j≤n-1RC[j] (1)
式(1)中,k为当前论文MESH词项最多的学科的序号,n为学科总数量,RC[j]表示论文学科计数数组RC的第j个元素,对应学科描述数组RD中的第j个学科,max表示取最大值,式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。
4.5.2)针对当前论文MESH词项最多的学科的序号k,将该学科对应的作者学科计数AC[k]加1,AC[k]表示作者学科计数数组AC的第k个元素,对应学科描述数组RD中的第k个学科。
8.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法,其特征在于,步骤5)的详细步骤包括:
5.1)根据目标作者的作者学科计数数组AC确定目标作者的学科方向序号,且确定目标作者的学科方向序号的函数表达式如式(2)所示;
式(2)中,γ为目标作者的学科领域标识集合,式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号,n为学科总数量;
5.2)针对目标作者的学科方向序号,从学科描述数组RD中取出学科描述名并输出。
9.一种面向PubMed论文库的作者学科方向数据挖掘系统,包括计算机设备,其特征在于:所述计算机设备被编程以执行权利要求1~8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的步骤,或者所述计算机设备的存储介质上存储有被编程以执行权利要求1~8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有被编程以执行权利要求1~8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811638977.0A CN109741791B (zh) | 2018-12-29 | 2018-12-29 | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811638977.0A CN109741791B (zh) | 2018-12-29 | 2018-12-29 | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109741791A true CN109741791A (zh) | 2019-05-10 |
CN109741791B CN109741791B (zh) | 2020-10-23 |
Family
ID=66362468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811638977.0A Active CN109741791B (zh) | 2018-12-29 | 2018-12-29 | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109741791B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
US8676780B2 (en) * | 2002-06-10 | 2014-03-18 | Jason Rollins | System and method for citation processing, presentation and transport and for validating references |
KR101376112B1 (ko) * | 2012-08-23 | 2014-03-19 | 한국과학기술정보연구원 | 경쟁자 논문 분석 서비스 시스템 및 그 방법 |
CN106227835A (zh) * | 2016-07-25 | 2016-12-14 | 中南大学 | 基于二分网络图层次聚类的团队研究方向挖掘方法 |
CN108614867A (zh) * | 2018-04-12 | 2018-10-02 | 科技部科技评估中心 | 基于学术论文的技术前沿性指数计算方法及系统 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
-
2018
- 2018-12-29 CN CN201811638977.0A patent/CN109741791B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676780B2 (en) * | 2002-06-10 | 2014-03-18 | Jason Rollins | System and method for citation processing, presentation and transport and for validating references |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
KR101376112B1 (ko) * | 2012-08-23 | 2014-03-19 | 한국과학기술정보연구원 | 경쟁자 논문 분석 서비스 시스템 및 그 방법 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN106227835A (zh) * | 2016-07-25 | 2016-12-14 | 中南大学 | 基于二分网络图层次聚类的团队研究方向挖掘方法 |
CN108614867A (zh) * | 2018-04-12 | 2018-10-02 | 科技部科技评估中心 | 基于学术论文的技术前沿性指数计算方法及系统 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
Non-Patent Citations (3)
Title |
---|
ABDULLAH MUHAMMAD ALGHOSON,ET AL.: "Medical Document Classification Based on MeSH", 《2014 47TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES》 * |
宋世华: "应重视《MeSH树型结构表》的检索作用", 《医学情报工作》 * |
林鸿飞 等: "从生物医学文献中进行知识挖掘", 《大连理工大学生物医学工程学术论文集》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109741791B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Utgoff | An improved algorithm for incremental induction of decision trees | |
CN105243129B (zh) | 商品属性特征词聚类方法 | |
Utgoff et al. | Decision tree induction based on efficient tree restructuring | |
Borkar et al. | Automatic segmentation of text into structured records | |
CN108959252A (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN107526799A (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN110245981A (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN106528526B (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
CN105654144B (zh) | 一种基于机器学习的社交网络本体构建方法 | |
CN109766904A (zh) | 医学领域图像语义相似度矩阵的改进算法 | |
US20120109972A1 (en) | System and method for identifying similar molecules | |
CN110188193A (zh) | 一种基于最短依存子树的电子病历实体关系抽取方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN109145087A (zh) | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 | |
CN109635946A (zh) | 一种联合深度神经网络和成对约束的聚类方法 | |
Chen et al. | Using decision trees to summarize associative classification rules | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
Boyack et al. | Accurately identifying topics using text: Mapping PubMed | |
Moayeri et al. | Text-to-concept (and back) via cross-model alignment | |
CN102521325A (zh) | 基于频繁关联标签序列的xml结构相似度度量方法 | |
CN108763192A (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Ilyas et al. | Extracting syntactical patterns from databases | |
CN109741791A (zh) | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 | |
Nguyen et al. | Rough set approach to sunspot classification problem | |
Aggarwal et al. | Graphical models for text: a new paradigm for text representation and processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 410000 No. 1101, C2 Building, Yuyuan, Lugu, 27 Wenxuan Road, Changsha High-tech Development Zone, Changsha City, Hunan Province Applicant after: Human and Future Biotechnology (Changsha) Co., Ltd. Address before: 410000 Building 1101, C2 Yuyuan, Lugu, No. 27 Wenxuan Road, Changsha High-tech Development Zone, Kaifu District, Changsha City, Hunan Province Applicant before: Human and Future Biotechnology (Changsha) Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |