CN108038106B - 一种基于上下文语义的细粒度领域术语自学习方法 - Google Patents

一种基于上下文语义的细粒度领域术语自学习方法 Download PDF

Info

Publication number
CN108038106B
CN108038106B CN201711404969.5A CN201711404969A CN108038106B CN 108038106 B CN108038106 B CN 108038106B CN 201711404969 A CN201711404969 A CN 201711404969A CN 108038106 B CN108038106 B CN 108038106B
Authority
CN
China
Prior art keywords
context
term
corpus
candidate
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711404969.5A
Other languages
English (en)
Other versions
CN108038106A (zh
Inventor
张顺
林绍福
陈建辉
高江帆
何小波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711404969.5A priority Critical patent/CN108038106B/zh
Publication of CN108038106A publication Critical patent/CN108038106A/zh
Application granted granted Critical
Publication of CN108038106B publication Critical patent/CN108038106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。

Description

一种基于上下文语义的细粒度领域术语自学习方法
技术领域
本发明涉及大数据驱动领域术语自学习方法,尤其涉及基于博客、文献、网页等文本数据资源的领域术语集的自学习,实现领域术语库的自扩充。
背景技术
大数据知识工程是人工智能研究的重要内容,而博客、文献、网页等文本数据是其中最重要的知识源。传统基于文本的术语学习技术主要采用条件随机场等基于大训练样本的机器学习方法,针对各领域内核心的、实例规模大的术语,例如生物信息学领域的基因名、蛋白名,社交媒体领域的地址、职业等术语,进行识别和抽取。然而,随着知识驱动的人工智能应用的不断深入,所需的知识日趋精细化、专业化,针对较小实例样本的细粒度领域术语识别和抽取成为基于文本的术语学习的重要技术发展趋势。现在基于大训练样本的文本术语学习技术难以满足需求。
发明内容
为了解决现有基于大训练样本的文本术语学习技术难以满足较小实例样本的细粒度领域术语学习需求的问题,本发明提出了一种基于上下文语义的细粒度领域术语自学习方法,通过融合上下文语义信息,从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征,借鉴领域相关性与领域一致性思想,运用对数似然比,计算候选术语的领域依存偏向值,最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习,促进特定领域本体构建,其不仅可以应用在诸如认知功能等领域的术语发现和抽取,还能够在概念抽取方法中作为候选概念产生工具使用。
为解决所述技术问题,本发明采用的技术方案具体步骤如下:
步骤1:构建初始术语集和目标语料库
基于领域已存在的术语集进行精简或者手动自主构建,得到一个20-30个词组成的术语集合的初始术语集,利用正负最大匹配抽取初始术语集在35个词大小窗口下的上下文集合构建形成目标语料库;
步骤2:构建对照语料库
对照数据集应分为通用对照语料子集和领域对照语料子集两部分;前者由目标领域以外的多领域术语及其上下文组成;后者由目标领域内待学习术语以外的领域术语及其上下文组成;
步骤3:基于上下文平衡二叉树的知识源预处理
对于待抽取知识源,运用自然语言处理技术识别名词短语作为候选术语集,并抽取其在35个词大小窗口下的上下文集合,构建形成候选术语上下文平衡二叉树,其中,候选术语上下文平衡二叉树的节点编号和存储值分别存储候选术语及其对应上下文集合,作为进一步筛选和处理的基础;
步骤4:基于上下文-语料库相关性假设的术语领域区分度计算
首先构建术语上下文与语料库的相关性假设,在此基础上,综合应用对数似然比和基于上下文向量的句子相似度量,计算术语领域区分度Dtn(t);
步骤5:计算候选术语领域依存偏向值
构建“中心词-修饰词”词形骨架模型,分别计算候选术语“中心词”上下文在目标语料库和对照语料库的相似度;首先定义候选术语领域依存偏向自变量DRG=W2/W1,其中W1>0,W2≥0,W1和W2分别为候选术语上下文在目标语料库和对照语料库中出现的频次,然后利用领域依存偏向函数Dte(t)=e-n*DRG*ln2(1),其中e是自然对数,n是调节因子,n的取值范围为10000-12000,然后计算候选术语的领域依存偏向值,进而构建候选术语依存调节因子二叉树,其中,候选术语依存调节因子二叉树的节点编号和存储值分别存储候选术语及其领域依存偏向值;
步骤6:计算候选术语隶属激活值
结合步骤4和步骤5的结果,整合候选术语上下文平衡二叉树和候选术语依存调节因子二叉树,构建“区分-偏向-隶属”三层映射激活模型,计算候选术语隶属激活值,即Dtm(t)=Dtn(t)*Dte(t),其中,Dtn(t)表示术语领域区分度,通过步骤4的结果得到,Dte(t)表示候选术语领域依存偏向值,通过步骤5的结果得到;构建候选术语隶属激活值二叉树,其中,候选术语隶属激活值二叉树的节点编号和存储值分别存储候选术语及其隶属激活值;
步骤7:细粒度领域术语自学习
基于候选术语隶属激活值二叉树,设置激活值临界值,画出不同激活值临界值对应的准确率曲线,取阈值对应最高准确率的值为激活值临界值,满足临界值的术语视为发现的领域新术语,添加进初始术语集,并返回执行步骤1。
进一步的,所述步骤4中基于上下文-语料库相关性假设的术语领域区分度计算具体方法过程为:
步骤1):定义上下文-语料库相关性假设
假设1:候选术语的上下文在目标语料库和对照语料库中出现的频次相同;
假设2:候选术语的上下文在目标语料库和对照语料库中出现的频次不同;
步骤2):构造目标语料向量集
首先,基于目标语料库,训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型;其次,遍历目标语料库中的所有上下文,将每一上下文逐词输入神经网络模型,获取各词对应的多维词向量,并利用所有词向量的各维度平均值,构造上下文向量;最后,汇总目标语料库中所有上下文的上下文向量,构造目标语料向量集;
步骤3):构造对照语料向量集
首先,基于对照语料库,训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型;其次,遍历对照语料库中的所有上下文,将每一上下文逐词输入神经网络模型,获取各词对应的多维词向量,并利用所有词向量的各维度平均值,构造上下文向量;最后,汇总对照语料库中所有上下文的上下文向量,构造对照语料向量集;
步骤4):构造候选术语上下文向量
首先,基于候选术语,遍历候选术语上下文平衡二叉树提取对应上下文;然后将上下文逐一输入对照语料库的三层神经网络模型,获取各词对应的多维词向量;最后利用所有词向量的各维度平均值构造候选术语上下文向量;
步骤5):融合对数似然估计和句子相似度计算的术语领域区分度计算
结合步骤1)的定义的两个假设L(H1)和L(H2),利用二项式分布假设计算L(H1)和L(H2)的似然估计值,其中L(H1)=B(W1;W1+W2;P)B(W2;W1+W2;P),L(H2)=B(W1;W1+W2;P1)B(W2;W1+W2;P2),其中W1和W2分别表示为候选术语上下文在目标语料库和对照语料库中出现的频次,P1和P2分别表示候选术语的上下文在目标语料库和对照语料库出现的概率;结合二项式分布假设B(W2;W1+W2;P),公式转化为
Figure GDA0003068372250000041
P为假设1中候选术语上下文在目标语料库中出现的概率,则相应的对数似然比以2为底Ttf的计算为
Figure GDA0003068372250000042
用于计算上下文-语料库相关性假设的可能性;然后通过利用
Figure GDA0003068372250000043
计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度,其中a表示候选术语各上下文句子向量,b表示目标语料向量集中各上下文句子向量;计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度,通过统计相似度频次,阈值超过50次获得W1;计算候选术语各上下文句子向量与对照语料向量集中各上下文句子向量的句子相似度,通过统计相似度频次,阈值超过50次获得W2
附图说明
图1是本发明所述的基于上下文语义的细粒度领域术语自学习方法流程图。
具体实施方式
下面将结合附图和实施案例对本发明进行进一步的描述:
本发明所述的领域术语发现方法所用的源数据来源于PLOS ONE网站,通过搜过“fMRI”and“Cognitive Function”关键词随机爬取5000篇文章;
认知功能术语概念集由Cognitive atlas网站中803个认知功能术语构成;
本实施例的方法流程图如图1所示,具体包括以下步骤:
步骤一:构建初始术语集和原始目标语料库
初始术语集合通过筛选源数据中出现频率最高的前10个认知功能术语构成;
原始目标语料库由源数据中932段构成,其中每篇摘要都含有初始术语集合中的术语;
步骤二:构建原始对照语料库
原始对照语料库分别由源数据集中不包含803个术语的段落和包含803个段落中和术语不在同一句的25032段落构成;
步骤三:构建原始知识源语料库
知识源语料库来自我们从PLOS ONE网站中通过搜过“fMRI”and“CognitiveFunction”关键词随机爬取150篇最新的文章构造测试语料库,基于认知的术语表,在这些文章中对20个认知功能术语进行了标注。
步骤四:数据预处理获得候选术语集、目标语料库上下文、对照语料库上下文和知识源上下文
第一步:使用HanLp工具对知识源数据进行词性标注及句法解析,提取语料库中所有的名词短语;
第二步:从上述名词短语中去除冠词、描述性形容词等停用词;
第三步:将“and”或者“or”连接名词短语拆分为两部分,例如,把“anchoringandapperception”拆为“anchoring”和“apperception”;
第四步:从符合“名词|名词”或“形容词|名词”等类似语法结构的名词短语中进一步切割,二次抽取更细粒度的候选术语,例如,从“audiovisual perception”中产生“audiovisual”和“perception”;
第五步:词形还原、去重,得到候选术语集合,以此抽取在知识源语料库中对应各个候选术语的上下文信息,取候选术语周围窗口大小为35个词作为其术语上下文。同理也可为获得目标语料上下文在对照语料上下文。
步骤五:计算术语领域区分度
利用对数似然比(5)计算上下文-语料库相关性假设的可能性,采用二项式分布假设,则公式可转化为公式(6),然后通过先利用(7)计算候选术语各上下文向量与目标语料向量集中各向量的句子相似度,再统计相似度超过设定阈值次数而获得。同理也可为获得候选术语上下文在对照语料库中出现的次数。
步骤六:计算候选术语领域依存偏向值
对于每个候选术语,根据公式(1)计算出每个术语的依存差异值Dtn(t);
步骤七:术语自学习
进而根据公式(2)计算领域候选术语隶属激活值Dtm(t)=2.3501686958E-39,设置激活值临界值,满足临界值的术语视为发现的领域新术语,添加进初始术语集,并重复执行步骤1,实现术语集的自学习和本方法的自提升。
本次实验中共抽取29个领域术语,其中,发现25个为认知功能术语,术语发现准确率为86.20%。下表为术语发现的详细结果:
表1术语发现详情
Figure GDA0003068372250000051
Figure GDA0003068372250000061
为了验证本发明所述方法的有效性,本次实验所提出的算法与DR-DC、CTROL、CRF等算法的结果进行比较。实验结果显示:DR-DC算法的准确率为16.52%,CTROL算法的准确率为31.09%,CRF算法的准确率为43.22%,实验结果表明,基于上下文语义的细粒度领域术语自学习技术算法的术语发现有较高准确率。
由此可知,基于上下文语义的细粒度领域术语自学习技术,有利于文本数据资源的领域术语集的自学习,实现领域术语库的自扩充。

Claims (2)

1.一种基于上下文语义的细粒度领域术语自学习方法,其特征在于,包括如下步骤:
步骤1:构建初始术语集和目标语料库
基于领域已存在的术语集进行精简或者手动自主构建,得到一个20-30个词组成的术语集合的初始术语集,利用正负最大匹配抽取初始术语集在35个词大小窗口下的上下文集合构建形成目标语料库;
步骤2:构建对照语料库
对照数据集应分为通用对照语料子集和领域对照语料子集两部分;前者由目标领域以外的多领域术语及其上下文组成;后者由目标领域内待学习术语以外的领域术语及其上下文组成;
步骤3:基于上下文平衡二叉树的知识源预处理
对于待抽取知识源,运用自然语言处理技术识别名词短语作为候选术语集,并抽取其在35个词大小窗口下的上下文集合,构建形成候选术语上下文平衡二叉树,其中,候选术语上下文平衡二叉树的节点编号和存储值分别存储候选术语及其对应上下文集合,作为进一步筛选和处理的基础;
步骤4:基于上下文-语料库相关性假设的术语领域区分度计算
首先构建术语上下文与语料库的相关性假设,在此基础上,综合应用对数似然比和基于上下文向量的句子相似度量,计算术语领域区分度Dtn(t);
步骤5:计算候选术语领域依存偏向值
构建“中心词-修饰词”词形骨架模型,分别计算候选术语“中心词”上下文在目标语料库和对照语料库的相似度;首先定义候选术语领域依存偏向自变量DRG=W2/W1,其中W1>0,W2≥0,W1和W2分别为候选术语上下文在目标语料库和对照语料库中出现的频次,然后利用领域依存偏向函数Dte(t)=e-n*DRG*ln2(1),其中e是自然对数,n是调节因子,n的取值范围为10000-12000,然后计算候选术语的领域依存偏向值,进而构建候选术语依存调节因子二叉树,其中,候选术语依存调节因子二叉树的节点编号和存储值分别存储候选术语及其领域依存偏向值;
步骤6:计算候选术语隶属激活值
结合步骤4和步骤5的结果,整合候选术语上下文平衡二叉树和候选术语依存调节因子二叉树,构建“区分-偏向-隶属”三层映射激活模型,计算候选术语隶属激活值,即Dtm(t)=Dtn(t)*Dte(t),其中,Dtn(t)表示术语领域区分度,通过步骤4的结果得到,Dte(t)表示候选术语领域依存偏向值,通过步骤5的结果得到;构建候选术语隶属激活值二叉树,其中,候选术语隶属激活值二叉树的节点编号和存储值分别存储候选术语及其隶属激活值;
步骤7:细粒度领域术语自学习
基于候选术语隶属激活值二叉树,设置激活值临界值,画出不同激活值临界值对应的准确率曲线,取阈值对应最高准确率的值为激活值临界值,满足临界值的术语视为发现的领域新术语,添加进初始术语集,并返回执行步骤1。
2.如权利要求1所述的基于上下文语义的细粒度领域术语自学习方法,其特征在于,所述步骤4中基于上下文-语料库相关性假设的术语领域区分度计算具体方法过程为:
步骤1):定义上下文-语料库相关性假设
假设1:候选术语的上下文在目标语料库和对照语料库中出现的频次相同;
假设2:候选术语的上下文在目标语料库和对照语料库中出现的频次不同;
步骤2):构造目标语料向量集
首先,基于目标语料库,训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型;其次,遍历目标语料库中的所有上下文,将每一上下文逐词输入神经网络模型,获取各词对应的多维词向量,并利用所有词向量的各维度平均值,构造上下文向量;最后,汇总目标语料库中所有上下文的上下文向量,构造目标语料向量集;
步骤3):构造对照语料向量集
首先,基于对照语料库,训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型;其次,遍历对照语料库中的所有上下文,将每一上下文逐词输入神经网络模型,获取各词对应的多维词向量,并利用所有词向量的各维度平均值,构造上下文向量;最后,汇总对照语料库中所有上下文的上下文向量,构造对照语料向量集;
步骤4):构造候选术语上下文向量
首先,基于候选术语,遍历候选术语上下文平衡二叉树提取对应上下文;然后将上下文逐一输入对照语料库的三层神经网络模型,获取各词对应的多维词向量;最后利用所有词向量的各维度平均值构造候选术语上下文向量;
步骤5):融合对数似然估计和句子相似度计算的术语领域区分度计算
结合步骤1)的定义的两个假设L(H1)和L(H2),利用二项式分布假设计算L(H1)和L(H2)的似然估计值,其中L(H1)=B(W1;W1+W2;P)B(W2;W1+W2;P),L(H2)=B(W1;W1+W2;P1)B(W2;W1+W2;P2),其中W1和W2分别表示为候选术语上下文在目标语料库和对照语料库中出现的频次,P1和P2分别表示候选术语的上下文在目标语料库和对照语料库出现的概率;结合二项式分布假设B(W2;W1+W2;P),公式转化为
Figure FDA0003068372240000031
P为假设1中候选术语上下文在目标语料库中出现的概率,则相应的对数似然比以2为底Ttf的计算为
Figure FDA0003068372240000032
用于计算上下文-语料库相关性假设的可能性;然后通过利用
Figure FDA0003068372240000033
计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度,其中a表示候选术语各上下文句子向量,b表示目标语料向量集中各上下文句子向量;计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度,通过统计相似度频次,阈值超过50次获得W1;计算候选术语各上下文句子向量与对照语料向量集中各上下文句子向量的句子相似度,通过统计相似度频次,阈值超过50次获得W2
CN201711404969.5A 2017-12-22 2017-12-22 一种基于上下文语义的细粒度领域术语自学习方法 Active CN108038106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711404969.5A CN108038106B (zh) 2017-12-22 2017-12-22 一种基于上下文语义的细粒度领域术语自学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711404969.5A CN108038106B (zh) 2017-12-22 2017-12-22 一种基于上下文语义的细粒度领域术语自学习方法

Publications (2)

Publication Number Publication Date
CN108038106A CN108038106A (zh) 2018-05-15
CN108038106B true CN108038106B (zh) 2021-07-02

Family

ID=62100700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711404969.5A Active CN108038106B (zh) 2017-12-22 2017-12-22 一种基于上下文语义的细粒度领域术语自学习方法

Country Status (1)

Country Link
CN (1) CN108038106B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492098B (zh) * 2018-10-24 2022-05-06 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN111428516B (zh) * 2018-11-19 2022-08-19 腾讯科技(深圳)有限公司 一种信息处理的方法以及装置
CN110737469B (zh) * 2019-09-29 2021-09-03 南京大学 一种功能粒度上基于语义信息的源代码相似度评估方法
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统
CN116702786B (zh) * 2023-08-04 2023-11-17 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104750828A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种基于6w规则的归纳演绎知识无意识自学习方法
CN104965818A (zh) * 2015-05-25 2015-10-07 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN106776558A (zh) * 2016-12-14 2017-05-31 北京工业大学 融合语境信息的领域术语识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223632B2 (en) * 2009-07-27 2019-03-05 International Business Machines Corporation Modeling states of an entity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104750828A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种基于6w规则的归纳演绎知识无意识自学习方法
CN104965818A (zh) * 2015-05-25 2015-10-07 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN106776558A (zh) * 2016-12-14 2017-05-31 北京工业大学 融合语境信息的领域术语识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于领域相关性度量的抑郁症药物概念抽取;王宁宁等;《计算机工程与应用》;20161231;第52卷(第19期);第140-145页 *

Also Published As

Publication number Publication date
CN108038106A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN108038106B (zh) 一种基于上下文语义的细粒度领域术语自学习方法
CN111386524B (zh) 促进特定于域和客户端的应用程序接口推荐
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
Zayaraz Concept relation extraction using Naïve Bayes classifier for ontology-based question answering systems
Pouriyeh et al. ES-LDA: entity summarization using knowledge-based topic modeling
Muaad et al. Arabic document classification: performance investigation of preprocessing and representation techniques
CN111344695B (zh) 促进特定于域和客户端的应用程序接口推荐
Alqahtani et al. A survey of text matching techniques
Chandola et al. Online resume parsing system using text analytics
Yang et al. Improving word representations with document labels
Lal et al. A novel approach to text summarisation using topic modelling and noun phrase extraction
Meenakshi et al. Novel Shared Input Based LSTM for Semantic Similarity Prediction
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
Menon et al. Gmm-based document clustering of knowledge graph embeddings
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
Saidi et al. Sentence Transformers and DistilBERT for Arabic Word Sense Induction.
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Vimal Application of logistic regression in natural language processing
Setiawan Topic Detection on Twitter using GloVe with Convolutional Neural Network and Gated Recurrent Unit
Szymański Wikipedia articles representation with matrix’u
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant