CN109255121A - 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 - Google Patents

一种基于主题类的跨语言生物医学类学术论文信息推荐方法 Download PDF

Info

Publication number
CN109255121A
CN109255121A CN201810852223.9A CN201810852223A CN109255121A CN 109255121 A CN109255121 A CN 109255121A CN 201810852223 A CN201810852223 A CN 201810852223A CN 109255121 A CN109255121 A CN 109255121A
Authority
CN
China
Prior art keywords
theme
english
chinese
phrase
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810852223.9A
Other languages
English (en)
Inventor
陆遥
霍焯亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810852223.9A priority Critical patent/CN109255121A/zh
Publication of CN109255121A publication Critical patent/CN109255121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息检索以及推荐系统技术领域,更具体地,涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。本方法主要包括对文本数据进行数据预处理、应用PLAS模型进行文本聚类、计算每个主题分组的词向量信息、获得每一个主题最相关的跨语言主题编号、读取用户输入的检索词组、判断用户的检索词组、得到中文文章的推荐结果以及得到英文文献的推荐等步骤。本发明实现了将文本的分析从词频空间降维至空间主题空间;通过数据降维的方法能够有效地减少模型对翻译方法的依赖,有利于实现跨语言的文献特征分析;同时主题模型能够有效地挖掘文档中的语义信息,发现文档之间的潜在关联,能够有效地解决一词多义和一义多词的问题。

Description

一种基于主题类的跨语言生物医学类学术论文信息推荐方法
技术领域
本发明涉及信息检索以及推荐系统技术领域,更具体地,涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。
背景技术
在文本推荐系统中,最为常用的方法是利用词频-逆向文档词频(TermFrequency-Invert Document Frequency,TF-IDF)方法将文档转化为词频维度的向量表示。然后通过词向量的距离来计算文档之间的相似程度,从而来进行基于内容的推荐。TF-IDF作为一种统计方法,仅仅考虑了单词在文档中出现的词频信息,而无法挖掘文档内部和文档之间的语义信息和统计信息。这些信息往往才是反映文档内容的最好特征。针对于不同语言下的文档处理,TF-IDF也无法很好地处理翻译词汇存在的一词多义和一义多词的现象。比如英文单词chair,在文档A中表示的意思是椅子,而在文档B中表达的意思却可能是主席。尽管单词在这两个文档中具有相差甚远的含义,但是TF-IDF却无法发现这一词多义的现象。又比如单词advantage和benefit都具有优点,好处的意思。但是TF-IDF模型同样也不会发现这些特性,它仅仅会对不同的单词分别统计词频。这些现象在文档信息处理时经常发生,将直接影响到推荐结果,使之偏离用户的真实需求。在处理跨语言的检索问题上,很多学者也尝试利用各种方法优化机器翻译的效果,但是仍然离不开对翻译词典或者双语对照语料的依赖,学术文献的专业性和特殊性使得翻译模型的建模难度增大,模型效果低下。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于主题类的跨语言生物医学类学术论文信息推荐方法。
为解决上述技术问题,本发明采用的技术方案是:
一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,包括以下步骤:
S1:首先对文本数据进行数据预处理。
S2:根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组。
S3:计算每个主题分组的词向量信息并得到每个主题分组的向量信息。
S4:利用翻译关系将每个主题分组的向量信息中的词组进行对应,通过加权计算的方法统一不同语言下的主题信息向量的维度,然后利用向量间的余弦距离计算主题之间的相似度,得到每一个主题最相关的跨语言主题编号。在步骤S4中,由于不同语言下的主题的信息向量的维度不一致,故通过加权计算的方法统一不同语言下的主题信息向量的维度。
S5:读取用户输入的检索词组,利用结巴分词进行分词,同样去除停用词。
S6:判断用户的检索词是否能够在系统的总词表中检索到,如果检索不到检索词,则输出无法得到推荐结果,推出系统,否则进入到下一步。
S7:通过字符串匹配,计算检索词在中文主题下文本中出现的TF-IDF值,根据TF-IDF值排序得到与检索词最相关的中文主题,根据中文主题对应的p(z|d)矩阵,对主题内的中文文章进行排序,得到中文文章的推荐结果。
S8:根据步骤S7中找到的中文主题,访问数据库得到对应最相关的英文主题,判断检索词是否能在翻译词表中找到对应的英文翻译,如果能找到英文翻译,则计算该英文翻译相对于该英文主题下所有英文文章的TF-IDF值,根据TF-IDF值对英文文章进行排序,得到英文文章的推荐结果;若无法找到对应的英文翻译,则直接根据该英文主题对应的p(z|d)矩阵,对主题内的英文文章进行排序,得到英文文章的推荐结果。
优选地,所述步骤S1具体包括以下步骤:
s11:对中文的摘要文本,首先使用结巴分词工具对文本进行分词,去除标点符号,将长文本的中文的摘要文本转换成一个个的中文词组;
s12:利用中文的停用词表作为过滤条件,过滤这些中文词组中的过滤词;
s13:统计过滤后每个中文词组在中文的摘要文本中出现的频率;
s14:对英文的摘要文本,首先使用nltk工具的同词根化功能将每个英文单词转换为词根的形态并去除标点符号以及数字,将长文本的英文摘要文本转换成一个个的英文词组;
s15:利用英文的停用词表作为过滤条件,过滤停用词;
s16:统计过滤后每个英文词组在英文的摘要文本中出现的频率。
在所述步骤S1中,学术文献的摘要摘要文本是全文文本的一个浓缩,通过对摘要文本的分析,我们可以很方便地得到学术文献的语义信息用于系统推荐。同时,由于学术文献的编写语言不同,所以预处理的方法也有所差异。
优选地,所述步骤S2具体包括以下步骤:
s21:程序先载入预处理后的词频矩阵n(d,w),然后随机初始化PLSA的初始概率参数,向每一个计算处理单元分配词频矩阵,计算条件概率p(z|d)和p(z|w);
s22:将每个计算处理单元的计算结果汇总,更新概率参数,完成第一次迭代;
s23:重复迭代计算过程,直到条件概率的结果满足收敛条件,即完成计算,输出最终的条件概率结果p(z|d),据此概率得到每个学术文献的主题分组。
在所述步骤S2中,输出最终的条件概率结果p(z|d),该概率揭示了每一个学术文献属于某一个主题的概率,根据此概率得到每一个学术文献的主题分组。
优选地,所述步骤S3具体包括以下步骤:
s31:将属于同一个主题分组的文章的词频矩阵重新组合,得到每个主题的词频信息,计算每个词组的TF-IDF值;
s32:在翻译词表中选择具有翻译关系的词组,以该词组的TF-IDF值加上与之共现的词组的TF-IDF与共现概率的乘积作为该词组的向量数值;
s33:最后得到每个主题分组的向量信息。
与现有技术相比,本发明的有益效果是:
本发明为一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,本发明采用一种概率模型的主题模型,与传统的向量空间模型相比较,不再单纯地在词频空间对文本进行分析,而是引入了主题空间,实现了将文本的分析从词频空间降维至空间主题空间;通过数据降维的方法能够有效地减少模型对翻译方法的依赖,有利于实现跨语言的文献特征分析;同时主题模型能够有效地挖掘文档中的语义信息,发现文档之间的潜在关联,能够有效地解决一词多义和一义多词的问题。
附图说明
图1为线下文本处理流程示意图;
图2为在线推荐的流程示意图;
图3为中文语料的预处理流程示意图;
图4为英文语料的预处理流程示意图;
图5为并行化文本聚类流程示意图;
图6为双语主题信息提取示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
本发明为一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,本方法主要分为线下的文本信息处理以及在线的文献推荐两个部分工作。
第一部分的线下文本信息处理工作,主要是对学术文献的信息进行提取得到可以用于能够反映文献主题的向量信息。这一部分的工作主要分为以下4个步骤,如图1所示。
S1:首先对文本数据进行数据预处理。
S2:根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组。
S3:计算每个主题分组的词向量信息并得到每个主题分组的向量信息。
S4:利用翻译关系将每个主题分组的向量信息中的词组进行对应,通过加权计算的方法统一不同语言下的主题信息向量的维度,然后利用向量间的余弦距离计算主题之间的相似度,得到每一个主题最相关的跨语言主题编号。
其中,在本实施例中,步骤S1主要包括以下步骤,如图3至图4所示:
s11:对中文的摘要文本,首先使用结巴分词工具对文本进行分词,去除标点符号,将长文本的中文的摘要文本转换成一个个的中文词组;
s12:利用中文的停用词表作为过滤条件,过滤这些中文词组中的过滤词;
s13:统计过滤后每个中文词组在中文的摘要文本中出现的频率;
s14:对英文的摘要文本,首先使用nltk工具的同词根化功能将每个英文单词转换为词根的形态并去除标点符号以及数字,将长文本的英文摘要文本转换成一个个的英文词组;
s15:利用英文的停用词表作为过滤条件,过滤停用词;
s16:统计过滤后每个英文词组在英文的摘要文本中出现的频率。
另外,在本实施例中,步骤S2主要包括以下步骤,如图5所示:
s21:程序先载入预处理后的词频矩阵n(d,w),然后随机初始化PLSA的初始概率参数,向每一个计算处理单元分配词频矩阵,计算条件概率p(z|d)和p(z|w);
s22:将每个计算处理单元的计算结果汇总,更新概率参数,完成第一次迭代;
s23:重复迭代计算过程,直到条件概率的结果满足收敛条件,即完成计算,输出最终的条件概率结果p(z|d),据此概率得到每个学术文献的主题分组。
其中,在本实施例中,步骤S3主要包括以下步骤,如图6所示:
s31:将属于同一个主题分组的文章的词频矩阵重新组合,得到每个主题的词频信息,计算每个词组的TF-IDF值;
s32:在翻译词表中选择具有翻译关系的词组,以该词组的TF-IDF值加上与之共现的词组的TF-IDF与共现概率的乘积作为该词组的向量数值;
s33:最后得到每个主题分组的向量信息。
第二部分的在线文献推荐工作主要在第一部分的基础上,根据用户的检索词,得到推荐结果,具体的方法如下,如图2所示:
S5:读取用户输入的检索词组,利用结巴分词进行分词,同样去除停用词;
S6:判断用户的检索词是否能够在系统的总词表中检索到,如果检索不到检索词,则输出无法得到推荐结果,推出系统,否则进入到下一步;
S7:通过字符串匹配,计算检索词在中文主题下文本中出现的TF-IDF值,根据TF-IDF值排序得到与检索词最相关的中文主题,根据中文主题对应的p(z|d)矩阵,对主题内的中文文章进行排序,得到中文文章的推荐结果;
S8:根据步骤S7中找到的中文主题,访问数据库得到对应最相关的英文主题,判断检索词是否能在翻译词表中找到对应的英文翻译,如果能找到英文翻译,则计算该英文翻译相对于该英文主题下所有英文文章的TF-IDF值,根据TF-IDF值对英文文章进行排序,得到英文文章的推荐结果;若无法找到对应的英文翻译,则直接根据该英文主题对应的p(z|d)矩阵,对主题内的英文文章进行排序,得到英文文章的推荐结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,其特征在于,包括以下步骤:
S1:首先对文本数据进行数据预处理;
S2:根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组;
S3:计算每个主题分组的词向量信息并得到每个主题分组的向量信息;
S4:利用翻译关系将每个主题分组的向量信息中的词组进行对应,通过加权计算的方法统一不同语言下的主题信息向量的维度,然后利用向量间的余弦距离计算主题之间的相似度,得到每一个主题最相关的跨语言主题编号;
S5:读取用户输入的检索词组,利用结巴分词进行分词,同样去除停用词;
S6:判断用户的检索词是否能够在系统的总词表中检索到,如果检索不到检索词,则输出无法得到推荐结果,推出系统,否则进入到下一步;
S7:通过字符串匹配,计算检索词在中文主题下文本中出现的TF-IDF值,根据TF-IDF值排序得到与检索词最相关的中文主题,根据中文主题对应的p(z|d)矩阵,对主题内的中文文章进行排序,得到中文文章的推荐结果;
S8:根据步骤S7中找到的中文主题,访问数据库得到对应最相关的英文主题,判断检索词是否能在翻译词表中找到对应的英文翻译,如果能找到英文翻译,则计算该英文翻译相对于该英文主题下所有英文文章的TF-IDF值,根据TF-IDF值对英文文章进行排序,得到英文文章的推荐结果;若无法找到对应的英文翻译,则直接根据该英文主题对应的p(z|d)矩阵,对主题内的英文文章进行排序,得到英文文章的推荐结果。
2.根据权利要求1所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,其特征在于,所述步骤S1具体包括以下步骤:
s11:对中文的摘要文本,首先使用结巴分词工具对文本进行分词,去除标点符号,将长文本的中文的摘要文本转换成一个个的中文词组;
s12:利用中文的停用词表作为过滤条件,过滤这些中文词组中的过滤词;
s13:统计过滤后每个中文词组在中文的摘要文本中出现的频率;
s14:对英文的摘要文本,首先使用nltk工具的同词根化功能将每个英文单词转换为词根的形态并去除标点符号以及数字,将长文本的英文摘要文本转换成一个个的英文词组;
s15:利用英文的停用词表作为过滤条件,过滤停用词;
s16:统计过滤后每个英文词组在英文的摘要文本中出现的频率。
3.根据权利要求1或2所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,其特征在于,所述步骤S2具体包括以下步骤:
s21:程序先载入预处理后的词频矩阵n(d,w),然后随机初始化PLSA的初始概率参数,向每一个计算处理单元分配词频矩阵,计算条件概率p(z|d)和p(z|w);
s22:将每个计算处理单元的计算结果汇总,更新概率参数,完成第一次迭代;
s23:重复迭代计算过程,直到条件概率的结果满足收敛条件,即完成计算,输出最终的条件概率结果p(z|d),据此概率得到每个学术文献的主题分组。
4.根据权利要求3所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,其特征在于,所述步骤S3具体包括以下步骤:
s31:将属于同一个主题分组的文章的词频矩阵重新组合,得到每个主题的词频信息,计算每个词组的TF-IDF值;
s32:在翻译词表中选择具有翻译关系的词组,以该词组的TF-IDF值加上与之共现的词组的TF-IDF与共现概率的乘积作为该词组的向量数值;
s33:最后得到每个主题分组的向量信息。
CN201810852223.9A 2018-07-27 2018-07-27 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 Pending CN109255121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810852223.9A CN109255121A (zh) 2018-07-27 2018-07-27 一种基于主题类的跨语言生物医学类学术论文信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810852223.9A CN109255121A (zh) 2018-07-27 2018-07-27 一种基于主题类的跨语言生物医学类学术论文信息推荐方法

Publications (1)

Publication Number Publication Date
CN109255121A true CN109255121A (zh) 2019-01-22

Family

ID=65050009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810852223.9A Pending CN109255121A (zh) 2018-07-27 2018-07-27 一种基于主题类的跨语言生物医学类学术论文信息推荐方法

Country Status (1)

Country Link
CN (1) CN109255121A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176311A (zh) * 2019-05-17 2019-08-27 北京印刷学院 一种基于对抗神经网络的自动医疗方案推荐方法和系统
CN110188187A (zh) * 2019-06-04 2019-08-30 成都终身成长科技有限公司 文章推荐方法及装置、存储介质
CN110334362A (zh) * 2019-07-12 2019-10-15 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN110909132A (zh) * 2019-11-30 2020-03-24 南京森林警察学院 一种基于语义分析的警务学习内容分析划归方法
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
WO2021179688A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN117972025A (zh) * 2024-04-01 2024-05-03 浙江大学 一种基于语义分析的海量文本检索匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN102955853A (zh) * 2012-11-02 2013-03-06 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
CN104731828A (zh) * 2013-12-24 2015-06-24 华为技术有限公司 一种跨领域文档相似度计算方法及装置
US20150213492A1 (en) * 2014-01-24 2015-07-30 Flipboard, Inc. Recommending Magazines to Users of a Digital Magazine Server
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法
US20160292145A1 (en) * 2015-04-03 2016-10-06 Klangoo, Inc. Techniques for understanding the aboutness of text based on semantic analysis
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于维基百科的中英文跨语言实体匹配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN102955853A (zh) * 2012-11-02 2013-03-06 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
CN104731828A (zh) * 2013-12-24 2015-06-24 华为技术有限公司 一种跨领域文档相似度计算方法及装置
US20150213492A1 (en) * 2014-01-24 2015-07-30 Flipboard, Inc. Recommending Magazines to Users of a Digital Magazine Server
US20160292145A1 (en) * 2015-04-03 2016-10-06 Klangoo, Inc. Techniques for understanding the aboutness of text based on semantic analysis
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于维基百科的中英文跨语言实体匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHUO-LIANG HUO 等: "A Topic-based Cross-language Retrieval Model with PLSA and TF-IDF", 《2018 IEEE 3RD INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176311A (zh) * 2019-05-17 2019-08-27 北京印刷学院 一种基于对抗神经网络的自动医疗方案推荐方法和系统
CN110188187A (zh) * 2019-06-04 2019-08-30 成都终身成长科技有限公司 文章推荐方法及装置、存储介质
CN110334362B (zh) * 2019-07-12 2023-04-07 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110334362A (zh) * 2019-07-12 2019-10-15 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN110765785B (zh) * 2019-09-19 2024-03-22 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN110909132A (zh) * 2019-11-30 2020-03-24 南京森林警察学院 一种基于语义分析的警务学习内容分析划归方法
CN110909132B (zh) * 2019-11-30 2023-10-20 南京森林警察学院 一种基于语义分析的警务学习内容分析划归方法
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
CN112163157B (zh) * 2020-09-30 2023-01-10 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
WO2021179688A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN117972025A (zh) * 2024-04-01 2024-05-03 浙江大学 一种基于语义分析的海量文本检索匹配方法
CN117972025B (zh) * 2024-04-01 2024-06-07 浙江大学 一种基于语义分析的海量文本检索匹配方法

Similar Documents

Publication Publication Date Title
CN109255121A (zh) 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
US20150006528A1 (en) Hierarchical data structure of documents
WO2009154570A1 (en) System and method for aligning and indexing multilingual documents
KR101806452B1 (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN109684642A (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
Awajan Keyword extraction from Arabic documents using term equivalence classes
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN108319583A (zh) 从中文语料库提取知识的方法与系统
Beheshti et al. Big data and cross-document coreference resolution: Current state and future opportunities
CN118096452B (zh) 一种案件辅助审判方法、装置、终端设备及介质
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122

RJ01 Rejection of invention patent application after publication