CN111898366B - 文献主题词聚合方法、装置、计算机设备及可读存储介质 - Google Patents

文献主题词聚合方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN111898366B
CN111898366B CN202010744556.7A CN202010744556A CN111898366B CN 111898366 B CN111898366 B CN 111898366B CN 202010744556 A CN202010744556 A CN 202010744556A CN 111898366 B CN111898366 B CN 111898366B
Authority
CN
China
Prior art keywords
document
similarity
noun phrases
phrase
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010744556.7A
Other languages
English (en)
Chinese (zh)
Other versions
CN111898366A (zh
Inventor
柴玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010744556.7A priority Critical patent/CN111898366B/zh
Priority to PCT/CN2020/118699 priority patent/WO2021139262A1/fr
Publication of CN111898366A publication Critical patent/CN111898366A/zh
Application granted granted Critical
Publication of CN111898366B publication Critical patent/CN111898366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
CN202010744556.7A 2020-07-29 2020-07-29 文献主题词聚合方法、装置、计算机设备及可读存储介质 Active CN111898366B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010744556.7A CN111898366B (zh) 2020-07-29 2020-07-29 文献主题词聚合方法、装置、计算机设备及可读存储介质
PCT/CN2020/118699 WO2021139262A1 (fr) 2020-07-29 2020-09-29 Procédé et appareil d'agregation de terme mesh de document, dispositif informatique et support de stockage lisible

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010744556.7A CN111898366B (zh) 2020-07-29 2020-07-29 文献主题词聚合方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111898366A CN111898366A (zh) 2020-11-06
CN111898366B true CN111898366B (zh) 2022-08-09

Family

ID=73182439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010744556.7A Active CN111898366B (zh) 2020-07-29 2020-07-29 文献主题词聚合方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111898366B (fr)
WO (1) WO2021139262A1 (fr)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667810B (zh) * 2020-12-25 2024-07-23 平安科技(深圳)有限公司 文献聚类、装置、电子设备及存储介质
CN114691861A (zh) * 2020-12-28 2022-07-01 北京市博汇科技股份有限公司 一种基于主题词语义相似度的话题聚类方法
CN113111180B (zh) * 2021-03-22 2022-01-25 杭州祺鲸科技有限公司 基于深度预训练神经网络的中文医疗同义词聚类方法
CN113392072B (zh) * 2021-06-25 2022-08-02 中国标准化研究院 标准知识服务方法、装置、电子设备和存储介质
CN113704412B (zh) * 2021-08-31 2023-05-02 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法
CN113705217B (zh) * 2021-09-01 2024-05-28 国网江苏省电力有限公司电力科学研究院 一种面向电力领域知识学习的文献推荐方法及装置
CN113806237B (zh) * 2021-11-18 2022-03-08 杭州费尔斯通科技有限公司 一种基于词典的语言理解模型的测评方法和系统
CN114201962B (zh) * 2021-12-03 2023-07-25 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN115713085B (zh) * 2022-10-31 2023-11-07 北京市农林科学院 文献主题内容分析方法及装置
CN116303904A (zh) * 2022-12-27 2023-06-23 药融云数字科技(成都)有限公司 一种医学文献查找方法、系统、存储介质及终端
CN116644338B (zh) * 2023-06-01 2024-01-30 北京智谱华章科技有限公司 基于混合相似度的文献主题分类方法、装置、设备及介质
CN117391073B (zh) * 2023-09-22 2024-09-06 北京工业大学 文献识别方法、装置、电子设备和存储介质
CN118052225A (zh) * 2024-02-28 2024-05-17 中国科学院文献情报中心 一种研究问题短语抽取的方法、装置、设备及介质
CN118069851B (zh) * 2024-04-18 2024-08-20 中国标准化研究院 一种智能文献信息智能分类检索方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
JP2006139718A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラム
JP2012043048A (ja) * 2010-08-16 2012-03-01 Kddi Corp 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法
CN109117436A (zh) * 2017-06-26 2019-01-01 上海新飞凡电子商务有限公司 基于主题模型的同义词自动发现方法及其系统
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110489745A (zh) * 2019-07-31 2019-11-22 北京大学 基于引文网络的论文文本相似性的检测方法
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566360B2 (en) * 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
CN110020034B (zh) * 2018-06-29 2023-12-08 程宇镳 一种信息引证分析方法和系统
US20200117751A1 (en) * 2018-10-10 2020-04-16 Twinword Inc. Context-aware computing apparatus and method of determining topic word in document using the same
CN110349632B (zh) * 2019-06-28 2020-06-16 南方医科大学 一种从PubMed文献筛选基因关键词的方法
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111143511A (zh) * 2019-12-16 2020-05-12 北京工业大学 新兴技术预测方法、装置、电子设备及介质
CN111259156A (zh) * 2020-02-18 2020-06-09 北京航空航天大学 一种面向时间序列的热点聚类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
JP2006139718A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラム
JP2012043048A (ja) * 2010-08-16 2012-03-01 Kddi Corp 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法
CN109117436A (zh) * 2017-06-26 2019-01-01 上海新飞凡电子商务有限公司 基于主题模型的同义词自动发现方法及其系统
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法
CN110321553A (zh) * 2019-05-30 2019-10-11 平安科技(深圳)有限公司 短文本主题识别方法、装置及计算机可读存储介质
CN110489745A (zh) * 2019-07-31 2019-11-22 北京大学 基于引文网络的论文文本相似性的检测方法
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Recommendation System Based on Hierarchical Clustering of an Article-Level Citation Network;Jevin D. West et.al;《IEEE TRANSACTIONS ON BIG DATA》;20160729;第2卷(第2期);第113-123页 *
基于多元关系融合的科技文本主题识别方法研究;许海云等;《中国图书馆学报》;20190131;第45卷(第1期);第82-93页 *

Also Published As

Publication number Publication date
CN111898366A (zh) 2020-11-06
WO2021139262A1 (fr) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN108073568B (zh) 关键词提取方法和装置
Trstenjak et al. KNN with TF-IDF based framework for text categorization
US20200081899A1 (en) Automated database schema matching
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN110019732B (zh) 一种智能问答方法以及相关装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
WO2022121163A1 (fr) Procédé, appareil et dispositif d&#39;identification de tendance de comportement d&#39;utilisateur, et support de stockage
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN112541056A (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN112836039B (zh) 基于深度学习的语音数据处理方法和装置
Wijewickrema et al. Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
CN112417147A (zh) 训练样本的选取方法与装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN109522928A (zh) 文本的主题情感分析方法、装置、电子设备及存储介质
CN112215006B (zh) 机构命名实体归一化方法和系统
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant