CN111898366B - 文献主题词聚合方法、装置、计算机设备及可读存储介质 - Google Patents
文献主题词聚合方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111898366B CN111898366B CN202010744556.7A CN202010744556A CN111898366B CN 111898366 B CN111898366 B CN 111898366B CN 202010744556 A CN202010744556 A CN 202010744556A CN 111898366 B CN111898366 B CN 111898366B
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- noun phrases
- phrase
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010744556.7A CN111898366B (zh) | 2020-07-29 | 2020-07-29 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
PCT/CN2020/118699 WO2021139262A1 (fr) | 2020-07-29 | 2020-09-29 | Procédé et appareil d'agregation de terme mesh de document, dispositif informatique et support de stockage lisible |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010744556.7A CN111898366B (zh) | 2020-07-29 | 2020-07-29 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898366A CN111898366A (zh) | 2020-11-06 |
CN111898366B true CN111898366B (zh) | 2022-08-09 |
Family
ID=73182439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010744556.7A Active CN111898366B (zh) | 2020-07-29 | 2020-07-29 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111898366B (fr) |
WO (1) | WO2021139262A1 (fr) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667810B (zh) * | 2020-12-25 | 2024-07-23 | 平安科技(深圳)有限公司 | 文献聚类、装置、电子设备及存储介质 |
CN114691861A (zh) * | 2020-12-28 | 2022-07-01 | 北京市博汇科技股份有限公司 | 一种基于主题词语义相似度的话题聚类方法 |
CN113111180B (zh) * | 2021-03-22 | 2022-01-25 | 杭州祺鲸科技有限公司 | 基于深度预训练神经网络的中文医疗同义词聚类方法 |
CN113392072B (zh) * | 2021-06-25 | 2022-08-02 | 中国标准化研究院 | 标准知识服务方法、装置、电子设备和存储介质 |
CN113704412B (zh) * | 2021-08-31 | 2023-05-02 | 交通运输部科学研究院 | 交通运输领域变革性研究文献早期识别方法 |
CN113705217B (zh) * | 2021-09-01 | 2024-05-28 | 国网江苏省电力有限公司电力科学研究院 | 一种面向电力领域知识学习的文献推荐方法及装置 |
CN113806237B (zh) * | 2021-11-18 | 2022-03-08 | 杭州费尔斯通科技有限公司 | 一种基于词典的语言理解模型的测评方法和系统 |
CN114201962B (zh) * | 2021-12-03 | 2023-07-25 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
CN115713085B (zh) * | 2022-10-31 | 2023-11-07 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
CN116303904A (zh) * | 2022-12-27 | 2023-06-23 | 药融云数字科技(成都)有限公司 | 一种医学文献查找方法、系统、存储介质及终端 |
CN116644338B (zh) * | 2023-06-01 | 2024-01-30 | 北京智谱华章科技有限公司 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
CN117391073B (zh) * | 2023-09-22 | 2024-09-06 | 北京工业大学 | 文献识别方法、装置、电子设备和存储介质 |
CN118052225A (zh) * | 2024-02-28 | 2024-05-17 | 中国科学院文献情报中心 | 一种研究问题短语抽取的方法、装置、设备及介质 |
CN118069851B (zh) * | 2024-04-18 | 2024-08-20 | 中国标准化研究院 | 一种智能文献信息智能分类检索方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978274B1 (en) * | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
JP2006139718A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラム |
JP2012043048A (ja) * | 2010-08-16 | 2012-03-01 | Kddi Corp | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
CN106897436A (zh) * | 2017-02-28 | 2017-06-27 | 北京邮电大学 | 一种基于变分推断的学术研究热点关键词提取方法 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN109117436A (zh) * | 2017-06-26 | 2019-01-01 | 上海新飞凡电子商务有限公司 | 基于主题模型的同义词自动发现方法及其系统 |
CN110321553A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 短文本主题识别方法、装置及计算机可读存储介质 |
CN110489745A (zh) * | 2019-07-31 | 2019-11-22 | 北京大学 | 基于引文网络的论文文本相似性的检测方法 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8566360B2 (en) * | 2010-05-28 | 2013-10-22 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
CN110020034B (zh) * | 2018-06-29 | 2023-12-08 | 程宇镳 | 一种信息引证分析方法和系统 |
US20200117751A1 (en) * | 2018-10-10 | 2020-04-16 | Twinword Inc. | Context-aware computing apparatus and method of determining topic word in document using the same |
CN110349632B (zh) * | 2019-06-28 | 2020-06-16 | 南方医科大学 | 一种从PubMed文献筛选基因关键词的方法 |
CN111079422B (zh) * | 2019-12-13 | 2023-07-14 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111143511A (zh) * | 2019-12-16 | 2020-05-12 | 北京工业大学 | 新兴技术预测方法、装置、电子设备及介质 |
CN111259156A (zh) * | 2020-02-18 | 2020-06-09 | 北京航空航天大学 | 一种面向时间序列的热点聚类方法 |
-
2020
- 2020-07-29 CN CN202010744556.7A patent/CN111898366B/zh active Active
- 2020-09-29 WO PCT/CN2020/118699 patent/WO2021139262A1/fr active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978274B1 (en) * | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
JP2006139718A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラム |
JP2012043048A (ja) * | 2010-08-16 | 2012-03-01 | Kddi Corp | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
CN106897436A (zh) * | 2017-02-28 | 2017-06-27 | 北京邮电大学 | 一种基于变分推断的学术研究热点关键词提取方法 |
CN109117436A (zh) * | 2017-06-26 | 2019-01-01 | 上海新飞凡电子商务有限公司 | 基于主题模型的同义词自动发现方法及其系统 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN110321553A (zh) * | 2019-05-30 | 2019-10-11 | 平安科技(深圳)有限公司 | 短文本主题识别方法、装置及计算机可读存储介质 |
CN110489745A (zh) * | 2019-07-31 | 2019-11-22 | 北京大学 | 基于引文网络的论文文本相似性的检测方法 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
Non-Patent Citations (2)
Title |
---|
A Recommendation System Based on Hierarchical Clustering of an Article-Level Citation Network;Jevin D. West et.al;《IEEE TRANSACTIONS ON BIG DATA》;20160729;第2卷(第2期);第113-123页 * |
基于多元关系融合的科技文本主题识别方法研究;许海云等;《中国图书馆学报》;20190131;第45卷(第1期);第82-93页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111898366A (zh) | 2020-11-06 |
WO2021139262A1 (fr) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
Trstenjak et al. | KNN with TF-IDF based framework for text categorization | |
US20200081899A1 (en) | Automated database schema matching | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
WO2022121163A1 (fr) | Procédé, appareil et dispositif d'identification de tendance de comportement d'utilisateur, et support de stockage | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN110688452B (zh) | 一种文本语义相似度评估方法、系统、介质和设备 | |
CN112541056A (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
CN113486670B (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN112836039B (zh) | 基于深度学习的语音数据处理方法和装置 | |
Wijewickrema et al. | Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
CN112417147A (zh) | 训练样本的选取方法与装置 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN109522928A (zh) | 文本的主题情感分析方法、装置、电子设备及存储介质 | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |