CN112768080A - 基于医疗大数据的医学关键词库建立方法及系统 - Google Patents

基于医疗大数据的医学关键词库建立方法及系统 Download PDF

Info

Publication number
CN112768080A
CN112768080A CN202110095731.9A CN202110095731A CN112768080A CN 112768080 A CN112768080 A CN 112768080A CN 202110095731 A CN202110095731 A CN 202110095731A CN 112768080 A CN112768080 A CN 112768080A
Authority
CN
China
Prior art keywords
keywords
keyword
medical
big data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110095731.9A
Other languages
English (en)
Inventor
李红良
陈明明
秦娟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110095731.9A priority Critical patent/CN112768080A/zh
Publication of CN112768080A publication Critical patent/CN112768080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于医疗大数据的医学关键词库建立方法及系统,该方法包括步骤:从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;将文本段进行断句分词和向量化处理,计算各关键词的评分值,根据该评分值筛选出候选关键词;对候选关键词进行分类,包括合法、否定和可疑关键词;确认这三类关键词的剔除关键词,形成关键词库。本发明的医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,便于后续的大数据解析。

Description

基于医疗大数据的医学关键词库建立方法及系统
技术领域
本发明属于医疗大数据技术领域,具体涉及一种基于医疗大数据的医学关键词库建立方法及系统。
背景技术
我国健康医疗资源丰富,数据规模不断增加;对医学术语的关键词进行正确提取,对于医学数据的有效使用意义重大。目前,采用自然语言处理医疗大数据是人工智能领域的一个热点,但是利用自然语言处理技术去识别医学术语仍然达不到非常高的准确率。
发明内容
本发明的目的在于,提供一种基于医疗大数据的医学关键词库建立方法,实现对医学关键词进行正确地提取,并建立医学关键词库。
本发明提供一种基于医疗大数据的医学关键词库建立方法,包括以下步骤:
从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及该关键词所在的文本段;
将文本段进行断句分词处理以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,各关键词的评分值的计算公式为:
Figure BDA0002914098340000011
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,包括:
匹配式模块,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,候选模块中,各关键词的评分值的计算公式为:
Figure BDA0002914098340000021
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
本发明的有益效果是:本发明的基于医疗大数据的医学关键词库建立方法及系统,通过提取医疗数据中所有关键词形成医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,为大数据解析提供简便、快速、精准度高的技术手段。
附图说明
图1是本发明的基于医疗大数据的医学关键词库建立方法的流程图。
图2是本发明实施例中候选关键词的分类示意图。
图3是本发明实施例的基于医疗大数据的医学关键词库建立系统的示意图。
具体实施方式
下面将结合附图对本发明作进一步的说明:
本发明实施例的基于医疗大数据的医学关键词库建立方法,如图1所示,包括以下步骤:
S1、从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式。
基于现有的医疗数据,根据临床不同系统的疾病种类及疾病相关的症状、体征、检查结果、病史,建立需要挖掘的数据项。从数据项中提取目标字段,以及数据项挖掘所在的术语。根据目标字段,撰写其关键词字段,最后提取通用匹配式,如表1所示。
例如,建立的数据项为既往史发现甲状腺功能亢进症,则术语为既往史,目标字段为甲状腺功能亢进症;根据目标字段:甲状腺功能亢进症,得到相关的关键词字段:甲状腺功能亢进症、甲亢、甲状腺机能亢进、甲状腺亢进、甲亢病、Graves病、Graves眼病等,由这些关键词字段凝练出匹配式:甲*亢||||Graves。其中术语是限定匹配式匹配的位置,比如数据项为“既往史发现甲状腺功能亢进症”,则要限定匹配的位置是在“既往史”中,因此即使在“家族史”中也发现了甲状腺功能亢进症的匹配结果,也不会算在匹配结果内。
表1匹配式的建立与形式
数据项 术语名称 目标字段 关键词字段 匹配模式
S2、利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段。
利用第一步得到的匹配式在待查找的医学数据中进行检索,记录检索得到的该关键词的所有形态以及关键词所在的文本段。将匹配到的所有的不同形态的关键词,以及包含该形态关键词的一段文本直接从所有文本资料中提取出来,为后续使用。
例如,基于数据项“甲状腺CT发现甲状腺肿”的匹配式“甲状腺*肿”,查找数据并会输出找到的所有形态:“甲状腺肿”,“甲状腺弥漫性肿”,“甲状腺无肿”,“甲状腺肿瘤”,“甲状腺轻度肿”,“甲状腺非均匀性肿”,“甲状腺:肿”,“甲状腺右叶峡部IIO肿”,“甲状腺体肿”等等。
S3、将文本段进行断句分词处理以及向量化,计算各关键词的在总文本段中出现的频率、逆向文件频率、各关键词与文本段的相似程度;三个值相乘最终得到候选关键词的评分,根据该评分值筛选出候选关键词。
各关键词的评分值的计算公式为:
Figure BDA0002914098340000041
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
计算不同形态的关键词的评分值,依据该评分值将不同形态的关键词进行排序,选取排名靠前的不同形态的关键词,作为候选关键词。
S4、对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
对候选关键词进行分类,如图2所示,包括三种类别:肯定关键词,否定关键词,可疑关键词。例如:对数据项“甲状腺CT发现甲状腺肿”的关键词进行分类时,将“甲状腺肿”划分到肯定关键词,将“无甲状腺肿”划分到否定关键词,将“甲状腺肿可疑”划分到可疑关键词,剔除不合法的关键词,例如剔除肯定关键词“甲状腺肿”的排除“甲状腺肿瘤”,剔除否定关键词“无甲状腺肿”的排除“无甲状腺肿物”,最后得到医学关键词库。
进一步地,关键词库还包括术语、数据项和目标字段,以及合法关键词、否定关键词和可疑关键词的调用顺序。如表2所示,关键词库包括“标准术语”,“数据项名称”,“目标字段”,“合法关键词”,“合法关键词-排除”,“否定关键词”,“否定关键词-排除”,“可疑关键词”,“顺序1”,“顺序2”,“顺序3”12项。判断三类关键词的调用顺序,是关键词库的具体应用。
表2关键词库的形式
Figure BDA0002914098340000042
Figure BDA0002914098340000051
本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,如图3所示,包括:
匹配式模块101,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块102,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块103,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块104,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,候选模块中,各关键词的评分值的计算公式为:
Figure BDA0002914098340000052
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
综上,本发明通过提取医疗数据的医学术语所有关键词形态形成一种医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,为大数据解析提供简便、快速、精准度高的技术手段。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于医疗大数据的医学关键词库建立方法,其特征在于,包括以下步骤:
从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及该关键词所在的文本段;
将文本段进行断句分词处理以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
2.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,根据疾病种类、病史、症状、体征、检查结果建立数据项。
3.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,各关键词的评分值的计算公式为:
Figure FDA0002914098330000011
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
4.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
5.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,关键词库还包括术语、数据项和目标字段。
6.一种用于实现基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,其特征在于,包括:
匹配式模块,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
7.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
8.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,候选模块中,各关键词的评分值的计算公式为:
Figure FDA0002914098330000021
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
9.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
10.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,关键词库还包括术语、数据项和目标字段。
CN202110095731.9A 2021-01-25 2021-01-25 基于医疗大数据的医学关键词库建立方法及系统 Pending CN112768080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110095731.9A CN112768080A (zh) 2021-01-25 2021-01-25 基于医疗大数据的医学关键词库建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110095731.9A CN112768080A (zh) 2021-01-25 2021-01-25 基于医疗大数据的医学关键词库建立方法及系统

Publications (1)

Publication Number Publication Date
CN112768080A true CN112768080A (zh) 2021-05-07

Family

ID=75707043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110095731.9A Pending CN112768080A (zh) 2021-01-25 2021-01-25 基于医疗大数据的医学关键词库建立方法及系统

Country Status (1)

Country Link
CN (1) CN112768080A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238064A (zh) * 2022-09-20 2022-10-25 大安健康科技(北京)有限公司 一种基于聚类的中医医案的关键词提取方法
CN117672481A (zh) * 2023-12-06 2024-03-08 海南星捷安科技集团股份有限公司 一种基于医疗大数据的真实世界数据收集整合系统
CN117669550A (zh) * 2023-11-13 2024-03-08 东风日产数据服务有限公司 一种基于文本中心的主题挖掘方法、系统、设备及介质
CN117690550A (zh) * 2024-02-04 2024-03-12 西南医科大学附属医院 内分泌病人长期用药跟踪系统及管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320778A (zh) * 2015-11-25 2016-02-10 焦点科技股份有限公司 一种适用于电子商务中文网站商品标签化的方法
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
US20180137250A1 (en) * 2016-11-15 2018-05-17 Hefei University Of Technology Mobile health intelligent medical guide system and method thereof
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110019641A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320778A (zh) * 2015-11-25 2016-02-10 焦点科技股份有限公司 一种适用于电子商务中文网站商品标签化的方法
US20180137250A1 (en) * 2016-11-15 2018-05-17 Hefei University Of Technology Mobile health intelligent medical guide system and method thereof
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110019641A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238064A (zh) * 2022-09-20 2022-10-25 大安健康科技(北京)有限公司 一种基于聚类的中医医案的关键词提取方法
CN115238064B (zh) * 2022-09-20 2022-12-09 大安健康科技(北京)有限公司 一种基于聚类的中医医案的关键词提取方法
CN117669550A (zh) * 2023-11-13 2024-03-08 东风日产数据服务有限公司 一种基于文本中心的主题挖掘方法、系统、设备及介质
CN117669550B (zh) * 2023-11-13 2024-04-30 东风日产数据服务有限公司 一种基于文本中心的主题挖掘方法、系统、设备及介质
CN117672481A (zh) * 2023-12-06 2024-03-08 海南星捷安科技集团股份有限公司 一种基于医疗大数据的真实世界数据收集整合系统
CN117690550A (zh) * 2024-02-04 2024-03-12 西南医科大学附属医院 内分泌病人长期用药跟踪系统及管理方法
CN117690550B (zh) * 2024-02-04 2024-05-03 西南医科大学附属医院 内分泌病人长期用药跟踪系统及管理方法

Similar Documents

Publication Publication Date Title
CN109344250B (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN112768080A (zh) 基于医疗大数据的医学关键词库建立方法及系统
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN112732946B (zh) 一种医学文献的模块化数据分析和数据库建立方法
CN111460091B (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN111191456B (zh) 一种使用序列标注进行识别文本分段的方法
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN108108184B (zh) 一种基于深度信念网络的源代码作者识别方法
Fang et al. Human gene name normalization using text matching with automatically extracted synonym dictionaries
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
Hidayat et al. Effect of Stemming Nazief & Adriani on the Ratcliff/Obershelp algorithm in identifying level of similarity between slang and formal words
Alkhatib et al. Boosting arabic named entity recognition transliteration with deep learning
Jiang et al. A CRD-WEL system for chemical-disease relations extraction
CN113254651B (zh) 一种裁判文书的分析方法、装置、计算机设备及存储介质
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
Li et al. Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
Banerjee et al. A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports
Pinto et al. What Drives Research Efforts? Find Scientific Claims that Count!
CN115952788A (zh) 一种基于CharacterBert-CRF模型的诈骗词库构建方法
Preethi et al. A survey paper on text mining-techniques, applications, and issues
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN113626567A (zh) 一种从生物医学文献中挖掘基因与疾病相关性信息的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507