CN116936135B - 基于nlp技术的医疗大健康数据采集分析方法 - Google Patents
基于nlp技术的医疗大健康数据采集分析方法 Download PDFInfo
- Publication number
- CN116936135B CN116936135B CN202311210217.0A CN202311210217A CN116936135B CN 116936135 B CN116936135 B CN 116936135B CN 202311210217 A CN202311210217 A CN 202311210217A CN 116936135 B CN116936135 B CN 116936135B
- Authority
- CN
- China
- Prior art keywords
- inquiry
- word
- words
- text
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 201000010099 disease Diseases 0.000 claims abstract description 104
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 104
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000003058 natural language processing Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 206010012374 Depressed mood Diseases 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 208000020685 sleep-wake disease Diseases 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理领域,具体涉及基于NLP技术的医疗大健康数据采集分析方法,获取用于自然语言处理的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,构建问诊词图并计算问诊词语之间的局部关联性及文本局部词语关联系数;获取各问诊词语的词句匹配因子及文本语义关联系数,进而获取各问诊词语的问诊文本关联度;构建问诊文本疾病相关性,基于此计算各问诊词语的问诊文本疾病代表度及关键词综合权重;根据关键词综合权重获取疾病的关键词集合,结合关键词集合对数据进行快速检索。从而结合自然语言处理实现医疗大健康数据采集分析,提高医疗健康大数据的检索效率。
Description
技术领域
本申请涉及自然语言处理领域,具体涉及基于NLP技术的医疗大健康数据采集分析方法。
背景技术
医药数据检索、查询网站本质是让用户能在最短的时间内查找到最全面且精准的信息,随着自然语言处理、深度学习等新兴技术的发展以及电子病历等医疗健康数据的大量积累,使得医疗智能辅助成为了可能,而快速精准的获取有用信息是帮助用户高效检索相关数据信息的关键,并可以辅助医生快速做出更好的医疗决策。而有用信息的提取是进行疾病分类前的重要步骤,相关关键词提取的好坏直接影响数据检索的效率及准确性。
TextRank算法是一种基于图结构的关键词提取算法,该算法不依赖于预先定义的词汇表,并且适用于不同语种的文本中,被广泛应用于文本的自动分类和信息检索。但是传统的TextRank算法是默认每个节点的初始权重都相等,但每个词汇对语义表达的影响程度不同,相同初始权重的设置方式会影响关键词提取的质量,不仅无法反应不同词汇的重要性,还容易受到噪音词汇的干扰,使得算法的精度和效果也受到影响。
综上所述,本发明提出基于NLP技术的医疗大健康数据采集分析方法,获取用于自然语言处理的数据集,基于各问诊词语的分布情况构建各问诊词语关联性相关的各指标,进而获取各个问诊词语的问诊文本疾病代表度,并构建各个问诊词语的关键词综合权重,获取TextRank算法中每个节点的初始权重,实现目标疾病的各个问诊文本的关键词的提取,可通过关键词集合对各种疾病进行快速检索,提高医疗健康数据的检索效率。
发明内容
为了解决上述技术问题,本发明提供基于NLP技术的医疗大健康数据采集分析方法,以解决现有的问题。
本发明的基于NLP技术的医疗大健康数据采集分析方法采用如下技术方案:
本发明一个实施例提供了基于NLP技术的医疗大健康数据采集分析方法,该方法包括以下步骤:
采集多种疾病的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,对各问诊词语进行编码获取疾病的各问诊词语数据集合、问诊语句数据集合;
对于每种疾病的各问诊词语数据集合、问诊语句数据集合,根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图;结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级;根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性;根据所述局部关联性得到问诊词语的文本局部词语关联系数;获取各问诊词语之间的词句匹配因子,根据所述词句匹配因子得到各问诊词语的文本语义关联系数;将各问诊词语的关联等级、文本局部词语关联系数以及文本语义关联系数的乘积作为各问诊词语的问诊文本关联度;构建各问诊词语的问诊文本疾病相关性;根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度;将问诊文本疾病代表度与预设词性权重乘积的归一化值作为问诊词语的关键词综合权重;
根据关键词综合权重获取疾病的关键词集合,结合各疾病的关键词集合对医疗健康数据进行快速检索。
优选的,所述根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图,包括:
将问诊词语数据集合中各问诊词语作为节点,问诊词语数据集合作为问诊词图中的节点集合;
当两个问诊词语在问诊语句中的位置序号差异小于预设阈值时,则两个问诊词语之间存在边,连接存在边的两个问诊词语,将所有问诊词语之间边的集合作为问诊词图的边集合;
问诊词图中各节点从外到内依次处于第1、2、3、…、K层级,其中K为预设层级数。
优选的,所述结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级包括:将与问诊词语相连的各边在问诊词图中所占层级K值的最大值作为问诊词语的关联等级。
优选的,所述根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性包括:
以各问诊词语为中心获取所在问诊语句的局域窗口,对于局域窗口内的各问诊词语,若问诊词语在所述局域窗口内出现次数为零,则问诊词语之间局部关联性为零,否则,问诊词语之间局部关联性为1。
优选的,所述根据所述局部关联性得到问诊词语的文本局部词语关联系数包括:
计算所有问诊词语在局域窗口中出现次数平方和值的开方,并计算所有问诊词语局部关联性的均值,将所述开方与所述均值乘积的结果作为问诊词语的文本局部词语关联系数。
优选的,所述获取各问诊词语之间的词句匹配因子,包括:
对于各问诊词语,若问诊词语所在问诊语句中存在其他问诊词语使得问诊词语与所述其他问诊词语之间的编辑距离为零,则问诊词语与所述其他问诊词语之间的匹配因子为1,否则为零。
优选的,所述根据所述词句匹配因子得到各问诊词语的文本语义关联系数,表达式为:
将各问诊词语作为待分析问诊词语,计算各包含待分析问诊词语的问诊语句中待分析问诊词语与其他所有问诊词语之间匹配因子的均值,计算所有包含待分析问诊词语的问诊语句的所述均值的均值,作为各问诊词语的文本语义关联系数。
优选的,所述构建各问诊词语的问诊文本疾病相关性,包括:
构建决策函数,当问诊语句中包含问诊词语时,则决策函数值为1,否则决策函数值为零,根据决策函数获取问诊词语的问诊文本疾病相关度,表达式为:
;
式中,为第i种疾病的第j个问诊词语数据集合中第l个问诊词语,/>表示问诊词语/>的问诊文本疾病相关性;h( )表示决策函数;/>表示第j种疾病的所有问诊文本中除问诊词语/>所在问诊语句外的第/>个问诊语句;/>表示第j种疾病中所有问诊文本中除问诊词语/>所在问诊语句外其余问诊语句的个数。
优选的,所述根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度,包括:
统计问诊词语在疾病的所有问诊文本中出现的次数,获取以所述次数为指数自然常数为底数的指数函数的计算结果,将问诊文本关联度、问诊文本疾病相关性以及所述计算结果的乘积作为问诊词语的问诊文本疾病代表度。
优选的,所述根据关键词综合权重获取疾病的关键词集合包括:
对于疾病的各问诊词语数据集合,将问诊词语数据集合中各问诊数据的关键词综合权重从大到小进行排序,将排序前N的关键词综合权重对应的问诊词语作为关键词,将疾病的所有问诊词语数据集合的关键词作为疾病的关键词集合,其中N为预设关键词数量。
本发明至少具有如下有益效果:
本发明提出基于NLP技术的医疗大健康数据采集分析方法,针对传统的TextRank算法中初始权重设置相同而导致最终关键词提取效果不好的问题,本发明基于疾病的各个问诊数据中的问诊词语之间的相关性以及问诊词语在问诊文本中的分布情况,得到各个问诊词语的问诊文本关联度,结合各个问诊语句的相似度构建出问诊文本疾病代表度,并结合问诊词语词性的不同得到各个问诊词语的关键词综合权重,进而提高关键词集合的提取精度,实现数据的快速检索,并降低无关数据对关键数据检索的影响,提高了医疗健康数据的检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的基于NLP技术的医疗大健康数据采集分析方法的流程图;
图2为问诊词K-Core子图GMi,j的示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于NLP技术的医疗大健康数据采集分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于NLP技术的医疗大健康数据采集分析方法的具体方案。
本发明一个实施例提供的基于NLP技术的医疗大健康数据采集分析方法,具体的,提供了如下的基于NLP技术的医疗大健康数据采集分析方法,请参阅图1,该方法包括以下步骤:
步骤S001,获取用于自然语言处理的数据集,并对获取的数据集进行预处理。
本实施例主要根据医疗大健康各疾病数据的问诊数据分析,对各问诊疾病数据的关键词进行提取,进而实现对医疗大健康数据的分析,完成医疗健康数据的快速检索。因此,本实施例将首先对医疗大健康相关数据进行提取,利用爬虫技术获取互联网医疗平台(比如平安好医生、泰康医生、拇指医生等互联网医疗平台)中的n种疾病的问诊数据,具体为疾病的症状描述信息,每种疾病数据分别获取m条问诊数据,具体的疾病的种类数n、每种疾病问诊数据的获取个数m由实施者自行定义,本实施例中设置为n=5,m=2000,本实施例中,选取的疾病为精神科中常见的5种疾病,包括抑郁症、躁狂症、自闭症、精神分裂症和焦虑症。爬虫技术为现有公知技术,同时数据获取方法及过程本实施例不做限制。
得到各种疾病的每个问诊数据对应的问诊文本,使用哈工大LTP工具包分别对各个问诊文本数据依次进行分句、分词、词性标注、停用词的删除以及去重处理。具体的,使用哈工大LTP工具包对所有的问诊文本按句子进行划分,每个问诊文本各得到一个问诊语句集合,每个问诊语句集合都由若干个句子组成,将其中的句子记为问诊语句;对得到的各个问诊语句集合中的所有问诊语句分别进行分词处理,得到各个问诊语句对应的词语集合;对得到的各个词语集合中的每个词语分别进行词性的标注,并只保留名词、专有名词、动词、形容词和副词;使用哈工大停词表对词性保留后的各个词语集合分别进行处理,删除其中对问诊语句语义没有影响的语气词等停用词,实施者可自行对停用词进行定义删除,并对进行删除处理后的词语集合进行词语去重处理,将处理后的词语记为问诊词语,并对各个问诊词语分别进行UTF-8编码,分别得到各种疾病的每个问诊文本的问诊词语数据集合A、问诊语句数据集合B。需要说明的是,所述分词过程、词语集合去重处理以及 UTF-8编码过程均可通过现有技术实现,具体方法本实施例不做限制,不在本实施例保护范围内,在此不做相关阐述。
比如第i种疾病的第j个问诊数据对应的问诊文本的问诊词语数据集合、问诊语句数据集合/>,其中/>为Ai,j中的第L个问诊词语,用于表征该问诊文本中的第L个问诊词语对应的编码数据,/>为Bi,j中的第V个问诊语句,用于表征问诊文本的第V个问诊语句中的所有问诊词语对应的编码数据组成的集合。
至此,即可通过本实施例上述方法获取医疗大健康相关的问诊数据信息,获取问诊词语数据集合以及问诊语句数据集合。
步骤S002:构建各问诊词语的问诊文本疾病代表度,并计算各问诊词语的关键词综合权重。
问诊语句数据集合A包含疾病的问诊数据中所有问诊词汇的编码数据,对于某一疾病的问诊文本的关键词,该关键词需要能够反映该疾病的病症特征,并且能够与其余种类疾病的病症特征进行区分,由于获取的问诊文本为疾病的症状描述信息,而用于描述同一疾病的症状的词汇之间通常存在较大的相关性,因此问诊文本的关键词应与该问诊文本中其余问诊词语之间具有较大的相关性,同一疾病的不同问诊文本对应的关键词之间也应具有较大的相似性,并且不同疾病的问诊文本对应的关键词之间应具有一定程度的差异性。
具体的,计算各个问诊词语的问诊文本关联度wl,以问诊词语数据集合Ai,j中的第l个问诊词语为例,其文本关联度wl的计算方法如下所示:
将问诊词语数据集合Ai,j作为问诊词图中的节点集合,将问诊词语数据集合中各问诊词语作为节点,并根据同一局部窗口大小下的共现关系(在同一局部窗口中问诊词汇是否同时出现),构建问诊词图,其中局部窗口指的是以各个节点对应的问诊词语为中心的(2×N+1)大小的窗口,其中N取经验值为1,Ai,j表示问诊词语数据集合,也即问诊词图的节点集合,Ri,j表示问诊词语之间边的集合,也即问诊词图的边集合。对于同一个问诊语句中的第l个和第/>个问诊词语/>、/>,这两个问诊词语在该问诊语句中的位置分别为/>、/>,也即本实施例中位置/>、/>分别为在问诊语句中问诊词语/>、/>对应的位置序号,若成立,则表示问诊词语/>与/>在问诊词图中存在边,否则不存在边。根据本实施例所述方法获取所有问诊词语之间边的集合,作为问诊词图的边集合。
使用K-Core算法获取问诊词图的K-Core子图,记为问诊词K-Core子图GMi,j,如图2所示,图2中的节点表示问诊词语,各个节点从外到内依次处于第1、2、3层级,也即图2中的1-Core、2-Core、3-Core,其中K为预设层级数,K-Core算法中的参数K取经验值为3,实施者也可根据实际情况自行设定。每个问诊词语都分布在问诊词K-Core子图GMi,j的各个层级中,问诊词语所处的层级越大,表明该问诊词语在问诊词图Gi,j中越处于核心的位置,说明问诊词语数据集合Ai,j中与该问诊词语具有联系的问诊词语之间的个数越多,即该问诊词语与问诊词语数据集合Ai,j中的问诊词语之间的相关性越大,则该问诊词语成为该问诊词语数据集合Ai,j对应的问诊文本的关键词的可能性越大。得到问诊词语数据集合Ai,j中第l个问诊词语/>的问诊词语关联等级/>,表达式具体为:
;
上式中:、/>分别表示问诊词语数据集合Ai,j中第l个、第/>个问诊词语;表示问诊词语/>与/>相连的边在问诊词K-Core子图GMi,j中所占的层级K值。与问诊词语/>共同出现的问诊词语的种类越多,说明问诊词语数据集合Ai,j中与该问诊词语具有相关性的问诊词语的个数越多,则/>的值越大,说明该问诊词语与其所在的问诊文本的相关性越强。比如在抑郁症的问诊文本中,由于抑郁症患者经常会出现睡眠障碍、心情低落、食欲减退或暴增,因此心情、睡眠、食欲等问诊词语会在多个症状描述语句中频繁出现,即这些问诊词语与其余问诊词语之间的相关性越强。
其次,获取各个问诊词语在其所在的问诊文本的分布情况,以问诊词语数据集合Ai,j中的第l个问诊词语为例,分别统计在问诊语句数据集合Bi,j的各个问诊语句中,以问诊词语/>为中心的窗口内各问诊词语的出现次数p,得到问诊词语/>的分布向量:
;
在向量中:pl,L表示以问诊词语/>为中心的局域窗口内第L个问诊词语的出现次数;L表示问诊词语数据集合Ai,j中问诊词语的个数。需要说明的是,对于问诊词语的局域窗口大小的设定,实施者可根据实际情况自行决定,本实施例中设定为21×1。
重复本实施例上述方法,获取各问诊词语的分布向量。进一步的,本实施例将对问诊词语之间的关联性进行检测,构建局部关联性指标,并根据问诊词语之间的局部关联性获取各问诊词语的文本局部词语关联系数,以问诊词语数据集合Ai,j中的第l个问诊词语为例,所述局部关联性以及文本局部词语关联系数表达式具体为:
;
;
上式中:为问诊词语/>、/>之间的局部关联性,即用来判断问诊词语/>、/>之间是否具有局部关联性。/>、/>分别表示问诊词语数据集合Ai,j中的第l个和第/>个问诊词语;/>表示问诊词语分布向量/>中的第/>个分量的值,若/>的值为0,说明问诊词语/>、/>在问诊词语/>的所有局部窗口中不会同时出现,表示这两个问诊词语之间的局部关联性为零。
表示问诊词语/>的文本局部词语关联系数;L表示问诊词语数据集合Ai,j中问诊词语的个数;ω1表示局部关联权重系数,用来提高问诊词语之间的局部关联程度,这是因为若两个问诊词语之间局部关联性为1,则这两个问诊词语之间一定具有语义关联性,反之不成立,其中ω1取经验值为0.8,实施者亦可自行设定。同时,与问诊词语/>具有局部关联性的问诊词语的个数越多,即/>的值越大,并且共同出现的次数越多,即/>的值越大,表示该问诊词语与其所在问诊文本中其余问诊词语之间的关联程度越强,则/>的值越大,体现该问诊词语与其所在的问诊文本的关联性越强。
然后,本实施例根据问诊语句中各问诊词语之间的语义关系,构建词句匹配因子以及文本语义关联系数,表达式分别为:
;
;
上式中:表示词句匹配因子,即判断问诊语句/>中是否包含问诊词语/>,用来判问诊词语/>、/>之间是否具有语义关联性。/>表示问诊词语所在的问诊语句;c表示问诊语句/>中的问诊词语;/>表示使用ED编辑距离(Edit Distance)对问诊词语/>、c这两个词语的编码结果的计算, />的值为0说明问诊词语/>、c完全相同,其中编辑距离为公知技术,不再赘述。若问诊词语句中至少存在一个与问诊词语/>相同的问诊词语,则说明问诊词语/>与问诊语句匹配成功,也即词句匹配因子值为1,否则词句匹配因子值为零。
表示问诊词语/>的文本语义关联系数;/>表示问诊语句数据集合Bi,j中包含问诊词语/>的问诊语句的个数;/>表示问诊词语/>所在的第v个问诊语句;ω2表示语义关联权重系数,用来降低问诊词语之间的局部关联性程度,其中ω2取经验值为0.2,在本发明中需要满足ω1+ω2=1。则与问诊词语/>具有语义关联性的问诊词语的个数越多,并且出现在同一问诊语句的次数越多,表示该问诊词语与其所在问诊文本中其余问诊词语之间的语义关联性越强,说明该问诊词语与其所在的问诊文本的关联性也越强。
根据各问诊词语的关联等级、文本局部词语关联系数以及文本语义关联系数对各问诊词语的问诊文本之间的关联程度进行分析,构建问诊文本关联度,对各问诊词语的问诊文本之间的关联程度进行表征,所述问诊文本关联度表达式具体为:
;
式中,表示问诊词语/>的问诊文本关联度;/>表示问诊词语/>的问诊词语关联等级。/>的值越大,表示问诊词语/>与其所在的问诊文本的相关性越大,则/>的值越大;同时,/>以及/>的值越大,表示该问诊词语与其所在的问诊文本的关联性越强,则/>的值也越大。/>的值越大,表示问诊词语/>的问诊文本关联度越大,说明问诊词语/>越能代表其所在的问诊文本,则该问诊词语成为该问诊文本的关键词的可能性越大。
进一步的,本实施例将对问诊语句之间的相似度进行分析,进而得到各问诊词语与疾病之间的相关性,构建问诊文本疾病相关性,表达式具体为:
;
上式中:表示问诊词语/>的问诊文本疾病相关性;/>表示决策函数,/>用来判断问诊语句/>中是否包含问诊词语/>,决策函数取值具体为:若问诊语句/>中包含问诊词语/>,则/>=1;若问诊语句/>中不包含问诊词语,则/>=0;/>表示第j种疾病的所有问诊文本中除问诊词语/>所在问诊语句外的第/>个问诊语句;/>表示第j种疾病中所有问诊文本中除问诊词语/>所在问诊语句外其余问诊语句的个数。
问诊文本疾病相关性表达式中,越大,则问诊词语/>与第j种疾病中其余的问诊语句的相似度越高,表示问诊词语/>与第j种疾病中的其余问诊文本具有较大的相关性,即/>的值越大。
最后,本实施例根据各问诊词语的问诊文本关联度以及问诊文本疾病相关性对各问诊词语的疾病代表程度进行分析,构建问诊文本疾病代表度,以问诊词语数据集合Ai,j中的第l个问诊词语为例,其问诊文本疾病代表度/>的计算方法为:
;
式中,表示问诊词语/>的问诊文本关联度;/>表示问诊词语/>的问诊文本疾病相关性;/>表示问诊词语/>在第j种疾病的所有问诊文本中出现的次数;/>的值越大,表示问诊词语/>的问诊文本关联度越大,说明问诊词语/>越能代表其所在的问诊文本,即/>的值越大;/>的值越大,表示问诊词语/>第j种疾病的问诊文本中出现的越频繁,说明问诊词语/>对该疾病的症状描述中的作用越大,即的值越大。而/>的值越大,表示问诊词语/>成为该问诊文本的关键词的可能性越大。
进一步的,根据每个问诊文本中的各个问诊词语的问诊文本疾病代表度DS以及词性,得到各个问诊词语的关键词综合权重Q,以问诊词语数据集合Ai,j中的第l个问诊词语为例,其关键词综合权重/>的计算方法为:
;
上式中:表示问诊词语/>的问诊文本疾病代表度;/>表示选问诊词语/>的词性权重,其中名词、动词、形容词的词性权重W取经验值为1,剩余词性的词性权重W取经验值为0.1,如虚词、副词等,这是因为中文语言表达的特点是名词和动词通常蕴含的语义信息较多,而虚词、副词或者其他词蕴含的语义信息较少;norm( )为归一化函数,表示对( )中的值进行归一化处理。
至此,根据本实施例上述方法获取各问诊词语的关键词综合权重,用于对各问诊词语作为关键词的可能性进行分析。
步骤S003:提取关键词集合,结合各疾病的关键词集合对数据进行快速检索。
重复本实施例上述方法,获取各问诊词语的关键词综合权重,并从大到小进行排序,将排序前N的关键词综合权重对应的问诊词语作为问诊词语数据集合的关键词。然后获取疾病的各问诊词语数据集合的关键词,将疾病的所有问诊词语数据集合的关键词作为疾病的关键词集合。其中,N的设定实施者可自行设置,本实施例中N=10。
重复本实施例上述方法,获取各疾病的关键词集合,作为各疾病数据快速检索的基础,根据各疾病的关键词集合,可实现医疗健康数据的快速检索,提高医疗健康数据检索效率,降低相关操作人员不必要的时间及精力浪费。
至此,通过本发明实施例上述方法可对医疗大健康数据进行采集并分析,可准确获取各疾病问诊文本对应的关键词,实现医疗健康数据的快速检索。针对传统的TextRank算法中初始权重设置相同而导致最终关键词提取效果不好的问题,本实施例主要基于疾病的各问诊数据中的问诊词语之间的相关性以及问诊词语在问诊文本中的分布情况,得到各问诊词语的问诊文本关联度,结合各问诊语句的相似度构建问诊文本疾病代表度,并结合问诊词语词性的不同得到各问诊词语的关键词综合权重,提高了不同的问诊词语对问诊文本不同影响程度的差异性,提高了问诊数据关键词的准确性,根据所提取的关键词实现医疗数据的快速检索,提高了数据检索效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.基于NLP技术的医疗大健康数据采集分析方法,其特征在于,该方法包括以下步骤:
采集多种疾病的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,对各问诊词语进行编码获取疾病的各问诊词语数据集合、问诊语句数据集合;
对于每种疾病的各问诊词语数据集合、问诊语句数据集合,根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图;结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级;根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性;根据所述局部关联性得到问诊词语的文本局部词语关联系数;获取各问诊词语之间的词句匹配因子,根据所述词句匹配因子得到各问诊词语的文本语义关联系数;将各问诊词语的关联等级、文本局部词语关联系数以及文本语义关联系数的乘积作为各问诊词语的问诊文本关联度;构建各问诊词语的问诊文本疾病相关性;根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度;将问诊文本疾病代表度与预设词性权重乘积的归一化值作为问诊词语的关键词综合权重;
根据关键词综合权重获取疾病的关键词集合,结合各疾病的关键词集合对医疗健康数据进行快速检索。
2.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图,包括:
将问诊词语数据集合中各问诊词语作为节点,问诊词语数据集合作为问诊词图中的节点集合;
当两个问诊词语在问诊语句中的位置序号差异小于预设阈值时,则两个问诊词语之间存在边,连接存在边的两个问诊词语,将所有问诊词语之间边的集合作为问诊词图的边集合;
问诊词图中各节点从外到内依次处于第1、2、3、…、K层级,其中K为预设层级数。
3.如权利要求2所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级包括:将与问诊词语相连的各边在问诊词图中所占层级K值的最大值作为问诊词语的关联等级。
4.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性包括:
以各问诊词语为中心获取所在问诊语句的局域窗口,对于局域窗口内的各问诊词语,若问诊词语在所述局域窗口内出现次数为零,则问诊词语之间局部关联性为零,否则,问诊词语之间局部关联性为1。
5.如权利要求4所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据所述局部关联性得到问诊词语的文本局部词语关联系数包括:
计算所有问诊词语在局域窗口中出现次数平方和值的开方,并计算所有问诊词语局部关联性的均值,将所述开方与所述均值乘积的结果作为问诊词语的文本局部词语关联系数。
6.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述获取各问诊词语之间的词句匹配因子,包括:
对于各问诊词语,若问诊词语所在问诊语句中存在其他问诊词语使得问诊词语与所述其他问诊词语之间的编辑距离为零,则问诊词语与所述其他问诊词语之间的匹配因子为1,否则为零。
7.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据所述词句匹配因子得到各问诊词语的文本语义关联系数,表达式为:
将各问诊词语作为待分析问诊词语,计算各包含待分析问诊词语的问诊语句中待分析问诊词语与其他所有问诊词语之间匹配因子的均值,计算所有包含待分析问诊词语的问诊语句的所述均值的均值,作为各问诊词语的文本语义关联系数。
8.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述构建各问诊词语的问诊文本疾病相关性,包括:
构建决策函数,当问诊语句中包含问诊词语时,则决策函数值为1,否则决策函数值为零,根据决策函数获取问诊词语的问诊文本疾病相关度,表达式为:
;
式中,为第i种疾病的第j个问诊词语数据集合中第l个问诊词语,/>表示问诊词语/>的问诊文本疾病相关性;h( )表示决策函数;/>表示第j种疾病的所有问诊文本中除问诊词语/>所在问诊语句外的第/>个问诊语句;/>表示第j种疾病中所有问诊文本中除问诊词语/>所在问诊语句外其余问诊语句的个数。
9.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度,包括:
统计问诊词语在疾病的所有问诊文本中出现的次数,获取以所述次数为指数自然常数为底数的指数函数的计算结果,将问诊文本关联度、问诊文本疾病相关性以及所述计算结果的乘积作为问诊词语的问诊文本疾病代表度。
10.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据关键词综合权重获取疾病的关键词集合包括:
对于疾病的各问诊词语数据集合,将问诊词语数据集合中各问诊数据的关键词综合权重从大到小进行排序,将排序前N的关键词综合权重对应的问诊词语作为关键词,将疾病的所有问诊词语数据集合的关键词作为疾病的关键词集合,其中N为预设关键词数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311210217.0A CN116936135B (zh) | 2023-09-19 | 2023-09-19 | 基于nlp技术的医疗大健康数据采集分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311210217.0A CN116936135B (zh) | 2023-09-19 | 2023-09-19 | 基于nlp技术的医疗大健康数据采集分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116936135A CN116936135A (zh) | 2023-10-24 |
CN116936135B true CN116936135B (zh) | 2023-11-24 |
Family
ID=88388291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311210217.0A Active CN116936135B (zh) | 2023-09-19 | 2023-09-19 | 基于nlp技术的医疗大健康数据采集分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116936135B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272353B (zh) * | 2023-11-22 | 2024-01-30 | 陕西昕晟链云信息科技有限公司 | 一种数据加密存储保护系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN114282528A (zh) * | 2021-08-20 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN115438662A (zh) * | 2022-08-23 | 2022-12-06 | 杨越 | 一种基于大数据的权重自适应方法及大数据系统 |
CN116384380A (zh) * | 2022-09-07 | 2023-07-04 | 珠海市新德汇信息技术有限公司 | 一种基于语义分析的案件关键词汇提取与标注方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
US10853395B2 (en) * | 2018-09-24 | 2020-12-01 | Salesforce.Com, Inc. | Extraction of keywords for generating multiple search queries |
-
2023
- 2023-09-19 CN CN202311210217.0A patent/CN116936135B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN114282528A (zh) * | 2021-08-20 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN115438662A (zh) * | 2022-08-23 | 2022-12-06 | 杨越 | 一种基于大数据的权重自适应方法及大数据系统 |
CN116384380A (zh) * | 2022-09-07 | 2023-07-04 | 珠海市新德汇信息技术有限公司 | 一种基于语义分析的案件关键词汇提取与标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116936135A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN116936135B (zh) | 基于nlp技术的医疗大健康数据采集分析方法 | |
CN112131863A (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN109062895B (zh) | 一种智能语义处理方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN112307190B (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN113988053A (zh) | 一种热词提取方法及装置 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN117195878B (zh) | 基于人工智能的自然语言数据处理方法 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
WO2023124837A1 (zh) | 问诊处理方法、装置、设备及存储介质 | |
CN116414971A (zh) | 一种多特征融合的关键词权重计算方法和关键词抽取方法 | |
CN112948527B (zh) | 一种改进的TextRank关键词提取方法及装置 | |
CN111046665B (zh) | 一种领域术语语义漂移抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |