CN115544278B - 一种医学量表语义关联网络构建方法及系统 - Google Patents

一种医学量表语义关联网络构建方法及系统 Download PDF

Info

Publication number
CN115544278B
CN115544278B CN202211546988.2A CN202211546988A CN115544278B CN 115544278 B CN115544278 B CN 115544278B CN 202211546988 A CN202211546988 A CN 202211546988A CN 115544278 B CN115544278 B CN 115544278B
Authority
CN
China
Prior art keywords
semantic association
scale
label
semantic
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211546988.2A
Other languages
English (en)
Other versions
CN115544278A (zh
Inventor
孙海霞
钱庆
郝洁
李姣
沈柳
郭臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202211546988.2A priority Critical patent/CN115544278B/zh
Publication of CN115544278A publication Critical patent/CN115544278A/zh
Application granted granted Critical
Publication of CN115544278B publication Critical patent/CN115544278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医学量表语义关联网络构建方法及系统,涉及大数据资源共享服务技术领域。包括以下步骤:定义医学量表内容框架,并将实例文档映射到医学量表内容框架中,得到初始医学量表;提取初始医学量表中的文本,生成测量概念集合;利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;根据第一、二、三语义关联标签赋值结果,完成量表语义关联网络可视化。本发明提高了医学量表资源知识服务效率和智能化水平。

Description

一种医学量表语义关联网络构建方法及系统
技术领域
本发明涉及大数据资源共享服务技术领域,更具体的说是涉及一种医学量表语义关联网络构建方法及系统。
背景技术
医学量表常被用于心理行为评估、认知功能筛查、临床疾病诊断、健康结局评估等医学科研与实践活动。目前医学量表出版、发布、服务主要基于文档外部特征的元数据描述、存储与管理技术,缺乏对量表内容结构的全面揭示,没有在医学量表资源之间、医学量表资源与其他资源(如期刊论文、实验报告、临床试验数据等)间建立语义关联。这使得面向量表全文的细粒度知识获取和关联发现主要依赖人工浏览方式进行,极大耗费了用户的时间和精力,限制了海量医学量表资源价值的发挥。
发明内容
有鉴于此,本发明提供了一种医学量表语义关联网络构建方法及系统,用于在内容层面建立量表资源与量表资源之间的语义关联,拓展医学量表资源语义融合深度和广度,提高医学量表资源知识服务效率和智能化水平。
为了实现上述目的,本发明采用如下技术方案:
一种医学量表语义关联网络构建方法,包括以下步骤:
获取医学量表参数,基于医学量表参数定义医学量表内容框架,并将实例文档映射到医学量表内容框架中,得到初始医学量表;
提取初始医学量表中的文本,生成测量概念集合;
利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;
提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;
结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
可选的,定义医学量表内容包括:内容标签、内容标签的属性、内容标签间的关系、形成标准量表内容标签库。
可选的,将实例文档映射到医学量表内容框架中,具体包括:
逐行扫描实例文档数据,采用基于规则的方法提取量表原始内容结构标签;
通过Jaccard相似系数字符串匹配算法计算原始内容结构标签与标准标签的相似度,将大于阈值的标准标签通过表单方式推荐给用户;
用户通过表单进行确认或者修改,如果没有语义相同的标准标签,在标准量表内容标签库中新增标准标签。
可选的,生成测量概念集合具体为:提取医学量表的领域标签和维度标签对应的文本,运用领域文本分词算法对提取的原始文本进行分词,分词结果即为量表自由词汇;通过术语标准化算法,将自由词汇映射至指定医学术语系统中的概念;对映射获得的概念进行去重,形成测量概念集合。
可选的,利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值,具体包括:
对于任意两个领域或维度项a和b,获得自由词汇集合分别为Ta和Tb,测量概念集合分别为概念集合Ca和概念集合Cb,语义关联计算方法如下:
若概念集合Ca和概念集合Cb中都不为空,则执行下述步骤:
通过字符串精确匹配算法判断概念集合Ca和概念集合Cb是否有相同测量概念:如果没有,进入下一步;如果有,进一步判断是否完全相同,完全相同时,a和b的语义关联标签赋值“等同测量概念”,否则赋值“有相同测量概念”;
判断概念集合Ca和概念集合Cb中是否有测量概念在指定医学术语系统中处于同一层级关系路径中,且路径长度小于指定阈值;如果有,则a和b的语义关联标签赋值“广义相关”;否则进入下一步;
运用字符串匹配算法计算概念集合Ca和概念集合Cb中测量概念所有术语对的相似度;如果任一术语对相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”。
可选的,若概念集合Ca和概念集合Cb中都为空,则执行下述步骤:将Ta和Tb转化为词向量空间,通过余弦向量空间计算Ta和Tb的相似度;如果相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”。
可选的,结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值,具体规则如下:
如果两个问题项之间的语义关联标签取值“相同”或“相似”,则其对应的条目项和维度项之间的语义关联标签取值“问题相关”;
如果两个条目项之间的语义关联标签取值“相同”或“相似”,则其对应的维度项之间的语义关联标签取值“条目相关”;
如果两个维度项或领域项之间的语义关联标签取值“等同测量概念”或“有相同测量概念”,则其组成的条目项、问题项之间的语义关联标签取值“测量概念相关”。
一种医学量表语义关联网络构建系统,包括量表文档获取模块,量表结构标签定义模块,量表内容结构映射模块,量表量测概念标注模块,量表语义关联分类计算模块,量表语义关联网络可视化模块;
其中,量表文档获取模块,用于获取实例文档;
量表结构标签定义模块,用于定义医学量表内容框架;
量表内容结构映射模块,用于将实例文档映射到医学量表内容框架中,得到初始医学量表;
量表量测概念标注模块,用于提取初始医学量表中的文本,生成测量概念集合;
量表语义关联分类计算模块,用于利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
量表语义关联网络可视化模块,用于根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种医学量表语义关联网络构建方法及系统,可以实现医学量表文档的数据化、结构化、网络化展示,可以在不同主题、应用、来源医学量表间建立多种关系类型的语义关联,形成语义丰富的医学量表知识图谱。这有助于大幅度提高医学量表的智能化服务能力:方便计算机理解医学量表,提供基于全文和语义的医学量表智能检索、问答、推荐等服务,提高医学量表在新型医学量表编制、临床决策支持、公共卫生监测等应用中智能化水平,减轻医生、患者等用户量表知识获取时间、精力等成本。
进一步地,还可以基于本发明在医学量表和医学期刊论文、实验报告、临床试验数据等其他医学数据资源间建立关联,实现多类型医学数据资源统一语义网络的构建,在更大范围内高效地提供医学量表知识关联和发现服务。
因此,本发明有助于实现多来源海量异构医学量表资源的高效与深度利用,更大程度发挥医学量表在医学科学研究和实践中的价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的流程示意图;
图2为本发明的结构示意图;
图3为本发明的量表语义关联网络可视化网络。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种医学量表语义关联网络构建方法,如图1所示,包括以下步骤:
S1:获取医学量表参数,基于医学量表参数定义医学量表内容框架,并将实例文档映射到医学量表内容框架中,得到初始医学量表;
S2:提取初始医学量表中的文本,生成测量概念集合;
S3:利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;
S4:提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;
S5:结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
S6:根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
进一步的,在S1中具体包括:量表实例文档结构统一化。针对每一类医学量表,依据其内容组成,定义医学量表内容框架:包括但不限于内容标签(如领域、维度、条目、问题、答案等)、内容标签的属性、内容标签间的关系,形成标准量表内容标签库;获取量表实例文档,将量表原始内容结构标签映射至标准内容结构标签(下简称标准标签)。映射方法如下:1)逐行扫描量表实例文档数据,采用基于如表1规则的方法提取量表原始内容结构标签;2)通过公开的Jaccard相似系数字符串匹配算法计算原始内容结构标签与标准标签的相似度,将大于阈值的标准标签通过表单方式推荐给用户;3)用户通过表单进行确认或者修改。如果没有语义相同的标准标签,在标准量表内容标签库中新增标准标签。
进一步的,在S2中具体包括:量表测量概念标注。提取量表“领域”标签和“维度”标签对应的文本,运用公开的领域文本分词算法对提取的原始文本进行分词,分词结果即为量表自由词汇;运用公开的术语标准化算法,将自由词汇映射至指定医学术语系统中的概念;对映射获得的概念进行去重,形成测量概念集合。
进一步的,在S3中具体包括:表领域、维度项语义关联计算。对于任意两个领域或维度项a和b,假设其获得自由词汇集合分别为Ta和Tb,测量概念集合分别为Ca和Cb。其语义关联计算方法如下:
S3.1:判断Ca和Cb中是否都有值,如果是,依次执行S3.1.1-S3.1.3;否则执行S3.2;
S3.1.1:通过字符串精确匹配算法判断Ca和Cb是否有相同测量概念:如果没有,进入S3.1.2;如果有,进一步判断是否完全相同,完全相同时,a和b的语义关联标签赋值“等同测量概念”,否则赋值“有相同测量概念”
S3.1.2:判断Ca和Cb中是否有测量概念在指定医学术语系统中处于同一层级关系路径中,且路径长度小于指定阈值。如果有,则a和b的语义关联标签赋值“广义相关”;否则进入S3.1.3;
S3.1.3:运用字符串匹配算法计算Ca和Cb中测量概念所有术语对的相似度。如果任一术语对相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”;
S3.2:将Ta和Tb转化为词向量空间,通过简单余弦向量空间计算Ta和Tb的相似度。如果相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”。
进一步的,在S4中具体包括:条目、问题语义关联计算。提取量表条目、问题标签的文本取值,运用公开的短文本相似度算法计算同类内容标签项的相似度。如果相似度为1,则相应的标签项之间的语义关联标签赋值“相同”;如果相似度为介于指定阈值和1之间,则相应的标签项之间的语义关联标签赋值“相似”。
其中,阈值一般是根据人工经验设置的:S3.1.2的阈值取值介于1和两个概念所在关系路径的最大层级数之间;其他阈值取值介于0-1之间。
进一步的,在S5中具体包括:相关关联推导,其中,相关关联推导包括但不限于“问题相关”,“条目相关”,“测量概念相关”。在S3和S4语义关联计算结果基础上,运用如下简单自底向上的推导规则,进行相关关联推导和语义关联标签赋值。
规则1:如果两个问题项之间的语义关联标签取值“相同”或“相似”,则其对应的条目项和维度项之间的语义关联标签取值“问题相关”;
规则2:如果两个条目项之间的语义关联标签取值“相同”或“相似”,则其对应的维度项之间的语义关联标签取值“条目相关”;
规则3:如果两个维度项或领域项之间的语义关联标签取值“等同测量概念”或“有相同测量概念”,则其组成的条目项、问题项之间的语义关联标签取值“测量概念相关”;
进一步的,在S6中具体包括:量表语义关联网络可视化。根据S1定义的内容标签间语义关系(简称已定义关系),实现量表自身内容网络的构建;根据S3和S5语义关联计算结果,在不同量表之间建立以内容为节点,语义关联标签取值为边的量表语义关联网络。对于后者,为更好支持量表语义关系检索和发现,可以进一步地丰富网络中节点和边的取值类型。如:将节点的取值类型定义为“内容结构标签”+“原始文本取值”;将边的取值类型为“语义关联标签取值+关联线索(即测量概念)”。
与图1所示方法对应的,本发明还公开了一种医学量表语义关联网络构建系统用于对图1方法的实现,具体结构如图2所示,包括量表文档获取模块,量表结构标签定义模块,量表内容结构映射模块,量表量测概念标注模块,量表语义关联分类计算模块和量表语义关联网络可视化模块;
其中,量表文档获取模块,用于获取实例文档;
量表结构标签定义模块,用于定义医学量表内容框架;
量表内容结构映射模块,用于将实例文档映射到医学量表内容框架中,得到初始医学量表;
量表量测概念标注模块,用于提取初始医学量表中的文本,生成测量概念集合;
量表语义关联分类计算模块,用于利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
量表语义关联网络可视化模块,用于根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
进一步的,量表文档获取模块:用于导入半结构化和结构化格式的生活质量评定相关量表文档。如中文版的生活质量综合评定问卷(简称GQOL-74)、简明健康调查量表(简称SF-36)、世界卫生组织生存质量测定量表WHOQOL-100等。
进一步的,量表结构标签定义模块:用于通过表单方式将量表核心内容组成标准标签分别命名为“领域”、“维度”、“条目”、“问题”、“答案”,并定义上述标准标签之间蕴含的语义关系,如:1)“由…组成”关系“consist of”,关系实例(“领域”,consist of,“维度”)表示领域由维度组成;2)“呈现形式为”关系“item format”,关系实例(“条目”,item format,“问题”)表示测量条目的呈现形式为问题;3)“是…的答案”关系“answers of”,关系实例(“答案”,answers of,“条目”)表示“答案”的取值是测量条目所有可能的答案。
进一步的,量表内容结构映射模块:用于运用上述标签映射方法,在原始量表内容结构标签和已定义的标准标签间建立映射关系。如果已构建的标准标签库中没有合适的映射标签,跳转至第一步,在量表内容结构定义模块中新增所需要的标签。此步骤的目标是实现量表实例文档结构标签的统一化。表1是量表GQOL-74、SF-36和WHOQOL-100的核心内容结构映射示例。
表1部分生活质量评定量表文档核心内容结构映射示例
Figure 199932DEST_PATH_IMAGE001
进一步的,量表量测概念标注模块:用于提取所有生活质量评定量表“领域”和“维度”标签对应的原始文本;选用中文医学术语仓储,通过正向最大匹配算法进行分词,获得自由词汇集合;通过公开的“最大序列长度算法+BERT”术语归一化算法,将自由词汇映射至中文临床医学术语系统中的概念,并进行去重,获得测量概念。表2是量表GQOL-74和WHOQOL-100的部分“领域”和“维度”标签对应的原始文本的测量概念标注结果。
表2生活质量评定量表测量概念标注结果示例
原始文本 来源量表 分词结果/自由词汇 测量概念
心理功能 GQOL-74 心理功能 心理功能
睡眠与精力 GQOL-74 睡眠;精力 睡眠;精力
躯体不适感 GQOL-74 躯体;不适感 躯体;不适感
人际交往能力 GQOL-74 人际交往 与他人交往
神经紧张度 GQOL-74 精神紧张;度 神经紧张
负性情感 GQOL-74 负性情感 负性情感
疼痛与不适 WHOQOL-100 疼痛;不适 疼痛;不适感
精力与疲倦 WHOQOL-100 精力;疲倦 精力;疲倦
身材与相貌 WHOQOL-100 身材;相貌 个人外观
社会关系 WHOQOL-100 社会关系 与他人交往
进一步的,量表语义关联分类计算模块:用于运用上述“领域、维度语义关联计算”方法,获得不同量表的领域、维度项之间的语义关联赋值;运用上述“条目、问题语义关联计算”方法,获得不同量表的条目、问题项之间的语义关联赋值;运用上述“相关关联推导”获得不同量表的领域、维度、条目、问题项之间的相关关联。表3是GQOL-74和 WHOQOL-100部分内容项语义关联计算结果及说明。
表3 GQOL-74和 WHOQOL-100部分语义关联计算结果及说明
Figure 382652DEST_PATH_IMAGE002
进一步的,量表语义关联网络可视化模块:用于综合量表结构标签定义模块的已定义关系和量表语义关联分类计算模块的计算结果,对生活质量评定相关量表语义关联网络进行可视化。图3是综合部分已定义关系和表3所示的部分语义关联计算结果,生成的可视化量表语义关联网络。其中:节点取值类型定义为“内容结构标签+原始文本取值”;边的取值类型定义为“语义关联标签取值+关联线索(即测量概念)”。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种医学量表语义关联网络构建方法,其特征在于,包括以下步骤:
获取医学量表参数,基于医学量表参数定义医学量表内容框架,并将实例文档映射到医学量表内容框架中,得到初始医学量表;
提取初始医学量表中的文本,生成测量概念集合;
利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值,具体包括:
对于任意两个领域或维度项a和b,获得自由词汇集合分别为Ta和Tb,测量概念集合分别为概念集合Ca和概念集合Cb,语义关联计算方法如下:
若概念集合Ca和概念集合Cb中都不为空,则执行下述步骤:
通过字符串精确匹配算法判断概念集合Ca和概念集合Cb是否有相同测量概念:如果没有,进入下一步;如果有,进一步判断是否完全相同,完全相同时,a和b的语义关联标签赋值“等同测量概念”,否则赋值“有相同测量概念”;
判断概念集合Ca和概念集合Cb中是否有测量概念在指定医学术语系统中处于同一层级关系路径中,且路径长度小于指定阈值;如果有,则a和b的语义关联标签赋值“广义相关”;否则进入下一步;
运用字符串匹配算法计算概念集合Ca和概念集合Cb中测量概念所有术语对的相似度;如果任一术语对相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”;
若概念集合Ca和概念集合Cb中都为空,则执行下述步骤:将Ta和Tb转化为词向量空间,通过余弦向量空间计算Ta和Tb的相似度;如果相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”;
提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值,具体包括:
提取量表条目、问题标签的文本取值,运用公开的短文本相似度算法计算同类内容标签项的相似度;如果相似度为1,则相应的标签项之间的语义关联标签赋值“相同”;如果相似度为介于指定阈值和1之间,则相应的标签项之间的语义关联标签赋值“相似”;
结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
2.根据权利要求1所述的一种医学量表语义关联网络构建方法,其特征在于,定义医学量表内容包括:内容标签、内容标签的属性、内容标签间的关系、形成标准量表内容标签库。
3.根据权利要求1所述的一种医学量表语义关联网络构建方法,其特征在于,将实例文档映射到医学量表内容框架中,具体包括:
逐行扫描实例文档数据,采用基于规则的方法提取量表原始内容结构标签;
通过Jaccard相似系数字符串匹配算法计算原始内容结构标签与标准标签的相似度,将大于阈值的标准标签通过表单方式推荐给用户;
用户通过表单进行确认或者修改,如果没有语义相同的标准标签,在标准量表内容标签库中新增标准标签。
4.根据权利要求1所述的一种医学量表语义关联网络构建方法,其特征在于,生成测量概念集合具体为:提取医学量表的领域标签和维度标签对应的文本,运用领域文本分词算法对提取的原始文本进行分词,分词结果即为量表自由词汇;通过术语标准化算法,将自由词汇映射至指定医学术语系统中的概念;对映射获得的概念进行去重,形成测量概念集合。
5.根据权利要求1所述的一种医学量表语义关联网络构建方法,其特征在于,结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值,具体规则如下:
如果两个问题项之间的语义关联标签取值“相同”或“相似”,则其对应的条目项和维度项之间的语义关联标签取值“问题相关”;
如果两个条目项之间的语义关联标签取值“相同”或“相似”,则其对应的维度项之间的语义关联标签取值“条目相关”;
如果两个维度项或领域项之间的语义关联标签取值“等同测量概念”或“有相同测量概念”,则其组成的条目项、问题项之间的语义关联标签取值“测量概念相关”。
6.一种医学量表语义关联网络构建系统,其特征在于,包括量表文档获取模块,量表结构标签定义模块,量表内容结构映射模块,量表量测概念标注模块,量表语义关联分类计算模块,量表语义关联网络可视化模块;
其中,量表文档获取模块,用于获取实例文档;
量表结构标签定义模块,用于定义医学量表内容框架;
量表内容结构映射模块,用于将实例文档映射到医学量表内容框架中,得到初始医学量表;
量表量测概念标注模块,用于提取初始医学量表中的文本,生成测量概念集合;
量表语义关联分类计算模块,用于利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值;提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值;结合第一语义关联标签赋值、第二语义关联标签赋值,进行相关关联推导,获得第三语义关联标签赋值;
其中,利用医学量表领域、维度项语义对应的测量概念集合计算领域、维度项的第一语义关联标签赋值,具体包括:对于任意两个领域或维度项a和b,获得自由词汇集合分别为Ta和Tb,测量概念集合分别为概念集合Ca和概念集合Cb,语义关联计算方法如下:
若概念集合Ca和概念集合Cb中都不为空,则执行下述步骤:
通过字符串精确匹配算法判断概念集合Ca和概念集合Cb是否有相同测量概念:如果没有,进入下一步;如果有,进一步判断是否完全相同,完全相同时,a和b的语义关联标签赋值“等同测量概念”,否则赋值“有相同测量概念”;
判断概念集合Ca和概念集合Cb中是否有测量概念在指定医学术语系统中处于同一层级关系路径中,且路径长度小于指定阈值;如果有,则a和b的语义关联标签赋值“广义相关”;否则进入下一步;
运用字符串匹配算法计算概念集合Ca和概念集合Cb中测量概念所有术语对的相似度;如果任一术语对相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”;
若概念集合Ca和概念集合Cb中都为空,则执行下述步骤:将Ta和Tb转化为词向量空间,通过余弦向量空间计算Ta和Tb的相似度;如果相似度大于指定阈值,则a和b的语义关联标签赋值“相似测量概念”;
提取量表条目、问题标签的文本取值,运用公开的短文本相似度算法计算同类内容标签项的相似度;如果相似度为1,则相应的标签项之间的语义关联标签赋值“相同”;如果相似度为介于指定阈值和1之间,则相应的标签项之间的语义关联标签赋值“相似”;
提取医学量表条目、问题标签的文本取值,计算同类内容的第二语义关联标签赋值,具体包括:
提取量表条目、问题标签的文本取值,运用公开的短文本相似度算法计算同类内容标签项的相似度;如果相似度为1,则相应的标签项之间的语义关联标签赋值“相同”;如果相似度为介于指定阈值和1之间,则相应的标签项之间的语义关联标签赋值“相似”;
量表语义关联网络可视化模块,用于根据第一语义关联标签赋值结果、第二语义关联标签赋值结果、第三语义关联标签赋值结果,完成量表语义关联网络可视化。
CN202211546988.2A 2022-12-05 2022-12-05 一种医学量表语义关联网络构建方法及系统 Active CN115544278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211546988.2A CN115544278B (zh) 2022-12-05 2022-12-05 一种医学量表语义关联网络构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211546988.2A CN115544278B (zh) 2022-12-05 2022-12-05 一种医学量表语义关联网络构建方法及系统

Publications (2)

Publication Number Publication Date
CN115544278A CN115544278A (zh) 2022-12-30
CN115544278B true CN115544278B (zh) 2023-03-28

Family

ID=84722233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211546988.2A Active CN115544278B (zh) 2022-12-05 2022-12-05 一种医学量表语义关联网络构建方法及系统

Country Status (1)

Country Link
CN (1) CN115544278B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080751A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于通用模型的医学标准术语管理系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170840B (zh) * 2018-01-15 2019-11-19 浙江大学 一种面向文本的领域分类关系自动学习方法
EP3753025A1 (en) * 2018-02-16 2020-12-23 Google LLC Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model
CN110991168B (zh) * 2019-12-05 2024-05-17 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质
CN114328975A (zh) * 2022-01-06 2022-04-12 北京迈迪培尔信息技术有限公司 一种药学知识图谱构建方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080751A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于通用模型的医学标准术语管理系统及方法

Also Published As

Publication number Publication date
CN115544278A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
Dhelim et al. Personality-aware product recommendation system based on user interests mining and metapath discovery
Dhelim et al. Mining user interest based on personality-aware hybrid filtering in social networks
Rekik et al. Assessing web sites quality: A systematic literature review by text and association rules mining
Wei et al. A hybrid approach for movie recommendation via tags and ratings
Al-Shamri User profiling approaches for demographic recommender systems
Zhao et al. Analysis and visualization of citation networks
Cosco et al. Lay perspectives of successful ageing: a systematic review and meta-ethnography
Hashimi et al. Selection criteria for text mining approaches
Marrese-Taylor et al. A novel deterministic approach for aspect-based opinion mining in tourism products reviews
Luo et al. Building association link network for semantic link on web resources
Kettinger et al. The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge
Wong Spatial indices of segregation
Cichy et al. A double-edged sword: Race, daily family support exchanges, and daily well-being
Shah et al. Listening to the patient voice: using a sentic computing model to evaluate physicians’ healthcare service quality for strategic planning in hospitals
Dörpinghaus et al. From social networks to knowledge graphs: A plea for interdisciplinary approaches
Papakyriakopoulos et al. Beyond algorithmic bias: A socio-computational interrogation of the Google search by image algorithm
Wang et al. Disentangling the factors driving electronic word-of-mouth use through a configurational approach
Molina Beltrán et al. Improving the affective analysis in texts: automatic method to detect affective intensity in lexicons based on Plutchik’s wheel of emotions
Chen et al. Doctors ranking through heterogeneous information: The new score functions considering patients’ emotional intensity
Kharrat et al. Recommendation system based contextual analysis of Facebook comment
CN118121198A (zh) 一种基于询证心理学和知识图谱的心理分析方法
CN115544278B (zh) 一种医学量表语义关联网络构建方法及系统
Montoro et al. An ANEW based fuzzy sentiment analysis model
Nunes et al. Chronic pain and language: A topic modelling approach to personal pain descriptions
Zhang et al. Emotion detection in online social network based on multi-label learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant