CN114676260A - 基于知识图谱的人体骨骼运动康复模型构建方法 - Google Patents

基于知识图谱的人体骨骼运动康复模型构建方法 Download PDF

Info

Publication number
CN114676260A
CN114676260A CN202111538768.0A CN202111538768A CN114676260A CN 114676260 A CN114676260 A CN 114676260A CN 202111538768 A CN202111538768 A CN 202111538768A CN 114676260 A CN114676260 A CN 114676260A
Authority
CN
China
Prior art keywords
entity
model
entities
data
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111538768.0A
Other languages
English (en)
Inventor
张萌
李峻
杨然
胡凯翔
张涛
陈华江
徐辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Boling Robot Technology Co ltd
Tsinghua University
Shanghai Changzheng Hospital
Original Assignee
Shanghai Boling Robot Technology Co ltd
Tsinghua University
Shanghai Changzheng Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Boling Robot Technology Co ltd, Tsinghua University, Shanghai Changzheng Hospital filed Critical Shanghai Boling Robot Technology Co ltd
Priority to CN202111538768.0A priority Critical patent/CN114676260A/zh
Priority to CN202210675851.0A priority patent/CN115344702A/zh
Publication of CN114676260A publication Critical patent/CN114676260A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的人体骨骼运动康复模型构建方法,包括如下步骤:S1、获取人体骨骼运动相关的结构化、半结构化和非结构化数据;S2、利用预训练模型对获取数据中的词语进行分布式表示;S3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体骨骼运动知识图谱的搭建;S4、利用py2neo库将得到的实体、关系和属性自动构建在neo4j数据库中并存于云端。本发明提供的基于知识图谱的人体骨骼运动康复模型构建方法,能够有效降低人工判断工作量,并提高知识图谱准确率,方便非医疗运动康复专业人士查询并获得专业指导,实现不用去医院也能够获得良好的预诊断。

Description

基于知识图谱的人体骨骼运动康复模型构建方法
技术领域
本发明涉及一种人体骨骼运动康复模型构建方法,尤其涉及一种基于知识图谱的人体骨骼运动康复模型构建方法。
背景技术
目前在运动康复领域,按照专业能力进行分类,可大致分为专业(职业)人群、 高水平爱好者、普通爱好者、普通人群按身体年龄状况可分为残疾人群、亚健康人 群、中老年人群等。在众多运动损伤和疾病中,仅非特异性腰痛(nonspecific low back pain,NLBP)这种病例在2016年因该病造成病人身体健康寿命受损达到了5760万人/ 年。而目前国内的专业康复师和医生的数量有限,但需求人群巨大。非医疗康复专 业人士在查询人体骨骼肌相关知识(主要是运动康复方面),如果不是在咨询专业医 生或者运动康复专业人士的情况下,将更多依赖于互联网搜索引擎去寻找相关知识, 需要在较多杂乱的信息中去筛选出有价值的信息,这样存在效率较低下且不准确的 问题。
目前已有的医疗康复方面的知识图谱,大都基于传统方法进行构建:比如2013 年Dao等人尝试用语义匹配建立基于互联网的人体骨骼肌搜索引擎;2018年Gyrard 等人提出基于个人的健康知识图谱;2018年马浩晨等基于规则的关系抽取建立了甲 状腺知识图谱;2020年付洋等建立了基于规则和相似度的心脏病病知识图谱;2020 翟兴等建立了基于模板匹配和相似度计算的智能养生的知识图谱;2020年尤欢欢等 人建立了基于骨科疾病的知识图谱;但是都存在效率较低、人工成本较高的问题。
发明内容
本发明所要解决的技术问题是提供一种基于知识图谱的人体骨骼运动康复模型构建方法,能够有效降低人工判断工作量,并提高知识图谱准确率,方便非医疗运 动康复专业人士查询并获得专业指导,实现不用去医院也能够获得良好的预诊断。
本发明为解决上述技术问题而采用的技术方案是提供一种基于知识图谱的人体骨骼运动康复模型构建方法,包括如下步骤:S1、获取人体骨骼运动相关的结构化、 半结构化和非结构化数据;S2、利用预训练模型对获取数据中的词语进行分布式表 示;S3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体 骨骼运动知识图谱的搭建;S4、利用py2neo库将得到的实体、关系和属性自动构建 在neo4j数据库中并存于云端。
进一步地,所述步骤S1中人体骨骼运动相关的数据通过爬虫从互联网获取, 或者通过书籍和医生康复师人工获取结构化数据。
进一步地,所述步骤S1利用Scrapy对网页进行爬取,返回json或者csv格 式的数据。
进一步地,所述步骤S2在对数据进行文本表示之前先进行如下数据预处理和 数据增强处理:S21、对于得到的非结构化数据中的文本信息,按照信息抽取模型的 标注模式进行标注,并将标注的文本作为训练集、验证集和测试集;S22、通过人工 构造的方式扩充数据量进行数据增强,扩充方式包括:原文扩充、随机截断、字符 替换、随机翻转、同性词替换以及预训练模型输出替换。
进一步地,所述步骤S3利用基于深度学习的端到端的Joint模型对数据进行 实体、关系和属性抽取,并在TPLinker模型的基础上增加了属性识别,然后利用 TPLinker模型将Joint实体关系提取任务转换为Token对的连接关系。
进一步地,所述步骤S3通过Token链接矩阵的标记方案来提取所有实体和重 叠关系,具体包括:
设置实体头部-实体尾部链接EH-ET:用于表示一个实体的开始和终止token;
设置主体头部-目标头部链接SH-OH:用于表示同一关系的两个实体的开始token;
设置主体尾部-目标尾部链接ST-OT:用于表示同一关系的两个实体的结束token;
对每个关系进行一次标记,如果有N个关系则解析成2N+1的序列标记子任务 了,每一个子任务的长度为
Figure BDA0003413704140000021
n为输入的句子长度;
从实体头部-实体尾部链接EH-ET中提取所有实体,并通过字典将每个头部位 置映射到相应到实体;然后开始进行解码,对于每个关系ST-OT确定头实体的尾部 和尾实体的尾部,将其添加到集合E中;接着以SH-OH序列查找字典D中头部位 置开始的所有可能实体;最后开始迭代检查所有候选实体是否在集合E中,如果在 则直接提取三元组放入集合T中。
进一步地,所述Token对的设置如下:一个长为n的句子[w1,w2,…,wn]将每个tokenwi通过编码映射到一个低维的上下文向量hi;然后生成[wi,wj]Token对的对应表示 向量hi,j计算公式为:
hi,j=tanh(Wh·[hi;hj]+bh),j≥i
其中Wh为参数矩阵,bh为偏移向量;
对于EH-ET,SH-OH和ST-OT的标记在该模型中使用如下统一公式:
P(yi,j)=Softmax(Wo·hi,j+bo)
Figure BDA0003413704140000031
其中P(yi,j)表示将(wi,wj)识别为l的概率密度,其损失函数为:
Figure BDA0003413704140000032
N为输入的句子长度,
Figure BDA0003413704140000033
是真实的标签,E,H和T表示EH-ET,SH-OH和ST-OT 的标签。
进一步地,所述步骤S3还包括对实体进行属性抽取,并且对于属性的提取同 样引入标记符号:实体属性头部-实体属性尾部EAH-EAT、实体头部-实体属性头部 EH-EAH、实体尾部-实体属性尾部ET-EAT;对于EH-EAH和ET-EAT部分,属性在 前实体在后,所以设置tag为2;属性在文本为顺序,所以设置tag为1;假如实体 共有M种属性,那么子任务将由原模型中的2N+1变成了2M+2N+2,子任务的长度 不变仍为
Figure BDA0003413704140000034
属性tag的计算方法和原模型关系和实体tag计算方式相同。
进一步地,所述步骤S3使用基于关系门的信息抽取模型,通过使用关系注意 力机制使得通过关系门在一个文本中对不同关系进行提取;所述信息抽取模型的 embedding层使用词嵌入、词性嵌入和字符嵌入;通过将字符对应id、词对应id和 词性对应id,先转换为低维向量再通过一维卷积和全连接层获取输入的词向量。
进一步地,所述步骤S3还包括将搭建的人体骨骼运动知识图谱的作一个知识库进行实体链接;所述知识库包含一个实体集合E;每一个从互联网上获取的数据中 抽取出来的实体,均为实体集合E的潜在提及对象;所述步骤S2将每一个从互联网 上新获取的提及对象匹配对应到实体集合E中的目标实体;如果在实体集合E不包 含与新获取的提及对象相对应的目标实体,则将新获取的提及对象作为新的目标实 体补充到原有的实体库。
本发明对比现有技术有如下的有益效果:本发明提供的基于知识图谱的人体骨骼运动康复模型构建方法,相较于传统医疗知识图谱能够有效降低人工判断工作量 和提高知识图谱准确率,方便非医疗运动康复专业人士查询并获得专业指导,实现 不用去医院也能够获得良好的预诊断,也方便专业人士实现快速查询某块骨骼肌基 本信息和相应的测试或康复方案。
附图说明
图1为信息抽取一般流程图;
图2为传统实体连接一般方法流程图;
图3为本发明使用的深度学习的命名实体识别流程图;
图4为本发明使用的基于深度学习的端到端的Joint模型;
图5为本发明获取人体骨骼运动相关数据示意图;
图6为本发明使用爬虫获取互联网数据示意图;
图7为本发明采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表 示的预训练模型;
图8为本发明使用的握手标记方案示意图;
图9为本发明使用的TPLinker框架示意图;
图10为本发明使用的TPLinker新增属性提取框架示意图;
图11为本发明使用的enconder结构示意图;
图12为本发明使用的Deconder结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
要构建知识图谱就首先需要将知识从原始数据包括结构化数据、非结构化数据和半结构化数据中抽取出来。通过命名实体识别、命名实体链接和命名实体关系抽 取形成三元组关系构建知识图谱,其简易流程如图1所示。
命名实体(Name Entity)是指在文本中具有特定含义或者指代性强的实体,通 常包含人名、组织机构名、专有名词等。第六届信息理解大会(The Sixth MessageUnderstanding Conference,MUC-6)和MUC-7将其分为三大类,七小类。之后又拓 展出了包括、地理政治、设施、交通工具、武器、民族及政治团体、产品名、艺术 品名、法律、语言、序数词、基数词等。对于特定领域、比如生物:包括蛋白质、 核糖核苷酸、脱氧核糖核苷酸和基因等等。化学:化学物质和成分。医学:药品名 和疾病。电子商务:商品名、出产地、出产商。
传统的实体命名方法一般分为三大类:基于词典与规则的方法、基于无监督的 方法和基于特征工程的有监督的机器学习方法。传统的命名实体链接方法一般根据 是否给定实体提及(Entity mention)分为两类:1、没有给定实体提及的情况下一 般先做实体提及然后再做命名实体链接;或者将命名实体识别与链接联合求解。2、 在给定了实体体积的情况下可以直接进行联合求解;其框架基本如图2所示。自然 语言中存在一词多义、多词一意和别名的现象。在医学领域比如“足部旋后”和“跖 屈加内翻”是一个意思。命名实体链接是将文本中的命名实体提及链向某个知识库 中无歧义实体的过程。传统的非深度学习方法需要依赖大量人工并且移植性较差, 传统的命名实体关系抽取方法往往需要大量人工和人工设计特征或规则,会带来误 差累计传播问题,影响命名实体抽取的性能。
由于基于深度学习的方法不需要进行人工特征的设计,为此,本发明使用基于 深度学习的方法进行命名实体识别、命名实体连接和命名实体关系抽取。基于深度 学习的命名实体识别方法一般包含三个步骤:输入的分布式表示、上下文编码和标 签解码,如图3所示。基于深度学习的实体链接方法主要有三个模块分别为候选实 体生成(CandidateEntity Generation),候选实体排名(Candidate Entity Ranking), 判定空链接(Unlinkable Mention Prediction)。
命名实体关系是指在实体之间的语义关系。两个实体之间的关系被称为二元关系,三个及三个以上的实体之间的关系被称为多元关系或高阶关系(Higher-orderRelation)。二元关系最为基础常见且多元关系往往可以转化为二元关系进行处理。
为了能够减少各个模块在训练识别时的误差传播,本发明将利用基于深度学习的端到端的Joint模型,如图4所示。具体包括如下步骤:
S1、获取人体骨骼运动相关的结构化、半结构化和非结构化数据;
S2、利用预训练模型对获取数据中的词语进行分布式表示;
S3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体 骨骼运动知识图谱的搭建;
S4、利用py2neo库将得到的实体、关系和属性自动构建在neo4j数据库中并 存于云端。
一、数据知识获取
通过爬虫获取互联网海量结构化、半结构化和非结构化数据。通过书籍和医生 康复师等专业人士人工获取结构化数据,通过对数据进行预处理然后对数据进行标 注;如图5所示。
本发明的数据可以大量来源于互联网资料,拟使用Scrapy框架,利用该框架对 网页进行爬取,返回json或者csv格式的数据。Scrapy框架基本结构如图6所示, 其包括引擎(Scrapy Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫 (Spider)、管道(ItemPipeline)、下载中间件(Downloader Middlewares)和爬 虫中间件(SpiderMiddlewares)。其工作流程为:
1)引擎从爬虫获取初始需求。
2)引擎将获取得到的需求发送给调度中心排队入队列。
3)引擎获取调度中心的需求并将需求发送给下载器。
4)需求在传送到下载器的过程中会经过下载器中间件,对需求进行处理。
5)下载器根据需求从互联网下载内容,封装成响应对象传递给引擎。
6)在响应传递给引擎的过程中也会经过下载器中间件,其会对响应进行处理。
7)引擎将接收到的响应传递给爬虫进行处理。
8)响应传递给引擎时会经过爬虫中间件并对响应进行处理。
9)爬虫接收到响应并进行处理生成一个带爬取的网址的需求和一个项目对象组成的结果并将结果传递给引擎。
10)结果传递给引擎的过程中会经过爬虫中间器并对结果进行处理。
11)引擎获取到爬虫传递的结果,将其中的项目对象发送给管道,将其中的需 求发给调度器排队入队列。
12)管道会对数据进行进一步处理,包括数据整理和保存等。
重复以上步骤直到完成需求。
二、数据知识表示
本发明利用预训练模型对词语进行分布式表示。优选采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表示的预训练模型。bert的框架如图7所示,其 采用双向transfomer的encoder结构,基于中文的维基百科作为相关语料进行预训 练。
roberta-wwm-ext是由哈工大和讯飞联合发布的预训练模型、采用了动态MASK 和更多的训练数据。
Ernie是由百度发布的基于百度贴吧等语料进行预训练的模型。采用了词语级别的MASK。
在对数据进行文本表示之前先进性数据预处理和数据增强,具体步骤如下。
1)对于得到的非结构化数据处理;
2)对文本按照信息抽取模型的标注模式进行标注
将标注的文本作为训练集、验证集和测试集。
3)通过人工构造的方式扩充数据量达到数据增强的效果弥补标注数据量稀少问题。
常见的扩充方法如下标数据增强方法所示:
扩充方法 示例
原文 股直肌属于股四头肌
随机截断 股直肌与股四头肌
[UNK]字符替换 股直肌属于[UNK][UNK][UNK][UNK]
随机翻转 股直肌属于股头肌四
同性词替换 股直肌属于臀大肌
预训练模型输出替换 股直肌属于大腿前侧肌肉
三、知识图谱搭建
1、实体、关系、属性抽取
本发明通过实体关系联合抽取模型对数据进行实体、关系和属性抽取。
利用多头指针标注方案(TPLinker)的联合抽取方法和基于关系注意力机制的 联合抽取方法进行实体和关系抽取。利用多头指针标注方案(TPLinker)的联合抽 取方法进行属性抽取。
(1)通过TPlinker模型进行实体、关系和属性抽取
因为在医学实体中,实体重叠率较高,TPLinker模型在实体重叠的句子中识别率较高。拟采用实体识别和关系识别联合模型:TPLinker,并且在原模型的基础上增 加了属性识别。
下面先介绍原始模型,该模型解决了之前的模型偏移曝光问题(exposure bias):训练时每一次接受的是上一时刻的真实值和输入,在测试时每次接受的是上一时刻 的预测值和输入。TPLinker将joint实体关系提取任务转换为Token对的连接问题。 在一个句子中两个位置分别为p1,p2和一个明确的关系r。该模型需要回答以下三 个问题“p1和p2是否为同一个实体的开始和结尾位置”,“p1和p2是否为关系r的 两个实体的起始位置”,“p1和p2是否为关系r的两个实体的结束位置”,该模型设 计了一种token链接矩阵的标记方案,通过该方法能够提取所有实体和重叠关系。其 显著提高了在正常句子,单个实体重复句子(Single Entity Overlap,SEO)和实体 对重复(Entity Pair Overlap,EPO)和多关系提取的性能。该模型提出的握手标记方 案(Handshaking Tagging Scheme)给出了三种链接定义:实体头部-实体尾部(entity headto entity tail,EH-ET):一个实体的开始和终止token、主体头部-目标头部(subject head to object head,SH-OH):同一关系的两个实体的开始token、主体尾部-目标尾部 (subject tail to object tail,ST-OT):同一关系的两个实体的结束token。为了节省储 存空间,将左下角矩阵(稀疏矩阵)进行上卷,其中右下角的tag有1变为2以区分 顺序。
但是这个方案无法解决EPO问题。为了解决这个问题就对每个关系进行一次标 记如图8所示。如果有N个关系那么该任务就被解析成2N+1的序列标记子任务了。 其中每一个子任务有
Figure BDA0003413704140000091
的长度,n为输入的句子长度,如图8中例子N=2,n=14, 一共有5个子任务,每个子任务长度为91。在EH-ET中有3个tag为1,他们代表 实体的有三个分别为<股四头肌>,<股直肌>,<屈髋>。在关系“协同”中,SH-OH中 有2个tag为1,EH-ET有2个tag为1,基于这三个序列的tag可以联解出<股四头 肌,协同,屈髋>,<股直肌,协同,屈髋>。同理在关系“属于”中,SH-OH和ST-OT 中分别有1个tag为2。联合EH-ET可得关系<股直肌,属于,股四头肌>。
算法总结为在开始从EH-ET中提取所有实体,并通过字典D将每个头部位置映 射到相应的实体。然后开始进行解码,对于每个关系ST-OT确定头实体的尾部和尾 实体的尾部,将其添加到集合E中,然后以SH-OH序列查找字典D中头部位置开 始的所有可能实体。然后开始迭代检查所有候选实体是否在集合E中,如果在则直 接提取三元组放入集合T中。
对于Token对表示具体过程如下:一个长为n的句子[w1,w2,…,wn]将每个tokenwi通过编码映射到一个低维的上下文向量hi。然后生成[wi,wj]Token对的对应表示向量 hi,j计算公式为:
hi,j=tanh(Wh·[hi;hj]+bh),j≥i
其中Wh为参数矩阵,bh为偏移向量这两个参数都可以在训练中进行学习。该公式也是图7中的“Handshaking Kernel”。对于EH-ET,SH-OH和ST-OT的标记在该模 型中使用的是一个统一框架。公式为:
P(yi,j)=Softmax(Wo·hi,j+bo)
Figure BDA0003413704140000092
其中P(yi,j)表示将(wi,wj)识别为l的概率密度。其损失函数为:
Figure BDA0003413704140000093
N为输入的句子长度,
Figure BDA0003413704140000101
是真实的标签,E,H和T表示EH-ET,SH-OH和ST-OT 的标签。
(2)根据对模型结构调整提高模型识别实体和关系抽取准确率。
除了对文本进行实体和关系的抽取还需要对实体进行属性抽取,对于不同类别的实体具有不同的属性,并且属性的结构也不同,有的属性可能是词语级别,有的 可能是句子级别,有的可能是文档级别。那么对于属性的提取同样引入标记符号: 实体属性头部-实体属性尾部(Entity Attribute Head to Entity Attribute Tail,EAH-EAT)、 实体头部-实体属性头部(Entity Head to Entity Attribute Head,EH-EAH)、实体尾部 -实体属性尾部(Entity Tail to Entity Attribute Tail,ET-EAT)。对于EH-EAH和ET-EAT 部分可以属性在前实体在后所以tag可以为2。属性在文本为顺序所以tag只能为1。 将其转化为TPLinker框架如图9和图10所示,假如实体共有M种属性(属性可为 空值)那么子任务将由原模型中的2N+1,变成了2M+2N+2。子任务的长度不变仍为
Figure BDA0003413704140000104
属性tag的计算方法和原模型关系和实体tag计算方式相同。如果进行关系 属性提取定义关系属性类别为K类,任务变为2K+2M+2N+3个子任务。
(3)通过基于关系注意力机制网络的实体关系抽取方案进行实体关系抽取
使用基于关系门的信息抽取模型。该模型通过使用关系注意力机制使得能够通过关系门在一个文本中对不同关系进行提取。该模型的embedding层使用词嵌入、词 性嵌入和字符嵌入。通过将字符对应id、词对应id和词性对应id,先转换为低维向 量再通过一维卷积和全连接层获取输入的词向量输入Enconder,Encoder结构如图 11所示。Enconder层输入向量通过一个双向LSTM输出的隐向量记为h1,h2,…hn,n 为输出隐向量个数。
Figure BDA0003413704140000102
Figure BDA0003413704140000103
dhe为BiLSTM的隐状态。
Sc={h1,...,hn}用来表示文本上下文句子特征。
通过对隐向量取平均池化得到Sg
Sg=avg{h1,h2,…,hn}
并定义关系向量rk。通过两个全连接层获得关系向量。
计算Sk,其计算公式为:
eik=vTtanh(Wrrk+Wgsg+Whhi)
Figure BDA0003413704140000111
Figure BDA0003413704140000112
w1,w2,w3,b1,b2,b3为参数,theta为sigmoid函数。
Deconder结构如图12所示,其输入Uk计算公式为:
Figure BDA0003413704140000113
Figure BDA0003413704140000114
通过将encoder输入的隐向量和Uk进行拼接输入双向LSTM,然后通过Softmax 输出。
本发明通过对标注数据进行预处理,生成两种方案。
方案一:按照原模型中构建对应的word2id和re2id的对应字典,并且通过LAC 对文本进行词性标注获得其pos2id对应字典。按照该模型进行训练计算。LAC词性 如下表所示。
Figure RE-GDA0003617985930000115
Figure RE-GDA0003617985930000121
方案二:通过预训练模型获得相应词向量进行输入。在预训练模型选择上,选择roberta_base还有bert。通过预训练模型获得词向量输入enconder和deconder进行训 练计算。
通过以上三种方法:TPLinker和基于关系注意力机制的实体关系抽取模型(分 布式表示用原模型方法和用预训练模型)可以获得实体和对应关系。因为在各个模 型中对于不同的实体类别抽取正确率不同:单个实体重复(SingleEntityOverlap,SEO) 和实体对重复(EntityPairOverlap,EPO)。具体如下表所示。
Figure RE-GDA0003617985930000122
2、实体链接
将人工搭建的知识图谱当作一个知识库,该知识库包含一个实体集合E;本发 明从互联网上获取的大量数据并抽取出来的实体,本发明认为都是与实体集合E的 潜在提及对象,记该集合为M;任务目的是将每个实体提及m∈M到其对应的无歧 义的目标实体e∈E。如果在实际计算中集合E不包含m的目标实体,则将m链接 到一个新的实体(作为原有实体库的补充)。在具体模型选用上本发明采取基于图卷 积网络的模型,其利用图卷积网络来对局部上下文和全局一致性信息进行建模。通 过函数计算寻找为候选实体寻找一个最优分配。
Figure BDA0003413704140000123
Figure BDA0003413704140000124
为输出候选实体的变量;P()为概率函数,
Figure BDA0003413704140000125
为拓扑图的归一化邻接矩阵,f为候选 尸体的特征表示。
Figure BDA0003413704140000131
F()是在参数ω下的一个映射函数。其利用编码器、子图卷积网络和解码器来获得该 映射函数。
3、知识图谱的数据导入和储存
本发明通过写好的python文档、利用py2neo库将3.4.1中得到的实体、关系、 属性自动构建在neo4j数据库中并存于云端。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域 技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发 明的保护范围当以权利要求书所界定的为准。

Claims (10)

1.一种基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,包括如下步骤:
S1、获取人体骨骼运动相关的结构化、半结构化和非结构化数据;
S2、利用预训练模型对获取数据中的词语进行分布式表示;
S3、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取,完成人体骨骼运动知识图谱的搭建;
S4、利用py2neo库将得到的实体、关系和属性自动构建在neo4j数据库中并存于云端。
2.如权利要求1所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S1中人体骨骼运动相关的数据通过爬虫从互联网获取,或者通过书籍和医生康复师人工获取结构化数据。
3.如权利要求2所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S1利用Scrapy对网页进行爬取,返回json或者csv格式的数据。
4.如权利要求1所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S2在对数据进行文本表示之前先进行如下数据预处理和数据增强处理:
S21、对于得到的非结构化数据中的文本信息,按照信息抽取模型的标注模式进行标注,并将标注的文本作为训练集、验证集和测试集;
S22、通过人工构造的方式扩充数据量进行数据增强,扩充方式包括:原文扩充、随机截断、字符替换、随机翻转、同性词替换以及预训练模型输出替换。
5.如权利要求1所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S3利用基于深度学习的端到端的Joint模型对数据进行实体、关系和属性抽取,并在TPLinker模型的基础上增加了属性识别,然后利用TPLinker模型将Joint实体关系提取任务转换为Token对的连接关系。
6.如权利要求5所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S3通过Token链接矩阵的标记方案来提取所有实体和重叠关系,具体包括:
设置实体头部-实体尾部链接EH-ET:用于表示一个实体的开始和终止token;
设置主体头部-目标头部链接SH-OH:用于表示同一关系的两个实体的开始token;
设置主体尾部-目标尾部链接ST-OT:用于表示同一关系的两个实体的结束token;
对每个关系进行一次标记,如果有N个关系则解析成2N+1的序列标记子任务了,每一个子任务的长度为
Figure FDA0003413704130000021
n为输入的句子长度;
从实体头部-实体尾部链接EH-ET中提取所有实体,并通过字典将每个头部位置映射到相应到实体;然后开始进行解码,对于每个关系ST-OT确定头实体的尾部和尾实体的尾部,将其添加到集合E中;接着以SH-OH序列查找字典D中头部位置开始的所有可能实体;最后开始迭代检查所有候选实体是否在集合E中,如果在则直接提取三元组放入集合T中。
7.如权利要求6所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述Token对的设置如下:一个长为n的句子[w1,w2,…,wn]将每个token wi通过编码映射到一个低维的上下文向量hi;然后生成[wi,wj]Token对的对应表示向量hi,j计算公式为:
hi,j=tanh(Wh·[hi;hj]+bh),j≥i
其中Wh为参数矩阵,bh为偏移向量;
对于EH-ET,SH-OH和ST-OT的标记在该模型中使用如下统一公式:
P(yi,j)=Soft max(Wo·hi,j+bo)
Figure FDA0003413704130000022
其中P(yi,j)表示将(wi,wj)识别为l的概率密度,其损失函数为:
Figure FDA0003413704130000023
N为输入的句子长度,
Figure FDA0003413704130000024
是真实的标签,E,H和T表示EH-ET,SH-OH和ST-OT的标签。
8.如权利要求6所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S3还包括对实体进行属性抽取,并且对于属性的提取同样引入标记符号:实体属性头部-实体属性尾部EAH-EAT、实体头部-实体属性头部EH-EAH、实体尾部-实体属性尾部ET-EAT;对于EH-EAH和ET-EAT部分,属性在前实体在后,所以设置tag为2;属性在文本为顺序,所以设置tag为1;假如实体共有M种属性,那么子任务将由原模型中的2N+1变成了2M+2N+2,子任务的长度不变仍为
Figure FDA0003413704130000031
属性tag的计算方法和原模型关系和实体tag计算方式相同。
9.如权利要求5所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S3使用基于关系门的信息抽取模型,通过使用关系注意力机制使得通过关系门在一个文本中对不同关系进行提取;所述信息抽取模型的embedding层使用词嵌入、词性嵌入和字符嵌入;通过将字符对应id、词对应id和词性对应id,先转换为低维向量再通过一维卷积和全连接层获取输入的词向量。
10.如权利要求5所述的基于知识图谱的人体骨骼运动康复模型构建方法,其特征在于,所述步骤S3还包括将搭建的人体骨骼运动知识图谱的作一个知识库进行实体链接;
所述知识库包含一个实体集合E;每一个从互联网上获取的数据中抽取出来的实体,均为实体集合E的潜在提及对象;所述步骤S2将每一个从互联网上新获取的提及对象匹配对应到实体集合E中的目标实体;如果在实体集合E不包含与新获取的提及对象相对应的目标实体,则将新获取的提及对象作为新的目标实体补充到原有的实体库。
CN202111538768.0A 2021-12-15 2021-12-15 基于知识图谱的人体骨骼运动康复模型构建方法 Pending CN114676260A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111538768.0A CN114676260A (zh) 2021-12-15 2021-12-15 基于知识图谱的人体骨骼运动康复模型构建方法
CN202210675851.0A CN115344702A (zh) 2021-12-15 2022-06-15 人体运动系统数据医疗模型构建方法、系统及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111538768.0A CN114676260A (zh) 2021-12-15 2021-12-15 基于知识图谱的人体骨骼运动康复模型构建方法

Publications (1)

Publication Number Publication Date
CN114676260A true CN114676260A (zh) 2022-06-28

Family

ID=82069853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111538768.0A Pending CN114676260A (zh) 2021-12-15 2021-12-15 基于知识图谱的人体骨骼运动康复模型构建方法

Country Status (1)

Country Link
CN (1) CN114676260A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998816A (zh) * 2022-08-08 2022-09-02 深圳市指南针医疗科技有限公司 基于骨骼ai视频的病例改进方法、装置及存储介质
CN116189310A (zh) * 2022-11-16 2023-05-30 北京理工大学 一种提供人体运动数据集的方法及电子设备
CN117234342A (zh) * 2023-11-15 2023-12-15 北京京拍档科技股份有限公司 一种基于人台模型生成虚拟模特的方法及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998816A (zh) * 2022-08-08 2022-09-02 深圳市指南针医疗科技有限公司 基于骨骼ai视频的病例改进方法、装置及存储介质
CN116189310A (zh) * 2022-11-16 2023-05-30 北京理工大学 一种提供人体运动数据集的方法及电子设备
CN116189310B (zh) * 2022-11-16 2024-01-23 北京理工大学 一种提供人体运动数据集的方法及电子设备
CN117234342A (zh) * 2023-11-15 2023-12-15 北京京拍档科技股份有限公司 一种基于人台模型生成虚拟模特的方法及设备
CN117234342B (zh) * 2023-11-15 2024-03-19 北京京拍档科技股份有限公司 一种基于人台模型生成虚拟模特的方法及设备

Similar Documents

Publication Publication Date Title
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN111538894B (zh) 查询反馈方法、装置、计算机设备及存储介质
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN114676260A (zh) 基于知识图谱的人体骨骼运动康复模型构建方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN110543557A (zh) 一种基于注意力机制的医疗智能问答系统的构建方法
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
CN111898014B (zh) 一种面向认知服务的用户意图识别方法及系统
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111488467A (zh) 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111881292B (zh) 一种文本分类方法及装置
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN112232065A (zh) 挖掘同义词的方法及装置
CN115329200A (zh) 一种基于知识图谱和用户相似度的教学资源推荐方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
Varshney et al. Knowledge grounded medical dialogue generation using augmented graphs
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220628