CN114580418A - 一种警察体能训练知识图谱系统 - Google Patents
一种警察体能训练知识图谱系统 Download PDFInfo
- Publication number
- CN114580418A CN114580418A CN202210208066.4A CN202210208066A CN114580418A CN 114580418 A CN114580418 A CN 114580418A CN 202210208066 A CN202210208066 A CN 202210208066A CN 114580418 A CN114580418 A CN 114580418A
- Authority
- CN
- China
- Prior art keywords
- training
- police
- knowledge
- physical
- physical ability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 188
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 23
- 230000036541 health Effects 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 8
- 210000003205 muscle Anatomy 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000035764 nutrition Effects 0.000 claims description 5
- 235000016709 nutrition Nutrition 0.000 claims description 5
- 230000007105 physical stamina Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 5
- 238000003745 diagnosis Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 4
- 208000017667 Chronic Disease Diseases 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 230000006806 disease prevention Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000035807 sensation Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 2
- 238000013031 physical testing Methods 0.000 claims description 2
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 19
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000037396 body weight Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种警察体能训练知识图谱系统,包括数据获取模块、警察体能训练本体知识框架构建模块、警察体能训练语义特征提取模块、警察体能训练知识表示模块、知识融合模块和图谱生成模块。其中,训练集数据采用网络爬虫获取了部分网络文本信息,同时导入部分体能专业书籍。本体构建了7个一级本体类和27个二级本体类。对数据进行语义特征提取、知识表示及融合后,利用Neo4J完成警察体能知识图谱。本发明的有益效果是:本发明聚焦于警察体能训练,集成了一般体能训练知识和警察体能职业要求,构建的警察体能训练知识图谱含有丰富的语义信息,为知识服务提供了技术基础,可辅助实现警察体能语义搜索、智能问答、知识推理、关系挖掘、演化分析、训练方案自动推荐等应用,有助警察学习体能训练知识,辅助指导警察提高身体体能。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种警察体能训练知识图谱系统。
背景技术
知识图谱具有强大的知识表示、知识存储能力,基于语义信息的知识图谱在语义搜索、智能问答、知识推理、关系挖掘、演化分析等方面得到广泛应用并取得显著应用成果。知识图谱包含通用领域和垂直领域知识图谱两类,其构建过程大体一致,一般包含数据获取、信息抽取、知识融合、知识加工以及图谱应用五个阶段。
在数据获取阶段,对于通用领域的知识图谱,其数据一般来源于开源知识库或者开放链接,如百科网站、新媒体资源等;对于垂直领域数据的知识图谱,其数据源一般来源于行业领域网站、专题数据库、专业书籍、垂直领域新媒体等。其数据结构是结构化、非结构化等或者半结构化数据。数据获取手段,一般采用网络爬虫方式采集文本类信息,或者对于结构化数据可以采用批量导入方式。知识图谱本质上是一种语义网络,是一种基于知识层级的形式化描述框架,图谱中的节点表示实体,边表示节点间的语义关系。采用三元组表达知识框架,即 G={E,R,K}集合,其中E为实体集合,R为关系集合,K为知识集合。信息的抽取包含了实体抽取、关系抽取和属性抽取。实体识别就是将实体从海量文本信息中识别出来,在图谱中表现为“节点”。在通用领域中,实体识别的主要方法之一是基于已有的实体实例进行特征建模,利用模型得到新实体集合,并为新实体进行标注形成新语料库。另一种方法是基于实体语义特征,对搜索引擎服务器日志的数据进行聚类从而识别出实体。在垂直领域中,实体识别也可以采用通用领域方法构建,但是,由于垂直领域文本专业性强,概念或实体之间区分度更细,因此在进行实体识别时,需要进行特征增强处理。对于特别细分的领域,还要依赖人工经验进行预分类。关系抽取是构建实体或概念之间的关系,形成网状的知识结构,在图谱中表现为“边”。关系抽取往往与具体应用背景紧密相关,涉及到实体与实体之间是否有关系、关系模式如何定义等。在抽取方法上采用监督、半监督甚至无监督方式实现,很多主流关系抽取方式都采用词向量作为主要特征,并且取得较好的性能指标。属性抽取是对实体的属性进行刻画,属性抽取包含对实体的属性名称抽取以及属性值的抽取,对于实体而言,可能存在多种类型的属性,因而其数据结构将是多类型的。这样给属性抽取带来技术挑战。面向垂直领域的属性抽取,除了依赖深度学习算法从文本中抽取本体外还可以一定程度上用人工辅助完成属性值的修正和类型的丰富。经过信息抽取后各个信息模块的关系可能存在逻辑不清晰、缺乏层次关系、数据冗余量大等问题。知识融合的目的是将信息进行整合形成一个完整的知识库。其关键过程包含指代消解、实体消歧和实体链接等。目的是消除信息冗余,统一概念以获得实体或概念的完整描述。知识加工的过程是将信息抽取、知识融合后的知识经过质量评估后构建一种更加抽象的层次化、网络化、表达。主要包括本体构建、知识推理和质量评估。本体是一种概念模型,描述了领域知识的概念、关系、属性以及实例等抽象的形式化规范。本体构建方式有自下而上或者自上而下两种。知识推理是从一直知识库中寻找实体关系,并沿着实体关系路径建立实体之间新的联系,从而丰富、拓展原有知识网络。质量评估是在于对知识的可信度进行量化评估,确保提供高质量的实体属性关系。
随着现代科学理论与技术对体育运动的影响与渗透,对体能训练的科学研究进程也呈现加速发展态势。人工智能技术服务体育是现代体育科技发展的必然趋势,对体能文献进行知识图谱可视化分析是人工智能在体能研究领域的初步探索。通过检索知网论文可知,许多体育研究者以体育文献为研究对象,借助Citespace 等软件对体育研究前沿、热点、趋势等进行了分析,能够比较准确地捕捉本领域的热点、趋势以及演进脉络。随着知识图谱在诸多领域的广泛应用,知识图谱在体能训练领域的应用是一种有益探索。但是,通过对当前体能训练领域的知识图谱类文献研究发现,当前基于知识图谱的体能训练研究在技术手段上是对不同类型节点的频度进行可视化表达,实质是一种共现网络图,不具备人工智能领域知识图谱的实体关系属性。
传统的基于文献数据库的知识图谱数据分析及展现维度受限。多数基于知识图谱的国内外体能训练研究,其数据来源于文献数据库,具有典型的结构化特征,受制于文献数据库的结构属性数量的限制,研究内容被局限在数据库所能提供的有限维度中。在内容上主要聚焦于国内外体能训练研究的国家分布情况、研究机构分布、研究作者合作网络等维度分析,这些维度隶属于文献数据库的结构属性特征,或者结合时间序列和词频统计进行研究热点及趋势分析。而含有语义关系的体能知识图谱所能提供的信息包含运动生理、病症、病因诊断、营养、训练方法等诸多方面,无论是内涵还是外延远远超出文献数据库所能提供的属性维度。因此,文献数据库提供的数据属性维度,与知识图谱携带的广泛关联语义信息的数据属性维度仍有较大的距离。
基于科学计量的共现网络图谱缺乏语义关联关系。大多数基于知识图谱的体育类研究,其研究脉络是对搜集数据进行文献计量分析并借助工具进行可视化,即以科学知识计量为手段,通过图形化方式展示知识的结构关系,属于科学计量学研究范畴,因而其实质是一种基于科学计量的图谱化表示。这种方式由于缺乏对数据属性之间关系的描述,对数据属性特征的提取缺乏完备性,因而这种图谱展示的多是单因素的数量关系,即每个属性维度单独形成一个图谱进行展示。例如,若要分别展现体能训练研究国家和地区的分布,以及高产研究机构名称,传统方法需要两个共现网络图谱才能展示,但是,用两个独立的共现网络图谱展示方式缺乏研究机构和所在国家和地区之间的关联关系。深层次原因是,这类共现网络图谱仍然被局限在文献数据库所提供的数据维度上,结构化数据属性之间天然缺乏语义关系。
从体能训练科学角度看,体能内涵关乎身体形态结构、身体机能、运动素质、健康状况;体能外延关乎智力、心理、适应能力等因素;从涉及学科来看,体能训练涉及运动医学、解剖学、神经科学、心理学等理论,这些关联因素远远超出了结构化的文献数据库所能够承载的属性维度。而人工智能领域所定义的知识图谱所具有的图存储结构,以节点和边将关联实体、关系联合起来,将各类知识进行融合、连接进而构成的知识网络,其内涵及外延远远超出结构化数据提供的有限维度,其关联关系远远超出有限维度内的逻辑组合,其应用场景更加超出文献计量数据图谱化的范围。因而,具备语义信息的体能知识图谱在体能知识点与知识点之间、知识点与身体状况、身体状况与体能训练方法之间建立起互通的语义网络,能够在体能学习知识关联、体能训练模型构建以及体能训练方法个性化推荐方面发挥重要作用。
警察的职业特性要求必须具有较好的体能基础。因而构建一个警察体能训练知识图谱,可以为构建警察体能训练的知识搜索、智能问答、自动推荐等奠定良好的技术基础。
发明内容
本发明的目的是针对现有体能训练知识图谱构建技术存在的不足以及警察体能训练知识图谱的空白,提供一种面向警察体能训练的知识图谱构建方法,修正传统体能知识图谱大多依赖文献计量手段进行共现词呈现的方法。通过引入人工智能领域的实体、属性及关系,提取体能训练文本相关的语义信息,融合警察职业对体能的特殊要求构建知识图谱,使得警察体能训练知识图谱内容更加丰富,且具有警察职业要求特点,辅助警察获取体能训练知识,有助于提升警察体能训练效果。该警察体能训练知识图谱系统,主要包括:数据获取模块、警察体能训练本体知识框架构建模块、警察体能训练语义特征提取模块、警察体能训练知识表示模块、知识融合模块和图谱生成模块;
数据获取模块,用于形成警察体能训练数据字典,该警察体能训练数据字典包括骨骼、肌肉、神经、营养、症状、运动训练、体能测试、运动器械和体育组织字典子集;对于各个字典子集,分别通过下述方式获取:利用Jieba分词工具对爬取的文本进行分词形成初级字典库,并与搜狗分词词典比对后,去除重复词汇,取二者并集形成扩展后的字典集合,并通过设定重复短语提取规则提取扩展的数据集中词汇,通过与扩展后的字典集合比对,将扩展后的字典集合中不存在的词汇进行扩充,从而形成字典子集;
警察体能训练本体知识框架构建模块,用于对警察体能训练数据字典进行聚类,筛掉与警察体能无关的聚类结果,得到多个一级本体类和多个二级本体类,利用聚类结果中的公理、规则对聚类结果中的实体、关系及实体类型和属性进行规范化表达,将警察体能本体基本元素之间的关系归纳为5个域11种关系,从而得到警察体能训练本体知识框架;5个域为通用域、健康状况、职业技能、训练实施、评估反馈,11种关系为:属性、感觉、属于、表现、导致、技能要求、训练实践、指导制定、诊断、评估、反馈;
警察体能训练语义特征提取模块,用于对词向量进行文本特征增强,基于增强特征后的数据提取语义特征,构建基于预训练模型的文本特征提取模型,基文本特征提取模型完成对训练数据集的文本语义特征提取;
警察体能训练知识表示模块,用于对所提取的文本语义特征进行实体识别,将识别出的不同标签归属到不同本体类中,实体识别结果按照警察体能训练数据字典的分类进行分类;将识别的实体和关系映射到警察体能训练本体框架中;
知识融合模块,用于对警察体能训练本体的概念内涵进行完备性定义和实体属性对齐,以实现知识融合;
图谱生成模块,用于将实体链接到警察体能训练场景,采用Neo4j实现警察体能知识图谱可视化。
进一步地,所述多个一级本体类包括7个一级本体类,即:基础体能、健康水平、警务战术、实战技能、装备因素、体能评估和训练方案。
进一步地,所述7个一级本体类下有27个二级本体类,基础体能包括身体形态、身体功能和运动素质,健康水平包括慢性病预防、身体姿态和运动损伤,警务战术包括单警战术、组警战术、武装巡控车战术和防爆安检战术,实战技能包括警械武器使用、防卫与控制和警务救援,装备因素包括车辆使用、武器使用、警械使用和其他警用装备,体能综合评估包括健康评估、体能评估和战术能力评估,训练方案包括力量训练、耐力训练、速度训练、灵敏度训练、柔韧性训练、敏捷性训练和功能性训练。
进一步地,知识融合模块中,首先对对警察体能训练本体进行体能知识实体及警察职业要求实体定义及分类,然后进行BiLSTM-CRF命名实体识别和实体链接,最终实现知识合并。
进一步地,警察体能训练语义特征提取模块中,对词向量构建PV-IDF模型来进行文本特征增强。
进一步地,警察体能训练知识表示模块中,采用BiLSTM-CRF方法对提取的文本语义特征进行命名实体识别。
进一步地,该警察体能训练知识图谱系统还包括图谱应用模块,用于实现智能检索、自动问答、智能推理和智能推荐的功能。
本发明提供的技术方案带来的有益效果是:本发明创建了警察体能训练的本体框架。该框架分别对一般体能训练及警察职业技能要求两个不同领域的知识进行抽取、融合及表达,形成了警察体能训练的专有概念层次模型,为警察体能训练的知识工程奠定了技术基础。本发明还基于深度学习方法对警察体能训练进行知识表示和知识融合,创建了具有警察职业特征的、丰富的语义网络,为警察体能训练的提供知识检索、智能问答、训练方案推荐等知识服务,有助警察学习体能训练知识,辅助指导警察提高身体体能。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种警察体能训练知识图谱系统的框架图。
图2是本发明实施例中警察体能训练本体知识框架图。
图3是本发明实施例中警察体能训练本体逻辑关系图。
图4是本发明实施例中PV-IDF模型结构图。
图5是本发明实施例中功能性训练图谱可视化图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种警察体能训练知识图谱系统,构建警察体能训练知识本体,提供了警察体能训练知识融合方法。
请参考图1,图1是本发明实施例中一种警察体能训练知识图谱系统的框架图,该警察体能训练知识图谱系统包括:数据获取模块、警察体能训练本体知识框架构建模块、警察体能训练语义特征提取模块、警察体能训练知识表示模块、知识融合模块和图谱生成模块;
数据获取模块,用于形成警察体能训练数据字典,数据来源于知网文献、体能公众号、体能专业书籍以及体能网站等。
警察体能训练数据字典为采用人工加规则提取的半自动方式创建警察体能训练专用数据字典,形成步骤为:首先,通过人工分类构建了包括骨骼、肌肉、神经、营养、症状、运动训练、体能测试、运动器械及体育组织等9类字典子集,例如肌肉字典子集包括斜方肌、冈上肌和冈下肌等;体能测试字典子集包括肺活量体重指数、握力体重指数和台阶测试等;然后,利用Jieba分词工具可以对爬取的文本进行分词形成初级字典库,并与搜狗分词词典比对后,去除重复词汇,取二者并集形成扩展后的字典集合;最后,对于体能专业词汇,设定特定短语提取规则提取文本中的体能专业短语,通过与扩展后的字典集合比对,挖掘出未登录词汇,提取规则主要采用正则表达式设定,例如设定正则表达式[*米×*往返跑] 能够提取“10米×4往返跑”、“25米×4往返跑”等专有短语,以此来进一步扩充警察体能训练数据字典。
警察体能训练本体知识框架构建模块,采用自底向上方法构建,用于根据警察体能训练数据字典构建警察体能训练本体,在警察体能训练本体知识框架构建模块构建时,需要明确知识图谱用途、警察体能本体分类、定义属性以及定义关系。
对爬取数据采用平衡迭代规约法(BIRCH)进行聚类,筛掉与警察体能无关的聚类结果,选择高置信度聚类结果辅助人工修正方法,得到警察体能本体分类即警察体能训练本体的知识框架,如图2所示,其包括7个一级分类,分别为:基础体能、健康水平、警务战术、实战技能、装备因素、体能综合评估和训练方案,这7个一级分类下有27个二级分类,基础体能包括身体形态、身体功能和运动素质,健康水平包括慢性病预防、身体姿态和运动损伤,警务战术包括单警战术、组警战术、武装巡控车战术和防爆安检战术,实战技能包括警械武器使用、防卫与控制和警务救援,装备因素包括车辆使用、武器使用、警械使用和其他警用装备,体能综合评估包括健康评估、体能评估和战术能力评估,训练方案包括力量训练、耐力训练、速度训练、灵敏度训练、柔韧性训练、敏捷性训练和功能性训练。
利用公理、规则对实体、关系及实体类型和属性等对象进行规范化表达,将警察体能本体基本元素之间的关系归纳为5个域,即:通用域、健康状况、职业技能、训练实施和评估反馈,11种关系,即:属性、感觉、属于、表现、导致、技能要求、训练实践、指导制定、诊断、评估和反馈。
具体而言,警察体能本体之间包含五个方面的要素,即类(Class)、个体(Individual)、关系(Relationship)、属性(Property)、公理(Axiom),通常采用五元组方式表达如下:O={C,I,R,P,A},而实体-属性关系采用三元组方式表达,即[实体1,关系,实体2]和[实体,属性,属性值]。例如,在训练实施域中,三元组[深蹲,训练实践,臀腿],属于[实体1,关系,实体2]模式的三元组,表示通过深蹲动作可以训练臀腿肌肉。再如,[BMI,大于,28],表示身体健康指数BMI大于28,可判断为肥胖。
如图3所示,警察通过职业技能要求、健康属性关系和基础体能属性,结合教练对其个体健康的评估诊断,经过实践训练和教练指导得到训练方案,通过训练方案训练后,实时进行体能评估与反馈,进一步进行基础体能的评估和教练指导制定更合适的训练方案,通过实时更新变动,能够根据警察的健康状况等数据的变化动态变动训练方案,同时兼顾其健康与训练效果。
警察体能训练语义特征提取模块,首先对词向量构建PV-IDF模型进行文本特征增强,其次基于增强特征后的数据提取语义特征,构建基于预训练模型的文本特征提取模型,基于特征模型完成文本语义特征提取。
PV-IDF模型结构如图4所示,文档特征d包含词集:w0,w1,...,wT,每个词对应逆文档频率:r0,r1,...,rT,T表示词数量,经过删除矩阵A∈RT×1筛选后得到k个特征词w0,w1,...,wk,于是增强特征后的文档特征z为:
其中删除矩阵A每个元素表示为:
θ是筛选特征词的阈值,为了保证在短文档中删除词语后得到的训练样本不为空,将阈值设定为0.5。在输出层,使用增强特征后的交叉熵作为目标函数L:
其中,wt为文档特征词,ct为上下文序列,z为增强后的新文档特征,p表示概率。
其次,构建Bert预训练模型。首先采用BiTransformer构建深度预训练模型,在预训练过程中采用Masked LM捕获词语级表示,采用Next Sentence Prediction 捕获句子级别的表示。
警察体能训练知识表示模块,首先采用BiLSTM-CRF方法对提取的文本语义特征进行命名实体识别,同时将不同标签归属到不同本体类中,实体识别结果按照数据字典分类标准进行分类。其次,将提取的实体和关系映射到警察体能训练本体框架中。实体、关系联合查本体关系图,作为本体的实例化描述。
综合各类数据源信息对警察体能训练本体的概念内涵进行完备性统一定义,即将含义相同但表达不同的分词,包括概念、实体等的描述进行标准化描述和内涵统一,例如,维基百科中对“体能”一词的描述,其内容不仅包含体能本身概念的描述,还包含诸如营养、运动、饮食管理、警察体能等描述。而从体能网中抽取的“体能”概念,主要包含训练、运动分析、肌群等描述,更加侧重体能基本属性的描述。对于这类概念,将综合各类数据源信息对概念内涵进行完备性定义。
其次进行实体属性对齐,即将同一个对象的不同表达方式统一,形成实体属性对齐表。实体属性对齐主要解决不同数据源对实体、概念及属性的不同表达方式,例如“体能”“体适能”都是表达“体能”概念,尤其是由外文翻译词汇。本发明构建了实体属性对齐表,下表为部分示例:
知识融合模块,用于对数据集中的概念内涵进行完备性定义和实体属性对齐,实现知识融合;
图谱生成模块,用于将实体链接到警察体能训练场景,并采用Neo4j实现如图5所示的警察体能知识图谱可视化,其包括Neo4j存储、存储实体、存储属性和存储关系。
图谱应用模块,用于实现智能检索、自动问答、智能推理和智能推荐的功能。
本发明的有益效果是:本发明创建了警察体能训练的本体框架。该框架分别对一般体能训练及警察职业技能要求两个不同领域的知识进行抽取、融合及表达,形成了警察体能训练的专有概念层次模型,为警察体能训练的知识工程奠定了技术基础。本发明还基于深度学习方法对警察体能训练进行知识表示和知识融合,创建了具有警察职业特征的、丰富的语义网络,为警察体能训练的提供知识检索、智能问答、训练方案推荐等知识服务,有助警察学习体能训练知识,辅助指导警察提高身体体能。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种警察体能训练知识图谱系统,其特征在于:该警察体能训练知识图谱系统包括:数据获取模块、警察体能训练本体知识框架构建模块、警察体能训练语义特征提取模块、警察体能训练知识表示模块、知识融合模块和图谱生成模块;
数据获取模块,用于形成警察体能训练数据字典,该警察体能训练数据字典包括骨骼、肌肉、神经、营养、症状、运动训练、体能测试、运动器械和体育组织字典子集;对于各个字典子集,分别通过下述方式获取:利用Jieba分词工具对爬取的文本进行分词形成初级字典库,并与搜狗分词词典比对后,去除重复词汇,取二者并集形成扩展后的字典集合,并通过设定重复短语提取规则提取扩展的数据集中词汇,通过与扩展后的字典集合比对,将扩展后的字典集合中不存在的词汇进行扩充,从而形成字典子集;
警察体能训练本体知识框架构建模块,用于对警察体能训练数据字典进行聚类,筛掉与警察体能无关的聚类结果,得到多个一级本体类和多个二级本体类,利用聚类结果中的公理、规则对聚类结果中的实体、关系及实体类型和属性进行规范化表达,将警察体能本体基本元素之间的关系归纳为5个域11种关系,从而得到警察体能训练本体知识框架;5个域为通用域、健康状况、职业技能、训练实施、评估反馈,11种关系为:属性、感觉、属于、表现、导致、技能要求、训练实践、指导制定、诊断、评估、反馈;
警察体能训练语义特征提取模块,用于对词向量进行文本特征增强,基于增强特征后的数据提取语义特征,构建基于预训练模型的文本特征提取模型,基文本特征提取模型完成对训练数据集的文本语义特征提取;
警察体能训练知识表示模块,用于对所提取的文本语义特征进行实体识别,将识别出的不同标签归属到不同本体类中,实体识别结果按照警察体能训练数据字典的分类进行分类;将识别的实体和关系映射到警察体能训练本体框架中;
知识融合模块,用于对警察体能训练本体的概念内涵进行完备性定义和实体属性对齐,以实现知识融合;
图谱生成模块,用于将实体链接到警察体能训练场景,采用Neo4j实现警察体能知识图谱可视化。
2.如权利要求1所述的一种警察体能训练知识图谱系统,其特征在于:所述多个一级本体类包括7个一级本体类,即:基础体能、健康水平、警务战术、实战技能、装备因素、体能评估和训练方案。
3.如权利要求2所述的一种警察体能训练知识图谱系统,其特征在于:所述7个一级本体类下有27个二级本体类,基础体能包括身体形态、身体功能和运动素质,健康水平包括慢性病预防、身体姿态和运动损伤,警务战术包括单警战术、组警战术、武装巡控车战术和防爆安检战术,实战技能包括警械武器使用、防卫与控制和警务救援,装备因素包括车辆使用、武器使用、警械使用和其他警用装备,体能综合评估包括健康评估、体能评估和战术能力评估,训练方案包括力量训练、耐力训练、速度训练、灵敏度训练、柔韧性训练、敏捷性训练和功能性训练。
4.如权利要求1所述的一种警察体能训练知识图谱系统,其特征在于:知识融合模块中,首先对对警察体能训练本体进行体能知识实体及警察职业要求实体定义及分类,然后进行BiLSTM-CRF命名实体识别和实体链接,最终实现知识合并。
5.如权利要求1所述的一种警察体能训练知识图谱系统,其特征在于:警察体能训练语义特征提取模块中,对词向量构建PV-IDF模型来进行文本特征增强。
6.如权利要求1所述的一种警察体能训练知识图谱系统,其特征在于:警察体能训练知识表示模块中,采用BiLSTM-CRF方法对提取的文本语义特征进行命名实体识别。
7.如权利要求1所述的一种警察体能训练知识图谱系统,其特征在于:该警察体能训练知识图谱系统还包括图谱应用模块,用于实现智能检索、自动问答、智能推理和智能推荐的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208066.4A CN114580418B (zh) | 2022-03-04 | 2022-03-04 | 一种警察体能训练知识图谱系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208066.4A CN114580418B (zh) | 2022-03-04 | 2022-03-04 | 一种警察体能训练知识图谱系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114580418A true CN114580418A (zh) | 2022-06-03 |
CN114580418B CN114580418B (zh) | 2024-03-26 |
Family
ID=81771456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210208066.4A Active CN114580418B (zh) | 2022-03-04 | 2022-03-04 | 一种警察体能训练知识图谱系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580418B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564464A (zh) * | 2023-03-09 | 2023-08-08 | 北京体育大学 | 一种基于人工智能的运动训练过程控制方法及系统 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
-
2022
- 2022-03-04 CN CN202210208066.4A patent/CN114580418B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
洪文兴;胡志强;翁洋;张恒;王竹;郭志新;: "面向司法案件的案情知识图谱自动构建", 中文信息学报, no. 01, 31 January 2020 (2020-01-31), pages 34 - 44 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564464A (zh) * | 2023-03-09 | 2023-08-08 | 北京体育大学 | 一种基于人工智能的运动训练过程控制方法及系统 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114580418B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN108073569A (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
CN108182262A (zh) | 基于深度学习和知识图谱的智能问答系统构建方法和系统 | |
CN106202044A (zh) | 一种基于深度神经网络的实体关系抽取方法 | |
CN111209384A (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN114580418A (zh) | 一种警察体能训练知识图谱系统 | |
CN107463607A (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN106997341A (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
Zhang et al. | Video-aided unsupervised grammar induction | |
CN107145514A (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110209721A (zh) | 判决文书调取方法、装置、服务器及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN116029306A (zh) | 一种限定域文科简答题自动评分方法 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |