CN116805013A - 一种基于知识图谱的中医药视频检索模型 - Google Patents

一种基于知识图谱的中医药视频检索模型 Download PDF

Info

Publication number
CN116805013A
CN116805013A CN202310767339.3A CN202310767339A CN116805013A CN 116805013 A CN116805013 A CN 116805013A CN 202310767339 A CN202310767339 A CN 202310767339A CN 116805013 A CN116805013 A CN 116805013A
Authority
CN
China
Prior art keywords
chinese medicine
traditional chinese
entity
video
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310767339.3A
Other languages
English (en)
Inventor
刘秀峰
李荣耀
陈平平
吴雨璐
唐跃豪
彭少卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University of Traditional Chinese Medicine
Original Assignee
Guangzhou University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University of Traditional Chinese Medicine filed Critical Guangzhou University of Traditional Chinese Medicine
Priority to CN202310767339.3A priority Critical patent/CN116805013A/zh
Publication of CN116805013A publication Critical patent/CN116805013A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的中医药视频检索模型,包括选取数据主题;获取视频资源;构建中医药术语库;将自建的中医药术语库与智能语音识别平台相结合得到适合中医药领域的语音识别模型并对识别结果进行人工规范和文本数据可视化;构建研究本体;确定研究本体的概念体系、数据模式及标注编码;确定研究本体的实体类型、关系类型以及“实体‑关系‑实体”的三元组类型;本发明通过基于知识图谱的中医药视频检索模型,可以将中医药相关的知识和信息进行整合和归纳,提高中医药视频检索的效率和准确性,方便人们获取所需的中医药知识和信息;能够推广中医药文化和知识,推动知识图谱技术在医学领域的应用,为中医药教育和研究提供支持。

Description

一种基于知识图谱的中医药视频检索模型
技术领域
本发明涉及中医药检索技术领域,具体是指一种基于知识图谱的中医药视频检索模型。
背景技术
随着中医药在全球范围内的普及和发展,越来越多的人开始关注中医药的学习和应用;其中,一些中医药专家经常性地选择开展线上课堂或讲座,录制中医药视频;中医药视频作为一种形式丰富、易于传播的学习资源,成为中医药学习者的重要选择;然而,当听众需要快速找到想要学习的视频内容时,通常需要在众多视频中翻找,再一遍遍翻看视频;在海量的中医药视频中,如何实现快速、准确地检索,成为了中医药学习者和研究者面临的主要问题;目前多数视频平台基于标签索引和标题匹配的搜索方法忽略了视频内容的复杂性和多样性,一般无法理解视频内容,所以很难做到精准搜索,在中医药领域的相关研究更是少之又少;经查证,中医药相关视频多为授课类、知识讲解类视频,呈现以下特点:1、专业性强:中医药授课视频通常由中医药专家、教授或临床医生录制,内容涉及中医药理论、诊断、治疗等方面,具有较强的专业性;2、语言表达复杂:中医药授课视频中,专业术语较多,语言表达较为复杂,需要对中医药理论有一定的了解才能理解和掌握;3、视频时长较长:中医药授课视频通常时间较长,需要较长时间的观看和学习;4、视频内容多样。
另外,知识图谱是一种描述实体、概念以及它们之间关系的语义网络,是人工智能领域的重要研究方向之一,它将现实世界中的实体、概念、关系等知识以图形化的方式进行表达和存储,形成了一个结构化的知识库;其中,节点表示实体或概念,边表示实体或概念之间的关系;知识图谱的兴起促进了人工智能领域的发展,尤其是在自然语言处理、推荐系统等领域有着广泛的应用;领域知识图谱是一种基于知识图谱技术构建的、针对特定领域的知识图谱;它能够将该领域的相关概念、实体、关系等知识进行结构化表示和语义化建模,从而提供更加精准、全面的领域知识服务;在中医药领域,构建领域知识图谱可以帮助人们更好地理解中医药的理论体系、药物性能、疾病诊治等方面的知识;该领域知识图谱包括中医药的基本理论、药物分类、药物功效、药物副作用、疾病分类、疾病诊治等方面的知识,并且能够通过知识推理、问答等方式为用户提供更加个性化、精准的中医药知识服务。
因此,针对中医药视频的特点以及知识图谱的应用,本方案提出一种新的检索模型设计思路,即将视频语音转为文本,再进行知识抽取,构建知识图谱,从而将视频检索的问题转化为知识图谱中实体检索的问题。
发明内容
为解决上述技术问题,本文的研究思路在于:首先,建立一个分离建模的视频检索模型,即先对目标视频进行语音识别,得到视频的内容文本,再对文本进行知识图谱构建,在知识图谱中完成检索任务,即:将视频检索的任务转化为知识图谱中实体检索的任务;具体的,本发明提供的技术方案为:
一种基于知识图谱的中医药视频检索模型的构建方法,包括以下步骤:
步骤一:数据获取与分析
选取所需要构建检索模型的数据主题;通过网络爬虫获取包含视频数据主题的视频资源;通过中医标准获取中医药术语库的术语来源,并自建中医药术语库;将自建的中医药术语库与智能语音识别平台相结合得到适合中医药领域的语音识别模型并对识别结果进行文本数据可视化;
步骤二:构建知识图谱
构建研究本体;确定研究本体的概念体系、数据模式及标注编码;确定研究本体的实体类型、关系类型以及“实体-关系-实体”的三元组类型;
通过对视频识别内容进行格式化处理得到批量一定范围长度的句子即sentence,并对sentence进行关系类型标注,利用多模匹配算法将中医药术语库中的实体多模式匹配sentence进行自动化BIO标注,再以人工审核的方式对未匹配到的sentence中的实体进行标注,得到EDWM数据集,同时将该实体补充到中医药术语库中;
利用多模匹配算法将EDWM数据集中的sentence与中医药术语库进行多模式匹配得到文本存在的实体,根据识别出的实体类型判断可能存在的关系,将这些可能存在的关系与sentence一并作为输入到BERT关系分类模型中;
通过训练BERT模型完成关系分类,将关系分类的输出结果作为Bert+BiLSTM+CRF实体识别模型的一部分输入,实现文本中实体和关系的联合抽取,得到三元组;
步骤三:数据存储
利用高性能图数据库Neo4j存储三元组数据。
步骤四:检索模型设计
围绕数据主题对所需要的检索的问题范围进行问题定义;通过确定问句的类型、语法结构、语义意义来进行问句解析,得到其中的实体及关系类型,并根据实体、关系类型推断可能查询的问句类型,进而转换为Cypher数据库查询语句,在图数据库中查询,得到查询结果后,根据预先设计的回答模板组织答案,返回给查询人。
本发明与现有技术相比的优点在于:1、本方案能够提高中医药视频检索的效率和准确性:中医药是中国传统的医学体系,其理论和实践具有独特的特点和优势;通过基于知识图谱的中医药视频检索模型,可以将中医药相关的知识和信息进行整合和归纳,提高中医药视频检索的效率和准确性,方便人们获取所需的中医药知识和信息。
2、本方案能够推广中医药文化和知识:中医药文化是中国传统文化的重要组成部分,是中华民族的瑰宝,具有深厚的历史和文化底蕴。通过研究基于知识图谱的中医药视频检索模型,可以更好地推广中医药文化和知识,让更多的人了解和认识中医药文化和知识。
3、本方案能够推动知识图谱技术在医学领域的应用:知识图谱是一种新兴的人工智能技术,可以将复杂的知识和信息进行整合和归纳,方便人们获取所需的知识和信息。基于知识图谱的中医药视频检索模型可以将中医药相关的知识和信息进行整合和归纳,推动知识图谱技术在医学领域的应用,为医学领域的研究和发展提供新的思路和方法。
4、本方案能够为中医药教育和研究提供支持:中医药教育和研究是中医药事业的重要组成部分,通过基于知识图谱的中医药视频检索模型,可以为中医药教育和研究提供支持,方便教师和学生获取中医药相关的知识和信息,促进中医药教育和研究的发展。
附图说明
图1是本发明一种基于知识图谱的中医药视频检索模型的流程示意图。
图2是本发明一种基于知识图谱的中医药视频检索模型的WDVT数据模式设计图。
图3是本发明一种基于知识图谱的中医药视频检索模型的多模式匹配标注的示例图。
图4是本发明一种基于知识图谱的中医药视频检索模型的句子S1编码示意图。
图5是本发明一种基于知识图谱的中医药视频检索模型的句子S2编码示意图。
图6是本发明一种基于知识图谱的中医药视频检索模型的BERT关系分类模型架构图。
图7是本发明一种基于知识图谱的中医药视频检索模型的句子S3编码示意图。
图8是本发明一种基于知识图谱的中医药视频检索模型的Bert+BiLSTM+CRF模型结构图。
图9是本发明一种基于知识图谱的中医药视频检索模型的S1,S2的标签示例图。
图10是本发明一种基于知识图谱的中医药视频检索模型的深度测试检索结果Code图。
图11是本发明一种基于知识图谱的中医药视频检索模型的深度测试检索结果Table图。
图12是本发明一种基于知识图谱的中医药视频检索模型的广度测试检索结果Table图。
图13是本发明一种基于知识图谱的中医药视频检索模型的广度测试检索结果Graph图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例:
结合附图1,本实施例公开了一种基于知识图谱的中医药视频检索模型,包括以下步骤:
步骤一:数据获取与分析
S1、选取所需要构建检索模型的数据主题;通过网络爬虫获取包含视频数据主题的视频资源;其中,本实施例以中医药领域下的温病学为例,所选取的数据主题为温病学,视频资源来自中国慕课mooc广州中医药大学spooc的温病学授课课程;
S2、通过中医标准获取中医药术语库的术语来源,并自建中医药术语库;本实施例中术语库的术语来源主要为以下中医标准:《中医药学名词》、《中医临床诊疗术语》、《中医药学语言系统语义网络框架》、《中药方剂标准》、《中药编码规则及编码》、《中医病症分类与代码》;最终整合的中医药术语库中各实体类型包括:中药、药物性味、中药功效、症状、疾病、证候、方剂、治则、治法、病因病机、经络。
S3、将自建的中医药术语库与智能语音识别平台相结合得到适合中医药领域的语音识别模型并对识别结果进行文本数据可视化,具体包括:
(1)将自建的术语库以热词导入的方式上传至智能语音识别平台;现有技术中,识别平台包括科大讯飞语音识别平台、阿里云语音识别平台、百度云语音识别平台;经测试发现科大讯飞的字错率最低,一般在5%以内;融合中医药术语库后,其视频中的中医药术语识别表现优秀,中医药术语识别平均准确率在85%以上。因此,本实施例选用科大讯飞语音转写接口作为智能语音识别平台;
(2)将视频批量转换为平台指定音频格式;本实施例中,所选择的科大讯飞语音转写接口的接口标准的识别格式为采样率16k、位长16bit、单声道的wav音频,因此本实施例需要事先使用python的ffmpeg库将其转换为wav格式,再进行下一步操作;
(3)调用语音转写接口批量识别音频文件得到视频的内容文本材料;
(4)人工审核修改错误信息;
(5)通过词频统计及词云图对得到的文本数据进行可视化;
(6)根据数据可视化,判断所选视频资源是否适合作为视频检索研究对象;其判断方法包括,观察词频统计及词云图中的高频术语是否为所选数据主题的中医药术语。
步骤二:构建知识图谱
知识图谱的构建是建立一个以实体和关系为基础的结构化知识表示模型。本实施例以温病学授课视频内容的文本材料WDVT为研究对象,通过BERT等自然语言处理处理模型识别其中的实体和关系,构建三元组(SPO),并使用Neo4j图形数据库存储三元组信息,为后续的检索模型设计提供数据库支撑;具体包括:
S1、构建研究本体;通过参考专业书籍、中医药标准确定研究本体的概念体系和标注编码;确定研究本体的实体类型、关系类型以及“实体-关系-实体”的三元组类型;WDVT数据模式设计图如图2所示;
其中:
(1)实体类型包括:中药、疾病、症状、证候、方剂、功效、治法职责、病因病机;
(2)关系类型包括:含有、表现、治疗、诊断、对应、诱发、组成部分;
(3)“实体-关系-实体”的三元组类型包括:含有-中药-功效、表现-证候-症状、治疗-方剂-证候、诊断-疾病-证候、对应-证候-治法治则、诱发-病因病机-疾病、组成部分-方剂-中药。
(4)各个实体、关系的语义解释,包括:
中药:在中医药理论和临床经验指导下用于防治和医疗保健的药物,包括中药材、饮片、中成药和方剂等;
疾病:在六淫、七情等致病因素作用下,机体与环境的关系失调,机体内部的生理状态被破坏,出现了机能、形态、神志活动等方面的异常,并反映为一定的症状和体征的邪正交争的病理过程;
症状:机体因发生疾病而表现出来的异常状态,包括患者自身的各种异常感觉与医者的感觉器官所感知的各种异常表现;
证候:证的外候,疾病过程中一定阶段的病位、病因、病性、病势及机体抗病能力的强弱等本质有机联系的反应状态,表现为临床可被观察到的症状等;
病因病机:根据中医基础理论研究疾病发生原因的机理;
治法治则:治疗疾病的法则及指导下治疗疾病的方法,建立在整体观念和辨证的基础上,以四诊收集的客观资料为依据,对疾病进行全面的分析,综合判断,从而针对不同的病机而制定出不同的治疗原则方法;
功效:指中药对机体所产生的作用;
方剂:根据配伍原则和医师的临床经验,以若干药物配合组成的中医处方;
含有:指中药与中药功效的关系,即某中药含有某中药功效;
组成部分:指中药方剂与中药之间的关系,即某方剂的组成部分有某中药;
表现:指证候与症状之间的关系,即某证候会表现出某症状;
治疗:指方剂与证候之间的关系,即某方剂可以治疗某种证候;
诊断:指疾病与证候之间的关系,即某疾病可能诊断出某种证候;
对应:指证候与治法治则之间的关系,即某种证候对应某种治法治则;
诱发:指病因病机与疾病之间的关系,即某种病因病机会诱发某种疾病;
S2、通过对视频识别内容进行格式化处理得到批量一定范围长度的句子即sentence,并对sentence进行关系类型标注,利用多模匹配算法将中医药术语库中的实体多模式匹配sentence进行自动化BIO标注,再以人工审核的方式对未匹配到的sentence中的实体进行标注,得到EDWM数据集,同时将该实体补充到中医药术语库中;
S3、利用多模匹配算法将EDWM数据集中的sentence与中医药术语库进行多模式匹配得到文本存在的实体,根据识别出的实体类型判断可能存在的关系,将这些可能存在的关系与sentence一并作为输入到BERT关系分类模型中;
S4、通过训练BERT模型完成关系分类,将关系分类的输出结果作为Bert+BiLSTM+CRF实体识别模型的一部分输入,实现文本中实体和关系的联合抽取,得到三元组;每个具体实体均包括一个默认属性,即视频链接;
其中,当关系具有多标签时,把关系分类结果中得到的含有多个关系标签的句子进行复制,得到<句子,关系>的一维形式,再将其输入到系列标注任务中;
例如,句子“桑杏汤中的桑叶被称为是治疗燥病的要药,此药疏风清热,并且能够清肺热、润肺燥、宣肺气。”进行关系识别得到“组成部分”和“功效”两种关系,此时构建元组tuple_1(Sentence,“组成部分”)和tuple_2(Sentence,“含有”),这时tuple_1便作为普通句子类型输入到实体识别模型中,最终得到三元组<桑杏汤,组成部分,桑叶>;但是,tuple_2中仍然存在SEO单实体重叠问题,因此在处理SEO单实体重叠问题时,需在序列标注任务中强调了关系类型对句子的影响,即得到句子序列标注后结合关系分类中得出的单向关系类型进行解码得到SPO三元组;即tuple_2可识别到实体“桑叶汤”、“桑叶”、“疏风清热”、“清肺热”、“润肺燥”、“宣肺气”,但tuple_2中强调“含有”关系,于是得到<桑叶,含有,疏风清热>、<桑叶,含有,清肺热>、<桑叶,含有,润肺燥>、<桑叶,含有,宣肺气>4个三元组。
本实施例中用到的多模匹配算法是多模式匹配算法中的典型算法AC自动机,其将多个模式串构建成一棵trie树,以利用trie树的性质来建立一个自动机;自动机的每个节点代表了一个前缀,自动机的边表示了字符的转移关系;AC自动机根据文本串中的字符和当前状态,通过状态转移函数来更新当前状态,直到到达一个终止状态;如果到达了一个终止状态,就表示在文本串中匹配到了一个模式串,多模式匹配标注的示例如图3所示。
关系分类的本质是多标签分类问题;本实施例将EDWM数据集中的sentence与中医药术语库进行多模式匹配得到文本存在的实体,根据识别出的实体类型判断可能存在的关系,将这些可能存在的关系与sentence一并作为输入到BERT关系分类模型中;BERT模型将输入句子中的每个字的向量表示以字向量(TokenEmbeddings)、句子向量(SegmentEmbeddings)、位置向量(PositionEmbeddings)三部分叠加而成,这三个向量的长度相同,均为模型的最大输入长度max_len。
由于EDWM数据集中的每个sentence长短不一,长度短于max_len的sentence在输入时统一补0到模型最大输入长度,长度长于max_len的sentence会自动将超出的部分截断。由于模型的输入的两个句子分别是sentence和sentence中可能存在关系组成的句子,这里分别将其命名为S1和S2,此时模型中的SegmentEmbedding向量就起到了句子区分的作用,将S2的SegmentEmbedding填充0使得在关系分类时的单句任务不考虑S2;
假设句子S1为“桑杏汤中的桑叶被称为是治疗燥病的要药,此药疏风清热,并且能够清肺热、润肺燥、宣肺气”,经过与中医药术语库的多模式匹配得到方剂实体集合[“桑杏汤”]、草药实体集合[“桑叶”]和功效实体集合[“疏风清热”,“清肺热”,“润肺燥”,“宣肺气”],按照数据模式设计规则可得到句子可能存在“组成部分”关系和“含有”关系,则此时句子S2便为“组成部分含有”。有两个句子同时输入时,在第一个句子的首部会加上一个[CLS]token,在两个句子中间以及最后一个句子的尾部会加上一[SEP]token;如图4、图5所示;
此外,如果一个句子有逗号、顿号,则表示句子没有说完,那么BERT也会将这个句子中多个子句用[SEP]符号进行划分,并将多个子句包装为句子对(Sentencepairs),并用一个序列(sequence)表示;模型输出则是对应各个关系类型是否存在组成的0-1列表,1表示模型判定该关系类型在sentence中存在,0则表示不存在;如图6所示;
模型的损失函数为BinaryCrossEntropywithLogitsLoss,该函数将Sigmoid操作与BCELoss集合到了一个类中,在BERT模型的后面加上了Sigmoid激活函数作为全连接层,Sigmoid激活函数的公式为:
本实施例使用的Bert+BiLSTM+CRF模型的基本思路是,首先使用Bert模型对文本进行编码,得到每个词的向量表示,然后,将这些向量输入到BiLSTM中,以便捕捉上下文信息;最后,使用CRF模型对每个词进行标注,以识别实体;其中Bert模型具有强大语义表示能力,可以提高模型的准确性,利用BiLSTM模型的上下文信息和CRF模型的前后标注信息,进一步提高模型的准确性,对实体进行比较准确的分类。在关系分类中,可以得到S1的关系类型,根据数据模式设计中关系主客体的唯一性,由关系类型便可以得到主体实体类型和客体实体类型,本实施例在S3中将其体现,同时将S3的长度扩充到与S1大致一样长,扩充规则为“关系类型+主体实体类型+客体实体类型”(记作PSO)的复制扩充。假设S1句子长度为L1,关系类型长度为L2,PSO的长度为L,那么S3就由(记为x)个PSO和/>个关系及结束标识[SEP]组成;实体识别的输入示例如图7所示;
其输入由句子S1和关系分类中得到的句子中的关系特征S3两部分组成,输出为句子的BIO标签,以此实体识别任务本质是序列标注任务,模型结构如图8所示;用于训练的标签序列分为序列标注S1_BIO和关系标注S2_REL,S1_BIO是句子及其BIO标注,S2_REL是句子可能存在的关系预测信息,在BERT输入中本文使用[REL]对其标识。最后建立各个标签与数字之间的映射信息,将其转换为序列。其标签示例如图9所示。
步骤三:数据存储
利用高性能图数据库Neo4j存储数据;Neo4j是一种高性能的图数据库,与传统的关系型数据库不同,它使用图形结构存储数据,而不是表格。这种数据存储方式非常适合处理具有复杂关系和交互性的数据。Neo4j的数据模型基于节点和关系。节点是图中的实体,关系是节点之间的连接。节点和关系都可以包含属性,这些属性是键值对的形式。在Neo4j中,节点和关系都具有类型和标签,这使得数据更加具有结构化,方便进行查询和分析。Neo4j还支持事务,可以保证数据的一致性和可靠性。此外,Neo4j还提供了灵活的查询语言Cypher,可以用于从图中检索数据,为后续的检索模型设计提供了数据库支撑。
步骤四:检索模型设计
围绕数据主题对所需要的检索的问题范围进行问题定义;通过确定问句的类型、语法结构、语义意义来进行问句解析,得到其中的实体及关系类型,并根据实体、关系类型推断可能查询的问句类型,进而转换为Cypher数据库查询语句,在图数据库中查询,得到查询结果后,根据预先设计的回答模板组织答案,返回给查询人。
其中,图数据库中查询一般使用特定的查询语言,Neo4j使用Cypher语言,查询可以返回节点、边和它们之间的关系,以及它们的属性和元数据;
基于常见的医学检索问句分析,在具体实施时,可以设计大量实体和关系的匹配同义词库扩充到中医术语库中,例如,针对实体类型“症状”,其同义词列表为[‘症状’,‘表征’,‘现象’,‘症候’,‘表现’];通过多模式匹配算法,中医药术语库为模式串,问句为文本串,对问句进行解析,得到其中的实体及类型,并根据实体类型推断可能查询的问句类型,再转换为数据库查询语句,在数据库中查找,得到查询结果后,再根据设计的回答模板组织答案,返回给查询人。例如,一个比较抽象的检索问句是“中了暑湿会有什么表现?”,匹配关键词“暑湿”和“表现”,暑湿的实体类型为“疾病”,“表现”的同义实体类型为“症状”,因此可以推断出问句类型为“DIS-SYM”,从图数据库中查询到暑湿的症状有“头身困重”、“肢体倦怠”等。然后根据回答模板“[疾病]常见的症状有{[症状1]、[症状2]……},相关视频链接:…”返回答案:“暑湿常见的症状有头身困重、肢体倦怠,相关视频链接:……”。
一、对本实施例的检索模型进行测试
在进行测试时,从深度和广度两个方面对上述设计的检索模型进行评测试;深度测试是指存在间接关系但是不存在直接关系的两个实体节点,在遇到相关检索问句时,是否可以得到相关的答案;广度测试是指存在直接关系的实体节点群是否可以被完整的检索出来。
1、在检索模型的深度测试中,以检索问句“中了暑温会有什么表现”为例,对模型进行测试,在得到问句后,模型对问句首先通过多模式匹配算法在中医药实体库和同义词库中进行模式串匹配,识别得到实体类型疾病“暑温”和关系类型“表现”,因此匹配得到“DIS-SYM”问句类型,转换处理得到Cypher语句“match(d:疾病)-[:诊断]->(z:证候)-[:表现]->(s:症状)whered.name='暑温'returns.name”,在图数据库中查询得到如图10和11所示结果;
将症状结果放入回答模板后得到检索结果:“中了暑温可能会出现的症状有神昏、谵语、灼热、脉细数、胸痛、口渴等,相关视频链接:
https://edwm--dataset.oss-cn-shanghai.aliyuncs.com/%5B4.4.1%5D--%E6%9A%91%E6%B8%A9%E8%A7%86%E9%A2%91.mp4”。可以看到模型在处理存在间接关系的相关实体时,有较好的处理逻辑和表现。
2、在检索模型的广度测试中,以检索问句“知母有什么功效?”为例,对模型进行测试,在得到问句后,进行问句解析,匹配得到“MED-EFF”问句类型,转换处理得到Cypher语句“match(h:中药)-[:含有]->(g:功效)whereh.name='知母'returng.name”,在图数据库中查询得到如图12和13所示结果。
将功效结果放入回答模板后得到检索结果:“知母的功效有滋阴、泻火、解毒、养阴生津、养阴清热、化痰等,相关视频链接:
https://edwm--dataset.oss-cn-shanghai.aliyuncs.com/%5B11.3.1%5D--%E9%82%AA%E9%98%BB%E8%86%9C%E5%8E%9F%E8%A7%86%E9%A2%91.mp4https://edwm--dataset.oss-cn-shanghai.aliyuncs.com/%5B6.6.1%5D--%E7%97%B0%E7%83%AD%E7%BB%93%E8%83%B8%E8%A7%86%E9%A2%91.mp4等”。
可以看到模型在处理存在直接关系的相关实体节点时,也有较好的处理逻辑和表现。
综上所述,本实施例设计的检索模型可以较好地满足温病学相关的问题检索,帮助检索识别用户查询中的实体,将其链接到知识图谱中的对应实体上,并给出相关视频链接,帮助检索从多个实体之间的关系中提取出有用的信息,更好地理解用户的查询意图,从而提供更加准确的搜索结果,提高搜索效率和用户体验。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (9)

1.一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,包括以下步骤:
步骤一:数据获取与分析
选取所需要构建检索模型的数据主题;通过网络爬虫获取包含视频数据主题的视频资源;通过中医标准获取中医药术语库的术语来源,并自建中医药术语库;将自建的中医药术语库与智能语音识别平台相结合得到适合中医药领域的语音识别模型并对识别结果进行文本数据可视化;
步骤二:构建知识图谱
构建研究本体;确定研究本体的概念体系、数据模式及标注编码;确定研究本体的实体类型、关系类型以及“实体-关系-实体”的三元组类型;
通过对视频识别内容进行格式化处理得到批量一定范围长度的句子即sentence,并对sentence进行关系类型标注,利用多模匹配算法将中医药术语库中的实体多模式匹配sentence进行自动化BIO标注,再以人工审核的方式对未匹配到的sentence中的实体进行标注,得到EDWM数据集,同时将该实体补充到中医药术语库中;
利用多模匹配算法将EDWM数据集中的sentence与中医药术语库进行多模式匹配得到文本存在的实体,根据识别出的实体类型判断可能存在的关系,将这些可能存在的关系与sentence一并作为输入到BERT关系分类模型中;
通过训练BERT模型完成关系分类,将关系分类的输出结果作为Bert+BiLSTM+CRF实体识别模型的一部分输入,实现文本中实体和关系的联合抽取,得到三元组;
步骤三:数据存储
利用高性能图数据库Neo4j存储三元组数据。
步骤四:检索模型设计
围绕数据主题对所需要的检索的问题范围进行问题定义;通过确定问句的类型、语法结构、语义意义来进行问句解析,得到其中的实体及关系类型,并根据实体、关系类型推断可能查询的问句类型,进而转换为Cypher数据库查询语句,在图数据库中查询,得到查询结果后,根据预先设计的回答模板组织答案,返回给查询人。
2.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,将中医药术语库与智能语音识别平台相结合得到适合中医药领域的语音识别模型,具体包括以下步骤:
(1)将自建的术语库以热词导入的方式上传至智能语音识别平台;
(2)将视频批量转换为平台指定音频格式;
(3)调用语音转写接口批量识别音频文件得到视频的内容文本材料;
(4)人工审核修改错误信息;
(5)通过词频统计及词云图对得到的文本数据进行可视化;
(6)根据数据可视化,判断所选视频资源是否适合作为视频检索研究对象。
3.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,所述智能语音识别平台包括科大讯飞语音识别平台、阿里云语音识别平台、百度云语音识别平台。
4.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,所述中医标准包括《中医药学名词》、《中医临床诊疗术语》、《中医药学语言系统语义网络框架》、《中药方剂标准》、《中药编码规则及编码》、《中医病症分类与代码》。
5.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,所述实体类型包括:中药、疾病、症状、证候、方剂、功效、治法治则、病因病机;
所述关系类型包括:含有、表现、治疗、诊断、对应、诱发、组成部分;
所述“实体-关系-实体”的三元组类型包括:含有-中药-功效、表现-证候-症状、治疗-方剂-证候、诊断-疾病-证候、对应-证候-治法治则、诱发-病因病机-疾病、组成部分-方剂-中药。
6.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,当关系具有多标签时,把关系分类结果中得到的含有多个关系标签的句子进行复制,得到<句子,关系>的一维形式,再将其输入到序列标注任务中。
7.根据权利要求1所述的一种基于知识图谱的中医药视频检索模型的构建方法,其特征在于,所述Bert+BiLSTM+CRF实体识别模型的实现方法,包括以下步骤:
首先使用Bert模型对文本进行编码,得到每个词的向量表示,然后,将这些向量输入到BiLSTM中,捕捉上下文信息;最后,使用CRF模型对每个词进行标注以识别实体。
8.根据权利要求1所述的,其特征在于,每个具体实体均包括一个默认属性,即视频链接。
9.根据权利要求1所述的,其特征在于,所述多模匹配算法为AC自动机算法。
CN202310767339.3A 2023-06-27 2023-06-27 一种基于知识图谱的中医药视频检索模型 Pending CN116805013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310767339.3A CN116805013A (zh) 2023-06-27 2023-06-27 一种基于知识图谱的中医药视频检索模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310767339.3A CN116805013A (zh) 2023-06-27 2023-06-27 一种基于知识图谱的中医药视频检索模型

Publications (1)

Publication Number Publication Date
CN116805013A true CN116805013A (zh) 2023-09-26

Family

ID=88080525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310767339.3A Pending CN116805013A (zh) 2023-06-27 2023-06-27 一种基于知识图谱的中医药视频检索模型

Country Status (1)

Country Link
CN (1) CN116805013A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408338A (zh) * 2023-12-14 2024-01-16 神州医疗科技股份有限公司 基于中国药典的中药饮片知识图谱的构建方法和系统
CN117648424A (zh) * 2023-12-13 2024-03-05 西湖大学 用于获取天然药材专域知识的系统
CN117708338A (zh) * 2024-02-05 2024-03-15 成都中医药大学 一种中文电子病历实体识别与四诊分类的抽取方法及模型
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648424A (zh) * 2023-12-13 2024-03-05 西湖大学 用于获取天然药材专域知识的系统
CN117408338A (zh) * 2023-12-14 2024-01-16 神州医疗科技股份有限公司 基于中国药典的中药饮片知识图谱的构建方法和系统
CN117408338B (zh) * 2023-12-14 2024-03-12 神州医疗科技股份有限公司 基于中国药典的中药饮片知识图谱的构建方法和系统
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN117744784B (zh) * 2024-02-04 2024-04-30 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN117708338A (zh) * 2024-02-05 2024-03-15 成都中医药大学 一种中文电子病历实体识别与四诊分类的抽取方法及模型
CN117708338B (zh) * 2024-02-05 2024-04-26 成都中医药大学 一种中文电子病历实体识别与四诊分类的抽取方法及模型

Similar Documents

Publication Publication Date Title
CN116805013A (zh) 一种基于知识图谱的中医药视频检索模型
CN107368547A (zh) 一种基于深度学习的智能医疗自动问答方法
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN110222201A (zh) 一种专病知识图谱构建方法及装置
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
CN112667799A (zh) 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN110188147A (zh) 基于知识图谱的文献实体关系发现方法及系统
Yoon et al. Sequence tagging for biomedical extractive question answering
CN112635071B (zh) 融合中西医知识的糖尿病知识图谱构建方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
CN115525751A (zh) 一种基于知识图谱的智能问答系统和方法
WO2024109097A1 (zh) 专利文本的知识图谱创建方法、装置、存储介质及设备
Chen et al. Named entity recognition of Chinese electronic medical records based on cascaded conditional random field
CN117112739A (zh) 增强意图理解的医疗对话系统
Wang et al. A BERT-based named entity recognition in Chinese electronic medical record
CN115658863A (zh) 一种基于糖尿病知识图谱的问答系统构建方法
CN115312186A (zh) 一种糖尿病视网膜病变辅助筛查系统
Yanling et al. Research on entity recognition and knowledge graph construction based on TCM medical records
CN113314236A (zh) 一种面向高血压的智能问答系统
Chen et al. AskNatureNet: A divergent thinking tool based on bio-inspired design knowledge
CN111180076A (zh) 一种基于多层语义分析的医疗信息提取方法
Cao et al. Online biomedical named entities recognition by data and knowledge-driven model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination