CN115098651A - 一种前列腺癌的智能问答系统及其实现方法 - Google Patents

一种前列腺癌的智能问答系统及其实现方法 Download PDF

Info

Publication number
CN115098651A
CN115098651A CN202210545644.3A CN202210545644A CN115098651A CN 115098651 A CN115098651 A CN 115098651A CN 202210545644 A CN202210545644 A CN 202210545644A CN 115098651 A CN115098651 A CN 115098651A
Authority
CN
China
Prior art keywords
prostate cancer
data
lifestyle
question
life style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210545644.3A
Other languages
English (en)
Inventor
沈百荣
唐通
王姣
刘行云
何孟桥
叶飞
张影波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202210545644.3A priority Critical patent/CN115098651A/zh
Publication of CN115098651A publication Critical patent/CN115098651A/zh
Priority to US18/315,412 priority patent/US20230411022A1/en
Priority to NL2034840A priority patent/NL2034840A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种前列腺癌的智能问答系统的实现方法,该方法包括:基于预置的第一数据源获取前列腺癌的生活方式数据;将前列腺癌的生活方式数据作为元数据构建生活方式知识库;基于预置的第二数据源和生活方式知识库构建生活方式知识图谱;将生活方式知识库和所述生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统。根据本发明公开的方法和系统能够有助于临床医生、医护人员、科学研究人员以及患者等普通公众以方便、快捷的方式获取客观的生活方式数据,准备的判断对前列腺癌的影响。

Description

一种前列腺癌的智能问答系统及其实现方法
技术领域
本发明涉及生物医学和计算机存储技术领域,尤其涉及一种前列腺癌的智能问答系统及其实现方法。
背景技术
根据世界卫生组织国际癌症研究机构(International Agency for Research onCancer,IARC)分布的全球癌症负担数据表明,前列腺癌是男性中最高发的肿瘤之一,其不仅会带来极大患者带了极大的身心痛苦,如勃起障碍、排尿困难、血尿、疲倦等,而且还会给患者家庭带来巨大的经济压力和负担。在中国,随着局部环境污染加剧、城市生活压力增加、作息时间不规律等因素的影响,中国的前列腺癌患病率也呈现逐年增加的趋势。相关学术研究组织发现,生活方式是影响前列腺癌发病及治疗的重要方式。目前,已经存在有前列腺癌生活方式数据库(Lifestyle Database for Precision Prevention of ProstateCancer,PCaListDB)。在PCaListDB数据库中,共收集了3024前列腺癌关联的生活方式,其中包括394个保护性生活方式,556个风险性生活方式,45个非影响性生活方式,52个具混淆结果的生活方式及1977个缺乏足够数据支撑的生活方式。
但是由于这种传统的知识库主要以表格等形式为用户提供科学数据,且无法提供生活方式的基础信息及前列腺癌病理分期等临床信息,极大的限制了其在非科学研究用户,如患者、普通公众中的使用。
发明内容
本发明所要解决的技术问题在于,提供一种前列腺癌的智能问答系统及其实现方法,能够有助于临床医生、医护人员、科学研究人员以及患者等普通公众以方便、快捷的方式获取客观的生活方式数据,准备的判断对前列腺癌的影响。
为了解决上述技术问题,本发明第一方面公开了一种前列腺癌的智能问答系统的实现方法,所述方法包括:基于预置的第一数据源获取前列腺癌的生活方式数据;将所述前列腺癌的生活方式数据作为元数据构建生活方式知识库;基于预置的第二数据源和所述生活方式知识库构建生活方式知识图谱;将所述生活方式知识库和所述生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统。
在一些实施方式中,基于预置的第一数据源获取前列腺癌的生活方式数据,包括:训练与所述前列腺癌的生活方式数据关联的关键词模型;将所述第一数据源的数据进行模块化处理生成多个数据集;利用所述关键词模型在所述多个数据集提取前列腺癌的生活方式数据。
在一些实施方式中,将所述前列腺癌的生活方式数据作为元数据构建生活方式知识库,包括:对所述前列腺癌的生活方式数据进行规范化处理生成标准数据;对所述标准数据进行结构化处理生成具有索引关系的生活方式知识库。
在一些实施方式中,基于预置的第二数据源和所述生活方式知识库构建生活方式知识图谱,包括:利用所述关键词模型对所述第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据;根据预置的图谱规则对所述前列腺科普数据进行分配生成生活方式知识图谱。
在一些实施方式中,将所述生活方式知识库和所述生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统,包括:将所述生活方式知识图谱中的前列腺科普数据和所述生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,所述语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本;对所述语料数据集中的每一前列腺癌问题文本进行语义解析处理,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;根据所述语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库。
根据本发明的第二个方面,提供了一种前列腺癌的智能问答系统,所述系统包括:获取模块,用于基于预置的第一数据源获取前列腺癌的生活方式数据;生活方式知识库,根据所述前列腺癌的生活方式数据作为元数据进行构建;生活方式知识图谱,基于预置的第二数据源和所述生活方式知识库进行构建;其中,所述前列腺癌的智能问答系统根据所述生活方式知识库和所述生活方式知识图谱进行融合处理实现。
在一些实施方式中,所述获取模块包括:训练的与所述前列腺癌的生活方式数据关联的关键词模型;所述获取模块实现为将所述第一数据源的数据进行模块化处理生成多个数据集,利用所述关键词模型在所述多个数据集提取前列腺癌的生活方式数据。
在一些实施方式中,所述生活方式知识库实现为:对所述前列腺癌的生活方式数据进行规范化处理生成标准数据;对所述标准数据进行结构化处理生成具有索引关系的生活方式知识库。
在一些实施方式中,所述生活方式知识图谱实现为:利用所述关键词模型对所述第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据;根据预置的图谱规则对所述前列腺科普数据进行分配生成生活方式知识图谱。
在一些实施方式中,前列腺癌的智能问答系统根据所述生活方式知识库和所述生活方式知识图谱进行融合处理实现包括:将所述生活方式知识图谱中的前列腺科普数据和所述生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,所述语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本;对所述语料数据集中的每一前列腺癌问题文本进行语义解析处理,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;根据所述语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库。
与现有技术相比,本发明的有益效果在于:
实施本发明能够通过双重数据源的引入分别构建知识库和知识图谱,,极大的扩展数据库的科学容量及数据来源提高了数据源的稳定性和客观性,并且还将该知识库和知识图谱的数据限定为与前列腺癌相关的生活方式数据,能够更加客观的贴近数据需求端想要了解的数据情况,并且以这两种方式融合成的智能问答系统,可以使得用户能够自主使用,不仅能够方便临床医生、科研工作者等专业人士,更重要的是可以便于患者、居民、老人等普通公众科学有效的了解和查询生活方式对前列腺癌发生、发展、治疗与预后等信息提供了契机。
附图说明
图1为本发明实施例公开的一种前列腺癌的智能问答系统实现方法的流程示意图;
图2为本发明实施例公开的一种前列腺癌的智能问答系统的应用示意图;
图3为本发明实施例公开的一种前列腺癌的智能问答系统框图;
图4为本发明实施例公开的一种前列腺癌的智能问答装置结构示意图。
具体实施方式
为了更好地理解和实施,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
本发明实施例公开了一种前列腺癌的智能问答系统及其实现方法,能够通过双重数据源的引入分别构建知识库和知识图谱,极大的扩展数据库的科学容量及数据来源提高了数据源的稳定性和客观性,并且还将该知识库和知识图谱的数据限定为与前列腺癌相关的生活方式数据,能够更加客观的贴近数据需求端想要了解的数据情况,并且以这两种方式融合成的智能问答系统,可以使得用户能够自主使用,不仅能够方便临床医生、科研工作者等专业人士,更重要的是可以便于患者、居民、老人等普通公众科学有效的了解和查询生活方式对前列腺癌发生、发展、治疗与预后等信息提供了契机。
实施例一
请参阅图1,图1为本发明实施例公开的一种前列腺癌的智能问答系统的实现方法的流程示意图。其中,该前列腺癌的智能问答系统的实现方法可以应用在聊天机器人终端、移动设备终端、便携式移动设备终端、个人可穿戴设备终端或网页终端等,对于该方法的应用本发明实施例不做限制。如图1所示,该前列腺癌的智能问答系统的实现方法可以包括以下操作:
101、基于预置的第一数据源获取前列腺癌的生活方式数据。
首先,为了搭建适用于前列腺癌的智能问答系统的基础结构,将预置的第一数据源作为基础数据源,其中,该第一数据源可以实现为客观性的全球学术文献系统、网站,示例性地,在本实施例里的第一数据源可以指代为美国国立生物技术信息研究中心(National Center for Biotechnology Information,NCBI)文献数据库、中国知网(Chinese National Knowledge Infrastructure,CNKI)文献数据库。之后,再通过数据源接口调用上述数据库中的数据,由于发明人发明生活方式对前列腺癌的影响为重中之重,所以在这些数据库中,主要筛选出前列腺癌的生活方式数据,具体可以指代为影响前列腺癌患病概率及临床结果的生活方式数据,不仅包括生活方式名称、种类、亚类、剂量、暴露时间,及前列腺癌的疾病分类、影响关系等,还包括研究涉及的人群、种族、数量、数据来源、文献名称、文献发表时间、年份、发表杂志等背景信息。示例性地,包含个人背景特征(家族史等),行为习惯(抽烟、酒精等),环境因素(双酚A、 杀虫剂等),矿物质(硒、钙等),维他命(血清视黄醇、β-葫萝卜素等),药物(抗糖尿病药、斯达汀等),疾病(糖尿病、代谢综合征等),社会因素(长时间工作、压力等),食物(碳水 化合物、脂肪摄取量等),生理生化(内分泌、激素)等。其通过人工检索、收集与提取、清洗、过滤与结构化的数据,数据收集的内容不仅包括生活方式名称、种类、亚类、剂量、暴露时间,及前列腺癌的疾病分类、影响关系等,还包括研究涉及的人群、种族、数量、数据来源、文献名称、文献发表时间、年份、发表杂志等背景信息。
获取的上述的前列腺癌的生活方式数据实现为,预先基于机器学习的训练方式训练与前列腺癌的生活方式数据关联的关键词模型,该关联词模型涵盖有上述的生活方式数据的多个关键词以及关键词关联语句,该训练模型可以根据第一数据源的更新不断更新升级,之后将第一数据源的调用接口的数据进行模块化处理生成多个数据集,模块化是元数据最重要特征,其关键是根据实际使用需要,将资源对象区分为若干个实体, 对资源的描述即是对多个不同实体的组合和描述即生成的多个不同资源类型的数据集,之后再利用训练的关键词模型在多个数据集提取前列腺癌的生活方式数据,提取的方式可以将这些数据集输入到训练模型中,基于历史训练结果自动输出匹配的前列腺癌的生活方式数据。
102、将前列腺癌的生活方式数据作为元数据构建生活方式知识库。
为了将得到的前列腺癌的生活方式数据实现用户端的转换,对前列腺癌的生活方式数据进行规范化处理生成标准数据,规范化的方式可以实现为通过人工检索、收集与提取、清洗、过滤统一定义不同来源数据的标识符、数据类型、数据长度等信息。之后,再对标准数据进行结构化处理生成具有索引关系的生活方式知识库,结构化主要是面向于用户端,可以转化为系统使用可识别可理解的数据,示例性地,可以将元数据规范文本转化为XM LSchema形式化描述文件,并基于XML Schema将各类资源元数据转化、封装为XML文件,从而支持计算机对XML文件的自动识别、理解和验证之后,再在上述数据准备的基础上,按照人工对各种生活方式与前列腺癌的科学关系进行梳理形成索引关系列表形成生活方式知识库。
103、基于预置的第二数据源和生活方式知识库构建生活方式知识图谱。
进一步地,为了加强数据的客观性,本实施例中还采用第二数据源作为数据源的接入方式,进一步具象生活方式知识库,该第二数据源可以实现为来源于的维基百科等权威广泛全球的科普类平台。通过该第二数据源主要获取的数据是为了增加生活方式知识库的数据多样性和权威性,具体可以包括从第二数据源获取的各生活方式的基础信息,其包括生活方式的异名、来源、基本描述等信息,也还包括前列腺癌临床指南中的前列腺癌的描述、分期、Gleason评分等信息。获取的方式可以利用上述训练的关键词模型对第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据,之后根据预置的图谱规则对前列腺科普数据进行分配生成生活方式知识图谱,该图谱规则可以实现为推理规则,可以为采用描述逻辑进行描述。描述逻辑是一种基于逻辑的形式化的知识表达方法。描述逻辑定义了概念、关系、实体。还有一系列用于描述和约束实体关系的运算符从而可以将获取的各数据建立与前列腺癌的关系,而利用这种关系就可以构建该生活方式知识图谱。
104、将生活方式知识库和生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统。
在得到两种客观维度的生活方式知识库和生活方式知识图谱后,就需要将这两种数据转变为能够和用户进行交互的智能问题系统,具体地,首先将生活方式知识图谱中的前列腺科普数据和生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本,之后对语料数据集中的每一前列腺癌问题文本进行语义解析处理,可以通过字符串解析的方式实现,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;在确定出各问题文本各自对应的用户意图之后,可以基于所有的用户意图确定语料集合可以覆盖的问题的范围,并可以确定每一问题文本对应的类别属性,类别属性可以指代为前列腺癌的相关生活方式,如抽烟、喝酒、熬夜等。根据该语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库,其中,该问答知识库可以包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性,问答知识库用于对用户发起的交互消息进行反馈。
示例性地,如图2所示,为一个或多个普通用户与本前列腺癌的智能问答系统交互过程,在使用该前列腺癌的智能问答系统时,先输入想要了解的问题类型,例如“饮酒超过100 mL的生活方式对前列腺癌是否有影响”,前列腺癌的智能问答系统对用户输入的指令进行语义解析,提取关键词“饮酒”的生活方式输入到知识库和知识库图谱中确定与饮酒关联的多个问题1、问题2......问题n,再利用“饮酒超过100 mL”确定问题1,之后问题与答案的关联关系获取到确定的问题1对应的答案,得到关于“饮酒超过100 mL的生活方式对前列腺癌是否有影响”这一问题的所有知识库和知识图谱中的关联数据。
实施例二
请参阅图3,图3为本发明实施例公开的一种前列腺癌的智能问答系统示意图。该系统包括:
获取模块1,用于基于预置的第一数据源获取前列腺癌的生活方式数据。生活方式知识库2,根据前列腺癌的生活方式数据作为元数据进行构建。生活方式知识图谱3,基于预置的第二数据源和所述生活方式知识库进行构建。其中,前列腺癌的智能问答系统根据生活方式知识库和所述生活方式知识图谱进行融合处理实现。
其中,获取模块1包括训练的与前列腺癌的生活方式数据关联的关键词模型11;获取模块1实现为将所述第一数据源的数据进行模块化处理生成多个数据集,利用关键词模型在多个数据集提取前列腺癌的生活方式数据。其中,该第一数据源可以实现为客观性的全球学术文献系统、网站,示例性地,在本实施例里的第一数据源可以指代为美国国立生物技术信息研究中心(National Center for Biotechnology Information,NCBI)文献数据库、中国知网(Chinese National Knowledge Infrastructure,CNKI)文献数据库。之后,再通过数据源接口调用上述数据库中的数据,由于发明人发明生活方式对前列腺癌的影响为重中之重,所以在这些数据库中,主要筛选出前列腺癌的生活方式数据,具体可以指代为影响前列腺癌患病概率及临床结果的生活方式数据,不仅包括生活方式名称、种类、亚类、剂量、暴露时间,及前列腺癌的疾病分类、影响关系等,还包括研究涉及的人群、种族、数量、数据来源、文献名称、文献发表时间、年份、发表杂志等背景信息。示例性地,包含个人背景特征(家族史等),行为习惯(抽烟、酒精等),环境因素(双酚A、 杀虫剂等),矿物质(硒、钙等),维他命(血清视黄醇、β-葫萝卜素等),药物(抗糖尿病药、斯达汀等),疾病(糖尿病、代谢综合征等),社会因素(长时间工作、压力等),食物(碳水 化合物、脂肪摄取量等),生理生化(内分泌、激素)等。其通过人工检索、收集与提取、清洗、过滤与结构化的数据,数据收集的内容不仅包括生活方式名称、种类、亚类、剂量、暴露时间,及前列腺癌的疾病分类、影响关系等,还包括研究涉及的人群、种族、数量、数据来源、文献名称、文献发表时间、年份、发表杂志等背景信息。
获取的上述的前列腺癌的生活方式数据实现为,预先基于机器学习的训练方式训练与前列腺癌的生活方式数据关联的关键词模型,该关联词模型涵盖有上述的生活方式数据的多个关键词以及关键词关联语句,该训练模型可以根据第一数据源的更新不断更新升级,之后将第一数据源的调用接口的数据进行模块化处理生成多个数据集,模块化是元数据最重要特征,其关键是根据实际使用需要,将资源对象区分为若干个实体, 对资源的描述即是对多个不同实体的组合和描述即生成的多个不同资源类型的数据集,之后再利用训练的关键词模型在多个数据集提取前列腺癌的生活方式数据,提取的方式可以将这些数据集输入到训练模型中,基于历史训练结果自动输出匹配的前列腺癌的生活方式数据。
进一步地,生活方式知识库2实现为:对前列腺癌的生活方式数据进行规范化处理生成标准数据,对标准数据进行结构化处理生成具有索引关系的生活方式知识库。为了将得到的前列腺癌的生活方式数据实现用户端的转换,对前列腺癌的生活方式数据进行规范化处理生成标准数据,规范化的方式可以实现为通过人工检索、收集与提取、清洗、过滤统一定义不同来源数据的标识符、数据类型、数据长度等信息。之后,再对标准数据进行结构化处理生成具有索引关系的生活方式知识库,结构化主要是面向于用户端,可以转化为系统使用可识别可理解的数据,示例性地,可以将元数据规范文本转化为X M LSchema形式化描述文件,并基于XML Schema将各类资源元数据转化、封装为XML文件,从而支持计算机对XML文件的自动识别、理解和验证之后,再在上述数据准备的基础上,按照人工对各种生活方式与前列腺癌的科学关系进行梳理形成索引关系列表形成生活方式知识库。
进一步地,生活方式知识图谱3实现为:利用关键词模型对第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据,根据预置的图谱规则对前列腺科普数据进行分配生成生活方式知识图谱。为了加强数据的客观性,本实施例中还采用第二数据源作为数据源的接入方式,进一步具象生活方式知识库,该第二数据源可以实现为来源于的维基百科等权威广泛全球的科普类平台。通过该第二数据源主要获取的数据是为了增加生活方式知识库的数据多样性和权威性,具体可以包括从第二数据源获取的各生活方式的基础信息,其包括生活方式的异名、来源、基本描述等信息,也还包括前列腺癌临床指南中的前列腺癌的描述、分期、Gleason评分等信息。获取的方式可以利用上述训练的关键词模型对第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据,之后根据预置的图谱规则对前列腺科普数据进行分配生成生活方式知识图谱,该图谱规则可以实现为推理规则,可以为采用描述逻辑进行描述。描述逻辑是一种基于逻辑的形式化的知识表达方法。描述逻辑定义了概念、关系、实体。还有一系列用于描述和约束实体关系的运算符从而可以将获取的各数据建立与前列腺癌的关系,而利用这种关系就可以构建该生活方式知识图谱。
前列腺癌的智能问答系统根据生活方式知识库和所述生活方式知识图谱进行融合处理实现包括:首先将生活方式知识图谱中的前列腺科普数据和生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本,之后对语料数据集中的每一前列腺癌问题文本进行语义解析处理,可以通过字符串解析的方式实现,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;在确定出各问题文本各自对应的用户意图之后,可以基于所有的用户意图确定语料集合可以覆盖的问题的范围,并可以确定每一问题文本对应的类别属性,类别属性可以指代为前列腺癌的相关生活方式,如抽烟、喝酒、熬夜等。根据该语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库,其中,该问答知识库可以包括粗分类器和至少一个细分类器,粗分类器用于确定问答知识库的问题文本覆盖范围,至少一个细分类器用于确定各问题文本各自对应的类别属性,问答知识库用于对用户发起的交互消息进行反馈。
具体地,该前列腺癌的智能问答系统可以在主页面采用 iframe 结构,分成三个部分左侧为前列腺癌问题分类导航,右侧为生活方式概览列表,上部为搜索表单。分类导航和概览列表程序比较简单故而略去搜索表单对话框中可加入检索提示语其表单程 序如下:<form method =“POST ” action=“ faq-list.asp” target=“main”> <p >FAQ搜索 <input type = “ text ” name = “KeyWord” size=”30“ value=”请输入检索词词与词 可用空格隔开“ onfocus=”if (value ==‘请输入检索 词词与词可用空格隔开’){value =“}” onblur=“if (value ==”){value=‘请输入检索词词与词可用空格隔开’}“ style=” color:#808080;font-size:10pt “><input type=”submit”value=“搜索” name=“B1” ></p></form> 。
实施例三
请参阅图4,图4是本发明实施例公开的一种前列腺癌的智能问答装置的结构示意图。其中,图4所描述的前列腺癌的智能问答装置可以应用在聊天机器人终端、移动设备终端、便携式移动设备终端、个人可穿戴设备终端或网页终端等系统,对于该前列腺癌的智能问答装置的应用系统本发明实施例不做限制。如图4所示,该装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器602;
处理器402调用存储器401中存储的可执行程序代码,用于执行实施例一所描述的前列腺癌的智能问答系统实现方法。
实施例四
本发明实施例公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一所描述的前列腺癌的智能问答系统实现方法。
实施例五
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一所描述的前列腺癌的智能问答实现方法。
以上所描述的实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种前列腺癌的智能问答系统及其实现方法所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种前列腺癌的智能问答系统的实现方法,其特征在于,所述方法包括:
基于预置的第一数据源获取前列腺癌的生活方式数据;
将所述前列腺癌的生活方式数据作为元数据构建生活方式知识库;
基于预置的第二数据源和所述生活方式知识库构建生活方式知识图谱;
将所述生活方式知识库和所述生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统。
2.根据权利要求1所述的前列腺癌的智能问答系统的实现方法,其特征在于,基于预置的第一数据源获取前列腺癌的生活方式数据,包括:
训练与所述前列腺癌的生活方式数据关联的关键词模型;
将所述第一数据源的数据进行模块化处理生成多个数据集;
利用所述关键词模型在所述多个数据集提取前列腺癌的生活方式数据。
3.根据权利要求2所述的前列腺癌的智能问答系统的实现方法,其特征在于,将所述前列腺癌的生活方式数据作为元数据构建生活方式知识库,包括:
对所述前列腺癌的生活方式数据进行规范化处理生成标准数据;
对所述标准数据进行结构化处理生成具有索引关系的生活方式知识库。
4.根据权利要求3所述的前列腺癌的智能问答系统的实现方法,其特征在于,基于预置的第二数据源和所述生活方式知识库构建生活方式知识图谱,包括:
利用所述关键词模型对所述第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据;
根据预置的图谱规则对所述前列腺科普数据进行分配生成生活方式知识图谱。
5.根据权利要求4所述的前列腺癌的智能问答系统的实现方法,其特征在于,将所述生活方式知识库和所述生活方式知识图谱进行融合处理生成前列腺癌的智能问答系统,包括:
将所述生活方式知识图谱中的前列腺科普数据和所述生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,所述语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本;
对所述语料数据集中的每一前列腺癌问题文本进行语义解析处理,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;
根据所述语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库。
6.一种前列腺癌的智能问答系统,其特征在于,所述系统包括:
获取模块,用于基于预置的第一数据源获取前列腺癌的生活方式数据;
生活方式知识库,根据所述前列腺癌的生活方式数据作为元数据进行构建;
生活方式知识图谱,基于预置的第二数据源和所述生活方式知识库进行构建;
其中,所述前列腺癌的智能问答系统根据所述生活方式知识库和所述生活方式知识图谱进行融合处理实现。
7.根据权利要求6所述的前列腺癌的智能问答系统,其特征在于,所述获取模块包括:
训练的与所述前列腺癌的生活方式数据关联的关键词模型;
所述获取模块实现为将所述第一数据源的数据进行模块化处理生成多个数据集,利用所述关键词模型在所述多个数据集提取前列腺癌的生活方式数据。
8.根据权利要求7所述的前列腺癌的智能问答系统,其特征在于,所述生活方式知识库实现为:
对所述前列腺癌的生活方式数据进行规范化处理生成标准数据;
对所述标准数据进行结构化处理生成具有索引关系的生活方式知识库。
9.根据权利要求8所述的前列腺癌的智能问答系统,其特征在于,所述生活方式知识图谱实现为:
利用所述关键词模型对所述第二数据源的数据进行筛选生成多个与前列腺癌的生活方式数据关联的前列腺科普数据;
根据预置的图谱规则对所述前列腺科普数据进行分配生成生活方式知识图谱。
10.根据权利要求9所述的前列腺癌的智能问答系统,其特征在于,前列腺癌的智能问答系统根据所述生活方式知识库和所述生活方式知识图谱进行融合处理实现包括:
将所述生活方式知识图谱中的前列腺科普数据和所述生活方式数据库中的前列腺癌的生活方式数据作为语料数据集,其中,所述语料数据集至少包括前列腺癌问题文本、前列腺癌答案文本;
对所述语料数据集中的每一前列腺癌问题文本进行语义解析处理,生成每一前列腺癌问题文本的用户意图,根据各前列腺癌问题文本各自对应的用户意图确定所述语料集的前列腺癌问题文本覆盖范围,并根据每一前列腺癌问题文本的用户意图对所述语料集中的各前列腺癌问题文本进行归类处理,生成各前列腺癌问题文本各自对应的类别属性;
根据所述语料集的前列腺癌问题文本覆盖范围、各前列腺癌问题文本各自对应的类别属性构建问答知识库。
CN202210545644.3A 2022-05-19 2022-05-19 一种前列腺癌的智能问答系统及其实现方法 Pending CN115098651A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210545644.3A CN115098651A (zh) 2022-05-19 2022-05-19 一种前列腺癌的智能问答系统及其实现方法
US18/315,412 US20230411022A1 (en) 2022-05-19 2023-05-10 Intelligent question-answering system for prostate cancer and implementation method thereof
NL2034840A NL2034840A (en) 2022-05-19 2023-05-16 Intelligent question-answering system for prostate cancer and implementation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210545644.3A CN115098651A (zh) 2022-05-19 2022-05-19 一种前列腺癌的智能问答系统及其实现方法

Publications (1)

Publication Number Publication Date
CN115098651A true CN115098651A (zh) 2022-09-23

Family

ID=83288717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210545644.3A Pending CN115098651A (zh) 2022-05-19 2022-05-19 一种前列腺癌的智能问答系统及其实现方法

Country Status (3)

Country Link
US (1) US20230411022A1 (zh)
CN (1) CN115098651A (zh)
NL (1) NL2034840A (zh)

Also Published As

Publication number Publication date
NL2034840A (en) 2023-11-27
US20230411022A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
Buenz et al. Techniques: bioprospecting historical herbal texts by hunting for new leads in old tomes
US10878010B2 (en) System and method for clinical trial candidate matching
JP2022526242A (ja) テキストドキュメントのアノテーションのための方法、装置、およびシステム
Nadkarni et al. Managing attribute–value clinical trials data using the ACT/DB client–server database system
JP6101563B2 (ja) 情報構造化システム
US20160070751A1 (en) Database management system
KR101799448B1 (ko) 질의 응답형 질병분류코드 제공 시스템
Zhang et al. Data integration through ontology-based data access to support integrative data analysis: A case study of cancer survival
Cossin et al. Romedi: an open data source about French drugs on the semantic web
Scheible et al. A multilingual browser platform for medical subject headings
CN109299238A (zh) 一种数据查询方法和装置
Lelong et al. Semantic search engine to query into electronic health records with a multiple-layer query language
Izquierdo et al. A platform for keyword search and its application for covid-19 pandemic data
CN115098651A (zh) 一种前列腺癌的智能问答系统及其实现方法
KR102198780B1 (ko) 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법
Sharma et al. Harnessing biomedical natural language processing tools to identify medicinal plant knowledge from historical texts
Kahn et al. Changing vocabularies: a guide to help bioethics searchers find relevant literature in National Library of Medicine databases using the Medical Subject Headings (MeSH) indexing vocabulary
Mulwad et al. Interpreting medical tables as linked data for generating meta-analysis reports
Nguyen et al. Designing “Living” Evidence Networks for Health Optimisation: Knowledge Extraction of Patient-Relevant Outcomes in Mental Disorders
Azzi et al. Enriching the FIDEO ontology with food-drug interactions from online knowledge sources
Marc et al. Indexing Publicly Available Health Data with Medical Subject Headings (MeSH): An Evaluation of Term Coverage
GB2573512A (en) Database and associated method
Kellmann et al. Semi-automatic translation of medicine usage data (in Dutch, free-text) from Lifelines COVID-19 questionnaires to ATC codes
CN102129527A (zh) 传染病信息知识服务系统
Gavel et al. Multilingual query expansion in the SveMed+ bibliographic database: A case study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination