CN110502622A - 常见医疗问答数据生成方法、装置以及计算机设备 - Google Patents
常见医疗问答数据生成方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN110502622A CN110502622A CN201910593122.9A CN201910593122A CN110502622A CN 110502622 A CN110502622 A CN 110502622A CN 201910593122 A CN201910593122 A CN 201910593122A CN 110502622 A CN110502622 A CN 110502622A
- Authority
- CN
- China
- Prior art keywords
- data
- case
- answer
- common medical
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种常见医疗问答数据生成方法,该方法包括:获取医疗类网站的web文本数据,识别出预设病例的病例数据;根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据并获取对应的标准答案,将所述常见医疗问题数据的医疗问题及标准答案作为常见医疗问答数据进行存储以供用户查询。本发明还提供一种常见医疗问答数据生成装置、计算机设备以及计算机可读存储介质。本发明能够可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种常见医疗问答数据生成方法、装置、计算机设备及计算机可读存储介质。
背景技术
目前市场上出现了不少的医疗解答的网站或者线上平台,当患者在这些网站或者线上平台上提出关于某个疾病的问题时,相应地会得到很多人的解答,其中包括不少的真实医生。然而,由于线上每天都会有大量关于疾病的问题,其中很多的问题都是相似的,同时不同的医生对于同一个问题的解答,获得的医疗解答并不完全一致,也就是说,这些医疗类网站并不能给用户匹配出准确的医疗解答数据。因此,有后续患者需要咨询相同的医疗问题时,并不能准确地找出医疗问题解答数据,或者花费很多时间找出的医疗解答数据并不准确。因此,一款具有精准匹配功能的医疗FAQ(Frequently Asked Question(s),常见问题解答)自动问答系统具有重要的社会价值和经济价值。
发明内容
有鉴于此,本发明提出一种用户常见医疗问答数据生成方法、装置、计算机设备及计算机可读存储介质,能够获取医疗类网站的web文本数据,识别出所述web文本数据中的预设病例的病例数据;然后根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,再统计每个分类问题数据的数量,并将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;接着获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。通过这种方式,可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
首先,为实现上述目的,本发明提供一种常见医疗问答数据生成方法,所述方法包括:
获取医疗类网站的web文本数据;识别出所述web文本数据中的预设病例的病例数据;根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
可选地,所述“获取医疗类网站的web文本数据”的步骤包括:通过网络爬虫工具获取医疗类网站的HTML源数据;通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
可选地,所述“识别出所述web文本数据中的预设病例的病例数据”的步骤包括:通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
可选地,所述“根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据”的步骤包括:通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。
此外,为实现上述目的,本发明还提供一种常见医疗问答数据生成装置,所述装置包括:
获取模块,用于获取医疗类网站的web文本数据;识别模块,用于识别出所述web文本数据中的预设病例的病例数据;分类模块,用于根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;以及统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;所述获取模块,还用于获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
可选地,所述获取模块还用于:通过网络爬虫工具获取医疗类网站的HTML源数据;通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
可选地,所述识别模块还用于:通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
可选地,所述分类模块还用于:通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。
进一步地,本发明还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的常见医疗问答数据生成方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的常见医疗问答数据生成方法的步骤。
相较于现有技术,本发明所提出的常见医疗问答数据生成方法、装置、计算机设备及计算机可读存储介质,能够获取医疗类网站的web文本数据,识别出所述web文本数据中的预设病例的病例数据;然后根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,再统计每个分类问题数据的数量,并将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;接着获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。通过这种方式,可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
附图说明
图1是本发明计算机设备一可选的硬件架构的示意图;
图2是本发明常见医疗问答数据生成装置一实施例的程序模块示意图;
图3是本发明常见医疗问答数据生成方法一实施例的流程示意图。
附图标记:
计算机设备 | 1 |
存储器 | 11 |
处理器 | 12 |
网络接口 | 13 |
常见医疗问答数据生成装置 | 200 |
获取模块 | 201 |
识别模块 | 202 |
分类模块 | 203 |
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明计算机设备1一可选的硬件架构的示意图。
本实施例中,所述计算机设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。
所述计算机设备1通过网络接口13连接网络(图1未标出),通过网络连接到其他终端设备如移动终端(Mobile Terminal)、用户设备(User Equipment,UE)、手机(handset)及便携设备(portable equipment)、PC端,以及其他网络平台比如医疗类网站平台等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global Systemof Mobile communication,GSM)、宽带码分多址(Wideband Code Division MultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要指出的是,图1仅示出了具有组件11-13的计算机设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述计算机设备1的内部存储单元,例如该计算机设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述计算机设备1的外部存储设备,例如该计算机设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件,例如常见医疗问答数据生成装置200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的常见医疗问答数据生成装置200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述计算机设备1与其他终端设备如移动终端、用户设备、手机及便携设备、PC端,以及其他网络平台比如医疗类网站平台等之间建立通信连接。
本实施例中,所述计算机设备1内安装并运行有常见医疗问答数据生成装置200时,当所述常见医疗问答数据生成装置200运行时,能够获取医疗类网站的web文本数据,识别出所述web文本数据中的预设病例的病例数据;然后根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,再统计每个分类问题数据的数量,并将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;接着获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。通过这种方式,可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种常见医疗问答数据生成装置200。
参阅图2所示,是本发明常见医疗问答数据生成装置200一实施例的程序模块图。
本实施例中,所述常见医疗问答数据生成装置200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的常见医疗问答数据生成功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,常见医疗问答数据生成装置200可以被划分为一个或多个模块。例如,在图2中,所述常见医疗问答数据生成装置200可以被分割成获取模块201、识别模块202和分类模块203。其中:
所述获取模块201,用于获取医疗类网站的web文本数据。
具体地,所述获取模块201通过网络爬虫工具获取医疗类网站的HTML源数据;然后再通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
在本实施例中,当所述计算机设备1接收到用户对预设的病例进行问答数据收集的请求时,所述获取模块201则可以通过利用网络爬虫等工具对医疗类网站的HTML数据进行爬取,以获取医疗类网站上对应于所述病例的病例数据。在本实施例中,由于网站或者网页一般是由HTML(Hyper Text Markup Language,超文本标记语言)语言编写的,HTML是一种轻量级的数据交换格式语言,易于用户阅读和编写,同时也易于机器解析和生成。因此,所述获取模块201可以先利用网络爬虫工具对医疗类网站的HTML数据进行爬取,然后再利用现有的HTML转换工具将所述HTML数据进行格式转换,从而获得自然语言的文字数据。例如,所述系统需要利用网络爬虫将医疗类网站如健康网上关于病例如骨质增生的问答数据。那么,所述获取模块201首先利用网络爬虫将健康网上的问答类网页上的HTML源数据获取到,然后再根据HTML转换工具将所述HTML源数据进行转换,得到问答类网页上的HTML源数据对应的自然语言的问答数据的文本。而且,所述HTML转换工具可以将HTML源数据中的表示空白或者间隔符识别出来,因此,经由HTML源数据转化的病例数据,可以很好地将所述医疗类网页上的每条病例数据中的标题问句和对应的正文答案分类格式还原出来,保存为web文本数据。
所述识别模块202,用于识别出所述web文本数据中的预设病例的病例数据。
具体地,所述识别模块202通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
在本实施例中,医疗类网站上的病例数据一般都是具有一定的数据格式,比如,一条病例数据包括有标题问句部分和正文答案部分。sorl(Search On Lucene Replication)是款基于Lucene的全文搜索服务器,可以用于对网站或者网页进行全文本搜索,并输出文本结果。因此,所述获取模块201在将所述医疗类网站的关于预设病例的HTML数据转换为web文本数据之后,所述识别模块202可以进一步通过sorl对所述文档数据进行搜索并筛选出所述病例数据中包括所述病例的相关字、词的关键字的病例数据。当然,所述计算机设备1预先设置了所述病例的关键字,在本实施例中,所述关键字包括所述病例的相关字、词,所述病例相关字、词可以认为是与所述病例的名称相似的别称、所述病例的简称,或者是用于描述所述病例的名称的习惯用语。例如,病例骨质增生的相关的字、词,包括:骨质增生、骨关节炎、骨刺以及退化关节炎等,因此,骨质增生对应的关键字可以设置为:骨质+增生,骨+关节炎,骨+刺,以及退化+关节炎。然后,所述识别模块202根据预设的病例相关字、词,利用sorl搜索模块在所述骨质增生的自然语言的问答数据的文本中进行搜索,找出包括骨质增生对应的关键字的病例数据。其中,所述sorl搜索模块用于提供sorl搜索服务的功能单元,在本实施例中,所述sorl搜索模块可以看做所述sorl搜索服务器连接到所述系统并提供给所述系统做sorl搜索的接入端。所述系统获取到所述web文本数据之后,接着将所述web文本数据输入到所述sorl单元,并根据预设的病例关键字进行sorl搜索,从而找出对应于所述病例关键字的问答数据。例如,所述识别模块202通过sorl可以在在问答数据的标题问句部分找出包括“骨质”和“增生”,或者“骨”和“关节炎”,或者“骨”和“刺”,或者“退化”和“关节炎”的问答数据,然后将标题问句部分包括所述骨质增生的关键字的对应的问答数据作为所述骨质增生的病例数据。
所述分类模块203,用于根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;以及统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据。
在本实施例中,所述NLC文本分类模型能够将文本中相似或者相关联的语句分类为同一个类型。其中,所述NLC文本分类模型包括两个识别单元,第一识别单元用于将询问句式的语句识别出来,第二识别单元用于将包括分类问题关键字的病例问题数据识别出来。
具体地,所述分类模块203通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。在本实施例中,由于医疗类网站上对于一个病例的问题总是多种多样的,因此,所述计算机设备1预先设置关于病例的分类问题。在本实施例中,病例的分类问题包括:临床诊断、药物使用、饮食事项和康复事项。其中,临床诊断包括所述病例的症状或者表象描述,药物使用包括所述病例的用药选择,所述饮食事项包括所述病例对应的饮食倡议或者饮食忌口意见,所述康复事项包括所述病例对应的运动恢复或者理疗恢复。因此,对于所述病例数据,所述分类模块203会进一步进行识别和分类,在本实施例中,所述分类模块203使用预设的NLC(Natural Language Classifier,自然语言分类器)文本分类模型对所述有效问答数据进行识别,具体的,所述NLC文本分类模型为基于CNN神经网络深度学习模型,能够将文本中相似或者相关联的语句分类为同一个类型,比如,根据预先设定的“怎么…?”、“可以…吗?”、“是不是…?”、“…如何?”等句式识别语句中的询问句式,然后将语句中的分类问题数据的关键字如“症状”、“表象”、“不适”或者“感受”类词语对病例数据进行识别并分类为临床诊断类词,接着将包括该临床诊断类词的询问语句识别为所述病例数据的临床诊断类型的分类问题数据;再比如,对于“要不要运动呀?”,“怎么进行理疗?”,“训练效果如何?”等一类的病例数据,所述分类模块203则会将其分类为康复事项类型的分类问题数据。其中,基于CNN神经网络深度学习模型对于文本的识别技术术语现有常用的技术手段,这里不做赘述。通过本步骤,所述系统可以很好地将所述有效问答数据进行分类,从而得到所述病例的详细的子分类的问答数据。
当然,在本实施例中,所述计算机设备1需要预先通过将所述病例数据相关的不同类型的分类问题数据作为训练数据输入对NLC文本分类模型的初始模型进行训练,从而训练出能够识别出所述病例数据的不同类型的分类问题数据的NLC文本分类模型;然后才能根据训练好的NLC文本分类模型对所述病例数据进行识别和分类。所述分类模块203在分类出所述病例相关的每个子分类的问题数据之后,还会进一步分别统计每个子分类的问答数据的数量,然后将数量大于预设第一阈值,比如出现M次的子分类问题数据,且该子分类问题数据的数量排名靠前的几项子分类问答数据对应的子分类问题作为所述病例的常见医疗问题数据。
所述获取模块201,还用于获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
具体地,在所述分类模块203分类出所述病例的常见医疗问题数据之后,接着,所述获取模块201还会将这些常见医疗问题发送给预设的用户终端,然后获取包括专业的医师或者专家用户通过所述用户终端输入的对应于所述常见医疗问题的标准答案,并将所述标准答案与对应的子分类问题关联起来,作为常见问题解答存储起来,或者发送到预设服务器对应的网站页面上供用户查询。
从上文可知,所述计算机设备1能够获取医疗类网站的web文本数据,识别出所述web文本数据中的预设病例的病例数据;然后根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,再统计每个分类问题数据的数量,并将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;接着获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。通过这种方式,可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
此外,本发明还提出一种常见医疗问答数据生成方法,所述方法应用于计算机设备。
参阅图3所示,是本发明常见医疗问答数据生成方法一实施例的流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S500,获取医疗类网站的web文本数据。
具体地,所述计算机设备通过网络爬虫工具获取医疗类网站的HTML源数据;然后再通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
在本实施例中,当所述计算机设备接收到用户对预设的病例进行问答数据收集的请求时,所述计算机设备则可以通过利用网络爬虫等工具对医疗类网站的HTML数据进行爬取,以获取医疗类网站上对应于所述病例的病例数据。在本实施例中,由于网站或者网页一般是由HTML(Hyper Text Markup Language,超文本标记语言)语言编写的,HTML是一种轻量级的数据交换格式语言,易于用户阅读和编写,同时也易于机器解析和生成。因此,所述计算机设备可以先利用网络爬虫工具对医疗类网站的HTML数据进行爬取,然后再利用现有的HTML转换工具将所述HTML数据进行格式转换,从而获得自然语言的文字数据。例如,所述系统需要利用网络爬虫将医疗类网站如健康网上关于病例如骨质增生的问答数据。那么,所述计算机设备首先利用网络爬虫将健康网上的问答类网页上的HTML源数据获取到,然后再根据HTML转换工具将所述HTML源数据进行转换,得到问答类网页上的HTML源数据对应的自然语言的问答数据的文本。而且,所述HTML转换工具可以将HTML源数据中的表示空白或者间隔符识别出来,因此,经由HTML源数据转化的病例数据,可以很好地将所述医疗类网页上的每条病例数据中的标题问句和对应的正文答案分类格式还原出来,保存为web文本数据。
步骤S502,识别出所述web文本数据中的预设病例的病例数据。
具体地,所述计算机设备通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
在本实施例中,医疗类网站上的病例数据一般都是具有一定的数据格式,比如,一条病例数据包括有标题问句部分和正文答案部分。sorl(Search On Lucene Replication)是款基于Lucene的全文搜索服务器,可以用于对网站或者网页进行全文本搜索,并输出文本结果。因此,所述计算机设备在将所述医疗类网站的关于预设病例的HTML数据转换为web文本数据之后,所述计算机设备可以进一步通过sorl对所述文档数据进行搜索并筛选出所述病例数据中包括所述病例的相关字、词的关键字的病例数据。当然,所述计算机设备预先设置了所述病例的关键字,在本实施例中,所述关键字包括所述病例的相关字、词,所述病例相关字、词可以认为是与所述病例的名称相似的别称、所述病例的简称,或者是用于描述所述病例的名称的习惯用语。例如,病例骨质增生的相关的字、词,包括:骨质增生、骨关节炎、骨刺以及退化关节炎等,因此,骨质增生对应的关键字可以设置为:骨质+增生,骨+关节炎,骨+刺,以及退化+关节炎。然后,所述计算机设备根据预设的病例相关字、词,利用sorl搜索模块在所述骨质增生的自然语言的问答数据的文本中进行搜索,找出包括骨质增生对应的关键字的病例数据。其中,所述sorl搜索模块用于提供sorl搜索服务的功能单元,在本实施例中,所述sorl搜索模块可以看做所述sorl搜索服务器连接到所述系统并提供给所述系统做sorl搜索的接入端。所述系统获取到所述web文本数据之后,接着将所述web文本数据输入到所述sorl单元,并根据预设的病例关键字进行sorl搜索,从而找出对应于所述病例关键字的问答数据。例如,所述计算机设备通过sorl可以在在问答数据的标题问句部分找出包括“骨质”和“增生”,或者“骨”和“关节炎”,或者“骨”和“刺”,或者“退化”和“关节炎”的问答数据,然后将标题问句部分包括所述骨质增生的关键字的对应的问答数据作为所述骨质增生的病例数据。
步骤S504,根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;以及统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据。
在本实施例中,所述NLC文本分类模型能够将文本中相似或者相关联的语句分类为同一个类型。其中,所述NLC文本分类模型包括两个识别单元,第一识别单元用于将询问句式的语句识别出来,第二识别单元用于将包括分类问题关键字的病例问题数据识别出来。
具体地,所述计算机设备通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。在本实施例中,由于医疗类网站上对于一个病例的问题总是多种多样的,因此,所述计算机设备预先设置关于病例的分类问题。在本实施例中,病例的分类问题包括:临床诊断、药物使用、饮食事项和康复事项。其中,临床诊断包括所述病例的症状或者表象描述,药物使用包括所述病例的用药选择,所述饮食事项包括所述病例对应的饮食倡议或者饮食忌口意见,所述康复事项包括所述病例对应的运动恢复或者理疗恢复。因此,对于所述病例数据,所述计算机设备会进一步进行识别和分类,在本实施例中,所述计算机设备使用预设的NLC(Natural Language Classifier,自然语言分类器)文本分类模型对所述有效问答数据进行识别,具体的,所述NLC文本分类模型为基于CNN神经网络深度学习模型,能够将文本中相似或者相关联的语句分类为同一个类型,比如,根据预先设定的“怎么…?”、“可以…吗?”、“是不是…?”、“…如何?”等句式识别语句中的询问句式,然后将语句中的分类问题数据的关键字如“症状”、“表象”、“不适”或者“感受”类词语对病例数据进行识别并分类为临床诊断类词,接着将包括该临床诊断类词的询问语句识别为所述病例数据的临床诊断类型的分类问题数据;再比如,对于“要不要运动呀?”,“怎么进行理疗?”,“训练效果如何?”等一类的病例数据,所述计算机设备则会将其分类为康复事项类型的分类问题数据。其中,基于CNN神经网络深度学习模型对于文本的识别技术术语现有常用的技术手段,这里不做赘述。通过本步骤,所述系统可以很好地将所述有效问答数据进行分类,从而得到所述病例的详细的子分类的问答数据。
当然,在本实施例中,所述计算机设备需要预先通过将所述病例数据相关的不同类型的分类问题数据作为训练数据输入对NLC文本分类模型的初始模型进行训练,从而训练出能够识别出所述病例数据的不同类型的分类问题数据的NLC文本分类模型;然后才能根据训练好的NLC文本分类模型对所述病例数据进行识别和分类。所述计算机设备在分类出所述病例相关的每个子分类的问题数据之后,还会进一步分别统计每个子分类的问答数据的数量,然后将数量大于预设第一阈值,比如出现M次的子分类问题数据,且该子分类问题数据的数量排名靠前的几项子分类问答数据对应的子分类问题作为所述病例的常见医疗问题数据。
步骤S506,获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
具体地,在所述计算机设备分类出所述病例的常见医疗问题数据之后,接着还会将这些常见医疗问题发送给预设的用户终端,然后获取包括专业的医师或者专家用户通过所述用户终端输入的对应于所述常见医疗问题的标准答案,并将所述标准答案与对应的子分类问题关联起来,作为常见问题解答存储起来,或者发送到预设服务器对应的网站页面上供用户查询。
本实施例所提出的常见医疗问答数据生成方法能够获取医疗类网站的web文本数据,识别出所述web文本数据中的预设病例的病例数据;然后根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据,再统计每个分类问题数据的数量,并将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;接着获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。通过这种方式,可以智能地将预设病例的常见的分类问题数据统计出来并配置标准答案作为常见医疗问答数据进行存储以提供给用户准确性高的医疗问题解答。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种常见医疗问答数据生成方法,其特征在于,所述方法包括步骤:
获取医疗类网站的web文本数据;
识别出所述web文本数据中的预设病例的病例数据;
根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;
统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;
获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
2.如权利要求1所述的常见医疗问答数据生成方法,其特征在于,所述“获取医疗类网站的web文本数据”的步骤包括:
通过网络爬虫工具获取医疗类网站的HTML源数据;
通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
3.如权利要求1所述的常见医疗问答数据生成方法,其特征在于,所述“识别出所述web文本数据中的预设病例的病例数据”的步骤包括:
通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
4.如权利要求1所述的常见医疗问答数据生成方法,其特征在于,所述“根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据”的步骤包括:
通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;
再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。
5.一种常见医疗问答数据生成装置,其特征在于,所述常见医疗问答数据生成装置包括:
获取模块,用于获取医疗类网站的web文本数据;
识别模块,用于识别出所述web文本数据中的预设病例的病例数据;
分类模块,用于根据预设的NLC文本分类模型识别出所述病例数据中的分类问题数据;以及统计每个分类问题数据的数量,将数量大于预设阈值的分类问题数据作为所述病例的常见医疗问题数据;
所述获取模块,还用于获取所述常见医疗问题数据的标准答案,将所述常见医疗问题数据的医疗问题及对应的标准答案作为常见医疗问答数据进行存储以供用户查询。
6.如权利要求5所述的常见医疗问答数据生成装置,其特征在于,所述获取模块还用于:
通过网络爬虫工具获取医疗类网站的HTML源数据;
通过HTML转换工具将所述医疗类网站的HTML源数据转换成web文本数据。
7.如权利要求5所述的常见医疗问答数据生成装置,其特征在于,所述识别模块还用于:
通过sorl搜索服务识别出所述web文本数据中包括预设关键字的病例数据,其中,所述关键字为所述病例的描述性的字或词。
8.如权利要求5所述的常见医疗问答数据生成装置,其特征在于,所述分类模块还用于:
通过所述NLC文本分类模型的第一识别单元将所述病例数据中的询问句式的语句识别出来,作为病例问题数据;
再通过所述NLC文本分类模型的第二识别单元将所述病例问题数据中包括预设的分类问题关键字的病例问题数据识别出来,作为所述病例的分类问题数据。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的常见医疗问答数据生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的常见医疗问答数据生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593122.9A CN110502622A (zh) | 2019-07-03 | 2019-07-03 | 常见医疗问答数据生成方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593122.9A CN110502622A (zh) | 2019-07-03 | 2019-07-03 | 常见医疗问答数据生成方法、装置以及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502622A true CN110502622A (zh) | 2019-11-26 |
Family
ID=68586074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593122.9A Pending CN110502622A (zh) | 2019-07-03 | 2019-07-03 | 常见医疗问答数据生成方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502622A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN113010658A (zh) * | 2021-04-08 | 2021-06-22 | 深圳市一号互联科技有限公司 | 一种智能问答知识库构建方法、系统、终端以及存储介质 |
CN113076430A (zh) * | 2021-04-19 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种基于医疗问题的数据处理方法及装置 |
CN113282733A (zh) * | 2021-06-11 | 2021-08-20 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678441A (zh) * | 2012-08-29 | 2014-03-26 | 三星电子株式会社 | 设备及使用该设备的内容搜索方法 |
US20140272885A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Learning model for dynamic component utilization in a question answering system |
CN108345644A (zh) * | 2018-01-15 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及装置 |
CN109344227A (zh) * | 2018-06-27 | 2019-02-15 | 中国建设银行股份有限公司 | 工单处理方法、系统和电子设备 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
CN109858021A (zh) * | 2019-01-02 | 2019-06-07 | 平安科技(深圳)有限公司 | 业务问题统计方法、装置、计算机设备及其存储介质 |
-
2019
- 2019-07-03 CN CN201910593122.9A patent/CN110502622A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678441A (zh) * | 2012-08-29 | 2014-03-26 | 三星电子株式会社 | 设备及使用该设备的内容搜索方法 |
US20140272885A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Learning model for dynamic component utilization in a question answering system |
CN108345644A (zh) * | 2018-01-15 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及装置 |
CN109344227A (zh) * | 2018-06-27 | 2019-02-15 | 中国建设银行股份有限公司 | 工单处理方法、系统和电子设备 |
CN109858021A (zh) * | 2019-01-02 | 2019-06-07 | 平安科技(深圳)有限公司 | 业务问题统计方法、装置、计算机设备及其存储介质 |
CN109766428A (zh) * | 2019-02-02 | 2019-05-17 | 中国银行股份有限公司 | 数据查询方法和设备、数据处理方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN113010658A (zh) * | 2021-04-08 | 2021-06-22 | 深圳市一号互联科技有限公司 | 一种智能问答知识库构建方法、系统、终端以及存储介质 |
CN113076430A (zh) * | 2021-04-19 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种基于医疗问题的数据处理方法及装置 |
CN113076430B (zh) * | 2021-04-19 | 2024-01-30 | 北京搜狗科技发展有限公司 | 一种基于医疗问题的数据处理方法及装置 |
CN113282733A (zh) * | 2021-06-11 | 2021-08-20 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、系统、设备及存储介质 |
CN113282733B (zh) * | 2021-06-11 | 2024-04-09 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502622A (zh) | 常见医疗问答数据生成方法、装置以及计算机设备 | |
Hussain et al. | Extending a conventional chatbot knowledge base to external knowledge source and introducing user based sessions for diabetes education | |
Barbour et al. | Evaluating and synthesizing qualitative research: the need to develop a distinctive approach | |
CN112131393A (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
Baur et al. | eXplainable cooperative machine learning with NOVA | |
Hawkins et al. | Web app based patient education in psoriasis–a randomized controlled trial | |
CN111275091A (zh) | 文本结论智能推荐方法、装置及计算机可读存储介质 | |
CN108304539A (zh) | 人才数据库建立方法、装置及存储介质 | |
CN113707301A (zh) | 基于人工智能的远程问诊方法、装置、设备及介质 | |
CN107766400A (zh) | 文本检索方法及系统 | |
CN112466435B (zh) | 心理辅导方案的确定方法及装置、存储介质、电子装置 | |
CN110597960A (zh) | 一种个性化在线课程与职业双向推荐方法及系统 | |
Essen et al. | The evolution of weak standards: the case of the Swedish rheumatology quality registry | |
US11361032B2 (en) | Computer driven question identification and understanding within a commercial tender document for automated bid processing for rapid bid submission and win rate enhancement | |
Alisov et al. | Information and technological support for inclusive education of people with special educational needs | |
Rodger et al. | A comparison of international occupational therapy competencies: implications for Australian standards in the new millennium | |
CN107705849A (zh) | 远程会诊意见整合方法和装置 | |
CN113724823B (zh) | 医疗健康服务的线上管理方法、装置、设备及存储介质 | |
CN115099680A (zh) | 风险管理方法、装置、设备及存储介质 | |
US20170083924A1 (en) | Global positioning system (gps) for linking network access platforms with social network profile electronic documents | |
CN109636649A (zh) | 医疗费用异常的监控方法、监控服务端及存储介质 | |
JP7490905B1 (ja) | 求職支援システム、求職支援方法及びプログラム | |
CN112734202B (zh) | 基于电子病历的医疗能力评价方法、装置、设备及介质 | |
Weissmark et al. | A therapeutic index: Measuring therapeutic actions in psychotherapy. | |
JP7503723B1 (ja) | 求職支援システム、求職支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |