CN109493956A - 一种导诊方法 - Google Patents
一种导诊方法 Download PDFInfo
- Publication number
- CN109493956A CN109493956A CN201811193695.4A CN201811193695A CN109493956A CN 109493956 A CN109493956 A CN 109493956A CN 201811193695 A CN201811193695 A CN 201811193695A CN 109493956 A CN109493956 A CN 109493956A
- Authority
- CN
- China
- Prior art keywords
- information
- patient
- corpus
- hospital guide
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Abstract
本发明公开了一种导诊方法,涉及医疗信息技术领域。该方法包括以下步骤:S1、采集数据以建立语料库;S2、使用向量工具,将语料库中的文本信息转换为数值向量信息;S3、将数值向量信息输入至LSTM模型,并以所述LSTM模型的网络结构为框架,建立命名实体识别模型并对其进行训练;S4、输入病人信息并转换为相应的数值向量信息,在所述命名实体识别模型中对所述病人信息进行序列标注,将所述病人信息所对应的数据向量信息进行整句识别并标注;S5、根据标注结果,输出对应的导诊方案。本发明技术方案通过建立丰富的语料库,在标注大量语料库中各句子信息的基础上,得到当前的病人信息的准确性,并以此为基础输出导诊方案,以实现病人的医疗个性化推荐服务。
Description
技术领域
本发明涉及医疗信息技术领域,特别是涉及一种导诊方法。
背景技术
在目前的医疗信息领域中,各项医疗标准正在规范化、结构化、有序化,随着互联网和通信技术的飞速发展,越来越多的服务或者行业均与互联网结合,为用户提供更加便利的服务。
在医院的标准治疗过程中,导诊分流是一项非常重要的前置工作。良好的导诊能够极大的提高后续的医疗流程的效率,使患者能够得到更好的服务。尤其是在一些具有门诊量大、工作负荷高的特点的专科中,导诊对有效提升医疗资源的运行效率具有重大意义。
但现有的导诊方法多采用人工或者半自动的导诊。在使用人工导诊时,效率较低,而且对于导诊员的工作压力极大。而半自动的导诊系统无法准确的提供导诊结果,导诊内容较为粗糙,疾病分类不够完善、无法对患者起到有效的指导作用。
发明内容
本发明的主要目的在于提供一种导诊方法,旨在为患者提供医疗个性化推荐服务。
为实现上述目的,本发明提供一种导诊方法,包括以下步骤:
S1、语料库构建:采集数据以建立语料库;
S2、文本信息向量化:使用向量工具,将所述语料库中的文本信息转换为数值向量信息;
S3、命名实体识别建模训练:将所述数值向量信息输入至LSTM模型,并以所述LSTM模型的网络结构为框架,建立命名实体识别模型并对其进行训练;
S4、命名实体识别结果序列标注:输入病人信息并转换为相应的数值向量信息,在所述命名实体识别模型中对所述病人信息进行序列标注,将所述病人信息所对应的数据向量信息进行整句识别并标注;
S5、命名实体识别结果应用:根据标注结果,输出对应的导诊方案。
优选地,所述步骤S1还包括:根据标注规范,对采集的数据分别按照四种实体类型、九种实体关系分类型进行定义以建立语料库,并对采集的数据去隐私信息处理。
优选地,所述四种实体类型分别为疾病信息、症状信息、检查信息和治疗信息;所述九种关系分别为检查发现疾病信息、因病症而检查信息、检查发现病症信息、治疗改善疾病)信息、治疗后疾病没有提及信息、治疗改善疾病信息、治疗后症状没有提及信息、疾病导致病症信息和症状表明疾病信息。
优选地,所述步骤S2还包括:所述向量工具为Word2vec,通过Word2vec将文本信息转换为计算机可识别的数值向量信息。
优选地,所述步骤S3还包括:所述命名实体识别模型为双向长短时记忆网络模型,所述双向长短时记忆网络模型分别保存病人信息由顺序运行和逆序运行两个方向的句子信息,以保存该句子的上下文信息,并在输出导诊方案时预测句子的上下文信息。
优选地,将所述数值向量信息和所述双向长短时记忆网络模型的隐藏层结果通过向量拼接的方式进行组合,以提取文本信息的句子特征。
优选地,所述步骤S4还包括:通过五词位标注法对所述病人信息进行序列标注,所述五词位标注法通过表示一个分词的开始、中间、结束、无关实体和单个字符实体以对所述病人信息进行序列标注。
与现有技术相比,本发明的有益效果是:本发明技术方案通过建立丰富的语料库,使用LSTM模型对其进行建模、训练,在标注大量语料库中各句子信息的基础上,得到当前的病人信息的准确性,并以此为基础输出导诊方案,以实现病人的医疗个性化推荐服务。
附图说明
图1为本发明导诊方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明进一步说明。
本发明涉及医疗信息技术领域,具体涉及一种基于命名实体识别的放射科导诊方法。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名,地名,机构名和专有名词等,其本质是一个模式识别任务,即给定一个句子,识别句子中实体的边界信息和实体类型。命名实体识别技术主要分为两类:基于词典和规则的方法和基于机器学习的方法。基于词典与规则的方法,多采用语言学专家手工构造规则模板和语料库,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段。
一种导诊方法,如图1所示,包括以下步骤:
S1、语料库构建:采集数据以建立语料库。
在具体实施例中,通过搜集各大医院中来自不同科室的中文电子病历,并对其去隐私信息处理。
优选地,所述步骤S1还包括:根据标注规范,对采集的数据分别按照四种实体类型、九种实体关系分类型进行定义以建立语料库,并对采集的数据去隐私信息处理。在现有的标注规范的基础上,根据专业医师的指导,定制的相应的标注规范。
在具体实施例中,相应的标注规范为:所述四种实体类型分别为疾病信息、症状信息、检查信息和治疗信息;所述九种关系分别为检查发现疾病信息、因病症而检查信息、检查发现病症信息、治疗改善疾病)信息、治疗后疾病没有提及信息、治疗改善疾病信息、治疗后症状没有提及信息、疾病导致病症信息和症状表明疾病信息。
S2、文本信息向量化:使用向量工具,将所述语料库中的文本信息转换为数值向量信息。
优选地,所述步骤S2还包括:所述向量工具为Word2vec(word to vector,词向量),通过Word2vec将文本信息转换为计算机可识别的数值向量信息。Word2vec是一群用以产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。
S3、命名实体识别建模训练:将所述数值向量信息输入至LSTM(Long Short-TermMemory,长短期记忆网络)模型,并以所述LSTM模型的网络结构为框架,建立命名实体识别模型并对其进行训练。
优选地,所述步骤S3还包括:所述LSTM模型为双向长短时记忆网络模型(BiLSTM,Bi-directional Long Short-Term Memory),所述双向长短时记忆网络模型分别保存病人信息由顺序运行和逆序运行两个方向的句子信息,以保存该句子的上下文信息,并在输出导诊方案时预测句子的上下文信息。
具体地,双向长短时记忆网络模型BiLSTM是在LSTM模型的基础上,为能够有效地利用上下文的信息,将单向LSTM拓展为双向LSTM,模型内包含两个方向的网络结构:方向一是从左到右顺序传播;方向二是从右向左逆序传播。
在具体实施例中,在数据预处理阶段,将Word2vec词嵌入技术与双向长短时记忆网络模型BiLSTM网络结合,能够进一步表征文本的语义和句法结构两种特征。将所述数值向量信息和BiLSTM模型的隐藏层结果通过向量拼接的方式进行组合,作为命名实体识别模型的输入。
S4、命名实体识别结果序列标注:输入病人信息并转换为相应的数值向量信息,在所述命名实体识别模型中对所述病人信息进行序列标注,将所述病人信息所对应的数据向量信息进行整句识别并标注。
优选地,所述步骤S4还包括:通过五词位标注法对所述病人信息进行序列标注,所述五词位标注法通过表示一个分词的开始、中间、结束、无关实体和单个字符实体以对所述病人信息进行序列标注。
在具体实施例中,对命名实体识别模型结果进行序列标注,并基于句子级别出发,有效地考虑句子前后的标签信息,以得到全局最优序列标注。使用五词位标注法分别表示一个分词的开始、中间、结束、无关实体和单个字符实体,开始通过B表示,中间通过I表示,结束通过E表示,无关实体通过O表示,单个字符实体通过S表示。例如,“患者不洁饮食后腹胀”对应的标注序列为“O,O,B,I,I,E,O,B,E”。
对比基于词典和规则的方法、基于机器学习的最早采用的条件随机场(Conditional Random Field,CRF)模型和卷积神经网络(Convolutional NeuralNetwork,CNN)模型以及传统LSTM模型,双向长短时记忆网络模型BiLSTM模型不仅能够解决循环神经网络中存在的长期依赖问题,还能分别从句子的前端和末端开始运行,存储来自两个方向的句子信息,从而能够保存句子前面的上下文信息,还能同时考虑到未来的上下文信息,使其在中文分词中拥有更好的表现。
S5、命名实体识别结果应用:根据标注结果,输出对应的导诊方案。将输入的病人信息进行识别结果统计,综合分析,实施具体的医疗个性化推荐服务应用。如:根据从电子病历中提取出来的首次检查时间与复查时间,并在复查时间到来之前做出提醒;还能对老年患者,推荐近距离检查地点,还可以结合导航应用。
在具体实施例中,基于电子病例中时空信息(如检查时间,检查地点等)的基础上,得到准确的信息,并以此为基础拓展应用。在命名实体识别的基础上,可以实现医疗个性化推荐服务。根据提取的相关信息:包括建议检查部位,检查时间(例如几天后复查)等,并结合患者的基本信息:年龄(年龄大的可以选择就近),住院与否(是否到病床检查)等,综合分析后,推荐患者适合的检查时间和检查地点供患者选择,并推送相关注意事项给患者。
通过对命名实体识别结果的应用,能够将电子病历中大量的信息与计算机结合起来,并对结果统计分析,挖掘隐含信息,进一步推动智慧医疗的发展,对其未来展开工作有一定的辅助作用。
应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种导诊方法,其特征在于,包括以下步骤:
S1、语料库构建:采集数据以建立语料库;
S2、文本信息向量化:使用向量工具,将所述语料库中的文本信息转换为数值向量信息;
S3、命名实体识别建模训练:将所述数值向量信息输入至LSTM模型,并以所述LSTM模型的网络结构为框架,建立命名实体识别模型并对其进行训练;
S4、命名实体识别结果序列标注:输入病人信息并转换为相应的数值向量信息,在所述命名实体识别模型中对所述病人信息进行序列标注,将所述病人信息所对应的数据向量信息进行整句识别并标注;
S5、命名实体识别结果应用:根据标注结果,输出对应的导诊方案。
2.根据权利要求1所述的导诊方法,其特征在于,所述步骤S1还包括:
根据标注规范,对采集的数据分别按照四种实体类型、九种实体关系分类型进行定义以建立语料库,并对采集的数据去隐私信息处理。
3.根据权利要求2所述的导诊方法,其特征在于,所述四种实体类型分别为疾病信息、症状信息、检查信息和治疗信息;所述九种关系分别为检查发现疾病信息、因病症而检查信息、检查发现病症信息、治疗改善疾病)信息、治疗后疾病没有提及信息、治疗改善疾病信息、治疗后症状没有提及信息、疾病导致病症信息和症状表明疾病信息。
4.根据权利要求1所述的导诊方法,其特征在于,所述步骤S2还包括:
所述向量工具为Word2vec,通过Word2vec将文本信息转换为计算机可识别的数值向量信息。
5.根据权利要求4所述的导诊方法,其特征在于,所述步骤S3还包括:
所述命名实体识别模型为双向长短时记忆网络模型,所述双向长短时记忆网络模型分别保存病人信息由顺序运行和逆序运行两个方向的句子信息,以保存该句子的上下文信息,并在输出导诊方案时预测句子的上下文信息。
6.根据权利要求5所述的导诊方法,其特征在于,将所述数值向量信息和所述双向长短时记忆网络模型的隐藏层结果通过向量拼接的方式进行组合,以提取文本信息的句子特征。
7.根据权利要求1所述的导诊方法,其特征在于,所述步骤S4还包括:
通过五词位标注法对所述病人信息进行序列标注,所述五词位标注法通过表示一个分词的开始、中间、结束、无关实体和单个字符实体以对所述病人信息进行序列标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811193695.4A CN109493956A (zh) | 2018-10-15 | 2018-10-15 | 一种导诊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811193695.4A CN109493956A (zh) | 2018-10-15 | 2018-10-15 | 一种导诊方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493956A true CN109493956A (zh) | 2019-03-19 |
Family
ID=65689682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811193695.4A Pending CN109493956A (zh) | 2018-10-15 | 2018-10-15 | 一种导诊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493956A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110675944A (zh) * | 2019-09-20 | 2020-01-10 | 京东方科技集团股份有限公司 | 分诊方法及装置、计算机设备及介质 |
CN111613311A (zh) * | 2020-06-09 | 2020-09-01 | 广东珠江智联信息科技股份有限公司 | 一种智能ai导诊实现技术 |
CN111951959A (zh) * | 2020-08-23 | 2020-11-17 | 云知声智能科技股份有限公司 | 基于强化学习的对话式导诊方法、装置及存储介质 |
CN112201350A (zh) * | 2020-11-11 | 2021-01-08 | 北京嘉和海森健康科技有限公司 | 一种智能分诊方法、装置及电子设备 |
TWI795651B (zh) * | 2020-06-30 | 2023-03-11 | 廖珮宏 | 引導式智慧門診掛號輔助系統及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
-
2018
- 2018-10-15 CN CN201811193695.4A patent/CN109493956A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
Non-Patent Citations (1)
Title |
---|
薛天竹: "面向医疗领域的中文命名实体识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
CN110347838B (zh) * | 2019-07-17 | 2021-09-03 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110675944A (zh) * | 2019-09-20 | 2020-01-10 | 京东方科技集团股份有限公司 | 分诊方法及装置、计算机设备及介质 |
CN111613311A (zh) * | 2020-06-09 | 2020-09-01 | 广东珠江智联信息科技股份有限公司 | 一种智能ai导诊实现技术 |
TWI795651B (zh) * | 2020-06-30 | 2023-03-11 | 廖珮宏 | 引導式智慧門診掛號輔助系統及方法 |
CN111951959A (zh) * | 2020-08-23 | 2020-11-17 | 云知声智能科技股份有限公司 | 基于强化学习的对话式导诊方法、装置及存储介质 |
CN112201350A (zh) * | 2020-11-11 | 2021-01-08 | 北京嘉和海森健康科技有限公司 | 一种智能分诊方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493956A (zh) | 一种导诊方法 | |
CN110825721B (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
Al-Hroob et al. | The use of artificial neural networks for extracting actions and actors from requirements document | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN109472026A (zh) | 一种同时针对多个命名实体的精准情感信息提取方法 | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN113724819B (zh) | 医疗命名实体识别模型的训练方法、装置、设备及介质 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN112685513A (zh) | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
Ahanin et al. | A multi-label emoji classification method using balanced pointwise mutual information-based feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |