CN110931128B - 非结构化医疗文本无监督症状自动识别方法、系统、装置 - Google Patents
非结构化医疗文本无监督症状自动识别方法、系统、装置 Download PDFInfo
- Publication number
- CN110931128B CN110931128B CN201911232525.7A CN201911232525A CN110931128B CN 110931128 B CN110931128 B CN 110931128B CN 201911232525 A CN201911232525 A CN 201911232525A CN 110931128 B CN110931128 B CN 110931128B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- symptom
- medical
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000024891 symptom Diseases 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 230000002452 interceptive effect Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 201000010099 disease Diseases 0.000 abstract description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 10
- 238000005065 mining Methods 0.000 abstract description 4
- 238000012821 model calculation Methods 0.000 abstract description 2
- 208000003251 Pruritus Diseases 0.000 description 17
- 208000002193 Pain Diseases 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 206010037660 Pyrexia Diseases 0.000 description 8
- 208000009205 Tinnitus Diseases 0.000 description 6
- 231100000886 tinnitus Toxicity 0.000 description 6
- 208000005141 Otitis Diseases 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 208000019258 ear infection Diseases 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 208000015181 infectious disease Diseases 0.000 description 5
- 230000007803 itching Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010000021 21-hydroxylase deficiency Diseases 0.000 description 1
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010007134 Candida infections Diseases 0.000 description 1
- 206010010774 Constipation Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010020651 Hyperkinesia Diseases 0.000 description 1
- 208000000269 Hyperkinesis Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005906 menstruation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000016087 ovulation Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本挖掘领域,具体涉及了一种非结构化医疗文本无监督症状自动识别方法、系统、装置,旨在解决现有医疗文本疾病症状自动识别方法计算复杂度高、具有很高的不可解释性的问题。本发明包括:自动获取症状实体,基于其字/词的位置信息,建立位置识别模型;从症状实体集合中学习字/词的嵌入表示,计算词嵌入空间中字/词的交互分值;提取待识别非结构化医疗文本的字/词序列,结合其在症状实体中的位置标注和交互分值,自动识别文本的症状实体。本发明利用自动获取的症状词典,充分挖掘症状实体的构词规律,有效实现医学症状实体的无监督自动抽取,模型计算复杂度低、精度高,同时减轻人工标注数据的代价,降低成本、错误率,提高效率。
Description
背景技术
更准确地诊断出疾病,更快速地找到疾病问题的解决方案,是医学界乃至全世界不断追求的目标。近年来,生物医学出版物和互联网医疗应用的数量稳步增长,通过多种形式提供了空前数量的信息。随着现有知识的加速增长,特别是生物医学文献和学科边界的打破,手工跟踪所有新的相关发现,即使是专门的主题的相关发现,已经变得不可行。此外,大部分的生物医学文本以及医疗病患数据并不是很有用,而一些关键知识中的大部分仍然以非结构化文本信息的形式埋藏着,这样的非结构化文本信息中却蕴藏着大量的科学事实和患者最直接、最真实的健康信息和病例信息,并且这样的数据也有着广泛的参与人群,有着巨大的医学价值。
提高对于大规模信息的利用率,充分的挖掘其中潜藏的价值,得到的结果可以为用户提供更加丰富的医疗服务。比如,构建医疗知识图谱,在此基础上开发相关的应用,或者对病患信息进行并发症的检索,有助于医生为用户提供更加精确的诊断,也有助于专家扩充自己的知识积累。目前,在医疗和计算机领域,针对各种的医学文献、生物医学出版物以及电子病历报告等的数据挖掘方法已有不少,但是其中许多方法都需要特征工程和专家知识来获得良好的性能,无法完全自动化。此外,对于极其不规范的、含有大量不完整口语表达的非结构化文本数据的挖掘分析工作却不是很多。
近年来,基于深度学习的词嵌入技术被认为是一种更加先进的无监督处理虚拟信息的方法。词嵌入是一个术语,用于定义一组用于语言建模和特征学习的方法,其中词表中的词汇被映射成连续的高维空间中的向量,通常是几百维。在这种表示中,语料库中共享相似上下文的单词位于单词嵌入向量空间中非常接近的位置。除了表示单词的分布特征外,词向量还可以捕获文本中单词的语义和顺序信息,比基于频率的方法提供了更丰富的向量表示。
目前中文电子病历信息的识别仍属于起步阶段。在深度学习技术发展以来,基于深度神经网络的命名实体识别成为主流技术,一些学者采用了双向LSTM网络作为编码器,用单向LSTM网络作为解码器对电子新闻文本进行识别取得了不错的效果。一些学者采用各种深度学习算法进行识别,最后采用卷积神经网络的模型得到了一个相对比较好的效果。虽然这些方法表现出了词嵌入的通用性,且可以调用当前的自然语言处理工具进行文本分析,但是仍然缺少能够以完全无监督的方式自动从非结构化文本抽取信息的方法。而且,基于深度学习的方法具有很高的不可解释性,这对于医学领域来说是个很大的弊端,目前还没有计算复杂度低且具有一定可解释性的医疗文本挖掘方法。因此,急需能够自动分析文本来源、提取事实和知识并生成概括表示的新方法,以捕获疾病症状最相关的信息。
发明内容
为了解决现有技术中的上述问题,即现有医疗文本疾病症状自动识别方法计算复杂度高、具有很高的不可解释性的问题,本发明提供了一种非结构化医疗文本无监督症状自动识别方法,该症状自动识别方法包括:
步骤S10,获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
步骤S20,通过分词工具对所述医疗症状实体库中实体进行分词,并通过BIES序列标注策略对分词后的医疗症状字/词库中每一个字/词进行标注,构建字/词在医疗症状实体库中的位置识别模型;
步骤S30,通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,并计算所述词嵌入空间中字/词之间的交互分值;
步骤S40,将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合;
步骤S50,通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
步骤S60,基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体。
在一些优选的实施例中,步骤S20中“通过BIES序列标注策略对分词后的医疗症状字/词库中每一个字/词的位置进行标注,构建字/词在医疗症状实体库中的位置识别模型”,其方法为:
步骤S21,将所述医疗症状实体库中分词后未拆分的实体作为单个症状实体词,并标注S;将所述医疗症状实体库中被拆分为多个字/词的实体的首位字/词标注为B,末尾字/词标注为E,中间字/词标注为I;
步骤S22,基于标注后的医疗症状字/词库,构建字/词在医疗症状实体库中的位置识别模型。
在一些优选的实施例中,步骤S30中“通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示”,其方法为:
步骤S311,以所述医疗症状字/词库中字/词为节点,直接上下文关系为边,构建异质文本图;
步骤S312,通过聚合所述异质文本图中节点附近的一阶邻居节点获得每个字/词在词嵌入空间的表示。
在一些优选的实施例中,步骤S30中“计算所述词嵌入空间中字/词之间的交互分值”,其方法为:
步骤S321,通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率;
步骤S322,基于所述词嵌入空间中相邻字/词的数量和簇占用率,通过向量相似性度量法获取词嵌入空间中字/词之间的交互分值。
在一些优选的实施例中,步骤S321中“通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率”,其方法为:
步骤S3211,基于所述词嵌入空间,分别建立两两字/词之间的向量,获得向量集合,并通过聚类算法对所述向量集合进行聚类,获得每个字/词的聚类类别特征;
步骤S3212,基于所述每个字/词的聚类类别特征、字/词和向量建立索引,获得三个特征的一一映射关系;对所述向量集合中任一向量,通过近邻算法获取其距离最近的k个向量,并获取k个向量对应每个聚类类别的离散概率分布;
步骤S3213,基于所述三个特征的一一映射关系、k个向量对应每个聚类类别的离散概率分布,获得相邻字/词的数量和簇占用率。
在一些优选的实施例中,步骤S322中“通过向量相似性度量法获取词嵌入空间中字/词之间的交互分值”,其方法为:
步骤S3221,基于所述相邻字/词的数量和簇占用率构建离散概率分布矩阵,并分别计算词嵌入空间中两两字/词之间的距离;
步骤S3222,基于所述词嵌入空间中两两字/词之间的距离,通过预设的得分函数计算词嵌入空间中字/词之间的交互分值。
在一些优选的实施例中,步骤S60中“基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体”,其方法为:
步骤S61,提取所述待识别标注字/词序列标注为S的字/词,获得单个症状实体、剩余带标注字/词序列;
步骤S62,判断所述剩余带标注字/词序列长度是否大于1,是则使用正向匹配和反向回溯算法遍历所述剩余带标注字/词序列,获取连续的B-I-E序列、B-E序列;
步骤S63,组合所述B-E序列,获得BE组合症状实体;分别获取每个B-I-E序列中间字/词和首位字/词、末尾字/词的交互分值并计算均值,所述均值大于设定阈值的中间字/词与首位字/词、末尾字/词组合,获得BIE组合症状实体;
步骤S64,所述单个症状实体、BE组合症状实体、BIE组合症状实体为待识别非结构化医疗文本的症状实体。
本发明的另一方面,提出了一种非结构化医疗文本无监督症状自动识别系统,该症状自动识别系统包括输入模块、医疗症状实体库、医疗症状字/词库、位置识别模块、交互分值获取模块、症状实体提取模块、输出模块;
所述输入模块,配置为将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合并输入;
所述医疗症状实体库,配置为获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
所述医疗症状字/词库,配置为通过分词工具对所述医疗症状实体库中实体进行分词,获得医疗症状字/词库;
所述位置识别模块,配置为通过BIES序列标注策略对医疗症状字/词库中每一个字/词进行标注后构建位置识别模型,并通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
所述交互分值获取模块,配置为通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,并计算所述词嵌入空间中字/词之间的交互分值;
所述症状实体获取模块,配置为基于待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取单个症状实体、BE组合症状实体、BIE组合症状实体;
所述输出模块,配置为输出获取的单个症状实体、BE组合症状实体、BIE组合症状实体作为待识别非结构化医疗文本的症状实体。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的非结构化医疗文本无监督症状自动识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的非结构化医疗文本无监督症状自动识别方法。
本发明的有益效果:
(1)本发明非结构化医疗文本无监督症状自动识别方法,利用自动获取的症状词典,综合考虑实体之间交互关系,充分挖掘症状实体之间的潜在关系,形成具有良好泛化能力的预测模型,可以有效识别未见症状,避免了采用深度学习方法中的不可解释性问题,模型计算复杂度低、精度高、鲁棒性好。
(2)本发明方法实现医学症状实体的无监督自动抽取,同时以症状为线索可以强有力地支持医学智能辅助诊断服务以及医学知识图谱的自动构建,不需要专家和手工的管理,可以自动地对训练数据进行标注,节约了大量人力、物力成本,还可以最大程度地减轻人工标注数据的错误率高、效率低的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明非结构化医疗文本无监督症状自动识别方法的流程示意图;
图2是本发明非结构化医疗文本无监督症状自动识别方法一种实施例的位置识别模型构建流程示意图;
图3是本发明非结构化医疗文本无监督症状自动识别方法一种实施例的获取词嵌入空间中字/词之间交互分值的流程示意图;
图4是本发明非结构化医疗文本无监督症状自动识别方法一种实施例的异质文本图;
图5是本发明非结构化医疗文本无监督症状自动识别方法一种实施例的获取待识别非结构化医疗文本症状实体的流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种非结构化医疗文本无监督症状自动识别方法,该症状自动识别方法包括:
步骤S10,获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
步骤S20,通过分词工具对所述医疗症状实体库中实体进行分词,并通过BIES序列标注策略对分词后的医疗症状字/词库中每一个字/词进行标注,构建字/词在医疗症状实体库中的位置识别模型;
步骤S30,通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,并计算所述词嵌入空间中字/词之间的交互分值;
步骤S40,将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合;
步骤S50,通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
步骤S60,基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体。
为了更清晰地对本发明非结构化医疗文本无监督症状自动识别方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的非结构化医疗文本无监督症状自动识别方法,包括步骤S10-步骤S60,各步骤详细描述如下:
步骤S10,获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库。
本发明一个实施例中,选择的互联网站为春雨医生、名医在线、微医和39健康网,基于这些网站,分析网页结构,收集网页中只包含症状实体信息的词条,而不是症状描述语句。例如:‘月经、排卵、胎动、无胎动、肚子疼、白带异常、21-羟化酶缺陷症’,而不是‘有时候,身体的某些症状并非一定就是某种疾病导致的,身体在亚健康状态,疲劳状态,运动过度,饮食影响,疾病康复阶段等,也会出现一些类似疾病的症状,需要加以辨别。’之类的病情描述信息。
对收集到的医疗症状数据使用预设的规则进行清洗,构成医疗症状实体库。例如:‘全身发热!<http://qiye.tianya.cn//blog/infoRea>发热门诊’,将其处理为:‘全身发热’。
按照上述的数据处理方法,将所有的医疗症状数据全部整理为只包含症状实体的序列,获得医疗症状实体库。
步骤S20,通过分词工具对所述医疗症状实体库中实体进行分词,并通过BIES序列标注策略对分词后的医疗症状字/词库中每一个字/词进行标注,构建字/词在医疗症状实体库中的位置识别模型。
如图2所示,为本发明非结构化医疗文本无监督症状自动识别方法一种实施例的位置识别模型构建流程示意图,其具体过程如下:
通过分词工具对医疗症状实体库中实体进行分词,构成初步的医疗症状字/词库,例如症状实体“鼻端弥漫性潮红”被分为“鼻端弥漫性潮红”。
步骤S21,将所述医疗症状实体库中分词后未拆分的实体作为单个症状实体词,并标注为S;将所述医疗症状实体库中被拆分为多个字/词的实体的首位字/词标注为B,末尾字/词标注为E,中间字/词标注为I。
对于词条来说,一般会分为两种:一种是不可分原子词,不可分原子词经过分词器之后不会被分开,例如:‘感冒’,‘发热’等等;另一种是组合词,组合词本身由多个原子词组合在一起构成整个词条的,这样的词条经过分词器之后,会被分词器分割成多个原子词。
经过普通分词器分词之后没有被分开的原子词,作为单个症状实体,将其标注为‘S’。例如,‘发热’这种没有被分词的原子词,其标注为‘S’。
经过普通分词器分词之后被分成多个字/词的实体,使用‘B’标注首位字/词,用‘E’标注末尾字/词,用‘I’标注所有中间字/词(若只存在两个字/词,则只标注首位和末尾字/词)。例如:‘白色念珠菌感染’,将第一个词‘白色’标注为‘B’代表开始的位置,将最后一个词‘感染’标注为‘E’代表结束的位置,将所有中间出现的字/词全部标注为‘I’;如果只存在两个字/词,例如‘白带异常’,则将‘白带’标注为‘B’,将‘异常’标注为‘E’。标注符号可以进行替换,本发明仅此为例进行说明,在此不再一一详述其他标注符号。
重复以上的步骤,将所有的症状字/词库中的字/词全部通过BIES的自动标注策略进行标注。
步骤S22,基于标注后的医疗症状字/词库,构建字/词在医疗症状实体库中的位置识别模型。
根据症状字/词标注语料库中症状实体组成要素(字/词)的位置信息,建立字/词在症状实体中的位置识别模型,在本发明一个实施例中,采用双向LSTM编码网络(包括前向LSTM层、后向LSTM层、级联层)对每个字/词的语义信息进行捕获,通过单词嵌入层将one-hot表示的单词转换为嵌入向量。因此,字/词序列如式(1)所示:
W={w1,...wt,wt+1,...wn} 式(1)
其中,wt是字/词序列中第t个字/词的向量,n是字/词序列的长度。
使用单向LSTM结构作为解码层产生标注序列,最后的softmax层基于LSTM解码层的输出计算标准化的字/词标注的概率,如式(2)所示:
步骤S30,通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,并计算所述词嵌入空间中字/词之间的交互分值。如图3所示,为本发明非结构化医疗文本无监督症状自动识别方法一种实施例的获取词嵌入空间中字/词之间交互分值的流程示意图,其具体过程如下:
步骤S311,以所述医疗症状字/词库中字/词为节点,直接上下文关系为边,构建异质文本图。
如图4所示,为本发明非结构化医疗文本无监督症状自动识别方法一种实施例的异质文本图,症状字/词序列:‘便秘伴剧烈疼痛’、‘剧烈咳嗽’、‘伴有失眠’,可根据直接上下文关系将它们构成异质文本图。
步骤S312,通过聚合所述异质文本图中节点附近的一阶邻居节点获得每个字/词在词嵌入空间的表示。
本发明一个实施例中,采用GraphSage算法训练步骤S311得到的异质文本图,通过聚合每个节点附近的一阶邻居节点获得每个节点具有直接上下文关系的嵌入表示。
步骤S321,通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率。
步骤S3211,基于所述词嵌入空间,分别建立两两字/词之间的向量,获得向量集合,并通过聚类算法对所述向量集合进行聚类,获得每个字/词的聚类类别特征。
建立字/词与字/词向量的索引,例如:{‘发热’:W1,‘感冒’:W2},W1和W2是分别对应于‘发热’和‘感冒’的词向量。
步骤S3212,基于所述每个字/词的聚类类别特征、字/词和向量建立索引,获得三个特征的一一映射关系;对所述向量集合中任一向量,通过近邻算法获取其距离最近的k个向量,并获取k个向量对应每个聚类类别的离散概率分布。
建立三个特征的一一映射关系,例如:[[‘发热’,W1,C1],[‘感冒’,W2,C2]],C1和C2是‘发热’和‘感冒’经过聚类算法之后获得的聚类类别特征。
步骤S3213,基于所述三个特征的一一映射关系、k个向量对应每个聚类类别的离散概率分布,获得相邻字/词的数量和簇占用率。
步骤S322,基于所述词嵌入空间中相邻字/词的数量和簇占用率,通过向量相似性度量法获取词嵌入空间中字/词之间的交互分值。
步骤S3221,基于所述相邻字/词的数量和簇占用率构建离散概率分布矩阵,并分别计算词嵌入空间中两两字/词之间的距离。
例如,构建如表1所示的离散概率分布矩阵:
表1
词汇 | C1 | C2 | ...... | Cn |
发热 | P1=m1/k | P2=m2/k | Pi=mi/k | Pn=mn/k |
其中,C*代表聚类之后的类别;P*是对应于‘发热’最近的k个词中,对于每个聚类类别分别有多少个词向量的离散概率分布,m是指在距离这个词最近的k个词中有m个是属于第C类的。
本发明一个实施例中,采用KL散度计算每个词对中两个字/词的KL距离,如式(3)所示:
其中,P和Q分别指两个字/词的离散概率分布矩阵。
步骤S3222,基于所述词嵌入空间中两两字/词之间的距离,通过预设的得分函数计算词嵌入空间中字/词之间的交互分值。
通过得到的KL距离计算JS散度,如式(4)、式(5)所示:
根据嵌入空间中的距离结合打分函数计算出两个字/词之间的交互分值,如式(6)所示:
S=exp(-αJSD+β) 式(6)
其中,α和β是权重和惩罚因子。
如图5所示,为本发明非结构化医疗文本无监督症状自动识别方法一种实施例的获取待识别非结构化医疗文本症状实体的流程示意图,其具体过程如下:
步骤S40,将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合。
对待识别非结构化文本使用标点符号进行分句,根据每一句中的标点符号构成匹配模板,通过每一句的标点符号把待识别非结构化医疗文本分成多个短句,后续所有的操作全部都按照短句为一个单位。例如:‘请问医生,最近一个月来,耳朵一开始有感染之后还好但耳鸣越发痒痛检查不出病因怎么办?’。将其处理为:‘请问医生’,‘最近一个月来’,‘耳朵一开始有感染之后还好但化验有耳鸣越发痒痛检查不出病因怎么办’。
将得到的医学症状字/词库加入到分词器的用户词典中,对待识别非结构化文本进行分词,例如:‘请问医生’,‘最近一个月来’,‘耳朵一开始有感染之后还好但耳鸣越发痒痛检查不出病因怎么办’。
提取短句在医疗症状字/词库中出现过的字/词,获得待识别字/词集合,例如:‘耳朵开始感染好耳鸣痒痛检查病因’。
步骤S50,通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列。
步骤S60,基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体。
步骤S61,提取所述待识别标注字/词序列标注为S的字/词,获得单个症状实体、剩余带标注字/词序列。
经过位置识别模型的标注后,检测字/词序列中是否存在‘S’标注的字/词,如果存在,就直接将其作为单个症状实体抽取出来,将剩余字/词序列留作接下来检测BIE的语料;如果不存在,则到下一步骤继续处理。例如,标注后序列为‘耳朵开始感染好耳鸣痒痛检查病因B I I I S E I B’。将标注为‘S’的‘耳鸣’抽取出来,将剩余序列‘耳朵开始感染好痒痛检查病因B I I I E I B’留作接下来检测BIE的语料进行下一步的处理。
步骤S62,判断所述剩余带标注字/词序列长度是否大于1,是则使用正向匹配和反向回溯算法遍历所述剩余带标注字/词序列,获取连续的B-I-E序列、B-E序列。
首先,检测每条经过位置识别模型标注的字/词序列,如果同时存在B、E的标注,就将其保留做下一步的操作;如果没有同时存在,则结束抽取过程。
例如,剩余序列‘耳朵开始感染好痒痛检查病因BI I I E I B’,其中同时存在‘B’和‘E’标注的字/词,所以进行下一步的操作。
其次,将得到的字/词序列从第一个字/词开始正向扫描,如果找到‘E’标注的位置,就记录下来,然后继续正向扫描,查找紧接着这个‘E’标注的词后面是否存在连续出现的‘E’标注的词语,如果存在,就继续扫描直到最后一个连续出现的‘E’标注的词语的位置;如果不存在,那么就停止扫描,结束抽取。
例如,对上述得到的字/词序列‘耳朵开始感染好痒痛检查病因B I I I E I B’,经过正向遍历后得到的最后一个‘E’标注的位置为5。
再其次,根据正向遍历的序列,从正向遍历第一个‘E’标注的位置开始,开始进行反向回溯,这里有两种情况:(1)如果回溯到第一个字/词时仍没有检测到标注‘B’标注的字/词,那么就舍弃这个序列,结束抽取;(2)如果检测到第一个‘B’标签标注的字/词,就把这个位置记录下来,继续回溯,检测是否存在连续出现的使用标签‘B’标注的词语,如果存在,就继续回溯,将反向回溯最后一个出现的‘B’标签标注的字/词的位置记录下来;如果不存在,就结束回溯。
例如,对于上述得到的字/词序列‘耳朵开始感染好痒痛检查病因B I I I E I B’结合正向遍历得到的最后一个‘E’的位置5进行反向回溯,得到最后一个‘B’标注的位置是1。
最后,把反向回溯的最后一个‘B’标注的词的位置开始到正向遍历的最后一个‘E’标注的位置的这部分字/词序列截取出来,作为最后一步症状实体识别的字/词序列。
在经过上述步骤之后,给定的非结构化医疗文本被处理为B-I-E或B-E的形式,例如:‘耳朵开始感染好痒痛B I I I E’。
步骤S63,组合所述B-E序列,获得BE组合症状实体;分别获取每个B-I-E序列中间字/词和首位字/词、末尾字/词的交互分值并计算均值,所述均值大于设定阈值的中间字/词与首位字/词、末尾字/词组合,获得BIE组合症状实体。
对于连续出现的B-I-E序列,将每个‘I’标注的字/词分别和距离其最近的‘B’标注的字/词组成B-I词对,和距离其最近的‘E’标注的字/词组成I-E词对,并计算它们之间的交互分值。
例如:对于‘耳朵开始感染好痒痛B I I I E’,有B-I词对:(耳朵,开始,0.32),(耳朵,感染,0.56),(耳朵,好,0.12);有I-E词对:(开始,痒痛,0.24),(感染,痒痛,0.63),(好,痒痛,0.13)。
对于每个‘I’标注的字/词构成的两个词对B-I和I-E,计算其交互分值的均值,如式(7)所示:
其中,simB代表B-I词对的交互分值,simE代表I-E词对的交互分值。
本发明一个实施例中,设定阈值为0.5,sim大于此阈值就将‘I’标注的字/词和首尾字/词组合,小于阈值的就舍弃。
例如,上述的词对中,交互分值大于0.5的有(耳朵,感染,0.56)和(感染,痒痛,0.63)两个词对,因此,将‘感染’和‘耳朵’、‘痒痛’组合构成‘耳朵感染痒痛’的BIE症状实体。
步骤S64,所述单个症状实体、BE组合症状实体、BIE组合症状实体为待识别非结构化医疗文本的症状实体。
对每一个字/词序列进行上述的操作,最终获得的单个症状实体、BE组合症状实体、BIE组合症状实体为待识别非结构化医疗文本的症状实体。
本发明第二实施例的非结构化医疗文本无监督症状自动识别系统,该症状自动识别系统包括输入模块、医疗症状实体库、医疗症状字/词库、位置识别模块、交互分值获取模块、症状实体提取模块、输出模块;
所述输入模块,配置为将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合并输入;
所述医疗症状实体库,配置为获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
所述医疗症状字/词库,配置为通过分词工具对所述医疗症状实体库中实体进行分词,获得医疗症状字/词库;
所述位置识别模块,配置为通过BIES序列标注策略对医疗症状字/词库中每一个字/词进行标注后构建位置识别模型,并通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
所述交互分值获取模块,配置为通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,并计算所述词嵌入空间中字/词之间的交互分值;
所述症状实体获取模块,配置为基于待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取单个症状实体、BE组合症状实体、BIE组合症状实体;
所述输出模块,配置为输出获取的单个症状实体、BE组合症状实体、BIE组合症状实体作为待识别非结构化医疗文本的症状实体。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的非结构化医疗文本无监督症状自动识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的非结构化医疗文本无监督症状自动识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的非结构化医疗文本无监督症状自动识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种非结构化医疗文本无监督症状自动识别方法,其特征在于,该症状自动识别方法包括:
步骤S10,获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
步骤S20,通过分词工具对所述医疗症状实体库中实体进行分词,获得初步的医疗症状字/词库;
通过BIES序列标注策略对所述初步的医疗症状字/词库中每一个字/词进行标注,获得标注后的医疗症状字/词库;
基于标注后的医疗症状字/词库,构建字/词在医疗症状实体库中的位置识别模型;
步骤S30,通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率,并基于所述词嵌入空间中相邻字/词的数量和簇占用率构建离散概率分布矩阵,分别采用KL散度计算词嵌入空间中两两字/词之间的距离:
其中,P和Q分别指两个字/词的离散概率分布矩阵;
基于所述词嵌入空间中两两字/词之间的距离,通过得到的KL距离计算JS散度,结合打分函数计算词嵌入空间中字/词之间的交互分值:
S=exp(-αJSD+β)
其中,α和β是权重和惩罚因子;
步骤S40,将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合;
步骤S50,通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
步骤S60,基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体。
2.根据权利要求1所述的非结构化医疗文本无监督症状自动识别方法,其特征在于,步骤S20中“通过BIES序列标注策略对所述初步的医疗症状字/词库中每一个字/词的位置进行标注,获得标注后的医疗症状字/词库”,其方法为:
步骤S21,将所述医疗症状实体库中分词后未拆分的实体作为单个症状实体词,并标注为S;将所述医疗症状实体库中被拆分为多个字/词的实体的首位字/词标注为B,末尾字/词标注为E,中间字/词标注为I;
重复以上的步骤,将所有的症状字/词库中的字/词全部通过BIES的自动标注策略进行标注,获得标注后的医疗症状字/词库。
3.根据权利要求1所述的非结构化医疗文本无监督症状自动识别方法,其特征在于,步骤S30中“通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示”,其方法为:
步骤S311,以所述医疗症状字/词库中字/词为节点,直接上下文关系为边,构建异质文本图;
步骤S312,通过聚合所述异质文本图中节点附近的一阶邻居节点获得每个字/词在词嵌入空间的表示。
4.根据权利要求1所述的非结构化医疗文本无监督症状自动识别方法,其特征在于,所述通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率,其方法为:
步骤S3211,基于所述词嵌入空间,分别建立两两字/词之间的向量,获得向量集合,并通过聚类算法对所述向量集合进行聚类,获得每个字/词的聚类类别特征;
步骤S3212,基于所述每个字/词的聚类类别特征、字/词和向量建立索引,获得三个特征的一一映射关系;对所述向量集合中任一向量,通过近邻算法获取其距离最近的k个向量,并获取k个向量对应每个聚类类别的离散概率分布;
步骤S3213,基于所述三个特征的一一映射关系、k个向量对应每个聚类类别的离散概率分布,获得相邻字/词的数量和簇占用率。
5.根据权利要求2所述的非结构化医疗文本无监督症状自动识别方法,其特征在于,步骤S60中“基于所述待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取待识别非结构化医疗文本的症状实体”,其方法为:
步骤S61,提取所述待识别标注字/词序列标注为S的字/词,获得单个症状实体、剩余带标注字/词序列;
步骤S62,判断所述剩余带标注字/词序列长度是否大于1,是则使用正向匹配和反向回溯算法遍历所述剩余带标注字/词序列,获取连续的B-I-E序列、B-E序列;
步骤S63,组合所述B-E序列,获得BE组合症状实体;分别获取每个B-I-E序列中间字/词和首位字/词、末尾字/词的交互分值并计算均值,所述均值大于设定阈值的中间字/词与首位字/词、末尾字/词组合,获得BIE组合症状实体;
步骤S64,所述单个症状实体、BE组合症状实体、BIE组合症状实体为待识别非结构化医疗文本的症状实体。
6.一种非结构化医疗文本无监督症状自动识别系统,其特征在于,该症状自动识别系统包括输入模块、医疗症状实体库、医疗症状字/词库、位置识别模块、交互分值获取模块、症状实体提取模块、输出模块;
所述输入模块,配置为将待识别非结构化医疗文本划分为短句,并提取所述短句在所述医疗症状字/词库中出现过的字/词,获得待识别字/词集合并输入;
所述医疗症状实体库,配置为获取互联网医疗平台医疗症状语料,并通过预设的规则进行语料数据清洗,获得医疗症状实体库;
所述医疗症状字/词库,配置为通过分词工具对所述医疗症状实体库中实体进行分词,获得初步的医疗症状字/词库;
所述位置识别模块,配置为通过BIES序列标注策略对医疗症状字/词库中每一个字/词进行标注,获得标注后的医疗症状字/词库,基于标注后的医疗症状字/词库,构建字/词在医疗症状实体库中的位置识别模型,并通过所述位置识别模型对所述待识别字/词集合中每一个字/词进行标注,获得待识别标注字/词序列;
所述交互分值获取模块,配置为通过聚合的方法获取所述医疗症状字/词库中每一个字/词在词嵌入空间的表示,通过聚类算法结合近邻算法获取所述词嵌入空间中相邻字/词的数量和簇占用率,并基于所述词嵌入空间中相邻字/词的数量和簇占用率构建离散概率分布矩阵,分别计算词嵌入空间中两两字/词之间的距离,基于所述词嵌入空间中两两字/词之间的距离,通过预设的得分函数计算词嵌入空间中字/词之间的交互分值;
所述症状实体获取模块,配置为基于待识别标注字/词序列、词嵌入空间中字/词之间的交互分值,获取单个症状实体、BE组合症状实体、BIE组合症状实体;
所述输出模块,配置为输出获取的单个症状实体、BE组合症状实体、BIE组合症状实体作为待识别非结构化医疗文本的症状实体;
其中,词嵌入空间中两两字/词之间的距离以及字/词之间的交互分值的计算方法为:
S=exp(-αJSD+β)
其中,P和Q分别指两个字/词的离散概率分布矩阵,α和β是权重和惩罚因子。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的非结构化医疗文本无监督症状自动识别方法。
8.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-5任一项所述的非结构化医疗文本无监督症状自动识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232525.7A CN110931128B (zh) | 2019-12-05 | 2019-12-05 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232525.7A CN110931128B (zh) | 2019-12-05 | 2019-12-05 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110931128A CN110931128A (zh) | 2020-03-27 |
CN110931128B true CN110931128B (zh) | 2023-04-07 |
Family
ID=69856860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911232525.7A Active CN110931128B (zh) | 2019-12-05 | 2019-12-05 | 非结构化医疗文本无监督症状自动识别方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931128B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627561B (zh) * | 2020-05-25 | 2023-05-12 | 讯飞医疗科技股份有限公司 | 标准症状抽取方法、装置、电子设备和存储介质 |
CN111985246B (zh) * | 2020-08-27 | 2023-08-15 | 武汉东湖大数据交易中心股份有限公司 | 一种基于主要症状与伴随症状词的疾病认知系统 |
CN112115705B (zh) * | 2020-09-23 | 2024-06-18 | 普信恒业科技发展(北京)有限公司 | 一种电子简历的筛选方法及装置 |
CN113010643B (zh) * | 2021-03-22 | 2023-07-21 | 平安科技(深圳)有限公司 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
CN114596931B (zh) * | 2022-05-10 | 2022-08-02 | 上海柯林布瑞信息技术有限公司 | 基于病历的医学实体和关系联合提取方法和装置 |
CN117198547B (zh) * | 2023-09-01 | 2024-04-30 | 湖北中医药大学 | 中医临床科研知识智能提取方法及系统 |
CN118016314B (zh) * | 2024-04-08 | 2024-06-18 | 北京大学第三医院(北京大学第三临床医学院) | 一种医疗数据输入的优化方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN108511036A (zh) * | 2018-02-05 | 2018-09-07 | 华东理工大学 | 一种中文症状标注的方法及系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
-
2019
- 2019-12-05 CN CN201911232525.7A patent/CN110931128B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN108511036A (zh) * | 2018-02-05 | 2018-09-07 | 华东理工大学 | 一种中文症状标注的方法及系统 |
CN108628824A (zh) * | 2018-04-08 | 2018-10-09 | 上海熙业信息科技有限公司 | 一种基于中文电子病历的实体识别方法 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110931128A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN106874643B (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN108062978B (zh) | 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法 | |
CN111145903B (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN112232065A (zh) | 挖掘同义词的方法及装置 | |
Ma et al. | Constructing a semantic graph with depression symptoms extraction from twitter | |
CN118296120A (zh) | 多模态多尺度多路召回的大型语言模型检索增强生成方法 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
CN113688624A (zh) | 一种基于语言风格的人格预测方法及装置 | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 | |
Nieddu et al. | In Codice Ratio: A crowd-enabled solution for low resource machine transcription of the Vatican Registers | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN117131383A (zh) | 一种提高双塔模型搜索精排性能的方法 | |
Otani et al. | Large-scale acquisition of commonsense knowledge via a quiz game on a dialogue system | |
Bender et al. | Identifying and translating subjective content descriptions among texts | |
Corrada-Emmanuel et al. | Answer passage retrieval for question answering | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish | |
CN112733542B (zh) | 主题的探测方法、装置、电子设备及存储介质 | |
CN113688242A (zh) | 一种通过网络搜索结果的文本分类来分类医学术语的方法 | |
CN112101021A (zh) | 一种实现标准词映射的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |