CN111368094B - 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 - Google Patents
实体知识图谱建立、属性信息获取、门诊分诊方法及装置 Download PDFInfo
- Publication number
- CN111368094B CN111368094B CN202010124307.8A CN202010124307A CN111368094B CN 111368094 B CN111368094 B CN 111368094B CN 202010124307 A CN202010124307 A CN 202010124307A CN 111368094 B CN111368094 B CN 111368094B
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- word
- text
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title description 16
- 238000000926 separation method Methods 0.000 title description 2
- 230000011218 segmentation Effects 0.000 claims abstract description 262
- 238000000034 method Methods 0.000 claims abstract description 158
- 238000012549 training Methods 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 157
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 208000024827 Alzheimer disease Diseases 0.000 description 28
- 201000010099 disease Diseases 0.000 description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 19
- 206010012601 diabetes mellitus Diseases 0.000 description 10
- 206010024119 Left ventricular failure Diseases 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 206010039966 Senile dementia Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 206010019280 Heart failures Diseases 0.000 description 5
- 238000011840 criminal investigation Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 210000002700 urine Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 206010006451 bronchitis Diseases 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种实体知识图谱建立、属性信息获取、门诊分诊方法及装置,实体知识图谱建立过程为:利用通过第一文本及第一分词结果训练得到的实体识别模型和/或包括目标领域术语词典的目标领域分词器对第二文本进行实体识别,以便在将识别得到的实体及对应的实体类别标签添加到目标领域实体列表后,获取目标领域实体列表中实体间关联关系及实体相关属性,利用目标领域实体列表中实体对应的实体类别标签、实体间关联关系及实体相关属性建立目标领域实体知识图谱,使得目标领域实体知识图谱能够准确地记录有基于目标领域中已有文档学习到的有用信息。
Description
技术领域
本申请涉及信息处理技术领域,具体涉及一种目标领域实体知识图谱建立方法、属性信息获取方法、门诊分诊方法及装置、设备。
背景技术
在一些技术领域(例如,医疗领域或刑侦领域等),可以从该技术领域中的已有文档(例如,医疗领域中的历史病历、医学文献等或刑侦领域中的历史询问笔录、刑侦文献等)学习到可用信息,以便后续可以利用这些可用信息来分析该技术领域中的新文档(例如,医疗领域中的新病历或刑侦领域中的新询问笔录)。
另外,上述可用信息通常是利用基于该技术领域的专家规则构建的专家系统进行学习的。其中,因针对不同已有文档制定的专家规则是不同的,甚至是相反的,如此导致利用专家系统学习到的可用信息的准确性会产生跷跷板现象。
发明内容
有鉴于此,本申请实施例提供一种实体知识图谱建立、属性信息获取、门诊分诊方法及装置,能够准确地从已有文档中学习可用信息。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,提供一种目标领域实体知识图谱建立方法,所述方法包括:
利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。
在第一方面的第一种可能的实现方式中,所述方法还包括:
利用目标领域分词器对第一文本进行分词得到第一分词结果,所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;
利用所述第一文本以及所述第一分词结果训练得到实体识别模型。
在第一方面的第二种可能的实现方式中,所述利用所述第一文本以及所述第一分词结果训练得到实体识别模型,包括:
根据所述第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
在第一方面的第三种可能的实现方式中,所述利用实体识别模型对第二文本进行实体识别,包括:
将第二文本输入所述字向量模型,得到所述第二文本中各个字符的字向量;
将所述第二文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签;
根据所述第二文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,根据所述第二文本中各个字符对应的实体类别标签确定所述第二文本中包含的实体对应的实体类别标签。
在第一方面的第四种可能的实现方式中,所述将识别得到的实体对应的实体类别标签添加到目标领域实体列表,包括:
当未确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到目标领域实体列表;
当确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
在第一方面的第五种可能的实现方式中,所述利用目标领域分词器对第二文本进行实体识别,包括:
利用所述目标领域分词器对第二文本进行分词,当所述第二文本包含的分词对应有实体类别标签时,将该分词确定为实体;
所述将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表,包括:
将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
在第一方面的第六种可能的实现方式中,所述方法还包括:
计算所述目标领域实体列表中目标实体与其他实体的相似性;
根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体。
在第一方面的第七种可能的实现方式中,所述计算所述目标领域实体列表中目标实体与其他实体的相似性,包括:
根据所述第一文本以及所述第一分词结果中的第一分词训练词向量模型;
将所述目标领域实体列表中的实体输入所述词向量模型,得到各个所述实体的词向量;
计算所述目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为所述目标领域实体列表中目标实体与其他实体的相似性。
在第一方面的第八种可能的实现方式中,所述方法还包括:
当所述目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
在第一方面的第九种可能的实现方式中,所述方法还包括:
获取所述第一分词中的连续单字词;
计算所述单字词与邻接词的互信息,将所述互信息满足第一阈值范围的单字词确定为候选单字词;
计算候选单字词的左邻接熵以及右邻接熵,根据所述左邻接熵确定所述候选单字词是否与左邻接词合并和/或根据所述右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增目标领域术语;
将所述新增目标领域术语以及所述新增目标领域术语对应的类别标签添加到所述目标领域术语词典中。
在第一方面的第十种可能的实现方式中,所述目标领域术语词典为医疗领域术语词典,所述目标领域术语为医疗领域术语,所述目标领域分词器为医疗领域分词器,所述目标领域实体列表为医疗领域实体列表,所述目标领域实体知识图谱为医疗领域实体知识图谱。
第二方面,提供一种属性信息获取方法,所述方法包括:
获取目标文本;
利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在第一方面、第一方面的第一种可能的实现方式到第一方面的第九种可能的实现方式中任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据第一方面、第一方面的第一种可能的实现方式到第一方面的第九种可能的实现方式中任一项所述的目标领域实体知识图谱建立方法建立的。
在第二方面的第一种可能的实现方式中,所述实体识别模型的训练过程包括:
根据第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
在第二方面的第二种可能的实现方式中,所述利用实体识别模型对所述目标文本进行实体识别得到目标实体,包括:
将目标文本输入所述字向量模型,得到所述目标文本中各个字符的字向量;
将所述目标文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述目标文本中各个字符对应的字符序列标签;
根据所述目标文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
在第二方面的第三种可能的实现方式中,所述利用目标领域实体列表对所述目标文本进行实体识别得到目标实体,包括:
在所述目标领域实体列表中查找所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
第三方面,提供一种实现门诊分诊的方法,其特征在于,所述方法包括:
获取病历文本;
利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在第一方面的第十种可能的实现方式所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;
在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据第一方面的第十种可能的实现方式所述的目标领域实体知识图谱建立方法建立的;
当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。
第四方面,提供一种目标领域实体知识图谱建立装置,其特征在于,所述装置包括:
文本实体识别单元,用于利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
实体列表添加单元,用于将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
关系属性获取单元,用于获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
知识图谱构建单元,用于利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。
第五方面,提供一种属性信息获取装置,其特征在于,所述装置包括:
目标文本获取单元,用于获取目标文本;
目标实体获取单元,用于利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在第一方面、第一方面的第一种可能的实现方式到第一方面的第九种可能的实现方式中任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
属性关系查找单元,用于在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据第一方面、第一方面的第一种可能的实现方式到第一方面的第九种可能的实现方式中任一项所述的目标领域实体知识图谱建立方法建立的。
第六方面,一种实现门诊分诊的装置,其特征在于,所述装置包括:
病历文本获取单元,用于获取病历文本;
目标实体识别单元,用于利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在第一方面的第十种可能的实现方式所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;
关系属性确定单元,用于在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据第一方面的第十种可能的实现方式所述的目标领域实体知识图谱建立方法建立的;
关系属性输出单元,用于当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。
第七方面,一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现第一方面任一项所述的目标领域实体知识图谱建立方法、或者第二方面任一项所述的属性信息获取方法、或者第三方面所述的实现门诊分诊的方法。
第八方面,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如第一方面任一项所述的目标领域实体知识图谱建立方法、或者第二方面任一项所述的属性信息获取方法、或者第三方面所述的实现门诊分诊的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的目标领域实体知识图谱建立方法中,可以利用基于第一文本训练得到的实体识别模型对第二文本进行实体识别,和/或,利用包括目标领域术语词典的目标领域分词器对第二文本进行实体识别,以便在将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表之后,可以先获取该目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性,再利用该目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱,如此使得该目标领域实体知识图谱能够准确地记录有基于该目标领域中已有文档学习到的有用信息,以便后续可以使用该目标领域实体知识图谱来分析目标领域中的新文档。其中,因目标领域实体知识图谱中记录了从不同已有文档中学习到的有用信息,使得在分析新文档时,可以直接获取与该新文档匹配的有用信息,从而有利于提高新文档的分析准确性。
附图说明
图1为本申请实施例提供的目标领域实体知识图谱建立方法的场景示意图;
图2为本申请实施例提供的一种目标领域实体知识图谱建立方法的流程图;
图3为本申请实施例提供的医疗领域实体列表的构建示意图;
图4为本申请实施例提供的利用实体识别模型对第二文本进行实体识别的流程示意;
图5为本申请实施例提供的基于第二文本构建医疗领域实体知识图谱的示意图;
图6为本申请实施例提供的一种属性信息获取方法的流程图;
图7为本申请实施例提供的一种实现门诊分诊的方法的流程图;
图8为本申请实施例提供的一种目标领域实体知识图谱建立装置的结构示意图;
图9为本申请实施例提供的一种属性信息获取装置的结构示意图;
图10为本申请实施例提供的一种实现门诊分诊的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人对传统的从已有文档学习可用信息研究中发现,对于目标领域来说,可用信息通常是利用基于该目标领域的专家规则构建的专家系统进行学习的。其中,因针对不同已有文档制定的专家规则是不同的,甚至是相反的,如此导致利用专家系统学习到的可用信息的准确性会产生跷跷板现象。
下面以医疗领域中的门诊分诊为例进行说明。其中,门诊分诊是指在患者就医期间,基于患者的主诉及主要症状、体征,初步确定该患者就医的科室(当前医院的科室或者其他医院的科室)以及该患者就医时的检查项目。
作为示例,对于医疗领域来说,门诊分诊的可用信息通常可以利用基于专家规则构建的专家系统,对历史病历和医学文献进行学习获得。其中,因针对不同历史病历和医学文献制定的专家规则是不同的,甚至是相反的,如此导致利用专家系统学习到的门诊分诊的可用信息的准确性会产生跷跷板现象。另外,还因专家系统的持续从新增病历中提取可用信息的能力较差,导致该专家系统的在线持续学习能力差,从而导致该专家系统无法对门诊分诊相关知识(尤其地域性知识)进行统一的描述及管理。
需要说明的是,地域性知识是指针对某个医学名词(例如,阿尔兹海默症),通常不使用标准的描述(例如,阿尔兹海默症),却采用一些具有地域特色的口语化描述(例如,老年痴呆症、痴呆症、阿兹海默症等)。
基于此,本申请实施例提供了一种目标领域实体知识图谱建立方法,该方法包括:利用该实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;将识别得到的实体或者识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;获取该目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;利用目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。其中,实体识别模型是利用第一文本以及第一分词结果训练得到的,第一分词结果是利用目标领域分词器对第一文本进行分词得到的;目标领域分词器包括目标领域术语词典,目标领域术语词典包括目标领域术语以及目标领域术语对应的实体类别标签。
其中,因目标领域实体知识图谱中记录了从不同已有文档中学习到的有用信息,使得在分析新文档时可以只利用与该新文档相似的已有文档对应的有用信息进行分析即可,无需关注其他已有文档对应的有用信息,如此能够有效地避免与该新文档不相似的已有文档对应的有用信息产生的干扰,从而有利于提高新文档的分析准确性。另外,还因目标领域实体知识图谱中记录了不同实体(例如,阿尔兹海默症与老年痴呆症)之间的关联关系(例如,等价关系),使得在新文档的分析过程中能够基于这些实体之间的关联关系确定出与新文档中实体(例如,老年痴呆症)相关联的实体(例如,阿尔兹海默症),从而使得目标领域实体知识图谱能够实现对目标领域中的知识进行统一的描述或管理。
为了便于理解本申请实施例提供的目标领域实体知识图谱建立方法,下面结合图1所示的场景示例进行说明。
如图1所示,对于门诊分诊来说,可以先基于历史病历和/或文献构建医疗领域知识图谱,再利用构建的医疗领域知识图谱,对患者的病历中记录的主诉及主要症状、体征进行分析推理,确定出该患者就医的科室以及该患者就医时的检查项目。其中,医疗领域实体知识图谱建立过程可以具体为:在将构建的医疗领域术语词典添加为医疗领域分词器的词典之后,先利用医疗领域分词器对历史病历和/或文献进行分词得到第一分词结果;再利用历史病历和/或文献以及第一分词结果训练得到实体识别模型,并利用该实体识别模型对患者的病历进行实体识别,和/或,利用医疗领域分词器对第二文本进行实体识别,以便在将识别得到的实体以及对应的实体类别标签添加到医疗领域实体列表之后,可以先获取该医疗领域实体列表中各个实体之间的关联关系以及各个实体的相关属性,再利用该医疗领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立医疗领域实体知识图谱。
可见,因医疗领域实体知识图谱中记录了从不同历史病历和/或文献中学习到的有用信息,使得在分析患者病历时可以只利用与该患者病历相似的历史病历和/或文献对应的有用信息进行分析即可,无需关注其他历史病历和/或文献对应的有用信息,如此能够有效地避免与该患者病历不相似的历史病历和/或文献对应的有用信息产生的干扰,从而有利于提高患者病历的分析准确性。另外,还因医疗领域实体知识图谱中记录了不同实体(例如,阿尔兹海默症与老年痴呆症)之间的关联关系(例如,等价关系),使得在患者病历的分析过程中能够基于这些实体之间的关联关系确定出与患者病历中实体(例如,老年痴呆症)相关联的实体(例如,阿尔兹海默症),从而使得医疗领域实体知识图谱能够实现对医疗领域中的知识进行统一的描述或管理。
为了便于理解本申请,在介绍本申请实施例提供的目标领域实体知识图谱建立方法之前,先介绍一些相关概念。
目标领域术语词典的相关内容:
目标领域是指实体知识图谱的应用领域,而且本申请实施例不限定目标领域,例如,目标领域可以是医疗领域,也可以是刑侦领域等。需要说明的是,为了便于解释本申请,下文将以医疗领域的相关内容为例进行说明。
目标领域术语词典包括目标领域术语以及该目标领域术语对应的实体类别标签,目标领域术语可以认为均为实体。例如,当目标领域为医疗领域时,医疗领域术语词典可以包括医疗领域术语(例如,阿尔茨海默症或糖尿病等)以及该医疗领域术语对应的实体类别标签(例如,阿尔茨海默症或糖尿病均对应于疾病标签)。其中,医疗领域术语对应的实体类别标签可以为疾病、症状-表现,症状-检查,症状-检验,药品,单位等任一类别标签。
另外,本申请实施例不限定目标领域术语词典中知识的来源,而且目标领域术语词典中知识的来源是基于目标领域确定的。例如,当目标领域为医疗领域时,如图3所示,医疗领域术语词典中知识的来源可以包括国际疾病分类(international Classificationof diseases,ICD)-10中文版、医学系统命名法-临床术语(Systematized Nomenclatureof Medicine-Clinical Terms,SNOMED CT)中文版、观测指标标识符逻辑命名与编码系统(Logical Observation Identifiers Names and Codes,LOINC)中文版等医疗领域术语集。
另外,目标领域术语词典可以预先构建,而且目标领域术语词典的构建过程为:基于目标领域中已有知识来构建目标领域术语词典,使得该目标领域术语词典能够囊括目标领域中的标准化术语表述,以便使得该目标领域术语词典能够辅助构建目标领域实体知识图谱,使得构建的目标领域实体知识图谱中记录有目标领域中的标准化术语。
需要说明的是,本申请实施例不限定目标领域术语词典的构建时间,只需在使用目标领域术语词典之前完成构建即可。
目标领域分词器的相关内容:
目标领域分词器用于对目标领域中的文本进行分词以及对分词进行类别标签标注。例如,当目标领域为医疗领域时,医疗领域分词器用于对医疗领域中的文本(例如,高质量电子文献或电子病历等文本)进行分词以及对分词进行标签标注。
目标领域分词器可以包括多个词典,例如,目标领域分词器可以包括目标领域术语词典。又如,目标领域分词器可以包括通用词典和目标领域术语词典。其中,通用词典是指在每一领域中均适用的词典。
实体类识别模型的相关内容:
实体识别模型用于识别输入文本中的实体以及实体对应的实体类别标签,而且实体识别模型是利用第一文本以及第一分词结果训练得到的。另外,本申请实施例不限定实体识别模型的模型结构,例如,实体识别模型可以包括双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)和条件随机场(Conditional RandomFields,CRF)结构。
其中,第一文本用于为实体识别模型的训练过程提供训练语料,而且,本申请实施例不限定第一文本。例如,当目标领域为医疗领域时,第一文本可以为包括大量的电子病历和电子文献,其中,电子病历可以涵盖内科、外科、儿科、妇科、皮肤科、眼科、耳鼻喉科等科室中的病历,且电子病历可以包括主诉、现病史、既往史、个人史、家族史等内容。
另外,第一分词结果是利用目标领域分词器对第一文本进行分词得到的。
基于上述相关概念,下面将结合附图对本申请实施例提供的一种目标领域实体知识图谱建立方法进行说明。
参见图2,该图为本申请实施例提供的一种目标领域实体知识图谱建立方法的流程图,如图2所示,该方法包括S201-S204:S201:利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别。第二文本用于为目标领域实体知识图谱的构建过程提供素材,而且,本申请实施例不限定第二文本。例如,当目标领域为医疗领域时,第二文本可以为包括大量的电子病历和电子文献,其中,电子病历可以涵盖内科、外科、儿科、妇科、皮肤科、眼科、耳鼻喉科等科室中的病历,且电子病历可以包括主诉、现病史、既往史、个人史、家族史等内容。
另外,本申请实施例也不限定第一文本和第二文本的之间的关系,具体为:第一文本与第二文本可以相同,也可以不同。例如,当目标领域为医疗领域时,如图3所示,第一文本为高质量的电子病历和电子文献,第二文本为质量未知的大量电子病历和电子文献,而且,第一文本与第二文本之间可以有交集,也可以没有交集。
此外,本申请还提供了第二文本中实体识别的三种实施方式,下面依次进行介绍。
第一种实施方式,可以利用目标领域分词器进行实体识别,此时,第二文本中实体识别过程具体为:利用目标领域分词器对第二文本进行实体识别,得到第二文本中的实体以及该实体对应的实体类别标签。
其中,因目标领域分词器是依据词典进行实体识别,使得目标领域分词器只能识别词典中记录的实体,无法识别词典中未记录的实体。另外,还因目标领域分词器中词典记录有每个实体对应的实体类别标签,使得利用目标领域分词器识别出的每个实体均具有该实体对应的实体类别标签。
第二种实施方式,可以利用实体识别模型进行实体识别,此时,第二文本中实体识别过程具体为:利用实体识别模型对第二文本进行实体识别,得到第二文本中的实体、以及全部或部分识别出的实体对应的实体类别标签。
其中,因实体识别模型是基于第二文本自身的特征进行实体识别以及实体类别标注的,使得利用实体识别模型识别出的实体不一定具有实体对应的实体类别标签,从而使得实体识别模型能够识别出的实体个数≥实体识别模型能够标注出的实体类别的实体个数,进而使得实体识别模型能够识别出一些未知类别实体,如此有利于从第二文本中发现未知类别实体,有利于提高目标领域实体知识图谱的覆盖面积。
第三种实施方式,可以同时利用实体识别模型和目标领域分词器进行实体识别,此时,第二文本中实体识别过程具体为:利用实体识别模型对第二文本进行实体识别,利用目标领域分词器对第二文本进行实体识别。
在该实施方式中,在利用实体识别模型对第二文本进行实体识别,并利用目标领域分词器对第二文本进行实体识别之后,可以综合实体识别模型和目标领域分词器的识别结果。上述过程具体可以为:利用实体识别模型对第二文本进行实体识别,得到第一识别结果;利用目标领域分词器对第二文本进行实体识别,得到第二识别结果;合并第一识别结果和第二识别结果,得到第三识别结果;剔除第三识别结果中重复出现的实体识别结果,得到第四识别结果。如此能够得到同时利用实体识别模型和目标领域分词器进行实体识别,得到的实体、以及全部或部分识别出的实体对应的实体类别标签。
需要说明的是,本申请实施例还提供了一种利用实体识别模型对第二文本进行实体识别的实施方式,请参见下文具体实施方式;而且,本申请实施例也提供了一种利用目标领域分词器对第二文本进行实体识别的实施方式,请参见下文具体实施方式。
S202:将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表。
目标领域实体列表用于记录目标领域中的实体以及实体对应的实体类别标签;而且,目标领域实体列表中可以包括具有实体类别标签的实体,也可以记录不具有实体类别标签的未知类别实体。需要说明的是,本申请实施例中,在一些情况下,目标领域实体列表可以为不具有实体类别标签的未知类别实体预先设定特定的实体类别标签,而且本申请实施例不限定该特定的实体类别标签,例如,该特定的实体类别标签可以为空缺标识符(如NULL)。
另外,本申请实施例还提供了S202的一种具体实施方式,其具体可以为:当未确定出第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到目标领域实体列表;当确定出第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
基于上述内容可知,在利用实体识别模型识别出具有实体类别标签的实体以及不具有实体类别标签的未知类别实体,和/或,利用目标领域分词器识别出具有实体类别标签的实体之后,可以将这些识别出未知类别实体、具有实体类别标签的实体及其该实体对应实体类别标签均添加至目标领域实体列表,使得该目标领域实体列表能够记录有目标领域中的不同实体以及不同实体对应的实体类别标签信息,以便后续利用该目标领域实体列表获取目标领域中的每个实体及其实体类别标签信息。
S203:获取目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性。
实体之间的关联关系用于表征不同实体之间的关系信息;而且,本申请实施例不限定实体之间的关联关系,例如,实体之间的关联关系可以包括从属关系、等价关系、依存关系等。
从属关系用于描述一个实体从属于另一个实体的关系。
等价关系用于描述一个实体与另一个实体等价,例如,阿兹海默症与阿尔兹海默症之间具有等价关系。另外,本申请实施例还提供了一种获取等价关系的实施方式,请参见下文具体实施方式。
依存关系用于描述一个实体与另一个实体同时存在,例如,在复合实体“慢性支气管炎”实体中,“慢性”实体与“支气管炎”实体之间具有依存关系。另外,本申请实施例不限定依存关系的获取过程。
另外,本申请实施例不限定实体之间的关联关系的获取方式,例如,实体之间的关联关系可以基于电子病历和医院信息系统(Hospital Information System,HIS)的中的结构化数据以及语法规则确定。
实体的相关属性用于表征每个实体所具有的属性信息,而且本申请实施例不限定实体的相关属性,例如,实体的相关属性可以包括实体对应的实体类别标签。
基于上述内容可知,在获取到目标领域实体列表之后,可以遍历目标领域实体列表中的实体,来确定目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性,以便后续能够基于各个实体之间的关联关系以及各个实体的相关属性构建目标领域实体知识图谱。
S204:利用目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。
本申请实施例中,在获取到目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性之后,可以利用目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性,建立目标领域实体知识图谱,使得目标领域实体知识图谱能够覆盖到各个第二文本中的可用信息,以便后续能够利用目标领域实体知识图谱中记录的各个第二文本中的可用信息来进行文本分析。
需要说明的是,本申请实施例可以通过调整第二文本所具有的信息特点(例如,地域性特点),使得基于第二文本构建的目标领域实体知识图谱能够具有相应的信息特点,如此有利于实现对目标领域中具有不同信息特点的知识进行统一的描述或管理。
基于上述S201至S204的相关内容可知,本申请实施例提供的目标领域实体知识图谱建立方法中,可以利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别,以便在将识别得到的实体或者识别得到的实体以及对应的实体类别标签添加到目标领域实体列表之后,可以先获取该目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性,再利用该目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱,如此使得该目标领域实体知识图谱能够准确地记录有基于该目标领域中已有文档学习到的有用信息,以便后续可以使用该目标领域实体知识图谱来分析目标领域中的新文档。
可见,因目标领域实体知识图谱中记录了从不同已有文档中学习到的有用信息,使得在分析新文档时可以只利用与该新文档相似的已有文档对应的有用信息进行分析即可,无需关注其他已有文档对应的有用信息,如此能够有效地避免与该新文档不相似的已有文档对应的有用信息产生的干扰,从而有利于提高新文档的分析准确性。另外,还因目标领域实体知识图谱中记录了不同实体(例如,阿尔兹海默症与老年痴呆症)之间的关联关系(例如,等价关系),使得在新文档的分析过程中能够基于这些实体之间的关联关系确定出与新文档中实体(例如,老年痴呆症)相关联的实体(例如,阿尔兹海默症),从而使得目标领域实体知识图谱能够实现对目标领域中的知识进行统一的描述或管理。
在一种可能的实施方式,本申请实施例还提供了目标领域实体知识图谱建立方法的另一实施方式,在该实施方式中,目标领域实体知识图谱建立方法除了包括上述步骤以外,还可以包括以下两步:
第一步:利用目标领域分词器对第一文本进行分词得到第一分词结果。
第一分词结果可以包括第一分词、第一分词对应的实体类别标签以及第一分词中每个字符的字符序列标签。
第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息。例如,当第一分词为糖尿病时,则经过实体类别标注后的第一分词为“糖尿病/nhd”,nhd代表疾病名称。基于此可知,可以得到“糖尿病”对应的实体类别标签为疾病nhd。
需要说明的是,本申请实施例中,不是每个第一分词都有其对应的实体类别标签,只有作为实体的第一分词才有实体类别标签。也就是说,在第一文本中,属于实体的第一分词(例如,糖尿病)有实体类别标签,不属于实体的第一分词(例如,并发)没有实体类别标签。另外,第一分词是否是实体,是由目标领域分词器依据目标领域术语词典中所包括的实体确定的。需要说明的是,本申请实施例中,在一些情况下,可以为没有实体类别标签的第一分词预先设定特定的实体类别标签,而且本申请实施例不限定该特定的实体类别标签。
第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息,而且本申请实施例不限定字符序列标签,例如可以使用“BEMSO”进行标注,其中,“B”用于表示实体中的起始字,“E”用于表示实体中的结束字,“M”用于表示实体中的中间字,“S”用于表示词语为单字成词的实体,“O”用于表示非实体字符。作为示例,当第一分词为并发糖尿病时,则经过字符序列和实体类别标注后的第一分词为“并/O发/O糖/B-nhd尿/M-nhd病/E-nhd”。基于此可知,“并”和“发”均为非实体字符,“糖”、“尿”和“病”分别为疾病实体的起始字、疾病实体的中间字和疾病实体的结束字。
需要说明的是,本申请实施例中,每个第一分词都有其对应的字符序列标签。也就是说,在第一文本中,属于实体的第一分词(例如,糖尿病)中字符有字符序列标签(例如,“B”、“M”和“E”),不属于实体的第一分词(例如,并发)中字符也有字符序列标签(例如,“O”)。
另外,本申请实施例不限定第一分词结果的表示形式,例如,当第一分词为并发糖尿病时,第一分词结果可以表示为“并/O发/O糖/B-nhd尿/M-nhd病/E-nhd”。
基于上述内容可知,本申请实施例中,可以利用目标领域分词器对第一文本进行分词,得到第一文本中的各个第一分词、各个第一分词中每个字符的字符序列标签、以及各个作为实体的第一分词对应的实体类别标签,也就是第一文本中的第一分词结果,以便后续能够依据第一文本以及第一分词结果训练生成实体识别模型。
需要说明的是,本申请实施例中,为了保证第一分词结果的准确性,可以对获取到的第一分词结果进行校验,此时第一步具体可以包括:先利用目标领域分词器对加入了预设数目(例如,120篇)的人工审核过的校验文本的第一文本进行分词得到第一分词结果,再人工检验校验文本对应的第一分词结果中分词标签的标注质量,以便在确定校验文本对应的第一分词结果的标注质量达标(例如,准确率和召回率达到90%)之后,再执行下文第二步(也就是,利用第一文本以及第一分词结果训练得到实体识别模型)。然而,在确定校验文本对应的第一分词结果的标注质量未达标时,则可以针对错误率高的实体进行人工标注或定义规则的方式进行修正各个第一分词结果,直至使得人工检验校验文本对应的第一分词结果的标注质量达标,则依据修正后的各个第一分词结果执行下文第二步(也就是,利用第一文本以及第一分词结果训练得到实体识别模型)。
第二步:利用第一文本以及第一分词结果训练得到实体识别模型。
本申请实施例中,在获取到第一文本对应第一分词结果之后,可以利用第一文本以及第一分词结果训练得到实体识别模型,使得训练得到的实体识别模型能够准确地识别出该模型的输入文本中的实体以及标注出该文本中实体的实体类别标签。
另外,本申请实施例还提供了一种训练实体识别模型的实施方式,请参见下文具体实施方式。
基于上述两步的相关内容可知,本申请实施中,在利用实体识别模型对第二文本进行实体识别之前,可以先利用目标领域分词器对第一文本进行分词得到第一分词结果,再基于第一文本以及所述第一分词结果训练得到实体识别模型,使得训练得到的实体识别模型能够准确地识别出该模型的输入文本中的实体以及标注出该文本中实体的实体类别标签,如此有利于提高目标领域实体知识图谱的准确性。
在一种可能的实施方式,本申请实施例还提供了一种利用第一文本以及第一分词结果训练得到实体识别模型的实施方式,其具体可以包括以下三步:
第一步:根据第一文本训练字向量模型。
字向量模型用于获取输入的词语中每个字符的字向量,而且本申请实施例不限定字向量模型,例如,字向量模型可以是word2vec模型,也可以是面对单个汉语字的词嵌入神经网络,其结构分为连续词袋模型(continuous bag of words,CBOW)和skip-gram两种结构,其网络参数可以包括词向量维度为1024、上下文窗口为8、以及学习率为0.0001。
字符的字向量用于唯一表征该字符的特征信息。
基于上述内容可知,在获取到第一文本之后,可以利用第一文本训练字向量模型,使得训练得到的字向量模型能够准确地确定出词语中每个字符的字向量。
第二步:将第一分词输入字向量模型,得到第一分词中每个字符的字向量。
本申请实施例中,在获取到第一文本中的第一分词之后,可以利用基于第一文本训练得到的字向量模型,确定出第一分词中每个字符的字向量,以便后续能够基于第一分词中每个字符的字向量训练实体识别模型。
第三步:将第一分词中各个字符的字向量、第一分词中各个字符的字符序列标签以及第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,该实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
本申请实施例中,在获取到第一分词中各个字符的字向量之后,可以将将第一分词中各个字符的字向量、第一分词中各个字符的字符序列标签以及第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,以便使得实体识别模型能够准确地从输入文本中识别出实体和实体对应的实体类别标签。其中,第一训练数据中的第一分词对应的实体类别标签用于表示第一分词中各个字符对应的实体类别标签。例如,当第一分词为“糖尿病”时,则在第一训练数据中糖尿病实体中,“糖”对应的实体类别标签为疾病、“尿”对应的实体类别标签为疾病、以及“病”对应的实体类别标签为疾病。
基于上述三步的相关内容可知,本申请实施例中,在获取到第一文本以及第一分词结果之后可以,先使用基于第一文本训练得到的字向量模型确定出第一分词中每个字符的字向量,再根据第一分词中每个字符的字向量以及第一分词结果中的第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签,生成第一训练数据,以便利用该第一训练数据对采用基于双向长短期记忆网络以及条件随机场的网络结构的实体识别模型进行训练,使得训练得到的实体识别模型能够准确地识别出每个文本中的实体以及实体对应的实体类别标签。
在一种可能的实施方式中,本申请实施例还提供了一种利用实体识别模型对第二文本进行实体识别的具体实施方式,其具体包括以下三步:
第一步:将第二文本输入字向量模型,得到第二文本中各个字符的字向量。
本申请实施例中,在获取到第二文本之后,可以直接将第二文本输入到字向量模型中,以便得到该字向量模型输出的第二文本中各个字符的字向量,使得第二文本中各个字符的字向量能够准确地表征第二文本中各个字符的特征信息,以便后续实体识别模型能够基于第二文本中各个字符的字向量来确定第二文本中的实体以及实体类别标签。
第二步:将第二文本中各个字符的字向量输入实体识别模型,得到实体识别模型输出的第二文本中各个字符对应的字符序列标签和/或实体类别标签。
本申请实施例中,在获取到第二文本中各个字符的字向量之后,可以将第二文本中各个字符的字向量输入到实体识别模型,得到该实体识别模型输出的第二文本中各个字符对应的字符序列标签和/或实体类别标签。例如,如图4所示,当第二文本为左心衰竭,“左”的字向量记为第一字向量、“心”的字向量记为第二字向量、“衰”的字向量记为第三字向量、“竭”的字向量记为第四字向量时,第二步具体可以包括:将第一字向量、第二字向量、第三字向量和第四字向量输入到实体识别模型,得到实体识别模型输出的左/B-nhd心/M-nhd衰/M-nhd竭/E-nhd,其中,“B”、“M”、“M”和“E”分别表示了“左”对应的字符序列标签、“心”对应的字符序列标签、“衰”对应的字符序列标签以及“竭”对应的字符序列标签,“nhd”表示了“左”对应的实体类别标签、“心”对应的实体类别标签、“衰”对应的实体类别标签以及“竭”对应的实体类别标签。
需要说明的是,本申请实施例中,实体识别模型可能会同时识别出第二文本中每个字符对应的字符序列标签和实体类别标签(如图4所示的标签),也可能至识别出第二文本中每个字符对应的字符序列标签,无法识别出第二文本中每个字符对应的实体类别标签。
还需要说明的是,图4所示的实体识别模型的模型参数可以包括:字向量维度为1024、字向量输入序列长度为20、LSTM层数为2、LSTM隐藏节点数为2048、学习率为0.0001。
第三步:根据第二文本中各个字符对应的字符序列标签确定第二文本中包含的实体,根据第二文本中各个字符对应的实体类别标签确定第二文本中包含的实体对应的实体类别标签。
本申请实施例中,在确定出第二文本中各个字符对应的字符序列标签之后,可以根据第二文本中各个字符对应的字符序列标签确定第二文本中包含的实体,其具体过程为:在利用“BEMSO”标记字符序列标签时,按照第二文本中字符出现顺序,从前往后依次将起始字符标签B、结束字符标签E、以及起始字符标签B与结束字符标签E之间的字符识别为一个词语,并将该词语识别为实体。例如,当第二文本对应的字符序列标签为“左/B心/M衰/M竭/E”,则可将“左”、“心”、“衰”和“竭”识别为一个词语“左心衰竭”,并将词语“左心衰竭”识别为实体。
另外,在确定出第二文本中各个字符对应的实体类别标签,并在利用字符序列标签识别出实体之后,可以根据第二文本中各个字符对应的实体类别标签确定第二文本中包含的实体对应的实体类别标签。例如,当第二文本对应的标签信息为“左/B-nhd心/M-nhd衰/M-nhd竭/E-nhd”,并基于字符序列标签识别出实体“左心衰竭”之后,可以根据“左”对应的实体类别标签nhd、“心”对应的实体类别标签nhd、“衰”对应的实体类别标签nhd以及“竭”对应的实体类别标签nhd,确定出“左心衰竭”实体的实体类别标签为nhd(也就是疾病)。
基于上述三步的相关内容可知,本申请实施例中,在获取到实体识别模型之后,可以先利用字向量模型获得第二文本中各个字符的字向量,再将第二文本中各个字符的字向量输入所述实体识别模型,得到实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签,以便后续能够基于字符序列标签确定第二文本中的实体,并基于实体类别标签确定第二文本中实体对应的实体类别标签,如此能够有效地识别出第二文本中的实体以及实体类别标签。
在一种可能的实施方式中,本申请实施例还提供了利用目标领域分词器对第二文本进行实体识别的具体实施方式,其具体可以为:利用目标领域分词器对第二文本进行分词,当第二文本包含的分词对应有实体类别标签时,将该分词确定为实体。
本申请实施例中,在获取到目标领域分词器之后,可以将第二文本输入到目标领域分词器,使得目标领域分词器先对第二文本进行分词,再利用词典查找第二文本中各个分词对应的实体类别标签,并将实体类别标签查找成功的分词确定为实体,以便后续能够将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。如此能够有效地确定出第二文本中的实体及其实体类别标签。
在一种可能的实施方式中,可以基于实体之间的相似性确定实体之间的等价关系。基于此,本申请实施例还提供了目标领域实体知识图谱建立方法的一种实施方式,在该实施方式中,目标领域实体知识图谱建立方法除了包括上述步骤以外,还可以包括:先计算目标领域实体列表中目标实体与其他实体的相似性,再根据目标实体与其他实体的相似性,确定目标实体的等价实体,该目标实体与目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体。
两个实体之间的相似性用于表示在目标领域中,该两个实体表征同一个事物的可能性。
另外,本申请实施例不限定两个实体之间的相似性的计算方法,例如,如图5所示,两个实体之间的相似性可以采用字符编辑距离的相似性、基于实体上下文的Jccard系数评估、以及两个实体的词向量之间的余弦相似度中的至少一种来确定。
字符编辑距离的相似性的相关内容为:对于长度在6字符及以上,且长度相同的实体,经过6次以内的字符移动后相等的场合,认为两个实体为等价实体;对于长度相差20%以内的实体,且经过6次编辑,前60%字符串内容相等的场合,认为两个实体近似,需人工确认,评定实体关系。
实体上下文的Jccard系数评估的相关内容为:当计算第一实体和第二实体之间的相似性时,首先,分别将包含第一实体的文档的上下文进行分词,保留包含第一实体的文档中目标领域中的实体(非否定意图),并将包含第一实体的文档中出现频率靠前的60个实体作为第一实体对应的上下文;同时,将包含第二实体的文档的上下文进行分词,保留包含第二实体的文档中目标领域中的实体(非否定意图),并将包含第二实体的文档中出现频率靠前的60个实体作为第二实体对应的上下文。然后,根据第一实体对应的上下文和第二实体对应的上下文,并利用公式(1)计算第一实体和第二实体之间的Jaccard系数J(A,B),以便在确定J(A,B)≥0.85时,确定第一实体和第二实体之间具有等价关系,从而确定第一实体和第二实体是等价实体;在确定0.75≤J(A,B)≤0.85时,确定第一实体和第二实体之间具有近似关系,从确定第一实体和第二实体是近似实体。
式中,J(A,B)表示第一实体和第二实体之间的Jaccard系数,A表示第一实体的上下文,B表示第二实体的上下文
两个实体的词向量之间的余弦相似度的相关内容为:当计算第一实体和第二实体之间的相似性时,可以利用余弦函数计算第一实体的对应词向量和第二实体的对应词向量之间的空间向量夹角|Cos|12,以便在确定|Cos|12≥0.94时,确定第一实体和第二实体之间具有等价关系,从而确定第一实体和第二实体是等价实体;在确定0.83≤|Cos|12≤0.94时,确定第一实体和第二实体之间具有近似关系,从确定第一实体和第二实体是近似实体。
目标实体的等价实体是指与目标实体表征内容相同的实体,例如,“痴呆症”和“阿兹海默症”均是“阿尔兹海默症”的等价实体。
基于上述内容可知,本申请实施例中,当目标领域实体列表包括M个实体时,则在获取到目标领域实体列表之后,可以先计算目标领域实体列表中第m个实体与目标领域实体列表中的第k个实体之间的相似性,以便在确定第m个实体与第k个实体之间的相似性达到预设条件时,将第k个实体均作为第m个实体的等价实体,并将第m个实体均作为第k个实体的等价实体,并确定第k个实体与第m个实体之间具有等价的关联关系(也就是上文中的等价关系)。其中,m为正整数,m≤M;k为正整数,k≤M;且m≠k。
在一种可能的实施方式中,本申请实施例还提供了上述计算目标领域实体列表中目标实体与其他实体的相似性的一种实施方式,其具体包括以下三步:
第一步:根据第一文本以及第一分词结果中的第一分词训练词向量模型。
本申请实施例中,在获取到第一文本以及第一分词结果之后,可以根据第一文本以及第一分词结果中的第一分词训练词向量模型,使得训练得到的词向量模型准确地确定出第一分词的词向量。
另外,本申请实施例不限定词向量模型,而且词向量模型适用于生成目标领域中分词对应向量。
第二步:将目标领域实体列表中的实体输入词向量模型,得到各个实体的词向量。
本申请实施例中,在获取到词向量模型之后,可以将目标领域实体列表中的实体输入词向量模型,得到词向量模型输出的各个实体的词向量,以便后续能够基于各个实体的词向量,确定出不同实体之间的相似性。
第三步:计算目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为目标领域实体列表中目标实体与其他实体的相似性。
本申请实施例不限定空间距离的计算方式,例如,空间距离可以采用余弦距离或欧氏距离等计算方式进行计算。
本申请实施例中,在获取到目标领域实体列表中各个实体的词向量之后,可以计算目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离,以便将该空间距离作为目标领域实体列表中目标实体与其他实体的相似性。其中因两个实体词向量之间的空间距离能够准确地表示该两个实体之间的相似程度,使得基于空间距离确定的目标实体与其他实体的相似性更准确。
在一种可能的实施方式中,可以借助实体之间的等价关系确定未知类别实体的实体类别标签。基于此,本申请实施例还提供了目标领域实体知识图谱建立方法的一种实施方式,在该实施方式中,目标领域实体知识图谱建立方法除了包括上述全部或部分步骤以外,还可以包括:当目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
可见,本申请实施例中,在确定已知类别实体是未知类别实体的等价实体之后,可以确定未知类别实体表征的事物与已知类别实体表征的事物相同,从而确定未知类别实体与已知类别实体具有相同的实体类别标签,此时可以将已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。例如,当“阿兹海默症”为未知类别实体,且“阿尔兹海默症”为已知类别实体时,在确定“阿尔兹海默症”是“阿兹海默症”的等价实体之后,可以将“阿尔兹海默症”的实体类别标签“疾病”确定为“阿兹海默症”的实体类别标签。
在一种可能的实施方式中,可以利用第一文本中的内容扩充目标领域术语词典,使得目标领域术语词典能够囊括更多地实体信息。基于此,本申请实施例还提供了目标领域实体知识图谱建立方法的一种实施方式,在该实施方式中,目标领域实体知识图谱建立方法除了包括上述全部或部分步骤以外,还可以包括以下步骤:
第一步:获取第一分词中的连续单字词。
单字词是指词语中的单个字,例如,当第一分词为左心衰竭时,则第一分词中的“左”、“心”、“衰”和“竭”是第一分词中的连续单字词。
第二步:计算单字词与邻接词的互信息,将互信息满足第一阈值范围的单字词确定为候选单字词。
邻接词是指单字词具有邻接关系的词。例如,当第一分词为左心衰竭时,则单字词“左”的邻接词为“心”,单字词“右”的邻接词为“左”和“衰”,单字词“衰”的邻接词为“心”和“竭”,单字词“竭”的邻接词为“衰”。
本申请实施例不限定互信息的计算方式,例如,互信息可以采用公式(2)进行计算。
式中,Mi(wi-1,wi)是指第i个单字词与第i-1个单字词的互信息;wi-1表示第i-1个单字词;wi表示第i个单字词;P(wi-1,wi)表示第i个单字词与第i-1个单字词同时出现的频率;P(wi-1)表示第i-1个单字词的出现频率;P(wi)表示第i个单字词的出现频率。
第一阈值范围可以预先设定,例如,第一阈值范围可以为互信息大于等于3.8。
本申请实施例中,在获取到第一分词中的连续单字词之后,可以计算每个单字词与其邻接词之间的互信息,以便将对应互信息满足第一阈值范围的单字词及其邻接词均作为互信息。例如,当第一分词为左心衰竭时,若单字词“左”与单字词“心”之间的互信息满足第一阈值范围,则确定单字词“左”与单字词“心”均为候选单字词。
第三步:计算候选单字词的左邻接熵以及右邻接熵,根据左邻接熵确定该候选单字词是否与左邻接词合并和/或根据右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增目标领域术语。
左邻接熵可以采用公式(3)计算。
/>
式中,HL(W)表示候选单字词W的左邻接熵;Wl表示候选单字词W的左邻接词的;SLW表示位于候选单字词W的左邻接词集合;P(Wl|W)表示在候选单字词W出现的情况下Wl出现的概率,且表示候选单字词W出现的频次;N(Wl|W)表示在候选单字词W出现的情况下Wl出现的频次。
右邻接熵可以采用公式(4)计算。
式中,HR(W)表示候选单字词W的右邻接熵;Wr表示候选单字词W的左邻接词;SRW表示位于候选单字词W的右邻接词集合;P(Wr|W)表示在候选单字词W出现的情况下Wr出现的概率,且N(W)表示候选单字词W出现的频次;N(Wr|W)表示在候选单字词W出现的情况下Wr出现的频次。
基于上述内容可知,本申请实施例中,在确定出候选单字词之后,可以先计算候选单字词的左邻接熵以及右邻接熵,以便在确定左邻接熵低于第一熵值时将该候选单字词与左邻接词合并,并在确定左邻接熵高于第一熵值时将该候选单字词不进行合并;同时,在确定右邻接熵低于第二熵值时将该候选单字词与右邻接词合并,并在确定右邻接熵高于第二熵值时将该候选单字词与右邻接词不进行合并。如此便能够学习到新增目标领域术语(例如,新增目标领域术语Wn=…Wl-3Wl-2Wl-1WlWrWr+1Wr+2Wr+3…)。
需要说明的是,在本申请实施例中,在获取到新增目标领域术语Wn之后,可以基于新增目标领域术语Wn的出现频率N(Wn)是否满足N(Wn)>10,且已知词的最小先验频率这两个条件,以便在确定满足上述两个条件时,执行下文第四步。
第四步:将新增目标领域术语以及新增目标领域术语对应的类别标签添加到目标领域术语词典中。
本申请实施例中,在获取到新增目标领域术语之后,可以将新增目标领域术语以及新增目标领域术语对应的类别标签添加到目标领域术语词典中,以便更新目标领域术语词典,使得更新后的目标领域术语词典能够覆盖更多地实体。
基于上述提供的目标领域实体知识图谱建立方法的相关内容,本申请实施例还提供了一种属性信息获取方法,下面结合附图进行说明。
参见图6,该图为本申请实施例提供的一种属性信息获取方法的流程图,如图6所示,该方法包括S601-S603:
S601:获取目标文本。
目标文本是指待获取属性信息的文本,而且,本身申请实施例不限定目标文本,例如,目标文本可以是图1中的患者病历。
S602:利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体。
实体识别模型是利用第一文本以及第一分词结果训练得到的。其中,第一分词结果是利用目标领域分词器对第一文本进行分词得到的;目标领域分词器包括目标领域术语词典,目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签。需要说明的是,实体识别模型的相关内容,请参见上文。
目标领域实体列表是在上述目标领域实体知识图谱建立方法实现过程中获得的。需要说明的是,目标领域实体列表的相关内容请参见上文。
需要说明的是,S602的实施方式与上文S201的实施方式相似,为了简要起见,在此不再赘述。
S603:在目标领域实体知识图谱中查找与目标实体具有关联关系的实体,和/或目标实体对应的相关属性。
目标领域实体知识图谱是根据目标领域实体知识图谱建立方法建立的;而且目标领域实体知识图谱的相关内容请参见上文。
基于上述S601至S603的相关内容可知,本申请实施例中,在获取到目标文本之后,可以先利用实体识别模型和/或目标领域实体列表,确定目标文本中的目标实体,再在目标领域实体知识图谱中查找与目标实体具有关联关系的实体,和/或目标实体对应的相关属性。其中,因目标领域实体知识图谱准确地记录了目标领域中不同实体及其对应的关联关系和相关属性,使得可以在该目标领域实体知识图谱中准确地查询到目标文本中的目标实体的属性信息。
在一种可能的实施方式下,所述实体识别模型的训练过程包括:
根据第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
需要说明的是,实体识别模型的训练过程的相关内容请参见上文提供的训练实体识别模型的实施方式。
在一种可能的实施方式下,所述利用实体识别模型对所述目标文本进行实体识别得到目标实体,包括:
将目标文本输入所述字向量模型,得到所述目标文本中各个字符的字向量;
将所述目标文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述目标文本中各个字符对应的字符序列标签;
根据所述目标文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
需要说明的是,利用实体识别模型对目标文本进行实体识别得到目标实体的过程与上文中利用实体识别模型对第二文本进行实体识别的过程相似,为了简要起见,在此不再赘述。
在一种可能的实施方式下,所述利用目标领域实体列表对目标文本进行实体识别得到目标实体,包括:
在所述目标领域实体列表中查找所述第二文本中包含的实体,将第二文本中包含的实体确定为目标实体。
可见,在本申请实施例中,在获取到第二文本之后,可以在目标领域实体列表查找第二文本中包含的实体,将第二文本中包含的实体确定为目标实体。其中,因目标领域实体列表记录有大量的实体,使得基于该目标领域实体列表能够准确地确定出第二文本中的实体。
基于上述提供的目标领域实体知识图谱建立方法的相关内容,本申请实施例还提供了一种医疗领域实体知识图谱建立方法,该方法具体包括:
利用所述实体识别模型对第二文本进行实体识别,和/或,利用所述医疗领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;
将识别得到的实体以及对应的实体类别标签添加到医疗领域实体列表;
获取所述医疗领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
利用所述医疗领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立医疗领域实体知识图谱。
在一种可能的实施方式中,所述方法还包括:
利用所述医疗领域分词器对第一文本进行分词得到第一分词结果,所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;
利用所述第一文本以及所述第一分词结果训练得到实体识别模型。
在一种可能的实施方式中,所述利用所述第一文本以及所述第一分词结果训练得到实体识别模型,包括:
根据所述第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
在一种可能的实施方式中,所述利用所述实体识别模型对第二文本进行实体识别,包括:
将第二文本输入所述字向量模型,得到所述第二文本中各个字符的字向量;
将所述第二文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签;
根据所述第二文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,根据所述第二文本中各个字符对应的实体类别标签确定所述第二文本中包含的实体对应的实体类别标签。
在一种可能的实施方式中,所述将识别得到的实体或者识别得到的实体以及对应的实体类别标签添加到医疗领域实体列表,包括:
当未确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到医疗领域实体列表;
当确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到医疗领域实体列表。
在一种可能的实施方式中,所述利用所述医疗领域分词器对第二文本进行实体识别,包括:
利用所述医疗领域分词器对第二文本进行分词,当所述第二文本包含的分词对应有实体类别标签时,将该分词确定为实体;
所述将识别得到的实体或者识别得到的实体以及对应的实体类别标签添加到医疗领域实体列表,包括:
将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到医疗领域实体列表。
在一种可能的实施方式中,所述方法还包括:
计算所述医疗领域实体列表中目标实体与其他实体的相似性;
根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述医疗领域实体列表中的每一实体。
在一种可能的实施方式中,所述计算所述医疗领域实体列表中目标实体与其他实体的相似性,包括:
根据所述第一文本以及所述第一分词结果中的第一分词训练词向量模型;
将所述医疗领域实体列表中的实体输入所述词向量模型,得到各个所述实体的词向量;
计算所述医疗领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为所述医疗领域实体列表中目标实体与其他实体的相似性。
在一种可能的实施方式中,所述方法还包括:
当所述医疗领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
在一种可能的实施方式中,所述方法还包括:
获取所述第一分词中的连续单字词;
计算所述单字词与邻接词的互信息,将所述互信息满足第一阈值范围的单字词确定为候选单字词;
计算候选单字词的左邻接熵以及右邻接熵,根据所述左邻接熵确定所述候选单字词是否与左邻接词合并和/或根据所述右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增医疗领域术语;
将所述新增医疗领域术语以及所述新增医疗领域术语对应的类别标签添加到所述医疗领域术语词典中。
在一种可能的实施方式中,所述医疗领域术语词典为医疗领域术语词典,所述医疗领域术语为医疗领域术语,所述医疗领域分词器为医疗领域分词器,所述医疗领域实体列表为医疗领域实体列表,所述医疗领域实体知识图谱为医疗领域实体知识图谱。
需要说明的是,本申请实施例提供的医疗领域实体知识图谱建立方法与上文提供的目标领域实体知识图谱建立方法相似,只需将上文提供的目标领域实体知识图谱建立方法中的目标领域限定为医疗领域即可。其中,需要将上文中目标领域术语词典替换为医疗领域术语词典,目标领域术语替换为医疗领域术语,目标领域分词器替换为医疗领域分词器,目标领域实体列表替换为医疗领域实体列表,目标领域实体知识图谱替换为医疗领域实体知识图谱。
基于上述提供的医疗领域实体知识图谱建立方法的相关内容,本申请实施例还提供了一种实现门诊分诊的方法,下面结合附图进行说明。
参见图7,该图为本申请实施例提供的一种实现门诊分诊的方法的流程图。如图7所示,该方法包括S701-S704:
S701:获取病历文本。
S702:利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体。
实体识别模型是利用第一文本以及第一分词结果训练得到的,第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;医疗领域分词器包括医疗领域术语词典,医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签。需要说明的是,实体识别模型的相关内容请参见上文应用于医疗领域的实体识别模型的相关内容。
医疗领域实体列表是在医疗领域实体知识图谱建立方法实现过程中获得的。需要说明的是,医疗领域实体列表的相关内容请参见上文。
S703:在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性。
医疗领域实体知识图谱是根据医疗领域实体知识图谱建立方法建立的;而且,医疗领域实体知识图谱的相关内容请参见上文。
S704:当与目标实体具有关联关系的实体和/或目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对科室实体和/或所述检查项目信息进行输出提示。
基于上述S701至S704的相关内容可知,本申请实施例中,在获取到病历文本之后,可以先利用实体识别模型和/或医疗领域实体列表,确定病历文本中的目标实体,再在医疗领域实体知识图谱中查找与目标实体具有关联关系的实体,和/或目标实体对应的相关属性。其中,因医疗领域实体知识图谱准确地记录了医疗领域中不同实体及其对应的关联关系和相关属性,使得可以在该医疗领域实体知识图谱中准确地查询到病历文本中的目标实体的属性信息,以便在确定与目标实体具有关联关系的实体和/或目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对科室实体和/或所述检查项目信息进行输出提示,如此提高了门诊分诊的准确性。
基于上述目标领域实体知识图谱建立方法的相关内容,本申请实施例还提供了一种目标领域实体知识图谱建立装置,下面结合附图进行说明。参见图8,该图为本申请实施例提供的一种目标领域实体知识图谱建立装置的结构示意图,该装置包括:
文本实体识别单元801,用于利用所述实体识别模型对第二文本进行实体识别,和/或,利用所述目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
实体列表添加单元802,用于将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
关系属性获取单元803,用于获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
知识图谱构建单元804,用于利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱。
在一种可能的实施方式中,所述装置还包括:
文本分词单元,用于利用所述目标领域分词器对第一文本进行分词得到第一分词结果,所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;
识别模型训练单元,用于利用所述第一文本以及所述第一分词结果训练得到实体识别模型。
在一种可能的实施方式中,所述识别模型训练单元,包括:
字向量模型训练子单元,用于根据所述第一文本训练字向量模型;
分词字向量获取子单元,用于将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
实体识别模型训练子单元,用于将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
在一种可能的实施方式中,所述文本实体识别单元801,包括:
文本字向量获取子单元,用于将第二文本输入所述字向量模型,得到所述第二文本中各个字符的字向量;
字符标签获取子单元,用于将所述第二文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签;
实体及标签获取子单元,用于根据所述第二文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,根据所述第二文本中各个字符对应的实体类别标签确定所述第二文本中包含的实体对应的实体类别标签。
在一种可能的实施方式中,所述实体列表添加单元802,具体用于:当未确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到目标领域实体列表;当确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
在一种可能的实施方式中,所述文本实体识别单元801,包括:
文本实体确定子单元,用于利用所述目标领域分词器对第二文本进行分词,当所述第二文本包含的分词对应有实体类别标签时,将该分词确定为实体;
所述实体列表添加单元802,具体用于:将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
在一种可能的实施方式中,所述装置还包括:
实体相似性计算单元,用于计算所述目标领域实体列表中目标实体与其他实体的相似性;
等价关系确定单元,用于根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体。
在一种可能的实施方式中,所述实体相似性计算单元,包括:
词向量模型训练子单元,用于根据所述第一文本以及所述第一分词结果中的第一分词训练词向量模型;
实体词向量获取子单元,用于将所述目标领域实体列表中的实体输入所述词向量模型,得到各个所述实体的词向量;
实体相似性计算子单元,用于计算所述目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为所述目标领域实体列表中目标实体与其他实体的相似性。
在一种可能的实施方式中,所述装置还包括:
未知标签获取单元,用于当所述目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
在一种可能的实施方式中,所述装置还包括:
单字词获取单元,用于获取所述第一分词中的连续单字词;
候选单字词确定单元,用于计算所述单字词与邻接词的互信息,将所述互信息满足第一阈值范围的单字词确定为候选单字词;
新术语获取单元,用于计算候选单字词的左邻接熵以及右邻接熵,根据所述左邻接熵确定所述候选单字词是否与左邻接词合并和/或根据所述右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增目标领域术语;
术语词典更新单元,用于将所述新增目标领域术语以及所述新增目标领域术语对应的类别标签添加到所述目标领域术语词典中。
在一种可能的实施方式中,所述目标领域术语词典为医疗领域术语词典,所述目标领域术语为医疗领域术语,所述目标领域分词器为医疗领域分词器,所述目标领域实体列表为医疗领域实体列表,所述目标领域实体知识图谱为医疗领域实体知识图谱。
基于上述属性信息获取方法的相关内容,本申请实施例还提供了一种属性信息获取装置,下面结合附图进行说明。参见图9,该图为本申请实施例提供的一种属性信息获取装置的结构示意图,如图9所示,该装置包括:
目标文本获取单元901,用于获取目标文本;
目标实体获取单元902,用于利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在上述目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;
属性关系查找单元903,用于在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据上述目标领域实体知识图谱建立方法建立的。
在一种可能的实施方式中,所述实体识别模型的训练过程包括:根据第一文本训练字向量模型;将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
在一种可能的实施方式中,所述目标实体获取单元902,包括:
字向量确定子单元,用于将目标文本输入所述字向量模型,得到所述目标文本中各个字符的字向量;
字符标签确定子单元,用于将所述目标文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述目标文本中各个字符对应的字符序列标签;
目标实体获取子单元,用于根据所述目标文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
在一种可能的实施方式中,所述目标实体获取单元902,包括:
目标实体确定子单元,用于在所述目标领域实体列表中查找所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
基于上述实现门诊分诊的方法的相关内容,本申请实施例还提供了一种实现门诊分诊的装置,下面结合附图进行说明。参见图10,该图为本申请实施例提供的一种实现门诊分诊的装置的结构示意图,如图10所示,该装置包括:
病历文本获取单元1001,用于获取病历文本;
目标实体识别单元1002,用于利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在医疗领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;
关系属性确定单元1003,用于在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据所述医疗领域实体知识图谱建立方法建立的;
关系属性输出单元1004,用于当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。
另外,本申请实施例还提供了一种目标领域实体知识图谱建立设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述目标领域实体知识图谱建立方法。本申请实施例还提供了一种属性信息获取设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述属性信息获取方法。本申请实施例还提供了一种实现门诊分诊的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述实现门诊分诊的方法。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述目标领域实体知识图谱建立方法、或者上述属性信息获取方法、或者上述实现门诊分诊的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开实施例的说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (19)
1.一种目标领域实体知识图谱建立方法,其特征在于,所述方法包括:
利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱;
所述方法还包括:
计算所述目标领域实体列表中目标实体与其他实体的相似性;
根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体;
当所述目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用目标领域分词器对第一文本进行分词得到第一分词结果;
利用所述第一文本以及所述第一分词结果训练得到实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一文本以及所述第一分词结果训练得到实体识别模型,包括:
根据所述第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
4.根据权利要求3所述的方法,其特征在于,所述利用实体识别模型对第二文本进行实体识别,包括:
将第二文本输入所述字向量模型,得到所述第二文本中各个字符的字向量;
将所述第二文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述第二文本中各个字符对应的字符序列标签和/或实体类别标签;
根据所述第二文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,根据所述第二文本中各个字符对应的实体类别标签确定所述第二文本中包含的实体对应的实体类别标签。
5.根据权利要求4所述的方法,其特征在于,所述将识别得到的实体对应的实体类别标签添加到目标领域实体列表,包括:
当未确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体对应的实体类别标签确定为空缺,并将该实体以及对应的实体类别标签作为未知类别实体添加到目标领域实体列表;
当确定出所述第二文本中包含的实体对应的实体类别标签时,将该实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
6.根据权利要求1所述的方法,其特征在于,所述利用目标领域分词器对第二文本进行实体识别,包括:
利用所述目标领域分词器对第二文本进行分词,当所述第二文本包含的分词对应有实体类别标签时,将该分词确定为实体;
所述将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表,包括:
将识别得到的实体以及对应的实体类别标签作为已知类别实体添加到目标领域实体列表。
7.根据权利要求1所述的方法,其特征在于,所述计算所述目标领域实体列表中目标实体与其他实体的相似性,包括:
根据所述第一文本以及所述第一分词结果中的第一分词训练词向量模型;
将所述目标领域实体列表中的实体输入所述词向量模型,得到各个所述实体的词向量;
计算所述目标领域实体列表中目标实体的词向量与其他实体的词向量的空间距离作为所述目标领域实体列表中目标实体与其他实体的相似性。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述第一分词中的连续单字词;
计算所述单字词与邻接词的互信息,将所述互信息满足第一阈值范围的单字词确定为候选单字词;
计算候选单字词的左邻接熵以及右邻接熵,根据所述左邻接熵确定所述候选单字词是否与左邻接词合并和/或根据所述右邻接熵确定所述候选单字词是否与右邻接词合并,得到新增目标领域术语;
将所述新增目标领域术语以及所述新增目标领域术语对应的类别标签添加到所述目标领域术语词典中。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述目标领域术语词典为医疗领域术语词典,所述目标领域术语为医疗领域术语,所述目标领域分词器为医疗领域分词器,所述目标领域实体列表为医疗领域实体列表,所述目标领域实体知识图谱为医疗领域实体知识图谱。
10.一种属性信息获取方法,其特征在于,所述方法包括:
获取目标文本;
利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在权利要求1-8任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据权利要求1-8任一项所述的目标领域实体知识图谱建立方法建立的。
11.根据权利要求10所述的方法,其特征在于,所述实体识别模型的训练过程包括:
根据第一文本训练字向量模型;
将所述第一分词输入所述字向量模型,得到所述第一分词中每个字符的字向量;
将所述第一分词中各个字符的字向量、所述第一分词中各个字符的字符序列标签以及所述第一分词对应的实体类别标签作为第一训练数据训练得到实体识别模型,所述实体识别模型采用基于双向长短期记忆网络以及条件随机场的网络结构。
12.根据权利要求11所述的方法,其特征在于,所述利用实体识别模型对所述目标文本进行实体识别得到目标实体,包括:
将目标文本输入所述字向量模型,得到所述目标文本中各个字符的字向量;
将所述目标文本中各个字符的字向量输入所述实体识别模型,得到所述实体识别模型输出的所述目标文本中各个字符对应的字符序列标签;
根据所述目标文本中各个字符对应的字符序列标签确定所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
13.根据权利要求11所述的方法,其特征在于,所述利用目标领域实体列表对所述目标文本进行实体识别得到目标实体,包括:
在所述目标领域实体列表中查找所述第二文本中包含的实体,将所述第二文本中包含的实体确定为目标实体。
14.一种实现门诊分诊的方法,其特征在于,所述方法包括:
获取病历文本;
利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在权利要求9所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据权利要求9所述的目标领域实体知识图谱建立方法建立的;
当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。
15.一种目标领域实体知识图谱建立装置,其特征在于,所述装置包括:
文本实体识别单元,用于利用实体识别模型对第二文本进行实体识别,和/或,利用目标领域分词器对第二文本进行实体识别;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
实体列表添加单元,用于将识别得到的实体以及对应的实体类别标签添加到目标领域实体列表;
关系属性获取单元,用于获取所述目标领域实体列表中各个实体之间的关联关系以及各个实体的相关属性;
知识图谱构建单元,用于利用所述目标领域实体列表中实体对应的实体类别标签、各个实体之间的关联关系以及各个实体的相关属性建立目标领域实体知识图谱;
实体相似性计算单元,用于计算所述目标领域实体列表中目标实体与其他实体的相似性;
等价关系确定单元,用于根据所述目标实体与其他实体的相似性,确定所述目标实体的等价实体,所述目标实体与所述目标实体的等价实体之间具有等价的关联关系,所述目标实体分别为所述目标领域实体列表中的每一实体;
未知标签获取单元,用于当所述目标领域实体列表中已知类别实体为未知类别实体的等价实体时,将该已知类别实体的实体类别标签添加为该未知类别实体的实体类别标签。
16.一种属性信息获取装置,其特征在于,所述装置包括:
目标文本获取单元,用于获取目标文本;
目标实体获取单元,用于利用实体识别模型对所述目标文本进行实体识别得到目标实体,和/或,利用目标领域实体列表对所述目标文本进行实体识别得到目标实体;所述目标领域实体列表是在权利要求1-8任一项所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用目标领域分词器对所述第一文本进行分词得到的;所述目标领域分词器包括目标领域术语词典,所述目标领域术语词典包括目标领域术语以及所述目标领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
属性关系查找单元,用于在目标领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述目标领域实体知识图谱是根据权利要求1-8任一项所述的目标领域实体知识图谱建立方法建立的。
17.一种实现门诊分诊的装置,其特征在于,所述装置包括:
病历文本获取单元,用于获取病历文本;
目标实体识别单元,用于利用实体识别模型对所述病历文本进行实体识别得到目标实体,和/或,利用医疗领域实体列表对所述病历文本进行实体识别得到目标实体;所述医疗领域实体列表是在权利要求9所述的目标领域实体知识图谱建立方法实现过程中获得的;所述实体识别模型是利用第一文本以及第一分词结果训练得到的,所述第一分词结果是利用医疗领域分词器对所述第一文本进行分词得到的;所述医疗领域分词器包括医疗领域术语词典,所述医疗领域术语词典包括医疗领域术语以及所述医疗领域术语对应的实体类别标签;所述第一分词结果包括第一分词、所述第一分词对应的实体类别标签以及所述第一分词中每个字符的字符序列标签;所述第一分词中每个字符的字符序列标签用于表征第一分词中每个字符的位置信息;所述每个字符的字符序列标签用于确定所述第一文本包括的实体;所述实体类别标签用于确定所述第一文本包括的实体对应的实体类别标签;所述第一分词对应的实体类别标签用于表征当第一分词为实体时,该第一分词所归属的类别信息;
关系属性确定单元,用于在医疗领域实体知识图谱中查找与所述目标实体具有关联关系的实体,和/或所述目标实体对应的相关属性,所述医疗领域实体知识图谱是根据权利要求9所述的目标领域实体知识图谱建立方法建立的;
关系属性输出单元,用于当与所述目标实体具有关联关系的实体和/或所述目标实体对应的相关属性中包括科室实体和/或检查项目信息时,对所述科室实体和/或所述检查项目信息进行输出提示。
18.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-9任一项所述的目标领域实体知识图谱建立方法、或者权利要求10-13任一项所述的属性信息获取方法、或者权利要求14所述的实现门诊分诊的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-9任一项所述的目标领域实体知识图谱建立方法、或者权利要求10-13任一项所述的属性信息获取方法、或者权利要求14所述的实现门诊分诊的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124307.8A CN111368094B (zh) | 2020-02-27 | 2020-02-27 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010124307.8A CN111368094B (zh) | 2020-02-27 | 2020-02-27 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368094A CN111368094A (zh) | 2020-07-03 |
CN111368094B true CN111368094B (zh) | 2024-03-26 |
Family
ID=71206340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010124307.8A Active CN111368094B (zh) | 2020-02-27 | 2020-02-27 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368094B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530550A (zh) * | 2020-12-10 | 2021-03-19 | 武汉联影医疗科技有限公司 | 影像报告生成方法、装置、计算机设备和存储介质 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
CN112307752A (zh) * | 2020-10-30 | 2021-02-02 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
US11928519B2 (en) | 2021-01-29 | 2024-03-12 | International Business Machines Corporation | Modernization of an application for related image generation |
CN113609308B (zh) * | 2021-08-12 | 2023-04-21 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN114925210B (zh) * | 2022-03-21 | 2023-12-08 | 中国电信股份有限公司 | 知识图谱的构建方法、装置、介质及设备 |
CN115982389B (zh) * | 2023-03-10 | 2023-05-30 | 北京国华众联科技有限公司 | 知识图谱生成方法、装置和设备 |
CN117852637B (zh) * | 2024-03-07 | 2024-05-24 | 南京师范大学 | 一种基于定义的学科概念知识体系自动构建方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN108804617A (zh) * | 2018-05-30 | 2018-11-13 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558754B2 (en) * | 2016-09-15 | 2020-02-11 | Infosys Limited | Method and system for automating training of named entity recognition in natural language processing |
-
2020
- 2020-02-27 CN CN202010124307.8A patent/CN111368094B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN108804617A (zh) * | 2018-05-30 | 2018-11-13 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111368094A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368094B (zh) | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN110335653B (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN111613339A (zh) | 一种基于深度学习的相似病历查找方法与系统 | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
WO2021179693A1 (zh) | 医疗文本翻译方法、装置及存储介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN112687328B (zh) | 确定临床描述信息的表型信息的方法、设备和介质 | |
CN111986793A (zh) | 基于人工智能的导诊处理方法、装置、计算机设备及介质 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN114492443A (zh) | 训练实体识别模型的方法及系统和实体识别方法及系统 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113903420A (zh) | 一种语义标签确定模型的构建方法、病历解析方法 | |
Shah et al. | Improvement of Soundex algorithm for Indian language based on phonetic matching | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
Rizhinashvili et al. | Gender neutralisation for unbiased speech synthesising | |
CN111104481B (zh) | 一种识别匹配字段的方法、装置及设备 | |
CN111640517A (zh) | 病历编码方法、装置、存储介质及电子设备 | |
CN116741333A (zh) | 一种医药营销管理系统 | |
CN115841861A (zh) | 一种相似病历推荐方法及系统 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |