CN109243599A - 一种基于多维度信息检索的疾病对码方法 - Google Patents

一种基于多维度信息检索的疾病对码方法 Download PDF

Info

Publication number
CN109243599A
CN109243599A CN201810216439.6A CN201810216439A CN109243599A CN 109243599 A CN109243599 A CN 109243599A CN 201810216439 A CN201810216439 A CN 201810216439A CN 109243599 A CN109243599 A CN 109243599A
Authority
CN
China
Prior art keywords
disease
dimension
noun
various dimensions
segmenter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810216439.6A
Other languages
English (en)
Inventor
姹ゆ郊
汤潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenpo Information Technology (shanghai) Co Ltd
Original Assignee
Shenpo Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenpo Information Technology (shanghai) Co Ltd filed Critical Shenpo Information Technology (shanghai) Co Ltd
Priority to CN201810216439.6A priority Critical patent/CN109243599A/zh
Publication of CN109243599A publication Critical patent/CN109243599A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多维度信息检索的疾病对码方法,该方法涉及自然语言处理领域。该方法包括以下步骤:步骤1:采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题。步骤2:针对步骤1的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。该方法采用自然语言处理技术,从多个维度评估目标疾病名词与标准库的相似度,从而解决传统对码工作中效率低、准确性低的问题。

Description

一种基于多维度信息检索的疾病对码方法
技术领域
本发明涉及一种自然语言处理技术领域,尤其涉及一种基于多维度信息检索的疾病对码方法。
背景技术
随着自然语言处理技术的快速发展,我们希望借助计算机的智能技术来代替繁杂的疾病对码工作。疾病对码就是将给出的疾病名称归类到标准疾病分类中,在该技术的研究中,我们采用标准疾病库。在传统的疾病对码工作中,要么采用人工对码,要么采用字符串匹配技术,其效率和准确性都非常低。
发明内容
本发明为了解决现有技术的上述不足,提供了一种基于多维度信息检索的疾病对码方法。
本发明的上述目的通过以下的技术方案来实现:一种基于多维度信息检索的疾病对码方法,包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度,最后计算得出关联度最高的条目即为疾病对码的结果。
本发明与现有技术相比的优点是:本发明采用多维度排序算法评估目标疾病名词的类别,很好的弥补了传统字符串匹配单一方式缺陷,获得更高的准确性。
具体实施方式
下面结合实施例对本发明进一步详述。
本发明的一种基于多维度信息检索的疾病对码方法,包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度,最后计算得出关联度最高的条目即为疾病对码的结果。
上述的具体实施方式只是示例性的,是为了更好的使本领域技术人员能够理解本专利,不能理解为是对本专利包括范围的限制;只要是根据本专利所揭示精神的所作的任何等同变更或修饰,均落入本专利包括的范围。

Claims (4)

1.一种基于多维度信息检索的疾病对码方法,其特征在于:包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
2.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
3.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
4.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
CN201810216439.6A 2018-03-16 2018-03-16 一种基于多维度信息检索的疾病对码方法 Pending CN109243599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810216439.6A CN109243599A (zh) 2018-03-16 2018-03-16 一种基于多维度信息检索的疾病对码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810216439.6A CN109243599A (zh) 2018-03-16 2018-03-16 一种基于多维度信息检索的疾病对码方法

Publications (1)

Publication Number Publication Date
CN109243599A true CN109243599A (zh) 2019-01-18

Family

ID=65084100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810216439.6A Pending CN109243599A (zh) 2018-03-16 2018-03-16 一种基于多维度信息检索的疾病对码方法

Country Status (1)

Country Link
CN (1) CN109243599A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012111288A1 (ja) * 2011-02-14 2012-08-23 パナソニック株式会社 類似症例検索装置および類似症例検索方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012111288A1 (ja) * 2011-02-14 2012-08-23 パナソニック株式会社 類似症例検索装置および類似症例検索方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统

Similar Documents

Publication Publication Date Title
Yang et al. Joint relational embeddings for knowledge-based question answering
US9633006B2 (en) Question answering system and method for structured knowledgebase using deep natural language question analysis
CN102122298B (zh) 一种中文相似性匹配方法
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
US9110980B2 (en) Searching and matching of data
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
WO2008112548A1 (en) Methods and system for extracting phenotypic information from the literature via natural language processing
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
Fang et al. Human gene name normalization using text matching with automatically extracted synonym dictionaries
Cabot et al. SIBM at CLEF eHealth Evaluation Lab 2017: Multilingual Information Extraction with CIM-IND.
CN109992777B (zh) 一种基于关键词的中医病情文本关键语义信息提取方法
US10678827B2 (en) Systematic mass normalization of international titles
Qiu et al. Syntactic dependencies and distributed word representations for analogy detection and mining
CN109243599A (zh) 一种基于多维度信息检索的疾病对码方法
Castano et al. A machine learning approach to clinical terms normalization
Sharoff Language adaptation experiments via cross-lingual embeddings for related languages
Shah et al. Analysis and comparative study on phonetic matching techniques
CN108733658A (zh) 组织机构名汉英翻译方法
Chiang et al. Extracting functional annotations of proteins based on hybrid text mining approaches
US11520989B1 (en) Natural language processing with keywords
Rama Siamese convolutional networks based on phonetic features for cognate identification
JP2009199280A (ja) 部分構文木プロファイルを用いた類似性検索システム
Attardi et al. UniPi: Recognition of mentions of disorders in clinical text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118