CN109243599A - 一种基于多维度信息检索的疾病对码方法 - Google Patents
一种基于多维度信息检索的疾病对码方法 Download PDFInfo
- Publication number
- CN109243599A CN109243599A CN201810216439.6A CN201810216439A CN109243599A CN 109243599 A CN109243599 A CN 109243599A CN 201810216439 A CN201810216439 A CN 201810216439A CN 109243599 A CN109243599 A CN 109243599A
- Authority
- CN
- China
- Prior art keywords
- disease
- dimension
- noun
- various dimensions
- segmenter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多维度信息检索的疾病对码方法,该方法涉及自然语言处理领域。该方法包括以下步骤:步骤1:采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题。步骤2:针对步骤1的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。该方法采用自然语言处理技术,从多个维度评估目标疾病名词与标准库的相似度,从而解决传统对码工作中效率低、准确性低的问题。
Description
技术领域
本发明涉及一种自然语言处理技术领域,尤其涉及一种基于多维度信息检索的疾病对码方法。
背景技术
随着自然语言处理技术的快速发展,我们希望借助计算机的智能技术来代替繁杂的疾病对码工作。疾病对码就是将给出的疾病名称归类到标准疾病分类中,在该技术的研究中,我们采用标准疾病库。在传统的疾病对码工作中,要么采用人工对码,要么采用字符串匹配技术,其效率和准确性都非常低。
发明内容
本发明为了解决现有技术的上述不足,提供了一种基于多维度信息检索的疾病对码方法。
本发明的上述目的通过以下的技术方案来实现:一种基于多维度信息检索的疾病对码方法,包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度,最后计算得出关联度最高的条目即为疾病对码的结果。
本发明与现有技术相比的优点是:本发明采用多维度排序算法评估目标疾病名词的类别,很好的弥补了传统字符串匹配单一方式缺陷,获得更高的准确性。
具体实施方式
下面结合实施例对本发明进一步详述。
本发明的一种基于多维度信息检索的疾病对码方法,包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度,最后计算得出关联度最高的条目即为疾病对码的结果。
上述的具体实施方式只是示例性的,是为了更好的使本领域技术人员能够理解本专利,不能理解为是对本专利包括范围的限制;只要是根据本专利所揭示精神的所作的任何等同变更或修饰,均落入本专利包括的范围。
Claims (4)
1.一种基于多维度信息检索的疾病对码方法,其特征在于:包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
2.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
3.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
4.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810216439.6A CN109243599A (zh) | 2018-03-16 | 2018-03-16 | 一种基于多维度信息检索的疾病对码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810216439.6A CN109243599A (zh) | 2018-03-16 | 2018-03-16 | 一种基于多维度信息检索的疾病对码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109243599A true CN109243599A (zh) | 2019-01-18 |
Family
ID=65084100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810216439.6A Pending CN109243599A (zh) | 2018-03-16 | 2018-03-16 | 一种基于多维度信息检索的疾病对码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243599A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012111288A1 (ja) * | 2011-02-14 | 2012-08-23 | パナソニック株式会社 | 類似症例検索装置および類似症例検索方法 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 |
CN107705839A (zh) * | 2017-10-25 | 2018-02-16 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
-
2018
- 2018-03-16 CN CN201810216439.6A patent/CN109243599A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012111288A1 (ja) * | 2011-02-14 | 2012-08-23 | パナソニック株式会社 | 類似症例検索装置および類似症例検索方法 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106874643A (zh) * | 2016-12-27 | 2017-06-20 | 中国科学院自动化研究所 | 基于词向量自动构建知识库实现辅助诊疗的方法和系统 |
CN107705839A (zh) * | 2017-10-25 | 2018-02-16 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Joint relational embeddings for knowledge-based question answering | |
US9633006B2 (en) | Question answering system and method for structured knowledgebase using deep natural language question analysis | |
CN102122298B (zh) | 一种中文相似性匹配方法 | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
US9110980B2 (en) | Searching and matching of data | |
Pettersson et al. | A multilingual evaluation of three spelling normalisation methods for historical text | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
WO2008112548A1 (en) | Methods and system for extracting phenotypic information from the literature via natural language processing | |
CN110390022A (zh) | 一种自动化的专业知识图谱构建方法 | |
Fang et al. | Human gene name normalization using text matching with automatically extracted synonym dictionaries | |
Cabot et al. | SIBM at CLEF eHealth Evaluation Lab 2017: Multilingual Information Extraction with CIM-IND. | |
CN109992777B (zh) | 一种基于关键词的中医病情文本关键语义信息提取方法 | |
US10678827B2 (en) | Systematic mass normalization of international titles | |
Qiu et al. | Syntactic dependencies and distributed word representations for analogy detection and mining | |
CN109243599A (zh) | 一种基于多维度信息检索的疾病对码方法 | |
Castano et al. | A machine learning approach to clinical terms normalization | |
Sharoff | Language adaptation experiments via cross-lingual embeddings for related languages | |
Shah et al. | Analysis and comparative study on phonetic matching techniques | |
CN108733658A (zh) | 组织机构名汉英翻译方法 | |
Chiang et al. | Extracting functional annotations of proteins based on hybrid text mining approaches | |
US11520989B1 (en) | Natural language processing with keywords | |
Rama | Siamese convolutional networks based on phonetic features for cognate identification | |
JP2009199280A (ja) | 部分構文木プロファイルを用いた類似性検索システム | |
Attardi et al. | UniPi: Recognition of mentions of disorders in clinical text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |