CN106844308A - 一种使用语义识别进行自动化疾病编码转换的方法 - Google Patents
一种使用语义识别进行自动化疾病编码转换的方法 Download PDFInfo
- Publication number
- CN106844308A CN106844308A CN201710042733.5A CN201710042733A CN106844308A CN 106844308 A CN106844308 A CN 106844308A CN 201710042733 A CN201710042733 A CN 201710042733A CN 106844308 A CN106844308 A CN 106844308A
- Authority
- CN
- China
- Prior art keywords
- word
- diagnosis
- training set
- idf
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 45
- 201000010099 disease Diseases 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000003745 diagnosis Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 9
- 206010008631 Cholera Diseases 0.000 description 50
- 208000037386 Typhoid Diseases 0.000 description 27
- 201000008297 typhoid fever Diseases 0.000 description 27
- 201000009906 Meningitis Diseases 0.000 description 8
- 208000015220 Febrile disease Diseases 0.000 description 7
- 206010035664 Pneumonia Diseases 0.000 description 7
- 206010040047 Sepsis Diseases 0.000 description 7
- 208000013223 septicemia Diseases 0.000 description 7
- 241000607626 Vibrio cholerae Species 0.000 description 6
- 229940118696 vibrio cholerae Drugs 0.000 description 6
- 241000293871 Salmonella enterica subsp. enterica serovar Typhi Species 0.000 description 5
- 208000006454 hepatitis Diseases 0.000 description 4
- 231100000283 hepatitis Toxicity 0.000 description 4
- 208000009084 Cold Injury Diseases 0.000 description 2
- 241000607598 Vibrio Species 0.000 description 2
- 206010005159 blepharospasm Diseases 0.000 description 2
- 230000000744 blepharospasm Effects 0.000 description 2
- 241000902900 cellular organisms Species 0.000 description 2
- 230000002595 cold damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 206010034674 peritonitis Diseases 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G06F19/324—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提出了一种使用语义识别进行自动化疾病编码转换的方法,包括:采集原始编码和诊断描述的对应关系的样本数据集;对诊断文字历史库中的数据按照医学规则进行预处理并进行分词操作;对诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理和分词操作;计算诊断文字历史库的中每个词对应的文档IDF权重值;将诊断文字训练集中每条诊断文字记录进行分词操作,生成由文字转换而成的训练集TF‑IDF矩阵;将待转换诊断文字记录分词操作,转换成词向量后与训练集TF‑IDF矩阵比对,通过余弦相似度公式找到训练集中计算结果最相近所对应的疾病编码。本发明根据医生对病人写的诊断文字描述,自动对文字描述所代表的编码进行转换。
Description
技术领域
本发明涉及医学、计算机应用技术领域,特别涉及一种使用语义识别进行自动化疾病编码转换的方法。
背景技术
国际疾病分类(international Classification of diseases,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。是记录诊断信息的载体,是开展医疗数据分析、疾病诊断分组以及绩效评价、医保控费的基础。在医疗机构实践中,各地基于疾病特点对编码进行了不同细化(ICD-10临床版),且不同医院对相同疾病诊断的描述不同。例如,GB-ICD-10中的“睑痉挛”与BJ-ICD-10中的“眼睑痉挛”诊断意义相同,前者编码为“G24.500”,而后者编码为“G24.501”。由此出现了多个版本不统一问题,严重影响着医疗数据的挖掘应用。
现有技术中解决此类编码匹配问题方案,主要依靠文字完全匹配或者人工识别。前种方法遇到文字微小偏差即无法识别,而后种方法工作量大,对人员能力素质要求高,难以确保转换准确。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种使用语义识别进行自动化疾病编码转换的方法。
为了实现上述目的,本发明的实施例提供一种使用语义识别进行自动化疾病编码转换的方法,包括:
步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库;采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集;将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集;
步骤S2,对所述诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;
步骤S3,对所述诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作;
步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的IDF权重值;
步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成得训练集TF-IDF矩阵;
步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次数,并提取对应词的IDF权重值,转换为TF-IDF矩阵,将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来,生出初步筛选后的训练集TF-IDF矩阵,提取所述编码测试集,提取前N位值,并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵,作为筛选后的训练集TF-IDF矩阵;
步骤S7,将诊断文字测试集记录分词后匹配诊断以形成词向量,与所有筛选后的记录按照下面公式计算相似度simij,并返回相似度最大值对应的疾病编码,
其中,表示第i个预测集病例描述转化后的词向量,表示第j个训练集病例描述转化后的词向量;
步骤S8,将最终编码结果发送给医学专家端进审核,根据医学专家反馈,以优化转换效果。
进一步,在所述步骤S2和S3中,
对诊断文字历史库和诊断文字训练集中的数据按照医学规则进行处理之前,还包括如下步骤:对数据进行去掉停用词处理。
进一步,在所述步骤S4中,所述每个词对应的文档IDF权重值IDF第i个词为:
其中,i为分词编号。
进一步,在所述步骤S5中,所述计算第j个病例描述每i个词的权重值TF-IDF,对每一个编码对应词计算下去,并形成TF-IDF矩阵,
其中,i为分词编号,j为病例编号。
进一步,在所述步骤S6中,N取5,其中,前N位值包括小数点在内。
根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法,根据医生对病人写的主要诊断文字描述,自动对文字描述所代表的编码进行转换。具体地是通过获取一段时期内疾病分类编码和对应文字的样本数据集,然后将要转换目标编码及其文字,使用机器学习的方法,训练出使用诊断文字进行转换的转换器。当需要对新来的文字诊断进行编码转换时,使用这一转换器,即可输出预测的标准的疾病编码。本发明在ICD编码识别转换中创新应用了自然语言识别(NLP)技术,利用TF-IDF、余弦相似性等算法,实现了不同ICD(国际疾病分类)编码版本间自动转换,大大提升了编码转换的效率和准确性,为医疗数据应用(如医学研究、疾病控费管理)奠定了基础。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法的流程图;
图2为根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提出了一种使用语义识别进行自动化疾病编码转换的系统,可以根据医生主诊断文字说明进行机器语义识别转换。
如图1和图2所示,本发明实施例的使用语义识别进行自动化疾病编码转换的方法,包括如下步骤:
步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库。具体地,采集某地区近三年所有原始编码和诊断描述的对应关系的样本数据集,将原始编码部分记为历史库编码,原始诊断描述记为历史库诊断文字。
采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集。具体地,采集所有标准编码和诊断描述形成训练集,将训练集中编码部分记为训练集编码,训练集诊断描述记为训练集诊断文字。
将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集。具体地,将需要进行转换的诊断描述形成测试集,测试集中编码部分记为测试集编码,训练集诊断描述记为测试集诊断文字;
步骤S2,对诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;
具体地,将历史库诊断文字进行去掉停用词,然后,按照医学规则预处理数据,将处理好的历史库诊断文字数据按照汉语规则进行分词操作。
步骤S3,对诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作。
具体地,将诊断文字训练集进行增加同义词词表,并重复上述对历史库诊断文字的同样处理操作,对数据进行去掉停用词处理,按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作。
步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的文档IDF权重值。
在本步骤中,每个词对应的文档IDF权重值IDF第i个词为:
其中,i为分词编号。
步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换成的训练集TF-IDF矩阵。
具体地,计算第j个病例描述每i个词的权重值TF-IDF,对每一个编码对应词计算下去,并形成TF-IDF矩阵,
其中,i为分词编号,j为病例编号。
步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次,并提取对应词的IDF权重值,转换为TF-IDF矩阵,将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来,以便加快计算速度,生出初步筛选后的训练集TF-IDF矩阵,提取编码测试集,提取前N位值。
优选的,N取5,其中,前N位值包括小数点在内。
然后,从初步筛选后的训练集TF-IDF矩阵中进一步筛选编码训练集前N位与编码测试集前N位相同的矩阵,作为筛选后的训练集TF-IDF矩阵。
即,提取测试集编码,取其前五位值(包含小数点),在S5的基础上进一步筛选训练集编码前五位与测试集编码前五位相同的矩阵。
步骤S7,将诊断文字测试集记录分词后匹配诊断以形成词向量,与所有筛选后的记录按照下面公式计算相似度simij,并返回相似度最大值对应的疾病编码,
其中,表示第i个预测集病例描述转化后的词向量,表示第j个训练集病例描述转化后的词向量。
步骤S8,将最终编码结果发送给专家端进审核,直至审核通过。
将测试数据匹配训练库的结果交由医疗编码专家审阅,将其中有明显问题的数据,修正后,加入训练集,重复步骤S2至S7,进而不断优化编码转换器的转换效果,提高工作的准确性。
下面对本发明实施例的使用语义识别进行自动化疾病编码转换的系统,进行举例说明。
(1)采集某地区医院历史病例描述。表1为病例历史记录数据集。为了描述方便,表1中仅列出十九条病例。历史病例库对于疾病编码准确性无准确性要求,只需要收集历史中出现疾病情况即可。
JBDM | ZYZD |
A00.000 | 古典生物型霍乱 |
A00.001 | 古典生物型霍乱。 |
A00.101 | 埃尔托生物型霍乱 |
A00.901 | 霍乱 |
A00.902 | 霍乱轻型 |
A00.903 | 霍乱中型 |
A00.904 | 霍乱重型 |
A00.905 | 霍乱暴发型 |
A01.000 | 伤寒 |
A01.000 | 伤寒? |
A01.001 | 伤寒 |
A01.001+ | 伤寒性肝炎 |
A01.002 | 伤寒杆菌败血症 |
A01.003+G01* | 伤寒并发脑膜炎 |
A01.004 | 伤寒复发 |
A01.005 | 伤寒并发肺炎 |
A01.005+J17.0* | 伤寒并发肺炎 |
A01.006 | 伤寒迁延型 |
A01.007 | 伤寒逍遥型 |
表1
(2)对历史数据文字进行分词操作,去掉停用词(如“和”、“的”),将分词后所有剩下的不重复词汇汇总成一张总表,也就是“词包”。表2为病例历史记录分词后数据集。
JBDM | ZYZD |
A00.000 | [古典,生物,型,霍乱] |
A00.001 | [古典,生物,型,霍乱] |
A00.101 | [埃尔托,生物,型,霍乱] |
A00.901 | [霍乱] |
A00.902 | [霍乱,轻型] |
A00.903 | [霍乱,中型] |
A00.904 | [霍乱,重型] |
A00.905 | [霍乱,暴发型] |
A01.000 | [伤寒] |
A01.000 | [伤寒] |
A01.001 | [伤寒] |
A01.001+ | [伤寒,性,肝炎] |
A01.002 | [伤寒杆菌,败血症] |
A01.003+G01* | [伤寒,并发,脑膜炎] |
A01.004 | [伤寒,复发] |
A01.005 | [伤寒,并发,肺炎] |
A01.005+J17.0* | [伤寒,并发,肺炎] |
A01.006 | [伤寒,迁延,型] |
A01.007 | [伤寒,逍遥,型] |
表2
汇总后去除重复项后得到的词包为:脑膜炎,逍遥,败血症,型,艾尔托,中型,霍乱,古典,肺炎,伤寒杆菌,重型,暴发型,并发,复发,性肝炎,生物,迁延,轻型,伤寒。
(3)计算历史词库中每一个词出现的权值IDF,计算公式是:
按照公式,如“脑膜炎”这个词,在19个病例中出现了1次,则其对应的IDF值为log(1/19)=-2.9444。表3中各词的IDF值均是由此项公式计算而得。
词 | IDF |
脑膜炎 | -2.94444 |
逍遥 | -2.94444 |
败血症 | -2.94444 |
型 | -1.335 |
埃尔托 | -2.94444 |
中型 | -2.94444 |
霍乱 | -0.865 |
古典 | -2.25129 |
肺炎 | -2.25129 |
伤寒杆菌 | -2.94444 |
重型 | -2.94444 |
暴发型 | -2.94444 |
并发 | -1.84583 |
复发 | -2.94444 |
性肝炎 | -2.94444 |
生物 | -1.84583 |
迁延 | -2.94444 |
轻型 | -2.94444 |
伤寒 | -0.64185 |
表3
(4)将文字编码对应准确(疾病分类编码版本为IDC-10)的数据集作为训练集,为了表示方便只显示十五条,如下表4所示:
表4
(5)对标准训练库中词进行同样分词处理,去掉停用词(如“的”、“和”等),如表5所示:
JBDM | ZYZD |
A00.001 | [古典,生物,霍乱,型] |
A00.101 | [埃尔托,生物,霍乱,型] |
A00.901 | [霍乱] |
A00.902 | [霍乱,轻型] |
A00.903 | [霍乱,中型] |
A00.904 | [霍乱,重型] |
A00.905 | [霍乱,暴发型] |
A01.001 | [伤寒] |
A01.002 | [伤寒杆菌,败血症] |
A01.003 | [伤寒,并发,脑膜炎] |
A01.004 | [伤寒,复发] |
A01.005+J17.0* | [伤寒,并发,肺炎] |
A01.006 | [伤寒,迁延] |
A01.007 | [伤寒,逍遥] |
A01.008 | [伤寒,并发,腹膜炎] |
表5
(6)将训练库中按照每一条记录中所有词按照此公式转换成TF-IDF权重值,最终将疾病编码-词由文字转换成TF-IDF矩阵。
如疾病代码A00.001中,分词结束后,有古典、生物、霍乱、型4个词。古典在表3中对应的IDF值为-2.25129,A00.001中共有4个词,则“古典”在A00.001中对应的值为-2.25129/4=-0.56282,同样的,“型”在A00.001中对应值为-1.335/4=-0.33,“霍乱”对应值为-0.865/4=-0.22,“生物”对应值为-1.845/4=-0.45,然后把A00.001中其他词对应值填为0。
按照这种方法,对每一个编码对应词计算下去,最终可以得到由文字转化而成的矩阵如表6所示。
表6
(7)读入将要转换的文字进行分词,取出步骤三“词包”中出现过的词,然后提取对应词的IDF值,然后将其转换成如步骤(6)中的TF-IDF向量。
如“霍乱,由于01群霍乱弧菌,埃尔托生物所致”,分词后结果为“霍乱,由于,0,1,霍乱,弧菌,埃尔托,生物,所致”,筛选出词包中出现过的词:“霍乱,埃尔托,生物”。查询他们对应的IDF值,由表3知,分别为:-0.865,-2.944,-1.845。由于分词最终结束后此句话共有3个词,需要对每个词对应的值除以3。按照步骤三的顺序,将各个词对应的值按照字典表顺序可得最终的TF-IDF词向量为:
[0,0,0,0,-0.98,0,-0.29,0,0,0,0,0,0,0,-0.61,0,0,0]
(8)将所有含有待转换编码文字的编码对应的步骤(6)中的TF-IDF矩阵筛选出来。
如“霍乱,由于01群霍乱弧菌,埃尔托生物型所致”,分词后结果为:“霍乱,埃尔托,生物”,含有这三个词中任意一个词的训练库句子有古典生物型霍乱、埃尔托生物型霍乱、霍乱、霍乱轻型、霍乱中型、霍乱重型、霍乱暴发型。对应编码分别为:A00.001、A00.101、A00.901、A00.902、A00.903、A00.904、A00.905。表7示出了筛选出的矩阵。
表7
(9)按照余弦相似度公式依次计算这句话和训练库中各病例相似程度,选择相似度值最高的病例的疾病编码作为最终转换的ICD-10编码。
如“古典生物型霍乱”,古典生物型霍乱分词结束后转为“古典,生物,型,霍乱”,查询表3后得到对应的词向量为:
[0,0,0,-0.33,0,0,-0.22,-0.56,0,0,0,0,0,0,0,-0.46,0,0,0]
根据步骤(7):“霍乱,由于01群霍乱弧菌,埃尔托生物型所致”对应的词向量为:
[0,0,0,0,-0.98,0,-0.29,0,0,0,0,0,0,0,-0.61,0,0,0]
按照相似度计算公式:
分子为编号A00.001词向量与待翻译文字词向量乘积,分母为各词向量的长度乘积,计算值为:
重复上述相似度计算操作,分别对剩下6个编码对应的词向量进行计算,最终分别计算出相似度结果如表8所示:
预测 | 相似度 |
A00.001 | 0.34891244 |
A00.101 | 0.93700953 |
A00.901 | 0.24185056 |
A00.902 | 0.06816853 |
A00.903 | 0.06816853 |
A00.904 | 0.06816853 |
A00.905 | 0.06816853 |
表8
最后返回相似度最高的预测编码,也即“A00.101”。
(10)为了进一步优化计算效率,在读取测试数据时,同时读入待转换编码和待转换文字,对编码和标准训练集编码分别提取前五位数字,只有当待转换编码前五位与标准训练集编码前五位相同,才纳入计算范围。这样同时考虑编码文字相似性和编码前五位值进行转换编码,可以极大优化系统计算速度。
参考表9,如步骤(7)中“霍乱,由于01群霍乱弧菌,埃尔托生物型所致”,其对应待转换编码为“A00.100”,编码前五位为“A00.1”,标准训练集编码满足前五位数值为“A00.1”的代码只有“A00.101”,这样即可在步骤(9)比较7次的基础上,进一步缩小比较范围达到仅需要比较1次的效果,并可以确定A00.101作为其转换后的编码。
表9
(11)以预测值为作为训练集表和测试集表连表的标准,连接测试数据集和训练集的文字。然后将此结果反馈给医疗专家,由专家指出系统预测正确与不足情况,重复步骤(1)至步骤(10)以便从准确度上进一步优化本方案。
如表10所示,左两列数据为需要转换编码的数据,有两列数据为根据疾病编码转换系统得出的预测编码及对应的文字描述。
JBDM | ZYZD | prediction | describe |
A00.000 | 霍乱,由于01群霍乱弧菌,霍乱生物型所致 | A00.901 | 霍乱 |
A00.100 | 霍乱,由于01群霍乱弧菌,埃尔托生物型所致 | A00.101 | 埃尔托生物型霍乱 |
A00.900 | 霍乱 | A00.901 | 霍乱 |
A01.000 | 伤寒 | A01.001 | 伤寒 |
A01.002+G01* | 伤寒性脑膜炎 | A01.003+G01* | 伤寒并发脑膜炎 |
A01.003 | 伤寒杆菌性败血症 | A01.002 | 伤寒杆菌败血症 |
表10
根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法,根据医生对病人写的主要诊断文字描述,自动对文字描述所代表的编码进行转换。具体地是通过获取一段时期内疾病分类编码和对应文字的样本数据集,然后将要转换目标编码及其文字,使用机器学习的方法,训练出使用诊断文字进行转换的转换器。当需要对新来的文字诊断进行编码转换时,使用这一转换器,即可输出预测的标准的疾病编码。本发明在ICD编码识别转换中创新应用了自然语言识别(NLP)技术,利用TF-IDF、余弦相似性等算法,实现了不同ICD(国际疾病分类)编码版本间自动转换,大大提升了编码转换的效率和准确性,为医疗数据应用(如医学研究、疾病控费管理)奠定了基础。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (5)
1.一种使用语义识别进行自动化疾病编码转换的方法,其特征在于,包括如下步骤:
步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库;采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集;将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集;
步骤S2,对所述诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;
步骤S3,对所述诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作;
步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的文档IDF权重值;
步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF-IDF矩阵;
步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次数,并提取对应词的IDF权重值,转换为TF-IDF矩阵,将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来,生出初步筛选后的训练集TF-IDF矩阵,提取所述编码测试集,提取前N位值,并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵,作为筛选后的训练集TF-IDF矩阵;
步骤S7,将诊断文字测试集记录分词后匹配诊断以形成词向量,与所有筛选后的记录按照下面公式计算相似度simij,并返回相似度最大值对应的疾病编码,
其中,表示第i个预测集病例描述转化后的词向量,表示第j个训练集病例描述转化后的词向量;
步骤S8,将最终编码结果发送给医学专家端进审核,以优化编码转换效果。
2.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法,其特征在于,在所述步骤S2和S3中,
对诊断文字历史库和诊断文字训练集中的数据按照医学规则进行处理之前,还包括如下步骤:对数据进行去掉停用词处理。
3.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法,其特征在于,在所述步骤S4中,所述每个词对应的文档IDF权重值IDF第i个词为:
其中,i为分词编号。
4.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法,其特征在于,在所述步骤S5中,所述计算第j个病例描述每i个词的权重值TF-IDF,对每一个编码对应词计算下去,并形成TF-IDF矩阵,
其中,i为分词编号,j为病例编号。
5.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法,其特征在于,在所述步骤S6中,N取5,其中,前N位值包括小数点在内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042733.5A CN106844308B (zh) | 2017-01-20 | 2017-01-20 | 一种使用语义识别进行自动化疾病编码转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042733.5A CN106844308B (zh) | 2017-01-20 | 2017-01-20 | 一种使用语义识别进行自动化疾病编码转换的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844308A true CN106844308A (zh) | 2017-06-13 |
CN106844308B CN106844308B (zh) | 2020-04-03 |
Family
ID=59120789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710042733.5A Active CN106844308B (zh) | 2017-01-20 | 2017-01-20 | 一种使用语义识别进行自动化疾病编码转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844308B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577826A (zh) * | 2017-10-25 | 2018-01-12 | 山东众阳软件有限公司 | 基于原始诊断数据的疾病分类编码方法及系统 |
CN107705839A (zh) * | 2017-10-25 | 2018-02-16 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
CN107833605A (zh) * | 2017-03-14 | 2018-03-23 | 北京大瑞集思技术有限公司 | 一种医院病历信息的编码方法、装置、服务器及系统 |
CN108122005A (zh) * | 2017-12-19 | 2018-06-05 | 浙江大学 | 一种临床药物层次分类的方法 |
CN108376564A (zh) * | 2018-02-06 | 2018-08-07 | 天津艾登科技有限公司 | 基于随机森林算法的疾病诊断并发症识别方法及系统 |
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
CN108920661A (zh) * | 2018-07-04 | 2018-11-30 | 平安健康保险股份有限公司 | 国际疾病分类标记方法、装置、计算机设备及存储介质 |
CN109003662A (zh) * | 2018-07-11 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 医师信息的提供方法、装置、设备及存储介质 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN109993227A (zh) * | 2019-03-29 | 2019-07-09 | 京东方科技集团股份有限公司 | 自动添加国际疾病分类编码的方法、系统、装置和介质 |
CN109994216A (zh) * | 2019-03-21 | 2019-07-09 | 上海市第六人民医院 | 一种基于机器学习的icd智能诊断编码方法 |
CN110032715A (zh) * | 2019-03-21 | 2019-07-19 | 武汉金豆医疗数据科技有限公司 | 一种疾病编码转换的方法 |
CN110032728A (zh) * | 2019-02-01 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 疾病名称标准化的转换方法和装置 |
CN110085307A (zh) * | 2019-04-04 | 2019-08-02 | 华东理工大学 | 一种基于多源知识图谱融合的智能导诊方法和系统 |
CN110767296A (zh) * | 2019-10-09 | 2020-02-07 | 北京雅丁信息技术有限公司 | 一种基于语义相似性的手术操作编码方法 |
CN111180062A (zh) * | 2019-12-12 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 基于原始诊断数据的疾病分类编码智能推荐方法 |
CN112183026A (zh) * | 2020-11-27 | 2021-01-05 | 北京惠及智医科技有限公司 | Icd编码方法、装置、电子设备和存储介质 |
CN112561894A (zh) * | 2020-12-22 | 2021-03-26 | 中国科学院苏州生物医学工程技术研究所 | 针对ct图像的电子病历智能生成方法及系统 |
CN113658672A (zh) * | 2021-08-23 | 2021-11-16 | 平安国际智慧城市科技股份有限公司 | 医师多点执业管理方法、装置、设备及存储介质 |
CN113705228A (zh) * | 2020-05-22 | 2021-11-26 | 中金慈云健康科技有限公司 | 基于自然语言处理的医学诊断文本分析标注方法 |
CN114091631A (zh) * | 2021-10-28 | 2022-02-25 | 国网江苏省电力有限公司连云港市赣榆区供电分公司 | 一种电网事故信息发布方法及装置 |
CN113705228B (zh) * | 2020-05-22 | 2024-10-22 | 中金慈云健康科技有限公司 | 基于自然语言处理的医学诊断文本分析标注方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080161652A1 (en) * | 2006-12-28 | 2008-07-03 | Potts Steven J | Self-organizing maps in clinical diagnostics |
US20080221395A1 (en) * | 2006-12-28 | 2008-09-11 | Potts Steven J | Self-organizing maps in clinical diagnostics |
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN105069123A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种中文手术操作信息的自动编码方法及系统 |
-
2017
- 2017-01-20 CN CN201710042733.5A patent/CN106844308B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080161652A1 (en) * | 2006-12-28 | 2008-07-03 | Potts Steven J | Self-organizing maps in clinical diagnostics |
US20080221395A1 (en) * | 2006-12-28 | 2008-09-11 | Potts Steven J | Self-organizing maps in clinical diagnostics |
CN104992058A (zh) * | 2015-06-25 | 2015-10-21 | 成都厚立信息技术有限公司 | 疾病风险调整模型建立方法 |
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN105069123A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种中文手术操作信息的自动编码方法及系统 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833605A (zh) * | 2017-03-14 | 2018-03-23 | 北京大瑞集思技术有限公司 | 一种医院病历信息的编码方法、装置、服务器及系统 |
CN107705839B (zh) * | 2017-10-25 | 2020-06-26 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
CN107705839A (zh) * | 2017-10-25 | 2018-02-16 | 山东众阳软件有限公司 | 疾病自动编码方法及系统 |
CN107577826B (zh) * | 2017-10-25 | 2018-05-15 | 山东众阳软件有限公司 | 基于原始诊断数据的疾病分类编码方法及系统 |
CN107577826A (zh) * | 2017-10-25 | 2018-01-12 | 山东众阳软件有限公司 | 基于原始诊断数据的疾病分类编码方法及系统 |
CN108122005A (zh) * | 2017-12-19 | 2018-06-05 | 浙江大学 | 一种临床药物层次分类的方法 |
CN109949938B (zh) * | 2017-12-20 | 2024-04-26 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
CN108376564A (zh) * | 2018-02-06 | 2018-08-07 | 天津艾登科技有限公司 | 基于随机森林算法的疾病诊断并发症识别方法及系统 |
CN108920661A (zh) * | 2018-07-04 | 2018-11-30 | 平安健康保险股份有限公司 | 国际疾病分类标记方法、装置、计算机设备及存储介质 |
CN108920661B (zh) * | 2018-07-04 | 2023-08-08 | 平安健康保险股份有限公司 | 国际疾病分类标记方法、装置、计算机设备及存储介质 |
CN109003662A (zh) * | 2018-07-11 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 医师信息的提供方法、装置、设备及存储介质 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109065157B (zh) * | 2018-08-01 | 2020-11-03 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN110032728A (zh) * | 2019-02-01 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 疾病名称标准化的转换方法和装置 |
CN110032715A (zh) * | 2019-03-21 | 2019-07-19 | 武汉金豆医疗数据科技有限公司 | 一种疾病编码转换的方法 |
CN109994216A (zh) * | 2019-03-21 | 2019-07-09 | 上海市第六人民医院 | 一种基于机器学习的icd智能诊断编码方法 |
CN109993227B (zh) * | 2019-03-29 | 2021-09-24 | 京东方科技集团股份有限公司 | 自动添加国际疾病分类编码的方法、系统、装置和介质 |
CN109993227A (zh) * | 2019-03-29 | 2019-07-09 | 京东方科技集团股份有限公司 | 自动添加国际疾病分类编码的方法、系统、装置和介质 |
CN110085307A (zh) * | 2019-04-04 | 2019-08-02 | 华东理工大学 | 一种基于多源知识图谱融合的智能导诊方法和系统 |
CN110767296A (zh) * | 2019-10-09 | 2020-02-07 | 北京雅丁信息技术有限公司 | 一种基于语义相似性的手术操作编码方法 |
CN111180062A (zh) * | 2019-12-12 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 基于原始诊断数据的疾病分类编码智能推荐方法 |
CN113705228B (zh) * | 2020-05-22 | 2024-10-22 | 中金慈云健康科技有限公司 | 基于自然语言处理的医学诊断文本分析标注方法 |
CN113705228A (zh) * | 2020-05-22 | 2021-11-26 | 中金慈云健康科技有限公司 | 基于自然语言处理的医学诊断文本分析标注方法 |
CN112183026A (zh) * | 2020-11-27 | 2021-01-05 | 北京惠及智医科技有限公司 | Icd编码方法、装置、电子设备和存储介质 |
CN112561894B (zh) * | 2020-12-22 | 2023-11-28 | 中国科学院苏州生物医学工程技术研究所 | 针对ct图像的电子病历智能生成方法及系统 |
CN112561894A (zh) * | 2020-12-22 | 2021-03-26 | 中国科学院苏州生物医学工程技术研究所 | 针对ct图像的电子病历智能生成方法及系统 |
CN113658672A (zh) * | 2021-08-23 | 2021-11-16 | 平安国际智慧城市科技股份有限公司 | 医师多点执业管理方法、装置、设备及存储介质 |
CN114091631A (zh) * | 2021-10-28 | 2022-02-25 | 国网江苏省电力有限公司连云港市赣榆区供电分公司 | 一种电网事故信息发布方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106844308B (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844308B (zh) | 一种使用语义识别进行自动化疾病编码转换的方法 | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
Huang et al. | An empirical evaluation of deep learning for ICD-9 code assignment using MIMIC-III clinical notes | |
US9779211B2 (en) | Computer-assisted abstraction for reporting of quality measures | |
CN111737975A (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN109471895A (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
Liu et al. | Hierarchical label-wise attention transformer model for explainable ICD coding | |
CN108062978B (zh) | 一种急性冠状动脉综合征患者的主要不良心血管事件预测方法 | |
Wu et al. | KAICD: A knowledge attention-based deep learning framework for automatic ICD coding | |
CN111968741A (zh) | 基于深度学习与集成学习的糖尿病并发症高危预警系统 | |
CN112037909B (zh) | 诊断信息复核系统 | |
CN113779179B (zh) | 一种基于深度学习和知识图谱的icd智能编码的方法 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN112489740A (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
Kaur et al. | Comparative analysis of algorithmic approaches for auto-coding with ICD-10-AM and ACHI | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112183104A (zh) | 编码推荐方法、系统及相应设备和存储介质 | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN116913539A (zh) | 基于医院的智慧自助问诊推荐方法及系统 | |
CN116741333A (zh) | 一种医药营销管理系统 | |
TW202121398A (zh) | 基於類神經網路之語音或文字文件摘要系統及方法 | |
CN115130466A (zh) | 分类和实体识别联合抽取方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |