CN112802585B - 一种基于分类器的优化医疗x线检查数据分类方法及装置 - Google Patents

一种基于分类器的优化医疗x线检查数据分类方法及装置 Download PDF

Info

Publication number
CN112802585B
CN112802585B CN202110102372.5A CN202110102372A CN112802585B CN 112802585 B CN112802585 B CN 112802585B CN 202110102372 A CN202110102372 A CN 202110102372A CN 112802585 B CN112802585 B CN 112802585B
Authority
CN
China
Prior art keywords
text
words
sentence
frequency
ray inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110102372.5A
Other languages
English (en)
Other versions
CN112802585A (zh
Inventor
李红良
林立金
杨成长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110102372.5A priority Critical patent/CN112802585B/zh
Publication of CN112802585A publication Critical patent/CN112802585A/zh
Application granted granted Critical
Publication of CN112802585B publication Critical patent/CN112802585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分类器的优化医疗X线检查数据分类方法及装置,属于医疗大数据技术领域,其中,方法的实现包括:对数据进行预处理,包括文本分割和正负样本的判断,提取X线检查文本中的高频词汇,X线检查分类器构建,X线检查文本去向预测。根据本发明提供的技术方案,将X线检查大类中的不同X线类别进行区分,进而提高文本资料X线数据清洗的效率,提升数据的精细度和准确性。

Description

一种基于分类器的优化医疗X线检查数据分类方法及装置
技术领域
本发明属于医疗大数据技术领域,更具体地,涉及一种基于分类器的优化医疗X线检查数据分类方法及装置。
背景技术
随着医疗领域、经济的发展,以及健康状况受到的关注度逐年增高,健康体检人群逐年增多。每年大量的健康体检数据并未得到充分的分析、利用,且不同医院的信息系统、执行标准、记录标准差异较大,导致不同医疗机构的数据存在异质性。
目前建立一套规范有序、安全可控的数据治理体系成为需要迫切解决的问题。然而当前尚无健康大数据相关的完整、合理、规范的数据治理方法,导致健康大数据无法很好地治理、储存、共享、分析。健康体检数据中存在大量的文本资料,如健康史中的既往史、用药史,影像学检查中的超声检查、CT检查、X线检查。其中,X线检查是传统的影像学检查手段,是疾病初筛的首选方式。对于骨折、不透光异物存留、心肺器质性疾病、消化系统梗阻有很好的诊断价值。且其费用低廉,投照剂量小,适合绝大多数患者常规检查。因此存在大量X线检查数据。X线检查包括具体小类,如胸部X线检查、颈椎X线检查、髋部X线检查、腰椎X线检查等。
但是由于医疗机构的信息系统数据库架构略有差异,以及健康体检的特殊性,导致数据库中的X线检查数据存在混杂数据、异常数据、无意义数据等,如X线检查中混杂有“超声检查”、“未检”、“代替检查”,这些都对数据归一化、统计分析造成巨大障碍。而目前尚无X线检查相关的完整、合理、规范的数据分类方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于分类器的优化医疗X线检查数据分类方法及装置,实现X线检查混杂文本的清洗,包括文本切割和文本去向分析,以实现智能分列的目的,提高分类的准确性和效率。
为实现上述目的,按照本发明的一个方面,提供了一种基于分类器的优化医疗X线检查数据分类方法,包括:
(1)对X线检查文本进行预处理,其中,预处理操作包括文本分割和正负样本的判断;
(2)提取预处理后的X线检查文本中的高频词汇;
(3)根据提取出的高频词汇对X线检查分类器进行训练,以使用训练后的分类器对待预测X线检查文本进行去向预测。
在一些可选的实施方案中,步骤(1)包括:
(1.1)对X线检查文本按照符号进行断句处理得到断句后的文本,并构建特征词表,其中,每个断句后的文本作为特征词表的一行,每个断句后的文本中的特征词按列排开放置;
(1.2)在每个断句后的文本中查找X线检查特征词,若存在X线检查特征词,则将以该X线检查特征词为列,相应的断句后文本为行的表格单元标记为1,若不存在X线检查特征词,则将以特征词为列,相应的断句后文本为行的表格单元标记为0;
(1.3)将各特征词所在的列相加,若列之和为0,则将该特征词对应的断句后的文本记为负样本,若列之和不为0,则将该特征词对应的断句后的文本记为正样本。
在一些可选的实施方案中,步骤(2)包括:
(2.1)对于每个正样本,使用jieba对正样本进行分词,并对分词结果进行词汇统计;
(2.2)若分词后的总词汇量不大于预设词汇量阈值,则保留全部分词组成高频词列表,若分词后的总词汇量大于预设词汇量阈值,则对每个正样本统计出的词汇按照频次大小进行排序,筛选出频次较高的前若干个词汇组成高频词列表。
在一些可选的实施方案中,步骤(3)包括:
(3.1)分析高频词列表,将高频词列表中的标准术语与其对应的特征词一一对应;
(3.2)读取正负样本中的内容与高频词汇,对于正负样本中的文本,在文本中根据高频词出现与否来将文本向量化后,通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词,并与高频词列表中的词进行累加,融合生成关键词;
(3.3)训练SVM模型,通过随机森林生成的关键词来将正负样本向量化,按照预设比例确定训练集和测试集数量大小,将训练集和测试集转换为一维数组来进行SVM模型训练,并保存训练结果,其中,SVM模型训练后的结果包括类别和该类别对应的关键词。
在一些可选的实施方案中,所述使用训练后的分类器对待预测X线检查文本进行去向预测,包括:
将待预测X线检查文本根据符号进行断句处理,根据关键词将待预测X线检查文本进行向量化处理,得到词向量,然后由SVM模型根据词向量预测每个分段文本类别;
根据每个分段文本,如果分段文本首句存在去向,在对应位置进行标记其去向所属的类别;对于不为首句的断句,如果有去向且与上一句去向相同,则进行文本串联;如果不与前句相同且在此之前的文本断句都没有去向,则串联文本并标记去向;如果前面文本存在去向,当前断句出现新的去向,则不进行文本串联,存储断句和去向。
按照本发明的另一方面,提供了一种基于分类器的优化医疗X线检查数据分类装置,包括:
预处理模块,用于对X线检查文本进行预处理,其中,预处理操作包括文本分割和正负样本的判断;
特征词提取模块,用于提取预处理后的X线检查文本中的高频词汇;
训练模块,用于根据提取出的高频词汇对X线检查分类器进行训练,以使用训练后的分类器对待预测X线检查文本进行去向预测。
在一些可选的实施方案中,所述预处理模块,用于对X线检查文本按照符号进行断句处理得到断句后的文本,并构建特征词表,其中,每个断句后的文本作为特征词表的一行,每个断句后的文本中的特征词按列排开放置;在每个断句后的文本中查找X线检查特征词,若存在X线检查特征词,则将以该X线检查特征词为列,相应的断句后文本为行的表格单元标记为1,若不存在X线检查特征词,则将以特征词为列,相应的断句后文本为行的表格单元标记为0;将各特征词所在的列相加,若列之和为0,则将该特征词对应的断句后的文本记为负样本,若列之和不为0,则将该特征词对应的断句后的文本记为正样本。
在一些可选的实施方案中,所述特征词提取模块,用于对于每个正样本,使用jieba对正样本进行分词,并对分词结果进行词汇统计;若分词后的总词汇量不大于预设词汇量阈值,则保留全部分词组成高频词列表,若分词后的总词汇量大于预设词汇量阈值,则对每个正样本统计出的词汇按照频次大小进行排序,筛选出频次较高的前若干个词汇组成高频词列表。
在一些可选的实施方案中,所述训练模块,用于分析高频词列表,将高频词列表中的标准术语与其对应的特征词一一对应;读取正负样本中的内容与高频词汇,对于正负样本中的文本,在文本中根据高频词出现与否来将文本向量化后,通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词,并与高频词列表中的词进行累加,融合生成关键词;训练SVM模型,通过随机森林生成的关键词来将正负样本向量化,按照预设比例确定训练集和测试集数量大小,将训练集和测试集转换为一维数组来进行SVM模型训练,并保存训练结果,其中,SVM模型训练后的结果包括类别和该类别对应的关键词。
在一些可选的实施方案中,所述装置还包括:
预测模块,用于将待预测X线检查文本根据符号进行断句处理,根据关键词将待预测X线检查文本进行向量化处理,得到词向量,然后由SVM模型根据词向量预测每个分段文本类别;根据每个分段文本,如果分段文本首句存在去向,在对应位置进行标记其去向所属的类别;对于不为首句的断句,如果有去向且与上一句去向相同,则进行文本串联;如果不与前句相同且在此之前的文本断句都没有去向,则串联文本并标记去向;如果前面文本存在去向,当前断句出现新的去向,则不进行文本串联,存储断句和去向。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明通过对数据进行预处理,包括文本分割和正负样本的判断,提取X线检查文本中的高频词汇,X线检查分类器构建,X线检查文本去向预测。根据本发明提供的技术方案,将X线检查大类中的不同X线类别进行区分,进而提高文本资料X线数据清洗的效率,提升数据的精细度和准确性。
附图说明
图1是本发明实施例提供的一种基于分类器的优化医疗X线检查数据分类方法的流程示意图;
图2是本发明实施例提供的一种数据预处理流程示意图;
图3是本发明实施例提供的一种提取X线检查文本中的高频词汇流程示意图;
图4是本发明实施例提供的一种X线检查分类器进行训练流程示意图;
图5是本发明实施例提供的一种X线检查文本去向预测流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示是本发明实施例提供的一种基于分类器的优化医疗X线检查数据分类方法的流程示意图。利用X线检查训练数据对分类器进行训练,得到训练后的X线检查分类器,使用训练后的X线检查分类器对预处理后的X线检查数据进行分类,然后进行检查,将检查后的高准确性数据用于优化X线检查分类器,如对于准确度较差的分类器再次扩大样本量进行训练,从而提升X线检查分类器准确性的目的。具体包括以下步骤:
S1:对X线检查文本进行预处理,其中,预处理操作包括文本分割和正负样本的判断;
在本发明实施例中,如图2所示,步骤S1可以通过以下方式实现:
S1.1:对X线检查文本按照符号进行断句处理得到断句后的文本,并构建特征词表,其中,每个断句后的文本作为特征词表的一行,每个断句后的文本中的特征词按列排开放置;
其中,可以通过断句模型对X线检查文本进行断句处理,断句模型的基本原理为在X线检查文本中匹配断句模型,断句模型有若干种。不同断句模型有不同规则,如模型S1表示在X线检查文本中出现“。”,且前后内容不同时为数字;模型S2表示在X线检查文本中出现“【】”,则使用“【】”断句,将X线检查文本断为前中后三段。
S1.2:在每个断句后的文本中查找X线检查特征词,若存在X线检查特征词,则将以该X线检查特征词为列,相应的断句后文本为行的表格单元标记为1,若不存在X线检查特征词,则将以特征词为列,相应的断句后文本为行的表格单元标记为0;
S1.3:将各特征词所在的列相加,若列之和为0,则将该特征词对应的断句后的文本记为负样本,若列之和不为0,则将该特征词对应的断句后的文本记为正样本。
S2:提取预处理后的X线检查文本中的高频词汇;
在本发明实施例中,步骤S2可以通过以下方式实现:
筛选出每个指标(即X线检查特征词)下的断句文本以及对筛选出的断句文本进行分词和高频词的统计与输出,如图3所示,具体步骤包括:
S2.1:对于每个正样本,使用jieba对正样本进行分词,并对分词结果进行词汇统计;
S2.2:若分词后的总词汇量不大于预设词汇量阈值,则保留全部分词组成高频词列表,若分词后的总词汇量大于预设词汇量阈值,则对每个正样本统计出的词汇按照频次大小进行排序,筛选出频次较高的前若干个词汇组成高频词列表。
其中,预设词汇量阈值的大小可以根据实际需要确定,本发明实施例不做唯一性限定。
S3:根据提取出的高频词汇对X线检查分类器进行训练;
在本发明实施例中,如图4所示,步骤S3可以通过以下方式实现:
S3.1:分析高频词列表,将高频词列表中的标准术语与其对应的特征词一一对应;
其中,特征词是根据医学字典、医学书籍等构建的,如:标准术语“既往史”对应的特征词为:“病、炎、瘤、癌、症、综合征、积水、结节等。
S3.2:读取正负样本中的内容与高频词汇,对于正负样本中的文本,在文本中根据高频词出现与否来将文本向量化后,通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词,并与高频词列表中的词进行累加,融合生成关键词;
其中,可以利用高频词列表使用词袋模型的方法对文本进行向量化,将高频词列表中的每个词汇在需要向量化的句子中进行查找,找到则为1,反之为0,以此构成一个和高频词汇列表长度相同的向量。
S3.3:训练SVM模型,通过随机森林生成的关键词来将正负样本向量化,按照预设比例确定训练集和测试集数量大小,将训练集和测试集转换为一维数组来进行SVM模型训练,并保存训练结果,其中,SVM模型训练后的结果包括类别和该类别对应的关键词。
S4:待预测X线检查文本去向预测。
在本发明实施例中,如图5所示,步骤S4可以通过以下方式实现:
S4.1:将待预测X线检查文本根据符号进行断句处理,根据关键词将待预测X线检查文本进行向量化处理,得到词向量,然后由SVM模型根据词向量预测每个分段文本类别;
S4.2:根据每个分段文本,实现待预测X线检查文本的去向推荐与去重串联。
其中,步骤S4.2可以通过以下方式实现:
如果分段文本首句存在去向,在对应位置进行标记其去向所属的类别;
对于不为首句的断句,如果有去向且与上一句去向相同,则进行文本串联;如果不与前句相同且在此之前的文本断句都没有去向,则串联文本并标记去向;如果前面文本存在去向,当前断句出现新的去向,则不进行文本串联,存储断句和去向。
在本发明实施例中,步骤S1中将属于X线检查的文本标记为正样本,不属于X线检查的文本标记为负样本。
在本发明实施例中,步骤S2中通过jieba分词提取属于X线检查的高频词汇如:“高密度”“低密度”“正位片”。
在本发明实施例中,步骤S3训练的X线检查分类器包括:胸部X线检查、颈椎X线检查、乳腺钼靶X线检查等20余种X线检查。
在本发明实施例中,步骤S4X线检查文本去向预测。“1、腰椎后凸2、L2-5椎体骨桥形成3、L1、L2椎体唇样骨质增生,腰椎关节面硬化。颈第4、5、6椎体轻度增生。椎间隙狭窄。”使用断句模型将文本切割为“1、腰椎后凸”“2、L2-5椎体骨桥形成”“3、L1、L2椎体唇样骨质增生,腰椎关节面硬化。”“颈第4、5、6椎体轻度增生。”“椎间隙狭窄”。经过X线检查分类器和特征词预测,“1、腰椎后凸2、L2-5椎体骨桥形成3、L1、L2椎体唇样骨质增生,腰椎关节面硬化。”预测为腰椎X线检查。“颈第4、5、6椎体轻度增生。椎间隙狭窄”预测为颈椎X线检查。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于分类器的优化医疗X线检查数据分类方法,其特征在于,包括:
(1)对X线检查文本进行预处理,其中,预处理操作包括文本分割和正负样本的判断;
(2)提取预处理后的X线检查文本中的高频词汇;
(3)根据提取出的高频词汇对X线检查分类器进行训练,以使用训练后的分类器对待预测X线检查文本进行去向预测;
步骤(1)包括:
(1.1)对X线检查文本按照符号进行断句处理得到断句后的文本,并构建特征词表,其中,每个断句后的文本作为特征词表的一行,每个断句后的文本中的特征词按列排开放置;
(1.2)在每个断句后的文本中查找X线检查特征词,若存在X线检查特征词,则将以该X线检查特征词为列,相应的断句后文本为行的表格单元标记为1,若不存在X线检查特征词,则将以特征词为列,相应的断句后文本为行的表格单元标记为0;
(1.3)将各特征词所在的列相加,若列之和为0,则将该特征词对应的断句后的文本记为负样本,若列之和不为0,则将该特征词对应的断句后的文本记为正样本。
2.根据权利要求1所述的方法,其特征在于,步骤(2)包括:
(2.1)对于每个正样本,使用jieba对正样本进行分词,并对分词结果进行词汇统计;
(2.2)若分词后的总词汇量不大于预设词汇量阈值,则保留全部分词组成高频词列表,若分词后的总词汇量大于预设词汇量阈值,则对每个正样本统计出的词汇按照频次大小进行排序,筛选出频次较高的前若干个词汇组成高频词列表。
3.根据权利要求2所述的方法,其特征在于,步骤(3)包括:
(3.1)分析高频词列表,将高频词列表中的标准术语与其对应的特征词一一对应;
(3.2)读取正负样本中的内容与高频词汇,对于正负样本中的文本,在文本中根据高频词出现与否来将文本向量化后,通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词,并与高频词列表中的词进行累加,融合生成关键词;
(3.3)训练SVM模型,通过随机森林生成的关键词来将正负样本向量化,按照预设比例确定训练集和测试集数量大小,将训练集和测试集转换为一维数组来进行SVM模型训练,并保存训练结果,其中,SVM模型训练后的结果包括类别和该类别对应的关键词。
4.根据权利要求3所述的方法,其特征在于,所述使用训练后的分类器对待预测X线检查文本进行去向预测,包括:
将待预测X线检查文本根据符号进行断句处理,根据关键词将待预测X线检查文本进行向量化处理,得到词向量,然后由SVM模型根据词向量预测每个分段文本类别;
根据每个分段文本,如果分段文本首句存在去向,在对应位置进行标记其去向所属的类别;对于不为首句的断句,如果有去向且与上一句去向相同,则进行文本串联;如果不与前句相同且在此之前的文本断句都没有去向,则串联文本并标记去向;如果前面文本存在去向,当前断句出现新的去向,则不进行文本串联,存储断句和去向。
5.一种基于分类器的优化医疗X线检查数据分类装置,其特征在于,包括:
预处理模块,用于对X线检查文本进行预处理,其中,预处理操作包括文本分割和正负样本的判断;
特征词提取模块,用于提取预处理后的X线检查文本中的高频词汇;
训练模块,用于根据提取出的高频词汇对X线检查分类器进行训练,以使用训练后的分类器对待预测X线检查文本进行去向预测;
所述预处理模块,用于对X线检查文本按照符号进行断句处理得到断句后的文本,并构建特征词表,其中,每个断句后的文本作为特征词表的一行,每个断句后的文本中的特征词按列排开放置;在每个断句后的文本中查找X线检查特征词,若存在X线检查特征词,则将以该X线检查特征词为列,相应的断句后文本为行的表格单元标记为1,若不存在X线检查特征词,则将以特征词为列,相应的断句后文本为行的表格单元标记为0;将各特征词所在的列相加,若列之和为0,则将该特征词对应的断句后的文本记为负样本,若列之和不为0,则将该特征词对应的断句后的文本记为正样本。
6.根据权利要求5所述的装置,其特征在于,所述特征词提取模块,用于对于每个正样本,使用jieba对正样本进行分词,并对分词结果进行词汇统计;若分词后的总词汇量不大于预设词汇量阈值,则保留全部分词组成高频词列表,若分词后的总词汇量大于预设词汇量阈值,则对每个正样本统计出的词汇按照频次大小进行排序,筛选出频次较高的前若干个词汇组成高频词列表。
7.根据权利要求6所述的装置,其特征在于,所述训练模块,用于分析高频词列表,将高频词列表中的标准术语与其对应的特征词一一对应;读取正负样本中的内容与高频词汇,对于正负样本中的文本,在文本中根据高频词出现与否来将文本向量化后,通过随机森林算法按照每个词汇树的重要性筛选出重要的高频词,并与高频词列表中的词进行累加,融合生成关键词;训练SVM模型,通过随机森林生成的关键词来将正负样本向量化,按照预设比例确定训练集和测试集数量大小,将训练集和测试集转换为一维数组来进行SVM模型训练,并保存训练结果,其中,SVM模型训练后的结果包括类别和该类别对应的关键词。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预测模块,用于将待预测X线检查文本根据符号进行断句处理,根据关键词将待预测X线检查文本进行向量化处理,得到词向量,然后由SVM模型根据词向量预测每个分段文本类别;根据每个分段文本,如果分段文本首句存在去向,在对应位置进行标记其去向所属的类别;对于不为首句的断句,如果有去向且与上一句去向相同,则进行文本串联;如果不与前句相同且在此之前的文本断句都没有去向,则串联文本并标记去向;如果前面文本存在去向,当前断句出现新的去向,则不进行文本串联,存储断句和去向。
CN202110102372.5A 2021-01-26 2021-01-26 一种基于分类器的优化医疗x线检查数据分类方法及装置 Active CN112802585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110102372.5A CN112802585B (zh) 2021-01-26 2021-01-26 一种基于分类器的优化医疗x线检查数据分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110102372.5A CN112802585B (zh) 2021-01-26 2021-01-26 一种基于分类器的优化医疗x线检查数据分类方法及装置

Publications (2)

Publication Number Publication Date
CN112802585A CN112802585A (zh) 2021-05-14
CN112802585B true CN112802585B (zh) 2022-10-04

Family

ID=75811790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110102372.5A Active CN112802585B (zh) 2021-01-26 2021-01-26 一种基于分类器的优化医疗x线检查数据分类方法及装置

Country Status (1)

Country Link
CN (1) CN112802585B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015103695A1 (en) * 2014-01-10 2015-07-16 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
US11288445B2 (en) * 2019-01-11 2022-03-29 The Regents Of The University Of Michigan Automated system and method for assigning billing codes to medical procedures
CN111639177B (zh) * 2020-06-04 2023-06-02 虎博网络技术(上海)有限公司 文本提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法

Also Published As

Publication number Publication date
CN112802585A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US11263497B2 (en) Method and system for machine learning classification based on structure or material segmentation in an image
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN107247881B (zh) 一种多模态智能分析方法及系统
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN105640577A (zh) 一种自动检测放射影像中局部性病变的方法和系统
US11861881B2 (en) Critical component detection using deep learning and attention
Livieris et al. Identification of blood cell subtypes from images using an improved SSL algorithm
Folle et al. Deep learning-based classification of inflammatory arthritis by identification of joint shape patterns—how neural networks can tell us where to “deep dive” clinically
CN111524570B (zh) 一种基于机器学习的超声随访患者筛选方法
CN111192660A (zh) 一种影像报告分析方法、设备及计算机存储介质
Rodin et al. Multitask and multimodal neural network model for interpretable analysis of x-ray images
Karanam et al. A systematic approach to diagnosis and categorization of bone fractures in X-Ray imagery
Bajcsi et al. Towards feature selection for digital mammogram classification
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
Karthik et al. MSDNet: A deep neural ensemble model for abnormality detection and classification of plain radiographs
CN112802585B (zh) 一种基于分类器的优化医疗x线检查数据分类方法及装置
Zhang et al. Deep learning‐based detection and classification of lumbar disc herniation on magnetic resonance images
AU2019204380C1 (en) A Method and System for Machine Learning Classification Based on Structure or Material Segmentation in an Image
Hao et al. A substring replacement approach for identifying missing IS-A relations in SNOMED CT
Hossain et al. COVID-19 detection through deep learning algorithms using chest X-ray images
Li et al. Structure regularized attentive network for automatic femoral head necrosis diagnosis and localization
Dempsey et al. Exploring the use of machine learning for the assessment of skeletal fracture morphology and differentiation between impact mechanisms: A pilot study
CN118193770B (zh) 基于深度学习的医学图像检索方法及系统
Mayya et al. Multi-task deep neural network models for learning COVID-19 disease representations from multimodal data
Valente et al. Text mining approach for feature extraction and cartilage disease grade classification using knee MRI radiology reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant