CN114996463A - 一种病例的智能分类方法和装置 - Google Patents

一种病例的智能分类方法和装置 Download PDF

Info

Publication number
CN114996463A
CN114996463A CN202210842024.6A CN202210842024A CN114996463A CN 114996463 A CN114996463 A CN 114996463A CN 202210842024 A CN202210842024 A CN 202210842024A CN 114996463 A CN114996463 A CN 114996463A
Authority
CN
China
Prior art keywords
keyword
case
classification
text
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210842024.6A
Other languages
English (en)
Other versions
CN114996463B (zh
Inventor
王辉
陈红
高翔
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Hospital of Wuhan University
Original Assignee
Renmin Hospital of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin Hospital of Wuhan University filed Critical Renmin Hospital of Wuhan University
Priority to CN202210842024.6A priority Critical patent/CN114996463B/zh
Publication of CN114996463A publication Critical patent/CN114996463A/zh
Application granted granted Critical
Publication of CN114996463B publication Critical patent/CN114996463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种病例的智能分类方法和装置,其中,方法包括:通过对所有待分类的病例文本进行第一关键词识别,根据识别结果构建分类模板,并为每个第一关键词赋予不同的权重,根据赋予的权重进行病例文本的分类。本发明的有益效果:实现了通过病例用词进行相似度计算,与一般的语义识别的方法相比,本申请可以实现对病例进行更好的分类,从而便于病例的分类存储,以及更利于后续的检索。

Description

一种病例的智能分类方法和装置
技术领域
本发明涉及人工智能领域,特别涉及一种病例的智能分类方法和装置。
背景技术
对于未分类的病例,如何进行分类是各大医院都比较棘手的问题,现有技术中虽然有不同的分类方法对文本进行分类,但是其主要的分类方式是通过对文本的内容进行语义识别,根据语义内容进行分类,然而在病例分类过程中,由于病例中存在一些难以识别的病例用词,根据语义内容难以对病例进行分类,因此,亟需一种病例的智能分类方法。
发明内容
本发明的主要目的为提供一种病例的智能分类方法和装置,旨在解决现有技术难以对病例进行分类的问题。
本发明提供了一种病例的智能分类方法,包括:
S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
S4:根据公式
Figure 7538DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 555063DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 129133DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 623568DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 695255DEST_PATH_IMAGE005
Figure 616944DEST_PATH_IMAGE006
Figure 350413DEST_PATH_IMAGE007
表示第i个第一关键词对应的权重;
S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
进一步地,所述根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别的步骤S5之后,还包括:
S601:获取分类后各个所述分类模板对应类别的分类数量;
S602:根据所述分类数量计算分类的离散程度;
S603:判断所述离散程度是否大于预设值;
S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
S608:根据公式
Figure 648540DEST_PATH_IMAGE008
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 783855DEST_PATH_IMAGE009
表示所述第二匹配度,
Figure 876444DEST_PATH_IMAGE010
表示所述词集组合的第j个目标关键词对应的个数,
Figure 159527DEST_PATH_IMAGE011
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 1624DEST_PATH_IMAGE012
Figure 991446DEST_PATH_IMAGE013
Figure 317254DEST_PATH_IMAGE014
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行分类。
进一步地,所述对所有待分类的病例文本进行第一关键词识别的步骤S1,包括:
S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
S102:将所述若干分词转化分别转化为对应的词向量;
S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
进一步地,所述为所述分类模板中的第一关键词赋予对应所述分类模板的权重的步骤S3,包括:
S301:按照预设的规则对所述第一关键词划分为多个梯度;
S302:设置最低梯度的关键词的最低权重
Figure 25316DEST_PATH_IMAGE015
,以及根据公式
Figure 399665DEST_PATH_IMAGE016
设定其余梯度的所述关键词的权重,其中,
Figure 509573DEST_PATH_IMAGE015
表示所述最低权重,
Figure 6282DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 219218DEST_PATH_IMAGE018
表示第t梯度的预设参数,
Figure 397259DEST_PATH_IMAGE019
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
进一步地,所述对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量的步骤S1之前,还包括:
S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
S002:通过所述bert模型读取病例文本的文本数据,并通过所述bert模型fine-tuning的方式构建所述病例文本的词向量,其中所述bert模型基于多个病例文本以及对应的词向量的训练而成。
本发明还提供了一种病例的智能分类装置,包括:
识别模块,用于指示实施步骤S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
预分类模块,用于指示实施步骤S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
赋予模块,用于指示实施步骤S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
匹配度计算模块,用于指示实施步骤S4:根据公式
Figure 361672DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 966966DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 384041DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 365772DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 184693DEST_PATH_IMAGE005
Figure 960888DEST_PATH_IMAGE006
Figure 136697DEST_PATH_IMAGE007
表示第i个第一关键词对应的权重;
分类模块,用于指示实施步骤S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
进一步地,所述病例的智能分类装置,还包括:
分类数量获取模块,用于指示实施步骤S601:获取分类后各个所述分类模板对应类别的分类数量;
离散程度计算模块,用于指示实施步骤S602:根据所述分类数量计算分类的离散程度;
离散程度判断模块,用于指示实施步骤S603:判断所述离散程度是否大于预设值;
遮盖模块,用于指示实施步骤S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
关键词识别模块,用于指示实施步骤S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
构建模块,用于指示实施步骤S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
组合模块,用于指示实施步骤S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
第二匹配度计算模块,用于指示实施步骤S608:根据公式
Figure 656540DEST_PATH_IMAGE008
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 329967DEST_PATH_IMAGE009
表示所述第二匹配度,
Figure 542642DEST_PATH_IMAGE010
表示所述词集组合的第j个目标关键词对应的个数,
Figure 934310DEST_PATH_IMAGE011
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 257843DEST_PATH_IMAGE012
Figure 785777DEST_PATH_IMAGE013
Figure 231670DEST_PATH_IMAGE014
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
病例文本分类模块,用于指示实施步骤S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行分类。
进一步地,所述识别模块,包括:
分词子模块,用于指示实施步骤S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
转化子模块,用于指示实施步骤S102:将所述若干分词转化分别转化为对应的词向量;
提取子模块,用于指示实施步骤S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
获取子模块,用于指示实施步骤S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
输入子模块,用于指示实施步骤S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
进一步地,所述赋予模块,包括:
划分子模块,用于指示实施步骤S301:按照预设的规则对所述第一关键词划分为多个梯度;
权重设置子模块,用于指示实施步骤S302:设置最低梯度的关键词的最低权重
Figure 104774DEST_PATH_IMAGE015
,以及根据公式
Figure 904103DEST_PATH_IMAGE016
设定其余梯度的所述关键词的权重,其中,
Figure 552122DEST_PATH_IMAGE015
表示所述最低权重,
Figure 106600DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 207280DEST_PATH_IMAGE018
表示第t梯度的预设参数,
Figure 872617DEST_PATH_IMAGE019
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
进一步地,所述病例的智能分类装置,还包括:
预处理模块,用于指示实施步骤S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
向量构建模块,用于指示实施步骤S002:通过所述bert模型读取病例文本的文本数据,并通过所述bert模型fine-tuning的方式构建所述病例文本的词向量,其中所述bert模型基于多个病例文本以及对应的词向量的训练而成。
本发明的有益效果:通过对所有待分类的病例文本进行第一关键词识别,根据识别结果进行构建分类模板,并为每个第一关键词赋予不同的权重,根据赋予的权重进行病例文本的分类,从而实现了通过病例用词进行相似度计算,与一般的语义识别的方法相比,本申请可以实现对病例进行更好的分类,从而便于病例的分类存储,以及更利于后续的检索。
附图说明
图1 是本发明一实施例的一种病例的智能分类方法的流程示意图;
图2 是本发明一实施例的一种病例的智能分类装置的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种病例的智能分类方法,其包括如下步骤:
S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
S4:根据公式
Figure 640721DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 100522DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 959936DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 163385DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 785996DEST_PATH_IMAGE005
Figure 416697DEST_PATH_IMAGE006
Figure 757549DEST_PATH_IMAGE007
表示第i个第一关键词对应的权重;
S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
如上述步骤S1所述,对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量,其中,识别的方式可以是预先建立病例词语数据库,根据词语数据库中对应的关键词对第一关键词进行识别,从而得到多个第一关键词,以及各个第一关键词的数量。
如上述步骤S2所述,对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量,其中,预分类的方式为根据病例词语的相近程度进行分类,具体地,可以根据K-means算法的方式进行分类,即可以预先划分k个类别,然后对各个第一关键词进行分类,然后在重新设定聚类中心,得到最终的每个聚类中心都可以视为一个分类模板的聚类中心,重复多次后可以得到多个分类模板的聚类中心,从而视为获取到多个分类模板,另外还可以根据获取到的第一关键词的词性,获取到各个第一关键词的类别,从而可以根据第一关键词的类别例如划分为肺癌,肝癌等,从而对各个第一关键词进行预分类,当然对于一些病情而言,其对应的病例词语可能有多个,不同系别,或者中医和西医的称呼会有所差异,因此需要将这部分的词语进行统计,并划分为一类,从而划分到同一个分类模板中,需要说明的是,该分类模板中可以包括一个第一关键词,也可以包括多个第一关键词,分类模板可以是根据上述K-means算法的方式生成,在一些实施例中也可以预先生成不同类别的分类模板,再根据各个第一关键词的词性选取对应的多个分类模板,从而实现分类模板的获取,计算第一关键词与各个分类模板的匹配程度的具体方式可以是,若是通过上述的K-means算法的方式生成,则可以直接计算每个第一关键词与聚类中心的欧氏距离,并以此作为第一关键词与分类模板的匹配程度,若是“预先生成不同类别的分类模板,再根据各个第一关键词的词性选取对应的多个分类模板”的方式,则可以获取到各个分类模板的分类关键词,并进行向量化,并将各个第一关键词进行向量化,从而计算二者的相似度以作为第一关键词与各个分类模板的匹配程度,将各个第一关键词记录在分类模板的方式为,各个第一关键词都记录在匹配程度最高的分类模板中,即在分类模板中记录各个第一关键词以及各个第一关键词的数量。
如上述步骤S3所述,为所述分类模板中的第一关键词赋予对应所述分类模板的权重,其中,权重的赋予可以是人为赋予,也可以是根据预设的关键词库对权重进行赋予,具体的赋予方式后续有具体的详细说明,此处不再赘述,需要说明的是,此处赋予分类模板中各个第一关键词的权重,即分类模板中每个第一关键词都有一个权重,另外,需要说明的是,该第一关键词的权重只是相对于所在的分类模板中的权重,而与其他的分类模板无关。
如上述步骤S4所述,根据公式
Figure 827005DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,当计算的第一匹配度越趋近于1,表明病例文本与对应的分类模板越相似,当计算的第一匹配度越趋近于-1,表明病例文本与对应的分类模板越不相似,另外,此处是通过关键词的数量结合对应的权重计算病例文本与各个分类模板的第一匹配度,本申请主要是通过病例用词进行相似度计算,与一般的语义识别的方法相比,本申请可以实现对病例进行更好的分类,从而便于病例的分类存储,以及更利于后续的检索。另外需要说明的是,n表示所述病例文本中具有所述分类模板中第一关键词的总数,即病例文本中具有的分类模板的第一关键词的种类数量,与病例文本各个第一关键词的数量并无关系,例如,分类模板中具有a、b、c三个第一关键词,在病例文本中a有2个,b有1个,c有3个,则n等于3,即表示与病例文本中第一关键词的数量相同,而与各个第一关键词的数量无关。
Figure 366440DEST_PATH_IMAGE005
Figure 371305DEST_PATH_IMAGE006
,第一个公式中采用了数量乘以权重,是为了提高病例文本中各个第一关键词的权重计算,至于后续的没有数量乘以权重,一方面是为了降低分类模板中的第一关键词的影响,第二可以避免分类模板中第一关键词的数量过多产生的影响。
如上述步骤S5所述,根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别,其中分类的方式具体为根据第一匹配度的大小,选取各个病例文本的分类模板进行分类,需要说明的是,分类的目的在于便于后续进行检索,也可以便于分类存储,从而实现了根据病例文本中的关键词对病例进行分类,实现了对病例的智能分类。
在一个实施例中,所述根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别的步骤S5之后,还包括:
S601:获取分类后各个所述分类模板对应类别的分类数量;
S602:根据所述分类数量计算分类的离散程度;
S603:判断所述离散程度是否大于预设值;
S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
S608:根据公式
Figure 951451DEST_PATH_IMAGE008
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 496702DEST_PATH_IMAGE009
表示所述第二匹配度,
Figure 93905DEST_PATH_IMAGE010
表示所述词集组合的第j个目标关键词对应的个数,
Figure 66409DEST_PATH_IMAGE011
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 116274DEST_PATH_IMAGE012
Figure 527533DEST_PATH_IMAGE013
Figure 979243DEST_PATH_IMAGE014
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行二次分类;
S610:重复步骤S601-S609,直至分类后的离散程度小于或等于所述预设值。
如上述步骤S601-S603所述,实现了对分类情况的判定,为了避免有的类别数量太多,而有的分类数量太少,因此可以计算分类的离散程度,该离散程度具体可以是方差,标准差等离散程度的一种,然后设定预设值,当大于该预设值时,认为其分类的离散程度过大,需要建立对部分的分类数据进行更加详细的细化分类。
如上述步骤S604-S610所述,即对病例文本中的第一关键词进行遮盖处理,其中,遮盖处理的方式可以是任意的方式,例如从病例文本中进行删除,也可以是采用其他的词进行填充等,步骤S605-S609中与前述步骤S1-S5相似,此处不再重复说明,需要特别说明的是,关键词的权重需要重新赋予,与前述的第一关键词的权重无关,即有可能相同,也有可能不同,另外,本申请是通过第一关键词和第二关键词的组合来进行识别的,因此,第一关键词的类别和第二关键词的类别需要进行不同的处理,例如,第一关键词可以是具体的疾病名称,第二关键词可以是结节等名词,也可以是对疾病的客观描述的语言文字,也是可以预先建立对应的词语数据库,至于第二关键词的提取也可以与第一关键词的提取相似,也可以是建立对应的词语数据库,将病例文本进行分词,再与词语数据库进行比较,从而得到第二关键词,根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行二次分类;重复步骤S601-S609,直至分类后的离散程度小于或等于所述预设值。
在一个实施例中,所述对所有待分类的病例文本进行第一关键词识别的步骤S1,包括:
S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
S102:将所述若干分词转化分别转化为对应的词向量;
S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
如上述步骤S101-S105所述,实现了对目标词向量的判定,具体地,是通过转化为对应的词向量,并以目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量,避免了只以词向量进行识别,增加了对词向量的语义判断,克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷,使得该方法提取的关键词是从语义层面获取的(即通过短语向量进行识别),而不是单纯从语法层面获取,通过短语向量进行识别可以有效减小对单个关键词进行识别的误差,充分考虑了文本词语之间的语义依赖关系,避免了直接将对应的目标词向量作为第一关键词的武断性与局限性,提高了关键词提取的准确性和客观性。
在一个实施例中,所述为所述分类模板中的第一关键词赋予对应所述分类模板的权重的步骤S3,包括:
S301:按照预设的规则对所述第一关键词划分为多个梯度;
S302:设置最低梯度的关键词的最低权重
Figure 394086DEST_PATH_IMAGE015
,以及根据公式
Figure 931247DEST_PATH_IMAGE016
设定其余梯度的所述关键词的权重,其中,
Figure 818300DEST_PATH_IMAGE015
表示所述最低权重,
Figure 186834DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 766720DEST_PATH_IMAGE018
表示第t梯度的预设参数,
Figure 853493DEST_PATH_IMAGE019
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
如上述步骤S301-S302所述,先按照预设的规则将第一关键词划分为多个梯度,即根据第一关键词的重要性划分不同的权重,该预设的规则可以人为实时进行限定,在一些实施例中,也可以是预先设定了各个关键词的等级,然后直接根据等级进行获取,对于关键词等级高的,其第一关键词的权重系数大小的设定应当偏大一些,对于关键词等级低的,其权重系数大小的设定应当偏小一些,具体地,在本实施例中,只需要对最低梯度的第一关键词设置一个最低权重,然后按照公式依次设定其余梯度的关键词的权重,应当理解的是,
Figure 544238DEST_PATH_IMAGE018
的数值可以随着梯度的变化而变化,也可以都是相同的参数。设置的目标权重应当满足
Figure 699101DEST_PATH_IMAGE020
,即
Figure 449888DEST_PATH_IMAGE021
,从而实现对每个第一关键词都设定了一个权重,需要注意的是,权重也不宜设置过大,以免计算相似度时出现精度缺失。
在一个实施例中,所述对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量的步骤S1之前,还包括:
S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
S002:通过所述bert模型读取病例文本的文本数据,并通过所述bert模型fine-tuning的方式构建所述病例文本的词向量,其中所述bert模型基于多个病例文本以及对应的词向量的训练而成。
如上述步骤S001-S002所述,为了便于对病例文本进行更好的识别,摒弃掉其他干扰因素,可以对病例文本进行预处理,将标点符号、不相干的词句进行删除,以及将语种进行统一等,具体为读取基于标准问题对应的数据集,获取数据集中文本数据。通过所述bert模型读取病例文本的文本数据,其中bert模型基于所述病例文本训练而成,该所述病例文本也可以是生成的数据集,即可以通过BERT预训练模型先读取数据集的文本数据,训练模型,然后根据训练结果调整模型参数,得到bery模型。
参照图2,本发明还提供了一种病例的智能分类装置,包括:
识别模块10,用于指示实施步骤S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
预分类模块20,用于指示实施步骤S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
赋予模块30,用于指示实施步骤S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
匹配度计算模块40,用于指示实施步骤S4:根据公式
Figure 961641DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 190497DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 533623DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 455311DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 251098DEST_PATH_IMAGE005
Figure 617400DEST_PATH_IMAGE006
Figure 752715DEST_PATH_IMAGE007
表示第i个第一关键词对应的权重;
分类模块50,用于指示实施步骤S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
在一个实施例中,所述病例的智能分类装置,还包括:
分类数量获取模块,用于指示实施步骤S601:获取分类后各个所述分类模板对应类别的分类数量;
离散程度计算模块,用于指示实施步骤S602:根据所述分类数量计算分类的离散程度;
离散程度判断模块,用于指示实施步骤S603:判断所述离散程度是否大于预设值;
遮盖模块,用于指示实施步骤S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
关键词识别模块,用于指示实施步骤S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
构建模块,用于指示实施步骤S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
组合模块,用于指示实施步骤S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
第二匹配度计算模块,用于指示实施步骤S608:根据公式
Figure 845305DEST_PATH_IMAGE008
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 66071DEST_PATH_IMAGE009
表示所述第二匹配度,
Figure 636729DEST_PATH_IMAGE010
表示所述词集组合的第j个目标关键词对应的个数,
Figure 892130DEST_PATH_IMAGE011
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 217938DEST_PATH_IMAGE012
Figure 5895DEST_PATH_IMAGE013
Figure 380245DEST_PATH_IMAGE014
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
病例文本分类模块,用于指示实施步骤S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行分类。
在一个实施例中,所述识别模块10,包括:
分词子模块,用于指示实施步骤S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
转化子模块,用于指示实施步骤S102:将所述若干分词转化分别转化为对应的词向量;
提取子模块,用于指示实施步骤S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
获取子模块,用于指示实施步骤S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
输入子模块,用于指示实施步骤S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
在一个实施例中,所述赋予模块30,包括:
划分子模块,用于指示实施步骤S301:按照预设的规则对所述第一关键词划分为多个梯度;
权重设置子模块,用于指示实施步骤S302:设置最低梯度的关键词的最低权重
Figure 490152DEST_PATH_IMAGE015
,以及根据公式
Figure 924544DEST_PATH_IMAGE016
设定其余梯度的所述关键词的权重,其中,
Figure 119902DEST_PATH_IMAGE015
表示所述最低权重,
Figure 297943DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 324674DEST_PATH_IMAGE018
表示第t梯度的预设参数,
Figure 998144DEST_PATH_IMAGE019
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
在一个实施例中,所述病例的智能分类装置,还包括:
预处理模块,用于指示实施步骤S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
向量构建模块,用于指示实施步骤S002:通过所述bert模型读取病例文本的文本数据,并通过所述bert模型fine-tuning的方式构建所述病例文本的词向量,其中所述bert模型基于多个病例文本以及对应的词向量的训练而成。
本发明的有益效果:通过对所有待分类的病例文本进行第一关键词识别,根据识别结果进行构建分类模板,并为每个第一关键词赋予不同的权重,根据赋予的权重进行病例文本的分类,从而实现了通过病例用词进行相似度计算,与一般的语义识别的方法相比,本申请可以实现对病例进行更好的分类,从而便于病例的分类存储,以及更利于后续的检索。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种病例的智能分类方法,其特征在于,包括:
S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
S4:根据公式
Figure 415936DEST_PATH_IMAGE001
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 395393DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 299764DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 944241DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 742301DEST_PATH_IMAGE005
Figure 949118DEST_PATH_IMAGE006
Figure 403102DEST_PATH_IMAGE007
表示第i个第一关键词对应的权重;
S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
2.如权利要求1所述的病例的智能分类方法,其特征在于,所述根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别的步骤S5之后,还包括:
S601:获取分类后各个所述分类模板对应类别的分类数量;
S602:根据所述分类数量计算分类的离散程度;
S603:判断所述离散程度是否大于预设值;
S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
S608:根据公式
Figure 523373DEST_PATH_IMAGE008
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 582465DEST_PATH_IMAGE009
表示所述第二匹配度,
Figure 700462DEST_PATH_IMAGE010
表示所述词集组合的第j个目标关键词对应的个数,
Figure 579426DEST_PATH_IMAGE011
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 441071DEST_PATH_IMAGE012
Figure 157267DEST_PATH_IMAGE013
Figure 711745DEST_PATH_IMAGE014
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行分类。
3.如权利要求1所述的病例的智能分类方法,其特征在于,所述对所有待分类的病例文本进行第一关键词识别的步骤S1,包括:
S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
S102:将所述若干分词转化分别转化为对应的词向量;
S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
4.如权利要求1所述的病例的智能分类方法,其特征在于,所述为所述分类模板中的第一关键词赋予对应所述分类模板的权重的步骤S3,包括:
S301:按照预设的规则对所述第一关键词划分为多个梯度;
S302:设置最低梯度的关键词的最低权重
Figure 140321DEST_PATH_IMAGE015
,以及根据公式
Figure 540078DEST_PATH_IMAGE016
设定其余梯度的所述关键词的权重,其中,
Figure 370500DEST_PATH_IMAGE015
表示所述最低权重,
Figure 767983DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 621538DEST_PATH_IMAGE018
表示第t梯度的预设参数,
Figure 762670DEST_PATH_IMAGE019
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
5.如权利要求1所述的病例的智能分类方法,其特征在于,所述对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量的步骤S1之前,还包括:
S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
S002:通过bert模型读取病例文本的文本数据,并通过所述bert模型fine-tuning的方式构建所述病例文本的词向量,其中所述bert模型基于多个病例文本以及对应的词向量的训练而成。
6.一种病例的智能分类装置,其特征在于,包括:
识别模块,用于指示实施步骤S1:对所有待分类的病例文本进行第一关键词识别,得到所有待分类的病例文本对应的多个第一关键词以及各个第一关键词的数量;
预分类模块,用于指示实施步骤S2:对获取的多个第一关键词按照预设的分类方式进行预分类,得到多个分类模板,计算每个第一关键词与各个分类模板的匹配程度,根据所述匹配程度将各个第一关键词分别记录在对应的分类模板中,并在所述分类模板中记录各个第一关键词的数量;
赋予模块,用于指示实施步骤S3:为所述分类模板中的第一关键词赋予对应所述分类模板的权重;
匹配度计算模块,用于指示实施步骤S4:根据公式
Figure 402859DEST_PATH_IMAGE020
计算每个所述病例文本与各个分类模板的第一匹配度,I表示所述分类模板,R表示病例文本,
Figure 299140DEST_PATH_IMAGE002
表示所述第一匹配度,
Figure 312095DEST_PATH_IMAGE003
表示所述分类模板的第i个第一关键词对应的个数,
Figure 319234DEST_PATH_IMAGE004
表示所述病例文本的第i个第一关键词对应的个数,n表示所述病例文本中具有所述分类模板中第一关键词的总数,
Figure 796352DEST_PATH_IMAGE021
Figure 925851DEST_PATH_IMAGE022
Figure 550736DEST_PATH_IMAGE023
表示第i个第一关键词对应的权重;
分类模块,用于指示实施步骤S5:根据所述病例文本与各个所述分类模板的第一匹配度大小,选取第一匹配度最大的分类模板所在的类别作为所述病例文本的类别。
7.如权利要求6所述的病例的智能分类装置,其特征在于,所述病例的智能分类装置,还包括:
分类数量获取模块,用于指示实施步骤S601:获取分类后各个所述分类模板对应类别的分类数量;
离散程度计算模块,用于指示实施步骤S602:根据所述分类数量计算分类的离散程度;
离散程度判断模块,用于指示实施步骤S603:判断所述离散程度是否大于预设值;
遮盖模块,用于指示实施步骤S604:若是,则对所述病例文本中的第一关键词进行遮盖处理,得到各个所述病例文本对应的暂时病例文本;
关键词识别模块,用于指示实施步骤S605:对各个所述暂时病例文本进行关键词识别,得到第二关键词以及对应的数量;
构建模块,用于指示实施步骤S606:根据所述第二关键词的词性构建第二关键词集,并在第二关键词集中记录每个第二关键词的数量;
组合模块,用于指示实施步骤S607:将各个所述第二关键词集分别与分类数量最多的分类模板进行不同的组合,得到多个词集组合;
第二匹配度计算模块,用于指示实施步骤S608:根据公式
Figure 101846DEST_PATH_IMAGE024
计算每个所述病例文本与各个词集组合的第二匹配度,U表示所述词集组合,R表示病例文本,
Figure 761367DEST_PATH_IMAGE025
表示所述第二匹配度,
Figure 796188DEST_PATH_IMAGE026
表示所述词集组合的第j个目标关键词对应的个数,
Figure 111631DEST_PATH_IMAGE027
表示所述病例文本的第j个目标关键词对应的个数,n表示所述病例文本中具有所述词集组合中的目标关键词的总数,
Figure 522890DEST_PATH_IMAGE028
Figure 505758DEST_PATH_IMAGE029
Figure 118005DEST_PATH_IMAGE030
表示第j个目标关键词对应的权重,所述目标关键词包括所述第一关键词和第二关键词;
病例文本分类模块,用于指示实施步骤S609:根据所述病例文本与各个所述词集组合的第二匹配度为各个病例文本进行分类。
8.如权利要求6所述的病例的智能分类装置,其特征在于,所述识别模块,包括:
分词子模块,用于指示实施步骤S101:对病例文本进行分词处理,得到所述病例文本的若干分词;
转化子模块,用于指示实施步骤S102:将所述若干分词转化分别转化为对应的词向量;
提取子模块,用于指示实施步骤S103:根据预设的病例词语数据库,提取所述病例文本中的目标词向量;
获取子模块,用于指示实施步骤S104:获取所述目标词向量的前后两个词向量并进行拼接,得到所述目标词向量的短语向量;
输入子模块,用于指示实施步骤S105:将所述短语向量输入预设的关键词判断模型,以得到所述目标词向量是否为所述第一关键词;其中,所述关键词判断模型为通过每一标准文本的每一短语向量作为输入,以及对应是否为第一关键词的结果作为输出,训练深度神经网络模型所生成。
9.如权利要求6所述的病例的智能分类装置,其特征在于,所述赋予模块,包括:
划分子模块,用于指示实施步骤S301:按照预设的规则对所述第一关键词划分为多个梯度;
权重设置子模块,用于指示实施步骤S302:设置最低梯度的关键词的最低权重
Figure 649307DEST_PATH_IMAGE015
,以及根据公式
Figure 801939DEST_PATH_IMAGE031
设定其余梯度的所述关键词的权重,其中,
Figure 904893DEST_PATH_IMAGE015
表示所述最低权重,
Figure 422462DEST_PATH_IMAGE017
表示第t梯度的权重,
Figure 446919DEST_PATH_IMAGE032
表示第t梯度的预设参数,
Figure 199980DEST_PATH_IMAGE033
表示第t梯度所有关键词的总数量,t+1梯度低于t梯度,c表示梯度的数量。
10.如权利要求6所述的病例的智能分类装置,其特征在于,所述病例的智能分类装置,还包括:
预处理模块,用于指示实施步骤S001:将所述病例文本进行预处理,其中所述预处理包括剔除所述病例文本中的标点符号、统一语种、删除不相关词句,所述不相关词句包括问候语、形容词;
向量构建模块,用于指示实施步骤S002:通过bert模型读取病例文本的文本数据,并通过bert模型fine-tuning的方式构建所述病例文本的词向量,其中bert模型基于多个病例文本以及对应的词向量的训练而成。
CN202210842024.6A 2022-07-18 2022-07-18 一种病例的智能分类方法和装置 Active CN114996463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210842024.6A CN114996463B (zh) 2022-07-18 2022-07-18 一种病例的智能分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210842024.6A CN114996463B (zh) 2022-07-18 2022-07-18 一种病例的智能分类方法和装置

Publications (2)

Publication Number Publication Date
CN114996463A true CN114996463A (zh) 2022-09-02
CN114996463B CN114996463B (zh) 2022-11-01

Family

ID=83022608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210842024.6A Active CN114996463B (zh) 2022-07-18 2022-07-18 一种病例的智能分类方法和装置

Country Status (1)

Country Link
CN (1) CN114996463B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238064A (zh) * 2022-09-20 2022-10-25 大安健康科技(北京)有限公司 一种基于聚类的中医医案的关键词提取方法
CN116110574A (zh) * 2023-04-14 2023-05-12 武汉大学人民医院(湖北省人民医院) 一种基于神经网络实现的眼科智能问诊方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010071997A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN107704500A (zh) * 2017-08-28 2018-02-16 昆明理工大学 一种基于语义分析与多重余弦定理的新闻分类方法
CN109616195A (zh) * 2018-11-28 2019-04-12 武汉大学人民医院(湖北省人民医院) 基于深度学习的纵隔超声内镜图像实时辅助诊断系统及方法
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN111816321A (zh) * 2020-07-09 2020-10-23 武汉东湖大数据交易中心股份有限公司 基于法定诊断标准智能识别传染病的系统、设备及存储介质
CN112002413A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种心血管系统感染智能认知系统、设备及存储介质
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010071997A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN107704500A (zh) * 2017-08-28 2018-02-16 昆明理工大学 一种基于语义分析与多重余弦定理的新闻分类方法
CN109616195A (zh) * 2018-11-28 2019-04-12 武汉大学人民医院(湖北省人民医院) 基于深度学习的纵隔超声内镜图像实时辅助诊断系统及方法
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN111816321A (zh) * 2020-07-09 2020-10-23 武汉东湖大数据交易中心股份有限公司 基于法定诊断标准智能识别传染病的系统、设备及存储介质
CN112002413A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种心血管系统感染智能认知系统、设备及存储介质
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹新志 等: "基于神经网络模型的电子病历文本提取及质量缺陷分析", 《中国医疗设备》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238064A (zh) * 2022-09-20 2022-10-25 大安健康科技(北京)有限公司 一种基于聚类的中医医案的关键词提取方法
CN116110574A (zh) * 2023-04-14 2023-05-12 武汉大学人民医院(湖北省人民医院) 一种基于神经网络实现的眼科智能问诊方法和装置
US11955240B1 (en) 2023-04-14 2024-04-09 Renmin Hospital Of Wuhan University (hubei General Hospital) Neural-network-based-implemented ophthalmologic intelligent consultation method and apparatus

Also Published As

Publication number Publication date
CN114996463B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
JP6629942B2 (ja) 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別
CN114996463B (zh) 一种病例的智能分类方法和装置
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
US7412093B2 (en) Hybrid apparatus for recognizing answer type
CN109145276A (zh) 一种基于拼音的语音转文字后的文本校正方法
CN112015878B (zh) 处理智慧客服未回答问题的方法、装置及计算机设备
CN113506574A (zh) 自定义命令词的识别方法、装置和计算机设备
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111966825A (zh) 一种基于机器学习的电网设备缺陷文本分类方法
CN111507089B (zh) 基于深度学习模型的文献分类方法、装置和计算机设备
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN112035664B (zh) 药品的归类方法、装置以及计算机设备
CN112988982B (zh) 一种计算机比较空间的自主学习方法及系统
CN114358017A (zh) 标签分类方法、装置、设备和存储介质
CN114722822A (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111368061A (zh) 短文本过滤方法、装置、介质及计算机设备
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN113239193A (zh) 一种文本挖掘方法及系统
CN113986245A (zh) 基于halo平台的目标代码生成方法、装置、设备及介质
CN113221549A (zh) 词语类型标注方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220902

Assignee: Wuhan Ruixin Zetai Technology Co.,Ltd.

Assignor: RENMIN HOSPITAL OF WUHAN University (HUBEI GENERAL Hospital)

Contract record no.: X2024980000807

Denomination of invention: An intelligent classification method and device for cases

Granted publication date: 20221101

License type: Common License

Record date: 20240118

Application publication date: 20220902

Assignee: Wuhan Hengtai Bainian Trading Co.,Ltd.

Assignor: RENMIN HOSPITAL OF WUHAN University (HUBEI GENERAL Hospital)

Contract record no.: X2024980000806

Denomination of invention: An intelligent classification method and device for cases

Granted publication date: 20221101

License type: Common License

Record date: 20240118