CN112347257A - 一种患者症状口语化标准化方法和装置 - Google Patents
一种患者症状口语化标准化方法和装置 Download PDFInfo
- Publication number
- CN112347257A CN112347257A CN202011254366.3A CN202011254366A CN112347257A CN 112347257 A CN112347257 A CN 112347257A CN 202011254366 A CN202011254366 A CN 202011254366A CN 112347257 A CN112347257 A CN 112347257A
- Authority
- CN
- China
- Prior art keywords
- symptom
- vocabulary
- spoken
- standard
- standard symptom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000024891 symptom Diseases 0.000 title claims abstract description 502
- 238000010606 normalization Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 166
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000010276 construction Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 4
- 206010019233 Headaches Diseases 0.000 description 8
- 208000002193 Pain Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 231100000869 headache Toxicity 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 210000001015 abdomen Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 208000004998 Abdominal Pain Diseases 0.000 description 2
- 206010000087 Abdominal pain upper Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001314 paroxysmal effect Effects 0.000 description 2
- 206010015958 Eye pain Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 208000032140 Sleepiness Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 206010042674 Swelling Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000018316 severe headache Diseases 0.000 description 1
- 230000037321 sleepiness Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种患者症状口语化标准化方法和装置,通过构建的正训练样本和负训练样本对孪生神经网络模型进行训练,采用预设映射规则将将所需识别的口语化症状词汇映射为其对应的口语化症状向量,将所述口语化症状向量加载到训练好的孪生神经网络模型中,采用所述孪生神经网络模型输出与所述口语化症状向量的相似度大于预设值的候选标准症状向量,获取与所述候选标准症状向量相匹配的标准症状词汇,输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,所述相似度最高的候选标准症状向量所对应的候选标准症状词汇即为最终结果,实现了口语化症状词汇的标准化处理。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种患者症状口语化标准化方法和装置。
背景技术
目前自然语言处理技术已经在搜索、广告、对话等各方面体现了巨大价值,但是在医疗领域中还有很多问题需要借助自然语言处理技术来解决。而其中语义理解技术是实现人工智能的关键技术,它能将各种不同的用户表达,理解为计算机能够处理的标准表示,使得计算机能够将识别同一事物的不同描述。
随着大数据时代的发展,我们所获取的数据、可用来分析的数据,数量和种类也都越来越多,而这给我们的大数据分析又带来了一个新的问题,那就是如何将数据中的临床术语标准化。
临床术语标准化任务是医学统计中不可或缺的一项任务。临床上,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化(归一)要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础,研究人员才可对电子病历进行后续的统计分析。因此,如何提供一种能够将不同的症状描述进行标准化处理的技术方案。
发明内容
有鉴于此,本发明实施例提供一种患者症状口语化标准化方法和装置,以提供一种能够患者症状口语化词汇进行标准化处理的技术方案。
为实现上述目的,本发明实施例提供如下技术方案:
一种患者症状口语化标准化方法,包括:
获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;
将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
获取所需识别的口语化症状词汇;
基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;
采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;
获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;
输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
可选的,上述患者症状口语化标准化方法中,还包括:
基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵。
可选的,上述患者症状口语化标准化方法中,所述获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇包括:
采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,记为候选标准症状向量。
可选的,上述患者症状口语化标准化方法中,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同;
输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇。
可选的,上述患者症状口语化标准化方法中,当输出的相似度最高的候选标准症状词汇的数量为多个时;
获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
一种患者症状口语化标准化装置,包括:
词汇采集单元,用于获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
正训练样本采集单元,用于提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
负训练样本采集单元,获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
训练单元,用于基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
口语化症状词汇识别单元,用于获取所需识别的口语化症状词汇;基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
可选的,上述患者症状口语化标准化装置中,还包括:
矩阵构建单元,用于基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵。
可选的,上述患者症状口语化标准化装置中,所述口语化症状词汇识别单元,在获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇时,具体用于:
采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,记为候选标准症状向量。
可选的,上述患者症状口语化标准化装置中,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同;
输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇。
可选的,上述患者症状口语化标准化装置中,当输出的相似度最高的候选标准症状词汇的数量为多个时,所述口语化症状词汇识别单元还用于:
获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
基于上述技术方案,本发明实施例提供的上述方案,通过构建的正训练样本和负训练样本对孪生神经网络模型进行训练,采用预设映射规则将将所需识别的口语化症状词汇映射为其对应的口语化症状向量,将所述口语化症状向量加载到训练好的孪生神经网络模型中,采用所述孪生神经网络模型输出与所述口语化症状向量的相似度大于预设值的候选标准症状向量,获取与所述候选标准症状向量相匹配的标准症状词汇,输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,所述相似度最高的候选标准症状向量所对应的候选标准症状词汇即为最终结果,实现了口语化症状词汇的标准化处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的患者症状口语化标准化方法的流程示意图;
图2为本申请实施例公开的标准症状词汇树的结构示意图;
图3为本申请实施例公开的向量矩阵的结构示意图;
图4为本申请实施例公开的患者症状口语化标准化装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供了一种能够精准识别患者症状口语化词汇,并将所述口语化词汇映射为标准症状词汇的患者症状口语化标准化方法,参见图1,该方案可以包括:模型训练阶段和模型预测阶段;
其中,模型训练阶段包括:
步骤S101:获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
本步骤主要用于获取标准症状词汇,所述标准症状词汇是用于表征某一症状的标准表述方式,这些标准症状词汇可以从临床数据、医疗文献、专业书籍等医疗领域数据中获取,也可以由网络大数据中获取,在执行本方案时,尽可能多、尽可能全的获取标准症状词,尽可能保证采集到的标准症状词汇足够全面,并且,在获取到所述标准症状词汇以后,根据预设规则构建症状名称层级表,在本方案中,层级表结构采用树状结构,因此,所述层级表也可以称之为标准症状词汇树,本方案构建层级表的规则如下:
默认症状词汇的组合为:症状词汇=症状部位+症状性质(症状性质可单独成症状词),例如:头疼=头(部位)+疼(症状性质);
在本方案中,症状词汇中的部位部分描述的越具体则层级越深;
具体说明:
首先将部位分为若干个主要部位,例如,头、手、胸等,将症状也分为若干个主要症状,例如,疼痛,闷痛,肿痛等,将这些部位和症状组成的症状词汇作为标准症状词汇树中的根节点;
再继续将搜集到的侧别名词,作为侧别集合,例如:{左侧,右侧,前侧,后侧,顶部,背面...},用侧别集合与根节点症状的部位组合成新的部位词,再与标准症状词汇树的根节点的症状词结合,作为标准症状词汇树的根节点的子节点;例如:根节点:头疼-->子节点:左侧头疼;
如果部位相同,则看症状性质描述,越详细,则层级越深;
具体说明:
将搜集到的症状性质名词,作为性质集合,例如:{针扎样,剧烈,阵发性...},用症状集合中的词分别与标准症状词汇中的词进行组合,得到更为具体的标准症状词汇,如图2所示,头疼-->头剧烈疼,左侧头疼-->左侧阵发性头疼...。
步骤S102:提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;
在本步骤中,提取第一目标数量的标准症状词汇,所述第一目标数量的标准症状词汇用于对孪生网络模型进行训练,在本步骤中,获取到所述第一目标数量的标准症状词汇以后,提取这些第一目标数量的标准症状词汇的症状部位和症状性质,然后再获取与所述第一目标数量的标准症状词汇相适配的口语化症状词;
步骤S103:将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
在本步骤中,将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,例如,标记为1.0,将语义相同、表示同一症状的标准症状词汇与其对应的口语化症状词汇以及两者之间的词汇对作为正训练样本。
参见表1,所述正训练样本具体可以表现为:
表1
非标准词汇 | 标准词汇 | 标签 |
睡不着 | 失眠 | 1.0 |
肚子疼 | 腹痛 | 1.0 |
... | ... | 1.0 |
步骤S104:获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
所述第一目标数量和所述第二目标数量的取值可以依据用户需要任意选取,在本方案中,所述负训练样本包括标准症状词汇与其对应的口语化症状词汇,在负训练样本中,所述标准症状词汇和与其对应的口语化症状词汇之间表示的语义不同,所述负训练样本包括标准症状词汇与其对应的口语化症状词汇之间的词汇对记为第二标识,例如0.0;
参见表2,所述负训练样本具体可以表现为:
表2
非标准词 | 标准词 | 标签 |
睡不着 | 嗜睡 | 0.0 |
肚子疼 | 头疼 | 0.0 |
... | ... | 0.0 |
在负训练样本中,口语化症状词汇为X,其应该对应的标准化症状词汇为Y,标准症状词汇集合为R,在R中选择一些非Y的词汇,与所述X构成负训练样本;尽可能选取症状性质相同或相似,但是症状部位不同的词,这是为了经过训练使模型中部位部分的权重值更高一点。比如:头痛眼睛痛0.0。
步骤S105:基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
在本步骤中,采用所述正训练样本、负训练样本以及正、负训练样本的词汇对标记对所述孪生网络模型进行训练,以使得所述孪生网络模型能够基于输入的口语化症状词汇生成与其对应的词汇对为第一预设值的标准症状词汇,在本方案中,所述孪生网络模型用于衡量两个输入的相似程度,其相似度用词汇对表示,例如,其输入的是正训练样本、以及词汇对,例如:肚子疼腹痛1.0,或负训练样本以及词汇对;
模型训练过程:孪生神经网络有两个输入(Input1 and Input2),将两个输入feed进入两个神经网络(Network1 and Network2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示。通过Loss的计算,评价两个输入的相似度。
这是因为,机器算法无法直接对词语进行计算,因此需要将词语转化成向量或者矩阵的形式来进行计算,而模型中的的输入,即Input1、Input2,就是词对训练样本中的两个词汇经过向量层之后的转换结果。
模型训练的目的:因为待预测的症状词汇与标准症状集合中的每个标准症状词汇进行对比的话,速度太慢,效率不高,所以在本方案中直接保存孪生神经网络模型中的向量层,即将症状词汇转换成向量的神经网络层,这样就可以将症状集合中所有的症状词汇在计算之前就先转换成向量,所有的向量组成一个向量矩阵,可以直接将该向量矩阵和口语化症状词汇对应的向量进行计算,大大提高了分析效率。所述向量矩阵的表现形式如图3所示。
模型预测阶段包括:
步骤S106:获取所需识别的口语化症状词汇;
本阶段主要是模型的使用阶段,本步骤汇总获取的口语化症状词汇为所需识别的口语化症状词汇,用户可以通过键入或语音录入等方式输入所述口语化症状词汇;
步骤S107:基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;
在本步骤中,采用预设的映射规则,将所需识别的口语化症状词汇映射为与其对应的口语化症状向量,该映射规则为预先建立好的映射规则;
步骤S108:采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;
在本步骤中,采用训练后的孪生网络模型对所述需识别的口语化症状词汇对应的口语化症状向量进行识别,得到与其对应的多个标准症状向量,每个标准症状向量均与所述口语化症状向量具有一定的相似度,在本步骤中,可以直接舍去相似度较低的标准症状向量,将剩余的向量相似度大于预设值的标准症状向量作为候选标准症状向量;
步骤S109:获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;
步骤S110:输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
在步骤S109和S110中,可以基于预设映射规则预先将候选标准症状向量映射到其匹配的标准症状词汇,再计确定与所述口语化症状向量的相似度最高的候选标准症状向量,将所述相似度最高的候选标准症状向量对应的标准症状词汇作为目标价结果输出,当然,也可以先确定与所述口语化症状向量的相似度最高的候选标准症状向量,再将该相似度最高的候选标准症状向量映射到其匹配的标准症状词汇,将该标准症状词汇作为目标价结果输出。
本申请上述实施例提供的技术方案,通过构建的正训练样本和负训练样本对孪生神经网络模型进行训练,采用预设映射规则将将所需识别的口语化症状词汇映射为其对应的口语化症状向量,将所述口语化症状向量加载到训练好的孪生神经网络模型中,采用所述孪生神经网络模型输出与所述口语化症状向量的相似度大于预设值的候选标准症状向量,获取与所述候选标准症状向量相匹配的标准症状词汇,输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,所述相似度最高的候选标准症状向量所对应的候选标准症状词汇即为最终结果,实现了口语化症状词汇的标准化处理。
在本申请另一实施例公开的技术方案中,所述获取所需识别的口语化症状词汇,可以包括:利用NER技术抓取输入文本中的症状词汇,将抓取到的症状词汇作为所需识别的口语化症状词汇,其中,所述输入文本可以为由语音信息转换而来的文本。例如,输入文本为“我今天肚子疼”,所抓取到的口语化症状词汇为“肚子疼”,输入文本为“头不舒服怎么办”,所抓取到的口语化症状词汇为“头不舒服”。
在本申请实施例公开的技术方案中,为了提高识别效率,在本方案中,可以于生成标准症状向量矩阵,此时,基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵,在将采用训练后的孪生网络模型对所述口语化症状向量进行识别时,直接将所述口语化症状向量与所述标准症状向量矩阵中的向量元素进行相似度计算。在上述方案中,获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇,具体可以包括:采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量分别与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,将这些向量记为候选标准症状向量。
在本申请实施例公开的技术方案中,所获取到的候选标准症状向量的数量可以为多个,每个候选标准症状向量对应一个候选标准症状词汇,不同的候选标准症状词汇可能位于标准症状词汇树中的不同支路中,为了提高识别结果的命中率,在本方案中,可以将不同支路中,具有与所述所需识别的口语化症状词汇相似度最高的标准症状词汇作为识别结果输出,以提高识别结果的命中率,具体的,上述方法中,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同,即,将隶属于所述标准症状词汇树的同一支路中的所有候选标准症状词汇放入一个分类集合中;输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇,即,输出每个分类集合中与所述口语化症状向量的相似度最高的候选标准症状词汇。
在本方案中,当输出的相似度最高的候选标准症状词汇的数量为多个时;可以基于用户选择指令选择一个候选标准症状词汇作为最终结果,在本步骤中,输出所述相似度最高的候选标准症状词汇以后,获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
本实施例中,对应于上述方法,本申请还公开了一种患者症状口语化标准化装置,装置中的各个单元的具体工作内容,请参见上述方法实施例的内容,下面对本发明实施例提供的患者症状口语化标准化装置进行描述,下文描述的患者症状口语化标准化装置与上文描述的患者症状口语化标准化方法可相互对应参照。参见图4,本装置可以包括:
词汇采集单元100、正训练样本采集单元200、负训练样本采集单元300、训练单元400和口语化症状词汇识别单元500;
词汇采集单元100,用于获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
正训练样本采集单元200,用于提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
负训练样本采集单元300,获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
训练单元400,用于基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
口语化症状词汇识别单元500,用于获取所需识别的口语化症状词汇;基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
与上述方法相对应,上述装置还可以包括:
矩阵构建单元,用于基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵。
与上述方法相对应,所述口语化症状词汇识别单元在获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇时,具体用于:
采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,记为候选标准症状向量。
与上述方法相对应,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同;
输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇。
与上述方法相对应,当输出的相似度最高的候选标准症状词汇的数量为多个时,所述口语化症状词汇识别单元还用于:
获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种患者症状口语化标准化方法,其特征在于,包括:
获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;
将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
获取所需识别的口语化症状词汇;
基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;
采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;
获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;
输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
2.根据权利要求1所述的患者症状口语化标准化方法,其特征在于,还包括:
基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵。
3.根据权利要求2所述的患者症状口语化标准化方法,其特征在于,所述获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇包括:
采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,记为候选标准症状向量。
4.根据权利要求3所述的患者症状口语化标准化方法,其特征在于,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同;
输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇。
5.根据权利要求4所述的患者症状口语化标准化方法,其特征在于,当输出的相似度最高的候选标准症状词汇的数量为多个时;
获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
6.一种患者症状口语化标准化装置,其特征在于,包括:
词汇采集单元,用于获取标准症状词汇,将所述标准症状词汇加入到标准症状词汇树;
正训练样本采集单元,用于提取第一目标数量的标准症状词汇,提取所述标准症状词汇中的症状部位和症状性质,获取与所述训练样本相匹配的口语化症状词汇;将所述标准症状词汇和与其对应的口语化症状词汇之间的词汇对标记为第一标识,将所述标准症状词汇与其对应的口语化症状词汇作为正训练样本;
负训练样本采集单元,获取第二目标数量的负训练样本,将所述负训练样本中的标准症状词汇与其对应的口语化症状词汇的词汇对标记为第二标识;
训练单元,用于基于所述正训练样本、负训练样本和正、负训练样本的词汇对标记对预设的孪生网络模型进行训练;
口语化症状词汇识别单元,用于获取所需识别的口语化症状词汇;基于预设映射规则将所需识别的口语化症状词汇映射为与其对应的口语化症状向量;采用训练后的孪生网络模型对所述口语化症状向量进行识别,得到与所述口语化症状向量相似度大于预设值的候选标准症状向量;获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇;输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇。
7.根据权利要求6所述的患者症状口语化标准化装置,其特征在于,还包括:
矩阵构建单元,用于基于所述预设映射规则,构建与所述标准症状词汇树中的标准症状词汇相匹配的标准症状向量矩阵。
8.根据权利要求7所述的患者症状口语化标准化装置,其特征在于,所述口语化症状词汇识别单元,在获取与所述候选标准症状向量相匹配的标准症状词汇,记为候选标准症状词汇时,具体用于:
采用训练后的孪生网络模型,对所述标准症状向量矩阵中包含的标准症状向量与所述口语化症状向量进行相似度计算,得到与所述口语化症状向量相似度大于预设值的标准症状向量,记为候选标准症状向量。
9.根据权利要求8所述的患者症状口语化标准化装置,其特征在于,所述输出与所述口语化症状向量的相似度最高的候选标准症状向量所对应的候选标准症状词汇,包括:
依据所述标准症状词汇树对所述候选标准症状词汇进行分类,使得不同类的候选标准症状词汇所对应的标准症状词汇树的支路不同;
输出每类候选标准症状词汇中与所述口语化症状向量的相似度最高的候选标准症状词汇。
10.根据权利要求9所述的患者症状口语化标准化装置,其特征在于,当输出的相似度最高的候选标准症状词汇的数量为多个时,所述口语化症状词汇识别单元还用于:
获取用户的选择指令,将与所述用户的选择执行相匹配的候选标准症状词汇作为目标标准症状词汇输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254366.3A CN112347257B (zh) | 2020-11-11 | 2020-11-11 | 一种患者症状口语化标准化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254366.3A CN112347257B (zh) | 2020-11-11 | 2020-11-11 | 一种患者症状口语化标准化方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347257A true CN112347257A (zh) | 2021-02-09 |
CN112347257B CN112347257B (zh) | 2024-07-09 |
Family
ID=74363377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011254366.3A Active CN112347257B (zh) | 2020-11-11 | 2020-11-11 | 一种患者症状口语化标准化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347257B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793668A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的症状标准化方法、装置、电子设备及介质 |
CN114818693A (zh) * | 2022-03-28 | 2022-07-29 | 平安科技(深圳)有限公司 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
CN116167354A (zh) * | 2023-04-19 | 2023-05-26 | 北京亚信数据有限公司 | 医疗专业名词特征提取模型训练、标准化方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130224172A1 (en) * | 2012-01-03 | 2013-08-29 | Curemark, Llc | Methods of treating behavioral symptoms of neurological and mental disorders |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN109543179A (zh) * | 2018-11-05 | 2019-03-29 | 北京康夫子科技有限公司 | 口语化症状归一化的方法及系统 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110457369A (zh) * | 2019-08-07 | 2019-11-15 | 北京嘉和海森健康科技有限公司 | 一种模型的训练方法及相关设备 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN111699391A (zh) * | 2017-12-29 | 2020-09-22 | 雅培实验室 | 用于诊断和评估创伤性脑损伤的新型生物标志物和方法 |
-
2020
- 2020-11-11 CN CN202011254366.3A patent/CN112347257B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130224172A1 (en) * | 2012-01-03 | 2013-08-29 | Curemark, Llc | Methods of treating behavioral symptoms of neurological and mental disorders |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN111699391A (zh) * | 2017-12-29 | 2020-09-22 | 雅培实验室 | 用于诊断和评估创伤性脑损伤的新型生物标志物和方法 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN109543179A (zh) * | 2018-11-05 | 2019-03-29 | 北京康夫子科技有限公司 | 口语化症状归一化的方法及系统 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110457369A (zh) * | 2019-08-07 | 2019-11-15 | 北京嘉和海森健康科技有限公司 | 一种模型的训练方法及相关设备 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
GUANGKAI LI等: "Augmenting Embedding with Domain Knowledge for Oral Disease Diagnosis Prediction", pages 1 - 15, Retrieved from the Internet <URL:《网页在线公开:https://link.springer.com/chapter/10.1007/978-3-030-05755-8_24》> * |
朱玲等: "基于词向量计算的中医症状术语相似度研究", 《中国数字医学》, pages 28 - 31 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793668A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的症状标准化方法、装置、电子设备及介质 |
CN114818693A (zh) * | 2022-03-28 | 2022-07-29 | 平安科技(深圳)有限公司 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
CN116167354A (zh) * | 2023-04-19 | 2023-05-26 | 北京亚信数据有限公司 | 医疗专业名词特征提取模型训练、标准化方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112347257B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705839B (zh) | 疾病自动编码方法及系统 | |
CN107731269B (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN112347257B (zh) | 一种患者症状口语化标准化方法和装置 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN107341264A (zh) | 一种支持自定义实体的电子病历检索系统及方法 | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN111317464B (zh) | 心电图分析方法和装置 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、系统及设备 | |
CN117787282B (zh) | 基于大语言模型的医患文本智能提取方法 | |
CN111159977B (zh) | 一种人类表型标准用语确定方法及装置 | |
Ma et al. | Constructing a semantic graph with depression symptoms extraction from twitter | |
CN115954072A (zh) | 一种智能临床试验方案生成方法及相关装置 | |
CN111524570A (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
CN113643825B (zh) | 基于临床关键特征信息的医疗案例知识库构建方法和系统 | |
CN109065015B (zh) | 一种数据采集方法、装置、设备及可读存储介质 | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN109840275B (zh) | 一种医疗搜索语句的处理方法、装置和设备 | |
CN116108000B (zh) | 医疗数据管理查询方法 | |
Chen et al. | Classification of human electrocardiograms by multi-layer convolutional neural network and hyperparameter optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |