CN114201968A - 基于医疗场景结合汉语特征的数据归一处理方法及装置 - Google Patents

基于医疗场景结合汉语特征的数据归一处理方法及装置 Download PDF

Info

Publication number
CN114201968A
CN114201968A CN202111436610.2A CN202111436610A CN114201968A CN 114201968 A CN114201968 A CN 114201968A CN 202111436610 A CN202111436610 A CN 202111436610A CN 114201968 A CN114201968 A CN 114201968A
Authority
CN
China
Prior art keywords
data
processed
word
similarity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111436610.2A
Other languages
English (en)
Inventor
龚快快
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Baolian Technology Co ltd
Original Assignee
Shanghai Baolian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Baolian Technology Co ltd filed Critical Shanghai Baolian Technology Co ltd
Priority to CN202111436610.2A priority Critical patent/CN114201968A/zh
Publication of CN114201968A publication Critical patent/CN114201968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,方法包括:获取待处理数据,将待处理数据输入至预设搜索引擎中进行完全匹配,若完全匹配未命中,则在预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词,根据待处理数据以及多个候选词计算每一候选词与待处理数据的第一相似度,根据待处理数据的上下文信息以及多个候选词计算每一候选词与待处理数据的第二相似度,根据第一相似度以及第二相似度从多个候选词中确定出待处理数据对应的归一化目标词,本发明通过从待处理数据的上下文信息中提取有效特征参与到候选词与待处理数据之间的相似度计算中,提高对码的准确率。

Description

基于医疗场景结合汉语特征的数据归一处理方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质。
背景技术
医疗领域中源源不断地产生大量的医疗数据,例如:患者的病历、对患者的病例的分析、患者疾病的治疗方案等。诊断、药品、医检、治疗方案等的医疗数据对于进行医疗数据分析具有极为重要的意义。虽然医疗行业的科室、药品和诊疗等都有规范的名称,但是受到使用习惯和所处环境等因素的影响,即使处于同一个行业中,不同的人对同一件事物叫法往往也会不同。为了进行有效的医疗数据管理与分析,一般通过对医疗数据进行归一化处理,从而将医疗数据归类。医疗数据归一化治理,是指将医院的疾病、手术、药品、诊疗、材料等医疗领域相关的术语库进行标准化归一的处理。
目前的医疗数据归一化处理方式有两种,一种是人工操作,即,由人工对医疗数据进行归类。当医疗数据量庞大且结构复杂时,人工进行归类的方法耗费大量的人力物力,归类效率较低;另一种是通过使用搜索引擎及词向量模型,虽然相比于人工操作可以提升归一化处理的效率,但是依然存在准确率较低,查询速度慢等问题。
综上所述,亟需提出一种新的数据归一化处理方法,以解决上述问题。
发明内容
为解决上述一个或多个技术问题,本申请采用的技术方案是:
第一方面,提供了一种基于医疗场景结合汉语特征的数据归一处理方法,该方法包括如下步骤:
获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
进一步地,所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度包括:
根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;
根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所述待处理数据的第二相似度。
进一步地,所述根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度包括:
利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;
根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。
进一步地,所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词包括:
分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;
根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。
进一步地,所述方法还包括:
在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字;
所述将所述待处理数据输入至预设搜索引擎中进行完全匹配包括:
将预处理后的所述待处理数据输入至预设搜索引擎中进行完全匹配。
进一步地,所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词包括:
根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所述待处理数据的加权相似度;
确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化目标词。
进一步地,所述预设搜索引擎包括ElasticSearch。
第二方面,提供了一种基于医疗场景结合汉语特征的数据归一处理装置,所述装置包括:
完全匹配模块,用于获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
模糊匹配模块,用于若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
第一计算模块,用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
第二计算模块,用于根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
归一化模块,用于根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
第三方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现上述基于医疗场景结合汉语特征的数据归一处理方法。
第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被执行时,实现上述基于医疗场景结合汉语特征的数据归一处理方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,方法包括:获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配,若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词,根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度,根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度,根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词,通过从待处理数据的上下文信息中提取有效特征参与到候选词与待处理数据之间的相似度计算中,提高对码的准确率;
进一步地,本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词,根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词,通过增加拼音、部首进行模糊匹配,提高匹配的准确度;
进一步地,本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法、装置、计算机设备及存储介质,在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字,通过在预处理阶段增加将繁体字转换为简体字的步骤,便于后续计算,提高计算精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法的流程图;
图2是本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理装置的结构示意图;
图3是本发明一个实施例提供的计算机设备的架构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如背景技术所述,现有技术中,在进行医疗数据归一化处理时,通过使用搜索引擎及词向量模型,例如,使用ElasticSearch、Word2Vec等技术进行数据归一化处理,然而现有技术中使用ElasticSearch及Word2Vec进行数据归一下化处理的方式其实是通用方式,对于捕捉中文特征并无特别优势,因而存在对码准确率较低等问题。
为解决上述问题,本申请实施例中创造性的提出了一种基于医疗场景结合汉语特征的数据归一处理方法,通过提取待处理数据的上下文信息的特征,利用更多特征参与到候选词与待处理数据之间的相似度计算中,提高对码的准确率,通过增加拼音、部首进行模糊匹配,提高匹配的准确度,通过在预处理阶段增加将繁体字转换为简体字的步骤,便于后续计算,提高计算精度。
下面将结合附图和各个实施例,对本申请的方案进行详细介绍。
实施例一
图1是本申请实施例提供的基于医疗场景结合汉语特征的数据归一处理方法的流程图,参照图1所示,该方法包括如下步骤:
S1:获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
S2:若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
S3:根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
S4:根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
S5:根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
具体的,本申请实施例中,预设搜索引擎中按照完全匹配和模糊匹配相结合的匹配方式,所述预设搜索引擎中设有完全匹配字段和模糊匹配字段,获取到待处理数据后,对该待处理数据先执行完全匹配,对于完全匹配命中的直接确定为待处理数据对应得归一化目标词,对于完全匹配未命中的,可以进一步借助模糊匹配获得相近似的结果,从而平衡了查询效率和准确度。具体实施时,还可以利用预先缓存的已成功匹配的词汇记录对待处理数据进行匹配,以便减少搜索引擎的计算工作量,提高匹配效率和准确度,在缓存未命中时,再到预设搜索引擎中进行查询匹配。这里需要说明的是,本申请实施例中,完全匹配的具体过程可以根据实际需求进行设置,这里不做限制。
具体的,本申请实施例中,当待处理数据在预设搜索引擎中进行模糊匹配确定出多个候选词后,为了提高匹配的精度,在计算各个候选词与待处理数据的相似度时,除了计算待处理数据本身特征与候选词的相似度(即第一相似度),还从待处理数据的上下文信息中获取有效特征,通过从待处理数据的上下文信息中获取有效特征计算待处理数据与候选词的相似度(即第二相似度),然后结合第一相似度以及第二相似度从多个候选词中确定出待处理数据对应的归一化目标词,通过利用更多特征,从而提升对码的准确率。
作为一种较优的实施方式,本申请实施例中,所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度包括:
根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;
根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所述待处理数据的第二相似度。
具体的,通常来说,除了待处理数据本身的信息量,还可以从该待处理数据的上下文信息中获得一些有效特征。以待处理数据为疾病字段为例,可以从其上下文信息中提取的预设特征包括但不限于科室特征、手术特征、药品特征、诊疗特征、材料特征、就诊类别(如门诊/住院)相关特征、住院天数特征、性别特征、年龄特征、就诊费用特征等。
具体实施时,对于提取到的各类预设特征数据,可以使用特征工程将其转换成对应的向量表示。如对于性别而言,性别为女时,设置其特征为[0,1],性别为男时,设置其特征为[1,0]。对于年龄而言,可以简化为年龄段,如区分为0 到13岁儿童、14到20岁少年、21岁到35岁青年、36到55岁中年、55岁以上老年等,从而年龄特征可设置为五位的向量,如30岁,则向量为[0,0,1,0,0]。对于药品特征、材料特征等,由于药品和材料的基表的数量级在数万,则可考虑进行降维处理。降维有多种方式,如可以依据药品、材料的上级分类,比如降血压压、抗癌药等;可依据使用频率,仅考虑对高频药品进行特征化;可以对所有药品材料项目完整进行向量化,再通过单层感知机,将以0,1为特征值的独热向量降维至以浮点数为特征值的向量。
最后,将以上各特征值合并为整体特征向量,作为模型训练入参。将待处理数据的独热向量或针对词语降维后的词向量作为模型出参。进行机器学习。从而得到不同特征下,对码结果为某个词的概率分布情况。此分布概率会类似 Word2Vec的学习结果,每个词会成为一个浮点数组成的向量表示。
作为一种较优的实施方式,本申请实施例中,所述根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度包括:
利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;
根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。
具体的,预先构建的词向量模型包括但不限于word2vec模型。将多个候选词以及待处理数据分别输入到该word2vec模型中,获取每一候选词对应的词向量以及待处理数据对应的词向量,然后通过词向量计算每一候选词与待处理数据的第一相似度,包括但不限于使用余弦公式计算候选词与目标词的余弦距离等。
作为一种较优的实施方式,本申请实施例中,所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词包括:
分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;
根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。
具体的,考虑到汉字的其中一个特点为一个完整的汉字由其部首组成。部分对码条目上,会出现一些错别字,这些错别字往往与其标准字存在字形相似,但不是一个字的情况。所以本申请实施例中,在模糊匹配时通过利用汉字部首信息提升准确度。考虑到汉字的另一特点是其拼音。部分对码条目上,会出现一些同音字,此时通过BM25算法不可有效找出,所以本申请实施例中在模糊匹配时还通过利用拼音提升准确度。
为实现上述目的,可以在预设搜索引擎(如ElasticSearch)的索引中,增加部首数据以及拼音数据,使得从逻辑上看,预设搜索引擎的索引中每一条明细数据,都有三种表示形式:汉字、部首、汉语拼音。
具体实施时,对于在预设搜索引擎的索引中增加部首数据,可以使用一部首与汉字的映射表,该映射表表达了每个汉字拆分部首的映射关系,将其映射存储入数据库中。作为一种较优的示例,考虑到其使用频率,可以使用redis及 jvm缓存该部首与汉字的映射表。然后将既有存于预设搜索引擎(如ElasticSearch) 中的基库数据进行拆分,如:“恩曲他宾”拆分为“因心恩囗卄曲人也他宀一少兵宾”。对于在预设搜索引擎的索引中增加拼音数据,以预设搜索引擎为 ElasticSearch为例,由于ES自带转拼音插件analysis-pinyin,故无需额外使用拼音映射表。
具体的,第一初筛词、第二初筛词和第三初筛词的数量可以根据实际需求进行设置。由于在此前的实验数据中,得到搜索引擎ElasticSearch候选词的top20 的准确度较高,即推荐的前20候选词中包含待处理数据,因此,作为一种较优的示例,第一初筛词、第二初筛词和第三初筛词的可以选取top20的匹配结果。例如,使用预设搜索引擎进行文字(汉字)级别模糊匹配,得到top20的匹配结果(即第一初筛词),使用预设搜索引擎进行部首、拼音级别模糊匹配时,也各自得出top20的候选词(即第二初筛词和第三初筛词)。
在根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词时,可以对第一初筛词、第二初筛词以及第三初筛词进行排序整合,得出一个加权的top20的初筛词作为候选词。具体实施时,可以设置在第一初筛词中排名第一,得20分,排名第二得19分,依次类推,同理在第二初筛词中排名第一,得20分,排名第二得19分,依次类推,第三初筛词中排名第一,得20分,排名第二得19分,依次类推等等。此处也可能存在概率分布的问题,可对不同方法设置权重,进行机器学习建模,可得出更准确的分布。
这里需要说明的时,本发明实施例中,模糊匹配中多个候选词获得方式可以设置为可选的,取决于实际数据集。比如可只选择拼音候选词,或只选择部首候选词,从而可以舍弃一定的精度,换取更高的执行效率等。
作为一种较优的实施方式,本申请实施例中,所述方法还包括:
在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字;
所述将所述待处理数据输入至预设搜索引擎中进行完全匹配包括:
将预处理后的所述待处理数据输入至预设搜索引擎中进行完全匹配。
具体的,由于部分疾病描述或医疗明细条目描述存在繁体简体混用的情况,本申请实施例中,在对码预处理阶段,增加将繁体字转换为简体字的步骤。如如待处理数据为老年性白內障即年齡相關性白內障时,可先将其转换为老年性白内障即年龄相关性白内障。具体实施时,可以预先准备一简体繁体映射表。由于需要在预处理阶段进行二者映射,所以需要一映射表。并且考虑性能问题,可以将所有映射数据持久化于数据库中以及缓存于Redis缓存之中。针对最高频 2000字则存于内存缓存之中。作为一种较优的示例,可以使用Java语言开发,则存于Jvm虚拟机内存之中。
具体的,本申请实施例中,预处理还可以包括同义词替换、近义词替换、罗马数字替换、中英文符号替换中的一种或多种,用户可以根据实际需求进行选择,这里不再一一赘述。
作为一种较优的实施方式,本申请实施例中,所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词包括:
根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所述待处理数据的加权相似度;
确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化目标词。
具体的,本申请实施例中,可以分别为第一相似度以及第二相似度设置预设权重,根据预设权重计算得到每一候选词与待处理数据的加权相似度,选择加权相似度最高的候选词为待处理数据对应的归一化目标词。
作为一种较优的实施方式,本申请实施例中,所述预设搜索引擎包括ElasticSearch。
实施例二
对应于上述实施例一,如图2所示,本申请实施例还提供了一种基于医疗场景结合汉语特征的数据归一处理装置,其中,本实施例中,与上述实施例一相同或相似的内容,可以参考上文介绍,后续不再赘述。参照图2示,该装置包括:
完全匹配模块,用于获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
模糊匹配模块,用于若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
第一计算模块,用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
第二计算模块,用于根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
归一化模块,用于根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
作为一种较优的实施方式,本申请实施例中,所述第二计算模块用于:
根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;
根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所述待处理数据的第二相似度。
作为一种较优的实施方式,本申请实施例中,所述第一计算模块用于:
利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;
根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。
作为一种较优的实施方式,本申请实施例中,所述模糊匹配模块用于:
分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;
根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。
作为一种较优的实施方式,本申请实施例中,所述装置还包括:
预处理模块,用于在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字;
所述完全匹配模块用于将预处理后的所述待处理数据输入至预设搜索引擎中进行完全匹配。
作为一种较优的实施方式,本申请实施例中,所述归一化模块用于:
根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所述待处理数据的加权相似度;
确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化目标词。
作为一种较优的实施方式,本申请实施例中,所述预设搜索引擎包括ElasticSearch。
实施例三
对应上述实施例一和二,本申请还提供了一种计算机设备,包括:处理器和存储器,存储器上存储有可在处理器上运行的计算机程序,当计算机程序被处理器执行时,执行上述任意一个实施例提供的基于医疗场景结合汉语特征的数据归一处理方法。
其中,图3示例性的展示出了计算机设备,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530 进行通信连接。
其中,处理器1510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit, ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制电子设备运行的操作系统1521,用于控制电子设备的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及设备标识信息处理系统1525等等。上述设备标识信息处理系统1525就可以是本发明实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本发明所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。
输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器 1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520) 之间传输信息。
另外,该电子设备还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明方案所必需的组件,而不必包含图中所示的全部组件。
实施例四
对应于上述实施例一至三,本申请实施例还提供了一种计算机可读存储介质,其中,本实施例中,与上述实施例一至三相同或相似的内容,可以参考上文介绍,后续不再赘述。
所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
在一些实施方式中,本申请实施例中,所述计算机程序被处理器执行时,还可以实现与实施例一所述方法对应的步骤,可以参考实施例一中的详细描述,此处不作赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的技术方案,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述方法包括:
获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
2.根据权利要求1所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度包括:
根据所述待处理数据的上下文提取预设特征,并计算所述预设特征对应的预设特征向量;
根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所述待处理数据的第二相似度。
3.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度包括:
利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据的词向量;
根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选词与所述待处理数据的第一相似度。
4.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词包括:
分别按照汉字、拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配,分别获取对应的第一初筛词、第二初筛词和第三初筛词;
根据所述第一初筛词、所述第二初筛词以及所述第三初筛词与所述待处理数据的相似度从所述第一初筛词、所述第二初筛词以及所述第三初筛词中确定多个候选词。
5.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述方法还包括:
在获取到所述待处理数据后,对所述待处理数据进行预处理,所述预处理至少包括将繁体字转换为简体字;
所述将所述待处理数据输入至预设搜索引擎中进行完全匹配包括:
将预处理后的所述待处理数据输入至预设搜索引擎中进行完全匹配。
6.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词包括:
根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所述待处理数据的加权相似度;
确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化目标词。
7.根据权利要求1或2所述的基于医疗场景结合汉语特征的数据归一处理方法,其特征在于,所述预设搜索引擎包括ElasticSearch。
8.一种基于医疗场景结合汉语特征的数据归一处理装置,其特征在于,所述装置包括:
完全匹配模块,用于获取待处理数据,将所述待处理数据输入至预设搜索引擎中进行完全匹配;
模糊匹配模块,用于若完全匹配未命中,则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配,获取多个候选词;
第一计算模块,用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的第一相似度;
第二计算模块,用于根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述待处理数据的第二相似度;
归一化模块,用于根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数据对应的归一化目标词。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~7中任一项所述的基于医疗场景结合汉语特征的数据归一处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于,所述计算机程序被执行时,实现权利要求1~7中任一项所述的基于医疗场景结合汉语特征的数据归一处理方法。
CN202111436610.2A 2021-11-29 2021-11-29 基于医疗场景结合汉语特征的数据归一处理方法及装置 Pending CN114201968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111436610.2A CN114201968A (zh) 2021-11-29 2021-11-29 基于医疗场景结合汉语特征的数据归一处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111436610.2A CN114201968A (zh) 2021-11-29 2021-11-29 基于医疗场景结合汉语特征的数据归一处理方法及装置

Publications (1)

Publication Number Publication Date
CN114201968A true CN114201968A (zh) 2022-03-18

Family

ID=80649755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111436610.2A Pending CN114201968A (zh) 2021-11-29 2021-11-29 基于医疗场景结合汉语特征的数据归一处理方法及装置

Country Status (1)

Country Link
CN (1) CN114201968A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825265A (zh) * 2023-08-29 2023-09-29 先临三维科技股份有限公司 就诊记录处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN112805714B (zh) 使用自然语言构造为数据可视化确定细节级别
AU2019200437B2 (en) A method to build an enterprise-specific knowledge graph
CN107885874B (zh) 数据查询方法和装置、计算机设备及计算机可读存储介质
CN107992477B (zh) 文本主题确定方法及装置
US20170364495A1 (en) Propagation of changes in master content to variant content
CN111708934A (zh) 知识内容的评价方法、装置、电子设备和存储介质
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN111460095A (zh) 问答处理方法、装置、电子设备及存储介质
JP2022525089A (ja) 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
CN114201968A (zh) 基于医疗场景结合汉语特征的数据归一处理方法及装置
CN107357782A (zh) 一种识别用户性别的方法及终端
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN113722429A (zh) 数据归一化处理方法、装置、设备及计算机可读存储介质
EP3901875A1 (en) Topic modelling of short medical inquiries
CN110287270B (zh) 实体关系挖掘方法及设备
CN116168793A (zh) 体检数据的处理分析方法及相关设备
CN116522944A (zh) 基于多头注意力的图片生成方法、装置、设备及介质
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN114240560A (zh) 基于多维分析的产品排名方法、装置、设备及存储介质
CN114461085A (zh) 医疗输入推荐方法、装置、设备及存储介质
CN110046346B (zh) 一种语料意图监控的方法和装置、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination