CN116955538A - 医疗字典数据匹配方法及装置、电子设备及存储介质 - Google Patents

医疗字典数据匹配方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116955538A
CN116955538A CN202311032672.6A CN202311032672A CN116955538A CN 116955538 A CN116955538 A CN 116955538A CN 202311032672 A CN202311032672 A CN 202311032672A CN 116955538 A CN116955538 A CN 116955538A
Authority
CN
China
Prior art keywords
matching
word segmentation
list
value
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311032672.6A
Other languages
English (en)
Other versions
CN116955538B (zh
Inventor
刘辉
李彬槐
李艾劲
何梦娜
李辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yixing Technology Co ltd
Original Assignee
Chengdu Yixing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yixing Technology Co ltd filed Critical Chengdu Yixing Technology Co ltd
Priority to CN202311032672.6A priority Critical patent/CN116955538B/zh
Publication of CN116955538A publication Critical patent/CN116955538A/zh
Application granted granted Critical
Publication of CN116955538B publication Critical patent/CN116955538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种医疗字典数据匹配方法及装置、电子设备及存储介质,其中方法包括:将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表;将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合;对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重。本申请的方案应用于平台系统与三方系统之间的医疗字典对照,实现秒级匹配且准确率高,硬件资源消耗低,易于实施。

Description

医疗字典数据匹配方法及装置、电子设备及存储介质
技术领域
本发明属于医疗信息数据交互技术,涉及医疗字典对照,具体涉及一种医疗字典数据匹配方法及装置、电子设备及存储介质。
背景技术
在进行医疗字典数据匹配时,传统的方法是简单的字典对码系统,通过数据库的模糊查询方式进行模糊匹配,由于每次都是通过数据库的模糊匹配方法,只能做到包含方式的匹配,如果将查询词语通过简单的分词进行多次匹配则在数据库中查询效率将极大的降低。比如,在医疗业务中较大的字典如ICD10字典,不同版本长度在2万-6万不等,原有方法数据库模糊匹配方式筛选效率低、模糊结果效果差,不能按照相似度从高到低进行排序,字典对码效率低;使用数据库的模糊匹配方式进行存储,在数据量在1W以下效率较为优势,超过1W对数据库性能要求极具上升,并且针对不通类型数据库函数支持能力各不相同,局限性较大。
目前,在市面上也有许多的大数据辅助工具,通过人工智能方式进行快速的字典匹配,但是资源占用大,且前期准备工作多,对前期训练的依赖性大。另一方面,每个医院的独特的业务系统,有独特的字典信息,单独进行训练将极大的影响效率;并且医院大小不同,硬件能力不同,往往不希望在这个基础的工作上提供大量的硬件资源。
发明内容
为解决上述相关现有技术不足,本发明提供一种医疗字典数据匹配方法及装置、电子设备及存储介质,应用于平台系统与三方系统之间的医疗字典对照,实现秒级匹配且准确率高,硬件资源消耗低,易于实施。
为了实现本发明的目的,拟采用以下方案:
一种医疗字典数据匹配方法,包括步骤:
将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表;
将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合;
对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重,内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,其中,内容匹配成功权重和匹配值顺序权重均取值在0-1之间,且内容匹配成功权重和匹配值顺序权重加和等于1。
一种医疗字典数据匹配装置,包括:
列表获取模块,用于将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表;
相似度计算模块,用于将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合;
权重排序模块,用于对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重,内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,其中,内容匹配成功权重和匹配值顺序权重均取值在0-1之间,且内容匹配成功权重和匹配值顺序权重加和等于1。
一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如所述的医疗字典数据匹配方法。
一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行所述的医疗字典数据匹配方法。
本发明的有益效果:
应用于平台系统与三方系统之间的医疗字典对照,实现秒级匹配且准确率高,硬件资源消耗低,易于实施;在单个字典数据量10W以下可以做到模糊计算秒级别匹配,并且硬件资源消耗较低,只需要Java虚拟机环境,最低启动内存256M,基于现场的数据量较大一般设置在1-2G即可;并且相似度匹配准确率达到99%以上,可以按照匹配次数、关键词顺序、助词的重要性进行匹配率的调整。
附图说明
图1示出了本申请实施例的匹配方法整体流程图。
图2示出了本申请实施例的根据匹配值获取被匹配数据示例图。
图3示出了本申请实施例的相似度计算步骤的流程示意图。
图4示出了本申请实施例的匹配装置结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图对本发明的实施方式进行详细说明,但本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本申请实施例的一个方面,提供一种医疗字典数据匹配方法,应用于平台系统与三方系统之间的医疗字典对照,可采用Java语言开发,为了便于描述,将平台系统的医疗数据字典称为第一医疗字典,将三方系统的医疗数据字典称为第二医疗字典,根据实际应用情况,两者的名称也可以互换。整体方法流程如图1所示,包括如下步骤:
步骤A)用户操作:
响应于用户的操作,将输入的第一医疗字典的字典数据值作为匹配值,如图2所示,当用户点击图2左侧的字典数据时,比如字典数据值“大脑着色真菌病”,即作为匹配值。
然后并行进行步骤B)被匹配数据获取和步骤C)分词子流程:
在步骤B)中,根据步骤A)中的用户操作,图2右侧就会根据步骤A)中的匹配值从第二医疗字典获取被匹配数据列表,具体是根据所输入的匹配值所处在的第一医疗字典中的类别,从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表。
在步骤C)中,对步骤A)中匹配值进行分词处理,获得分词列表;具体是根据预制的医疗术语词库并采用IK分词器来实现分词处理,比如是将医疗术语词库放入到IK分词器中,通过分词方法,得到分词列表的一个数据集合。例如:匹配值“大脑着色真菌病”,分词为“大脑”、“着色”、“真菌病”。具体的,在分词处理中,如果匹配值中有语气助词,将会被忽略,比如匹配值“未特指的着色菌”,将会被分词为“未”、“特指”、“着色菌”,其中的“的”将暂时被忽略。
然后进行步骤D)相似度计算,将“被匹配数据列表”进行循环与“分词列表”进行相似度计算,直到循环完成,得到“结果列表”。
具体的,如图3所示,步骤D)中,先将匹配值、匹配值分词列表、被匹配值列表,三个参数输入。
然后进行相似度初步计算:循环匹配值分词列表与缓存中的被匹配数据列表进行匹配,具体将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合。这里K代表key,为匹配值,V代表Value为对象,包括三个属性:①匹配成功的匹配值分词列表matchList;②匹配成功的匹配值分词列表的长度之和matchLen,matchLen根据matchList计算得出;③被匹配数据。如果匹配成功,而相似度预选KV集合的key已经存在,表示“被匹配数据”已经命中1次以上,则将当前“分词”添加到“匹配成功的匹配值分词列表”。
在相似度初步计算后,已经得到与“匹配值”与“被匹配数据”之间的相似的初步计算结果,然后对相似度预选KV集合中的被匹配数据进行权重排序,按照业务的需求进行相似度的调整,具体有三种权重配属属性:
①内容匹配成功权重timesWeight,取值在0-1之间;根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,成功匹配的次数越多、长度接近程度越高,匹配率越高。
②匹配值顺序权重orderWeight,取值在0-1之间,且orderWeight+ timesWeight= 1。根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,具体顺序可以通过“匹配成功的匹配值分词列表”与最初的“匹配值分词列表”进行对比得出,如果两个列表的长度相同,出现在同一索引位置的分词相同值个数越,高则顺序越一致。
③根据列表获取时是否进行过语气助词忽略,调整“匹配值助词参数”,若进行过语气助词忽略,则需要计算助词,用1表示,若未进行过语气助词忽略,则不计算助词,用0表示。表示为0时,需要根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度auxiliaryLen,将auxiliaryLen补充到①内容匹配成功权重timesWeight的长度计算中,具体需要将auxiliaryLen补充到相似度预选KV集合中的分词长度中,再进行内容匹配成功权重计算设置。
对应计算公式大致如下:
其中:matchList—匹配成功的匹配值分词列表、matchLen—匹配成功的匹配值的长度之合、keywordsLen—匹配值的长度、auxiliaryLen—助词的长度、praticpleList—匹配值分词列表、praticpleLen—匹配值分词列表的长度之合。
其中:((matchList[0]==praticpleList[0])?1:0)为三目运算符,表示如果matchList[0]==praticpleList[0]为真,则取1,如果matchList[0]==praticpleList[0]为假,则取0,其中“==”为C语言中的关系运算符,表示等于。具体matchList[x]==praticpleList[x]是表示在匹配成功的匹配值分词列表和匹配值分词列表中,从第1个分词开始(x从0,1,……开始取值),看看是否完全匹配。
本申请实施例的匹配方法在单个字典数据量10W以下可以做到模糊计算秒级别匹配,并且硬件资源消耗较低,只需要Java虚拟机环境,最低启动内存256M,基于现场的数据量较大一般设置在1G-2G即可;并且相似度匹配准确率达到99%以上,并可以按照匹配次数、关键词顺序、助词的重要性进行匹配率的调整。
本申请实施例的另一个方面,提供一种医疗字典数据匹配装置,如图4所示,应用于平台系统与三方系统之间的医疗字典对照,包括列表获取模块、相似度计算模块、权重排序模块。为了便于描述,将平台系统的医疗数据字典称为第一医疗字典,将三方系统的医疗数据字典称为第二医疗字典,根据实际应用情况,两者的名称也可以互换。
列表获取模块用于将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表。
具体的,列表获取模块响应于用户的操作,将输入的第一医疗字典的字典数据值作为匹配值,当用户点击图2左侧的字典数据时,比如字典数据值“大脑着色真菌病”,即作为匹配值。图2右侧就会根据匹配值从第二医疗字典获取被匹配数据列表,具体是根据所输入的匹配值所处在的第一医疗字典中的类别,从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表。
分词处理时,根据预制的医疗术语词库并采用IK分词器来实现分词处理,比如是将医疗术语词库放入到IK分词器中,通过分词方法,得到分词列表的一个数据集合。例如:匹配值“大脑着色真菌病”,分词为“大脑”、“着色”、“真菌病”。具体的,在分词处理中,如果匹配值中有语气助词,将会被忽略,比如匹配值“未特指的着色菌”,将会被分词为“未”、“特指”、“着色菌”,其中的“的”将暂时被忽略。
相似度计算模块用于将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合。
具体相似度计算模块在进行处理时,将匹配值、匹配值分词列表、被匹配值列表,三个参数输入。
然后进行相似度初步计算:循环匹配值分词列表与缓存中的被匹配数据列表进行匹配,具体将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合。这里K代表key,为匹配值,V代表Value为对象,包括三个属性:①匹配成功的匹配值分词列表matchList;②匹配成功的匹配值分词列表的长度之和matchLen,matchLen根据matchList计算得出;③被匹配数据。如果匹配成功,而相似度预选KV集合的key已经存在,表示“被匹配数据”已经命中1次以上,则将当前“分词”添加到“匹配成功的匹配值分词列表”。
权重排序模块用于对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重,内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,其中,内容匹配成功权重和匹配值顺序权重均取值在0-1之间,且内容匹配成功权重和匹配值顺序权重加和等于1。
具体的,按照业务的需求进行相似度的调整,具体有三种权重配属属性:
①内容匹配成功权重timesWeight,取值在0-1之间;根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,成功匹配的次数越多、长度接近程度越高,匹配率越高。
②匹配值顺序权重orderWeight,取值在0-1之间,且orderWeight+ timesWeight= 1。根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,具体顺序可以通过“匹配成功的匹配值分词列表”与最初的“匹配值分词列表”进行对比得出,如果两个列表的长度相同,出现在同一索引位置的分词相同值个数越,高则顺序越一致。
③根据列表获取时是否进行过语气助词忽略,调整“匹配值助词参数”,若进行过语气助词忽略,则需要计算助词,用1表示,若未进行过语气助词忽略,则不计算助词,用0表示。表示为0时,需要根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度auxiliaryLen,将auxiliaryLen补充到①内容匹配成功权重timesWeight的长度计算中,具体需要将auxiliaryLen补充到相似度预选KV集合中的分词长度中,再进行内容匹配成功权重计算设置。
本申请实施例的又一方面,提供一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行前文实施例所述的医疗字典数据匹配方法。
本申请实施例的再一方面,一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行前文实施例所述的医疗字典数据匹配方法。
以上所述仅为本发明的优选实施例,并不表示是唯一的或是限制本发明。本领域技术人员应理解,在不脱离本发明的范围情况下,对本发明进行的各种改变或同等替换,均属于本发明保护的范围。

Claims (9)

1.一种医疗字典数据匹配方法,其特征在于,包括步骤:
将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表;
将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合;
对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重,内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,其中,内容匹配成功权重和匹配值顺序权重均取值在0-1之间,且内容匹配成功权重和匹配值顺序权重加和等于1。
2.根据权利要求1所述的医疗字典数据匹配方法,其特征在于,根据匹配值从第二医疗字典获取被匹配数据列表,是根据匹配值所处在的第一医疗字典中的类别,从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表。
3.根据权利要求1所述的医疗字典数据匹配方法,其特征在于,对匹配值进行分词处理时,是根据预制的医疗术语词库并采用IK分词器来实现分词处理。
4.根据权利要求1所述的医疗字典数据匹配方法,其特征在于,对匹配值进行分词处理时,忽略掉语气助词;在进行权重排序时,根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度,将语气助词长度补充到相似度预选KV集合中的分词长度中,再进行内容匹配成功权重计算设置。
5.一种医疗字典数据匹配装置,其特征在于,包括:
列表获取模块,用于将输入的第一医疗字典的字典数据值作为匹配值,根据匹配值从第二医疗字典获取被匹配数据列表,并对匹配值进行分词处理,获得分词列表;
相似度计算模块,用于将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算,判断被匹配数据是否包含分词值,若有包含,则表示匹配成功,将对应的分词值和被匹配数据放入相似度预选KV集合;
权重排序模块,用于对相似度预选KV集合中的被匹配数据进行权重排序,包括内容匹配成功权重和匹配值顺序权重,内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置,匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置,其中,内容匹配成功权重和匹配值顺序权重均取值在0-1之间,且内容匹配成功权重和匹配值顺序权重加和等于1。
6.根据权利要求5所述的医疗字典数据匹配装置,其特征在于,列表获取模块根据匹配值从第二医疗字典获取被匹配数据列表时,是根据匹配值所处在的第一医疗字典中的类别,从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表
根据权利要求5所述的医疗字典数据匹配装置,其特征在于,列表获取模块对匹配值进行分词处理时,是根据预制的医疗术语词库并采用IK分词器来实现分词处理。
7.根据权利要求5所述的医疗字典数据匹配装置,其特征在于,列表获取模块对匹配值进行分词处理时,忽略掉语气助词;权重排序模块在进行权重排序时,根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度,将语气助词长度补充到相似度预选KV集合中的分词长度中,再进行内容匹配成功权重计算设置。
8.一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;其特征在于,在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1~4中任意一项所述的医疗字典数据匹配方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1~4中任意一项所述的医疗字典数据匹配方法。
CN202311032672.6A 2023-08-16 2023-08-16 医疗字典数据匹配方法及装置、电子设备及存储介质 Active CN116955538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311032672.6A CN116955538B (zh) 2023-08-16 2023-08-16 医疗字典数据匹配方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311032672.6A CN116955538B (zh) 2023-08-16 2023-08-16 医疗字典数据匹配方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116955538A true CN116955538A (zh) 2023-10-27
CN116955538B CN116955538B (zh) 2024-03-19

Family

ID=88449260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311032672.6A Active CN116955538B (zh) 2023-08-16 2023-08-16 医疗字典数据匹配方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116955538B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242142A1 (en) * 2005-04-22 2006-10-26 The Boeing Company Systems and methods for performing schema matching with data dictionaries
GB201602715D0 (en) * 2015-02-27 2016-03-30 Wal Mart Stores Inc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
CN108959644A (zh) * 2018-07-27 2018-12-07 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN110990591A (zh) * 2019-12-26 2020-04-10 北京亚信数据有限公司 医疗数据转码质量稽核方法及系统
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN115422924A (zh) * 2022-10-10 2022-12-02 联仁健康医疗大数据科技股份有限公司 一种信息匹配方法、装置、电子设备及存储介质
CN115455304A (zh) * 2022-10-12 2022-12-09 北京人人众包科技有限公司 一种基于大数据实现科技成果供需匹配方法
CN116579319A (zh) * 2023-05-29 2023-08-11 江苏红豆工业互联网有限公司 一种文本相似度的分析方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242142A1 (en) * 2005-04-22 2006-10-26 The Boeing Company Systems and methods for performing schema matching with data dictionaries
GB201602715D0 (en) * 2015-02-27 2016-03-30 Wal Mart Stores Inc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
CN108959644A (zh) * 2018-07-27 2018-12-07 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN110990591A (zh) * 2019-12-26 2020-04-10 北京亚信数据有限公司 医疗数据转码质量稽核方法及系统
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN115422924A (zh) * 2022-10-10 2022-12-02 联仁健康医疗大数据科技股份有限公司 一种信息匹配方法、装置、电子设备及存储介质
CN115455304A (zh) * 2022-10-12 2022-12-09 北京人人众包科技有限公司 一种基于大数据实现科技成果供需匹配方法
CN116579319A (zh) * 2023-05-29 2023-08-11 江苏红豆工业互联网有限公司 一种文本相似度的分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质
CN117612172B (zh) * 2024-01-24 2024-03-19 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Also Published As

Publication number Publication date
CN116955538B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN110941698B (zh) 一种基于bert下卷积神经网络的服务发现方法
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN116955538B (zh) 医疗字典数据匹配方法及装置、电子设备及存储介质
US20030154068A1 (en) Computer-assisted memory translation scheme based on template automaton and latent semantic index principle
US20200134537A1 (en) System and method for generating employment candidates
CN112231555A (zh) 基于用户画像标签的召回方法、装置、设备及存储介质
CN112035599A (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110909145A (zh) 针对多任务模型的训练方法及装置
CN111639077A (zh) 数据治理方法、装置、电子设备、存储介质
CN111813888A (zh) 训练目标模型
CN112231452A (zh) 基于自然语言处理的问答方法、装置、设备及存储介质
EP4198758B1 (en) Method and system for scalable acceleration of data processing pipeline
EP4024226A1 (en) Query tree labeling and processing
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN115147020A (zh) 装修数据处理方法、装置、设备及存储介质
CN111339287B (zh) 摘要生成方法及装置
CN113961725A (zh) 一种标签自动标注方法及系统、设备和存储介质
CN112529207A (zh) 模型优化方法、装置、存储介质及设备
CN111241826A (zh) 实体名称识别方法、装置、设备及存储介质
CN115146596B (zh) 召回文本的生成方法、装置、电子设备及存储介质
CN112269860B (zh) 自动应答处理方法、装置、电子设备及可读存储介质
CN113836144B (zh) 一种基于字段推荐数据库标准表的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant