CN116682519B - 一种临床实验数据单位分析方法 - Google Patents
一种临床实验数据单位分析方法 Download PDFInfo
- Publication number
- CN116682519B CN116682519B CN202310971463.1A CN202310971463A CN116682519B CN 116682519 B CN116682519 B CN 116682519B CN 202310971463 A CN202310971463 A CN 202310971463A CN 116682519 B CN116682519 B CN 116682519B
- Authority
- CN
- China
- Prior art keywords
- word
- units
- standard
- inspection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002474 experimental method Methods 0.000 title claims abstract description 9
- 238000004458 analytical method Methods 0.000 title abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000007689 inspection Methods 0.000 claims description 64
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 239000002028 Biomass Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 3
- 239000008280 blood Substances 0.000 description 6
- 210000003743 erythrocyte Anatomy 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 4
- 238000009533 lab test Methods 0.000 description 4
- 238000004820 blood count Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 108010074051 C-Reactive Protein Proteins 0.000 description 1
- 102100032752 C-reactive protein Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种临床实验数据单位分析方法,提出一套统一的,标准化的临床试验实验室检查基本单位体系,以及标准化的单位表达式,用于统一描述不同的试验中心的检测结果单位,提出了一系列标准分析步骤,能够准确的将杂乱的原始单位转换为基本单位组合。本发明通过将单位量纲,单位词头与单位中的内嵌数字等元素分开,将原始单位拆解为一系列更为简单的元素判别问题,并且在单位判别过程中引入LLM模型,恰当的设计了LLM模型的提示语,使得单位判别更为准确与快速。
Description
技术领域
本发明涉及临床实验数据分析领域,更具体地,涉及一种临床实验数据单位分析方法。
背景技术
药物临床试验会产生大量试验数据,这些数据大多数是靠临床运营人员手工录入到数据库中。临床试验数据对准确性要求极高,因此会反复对数据进行核查和订正。在临床试验数据录入中,普遍存在的一类问题是数据单位录入不规范和不正确的问题。
实验室检查通常包括血常规、血生化、尿常规,以及十数种特殊的检查类别,每种检查类别内都包含数种指标检查项,例如红细胞、白细胞等等。由于不同的医院检测设备,检测方法不同,通常同一个检查项在不同的医院给出的检查单位、参考上下限存在差异。此外,由于没有标准化,某些特别的单位会产生二义性;例如,尿白细胞如果使用G/L作为单位,理论上会存在两种解释,一种是克/升,另一种是10^9个/升。又如,某些医院给出的个数计数单位是10E9,按照科学计数法,这个记法表示的是 1010^9,也就是10^10,但实际上这个单位表示的是10^9,也就是1Giga;而另外有一些医院存在10E11这种计数单位,它表示的却就是按照科学计数法求出来的1E12。
在多中心临床试验中,因为要将所有同类检查的单位统一后才能计算数据的统计特征,所以必须先对单位作归一化处理,将所有的单位转换成统一的标准单位,并按照转换系数将检测结果换算为标准结果。数据统计的这个要求对数据收集阶段的数据清理业务提出了较高的要求。因此准确的分析出原始单位,并结合检查数据判断该单位是否正确,是数据清理阶段需要解决的问题。原始单位分析是解决这个问题的第一个步骤。错误的单位会给临床试验数据分析带来不小的麻烦,因此希望尽量在数据收集阶段就尽快发现并解决。
原始单位分析问题,输入包括检查类别、检查项、原始单位、参考上下限,检测值;它们都是以文本形式存储的,其中参考上下限与检测值可以是数字,也可以是阴性、阳性等字符;而检查类别、检查项是用自然语言描述的,同一个检查项可能在不同的医院会有不同的名称。输出则是以标准化的方式描述的原始单位。所谓“标准化的方式描述的原始单位”,是指将原始单位转换成标准量纲后的表示。这些标准量纲可以参考物理学基本量纲,但针对常见医药数据做出了相应修改和增补。例如,单位mg/dL(毫克/分升),转换为标准化的方式描述,为0.1L-1/>g1。
目前主要依赖有经验的数据管理员工来确认单位是否正确,既耗时又容易漏。除人工判别外,可能存在的技术解决方案包括:1.将见过的原始单位归类存档,建成一个原始单位库,库内存储原始单位,以及该原始单位与标准单位的转换系数;2.通过传统的NLP(Natural Language Processing,自然语言处理)方法(例如正则表达式),提取出原始单位中的各个部分,然后查表给出原始单位的标准表示方式;3.通过LLM(Large LanguageModel,大型语言模型)来直接分析判别这些单位。
这些方案中,人工判别准确度最高,但过于依赖经验;技术方案1有两个缺点,一是因为检查类别和检查项没有标准化,还需要人工先对它们标准化以后,才能对每个检查项归类存档,二是新的单位层出不穷,常常遇到库中没有录入的单位,导致每次仍然需要人工校对这部分单位;技术方案2则会遇到无法恰当分词的问题,且无法根据上下文来判定单位类别。技术方案3分析的效果要优于前两种方案,但因为检测单位属于专业术语,其信息密度较高,LLM分析仍然会出现错误,且当前LLM模型存在两个问题,第一是 LLM会无依据的编造答案,导致仅靠机器自身无法分辨其输出结果是否可靠,仍然需要人工全量检查;第二是LLM为黑盒,当发现LLM对某一类问题无法输出正确结果时,无法通过简单的操作来修正它的行为。
发明内容
本发明提供一种临床实验数据单位分析方法,能够准确分析大部分实验室检查单位。
为解决上述技术问题,本发明的技术方案如下:
一种临床实验数据单位分析方法,包括以下步骤:
S1:获取待处理的原始数据表格,所述原始数据表格包括临床实验数据;
S2:根据所述待处理的原始数据表格,获取原始单位、检查分类标准化编码与检查项标准编码;
S3:根据所述检查分类标准化编码、检查项标准编码和原始单位,将临床实验数据进行分类,并收集典型值;
S4:将所述检查分类标准化编码、检查项标准编码、原始单位和典型值输入至预训练的模型中,模型输出对原始单位的分词结果;
S5:逐一判别所述分词结果归属的基础单位类别或词头类别,以及附带的数字;
S6:将词头与附带的数字合并为系数,将基础单位类别按预制的转换系数表转换成标准基础单位;
S7:检测与合并单位中的相同项,形成基本单位的组合。
优选地,步骤S2具体为:
根据所述待处理的原始数据表格,提取出所有的原始单位和检查分类,查询标准编码数据库获得检查分类标准化编码;
根据所述检查分类,获得所述检查分类中的所有检查项,查询标准编码数据库获得检查项标准化编码。
优选地,步骤S2中,当所述检查分类和检查项不在所述标准编码数据库中时,将检查分类和检查项分别送入LLM模型,配合恰当的提示信息,分别得到检查分类标准化编码、检查项标准编码,所述恰当的提示信息包括根据历史数据整理出的检查分类名字、检查项名字及对应标准化编码。
优选地,步骤S3中将临床实验数据进行分类,具体为:
将具有相同检查分类标准化编码、检查项标准编码和原始单位的临床实验数据,归集到一组。
优选地,步骤S3中收集典型值,具体为:
若临床试验数据的参考值下限、参考值上限和检测值为数值型,则将参考值下限、参考值上限、检测值中距均值最近的值和检测均值加减3倍标准差的值附近的实测值,作为典型值集合;
若临床试验数据的参考值下限、参考值上限和检测值为字符型,则将参考值下限、参考值上限、检测值的取值按出现频率取前两个与最后一个,合并起来作为典型值集合。
优选地,步骤S5中,通过词库查找结合LLM询问,判别所述分词结果归属的基础单位类别或词头类别。
优选地,所述通过词库查找结合LLM询问,具体为:
每种检查项均有两个独立的词库,为分子词库和分母词库,分子词库和分母词库由历史数据积累得到,区分分子词库与分母词库考虑在同一个检查项中,同一个符号出现在分子或分母中;在判别所述分词结果归属的基础单位类别或词头类别时,根据原始单位所处的位置决定从分子词库还是分母词库里查找;
若在词库中无法查到某个词时,使用LLM来判断单位。
优选地,步骤S6中标准基础单位写成:
其中各指数为正整数、负整数、或者是0。
优选地,步骤S7中合并单位中的相同项,还将标准基础单位按照标准序排列,所述标准序的顺序为:比率、质量、体积、长度、时间、计数、物质的量、生物量和独立单位。
优选地,将标准基础单位按照标准序排列时,若属于同一标准序,则按照字母序排列。
与现有技术相比,本发明技术方案的有益效果是:
本发明可以快速,准确的解析临床试验中的实验室检验的单位,整个过程只需要较少的人工参与,能够为后续的数据清理与数据统计提供可依赖的解析结果。在引入LLM模型以提升准确性的同时,通过分拆原始单位的各个部分来分别判别,使得本发明具有较强的可解释性,避免了LLM类模型特有的黑盒子问题,也使得算法能够通过持续的改进获得更好的效果,具有非常良好的应用前景与商业价值。
附图说明
图1为本发明的方法流程示意图。
图2为本发明实施例提供的经过逆序N-gram分词模型后获得各个分词方式的概率图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种临床实验数据单位分析方法,如图1所示,包括以下步骤:
S1:获取待处理的原始数据表格,所述原始数据表格包括临床实验数据;
S2:根据所述待处理的原始数据表格,获取原始单位、检查分类标准化编码与检查项标准编码;
S3:根据所述检查分类标准化编码、检查项标准编码和原始单位,将临床实验数据进行分类,并收集典型值;
S4:将所述检查分类标准化编码、检查项标准编码、原始单位和典型值输入至预训练的模型中,模型输出对原始单位的分词结果;
S5:逐一判别所述分词结果归属的基础单位类别或词头类别,以及附带的数字;
S6:将词头与附带的数字合并为系数,将基础单位类别按预制的转换系数表转换成标准基础单位;
S7:检测与合并单位中的相同项,形成基本单位的组合。
本发明实施例提出一套统一的,标准化的临床试验实验室检查基本单位体系,以及标准化的单位表达式,用于统一描述不同的试验中心的检测结果单位,提出了一系列标准分析步骤,能够准确的将杂乱的原始单位转换为基本单位组合,通过将单位量纲,单位词头与单位中的内嵌数字等元素分开,将原始单位拆解为一系列更为简单的元素判别问题,并在单位判别过程中引入LLM模型,恰当的设计了LLM模型的提示语,使得单位判别更为准确与快速。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
步骤S2具体为:
根据所述待处理的原始数据表格,提取出所有的原始单位和检查分类,查询标准编码数据库获得检查分类标准化编码;
根据所述检查分类,获得所述检查分类中的所有检查项,查询标准编码数据库获得检查项标准化编码。
原始表格数据包括检查类别名、检查项名、原始单位以及原始检查数据,在一个具体的实施例中,原始表格数据如表1所示。
表1
步骤S2中,当所述检查分类和检查项不在所述标准编码数据库中时,将检查分类和检查项分别送入LLM模型,配合恰当的提示信息,分别得到检查分类标准化编码、检查项标准编码,所述恰当的提示信息包括根据历史数据整理出的检查分类名字、检查项名字及对应标准化编码。以下是将检查分类送入LLM模型时的一个提示信息示例:
Youareaspecialistinclinicaldataprocessing. The laboratory test indifferent center has different names for their category and test items. Forexample, in some center, Hematology is called Complete Blood Count, but thetest items are the same with Hematology. Now given some category clusters injson format, and one category name, you are going to tell in which cluster itbelongs to.
The given categories are:
“””
{“LBH”: [“血常规”, ”血液学”, ”Hematology”, ”Complete Blood Count”, ”Clinical Laboratory Tests – Hematology”, ”Hematology (UNS)”],
“LBC”: [“血生化”, “实验室检查-血生化”, “本地实验室-血生化”, “SerumChemistry”, “Chemistry”, “临床生化”, “Hematology Dose Expansion”, …],
…
}
“””
Now the given category name is “Serum Chemistry- C-reactive protein”,which category should it be in? Please first give the category name (such asLBH, LBC, etc) in a separated paragraph, then give the reason。
将检查项送入LLM模型的提示信息类似,检查项与标准化检查项编码的对应关系举例:
RBC:
Red Blood Cell Count、Red Blood Cells、红细胞计数、红细胞总数、红细胞。
在一个具体的实施例中,检查分类标准化编码、检查项标准编码,如表2所示:
表2
步骤S3中将临床实验数据进行分类,具体为:
将具有相同检查分类标准化编码、检查项标准编码和原始单位的临床实验数据,归集到一组。
步骤S3中收集典型值,具体为:
若临床试验数据的参考值下限、参考值上限和检测值为数值型,则将参考值下限、参考值上限、检测值中距均值最近的值和检测均值加减3倍标准差的值附近的实测值,作为典型值集合;
若临床试验数据的参考值下限、参考值上限和检测值为字符型,如阴/阳,-/+/+++,则将参考值下限、参考值上限、检测值的取值按出现频率取前两个与最后一个,合并起来作为典型值集合。
在一个具体的实施例中,分类后的数据如下所示:
步骤S4中将所述检查分类标准化编码、检查项标准编码、原始单位和典型值输入至预训练的模型中,模型输出对原始单位的分词结果,其中模型可以为一切能够将原始单位切分为量纲,词头,单位内数字的算法,以下以一种特定的模型为例,讲述分词过程。
当模型的输入为10^6 cells/cu mm时,使用N-gram分词模型对输入进行分词,获得如图2所示的分词概率图,计算得到图2后,可以使用分类编码、检查项编码、典型值、位于分子/分母等额外信息,修正概率图中的概率信息,最后使用N-最短路径分词算法获得最终的分词结果,上述输入最终获得的分词结果是:
10^6(数字词头) cells (分子单位)
cu(立方修饰语) m(词头) m(分母单位)
所述逆序N-gram是从整条数据的最后一个字符开始,逐渐往前计算各个字符归属于某个特定组合的概率的算法。N-gram是一种常见的NLP分词算法。本处使用逆序的原因是,通常的自然语言阅读顺序是从前到后,后面的词的划分会受到前面的词的影响;而单位识别问题则是从后到前,单位本体出现在最后,而词头,修饰等部分出现在其前面。逆序N-gram模型可以由历史上的临床试验数据训练得到。
在一个具体的实施例中,原始单位分词结果如下所示:
步骤S5中,通过词库查找结合LLM询问,判别所述分词结果归属的基础单位类别或词头类别。
在一个具体的实施例中,原始单位类型识别、词头识别、系数识别的结果如下所示:
所述通过词库查找结合LLM询问,具体为:
每种检查项均有两个独立的词库,为分子词库和分母词库,分子词库和分母词库由历史数据积累得到,区分分子词库与分母词库考虑在同一个检查项中,同一个符号出现在分子或分母中,其代表的意义可能很不相同,因此判别时必须考虑其出现的位置;在判别所述分词结果归属的基础单位类别或词头类别时,根据原始单位所处的位置决定从分子词库还是分母词库里查找;
若在词库中无法查到某个词时,使用LLM来判断单位,以ChatGPT为例,一种可行的提示词设计方法是:
You are a specialist in clinical data processing. You are recognizingthe recorded unit of {检查项名字} in {检查类别名字} form. the unit is:
"{待分析的单位}"
what does "{未知词头+未知单位}" mean in the unit?
Does it belong to any of the following known unit categories?
A. mass unit, like gram
B, volumn, like litre
C, length, like meter
D, time, like second
E, count
F, other units.
Please first reply the option letter in a separated paragrah, thenexplain in detail in following paragraphs.
An example of reply is:
"""
A
{未知分词} is a mass unit.
This is the reason: ...
"""
Now please give your answer.
在LLM回复后,根据其选项继续追问:
what is the transform coefficient between "未知词头+未知单位" and{LLM回复的类别中的基本单位}?
然后提取出回复中的系数,作为该未知词头+未知单位的整体转换系数。使用LLM提取的单位与系数需要经过人工确认才能收录入库中。
步骤S6中标准基础单位写成:
其中各指数为正整数、负整数、或者是0。
在一个具体的实施例中,原始单位转换为标准单位如下所示:
实施例3
本实施例在实施例1和实施例2的基础上,继续公开以下内容:
步骤S7中合并单位中的相同项,例如,如果原始单位为体积比例:L/L,经过步骤S6后,其单位为:1L1/>L-1,此时L这个标准单位出现了两项,需要合并为1/>L0。注意此时不能直接将L这个单位约除掉,而需要保留其0次方,整体作为一个比率单位。保留L的用意在于比率的原始单位也是与单位换算系数有关系的。例如,酒精与水的体积比1:1的情况下,其质量比则约为0.8:1,因此对酒精与水的比,同样是比率,仍然要满足转换关系:0.8/>L0= 1/>g0。
为方便比较,步骤S7中合并单位中的相同项后,还将标准基础单位按照标准序排列,所述标准序的顺序为:比率、质量、体积、长度、时间、计数、物质的量、生物量和独立单位,如表2所示。
表2
以上基础单位共同组合成了绝大部分实验室检查的单位。
除开上述的基本单位外,每个标准单位前还可以增加一个词头,例如m,d,k,μ等等,用于组合成10的幂次倍数的衍生单位。但在医院实际录入的数据中,这些词头并不遵守国际单位制中规定的标准词头规则,甚至大小写也经常混用。例如,“微”,就同时存在μ,u,mic, micro, mc等等词头缩写,这些词头与基本单位直接组合在一起,构成的单位常常需要有经验的人才能看明白。
举例:以下是某次试验中出现的某种酶的检测单位:
Other: IU/L
Other: MKAT/L
Unite Internationale/litre
millimole/litre
其中有的包含无关文本(Other:),有的用了缩写,有的用了全称,在MKAT中,M虽然是大写,但并不表示词头“兆”,而是表示词头“毫”。这些单位在有经验的工作人员看来都能正确辨识,但交给机器分析则不易解决。
将标准基础单位按照标准序排列时,若属于同一标准序,则按照字母序排列。
在一个具体的实施例中,同单位合并与顺序调整后,如下所示:
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种临床实验数据单位分析方法,其特征在于,包括以下步骤:
S1:获取待处理的原始数据表格,所述原始数据表格包括临床实验数据;
S2:根据所述待处理的原始数据表格,获取原始单位、检查分类标准化编码与检查项标准编码;
S3:根据所述检查分类标准化编码、检查项标准编码和原始单位,将临床实验数据进行分类,并收集典型值;
S4:将所述检查分类标准化编码、检查项标准编码、原始单位和典型值输入至预训练的模型中,模型输出对原始单位的分词结果;
S5:逐一判别所述分词结果归属的基础单位类别或词头类别,以及附带的数字;
S6:将词头与附带的数字合并为系数,将基础单位类别按预制的转换系数表转换成标准基础单位;
S7:检测与合并单位中的相同项,形成基本单位的组合;
步骤S3中收集典型值,具体为:
若临床试验数据的参考值下限、参考值上限和检测值为数值型,则将参考值下限、参考值上限、检测值中距均值最近的值和检测均值加减3倍标准差的值附近的实测值,作为典型值集合;
若临床试验数据的参考值下限、参考值上限和检测值为字符型,则将参考值下限、参考值上限、检测值的取值按出现频率取前两个与最后一个,合并起来作为典型值集合;
步骤S4中,使用逆序N-gram分词模型对输入进行分词,获得分词概率图,使用分类编码、检查项编码、典型值和位于分子/分母修正的额外信息修正所述分词概率图中的概率信息,最后使用N-最短路径分词算法获得最终的分词结果,所述逆序N-gram分词模型是从整条数据的最后一个字符开始,逐渐往前计算各个字符归属于某个特定组合的概率的算法,所述逆序N-gram分词模型由历史上的临床试验数据训练得到;
步骤S5中,通过词库查找结合LLM询问,判别所述分词结果归属的基础单位类别或词头类别;
所述通过词库查找结合LLM询问,具体为:
每种检查项均有两个独立的词库,为分子词库和分母词库,分子词库和分母词库由历史数据积累得到,区分分子词库与分母词库考虑在同一个检查项中,同一个符号出现在分子或分母中;在判别所述分词结果归属的基础单位类别或词头类别时,根据原始单位所处的位置决定从分子词库还是分母词库里查找;
若在词库中无法查到某个词时,使用LLM来判断单位。
2.根据权利要求1所述的临床实验数据单位分析方法,其特征在于,步骤S2具体为:
根据所述待处理的原始数据表格,提取出所有的原始单位和检查分类,查询标准编码数据库获得检查分类标准化编码;
根据所述检查分类,获得所述检查分类中的所有检查项,查询标准编码数据库获得检查项标准化编码。
3.根据权利要求2所述的临床实验数据单位分析方法,其特征在于,步骤S2中,当所述检查分类和检查项不在所述标准编码数据库中时,将检查分类和检查项分别送入LLM模型,配合恰当的提示信息,分别得到检查分类标准化编码、检查项标准编码,所述恰当的提示信息包括根据历史数据整理出的检查分类名字、检查项名字及对应标准化编码。
4.根据权利要求1所述的临床实验数据单位分析方法,其特征在于,步骤S3中将临床实验数据进行分类,具体为:
将具有相同检查分类标准化编码、检查项标准编码和原始单位的临床实验数据,归集到一组。
5.根据权利要求1所述的临床实验数据单位分析方法,其特征在于,步骤S6中标准基础单位写成:
其中各指数为正整数、负整数、或者是0。
6.根据权利要求1所述的临床实验数据单位分析方法,其特征在于,步骤S7中合并单位中的相同项,还将标准基础单位按照标准序排列,所述标准序的顺序为:比率、质量、体积、长度、时间、计数、物质的量、生物量和独立单位。
7.根据权利要求6所述的临床实验数据单位分析方法,其特征在于,将标准基础单位按照标准序排列时,若属于同一标准序,则按照字母序排列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310971463.1A CN116682519B (zh) | 2023-08-03 | 2023-08-03 | 一种临床实验数据单位分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310971463.1A CN116682519B (zh) | 2023-08-03 | 2023-08-03 | 一种临床实验数据单位分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116682519A CN116682519A (zh) | 2023-09-01 |
CN116682519B true CN116682519B (zh) | 2024-03-19 |
Family
ID=87781379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310971463.1A Active CN116682519B (zh) | 2023-08-03 | 2023-08-03 | 一种临床实验数据单位分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682519B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833595A (zh) * | 2017-10-12 | 2018-03-23 | 山东大学 | 医疗大数据多中心整合平台及方法 |
CN109102844A (zh) * | 2018-08-24 | 2018-12-28 | 北京锐客科技有限公司 | 一种临床试验源数据自动校验方法 |
CN109766329A (zh) * | 2018-12-29 | 2019-05-17 | 湖南网数科技有限公司 | 一种支持交换共享的临床数据单元生成方法和装置 |
CN111145848A (zh) * | 2019-12-31 | 2020-05-12 | 天津开心生活科技有限公司 | 临床试验中的不良反应事件检测方法、装置、介质与设备 |
CN111339084A (zh) * | 2020-02-15 | 2020-06-26 | 河北唐宋大数据产业股份有限公司 | 一种数据处理方法及系统 |
CN113488182A (zh) * | 2021-05-25 | 2021-10-08 | 北京大学 | 多源异构医疗化验检查数据处理方法、装置、设备和介质 |
CN113850075A (zh) * | 2021-09-18 | 2021-12-28 | 平安科技(深圳)有限公司 | 医疗信息数据项目名称的标准化方法、系统、设备及介质 |
CN113887204A (zh) * | 2021-09-29 | 2022-01-04 | 西南医科大学附属医院 | 一种面向临床检验医学文本的编码方法 |
CN114385540A (zh) * | 2021-12-23 | 2022-04-22 | 新奥数能科技有限公司 | 一种数据单位换算方法及装置 |
KR20230040572A (ko) * | 2021-09-16 | 2023-03-23 | 주식회사 씨엔알리서치 | 치료영역 별 임상시험 데이터의 표준화 처리 시스템 |
CN116343795A (zh) * | 2023-03-03 | 2023-06-27 | 六盘水师范学院 | 语音识别中基于逆序ngram的解码方法 |
CN116383344A (zh) * | 2023-05-25 | 2023-07-04 | 广东珠江智联信息科技股份有限公司 | 一种基于中台技术的医学临床研究的数据处理方法及系统 |
-
2023
- 2023-08-03 CN CN202310971463.1A patent/CN116682519B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833595A (zh) * | 2017-10-12 | 2018-03-23 | 山东大学 | 医疗大数据多中心整合平台及方法 |
CN109102844A (zh) * | 2018-08-24 | 2018-12-28 | 北京锐客科技有限公司 | 一种临床试验源数据自动校验方法 |
CN109766329A (zh) * | 2018-12-29 | 2019-05-17 | 湖南网数科技有限公司 | 一种支持交换共享的临床数据单元生成方法和装置 |
CN111145848A (zh) * | 2019-12-31 | 2020-05-12 | 天津开心生活科技有限公司 | 临床试验中的不良反应事件检测方法、装置、介质与设备 |
CN111339084A (zh) * | 2020-02-15 | 2020-06-26 | 河北唐宋大数据产业股份有限公司 | 一种数据处理方法及系统 |
CN113488182A (zh) * | 2021-05-25 | 2021-10-08 | 北京大学 | 多源异构医疗化验检查数据处理方法、装置、设备和介质 |
KR20230040572A (ko) * | 2021-09-16 | 2023-03-23 | 주식회사 씨엔알리서치 | 치료영역 별 임상시험 데이터의 표준화 처리 시스템 |
CN113850075A (zh) * | 2021-09-18 | 2021-12-28 | 平安科技(深圳)有限公司 | 医疗信息数据项目名称的标准化方法、系统、设备及介质 |
CN113887204A (zh) * | 2021-09-29 | 2022-01-04 | 西南医科大学附属医院 | 一种面向临床检验医学文本的编码方法 |
CN114385540A (zh) * | 2021-12-23 | 2022-04-22 | 新奥数能科技有限公司 | 一种数据单位换算方法及装置 |
CN116343795A (zh) * | 2023-03-03 | 2023-06-27 | 六盘水师范学院 | 语音识别中基于逆序ngram的解码方法 |
CN116383344A (zh) * | 2023-05-25 | 2023-07-04 | 广东珠江智联信息科技股份有限公司 | 一种基于中台技术的医学临床研究的数据处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
使用LLMS大预言模型构建问答系统;神经蛙;知乎;第1页第1、8段 * |
Also Published As
Publication number | Publication date |
---|---|
CN116682519A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9195639B2 (en) | Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates | |
US7937263B2 (en) | System and method for tokenization of text using classifier models | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN114912887B (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
CN116150382B (zh) | 一种确定标准化医疗专业名词的方法及装置 | |
CN116881463B (zh) | 基于数据的艺术多模态语料库构建系统 | |
CN111667897A (zh) | 一种影像诊断结果的结构化报告系统 | |
CN116682519B (zh) | 一种临床实验数据单位分析方法 | |
CN111063446A (zh) | 用于标准化医疗文本数据的方法、装置、设备及存储介质 | |
CN117892820A (zh) | 一种基于大语言模型的多级数据建模方法及系统 | |
CN113823404A (zh) | 基于医疗大数据的专病建设医疗术语标准化的方法 | |
CN117251517A (zh) | 大数据视野下的年鉴行政区划信息匹配方法和模型 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN110990384B (zh) | 一种大数据平台bi分析方法 | |
CN111833297B (zh) | 一种骨髓细胞形态学自动检测系统的疾病联想方法 | |
CN113962197A (zh) | 医疗化验单标准化方法、装置、电子设备及存储介质 | |
CN112507060A (zh) | 一种领域语料库构建方法及系统 | |
CN112837771B (zh) | 一种融合文本分类与词法分析的体检异常项归一化方法 | |
Di Cocco et al. | Corrigendum and Addendum to: How Populist Are Parties? Measuring Degrees of Populism in Party Manifestos using Supervised Machine Learning | |
CN117131251B (zh) | 一种基于云计算的多维数据分析处理系统及方法 | |
CN116186271B (zh) | 一种医疗专业名词分类模型训练方法、分类方法及装置 | |
Falissard et al. | Neural translation and automated recognition of ICD10 medical entities from natural language | |
CN117271796B (zh) | 一种中医典籍知识库反馈修正方法及系统 | |
CN117725084B (zh) | 一种自定义报表生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 701-708, Building H, No. 3 Juquan Road, Huangpu District, Guangzhou City, Guangdong Province, 510663 Applicant after: Guangdong Jiena Pharmaceutical Technology Co.,Ltd. Address before: 510663 D105, d107, No. 3, Juquan Road, Huangpu District, Guangzhou, Guangdong Applicant before: Guangdong Jiena Pharmaceutical Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |