CN112800173A - 标准化数据库和医学文本库的构建方法、装置及电子设备 - Google Patents
标准化数据库和医学文本库的构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112800173A CN112800173A CN202110398313.7A CN202110398313A CN112800173A CN 112800173 A CN112800173 A CN 112800173A CN 202110398313 A CN202110398313 A CN 202110398313A CN 112800173 A CN112800173 A CN 112800173A
- Authority
- CN
- China
- Prior art keywords
- word
- standard
- words
- field
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000004891 communication Methods 0.000 claims description 19
- 238000000354 decomposition reaction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 98
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 238000007689 inspection Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 210000003141 lower extremity Anatomy 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 3
- 210000004394 hip joint Anatomy 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 210000004705 lumbosacral region Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了标准化数据库和医学文本库的构建方法、装置及电子设备,涉及人工智能技术领域和医疗领域。该标准化数据库的构建方法包括:基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;从每个基础词对应的多个候选标准词中,确定该基础词所属指定字段下的标准词;利用每一指定字段下的各个标准词,构建该指定字段下的标准化数据库。与现有技术相比,应用本发明实施例提供的方案,可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
Description
技术领域
本发明涉及人工智能技术领域和医疗领域,特别是涉及一种标准化数据库和医学文本库的构建方法、装置及电子设备。
背景技术
当前,随着信息技术的不断发展,各行业内部之间的信息交流需求越来越多。但是,现如今,在同一行业内,或者,同一机构内,若干信息系统呈现“信息孤岛”的局面。
针对信息系统所形成的文本数据而言,尽管文本数据在数据字段层面进行了标准化,但是,各个数据字段的数据内容却存在不规范的问题,这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。
以医疗领域为例,各医疗机构IT系统众多,虽然在医学影像文本数据的数据字段层面进行了标准化统一,但对各个数据字段的数据内容未标准化,从而,无法进行医疗质量的精细化监管分析。例如:对于包含检查部位名称和检查方法名称的医学影像文本数据而言,检查部位名称和检查方法名称是两个标准化的数据字段,但是,不同的医疗机构中,对于同一检查部位的命名可能不同,即检查部位这一数据字段的数据内容并不规范。
基于此,现在亟需构建针对文本数据的标准化数据库,从而为不同的信息系统的文本数据的标准化处理,提供实现基础。
发明内容
本发明实施例的目的在于提供一种标准化数据库的构建方法、装置及电子设备,以为不同的信息系统的文本数据的标准化处理,提供实现基础。另外,本发明实施例还提供了一种医学文本库的构建方法、装置及电子设备,以为不同的信息系统的医学文本数据的标准化处理,提供实现基础。具体技术方案如下:
第一方面,本发明实施例提供了一种标准化数据库的构建方法,所述方法包括:
基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
第二方面,本发明实施例提供了一种标准化数据库的构建装置,所述装置包括:
数据预处理模块,用于基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
候选词确定模块,用于确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
标准词选取模块,用于从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
标准化数据库构建模块,用于针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
第三方面,本发明实施例提供了一种医学文本库的构建方法,所述方法包括:
获取医学文本数据,并将所述医学文本数据作为初始文本数据;其中,每一医学文本数据包含多个指定字段下的数据内容;
通过上述第一方面提供的任一标准化数据库的构建方法的方法步骤对所述初始文本数据进行处理,以得到所述标准化数据库,并将所述标准化数据库作为医学文本库。
第四方面,本发明实施例提供了一种医学文本库的构建装置,所述装置包括:
医学文本数据获取模块,用于获取医学文本数据,并将所述医学文本数据作为初始文本数据;其中,每一医学文本数据包含多个指定字段下的数据内容;
医学文本库构建模块,用于通过第一方面提供的任一标准化数据库的构建方法的方法步骤对所述初始文本数据进行处理,以得到所述标准化数据库,并将所述标准化数据库作为医学文本库。
第五方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述本发明实施例第一方面提供的任一标准化数据库的构建方法的步骤,和/或上述第三方面提供的一种医学文本库的构建方法的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述本发明实施例第一方面提供的任一标准化数据库的构建方法的步骤,和/或上述第三方面提供的一种医学文本库的构建方法的步骤。
第七方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述本发明实施例第一方面提供的任一标准化数据库的构建方法的步骤,和/或上述第三方面提供的一种医学文本库的构建方法的步骤。
本发明实施例有益效果:
以上可见,应用本发明实施例提供的标准化数据库的构建方案,可以首先对包含多个指定字段下的数据内容的多个初始文本数据进行分词处理,得到多个分词,进而,便可以基于所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段。接着,在确定每个基础词对应的包括该基础词和该基础词的近义词的多个候选标准词后,便可以从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词。这样,针对每一指定字段,便可以利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
基于此,应用本发明实施例提供的标准化数据库的构建方案,在获取到包含多个指定字段下的数据内容的多个初始文本数据后,便可以通过分词处理、近义词确定、标准词选取等一系列操作,构建各个指定字段下的标准化数据库。从而,利用各个指定字段下的标准化数据库中的标准词,便可以对各个指定字段的数据内容进行标准化统一,使得各个指定字段的数据内容规范化。这样,便可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
另外,应用本发明实施例提供的医学文本库的构建方案,可以利用医学文本数据,构建医学领域中的标准化数据库,即构建医学文本库。这样,便可以为不同的信息系统的医学文本数据的标准化处理,提供实现基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例提供的一种标准化数据库的构建方法的流程示意图;
图2为本发明实施例提供的另一种标准化数据库的构建方法的流程示意图;
图3为图1中S104的一种具体实现方式的流程示意图;
图4为图1中S104的另一种具体实现方式的流程示意图;
图5为本发明实施例提供的一种医学文本库的的构建方法的一种应用实例的过程示意图;
图6为本发明实施例提供的一种医学文本库的构建方法的流程示意图;
图7为本发明实施例提供的一种标准化数据库的构建装置的结构示意图;
图8为本发明实施例提供的一种医学文本库的构建装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
针对信息系统所形成的文本数据而言,尽管文本数据在数据字段层面进行了标准化,但是,各个数据字段的数据内容却存在不规范的问题,这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。基于此,现在亟需构建针对文本数据的标准化数据库,从而为不同的信息系统的文本数据的标准化处理,提供实现基础。
为了解决上述技术问题,本发明实施例提供了一种标准化数据库的构建方法。
其中,该方法可以应用于服务器、笔记本电脑、台式电脑、平板电脑等各类的电子设备,对此,本发明实施例不做具体限定,以下简称电子设备。并且,该电子设备可以是分布式系统中的设备,也可以是独立的设备,这都是合理的。
另外,该方法可以适用于任一需要对各个数据字段的数据内容进行标准化统一的应用场景,例如,对医疗领域中的各个标准化的数据字段的数据内容进行标准化统一,示例性的,对于包含检查部位名称和检查方法名称的医学影像文本数据而言,检查部位名称和检查方法名称是两个标准化的数据字段,进而,对检查部位名称和检查方法名称的数据内容进行标准化统一;又例如,对建筑领域中的各个标准化的数据字段的数据内容进行标准化统一等,这都是合理的。
所谓医学影像文本数据是指:医院内部影像检查科做影像检查过程中产生的文本数据,并且,医学影像可以包括普放业务、CT(Computed Tomography,电子计算机断层扫描)业务、核磁共振(magnetic resonance,MR)业务、彩超业务、内窥镜业务等多种业务所形成的医学影像,所谓普放业务是指:x线摄像相关设备进行医疗照相的相关业务。所谓检查部位名称是指:医学影像检查的主要人体部位和人体器官,例如,颅脑、腰椎等,所谓检查方法名称是指:医学影像检查过程中所采用的的技术方法,例如,正侧位、斜位等。
可以理解的是,对于医疗领域中的医学影像文本数据而言,除检查部位名称和检查方法名称之外,所涉及到的上述数据字段还可以包括:诊断结果、业务类型等其他字段,这都是合理的。
其中,本发明实施例提供的一种标准化数据库的构建方法,可以包括如下步骤:
基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
以上可见,应用本发明实施例提供的方案,在获取到包含多个指定字段下的数据内容的多个初始文本数据后,便可以通过分词处理、近义词确定、标准词选取等一系列操作,构建各个指定字段下的标准化数据库。从而,利用各个指定字段下的标准化数据库中的标准词,便可以对各个指定字段的数据内容进行标准化统一,使得各个指定字段的数据内容规范化。这样,便可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
下面,结合附图,对本发明实施例提供的一种标准化数据库的构建方法进行具体说明。
图1为本发明实施例提供的一种标准化数据库的构建方法的流程示意图,如图1所示,该方法可以包括如下步骤:
S101:基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;
其中,每一初始文本数据包含多个指定字段下的数据内容。
在确定待构建标准化数据库的多个指定字段后,便可以首先获取包含多个指定字段下的数据内容的多个初始文本数据,进而,便可以对上述多个初始文本数据进行分词处理,得到多个分词。这样,便可以基于所得到的多个分词,确定用于构建各个指定字段下的标准化数据库的多个基础词。
示例性的,对于医疗领域中的医学影像文本数据而言,多个指定字段可以包括:检查部位名称和检查方法名称,从而,便可以获取多个包含检查部位名称和检查方法名称的医学影像文本数据,作为多个初始文本数据,进而,对所获取到的各个医学影像文本数据进行分词处理,得到多个分词,并基于所得到的多个分词,确定用于构建检查部位名称和检查方法名称下的标准化数据库的多个基础词,并进一步识别每个基础词所属的指定字段。当然,该多个指定字段还可以包括:诊断结果、业务类型等其他字段。
其中,在对多个初始文本数据进行分词处理时,为了使分词操作所得到的多个分词的准确性更高,可以使用与多个指定字段相关的分词工具,对多个初始文本数据进行分词处理。
示例性的,对多个初始文本数据进行分词处理所使用的分词工具所属的技术领域,与多个指定字段所属的技术领域相同;进而,由于多个指定字段所属的技术领域与多个初始文本数据所属的技术领域相同,因此,对多个初始文本数据进行分词处理所使用的分词工具所属的技术领域,与多个初始文本数据的所属的技术领域相同。例如,多个初始文本数据为医疗领域中的医学影像文本数据,则可以采用医学专用分词工具对多个初始文本数据进行分词处理,得到多个分词。
另外,基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词的具体实现方式可以存在多种。
可选的,一种具体实现方式中,可以将对多个初始文本数据分词处理所得到的多个分词确定为用于构建各个指定字段下的标准化数据库的多个基础词。
当然,在其他实现方式中,也可以对多个初始文本数据分词处理所得到的多个分词,按照预定的筛选方式进行分词筛选,从而得到用于构建标准化数据库的多个基础词。
为了方案清楚及布局清晰,后续结合其他实施例进行说明,对于该分词筛选的方式进行详细说明。并且,识别每个基础词所属的指定字段的实现方式可以存在多种。
可选的,一种具体实现方式中,可以对每个基础词进行语义识别,得到每个基础词所属的指定字段。为了方案清楚及布局清晰,后续结合其他实施例,介绍识别每个基础词所属的指定字段的其他实现方式。
S102:确定每个基础词对应的多个候选标准词;
其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词。
在得到上述用于构建各个指定字段下的标准化数据库的多个基础词后,便可以进一步确定每个基础词的近义词,从而,针对每个基础词而言,该基础词和所确定的该基础词的近义词,便可以构成该基础词对应的多个候选标准词。
其中,确定每个基础词的近义词的方式可以存在多种。
可选的,一种具体实现方式中,上述步骤S102,可以包括如下步骤A:
步骤A:利用预设的近义词模型,确定每个基础词的近义词,并将该基础词与该基础词的近义词,确定为该基础词对应的多个候选标准词;
其中,近义词模型为:利用指定的语料数据训练得到的模型,语料数据为:与多个指定字段相关的文本数据。
为了提高利用该近义词模型所得到的各个基础词的近义词的准确性,在本具体实现方式中,用于训练上述近义词模型的指定的语料数据可以是与上述多个指定字段相关的文本数据。
具体而言,可以获取与多个指定字段相关的文本数据,作为指定的语料数据,并利用该指定的语料数据进行模型训练,得到近义词模型。进而,在得到上述近义词模型后,利用该近义词模型,得到每个基础词的近义词,从而,针对每个基础词,便可以将该基础词和所得到的该基础词的近义词,确定为该基础词对应的多个候选标准词。
具体而言,针对每个基础词,可以将该基础词输入至该近义词模型中,以使得该近义词模型计算该基础词与上述所得到的关于指定的语料数据的每个分词的距离,从而,根据所计算得到的距离,从上述所得到的关于指定的语料数据的多个分词中,选取预设数量个分词,作为该基础词的近义词。
其中,上述预设数量可以为1、3、5等任一数量,对此,本发明实施例不做具体限定。例如,可以选取所计算得到的距离最近的分词,作为该基础词的近义词;又例如,可以选取所计算得到的距离由大到小排列后,排列在前5位的分词,作为该基础词的近义词等。
在具体应用中,上述指定的语料数据所属的技术领域,可以与上述多个初始文本数据所属的技术领域相同。
例如,上述多个初始文本数据为医疗领域中的医学影像文本数据,则上述指定的语料数据便可以为医学语料,并且,该医学语料中可以包括多个影像检查报告和多个影像诊断报告等与医学影像相关的文本数据。
并且,示例性的,针对近义词模型的训练过程可以包括:在获取到指定的语料数据后,可以对所获取的指定的语料数据进行分词处理,得到关于指定的语料数据的多个分词,从而,将所得到的关于指定的语料数据的多个分词构成的分词数据集作为训练集,对预设的初始语言模型进行训练,从而,得到上述近义词模型。
例如,上述初始语言模型可以为:word2vec(Efficient Estimation of WordRepresentations in Vector Space)模型、GloVe(Global Vectors for WordRepresentation)模型、ELMO(Embeddings from Language Models)模型、GPT(ImprovingLanguage Understanding by Generative Pre-Training)模型、bertBERT(Pre-trainingof Deep Bidirectional Transformers for Language Understanding)模型等中的任一模型。其中,word2vec模型也可以理解为word to vector模型。
其中,对指定的语料数据进行分词处理所使用的分词工具所属的技术领域,可以与上述指定的语料数据所属的技术领域相同。例如,可以采用S101中所提及的分词工具对上述指定的语料数据和上述多个初始文本数据进行分词处理。
可选的,另一种具体实现方式中,上述步骤S102,可以包括如下步骤B:
步骤B:获取目标人员输入的每个基础词的近义词,并针对每个基础词,将该基础词和该基础词的近义词,确定为该基础词对应的多个候选标准词。
其中,目标人员所输入的每个基础词的近义词,可以用户根据自身的经验,所确定的近义词。这都是合理的。示例性的,该目标人员可以为专家人员。
当然,除上述两种具体实现方式外,可以采用其他具体实现方式执行上述步骤S102,对此,本发明实施例不做具体限定。也就是说,凡是能够确定每个基础词对应的多个候选标准词的方式,均位于本申请的保护范围内。
S103:从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
在得到每个基础词对应的多个候选标准词后,针对每个基础词,便可以从该基础词对应的多个候选标准词中,确定该基础词对应的标准词。进而,由于已经识别得到该基础词所属的指定字段,因此,便可以将所确定的该基础词对应的标准词,作为该基础词所属指定字段下的标准词。
可选的,一种具体实现方式中,上述步骤S103中,从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,可以包括如下步骤C1-C2:
步骤C1:输出每个基础词对应的多个候选标准词;
步骤C2:基于对输出结果的选取操作,确定每个基础词对应的标准词。
在本具体实现方式中,针对每个基础词,可以输出该基础词对应的多个候选标准词,进而,便可以获取对所输出的该基础词对应的多个候选标准词中的某个候选标准词的选取操作,这样,便可以将该选取操作所指示的候选标准词,确定为该基础词对应的标准词。
也就是说,在本具体实现方式中,针对每个基础词,所谓输出结果是指:所输出的该基础词对应的多个候选标准词,进而,所谓对输出结果的选取操作是指:对所输出的该基础词对应的多个候选标准词中的某个候选标准词的选取操作。例如,点击操作、输入操作等。
示例性的,电子设备可以将每个基础词对应的多个候选标准词上传至预设的标准化平台,从而,该标准化平台可以向预先确定的目标人员展示每个基础词对应的多个候选标准词,从而,针对每个基础词,上述目标人员便可以从该基础词对应的多个候选标准词中,选取一个候选标准词作为该基础词对应的标准词,并向该标准化平台发送针对所选取的候选标准词的选取操作。这样,该标准化平台便可以向电子设备反馈各个选取操作对应的选取指令,且该选取指令中携带有该选取指令对应的选取操作所对应的候选标准词和基础词,进而,电子设备在接收到上述选取指令后,便可以将各个选取指令所携带的候选标准词,确定为该选取指令所携带的基础词对应的标准词。从而,电子设备便可以得到各个基础词所属指定字段下的标准词。
其中,上述标准化平台可以是与电子设备独立的其他设备所构成的平台,也可以是电子设备本身。并且,如果该标准化平台是电子设备本身时,则在用户向该标准化平台发送针对所选取的候选标准词的选取操作时,该电子设备可以直接检测到各个选取操作,以及各个选取操作所对应的候选标准词和基础词。
当然,还可以通过其他方式执行上述步骤C1-C2,这都是合理的。
可选的,另一种具体实现方式中,上述步骤S103中,从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,可以包括如下步骤D:
步骤D:按照预设的选取规则,从每个基础词对应的多个候选标准词中,选取一个候选标准词,作为该基础词对应的标准词。
在本具体实现方式中,针对每个基础词,可以按照预设的选取规则,从该基础词对应的多个候选标准词中,选取一个候选标准词,作为该基础词对应的标准词。
其中,上述预设的选取规则可以为:随机选取;也可以为:根据该基础词中,该基础词的各个近义词与该基础词的相似度进行选取等,这都是合理的。
S104:针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
在得到各个基础词所属指定字段下的标准词后,便可以按照指定字段,对所得到的各个标准词进行划分,从而,得到每个指定字段下的各个标准词。这样,针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
以上可见,应用本发明实施例提供的方案,在获取到包含多个指定字段下的数据内容的多个初始文本数据后,便可以通过分词处理、近义词确定、标准词选取等一系列操作,构建各个指定字段下的标准化数据库。从而,利用各个指定字段下的标准化数据库中的标准词,便可以对各个指定字段的数据内容进行标准化统一,使得各个指定字段的数据内容规范化。这样,便可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
为了方案清楚及布局清晰,下面对基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词的其他实现方式进行介绍。
可选的,第一种具体实现方式中,上述步骤S101中,基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,可以包括如下步骤E1-E2:
步骤E1: 利用关联分析算法,计算各个关联词组的置信度;
其中,每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、多个指定字段的数量个分词,且任意两个关联词组彼此不同,两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;
步骤E2:将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
在本具体实现方式中,在对多个初始文本数据进行分词处理,得到多个分词后,便可以利用所得到的多个分词,构成多个关联词组。
其中,每个关联词组中包括上述多个指定字段的数量个分词,也就是说,每个关联词组中包括的分词的数量,与上述多个指定字段的数量相同。
并且,任意两个关联词组彼此不同。其中,两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同。
也就是说,任意两个关联词组可以是包含相同的分词但所包含的分词的排列顺序不同的两个关联词组,也可以是所包含的分词至少一个不同的两个关联词组。基于此,包含不同分词的两个关联词组为不同的关联词组,而包含相同的分词且所包含的分词的排列顺序不同的两个关联词组也为不同的关联词组。
为了行文简单,可以将多个指定字段的数量简称为字段数量,基于此,上述所得到的多个分词中,每字段数量个分词,便可以按照不同的排列顺序,构成多个不同的关联词组。这样,便可以得到利用所得到的多个分词,所构成的全部的关联词组。
例如,可以遍历由所得到的多个分词中的字段数量个分词的构成的各个分词组合,并且,在遍历到每个分词组合时,按照该分词组合中各个分词的不同排列顺序,得到由该分词组合中的各个分词构成的多个不同的关联词组。在遍历完全部的分词组合后,便可以得到利用所得到的多个分词,所构成的全部的关联词组。
示例性的,对于医疗领域中的医学影像文本数据而言,多个指定字段可以包括:检查部位名称和检查方法名称,对初始文本数据进行分词所得到的多个分词包括:分词1-4,则利用上述分词1-4,可以得到如下的全部的关联词组:
分词1-分词2、分词1-分词3、分词1-分词4、分词2-分词1、分词2-分词3、分词2-分词4、分词3-分词1、分词3-分词2、分词3-分词4、分词4-分词1、分词4-分词2,以及分词4-分词3。
在得到上述各个关联词组后,便可以利用关联分析算法,计算各个关联词组的置信度。例如,可以利用Apriori、FG-growth等关联分析算法,计算各个关联词组的置信度。
其中,每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率。
也就是说,针对每个关联词组,可以利用关联分析算法,计算该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率。
其中,针对每个关联词组而言,如果该关联词组的置信度的置信度较高,则该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率较大,如果该关联词组的置信度的置信度较低,则该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率较小。
针对每两个关联词组,若该两个关联词组的置信度不同,则置信度高的关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率,高于置信度低的关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;若该两个关联词组的置信度相同,则该两个关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率相同。
这样,在计算得到各个关联词组的置信度后,便可以确定各个关联词中,置信度大于预设的置信度阈值的各个目标关联词组,从而,将所确定的各个目标关联词组中所包括的各个分词,确定为各个基础词。
其中,由于每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率,因此,对于置信度大于预设的置信度阈值的各个目标关联词组而言,该目标关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率较高,从而,该目标关联词组中所包括的各个分词在实际应用中被使用的概率较高,进而,该目标关联词组中所包括的各个分词,作为各个指定字段下的标准词的概率较高。
基于此,便可以将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
其中,上述置信度阈值可以根据实际应用中的需求进行设定,对此,本发明实施例不做具体限定。例如,可以为0.8,也可以为0.7,还可以为0.6等。
可选的,第二种具体实现方式中,上述步骤S101,基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,可以包括如下步骤F1-F3:
步骤F1:利用关联分析算法,计算各个关联词组的置信度;
其中,步骤F1的具体内容与上述步骤E1的具体内容相同,在此不再赘述。
步骤F2:将包含相同的分词但所包含的分词的排列顺序不同的各个关联词组中,置信度最高的关联词组确定为候选关联词组;
步骤F3:将各个候选关联词组中,置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
在本具体实现方式中,在计算得到各个关联词组的置信度后,由于存在包含相同的分词但所包含的分词的排列顺序不同的各个关联词组,因此,可以从包含相同的分词但所包含的分词的排列顺序不同的各个关联词组中,筛选置信度最高的关联词组确定为候选关联词组。
例如,各个关联词组包括:分词1-分词2、分词1-分词3、分词2-分词1、分词2-分词3、分词3-分词1,以及分词3-分词2。则假设分词1-分词2的置信度大于分词2-分词1的置信度,分词1-分词3的置信度小于分词3-分词1的置信度,且分词2-分词3的置信度小于分词3-分词2的置信度,则可以将分词1-分词2、分词3-分词1和分词3-分词2确定为候选关联词组。
在得到各个候选关联词组后,便可以从各个候选关联词组中确定置信度大于预设的置信度阈值的各个目标关联词组,进而,便可以将所确定的各个目标关联词组中所包括的各个分词,确定为各个基础词。
可选的,第三种具体实现方式中,上述步骤S101,基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,可以包括如下步骤G1-G3:
步骤G1:利用关联分析算法,计算各个关联词组的置信度;
其中,步骤G1的具体内容与上述步骤E1的具体内容相同,在此不再赘述。
步骤G2:确定各个关联词组中,置信度大于预设的置信度阈值的各个候选关联词组;
步骤G3:删除包含相同的分词但所包含的分词的排列顺序不同的各个候选关联词组中,置信度非最大的各个候选词组;
步骤G4:将所保留的各个目标关联词组中所包括的各个分词,确定为各个基础词。
在本具体实现方式中,在计算得到各个关联词组的置信度后,则可以将置信度大于预设的置信度阈值的各个关联词组,确定为各个候选关联词组。进而,由于存在包含相同的分词但所包含的分词的排列顺序不同的各个关联词组,因此,所确定的各个候选关联词组中可以存在包含相同的分词但所包含的分词的排列顺序不同的各个候选关联词组中。
从而,针对所存在的包含相同的分词但所包含的分词的排列顺序不同的各个候选关联词组,可以仅保留置信度最大的候选词组,而删除置信度非最大的各个候选词组。
在删除上述包含相同的分词但所包含的分词的排列顺序不同的各个候选关联词组中,置信度非最大的各个候选词组后,便可以将所保留的各个候选关联词组确定为所保留的各个目标关联词组,这样,便可以将所保留的各个目标关联词组中所包括的各个分词,确定为各个基础词。
例如,各个关联词组包括:分词1-分词2、分词1-分词3、分词2-分词1、分词2-分词3、分词3-分词1,以及分词3-分词2。则假设分词1-分词2、分词1-分词3、分词2-分词1、分词2-分词3、分词3-分词1为置信度大于预设的置信度阈值的候选关联词组,并且,分词1-分词2的置信度大于分词2-分词1的置信度,分词1-分词3的置信度大于分词3-分词1的置信度,则删除分词2-分词1和分词3-分词1,从而,可以将所保留的分词1-分词2、分词1-分词3和分词2-分词3确定为目标关联词组。
另外,在上述第一种具体实现方式、第二种具体实现方式和第三种具体实现方式的基础上,可选的,第四种具体实现方式中,上述步骤S101中,识别每个基础词所属的指定字段,可以包括如下步骤H:
步骤H:根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
针对每个目标关联词组,该目标关联词组中的各个分词即为用于构建各个指定字段下的标准化数据库的基础词,从而,可以确定该目标关联词组中的各个基础词,在该目标关联词组中的排序。
由于在实际应用中,初始文本中多个指定字段下的数据内容按照约定排序同时出现的概率,无疑会高于相对于按照其他排序出现的概率,而目标关联词组的置信度较高且考虑到各个分词的出现顺序,那么,可以认为目标关联词组中各个分词的排序与多个指定字段下的数据内容的排序相同。
进而,根据预设的关于排序与指定字段的对应关系,确定该目标关联词组中的各个基础词,在该目标关联词组中的排序所对应的指定字段,从而,便可以将所确定的指定字段确定为该基础词所属的指定字段。
示例性的,对于医疗领域中的医学影像文本数据而言,多个指定字段可以包括:检查部位名称和检查方法名称,所得到的各个目标关联词组为:
分词1-分词3、分词1-分词4、分词2-分词3和分词2-分词4。
假设,预设的关于排序与指定字段的对应关系为:由左到右排序,第一个位置对应的指定字段为检查部位名称;并且,由左到右排序,第二个位置对应的指定字段为检查方法名称,则所确定的各个基础词分词1、分词2、分词3和分词4所属的指定字段分别为:
分词1和分词2所属的指定字段均为检查部位名称,分词3和分词4所属的指定字段均为检查方法名称。
图2为在上述第一种具体实现方式和第四种具体实现方式的基础上,为本发明实施例提供的另一种标准化数据库的构建方法的流程示意图,如图2所示,该方法可以包括如下步骤:
S201:利用关联分析算法,计算各个关联词组的置信度。
其中,每一初始文本数据包含多个指定字段下的数据内容;每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词,且任意两个关联词组彼此不同,两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率。
S202:将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
S203:根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
S204:确定每个基础词对应的多个候选标准词。
S205:从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词。
S206:针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
其中,图2中的步骤S201-S202的具体内容与上述第一种具体实现方式中的步骤E1-E2的具体内容相同,图2中的步骤S203的具体内容与上述第四种具体实现方式中的步骤H的具体内容相同,图2中的步骤S204-S206的具体内容与图1所示具体实现方式中的步骤S102-S104的具体内容相同,在此不再对图2中的步骤S201-S206的具体内容进行赘述。
可选的,一种具体实现方式中,上述多个指定字段中可以包括第一类字段,并且,属于该第一类字段的各个标准词之间能够按照从属关系进行等级划分。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段可以包括:检查部位名称和检查方法名称,其中,对于属于检查部位名称的各个标准词而言,其可以按照各个标准词之间的从属关系,划分各个标准词的等级,因此,检查部位名称即为第一类字段。
示例性的,颅面及五官、颅脑、脊柱、腰椎、下肢及关节和髋关节为属于检查部位名称的六个标准词,其中,颅脑从属于颅面及五官,腰椎从属于脊柱,髋关节从属于下肢及关节。则可以将颅面及五官、脊柱和下肢及关节划分为一级检查部位名称,而颅脑为颅面及五官下的二级检查部位名称,腰椎为脊柱下的二级检查部位名称,髋关节为下肢及关节下的二级检查部位名称。
基于此,在本具体实现方式中,如图3所示,上述步骤S104,针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库,可以包括如下步骤S1041-S1042:
S1041:针对每个第一类字段,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分;
S1042:针对每个第一类字段,按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
在本具体实现方式中,在确定出每个指定字段下的各个标准词后,可以进一步确定每个第一类字段下的各个标准词。从而,针对每个第一类字段,便可以确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分。
可选的,针对每个第一类字段,可以对该第一类字段下的各个标准词进行语义分析,从而,根据语义分析结果,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分。
可选的,针对每个第一类字段,可以输出该字段下的各个标准词,从而,基于对所输出的各个标准词的指定操作,确定该字段下的各个标准词之间的从属关系,并为该字段下的各个标准词进行等级划分。
示例性的,电子设备可以将每个第一类字段下的各个标准词上传至预设的标准化平台,从而,该标准化平台可以向预先确定的目标人员展示每个第一类字段下的各个标准词,从而,针对每个第一类字段,上述目标人员便可以确定该字段下的各个标准词的从属关系,例如,根据自身的经验确定该字段下的各个标准词的从属关系,并向该标准化平台发送用于指示该字段下的各个标准词的从属关系的指定操作。这样,该标准化平台便可以向电子设备反馈用于指示该字段下的各个标准词的从属关系的指定操作指令,且该指定操作指令中携带有该字段下的各个标准词的从属关系,进而,电子设备在接收到上述指定操作指令后,便可以根据该指定操作指令所携带的该字段下的各个标准词的从属关系,确定该字段下的各个标准词的从属关系,进而,为该字段下的各个标准词进行等级划分。
其中,需要说明的是,该标准化平台向预先确定的目标人员展示每个第一类字段下的各个标准词后,从而,针对每个第一类字段,上述目标人员也可以直接确定向该标准化平台发送用于指示该字段下的各个标准词之间基于从属关系所确定的等级关系的指定操作,该标准化平台便可以向电子设备反馈用于指示该字段下的各个标准词之间基于从属关系所确定的等级关系的指定操作指令,且该指定操作指令中携带有该字段下的各个标准词之间基于从属关系所确定的等级关系。进而,电子设备在接收到上述指定操作指令后,便可以根据该指定操作指令所携带的该字段下的各个标准词之间基于从属关系所确定的等级关系,为该字段下的各个标准词进行等级划分。
此外,上述标准化平台可以是与电子设备独立的其他设备所构成的平台,也可以是电子设备本身。并且,如果该标准化平台是电子设备本身时,则在用户向该标准化平台发送用于指示该字段下的各个标准词的从属关系的指定操作指令或者用于指示该字段下的各个标准词之间基于从属关系所确定的等级关系的指定操作指令时,该电子设备可以直接检测到指定操作指令,并根据该指定操作执行所携带的信息,执行后续步骤。
这样,针对每个第一类字段,为该字段下的各个标准词进行等级划分后,便可以按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中包括的检查部位名称即为第一类字段。因此,可以建立如表1所示的,检查部位名称下具有等级关系的标准化数据库。
表1
可选的,一种具体实现方式中,上述多个指定字段中可以包括第二类字段,并且,属于第二类字段的各个标准词中存在具有特定关系词的标准词;特定关系词包括:包含关系词和/或替换关系词。
也就是说,属于第二类字段的各个标准词中存在具有包含关系词和/或替换关系词的标准词。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段可以包括:检查部位名称和检查方法名称,其中,对于属于检查方法名称的各个标准词而言,存在具有包含关系词和/或替换关系词的标准词,因此,检查方法名称即为第二类字段。
示例性的,双斜位、斜位、左斜位和右斜位为属于检查方法名称的四个标准词,其中,双斜位具有包含关系词斜位,以及替换关系词左斜位和右斜位;左斜位和右斜位均具有包含关系词斜位。
基于此,在本具体实现方式中,如图4所示,上述步骤S104,针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库,可以包括如下步骤S104a-S104c:
S104a:针对每个第二类字段,遍历该字段下的各个标准词,并在遍历到每个标准词时,判断该标准词是否具有特定关系词;若具有,执行步骤S104b;
S104b:建立该标准词与所具有的特定关系词的对应关系;
S104c:针对每个第二类字段,在遍历完该字段下的全部标准词后,得到该字段下具有所建立的对应关系的标准化数据库。
在本具体实现方式中,在确定出每个指定字段下的各个标准词后,可以进一步确定每个第二类字段下的各个标准词。
这样,针对每个第二类字段,遍历该字段下的各个标准词。并且,在遍历到每个标准词时,便可以判断该标准词是否具有特定关系词。这样,在判断结果为具有时,便可以建立该标准词与所具有的特定关系词的对应关系。进而,在遍历完该字段下的全部标准词后,便可以得到该字段下具有所建立的对应关系的标准化数据库。
可选的,上述特定关系词可以包括:包含关系词,则上述步骤S104a中,判断该标准词是否具有特定关系词的方式,可以包括如下步骤I1:
步骤I1:判断该字段下的其他标准词中,是否存在被该标准词所包含的目标词;若存在,则该目标词为该标准词的包含关系词。
其中,该字段下的其他标准词为:该字段下的各个标准词中,除该标准词之外的各个词;
针对每个第二类字段,在遍历到该字段下的每个标准词时,可以在该字段下的其他标准词中,判断是否存在被该标准词所包含的目标词,如果判断结果为存在,则所判断出的被该标准词所包含的目标词,即为该标准词的包含关系词,从而,便可以建立该标准词与该目标词之间的对应关系。其中,所建立的对应关系为:关于包含关系的对应关系。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中的检查方法名称为第二类字段。
示例性的,双斜位、斜位、左斜位和右斜位为属于检查方法名称的四个标准词,则在遍历到双斜位时,可以判断出斜位、左斜位和右斜位中,斜位可以被双斜位所包含,从而,斜位即为双斜位的包含关系词。这样,便可以建立双斜位和斜位之间的关于包含关系的对应关系。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中包括的检查方法名称即为第二类字段,上述特定关系词包括:包含关系词。因此,可以建立如表2所示的,检查部位名称下具有所建立的对应关系的标准化数据库。
表2
可选的,上述特定关系词可以包括:替换关系词,则上述步骤S104a中,判断该标准词是否具有所述特定关系词的方式可以包括如下步骤J1-J3:
步骤J1:判断该标准词中是否存在方位词;如果存在,执行步骤J2;
步骤J2:将该标准词中所存在的方位词分解为各个单方位词;
步骤J3:将所分解得到的每个单方位词与该标准词中除方位词之外的词,按照单方位词在前,该标准词中除方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词。
针对每个第二类字段,在遍历到该字段下的每个标准词时,便可以判断该标准词中是否存在方位词,进而,如果存在,便可以将该标准词中所存在的方位词分解为各个单方位词。从而,针对每个单方位词,便可以按照该单方位词在前,该标准词中除所判断出的方位词之外的词在后的顺序,将该单方位词和该标准词中除所判断出的方位词之外的词进行合并,从而,所得到的合并后的词即为该标准词的替换关系词。这样,该标准词的替换关系词的数量与该标准词中所存在的方位词所分解得到的各个单方位词的数量相同。进而,便可以建立该标准词与该标准词的替换关系词之间的对应关系。其中,所建立的对应关系为:关于替换关系的对应关系
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中的检查方法名称为第二类字段。
示例性的,正侧位、双斜位、左斜位和右斜位为属于检查方法名称的四个标准词,则在遍历到正侧位时,可以判断出存在方位词“正侧”,从而,可以将方位词“正侧”分解为单方位词“正”和“侧”。这样,分别将分解得到的单方位词“正”和“侧”,与正侧位中除“正侧”之外的词“位”合并,便可以得到正侧位的替换关系词“正位”和“侧位”,从而,便可以建立正侧位与正位以及侧位之间的关于替换关系的对应关系;相似的,在遍历到双斜位时,可以判断出存在方位词“双”,从而,可以将方位词“双”分解为单方位词“左”和“右”。这样,分别将分解得到的单方位词“左”和“右”与双斜位中除“双”之外的词“斜位”进行合并,便可以得到双斜位的替换关系词“左斜位”和“右斜位”,从而,便可以建立双斜位与左斜位和右斜位之间的关于替换关系的对应关系。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中包括的检查方法名称即为第二类字段,上述特定关系词包括:替换关系词。因此,可以建立如表3所示的,检查部位名称下具有所建立的对应关系的标准化数据库。
表3
可选的,上述步骤J3:将所分解得到的每个单方位词与该标准词中除方位词之外的词,按照单方位词在前,该标准词中除方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词,可以包括如下步骤J31-J32:
步骤J31:将所分解得到的每个单方位词与该标准词中除方位词之外的词,按照单方位词在前,该标准词中除方位词之外的词在后的顺序进行合并,得到该标准词的各个候选替换词;
步骤J32:将属于该字段下的标准词的候选替换词,确定为该标准词的替换关系词。
通常,针对每个第二类字段,在确定该字段下的各个标准词是否具有替换关系词时,是希望能可以将该标准词拆分为该字段下的最短的标准词的组合,因此,希望所确定的该标准词的替换关系词也为该字段下的标准词。
基于此,针对每个第二类字段,在遍历到该字段下的每个标准词时,当判断出该标准词中存在方位词,且将该标准词中所存在的方位词分解为各个单方位词后,可以首先将所分解得到的每个单方位词与该标准词中除方位词之外的词,按照单方位词在前,该标准词中除方位词之外的词在后的顺序进行合并,得到该标准词的各个候选替换词,进而,便可以确定所得到的各个候选替换词中是该字段下的标准词的各个候选替换词,从而,便可以将属于该字段下的标准词的候选替换词,确定为该标准词的替换关系词。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中的检查方法名称为第二类字段。
示例性的,正侧位、双斜位、左斜位和右斜位为属于检查方法名称的四个标准词,则在遍历到正侧位时,可以判断出存在方位词“正侧”,从而,可以将方位词“正侧”分解为单方位词“正”和“侧”。这样,分别将分解得到的单方位词“正”和“侧”,与正侧位中除“正侧”之外的词“位”合并,便可以得到正侧位的候选替换词“正位”和“侧位”, “正位”和“侧位”不是检查方法名称下的标准词,因此,不能将正侧位的候选替换词“正位”和“侧位”确定为正侧位的替换关系词。而在遍历到双斜位时,可以判断出存在方位词“双”,从而,可以将方位词“双”分解为单方位词“左”和“右”。这样,分别将分解得到的单方位词“左”和“右”与双斜位中除“双”之外的词“斜位”进行合并,便可以得到双斜位的候选替换词“左斜位”和“右斜位”,进而,由于“左斜位”和“右斜位”是检查方法名称下的标准词,从而,可以将“左斜位”和“右斜位”确定为双斜位的替换关系词,并可以建立双斜位与左斜位和右斜位之间的关于替换关系的对应关系。
例如,对于医疗领域中的医学影像文本数据而言,多个指定字段中包括的检查方法名称即为第二类字段,上述特定关系词包括:替换关系词。因此,可以建立如表4所示的,检查部位名称下具有所建立的对应关系的标准化数据库。
表4
在上述图4所示的各个实施例的基础上,以医疗领域中的医学影像文本数据为例,多个指定字段中的检查方法名称为第二类字段,并且,上述特定关系词包括:包含关系词和替换关系词。因此,可以建立如表5所示的,检查部位名称下具有所建立的对应关系的标准化数据库。
表5
相应于上述本发明实施例提供的一种标准化数据库的构建方法,本发明实施例还提供了一种医学文本库的构建方法。
其中,该方法可以应用于服务器,笔记本电脑、台式电脑、平板电脑等各类的电子设备,对此,本发明实施例不做具体限定,以下简称电子设备。并且,该电子设备可以是分布式系统中的设备,也可以是独立的设备,这都是合理的。
另外,该方法可以适用于任一需要对医疗领域中的各个标准化的数据字段的数据内容进行标准化统一的应用场景,例如,对包含检查部位名称和检查方法名称的医学影像文本数据进行标准化统一等,这都是合理的。
图6为本发明实施例提供的一种医学文本库的构建方法,如图6所示,该方法可以包括如下步骤:
S601:获取医学文本数据,并将医学文本数据作为初始文本数据;
其中,每一医学文本数据包含多个指定字段下的数据内容。该医学文本数据可以例如为医学影像文本数据,当然并不局限于此。
S602:通过本发明实施例提供的任一标准化数据库的构建方法对初始文本数据进行处理,以得到标准化数据库,并将标准化数据库作为医学文本库。
在构建医学文本库时,电子设备可以首先获取包含多个指定字段下的数据内容的医学文本数据,进而,便可以将所获取到的医学文本数据作为初始文本数据。
例如,获取包含检查部位名称和检查方法名称的医学影像文本数据,作为初始文本数据。
这样,电子设备便可以利用上述本发明实施例提供的任一标准化数据库的构建方法,对所获取到的医学文本数据进行处理,从而,得到所获取到的医学文本数据所包含的每个指定字段下的标准化数据库。进而,便可以将所得到的各个标准化数据库,作为医学文本库。
其中,电子设备利用上述本发明实施例提供的任一标准化数据库的构建方法,对所获取到的医学文本数据进行处理的方式,与上述本发明实施例提供的一种标准化数据库的构建方法中的各实现方式的内容相同,在此不再赘述。
这样,在医学领域中,应用本发明实施例提供的方案,便可以利用医学文本数据,构建医学领域中的标准化数据库,即构建医学文本库,从而,使得不同的医学IT系统中,可以对标准化统一的数据字段层面的数据内容进行标准化,实现医疗质量的精细化监管分析。
可见,应用本发明实施例提供的医学文本库的构建方案,可以利用医学文本数据,构建医学领域中的标准化数据库,即构建医学文本库。这样,便可以为不同的信息系统的医学文本数据的标准化处理,提供实现基础。
为了便于理解本发明实施例提供的一种医学文本库的构建方法,如图5所示,下面以医学影像文本数据为例,对本发明实施例所提供的医学文本库的构建方法进行介绍。其中,多个指定字段包括部位方法名称和检测方法名称。
步骤1:在获取到医学影像文本数据后,利用医学专业分词工具对医学影像文本数据进行分词,得到分词结果;
步骤2:利用关联分析算法,对步骤1中所得到的分词结果中的各个分词所构成的检测部分名称和检测方法名称对进行筛选,得到分别属于检测部分名称和检测方法名称的各个基础词;
步骤3:在预设的标准化名称数据库中,存储所得到的分别属于检测部分名称和检测方法名称的各个基础词;
步骤4:利用医学专业分词工具对医学语料进行分词,得到分词结果,并对所得到的分词结果进行语音模型算法训练,得到近义词模型;
其中,步骤4可以与前述的步骤1-3并行执行,也可以先于前述的步骤1-3执行。
步骤5:利用近义词模型,确定预设的标准化名称数据库中,所存储的每个基础词的近义词,确定每个基础词的多个候选标准词;将所确定的每个基础词的多个候选标准词输出给医学影像文本数据标准化平台,以供业务人员和医学专家,确定基础词对应的标准词,得到每个指定字段下的各个标准词。
步骤6:将利用每个指定字段下的各个标准词,构建的该指定字段下的标准化数据库替换存储至预设的标准化名称数据库中,得到医学文本库。
通过本实施例,可以构建针对包含部位检查名称和方法检查名称的文本数据的标准化数据库,从而为医疗领域中不同信息系统中的医学文本数据的标准化处理,提供实现基础。
相应于上述本发明实施例提供的一种标准化数据库的构建方法,本发明实施例还提供了一种标准化数据库的构建装置。
图7为本发明实施例提供的一种标准化数据库的构建装置的结构示意图,如图7所示,该装置可以包括如下模块:
数据预处理模块710,用于基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
候选词确定模块720,用于确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
标准词选取模块730,用于从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
标准化数据库构建模块740,用于针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
以上可见,应用本发明实施例提供的方案,在获取到包含多个指定字段下的数据内容的多个初始文本数据后,便可以通过分词处理、近义词确定、标准词选取等一系列操作,构建各个指定字段下的标准化数据库。从而,利用各个指定字段下的标准化数据库中的标准词,便可以对各个指定字段的数据内容进行标准化统一,使得各个指定字段的数据内容规范化。这样,便可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
可选的,一种具体实现方式中,所述数据预处理模块710包括:
置信度计算子模块,用于利用关联分析算法,计算各个关联词组的置信度;其中,每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词,且任意两个关联词组彼此不同,所述两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;
基础词确定子模块,用于将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
可选的,一种具体实现方式中,所述数据预处理模块710具体用于:
对每个基础词进行语义识别,得到每个基础词所属的指定字段;或者,
根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
可选的,一种具体实现方式中,所述候选词确定模块720具体用于:
利用预设的近义词模型,确定每个基础词的近义词,并将该基础词与该基础词的近义词,确定为该基础词对应的多个候选标准词;
其中,所述近义词模型为:利用指定的语料数据训练得到的模型,所述语料数据为:与所述多个指定字段相关的文本数据。
可选的,一种具体实现方式中,所述标准词选取模块730具体用于:
输出每个基础词对应的多个候选标准词;
基于对输出结果的选取操作,确定每个基础词对应的标准词。
可选的,一种具体实现方式中,所述多个指定字段中包括:第一类字段;其中,属于所述第一类字段的各个标准词之间能够按照从属关系进行等级划分;所述标准化数据库构建模块740包括:
等级划分子模块,用于针对每个第一类字段,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分;
第一构建子模块,用于针对每个第一类字段,按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
可选的,一种具体实现方式中,所述多个指定字段中包括:第二类字段;其中,属于所述第二类字段的各个标准词中存在具有特定关系词的标准词;所述特定关系词包括:包含关系词和/或替换关系词;所述标准化数据库构建模块740包括:
标准词遍历子模块,用于针对每个第二类字段,遍历该字段下的各个标准词,并在遍历到每个标准词时,判断该标准词是否具有所述特定关系词;若具有,触发关系建立子模块;
所述关系建立子模块,用于建立该标准词与所具有的特定关系词的对应关系;
第二构建子模块,用于针对每个第二类字段,在遍历完该字段下的全部标准词后,得到该字段下具有所建立的对应关系的标准化数据库。
可选的,一种具体实现方式中,所述特定关系词包括:包含关系词;所述标准词遍历子模块具体用于:
判断该字段下的其他标准词中,是否存在被该标准词所包含的目标词;其中,所述该字段下的其他标准词为:该字段下的各个标准词中,除该标准词之外的各个词;
若存在,则该目标词为该标准词的包含关系词。
可选的,一种具体实现方式中,所述特定关系词包括:替换关系词;所述标准词遍历子模块包括:
方位词判断单元,用于判断该标准词中是否存在方位词;如果存在,触发方位词分解单元;
所述方位词分解单元,用于将该标准词中所存在的方位词分解为各个单方位词;
替换词确定单元,用于将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词。
可选的,一种具体实现方式中,所述替换词确定单元具体用于:
将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个候选替换词;
将属于该字段下的标准词的候选替换词,确定为该标准词的替换关系词。
相应于上述本发明实施例提供的一种医学文本库的构建方法,本发明实施例还提供了一种医学文本库的构建装置。
图8为本发明实施例提供的一种医学文本库的构建装置,如图8所示,该装置可以包括如下模块:
医学文本数据获取模块810,用于获取医学文本数据,并将所述医学文本数据作为初始文本数据;其中,每一医学文本数据包含多个指定字段下的数据内容;
医学文本库构建模块820,用于通过本发明实施例提供的任一标准化数据库的构建方法对初始文本数据进行处理,以得到标准化数据库,并将标准化数据库作为医学文本库。
可见,应用本发明实施例提供的医学文本库的构建方案,可以利用医学文本数据,构建医学领域中的标准化数据库,即构建医学文本库。这样,便可以为不同的信息系统的医学文本数据的标准化处理,提供实现基础。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述本发明实施例提供的任一标准化数据库的构建方法的步骤,和/或,实现上述本发明实施例提供的一种医学文本库的构建方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述本发明实施例提供的任一标准化数据库的构建方法的步骤,和/或,实现上述本发明实施例提供的一种医学文本库的构建方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述本发明实施例提供的任一标准化数据库的构建方法的步骤,和/或,实现上述本发明实施例提供的一种医学文本库的构建方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (24)
1.一种标准化数据库的构建方法,其特征在于,所述方法包括:
基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
2.根据权利要求1所述的方法,其特征在于,所述基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词的步骤,包括:
利用关联分析算法,计算各个关联词组的置信度;其中,每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词,且任意两个关联词组彼此不同,所述两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;
将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
3.根据权利要求2所述的方法,其特征在于,所述识别每个基础词所属的指定字段的步骤,包括:
对每个基础词进行语义识别,得到每个基础词所属的指定字段;或者,
根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
4.根据权利要求1所述的方法,其特征在于,所述确定每个基础词对应的多个候选标准词的步骤,包括:
利用预设的近义词模型,确定每个基础词的近义词,并将该基础词与该基础词的近义词,确定为该基础词对应的多个候选标准词;
其中,所述近义词模型为:利用指定的语料数据训练得到的模型,所述语料数据为:与所述多个指定字段相关的文本数据。
5.根据权利要求1所述的方法,其特征在于,所述从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词的步骤,包括:
输出每个基础词对应的多个候选标准词;
基于对输出结果的选取操作,确定每个基础词对应的标准词。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述多个指定字段中包括:第一类字段;其中,属于所述第一类字段的各个标准词之间能够按照从属关系进行等级划分;
所述针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库的步骤,包括:
针对每个第一类字段,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分;
针对每个第一类字段,按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述多个指定字段中包括:第二类字段;其中,属于所述第二类字段的各个标准词中存在具有特定关系词的标准词;所述特定关系词包括:包含关系词和/或替换关系词;
所述针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库的步骤,包括:
针对每个第二类字段,遍历该字段下的各个标准词,并在遍历到每个标准词时,判断该标准词是否具有所述特定关系词;
若具有,建立该标准词与所具有的特定关系词的对应关系;
针对每个第二类字段,在遍历完该字段下的全部标准词后,得到该字段下具有所建立的对应关系的标准化数据库。
8.根据权利要求7所述的方法,其特征在于,所述特定关系词包括:包含关系词;所述判断该标准词是否具有所述特定关系词的步骤,包括:
判断该字段下的其他标准词中,是否存在被该标准词所包含的目标词;其中,所述该字段下的其他标准词为:该字段下的各个标准词中,除该标准词之外的各个词;
若存在,则该目标词为该标准词的包含关系词。
9.根据权利要求7所述的方法,其特征在于,所述特定关系词包括:替换关系词;所述判断该标准词是否具有所述特定关系词的步骤,包括:
判断该标准词中是否存在方位词;
如果存在,将该标准词中所存在的方位词分解为各个单方位词;
将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词。
10.根据权利要求9所述的方法,其特征在于,所述将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词的步骤,包括:
将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个候选替换词;
将属于该字段下的标准词的候选替换词,确定为该标准词的替换关系词。
11.一种标准化数据库的构建装置,其特征在于,所述装置包括:
数据预处理模块,用于基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
候选词确定模块,用于确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
标准词选取模块,用于从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
标准化数据库构建模块,用于针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
12.根据权利要求11所述的装置,其特征在于,所述数据预处理模块包括:
置信度计算子模块,用于利用关联分析算法,计算各个关联词组的置信度;其中,每个关联词组包括对多个初始文本数据进行分词处理所得到的多个分词中的、所述多个指定字段的数量个分词,且任意两个关联词组彼此不同,所述两个关联词组彼此不同包括:两个关联词组所包含的分词至少一个不同,或,两个关联词组包含相同的分词但所包含的分词的排列顺序不同;每个关联词组的置信度为:该关联词组所包括的各个分词,按照该关联词组中分词的排序同时出现的概率;
基础词确定子模块,用于将置信度大于预设的置信度阈值的各个目标关联词组中所包括的各个分词,确定为各个基础词。
13.根据权利要求12所述的装置,其特征在于,所述数据预处理模块具体用于:
对每个基础词进行语义识别,得到每个基础词所属的指定字段;或者,
根据预设的关于排序与指定字段的对应关系,将每个基础词在所属的目标关联词组中的排序所对应的指定字段,确定为该基础词所属的指定字段。
14.根据权利要求11所述的装置,其特征在于,所述候选词确定模块具体用于:
利用预设的近义词模型,确定每个基础词的近义词,并将该基础词与该基础词的近义词,确定为该基础词对应的多个候选标准词;
其中,所述近义词模型为:利用指定的语料数据训练得到的模型,所述语料数据为:与所述多个指定字段相关的文本数据。
15.根据权利要求11所述的装置,其特征在于,所述标准词选取模块具体用于:
输出每个基础词对应的多个候选标准词;
基于对输出结果的选取操作,确定每个基础词对应的标准词。
16.根据权利要求11-15任一项所述的装置,其特征在于,所述多个指定字段中包括:第一类字段;其中,属于所述第一类字段的各个标准词之间能够按照从属关系进行等级划分;所述标准化数据库构建模块包括:
等级划分子模块,用于针对每个第一类字段,确定该字段下的各个标准词之间的从属关系,并根据所确定的从属关系,为该字段下的各个标准词进行等级划分;
第一构建子模块,用于针对每个第一类字段,按照为该字段下的各个标准词进行等级划分的划分结果,构建该字段下具有等级关系的标准化数据库。
17.根据权利要求11-15任一项所述的装置,其特征在于,所述多个指定字段中包括:第二类字段;其中,属于所述第二类字段的各个标准词中存在具有特定关系词的标准词;所述特定关系词包括:包含关系词和/或替换关系词;所述标准化数据库构建模块包括:
标准词遍历子模块,用于针对每个第二类字段,遍历该字段下的各个标准词,并在遍历到每个标准词时,判断该标准词是否具有所述特定关系词;若具有,触发关系建立子模块;
所述关系建立子模块,用于建立该标准词与所具有的特定关系词的对应关系;
第二构建子模块,用于针对每个第二类字段,在遍历完该字段下的全部标准词后,得到该字段下具有所建立的对应关系的标准化数据库。
18.根据权利要求17所述的装置,其特征在于,所述特定关系词包括:包含关系词;所述标准词遍历子模块具体用于:
判断该字段下的其他标准词中,是否存在被该标准词所包含的目标词;其中,所述该字段下的其他标准词为:该字段下的各个标准词中,除该标准词之外的各个词;
若存在,则该目标词为该标准词的包含关系词。
19.根据权利要求17所述的装置,其特征在于,所述特定关系词包括:替换关系词;所述标准词遍历子模块包括:
方位词判断单元,用于判断该标准词中是否存在方位词;如果存在,触发方位词分解单元;
所述方位词分解单元,用于将该标准词中所存在的方位词分解为各个单方位词;
替换词确定单元,用于将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个替换关系词。
20.根据权利要求19所述的装置,其特征在于,所述替换词确定单元具体用于:
将所分解得到的每个单方位词与该标准词中除所述方位词之外的词,按照单方位词在前,该标准词中除所述方位词之外的词在后的顺序进行合并,得到该标准词的各个候选替换词;
将属于该字段下的标准词的候选替换词,确定为该标准词的替换关系词。
21.一种医学文本库的构建方法,其特征在于,所述方法包括:
获取医学文本数据,并将所述医学文本数据作为初始文本数据;其中,每一医学文本数据包含多个指定字段下的数据内容;
通过权利要求1-10任一所述的方法步骤对所述初始文本数据进行处理,以得到所述标准化数据库,并将所述标准化数据库作为医学文本库。
22.一种医学文本库的构建装置,其特征在于,所述装置包括:
医学文本数据获取模块,用于获取医学文本数据,并将所述医学文本数据作为初始文本数据;其中,每一医学文本数据包含多个指定字段下的数据内容;
医学文本库构建模块,用于通过权利要求1-10任一所述的方法步骤对所述初始文本数据进行处理,以得到所述标准化数据库,并将所述标准化数据库作为医学文本库。
23.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤和/或权利要求21所述的方法步骤。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤和/或权利要求21所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398313.7A CN112800173B (zh) | 2021-04-14 | 2021-04-14 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398313.7A CN112800173B (zh) | 2021-04-14 | 2021-04-14 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800173A true CN112800173A (zh) | 2021-05-14 |
CN112800173B CN112800173B (zh) | 2021-07-09 |
Family
ID=75811363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110398313.7A Active CN112800173B (zh) | 2021-04-14 | 2021-04-14 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800173B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392086A (zh) * | 2021-05-26 | 2021-09-14 | 上海德衡数据科技有限公司 | 基于物联网的医疗数据库构建方法、装置及设备 |
CN113611365A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
CN113641799A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
US20140279935A1 (en) * | 2007-06-14 | 2014-09-18 | Colorquick, L.L.C. | Computer-implemented method of assessing the quality of a database mapping |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN110619073A (zh) * | 2019-08-30 | 2019-12-27 | 北京影谱科技股份有限公司 | 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 |
CN111292814A (zh) * | 2019-12-26 | 2020-06-16 | 北京亚信数据有限公司 | 一种医疗数据标准化的方法及装置 |
CN112256830A (zh) * | 2020-10-21 | 2021-01-22 | 北京工业大数据创新中心有限公司 | 一种设备排查信息获取方法、装置和设备故障排查系统 |
CN112286900A (zh) * | 2019-07-16 | 2021-01-29 | 北京字节跳动网络技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-04-14 CN CN202110398313.7A patent/CN112800173B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279935A1 (en) * | 2007-06-14 | 2014-09-18 | Colorquick, L.L.C. | Computer-implemented method of assessing the quality of a database mapping |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN112286900A (zh) * | 2019-07-16 | 2021-01-29 | 北京字节跳动网络技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN110619073A (zh) * | 2019-08-30 | 2019-12-27 | 北京影谱科技股份有限公司 | 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 |
CN111292814A (zh) * | 2019-12-26 | 2020-06-16 | 北京亚信数据有限公司 | 一种医疗数据标准化的方法及装置 |
CN112256830A (zh) * | 2020-10-21 | 2021-01-22 | 北京工业大数据创新中心有限公司 | 一种设备排查信息获取方法、装置和设备故障排查系统 |
Non-Patent Citations (1)
Title |
---|
李艳超等: "《面向医学学科领域的检索词库构建》", 《医学信息学杂志》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392086A (zh) * | 2021-05-26 | 2021-09-14 | 上海德衡数据科技有限公司 | 基于物联网的医疗数据库构建方法、装置及设备 |
CN113392086B (zh) * | 2021-05-26 | 2022-08-16 | 上海德衡数据科技有限公司 | 基于物联网的医疗数据库构建方法、装置及设备 |
CN113611365A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
CN113611365B (zh) * | 2021-06-29 | 2024-03-26 | 中国科学院微生物研究所 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
CN113641799A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112800173B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800173B (zh) | 标准化数据库和医学文本库的构建方法、装置及电子设备 | |
Jin et al. | A deep 3D residual CNN for false‐positive reduction in pulmonary nodule detection | |
US10929420B2 (en) | Structured report data from a medical text report | |
Neal Joshua et al. | 3D CNN with Visual Insights for Early Detection of Lung Cancer Using Gradient‐Weighted Class Activation | |
Thian et al. | Deep learning systems for pneumothorax detection on chest radiographs: a multicenter external validation study | |
CN112883157B (zh) | 一种多源异构医疗数据的标准化方法及装置 | |
CN112800759B (zh) | 标准化数据的生成方法、医学文本数据的处理方法和装置 | |
Khadidos et al. | [Retracted] Evaluation of the Risk of Recurrence in Patients with Local Advanced Rectal Tumours by Different Radiomic Analysis Approaches | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
CN109146891A (zh) | 一种应用于mri的海马体分割方法、装置及电子设备 | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
CN112800187B (zh) | 数据映射方法、医学文本数据映射方法、装置及电子设备 | |
Chung et al. | Prediction of oxygen requirement in patients with COVID-19 using a pre-trained chest radiograph xAI model: efficient development of auditable risk prediction models via a fine-tuning approach | |
CN112800763B (zh) | 数据处理方法、医学文本数据处理方法、装置及电子设备 | |
Zhang et al. | Generative adversarial domain adaptation for nucleus quantification in images of tissue immunohistochemically stained for Ki-67 | |
Otálora et al. | Image magnification regression using densenet for exploiting histopathology open access content | |
Marini et al. | Semi-supervised learning with a teacher-student paradigm for histopathology classification: a resource to face data heterogeneity and lack of local annotations | |
Jian et al. | DBPNDNet: dual-branch networks using 3DCNN toward pulmonary nodule detection | |
Haziemeh et al. | Using Logistic Regression Approach to Predicating Breast Cancer DATASET | |
Ma et al. | A pathology image diagnosis network with visual interpretability and structured diagnostic report | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
CN112328879B (zh) | 新闻推荐方法、装置、终端设备及存储介质 | |
Tsumoto et al. | Mining text for disease diagnosis | |
AlZu’bi et al. | An intelligent healthcare monitoring system-based novel deep learning approach for detecting covid-19 from x-rays images | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |