CN112101030A - 建立术语映射模型、实现标准词映射的方法、装置及设备 - Google Patents
建立术语映射模型、实现标准词映射的方法、装置及设备 Download PDFInfo
- Publication number
- CN112101030A CN112101030A CN202010856471.8A CN202010856471A CN112101030A CN 112101030 A CN112101030 A CN 112101030A CN 202010856471 A CN202010856471 A CN 202010856471A CN 112101030 A CN112101030 A CN 112101030A
- Authority
- CN
- China
- Prior art keywords
- standard
- word
- words
- text
- standard words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 93
- 230000011218 segmentation Effects 0.000 claims description 106
- 238000000605 extraction Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002271 resection Methods 0.000 description 36
- 210000004072 lung Anatomy 0.000 description 18
- 241000131317 Capitulum Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013538 segmental resection Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000002360 prefrontal effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 210000001652 frontal lobe Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000004141 microcephaly Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了建立术语映射模型、实现标准词映射的方法、装置及设备,建立术语映射模型的方法包括:先通过对标准词和非标准词进行实体识别,得到对应的分词,并对对应的分词进行文本特征的提取。将具有对应关系的标准词与非标准词的第一文本组合中的标准词和非标准词对应的分词的文本特征进行拼接,得到标准词和非标准词的总体文本特征后再进行拼接,生成正样本训练数据;将不具有对应关系的标准词与非标准词的第二文本组合中的标准词和非标准词对应的分词的文本特征进行拼接,得到标准词和非标准词的总体文本特征后再进行拼接,生成负样本训练数据;利用正样本训练数据和负样本训练数据,训练生成具有较高准确度的术语映射模型。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种建立术语映射模型、实现标准词映射的方法、装置及设备。
背景技术
在日常使用的文本中,可能会具有一些非标准词。非标准词的语义与标准词的语义相同,但是非标准词的字符与标准词中的字符不同。例如,非标准词可以为与标准词相对应的简称词汇、缩写词汇以及其他在日常使用中习惯使用的代替词汇等。
由于非标准词不具有明确的标准语义,在对文本进行统一分析时,难以从具有非标准词的文本中准确地提取到文本信息。目前,采用人工统计的方法确定各个非标准词对应的标准词。但是,人工统计的方法确定的非标准词与标准词的对应关系不够准确。并且非标准词的形式多样,难以通过人工统计的方法对全部的非标准词进行采集统计,人工统计的方法效率较低,不能对大量的非标准词进行处理。
发明内容
有鉴于此,本申请实施例提供建立一种术语映射模型、实现标准词映射的方法、装置及设备,能够通过术语映射模型较为准确地确定标准词和非标准词的对应关系,并且效率较高。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,本申请实施例提供一种建立术语映射模型的方法,所述方法包括:
通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词;
通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词;
提取所述第一分词的文本特征以及所述第二分词的文本特征;
将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一所述第一文本组合包括具有对应关系的标准词与非标准词;
将所述第一文本组合中标准词对应的总体文本特征与所述第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;
将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一所述第二文本组合包括不具有对应关系的标准词与非标准词;
将所述第二文本组合中标准词对应的总体文本特征与所述第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;
利用所述正样本训练数据以及所述负样本训练数据,训练生成术语映射模型,所述术语映射模型用于输出目标标准词与待识别词之间的相关度。
在第一方面第一种可能的实现方式中,所述方法还包括:
提取所述标准词的文本特征以及所述非标准词的文本特征;
在将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中非标准词对应的文本特征进行拼接生成正样本训练数据之前,将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中标准词的总体文本特征进行拼接重新生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词对应的文本特征与所述第一文本组合中非标准词的总体文本特征进行拼接重新生成所述第一文本组合中非标准词对应的总体文本特征;
在将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中非标准词对应的文本特征进行拼接生成负样本训练数据之前,将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中标准词的总体文本特征进行拼接重新生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词对应的文本特征与所述第二文本组合中非标准词的总体文本特征进行拼接重新生成所述第二文本组合中非标准词对应的总体文本特征。
在第一方面第二种可能的实现方式中,所述标准词为手术标准词,所述非标准词为手术非标准词;
所述通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词,包括:
通过对手术标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术标准词划分为部位类别第一分词以及操作类别第一分词,所述部位类别第一分词以及所述操作类别第一分词构成所述手术标准词包括的第一分词;
所述通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词,包括:
通过对手术非标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术非标准词划分为部位类别第二分词以及操作类别第二分词,所述部位类别第二分词以及所述操作类别第二分词构成所述手术非标准词包括的第二分词。
在第一方面第三种可能的实现方式中,所述方法还包括:
如果所述部位类别第二分词包括预设方位词,将所述部位类别第二分词中包括的预设方位词替换为所述预设方位词对应的替代方位词,生成所述部位类别第二分词对应的部位类别替换分词;
将所述部位类别替换分词与所述操作类别第二分词组成新的手术非标准词。
第二方面,本申请实施例提供一种实现标准词映射的方法,所述方法包括:
通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词;
提取所述第三分词的文本特征;
获取目标标准词包括的各个第一分词的文本特征;所述目标标准词分别为所述标准词中的每一个;
将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度;所述术语映射模型为根据上述第一方面、第一方面第二种可能的实现方式或者第一方面第三种可能的实现方式的建立术语映射模型的方法建立的;
在各个所述目标标准词与所述待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为所述待识别词对应的标准词。
在第二方面第一种可能的实现方式中,所述方法还包括:
提取所述待识别词的文本特征;
获取所述目标标准词的文本特征;
将所述目标标准词的文本特征与所述目标标准词包括的各个第一分词的文本特征进行拼接,生成所述目标标准词对应的总体文本特征;
将所述待识别词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,生成所述待识别词对应的总体文本特征;
所述将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度,包括:
将所述目标标准词对应的总体文本特征与所述待识别词对应的总体文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度,所述术语映射模型为根据上述第一方面第一种可能的实现方式、第一方面第二种可能的实现方式或者第一方面第三种可能的实现方式的建立术语映射模型的方法建立的。
在第二方面第二种可能的实现方式中,所述标准词为手术标准词,所述待识别词为手术非标准词;
所述通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词,包括:
通过对待识别词进行部位类别的实体识别以及操作类别的实体识别,将所述待识别词划分为部位类别第三分词以及操作类别第三分词,所述部位类别第三分词以及所述操作类别第三分词构成所述待识别词包括的第三分词;
所述目标标准词包括的各个第一分词为目标手术标准词包括的部位类别第一分词以及操作类别第一分词。
第三方面,本申请实施例提供一种建立术语映射模型的装置,所述装置包括:
第一划分单元,用于通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词;
第二划分单元,用于通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词;
提取单元,用于提取所述第一分词的文本特征以及所述第二分词的文本特征;
第一拼接单元,用于将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一所述第一文本组合包括具有对应关系的标准词与非标准词;
第二拼接单元,用于将所述第一文本组合中标准词对应的总体文本特征与所述第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;
第三拼接单元,用于将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一所述第二文本组合包括不具有对应关系的标准词与非标准词;
第四拼接单元,用于将所述第二文本组合中标准词对应的总体文本特征与所述第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;
训练单元,用于利用所述正样本训练数据以及所述负样本训练数据,训练生成术语映射模型,所述术语映射模型用于输出目标标准词与待识别词之间的相关度。
第四方面,本申请实施例提供一种实现标准词映射的装置,所述装置包括:
第三划分单元,用于通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词;
第三提取单元,用于提取所述第三分词的文本特征;
第一获取单元,用于获取目标标准词包括的各个第一分词的文本特征;所述目标标准词分别为所述标准词中的每一个;
相关度获取单元,用于将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度;所述术语映射模型为根据上述第一方面、第一方面第二种可能的实现方式或者第一方面第三种可能的实现方式的建立术语映射模型的装置建立的;
标准词确定单元,用于在各个所述目标标准词与所述待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为所述待识别词对应的标准词。
第五方面,本申请实施例提供一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面、第一方面第一种可能的实现方式、第一方面第二种可能的实现方式或者第一方面第三种可能的实现方式的建立术语映射模型的方法,或者,实现如上述第二方面、第二方面第一种可能的实现方式或者第二方面第二种可能的实现方式的实现标准词映射的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述第一方面、第一方面第一种可能的实现方式、第一方面第二种可能的实现方式或者第一方面第三种可能的实现方式的建立术语映射模型的方法,或者,执行如上述第二方面、第二方面第一种可能的实现方式或者第二方面第二种可能的实现方式的实现标准词映射的方法。
由此可见,本申请实施例具有如下有益效果:
在本申请实施例提供的建立术语映射模型的方法中,先通过对标准词和非标准词进行实体识别,进行标准词和非标准词的划分,得到对应的分词,并对对应的分词进行文本特征的提取。将具有对应关系的标准词与非标准词的第一文本组合中的标准词和非标准词对应的分词的文本特征进行拼接,得到标准词和非标准词的总体文本特征后再进行拼接,生成正样本训练数据;将不具有对应关系的标准词与非标准词的第二文本组合中的标准词和非标准词对应的分词的文本特征进行拼接,得到标准词和非标准词的总体文本特征后再进行拼接,生成负样本训练数据;利用正样本训练数据和负样本训练数据,训练生成用于输出目标标准词与待识别词之间的相关度的术语映射模型。
在本申请实施例提供的建立术语映射模型的方法中,通过分别对具有对应关系的标准词和非标准词进行分词的特征的提取和拼接,得到的正样本训练数据可以从局部特征体现标准词和非标准词之间的对应关系。对不具有对应关系的标准词和非标准词进行分词的特征提取和拼接,得到的负样本训练数据则可以表示不具有对应关系的标准词和非标准词具有的特征。如此,利用正样本训练数据和负样本训练数据训练得到的术语映射模型更加准确。并且利用术语映射模型可以实现对于待识别词的大量处理,提高了确定待识别词与目标标准词的相关度的效率,可以高效、准确地确定标准词和非标准词之间的对应关系。
在本申请实施例提供的实现标准词映射的方法中,先通过对待识别词进行实体识别,将待识别词划分为至少两个第三分词;提取第三分词的文本特征;再获取目标标准词包括的各个第一分词的文本特征;之后将目标标准词包括的各个第一分词的文本特征与待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得目标标准词与待识别词之间的相关度;术语映射模型为根据上述建立术语映射模型的方法建立的;最后,在各个目标标准词与待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为待识别词对应的标准词。由此可见,利用准确度较高的术语映射模型,可以较为准确地确定的对应的标准词。并且,采用术语映射模型可以对大量的待识别词进行快速处理,提高了确定待识别词对应的标准词的效率。
附图说明
图1为本申请实施例提供的标准词与非标准词的示意图;
图2为本申请实施例提供的一种建立术语映射模型的方法的流程图;
图3为本申请实施例提供的另一种建立术语映射模型的方法的流程图;
图4为本申请实施例提供的一种实现标准词映射的方法的流程图;
图5为本申请实施例提供的一种实现标准词映射的示意图;
图6为本申请实施例提供的一种实现标准词映射的方法的流程图;
图7为本申请实施例提供的另一种实现标准词映射的示意图;
图8为本申请实施例提供的一种建立术语映射模型的装置的结构示意图;
图9为本申请实施例提供的一种实现标准词映射的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人在对传统的确定非标准词和标准词的方法进行研究后发现,传统的确定非标准词和标准词的方法是通过专家对文本中出现的非标准词进行分析和研究,确定非标准词对应的标准词。根据专家确定的非标准词和标准词的对应关系进行非标准词的替换,得到可以统一用于分析的文本。
以医学领域为例,医生在撰写手术记录时会选用日常使用的非标准词汇来记录患者的手术过程。不同的医生具有不同的记录方法。作为示例,如图1所示,对于相同的标准词“肺叶部分切除术”,手术记录中出现的非标准词可能为“左肺上叶部分切除手术”,也可能为“右肺上叶部分切除术”。当获取到大量的来自不同医生的手术记录时,手术记录中会出现各种各样的非标准词汇,难以采用统一的数据处理的方法从病历中直接获取对应的信息。而现有的人为确定的非标准词与标准词的对应关系较少,不能满足使用的需要。
基于此,本申请实施例提供了建立术语映射模型、实现标准词映射的方法和相关装置。其中建立术语映射模型的方法包括,首先,分别通过对标准词和非标准词进行实体识别,将标准词划分为至少两个第一分词,将非标准词划分为至少两个第二分词;再分别提取第一分词以及第二分词的文本特征;其次,将包括具有对应关系的标准词与非标准词的第一文本组合中的标准词包括的各个第一分词的文本特征进行拼接,得到标准词对应的总体文本特征;将非标准词包括的各个第二分词的文本特征进行拼接,得到非标准词对应的总体文本特征;之后将第一文本组合中标准词对应的总体文本特征与第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;再次,将包括不具有对应关系的标准词与非标准词的第二文本组合中标准词包括的各个第一分词的文本特征进行拼接,生成第二文本组合中标准词对应的总体文本特征;非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;将第二文本组合中标准词对应的总体文本特征与第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;最后,利用正样本训练数据以及负样本训练数据,训练生成用于输出目标标准词与待识别词之间的相关度的术语映射模型。
为了便于理解本申请,下面结合附图对本申请实施例提供的一种建立术语映射模型的方法进行说明。
参见图2所示,该图为本申请实施例提供的一种建立术语映射模型的方法的流程图,该方法包括步骤S201-S208:
S201:通过对标准词进行实体识别,将标准词划分为至少两个第一分词。
标准词是在具体的应用领域中的具有标准含义的词汇,标准词在对应的应用领域中具有明确定义的含义,是在对应的应用领域中公知的规范用词。例如,在医学领域中,“肺叶部分切除术”是指对肺叶部分组织进行切除的手术,是此类手术名称的标准词。
标准词是由基本的字符或者词汇组成的,部分标准词较为复杂,可能由多个基本的字符或者词汇组成。为了可以更准确地提取标准词的特征,对标准词进行实体识别,对应的将标准词划分为至少两个第一分词。其中,第一分词可以为字符或者是词汇。
本申请实施例中不限定对标准词进行实体识别时划分的实体类型以及所采用的实体标注方法。实体类型可以根据具体的标准词的应用领域进行确定。
在一种可能的实现方式中,可以采用BIO的实体标注方法对标准词进行实体识别标注。其中,B表示该字符是实体的开头,I表示该字符是实体的结尾,O表示该字符是不属于任何类型的实体。在另一种可能的实现方式中,可以采用BIOES的实体标注方法。具体的,B表示该字符是实体的开头,I表示该字符是实体的内部,O表示非实体,E表示该字符是实体的尾部,S表示该字符本身就是一个实体。
通过实体识别后得到的标准词对应的实体标注,对标准词进行划分。具体可以将属于实体的词汇或者是字符与不属于实体的词汇或者是字符进行划分,并将属于不同类型的实体的词汇或者字符进行划分。将标准词进行划分后得到至少两个第一分词,得到的第一分词具有对应的实体含义,以便在后续进行特征提取时得到具有实体含义的第一分词的文本特征。
在一种具体的应用场景中,例如医学领域,标准词可以为手术标准词,实体识别时可以确定手术标准词中的字符或者词语对应的医学领域中的实体类型,通过实体识别得到的实体类型进行第一分词的划分。本申请实施例提供了一种S201的具体实施方式,请参见下文。
S202:通过对非标准词进行实体识别,将非标准词划分为至少两个第二分词。
非标准词是在应用领域中常用的,用于代替标准词的词汇。非标准词的含义与标准词相同,但是词汇中的字符可能不同。例如,常用的缩写词汇、别称词汇等均属于非标准词。例如,在医学领域中,“左肺上叶部分切除术”是非标准词。
同样的,非标准词是由基本的字符或者是词汇组成的。为了更好地提取非标准词的特征,对非标准词进行实体识别,以便根据实体识别结果对非标准词进行分词处理。
本申请实施例中不限定对非标准词进行实体识别时划分的实体类型以及所采用的实体标注方法,对非标准词进行实体识别的方法可以与上述对标准词进行实体识别的方法相同,在此不再赘述。
根据得到的非标准词的实体识别结果,将非标准词划分为至少两个第二分词,得到的第二分词具有对应的实体的含义。其中,第二分词可以为字符或者是词汇。
在一种具体的应用场景中,例如医学领域,对应于手术标准词,非标准词可以为手术非标准词,可以确定同样的实体类型进行实体识别,并根据实体识别结果进行第二分词的划分。本申请实施例提供了一种S202的具体实施方式,请参见下文。
S203:提取第一分词的文本特征以及第二分词的文本特征。
对划分标准词后得到的第一分词进行文本特征的提取,对划分非标准词后得到的第二分词进行文本特征的提取。
基于上述内容可知,第一分词和第二分词是通过对标准词和非标准词进行实体识别后得到的,第一分词和第二分词均具有对应的实体的含义,得到的第一分词和第二分词的文本特征可以更好地体现标准词和非标准词的特性。
在一种可能的实现方式中,为了增强分词中的字符与上下文的关联,可以提取第一分词的BERT特征以及第二分词的BERT特征。对应的,提取第一分词和第二分词的BERT特征可以采用BERT模型,使得得到的第一分词的BERT特征以及第二分词的BERT特征更加准确,如此可以提高训练得到的术语映射模型的准确度。
S204:将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成第一文本组合中标准词对应的总体文本特征;将第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一第一文本组合包括具有对应关系的标准词与非标准词。
可以理解的是,标准词和非标准词之间可能具有对应关系。以上述“肺叶部分切除术”为例,“肺叶部分切除术”为与非标准词“左肺上叶部分切除术”相对应的标准词。标准词与非标准词之间的对应关系可以是预先确定的。
将具有对应关系的标准词和非标准词组成第一文本组合。将第一文本组合中标准词的各个第一分词的文本特征进行拼接,得到该标准词对应的总体文本特征。基于相同的方法,将第一文本组合中的非标准词的各个第二分词的文本特征进行拼接,得到该非标准词对应的总体文本特征。
本申请实施例中不限定具体的将分词的文本特征拼接得到总体文本特征的方法。在一种可能的实现方式中,可以按照各个第一分词在标准词中的顺序将第一分词对应的文本特征进行拼接,按照各个第二分词在非标准词中的顺序进行对应的第二分词对应的文本特征的拼接。
通过将对应的分词的文本特征进行拼接得到的总体文本特征,可以从词汇或者是字符的方面表示标准词或者非标准词的特征,使得总体文本特征可以更好地反映标准词或者非标准词的特性。
S205:将第一文本组合中标准词对应的总体文本特征与第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据。
在得到第一文本组合中的标准词和非标准词所对应的总体文本特征之后,可以将具有对应关系的标准词和非标准词的总体文本特征进行拼接,生成正样本训练数据。正样本训练数据中具有用于表示具有对应关系的标准词和非标准词的特征。在一种可能的实现方式中,正样本训练数据中具有对应的标签值,标签值为1。
S206:将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成第二文本组合中标准词对应的总体文本特征;将第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一第二文本组合包括不具有对应关系的标准词与非标准词。
另外,为了提高术语映射模型的准确率,可以将不具有对应关系的标准词和非标准词组成第二文本组合,并生成对应的训练数据用于模型训练。
在一种可能的实现方式中,在确定了具有对应关系的标准词和非标准词之后,先选取标准词,再从除具有对应关系的非标准词之外的非标准词中选取非标准词,得到第二文本组合。也可以先确定非标准词,再从除具有对应关系的标准词之外的标准词中选取标准词,得到第二文本组合。此外,还可以将标准词和非标准词进行随机组合,将得到的组合中具有对应关系的标准词和非标准词的组合去除,得到第二文本组合。
需要说明的是,第一文本组合和第二文本组合中可以具有重复的标准词或者非标准词。
将第二文本组合中标准词的各个第一分词的文本特征进行拼接,得到该标准词对应的总体文本特征。基于相同的方法,将第二文本组合中的非标准词的各个第二分词的文本特征进行拼接,得到该非标准词对应的总体文本特征。
第二文本组合中得到标准词和非标准词对应的总体文本特征的方法,可以与上述第一文本组合中得到标准词和非标准词对应的总体文本特征的方法相同或者相似,在此不再赘述。
S207:将第二文本组合中标准词对应的总体文本特征与第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据。
相同的,可以将第二文本组合中标准词对应的总体文本特征与第二文本组合中非标准词对应的总体文本特征进行拼接,得到用于表示不具有对应关系的标准词和非标准词的特征,生成对应的负样本训练数据。负样本训练数据对应的标签值可以为0。
S208:利用正样本训练数据以及负样本训练数据,训练生成术语映射模型,术语映射模型用于输出目标标准词与待识别词之间的相关度。
利用得到的正样本训练数据以及负样本训练数据,训练生成术语映射模型。其中,正样本训练数据与负样本训练数据的比例可以根据模型训练需要进行设置。
术语映射模型可以用于确定目标标准词与待识别词之间的相关度。相关度的数值范围在0至1之间,根据相关度的数值可以确定目标标准词和待识别词之间的相关程度,进而确定与待识别词相对应的标准词。
基于上述S201至S208的相关内容可知,本申请实施例提供的建立术语映射模型的方法,先通过对标准词和非标准词进行实体识别以便得到对应的分词,再提取第一分词和第二分词的文本特征。通过基于实体识别结果进行分词,可以得到具有实体含义的分词,提取得到的分词的文本特征可以更为准确地反映标准词和非标准词的特征。之后根据标准词和非标准词之间是否具有对应关系进行组合,得到第一文本组合和第二文本组合。将第一文本组合和第二文本组合中的标准词和非标准词的分词特征进行拼接,再将得到的标准词总体文本特征和非标准词的总体文本特征进行拼接,对应生成正样本训练数据和负样本训练数据。正样本训练数据和负样本训练数据可以从具有对应关系和不具有对应关系两个方面对术语映射模型进行训练,生成的术语映射模型准确度较高,并且提升了确定待识别词和标准词的对应关系的效率。
上述方法中,通过先提取分词的文本特征,再拼接得到标准词和非标准词总体文本特征,可以从分词的角度体现标准词和非标准词汇的局部特征,能够更多地关注标准词和非标准词的部分信息。但是,可能会忽略标准词和非标准词的全局特征,无法关注标准词和非标准词的整体信息。
基于此,本申请实施例还提供了一种建立术语映射模型的方法,参见图3所示,该图为本申请实施例提供的另一种建立术语映射模型的方法的流程图,该建立术语映射模型的方法除了包括上述S201-S208以外,还包括S209-S211。
S209:提取标准词的文本特征以及非标准词的文本特征。
为了获取标准词的全局特征以及非标准词的全局特征,在获取标准词划分的第一分词的文本特征和非标准词划分的第二分词的文本特征之外,还可以提取标准词的文本特征以及非标准词的文本特征。提取的标准词的文本特征以及非标准词的文本特征可以从标准词或者是非标准词整体的角度体现词汇的特征。
在一种可能的实现方式中,可以在基于提取的标准词的文本特征的基础上,进行对标准词的文本特征的实体识别以及对应的分词。同样的,在基于提取的非标准词的文本特征的基础上,进行对非标准词的的文本特征进行实体识别以及分词。
此外,为了增强与上下文的关联程度,提取的标准词的文本特征可以为BERT特征,提取的非标准词的文本特征可以为BERT特征。
为了使得生成的正样本训练数据可以更好地体现具有对应关系的标准词和非标准词的特征,在将第一文本组合中标准词对应的文本特征与第一文本组合中非标准词对应的文本特征进行拼接生成正样本训练数据(即上述S205)之前,执行S210。
S210:将第一文本组合中标准词对应的文本特征与第一文本组合中标准词的总体文本特征进行拼接重新生成第一文本组合中标准词对应的总体文本特征;将第一文本组合中非标准词对应的文本特征与第一文本组合中非标准词的总体文本特征进行拼接重新生成第一文本组合中非标准词对应的总体文本特征。
在得到根据第一分词的文本特征拼接而成的总体文本特征之后,将第一文本组合中该标准词对应的文本特征与总体文本特征进行拼接,得到具有标准词的全局特征的总体文本特征。
采用同样的方法,得到重新拼接后的具有全局特征的非标准词的总体文本特征。
通过将由局部特征组成的总体文本特征与具有全局特征的文本特征拼接,可以得到具有局部特征和全局特征总体文本特征。通过重新拼接后的总体文本特征可以得到对应的标准词或者是非标准词的局部信息和全局信息,能够更加准确地反映标准词以及非标准词的特征。
相同的,在将第二文本组合中标准词对应的文本特征与第二文本组合中非标准词对应的文本特征进行拼接生成负样本训练数据(即上述S207)之前,执行S211。
S211:将第二文本组合中标准词对应的文本特征与第二文本组合中标准词的总体文本特征进行拼接重新生成第二文本组合中标准词对应的总体文本特征;将第二文本组合中非标准词对应的文本特征与第二文本组合中非标准词的总体文本特征进行拼接重新生成第二文本组合中非标准词对应的总体文本特征。
S211与上述S210类似,在对第二文本组合中的标准词的总体文本特征和非标准词的总体文本特征进行拼接之前,先将标准词的文本特征与总体文本特征进行拼接,得到重新拼接后的标准词的总体文本特征。将非标准词的文本特征与总体文本特征进行拼接,得到重新拼接后的非标准词的总体文本特征。如此,得到具有局部特征以及全局特征的标准词的总体文本特征和非标准词的总体文本特征,使得后续得到的负样本训练数据能够更加全面地体现标准词和非标准词的特征。
在本申请实施例中,在获取标准词和非标准词的分词的文本特征以外,提取标准词和非标准词的文本特征。在获取由对应的分词的文本特征拼接得到的总体文本特征之后,与对应的标准词和非标准词的文本特征进行拼接,得到重新拼接后的总体文本特征。得到的总体文本特征具有对应的标准词或者非标准词的全局特征,以及对应的标准词或者非标准词的各个分词的局部特征,较为全面的反映了标准词或者非标准词的特征,使得训练得到的术语映射模型准确度较高。
具体的,在一种可能的实现方式中,所要映射的术语应用于医学领域中,标准词可以为手术标准词,相对应的,非标准词可以为手术非标准词。
在一种可能的实现方式中,通过对标准词进行实体识别,将标准词划分为至少两个第一分词,具体可以为:
通过对手术标准词进行部位类别的实体识别以及操作类别的实体识别,将手术标准词划分为部位类别第一分词以及操作类别第一分词,部位类别第一分词以及操作类别第一分词构成手术标准词包括的第一分词。
在医学领域中,尤其是与手术相关的词汇,大多由手术执行的部位以及具体的手术操作两个部分组成。针对手术标准词,具体的实体类型可以包括部位类别以及操作类别。
对手术标准词进行实体识别,得到标注实体类型的手术标准词。根据标注的不同的实体类型,对手术标准词进行划分。具体为将手术标准词划分为部位类别第一分词和操作类别第一分词。部位类别第一分词和操作类别第一分词共同组成手术标准词包括的第一分词。
以手术标准词“肺叶部分切除术”为例,实体识别后,“肺叶部分”具有部位类别的标注,“切除术”具有操作类别的标注。对“肺叶部分切除术”进行分词,可以得到部位类别第一分词“肺叶部分”和操作类别第一分词“切除术”。
通过对非标准词进行实体识别,将非标准词划分为至少两个第二分词,具体包括:
通过对手术非标准词进行部位类别的实体识别以及操作类别的实体识别,将手术非标准词划分为部位类别第二分词以及操作类别第二分词,部位类别第二分词以及操作类别第二分词构成手术非标准词包括的第二分词。
相似的,手术非标准词通常是由部位和操作两个部分组成的,具体的实体类型可以与标准词相对应的设置为部位类别以及操作类别。
对手术非标准词进行实体识别,根据实体识别的结果对手术非标准词进行划分,得到的第二分词中包括部位类别第二分词以及操作类别第二分词。
在本申请实施例中,针对手术标准词和手术非标准词进行部位类别和操作类别的实体识别。基于这两种实体类型进行分词的划分,可以更为准确地提取手术标准词和手术非标准词的特征。
可以理解的是,对于不同的手术非标准词而言,部位类型第二分词可能具有不同的方位词,但是可以均对应于同样的手术标准词。例如,“左肺上叶部分切除术”和“右肺上叶部分切除术”这两个手术非标准词中的部位类型第二分词具有不同的方位词。但是“左肺上叶”和“右肺上叶”均是肺叶的一部分,“左肺上叶部分切除术”与“右肺上叶部分切除术”均对应于手术标准词“肺叶部分切除术”。如果在术语映射模型的训练时,训练数据较为单一,不存在具有不同方位词的部位类型第二分词,训练得到的术语映射模型可能不具有对于方位词的泛化能力。
基于此,本申请实施例还提供了一种提高术语映射模型泛化能力的训练方法,包括以下两个步骤,具体可以应用于上述两种术语映射模型的训练生成过程中。
A1:如果部位类别第二分词包括预设方位词,将部位类别第二分词中包括的预设方位词替换为预设方位词对应的替代方位词,生成部位类别第二分词对应的部位类别替换分词。
在生成正样本训练数据和负样本训练数据的过程中,如果对手术非标准词进行分词后,得到的部位类别第二分词包括预设方位词,可以对预设方位词进行替换。
其中,预设方位词可以是不影响该手术非标准词与对应的手术标准词之间的对应关系的方位词。例如,“上”、“下”、“左”、“右”、“前”、“后”等方位词均可以作为预设方位词。需要说明的是,部分方位词可能会影响到具体的部位类别,影响手术非标准词对应的手术标准词,此类方位词不能作为预设方位词进行替换。
根据预设方位词对应的替代方位词对部位类别第二分词中的预设方位词进行替换,得到与部位类别第二分词对应的部位类别替换分词。由于手术部位是基于生物组织结构的,较为特殊,预设方位词具有预先设定的对应的替代方位词。
例如,当部位类别第二分词为“前额叶”时,可以将预设方位词“前”替换为预先设置的对应的替代方位词“后”,得到对应的部位类别替换分词“后额叶”。
A2:将部位类别替换分词与操作类别第二分词组成新的手术非标准词。
在得到部位类别替换分词后,将部位类别替换分词与操作类别第二分词进行组合,得到新的手术非标准词,用于文本特征的提取。
以上述部位类别替换分词“后额叶”为例,与原手术非标准词“前额叶切除术”中的操作类别第二分词“切除术”组成新的手术非标准词“后额叶切除术”。
基于上述内容可知,本申请实施例通过确定预设方位词以及对应的替代方位词,对手术非标准词中的部位类型第二分词进行对应的替换,得到部位类别替换分词,进而得到具有不同的方位词的新的手术非标准词。扩大了用于模型训练的手术非标准词的数量,并且通过对预设方位词进行替换,利用得到的新的手术非标准词进行训练,增强了术语映射模型的泛化能力,提高了术语映射模型的准确度。
基于上述实施例中提供的建立术语映射模型的方法,本申请实施例还提供了对应的实现标准词映射的方法,下面对实现标准词映射的方法进行说明。
参见图4所示,该图为本申请实施例提供的一种实现标准词映射的方法的流程图,该方法包括步骤S401-S405:
S401:通过对待识别词进行实体识别,将待识别词划分为至少两个第三分词。
待识别词为需要确定对应的标准词的词汇,待识别可以为需要确定对应的标准词的非标准词。
在进行对待识别词与目标标准词的相关度的确定的过程中,先对待识别词进行实体识别,对应于实体识别结果将待识别词划分为至少两个第三分词。
参见图5所示,该图为本申请实施例提供的一种实现标准词映射的示意图。其中,待识别词为“桡骨小头切除术”,先将待识别词输入至Bi-LSTM(Bidirectional LongShort-Term Memory,双向长短期记忆网络)中,实现对于待识别词的实体识别。根据对应的实体识别的结果,将“桡骨小头切除术”划分为“桡骨小头”和“切除术”两个第三分词。
S402:提取第三分词的文本特征。
在得到待识别词的第三分词之后,对第三分词进行文本特征的提取。具体的,提取的第三文本的文本特征可以为BERT特征。
参见图5所示,将“桡骨小头”输入至BERT模型中,得到对应于“桡骨小头”的BERT特征;将“切除术”输入至BERT模型中,得到对应于“切除术”的BERT特征。
S403:获取目标标准词包括的各个第一分词的文本特征;目标标准词分别为标准词中的每一个。
相对应的,获取目标标准词包括的各个第一分词的文本特征。
其中,目标标准词为标准词中的任意一个。在确定了待识别词与该目标标准词的相关度之后,在标准词中选取另一个标准词作为目标标准词,得到待识别词与该目标标准词的相关度。并以此类推,在得到待识别词与标准词中的全部的目标标准词的相关度后,根据与各个目标标准词相对应的相关度确定待识别词对应的标准词。
对目标标准词进行实体识别,得到目标标准词的各个第一分词,并对目标标准词的各个第一分词进行文本特征的提取。
仍以上述待识别词为“桡骨小头切除术”为例,目标标准词为“桡骨部分切除术”。将“桡骨部分切除术”输入至Bi-LSTM中,得到“桡骨”和“部分切除术”两个第一分词。再将“桡骨”和“部分切除术”两个第一分词分别输入至BERT模型中,得到对应的BERT特征。
S404:将目标标准词包括的各个第一分词的文本特征与待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得目标标准词与待识别词之间的相关度。
先将目标标准词包括的各个第一分词的文本特征进行拼接,得到与目标标准词对应的文本特征;对应的,将待识别词包括的各个第三分词的文本特征进行拼接,得到与待识别词对应的文本特征。再将目标标准词对应的文本特征与待识别词对应的文本特征进行拼接,得到输入术语映射模型的文本特征。
需要说明的是,本申请实施例中使用的术语映射模型是采用上述建立术语映射模型的方法中,通过由分词对应的文本特征拼接而成的正样本训练数据和负样本训练数据训练生成得到的。
以上述示例为例,将待识别词的“桡骨小头”的BERT特征和“切除术”的BERT特征进行拼接,得到对应于“桡骨小头切除术”的BERT特征。将目标标准词的“桡骨”和“部分切除术”对应的BERT特征进行拼接,得到对应于“桡骨部分切除术”的BERT特征。最后,将对应于“桡骨小头切除术”的BERT特征和对应于“桡骨部分切除术”的BERT特征进行拼接,得到用于输入术语映射模型的BERT特征。得到术语映射模型输出的对应的相关度0.75。
S405:在各个目标标准词与待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为待识别词对应的标准词。
在得到各个目标标准词与待识别词的相关度后,对各个相关度进行比较,选取最大相关度对应的目标标准词。最大相关度对应的目标标准词与待识别词的对应程度最高,将最大相关度对应的目标标准词作为待识别词对应的标准词。
在本申请实施例中,通过获取待识别词和目标标准词分别包括的分词的文本特征,并对获取到的文本特征进行拼接,得到用于输入术语映射模型的文本特征。通过术语映射模型输出的待识别词和目标标准词之间的相关度,可以确定与待识别词相关程度最高的目标标准词,进而可以确定待识别词所对应的标准词。通过术语映射模型确定的待识别词对应的标准词,准确度较高,并且可以对大量的待识别词进行快速处理,提高了确定待识别词对应的标准词的效率,降低了人工确定待识别词对应的标准词的成本。
进一步的,对于基于分词的文本特征以及标准词和非标准词的文本特征生成的训练数据,训练得到的术语映射模型,本申请实施例提供了一种对应的实现标准词映射的方法。
参见图6所示,该图为本申请实施例提供的一种实现标准词映射的方法的流程图,该方法包括步骤S601-S609:
其中,S601-S603与上述S401-S403相同,在此不再赘述。
S604:提取待识别词的文本特征。
进一步的,在对待识别词进行实体识别,划分第三分词之前,先提取待识别词的文本特征。具体的,该文本特征可以为BERT特征。
参见图7所示,该图为本申请实施例提供的另一种实现标准词映射的示意图。其中,待识别词为“桡骨小头切除术”,目标标准词为“桡骨部分切除术”。在将“桡骨小头切除术”输入至Bi-LSTM之前,先将“桡骨小头切除术”输入至BERT模型中,提取“桡骨小头切除术”整体的BERT特征。
S605:获取目标标准词的文本特征。
同样的,获取目标标准词的文本特征。其中,文本特征可以为BERT特征。
以上述示例为例,将目标标准词为“桡骨部分切除术”输入至BERT模型中,提取“桡骨部分切除术”整体的BERT特征。
S606:将目标标准词的文本特征与目标标准词包括的各个第一分词的文本特征进行拼接,生成目标标准词对应的总体文本特征。
将目标标准词的文本特征与目标标准词包括的各个第一分词的文本特征进行拼接,得到具有局部特征和全局特征的总体文本特征。
以上述示例为例,将“桡骨”和“部分切除术”对应的BERT特征进行拼接,并与得到的“桡骨部分切除术”的整体的BERT特征拼接,得到“桡骨部分切除术”对应的总体文本特征。
S607:将待识别词的文本特征与待识别词包括的各个第三分词的文本特征进行拼接,生成待识别词对应的总体文本特征。
将待识别词的文本特征与待识别词包括的各个第一分词的文本特征进行拼接,得到具有局部特征和全局特征的总体文本特征。
仍以上述示例为例,将“桡骨小头”的BERT特征和“切除术”的BERT特征进行拼接,得到对应于“桡骨小头切除术”的BERT特征,再与提取到的“桡骨小头切除术”整体的BERT特征进行拼接,得到“桡骨小头切除术”的总体文本特征。
S608:将目标标准词对应的总体文本特征与待识别词对应的总体文本特征进行拼接,输入术语映射模型,获得目标标准词与待识别词之间的相关度。
在本申请实施例中,使用的术语映射模型是上述基于分词的文本特征以及标准词和非标准词的文本特征训练得到的术语映射模型。
相对应的,将目标标准词对应的总体文本特征与待识别词对应的总体文本特征进行拼接,得到输入至术语映射模型中的文本特征。术语映射模型根据输入的文本特征输出对应的相关度,以便确定待识别词与目标标准词的相关程度,确定待识别词对应的标准词。
S609为确定待识别词对应的标准词的方法,与上述S404相同,在此不再赘述。
在本申请实施例中,通过获取待识别词和目标标准词分别包括的分词的文本特征,以及待识别词和目标标准词的文本特征,对获取到的文本特征进行拼接,得到具有局部特征和全局特征的文本特征。再通过术语映射模型输出的待识别词和目标标准词之间的相关度,可以确定与待识别词相关程度最高的目标标准词,进而可以确定待识别词所对应的标准词。通过输入具有局部特征和全局特征的文本特征,对应的术语映射模型输出的相关度更加准确,提高了确定待识别词对应的标准词的效率。
在一种可能的实现方法中,对于上述两种实现标准词映射的方法,在具体的医学领域,标准词可以为手术标准词,待识别词为手术非标准词。
其中,S401以及S601具有一种可能的实现方式,具体包括:
通过对待识别词进行部位类别的实体识别以及操作类别的实体识别,将待识别词划分为部位类别第三分词以及操作类别第三分词,部位类别第三分词以及操作类别第三分词构成待识别词包括的第三分词。
需要说明的是,对于具体的医学领域,所使用的标准词和非标准词大多由部位和操作组成。可以先对待识别词进行部位类别以及操作类别的实体识别,并根据识别结果进行第三分词的划分,再将待识别词划分为部位类别第三分词以及操作类别第三分词。其中,第三分词由部位类别第三分词和操作类别第三分词构成。
相对应的,目标标准词包括的各个第一分词为目标手术标准词包括的部位类别第一分词以及操作类别第一分词。
在本申请实施例中,针对于具体的医学领域,可以基于手术标准词和手术非标准词的结构,将实体识别的实体类型设置为部位类别和操作类别。如此得到的待识别词和目标标准词对应的分词更加准确,提高了在医学领域下术语映射模型的准确性。
基于上述方法实施例提供的建立术语映射模型的方法,本申请实施例还提供了一种建立术语映射模型的装置,下面将结合附图对该建立术语映射模型的装置进行说明。
参见图8,该图为本申请实施例提供的一种建立术语映射模型的装置的结构示意图。如图8所示,该建立术语映射模型的装置包括:
第一划分单元801,用于通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词;
第二划分单元802,用于通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词;
第一提取单元803,用于提取所述第一分词的文本特征以及所述第二分词的文本特征;
第一拼接单元804,用于将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一所述第一文本组合包括具有对应关系的标准词与非标准词;
第二拼接单元805,用于将所述第一文本组合中标准词对应的总体文本特征与所述第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;
第三拼接单元806,用于将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一所述第二文本组合包括不具有对应关系的标准词与非标准词;
第四拼接单元807,用于将所述第二文本组合中标准词对应的总体文本特征与所述第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;
训练单元808,用于利用所述正样本训练数据以及所述负样本训练数据,训练生成术语映射模型,所述术语映射模型用于输出目标标准词与待识别词之间的相关度。
可选的,所述装置还包括:
第二提取单元,用于提取所述标准词的文本特征以及所述非标准词的文本特征;
第五拼接单元,用于在将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中非标准词对应的文本特征进行拼接生成正样本训练数据之前,将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中标准词的总体文本特征进行拼接重新生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词对应的文本特征与所述第一文本组合中非标准词的总体文本特征进行拼接重新生成所述第一文本组合中非标准词对应的总体文本特征;
第六拼接单元,用于在将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中非标准词对应的文本特征进行拼接生成负样本训练数据之前,将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中标准词的总体文本特征进行拼接重新生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词对应的文本特征与所述第二文本组合中非标准词的总体文本特征进行拼接重新生成所述第二文本组合中非标准词对应的总体文本特征。
可选的,所述标准词为手术标准词,所述非标准词为手术非标准词;
所述第一划分单元801,具体用于通过对手术标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术标准词划分为部位类别第一分词以及操作类别第一分词,所述部位类别第一分词以及所述操作类别第一分词构成所述手术标准词包括的第一分词;
所述第二划分单元802,具体用于:
通过对手术非标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术非标准词划分为部位类别第二分词以及操作类别第二分词,所述部位类别第二分词以及所述操作类别第二分词构成所述手术非标准词包括的第二分词。
可选的,所述装置还包括:
替换单元,用于如果所述部位类别第二分词包括预设方位词,将所述部位类别第二分词中包括的预设方位词替换为所述预设方位词对应的替代方位词,生成所述部位类别第二分词对应的部位类别替换分词;
组成单元,用于将所述部位类别替换分词与所述操作类别第二分词组成新的手术非标准词。
可选的,所述文本特征为BERT特征。
基于上述方法实施例提供的实现标准词映射的方法,本申请实施例还提供了一种实现标准词映射的装置,下面将结合附图对该实现标准词映射的装置进行说明。
参见图9,该图为本申请实施例提供的一种实现标准词映射的装置的结构示意图。如图9所示,该实现标准词映射的装置包括:
第三划分单元901,用于通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词;
第三提取单元902,用于提取所述第三分词的文本特征;
第一获取单元903,用于获取目标标准词包括的各个第一分词的文本特征;所述目标标准词分别为所述标准词中的每一个;
相关度获取单元904,用于将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度;所述术语映射模型为根据上述建立术语映射模型的装置建立的;
标准词确定单元905,用于在各个所述目标标准词与所述待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为所述待识别词对应的标准词。
可选的,所述装置还包括:
第四提取单元,用于提取所述待识别词的文本特征;
第二获取单元,用于获取所述目标标准词的文本特征;
第七拼接单元,用于将所述目标标准词的文本特征与所述目标标准词包括的各个第一分词的文本特征进行拼接,生成所述目标标准词对应的总体文本特征;
第八拼接单元,用于将所述待识别词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,生成所述待识别词对应的总体文本特征;
所述相关度获取单元904,具体用于将所述目标标准词对应的总体文本特征与所述待识别词对应的总体文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度,所述术语映射模型为根据上述建立术语映射模型的装置建立的。
可选的,所述标准词为手术标准词,所述待识别词为手术非标准词;
所述第三划分单元901,具体用于通过对待识别词进行部位类别的实体识别以及操作类别的实体识别,将所述待识别词划分为部位类别第三分词以及操作类别第三分词,所述部位类别第三分词以及所述操作类别第三分词构成所述待识别词包括的第三分词;
所述目标标准词包括的各个第一分词为目标手术标准词包括的部位类别第一分词以及操作类别第一分词。
可选的,所述文本特征为BERT特征。
另外,本申请实施例还提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的建立术语映射模型的方法的任一实施方式,或者实现如上述实施例所述的实现标准词映射的方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述实施例所述的建立术语映射模型的方法的任一实施方式,或者实现如上述实施例所述的实现标准词映射的方法的任一实施方式。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种建立术语映射模型的方法,其特征在于,所述方法包括:
通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词;
通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词;
提取所述第一分词的文本特征以及所述第二分词的文本特征;
将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一所述第一文本组合包括具有对应关系的标准词与非标准词;
将所述第一文本组合中标准词对应的总体文本特征与所述第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;
将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一所述第二文本组合包括不具有对应关系的标准词与非标准词;
将所述第二文本组合中标准词对应的总体文本特征与所述第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;
利用所述正样本训练数据以及所述负样本训练数据,训练生成术语映射模型,所述术语映射模型用于输出目标标准词与待识别词之间的相关度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述标准词的文本特征以及所述非标准词的文本特征;
在将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中非标准词对应的文本特征进行拼接生成正样本训练数据之前,将所述第一文本组合中标准词对应的文本特征与所述第一文本组合中标准词的总体文本特征进行拼接重新生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词对应的文本特征与所述第一文本组合中非标准词的总体文本特征进行拼接重新生成所述第一文本组合中非标准词对应的总体文本特征;
在将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中非标准词对应的文本特征进行拼接生成负样本训练数据之前,将所述第二文本组合中标准词对应的文本特征与所述第二文本组合中标准词的总体文本特征进行拼接重新生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词对应的文本特征与所述第二文本组合中非标准词的总体文本特征进行拼接重新生成所述第二文本组合中非标准词对应的总体文本特征。
3.根据权利要求1或2所述的方法,其特征在于,所述标准词为手术标准词,所述非标准词为手术非标准词;
所述通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词,包括:
通过对手术标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术标准词划分为部位类别第一分词以及操作类别第一分词,所述部位类别第一分词以及所述操作类别第一分词构成所述手术标准词包括的第一分词;
所述通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词,包括:
通过对手术非标准词进行部位类别的实体识别以及操作类别的实体识别,将所述手术非标准词划分为部位类别第二分词以及操作类别第二分词,所述部位类别第二分词以及所述操作类别第二分词构成所述手术非标准词包括的第二分词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述部位类别第二分词包括预设方位词,将所述部位类别第二分词中包括的预设方位词替换为所述预设方位词对应的替代方位词,生成所述部位类别第二分词对应的部位类别替换分词;
将所述部位类别替换分词与所述操作类别第二分词组成新的手术非标准词。
5.一种实现标准词映射的方法,其特征在于,所述方法包括:
通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词;
提取所述第三分词的文本特征;
获取目标标准词包括的各个第一分词的文本特征;所述目标标准词分别为所述标准词中的每一个;
将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度;所述术语映射模型为根据权利要求1、3-4任一项所述的建立术语映射模型的方法建立的;
在各个所述目标标准词与所述待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为所述待识别词对应的标准词。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
提取所述待识别词的文本特征;
获取所述目标标准词的文本特征;
将所述目标标准词的文本特征与所述目标标准词包括的各个第一分词的文本特征进行拼接,生成所述目标标准词对应的总体文本特征;
将所述待识别词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,生成所述待识别词对应的总体文本特征;
所述将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度,包括:
将所述目标标准词对应的总体文本特征与所述待识别词对应的总体文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度,所述术语映射模型为根据权利要求2-4任一项所述的建立术语映射模型的方法建立的。
7.一种建立术语映射模型的装置,其特征在于,所述装置包括:
第一划分单元,用于通过对标准词进行实体识别,将所述标准词划分为至少两个第一分词;
第二划分单元,用于通过对非标准词进行实体识别,将所述非标准词划分为至少两个第二分词;
提取单元,用于提取所述第一分词的文本特征以及所述第二分词的文本特征;
第一拼接单元,用于将第一文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第一文本组合中标准词对应的总体文本特征;将所述第一文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第一文本组合中非标准词对应的总体文本特征;每一所述第一文本组合包括具有对应关系的标准词与非标准词;
第二拼接单元,用于将所述第一文本组合中标准词对应的总体文本特征与所述第一文本组合中非标准词对应的总体文本特征进行拼接生成正样本训练数据;
第三拼接单元,用于将第二文本组合中标准词包括的各个第一分词的文本特征进行拼接生成所述第二文本组合中标准词对应的总体文本特征;将所述第二文本组合中非标准词包括的各个第二分词的文本特征进行拼接生成第二文本组合中非标准词对应的总体文本特征;每一所述第二文本组合包括不具有对应关系的标准词与非标准词;
第四拼接单元,用于将所述第二文本组合中标准词对应的总体文本特征与所述第二文本组合中非标准词对应的总体文本特征进行拼接生成负样本训练数据;
训练单元,用于利用所述正样本训练数据以及所述负样本训练数据,训练生成术语映射模型,所述术语映射模型用于输出目标标准词与待识别词之间的相关度。
8.一种实现标准词映射的装置,其特征在于,所述装置包括:
第三划分单元,用于通过对待识别词进行实体识别,将所述待识别词划分为至少两个第三分词;
第三提取单元,用于提取所述第三分词的文本特征;
第一获取单元,用于获取目标标准词包括的各个第一分词的文本特征;所述目标标准词分别为所述标准词中的每一个;
相关度获取单元,用于将所述目标标准词包括的各个第一分词的文本特征与所述待识别词包括的各个第三分词的文本特征进行拼接,输入术语映射模型,获得所述目标标准词与所述待识别词之间的相关度;所述术语映射模型为根据权利要求1、3-4任一项所述的建立术语映射模型的装置建立的;
标准词确定单元,用于在各个所述目标标准词与所述待识别词之间的相关度中,将相关度最大值对应的目标标准词确定为所述待识别词对应的标准词。
9.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4任一项所述的建立术语映射模型的方法,或者,实现如权利要求5-6任一项所述的实现标准词映射的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-4任一项所述的建立术语映射模型的方法,或者,实现如权利要求5-6任一项所述的实现标准词映射的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010856471.8A CN112101030B (zh) | 2020-08-24 | 2020-08-24 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010856471.8A CN112101030B (zh) | 2020-08-24 | 2020-08-24 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101030A true CN112101030A (zh) | 2020-12-18 |
CN112101030B CN112101030B (zh) | 2024-01-26 |
Family
ID=73753239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010856471.8A Active CN112101030B (zh) | 2020-08-24 | 2020-08-24 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101030B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761913A (zh) * | 2021-08-23 | 2021-12-07 | 南京优飞保科信息技术有限公司 | 一种话术文本的处理方法和系统 |
CN115034318A (zh) * | 2022-06-17 | 2022-09-09 | 中国平安人寿保险股份有限公司 | 标题判别模型的生成方法和装置、设备、介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078631A1 (en) * | 2010-09-26 | 2012-03-29 | Alibaba Group Holding Limited | Recognition of target words using designated characteristic values |
US20120284016A1 (en) * | 2009-12-10 | 2012-11-08 | Nec Corporation | Text mining method, text mining device and text mining program |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
WO2015166606A1 (ja) * | 2014-04-29 | 2015-11-05 | 楽天株式会社 | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム |
US20160253309A1 (en) * | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110335653A (zh) * | 2019-06-30 | 2019-10-15 | 浙江大学 | 基于openEHR病历格式的非标准病历解析方法 |
CN110597991A (zh) * | 2019-09-10 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
US20200134422A1 (en) * | 2018-10-29 | 2020-04-30 | International Business Machines Corporation | Relation extraction from text using machine learning |
CN111177507A (zh) * | 2019-12-31 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 多标记业务处理的方法及装置 |
CN111259664A (zh) * | 2020-01-14 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 医学文本信息的确定方法、装置、设备及存储介质 |
CN111310438A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111368037A (zh) * | 2020-03-06 | 2020-07-03 | 平安科技(深圳)有限公司 | 基于Bert模型的文本相似度计算方法和装置 |
-
2020
- 2020-08-24 CN CN202010856471.8A patent/CN112101030B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284016A1 (en) * | 2009-12-10 | 2012-11-08 | Nec Corporation | Text mining method, text mining device and text mining program |
US20120078631A1 (en) * | 2010-09-26 | 2012-03-29 | Alibaba Group Holding Limited | Recognition of target words using designated characteristic values |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
WO2015166606A1 (ja) * | 2014-04-29 | 2015-11-05 | 楽天株式会社 | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム |
US20160253309A1 (en) * | 2015-02-26 | 2016-09-01 | Sony Corporation | Apparatus and method for resolving zero anaphora in chinese language and model training method |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
US20200134422A1 (en) * | 2018-10-29 | 2020-04-30 | International Business Machines Corporation | Relation extraction from text using machine learning |
CN110335653A (zh) * | 2019-06-30 | 2019-10-15 | 浙江大学 | 基于openEHR病历格式的非标准病历解析方法 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110597991A (zh) * | 2019-09-10 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
CN111177507A (zh) * | 2019-12-31 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 多标记业务处理的方法及装置 |
CN111259664A (zh) * | 2020-01-14 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 医学文本信息的确定方法、装置、设备及存储介质 |
CN111310438A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111368037A (zh) * | 2020-03-06 | 2020-07-03 | 平安科技(深圳)有限公司 | 基于Bert模型的文本相似度计算方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘婷婷: "电力大数据中文地址解析和规范化方法研究", 电力信息与通信技术, vol. 15, no. 05, pages 1 - 7 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761913A (zh) * | 2021-08-23 | 2021-12-07 | 南京优飞保科信息技术有限公司 | 一种话术文本的处理方法和系统 |
CN113761913B (zh) * | 2021-08-23 | 2024-02-23 | 南京优飞保科信息技术有限公司 | 一种话术文本的处理方法和系统 |
CN115034318A (zh) * | 2022-06-17 | 2022-09-09 | 中国平安人寿保险股份有限公司 | 标题判别模型的生成方法和装置、设备、介质 |
CN115034318B (zh) * | 2022-06-17 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 标题判别模型的生成方法和装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112101030B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417350B1 (en) | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
US20220301670A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
CN109710925A (zh) | 命名实体识别方法及装置 | |
CN110033760A (zh) | 语音识别的建模方法、装置及设备 | |
CN108460014A (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN105612522A (zh) | 用于基于内容的医学宏分类和搜索系统的系统和方法 | |
CN112101030A (zh) | 建立术语映射模型、实现标准词映射的方法、装置及设备 | |
CN109299467B (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN113806500A (zh) | 信息处理方法、装置和计算机设备 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、系统及设备 | |
CN107122582B (zh) | 面向多数据源的诊疗类实体识别方法及装置 | |
CN111831833A (zh) | 知识图谱的构建方法及装置 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN108536671B (zh) | 文本数据的情感指数识别方法和系统 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN112949305B (zh) | 负反馈信息采集方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |