CN112507107A

CN112507107A - 术语匹配方法、装置、终端和计算机可读存储介质

Info

Publication number: CN112507107A
Application number: CN201910869178.2A
Authority: CN
Inventors: 王利; 宋志朋
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2021-03-16
Also published as: WO2021051763A1

Abstract

本发明提供了一种术语匹配方法、装置、终端、和计算机可读存储介质，其中，术语匹配方法包括：根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度，其中，加权求和相似度的值用于表示第一术语和第二术语的匹配度。通过本发明的技术方案能够实现术语系统(术语词典)之间术语的自动匹配，代替人工操作，降低错误率，有助于促进医疗数据集成、分析和再利用。

Description

术语匹配方法、装置、终端和计算机可读存储介质

技术领域

本发明涉及医疗信息化领域，具体而言，涉及一种术语匹配方法、一种术语匹配装置、一种终端和一种计算机可读存储介质。

背景技术

医学术语(下文简称术语)是医学领域里的专业用语，用来指称医学领域里的各种事物、现象、特性、关系和过程等，例如，疾病、药物、手术操作、检查检验等。这些术语是临床信息系统表达医学信息的必要成分。

国内医学术语相关标准匮乏，体系尚不完整。这些术语标准中的术语在粒度和表达上与临床实际应用场景中的术语都存在很大差异，很难直接应用于临床信息系统中。因此，我国大部分医疗机构的医学信息系统创建了自己的私有术语字典，由于医疗信息系统厂商众多，同一机构的不同系统的同类术语字典都存在差异，例如，药品术语字典之间存在差异。这些原因导致各个临床信息系统中术语名称和编码的异构现象十分严重，使得医疗信息系统之间无法互操作，医疗数据难以共享。对此，不同医疗信息系统之间的信息交换则需要将不同系统的术语字典进行映射匹配。目前，这项工作一般由人工操作，出错率比较高，成为医疗数据集成、分析和再利用的瓶颈环节。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个目的在于提供一种术语匹配方法。

本发明的另一个目的在于提供一种术语匹配装置。

本发明的另一个目的在于提供一种终端。

本发明的另一个目的在于提供一种计算机可读存储介质。

为了实现上述目的，根据本发明的第一方面的技术方案，提供了一种术语匹配方法，包括：根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度，其中，加权求和相似度的值用于表示第一术语和第二术语的匹配度。

在该技术方案中，考虑到术语组成的复杂性，以多种相似度计算方法从多个维度对两个待匹配术语(第一术语和第二术语)的相似度进行计算，即通过至少两种相似度计算算法对术语之间的相似度进行计算，对应生成至少两个相似度值，并通过加权求和的方式整合多个(至少两个)相似度，以加权求和相似度来表示两个术语的匹配程度。其中，对应于多种相似度计算方法，会生成多个相似度值，而赋予权重的过程能够平衡多种相似度计算方法对最终求和相似度的影响，能够综合多种相似度计算方法的特点对术语的匹配度进行准确表示。提升了术语匹配准确度，解决了人工操作效率低，错误率高的问题，有利于促进医疗信息共享。

其中，需要特别指出的是，本申请中提出的多种相似度计算方法至少包括两种相似度计算方法，例如，若利用2种算法计算第一术语和第二术语之间的相似度，则对应生成2个相似度值，若利用3种算法计算第一术语和第二术语之间的相似度，则对应生成3个相似度值，若利用4种算法计算第一术语和第二术语之间的相似度，则对应生成4个相似度值。基于多个相似度值进行后续的加权求和计算，加权求和计算得到的加权求和相似度用于表示术语之间的匹配程度，单独一种相似度值不用于表示术语之间的匹配度。仅使用一种相似度计算方法计算术语之间的相似度并以此为依据表示术语之间匹配程度的方法不包括在本申请的技术方案中。

根据上述技术方案的术语匹配方法，可选地，在第一术语系统中指定一个术语，作为第一术语，在第二术语系统中任取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第二术语的取值，每改变一次第二术语则进行一次计算，从而生成多个加权求和相似度，其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。

在该技术方案中，术语系统中包含多条术语，每个术语由一串字符组成，在第一术语系统中选定一个术语(第一术语)，遍历第二术语系统中的术语(第二术语)，每次从第二术语系统中选取一个术语与第一术语系统中的术语进行加权求和相似度计算，通过多次选取可计算出多个加权求和相似度值，其中最大的值对应的第二术语系统中的术语即为匹配结果。提升了术语匹配准确度，建立术语匹配映射关系的效率较高，相较于人工操作明显提升了速度降低了错误率。

根据上述任一项技术方案的术语匹配方法，可选地，在第一术语系统中取一个术语，作为第一术语，在第二术语系统中取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第一术语和第二术语的取值，进行计算，从而生成多个加权求和相似度；对多个加权求和相似度进行求和运算，生成总匹配度值，总匹配度值用于表示第一术语系统和第二术语系统的匹配度。

在该技术方案中，术语系统中包含多条术语，每个术语由一串字符组成。从第一术语系统和第二术语系统中各抽取一个术语，并以多种方法求这两个术语的相似度值，进而求取加权求和相似度，经过多次抽取并进行求和相似度的计算(计算出两个术语系统中两两术语之间的加权求和相似度)，能够得到多个求和相似度值，这些相似度值累加得到总匹配度值，总匹配度值能够表示第一术语系统和第二术语系统之间的匹配度。

根据上述任一项技术方案的术语匹配方法，可选地，计算过程具体还包括：在赋予权重的步骤中，通过多种权重组合对多个相似度值进行加权求和，以使每种权重组合对应生成一个总匹配度值，多种权重组合则生成多个总匹配度值；记录多个总匹配度值中的最大值，用于表示第一术语系统与第二术语系统的匹配结果。

在该技术方案中，计算两两术语之间的加权求和相似度时，利用多组不同的权重组合对同一对术语之间的多个相似度值进行加权求和计算，得到多个加权求和相似度，多对术语的加权求和相似度累加可得术语系统之间的总匹配度，则根据不同的权重组合能够求取多个总匹配度，其中，总匹配度的最大值用于表示第一术语系统与第二术语系统的匹配结果。

可选地，每组权重中各个权重相加等于1，以此种权重组合求出的加权求和相似度反映出多种相似度计算方法的加权平均相似度。

根据上述任一项技术方案的术语匹配方法，可选地，根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值，具体包括：计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度，对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。

在该技术方案中，多种相似度计算算法包括：余弦相似度(Cosine相似度)、杰卡德相似度(Jaccard相似度)以及哈希相似度(Simhash相似度)。其中，Cosine相似度能够从词频维度计算两个短文本之间的相似程度，将术语转换(编码)为词频向量再由Cosine相似度计算算法进行计算能够获知两个术语之间的相似程度。Jaccard相似度又称Jaccard系数，Jaccard相似度计算算法用于文档数据，在二元属性情况下将两个术语归约为Jaccard系数，以获知两个术语之间的相似程度。Simhash相似度计算算法通过对术语进行编码和降维，计算降维后的术语之间的海明距离，根据海明距离计算相似程度。上述三种相似度计算算法计算方法各不相同，计算侧重点不同，综合考虑术语之间三种相似度值能够提升术语匹配准确度。

根据上述任一项技术方案的术语匹配方法，可选地，计算第一术语与第二术语的余弦相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量和第二词频向量之间的余弦值，其中，余弦值即第一词频向量和第二词频向量的相似度，余弦值越大表示相似度越高。

在该技术方案中，先对术语进行分词、去停用词操作，将术语拆解为词组列表，对词组列表进行编码，获取术语的词频向量，词频向量作为余弦相似度计算算法的输入，能够计算出两两术语之间的余弦相似度。余弦相似度值与杰卡德相似度值以及哈希相似度值通过加权求和的方式综合评价术语之间的相似度，以提高术语匹配准确度。

根据上述任一项技术方案的术语匹配方法，可选地，计算第一术语与第二术语的杰卡德相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量与第二词频向量的交集与并集的比值，以获取杰卡德相似度值，其中，杰卡德相似度值越大表示相似度越高。

在该技术方案中，先对术语进行分词、去停用词操作，将术语拆解为词组列表，对词组列表进行编码获取术语的向量值，根据杰卡德相似度计算算法能够评价术语之间的相似程度。杰卡德相似度值与余弦相似度值以及哈希相似度值通过加权求和的方式综合评价术语之间的相似度，以提高术语匹配准确度。

根据上述任一项技术方案的术语匹配方法，可选地，计算第一术语与第二术语的哈希相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；将第一词组列表和第二词组列表中的每个词转换为哈希值数字串，哈希值数字串乘以词的权重，得到每个词的序列串；将词组列表中的多个词的序列串相加，得到对应于第一词组列表的第一术语序列串，以及对应于第二词组列表的第二术语序列串；将第一术语序列串和第二术语序列串转换为二进制串；计算第一术语序列串和第二术语序列串的二进制串之间的海明距离；根据海明距离确定第一术语和第二术语之间的哈希相似度，其中，哈希相似度值越大表示相似度越高。哈希相似度的计算公式为：S＝1/(h+1)，其中，S为哈希相似度，h为海明距离。

在该技术方案中，先将术语拆解为词组列表，再对词组列表中的每个词(单词)进行hash转换(计算单词的hash值)，根据单词的重要程度对每个单词进行加权计算，加权后的哈希数字串累加得到术语的序列值，对序列值进行降维后可计算出术语之间的海明距离，根据公式S＝1/(h+1)，获取哈希相似度值，用以表示术语之间的相似程度。哈希相似度值与余弦相似度值以及杰卡德相似度值通过加权求和的方式综合评价术语之间的相似度，以提高术语匹配准确度。

根据本发明的第二方面的技术方案，提供了一种术语匹配装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，程序被处理器执行时实现如上述任一项技术方案的术语匹配方法的步骤。该术语匹配装置包括如上述任一项技术方案的术语匹配方法的全部有益效果，在此不再赘述。

根据本发明的第三方面的技术方案，还提供了一种终端，包括：上述第二方面技术方案所述的术语匹配装置。该终端包括如上述任一项技术方案的术语匹配方法的全部有益效果，在此不再赘述。

根据本发明的第四方面的技术方案，还提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被执行时实现上述第一方面的任一项技术方案限定的术语匹配方法。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的一个实施例的术语匹配方法的示意流程图；

图2示出了根据本发明的一个实施例的术语匹配装置的示意框图；

图3示出了根据本发明的一个实施例的终端的示意框图；

图4示出了根据本发明的一个实施例的计算机可读存储介质的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

如图1所示，根据本发明的一个实施例的术语匹配方法，包括：步骤102，根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；步骤104，为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度。其中，加权求和相似度的值用于表示第一术语和第二术语的匹配度。

在该实施例中，考虑到术语组成的复杂性，以多种相似度计算方法从多个维度对两个待匹配术语(第一术语和第二术语)的相似度进行计算，并通过加权求和的方式整合多个相似度，以加权求和相似度来表示两个术语的匹配程度。其中，对应于多种相似度计算方法，会生成多个相似度值，而赋予权重的过程能够平衡多种相似度计算方法对最终求和相似度的影响，能够综合多种相似度计算方法的特点对术语的匹配度进行准确表示。提升了术语匹配准确度，解决了人工操作效率低，错误率高的问题，有利于促进医疗信息共享。

根据上述实施例的术语匹配方法，在一些应用场景下，步骤S102和步骤S104具体包括：在第一术语系统中指定一个术语，作为第一术语，在第二术语系统中任取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第二术语的取值，每改变一次第二术语则进行一次计算，从而生成多个加权求和相似度，其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。

在该实施例中，术语系统中包含多条术语，每个术语由一串字符组成，在第一术语系统中选定一个术语(第一术语)，遍历第二术语系统中的术语(第二术语)，每次从第二术语系统中选取一个术语与第一术语系统中的术语进行加权求和相似度计算，通过多次选取可计算出多个加权求和相似度值，其中最大的值对应的第二术语系统中的术语即为匹配结果。提升了术语匹配准确度，建立术语匹配映射关系的效率较高，相较于人工操作明显提升了速度降低了错误率。

根据上述实施例的术语匹配方法，在一些应用场景下，步骤S102和步骤S104具体包括：在第一术语系统中取一个术语，作为第一术语，在第二术语系统中取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第一术语和第二术语的取值，进行计算，从而生成多个加权求和相似度；对多个加权求和相似度进行求和运算，生成总匹配度值，总匹配度值用于表示第一术语系统和第二术语系统的匹配度。

在该实施例中，术语系统中包含多条术语，每个术语由一串字符组成。从第一术语系统和第二术语系统中各抽取一个术语，并以多种方法求这两个术语的相似度值，进而求取加权求和相似度，经过多次抽取并进行求和相似度的计算(计算出两个术语系统中两两术语之间的加权求和相似度)，能够得到多个求和相似度值，这些相似度值累加得到总匹配度值，总匹配度值能够表示第一术语系统和第二术语系统之间的匹配度。

根据上述实施例的术语匹配方法，可选地，计算过程具体还包括：在赋予权重的步骤中，通过多种权重组合对多个相似度值进行加权求和，以使每种权重组合对应生成一个总匹配度值，多种权重组合则生成多个总匹配度值；记录多个总匹配度值中的最大值，用于表示第一术语系统与第二术语系统的匹配结果。

在该实施例中，计算两两术语之间的加权求和相似度时，利用多组不同的权重组合对同一对术语之间的多个相似度值进行加权求和计算，得到多个加权求和相似度，多对术语的加权求和相似度累加可得术语系统之间的总匹配度，则根据不同的权重组合能够求取多个总匹配度，其中，总匹配度的最大值用于表示第一术语系统与第二术语系统的匹配结果。可选地，每组权重中各个权重相加等于1，以此种权重组合求出的加权求和相似度反映出多种相似度计算方法的加权平均相似度。

根据上述实施例的术语匹配方法，可选地，根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值，具体包括：计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度，对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。

在该实施例中，多种相似度计算算法包括：余弦相似度(Cosine相似度)、杰卡德相似度(Jaccard相似度)以及哈希相似度(Simhash相似度)。其中，Cosine相似度能够从词频维度计算两个短文本之间的相似程度，将术语转换(编码)为词频向量再由Cosine相似度计算算法进行计算能够获知两个术语之间的相似程度。Jaccard相似度又称Jaccard系数，Jaccard相似度计算算法用于文档数据，在二元属性情况下将两个术语归约为Jaccard系数，以获知两个术语之间的相似程度。Simhash相似度计算算法通过对术语进行编码和降维，计算降维后的术语之间的海明距离，根据海明距离计算相似程度。上述三种相似度计算算法计算方法各不相同，计算侧重点不同，综合考虑术语之间三种相似度值能够提升术语匹配准确度。

根据上述实施例的术语匹配方法，可选地，计算第一术语与第二术语的余弦相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量和第二词频向量之间的余弦值，其中，余弦值即第一词频向量和第二词频向量的相似度，余弦值越大表示相似度越高。

在该实施例中，先对术语进行分词、去停用词操作，将术语拆解为词组列表，对词组列表进行编码(例如，oneHot编码)获取术语的词频向量，词频向量作为余弦相似度计算算法的输入，能够计算出两两术语之间的余弦相似度。

根据上述实施例的术语匹配方法，可选地，计算第一术语与第二术语的杰卡德相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量与第二词频向量的交集与并集的比值，以获取杰卡德相似度值，其中，杰卡德相似度值越大表示相似度越高。

在该实施例中，先对术语进行分词、去停用词操作，将术语拆解为词组列表，对词组列表进行编码获取术语的向量值，根据杰卡德相似度计算算法能够评价术语之间的相似程度。

根据上述实施例的术语匹配方法，可选地，计算第一术语与第二术语的哈希相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；将第一词组列表和第二词组列表中的每个词转换为哈希值数字串，哈希值数字串乘以词的权重，得到每个词的序列串；将词组列表中的多个词的序列串相加，得到对应于第一词组列表的第一术语序列串，以及对应于第二词组列表的第二术语序列串；将第一术语序列串和第二术语序列串转换为二进制串；计算第一术语序列串和第二术语序列串的二进制串之间的海明距离；根据海明距离确定第一术语和第二术语之间的哈希相似度，其中，哈希相似度值越大表示相似度越高。哈希相似度的计算公式为：S＝1/(h+1)，其中，S为哈希相似度，h为海明距离。

在该实施例中，先将术语拆解为词组列表，再对词组列表中的每个词(单词)进行hash转换(计算单词的hash值)，根据单词的重要程度对每个单词进行加权计算，加权后的哈希数字串累加得到术语的序列值，对序列值进行降维后可计算出术语之间的海明距离，根据公式S＝1/(h+1)，获取哈希相似度值，用以表示术语之间的相似程度。

实施例二

根据实施例一提供的术语匹配方法，对来自两个医院的的诊断术语系统，术语系统A和术语系统B，进行匹配，主要包括如下过程：

从术语系统A中取出一条术语a₁“肾和输尿管结石”，从术语系统B中取出一条术语b₁“肾结石伴有输尿管结石”。

对术语a₁和术语b₁采用相同的方法进行预处理：

首先基于分词词典进行分词，然后基于停用词词典去停用词，得到两个词组列表a₁“[‘肾’,‘和’,‘输尿管’,‘结石’]”和b₁“[‘肾’,‘结石’,‘伴有’,‘输尿管’,‘结石’]”。

对词组列表a₁和b₁进行oneHot编码，得到词频向量a₁“[1,1,1,1,0]”和b₁“[1,2,1,0,1]”。

分别计算词频向量a₁和b₁的余弦相似度

Jaccard相似度

Simhash相似度

其中，三种相似度计算方法都需要执行，三种计算方法得到的相似度值共同参与加权求和计算。

余弦相似度：计算词频向量a₁和b₁之间的余弦值，值越大相似度越高。

余弦相似度值s_c ¹¹根据如下公式进行计算：

Jaccard相似度：给定两个集合A，B，jaccard系数定义为A与B交集的大小与并集大小的比值，jaccard值越大说明相似度越高，其中，集合A对应于a₁，集合B对应于b₁。

Jaccard相似度值s_j ¹¹根据如下公式进行计算：

Simhash相似度：

通过hash算法把每个词变成hash值数字串，比如“肾”通过hash算法计算为100101,“结石”通过hash算法计算为101011。

以每个词出现次数作为权重乘以数字串，并按照每一位数字将所有数字串相加，如果某一位数字为0，当作-1计算。例如，将词组列表a₁和b₁分别加权求和之后得到{12，27，-33，5，-1，7}和{23，-21，-6，11，8，14}。

将加权求和后的数字串变成01串，如果某一位数字大于0，则此位数字为1，如果某一位数字小于等于0，则此位数字为0，比如将词组列表a₁和b₁分别对应的01串为110101和100111。

计算海明距离h：两个数字串对应位上编码不同的位数之和，术语a₁和b₁的海明距离为2。

Simhash相似度值s_s ¹¹根据如下公式进行计算：

赋予权重：

采用三个权重

计算加权求和相似度s¹¹，其中

针对术语系统A中的术语a₁和术语系统B中任一术语b_j，采用同样过程和权重

计算a₁和b_j加权平均相似度加权求和相似度s^1j，将s^1j中的最大值记为

比如s^1j＝{0.456，0.538，0.324，0.647，0.489}，则

针对术语系统A中的任一术语a_i和术语系统B中任一术语b_j，采用同样过程采用同样过程和权重

计算a_i和b_i加权平均相似度加权求和相似度s^ij和

比如

计算术语系统A和术语系统B在权重

下的总匹配度T¹：

选择多组权重

计算术语系统A和术语系统B的多个总匹配度T^k，比如T^k＝{2.212，1.876，2.436，1.943，2.113，2.085}。

以术语系统A和术语系统B的总匹配度的最大值作为术语系统A和术语系统B之间术语匹配的结果：

第三组权重对应的总匹配度值为2.436，即k＝3时术语系统A和术语系统B之间的匹配结果2.436作为最终匹配结果。

在上述步骤中，Simhash相似度值是由Simhash相似度算法计算得出，上述步骤未完全公开全部计算步骤，即本领域技术人员根据常规技术手段计算而得的Simhash相似度值均可用于参与本申请提出的加权求和相似度计算，并得到术语的匹配度。随着算法的优化，该算法部分步骤可能会有所改变，但该算法最终结果仍可应用在本申请提出的术语匹配方法中。

实施例三

如图2所示，根据本发明的一个实施例的术语匹配装置200，包括：存储器202、处理器204及存储在存储器202上并可在处理器204上运行的程序，程序被处理器204执行时实现如上述任一实施例的术语匹配方法的步骤。该术语匹配装置200包括如上述任一项实施例的术语匹配方法的全部有益效果，在此不再赘述。

实施例四

如图3所示，根据本发明的一个实施例的终端300，包括：实施例三所述的术语匹配装置200。该终端300运行时能够实现：将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；根据坐标位置信息，过滤掉文本内容中的非文字信息。该终端300包括如上述任一实施例的术语匹配方法的全部有益效果，在此不再赘述。

实施例五

如图4所示，根据本发明的一个实施例，还提供了一种计算机可读存储介质400，其上存储有计算机程序402，上述计算机程序402被执行时实现上述任一实施例限定的术语匹配方法。

其中，计算机程序402被执行时实现：根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度，其中，加权求和相似度的值用于表示第一术语和第二术语的匹配度。

根据上述技术方案的计算机程序402，可选地，在第一术语系统中指定一个术语，作为第一术语，在第二术语系统中任取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第二术语的取值，每改变一次第二术语则进行一次计算，从而生成多个加权求和相似度，其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。

根据上述技术方案的计算机程序402，可选地，在第一术语系统中取一个术语，作为第一术语，在第二术语系统中取一个术语，作为第二术语；根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；为每个相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；通过多次改变第一术语和第二术语的取值，进行计算，从而生成多个加权求和相似度；对多个加权求和相似度进行求和运算，生成总匹配度值，总匹配度值用于表示第一术语系统和第二术语系统的匹配度。

根据上述技术方案的计算机程序402，可选地，计算过程具体还包括：在赋予权重的步骤中，通过多种权重组合对多个相似度值进行加权求和，以使每种权重组合对应生成一个总匹配度值，多种权重组合则生成多个总匹配度值；记录多个总匹配度值中的最大值，用于表示第一术语系统与第二术语系统的匹配结果。

根据上述技术方案的计算机程序402，可选地，根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值，具体包括：计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度，对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。

根据上述技术方案的计算机程序402，可选地，计算第一术语与第二术语的余弦相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量和第二词频向量之间的余弦值，其中，余弦值即第一词频向量和第二词频向量的相似度，余弦值越大表示相似度越高。

根据上述技术方案的计算机程序402，可选地，计算第一术语与第二术语的杰卡德相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；对第一词组列表和第二词组列表进行编码，得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量；计算第一词频向量与第二词频向量的交集与并集的比值，以获取杰卡德相似度值，其中，杰卡德相似度值越大表示相似度越高。

根据上述技术方案的计算机程序402，可选地，计算第一术语与第二术语的哈希相似度，具体包括：基于分词词典对第一术语和第二术语进行分词，基于停用词词典对第一术语和第二术语进行去停用词，生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表；将第一词组列表和第二词组列表中的每个词转换为哈希值数字串，哈希值数字串乘以词的权重，得到每个词的序列串；将词组列表中的多个词的序列串相加，得到对应于第一词组列表的第一术语序列串，以及对应于第二词组列表的第二术语序列串；将第一术语序列串和第二术语序列串转换为二进制串；计算第一术语序列串和第二术语序列串的二进制串之间的海明距离；根据海明距离确定第一术语和第二术语之间的哈希相似度，其中，哈希相似度值越大表示相似度越高。哈希相似度的计算公式为：S＝1/(h+1)，其中，S为哈希相似度，h为海明距离。

本申请通过上述实施例公开的术语匹配方法、装置、终端和计算机可读存储介质，能够实现术语系统(术语词典)之间术语的自动匹配，代替人工操作，降低错误率，有助于促进医疗数据集成、分析和再利用。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程术语匹配设备的处理器以产生一个机器，使得通过计算机或其他可编程术语匹配设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程术语匹配设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程术语匹配设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种术语匹配方法，其特征在于，包括：

根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值；

为每个所述相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度，其中，所述加权求和相似度的值用于表示所述第一术语和所述第二术语的匹配度。

2.根据权利要求1所述的术语匹配方法，其特征在于，具体包括：

在第一术语系统中指定一个术语，作为所述第一术语，在第二术语系统中任取一个术语，作为所述第二术语；

为每个所述相似度值赋予权重，多个相似度值分别与对应的权重相乘，乘积结果相加，得到多个相似度值的加权求和相似度；

通过多次改变所述第二术语的取值，每改变一次第二术语则进行一次计算，从而生成多个加权求和相似度，其中加权求和相似度的最大值用于表示所述第一术语系统中指定一个术语与所述第二术语系统中的第二术语的匹配度。

3.根据权利要求1所述的术语匹配方法，其特征在于，具体包括：

在第一术语系统中取一个术语，作为所述第一术语，在第二术语系统中取一个术语，作为所述第二术语；

通过多次改变所述第一术语和所述第二术语的取值，进行计算，从而生成多个加权求和相似度；

对多个加权求和相似度进行求和运算，生成总匹配度值，所述总匹配度值用于表示所述第一术语系统和所述第二术语系统的匹配度。

4.根据权利要求3所述的术语匹配方法，其特征在于，计算过程具体还包括：

在赋予权重的步骤中，通过多种权重组合对多个相似度值进行加权求和，以使每种权重组合对应生成一个总匹配度值，多种权重组合则生成多个总匹配度值；

记录多个总匹配度值中的最大值，用于表示所述第一术语系统与所述第二术语系统的匹配结果。

5.根据权利要求1至4中任一项所述的术语匹配方法，其特征在于，所述根据多种相似度计算算法计算出第一术语与第二术语的相似度，对应于多种相似度计算算法生成多个相似度值，具体包括：

计算出所述第一术语与所述第二术语的余弦相似度、杰卡德相似度以及哈希相似度，对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。

6.根据权利要求5所述的术语匹配方法，其特征在于，计算所述第一术语与所述第二术语的余弦相似度，具体包括：

基于分词词典对所述第一术语和所述第二术语进行分词，基于停用词词典对所述第一术语和所述第二术语进行去停用词，生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表；

对所述第一词组列表和所述第二词组列表进行编码，得到对应于所述第一词组列表的第一词频向量以及对应于所述第二词组列表的第二词频向量；

计算所述第一词频向量和第二词频向量之间的余弦值，其中，所述余弦值即所述第一词频向量和第二词频向量的相似度，余弦值越大表示相似度越高。

7.根据权利要求5所述的术语匹配方法，其特征在于，计算所述第一术语与所述第二术语的杰卡德相似度，具体包括：

计算所述第一词频向量与所述第二词频向量的交集与并集的比值，以获取杰卡德相似度值，其中，所述杰卡德相似度值越大表示相似度越高。

8.根据权利要求5所述的术语匹配方法，其特征在于，计算所述第一术语与所述第二术语的哈希相似度，具体包括：

将所述第一词组列表和所述第二词组列表中的每个词转换为哈希值数字串，所述哈希值数字串乘以词的权重，得到每个词的序列串；

将词组列表中的多个词的序列串相加，得到对应于所述第一词组列表的第一术语序列串，以及对应于所述第二词组列表的第二术语序列串；

将所述第一术语序列串和所述第二术语序列串转换为二进制串；

计算所述第一术语序列串和所述第二术语序列串的二进制串之间的海明距离；

根据所述海明距离确定所述第一术语和所述第二术语之间的哈希相似度，其中，所述哈希相似度值越大表示相似度越高。

9.一种术语匹配装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时能够实现如权利要求1至8中任一项所述的术语匹配方法限定的步骤。

10.一种终端，其特征在于，包括：

如权利要求9所述的术语匹配装置。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时，实现如权利要求1至8中任一项所述的术语匹配方法的步骤。