CN110222709B

CN110222709B - 一种多标签智能打标方法及系统

Info

Publication number: CN110222709B
Application number: CN201910359702.1A
Authority: CN
Inventors: 顾玲玲; 毛顺亿; 曹羽; 段艳婷; 孙铭权; 郑天龙; 龚快快; 朱亮
Original assignee: Shanghai Warm Wow Technology Co ltd
Current assignee: Shanghai Warm Wow Technology Co ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2022-01-25
Anticipated expiration: 2039-04-29
Also published as: CN110222709A

Abstract

本发明公开一种多标签智能打标方法及系统，属于计算机技术领域，通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词；将任一标签与m个候选待匹配标准词一一进行相似度计算，获得任一标签与每一候选待匹配标准词的相似度；设定相似度阈值，根据相似度阈值，在候选待匹配标准词中确定与任一标签相关的n个待匹配标准词。该多标签智能打标方法及系统通过人工构建标签词典实现自建标准词库中的标准词尽可能多得找到对应的标签实现大规模多标签技术，在保证准确率的前提下提高召回率；灵活性较高，可随时增加标签；利用elaticsearch检索初筛结合相似度计算，最终得出与任一标签匹配的标准词，满足高并发的商业系统并能提高召回率。

Description

一种多标签智能打标方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种多标签智能打标方法及系统。

背景技术

在医疗数据应用过程中，我们对标准词库中的词需要进行多标签打标任务。传统的基于人工的方式效率低下，已经远远不能满足正常的生产需求了。大规模多标签学习已经被广泛应用于文档标注、搜索排序和商品推荐等实际应用中，为当前计算机技术的一个重要研究问题。

现有的一种大规模多标签学习技术是构建一个分类器，该分类器能够从极大规模的标签集合中自动挑选与标准词最相关的标签子集标记给标准词。此类技术的难点在于数据特征空间和标签空间都具有极高的维度且均具有稀疏性，需要大量人工标注数据，耗时耗力。例如：维基百科的标签维度L是数百万，那么将存在2L种可能的标签子集，数据庞大，传统的标注方法显然已经不再适用。

发明内容

为解决上述技术问题，本发明提供了一种多标签智能打标方法及系统，其通过人工构建标签词典，以实现自建标准词库中的标准词尽可能多得找到对应的标签，实现大规模多标签技术。

本发明实施例提供的技术方案如下：

第一方面，提供了一种多标签智能打标方法，所述方法至少包括如下步骤：

通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数；

将所述任一标签与所述m个候选待匹配标准词一一进行相似度计算，获得所述任一标签与每一所述候选待匹配标准词的相似度；

设定所述相似度阈值，根据所述相似度阈值，在所述候选待匹配标准词中确定与所述任一标签相关的n个待匹配标准词，将所述任一标签与所述n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数。

在一些实施例中，所述通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数，至少包括如下子步骤：

将所述自建标准词库中的标准词批量存储至ES系统；

为存储至所述ES系统中的标准词创建索引；

计算所述自建标准词库中的标准词与所述任一标签之间的关联度；

对所述自建标准词库中的词按所述关联度进行排序，并将关联度较大的前m名对应的标准词作为候选待匹配标准词；

将所述任一标签与所述m个候选待匹配标准词的映射关系存储至匹配表中。

在一些实施例中，所述将所述任一标签与所述m个候选待匹配标准词一一进行相似度计算，获得所述任一标签与每一所候选待匹配标准词的相似度，至少包括如下子步骤：

根据业务场景，调用若干字符串相似度算法，并调用若干神经网络训练模型；

根据业务场景分别设定每一字符串相似度算法及每一神经网络训练模型的权重，并将所述若干字符串相似度算法及若干神经网络模型进行加权融合，一一计算所述任一标签与所述m个候选待匹配标准词的相似度。

在一些实施例中，调用若干神经网络训练模型之前，预先训练word2vec词向量模型。

在一些实施例中，在所述通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数之前，至少还包括：

预先建立标签词库，且所述任一标签不属于所述标签词库。

另一方面，提供了一种多标签智能打标系统，所述系统至少包括：

初筛模块：用于通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数；

相似度计算模块：将所述任一标签与所述m个候选待匹配标准词一一进行相似度计算，获得所述任一标签与每一所述候选待匹配标准词的相似度；

匹配结果确定模块：用于设定所述相似度阈值，根据所述相似度阈值，在所述候选待匹配标准词中确定与所述任一标签相关的n个待匹配标准词，将所述任一标签与所述n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数。

在一些实施例中，所述初筛模块至少包括：

存储子模块：用于将所述自建标准词库中的标准词批量存储至ES系统；

索引创建子模块：用于为存储至所述ES系统中的标准词创建索引；

关联度计算子模块：用于计算所述自建标准词库中的标准词与所述任一标签之间的关联度；

初筛结果确定子模块：对所述自建标准词库中的词按关所述联度进行排序，并将关联度较大的前m名对应的标准词作为候选待匹配标准词。

在一些实施例中，所述相似度计算模块至少包括：

调用子模块：用于根据业务场景，调用若干字符串相似度计算算法，并调用若干基于神经网络训练模型；

相似度计算子模块：用于根据业务场景分别设定每一字符串相似度算法及每一神经网络训练模型的权重，并将所述若干字符串相似度算法及若干神经网络模型进行加权融合，计算获得所述相似度。

在一些实施例中，所述相似度计算模块还包括：

训练子模块：用于调用若干神经网络训练模型之前，预先训练word2vec词向量模型。

在一些实施例中，所述系统还包括：

标签词库建立模块：用于预先建立标签词库，且所述任一标签不属于所述标签词库。

本发明相比现有技术而言的有益效果在于：

本发明实施例提供一种多标签智能打标方法及系统，其通过人工构建标签词典，以实现自建标准词库中的标准词尽可能多得找到对应的标签，实现大规模多标签技术，在保证准确率的前提下，提高召回率；

该多标签智能打标方法，利用elaticsearch检索进行初筛，然后通过相似度计算，最终得出与任一标签匹配的标准词，其中的elaticsearch检索可实现候选待匹配标准词的快速锁定，满足高并发的商业系统，然后结合相似度计算，通过提取词形和语义两个层面的信息，更准确地进行相似度匹配；

该多标签智能打标方法，在可随时增加标签词库中的标签，灵活性较高，并且，在进行初筛及相似度计算时，可根据召回率要求，自由控制阈值范围进行匹配；

该多标签智能打标方法，在进行相似度计算时，采用若干字符串相似度算法及若干神经网络模型进行加权融合的方法进行，如此，可根据业务场景的不同，进行灵活设置，提高该方法的通用性及可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的多标签智能打标方法的流程图；

图2是本发明实施例一中的elasticsearch分布式查询的过程示意图；

图3是本发明实施例一中的word2vec的算法结构示意图；

图4是本发明实施例二中的多标签智能打标系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种多标签智能打标方法，属于计算机技术领域，适用于多种多标签智能打标业务场景，特别适用于医疗领域。

图1为本实施例一提供的一种多标签智能打标方法的流程图，如图1所示，该多标签智能打标方法具体包括：

S1、通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数。

具体地，步骤S1至少包括如下子步骤：

S11、将自建标准词库中的标准词批量存储至ES系统；

S12、为存储至ES系统中的标准词创建索引；

S13、计算自建标准词库中的标准词与标签之间的关联度；

S14、对自建标准词库中的词按关联度进行排序，并将关联度较大的前m名对应的标准词作为候选待匹配标准词；

S15、将任一标签与m个候选待匹配标准词的映射关系存储至匹配表中。

其中，采用bulk将自建标准词库中的标准词批量存储至ES系统，本实施例中通过bulk api的支持可以实现一次请求执行批量的添加、更新等操作。

ES是elaticsearch简写，elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。参照图2所示的elasticsearch实现分布式查询的过程示意图，当elasticSearch的节点启动后，它会利用多播(multicast)寻找集群中的其它节点，并与之建立连接来实现分布式查询。如图2中步骤①②③所示，ES的主要功能为检索相关数据、返回统计结果，且在检索及返回过程中速度非常快。

作为优选，本实施例中创建索引名称为ott，类型为ott_type的索引。

选取关联度较大的前m名对应的标准词作为候选待匹配标准词时，m的值可以根据召回率需求而人为设定，m数值越大，检索召回率越高，检索越全面。

本实施例中，上述任一标签并不属于该标签词库，而是新增的标签。

在步骤S1之前，若是标签词库目前并不存在，则至少还包括步骤S0、需预先建立标签词库，通过人工给定所有标签，且上述任一标签并不属于该预先建立的标签词库。

如此，通过向标签词库中增加标签，实现人工构建及更新标签词库的目的，且在增加标签的过程中，实现新增标签与待打标标准词之间的关联，即对待打标标准词进行打标，使待打标标准词尽可能多地找到对应的标签。

本实施例中，

以用于保险公司理赔的医疗数据应用为例，保险公司一般具有一自建标准库，其收录医疗相关的标准词，标准词包括：疾病诊断ICD编码及名称、药品编码及名称、诊疗项目编码及名称、医用材料编码及名称、手术编码及名称、指定治疗医院名称等。

标签以疾病名称、疾病类型等不同维度分类，标签可以为结核病、女性妇科疾病、传染性疾病等，下面以“结核病”为新增的标签为例说明上述初筛过程。

自建标准词库中检索以进行初筛，获取与“结核病”关联的m个候选待匹配标准词，其中m为不小于1的整数，具体包括如下子步骤：

S11a、通过bulk将自建标准词库中的标准词实时存储至ES系统；

S12a、为存储至ES系统中的标准词创建索引；

S13a、计算自建标准词库中的标准词与标签“结核病”之间的关联度；

S14a、对自建标准词库中的词按关联度进行排序，并将与“结核病”关联度较大的前m名对应的标准词作为候选待匹配标准词；

S15a、将标签“结核病”与m个候选待匹配标准词的映射关系存储至匹配表中。

当m为6时，则将标签“结核病”关联度较大的前6名对应的标准词“附睾结核”，“黄浦区打浦桥街道社区卫生服务中心”，“上海市浦东新区公立医院”，“远大心胸”，“合浦县白沙卫生院”，“异常个体中平衡常染色体重排”为候选待匹配标准词，组成候选列表，并将标签“结核病”与6个候选待匹配标准词的映射关系存储至匹配表中，完成对标签“结核病”生物初步筛选。

S2、将任一标签与m个候选待匹配标准词一一进行相似度计算，获得任一标签与每一候选待匹配标准词的相似度。

虽然利用检索能实现数据的快速初筛，但由于es等搜索不能很好的提取词义信息，因此还需计算标签与候选待匹配标准词的相似度以最终确定与标签匹配的标准词。

具体地，步骤S2至少包括如下子步骤：

S21、根据业务场景，调用若干字符串相似度算法，并调用若干神经网络训练模型。

S22、根据业务场景分别设定每一字符串相似度算法及每一神经网络训练模型的权重，并将若干字符串相似度算法及若干神经网络模型进行加权融合，一一计算任一标签与m个候选待匹配标准词的相似度。

因此，为了结合不同业务场景，本实施例通过赋予不同权重，调用多种字符相似度算法及神经网络训练模型通过加权融合组成的相似度计算函数，来计算标签与与m个候选待匹配标准词的相似度。

其中，字符相似度算法包括：编辑距离、LCS(最长公共子序列)、jaccard相似度、levenshtein相似度、sorensen相似度中的一种或多种；基于神经网络训练模型包括：WMD(词移距离)、word2vec词向量余弦相似度、TF_IDF模型、LSA(隐性语义分析)模型中的一种或多种。

其中，LCS(最长公共子序列)定义：一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列。两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列。

Levenshtein相似度定义：公式r＝(sum-ldist)/sum，其中sum是指str1和str2字串的长度总和，ldist是类编辑距离，类编辑距离是描述由一个字串转化成另一个字串最少的操作次数，删除、插入+1，替换+2。

jaccard相似度定义：给定两个集合A，Bjaccard系数定义为A与B交集的大小与并集大小的比值

jaccard值越大说明相似度越高。

LCS衡量字符顺序，对顺序重合度较高的文本相似度匹配得分较高，jaccard相似度对顺序较不敏感，字符重合度高的得分高。在“疾病”类型的文本相似度匹配时，由于描述粒度不同，常出现少量字符不一致情况，例如“1型糖尿病性骨关节病”、“1型糖尿病性关节病”，此时我们定义LCS(最长公共子序列)占比0.5，Levenshtein相似度0.2，WMD(词移距离)相似0.3。而在“药品”类型的文本相似度匹配时，由于药品形态差异，常出现后缀不一致情况，例如“阿胶颗粒”、“阿胶口服液”。此时则把Levenshtein相似度和jaccard相似度权重占设置比较高。

由于不同的字符相似度算法或神经网络模型在计算相似度时的侧重点不一样，根据实际业务情况，在不同场景下，通过赋予不同的权重的手段，求得标签和候选文本的相似度匹配得分。

其中，在调用若干神经网络训练模型之前，需要预先训练word2vec词向量模型。Word2vec是一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文，Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。本实施例利用大量医疗数据，通过词向量模型CBOW和Skip-gram的结构来建立神经词的嵌入，因而不需要人工标注语料。如图3所示，word2vec的算法结构如下：CBOW通过一个窗口内的上下文单词w(t-2)/w(t-1)/w(t+1)/w(t+2)来对中心的单词w(t)进行预测，从而使中心词w(t)的上下文单词具备相似的语义；Skip-gram则恰恰与之相反，它是通过中心词w(t)对局部窗口内的上下文单词进行预测，获得上下文单词w(t-2)/w(t-1)/w(t+1)/w(t+2)。词向量模型CBOW和Skip-gram都能能达到较佳的词文构建效果。

S3、设定相似度阈值，根据相似度阈值，在候选待匹配标准词中确定与任一标签相关的n个待匹配标准词，将任一标签与n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数。

作为一种较佳的实施方式，预先设置相似度阈值，每一相似度阈值对应相应的相似度得分。首先根据相似度阈值，对应得出标签与每一候选待匹配标准词的相似度得分。根据召回率要求，设置相似度得分阈值，确定相似度得分位于阈值内的n个待匹配标准词，将任一标签与n个待匹配标准词进行匹配并输出匹配结果。因此，本实施例中的n为不大于m的整数，待匹配标准词为候选待匹配标准词中的一个或多个。

继续以“结核病”为例，“附睾结核”，“黄浦区打浦桥街道社区卫生服务中心”，“上海市浦东新区公立医院”，“远大心胸”，“合浦县白沙卫生院”，“异常个体中平衡常染色体重排”的相似度分别为85％、10％、55％、2％、30％、60％。设定相似度得分，其中，1～20％为1分，21～40％为2分，41～60％为3分，61％～80％为4分，81％～100％为5分，且设置相似度得分阈值为：不低于3分为与标签“结核病”相关的待匹配标准词，由此可得，“附睾结核”、“上海市浦东新区公立医院”及“异常个体中平衡常染色体重排”为最终确定与标签“结核病”相关的待匹配标准词。

进一步，该多标签智能打标方法，利用elaticsearch检索进行初筛，然后通过相似度计算，最终得出与任一标签匹配的标准词，其中的elaticsearch检索可实现候选待匹配标准词的快速锁定，满足高并发的商业系统，然后结合相似度计算，通过提取词形和语义两个层面的信息，更准确地进行相似度匹配。

另外，该多标签智能打标方法，在可随时增加标签词库中的标签，灵活性较高，并且，在进行初筛及相似度计算时，可根据召回率要求，自由控制阈值范围进行匹配。

实施例二

为执行上述实施例一的一种多标签智能打标方法，本实施例提供一种多标签智能打标系统。

图4为本发明实施例二提供的一种多标签智能打标系统的结构示意图。如图4所示，该多标签智能打标系统100至少包括：

初筛模块1：用于通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数；

相似度计算模块2：将任一标签与所述m个候选待匹配标准词一一进行相似度计算，获得任一标签与每一候选待匹配标准词的相似度；

匹配结果确定模块3：用于设定相似度阈值，根据相似度阈值，在候选待匹配标准词中确定与任一标签相关的n个待匹配标准词，将任一标签与n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数。

在一些实施例中，初筛模块1至少包括：

存储子模块11：用于将所述自建标准词库中的标准词批量存储至ES系统；

索引创建子模块12：用于为存储至所述ES系统中的标准词创建索引；

关联度计算子模块13：用于计算自建标准词库中的标准词与任一标签之间的关联度；

初筛结果确定子模块14：对自建标准词库中的词按关联度进行排序，并将关联度较大的前m名对应的标准词作为候选待匹配标准词。

在一些实施例中，相似度计算模块2至少包括：

调用子模块21：用于根据业务场景，调用若干字符串相似度计算算法，并调用若干基于神经网络训练模型；

相似度计算子模块22：用于根据业务场景分别设定每一字符串相似度算法及每一神经网络训练模型的权重，并将若干字符串相似度算法及若干神经网络模型进行加权融合，计算获得所述相似度。

在一些实施例中，所述相似度计算模块2还包括：

训练子模块23：用于调用若干神经网络训练模型之前，预先训练word2vec词向量模型。

在一些实施例中，系统100还包括：

标签词库建立模块0：用于预先建立标签词库，且任一标签不属于标签词库。

匹配结果确定模块3至少包括：

相似度阈值预设子模块31：用于预先设置相似度阈值；

相似度评分子模块32：用于根据相似度阈值，对应得出标签与每一候选待匹配标准词的相似度得分；

相似度得分阈值预设子模块33：用于根据召回率要求，设置相似度得分阈值，确定相似度得分位于阈值内的相似度数值；

匹配子模块34：用于任一标签与位于阈值内的相似度数值对应的n个待匹配标准词进行匹配，以确定与标签关联的待匹配标准词。

本实施例提供的一种多标签智能打标系统，用于执行前述的一种多标签智能打标方法属于同一构思，相应的实现方式本实施例中不再赘述。该多标签智能打标系统结构简单，即使是在计算能力一般的智能终端上也能配置应用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多标签智能打标方法，其特征在于，所述方法至少包括如下步骤：

设定所述相似度阈值，根据所述相似度阈值，在所述候选待匹配标准词中确定与所述任一标签相关的n个待匹配标准词，将所述任一标签与所述n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数；

所述通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数，至少包括如下子步骤：

将所述自建标准词库中的标准词批量存储至ES系统；

为存储至所述ES系统中的标准词创建索引；

将所述任一标签与所述m个候选待匹配标准词的映射关系存储至匹配表中；所述将所述任一标签与所述m个候选待匹配标准词一一进行相似度计算，获得所述任一标签与每一所候选待匹配标准词的相似度，至少包括如下子步骤：

2.根据权利要求1所述的一种多标签智能打标方法，其特征在于，调用若干神经网络训练模型之前，预先训练word2vec词向量模型。

3.根据权利要求1所述的一种多标签智能打标方法，其特征在于，在所述通过在自建标准词库中检索以进行初筛，获取与任一标签关联的m个候选待匹配标准词，其中m为不小于1的整数之前，至少还包括：

预先建立标签词库，且所述任一标签不属于所述标签词库。

4.一种多标签智能打标系统，其特征在于，所述系统至少包括：

匹配结果确定模块：用于设定所述相似度阈值，根据所述相似度阈值，在所述候选待匹配标准词中确定与所述任一标签相关的n个待匹配标准词，将所述任一标签与所述n个待匹配标准词进行匹配并输出匹配结果，其中n为不大于m的整数；

所述初筛模块至少包括：

初筛结果确定子模块：对所述自建标准词库中的词按所述关联度进行排序，并将关联度较大的前m名对应的标准词作为候选待匹配标准词；所述相似度计算模块至少包括：

5.根据权利要求4所述的一种多标签智能打标系统，其特征在于，所述相似度计算模块还包括：

6.根据权利要求4所述的一种多标签智能打标系统，其特征在于，所述系统还包括：