CN113470779A

CN113470779A - 药品类目识别方法及其系统

Info

Publication number: CN113470779A
Application number: CN202111028882.9A
Authority: CN
Inventors: 雷佳奇; 胡茂华; 王新岐
Original assignee: Yiyaowang Technology Shanghai Co ltd
Current assignee: Yiyaowang Technology Shanghai Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-10-01
Anticipated expiration: 2041-09-03
Also published as: CN113470779B

Abstract

本申请涉及医药领域，公开了一种药品类目识别方法及其系统，匹配精度高，泛化能力强。在训练阶段：提取已知药品的商品名、症状、三级类目名称和三级类目标识，组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对；将三种样本标签对合并成一个训练样本集合，使用训练样本集合对fasttext模型进行训练；在预测阶段：以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率，如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目，否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率，如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。

Description

药品类目识别方法及其系统

技术领域

本申请涉及医药领域，特别涉及药品类目的自动识别技术。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是已被公开的现有技术。

为了更好的管理商家的药品信息，电商药网一般通过对码服务将商家的药品识别在现有类目体系中，以满足搜索及分类的需求。

对码服务通过对比商家药品与现有已知类目药品多个字段信息（例如药品通用名、剂型、包装、规格、包装单位、最小计价单位及生产厂家等）的匹配程度，确定商家药品的所属类目，存在计算复杂度高、匹配精度低、泛化能力差等问题。特别是对于当前药品数据库中没有记录的药品，无法准确识别其对应的类目。

发明内容

本申请的目的在于提供一种药品类目识别方法及其系统，自动识别指定药品的类目，匹配精度高，泛化能力强，对于当前药品数据库中没有记录的药品也可以准确识别。

本申请公开了一种，药品类目识别方法，包括：

训练阶段：提取已知药品的商品名、症状、三级类目名称和三级类目标识，组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对；将所述三种样本标签对合并成一个训练样本集合，使用所述训练样本集合对fasttext模型进行训练；

预测阶段：以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率，如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目，否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率，如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。

在一个优选例中，所述fasttext模型使用如下目标函数L：

其中，w为标签，O为所有标签w组成的集合，

为标签w对应的输入向量（为训练样本中各个分词词向量的均值），上标T代表转置，C为训练样本分词数目，

表示第i个分词对应的词向量，

为从根节点出发到w对应的叶子节点的路径，

为路径

中包含的节点个数，j为节点编号，

为路径

中第j个节点对应的编码，

为路径

中第j-1个非叶子节点对应的向量。

在一个优选例中，还包括，在所述训练之前，对所述训练样本集合中的样本进行分词。

在一个优选例中，在所述预测阶段，先对商品名和症状进行分词再输入所述fasttext模型。

在一个优选例中，所述以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率之前，还包括对所述商品名进行正则化的步骤。

在一个优选例中，所述正则化包括去除所述商品名中的品牌和剂型信息。

本申请还公开了一种药品类目识别系统，包括：

fasttext模型；

训练单元，用于提取已知药品的商品名、症状、三级类目名称和三级类目标识，组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对，将所述三种样本标签对合并成一个训练样本集合，使用所述训练样本集合对fasttext模型进行训练；

预测单元，用于以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率，如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目，否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率，如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。

在一个优选例中，所述fasttext模型使用如下目标函数L：

其中，w为标签，O为所有标签w组成的集合，

表示第i个分词对应的词向量，

为从根节点出发到w对应的叶子节点的路径，

为路径

中包含的节点个数，j为节点编号，

为路径

中第j个节点对应的编码，

为路径

中第j-1个非叶子节点对应的向量。

在一个优选例中，还包括分词器；

在使用所述训练样本集合对fasttext模型进行训练之前，所述训练单元使用所述分词器对所述训练样本集合中的样本进行分词。

在一个优选例中，所述预测单元先使用所述分词器对商品名和症状进行分词再输入所述fasttext模型。

本申请还公开了一种药品类目识别系统，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本申请的实施方式能够自动识别指定药品的类目，匹配精度高，泛化能力强，对于当前药品数据库中没有记录的药品也可以准确识别。本申请技术方案的效果显著。在一个实施例中，评测样本总数为:12313，其中预测正确的数目为11433，准确率为92.9%。

上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案（这些技术方案均应该视为在本说明书中已经记载），除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请的第一实施方式的药品类目识别方法训练阶段流程示意图；

图2是根据本申请的第以实施方式的药品类目识别方法预测阶段流程示意图；

图3是根据本申请的一个实施例的fasttext模型示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

下面概要说明本申请的实施方式的部分创新点：

对于每一个已知药品，将该药品的商品名、症状和三级类目名称分别和该药品的三级类目标识组成样本标签对，即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识，共三种样本标签对（其中三级类目标识为样本标签对的标签），作为训练数据对fasttext模型进行训练。虽然是三种样本标签对，但在训练前混合在一起对fasttext模型进行训练，不区分具体的样本标签对类型。也就是说，从fasttext模型角度看来是同一种类型的样本标签对，只是数据量大大增加了。通常从每一个药品可以得到三个训练样本，从而大大增加了训练样本的数量，提高了匹配精度和泛化能力。

在机器学习领域，通常用什么数据进行预测就用什么数据进行训练，例如，如果是用商品名预测三级类目标识，则使用商品名和三级类目标识的样本标签对进行训练，但本申请打破了这种常规思维，对于以商品名预测的情况，不但使用了商品名和三级类目标识的样本标签对进行训练，还是使用了症状和三级类目标识、以及三级类目名称和三级类目标识这两种额外的样本标签对。尤其是三级类目名称和三级类目标识这种训练样本，在预测时是不会使用三级类目名称预测三级类目标识，但申请人发现增加三级类目名称和三级类目标识这种训练样本后预测的准确性和泛化能力都有明显的提高。在预测阶段，优先以商品名进行预测，如果预测概率不高，则再以商品名和症状的组合进行预测，这样可以进一步显著提高预测的准确性。

此外，fasttext模型的使用大大提高了预测的准确性。文本分类模型有很多，申请人尝试了多种文本分类模型后，发现以上述三种样本标签对组成的训练集训练fasttext模型时准确性有显著的提高（相对于textCNN、lstm等其他常用的文本分类模型）。特别是本申请对fasttext模型所使用的目标函数进行了改进，提高了模型在药品类目识别时的泛化能力，经过优化的目标函数为

。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请的第一实施方式涉及一种药品类目识别方法，其流程如图1和图2所示，该方法包括训练阶段和预测阶段。

步骤102，提取已知药品的商品名、症状、三级类目名称和三级类目标识，组成三种样本标签对，即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识。其中，商品名、症状、三级类目名称为样本，三级类目标识为标签。可选的，在一个实施例中，可以对商品名进行正则化处理（例如去除商品名中的品牌、剂型等信息）。例如，“云植舒心降脂片 0.3g*12片*4板”正则化后为“舒心降脂”。

步骤104，将三种样本标签对合并成一个训练样本集合。

步骤106，对训练样本集合中各样本标签对中的样本进行分词。本步骤是可选的。例如，“清热解毒口服液”可以分词为“清热”“解毒”“口服液”。“冈本超润滑避孕套”可以分词为“冈本”“超”“润滑”“避孕套”。

步骤108，使用训练样本集合对fasttext模型进行训练。

以上步骤102至108构成训练阶段。

步骤112，将待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率。可选地，在一个实施例中，可以对待定药品的商品名预先进行正则化处理和\或分词，然后再输入fasttext模型。

步骤114，判断第一预测概率是否大于预定的第一门限，如果是则进入步骤116，否则进入步骤118。

步骤116，以第一预测结果作为药品类目。

步骤118，将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率。可选的，在一个实施例中，可以对商品名和症状先进行分词，再将其分词结果输入到fasttext模型，以得到第二预测结果和第二预测概率。

步骤120，如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。如果第二预测概率不大于预定的第二门限，则可以将该待定药品记录到一个指定的列表，之后可以由人工进行分类。

以上步骤112至120构成预测阶段。

药品名称命名主要有以下两种方式，一种是基于药品功能及疗效进行命名，例如补肾丸、感冒软胶囊、小儿咳喘口服液等，这种方式大多用于中成药命名；另一种是基于药品化学主成分进行音译命名，如阿托伐汀钙片、阿司匹林肠溶片等。前者的药品名具有见名知意的特点，而后者的名称具有明显的规范性和唯一性，如阿托伐汀钙片、阿托伐汀胶囊以及阿托伐汀分散片等都是降血脂药品。药品分类的目的就是通过挖掘药品名及其内在的功能功效相似性，选用合理的算法模型，实现非标准商品在标准类是目体系中的挂靠。

Fastext模型的目标函数基于神经网络语言模型，一般表示为如下形式：

（1）

其中，条件概率函数p(w|Context(w))表示fasttest模型在上下文Context(w)条件下预测出标签w的概率值，L 表示所有训练样本条件概率的对数和，根据极大似然概率准则，当 L 取最大值时，fasttext模型参数达到最优。

下面给出fasttext模型对 p(w|Context(w)) 的构造方法，如图3所示，fasttext模型采用了分层softmax 方法对样本进行分类，label5 经历4次二分类，每次二分类任务中，节点被分为正类的概率是：

（2）

于是对于标签 label5：

最终可以得到：

其中，

表示从根节点出发到达 w 对应叶子节点的路径，这里的各个节点（包括根节点、叶子节点和路径中的中间节点）都是指fasttext模型输出层的节点，fasttext模型的输出层是一颗霍夫曼树；

表示路径

中包含的节点个数，

表示路径

中的

个节点，

表示根节点，

表示 w对应的叶子节点，

表示霍夫曼编码，由

-1位编码构成，

表示路径

中第个j节点对应的编码,

表示路径

中非叶子节点对应的向量，

表示路径

中第j个非叶子节点对应的向量。

从上边的例子分析中可以发现，对于所有标签w，霍夫曼树种必然存在一条根节点到w对应节点的路径

，路径

上存在

-1个分支，将每一个分支看做一次二分类，每一次分类产生一个概率，这些概率连乘起来就得到：

（3）

其中，

将（3）带入（1），可以得到具体的优化目标函数：

其中，w为标签，O为所有标签w组成的集合，

表示第i个分词对应的词向量，

为从根节点出发到w对应的叶子节点的路径，

为路径

中包含的节点个数，j为节点编号，

为路径

中第j个节点对应的编码，

为路径

中第j-1个非叶子节点对应的向量。

为了提升模型的泛化能力，本实施例选用了适中的分词粒度，即文本分词长度不超过三个字符；同时在训练样本加入类目名称、药品适应症状等辅助信息，强化模型对药品中相似信息的学习，提升模型预测精度；考虑到模型对于音译药品泛化能力较差，本实施例通过多次决策的方式，提高模型对陌生音译药品的预测效果。

经过实测，本申请技术方案的效果显著，对药品适应症也有较好的泛化能力，例如:缺铁性贫血预测为补血补气、泌尿系结石-膀胱结石-尿道结石-肾结石预测预测为肾病。在一个实施例中，评测样本总数为:12313，其中预测正确的数目为11433，准确率达到92.9%。

为了能够更好地理解本申请的技术方案，下面结合一个具体的例子来进行说明，该例子中罗列的细节主要是为了便于理解，不作为对本申请的保护范围的限制。

假定药品数据库中的药品信息如下：

商品名和三级类目标识的样本标签对如下：

{酮洛芬缓释胶囊：971322}

{麝香壮骨膏：965172}

{关节止痛膏：965172}

{益心舒胶囊：965134}

{舒心降脂片：965138}

{舒心降脂片：965135}

症状和三级类目标识的样本标签对如下：

{类风湿性关节炎骨关节炎全身性骨关节炎痛经强直性脊柱炎痛风：971322}

{肌肉劳损腰椎间盘突出症骨关节炎扭伤神经痛：965172}

{扭伤关节痛：965172}

{胸痹心痛病心绞痛冠心病心悸：965134}

{心绞痛高脂血症冠心病：965138}

{心绞痛高脂血症冠心病：965135}

三级类目名称和三级类目标识的样本标签对如下：

{风湿类风湿：971322}

{外用贴膏：965172}

{冠心病：965134}

{动脉硬化：965138}

{高血脂：965135}

将上述三种样本标签对合并成一个大的训练样本集合，如下：

{酮洛芬缓释胶囊：971322}

{麝香壮骨膏：965172}

{关节止痛膏：965172}

{益心舒胶囊：965134}

{舒心降脂片：965138}

{舒心降脂片：965135}

{肌肉劳损腰椎间盘突出症骨关节炎扭伤神经痛：965172}

{扭伤关节痛：965172}

{胸痹心痛病心绞痛冠心病心悸：965134}

{心绞痛高脂血症冠心病：965138}

{心绞痛高脂血症冠心病：965135}

{风湿类风湿：971322}

{外用贴膏：965172}

{冠心病：965134}

{动脉硬化：965138}

{高血脂：965135}

使用该训练样本集合对fasttext模型进行训练，然后使用经训练的fasttext模型进行药品类目的预测。

本申请的第二实施方式涉及一种药品类目识别系统，该药品类目识别系统包括：

fasttext模型。

训练单元，用于提取已知药品的商品名、症状、三级类目名称和三级类目标识，组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对，将三种样本标签对合并成一个训练样本集合，使用训练样本集合对fasttext模型进行训练。

预测单元，用于以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率，如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目，否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率，如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。

可选的，在一个实施例中，所述系统还包括分词器。在使用训练样本集合对fasttext模型进行训练之前，训练单元使用分词器对训练样本集合中的样本进行分词。预测单元先使用分词器对商品名和症状进行分词再输入fasttext模型。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述药品类目识别系统的实施方式中所示的各模块的实现功能可参照前述药品类目识别方法的相关描述而理解。上述药品类目识别系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序（可执行指令）而实现，也可通过具体的逻辑电路而实现。本申请的实施例上述药品类目识别系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本申请的各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read Only Memory）、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请的实施例不限制于任何特定的硬件和软件结合。

相应地，本申请的实施方式还提供一种计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

此外，本申请的实施方式还提供一种药品类目识别系统，其中包括用于存储计算机可执行指令的存储器，以及，处理器。该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(CentralProcessing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，简称“DSP”)、专用集成电路(Application SpecificIntegratedCircuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器（Flash）、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在描述方法的步骤时使用的序号本身并不对这些步骤的顺序构成任何的限定。例如，序号大的步骤并非一定要在序号小的步骤之后执行，也可以是先执行序号大的步骤再执行序号小的步骤，还可以是并行执行，只要这种执行顺序对于本领域技术人员来说是合理的即可。又如，拥有连续编号序号的多个步骤（例如步骤101，步骤102，步骤103等）并不限制其他步骤可以在其间执行，例如步骤101和步骤102之间可以有其他的步骤。

本说明书包括本文所描述的各种实施例的组合。对实施例的单独提及（例如“一个实施例”或“一些实施例”或“优选实施例”）。然而，除非指示为是互斥的或者本领域技术人员很清楚是互斥的，否则这些实施例并不互斥。应当注意的是，除非上下文另外明确指示或者要求，否则在本说明书中以非排他性的意义使用“或者”一词。

在本说明书提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。