CN112100202B

CN112100202B - 一种产品识别及产品信息补全方法、存储介质及机器人

Info

Publication number: CN112100202B
Application number: CN202011258530.8A
Authority: CN
Inventors: 王佳斐; 倪述荣; 孙欣然
Original assignee: Shanghai Juyin Information Technology Co ltd
Current assignee: SHANGHAI JUYIN INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-04-23
Anticipated expiration: 2040-11-12
Also published as: CN112100202A

Abstract

本申请涉及一种产品识别及产品信息补全方法、存储介质及机器人。所述方法包括接收用户输入的产品关键信息；分析产品关键信息是否规范，若规范则直接判断是否是内部数据库中已有产品；若不规范，则采用产品识别规则对产品关键信息进行分析，判断是否是内部数据库中已有产品；若是内部数据库中已有产品，则匹配到相应的产品详细信息，并根据产品变化情况对内部数据库进行数据更新；若不是内部数据库中已有产品，则采用产品信息补全规则匹配相应的产品详细信息，并将匹配到的产品详细信息录入到内部数据库中。本申请通过产品识别规则和产品信息补全规则进行产品的自动识别和产品信息的自动补全，提高了产品识别及信息补全的工作效率和准确率。

Description

一种产品识别及产品信息补全方法、存储介质及机器人

技术领域

本申请涉及产品识别技术领域，尤其是涉及一种产品识别及产品信息补全方法、存储介质及机器人。

背景技术

药店产品一般都包括药品和非药品，非药品包括保健品和医疗器械等。一般药店的产品都有成百上千个品种，对于连锁药店的管理者来说，品种越多越不容易记录和查找，还容易出错。因此连锁药店通常都配备有线上信息管理系统，方便管理者管理药店。

连锁药店的线上信息管理系统中记录各药店中所有产品的产品信息。当产品信息需要更新或者有产品查找需求时，需要录入产品信息，如果仅仅输入产品的部分关键字，可能会由于信息管理系统的匹配度较低，而匹配不到相应的产品。因此需要店员手动输入完整的产品信息，包括：是否为药品、产品名称、产品条码、产品批文、生产厂家、库存量等所有信息。店员手动输入的效率较低，而且如果不小心录入了错误的产品信息，会导致后期查找该产品时，或者该产品数据信息需要更新时出现错误。

发明内容

为了便于提高产品识别和产品信息补全的效率和准确率，本申请提供了一种产品识别及产品信息补全方法、存储介质及机器人。

第一方面，本申请提供的一种产品识别及产品信息补全方法，采用如下的技术方案：

一种产品识别及产品信息补全方法，包括：

接收用户输入的产品关键信息；

分析所述产品关键信息是否规范，

若所述产品关键信息规范，则直接判断是否是内部数据库中已有产品；

若所述产品关键信息不规范，则采用产品识别规则对所述产品关键信息进行分析，然后判断是否是内部数据库中已有产品；

若是内部数据库中已有产品，则匹配到相应的产品详细信息，并根据产品变化情况对内部数据库进行数据更新；

若不是内部数据库中已有产品，则采用产品信息补全规则匹配相应的产品详细信息，并将匹配到的产品详细信息录入到内部数据库中。

通过采用上述技术方案，当店员输入的是规范的产品信息时，自动匹配到相应产品，并对内部数据库进行数据更新。当店员输入的是不规范的产品信息时，需要通过一系列的产品识别规则对产品关键信息进行匹配，分析该产品是药品还是非药品，是否是内部数据库中已有产品。当判断不是内部数据库中的已有产品时，需要通过一系列的补全规则对该产品的信息进行补全，并将补全信息录入到内部数据库中。通过产品识别规则和产品信息补全规则进行产品的自动识别和产品信息的自动补全，提高了产品识别的工作效率和准确率。

可选的，所述产品关键信息包括产品名称关键字、产品批准文号、产品条码或生产厂家等信息。

通过采用上述技术方案，输入的产品关键信息可以使产品名称关键字、产品批准文号、产品条码、产品功效和/或生产厂家等信息。顾客到药店购买药品，但是不知道药品的完整名称，仅仅知道药品名称中的几个字，那么这几个字就可以作为产品关键信息。根据这种不完整的产品信息，就可以查找到顾客要购买的药品。

可选的，所述分析产品关键信息是否规范，具体为：

采用正则表达式对所述产品关键信息进行正则匹配，判断所述产品关键信息是否规范。

通过采用上述技术方案，根据正则表达式，对输入的产品关键信息属于哪个字段、相应的字段信息是否符合标准进行匹配，提高了判断输入数据是否规范的效率和准确率。

可选的，所述产品识别规则包括：

根据所述产品关键信息，通过关键字精确匹配方法分析是否是内部数据库中已有产品；和/或，

通过机器学习方法对所述产品关键信息进行分析，并分析是否是内部数据库中已有产品。

通过采用上述技术方案，根据产品关键信息直接进行关键字精确匹配，如果能够匹配出正确的产品，则查找到相应的产品详细信息。当通过关键字精确匹配方法不能匹配到正确产品时，可以利用机器学习方法的自我学习能力，依照产品关键信息内容进行分析，可以帮助用户更方便地匹配需要的信息。

可选的，通过机器学习方法对所述产品关键信息进行分析，具体为：

对所述产品关键信息进行量化编码，对编码后的数据进行规整处理；

采用聚类算法在内部数据库范围内对规整处理后的编码进行信息聚类；

采用信息联想法完成产品关键信息的信息联想。

通过采用上述技术方案，根据产品关键信息中的特征，采用计算速度较快、准确率也相对较高的聚类算法进行分析，聚类算法具有处理大的数据集的能力以及处理数据噪声的能力，对于大型数据集是简单高效的，时间复杂度和空间复杂度较低。再采用信息联想方法进行信息联想，能够较快匹配出与输入的产品关键信息相似度最高的产品详细信息。

可选的，所述产品信息补全规则包括：

根据所述产品关键信息出现的频次，匹配相应产品的产品详细信息；

根据所述产品关键信息中几个关键字的组合，匹配相应产品的产品详细信息；和/或，

通过机器学习方法对所述产品关键信息进行分析，匹配相应产品的产品详细信息。

通过采用上述技术方案，当要查找的产品不是内部数据库中已有的产品时，需要通过产品关键信息出现的频次、各个关键字的组合、机器学习方法分析这几种补全规则在大数据中进行匹配，并将匹配到的正确产品详细信息录入到内部数据库中。

可选的，所述通过机器学习方法对所述产品关键信息进行分析，具体为：

采用信息联想法完成产品关键信息的信息联想。

第二方面，本申请提供的一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行：接收用户输入的产品关键信息；

分析产品关键信息是否规范，

若所述产品关键信息不规范，则采用产品识别规则对产品关键信息进行分析，然后判断是否是内部数据库中已有产品；

若不是内部数据库中已有产品，则采用产品信息补全规则匹配相应的产品详细信息，并将匹配到的产品详细信息录入到内部数据库中的步骤。

通过采用上述技术方案，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时能够实现执行本申请所提供的产品识别及产品信息补全方法。

第三方面，本申请提供的一种基于机器学习的药品识别及药品信息补全的机器人，采用如下的技术方案：

一种机器人，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：接收用户输入的产品关键信息；

分析产品关键信息是否规范，

通过采用上述技术方案，所述机器人上能够实现执行本申请所提供的产品识别及产品信息补全方法。

综上所述，本申请包括以下有益技术效果：

在用户输入的产品关键信息不规范时，采用本申请所述的产品识别规则对产品关键信息进行分析和匹配，能够精确地分析出要查找的产品是否是内部已有产品。当判断不是内部已有产品时，采用本申请所述的产品信息补全规则在大数据中进行信息匹配，确认匹配到正确的产品详细信息后，将该产品详细信息录入到内部数据库中。通过产品识别规则和产品信息补全规则进行产品的自动识别和产品信息的自动补全，提高了产品识别及信息补全的效率和准确率。

附图说明

图1是本申请其中一实施例的产品识别及产品信息补全方法流程图。

图2是本申请其中一实施例的K-means聚类算法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

本申请实施例公开一种产品识别及产品信息补全方法，如图1所示，所述方法的流程如下。

1. 接收用户输入的产品关键信息。

通常连锁药店都配备有线上的信息管理系统，用于对所有药店的产品信息进行管理。所述产品关键信息，是指当顾客到连锁药店购买某种产品，但是不知道该产品的全部信息，只知道该产品的部分关键字时，如只知道药品名称中包含“氨基酚”这几个字，则将“氨基酚”做为产品关键信息进行输入。

2. 分析所述产品关键信息是否规范。

将输入的产品关键信息（如产品名称关键字、产品批准文号、产品条码、产品功效、生产厂家等信息）与预设定的正则表达式进行匹配；如果能够匹配，则判定输入的产品关键信息是规范的；如果不能够匹配，则判定输入的产品关键信息不规范。

正则表达式又称规则表达式，是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

在本实施例中，店员录入的产品关键信息为产品条码。

产品条码是为了区分不同产品，即一个产品项目只能有一个代码，或者说一个代码只能标识一种产品项目。不同规格、不同包装、不同品种、不同价格、不同颜色的产品只能使用不同的产品代码。

通常情况下，我国零售商品的条形码选用13位数字代码结构来表示，且由4部分组成：左起前3位为前缀号，即国别码，是由国际物品编码协会分配给中国物品编码中心的，目前中国常用的前缀码是690~695；前缀号之后的4至5位为制造商码，代表一个企业，具有唯一性，由中国物品编码中心统一向申请厂商分配；制造商码之后的5至4位为商品项目代码，由厂商根据有关规定自行分配；最后一位为检验码，用来校验其他代码编码的正误。根据条形码的数字代码结构设定正则表达式：/^69\d{11}$/，通过该正则表达式判断输入的产品条码是否规范。

3. 若所述产品关键信息规范，则直接判断是否是内部数据库中已有产品。

当判定输入的是规范的产品关键信息时，则查找较为方便，可以在药店的内部数据库中自动查找是否是内部数据库中已有产品，如果是内部数据库中已有产品时，则可以直接匹配到相应的产品详细信息，店员根据匹配到的产品详细信息向顾客进行反馈。

4. 若所述产品关键信息不规范，则采用产品识别规则对所述产品关键信息进行分析，然后判断是否是内部数据库中已有产品。

当判定输入的产品关键信息不规范时，直接在药店的内部数据库中很可能是查找不到相应的产品详细信息的。这就需要采用本实施例所述产品识别规则对所述产品关键信息进行分析。

所述产品识别规则包括以下几个方面：

（1）根据所述产品关键信息，通过关键字精确匹配方法分析是否是内部数据库中已有产品。例如，产品关键信息是“氨基酚、感冒、发热”，那么直接输入这几个关键字，系统会自动在内部数据库中进行精确匹配，可以匹配到药品名称中包含“氨基酚”、药品功效是用于治疗“感冒、发热”的药品信息。如果输入的关键字中有错误，如输入的产品关键信息是“安极分”，那么通过关键字精确匹配方法是无法匹配到相应的产品详细信息的，这就需要采用一种比较智能的方法对产品关键信息进行分析。

（2）通过机器学习方法对所述产品关键信息进行分析，并分析是否是内部数据库中已有产品。

本实施例采用机器学习方法中的聚类算法。聚类问题通常是根据实际问题需要（比如建立模糊查询知识库）有意识地把某些含义关联较强的信息条目归为一类，而含义关联不强的归为不同类，能够根据给定的一条信息（如关键词），依据其含义，判断应归入聚类后的哪一类，这就是进行信息模糊查询检索的前提。

首先根据产品关键信息对内部数据库中的产品详细信息将进行量化编码，对编码后的数据进行规整处理，将其处理为机器学习算法中可识别的编码；采用K-means聚类算法进行聚类，得到K类样本；计算K类样本的聚类中心，将K个中心样本作为需要联想记忆的样本模式，采用Hopfield网络模型进行信息联想。

1）K-means聚类算法是一种基于划分的聚类算法，目的是通过不断的迭代计算找出使得平方误差值最小的K个划分。K-means聚类算法的主要优点在于：运算简单、速度快，对于大数据集效率高、可伸缩性腔，时间复杂度接近线性。

K-means聚类算法如下：

步骤1，设有n个待聚类数据对象，所有数据对象包含g维属性，构造属性值矩阵X：

（1）

其中，x _ng表示对象x _n的第j维属性的度量。

计算第j维属性对应的第i个数据对象的属性值比重。

通过下式进行各属性的标准化：

（2）

其中，r _ij为对象对象x _i的第j维属性的属性值比重，i=1,2,…,n，j=1,2,…,g。

依照上式对属性值矩阵X做标准化处理，得到相应的属性值比重矩阵R：

（3）

计算第j维属性的熵值：

（4）

其中，k=1/lnn。

计算第j维属性的权值：

（5）

其中，0≤w _j≤1，

。

计算各邻居间的权重系数。

邻居间的权重系数由对象的全部属性和其所有的邻居共同确定。设对象x _j是数据对象x _i的某个邻居，则二者间的权重系数的计算公式如下：

（6）

其中，x _lp表示对象x _l的第p维属性值，对象x _l是对象x _i的邻居，w _p是第p维属性的权值。

利用信息熵计算属性权值及邻居间权重系数方法，将对象x _i与其邻居x _j之间的距离计算公式修改为：

（7）

步骤2，算法准备：解出任意两数据对象间的欧式距离，并保存至矩阵D中。

（8）

根据下式计算出数据对象之间的平均距离：

（9）

设A’=A，一次选取对象集A’中的数据对象x _i(i=1,2,…,n)，将与x _i的距离小于AvrDis的数据对象从集合A’中删除，对得到集合A’中各数据对象重新编号1至q，任意两数据对象间的欧氏距离矩阵D’为：

（10）

设集合A’中距离最大的两个数据对象分别为x _start和x _end，则x _start和x _end分属两个聚类，因此将x _start作为第一个选取的数据对象，将x _end作为最后一个选取的数据对象，选取其余k-2个数据对象即可。

设M _im表示第m个选取的数据对象为x _i时的最大累加距离k’=k-2。

当m=1时，选取数据对象x _start，M _im=d(x _i, x _start)。

当m＜k’时，M _im表示为：

（11）

在计算最优值的同时用矩阵B记录相关信息，B _im记录当第m个选取的数据对象为x _i获得最大累加距离时第m-1个选取的数据对象。设B _endk=j，则第k’-1个数据对象为x _j，则B _j(k’-1)记录着第k’-2个数据对象，依次类推构造处相应的最优解。

步骤3，算法流程：如图2所示，对输入的数据进行处理，计算出各个属性的权值以及邻居间的权重系数，得到修正的赋权距离计算公式；选择出K个初始聚类中心；逐个将数据对象按照修正的距离计算公式分配给最近的几个聚类中心；计算K个聚类的质心，更新聚类中心；重复执行，直到聚类中心不再发生改变。

2）基于霍普菲尔德（Hopfield）网络模型完成产品关键信息的最后关联匹配。Hopfield网络是一种反馈型神经网络，各个神经元都是相互连接的，即每一个神经元都将自己的输出通过连接权传送给所有其它神经元，同时每个神经元又都接收所有其它神经元传递过来的信息。Hopfield网络模型具体如下：

步骤1，将设定记忆模式，将欲存储的模式进行编码，得到取值为1和-1的记忆模式：

；

步骤2，设计网络权值：

（12）

其中，W _αβ是神经元β到α突触权值。

步骤3，将Y中的各个分类的Y1,Y2,…,Ys分别作为第一层网络s节点的输入，则节点有相应的初始状态Z（t=0），即 zα(0)=Yβ，β=1,2, …,s。

步骤4，Hopfield网络输出

（13）

（14）

（15）

5. 若是内部数据库中已有产品，则匹配到相应的产品详细信息，并根据产品变化情况对内部数据库进行数据更新。

当判断顾客要购买的产品为本连锁药店中已有的产品时，则可以查询本药店是否备有，如果本药店有则可以销售给顾客；如果本药店没有则可以为顾客调配相应产品，或是告知顾客备有该产品的药店地址。

6. 若不是内部数据库中已有产品，则采用产品信息补全规则匹配相应的产品详细信息，并将匹配到的产品详细信息录入到内部数据库中。

当判断顾客要购买的产品不是本连锁药店中已有的产品时，则采用基于机器学习算法的补全规则，在大数据中查找出该产品的产品详细信息，将该产品详细信息告知顾客。同时将该产品详细信息录入到本连锁药店的数据库中，为药店管理者提供参考。

所述产品信息补全规则包括：

根据所述产品关键信息中的检索词在相应检索项中出现的频次，根据出现频次由多至少的顺序给出产品推荐，从而匹配出相应产品的产品详细信息。

根据所述产品关键信息中几个关键字的组合，匹配相应产品的产品详细信息。如顾客知道药品名称中包含“氨基酚”这几个字，功效是治疗感冒引起的发热，则将“产品名称=氨基酚、产品功效=感冒+发热”的组合做为产品关键信息，输入该产品关键信息，采用关键词组合策略，对输入的产品关键信息中各关键词的组合进行分析，匹配相应产品的产品详细信息，提高了产品匹配的准确率。

通过机器学习方法对所述产品关键信息进行分析，匹配相应产品的产品详细信息。这里采用的机器学习方法与在内部数据库中进行分析时采用的方法相同。即采用K-means聚类算法进行聚类，得到K类样本；计算K类样本的聚类中心，将K个中心样本作为需要联想记忆的样本模式，采用Hopfield网络模型进行信息联想。不同点在于，在产品识别规则中的数据范围为内部数据库中的所有数据，而产品信息补全规则是基于大数据进行的数据分析匹配。

本申请实施例还公开一种计算机可读存储介质，采用如下的技术方案：

分析所述产品关键信息是否规范，

本申请实施例还提供了一种基于机器学习的药品识别及药品信息补全的机器人，采用如下的技术方案：

分析所述产品关键信息是否规范，

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种产品识别及产品信息补全方法，其特征在于，包括：

接收用户输入的产品关键信息；

分析所述产品关键信息是否规范，

若不是内部数据库中已有产品，则采用产品信息补全规则匹配相应的产品详细信息，并将匹配到的产品详细信息录入到内部数据库中；

其中，所述产品识别规则包括：

通过机器学习方法对所述产品关键信息进行分析匹配，并分析是否是内部数据库中已有产品，具体为：

采用信息联想方法完成产品关键信息的信息联想；

其中，所述产品信息补全规则包括：

通过机器学习方法对所述产品关键信息进行分析，匹配相应产品的产品详细信息，具体为：

采用信息联想方法完成产品关键信息的信息联想。

2.根据权利要求1所述的产品识别及产品信息补全方法，其特征在于，所述产品关键信息包括产品名称关键字、产品批准文号、产品条码、产品功效和/或生产厂家。

3.根据权利要求2所述的产品识别及产品信息补全方法，其特征在于，所述分析产品关键信息是否规范，具体为：

4.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-3任一项所述的方法的步骤。

5.一种机器人，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-3中任一项所述的方法的步骤。