CN113470779A - 药品类目识别方法及其系统 - Google Patents

药品类目识别方法及其系统 Download PDF

Info

Publication number
CN113470779A
CN113470779A CN202111028882.9A CN202111028882A CN113470779A CN 113470779 A CN113470779 A CN 113470779A CN 202111028882 A CN202111028882 A CN 202111028882A CN 113470779 A CN113470779 A CN 113470779A
Authority
CN
China
Prior art keywords
medicine
prediction
category
training
fasttext model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111028882.9A
Other languages
English (en)
Other versions
CN113470779B (zh
Inventor
雷佳奇
胡茂华
王新岐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiyaowang Technology Shanghai Co ltd
Original Assignee
Yiyaowang Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiyaowang Technology Shanghai Co ltd filed Critical Yiyaowang Technology Shanghai Co ltd
Priority to CN202111028882.9A priority Critical patent/CN113470779B/zh
Publication of CN113470779A publication Critical patent/CN113470779A/zh
Application granted granted Critical
Publication of CN113470779B publication Critical patent/CN113470779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及医药领域,公开了一种药品类目识别方法及其系统,匹配精度高,泛化能力强。在训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将三种样本标签对合并成一个训练样本集合,使用训练样本集合对fasttext模型进行训练;在预测阶段:以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。

Description

药品类目识别方法及其系统
技术领域
本申请涉及医药领域,特别涉及药品类目的自动识别技术。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是已被公开的现有技术。
为了更好的管理商家的药品信息,电商药网一般通过对码服务将商家的药品识别在现有类目体系中,以满足搜索及分类的需求。
对码服务通过对比商家药品与现有已知类目药品多个字段信息(例如药品通用名、剂型、包装、规格、包装单位、最小计价单位及生产厂家等)的匹配程度,确定商家药品的所属类目,存在计算复杂度高、匹配精度低、泛化能力差等问题。特别是对于当前药品数据库中没有记录的药品,无法准确识别其对应的类目。
发明内容
本申请的目的在于提供一种药品类目识别方法及其系统,自动识别指定药品的类目,匹配精度高,泛化能力强,对于当前药品数据库中没有记录的药品也可以准确识别。
本申请公开了一种,药品类目识别方法,包括:
训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测阶段:以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
在一个优选例中,所述fasttext模型使用如下目标函数L:
Figure 223599DEST_PATH_IMAGE001
其中,w为标签,O为所有标签w组成的集合,
Figure 62111DEST_PATH_IMAGE002
为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目,
Figure 107427DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 909161DEST_PATH_IMAGE004
为从根节点出发到w对应的叶子节点的路径,
Figure 989112DEST_PATH_IMAGE005
为路径
Figure 467367DEST_PATH_IMAGE004
中包含的节点个数,j为节点编号,
Figure 999980DEST_PATH_IMAGE006
为路径
Figure 730038DEST_PATH_IMAGE004
中第j个节点对应的编码,
Figure 539862DEST_PATH_IMAGE007
为路径
Figure 64385DEST_PATH_IMAGE004
中第j-1个非叶子节点对应的向量。
在一个优选例中,还包括,在所述训练之前,对所述训练样本集合中的样本进行分词。
在一个优选例中,在所述预测阶段,先对商品名和症状进行分词再输入所述fasttext模型。
在一个优选例中,所述以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率之前,还包括对所述商品名进行正则化的步骤。
在一个优选例中,所述正则化包括去除所述商品名中的品牌和剂型信息。
本申请还公开了一种药品类目识别系统,包括:
fasttext模型;
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测单元,用于以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
在一个优选例中,所述fasttext模型使用如下目标函数L:
Figure 84293DEST_PATH_IMAGE001
其中,w为标签,O为所有标签w组成的集合,
Figure 480027DEST_PATH_IMAGE002
为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目,
Figure 268991DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 964415DEST_PATH_IMAGE004
为从根节点出发到w对应的叶子节点的路径,
Figure 612565DEST_PATH_IMAGE005
为路径
Figure 153268DEST_PATH_IMAGE004
中包含的节点个数,j为节点编号,
Figure 452531DEST_PATH_IMAGE006
为路径
Figure 53277DEST_PATH_IMAGE004
中第j个节点对应的编码,
Figure 47777DEST_PATH_IMAGE007
为路径
Figure 533117DEST_PATH_IMAGE004
中第j-1个非叶子节点对应的向量。
在一个优选例中,还包括分词器;
在使用所述训练样本集合对fasttext模型进行训练之前,所述训练单元使用所述分词器对所述训练样本集合中的样本进行分词。
在一个优选例中,所述预测单元先使用所述分词器对商品名和症状进行分词再输入所述fasttext模型。
本申请还公开了一种药品类目识别系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请的实施方式能够自动识别指定药品的类目,匹配精度高,泛化能力强,对于当前药品数据库中没有记录的药品也可以准确识别。本申请技术方案的效果显著。在一个实施例中,评测样本总数为:12313,其中预测正确的数目为11433,准确率为92.9%。
上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请的第一实施方式的药品类目识别方法训练阶段流程示意图;
图2是根据本申请的第以实施方式的药品类目识别方法预测阶段流程示意图;
图3是根据本申请的一个实施例的fasttext模型示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面概要说明本申请的实施方式的部分创新点:
对于每一个已知药品,将该药品的商品名、症状和三级类目名称分别和该药品的三级类目标识组成样本标签对,即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识,共三种样本标签对(其中三级类目标识为样本标签对的标签),作为训练数据对fasttext模型进行训练。虽然是三种样本标签对,但在训练前混合在一起对fasttext模型进行训练,不区分具体的样本标签对类型。也就是说,从fasttext模型角度看来是同一种类型的样本标签对,只是数据量大大增加了。通常从每一个药品可以得到三个训练样本,从而大大增加了训练样本的数量,提高了匹配精度和泛化能力。
在机器学习领域,通常用什么数据进行预测就用什么数据进行训练,例如,如果是用商品名预测三级类目标识,则使用商品名和三级类目标识的样本标签对进行训练,但本申请打破了这种常规思维,对于以商品名预测的情况,不但使用了商品名和三级类目标识的样本标签对进行训练,还是使用了症状和三级类目标识、以及三级类目名称和三级类目标识这两种额外的样本标签对。尤其是三级类目名称和三级类目标识这种训练样本,在预测时是不会使用三级类目名称预测三级类目标识,但申请人发现增加三级类目名称和三级类目标识这种训练样本后预测的准确性和泛化能力都有明显的提高。在预测阶段,优先以商品名进行预测,如果预测概率不高,则再以商品名和症状的组合进行预测,这样可以进一步显著提高预测的准确性。
此外,fasttext模型的使用大大提高了预测的准确性。文本分类模型有很多,申请人尝试了多种文本分类模型后,发现以上述三种样本标签对组成的训练集训练fasttext模型时准确性有显著的提高(相对于textCNN、lstm等其他常用的文本分类模型)。特别是本申请对fasttext模型所使用的目标函数进行了改进,提高了模型在药品类目识别时的泛化能力,经过优化的目标函数为
Figure 296673DEST_PATH_IMAGE001
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种药品类目识别方法,其流程如图1和图2所示,该方法包括训练阶段和预测阶段。
步骤102,提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成三种样本标签对,即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识。其中,商品名、症状、三级类目名称为样本,三级类目标识为标签。可选的,在一个实施例中,可以对商品名进行正则化处理(例如去除商品名中的品牌、剂型等信息)。例如,“云植 舒心降脂片 0.3g*12片*4板”正则化后为“舒心降脂”。
步骤104,将三种样本标签对合并成一个训练样本集合。
步骤106,对训练样本集合中各样本标签对中的样本进行分词。本步骤是可选的。例如,“清热解毒口服液”可以分词为“清热”“解毒”“口服液”。“冈本超润滑避孕套”可以分词为“冈本”“超”“润滑”“避孕套”。
步骤108,使用训练样本集合对fasttext模型进行训练。
以上步骤102至108构成训练阶段。
步骤112,将待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率。可选地,在一个实施例中,可以对待定药品的商品名预先进行正则化处理和\或分词,然后再输入fasttext模型。
步骤114,判断第一预测概率是否大于预定的第一门限,如果是则进入步骤116,否则进入步骤118。
步骤116,以第一预测结果作为药品类目。
步骤118,将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率。可选的,在一个实施例中,可以对商品名和症状先进行分词,再将其分词结果输入到fasttext模型,以得到第二预测结果和第二预测概率。
步骤120,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。如果第二预测概率不大于预定的第二门限,则可以将该待定药品记录到一个指定的列表,之后可以由人工进行分类。
以上步骤112至120构成预测阶段。
药品名称命名主要有以下两种方式,一种是基于药品功能及疗效进行命名,例如补肾丸、感冒软胶囊、小儿咳喘口服液等,这种方式大多用于中成药命名;另一种是基于药品化学主成分进行音译命名,如阿托伐汀钙片、阿司匹林肠溶片等。前者的药品名具有见名知意的特点,而后者的名称具有明显的规范性和唯一性,如阿托伐汀钙片、阿托伐汀胶囊以及阿托伐汀分散片等都是降血脂药品。药品分类的目的就是通过挖掘药品名及其内在的功能功效相似性,选用合理的算法模型,实现非标准商品在标准类是目体系中的挂靠。
Fastext模型的目标函数基于神经网络语言模型,一般表示为如下形式:
Figure 599479DEST_PATH_IMAGE008
(1)
其中,条件概率函数p(w|Context(w))表示fasttest模型在上下文Context(w)条件下预测出标签w的概率值,L 表示所有训练样本条件概率的对数和,根据极大似然概率准则,当 L 取最大值时,fasttext模型参数达到最优。
下面给出fasttext模型对 p(w|Context(w)) 的构造方法,如图3所示,fasttext模型采用了分层softmax 方法对样本进行分类,label5 经历4次二分类,每次二分类任务中,节点被分为正类的概率是:
Figure 940330DEST_PATH_IMAGE009
(2)
于是对于标签 label5:
Figure 88415DEST_PATH_IMAGE010
最终可以得到:
Figure 972057DEST_PATH_IMAGE011
其中,
Figure 55551DEST_PATH_IMAGE012
表示从根节点出发到达 w 对应叶子节点的路径,这里的各个节点(包括根节点、叶子节点和路径中的中间节点)都是指fasttext模型输出层的节点,fasttext模型的输出层是一颗霍夫曼树;
Figure 24644DEST_PATH_IMAGE013
表示路径
Figure 710840DEST_PATH_IMAGE012
中包含的节点个数,
Figure 573623DEST_PATH_IMAGE014
表示路径
Figure 218231DEST_PATH_IMAGE012
中的
Figure 409041DEST_PATH_IMAGE015
个节点,
Figure 774294DEST_PATH_IMAGE016
表示根节点,
Figure 366949DEST_PATH_IMAGE017
表示 w对应的叶子节点,
Figure 916879DEST_PATH_IMAGE018
表示霍夫曼编码,由
Figure 722549DEST_PATH_IMAGE015
-1位编码构成,
Figure 281706DEST_PATH_IMAGE006
表示路径
Figure 728868DEST_PATH_IMAGE012
中第个j节点对应的编码,
Figure 59486DEST_PATH_IMAGE019
表示路径
Figure 490468DEST_PATH_IMAGE012
中非叶子节点对应的向量,
Figure 322157DEST_PATH_IMAGE020
表示路径
Figure 14039DEST_PATH_IMAGE012
中第j个非叶子节点对应的向量。
从上边的例子分析中可以发现, 对于所有标签w,霍夫曼树种必然存在一条根节点到w对应节点的路径
Figure 905771DEST_PATH_IMAGE012
, 路径
Figure 558470DEST_PATH_IMAGE012
上存在
Figure 334796DEST_PATH_IMAGE015
-1个分支,将每一个分支看做一次二分类,每一次分类产生一个概率, 这些概率连乘起来就得到:
Figure 490971DEST_PATH_IMAGE021
(3)
其中,
Figure 553604DEST_PATH_IMAGE022
将(3)带入(1),可以得到具体的优化目标函数:
Figure 552653DEST_PATH_IMAGE023
其中,w为标签,O为所有标签w组成的集合,
Figure 257304DEST_PATH_IMAGE002
为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目,
Figure 533565DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 908045DEST_PATH_IMAGE004
为从根节点出发到w对应的叶子节点的路径,
Figure 269757DEST_PATH_IMAGE005
为路径
Figure 637153DEST_PATH_IMAGE004
中包含的节点个数,j为节点编号,
Figure 767920DEST_PATH_IMAGE006
为路径
Figure 172356DEST_PATH_IMAGE004
中第j个节点对应的编码,
Figure 162309DEST_PATH_IMAGE007
为路径
Figure 677604DEST_PATH_IMAGE004
中第j-1个非叶子节点对应的向量。
为了提升模型的泛化能力,本实施例选用了适中的分词粒度,即文本分词长度不超过三个字符;同时在训练样本加入类目名称、药品适应症状等辅助信息,强化模型对药品中相似信息的学习,提升模型预测精度;考虑到模型对于音译药品泛化能力较差,本实施例通过多次决策的方式,提高模型对陌生音译药品的预测效果。
经过实测,本申请技术方案的效果显著,对药品适应症也有较好的泛化能力,例如:缺铁性贫血预测为补血补气、泌尿系结石-膀胱结石-尿道结石-肾结石预测预测为肾病。在一个实施例中,评测样本总数为:12313,其中预测正确的数目为11433,准确率达到92.9%。
为了能够更好地理解本申请的技术方案,下面结合一个具体的例子来进行说明,该例子中罗列的细节主要是为了便于理解,不作为对本申请的保护范围的限制。
假定药品数据库中的药品信息如下:
Figure DEST_PATH_IMAGE025
商品名和三级类目标识的样本标签对如下:
{酮洛芬缓释胶囊:971322}
{麝香壮骨膏:965172}
{关节止痛膏:965172}
{益心舒胶囊:965134}
{舒心降脂片:965138}
{舒心降脂片:965135}
症状和三级类目标识的样本标签对如下:
{类风湿性关节炎 骨关节炎 全身性骨关节炎 痛经 强直性脊柱炎 痛风:971322}
{肌肉劳损 腰椎间盘突出症 骨关节炎 扭伤 神经痛:965172}
{扭伤 关节痛:965172}
{胸痹心痛病 心绞痛 冠心病 心悸:965134}
{心绞痛 高脂血症 冠心病:965138}
{心绞痛 高脂血症 冠心病:965135}
三级类目名称和三级类目标识的样本标签对如下:
{风湿类风湿:971322}
{外用贴膏:965172}
{冠心病:965134}
{动脉硬化:965138}
{高血脂:965135}
将上述三种样本标签对合并成一个大的训练样本集合,如下:
{酮洛芬缓释胶囊:971322}
{麝香壮骨膏:965172}
{关节止痛膏:965172}
{益心舒胶囊:965134}
{舒心降脂片:965138}
{舒心降脂片:965135}
{类风湿性关节炎 骨关节炎 全身性骨关节炎 痛经 强直性脊柱炎 痛风:971322}
{肌肉劳损 腰椎间盘突出症 骨关节炎 扭伤 神经痛:965172}
{扭伤 关节痛:965172}
{胸痹心痛病 心绞痛 冠心病 心悸:965134}
{心绞痛 高脂血症 冠心病:965138}
{心绞痛 高脂血症 冠心病:965135}
{风湿类风湿:971322}
{外用贴膏:965172}
{冠心病:965134}
{动脉硬化:965138}
{高血脂:965135}
使用该训练样本集合对fasttext模型进行训练,然后使用经训练的fasttext模型进行药品类目的预测。
本申请的第二实施方式涉及一种药品类目识别系统,该药品类目识别系统包括:
fasttext模型。
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将三种样本标签对合并成一个训练样本集合,使用训练样本集合对fasttext模型进行训练。
预测单元,用于以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
可选的,在一个实施例中,所述系统还包括分词器。在使用训练样本集合对fasttext模型进行训练之前,训练单元使用分词器对训练样本集合中的样本进行分词。预测单元先使用分词器对商品名和症状进行分词再输入fasttext模型。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述药品类目识别系统的实施方式中所示的各模块的实现功能可参照前述药品类目识别方法的相关描述而理解。上述药品类目识别系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请的实施例上述药品类目识别系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请的各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请的实施例不限制于任何特定的硬件和软件结合。
相应地,本申请的实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请的实施方式还提供一种药品类目识别系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器。该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Application SpecificIntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在描述方法的步骤时使用的序号本身并不对这些步骤的顺序构成任何的限定。例如,序号大的步骤并非一定要在序号小的步骤之后执行,也可以是先执行序号大的步骤再执行序号小的步骤,还可以是并行执行,只要这种执行顺序对于本领域技术人员来说是合理的即可。又如,拥有连续编号序号的多个步骤(例如步骤101,步骤102,步骤103等)并不限制其他步骤可以在其间执行,例如步骤101和步骤102之间可以有其他的步骤。
本说明书包括本文所描述的各种实施例的组合。对实施例的单独提及(例如“一个实施例”或“一些实施例”或“优选实施例”)。然而,除非指示为是互斥的或者本领域技术人员很清楚是互斥的,否则这些实施例并不互斥。应当注意的是,除非上下文另外明确指示或者要求,否则在本说明书中以非排他性的意义使用“或者”一词。
在本说明书提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (10)

1.一种药品类目识别方法,其特征在于,包括:
训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测阶段:以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
2.如权利要求1所述的药品类目识别方法,其特征在于,还包括,所述fasttext模型使用如下目标函数L:
Figure DEST_PATH_IMAGE001
其中,w为标签,O为所有标签w组成的集合,
Figure 237011DEST_PATH_IMAGE002
为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目,
Figure DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 826255DEST_PATH_IMAGE004
为所述fasttext模型的输出层中从根节点出发到w对应的叶子节点的路径,
Figure DEST_PATH_IMAGE005
为路径
Figure 871572DEST_PATH_IMAGE004
中包含的节点个数,j为节点编号,
Figure 532360DEST_PATH_IMAGE006
为路径
Figure 346733DEST_PATH_IMAGE004
中第j个节点对应的编码,
Figure DEST_PATH_IMAGE007
为路径
Figure 559408DEST_PATH_IMAGE004
中第j-1个非叶子节点对应的向量。
3.如权利要求2所述的药品类目识别方法,其特征在于,在所述训练之前,对所述训练样本集合中的样本进行分词;在所述预测阶段,先对商品名和症状进行分词再输入所述fasttext模型。
4.如权利要求1所述的药品类目识别方法,其特征在于,所述以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率之前,还包括对所述商品名进行正则化的步骤。
5.如权利要求4所述的药品类目识别方法,其特征在于,所述正则化包括去除所述商品名中的品牌和剂型信息。
6.一种药品类目识别系统,其特征在于,包括:
fasttext模型;
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测单元,用于以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
7.如权利要求6所述的药品类目识别系统,其特征在于,所述fasttext模型使用如下目标函数L:
Figure 92021DEST_PATH_IMAGE001
其中,w为标签,O为所有标签w组成的集合,
Figure 556500DEST_PATH_IMAGE002
为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目,
Figure 225379DEST_PATH_IMAGE003
表示第i个分词对应的词向量,
Figure 484322DEST_PATH_IMAGE004
为所述fasttext模型的输出层中从根节点出发到w对应的叶子节点的路径,
Figure 379597DEST_PATH_IMAGE005
为路径
Figure 382188DEST_PATH_IMAGE004
中包含的节点个数,j为节点编号,
Figure 905573DEST_PATH_IMAGE006
为路径
Figure 600996DEST_PATH_IMAGE004
中第j个节点对应的编码,
Figure 108201DEST_PATH_IMAGE007
为路径
Figure 383325DEST_PATH_IMAGE004
中第j-1个非叶子节点对应的向量。
8.如权利要求7所述的药品类目识别系统,其特征在于,还包括分词器;在使用所述训练样本集合对fasttext模型进行训练之前,所述训练单元使用所述分词器对所述训练样本集合中的样本进行分词;所述预测单元先使用所述分词器对商品名和症状进行分词再输入所述fasttext模型。
9.一种药品类目识别系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如权利要求1至5中任意一项所述的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至5中任意一项所述的方法中的步骤。
CN202111028882.9A 2021-09-03 2021-09-03 药品类目识别方法及其系统 Active CN113470779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028882.9A CN113470779B (zh) 2021-09-03 2021-09-03 药品类目识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028882.9A CN113470779B (zh) 2021-09-03 2021-09-03 药品类目识别方法及其系统

Publications (2)

Publication Number Publication Date
CN113470779A true CN113470779A (zh) 2021-10-01
CN113470779B CN113470779B (zh) 2021-11-26

Family

ID=77867318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028882.9A Active CN113470779B (zh) 2021-09-03 2021-09-03 药品类目识别方法及其系统

Country Status (1)

Country Link
CN (1) CN113470779B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150110381A1 (en) * 2013-09-22 2015-04-23 The Regents Of The University Of California Methods for delineating cellular regions and classifying regions of histopathology and microanatomy
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN105550526A (zh) * 2016-01-04 2016-05-04 北京科技大学 一种基于中药属性的中医方剂功效定量方法及系统
CN107067427A (zh) * 2017-05-18 2017-08-18 北京工商大学 一种针对农残检测数据的极坐标布局可视化方法
CN110781298A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 药品分类方法、装置、计算机设备及存储介质
JP2020160698A (ja) * 2019-03-26 2020-10-01 株式会社医療情報技術研究所 薬剤処方支援システム
CN111738014A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 一种药物分类方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150110381A1 (en) * 2013-09-22 2015-04-23 The Regents Of The University Of California Methods for delineating cellular regions and classifying regions of histopathology and microanatomy
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN105550526A (zh) * 2016-01-04 2016-05-04 北京科技大学 一种基于中药属性的中医方剂功效定量方法及系统
CN107067427A (zh) * 2017-05-18 2017-08-18 北京工商大学 一种针对农残检测数据的极坐标布局可视化方法
JP2020160698A (ja) * 2019-03-26 2020-10-01 株式会社医療情報技術研究所 薬剤処方支援システム
CN110781298A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 药品分类方法、装置、计算机设备及存储介质
CN111738014A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 一种药物分类方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENNING SCHÄFER: "UMLS mapping and Word embeddings for ICD code assignment using the MIMIC-III intensive care database", 《2019 41ST ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC)》 *
李雪松: "基于宽度和词向量特征的文本分类模型", 《计算机系统应用》 *

Also Published As

Publication number Publication date
CN113470779B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Wang et al. Learning latent opinions for aspect-level sentiment classification
Ifraz et al. [Retracted] Comparative Analysis for Prediction of Kidney Disease Using Intelligent Machine Learning Methods
Dogra et al. Analyzing DistilBERT for sentiment classification of banking financial news
Haque et al. Improving drug review categorization using sentiment analysis and machine learning
Sindhura et al. Sentiment analysis for product reviews based on weakly-supervised deep embedding
Ptak-Chmielewska Predicting micro-enterprise failures using data mining techniques
Zhang et al. VetTag: improving automated veterinary diagnosis coding via large-scale language modeling
CN110990560B (zh) 一种司法数据处理方法及系统
Alaminos et al. Sovereign debt and currency crises prediction models using machine learning techniques
Kamal et al. Trading stocks based on financial news using attention mechanism
CN116150367A (zh) 一种基于方面的情感分析方法及系统
Guha et al. Real-time application of document classification based on machine learning
Rakhshaninejad et al. An ensemble-based credit card fraud detection algorithm using an efficient voting strategy
Naresh et al. Comparative Study of Machine Learning Algorithms for Fake Review Detection with Emphasis on SVM
CN113470779B (zh) 药品类目识别方法及其系统
Liu et al. Using convolutional neural networks to support insertion of new concepts into SNOMED CT
Rajkar et al. Stock market price prediction and analysis
Gerling Company2Vec--German Company Embeddings based on Corporate Websites
Bangyal et al. Polarity Classification of Twitter Data Using Machine Learning Approach
Md. Ashafuddula et al. An Intelligent Diagnostic System to Analyze Early‐Stage Chronic Kidney Disease for Clinical Application
Sivri et al. Ensemble learning based stock market prediction enhanced with sentiment analysis
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
Vimal Application of logistic regression in natural language processing
Gulhane et al. A Machine Learning based Model for Disease Prediction
Modak et al. Sentiment analysis of twitter data using clustering and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant