CN113470779A - 药品类目识别方法及其系统 - Google Patents
药品类目识别方法及其系统 Download PDFInfo
- Publication number
- CN113470779A CN113470779A CN202111028882.9A CN202111028882A CN113470779A CN 113470779 A CN113470779 A CN 113470779A CN 202111028882 A CN202111028882 A CN 202111028882A CN 113470779 A CN113470779 A CN 113470779A
- Authority
- CN
- China
- Prior art keywords
- medicine
- prediction
- category
- training
- fasttext model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 107
- 229940079593 drug Drugs 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 73
- 208000024891 symptom Diseases 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000002552 dosage form Substances 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 description 8
- 208000029078 coronary artery disease Diseases 0.000 description 8
- 239000003826 tablet Substances 0.000 description 8
- 206010002383 Angina Pectoris Diseases 0.000 description 6
- 239000009427 jiangzhi Substances 0.000 description 6
- 201000008482 osteoarthritis Diseases 0.000 description 6
- 239000002775 capsule Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 208000006820 Arthralgia Diseases 0.000 description 4
- 208000031226 Hyperlipidaemia Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000007788 liquid Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- OJRHUICOVVSGSY-RXMQYKEDSA-N (2s)-2-chloro-3-methylbutan-1-ol Chemical compound CC(C)[C@H](Cl)CO OJRHUICOVVSGSY-RXMQYKEDSA-N 0.000 description 2
- 206010002556 Ankylosing Spondylitis Diseases 0.000 description 2
- 206010003210 Arteriosclerosis Diseases 0.000 description 2
- XUKUURHRXDUEBC-KAYWLYCHSA-N Atorvastatin Chemical compound C=1C=CC=CC=1C1=C(C=2C=CC(F)=CC=2)N(CC[C@@H](O)C[C@@H](O)CC(O)=O)C(C(C)C)=C1C(=O)NC1=CC=CC=C1 XUKUURHRXDUEBC-KAYWLYCHSA-N 0.000 description 2
- XUKUURHRXDUEBC-UHFFFAOYSA-N Atorvastatin Natural products C=1C=CC=CC=1C1=C(C=2C=CC(F)=CC=2)N(CCC(O)CC(O)CC(O)=O)C(C(C)C)=C1C(=O)NC1=CC=CC=C1 XUKUURHRXDUEBC-UHFFFAOYSA-N 0.000 description 2
- 208000005171 Dysmenorrhea Diseases 0.000 description 2
- 206010013935 Dysmenorrhoea Diseases 0.000 description 2
- 241000402754 Erythranthe moschata Species 0.000 description 2
- 201000005569 Gout Diseases 0.000 description 2
- 206010050296 Intervertebral disc protrusion Diseases 0.000 description 2
- 206010050031 Muscle strain Diseases 0.000 description 2
- 206010033557 Palpitations Diseases 0.000 description 2
- 208000011775 arteriosclerosis disease Diseases 0.000 description 2
- 229960005370 atorvastatin Drugs 0.000 description 2
- 229960001770 atorvastatin calcium Drugs 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 201000005577 familial hyperlipidemia Diseases 0.000 description 2
- DKYWVDODHFEZIM-UHFFFAOYSA-N ketoprofen Chemical compound OC(=O)C(C)C1=CC=CC(C(=O)C=2C=CC=CC=2)=C1 DKYWVDODHFEZIM-UHFFFAOYSA-N 0.000 description 2
- 229960000991 ketoprofen Drugs 0.000 description 2
- 208000004296 neuralgia Diseases 0.000 description 2
- 239000002674 ointment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010039073 rheumatoid arthritis Diseases 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 210000000115 thoracic cavity Anatomy 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 206010007026 Calculus urethral Diseases 0.000 description 1
- 206010007027 Calculus urinary Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 208000015710 Iron-Deficiency Anemia Diseases 0.000 description 1
- 208000000913 Kidney Calculi Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010029148 Nephrolithiasis Diseases 0.000 description 1
- 208000006568 Urinary Bladder Calculi Diseases 0.000 description 1
- 208000009911 Urinary Calculi Diseases 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000007919 dispersible tablet Substances 0.000 description 1
- 239000002662 enteric coated tablet Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 230000001050 lubricating effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 239000007901 soft capsule Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 201000009160 urethral calculus Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及医药领域,公开了一种药品类目识别方法及其系统,匹配精度高,泛化能力强。在训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将三种样本标签对合并成一个训练样本集合,使用训练样本集合对fasttext模型进行训练;在预测阶段:以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
Description
技术领域
本申请涉及医药领域,特别涉及药品类目的自动识别技术。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是已被公开的现有技术。
为了更好的管理商家的药品信息,电商药网一般通过对码服务将商家的药品识别在现有类目体系中,以满足搜索及分类的需求。
对码服务通过对比商家药品与现有已知类目药品多个字段信息(例如药品通用名、剂型、包装、规格、包装单位、最小计价单位及生产厂家等)的匹配程度,确定商家药品的所属类目,存在计算复杂度高、匹配精度低、泛化能力差等问题。特别是对于当前药品数据库中没有记录的药品,无法准确识别其对应的类目。
发明内容
本申请的目的在于提供一种药品类目识别方法及其系统,自动识别指定药品的类目,匹配精度高,泛化能力强,对于当前药品数据库中没有记录的药品也可以准确识别。
本申请公开了一种,药品类目识别方法,包括:
训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测阶段:以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
在一个优选例中,所述fasttext模型使用如下目标函数L:
其中,w为标签,O为所有标签w组成的集合,为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目, 表示第i个分词对应的词向量,为从根节点出发到w对应的叶子节点的路径,为路径中包含的节点个数,j为节点编号,为路径中第j个节点对应的编码,为路径中第j-1个非叶子节点对应的向量。
在一个优选例中,还包括,在所述训练之前,对所述训练样本集合中的样本进行分词。
在一个优选例中,在所述预测阶段,先对商品名和症状进行分词再输入所述fasttext模型。
在一个优选例中,所述以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率之前,还包括对所述商品名进行正则化的步骤。
在一个优选例中,所述正则化包括去除所述商品名中的品牌和剂型信息。
本申请还公开了一种药品类目识别系统,包括:
fasttext模型;
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测单元,用于以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
在一个优选例中,所述fasttext模型使用如下目标函数L:
其中,w为标签,O为所有标签w组成的集合,为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目, 表示第i个分词对应的词向量,为从根节点出发到w对应的叶子节点的路径,为路径中包含的节点个数,j为节点编号,为路径中第j个节点对应的编码,为路径中第j-1个非叶子节点对应的向量。
在一个优选例中,还包括分词器;
在使用所述训练样本集合对fasttext模型进行训练之前,所述训练单元使用所述分词器对所述训练样本集合中的样本进行分词。
在一个优选例中,所述预测单元先使用所述分词器对商品名和症状进行分词再输入所述fasttext模型。
本申请还公开了一种药品类目识别系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请的实施方式能够自动识别指定药品的类目,匹配精度高,泛化能力强,对于当前药品数据库中没有记录的药品也可以准确识别。本申请技术方案的效果显著。在一个实施例中,评测样本总数为:12313,其中预测正确的数目为11433,准确率为92.9%。
上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请的第一实施方式的药品类目识别方法训练阶段流程示意图;
图2是根据本申请的第以实施方式的药品类目识别方法预测阶段流程示意图;
图3是根据本申请的一个实施例的fasttext模型示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面概要说明本申请的实施方式的部分创新点:
对于每一个已知药品,将该药品的商品名、症状和三级类目名称分别和该药品的三级类目标识组成样本标签对,即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识,共三种样本标签对(其中三级类目标识为样本标签对的标签),作为训练数据对fasttext模型进行训练。虽然是三种样本标签对,但在训练前混合在一起对fasttext模型进行训练,不区分具体的样本标签对类型。也就是说,从fasttext模型角度看来是同一种类型的样本标签对,只是数据量大大增加了。通常从每一个药品可以得到三个训练样本,从而大大增加了训练样本的数量,提高了匹配精度和泛化能力。
在机器学习领域,通常用什么数据进行预测就用什么数据进行训练,例如,如果是用商品名预测三级类目标识,则使用商品名和三级类目标识的样本标签对进行训练,但本申请打破了这种常规思维,对于以商品名预测的情况,不但使用了商品名和三级类目标识的样本标签对进行训练,还是使用了症状和三级类目标识、以及三级类目名称和三级类目标识这两种额外的样本标签对。尤其是三级类目名称和三级类目标识这种训练样本,在预测时是不会使用三级类目名称预测三级类目标识,但申请人发现增加三级类目名称和三级类目标识这种训练样本后预测的准确性和泛化能力都有明显的提高。在预测阶段,优先以商品名进行预测,如果预测概率不高,则再以商品名和症状的组合进行预测,这样可以进一步显著提高预测的准确性。
此外,fasttext模型的使用大大提高了预测的准确性。文本分类模型有很多,申请人尝试了多种文本分类模型后,发现以上述三种样本标签对组成的训练集训练fasttext模型时准确性有显著的提高(相对于textCNN、lstm等其他常用的文本分类模型)。特别是本申请对fasttext模型所使用的目标函数进行了改进,提高了模型在药品类目识别时的泛化能力,经过优化的目标函数为。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种药品类目识别方法,其流程如图1和图2所示,该方法包括训练阶段和预测阶段。
步骤102,提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成三种样本标签对,即商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识。其中,商品名、症状、三级类目名称为样本,三级类目标识为标签。可选的,在一个实施例中,可以对商品名进行正则化处理(例如去除商品名中的品牌、剂型等信息)。例如,“云植 舒心降脂片 0.3g*12片*4板”正则化后为“舒心降脂”。
步骤104,将三种样本标签对合并成一个训练样本集合。
步骤106,对训练样本集合中各样本标签对中的样本进行分词。本步骤是可选的。例如,“清热解毒口服液”可以分词为“清热”“解毒”“口服液”。“冈本超润滑避孕套”可以分词为“冈本”“超”“润滑”“避孕套”。
步骤108,使用训练样本集合对fasttext模型进行训练。
以上步骤102至108构成训练阶段。
步骤112,将待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率。可选地,在一个实施例中,可以对待定药品的商品名预先进行正则化处理和\或分词,然后再输入fasttext模型。
步骤114,判断第一预测概率是否大于预定的第一门限,如果是则进入步骤116,否则进入步骤118。
步骤116,以第一预测结果作为药品类目。
步骤118,将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率。可选的,在一个实施例中,可以对商品名和症状先进行分词,再将其分词结果输入到fasttext模型,以得到第二预测结果和第二预测概率。
步骤120,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。如果第二预测概率不大于预定的第二门限,则可以将该待定药品记录到一个指定的列表,之后可以由人工进行分类。
以上步骤112至120构成预测阶段。
药品名称命名主要有以下两种方式,一种是基于药品功能及疗效进行命名,例如补肾丸、感冒软胶囊、小儿咳喘口服液等,这种方式大多用于中成药命名;另一种是基于药品化学主成分进行音译命名,如阿托伐汀钙片、阿司匹林肠溶片等。前者的药品名具有见名知意的特点,而后者的名称具有明显的规范性和唯一性,如阿托伐汀钙片、阿托伐汀胶囊以及阿托伐汀分散片等都是降血脂药品。药品分类的目的就是通过挖掘药品名及其内在的功能功效相似性,选用合理的算法模型,实现非标准商品在标准类是目体系中的挂靠。
Fastext模型的目标函数基于神经网络语言模型,一般表示为如下形式:
其中,条件概率函数p(w|Context(w))表示fasttest模型在上下文Context(w)条件下预测出标签w的概率值,L 表示所有训练样本条件概率的对数和,根据极大似然概率准则,当 L 取最大值时,fasttext模型参数达到最优。
下面给出fasttext模型对 p(w|Context(w)) 的构造方法,如图3所示,fasttext模型采用了分层softmax 方法对样本进行分类,label5 经历4次二分类,每次二分类任务中,节点被分为正类的概率是:
于是对于标签 label5:
其中,
其中,
将(3)带入(1),可以得到具体的优化目标函数:
其中,w为标签,O为所有标签w组成的集合,为标签w对应的输入向量(为训练样本中各个分词词向量的均值),上标T代表转置,C为训练样本分词数目, 表示第i个分词对应的词向量,为从根节点出发到w对应的叶子节点的路径,为路径中包含的节点个数,j为节点编号,为路径中第j个节点对应的编码,为路径中第j-1个非叶子节点对应的向量。
为了提升模型的泛化能力,本实施例选用了适中的分词粒度,即文本分词长度不超过三个字符;同时在训练样本加入类目名称、药品适应症状等辅助信息,强化模型对药品中相似信息的学习,提升模型预测精度;考虑到模型对于音译药品泛化能力较差,本实施例通过多次决策的方式,提高模型对陌生音译药品的预测效果。
经过实测,本申请技术方案的效果显著,对药品适应症也有较好的泛化能力,例如:缺铁性贫血预测为补血补气、泌尿系结石-膀胱结石-尿道结石-肾结石预测预测为肾病。在一个实施例中,评测样本总数为:12313,其中预测正确的数目为11433,准确率达到92.9%。
为了能够更好地理解本申请的技术方案,下面结合一个具体的例子来进行说明,该例子中罗列的细节主要是为了便于理解,不作为对本申请的保护范围的限制。
假定药品数据库中的药品信息如下:
商品名和三级类目标识的样本标签对如下:
{酮洛芬缓释胶囊:971322}
{麝香壮骨膏:965172}
{关节止痛膏:965172}
{益心舒胶囊:965134}
{舒心降脂片:965138}
{舒心降脂片:965135}
症状和三级类目标识的样本标签对如下:
{类风湿性关节炎 骨关节炎 全身性骨关节炎 痛经 强直性脊柱炎 痛风:971322}
{肌肉劳损 腰椎间盘突出症 骨关节炎 扭伤 神经痛:965172}
{扭伤 关节痛:965172}
{胸痹心痛病 心绞痛 冠心病 心悸:965134}
{心绞痛 高脂血症 冠心病:965138}
{心绞痛 高脂血症 冠心病:965135}
三级类目名称和三级类目标识的样本标签对如下:
{风湿类风湿:971322}
{外用贴膏:965172}
{冠心病:965134}
{动脉硬化:965138}
{高血脂:965135}
将上述三种样本标签对合并成一个大的训练样本集合,如下:
{酮洛芬缓释胶囊:971322}
{麝香壮骨膏:965172}
{关节止痛膏:965172}
{益心舒胶囊:965134}
{舒心降脂片:965138}
{舒心降脂片:965135}
{类风湿性关节炎 骨关节炎 全身性骨关节炎 痛经 强直性脊柱炎 痛风:971322}
{肌肉劳损 腰椎间盘突出症 骨关节炎 扭伤 神经痛:965172}
{扭伤 关节痛:965172}
{胸痹心痛病 心绞痛 冠心病 心悸:965134}
{心绞痛 高脂血症 冠心病:965138}
{心绞痛 高脂血症 冠心病:965135}
{风湿类风湿:971322}
{外用贴膏:965172}
{冠心病:965134}
{动脉硬化:965138}
{高血脂:965135}
使用该训练样本集合对fasttext模型进行训练,然后使用经训练的fasttext模型进行药品类目的预测。
本申请的第二实施方式涉及一种药品类目识别系统,该药品类目识别系统包括:
fasttext模型。
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将三种样本标签对合并成一个训练样本集合,使用训练样本集合对fasttext模型进行训练。
预测单元,用于以待定药品的商品名输入fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将待定药品的商品名和症状的组合输入fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
可选的,在一个实施例中,所述系统还包括分词器。在使用训练样本集合对fasttext模型进行训练之前,训练单元使用分词器对训练样本集合中的样本进行分词。预测单元先使用分词器对商品名和症状进行分词再输入fasttext模型。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述药品类目识别系统的实施方式中所示的各模块的实现功能可参照前述药品类目识别方法的相关描述而理解。上述药品类目识别系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请的实施例上述药品类目识别系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请的各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请的实施例不限制于任何特定的硬件和软件结合。
相应地,本申请的实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请的实施方式还提供一种药品类目识别系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器。该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Application SpecificIntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在描述方法的步骤时使用的序号本身并不对这些步骤的顺序构成任何的限定。例如,序号大的步骤并非一定要在序号小的步骤之后执行,也可以是先执行序号大的步骤再执行序号小的步骤,还可以是并行执行,只要这种执行顺序对于本领域技术人员来说是合理的即可。又如,拥有连续编号序号的多个步骤(例如步骤101,步骤102,步骤103等)并不限制其他步骤可以在其间执行,例如步骤101和步骤102之间可以有其他的步骤。
本说明书包括本文所描述的各种实施例的组合。对实施例的单独提及(例如“一个实施例”或“一些实施例”或“优选实施例”)。然而,除非指示为是互斥的或者本领域技术人员很清楚是互斥的,否则这些实施例并不互斥。应当注意的是,除非上下文另外明确指示或者要求,否则在本说明书中以非排他性的意义使用“或者”一词。
在本说明书提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
Claims (10)
1.一种药品类目识别方法,其特征在于,包括:
训练阶段:提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对;将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测阶段:以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
3.如权利要求2所述的药品类目识别方法,其特征在于,在所述训练之前,对所述训练样本集合中的样本进行分词;在所述预测阶段,先对商品名和症状进行分词再输入所述fasttext模型。
4.如权利要求1所述的药品类目识别方法,其特征在于,所述以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率之前,还包括对所述商品名进行正则化的步骤。
5.如权利要求4所述的药品类目识别方法,其特征在于,所述正则化包括去除所述商品名中的品牌和剂型信息。
6.一种药品类目识别系统,其特征在于,包括:
fasttext模型;
训练单元,用于提取已知药品的商品名、症状、三级类目名称和三级类目标识,组成商品名和三级类目标识、症状和三级类目标识、以及三级类目名称和三级类目标识三种样本标签对,将所述三种样本标签对合并成一个训练样本集合,使用所述训练样本集合对fasttext模型进行训练;
预测单元,用于以待定药品的商品名输入所述fasttext模型得到第一预测结果和第一预测概率,如果第一预测概率大于预定的第一门限则以第一预测结果作为药品类目,否则将所述待定药品的商品名和症状的组合输入所述fasttext模型得到第二预测结果和第二预测概率,如果第二预测概率大于预定的第二门限则以第二预测结果作为药品类目。
8.如权利要求7所述的药品类目识别系统,其特征在于,还包括分词器;在使用所述训练样本集合对fasttext模型进行训练之前,所述训练单元使用所述分词器对所述训练样本集合中的样本进行分词;所述预测单元先使用所述分词器对商品名和症状进行分词再输入所述fasttext模型。
9.一种药品类目识别系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如权利要求1至5中任意一项所述的方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至5中任意一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028882.9A CN113470779B (zh) | 2021-09-03 | 2021-09-03 | 药品类目识别方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028882.9A CN113470779B (zh) | 2021-09-03 | 2021-09-03 | 药品类目识别方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113470779A true CN113470779A (zh) | 2021-10-01 |
CN113470779B CN113470779B (zh) | 2021-11-26 |
Family
ID=77867318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111028882.9A Active CN113470779B (zh) | 2021-09-03 | 2021-09-03 | 药品类目识别方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113470779B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150110381A1 (en) * | 2013-09-22 | 2015-04-23 | The Regents Of The University Of California | Methods for delineating cellular regions and classifying regions of histopathology and microanatomy |
CN105260437A (zh) * | 2015-09-30 | 2016-01-20 | 陈一飞 | 文本分类特征选择方法及其在生物医药文本分类中的应用 |
CN105550526A (zh) * | 2016-01-04 | 2016-05-04 | 北京科技大学 | 一种基于中药属性的中医方剂功效定量方法及系统 |
CN107067427A (zh) * | 2017-05-18 | 2017-08-18 | 北京工商大学 | 一种针对农残检测数据的极坐标布局可视化方法 |
CN110781298A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 药品分类方法、装置、计算机设备及存储介质 |
JP2020160698A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社医療情報技術研究所 | 薬剤処方支援システム |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
-
2021
- 2021-09-03 CN CN202111028882.9A patent/CN113470779B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150110381A1 (en) * | 2013-09-22 | 2015-04-23 | The Regents Of The University Of California | Methods for delineating cellular regions and classifying regions of histopathology and microanatomy |
CN105260437A (zh) * | 2015-09-30 | 2016-01-20 | 陈一飞 | 文本分类特征选择方法及其在生物医药文本分类中的应用 |
CN105550526A (zh) * | 2016-01-04 | 2016-05-04 | 北京科技大学 | 一种基于中药属性的中医方剂功效定量方法及系统 |
CN107067427A (zh) * | 2017-05-18 | 2017-08-18 | 北京工商大学 | 一种针对农残检测数据的极坐标布局可视化方法 |
JP2020160698A (ja) * | 2019-03-26 | 2020-10-01 | 株式会社医療情報技術研究所 | 薬剤処方支援システム |
CN110781298A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 药品分类方法、装置、计算机设备及存储介质 |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HENNING SCHÄFER: "UMLS mapping and Word embeddings for ICD code assignment using the MIMIC-III intensive care database", 《2019 41ST ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC)》 * |
李雪松: "基于宽度和词向量特征的文本分类模型", 《计算机系统应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113470779B (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Learning latent opinions for aspect-level sentiment classification | |
Ifraz et al. | [Retracted] Comparative Analysis for Prediction of Kidney Disease Using Intelligent Machine Learning Methods | |
Dogra et al. | Analyzing DistilBERT for sentiment classification of banking financial news | |
Haque et al. | Improving drug review categorization using sentiment analysis and machine learning | |
Sindhura et al. | Sentiment analysis for product reviews based on weakly-supervised deep embedding | |
Ptak-Chmielewska | Predicting micro-enterprise failures using data mining techniques | |
Zhang et al. | VetTag: improving automated veterinary diagnosis coding via large-scale language modeling | |
CN110990560B (zh) | 一种司法数据处理方法及系统 | |
Alaminos et al. | Sovereign debt and currency crises prediction models using machine learning techniques | |
Kamal et al. | Trading stocks based on financial news using attention mechanism | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
Guha et al. | Real-time application of document classification based on machine learning | |
Rakhshaninejad et al. | An ensemble-based credit card fraud detection algorithm using an efficient voting strategy | |
Naresh et al. | Comparative Study of Machine Learning Algorithms for Fake Review Detection with Emphasis on SVM | |
CN113470779B (zh) | 药品类目识别方法及其系统 | |
Liu et al. | Using convolutional neural networks to support insertion of new concepts into SNOMED CT | |
Rajkar et al. | Stock market price prediction and analysis | |
Gerling | Company2Vec--German Company Embeddings based on Corporate Websites | |
Bangyal et al. | Polarity Classification of Twitter Data Using Machine Learning Approach | |
Md. Ashafuddula et al. | An Intelligent Diagnostic System to Analyze Early‐Stage Chronic Kidney Disease for Clinical Application | |
Sivri et al. | Ensemble learning based stock market prediction enhanced with sentiment analysis | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
Vimal | Application of logistic regression in natural language processing | |
Gulhane et al. | A Machine Learning based Model for Disease Prediction | |
Modak et al. | Sentiment analysis of twitter data using clustering and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |