CN112463895A - 基于药物名称挖掘自动发现药物成分的方法和装置 - Google Patents
基于药物名称挖掘自动发现药物成分的方法和装置 Download PDFInfo
- Publication number
- CN112463895A CN112463895A CN202011391719.4A CN202011391719A CN112463895A CN 112463895 A CN112463895 A CN 112463895A CN 202011391719 A CN202011391719 A CN 202011391719A CN 112463895 A CN112463895 A CN 112463895A
- Authority
- CN
- China
- Prior art keywords
- drug
- component entity
- component
- mined
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005065 mining Methods 0.000 title claims abstract description 31
- 229940079593 drug Drugs 0.000 claims abstract description 159
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 239000003168 generic drug Substances 0.000 claims description 30
- 239000004615 ingredient Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 3
- 239000002547 new drug Substances 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- KLWPJMFMVPTNCC-UHFFFAOYSA-N Camptothecin Natural products CCC1(O)C(=O)OCC2=C1C=C3C4Nc5ccccc5C=C4CN3C2=O KLWPJMFMVPTNCC-UHFFFAOYSA-N 0.000 description 2
- VSJKWCGYPAHWDS-FQEVSTJZSA-N camptothecin Chemical compound C1=CC=C2C=C(CN3C4=CC5=C(C3=O)COC(=O)[C@]5(O)CC)C4=NC2=C1 VSJKWCGYPAHWDS-FQEVSTJZSA-N 0.000 description 2
- 229940127093 camptothecin Drugs 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- VSJKWCGYPAHWDS-UHFFFAOYSA-N dl-camptothecin Natural products C1=CC=C2C=C(CN3C4=CC5=C(C3=O)COC(=O)C5(O)CC)C4=NC2=C1 VSJKWCGYPAHWDS-UHFFFAOYSA-N 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002075 main ingredient Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种基于药物名称挖掘自动发现药物成分的方法和装置。所述方法包括根据药物成分实体匹配模型,对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名,以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。本申请解决了通过药物通用名称自动发现新药物成分的技术问题。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于药物名称挖掘自动发现药物成分的方法和装置。
背景技术
在医疗领域药物名称往往包括商品名、通用名、成分名几个部分,商品名通常是药物的唯一标识,而通用名和成分名在不同的生产厂商是可能存在相同的。成分名标识了药物的主要成分,通用名通常除含有药物成分外还有药物制剂类型额外信息等。在医疗制药领域,药物成分名往往标识了药物的关键信息,挖掘分析市面上药物成分名往往是下游使用药物成分信息做研究的基础。
传统上对药物成分的分析往往依赖人工的先验知识,通过人工看通用名来整理出药物成分表,这会带来比较大的人力消耗,同时对于新药成分的发现也是滞后的。从通用名中获取成分名的问题,可以转化为实体抽取的过程,但是鉴于文本过短的问题,很难做到有效抽取。还可以人工设计模板,使用模板进行成分匹配,但这需要有经验的药物学专业人员介入,对经验要求较高,门槛比较高。
相关技术中从药物通用名中抽取出成分名,理论上可将该问题转化为实体抽取任务,目前实体抽取的方法比较多样,在不同的任务场景中表现各异。由于药物通用名文本较短,通用名本身可以看着是一种实体类型,在这种场景上下文语义信息并不明确,所以对药物成分名使用实体抽取并不太适用。
在实施本申请实施例的过程中,发明人发现相关技术至少存在以下问题:
相关技术中存在难以通过药物通用名进行数据分析得到药物成分的问题。
发明内容
本申请的主要目的在于提供一种基于药物名称挖掘自动发现药物成分的方法和装置,以相关技术中解决难以通过药物通用名进行数据分析得到药物成分的问题。
为了实现上述目的,第一方面,本申请实施例提供了一种基于药物名称挖掘自动发现药物成分的方法,包括:
根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;
根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;
选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
可选地,所述方法还包括:
将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;
根据打分机制对所述多个匹配模型中的每个匹配模型进行打分;
将所述评分最高的K个匹配模型作为所述药物成分实体匹配模型,其中,K为大于0的整数。
可选地,该方法还包括:
获取所述样本通用药物名集合。
可选地,该方法还包括:
在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;
将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
可选地,该方法还包括:
获取多个不同的待挖掘通用药物名集合。
第二方面,本申请还提供了一种基于药物名称挖掘自动发现药物成分的装置,包括:
第一匹配模块,用于根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;
第一打分模块,用于根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;
选择模块,用于选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
可选地,所述装置还包括:
第二匹配模块,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;
第二打分模块,用于根据打分机制对所述多个匹配模型中的每个匹配模型进行打分,得到评分最高的匹配模型;
第一确定模块,用于将所述评分最高的匹配模型作为所述药物成分实体匹配模型。
可选地,该装置还包括:
获取模块,用于获取所述样本通用药物名集合。
可选地,该装置还包括:
第二确定模块,用于在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;
更新模块,用于将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
第三方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机代码,当计算机代码被执行时,上述的图像识别模块训练方法被执行。。
在本申请实施例中,通过根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。这样,本方法的整个流程不需人工介入,相较于传统方法人工设计patter提取,减少了对人工的依赖,同时由于自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。进而解决了难以通过药物通用名进行数据分析得到药物成分的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的流程图;
图2是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的整体流程图;
图3是根据本申请实施例提供的一种自动挖掘的匹配模式的示意图;
图4是根据本申请实施例提供的一组通用药物名的示意图;
图5根据本申请实施例提供的一组药物成分名称的示意图;
图6是根据本申请实施例提供的另一种基于药物名称挖掘自动发现药物成分的方法的流程图;
图7是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明实施例提供了一种基于药物名称挖掘自动发现药物成分的方法,图1是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的流程图,如图1所示,该方法包括如下步骤110至步骤130:
110,根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体。
其中,成分实体即为药物成分名称。
具体的,根据以获取的药物成分实体匹配模型对待挖掘通用药物名集合(例如,图4中的通用药物名)中的每个通用药物名进行匹配,由于药物成分实体匹配模型可以确定出对应有成分实体的待挖掘通用药物名,因此,药物成分实体匹配模型可以先确定出未对应有成分实体的待挖掘通用药物名,进而再计算出所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体(例如,图5中的药物成分名称),也就是说,每个待挖掘通用药物名至少对应有一个候选成分实体。例如,如图2所示,根据pattern(模型)解析实体可以得到候选药物(待挖掘通用药物名)复方喜树碱贴片,候选成分实体为喜树碱贴。
120,根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分。
具体的,基于打分机制可以对候选成分实体集合中每个候选成分实体进行打分,进而得到每个候选成分实体对应的评分。该打分机制的方法可以如图2中实体置信度评估所示的计算公式进行评估打分。
130,选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
其中,N可以是预设值,例如,N可以取值为1、2、3、4等。
具体的,根据候选成分实体集合中每个候选成分实体的评分,对候选成分实体集合中每个候选成分实体进行评分排序,进而选取评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,从而将有效候选成分实体进行输出,这样,仅需要从N个有效候选成分实体确定出真实的成分实体即可,相较于传统方法人工设计patter提取,本申请实施例减少了对人工的依赖。
可选地,图6是根据本申请实施例提供的另一种基于药物名称挖掘自动发现药物成分的方法的流程图,如图6所示,所述方法还包括如下步骤010至步骤030:
010,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体。
其中,由于样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体,因此,通过将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个用于通用药物名与对应成分实体的匹配模型,如图3所示。
020,根据打分机制对所述多个匹配模型中的每个匹配模型进行打分。
具体的,基于打分机制可以对多个匹配模型中的每个匹配模型进行打分,进而得到每个匹配模型对应的评分。该打分机制的方法可以如图2中Pattern质量评估所示的计算公式进行评估打分。
030,将所述评分最高的K个匹配模型作为所述药物成分实体匹配模型,其中,K为大于0的整数。
具体的,其中,K可以是预设值,例如,K可以取值为2、3、4等。
具体的,根据每个匹配模型的评分,对全部候选成分实体进行评分排序,进而选取评分最高的K个匹配模型作为药物成分实体匹配模型,这样,每次自动挖掘均会重新选出K个匹配模型作为药物成分实体匹配模型,这样,本申请实施例以成分名种子实体库资源作为冷启动,使用匹配方法构建pattern集,然后对pattern集进行质量评估,选出合适的pattern,进一步在候选库中匹配成分实体,然后对成分实体进行置信度的评估,选择准确率高的药物成分作为有效成分实体,而随着药物成分实体种子库数据的完善和更新都会提高药物成分实体匹配模型的计算准确性,由于本申请实施例可以实施自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。
可选地,该方法还包括以下步骤:
获取所述样本通用药物名集合。
具体的,获取所述样本通用药物名集合用于后面得到匹配pattern集(匹配模块集合)。
可选地,该方法还包括:
在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;
将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
具体的,在输出待挖掘通用药物名对应的N个有效候选成分实体后,仅需要从N个有效候选成分实体确定出真实的成分实体即可,该过程可以人工check一下药物成分实体的有效性,然后更新到药物成分实体种子库中,完成一轮迭代。
可选地,该方法还包括:
获取多个不同的待挖掘通用药物名集合。
具体的,可以应用互联网上大规模数据上应用,以获取多个不同的待挖掘通用药物名集合,进而完成基于药物名称挖掘自动发现药物成分。
在本申请实施例中,通过根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。这样,本方法的整个流程不需人工介入,相较于传统方法人工设计patter提取,减少了对人工的依赖,同时由于自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。进而解决了难以通过药物通用名进行数据分析得到药物成分的技术问题。
基于相同的技术构思,本申请还提供了一种基于药物名称挖掘自动发现药物成分的装置,如图7所示,包括:
第一匹配模块10,用于根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;
第一打分模块20,用于根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;
选择模块30,用于选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
可选地,所述装置还包括:
第二匹配模块,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;
第二打分模块,用于根据打分机制对所述多个匹配模型中的每个匹配模型进行打分,得到评分最高的匹配模型;
第一确定模块,用于将所述评分最高的匹配模型作为所述药物成分实体匹配模型。
可选地,该装置还包括:
获取模块,用于获取所述样本通用药物名集合。
可选地,该装置还包括:
第二确定模块,用于在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;
更新模块,用于将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
基于相同的技术构思,本申请还提供了一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行上述的基于药物名称挖掘自动发现药物成分的方法。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机代码,当计算机代码被执行时,上述的图像识别模块训练方法被执行。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本申请所涉及的计算机程序可以存储于计算机可读存储介质中,计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory,ROM)、随机存取计算机存储器(Random Access Memory,RAM)、电载波信号、电信信号以及其他软件分发介质等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于药物名称挖掘自动发现药物成分的方法,其特征在于,所述方法包括:
根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;
根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;
选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
2.根据权利要求1所述的基于药物名称挖掘自动发现药物成分的方法,其特征在于,所述方法还包括:
将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;
根据打分机制对所述多个匹配模型中的每个匹配模型进行打分;
将评分最高的K个匹配模型作为所述药物成分实体匹配模型,其中,K为大于0的整数。
3.根据权利要求2所述的基于药物名称挖掘自动发现药物成分的方法,其特征在于,该方法还包括:
获取所述样本通用药物名集合。
4.根据权利要求1所述的基于药物名称挖掘自动发现药物成分的方法,其特征在于,该方法还包括:
在所述待挖掘通用药物名对应的有效候选成分实体中,确定出所述待挖掘通用药物名对应的成分实体;
将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
5.根据权利要求1所述的基于药物名称挖掘自动发现药物成分的方法,其特征在于,该方法还包括:
获取多个不同的待挖掘通用药物名集合。
6.一种基于药物名称挖掘自动发现药物成分的装置,其特征在于,包括:
第一匹配模块,用于根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;
第一打分模块,用于根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;
选择模块,用于选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。
7.根据权利要求6所述的基于药物名称挖掘自动发现药物成分的装置,其特征在于,所述装置还包括:
第二匹配模块,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;
第二打分模块,用于根据打分机制对所述多个匹配模型中的每个匹配模型进行打分,得到评分最高的匹配模型;
第一确定模块,用于将所述评分最高的匹配模型作为所述药物成分实体匹配模型。
8.根据权利要求6所述的基于药物名称挖掘自动发现药物成分的装置,其特征在于,该装置还包括:
获取模块,用于获取所述样本通用药物名集合。
9.根据权利要求1所述的基于药物名称挖掘自动发现药物成分的装置,其特征在于,该装置还包括:
第二确定模块,用于在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;
更新模块,用于将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。
10.一种计算机可读存储介质,该计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如权利要求1-5任一项所述的图像识别模块训练方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391719.4A CN112463895A (zh) | 2020-12-01 | 2020-12-01 | 基于药物名称挖掘自动发现药物成分的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391719.4A CN112463895A (zh) | 2020-12-01 | 2020-12-01 | 基于药物名称挖掘自动发现药物成分的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463895A true CN112463895A (zh) | 2021-03-09 |
Family
ID=74805553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011391719.4A Pending CN112463895A (zh) | 2020-12-01 | 2020-12-01 | 基于药物名称挖掘自动发现药物成分的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463895A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268137A (zh) * | 2013-07-31 | 2015-01-07 | 深圳市华傲数据技术有限公司 | 一种药品名称数据匹配方法和装置 |
CN104616233A (zh) * | 2015-02-13 | 2015-05-13 | 杜雨阳 | 获取药品之间相互作用提示信息的方法及系统 |
CN107784058A (zh) * | 2017-04-11 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 药品数据处理方法及装置 |
CN108228712A (zh) * | 2017-11-30 | 2018-06-29 | 北京三快在线科技有限公司 | 一种实体挖掘方法及装置,电子设备 |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
CN109522338A (zh) * | 2018-11-09 | 2019-03-26 | 天津开心生活科技有限公司 | 临床术语挖掘方法、装置、电子设备及计算机可读介质 |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
CN110245217A (zh) * | 2019-06-17 | 2019-09-17 | 京东方科技集团股份有限公司 | 一种药品推荐方法、装置及电子设备 |
CN110322281A (zh) * | 2019-06-06 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 相似用户的挖掘方法及装置 |
CN110609907A (zh) * | 2019-09-17 | 2019-12-24 | 湖南大学 | 一种基于随机游走的医药领域知识推理方法 |
CN111241282A (zh) * | 2020-01-14 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本主题生成方法、装置及电子设备 |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
-
2020
- 2020-12-01 CN CN202011391719.4A patent/CN112463895A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268137A (zh) * | 2013-07-31 | 2015-01-07 | 深圳市华傲数据技术有限公司 | 一种药品名称数据匹配方法和装置 |
CN104616233A (zh) * | 2015-02-13 | 2015-05-13 | 杜雨阳 | 获取药品之间相互作用提示信息的方法及系统 |
CN107784058A (zh) * | 2017-04-11 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 药品数据处理方法及装置 |
CN108228712A (zh) * | 2017-11-30 | 2018-06-29 | 北京三快在线科技有限公司 | 一种实体挖掘方法及装置,电子设备 |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109522338A (zh) * | 2018-11-09 | 2019-03-26 | 天津开心生活科技有限公司 | 临床术语挖掘方法、装置、电子设备及计算机可读介质 |
CN109522551A (zh) * | 2018-11-09 | 2019-03-26 | 天津新开心生活科技有限公司 | 实体链接方法、装置、存储介质及电子设备 |
CN109783628A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法 |
CN110322281A (zh) * | 2019-06-06 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 相似用户的挖掘方法及装置 |
CN110245217A (zh) * | 2019-06-17 | 2019-09-17 | 京东方科技集团股份有限公司 | 一种药品推荐方法、装置及电子设备 |
CN110609907A (zh) * | 2019-09-17 | 2019-12-24 | 湖南大学 | 一种基于随机游走的医药领域知识推理方法 |
CN111241282A (zh) * | 2020-01-14 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本主题生成方法、装置及电子设备 |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
Non-Patent Citations (3)
Title |
---|
"如何辨识通用名", 亚太传统医药, no. 06 * |
周静雯;苏雅茹;: "世界卫生组织药物词典及其应用", 药物流行病学杂志, no. 09 * |
边旭;王明兴;黎俊茂;叶家华;: "药品名称匹配识别技术研究", 信息与电脑(理论版), no. 04 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
WO2017092622A1 (zh) | 法律条文的搜索方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN105975558A (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN112908436A (zh) | 临床试验数据结构化方法、临床试验推荐方法和装置 | |
CN110909168B (zh) | 知识图谱的更新方法和装置、存储介质及电子装置 | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN116467171A (zh) | 自动化测试用例构建装置、方法、电子设备及存储介质 | |
CN109542757A (zh) | 接口测试环境确定方法、装置、电子设备及存储介质 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN112691379B (zh) | 游戏资源文本审核方法及装置、存储介质、计算机设备 | |
CN108536671B (zh) | 文本数据的情感指数识别方法和系统 | |
CN107862016A (zh) | 一种专题页面的配置方法 | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 | |
CN112463895A (zh) | 基于药物名称挖掘自动发现药物成分的方法和装置 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN107818152B (zh) | 一种植物检索方法和系统 | |
CN113628077B (zh) | 生成不重复考题的方法、终端及可读存储介质 | |
CN114547059A (zh) | 平台数据的更新处理方法、装置及计算机设备 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN106815592B (zh) | 文本数据处理方法及装置和错别字识别方法及装置 | |
CN109992776B (zh) | 一种中文分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |