CN115310772A - 一种药械质量监管结果数据监测方法、药械交易平台及系统 - Google Patents

一种药械质量监管结果数据监测方法、药械交易平台及系统 Download PDF

Info

Publication number
CN115310772A
CN115310772A CN202210821109.6A CN202210821109A CN115310772A CN 115310772 A CN115310772 A CN 115310772A CN 202210821109 A CN202210821109 A CN 202210821109A CN 115310772 A CN115310772 A CN 115310772A
Authority
CN
China
Prior art keywords
data
product
matched
basic
inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210821109.6A
Other languages
English (en)
Inventor
胡泽利
王春
唐海明
王晓咏
程淋
朱丹
康中举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Medicine Exchange Co ltd
Original Assignee
Chongqing Medicine Exchange Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Medicine Exchange Co ltd filed Critical Chongqing Medicine Exchange Co ltd
Priority to CN202210821109.6A priority Critical patent/CN115310772A/zh
Publication of CN115310772A publication Critical patent/CN115310772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Technology Law (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种药械质量监管结果数据监测方法、药械交易平台及系统。监测方法包括:自动从药械监控平台采集检查数据;从检查数据中提取检测产品的基础数据,检测产品的基础数据包括产品名称、厂家、型号和规格中的全部或部分;从药械基础标准库中选取与检测产品的基础数据匹配的匹配产品;将检查数据推送给药械基础标准库中匹配产品关联的相关单位。能够实时采集质量异常的检查数据,并在药械基础标准库中自动匹配出匹配产品并向匹配产品关联的相关单位推送检查数据,能够及时、无遗漏、痕迹可查地将每次抽检、召回、飞行检查的检查数据进行规范处理,增强产品数据管理能力,质量异常数据在各方的迅速传递,有效降低了沟通成本与执行成本。

Description

一种药械质量监管结果数据监测方法、药械交易平台及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种药械质量监管结果数 据监测方法、药械交易平台及系统。
背景技术
国家药品监督管理局等药械监控平台上通常发布有关于药品、医 疗器械的抽检、召回和飞行检测等检查数据。
现有技术中,通常是人工关注医药器械监控平台,在有新的检查 数据发布时,下载、分析检查数据、并通知检查产品相关的生产企业、 配送企业、医疗机构等单位及时了解质量异常产品数据以便及时进行 相关处理。但是,由于涉及的流程面广,信息交流极为不便,造成效 率不高、沟通成本较高,以及有时并不能即时通知到位的问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,提供一种药械 质量监管结果数据监测方法及系统。
为了实现本发明的上述目的,根据本发明的第一个方面,本发明 提供了一种药械质量监管结果数据监测方法,包括:自动从药械监控 平台采集检查数据;从所述检查数据中提取检测产品的基础数据,所 述检测产品的基础数据包括产品名称、厂家、型号和规格中的全部或 部分;从药械基础标准库中选取与检测产品的基础数据匹配的匹配产 品;将检查数据推送给药械基础标准库中匹配产品关联的相关单位。
为了实现本发明的上述目的,根据本发明的第二个方面,本发明 提供了一种药械交易平台,所述药械交易平台执行本发明第一方面所 述的药械质量监管结果数据监测方法。
为了实现本发明的上述目的,根据本发明的第三个方面,本发明 提供了一种药械质量异常数据监测系统,包括:采集模块,自动从药 械监控平台采集检查数据;基础数据提取模块,从所述检查数据中提 取检测产品的基础数据,所述检测产品的基础数据包括产品名称、厂 家、型号和规格中的全部或部分;匹配模块,从药械基础标准库中选 取与检测产品的基础数据匹配的匹配产品;推送模块,将检查数据推 送给药械基础标准库中匹配产品关联的相关单位。
上述技术方案:能够实时采集质量异常的检查数据,并在药械基 础标准库中自动匹配出匹配产品并向匹配产品关联的相关单位推送 检查数据,无需人工采集、分析检查数据,也无需人工推送相关单位, 能够及时、无遗漏、痕迹可查地将每次抽检、召回、飞行检查的检查 数据进行规范处理,增强产品数据管理能力,同时提高药械交易平台 的有序运行能力,实现质量异常数据在各方的迅速传递,有效降低了 沟通成本与执行成本。
附图说明
图1是本发明一种优选实施方式中药械质量监管结果数据监测 方法的流程示意图;
图2是本发明一种优选实施方式中wordtag解语结果示意图;
图3是本发明一种优选实施方式中有序字典存储示意图;
图4是本发明一种优选实施方式中规格查询结果示意图;
图5是本发明一种优选实施方式中获取匹配产品的详细过程示 意图;
图6是本发明一种优选实施方式中标准基础数据中标准字段的 相似度权重获取过程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出, 其中自始至终相同或类似的标号表示相同或类似的元件或具有相同 或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅 用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、 “下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、 “顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是 指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构 造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语 “安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或 电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通 过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具 体情况理解上述术语的具体含义。
本发明公开了一种药械质量监管结果数据监测方法,在一种优选 实施方式中,优选地,如图1所示,该方法包括:
步骤S1,自动从药械监控平台采集检查数据;为保证采集的检 查数据的完整性和及时性,利用爬虫对药械监控平台中指定板块的网 页的内容进行抽取获得页面标题和页面正文,以及下载网页中的附件。 指定板块优选但不限于为“医药器械召回”板块或“医药器械飞行检 测”板块或“医药器械抽检检测”板块,因此,检查数据分为药械 抽检类、召回类和飞行检查类。“医药器械抽检检测”板块的检查数 据优选但不限于包括产品名称、注册证号(批准文号)、被抽查单位、 生产企业、规格、型号、生产日期、批号、抽样单位、检验单位、检 验依据、不符合标准规定项等。“医药器械召回”板块的检查数据优 选但不限于包括产品名称、注册证号(批准文号)、生产企业、代理 人名称、规格、型号、生产日期、批号、召回级别、召回原因。“医 药器械飞行检测”板块的检查数据优选但不限于包括企业名称、缺 陷内容、处理结果等。
在本实施方式中,优选但不限于通过scrapy爬虫框架进行页面内 容抽取。优选但不限于通过继承FilesPipeline类对网页附件的下载 与存储。进一步优选地,为了便于后续有痕迹可查寻,还包括对网页 进行截图,将截图与检查数据关联的步骤,具体的运用基于scrapy的 splash实现对网页的截图并保存。
步骤S2,从检查数据中提取检测产品的基础数据,检测产品的基 础数据包括产品名称、厂家、型号和规格中的全部或部分。优选地, 为提高后续匹配产品的匹配准确性,检测产品的基础数据包括产品名 称、厂家、型号和规格四个非标准字段。
步骤S3,从药械基础标准库中选取与检测产品的基础数据匹配的 匹配产品。
在药械基础标准库中,罗列了每个产品(药品/医疗器械)的基 础数据、生产数据、运输数据、交易数据、政策数据、相关单位信息 等,药械基础标准库中产品的基本数据包括产品名称、厂家、型号和 规格等的标准字段。产品名称相同,但型号或规格或厂家不相同会成 为不同的产品,因此在药械基础标准库中,一种产品对应了一个产品 名称、型号、规格、厂家的标准字段组合。在药械基础标准库中,每 个产品的相关单位信息包括厂家、销售商、配送企业、医疗机构等单 位的通讯网址(如公共邮箱地址等)。
步骤S4,将检查数据推送给药械基础标准库中匹配产品关联的相 关单位。
在本实施方式中,优选地,为了实现更有价值的推送,在步骤S4 中,首先将检查数据推送给运营人员,运营人员进行质量异常数据的 甄别后,将处理后的信息转发给相关产品的生产企业、配送企业、医 疗机构,并自动发出提示语,提醒相关企业按要求进行处理。同时按 结构化报表的形式自动生成三份质量异常监管报告:一是将抽检、召 回、飞行检查数据原始信息,平台比对结果,平台处理结果自动生成 质量异常监管汇总报告;二是因为同一个原始数据可能对应多个产品, 将匹配结果按原始数据维度进行产品数量、规格、型号、系数包装等 内容的汇总统计,生成质量异常监管产品报告;三是将比对成功产品, 按单个平台产品的维度对其近一年的订单情况、配送情况、结算情况、 采购机构名称、采购机构数量、采购机构区域分布等生成质量异常监 管交易报告。三份质量异常监管报告生成后将自动上报相关监管部门 账号,并自动发出提示语,提醒监管部门查看报告。质量异常监管报 告可按监管部门需要进行项目增减。
在一种优选实施方式中,在步骤S2中,从检查数据中提取检测产 品的基础数据,具体包括:
步骤A,检查数据包括页面标题,从页面标题中提取产品名称和 厂家;优选地,将国家药监局批准的所有药品及器械名称作为用户词 典加载到百度的WordTag(中文词类知识标注工具),即可实现从页面 标题中提取产品名称和厂家。
和/或,步骤B,检查数据包括页面正文,从页面正文中提取产品 的规格,还包括从页面正文中通过关键词结合正则表达式的方式提取 药械注册证号、生产批次、召回级别等。
和/或,步骤C,检查数据包括网页中的附件,从附件中提取产品 的基础数据。
在本实施方式中,优选地,在步骤B中,从页面正文中提取产品 的规格的包括:
步骤B0,将药品的产品名称、商品名称、型号、饮片作为WordTag 的自定义词典,然后将收集药品批文与医保药品编码的所有规格数据 用WordTag进行处理,得到分词及分词所属分类。选取计数大于2的 分词所属分类去重后构建AC注册机。
步骤B1,对页面正文通过wordtag进行解语获得分词及分词所属 分类列表,利用有序字典保存分词及分词所属分类列表,每个分词表 示为(key,value,分词所属分类的长度,分词,分词所属分类), 其中,key表示分词所属分类长度的累加,value表示分词的长度。设 页面正文为:“日前,某行政管理部门收到某某药业有限公司报告,某 某公司决定在中国范围内对特定批次的盐酸氨溴索注射液(商品名: 沐舒坦)规格:2ml:15mg与0.236g(40万单位)实施主动召回”,则 wordtag对页面正文解语得到的分词及分次所属分类的结果如图2所 示,进行有序字典存储后如图3所示。
步骤B2,将分词所属分类进行拼接,获得拼接句子,将拼接句子 输入AC注册机获得匹配结果,匹配结果表示为(开始位置,结束位置, 匹配词),滤除开始位置相同但不是最大结束位置或不是最小结束位置 或重复结束位置的匹配结果。设拼接句子为:'时间类w组织机构类_ 国家机关场景事件组织机构类_企事业单位作品类_概念w组织机构类 _企事业单位场景事件介词世界地区类词汇用语介词代词术语类_符号 指标类助词药物类_通用名w信息资料w药物类_商品名w信息资料w 数量词w数量词连词数量词w数量词w场景事件修饰词场景事件'。输 出的匹配结果有:[(106,109,'数量词'),(106,113,'数量词w数 量词'),(110,113,'数量词'),(115,118,'数量词'),(115,122, '数量词w数量词'),(119,122,'数量词'),(115,123,'数量词w 数量词w')],需要过滤的匹配结果为:[(115,122),(106,109),(110, 113),(115,118),(119,122)]。
步骤B3,将过滤后的匹配结果在有序字典保存分词及分词所属分 类进行查找,得到规格在有序字典中的索引(如[109,110,113]),通 过索引取出value中的词进行拼接即可得到规格,如图4所示的规格。
在本实施方式中,步骤C,检查数据包括网页中的附件,从附件 中提取产品的基础数据的步骤包括附件结构化子步骤和结构化输出子 步骤;
附件结构化子步骤包括:
当附件为word格式时,将附件转换为html格式,提取html格 式附件的table标签,基于table标签获得附件的excel格式文件; 如果word文件扩展名为doc,先用python的win32com转换为docx 格式,然后用pandoc将docx格式的文件转换为html格式,最后用python的tablepyxl库实现对table标签的提取实现结构化。
当附件为excel格式时,从第一行开始统计每一行的列数,将相 比上一行列数增加量小于等于增量阈值的行作为表头,增量阈值优选 但不限于为小于等于5的非负整数,如为0。
当附件为pdf格式时,将附件转换为图片格式,将转换后的图片 输入表格提取模型,表格提取模型输出表格结构和单元格定位坐标, 基于表格结构和单元格定位坐标对单元格进行文本识别获得excel格 式的文件。表格提取模型优选但不限于为运用PaddleOcr基于 PubTabNet数据集的预训练模型,对识别错误的图片重新用PubTabNet 数据集的方式进行标注,标注完毕后重新进行增量数据的训练。训练 后的模型可以得到用html语言表示的表格结构及表格中单元格的定 位坐标。优选地,采用DBNet对表格的文本区域进行识别,得到含有 文本的坐标位置,将坐标位置对应的图片输入到基于CTC的算法实现 对文本的识别。用识别的文本坐标与单元格位置坐标进行聚合,实现 单元格与文本的对应,并用tablepyxl转化为excel格式。
结构化输出子步骤包括:从获得的excel文件中提取检测产品的 基础数据。具体的,对识别的excel进行结构化处理,抽取出产品名 称、注册证、产品名称、规格、型号、召回原因、召回级别、批号、 处理方式等字段进行数据保存。
在一种优选实施方式中,步骤S3中,从药械基础标准库中选取与 检测产品的基础数据匹配的匹配产品的步骤,包括:
检测产品的基础数据包括多个待匹配字段,将多个待匹配字段分 别输入相应的训练好的字段分类模型获得拟对应标准字段以及待匹 配字段与拟对应标准字段的相似度,记为第一相似度;基于多个待匹 配字段对应的拟对应标准字段从药械基础标准库中选取匹配产品。
多个待匹配字段通过各自对应的字段分类模型获得对应的拟对 应标准字段,在药械基础标准库中提取基础数据与拟对应标准字段组 合匹配的产品,即找到目的地址,不依赖人工经验,分字段匹配,提 升产品匹配准确性,能够快速、精准地在药械基础标准库中匹配到产 品。
在本实施方式中,在药械基础标准库中每个产品具有一条标准基 础数据,标准基础数据优选但不限于为标准产品名称、标准型号、标 准规格和标准厂家中全部或部分的组合,因此,获取每个待匹配字段 对应匹配的标准字段就能从药械基础标准库匹配到对应的产品。
在本实施方式中,具体地,第一相似度优选但不限于为字段分类 模型输出的置信度。具体地,当待匹配字段为产品名称时,其对应产 品名称分类模型;当待匹配字段为型号时,其对应型号分类模型;当 待匹配字段为规格时,其对应规格分类模型;当待匹配字段为厂家时, 其对应厂家分类模型。虽然拟对应标准字段为药械基础标准库中的标 准字段,但是药械基础标准库中产品的标准基础数据为标准字段的特 定顺序组合,因此,还需将拟对应标准字段按照特定顺序组合成拟对 应基础数据,从药械基础标准库中选出标准基础数据与拟对应基础数 据一致或较为相似的产品作为匹配产品。
在本实施方式中,图5直观地展示了待匹配字段获取拟对应标准 字段的详细过程,假设产品的基础数据有四个字段,当然可以少于或 多于四个字段。
在本实施方式中,优选地,为自动、智能、准确获取到拟对应标 准字段,基于深度学习模型来进行拟对应标准字段。对于每个待匹配 字段可采用相同的神经网络结构,以便调试和保持一致性。优选地, 每个待匹配字段对应的字段分类模型的构建过程为:
步骤A,获取字段训练集,字段训练集包括多个非标准字段以及 与非标准字段关联的标准字段标签,标准字段标签为药械基础标准库 中标准字段的标识;标准字段标签与药械基础标准库中的产品的基础 数据中的标准字段一一对应,因此,获得了标准字段标签就能获得标 准字段。在字段训练集中多个非标准字段可关联同一个标准字段标签, 通过非标准字段关联的标准字段标签建立了非标准字段与标准字段 的映射关系。
步骤B,构建字段分类模型的神经网络架构,神经网络架构包括 依次连接的预训练模块、LSTM模块和两个全连接层;预训练模块优 选但不限于为Ernie或BERT预训练模型,LSTM模块为长短期记忆网 络(LSTM,Long Short-Term Memory)。Ernie输出的句向量是768维,LSTM中HIDDEN的维度为500维,1个全连接维度的输出的维度 分别为300维,最后1个全连接层输出的维度是各自标签类别数。
步骤C,利用字段训练集对神经网络架构进行训练获得字段分类 模型。优选地,为加快收敛速度,提升训练效果,训练过程中以交叉 熵作为损失函数。模型训练完毕后,对前向计算的结果用softmax函 数处理,取最大值即为非标准字段与输出的拟对应标准字段之间的相 似度,即第一相似度。
在本实施方式中,优选地,为增强分类模型的训练效果,提高鲁 棒性和准确性,对字段训练集进行增强。当字段分类模型为厂家分类 模型时,还包括对厂家分类模型对应的厂家训练集进行增强处理,具 体包括:将厂家训练集的厂家非标准字段中的行政区域名称、字号、 行业和组织形式进行任意组合,每个组合包括行政区域名称、字号、 行业和组织形式四者中至少两者,将组合作为新生成的厂家非标准字 段,将所有新生成的厂家非标准字段去重后加入厂家训练集。这样能 够大大增强厂家的多种表述方式。如厂家为江苏(行政区划)吉祥(字 号)医药(行业)有限公司(组织形式)时,可构成江苏吉祥、吉祥 医药、吉祥医药有限公司、吉祥有限公司等多种组合。
在本实施方式中,优选地,为增强产品匹配准确性,基于多个待 匹配字段对应的拟对应标准字段从药械基础标准库中选取匹配产品 的步骤,包括:
步骤一,将多个拟对应标准字段组合成拟对应基础数据;可按照 药械基础标准库中产品的标准基础数据组合顺序和方式进行组合。
步骤二,若药械基础标准库中存在基础数据与拟对应基础数据相 同的产品,则将产品作为匹配产品;若药械基础标准库中不存在基础 数据与拟对应基础数据相同的产品,则在药械基础标准库中选取一个 基础数据与拟对应基础数据最匹配的产品作为匹配产品。
在本实施方式中,进一步优选地,为提高字段表达能力并且减 少字段数,待匹配字段为产品名称或型号或规格或厂家;拟对应基 础数据包括拟对应标准产品名称、拟对应标准型号、拟对应标准规 格和拟对应标准厂家;设药械基础标准库中产品的基础数据为标准 基础数据,标准基础数据包括标准产品名称、标准型号、标准规格 和标准厂家。
在本实施方式中,为提高匹配速度和准确性,充分利用产品名称 的标准性和唯一性,进一步优选地,在步骤二中,在药械基础标准库 中选取一个基础数据与拟对应基础数据最匹配的产品作为匹配产品, 包括:
在药械基础标准库中筛选出标准产品名称与拟对应基础数据中 拟对应标准产品名称相同的所有标准基础数据;
计算拟对应基础数据分别与筛选出的所有标准基础数据的匹配 分数,选取匹配分数最大的标准基础数据对应的产品作为匹配产品。 匹配分数优选但不限于通过计算拟对应基础数据和标准基础数据之 间的相似度,具体的可将两者转换为句子向量后,计算两个句子向量 的余弦相似度,以相似度作为匹配分数。
在本实施方式中,为了更准确地进行产品匹配,进一步优选地, 拟对应基础数据与标准基础数据的匹配分数获取过程包括:计算待匹 配字段与对应的拟对应标准字段的余弦相似度,将每个拟对应标准字 段的余弦相似度与标准基础数据中与拟对应标准字段相同的标准字 段的相似度权重相乘,将获得的乘积值作为该拟对应标准字段的匹配 值;将拟对应基础数据中所有拟对应标准字段的匹配值求和获得拟对 应基础数据与标准基础数据的匹配分数。
在本实施方式中,为准确获取相似度权重,提升产品匹配准确性, 如图6所示,进一步优选地,标准基础数据中标准字段的相似度权重 获取过程为:
步骤1,基于所有字段训练集获得与该标准基础数据匹配的非标 准基础数据集,如图6所示,非标准基础数据集中每条非标准基础数 据的非标准字段与标准基础数据的标准字段一一匹配;
步骤2,对于每一条非标准基础数据,获取每个非标准字段与匹 配的标准字段的相似度记为该非标准字段的第二相似度;具体的,将 两者直接计算的相似度或者通过对应的字段分类模型获得的相似度 作为第二相似度;
步骤3,计算该非标准基础数据中所有非标准字段的第二相似度 总和,记为第二和值;
步骤4,计算该非标准基础数据中每个非标准字段的第二相似度 与第二和值的比值,将该比值作为非标准字段的加权相似度;
步骤5,求取标准基础数据中每个标准字段在非标准基础数据集 中对应的所有非标准字段的加权相似度的平均值,将该平均值作为该 标准字段的相似度权重。
在本实施方式中,为对药械基础标准库进行新增维护,优选地, 对检测产品的基础数据中所有待匹配字段的第一相似度求和获得第 一和值;若第一和值大于最大匹配分数,则将所有待匹配字段的拟对 应标准字段的组合作为新增标准基础数据加入药械基础标准库。
本发明还公开了一种药械交易平台,药械交易平台执行上述药械 质量监管结果数据监测方法,优选地,药械交易平台内部存储有药械 基础标准库。
本发明还公开了一种药械质量异常数据监测系统,包括:采集模 块,自动从药械监控平台采集检查数据;基础数据提取模块,从所述 检查数据中提取检测产品的基础数据,所述检测产品的基础数据包括 产品名称、厂家、型号和规格中的全部或部分;匹配模块,从药械基 础标准库中选取与检测产品的基础数据匹配的匹配产品;推送模块, 将检查数据推送给药械基础标准库中匹配产品关联的相关单位。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例 或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一 个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定 指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员 可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例 进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等 同物限定。

Claims (10)

1.一种药械质量监管结果数据监测方法,其特征在于,包括:
自动从药械监控平台采集检查数据;
从所述检查数据中提取检测产品的基础数据,所述检测产品的基础数据包括产品名称、厂家、型号和规格中的全部或部分;
从药械基础标准库中选取与检测产品的基础数据匹配的匹配产品;
将检查数据推送给药械基础标准库中匹配产品关联的相关单位。
2.如权利要求1所述的药械质量监管结果数据监测方法,其特征在于,所述自动从药械监控平台采集检查数据的步骤包括:利用爬虫对药械监控平台中指定板块的网页的内容进行抽取获得页面标题和页面正文,以及下载网页中的附件。
3.如权利要求2所述的药械质量监管结果数据监测方法,其特征在于,在采集检查数据的同时,还包括对网页进行截图,将截图与检查数据关联的步骤。
4.如权利要求1所述的药械质量监管结果数据监测方法,其特征在于,所述检查数据分为药械抽检类、召回类和飞行检查类。
5.如权利要求1-4之一所述的药械质量监管结果数据监测方法,其特征在于,所述从所述检查数据中提取检测产品的基础数据,具体包括:
所述检查数据包括页面标题,从页面标题中提取产品名称和厂家的步骤;
和/或,所述检查数据包括页面正文,从页面正文中提取产品的规格的步骤;
和/或,所述检查数据包括网页中的附件,从附件中提取产品的基础数据的步骤。
6.如权利要求5所述的药械质量监管结果数据监测方法,其特征在于,所述检查数据包括页面正文,从页面正文中提取产品的规格的步骤,包括:
对页面正文通过wordtag进行解语获得分词及分词所属分类列表,利用有序字典保存分词及分词所属分类列表,每个分词表示为(key,value,分词所属分类的长度,分词,分词所属分类),其中,key表示分词所属分类长度的累加,value表示分词的长度;
将分词所属分类进行拼接,获得拼接句子,将拼接句子输入AC注册机获得匹配结果,匹配结果表示为(开始位置,结束位置,匹配词),滤除开始位置相同但不是最大结束位置或不是最小结束位置或重复结束位置的匹配结果拼接句子;
将过滤后的拼接句子在有序字典中保存的分词及分词所属分类进行查找获得规格。
7.如权利要求6所述的药械质量监管结果数据监测方法,其特征在于,所述检查数据包括网页中的附件,从附件中提取产品的基础数据的步骤包括附件结构化子步骤和结构化输出子步骤;
所述附件结构化子步骤包括:
当附件为word格式时,将附件转换为html格式,提取html格式的附件的table标签,基于table标签获得附件的excel格式文件;
当附件为excel格式时,从第一行开始统计每一行的列数,将相比上一行列数增加量小于等于增量阈值的行作为表头;
当附件为pdf格式时,将附件转换为图片格式,将转换后的图片输入表格提取模型,表格提取模型输出表格结构和单元格定位坐标,基于表格结构和单元格定位坐标对单元格进行文本识别获得excel格式的文件;
所述结构化输出子步骤包括:从获得的excel文件中提取检测产品的基础数据。
8.如权利要求1或2或3或4或6或7所述的药械质量监管结果数据监测方法,其特征在于,所述从药械基础标准库中选取与检测产品的基础数据匹配的匹配产品的步骤,包括:
检测产品的基础数据包括多个待匹配字段,将多个待匹配字段分别输入相应的训练好的字段分类模型获得拟对应标准字段以及待匹配字段与拟对应标准字段的相似度,记为第一相似度;基于多个待匹配字段对应的拟对应标准字段从药械基础标准库中选取匹配产品。
9.一种药械交易平台,其特征在于,所述药械交易平台执行权利要求1-8之一所述的药械质量监管结果数据监测方法。
10.一种药械质量异常数据监测系统,其特征在于,包括:
采集模块,自动从药械监控平台采集检查数据;
基础数据提取模块,从所述检查数据中提取检测产品的基础数据,所述检测产品的基础数据包括产品名称、厂家、型号和规格中的全部或部分;
匹配模块,从药械基础标准库中选取与检测产品的基础数据匹配的匹配产品;
推送模块,将检查数据推送给药械基础标准库中匹配产品关联的相关单位。
CN202210821109.6A 2022-07-13 2022-07-13 一种药械质量监管结果数据监测方法、药械交易平台及系统 Pending CN115310772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210821109.6A CN115310772A (zh) 2022-07-13 2022-07-13 一种药械质量监管结果数据监测方法、药械交易平台及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210821109.6A CN115310772A (zh) 2022-07-13 2022-07-13 一种药械质量监管结果数据监测方法、药械交易平台及系统

Publications (1)

Publication Number Publication Date
CN115310772A true CN115310772A (zh) 2022-11-08

Family

ID=83856846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210821109.6A Pending CN115310772A (zh) 2022-07-13 2022-07-13 一种药械质量监管结果数据监测方法、药械交易平台及系统

Country Status (1)

Country Link
CN (1) CN115310772A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069938A (zh) * 2023-04-06 2023-05-05 中电科大数据研究院有限公司 一种文本关联性分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069938A (zh) * 2023-04-06 2023-05-05 中电科大数据研究院有限公司 一种文本关联性分析方法

Similar Documents

Publication Publication Date Title
US8666998B2 (en) Handling data sets
US20220414345A1 (en) Official document processing method, device, computer equipment and storage medium
US20090030754A1 (en) Methods, systems and computer software utilizing xbrl to identify, capture, array, manage, transmit and display documents and data in litigation preparation, trial and regulatory filings and regulatory compliance
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
US11687812B2 (en) Autoclassification of products using artificial intelligence
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
van der Aa et al. Transforming unstructured natural language descriptions into measurable process performance indicators using hidden markov models
CN115577698A (zh) 一种基于机器学习的数据和文本处理系统及其方法
CN115310772A (zh) 一种药械质量监管结果数据监测方法、药械交易平台及系统
CN115525750A (zh) 机器人话术检测可视化方法、装置、电子设备及存储介质
CN113806492A (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN113762100A (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN112786124A (zh) 一种问题排查方法、装置、存储介质及设备
CN113159118A (zh) 物流数据指标的处理方法、装置、设备及存储介质
Klein et al. smartFIX: An adaptive system for document analysis and understanding
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN116340387A (zh) 一种用于数据表的个人信息披露情况统计分析方法及系统
CN114254109B (zh) 用于确定行业类别的方法及装置
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN114943219A (zh) 物料清单测试数据的生成方法、装置、设备及存储介质
CN109712680B (zh) 基于hl7 规范的医疗数据生成方法及系统
CN114579692A (zh) 诈骗数据深度分析方法及系统
Martinez-Gil Framework to automatically determine the quality of open data catalogs
US20080065370A1 (en) Support apparatus for object-oriented analysis and design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination