CN117012321A - 对象匹配方法、装置、设备、存储介质及程序产品 - Google Patents
对象匹配方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN117012321A CN117012321A CN202211582956.8A CN202211582956A CN117012321A CN 117012321 A CN117012321 A CN 117012321A CN 202211582956 A CN202211582956 A CN 202211582956A CN 117012321 A CN117012321 A CN 117012321A
- Authority
- CN
- China
- Prior art keywords
- medical
- entity
- text
- candidate
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 239000000463 material Substances 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims abstract description 13
- 239000012567 medical material Substances 0.000 claims description 56
- 238000011282 treatment Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 239000003814 drug Substances 0.000 description 56
- 229940079593 drug Drugs 0.000 description 45
- 201000010099 disease Diseases 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 238000012549 training Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 208000024891 symptom Diseases 0.000 description 9
- 206010011224 Cough Diseases 0.000 description 6
- 206010039101 Rhinorrhoea Diseases 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 206010060891 General symptom Diseases 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 208000036071 Rhinorrhea Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 208000010753 nasal discharge Diseases 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- LSQZJLSUYDQPKJ-NJBDSQKTSA-N amoxicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=C(O)C=C1 LSQZJLSUYDQPKJ-NJBDSQKTSA-N 0.000 description 2
- 229960003022 amoxicillin Drugs 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- LSQZJLSUYDQPKJ-UHFFFAOYSA-N p-Hydroxyampicillin Natural products O=C1N2C(C(O)=O)C(C)(C)SC2C1NC(=O)C(N)C1=CC=C(O)C=C1 LSQZJLSUYDQPKJ-UHFFFAOYSA-N 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种基于人工智能的对象匹配方法、装置、电子设备、计算机可读存储介质及计算机程序产品;涉及人工智能技术,方法包括:获取候选对象的对象关联文本以及对象关联图像;对候选对象的物资文本进行知识图谱推理处理,得到对应候选对象的第一关联实体;对候选对象的对象关联图像进行文本提取处理,得到候选对象的转换文本,并对候选对象的记录文本以及转换文本进行实体抽取处理,得到对应候选对象的第二关联实体;将对应候选对象的第一关联实体与第二关联实体组成对应候选对象的关联实体集合;对目标事件与对应候选对象的关联实体集合进行匹配处理,得到与目标事件匹配的目标对象。通过本申请,能够提高对象匹配准确度。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的对象匹配方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。基于医疗图像以及医疗文本的分析是人工智能领域的重要应用之一,医疗分析系统是指利用计算机对医疗图像和医疗文本进行处理、分析和理解,以识别出各种不同模式的目标和对象的系统。
相关技术中基于预先给定的特征标签来对收集用于表达特定特征标签的数据,从而导致用于表征对象的数据是基于给定标签体系得到的,对于给定标签体系的完整性以及准确性要求极高,相关技术中基于给定标签体系难以准确抽取到用于表征对象的数据,并基于抽取的数据准确匹配到目标对象。
发明内容
本申请实施例提供一种基于人工智能的对象匹配方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高对象匹配准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的对象匹配方法,包括:
获取每个候选对象的对象关联文本以及对象关联图像,其中,所述对象关联文本包括物资文本以及记录文本;
对每个所述候选对象的物资文本进行知识图谱推理处理,得到对应每个所述候选对象的第一关联实体;
对每个所述候选对象的对象关联图像进行文本提取处理,得到每个所述候选对象的转换文本,并对每个所述候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个所述候选对象的第二关联实体;
将对应每个所述候选对象的第一关联实体与第二关联实体组成对应每个所述候选对象的关联实体集合;
对目标事件与对应每个所述候选对象的关联实体集合进行匹配处理,得到与所述目标事件匹配的目标关联实体集合,并将所述目标关联实体集合对应的候选对象确定为与所述目标事件匹配的目标对象。
本申请实施例提供一种基于人工智能的对象匹配装置,包括:
获取模块,用于获取每个候选对象的对象关联文本以及对象关联图像,其中,所述对象关联文本包括物资文本以及记录文本;
第一实体模块,用于对每个所述候选对象的物资文本进行知识图谱推理处理,得到对应每个所述候选对象的第一关联实体;
第二实体模块,用于对每个所述候选对象的对象关联图像进行文本提取处理,得到每个所述候选对象的转换文本,并对每个所述候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个所述候选对象的第二关联实体;
组成模块,用于将对应每个所述候选对象的第一关联实体与第二关联实体组成对应每个所述候选对象的关联实体集合;
匹配模块,用于对目标事件与对应每个所述候选对象的关联实体集合进行匹配处理,得到与所述目标事件匹配的目标关联实体集合,并将所述目标关联实体集合对应的候选对象确定为与所述目标事件匹配的目标对象。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的基于人工智能的对象匹配方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的基于人工智能的对象匹配方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的基于人工智能的对象匹配方法。
本申请实施例具有以下有益效果:
针对每个候选对象,对物资文本进行基于知识图谱的推理处理,得到第一关联实体,对记录文本以及基于对象关联图像转化得到转换文本进行实体抽取处理,得到第二关联实体,从而保证关联实体可以充分表征对应的候选对象,将目标事件与第一关联实体以及第二关联实体进行匹配处理,可以得到与目标事件匹配的关联实体集合,并将关联实体集合所属的候选对象作为与目标事件匹配的目标对象,从而提高目标对象与目标事件的匹配准确度。
附图说明
图1是本申请实施例提供的基于人工智能的对象匹配系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A-图3E是本申请实施例提供的基于人工智能的对象匹配方法的流程示意图;
图4是本申请实施例提供的基于人工智能的对象匹配方法的框架示意图;
图5是本申请实施例提供的基于人工智能的对象匹配方法的实体抽取示意图;
图6是本申请实施例提供的基于人工智能的对象匹配方法的第一实体抽取示意图;
图7是本申请实施例提供的基于人工智能的对象匹配方法的第二实体抽取示意图;
图8是本申请实施例提供的基于人工智能的对象匹配方法的匹配示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)命名实体识别(Named Entity Recognition,NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
2)光学字符识别(Optical Character Recognition,OCR),对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
3)基于变换器的双向编码器表示(Bidirectional Encoder Representationsfrom Transformers,BERT)结构,一种预训练语言模型,预训练是一种迁移学习的概念,预训练模型是利用庞大数据训练得到的泛化能力很强的模型,当需要在特定场景使用时,例如做医学命名实体识别,只需要修改输出层,再用相应场景的数据进行增量训练,对BERT结构的权重进行轻微的调整即可。
4)双向长短期记忆模型(Bidirectional Long short-term memory,BiLSTM),双向长短期记忆模型是用于自然语言处理的编码模型,可有效抽取上下文特征。
5)隐马尔可夫模型是统计模型(Hidden Markov Model,HMM),它用来描述含有隐含未知参数的马尔可夫过程,常用于语音识别,行为识别,文字识别等领域。
6)条件随机场(Conditional Random Field,CRF),条件随机场是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
相关技术中基于概念格的对象特征挖掘技术是基于概念格构建群体对象的对象特征,揭示不同类型对象的多维度的对象特征以及不同情境下的操作规律,为优化社区服务提供数据依据,利用在线社区的对象数据,从对象需求、对象角色、对象操作三个维度构建在线健康社区的对象特征概念模型,构建细分标签概念格,通过概念格Hasse图将对象群体分为3大类,实现社区群体对象特征的构建,通过关联规则挖掘群体对象在不同情境下的操作规律,实现对象特征的完整刻画。相关技术中还可以综合采用多种标签表达,首先建立标签体系、再进行社区数据采集,最后得到对象的对象特征,主张优先确定标签,并按照社区管理者需求,收集用于表达特定标签的数据。
相关技术中对象群体聚集在某个具体的医疗事件下,对象群体不具有通用性,相关技术中的标签体系给定,无法发现标签体系中未出现的标签词,针对相关技术的缺点,本申请实施例提供一种基于人工智能的对象匹配方法、装置、电子设备和计算机可读存储介质,能够抽取候选对象的医疗实体集合并将候选对象的医疗实体集合与目标医疗事件进行匹配,准确地匹配出与目标医疗事件关联的目标对象。
本申请实施例所提供的对象匹配方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的对象匹配方法,或者,终端向服务器发送每个候选对象的医疗文本以及医疗图像,服务器根据接收的每个候选对象的医疗文本以及医疗图像执行对象匹配方法。
本申请实施例提供的用于对象匹配的电子设备可以是各种类型的终端或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AiaaS),平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
作为示例,其中的一种人工智能云服务可以为对象匹配服务,即云端的服务器封装有本申请实施例提供的对象匹配的程序。使用者(例如,医疗服务提供商)通过终端(运行有客户端,例如医疗客户端等)调用云服务中的对象匹配服务,以使部署在云端的服务器调用封装的对象匹配的程序,获取包括每个候选对象的医疗文本以及医疗图像的对象匹配请求;根据对象匹配请求,对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体;对每个候选对象的医疗图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体;将对应每个候选对象的第一医疗实体与第二医疗实体组成对应每个候选对象的医疗实体集合;对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,并将目标医疗实体集合对应的候选对象确定为与目标医疗事件匹配的目标对象,目标医疗事件可以是某个疾病或者是某个通用症状,其中,本申请实施例提供的对象匹配方法不是以有生命或动物体为对象的,且不是以获得疾病诊断结果或者健康状况为直接目的,不能根据第一医疗实体以及第二医疗实体直接获得疾病的诊断结果或健康状况,仅作为中间数据用于研究人员发掘出可能与医疗事件关联的人群对象,从而向目标人群对象提供更好的服务。
参见图1,图1是本申请实施例提供的对象匹配系统的应用场景示意图,第一终端400-1、第二终端400-2、通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
第一终端400-1(候选对象使用的终端)采集候选对象的医疗文本以及医疗图像,第一终端400-1将包括每个候选对象的医疗文本以及医疗图像的对象匹配请求发送至服务器200,服务器200根据对象匹配请求,对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体;对每个候选对象的医疗图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体;将对应每个候选对象的第一医疗实体与第二医疗实体组成对应每个候选对象的医疗实体集合;对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,并将目标医疗实体集合对应的候选对象确定为与目标医疗事件匹配的目标对象,服务器200将目标对象发送至第二终端400-2(医疗服务提供商),从而第二终端400-2可以将目标对象作为推荐对象,并向目标对象提供对应目标医疗事件的医疗服务推荐操作,目标医疗事件可以是某个疾病或者是某个通用症状,医疗服务包括药物、医疗器械、治疗套餐等等,其中,本申请实施例提供的对象匹配方法不是以有生命或动物体为对象的,且不是以获得疾病诊断结果或者健康状况为直接目的,不能根据第一医疗实体以及第二医疗实体直接获得疾病的诊断结果或健康状况,仅作为中间数据用于研究人员发掘出可能与医疗事件关联的人群对象,从而向目标人群对象提供更好的服务。
在一些实施例中,第一终端400-1(候选对象使用的终端)采集候选对象的医疗文本以及医疗图像,第一终端400-1根据对象匹配请求,对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体;对每个候选对象的医疗图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体;将对应每个候选对象的第一医疗实体与第二医疗实体组成对应每个候选对象的医疗实体集合;对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,并将目标医疗实体集合对应的候选对象确定为与目标医疗事件匹配的目标对象,并在第一终端400-1的人机交互界面中显示目标对象与目标医疗事件关联,从而提示第一终端400-1的使用者关注目标医疗事件,目标医疗事件可以是某个疾病或者是某个通用症状,其中,本申请实施例提供的对象匹配方法不是以有生命或动物体为对象的,且不是以获得疾病诊断结果或者健康状况为直接目的,不能根据第一医疗实体以及第二医疗实体直接获得疾病的诊断结果或健康状况,仅作为中间数据用于研究人员发掘出可能与医疗事件关联的人群对象,从而向目标人群对象提供更好的服务。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的对象匹配方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Applic ation),即需要在操作系统中安装才能运行的程序,如直播APP或者即时通信APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面说明本申请实施例提供的用于对象匹配的电子设备的结构,参见图2,图2是本申请实施例提供的用于对象匹配的电子设备的结构示意图,以电子设备是服务器200为例说明,图2所示的用于对象匹配的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的对象匹配装置可以采用软件方式实现,例如,可以是上文所述的终端中的对象匹配插件,可以是上文所述的服务器中对象匹配服务。当然,不局限于此,本申请实施例提供的对象匹配装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器250中的对象匹配装置255,其可以是程序和插件等形式的软件,例如图像处理插件,并包括一系列的模块,包括获取模块2551、第一实体模块2552、第二实体模块2553、组成模块2554以及匹配模块2555。
如前,本申请实施例提供的对象匹配方法可以由各种类型的电子设备实施。参见图3A,图3A是本申请实施例提供的对象匹配方法的流程示意图,结合图3A示出的步骤01至步骤05进行说明。
在步骤01中,获取每个候选对象的对象关联文本以及对象关联图像,其中,对象关联文本包括物资文本以及记录文本。
在步骤02中,对每个候选对象的物资文本进行知识图谱推理处理,得到对应每个候选对象的第一关联实体。
在步骤03中,对每个候选对象的对象关联图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个候选对象的第二关联实体。
在步骤04中,将对应每个候选对象的第一关联实体与第二关联实体组成对应每个候选对象的关联实体集合。
在步骤05中,对目标事件与对应每个候选对象的关联实体集合进行匹配处理,得到与目标事件匹配的目标关联实体集合,并将目标关联实体集合对应的候选对象确定为与目标事件匹配的目标对象。
下面以医疗场景作为示例对上述方案进行详细说明,在医疗场景中,对象关联文本是医疗文本、对象关联图像是医疗图像,物资文本是医疗物资文本,记录文本是医疗记录文本,第一关联实体是第一医疗实体,第二关联实体是第二医疗实体,实体抽取实质上属于医疗实体抽取,医疗实体集合是关联实体集合,目标事件是目标医疗事件,目标关联实体集合是目标医疗实体集合。
参见图3B,图3B是本申请实施例提供的基于人工智能的对象匹配方法的流程示意图,将结合图3B示出的步骤101至步骤105进行说明。
在步骤101中,获取每个候选对象的医疗文本以及医疗图像。
作为示例,候选对象可以是用户群体,群体包括各种各样的疾病患者(当前患有疾病或者曾经患有疾病),医疗文本包括医疗物资文本以及医疗记录文本,下面以候选对象A为例进行说明,医疗物资文本记载有候选对象A使用过或者正在使用的医疗物资,医疗物资包括药物、器械等等,医疗记录文本记载有与候选对象A的病情相关的内容,医疗图像可以是候选对象A上传的纸质历史病情数据照片,医疗图像还可以是候选对象的彩超图像、病理检查图像等等,
应用每个候选对象的医疗文本以及医疗图像的来源数据之前均是需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一些实施例中,步骤101中获取每个候选对象的医疗文本(此处的医疗文本即为对象关联文本),可以通过以下技术方案实现:针对每个候选对象执行以下处理:获取候选对象的操作数据、医疗会话数据、医疗记录数据以及医疗物资数据;获取操作数据对应的操作文本,并从医疗记录数据中提取记录文本;从医疗会话数据中提取出原始会话文本,并对原始会话文本进行去噪处理,得到会话文本;将操作文本、记录文本以及会话文本组成候选对象的医疗记录文本(即记录文本);从医疗物资数据中提取医疗物资文本(物资文本),并将医疗记录文本(即记录文本)以及医疗物资文本(物资文本)组成候选对象的医疗文本(对象关联文本)。通过多维度数据提取可以提高后续医疗实体集合对候选对象的表征能力。
作为示例,候选对象的操作数据,操作数据包括以下至少之一:浏览操作数据、关注操作数据,浏览操作数据是被候选对象浏览的文本数据,关注操作数据是被候选对象关注的账号发布的文本数据,由于范围比较广,因此可以利用医疗场景关键词对上述文本数据进行筛选,得到属于医疗场景的操作文本。
作为示例,医疗记录数据包括订单主诉数据以及文本历史病情数据,订单主诉数据是在线医疗服务开始之前候选对象向医生提交的病情描述数据,这些病情描述数据可以记载在在线医疗服务订单中,由于医疗记录数据中还包括记录时间、记录地点等数据,因此需要从医疗记录数据中提取出记录文本。医疗会话数据包括医患会话数据,还可以包括患者之间的会话交流数据。医疗会话数据中会包括噪声,例如,表情以及一连串标点符号等等,因此需要对医疗会话数据对应的原始会话文本进行去噪处理,得到会话文本。医疗物资数据可以包括候选对象针对某个医疗物资的购买数据、或者是针对某个医疗物资的处方数据。
应用候选对象的操作数据、医疗会话数据、医疗记录数据以及医疗物资数据之前均是需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在步骤102中,对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体。
在一些实施例中,医疗物资文本记载有至少一个医疗物资,参见图3C,步骤102中对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体,可以针对每个候选对象执行图3C示出的步骤1021至步骤1023实现。
在步骤1021中,从知识图谱中查询与每个医疗物资关联的物资节点,并获取与每个物资节点具有连接关系的医疗事件节点,并获取与每个医疗事件节点对应的候选医疗事件。
作为示例,知识图谱可以是开源的图结构,参见图6,图结构包括节点和边,图结构中的节点代表医疗事件和医疗物资,医疗事件可以是疾病医疗事件(患有疾病)、通用症状医疗事件(患有通用症状)、或者是指标医疗事件(具有指标异常情况,例如,血小板数量超标)等等,医疗事件节点与医疗物资节点之间具有边表征物资节点与医疗事件节点具有连接关系,具有连接关系表征对应的医疗物资可以用于治疗对应的医疗事件,例如,图6所示的“倍他乐克”节点属于与医疗物资关联的物资节点,“心律失常”节点属于与医疗事件关联的医疗事件节点,这两个节点之间通过边相连。
在步骤1022中,基于每个候选医疗事件以及每个医疗物资进行医疗事件预测处理,得到对应每个候选医疗事件的第一概率。
在一些实施例中,步骤1022中基于每个候选医疗事件以及每个医疗物资进行医疗事件预测处理,得到对应每个候选医疗事件的第一概率,可以通过以下技术方案实现:对每个候选医疗事件进行文本编码处理,得到对应每个候选医疗事件的第一编码;对每个医疗物资进行文本编码处理,得到对应每个医疗物资的第二编码;针对每个候选医疗事件,将候选医疗事件的第一编码与多个医疗物资的第二编码进行累加处理,得到候选医疗事件的第三编码;对每个候选医疗事件的第三编码进行回归映射处理,得到对应每个候选医疗事件的第一概率。
以医疗物资是药物,医疗事件是疾病为例进行说明,首先使用BERT结构来对药品集合Drug的每个药品和任意一个候选疾病di进行文本编码处理,得到编码集其中,/>是对应医疗物资drug0的第二编码,/>是对应候选医疗事件di的第一编码,然后将编码集Emb中元素进行累加得到候选医疗事件di的第三编码qi,将累加位置编码qi通过全连接层进行回归映射处理得到候选对象与候选医疗事件di关联的第一概率pi。
在一些实施例中,医疗事件预测处理是通过调用医疗事件预测模型实现的,获取正治疗样本,其中,正治疗样本包括适配的第一样本医疗事件和第一医疗物资;获取负治疗样本,其中,负治疗样本包括不适配的第二样本医疗事件和第一医疗物资;将正治疗样本以及负治疗样本分别在医疗事件预测模型中进行正向传播,分别得到对应第一样本医疗事件的第一预测概率以及对应第二样本医疗事件的第二预测概率;基于第一预测概率与数值一之间的误差生成第一损失(当正样本的数目为多个时,可以直接将多个正样本分别对应的误差进行融合处理,得到第一损失,当正样本的数目为一个时,可以直接将对应该正样本的误差作为第一损失),并基于第二预测概率生成第二损失(当负样本的数目为多个时,可以直接将多个负样本分别对应的第二预测概率进行融合处理,得到第二损失,当负样本的数目为一个时,可以直接对第二预测概率作为第二损失);确定第一损失和第二损失的融合损失收敛时医疗事件预测模型的参数变化值,并基于参数变化值对医疗事件预测模型的参数进行更新。
作为示例,医疗事件预测模型训练时,使用对象的真实历史病情数据,抽取历史病情数据中的诊断结果和针对诊断结果的治疗方案中的药品集,例如,可以将诊断结果中的医疗事件作为第一样本医疗事件和第二样本医疗事件,在正样本中第一样本医疗事件与第一医疗物资之间具有关联关系,即第一医疗物资属于对应第一样本医疗事件的治疗方案中的医疗物资,在负样本中第二样本医疗事件与第一医疗物资之间不具有关联关系,即第一医疗物资不属于对应第二样本医疗事件的治疗方案中的医疗物资,第二样本医疗事件的获取方式如下,将第一医疗物资输入知识图谱中查询对应第一医疗物资的第一候选医疗事件,并将多个第一候选医疗事件中除了第一样本医疗事件之外的候选医疗事件作为第二样本医疗事件。
作为示例,医疗事件预测模型中的BERT结构采用开源的预训练参数作为初始化参数,在医疗事件预测模型的训练过程过中进行微调,全连接层的参数是随机初始化得到的,医疗事件预测模型的损失函数参见公式(1):
其中,是医疗事件预测模型的损失函数(即为上述融合损失),di是正样本或负样本中的医疗事件,Drug是样本中的药品集(第一医疗物资),yi为样本的标记,h(Drug,di)是全连接层输出的对象与样本医疗事件di关联的第一预测概率或者第二预测概率,n+1样本的数目。
在步骤1023中,将最大的第一概率对应的候选医疗事件作为对应候选对象的第一医疗实体。
作为示例,利用医疗事件预测模型进行预测时,将多个候选医疗事件中逐个与至少一个医疗物资共同输入医疗事件预测模型,得到每个候选医疗事件与候选对象关联的第一概率,组成概率集合Q,对Q中每个候选医疗事件与候选对象关联的第一概率进行排序,选取第一概率排序最高的候选医疗事件作为与候选对象关联的医疗事件,并将该医疗事件作为可以对候选对象进行表征的第一医疗实体。
在步骤103中,对每个候选对象的医疗图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体。
在一些实施例中,步骤103中对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体,可以针对每个候选对象执行图3D示出的步骤1031至步骤1033实现。
在步骤1031中,将候选对象的医疗记录文本以及转换文本确定为待处理文本。
在步骤1032中,针对每个待处理文本执行以下处理:对待处理文本进行字分类处理,得到每个字的分类结果,并基于每个字的分类结果,生成至少一个候选医疗实体。
在一些实施例中,上述对待处理文本进行字分类处理,得到每个字的分类结果,可以通过以下技术方案实现:对待处理文本的每个字执行以下处理:对字进行文本编码处理,得到字的第四编码;对字的第四编码进行基于条件随机场机制的映射处理,得到字属于每个候选类型的第二概率,其中,候选类型包括:实体起始字、实体非起始字以及非实体字;将最大的第二概率对应的候选类型确定为字的分类结果。通过本申请实施例提高对字进行分类的准确度。
作为示例,字分类处理采用的分类结构包括BERT结构、BiLSTM结构以及CRF结构,三个结构采取级联的方式连接关系,对于待处理文本D,首先通过BERT结构对某个医疗文本的每个字w∈D进行编码,然后将每个字的编码结果输入BiLSTM结构,得到进一步可以表征上下文信息的第四编码,最后使用CRF结构对待处理文本D中每个字进行分类,候选类型包括:B-X(字属于一个医疗实体X的起始字)、I-X(字为一个医疗实体X内的非起始字)和O(字不属于任何医疗实体),通过CRF结构可以输出某个字属于每个候选类型的第二概率,例如,对应B-X的第二概率为0.2,对应I-X的概率为0.7,对应O的概率为0.1,那么可以将字分类为实体非起始字,表征字属于某个医疗实体但不属于该医疗实体的首字。
在一些实施例中,上述基于每个字的分类结果,生成至少一个候选医疗实体,可以通过以下技术方案实现:针对分类结果为实体起始字的每个字执行以下处理:获取待处理文本中处于字后,且与字之间的距离最近的非实体字或另一个实体起始字;获取字与非实体字或与另一个实体起始字之间的至少一个实体非起始字;将字与至少一个实体非起始字拼接为候选医疗实体。通过本申请实施例可以准确得到候选医疗实体。
作为示例,待处理文本为“我服用阿莫西林来治疗感冒”,“阿”为实体起始字,表征“阿”属于某个医疗实体的首字,“阿”这个字后面的字依次属于同一医疗实体的非起始字,直到某个字属于下一个医疗实体的首字,或者不属于医疗实体,因此获取“阿”后面与“阿”的距离最近的非实体字“来”,继续获取“阿”与“来”之间的实体非起始字“莫西林”,将“阿”与“莫西林”拼接位候选医疗实体(阿莫西林)。
在步骤1033中,对每个候选医疗实体进行实体对象关系预测处理,得到每个候选医疗实体对应的医疗实体与候选对象之间具有关系的第三概率;
在一些实施例中,上述对每个候选医疗实体进行实体对象关系预测处理,得到每个候选医疗实体对应的医疗实体与候选对象之间具有关系的第三概率,可以通过以下技术方案实现:对每个候选医疗实体进行文本编码处理,得到每个候选医疗实体的第五编码;对待处理文本进行文本编码处理,得到待处理文本的第六编码;将待处理文本的第六编码分别和每个候选医疗实体的第五编码进行拼接处理,得到每个候选医疗实体的第七编码;对每个候选医疗实体的第七编码进行回归映射处理,得到每个候选医疗实体对应的医疗实体与候选对象之间具有关系的第三概率。通过本申请实施例可以有效排除与候选对象没有关系的医疗实体,提高第二医疗实体的表征能力。
作为示例,抽取出待处理文本中的候选医疗实体后,对候选医疗实体进行阴阳性判断,阴阳性判断实质是判断候选医疗实体与候选对象之间的关系,阳性表征候选医疗实体与候选对象之间存在关系,阴性表征候选医疗实体与候选对象之间没有关系。利用抽取的候选医学实体表征候选对象,但是待处理文本中可能会出现如“咳嗽,没有流鼻涕”,“咳嗽”和“流鼻涕”都是医疗实体,“咳嗽”为候选对象的阳性医疗实体,可以保留用于表征候选对象的医疗实体,而“没有流鼻涕”为阴性医疗实体,不能用于表征候选对象。
首先将待处理文本D和基于待处理文本D得到的每个候选医疗实体ci进行编码,编码使用BERT结构,通过BERT结构输出待处理文本D的第六编码和每个候选医疗实体的第五编码,然后将每个候选医疗实体的第六编码和第五编码进行拼接得到每个候选医疗实体的拼接编码(第七编码),最后将拼接编码/>通过全连接层进行关系分类处理(回归映射处理),得到候选对象与候选医疗实体之间的关系。
实体对象关系预测处理是通过调用实体阴阳性判断模型实现的,实体阴阳性判断模型包括BERT结构以及全连接层,在训练开始之前,BERT结构的初始化参数使用开源的预训练模型的参数,全连接层参数是随机初始化得到的。实体阴阳性判断模型输出的对应阳性的概率和对应阴性的概率分别为pi和1-pi,训练实体阴阳性判断模型时采用的损失函数参见公式(2):
其中,是实体阴阳性判断模型的损失函数,pi是对应阳性的概率,yi是对象和医疗实体之间的真实关系,n+1是样本的数目。
在步骤1034中,当第三概率大于概率阈值时,将对应第三概率的候选医疗实体确定为对应候选对象的第二医疗实体。
当第三概率大于概率阈值时,表征对应第三概率的候选医疗实体属于与候选对象具有关联关系的医疗实体,保留与候选对象具有关联关系的候选医疗实体为用于表征候选对象的第二医疗实体。
在步骤104中,将对应每个候选对象的第一医疗实体与第二医疗实体组成对应每个候选对象的医疗实体集合。
作为示例,医疗实体集合用于对候选对象进行表征,本申请实施例的所有数据均带有候选对象的对象标识,将所有抽取出的第一医疗实体和第二医疗实体按对象标识进行分类聚合得到对应每个候选对象的医疗实体集合,将对应每个候选对象的医疗实体集合按疾病医疗事件、药物、症状医疗事件、手术、检查、疗法6种医疗实体类别进行分组,并对6个实体类别的医疗实体集合进行求并集处理,将并集结果和候选对象的基本信息聚合后,得到对应候选对象的医疗实体集合,作为用于表征每个候选对象的整体对象特征。
在步骤105中,对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,并将目标医疗实体集合对应的候选对象确定为与目标医疗事件匹配的目标对象。
在一些实施例中,参见图3E,步骤105中对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,可以通过图3E示出的步骤1051至步骤1054实现。
在步骤1051中,获取目标医疗事件的至少一个目标医疗实体。
作为示例,通过目标医疗事件的目标医疗实体(标签词)发现对目标医疗事件关联匹配的候选对象,目标医疗事件的目标医疗实体是给定的或者通过知识图谱关联目标医疗实体的方式获取,知识图谱关联医疗实体的输入是医疗事件,基于目标医疗事件在知识图谱中匹配对应的目标医疗实体,将关联得到的与目标医疗事件相关的疾病、症状、药物、治疗、手术等作为目标医疗实体(标签词)。
在步骤1052中,针对每个候选对象执行以下处理:对至少一个目标医疗实体与医疗实体集合中的每个待匹配医疗实体进行一致性匹配处理,得到第一匹配结果。
作为示例,精准匹配要求候选对象的医疗实体集合中的每个医疗实体(标签词)与目标医疗事件的目标医疗实体(标签词)完全相同。当存在一致的标签词时,第一匹配结果为互相匹配,否则第一匹配结果为不匹配。
在步骤1053中,针对每个候选对象执行以下处理:对至少一个目标医疗实体与医疗实体集合中的每个待匹配医疗实体进行基于编码距离的匹配处理,得到第二匹配结果。
在一些实施例中,步骤1053中对至少一个目标医疗实体与医疗实体集合中的每个待匹配医疗实体进行基于编码距离的匹配处理,得到第二匹配结果,可以通过以下技术方案实现:对每个目标医疗实体进行文本编码处理,得到每个目标医疗实体的第八编码;对每个待匹配医疗实体进行文本编码处理,得到每个待匹配医疗实体的第九编码;针对每个目标医疗实体执行以下处理:确定目标医疗实体的第八编码与每个待匹配医疗实体的第九编码之间的编码距离,并将得到的多个编码距离组成对应目标医疗实体的编码距离集合;对多个目标医疗实体的编码距离集合进行合并处理,得到整体编码距离集合,并从整体编码距离集合中获取最小编码距离;当最小编码距离小于编码距离阈值时,将对目标医疗事件与对应医疗实体集合匹配作为第二匹配结果。通过本申请实施例可以进行模糊匹配,扩大匹配范围,从而避免出现遗漏误差。
作为示例,基于编码距离的匹配处理即为模糊匹配,采用向量匹配的方式,向量匹配设计如下:对候选对象的医疗实体集合TP={tp0,tp1,···,tpn}和至少一个目标医疗实体的集合TD={td0,td1,···,tdm}进行匹配,确定出TP和TD中距离最近的一组<tpi,tdj>的距离作为候选对象与目标医疗事件的距离,若该距离小于距离阈值θ,则该候选对象被发现为目标对象。
在步骤1054中,针对每个候选对象执行以下处理:当第一匹配结果和第二匹配结果中任意一个匹配结果表征对目标医疗事件与对应医疗实体集合匹配时,将医疗实体集合确定为与目标医疗事件匹配的目标医疗实体集合。
针对每个候选对象,对医疗物资文本进行基于知识图谱的推理处理,得到第一医疗实体,对医疗记录文本以及基于医疗图像转化得到转换文本进行医疗实体抽取处理,得到第二医疗实体,从而保证医疗实体可以充分表征对应的候选对象,将目标医疗事件与第一医疗实体以及第二医疗实体进行匹配处理,可以得到与目标医疗事件匹配的医疗实体集合,并将医疗实体集合所属的候选对象作为与目标医疗事件匹配的目标对象,从而提高目标对象与目标医疗事件的匹配准确度。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例可以应用于目标对象发现场景,通过本申请实施例提供的对象匹配方法为医疗服务提供商匹配出关联有目标医疗事件的目标对象,从而医疗服务提供商可以针对目标对象提供对应目标医疗事件的医疗服务推荐。
第一终端(候选对象使用的终端)采集候选对象的医疗文本以及医疗图像,第一终端将包括每个候选对象的医疗文本以及医疗图像的对象匹配请求发送至服务器,服务器根据对象匹配请求,对每个候选对象的医疗物资文本进行知识图谱推理处理,得到对应每个候选对象的第一医疗实体;对每个候选对象的医疗图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的医疗记录文本以及转换文本进行医疗实体抽取处理,得到对应每个候选对象的第二医疗实体;将对应每个候选对象的第一医疗实体与第二医疗实体组成对应每个候选对象的医疗实体集合;对目标医疗事件与对应每个候选对象的医疗实体集合进行匹配处理,得到与目标医疗事件匹配的目标医疗实体集合,并将目标医疗实体集合对应的候选对象确定为与目标医疗事件匹配的目标对象,服务器将目标对象发送至第二终端(医疗服务提供商),从而第二终端可以将目标对象作为推荐对象,并向目标对象提供对应目标医疗事件的医疗服务推荐操作,目标医疗事件可以是某个疾病或者是某个通用症状,医疗服务包括药物、医疗器械、治疗套餐等等,其中,本申请实施例提供的对象匹配方法不是以有生命或动物体为对象的,且不是以获得疾病诊断结果或者健康状况为直接目的,不能根据第一医疗实体以及第二医疗实体直接获得疾病的诊断结果或健康状况,仅作为中间数据用于研究人员发掘出可能与医疗事件关联的人群对象,从而向目标人群对象提供更好的服务。
本申请实施例根据对象的历史操作,例如浏览操作、关注操作及对象本人的历史记录信息和对象与医生之间的会话信息等数据抽取出对象的多项对象特征,从而构建对象的整体对象特征,通过对象的整体对象特征与医疗物资供应商所需推广的医疗物资的特征进行匹配,从而发现符合待推广的医疗物资的目标对象,能帮助医疗物资供应商更好地了解对象需求并更好服务对象。
参见图4,图4示出了本申请实施例提供的管道形式的对象发现系统,包括对象特征构建和对象发现两部分,本申请实施例首先需要基于对象数据构建对象的整体对象特征,在医疗应用场景中,整体对象特征可以利用医疗实体集合来表征,对象数据包括多种模态的数据如文本格式(例:对象的订单主诉数据、对象的电子病情记录信息等)、图片格式(例:纸质病情记录信息)以及操作记录。为从多模态数据抽取有效信息构建对象的整体对象特征(医疗实体集合),本申请实施例设计了多维度对象特征构建模块。多维度对象特征构建模块从多模态数据中抽取出对象的疾病、症状、药物、治疗、手术等信息,并结合对象的基础属性信息生成整体对象特征。
进一步地,基于对象的多维度对象特征,本申请实施例帮助医疗物资提供商发现目标对象,以进行对象分析或者产品推广,本申请实施例可通过医学知识图谱关联医疗事件标签,并使用医疗事件标签(医疗实体)模糊匹配整体对象特征中的标签(本申请实施例中将医疗实体集合作为对应候选对象的整体对象特征,将医疗实体集合中的医疗实体作为整体对象特征的标签词),找出潜在与该医疗事件关联的对象。
下面将详细介绍多维度的整体对象特征构建阶段,参见图5,对象的整体对象特征的构建包括以下步骤:医疗数据预处理步骤、特征抽取步骤、数据聚合步骤,本申请实施例使用知识图谱、机器学习等技术。构建整体对象特征的数据来自多个不同数据源,本申请实施例采用多模态方式抽取特征,并对对象和特征进行聚合,从而生成可靠的对象的整体对象特征。
为应对多模态数据,整体对象特征构建阶段使用大数据、知识图谱、医疗实体识别、光学字符识别等技术,用来从非结构化的文本和图片中抽象出用整体对象特征。本申请实施例从对象操作数据、订单主诉数据、医患会话数据、文本形式的历史病情数据和图片形式的历史病情数据中抽取特征、构建对象的整体对象特征的过程如下。
首先,对多模态数据进行处理,对象的操作数据、订单主诉数据、医患会话数据,以及历史病情数据,操作数据包括用药操作数据、浏览操作数据、关注操作数据,历史病情数据包括文本形式的历史病情数据和图片形式的历史病情数据,以上数据除图片形式的历史病情数据为图形类数据外,其余均为文本类型数据。
基于上述数据进行特征抽取的详细过程如下:
针对用药操作数据,用药操作数据是对象使用药品的情况,包括对象使用药品标签的列表,对象的用药可以很大程度体现对象当前的情况,本申请实施例通过医学知识图谱将药品与适应症关联,并设计深度学习模型推理对象可能关联的医疗事件。
参见图6,使用医学知识图谱将对象使用的药物与医疗事件进行关联,本申请实施例使用的医学知识图谱包括药物节点Ndrug、医疗事件节点Nd和边E组成,边代表药物和医疗事件之间的关联关系,关联时将对象的药品集合Drug={drug0,drug1,drug2,···,drugn-1,drugn}中元素逐个在知识图谱中找对应的药品节点得到药品节点集合NDrug={ndrug0,ndrug1,ndrug2,…,ndrugn},再通过医学知识图谱中的边确定与药品节点集合NDrug中节点相连的医疗事件节点集合Nd,Drug={Nd,drug0,Nd,drug1,Nd,drug2,…,Nd,drugn},其中,Nd,drugi为与药物节点ndrugi之间通过边相连的医疗事件节点集合,对Nd,Drug进行求并集处理,并对求并集结果进行去重处理,得到医疗事件列表D={d0,d1,d2,···,dn-1,dn},使用药品集合和医疗事件推理对象可能关联的医疗事件。使用深度学习技术训练医疗事件预测模型。
首先使用BERT结构来对药品集合Drug的每个药品和医疗事件di进行编码,得到编码集然后将编码集Emb中元素进行累加得到qi∈Q,i=0,1,2,···,n,将累加位置编码qi通过全连接层进行回归得到对象关联医疗事件di的概率pi∈P,i=0,1,2,···,n。
医疗事件预测模型训练时,使用对象的真实历史病情数据,抽取历史病情数据中的医疗事件和针对医疗事件的治疗方案中的药品集,并将历史病情数据中治疗方案的药品集输入知识图谱关联得到医疗事件列表。将药品集和诊断结果对应的医疗事件作为正样本,将医疗事件列表中的其它医疗事件作为副样本。医疗事件预测模型中的BERT结构采用预训练的参数,在医疗事件预测模型的训练过程过中进行微调,全连接层的参数是随机初始化得到的,医疗事件预测模型的损失函数参见公式(3):
其中,是医疗事件预测模型的损失函数,di是样本中的医疗事件,Drug是样本中的药品集,yi为样本的标记,h(Drug,di)是全连接层输出的对象与医疗事件di关联的概率,n+1样本的数目。
利用医疗事件预测模型进行预测时,从医疗事件集合中逐个取出医疗事件和药品集Drug输入医疗事件预测模型,得到每个医疗事件与对象关联的概率,组成概率集合Q,对Q中每个医疗事件与对象关联的概率进行排序,选取概率排序最高的医疗事件作为与对象关联的医疗事件。
针对浏览操作数据、关注操作数据、订单主诉数据、医患会话数据、历史病情数据文本数据,其中,订单主诉数据、医患会话数据、历史病情数据文本数据等这类医疗文本类数据不能直接被使用,需要进行医学实体识别,并基于抽取的医学实体提取出可以用于描述对象的对象特征。此外文本中可能会出现如“咳嗽,没有流鼻涕”,该文本中“咳嗽”和“流鼻涕”都是医疗实体,“咳嗽”为对象的阳性医疗实体,可以保留为对象特征,而“没有流鼻涕”为阴性医疗实体,除需要对医疗文本类数据中的实体识别外还需进行阴阳性分类,只将阳性医疗实体保留为可以用于描述对象的对象特征。
参见图7,首先对医疗文本类数据进行医疗实体识别,采用的识别结构包括BERT结构、BiLSTM结构以及CRF结构,对于医疗文本首先通过BERT对某个医疗文本的每个字w∈D进行编码,然后将每个字的编码结果输入BiLSTM结构,得到进一步可以表征上下文信息的编码结果,最后使用CRF结构对医疗文本中每个字进行分类,类型包括:B-X(字属于一个实体X的起始字)、I-X(字为一个实体X内的其他字)和O(字不属于任何实体),其中,X代表实体类别,本申请实施例提供的实体类别包括疾病医疗事件、药物、症状医疗事件、手术、检查、治疗方式,最后将连续的同类字进行拼接得到实体集合C={c0,c1,c2,···,cm}。
抽取出医疗文本中的医疗实体后,对医疗实体进行阴阳性判断,本申请实施例利用实体阴阳性判断模型预测医疗实体与对象之间的关系,即对象与医疗实体关联(阳性)或者对象与医疗实体不关联(阴性),首先将医疗文本和抽取出的实体集合C的每个医疗实体ci∈C进行编码,编码使用BERT结构,选用BERT输出的CLS向量作为医疗文本的向量表示eD和医疗实体ci的向量表示/>然后将两个向量进行拼接得到拼接编码/>最后将拼接编码/>通过全连接层进行关系分类处理,得到对象与医疗实体之间的关系,BERT结构使用预训练的参数,全连接层参数是随机初始化得到的。
实体阴阳性判断模型输出的对应阳性的概率和对应阴性的概率分别为pi和1-pi,训练实体阴阳性判断模型时采用的损失函数参见公式(4):
其中,是实体阴阳性判断模型的损失函数,pi是对应阳性的概率,yi是对象和医疗实体之间的真实关系,n+1是样本的数目。
在利用实体阴阳性判断模型进行分类时,将分类结果为阳性的医疗实体选用为对象特征。
图片格式的历史病情数据需要对图像中的医疗文本进行提取,提取出医疗文本后采用和上述文本格式的历史病情数据相同方式抽取对象特征。通过OCR模型提取图像中的所有文本,得到识别的所有文本后,从所有文本中遍历查找医疗文本,例如,从所有文本中查找“诊断”、“主诉”等表头文字,选取距离表头文字的空间距离最近的文字块作为对应表头的内容,对对应表头的内容进行医疗实体抽取处理,得到所有医疗实体,再利实体阴阳性判断模型对医疗实体的阴阳性进行分类,得到分类为阳性的医疗实体作为对象特征。
通过上述实施例得到对象特征之后,对对象特征进行聚合处理,本申请实施例的所有数据均带有对象标识,首先将所有抽取出的对象特征按对象标识进行分类聚合得到对应每个对象的医疗实体集合,将对应每个对象的医疗实体集合按疾病医疗事件、药物、症状医疗事件、手术、检查、疗法6种医疗实体类别进行分组,并对6个实体类别的特征集合进行求并集处理,将特征并集结果和对象基本信息聚合后,得到对象的整体对象特征。
下面基于对象的整体对象特征的进行对象发现,参见图8,生产环境中经常遇到需要找关联有目标医疗事件的对象的需求(例如,需要发掘出可能患有某个疾病的对象),本申请实施例可以实现该需求,从海量的对象数据中,通过建立的整体对象特征挖掘出与目标医疗事件关联的对象。参见图8,通过目标医疗事件的标签词发现对目标医疗事件感兴趣的对象,目标医疗事件的标签词是给定的或者通过知识图谱关联医疗实体的方式获取,对目标医疗事件标签词和对象的整体对象特征里的对象标签进行匹配,并发掘出目标对象。
知识图谱关联医疗实体的输入是医疗事件,基于医疗事件在知识图谱中匹配对应的医疗实体,将关联得到的与目标医疗事件相关的疾病、症状、药物、治疗、手术等作为目标医疗事件标签。
标签匹配包括精准匹配和模糊匹配两个子过程。精准匹配要求整体对象特征的标签词与目标医疗事件标签词完全相同。模糊匹配采用向量匹配的方式,向量匹配模型设计如下:对某对象的整体对象特征的标签集合TP={tp0,tp1,···,tpn}和疾病标签集合TD={td0,td1,···,tdm}进行匹配,确定出TP和TD中距离最近的一组标签<tpi,tdj>的距离作为该整体对象特征与目标医疗事件的距离,若该距离小于距离阈值θ,则该对象被发现为目标对象。
首先,使用BERT结构对两个标签集合TP和TD进行向量化处理,分别得到对象的整体对象特征的标签向量表示EP={ep0,ep1,···,epn}和目标医疗事件的标签向量表示ED={ed0,ed1,···,edn},并采用三元组损失对BERT结构进行训练,三元组损失函数参见公式(5):
其中,函数中eppos为对象的整体对象特征里的正样本,epneg为对象的整体对象特征里的负样本,ed是与正样本类似的锚点样本,margin是一个大于0的常数。
训练时,BERT结构的参数是基于预训练参数进行初始化得到的,每次输入<eppos,epneg,ed>三元组进入模型,优化目标是拉近eppos和ed的距离,拉远epneg和ed的距离,距离函数采用余弦距离
在利用BERT结构进行编码后,将标签集合TP和标签集合TD的标签两两组队计算距离,取距离最近的距离min(distance(TP,TD))作为该对象与目标医疗事件的距离,当该距离小于距离阈值时,将该对象输出为目标对象,疾病距离阈值为训练集中该疾病所有标签距离中的最大值。
本申请实施例以对象的整体对象特征为起点,通过对象的疾病医疗事件、症状医疗事件、药物、治疗、手术等标签,帮助医疗提供商更好了解对象,发现对象,挖掘特征,制定精细化的推荐方案。本申请实施例中对象群体不局限于某种疾病,采用命名实体识别技术,可以发新的医疗实体,对对象数据进行挖掘,从对象浏览关注文章、用药情况、医患对话、历史病情数据等抽取疾病、症状、药品、治疗、手术、检查等多维度医疗实体,并且提出完整的对象发现流程,将对象整体特征用于精准推荐。
本申请实施例用到的BERT结构可用其它编码网络替代,如BERT变种、BiGRU、BiLSTM等。医疗实体抽取模型的结构也可改变,如CRF可用HMM代替,BERT+BiLSTM结构可用BiGRU、BiLSTM、BERT及BERT变种、BE RT及BERT变种+BiGRU代替。
可以理解的是,在本申请实施例中,涉及到所用用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的基于人工智能的对象匹配装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的基于人工智能的对象匹配装置255中的软件模块可以包括:获取模块,用于获取每个候选对象的对象关联文本以及对象关联图像,其中,对象关联文本包括物资文本以及记录文本;第一实体模块,用于对每个候选对象的物资文本进行知识图谱推理处理,得到对应每个候选对象的第一关联实体;第二实体模块,用于对每个候选对象的对象关联图像进行文本提取处理,得到每个候选对象的转换文本,并对每个候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个候选对象的第二关联实体;组成模块,用于将对应每个候选对象的第一关联实体与第二关联实体组成对应每个候选对象的关联实体集合;匹配模块,用于对目标事件与对应每个候选对象的关联实体集合进行匹配处理,得到与目标事件匹配的目标关联实体集合,并将目标关联实体集合对应的候选对象确定为与目标事件匹配的目标对象。
在一些实施例中,获取模块,还用于针对每个候选对象执行以下处理:获取候选对象的操作数据、医疗会话数据、医疗记录数据以及医疗物资数据;获取操作数据对应的操作文本,并从医疗记录数据中提取记录文本;从医疗会话数据中提取出原始会话文本,并对原始会话文本进行去噪处理,得到会话文本;将操作文本、记录文本以及会话文本组成候选对象的记录文本;从医疗物资数据中提取物资文本,并将记录文本以及物资文本组成候选对象的对象关联文本。
在一些实施例中,物资文本是医疗物资文本,医疗物资文本记载有至少一个医疗物资,第一关联实体是第一医疗实体,第一医疗实体模块,还用于:针对每个候选对象执行以下处理:从知识图谱中查询与每个医疗物资关联的物资节点,并获取与每个物资节点具有连接关系的医疗事件节点,并获取与每个医疗事件节点对应的候选医疗事件;基于每个候选医疗事件以及每个医疗物资进行医疗事件预测处理,得到对应每个候选医疗事件的第一概率;将最大的第一概率对应的候选医疗事件作为对应候选对象的第一医疗实体。
在一些实施例中,第一医疗实体模块,还用于:对每个候选医疗事件进行文本编码处理,得到对应每个候选医疗事件的第一编码;对每个医疗物资进行文本编码处理,得到对应每个医疗物资的第二编码;针对每个候选医疗事件,将候选医疗事件的第一编码与多个医疗物资的第二编码进行累加处理,得到候选医疗事件的第三编码;对每个候选医疗事件的第三编码进行回归映射处理,得到对应每个候选医疗事件的第一概率。
在一些实施例中,医疗事件预测处理是通过调用医疗事件预测模型实现的,第一医疗实体模块,还用于:获取正治疗样本,其中,正治疗样本包括适配的第一样本医疗事件和第一医疗物资;获取负治疗样本,其中,负治疗样本包括不适配的第二样本医疗事件和第一医疗物资;将正治疗样本以及负治疗样本分别在医疗事件预测模型中进行正向传播,分别得到对应第一样本医疗事件的第一预测概率以及对应第二样本医疗事件的第二预测概率;基于第一预测概率与数值一之间的误差生成第一损失,并基于第二预测概率生成第二损失;确定第一损失和第二损失的融合损失收敛时医疗事件预测模型的参数变化值,并基于参数变化值对医疗事件预测模型的参数进行更新。
在一些实施例中,记录文本是医疗记录文本,第二关联实体是第二医疗实体,第二医疗实体模块,还用于:针对每个候选对象执行以下处理:将候选对象的医疗记录文本以及转换文本确定为待处理文本;针对每个待处理文本执行以下处理:对待处理文本进行字分类处理,得到每个字的分类结果,并基于每个字的分类结果,生成至少一个候选医疗实体;对每个候选医疗实体进行实体对象关系预测处理,得到每个候选医疗实体对应的医疗实体与候选对象之间具有关系的第三概率;当第三概率大于概率阈值时,将候选第二医疗实体确定为对应候选对象的第二医疗实体。
在一些实施例中,第二医疗实体模块,还用于:对待处理文本的每个字执行以下处理:对字进行文本编码处理,得到字的第四编码;对字的第四编码进行基于条件随机场机制的映射处理,得到字属于每个候选类型的第二概率,其中,候选类型包括:实体起始字、实体非起始字以及非实体字;将最大的第二概率对应的候选类型确定为字的分类结果。
在一些实施例中,第二医疗实体模块,还用于:针对分类结果为实体起始字的每个字执行以下处理:获取待处理文本中处于字后,且与字之间的距离最近的非实体字;获取字与非实体字之间的至少一个实体非起始字;将字与至少一个实体非起始字拼接为候选医疗实体。
在一些实施例中,第二医疗实体模块,还用于:对每个候选医疗实体进行文本编码处理,得到每个候选医疗实体的第五编码;对待处理文本进行文本编码处理,得到待处理文本的第六编码;将待处理文本的第六编码分别和每个候选医疗实体的第五编码进行拼接处理,得到每个候选医疗实体的第七编码;对每个候选医疗实体的第七编码进行回归映射处理,得到每个候选医疗实体对应的医疗实体与候选对象之间具有关系的第三概率。
在一些实施例中,目标事件是目标医疗事件,关联实体集合是医疗实体集合,目标关联实体集合是目标医疗实体集合,匹配模块,还用于:获取目标医疗事件的至少一个目标医疗实体;针对每个候选对象执行以下处理:对至少一个目标医疗实体与医疗实体集合中的每个待匹配医疗实体进行一致性匹配处理,得到第一匹配结果;对至少一个目标医疗实体与医疗实体集合中的每个待匹配医疗实体进行基于编码距离的匹配处理,得到第二匹配结果;当第一匹配结果和第二匹配结果中任意一个匹配结果表征对目标医疗事件与对应医疗实体集合匹配时,将医疗实体集合确定为与目标医疗事件匹配的目标医疗实体集合。
在一些实施例中,匹配模块,还用于:对每个目标医疗实体进行文本编码处理,得到每个目标医疗实体的第八编码;对每个待匹配医疗实体进行文本编码处理,得到每个待匹配医疗实体的第九编码;针对每个目标医疗实体执行以下处理:确定目标医疗实体的第八编码与每个待匹配医疗实体的第九编码之间的编码距离,并将得到的多个编码距离组成对应目标医疗实体的编码距离集合;对多个目标医疗实体的编码距离集合进行合并处理,得到整体编码距离集合,并从整体编码距离集合中获取最小编码距离;当最小编码距离小于编码距离阈值时,将对目标医疗事件与对应医疗实体集合匹配作为第二匹配结果。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的基于人工智能的对象匹配方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的对象匹配方法,例如,如图3A-图3E示出的基于人工智能的对象匹配方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例针对每个候选对象,对医疗物资文本进行基于知识图谱的推理处理,得到第一医疗实体,对医疗记录文本以及基于医疗图像转化得到转换文本进行医疗实体抽取处理,得到第二医疗实体,从而保证医疗实体可以充分表征对应的候选对象,将目标医疗事件与第一医疗实体以及第二医疗实体进行匹配处理,可以得到与目标医疗事件匹配的医疗实体集合,并将医疗实体集合所属的候选对象作为与目标医疗事件匹配的目标对象,从而提高目标对象与目标医疗事件的匹配准确度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包括在本申请的保护范围之内。
Claims (15)
1.一种基于人工智能的对象匹配方法,其特征在于,所述方法包括:
获取每个候选对象的对象关联文本以及对象关联图像,其中,所述对象关联文本包括物资文本以及记录文本;
对每个所述候选对象的物资文本进行知识图谱推理处理,得到对应每个所述候选对象的第一关联实体;
对每个所述候选对象的对象关联图像进行文本提取处理,得到每个所述候选对象的转换文本,并对每个所述候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个所述候选对象的第二关联实体;
将对应每个所述候选对象的第一关联实体与第二关联实体组成对应每个所述候选对象的关联实体集合;
对目标事件与对应每个所述候选对象的关联实体集合进行匹配处理,得到与所述目标事件匹配的目标关联实体集合,并将所述目标关联实体集合对应的候选对象确定为与所述目标事件匹配的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述物资文本是医疗物资文本,所述医疗物资文本记载有至少一个医疗物资,所述第一关联实体是第一医疗实体,所述对每个所述候选对象的物资文本进行知识图谱推理处理,得到对应每个所述候选对象的第一关联实体,包括:
针对每个所述候选对象执行以下处理:
从知识图谱中查询与每个所述医疗物资关联的物资节点,并获取与每个所述物资节点具有连接关系的医疗事件节点,并获取与每个所述医疗事件节点对应的候选医疗事件;
基于每个所述候选医疗事件以及每个所述医疗物资进行医疗事件预测处理,得到对应每个所述候选医疗事件的第一概率;
将最大的第一概率对应的候选医疗事件作为对应所述候选对象的第一医疗实体。
3.根据权利要求2所述的方法,其特征在于,所述基于每个所述候选医疗事件以及每个所述医疗物资进行医疗事件预测处理,得到对应每个所述候选医疗事件的第一概率,包括:
对每个所述候选医疗事件进行文本编码处理,得到对应每个所述候选医疗事件的第一编码;
对每个所述医疗物资进行文本编码处理,得到对应每个所述医疗物资的第二编码;
针对每个所述候选医疗事件,将所述候选医疗事件的第一编码与多个所述医疗物资的第二编码进行累加处理,得到所述候选医疗事件的第三编码;
对每个所述候选医疗事件的第三编码进行回归映射处理,得到对应每个所述候选医疗事件的第一概率。
4.根据权利要求2所述的方法,其特征在于,所述医疗事件预测处理是通过调用医疗事件预测模型实现的,所述方法还包括:
获取正治疗样本,其中,所述正治疗样本包括适配的第一样本医疗事件和第一医疗物资;
获取负治疗样本,其中,所述负治疗样本包括不适配的第二样本医疗事件和所述第一医疗物资;
将所述正治疗样本以及所述负治疗样本分别在所述医疗事件预测模型中进行正向传播,分别得到对应所述第一样本医疗事件的第一预测概率以及对应所述第二样本医疗事件的第二预测概率;
基于所述第一预测概率与数值一之间的误差生成第一损失,并基于所述第二预测概率生成第二损失;
确定所述第一损失和所述第二损失的融合损失收敛时所述医疗事件预测模型的参数变化值,并基于所述参数变化值对所述医疗事件预测模型的参数进行更新。
5.根据权利要求1所述的方法,其特征在于,所述记录文本是医疗记录文本,所述第二关联实体是第二医疗实体,所述对每个所述候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个所述候选对象的第二关联实体,包括:
针对每个所述候选对象执行以下处理:
将所述候选对象的医疗记录文本以及转换文本确定为待处理文本;
针对每个所述待处理文本执行以下处理:对所述待处理文本进行字分类处理,得到每个字的分类结果,并基于每个所述字的分类结果,生成至少一个候选医疗实体;
对每个所述候选医疗实体进行实体对象关系预测处理,得到每个所述候选医疗实体对应的医疗实体与所述候选对象之间具有关系的第三概率;
当所述第三概率大于概率阈值时,将对应所述第三概率的候选医疗实体确定为对应所述候选对象的第二医疗实体。
6.根据权利要求5所述的方法,其特征在于,所述对所述待处理文本进行字分类处理,得到每个字的分类结果,包括:
对所述待处理文本的每个字执行以下处理:
对所述字进行文本编码处理,得到所述字的第四编码;
对所述字的第四编码进行基于条件随机场机制的映射处理,得到所述字属于每个候选类型的第二概率,其中,所述候选类型包括:实体起始字、实体非起始字以及非实体字;
将最大的第二概率对应的候选类型确定为所述字的分类结果。
7.根据权利要求5所述的方法,其特征在于,所述基于每个所述字的分类结果,生成至少一个候选医疗实体,包括:
针对所述分类结果为实体起始字的每个字执行以下处理:
获取所述待处理文本中处于所述字后,且与所述字之间的距离最近的非实体字或者另一个实体起始字;
获取所述字与所述非实体字或者与所述另一个实体起始字之间的至少一个实体非起始字;
将所述字与所述至少一个实体非起始字拼接为候选医疗实体。
8.根据权利要求5所述的方法,其特征在于,所述对每个所述候选医疗实体进行实体对象关系预测处理,得到每个所述候选医疗实体对应的医疗实体与所述候选对象之间具有关系的第三概率,包括:
对每个所述候选医疗实体进行文本编码处理,得到每个所述候选医疗实体的第五编码;
对所述待处理文本进行文本编码处理,得到所述待处理文本的第六编码;
将所述待处理文本的第六编码分别和每个所述候选医疗实体的第五编码进行拼接处理,得到每个所述候选医疗实体的第七编码;
对每个所述候选医疗实体的第七编码进行回归映射处理,得到每个所述候选医疗实体对应的医疗实体与所述候选对象之间具有关系的第三概率。
9.根据权利要求1所述的方法,其特征在于,所述目标事件是目标医疗事件,所述关联实体集合是医疗实体集合,所述目标关联实体集合是目标医疗实体集合,所述对目标事件与对应每个所述候选对象的关联实体集合进行匹配处理,得到与所述目标事件匹配的目标关联实体集合,包括:
获取所述目标医疗事件的至少一个目标医疗实体;
针对每个所述候选对象执行以下处理:
对所述至少一个目标医疗实体与所述医疗实体集合中的每个待匹配医疗实体进行一致性匹配处理,得到第一匹配结果;
对所述至少一个目标医疗实体与所述医疗实体集合中的每个待匹配医疗实体进行基于编码距离的匹配处理,得到第二匹配结果;
当所述第一匹配结果和所述第二匹配结果中任意一个匹配结果表征所述对目标医疗事件与对应所述医疗实体集合匹配时,将所述医疗实体集合确定为与所述目标医疗事件匹配的目标医疗实体集合。
10.根据权利要求9所述的方法,其特征在于,所述对所述至少一个目标医疗实体与所述医疗实体集合中的每个待匹配医疗实体进行基于编码距离的匹配处理,得到第二匹配结果,包括:
对每个所述目标医疗实体进行文本编码处理,得到每个所述目标医疗实体的第八编码;
对每个所述待匹配医疗实体进行文本编码处理,得到每个所述待匹配医疗实体的第九编码;
针对每个所述目标医疗实体执行以下处理:
确定所述目标医疗实体的第八编码与每个所述待匹配医疗实体的第九编码之间的编码距离,并将得到的多个所述编码距离组成对应所述目标医疗实体的编码距离集合;
对多个所述目标医疗实体的编码距离集合进行合并处理,得到整体编码距离集合,并从所述整体编码距离集合中获取最小编码距离;
当所述最小编码距离小于编码距离阈值时,将所述对目标医疗事件与对应所述医疗实体集合匹配作为所述第二匹配结果。
11.根据权利要求1所述的方法,其特征在于,所述获取每个候选对象的对象关联文本,包括:
针对每个所述候选对象执行以下处理:
获取所述候选对象的操作数据、医疗会话数据、医疗记录数据以及医疗物资数据;
获取所述操作数据对应的操作文本,并从所述医疗记录数据中提取记录文本;
从所述医疗会话数据中提取出原始会话文本,并对所述原始会话文本进行去噪处理,得到会话文本;
将所述操作文本、所述记录文本以及所述会话文本组成候选对象的记录文本;
从所述医疗物资数据中提取所述物资文本,并将所述记录文本以及所述物资文本组成所述候选对象的对象关联文本。
12.一种基于人工智能的对象匹配装置,其特征在于,所述装置包括:
获取模块,用于获取每个候选对象的对象关联文本以及对象关联图像,其中,所述对象关联文本包括物资文本以及记录文本;
第一实体模块,用于对每个所述候选对象的物资文本进行知识图谱推理处理,得到对应每个所述候选对象的第一关联实体;
第二实体模块,用于对每个所述候选对象的对象关联图像进行文本提取处理,得到每个所述候选对象的转换文本,并对每个所述候选对象的记录文本以及转换文本进行实体抽取处理,得到对应每个所述候选对象的第二关联实体;
组成模块,用于将对应每个所述候选对象的第一关联实体与第二关联实体组成对应每个所述候选对象的关联实体集合;
匹配模块,用于对目标事件与对应每个所述候选对象的关联实体集合进行匹配处理,得到与所述目标事件匹配的目标关联实体集合,并将所述目标关联实体集合对应的候选对象确定为与所述目标事件匹配的目标对象。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至11任一项所述的基于人工智能的对象匹配方法。
14.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的基于人工智能的对象匹配方法。
15.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的基于人工智能的对象匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582956.8A CN117012321A (zh) | 2022-12-09 | 2022-12-09 | 对象匹配方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582956.8A CN117012321A (zh) | 2022-12-09 | 2022-12-09 | 对象匹配方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117012321A true CN117012321A (zh) | 2023-11-07 |
Family
ID=88560719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211582956.8A Pending CN117012321A (zh) | 2022-12-09 | 2022-12-09 | 对象匹配方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117012321A (zh) |
-
2022
- 2022-12-09 CN CN202211582956.8A patent/CN117012321A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US20200050949A1 (en) | Digital assistant platform | |
US12086548B2 (en) | Event extraction from documents with co-reference | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
WO2022068160A1 (zh) | 基于人工智能的重症问诊数据识别方法、装置、设备及介质 | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
WO2023040493A1 (zh) | 事件检测 | |
US11874798B2 (en) | Smart dataset collection system | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN114661861B (zh) | 文本匹配方法及装置、存储介质、终端 | |
WO2022134357A1 (zh) | 分诊数据处理方法、装置、计算机设备及存储介质 | |
CN115858886A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN111696656A (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN112182253B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
Lee et al. | Towards Semantic Smart Cities: A Study on the Conceptualization and Implementation of Semantic Context Inference Systems | |
CN117216393A (zh) | 信息推荐方法、信息推荐模型的训练方法及装置、设备 | |
CN113742452B (zh) | 基于文本分类的舆情监测方法、装置、设备及介质 | |
US20240095445A1 (en) | Systems and methods for language modeling with textual clincal data | |
CN117012321A (zh) | 对象匹配方法、装置、设备、存储介质及程序产品 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN115859984A (zh) | 医疗命名实体识别模型训练方法、装置、设备及介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
AU2022201117A1 (en) | Frameworks and methodologies for enabling searching and/or categorisation of digitised information, including clinical report data | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |