CN112908488B - 事件识别方法、装置、计算机设备和存储介质 - Google Patents
事件识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112908488B CN112908488B CN202110174948.9A CN202110174948A CN112908488B CN 112908488 B CN112908488 B CN 112908488B CN 202110174948 A CN202110174948 A CN 202110174948A CN 112908488 B CN112908488 B CN 112908488B
- Authority
- CN
- China
- Prior art keywords
- target
- text data
- event
- target event
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 66
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000002411 adverse Effects 0.000 description 11
- 229940079593 drug Drugs 0.000 description 11
- 239000003814 drug Substances 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 206010010774 Constipation Diseases 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 229940124587 cephalosporin Drugs 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 2
- 229960002588 cefradine Drugs 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 229930186147 Cephalosporin Natural products 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 229930182555 Penicillin Natural products 0.000 description 1
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- LSQZJLSUYDQPKJ-NJBDSQKTSA-N amoxicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=C(O)C=C1 LSQZJLSUYDQPKJ-NJBDSQKTSA-N 0.000 description 1
- 229960003022 amoxicillin Drugs 0.000 description 1
- 206010003549 asthenia Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 150000001780 cephalosporins Chemical class 0.000 description 1
- RDLPVSKMFDYCOR-UEKVPHQBSA-N cephradine Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@@H]3N(C2=O)C(=C(CS3)C)C(O)=O)=CCC=CC1 RDLPVSKMFDYCOR-UEKVPHQBSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- LSQZJLSUYDQPKJ-UHFFFAOYSA-N p-Hydroxyampicillin Natural products O=C1N2C(C(O)=O)C(C)(C)SC2C1NC(=O)C(N)C1=CC=C(O)C=C1 LSQZJLSUYDQPKJ-UHFFFAOYSA-N 0.000 description 1
- 229940049954 penicillin Drugs 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 201000001474 proteinuria Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种事件识别方法、装置、计算机设备和存储介质。所述方法包括:将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到;基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本;根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。采用本方法能够提高事件识别准确性。
Description
技术领域
本申请涉及医疗信息处理技术领域,特别是涉及一种事件识别方法、装置、计算机设备和存储介质。
背景技术
不良事件(AE,)是临床试验中的受试者在使用药物后出现的任何非期望的医学事件均为不良事件,对于药品等的临床试验及上市后产生的数据而言,针对患者产生的不良反应需要进行识别和持续关注。
目前针对受试者或者患者病历中出现的不良事件的识别以及监测,采用人工的方式进行,例如,临床研究协调员(CRC,Clinical research coordinator)参与识别受试者病历中的不良事件并对该不良事件的受试者状况进行跟进,然而,这种识别监测方法随意性较大,造成不良事件识别监测不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种事件识别方法、装置、计算机设备和存储介质。
一种事件识别方法,所述方法包括:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;
根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果。
在其中一个实施例中,在所述将候选关键词与目标事件数据库中目标事件实体数据进行匹配之前,所述方法还包括:
获取目标对象的待处理文本数据;
识别所述待处理文本数据中的切分标识,根据所述切分标识对所述待处理文本数据进行切分处理,得到数据切分结果;
识别每一所述数据切分结果中包含的符合目标词性的候选关键词。
在其中一个实施例中,所述目标事件数据库是包含所述目标事件实体数据的知识图谱数据库,所述将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词,包括:
针对每一候选关键词,计算所述候选关键词与所述知识图谱数据库中每一所述目标事件实体数据的相似度,得到相似度计算结果;
在所述相似度计算结果中确定满足相似度阈值的筛选结果,基于所述筛选结果对应的所述目标事件实体数据,将对应的所述候选关键词确定为所述目标事件对应的目标关键词。
在其中一个实施例中,所述待处理文本数据的数据切分结果包括文本数据整句和文本数据分句;所述文本数据整句包含所述文本数据分句;所述基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本,包括:
根据第一目标关键词所处字段位置,定位至所述第一目标关键词所在的目标文本数据整句;
识别所述目标文本数据整句中是否包含其他目标关键词;
若不包含,将所述目标文本数据整句,结合所述目标文本数据整句的前一文本数据整句和后一文本数据整句,作为所述第一目标关键词对应的文本数据样本;
若包含,则以所述第一目标关键词所处的文本数据分句作为所述目标文本数据整句的切分结果,将所述切分结果以及与所述切分结果相邻的文本数据整句作为所述第一目标关键词对应的文本数据样本;所述相邻的文本数据整句不包含其他目标关键词。
在其中一个实施例中,所述根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果,包括:
根据预设的正则表达式提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息;所述相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施;
将所述目标关键词与对应的所述相关特征信息封装在一个数据包内,作为所述目标事件识别结果。
在其中一个实施例中,基于所述目标对象的待处理文本数据得到的所述目标事件识别结果为当前目标事件识别结果,所述方法还包括:
将所述当前事件识别结果与同一所述目标对象的历史目标事件识别结果进行匹配;
若所述当前目标事件识别结果中存在与所述历史目标事件识别结果中不相匹配的目标事件,则将所述不相匹配的目标事件确定为待追踪目标事件;
若所述当前目标事件识别结果中存在与所述历史目标事件识别结果相匹配的目标事件且所述历史目标事件识别结果中相匹配的所述目标事件的事件结果为未结束状态,则确定所述目标事件为持续目标事件。
在其中有一个实施例中,所述待追踪事件包括新增目标事件和告警目标事件;所述若所述当前目标事件识别结果中存在与所述历史目标事件识别结果中不相匹配的目标事件,则将所述不相匹配的目标事件确定为待追踪目标事件,包括:
将所述当前目标事件识别结果中存在而所述历史目标事件识别结果中不存在的目标事件确定为新增目标事件;
将所述当前目标事件识别结果中不存在而所述历史目标事件识别结果中存在,且所述历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
一种事件识别装置,所述装置包括:
匹配模块,用于将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
定位获取模块,用于基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;
提取模块,用于根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;
根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;
根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果。
上述事件识别方法、装置、计算机设备和存储介质,将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果。采用本方法,通过对目标对象文本数据中目标事件的目标关键词进行抽取以及对目标事件的相关特征信息进行提取,可以准确识别文本数据中包含的目标事件,进而根据识别出的目标事件进行自动化目标事件匹配监测,提高目标事件识别和监测的准确性。
附图说明
图1为一个实施例中事件识别方法的流程示意图;
图2为一个实施例中获取候选关键词步骤的流程示意图;
图3为一个实施例中确定目标事件对应的目标关键词步骤的流程示意图;
图4为一个实施例中获取文本数据样本步骤的流程示意图;
图5为一个实施例中提取相关特征信息步骤的流程示意图;
图6为一个实施例中目标事件识别结果的显示界面图;
图7为一个实施例中监测目标事件识别结果步骤的流程示意图;
图8为一个实施例中确定待追踪目标表事件步骤的流程示意图;
图9为一个实施例中事件识别装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种事件识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到。
其中,针对目标对象的文本数据进行关键词提取,从而得到提取出的候选关键词。例如,目标事件为医学领域的不良事件(AE,Adverse Event),目标对象的文本数据即为临床受试者或者患者的随访病历记录,则计算机设备提取目标患者的随访病历记录,提取出其中的候选关键词。
在实施中,计算机设备将候选关键词与目标事件数据库中目标事件实体数据进行匹配,进而在候选关键词中确定目标事件对应的目标关键词。
具体地,目标事件数据库中包含以目标事件(例如,不良事件)名称作为实体的数据记录,计算机设备遍历目标事件数据库中的数据记录,将每一候选关键词与每一条数据记录中的目标事件名称(例如,不良事件名称)进行匹配,进而确定出最终匹配结果,从而根据最终匹配结果,确定候选关键词为匹配结果中目标事件名称表征的目标事件(不良事件)对应的目标关键词。
步骤102,基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本。
在实施中,计算机设备基于每一目标关键词所处的字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本。
具体地,基于确定出的目标关键词,定位目标关键词在文本数据中的所处位置,以该位置为基准,获取该位置之前和之后预设范围的文本数据,作为目标事件关键词表征的目标事件的文本数据样本。
可选地,当目标对象对应的文本数据中包含多个目标事件关键词(表征目标事件)时,因此,针对每一目标事件关键词可以获取到文本数据样本,即由整体文本数据得到多个文本数据样本。当目标对象对应的文本数据中仅有一个目标事件关键词时,则可以直接由整体文本数据作为一个文本数据样本。
步骤103,根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。
在实施中,计算机设备根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件识别结果。
具体地,计算机设备通过正则表达式提取规则或者知识图谱匹配原则,在每一目标关键词对应的文本数据样本中,提取目标关键词的相关特征信息,也即是表征的目标事件的相关特征信息,然后,将提取出的相关特征信息结合目标关键词,作为对应的目标事件在文本数据中的识别结果。
上述事件识别方法中,将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到;基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本;根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。采用本方法,通过对目标对象文本数据中目标事件的目标关键词进行抽取以及对目标事件的相关特征信息进行提取,可以准确识别文本数据中包含的目标事件,进而根据识别出的目标事件进行自动化目标事件匹配监测,提高目标事件识别准确性。同时自动化目标事件识别可以节省人力资源,且提高事件识别效率。
在一个实施例中,如图2所示,包括以下步骤:
步骤201,获取目标对象的待处理文本数据。
在实施中,计算机设备获取目标对象的待处理文本数据。
具体地,以识别AE(不良事件)为例,将目标患者的随访病历记录作为待处理文本数据。
步骤202,识别待处理文本数据中的切分标识,根据切分标识对待处理文本数据进行切分处理,得到数据切分结果。
其中,文本数据中的切分标识可以为文本数据中的标点符号,具体可以包括:句号、分号、叹号、逗号、顿号等,本实施例不做限定。
在实施中,计算机设备识别待处理文本数据中的切分标识,根据切分标识对待处理文本进行切分处理,得到数据切分结果。例如,以“句号”“分号”等类型的标点符号作为文本数据整句的切分符号,将整段的文本数据切分为多个整句,以“逗号”等类型的标点符号作为文本数据分句的切分符号,将每个整句切分为分句。
步骤203,识别每一数据切分结果中包含的符合目标词性的候选关键词。
其中,词性可以包括:名词、副词、形容词、动词等多种类型,由于目标事件在文本数据中的表征形式为目标事件的名称,词性为名词,因此,将名词作为目标词性,对应的可以给名词词性的词语打上名词标签,其他词性不做处理。
在实施中,计算机设备根据NLP(Natural Language Processing,自然语言处理)算法识别每一数据切分结果中包含的符合目标词性的候选关键词。具体地,计算机设备可以根据切分结果中最小处理单元(即文本数据分句)进行数据处理,筛选出每一文本数据分句中包含的符合目标词性(即,打上名词标签)的词语,作为候选关键词。
可选地,在进行候选关键词识别的过程中,针对无法识别词性的词也作为候选关键词参与后续的匹配处理,以避免信息遗漏。
在一个实施例中,如图3所示,目标事件数据库是包含目标事件实体数据的知识图谱数据库,步骤101的具体处理过程如下所示:
步骤301,针对每一候选关键词,计算候选关键词与知识图谱数据库中每一目标事件实体数据的相似度,得到相似度计算结果。
其中,目标事件数据库是以目标事件名称(例如,不良事件名称包括:乏力、发热、便秘)作为其中一类实体数据的知识图谱数据库,因此,整个知识图谱数据库反映不良事件(目标事件)与不良事件用药等其他实体数据间的关联关系。可选地,知识图谱数据库中的数据信息来源于大量受试者脱敏数据(即经过数据变形处理,保护受试者隐私的数据),对于知识图谱包含的数据内容,本实施例不做限定。
具体地,知识图谱数据库中的实体数据包括:不良事件(如,乏力、发热、便秘等)、药品名称(如,头孢、胰岛素、青霉素)、医药商品名称(头孢拉定、阿莫西林)、疾病(如,感冒、过敏、糖尿病)等;知识图谱中的关系包括:用药措施、医学名称和商品名等。知识图谱中的实体数据用“节点”表示,实体数据之间的关系在知识图谱中用“边”表示,因此,在知识图谱数据库中一条知识数据记录可以反映为:乏力(实体数据)—用药措施(关系)—头孢(实体数据);或者可以反映为:乏力(实体数据)—用药措施(关系)—头孢(实体数据)—商品名(关系)—头孢拉定(实体数据)。对于知识图谱数据库中的每一条知识记录包含的实体数据和关系,本实施例不做限定。
在实施中,计算机设备针对每一候选关键词,遍历知识图谱数据库中的每一条知识数据记录,识别其中目标事件实体数据(即不良事件实体数据),计算候选关键词与每一目标事件实体数据(不良事件实体数据)的相似度,得到相似度计算结果。
具体地,针对候选关键词中的多个名词,例如,名词A、名词B和名词C,针对名词A,计算名词A与知识图谱数据库中全部的不良事件实体数据间的相似度,得到相似度计算结果,例如,与不良事件实体数据1相似度90%,与不良事件实体数据2相似度75%,与不良事件实体数据3相似度20%……名词B与名词C的处理过程与名词A相同,本实施例不再赘述。
步骤302,在相似度计算结果中确定满足相似度阈值的筛选结果,基于筛选结果对应的目标事件实体数据,将对应的候选关键词确定为目标事件对应的目标关键词。
在实施中,计算机设备针对每一候选关键词对应的在各相似度计算结果中确定满足相似度阈值的筛选结果,基于该筛选结果中对应的目标事件实体数据,将对应的候选关键词确定为目标事件对应的目标关键词。
具体地,例如,候选关键词中的名词A(例如,便秘)与不良事件实体数据1间的相似度为90%,满足预设的相似度阈值,则根据不良事件实体数据表征的不良事件,将名词A确定为目标事件对应的目标关键词。
本实施例中,通过将候选关键词在知识图谱数据库中进行匹配,确定候选关键词中可以用来表征目标事件的目标关键词,进而达到识别文本数据中表征不良事件的不良事件名称(目标关键词)的目的,提高目标事件识别准确性。
在一个实施例中,如图4所示,待处理文本数据的数据切分结果包括文本数据整句和文本数据分句;文本数据整句包含文本数据分句;则步骤102的具体处理过程如下所示:
步骤401,根据第一目标关键词所处字段位置,定位至第一目标关键词所在的目标文本数据整句。
在实施中,计算机设备根据第一目标关键词所处字段位置,定位至第一目标关键词所在的目标文本数据整句。
步骤402,识别目标文本数据整句中是否包含其他目标关键词。
在实施中,计算机设备识别定位到的目标文本数据整句是否包含其他目标关键词。
步骤403,若不包含,将目标文本数据整句,结合目标文本数据整句的前一文本数据整句和后一文本数据整句,作为第一目标关键词对应的文本数据样本。
在实施中,若该目标文本数据整句不包含除第一目标关键词之外其他目标关键词,则将包含第一目标关键词的目标文本数据整句,结合目标文本数据整句的前一文本数据整句和后一文本数据整句,作为第一目标关键词对应的文本数据样本。即包含第一目标关键词的三个文本数据整句,作为一个文本数据样本。
步骤404,若包含,则以第一目标关键词所处的文本数据分句作为目标文本数据整句的切分结果,将切分结果以及与切分结果相邻的文本数据整句作为第一目标关键词对应的文本数据样本;相邻的文本数据整句不包含其他目标关键词。
在实施中,若该目标文本数据整句中包含除第一目标关键词之外的其他目标关键词,则将该第一目标关键词所在的目标文本数据整句进一步切分,根据分句标识得到多个分句,将切分后的第一目标关键词所处的文本数据分句为界,将该文本数据分句以及相邻的文本数据整句(不包含其他目标关键词)作为第一目标关键词对应的文本数据样本。
具体地,例如,第一目标关键词所在的目标文本数据整句包含两个文本数据分句,第一目标关键词位于前一文本数据分句,则将包含第一目标关键词的文本数据分句以及相邻的前一文本数据整句作为第一目标关键词所在的文本数据样本。也即若相邻的两个目标关键词(表征不同不良事件)的文本数据样本取值区间存在重叠,则选取重叠部分的中位分句作为两个目标关键词样本区间的界线。
可选地,文本数据样本的获取范围可以根据对应目标关键词的类型以及该目标关键词在历史文本数据中描述范围的统计结果得到,本实施例不做限定。
本实施例中,通过对每一个目标关键词,获取对应的文本数据样本,使得独立识别每个目标关键词表征的目标事件,提高了目标事件识别的准确性。
在一个实施例中,如图5所示,步骤103的具体处理过程如下所示:
步骤501,根据预设的正则表达式提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息;相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施。
其中,针对每一目标事件对应有该目标事件多个维度的特征信息,以用于对该目标事件进行描述。例如,目标事件发生时间、目标事件等级(例如,不良事件的CTCAE分级)、目标事件所处状态(即不良事件转归状态)以及目标事件用药措施等,本实施例对于不良事件相关特征信息不做限定。
在实施中,计算机设备根据预设的正则表达式提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息;具体地,由于文本数据样本中包含对应的AE不良事件的多个维度的附加信息字段,因此,根据正则表达式的方式对文本数据样本中除不良事件的目标关键词之外的字段进行特征提取,得到该不良事件的相关特征信息。
可选地,由于对于同一目标事件(不良事件)可以有多种表达方式,例如近义词、同义词表达方式,例如,“乏力”或者“乏力加重”等表征同一不良事件,因此对于同一目标事件的正则表达式可以有多种,以减少由于不同文本数据造成的差异性,从而提高本方案的可兼容性。
可选地,针对提取出的不良事件的相关特征信息,可以通过临床试验者进行复核矫正,通过手动修改对应的正则表达式提取规则,提高提取相关特征信息的准确性。
步骤502,将目标关键词与对应的相关特征信息封装在一个数据包内,作为目标事件识别结果。
在实施中,计算机设备将目标关键词与对应的相关特征信息封装在一个数据包内,作为目标事件识别结果。
可选地,如图6所示,将每一目标关键词与对应的相关特征信息封装为一个数据包后,进行分页展示,图6中从左侧的文本数据中分别得到第一个不良事件“乏力”的不良事件识别结果,第二个不良事件“便秘”的不良事件识别结果和第三个不良事件“蛋白尿”的不良事件识别结果,针对每一识别结果进行分页展示(如图6底部分页页码1、2、3,页码1带有方框表征当前页)时,除不良事件名称外,还显示该不良事件的相关特征信息,即不良事件发生时间(图6中的开始时间),不良事件(AE)转归结果,CTC分级,用药措施(对受试者采取的措施)以及对研究药物采取的措施等,还包含一些所用药品的相关信息,本实施例对于不良事件相关特征信息不做限定。
在一个实施例中,如图7所示,基于目标对象的待处理文本数据得到的目标事件识别结果为当前目标事件识别结果,该方法还包括:
步骤701,将当前事件识别结果与同一目标对象的历史目标事件识别结果进行匹配。
在实施中,计算机设备将当前事件识别结果与同一目标对象的历史目标事件识别结果进行匹配。
例如,基于受试者A当前病历文本数据识别出的不良事件识别结果,与受试者A在一段时间以前的病历文本数据识别出的历史不良事件识别结果进行匹配,监测不良事件一对一匹配情况。
步骤702,若当前目标事件识别结果中存在与历史目标事件识别结果中不相匹配的目标事件,则将不相匹配的目标事件确定为待追踪目标事件。
在实施中,若当前目标事件识别结果中存在与历史目标事件识别结果中不相匹配的目标事件,即不能使得目标事件一一对应,则将不相匹配的目标事件确定为待追踪目标事件。例如,在当前目标事件识别结果中出现了不良事件A,但是在历史目标事件识别结果中未出现,则不良事件A即为待追踪目标事件;在当前目标事件识别结果中未出现不良事件B,但是在历史目标事件识别结果中出现过不良事件B,则不良事件B也为待追踪目标事件。
步骤703,若当前目标事件识别结果中存在与历史目标事件识别结果相匹配的目标事件且历史目标事件识别结果中相匹配的目标事件的事件结果为未结束状态,则确定目标事件为持续目标事件。
在实施中,若当前目标事件识别结果中存在与历史目标事件识别结果相匹配的目标事件,且历史目标事件识别结果中相匹配的该目标事件的事件结果为未结束状态,则确定该目标事件为持续目标事件。
例如,在当前目标事件(不良事件)识别结果中存在不良事件A,在历史目标事件识别结果中也存在不良事件A,同时,在历史目标事件识别结果中,不良事件A数据包中封装的不良事件A相关特征信息中不良事件A结果为未结束状态(例如,好转状态、恶化状态、稳定状态)则确定当前目标事件识别结果中包含的不良事件A为持续目标事件(或称为持续不良事件)。
在一个实施例中,如图8所示,待追踪事件包括新增目标事件和告警目标事件;步骤702的具体处理过程如下:
步骤801,将当前目标事件识别结果中存在而历史目标事件识别结果中不存在的目标事件确定为新增目标事件。
其中,新增目标事件作为待追踪目标事件中的一种,需要临床试验者对待新增目标事件进行关注和监测。
在实施中,作为当前目标事件识别结果与历史目标事件识别结果不相匹配的情况一,计算机设备将当前目标事件识别结果中存在而历史目标事件识别结果中不存在的目标事件确定为新增目标事件。
具体地,若当前目标事件识别结果(也称为不良事件识别结果)中存在不良事件A识别结果,而历史目标事件识别结果中不存在,则该不良事件A确定为新增目标事件。
可选地,若历史目标事件识别结果中存在与当前目标事件识别结果中目标事件相匹配的目标事件,但是在历史目标事件识别结果中该目标事件对应的事件转归结果为结束,则当前目标事件识别结果中新出现的同一名称的目标事件作为新增目标事件。
步骤802,将当前目标事件识别结果中不存在而历史目标事件识别结果中存在,且历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
其中,告警目标事件作为待追踪目标事件中的一种,需要临床试验者对待告警目标事件进行关注和监测。
在实施中,作为当前目标事件识别结果与历史目标事件识别结果不相匹配的情况二,计算机设备将当前目标事件识别结果中不存在,而历史目标事件识别结果中存在,且历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
具体地,若当前目标事件识别结果中不存在,而历史目标事件识别结果中存在不良事件A,同时显示不良事件A为未结束状态,即不良事件A的转归结果并未记录结束,但是在新一次的目标事件识别(当前目标事件识别结果)时却消失了,则该不良事件A为告警目标事件,计算机设备生成告警信息输出显示,以指示临床试验者检验是否记录遗漏。
本实施例中,通过对当前目标事件识别结果与历史目标事件识别结果的匹配,监测该目标对象所有目标事件识别结果,保证目标事件监测准确性。
应该理解的是,虽然图1-5,7-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5,7-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种事件识别装置,包括:匹配模块、定位获取模块和提取模块,其中:
匹配模块910,用于将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
定位获取模块920,用于基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本;
提取模块930,用于根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。
上述事件识别装置900,通过对目标对象文本数据中目标事件的目标关键词进行抽取以及对目标事件的相关特征信息进行提取,可以准确识别文本数据中包含的目标事件,提高目标事件识别准确性。
在一个实施例中,该事件识别装置900还包括:
获取模块,用于获取目标对象的待处理文本数据;
切分模块,用于识别待处理文本数据中的切分标识,根据切分标识对待处理文本数据进行切分处理,得到数据切分结果;
识别模块,识别每一数据切分结果中包含的符合目标词性的候选关键词。
在一个实施例中,目标事件数据库是包含目标事件实体数据的知识图谱数据库,则匹配模块910,具体用于针对每一候选关键词,计算候选关键词与知识图谱数据库中每一目标事件实体数据的相似度,得到相似度计算结果;
在相似度计算结果中确定满足相似度阈值的筛选结果,基于筛选结果对应的目标事件实体数据,将对应的候选关键词确定为目标事件对应的目标关键词。
在一个实施例中,待处理文本数据的数据切分结果包括文本数据整句和文本数据分句;文本数据整句包含文本数据分句;定位获取模块920,具体用于根据第一目标关键词所处字段位置,定位至第一目标关键词所在的目标文本数据整句;
识别目标文本数据整句中是否包含其他目标关键词;
若不包含,将目标文本数据整句,结合目标文本数据整句的前一文本数据整句和后一文本数据整句,作为第一目标关键词对应的文本数据样本;
若包含,则以第一目标关键词所处的文本数据分句作为目标文本数据整句的切分结果,将切分结果以及与切分结果相邻的文本数据整句作为第一目标关键词对应的文本数据样本;相邻的文本数据整句不包含其他目标关键词。
在一个实施例中,提取模块930,具体用于根据预设的正则表达式提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息;相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施;
将目标关键词与对应的相关特征信息封装在一个数据包内,作为目标事件识别结果。
在一个实施例中,基于目标对象的待处理文本数据得到的目标事件识别结果为当前目标事件识别结果,该事件识别装置900还包括:
匹配模块,用于将当前事件识别结果与同一目标对象的历史目标事件识别结果进行匹配;
第一确定模块,用于若当前目标事件识别结果中存在与历史目标事件识别结果中不相匹配的目标事件,则将不相匹配的目标事件确定为待追踪目标事件;
第二确定模块,用于若当前目标事件识别结果中存在与历史目标事件识别结果相匹配的目标事件且历史目标事件识别结果中相匹配的目标事件的事件结果为未结束状态,则确定目标事件为持续目标事件。
在一个实施例中,待追踪事件包括新增目标事件和告警目标事件;则第一确定模块,具体用于将当前目标事件识别结果中存在而历史目标事件识别结果中不存在的目标事件确定为新增目标事件;
将当前目标事件识别结果中不存在而历史目标事件识别结果中存在,且历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
关于事件识别装置的具体限定可以参见上文中对于事件识别方法的限定,在此不再赘述。上述事件识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种事件识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本;
根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取目标对象的待处理文本数据;
识别待处理文本数据中的切分标识,根据切分标识对待处理文本数据进行切分处理,得到数据切分结果;
识别每一数据切分结果中包含的符合目标词性的候选关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对每一候选关键词,计算候选关键词与知识图谱数据库中每一目标事件实体数据的相似度,得到相似度计算结果;
在相似度计算结果中确定满足相似度阈值的筛选结果,基于筛选结果对应的目标事件实体数据,将对应的候选关键词确定为目标事件对应的目标关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据第一目标关键词所处字段位置,定位至第一目标关键词所在的目标文本数据整句;
识别目标文本数据整句中是否包含其他目标关键词;
若不包含,将目标文本数据整句,结合目标文本数据整句的前一文本数据整句和后一文本数据整句,作为第一目标关键词对应的文本数据样本;
若包含,则以第一目标关键词所处的文本数据分句作为目标文本数据整句的切分结果,将切分结果以及与切分结果相邻的文本数据整句作为第一目标关键词对应的文本数据样本;相邻的文本数据整句不包含其他目标关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的正则表达式提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息;相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施;
将目标关键词与对应的相关特征信息封装在一个数据包内,作为目标事件识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将当前事件识别结果与同一目标对象的历史目标事件识别结果进行匹配;
若当前目标事件识别结果中存在与历史目标事件识别结果中不相匹配的目标事件,则将不相匹配的目标事件确定为待追踪目标事件;
若当前目标事件识别结果中存在与历史目标事件识别结果相匹配的目标事件且历史目标事件识别结果中相匹配的目标事件的事件结果为未结束状态,则确定目标事件为持续目标事件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将当前目标事件识别结果中存在而历史目标事件识别结果中不存在的目标事件确定为新增目标事件;
将当前目标事件识别结果中不存在而历史目标事件识别结果中存在,且历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在候选关键词中确定目标事件对应的目标关键词;候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一目标关键词所处字段位置,在目标对象的待处理文本数据中获取预设范围的文本数据样本;
根据预设的提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息,并将目标关键词与对应的相关特征信息,作为目标事件的识别结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取目标对象的待处理文本数据;
识别待处理文本数据中的切分标识,根据切分标识对待处理文本数据进行切分处理,得到数据切分结果;
识别每一数据切分结果中包含的符合目标词性的候选关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对每一候选关键词,计算候选关键词与知识图谱数据库中每一目标事件实体数据的相似度,得到相似度计算结果;
在相似度计算结果中确定满足相似度阈值的筛选结果,基于筛选结果对应的目标事件实体数据,将对应的候选关键词确定为目标事件对应的目标关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据第一目标关键词所处字段位置,定位至第一目标关键词所在的目标文本数据整句;
识别目标文本数据整句中是否包含其他目标关键词;
若不包含,将目标文本数据整句,结合目标文本数据整句的前一文本数据整句和后一文本数据整句,作为第一目标关键词对应的文本数据样本;
若包含,则以第一目标关键词所处的文本数据分句作为目标文本数据整句的切分结果,将切分结果以及与切分结果相邻的文本数据整句作为第一目标关键词对应的文本数据样本;相邻的文本数据整句不包含其他目标关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的正则表达式提取规则,在每一文本数据样本中提取目标关键词对应的相关特征信息;相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施;
将目标关键词与对应的相关特征信息封装在一个数据包内,作为目标事件识别结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将当前事件识别结果与同一目标对象的历史目标事件识别结果进行匹配;
若当前目标事件识别结果中存在与历史目标事件识别结果中不相匹配的目标事件,则将不相匹配的目标事件确定为待追踪目标事件;
若当前目标事件识别结果中存在与历史目标事件识别结果相匹配的目标事件且历史目标事件识别结果中相匹配的目标事件的事件结果为未结束状态,则确定目标事件为持续目标事件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将当前目标事件识别结果中存在而历史目标事件识别结果中不存在的目标事件确定为新增目标事件;
将当前目标事件识别结果中不存在而历史目标事件识别结果中存在,且历史目标事件识别结果中对应的目标事件结果为未结束状态的目标事件,确定为告警目标事件,生成并输出告警信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种事件识别方法,其特征在于,所述方法包括:
将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;所述预设范围根据所述目标关键词和所述目标关键词在历史文本数据中描述范围的统计结果得到;
根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果;
其中,所述待处理文本数据的数据切分结果包括文本数据整句和文本数据分句;所述文本数据整句包含所述文本数据分句;则所述基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本,包括:
根据第一目标关键词所处字段位置,定位至所述第一目标关键词所在的目标文本数据整句;
识别所述目标文本数据整句中是否包含其他目标关键词;
若不包含,将所述目标文本数据整句,结合所述目标文本数据整句的前一文本数据整句和后一文本数据整句,作为所述第一目标关键词对应的文本数据样本;
若包含,则以所述第一目标关键词所处的文本数据分句作为所述目标文本数据整句的切分结果,将所述切分结果以及与所述切分结果相邻的文本数据整句作为所述第一目标关键词对应的文本数据样本;所述相邻的文本数据整句不包含其他目标关键词。
2.根据权利要求1所述的方法,其特征在于,在所述将候选关键词与目标事件数据库中目标事件实体数据进行匹配之前,所述方法还包括:
获取目标对象的待处理文本数据;
识别所述待处理文本数据中的切分标识,根据所述切分标识对所述待处理文本数据进行切分处理,得到数据切分结果;
识别每一所述数据切分结果中包含的符合目标词性的候选关键词。
3.根据权利要求1所述的方法,其特征在于,所述目标事件数据库是包含所述目标事件实体数据的知识图谱数据库,所述将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词,包括:
针对每一候选关键词,计算所述候选关键词与所述知识图谱数据库中每一所述目标事件实体数据的相似度,得到相似度计算结果;
在所述相似度计算结果中确定满足相似度阈值的筛选结果,基于所述筛选结果对应的所述目标事件实体数据,将对应的所述候选关键词确定为所述目标事件对应的目标关键词。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果,包括:
根据预设的正则表达式提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息;所述相关特征信息包括目标事件发生时间、目标事件等级、目标事件所处状态和目标事件处理措施;
将所述目标关键词与对应的所述相关特征信息封装在一个数据包内,作为所述目标事件识别结果。
5.根据权利要求1所述的方法,其特征在于,基于所述目标对象的待处理文本数据得到的所述目标事件的识别结果为当前目标事件识别结果,所述方法还包括:
将所述当前目标事件识别结果与同一所述目标对象的历史目标事件识别结果进行匹配;
若所述当前目标事件识别结果中存在与所述历史目标事件识别结果中不相匹配的目标事件,则将所述不相匹配的目标事件确定为待追踪目标事件;
若所述当前目标事件识别结果中存在与所述历史目标事件识别结果相匹配的目标事件且所述历史目标事件识别结果中相匹配的所述目标事件的事件结果为未结束状态,则确定所述目标事件为持续目标事件。
6.根据权利要求5所述的方法,其特征在于,所述待追踪目标事件包括新增目标事件和告警目标事件;所述若所述当前目标事件识别结果中存在与所述历史目标事件识别结果中不相匹配的目标事件,则将所述不相匹配的目标事件确定为待追踪目标事件,包括:
将所述当前目标事件识别结果中存在而所述历史目标事件识别结果中不存在的目标事件确定为新增目标事件;
将所述当前目标事件识别结果中不存在而所述历史目标事件识别结果中存在,且所述历史目标事件识别结果中对应的目标事件的事件结果为未结束状态,确定目标事件为告警目标事件,生成并输出告警信息。
7.一种事件识别装置,其特征在于,所述装置包括:
匹配模块,用于将候选关键词与目标事件数据库中目标事件实体数据进行匹配,在所述候选关键词中确定目标事件对应的目标关键词;所述候选关键词是对目标对象的待处理文本数据进行关键词提取得到;
定位获取模块,用于基于每一所述目标关键词所处字段位置,在所述目标对象的待处理文本数据中获取预设范围的文本数据样本;所述预设范围根据所述目标关键词和所述目标关键词在历史文本数据中描述范围的统计结果得到;
提取模块,用于根据预设的提取规则,在每一所述文本数据样本中提取所述目标关键词对应的相关特征信息,并将所述目标关键词与对应的所述相关特征信息,作为所述目标事件的识别结果;
其中,所述待处理文本数据的数据切分结果包括文本数据整句和文本数据分句;所述文本数据整句包含所述文本数据分句;
则所述定位获取模块具体用于根据第一目标关键词所处字段位置,定位至所述第一目标关键词所在的目标文本数据整句;
识别所述目标文本数据整句中是否包含其他目标关键词;
若不包含,将所述目标文本数据整句,结合所述目标文本数据整句的前一文本数据整句和后一文本数据整句,作为所述第一目标关键词对应的文本数据样本;
若包含,则以所述第一目标关键词所处的文本数据分句作为所述目标文本数据整句的切分结果,将所述切分结果以及与所述切分结果相邻的文本数据整句作为所述第一目标关键词对应的文本数据样本;所述相邻的文本数据整句不包含其他目标关键词。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174948.9A CN112908488B (zh) | 2021-02-09 | 2021-02-09 | 事件识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174948.9A CN112908488B (zh) | 2021-02-09 | 2021-02-09 | 事件识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908488A CN112908488A (zh) | 2021-06-04 |
CN112908488B true CN112908488B (zh) | 2022-03-11 |
Family
ID=76122891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174948.9A Active CN112908488B (zh) | 2021-02-09 | 2021-02-09 | 事件识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908488B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544214B (zh) * | 2022-12-02 | 2023-06-23 | 广州数说故事信息科技有限公司 | 一种事件处理方法、设备及计算机可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021404A (en) * | 1997-08-18 | 2000-02-01 | Moukheibir; Nabil W. | Universal computer assisted diagnosis |
CN103294666B (zh) * | 2013-05-28 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 语法编译方法、语义解析方法以及对应装置 |
US10296616B2 (en) * | 2014-07-31 | 2019-05-21 | Splunk Inc. | Generation of a search query to approximate replication of a cluster of events |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109887596A (zh) * | 2019-02-18 | 2019-06-14 | 广州天鹏计算机科技有限公司 | 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备 |
CN111312347A (zh) * | 2020-02-03 | 2020-06-19 | 卫宁健康科技集团股份有限公司 | 医疗不良事件线索识别方法、装置、电子设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN111627536A (zh) * | 2020-05-14 | 2020-09-04 | 广元市中心医院 | 一种用于医院的不良事件管理系统和管理方法 |
CN111522919A (zh) * | 2020-05-21 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 一种文本处理方法、电子设备和存储介质 |
-
2021
- 2021-02-09 CN CN202110174948.9A patent/CN112908488B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112908488A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112071425B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN109346145B (zh) | 一种药物不良反应的主动监测方法和系统 | |
CN109887596A (zh) | 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备 | |
CN108920453A (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
CN111341456B (zh) | 糖尿病足知识图谱生成方法、装置及可读存储介质 | |
Porturas et al. | Forty years of emergency medicine research: Uncovering research themes and trends through topic modeling | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
CN109036508B (zh) | 一种中医医疗信息处理方法、装置、计算机设备和存储介质 | |
CN112015900A (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
WO2021151302A1 (zh) | 基于机器学习的药品质控分析方法、装置、设备及介质 | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
Erraguntla et al. | Inference of missing ICD 9 codes using text mining and nearest neighbor techniques | |
Kim et al. | Extraction of left ventricular ejection fraction information from various types of clinical reports | |
EP3844764A1 (en) | Selecting a treatment for a patient | |
CN111180086A (zh) | 数据匹配方法、装置、计算机设备和存储介质 | |
CN116383413B (zh) | 基于医疗数据提取的知识图谱更新方法和系统 | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
CN112908488B (zh) | 事件识别方法、装置、计算机设备和存储介质 | |
CN113871018A (zh) | 基于元数据模型的医疗数据治理方法、系统、计算机设备 | |
CN114548100A (zh) | 一种基于大数据技术的临床科研辅助方法与系统 | |
CN111177309A (zh) | 病历数据的处理方法及装置 | |
JP2022504508A (ja) | モデル支援型事象予測のためのシステム及び方法 | |
CN114021563A (zh) | 医疗信息中数据的抽取方法、装置、设备和存储介质 | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
CN110727711A (zh) | 基金数据库中异常数据检测方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240701 Address after: 200001 room 505, building a, No. 299, Danshui Road, Huangpu District, Shanghai Patentee after: Shanghai yaomingjinshi Pharmaceutical Technology Co.,Ltd. Country or region after: China Address before: Unit 807, 8 / F, building 1, 3 Chaowai West Street, Chaoyang District, Beijing 100020 Patentee before: Beijing yaomingjinshi Pharmaceutical Technology Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |